国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于網(wǎng)頁分類信息的對(duì)象分類方法和系統(tǒng)的制作方法

      文檔序號(hào):6354634閱讀:550來源:國(guó)知局
      專利名稱:一種基于網(wǎng)頁分類信息的對(duì)象分類方法和系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本申請(qǐng)一般涉及與信息處理和信息抽取相關(guān)的技術(shù),更具體地,涉及利用基于因特網(wǎng)上的網(wǎng)頁分類信息的對(duì)象分類方法和系統(tǒng)。
      背景技術(shù)
      在現(xiàn)有技術(shù)中,存在如下一些相關(guān)的技術(shù) I、從網(wǎng)站中抽取層次(Hierarchy extraction from the websites,G06F001700,20091231,NEC(CHINA)CO.,LTD.)現(xiàn)有的從網(wǎng)站中抽取層次的技術(shù)中提供了一種構(gòu)建對(duì)象層次的方法和系統(tǒng),該方法包括從一個(gè)網(wǎng)站中獲取一系列網(wǎng)頁,對(duì)這些網(wǎng)頁進(jìn)行inter-page (頁面間)分析來抽取這些網(wǎng)頁的層次;進(jìn)行intra-page (頁面內(nèi))分析來標(biāo)識(shí)網(wǎng)頁內(nèi)的語義區(qū)塊,并且得到所有網(wǎng)頁的語義區(qū)塊層次;然后根據(jù)網(wǎng)頁的層次,來融合這些語義塊的層次,以便于生成相應(yīng)的分層。分析首先,該技術(shù)將一個(gè)網(wǎng)頁映射成一個(gè)對(duì)象(inter-);因?yàn)榫W(wǎng)頁的樹結(jié)構(gòu)而使對(duì)象具有層次結(jié)構(gòu);然后使用相似的網(wǎng)頁(intra-)來改善此對(duì)象的層次;該方法基于全頁面映射來得到對(duì)象的分類信息,與本申請(qǐng)的方法有根本的不同。2、TaxaMiner : — 個(gè)自動(dòng)分類自舉的實(shí)驗(yàn)框架(An ExperimentationFrameworkfor Automated Taxonomy Bootstrapping,V Kashyap, . . . ClinicalInformation R&D,Partners HealthCare System)該現(xiàn)有技術(shù)的思路包括(a)文檔簇層次的生成;(b)從這些簇層次中抽取主題分層;(C)對(duì)主題層次中的節(jié)點(diǎn)進(jìn)行標(biāo)注。他們采納了一系列聚類和自然語言處理相關(guān)的技術(shù),以及從實(shí)驗(yàn)框架中得到的標(biāo)識(shí)參數(shù);同時(shí)提供一種度量來測(cè)試主題簇的質(zhì)量,并且評(píng)估不同的參數(shù)對(duì)質(zhì)量矩陣帶來的影響。分析該方法是從純文本中得到分類信息,方法和數(shù)據(jù)源與本申請(qǐng)都明顯不同。3、一個(gè)基于分類的從數(shù)據(jù)密集型網(wǎng)站中自動(dòng)抽取數(shù)據(jù)的爬蟲(ATaxonomyBased Crawler for Automated Data Extraction from Data-IntensiveWebsites,H. Davulcu, ...Department of Computer Science and Engineering, Arizona stateUniv.)這種現(xiàn)有技術(shù)采用啟發(fā)式規(guī)則來發(fā)現(xiàn)如下結(jié)構(gòu)中的結(jié)構(gòu)化規(guī)律分類塊、產(chǎn)品列表以及單產(chǎn)品頁面;這些規(guī)律被用于將在線目錄轉(zhuǎn)換成分類產(chǎn)品數(shù)據(jù)庫,這種轉(zhuǎn)換不需要人為參與以及額外的封裝維護(hù)負(fù)擔(dān)。上述現(xiàn)有技術(shù)從一個(gè)大型的網(wǎng)站首頁獲取分類信息入口,這些分類信息是一個(gè)很大的集合但并不具備精細(xì)的層次信息;同時(shí),該文檔使用的方式本身也與本申請(qǐng)有明顯的不同。
      如我們對(duì)上述每篇參考文獻(xiàn)的分析,我們?cè)跈?quán)利說明中提到的技術(shù)與它們有明顯的區(qū)別。此外,本申請(qǐng)采用綜合因素來抽取網(wǎng)頁中的具有層次的分類信息,這些因素有 節(jié)點(diǎn)序列模式匹配和節(jié)點(diǎn)位置等的計(jì)算方法,這些能夠從單網(wǎng)頁中得到更精確和有用的分類信息?;趫D的方法來集成多個(gè)從不同網(wǎng)頁而來的分類信息,并且得到單對(duì)象的確切分類信息,用于構(gòu)建對(duì)象庫;對(duì)異構(gòu)的網(wǎng)頁來說,更具合理性?,F(xiàn)有許多包括分類信息的網(wǎng)頁,如產(chǎn)品聲明等,這些分類信息是按人類知識(shí)來組織的,因此對(duì)詞典、本體以及對(duì)象數(shù)據(jù)庫的構(gòu)建非常有用。當(dāng)前的分類信息都是人(專家)來搜集并整理的,這樣非常耗時(shí)耗力。正因?yàn)楝F(xiàn)有的網(wǎng)頁分類信息包含了人的知識(shí),因此提供了精確發(fā)現(xiàn)對(duì)象之間關(guān)系的可能的途徑,如產(chǎn)品之間的關(guān)系。但是網(wǎng)頁包含了許多噪聲,以及不同網(wǎng)頁是異構(gòu)的,即 使是對(duì)同一種對(duì)象來說,不同網(wǎng)站的表現(xiàn)形式也是多樣的。如何抽取這些分類信息并集成它們是本發(fā)明的目的。

      發(fā)明內(nèi)容
      本發(fā)明的另外方面和優(yōu)點(diǎn)部分將在后面的描述中闡述,還有部分可從描述中明顯地看出,或者可以在本發(fā)明的實(shí)踐中得到。本發(fā)明的應(yīng)用領(lǐng)域通常包括構(gòu)建對(duì)象庫,并根據(jù)分類信息來分類和索引文檔。本發(fā)明提供了一種新的通過層次鏈和對(duì)象標(biāo)識(shí)符來自動(dòng)對(duì)網(wǎng)頁中對(duì)象進(jìn)行分類的方法?,F(xiàn)在這些分類信息被用來分類對(duì)象,更進(jìn)一步,來為對(duì)象庫構(gòu)建分類樹。為了達(dá)到以上目的,我們采用了一種具有6個(gè)步驟的創(chuàng)新的方法來從網(wǎng)頁中獲取分類信息。本申請(qǐng)?zhí)峁┮环N基于網(wǎng)頁分類信息的對(duì)象分類方法,包括以下步驟將每個(gè)單網(wǎng)頁的HTML文檔對(duì)象模型DOM樹轉(zhuǎn)換成特定的包含渲染結(jié)果的可擴(kuò)展標(biāo)記語言XML樹;從每個(gè)所述XML樹中抽取對(duì)象的標(biāo)識(shí)符;從每個(gè)所述XML樹中抽取單層次鏈;將來自不同單網(wǎng)頁的多個(gè)單層次鏈集成為一棵有向樹;以及根據(jù)單網(wǎng)頁的對(duì)象標(biāo)識(shí)符和單層次鏈,從所述有向樹得到此對(duì)象的分類信息。本申請(qǐng)還提供一種基于網(wǎng)頁分類信息的對(duì)象分類系統(tǒng),包括預(yù)處理模塊,用于通過轉(zhuǎn)換處理將單網(wǎng)頁的HTML文檔對(duì)象模型DOM樹轉(zhuǎn)換成特定的包含渲染結(jié)果的可擴(kuò)展標(biāo)記語言XML樹;對(duì)象標(biāo)識(shí)符抽取模塊,用于每個(gè)從所述XML樹中抽取對(duì)象的標(biāo)識(shí)符;單層次鏈抽取模塊,用于從每個(gè)所述XML樹中抽取單層次鏈;多鏈集成模塊,用于將來自不同網(wǎng)頁的多個(gè)單層次鏈集成為一棵有向樹;和對(duì)象分類模塊,用于根據(jù)單網(wǎng)頁的對(duì)象標(biāo)識(shí)符和單層次鏈,從所述有向樹得到此對(duì)象的分類信息。


      通過結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,本發(fā)明的上述和其他目的、特性和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中相同的標(biāo)號(hào)指定相同結(jié)構(gòu)的單元,并且在其中圖I示出了對(duì)象的一個(gè)示例。
      圖2列舉了一個(gè)有關(guān)對(duì)象分類信息以及相對(duì)應(yīng)的網(wǎng)頁內(nèi)容的例子。圖3是根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)的框圖。圖4是根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)的示例性PC系統(tǒng)環(huán)境的構(gòu)架示意圖。圖5示出了根據(jù)本發(fā)明實(shí)施例的對(duì)象分類方法的流程圖。圖6示出了節(jié)點(diǎn)結(jié)構(gòu)的一個(gè)示例。圖7示出了圖5的預(yù)處理步驟SlOl的具體實(shí)施。
      圖8示出了圖5的抽取對(duì)象標(biāo)識(shí)符步驟S102的流程圖。圖9示出了根據(jù)本發(fā)明實(shí)施例的圖3的系統(tǒng)中的對(duì)象標(biāo)識(shí)抽取模塊102的示意性實(shí)現(xiàn)方框圖。圖10示出了圖5的抽取單層次鏈步驟S103的流程圖。圖11是根據(jù)本發(fā)明實(shí)施例的節(jié)點(diǎn)過濾示意圖。圖12表達(dá)了根據(jù)本發(fā)明實(shí)施例的模式匹配的過程。圖13示出了根據(jù)本發(fā)明實(shí)施例的圖3的系統(tǒng)中的單層次鏈抽取模塊103的示意性實(shí)現(xiàn)方框圖。圖14示出了根據(jù)本發(fā)明實(shí)施例的節(jié)點(diǎn)結(jié)構(gòu)。圖15示出了根據(jù)本發(fā)明實(shí)施例的合并新來的單層次鏈的過程的流程圖。圖16示出了根據(jù)本發(fā)明實(shí)施例的樹的形成的示意圖。圖17示出了根據(jù)本發(fā)明實(shí)施例的圖3的系統(tǒng)中的多鏈集成模塊104的示意性實(shí)現(xiàn)方框圖。圖18示出了根據(jù)本發(fā)明實(shí)施例查找對(duì)象的示例。圖19示出了根據(jù)本發(fā)明實(shí)施例的圖3的系統(tǒng)中的對(duì)象分類模塊105的示意性實(shí)現(xiàn)方框圖。
      具體實(shí)施例方式下面將參照示出本發(fā)明實(shí)施例的附圖充分描述本發(fā)明。然而,本發(fā)明可以以許多不同的形式實(shí)現(xiàn),而不應(yīng)當(dāng)認(rèn)為限于這里所述的實(shí)施例。相反,提供這些實(shí)施例以便使本公開透徹且完整,并且將向本領(lǐng)域技術(shù)人員充分表達(dá)本發(fā)明的范圍。在附圖中,為了清楚起見放大了組件。除非另有定義,這里使用的所有術(shù)語(包括技術(shù)和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域的普通技術(shù)人員共同理解的相同含義。還應(yīng)當(dāng)理解,諸如在通常字典里定義的那些術(shù)語應(yīng)當(dāng)被解釋為具有與它們?cè)谙嚓P(guān)技術(shù)的上下文中的含義相一致的含義,而不應(yīng)用理想化或極度形式化的意義來解釋,除非這里明確地這樣定義。這里參照支持根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的方框圖和流程圖描述本發(fā)明示例性實(shí)施例。應(yīng)當(dāng)理解,流程圖和/或方框圖的每個(gè)方框以及流程圖和/或方框圖的方框組合可以通過計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器執(zhí)行的指令創(chuàng)建實(shí)現(xiàn)流程圖和/或方框圖方框中指定功能/動(dòng)作的手段。這些計(jì)算機(jī)程序指令也可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)器中,可以引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置以特定方式運(yùn)行,使得存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括實(shí)現(xiàn)流程圖和/或方框圖方框中指定功能/動(dòng)作的指令手段的制造物品。計(jì)算機(jī)程序指令還可以加載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置上,導(dǎo)致在計(jì)算機(jī)或其他可編程裝置上執(zhí)行一系列操作步驟來產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,使得計(jì)算機(jī)或其他可編程裝置上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或方框圖方框中指定功能/動(dòng)作的步驟。每個(gè)方框可以表示代碼模塊、片斷或部分,其包括一個(gè)或多個(gè)用來實(shí)現(xiàn)指定邏輯功能的可執(zhí)行指令。還應(yīng)當(dāng)注意,在其他實(shí)現(xiàn)中,方框中標(biāo)出的功能可能不按圖中標(biāo)出的順序發(fā)生。例如,根據(jù)所涉及的功能,連續(xù)示出的兩個(gè)方框可能實(shí)際上基本上并發(fā)地執(zhí)行,或者方框有時(shí)可能以相反的順序執(zhí)行。本發(fā)明的目的是提供一種從單網(wǎng)中抽取對(duì)象分類信息的方法和步驟,這些網(wǎng)頁主 要描述單個(gè)對(duì)象,如一個(gè)產(chǎn)品。但本領(lǐng)域技術(shù)人員應(yīng)該理解,本發(fā)明也可以應(yīng)用于其他目標(biāo)網(wǎng)頁。對(duì)術(shù)語“對(duì)象”來說,它意味著一個(gè)結(jié)構(gòu)化的概念,由標(biāo)識(shí)符、分類以及一些屬性組成,對(duì)應(yīng)于現(xiàn)實(shí)世界中的對(duì)象。例如一個(gè)對(duì)象叫做“Apple iPhone4 16G”。圖I示出了對(duì)象的一個(gè)示例,其包括了分類smartphone、標(biāo)識(shí)符AppleiPhone 4 16G、以及一些屬性width、price 等。對(duì)于術(shù)語“分類”來說,它是一個(gè)可控的詞匯集合,其結(jié)構(gòu)是層次化的。分類信息由分類單元組成,稱之為分類子(單一分類單元),經(jīng)常表現(xiàn)為層次結(jié)構(gòu)中的某一層,一般可以體現(xiàn)父子之間的關(guān)系。在圖I中,分類是“smartphone”并且它是分類信息中的一個(gè)分類單元。我們可以從適當(dāng)?shù)木W(wǎng)頁中得到以下內(nèi)容,如Home》Reviews》Smartpoes》Apple smartphones》Appe IPhone4-16GB-black(AT&T)在一系列的預(yù)處理和正規(guī)化后,以上內(nèi)容中的分類信息可以為Smartphone — Apple smartphone — Apple iPhone 4 16G。因?yàn)榫W(wǎng)頁的異構(gòu)化,達(dá)到以下目的是困難的在沒有領(lǐng)域知識(shí)的情況下,從含大量噪聲的網(wǎng)頁中發(fā)現(xiàn)分類信息;即使是對(duì)同一種對(duì)象來說,層次信息的表現(xiàn)也是多樣化的。本發(fā)明提供一種在沒有領(lǐng)域知識(shí)的情況下自動(dòng)抽取分類信息并構(gòu)建分類樹的方法。圖2列舉了一個(gè)有關(guān)對(duì)象分類信息以及相對(duì)應(yīng)的網(wǎng)頁內(nèi)容的例子。在圖2中,左邊是我們的目標(biāo),對(duì)象分類信息樹,而右邊是對(duì)應(yīng)的一段HTML內(nèi)容,其中包含了此對(duì)象(PowerShot SXlO IS)的分類信息。我們希望發(fā)現(xiàn)這些區(qū)塊并從中抽取此對(duì)象的層次鏈,并且與從不同頁面來的鏈進(jìn)行自動(dòng)而有效的合并。圖3是根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)的框圖。該系統(tǒng)包括預(yù)處理模塊101、對(duì)象標(biāo)識(shí)符抽取模塊102、單層次鏈抽取模塊103、多鏈集成模塊104、對(duì)象分類模塊105、以及抽取提升模塊106。所有的這些模塊能夠形成一個(gè)循環(huán)來持續(xù)的改進(jìn)并豐富分類信息。預(yù)處理模塊101 :將單個(gè)網(wǎng)頁的 HTML DOM (Hyper Text Mark-upLanguageDocument Object Model超文本標(biāo)記語言文檔對(duì)象模型)樹轉(zhuǎn)換成包含渲染信息的特殊XML(Extensible Markup Language可擴(kuò)展標(biāo)記語言)樹,這顆樹是以下模塊102和103的輸入。對(duì)象標(biāo)識(shí)符抽取模塊102 :從網(wǎng)頁中抽取對(duì)象的標(biāo)識(shí)符,該對(duì)象的標(biāo)識(shí)符將被用于分類信息查找以及在分類樹中的定位;單鏈抽取模塊103 :這是本發(fā)明的核心模塊,用于發(fā)現(xiàn)分類區(qū)塊并且從特定的XML樹中抽取層次鏈;多鏈集成模塊104 :合并多個(gè)層次鏈并根據(jù)一些規(guī)則形成分類樹;對(duì)象分類模塊105 :根據(jù)對(duì)象的標(biāo)識(shí)符以及層次鏈,從分類樹中得到對(duì)象的精確分類; 抽取提升模塊106 :最后得到的分類樹可以用來提高從新網(wǎng)頁抽取分類信息的精度。以上所有模塊都可由位于計(jì)算機(jī)中的基于CPU的軟件來實(shí)現(xiàn),該軟件部署于PC系統(tǒng)中,其硬件結(jié)構(gòu)如圖4所示。圖4是根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)的示例性PC系統(tǒng)環(huán)境的構(gòu)架不意圖。應(yīng)當(dāng)注意,在上述系統(tǒng)的實(shí)現(xiàn)中,方框中標(biāo)出的功能可能不按圖中標(biāo)出的順序發(fā)生。例如,根據(jù)所涉及的功能,連續(xù)示出的兩個(gè)方框可能實(shí)際上基本上并發(fā)地執(zhí)行,或者方框有時(shí)可能以相反的順序執(zhí)行。圖5示出了根據(jù)本發(fā)明實(shí)施例的對(duì)象分類方法的流程圖。在圖5中包括如下步驟預(yù)處理S101、對(duì)象標(biāo)識(shí)符抽取S102、單層次鏈抽取S103、把多個(gè)層次鏈集成為一棵樹S104、得到對(duì)象的分類信息S105、以及根據(jù)分類樹來提高抽取精度S106。對(duì)每個(gè)步驟來說都有相應(yīng)的輸入輸出,如圖5所示,灰色方框表示對(duì)象分類方法的步驟;而白色方框指代輸入或輸出的結(jié)果。應(yīng)當(dāng)注意,在圖5方法的實(shí)現(xiàn)中,方框中標(biāo)出的功能可能不按圖中標(biāo)出的順序發(fā)生。例如,根據(jù)所涉及的功能,連續(xù)示出的兩個(gè)方框可能實(shí)際上基本上并發(fā)地執(zhí)行,或者方框有時(shí)可能以相反的順序執(zhí)行。在圖5中,每個(gè)模塊都執(zhí)行與圖3的系統(tǒng)方框中的相對(duì)應(yīng)模塊對(duì)應(yīng)的主要步驟,如下V預(yù)處理模塊101 :執(zhí)行步驟“預(yù)處理” SlOl ;V對(duì)象標(biāo)識(shí)符抽取模塊102 :執(zhí)行步驟“抽取對(duì)象標(biāo)識(shí)符” S102 ;V單層次鏈抽取模塊103 :執(zhí)行步驟“抽取單層次鏈” S103 ;V多鏈集成模塊104 :執(zhí)行步驟“集成多鏈成樹” S104 ;V對(duì)象分類模塊105 :執(zhí)行步驟“得到對(duì)象的分類” S105 ;V抽取提升模塊106 :執(zhí)行步驟“根據(jù)分類樹來提升抽取結(jié)果” S106 ;以上所有步驟都由位于計(jì)算機(jī)中的基于CPU的軟件來實(shí)現(xiàn),其硬件結(jié)構(gòu)如圖4所
      /Jn ο在以下具體實(shí)現(xiàn)中,將參照?qǐng)D6-圖18分別描述對(duì)象分類方法的各個(gè)步驟的具體實(shí)現(xiàn)。在以下的實(shí)現(xiàn)中,僅僅是示例性的,本領(lǐng)域技術(shù)人員應(yīng)該理解,步驟順序的變動(dòng)或根據(jù)本實(shí)現(xiàn)進(jìn)行的類似修改都在本申請(qǐng)的范圍內(nèi)。在因特網(wǎng)中,產(chǎn)品描述數(shù)據(jù)的規(guī)模是非常大的,這些描述可能是產(chǎn)品規(guī)格聲明、廣告、產(chǎn)品發(fā)布新聞或者用戶評(píng)論,一個(gè)單獨(dú)的文檔一般主要描述一個(gè)特定的對(duì)象,這個(gè)對(duì)象由標(biāo)識(shí)符和具有值的屬性組成。自然而然,人們組織和提及這些對(duì)象時(shí),使用它的名字或者加上相應(yīng)的生產(chǎn)商。從人類的角度來看,從網(wǎng)頁識(shí)別并分類這些對(duì)象不是一個(gè)大的問題,但是對(duì)機(jī)器來說,就是另外一回事了。一般來說,我們想知道I.是哪一種對(duì)象(該對(duì)象屬于什么分類);2.對(duì)構(gòu)建對(duì)象庫來說,具有層次化結(jié)構(gòu)的分類才好用。如上所述,如果能夠得到某些網(wǎng)頁的分類信息,那么它可以被上述兩個(gè)目標(biāo)使用。問題在于網(wǎng)頁是帶有大量無用信息的半結(jié)構(gòu)化數(shù)據(jù),非常難以被機(jī)器理解和分析。另一個(gè)問題是對(duì)同一對(duì)象來說,層次 信息的表現(xiàn)形式也是多樣的。對(duì)產(chǎn)品信息而言,雖然現(xiàn)存一些分類信息,但是對(duì)新出現(xiàn)的產(chǎn)品就無能為力了。當(dāng)然,如果人工創(chuàng)建這些分類庫是相對(duì)比較精確的,但絕對(duì)是耗時(shí)耗力的。本發(fā)明提出一種從網(wǎng)頁中自動(dòng)抽取分類信息并用來分類對(duì)象的方法,最后這些信息被用來持續(xù)的構(gòu)建分類庫。本方法包括接下來的所有步驟。首先,我們定義一個(gè)概念節(jié)點(diǎn),它是一棵樹中的一個(gè)結(jié)構(gòu)單元,由一些成員構(gòu)成。基本上來說,原始的節(jié)點(diǎn)內(nèi)容來自于HTML DOM樹,當(dāng)然有些內(nèi)容會(huì)被刪除,有時(shí)則可以被一些計(jì)算過的結(jié)果所補(bǔ)充。圖6示出了節(jié)點(diǎn)結(jié)構(gòu)的一個(gè)示例。圖6的右半部即可看作為一棵簡(jiǎn)單的樹,下文中的特定樹的結(jié)構(gòu)與之類似。圖6的左半部給出了節(jié)點(diǎn)名以及節(jié)點(diǎn)的一些
      屬性等。下文中,將結(jié)合圖7描述根據(jù)本發(fā)明實(shí)施例的預(yù)處理步驟的實(shí)現(xiàn)。圖7示出了圖5的預(yù)處理步驟SlOl的具體實(shí)施。來自網(wǎng)頁的DOM樹包含大量的無用信息,本發(fā)明的目標(biāo)是對(duì)象標(biāo)識(shí)符和分類信息,僅僅是DOM樹中的部分文本節(jié)點(diǎn)。所以預(yù)處理步驟的目的是從復(fù)雜的DOM樹中得到一棵簡(jiǎn)化的樹,并且新增該樹中沒有的渲染結(jié)果?;旧希A(yù)處理步驟輸出的特定XML樹的框架結(jié)構(gòu)與輸入的DOM樹類似。但是由于以下原因,可能需要進(jìn)行大量的節(jié)點(diǎn)刪減1)為了縮減節(jié)點(diǎn)規(guī)模;2)許多節(jié)點(diǎn)的內(nèi)容對(duì)于XML語法來說是非法的。刪除規(guī)則為例如,可以根據(jù)專家的經(jīng)驗(yàn)生成的可配置文件中得到的列表名單確定刪除哪些名稱的節(jié)點(diǎn),這些節(jié)點(diǎn)名例如可能包括“SCRIPT”、“INPUT”、“META”等等。但本領(lǐng)域技術(shù)人員應(yīng)該理解,對(duì)于不同的具體任務(wù),可以確定不同的列表。另外,一個(gè)冗余信息是HTML中大量的屬性集合,對(duì)我們的算法來說,絕大部分從DOM樹中而來的屬性都是無用可以被忽略的,除了 “HREF” (hypertext reference超鏈接)可用以外,因此,只有它在輸出XML樹中被保留。另外一種可選的方案是所有的從DOM樹中來的節(jié)點(diǎn)都被保留,但是上述要?jiǎng)h除的節(jié)點(diǎn)的權(quán)重被置為O。對(duì)節(jié)點(diǎn)的可視信息來說,我們從頁面的渲染結(jié)果中得到,并作為元素保留到輸出樹中,如絕對(duì)位置和字體等;渲染工作可以由現(xiàn)有的網(wǎng)頁瀏覽器核心來完成,如Gecko、WebKit、Trident、Presto等。此外,也可以采用其他現(xiàn)有或?qū)沓霈F(xiàn)的技術(shù)來進(jìn)行渲染工作。為了在一種聯(lián)合模型中同樣對(duì)待整棵樹中的所有節(jié)點(diǎn),我們按以下方法對(duì)輸出的XML進(jìn)行優(yōu)化調(diào)整如果一個(gè)節(jié)點(diǎn)沒有值,而且只有一個(gè)文本孩子節(jié)點(diǎn),那么,將該文本看成父的值,并且從輸出樹中移除該文本孩子節(jié)點(diǎn)。如圖7所示,節(jié)點(diǎn)t和s只有一個(gè)文本孩子節(jié)點(diǎn),且該節(jié)點(diǎn)沒有值,因此,移除它們的文本孩子節(jié)點(diǎn),并將該文本看成t和s的值。預(yù)處理步驟的輸出是一棵包含特定節(jié)點(diǎn)的XML樹,它們將是接下來步驟的輸入。下面,將參考圖8描述根據(jù)本發(fā)明實(shí)施例的抽取對(duì)象標(biāo)識(shí)符步驟的實(shí)現(xiàn)。圖8示出了圖5的抽取對(duì)象標(biāo)識(shí)符步驟S102的流程圖。應(yīng)當(dāng)注意,在以下實(shí)現(xiàn)中,方框中標(biāo)出的功能可能不按圖中標(biāo)出的順序發(fā)生。例如,根據(jù)所涉及的功能,連續(xù)示出的兩個(gè)方框可能實(shí)際上基本上并發(fā)地執(zhí)行,或者方框有時(shí)可能以相反的順序執(zhí)行。以下,針對(duì)目標(biāo)網(wǎng)頁是“詳細(xì)描述網(wǎng)頁”,即,假定每個(gè)網(wǎng)頁只描述一個(gè)對(duì)象的情況進(jìn)行舉例說明,并且被步驟SlOl所處理過,其形式變成了一棵樹。但本領(lǐng)域技術(shù)人員應(yīng)該理解,本發(fā)明也可以應(yīng)用于其他目標(biāo)網(wǎng)頁。首先,這個(gè)對(duì)象會(huì)被一個(gè)文本元素所標(biāo)識(shí),從樹中抽取該標(biāo)識(shí)符的方法由以下步驟組成在步驟S801過濾掉不可能的節(jié)點(diǎn)本步驟的輸入為XML樹中的所有節(jié)點(diǎn),如果某個(gè)節(jié)點(diǎn)的值過于長(zhǎng),或過于短,這些節(jié)點(diǎn)將不會(huì)被考慮,長(zhǎng)度的閾值可以憑經(jīng)驗(yàn)設(shè)置;另外一個(gè)因素是停用標(biāo)簽集合,如果任何一個(gè)節(jié)點(diǎn)的名字在此集合中,則被忽略。經(jīng)過此步驟,候選節(jié)點(diǎn)會(huì)被生成。在步驟S802計(jì)算可視化分值對(duì)可視信息來說,兩種因素被考慮一個(gè)是絕對(duì)位置坐標(biāo),一個(gè)是字體信息。其中,一種位置計(jì)算的方法例如為二維高斯函數(shù),其公式為
      權(quán)利要求
      1.一種基于網(wǎng)頁分類信息的對(duì)象分類方法,包括以下步驟 a)將每個(gè)單網(wǎng)頁的HTML文檔對(duì)象模型DOM樹轉(zhuǎn)換成特定的包含渲染結(jié)果的可擴(kuò)展標(biāo)記語言XML樹; b)從每個(gè)所述XML樹中抽取對(duì)象的標(biāo)識(shí)符; c)從每個(gè)所述XML樹中抽取單層次鏈; d)將來自不同單網(wǎng)頁的多個(gè)單層次鏈集成為一棵有向樹;以及 e)根據(jù)單網(wǎng)頁的對(duì)象標(biāo)識(shí)符和單層次鏈,從所述有向樹得到此對(duì)象的分類信息。
      2.根據(jù)權(quán)利要求I所述的方法,進(jìn)一步包括f):基于所述有向樹從更多的網(wǎng)頁中得到分類信息,并將之加入到有向樹中。
      3.根據(jù)權(quán)利要求I所述的方法,其中步驟a)進(jìn)一步包括 從DOM樹中移除與第一列表中枚舉的節(jié)點(diǎn)相同的節(jié)點(diǎn); 刪除DOM樹中的其他節(jié)點(diǎn)屬性,只將超鏈接HREF屬性保留到輸出的XML樹中; 如果一個(gè)節(jié)點(diǎn)沒有值,而且只有一個(gè)擁有文本值的孩子節(jié)點(diǎn),那么,所述孩子節(jié)點(diǎn)的文本值會(huì)被看成該節(jié)點(diǎn)的值,同時(shí)從XML樹中移除所述孩子節(jié)點(diǎn);以及 通過渲染得到XML樹中節(jié)點(diǎn)的可視信息,并將節(jié)點(diǎn)的可視信息作為節(jié)點(diǎn)的屬性保留在輸出XML樹中。
      4.根據(jù)權(quán)利要求I所述的方法,其中步驟b)進(jìn)一步包括 根據(jù)第一規(guī)則過濾掉不可能的節(jié)點(diǎn); 根據(jù)可視信息計(jì)算每個(gè)節(jié)點(diǎn)的可視化分值,根據(jù)特定的正規(guī)表達(dá)式與標(biāo)題相似度計(jì)算每個(gè)節(jié)點(diǎn)的值分值,并且根據(jù)標(biāo)簽因素計(jì)算每個(gè)節(jié)點(diǎn)的標(biāo)簽分值; 合并可視化分值、值分值、和標(biāo)簽分值,并得到排名前η的節(jié)點(diǎn)作為候選節(jié)點(diǎn); 計(jì)算每個(gè)候選節(jié)點(diǎn)的頻率分值,并選擇頻率分值排在前3的節(jié)點(diǎn)作為標(biāo)識(shí)符候選節(jié)點(diǎn);和 移除與第二列表中列舉的值相同的節(jié)點(diǎn)值,得到分值排名第一的節(jié)點(diǎn)作為對(duì)象標(biāo)識(shí)符。
      5.根據(jù)權(quán)利要求4所述的方法,其中第一規(guī)則包括 節(jié)點(diǎn)的值長(zhǎng)度大于第一閾值并小于第二閾值,否則過濾掉該節(jié)點(diǎn),所述第一閾值和第二閾值為經(jīng)驗(yàn)設(shè)置值; 節(jié)點(diǎn)的名字如果在停用標(biāo)簽集合中,則過濾掉該節(jié)點(diǎn)。
      6.根據(jù)權(quán)利要求4所述的方法,其中可視化分值的計(jì)算進(jìn)一步包括 通過二維高斯方法計(jì)算節(jié)點(diǎn)的位置分值; 根據(jù)字體信息計(jì)算節(jié)點(diǎn)的字體分值; 通過合并位置分值和字體分值得到節(jié)點(diǎn)的可視化分值。
      7.根據(jù)權(quán)利要求I所述的方法,其中步驟c)進(jìn)一步包括 根據(jù)節(jié)點(diǎn)的自底而上深度、節(jié)點(diǎn)的孩子數(shù)目以及停用詞列表來過濾掉不可能的節(jié)點(diǎn); 根據(jù)分類規(guī)則將所有剩下的候選節(jié)點(diǎn)分成I、II、II和IV四大類; 將每個(gè)候選節(jié)點(diǎn)的所有孩子看成一個(gè)節(jié)點(diǎn)序列,并基于節(jié)點(diǎn)序列類型進(jìn)行模式匹配并得到每個(gè)候選節(jié)點(diǎn)的模式分值; 根據(jù)節(jié)點(diǎn)字體和絕對(duì)位置信息來計(jì)算每個(gè)候選節(jié)點(diǎn)的可視化分值;對(duì)上述步驟得到的模式分值和可視化分值進(jìn)行合并,并根據(jù)結(jié)果進(jìn)行排序,取分值高的和它的孩子為層次鏈的候選者;以及 根據(jù)第三列表移除不必要的層次,并且如果層次鏈最低層不是對(duì)象標(biāo)識(shí)符則將步驟b)得到的對(duì)象標(biāo)識(shí)符添加到最低層,從而得到最終的層次鏈。
      8.根據(jù)權(quán)利要求7所述的方法,分類規(guī)則包括 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名為“A”時(shí),將節(jié)點(diǎn)分為第I類; 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名為“TEXT”時(shí),將節(jié)點(diǎn)分為第II類; 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名不是上述兩種情況時(shí),將節(jié)點(diǎn)分為第III類;以及 該節(jié)點(diǎn)沒有值時(shí),將節(jié)點(diǎn)分為第IV類。
      9.根據(jù)權(quán)利要求7所述的方法,其中所述模式匹配進(jìn)一步包括 根據(jù)節(jié)點(diǎn)類型將每個(gè)候選節(jié)點(diǎn)的孩子節(jié)點(diǎn)序列分成頭部、中部和尾部三部分,以便中部是一個(gè)節(jié)點(diǎn)類型不斷重復(fù)且重復(fù)最小單位是兩個(gè)節(jié)點(diǎn)的序列; 根據(jù)有頭尾部長(zhǎng)度、中部長(zhǎng)度以及節(jié)點(diǎn)類型重復(fù)次數(shù),對(duì)每個(gè)候選節(jié)點(diǎn)的孩子節(jié)點(diǎn)序列計(jì)算模式分值; 根據(jù)每個(gè)候選節(jié)點(diǎn)的孩子的數(shù)目計(jì)算節(jié)點(diǎn)的附加分值,并將該附加分值與上述模式分值合并,得到最終模式分值;以及 過濾掉其最終模式分值小于第三閾值的候選節(jié)點(diǎn)。
      10.根據(jù)權(quán)利要求7所述的方法,其中可視化分值的計(jì)算進(jìn)一步包括 通過二維高斯方法來計(jì)算候選節(jié)點(diǎn)的位置分值; 如果候選節(jié)點(diǎn)的所有孩子的同一維位置值相同,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果都不相同,那么該節(jié)點(diǎn)的可視化分值為O ; 如果候選節(jié)點(diǎn)的孩子序可視位置是遞增的,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果孩子序的可視位置不是遞增的,那么該節(jié)點(diǎn)的可視化分值為O ; 如果候選節(jié)點(diǎn)的所有孩子的字體相同,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果不同,那么該節(jié)點(diǎn)的可視化分值為O。
      11.根據(jù)權(quán)利要求I所述的方法,其中步驟d)進(jìn)一步包括 dl)建立一顆只存在一個(gè)根節(jié)點(diǎn)的樹; d2)檢查步驟c)抽取得到的每個(gè)單層次鏈中的每個(gè)新來節(jié)點(diǎn)是否在樹中已經(jīng)存在,如果已存在,則合并該新來節(jié)點(diǎn)到樹中對(duì)應(yīng)的節(jié)點(diǎn),并增加該節(jié)點(diǎn)的計(jì)數(shù),同時(shí)將該新來節(jié)點(diǎn)的后代視為其下層節(jié)點(diǎn); d3)如果不存在,則檢查樹中是否存在與新來節(jié)點(diǎn)有關(guān)系的節(jié)點(diǎn),如果存在有關(guān)系的節(jié)點(diǎn),則根據(jù)所述關(guān)系將新來節(jié)點(diǎn)添加為有關(guān)系的節(jié)點(diǎn)的上層或下層節(jié)點(diǎn);d4)如果不存在有關(guān)系的節(jié)點(diǎn),則將此鏈合并至根節(jié)點(diǎn)之下;d5)所有層次鏈合并完成之后得到一個(gè)有向圖;以及 d6)根據(jù)有向圖中所有上層節(jié)點(diǎn)的計(jì)數(shù)來確定計(jì)數(shù)最大的一個(gè)為正式父節(jié)點(diǎn),并刪除符合預(yù)定條件的關(guān)系邊,從而得到最終的有向樹。
      12.根據(jù)權(quán)利要求I所述的方法,其中步驟e)進(jìn)一步包括 接收一個(gè)對(duì)象標(biāo)識(shí)符;以及 從有向樹查找該對(duì)象標(biāo)識(shí)符,如果存在,則相應(yīng)節(jié)點(diǎn)的祖先節(jié)點(diǎn)為此對(duì)象的分類信息。
      13.根據(jù)權(quán)利要求4、6-7或9的任何一個(gè)所述的方法,其中,所述合并包括對(duì)所述分值求加權(quán)和、或?qū)λ龇种抵苯酉喑恕?br> 14.一種基于網(wǎng)頁分類信息的對(duì)象分類系統(tǒng),包括 預(yù)處理模塊,用于通過轉(zhuǎn)換處理將單網(wǎng)頁的HTML文檔對(duì)象模型DOM樹轉(zhuǎn)換成特定的包含渲染結(jié)果的可擴(kuò)展標(biāo)記語言XML樹; 對(duì)象標(biāo)識(shí)符抽取模塊,用于每個(gè)從所述XML樹中抽取對(duì)象的標(biāo)識(shí)符; 單層次鏈抽取模塊,用于從每個(gè)所述XML樹中抽取單層次鏈; 多鏈集成模塊,用于將來自不同網(wǎng)頁的多個(gè)單層次鏈集成為一棵有向樹;和對(duì)象分類模塊,用于根據(jù)單網(wǎng)頁的對(duì)象標(biāo)識(shí)符和單層次鏈,從所述有向樹得到此對(duì)象的分類信息。
      15.根據(jù)權(quán)利要求14所述的系統(tǒng),進(jìn)一步包括抽取提升模塊,用于基于所述有向樹從更多的網(wǎng)頁中得到分類信息,并將之加入到有向樹中。
      16.根據(jù)權(quán)利要求14所述的系統(tǒng),其中預(yù)處理模塊中的轉(zhuǎn)換處理進(jìn)一步包括 從DOM樹中移除與第一列表中枚舉的節(jié)點(diǎn)相同的節(jié)點(diǎn); 刪除DOM樹中的其他節(jié)點(diǎn)屬性,只將超鏈接HREF屬性保留到輸出的XML樹中; 如果一個(gè)節(jié)點(diǎn)沒有值,而且只有一個(gè)擁有文本值的孩子節(jié)點(diǎn),那么,所述孩子節(jié)點(diǎn)的文本值會(huì)被看成該節(jié)點(diǎn)的值,同時(shí)從XML樹中移除所述孩子節(jié)點(diǎn);以及 通過渲染得到XML樹中節(jié)點(diǎn)的可視信息,并將節(jié)點(diǎn)的可視信息作為節(jié)點(diǎn)的屬性保留在輸出XML樹中。
      17.根據(jù)權(quán)利要求14所述的系統(tǒng),其中對(duì)象標(biāo)識(shí)符抽取模塊進(jìn)一步包括 過濾單元,根據(jù)第一規(guī)則過濾掉不可能的節(jié)點(diǎn); 分值計(jì)算單元,根據(jù)可視信息計(jì)算每個(gè)節(jié)點(diǎn)的可視化分值,根據(jù)特定的正規(guī)表達(dá)式與標(biāo)題相似度計(jì)算每個(gè)節(jié)點(diǎn)的值分值,并且根據(jù)標(biāo)簽因素計(jì)算每個(gè)節(jié)點(diǎn)的標(biāo)簽分值; 排序單元,合并可視化分值、值分值、和標(biāo)簽分值,并得到排名前η的節(jié)點(diǎn)作為候選節(jié)占. 頻率分計(jì)算單元,計(jì)算每個(gè)候選節(jié)點(diǎn)的頻率分值,并選擇頻率分值排在前3的節(jié)點(diǎn)作為標(biāo)識(shí)符候選節(jié)點(diǎn);和 對(duì)象標(biāo)識(shí)符獲得單元,移除與第二列表中列舉的值相同的節(jié)點(diǎn)值,得到分值排名第一的節(jié)點(diǎn)作為對(duì)象標(biāo)識(shí)符。
      18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中第一規(guī)則包括 節(jié)點(diǎn)的值長(zhǎng)度大于第一閾值并小于第二閾值,否則過濾掉該節(jié)點(diǎn),所述第一閾值和第二閾值為經(jīng)驗(yàn)設(shè)置值;和 節(jié)點(diǎn)的名字如果在停用標(biāo)簽集合中,則過濾掉該節(jié)點(diǎn)。
      19.根據(jù)權(quán)利要求17所述的系統(tǒng),其中可視化分值的計(jì)算進(jìn)一步包括 通過二維高斯方法計(jì)算節(jié)點(diǎn)的位置分值; 根據(jù)字體信息計(jì)算節(jié)點(diǎn)的字體分值; 通過合并位置分值和字體分值得到節(jié)點(diǎn)的可視化分值。
      20.根據(jù)權(quán)利要求14所述的系統(tǒng),其中單層次鏈抽取模塊進(jìn)一步包括 過濾單元,根據(jù)節(jié)點(diǎn)的自底而上深度、節(jié)點(diǎn)的孩子數(shù)目以及停用詞列表來過濾掉不可能的節(jié)點(diǎn); 劃分單元,根據(jù)分類規(guī)則將所有剩下的候選節(jié)點(diǎn)分成I、II、II和IV四大類; 模式匹配單元,將每個(gè)候選節(jié)點(diǎn)的所有孩子看成一個(gè)節(jié)點(diǎn)序列,并基于節(jié)點(diǎn)序列類型進(jìn)行模式匹配以得到每個(gè)候選節(jié)點(diǎn)的模式分值; 計(jì)算單元,根據(jù)節(jié)點(diǎn)字體和絕對(duì)位置信息來計(jì)算每個(gè)候選節(jié)點(diǎn)的可視化分值; 選取單元,對(duì)上述步驟得到的模式分值和可視化分值進(jìn)行合并,并根據(jù)結(jié)果進(jìn)行排序,選取分值高的和它的孩子為層次鏈的候選者;以及 單層次鏈獲取單元,根據(jù)第三列表移除不必要的層次,并且如果層次鏈最低層不是對(duì)象標(biāo)識(shí)符則將所述對(duì)象標(biāo)識(shí)符抽取模塊得到的對(duì)象標(biāo)識(shí)符添加到最低層,從而得到最終的單層次鏈。
      21.根據(jù)權(quán)利要求20所述的系統(tǒng),分類規(guī)則包括 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名為“A”時(shí),將節(jié)點(diǎn)分為第I類; 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名為“TEXT”時(shí),將節(jié)點(diǎn)分為第II類; 該節(jié)點(diǎn)有值,且節(jié)點(diǎn)名不是上述兩種情況時(shí),將節(jié)點(diǎn)分為第III類;以及 該節(jié)點(diǎn)沒有值時(shí),將節(jié)點(diǎn)分為第IV類。
      22.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述模式匹配進(jìn)一步包括 根據(jù)節(jié)點(diǎn)類型將每個(gè)候選節(jié)點(diǎn)的孩子節(jié)點(diǎn)序列分成頭部、中部和尾部三部分,以便中部是一個(gè)節(jié)點(diǎn)類型不斷重復(fù)且重復(fù)最小單位是兩個(gè)節(jié)點(diǎn)的序列; 根據(jù)有頭尾部長(zhǎng)度,中部長(zhǎng)短以及節(jié)點(diǎn)類型重復(fù)次數(shù),對(duì)每個(gè)候選節(jié)點(diǎn)的孩子節(jié)點(diǎn)序列計(jì)算模式分值; 根據(jù)每個(gè)候選節(jié)點(diǎn)的孩子的數(shù)目計(jì)算節(jié)點(diǎn)的附加分值,并將該附加分值與上述模式分值合并,得到最終模式分值;以及 過濾掉其最終模式分值小于第三閾值的候選節(jié)點(diǎn)。
      23.根據(jù)權(quán)利要求20所述的系統(tǒng),其中可視化分值的計(jì)算進(jìn)一步包括 通過二維高斯方法來計(jì)算候選節(jié)點(diǎn)的位置分值; 如果候選節(jié)點(diǎn)的所有孩子的同一維位置值相同,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果都不相同,那么該節(jié)點(diǎn)的可視化分值為O ; 如果候選節(jié)點(diǎn)的孩子序可視位置是遞增的,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果孩子序的可視位置不是遞增的,那么該節(jié)點(diǎn)的可視化分值為O ;和 如果候選節(jié)點(diǎn)的所有孩子的字體相同,那么該節(jié)點(diǎn)的可視化分值為位置分值;如果不同,那么該節(jié)點(diǎn)的可視化分值為O。
      24.根據(jù)權(quán)利要求14所述的系統(tǒng),其中多鏈集成模塊進(jìn)一步包括 新樹建立單元,建立一顆只存在一個(gè)根節(jié)點(diǎn)的樹; 相同節(jié)點(diǎn)合并單元,檢查單層次鏈抽取模塊抽取得到的每個(gè)單層次鏈中的每個(gè)新來節(jié)點(diǎn)是否在樹中已經(jīng)存在,如果已存在,貝1J合并該新來節(jié)點(diǎn)到樹中對(duì)應(yīng)的節(jié)點(diǎn),并增加該節(jié)點(diǎn)的計(jì)數(shù),同時(shí)將該新來節(jié)點(diǎn)的后代視為其下層節(jié)點(diǎn); 相關(guān)節(jié)點(diǎn)合并單元,如果樹中不存在該新來節(jié)點(diǎn),則檢查樹中是否存在與新來節(jié)點(diǎn)有關(guān)系的節(jié)點(diǎn),如果存在有關(guān)系的節(jié)點(diǎn),則根據(jù)所述關(guān)系將新來的節(jié)點(diǎn)添加為有關(guān)系的節(jié)點(diǎn)的上層或下層節(jié)點(diǎn);其他節(jié)點(diǎn)合并單元,如果不存在相同和有關(guān)系的節(jié)點(diǎn),則將此鏈合并至根節(jié)點(diǎn)之下; 有向圖建立單元,當(dāng)所有單層次鏈合并完成之后,建立一個(gè)有向圖; 有向樹建立單元,根據(jù)有向圖中所有上層節(jié)點(diǎn)的計(jì)數(shù)來確定計(jì)數(shù)最大的一個(gè)為正式父節(jié)點(diǎn),并刪除符合該預(yù)定條件的關(guān)系邊,從而得到最終的有向樹。
      25.根據(jù)權(quán)利要求14所述的系統(tǒng),其中對(duì)象分類模塊進(jìn)一步包括 對(duì)象標(biāo)識(shí)符接收單元,接收一個(gè)對(duì)象標(biāo)識(shí)符;以及 分類信息獲取單元,從有向樹查找該對(duì)象標(biāo)識(shí)符,如果存在,則相應(yīng) 節(jié)點(diǎn)的祖先節(jié)點(diǎn)為此對(duì)象的分類信息。
      26.根據(jù)權(quán)利要求17、19-20或22的任何一個(gè)所述的系統(tǒng),其中,所述合并包括對(duì)所述分值求加權(quán)和、或?qū)λ龇种抵苯酉喑恕?br> 全文摘要
      本申請(qǐng)?zhí)峁┮环N基于網(wǎng)頁分類信息的對(duì)象分類方法,包括以下步驟將每個(gè)單網(wǎng)頁的HTML文檔對(duì)象模型DOM樹轉(zhuǎn)換成特定的包含渲染結(jié)果的可擴(kuò)展標(biāo)記語言XML樹;從每個(gè)所述XML樹中抽取對(duì)象的標(biāo)識(shí)符;從每個(gè)所述XML樹中抽取單層次鏈;將來自不同單網(wǎng)頁的多個(gè)單層次鏈集成為一棵有向樹;以及根據(jù)單網(wǎng)頁的對(duì)象標(biāo)識(shí)符和單層次鏈,從所述有向樹得到此對(duì)象的分類信息。本申請(qǐng)采用綜合因素來抽取網(wǎng)頁中的具有層次的分類信息,這些因素有節(jié)點(diǎn)序列模式匹配和節(jié)點(diǎn)位置等的計(jì)算方法,這些能夠從單網(wǎng)頁中得到更精確和有用的分類信息。
      文檔編號(hào)G06F17/30GK102646095SQ201110040468
      公開日2012年8月22日 申請(qǐng)日期2011年2月18日 優(yōu)先權(quán)日2011年2月18日
      發(fā)明者姜珊珊, 孫軍, 謝宣松, 趙利軍, 鄭繼川 申請(qǐng)人:株式會(huì)社理光
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1