一種網(wǎng)頁(yè)信息的抽取方法和系統(tǒng)的制作方法【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)信息的抽取方法和系統(tǒng)。包括:獲得已標(biāo)注網(wǎng)頁(yè),生成語(yǔ)義結(jié)構(gòu)樹(shù),構(gòu)建信息模式圖,生成信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,生成包裝器,將包裝器導(dǎo)出為包裝器文件;構(gòu)建用于抽取已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;獲得待抽取網(wǎng)頁(yè),抽取器在待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);導(dǎo)出每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。本發(fā)明具有較高的通用性、泛化能力、容錯(cuò)性、可擴(kuò)展性以及較低的人工參與度,同時(shí)本發(fā)明也保證了在線抽取的效率,從而具有較高的實(shí)用性?!緦?zhuān)利說(shuō)明】一種網(wǎng)頁(yè)信息的抽取方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明屬于信息抽取領(lǐng)域,尤其涉及一種基于網(wǎng)頁(yè)DOM樹(shù)的包裝器(wrapper)生成以及網(wǎng)頁(yè)信息抽取技術(shù)。【
背景技術(shù):
】[0002]自從上世紀(jì)90年代以來(lái),萬(wàn)維網(wǎng)(WorldWideWeb)得到飛速發(fā)展,包含的信息量爆炸式增長(zhǎng)。互聯(lián)網(wǎng)在日益成為人們廣泛使用的工具的同時(shí),也變成了一個(gè)巨大的知識(shí)寶庫(kù),其中蘊(yùn)含著海量的有價(jià)值的信息。如何充分利用互聯(lián)網(wǎng)上的海量信息為人類(lèi)提供更好的服務(wù)一直都是人們關(guān)注的熱點(diǎn),而網(wǎng)頁(yè)作為互聯(lián)網(wǎng)上重要的信息載體,是從互聯(lián)網(wǎng)上獲取信息的主要途徑,如何從網(wǎng)頁(yè)中抽取出需要的信息已經(jīng)成為一個(gè)重要的研究課題,也就是網(wǎng)頁(yè)信息抽取。網(wǎng)頁(yè)信息抽取就是從半結(jié)構(gòu)化的網(wǎng)頁(yè)中抽取出用戶需要的數(shù)據(jù),結(jié)構(gòu)化地存儲(chǔ)在數(shù)據(jù)庫(kù)中。[0003]相對(duì)于無(wú)結(jié)構(gòu)化的自由文本以及結(jié)構(gòu)化的XML文本而言,網(wǎng)頁(yè)是一種半結(jié)構(gòu)化的文本,內(nèi)部信息都是被HTML標(biāo)簽包裹著,內(nèi)部的HTML標(biāo)簽之間存在著一定的結(jié)構(gòu)信息,但沒(méi)有嚴(yán)格的格式。網(wǎng)頁(yè)信息抽取通常使用機(jī)器學(xué)習(xí)和模式挖掘技術(shù),從這些并不嚴(yán)格的結(jié)構(gòu)中挖掘出文檔內(nèi)部具有的模式信息,并利用這些模式信息,抽取出用戶需要的數(shù)據(jù)。[0004]由于互聯(lián)網(wǎng)上同類(lèi)網(wǎng)頁(yè)一般是基于一種特定的網(wǎng)頁(yè)模板根據(jù)后臺(tái)數(shù)據(jù)庫(kù)生成的,所以這些網(wǎng)頁(yè)之間以及網(wǎng)頁(yè)內(nèi)部相同類(lèi)型的數(shù)據(jù)域之間在結(jié)構(gòu)上存在很大程度的相似性。這種相似性主要體現(xiàn)在包裹這些數(shù)據(jù)域的網(wǎng)頁(yè)標(biāo)簽序列以及網(wǎng)頁(yè)DOM樹(shù)的結(jié)構(gòu)上。根據(jù)這些特點(diǎn),目前常用的是一種基于模板的網(wǎng)頁(yè)信息抽取方法,這種方法要求為每一類(lèi)網(wǎng)頁(yè)構(gòu)造自己的包裝器,每一個(gè)包裝器包含一類(lèi)網(wǎng)頁(yè)的特征描述,系統(tǒng)根據(jù)這些特征從網(wǎng)頁(yè)中找到所需信息。現(xiàn)有的網(wǎng)頁(yè)抽取工具,根據(jù)自動(dòng)化程度,可以分為手工編寫(xiě)規(guī)則的抽取系統(tǒng),基于監(jiān)督學(xué)習(xí)的抽取系統(tǒng),基于半監(jiān)督學(xué)習(xí)的抽取系統(tǒng)和基于無(wú)監(jiān)督學(xué)習(xí)的抽取系統(tǒng)。[0005]在手工編寫(xiě)規(guī)則的抽取系統(tǒng)中,用戶需要使用一種通用的或者特別設(shè)計(jì)的編程語(yǔ)言為每一個(gè)網(wǎng)站手工編制一個(gè)包裝器。這是早期的抽取系統(tǒng)使用的方法,這種方法的優(yōu)點(diǎn)是人工編寫(xiě)的包裝器適用性高,缺點(diǎn)是對(duì)用戶的專(zhuān)業(yè)水平要求較高,而且生成的包裝器不易維護(hù),網(wǎng)絡(luò)上數(shù)量龐大的數(shù)據(jù)源將消耗大量的人力資源。[0006]在基于監(jiān)督學(xué)習(xí)的抽取系統(tǒng)中,首先需要人工對(duì)網(wǎng)頁(yè)中需要抽取的數(shù)據(jù)及其格式進(jìn)行標(biāo)注,然后系統(tǒng)通常采用機(jī)器學(xué)習(xí)的方法根據(jù)用戶標(biāo)注的樣例自動(dòng)訓(xùn)練出該類(lèi)網(wǎng)頁(yè)的包裝器。相對(duì)于前一種系統(tǒng),這種系統(tǒng)對(duì)用戶的專(zhuān)業(yè)水平要求不高,并大大降低了用戶參與時(shí)間。[0007]在基于半監(jiān)督學(xué)習(xí)的抽取系統(tǒng)中,用戶不需要提供完整的被精確標(biāo)注的樣例,僅需要提供粗略標(biāo)注的樣例即可生成抽取規(guī)則,然而,由于沒(méi)有用戶的精確標(biāo)注,這種系統(tǒng)的抽取結(jié)果是記錄級(jí)的,數(shù)據(jù)記錄內(nèi)部屬性的具體語(yǔ)義還需要用戶進(jìn)行后處理。[0008]在基于無(wú)監(jiān)督學(xué)習(xí)的抽取系統(tǒng)中,用戶不需要直接參與包裝器的生成過(guò)程。通過(guò)對(duì)待抽取頁(yè)面中數(shù)據(jù)區(qū)的某些特征假定,比如,重復(fù)出現(xiàn)的DOM樹(shù)結(jié)構(gòu)或HTML串序列,從網(wǎng)頁(yè)中選擇特征符合較好的數(shù)據(jù)。這種系統(tǒng)通常對(duì)網(wǎng)頁(yè)結(jié)構(gòu)具有較強(qiáng)的假設(shè),這就給應(yīng)用范圍帶來(lái)局限,通用性低。[0009]這幾種方法相比,自動(dòng)化程度越來(lái)越高,然而隨著自動(dòng)化程度的提高,系統(tǒng)的通用性和抽取結(jié)果的精確性相應(yīng)降低,比如基于無(wú)監(jiān)督學(xué)習(xí)的抽取系統(tǒng)自動(dòng)化程度最高,但往往只能針對(duì)特定的網(wǎng)頁(yè)和特定的抽取需求,并且很難實(shí)現(xiàn)數(shù)據(jù)的精確抽取以及給數(shù)據(jù)字段添加語(yǔ)義信息。[0010]現(xiàn)存的基于監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)信息抽取方法通常利用已標(biāo)注網(wǎng)頁(yè)中數(shù)據(jù)區(qū)附近的標(biāo)簽序列特征或DOM樹(shù)結(jié)構(gòu)特征生成包裝器,抽取時(shí),系統(tǒng)遍歷待抽取網(wǎng)頁(yè)的標(biāo)簽序列或DOM樹(shù),匹配各個(gè)數(shù)據(jù)區(qū)的特征,如果特征匹配成功,則得到抽取結(jié)果。然而,現(xiàn)有方法存在如下問(wèn)題:[0011]1.特征規(guī)則過(guò)于具體而且匹配方式過(guò)于簡(jiǎn)單。比如使用DOM樹(shù)的XPath作為特征,如“table/tr[3]/td[l]/a[l]”,括號(hào)中的數(shù)字表示該標(biāo)簽在其兄弟節(jié)點(diǎn)中的位置,該路徑用于抽取table節(jié)點(diǎn)下的編號(hào)為3的tr節(jié)點(diǎn)下的編號(hào)為I的td節(jié)點(diǎn)下的編號(hào)為I的a節(jié)點(diǎn),抽取的時(shí)候,系統(tǒng)嚴(yán)格根據(jù)XPath尋找到想要抽取的數(shù)據(jù)節(jié)點(diǎn)。這種方式對(duì)網(wǎng)頁(yè)結(jié)構(gòu)較為敏感,泛化能力較差,為了保證召回率,需要大量的規(guī)則和人工干預(yù),而大量的規(guī)則又會(huì)導(dǎo)致規(guī)則之間發(fā)生沖突的可能性較大,比如一條特定的規(guī)則在一個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)數(shù)據(jù)節(jié)點(diǎn)而在另一個(gè)稍有差異的網(wǎng)頁(yè)中可能對(duì)應(yīng)噪音節(jié)點(diǎn)。現(xiàn)有方法往往在準(zhǔn)確率、召回率和人工代價(jià)之間顧此失彼。[0012]2.特征規(guī)則單一。比如僅基于標(biāo)簽序列特征或僅基于DOM樹(shù)相對(duì)路徑特征進(jìn)行抽取。在某些網(wǎng)頁(yè)中,數(shù)據(jù)和噪音在現(xiàn)有方法使用的特征上差別較大,則該方法能取得較好的效果,然而在另一些網(wǎng)頁(yè)中,數(shù)據(jù)和噪音在該方法使用的特征上可能差別并不明顯,則該方法就無(wú)法取得好的抽取效果。方法的通用性不高。[0013]3.不支持復(fù)雜的數(shù)據(jù)模式(語(yǔ)義結(jié)構(gòu))。隨著萬(wàn)維網(wǎng)的發(fā)展,網(wǎng)頁(yè)中的內(nèi)容越來(lái)越多樣,數(shù)據(jù)模式也越來(lái)越復(fù)雜,可能出現(xiàn)復(fù)雜的屬性層次結(jié)構(gòu)以及屬性嵌套、亂序等情況?,F(xiàn)有的方法往往只能支持簡(jiǎn)單的扁平數(shù)據(jù)模式,無(wú)法充分表達(dá)更復(fù)雜的數(shù)據(jù)模式。[0014]4.抽取方法沒(méi)有全局意識(shí)?,F(xiàn)有的方法通常在網(wǎng)頁(yè)局部成功匹配規(guī)則后不會(huì)考慮該匹配位置是否為最優(yōu)位置以及該匹配對(duì)其它規(guī)則的后續(xù)匹配帶來(lái)的影響,一次局部錯(cuò)誤或失敗的匹配可能對(duì)后續(xù)抽取帶來(lái)一系列負(fù)面影響,抽取方法的健壯性較低?!?br/>發(fā)明內(nèi)容】[0015]針對(duì)以上問(wèn)題,本發(fā)明提出一種新的基于監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)信息的抽取方法和系統(tǒng),克服了上述現(xiàn)有方法存在的問(wèn)題。實(shí)現(xiàn)了網(wǎng)頁(yè)信息抽取技術(shù)具有較高的通用性、泛化能力、容錯(cuò)性、可擴(kuò)展性以及較低的人工參與度,同時(shí)也保證了在線抽取的效率,從而具有較高的實(shí)用性的發(fā)明目的。[0016]本發(fā)明提出了一種網(wǎng)頁(yè)信息的抽取方法,包括:[0017]包裝器生成步驟,獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成所述信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為包裝器文件;[0018]抽取器構(gòu)建步驟,解析所述包裝器文件得到所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息,構(gòu)建用于抽取所述已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;[0019]待抽取網(wǎng)頁(yè)抽取步驟,獲得待抽取網(wǎng)頁(yè),構(gòu)建所述待抽取網(wǎng)頁(yè)的DOM樹(shù),所述抽取器在所述待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從所述信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);[0020]數(shù)據(jù)導(dǎo)出步驟,導(dǎo)出每個(gè)所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。[0021]所述包裝器生成步驟進(jìn)一步為:[0022]所述信息模式圖生成步驟,獲得所述已標(biāo)注網(wǎng)頁(yè),構(gòu)建所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建所述信息模式圖,確定所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)在所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū);[0023]語(yǔ)義屬性節(jié)點(diǎn)信息生成步驟,對(duì)于所述每個(gè)語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值;對(duì)于每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序;[0024]包裝器文件導(dǎo)出步驟,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為所述包裝器文件。[0025]所述待抽取網(wǎng)頁(yè)抽取步驟的抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū),進(jìn)一步為:[0026]第一抽取步驟,對(duì)于所述信息模式圖的當(dāng)前非葉子語(yǔ)義屬性節(jié)點(diǎn),所述抽取器在所述非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中,尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合;[0027]第二抽取步驟,根據(jù)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中選擇整體最優(yōu)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);[0028]其中,所述根語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)為所述待抽取網(wǎng)頁(yè)DOM樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)。[0029]所述第一抽取步驟中的尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合,進(jìn)一步為:[0030]對(duì)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)進(jìn)行開(kāi)始節(jié)點(diǎn)集合和結(jié)束節(jié)點(diǎn)集合的初始化、過(guò)濾、匹配和兩兩組合,生成第一候選數(shù)據(jù)區(qū)集合;在所述第一候選數(shù)據(jù)區(qū)中集合中,刪除開(kāi)始節(jié)點(diǎn)出現(xiàn)在結(jié)束節(jié)點(diǎn)之后的所述第一候選數(shù)據(jù)區(qū),生成第二候選數(shù)據(jù)區(qū)集合;使用所述第二候選數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)分類(lèi)閾值的所述第二候選數(shù)據(jù)區(qū),生成第三候選數(shù)據(jù)區(qū)集合,則所述第三候選數(shù)據(jù)區(qū)集合為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合,抽取所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合完成;[0031]如果所述子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性,使用貪心算法,從所述第三候選數(shù)據(jù)區(qū)集合中逐個(gè)選擇與已選擇的所述第三候選數(shù)據(jù)區(qū)互不重疊且綜合得分最大的所述第三候選數(shù)據(jù)區(qū),直到無(wú)法選擇新的所述第三候選數(shù)據(jù)區(qū)為止,生成第四候選數(shù)據(jù)區(qū)集合;對(duì)所述第四候選數(shù)據(jù)區(qū)集合進(jìn)行兩兩組合作為開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū),生成第一候選迭代數(shù)據(jù)區(qū)集合;使用所述第一候選迭代數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的迭代數(shù)據(jù)區(qū)分類(lèi)閾值的所述第一候選迭代數(shù)據(jù)區(qū),構(gòu)成所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合,抽取對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合完成。[0032]所述第二抽取步驟進(jìn)一步為:[0033]對(duì)于所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的每種出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中,為每個(gè)子語(yǔ)義屬性分別選擇至多一個(gè)滿足所述出現(xiàn)順序的最終候選數(shù)據(jù)區(qū)或者最終迭代候選數(shù)據(jù)區(qū)構(gòu)成一個(gè)候選抽取方案,形成所述出現(xiàn)順序?qū)?yīng)的候選抽取方案集合,其中所述候選抽取方案中不同所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)或者所述最終候選迭代數(shù)據(jù)區(qū)不重疊,從所述候選抽取方案集合中選擇綜合得分的和最大的候選抽取方案為所述出現(xiàn)順序?qū)?yīng)的最優(yōu)候選抽取方案;從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序?qū)?yīng)的所述最優(yōu)候選抽取方案中選擇綜合得分的和最大的所述最優(yōu)候選抽取方案為最終抽取方案;所述最終抽取方案中的所述最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。[0034]本發(fā)明還提供了一種網(wǎng)頁(yè)信息的抽取系統(tǒng),包括:[0035]包裝器生成模塊,用于獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成所述信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為包裝器文件;[0036]抽取器構(gòu)建模塊,用于解析所述包裝器文件得到所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息,構(gòu)建用于抽取所述已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;[0037]待抽取網(wǎng)頁(yè)抽取模塊,用于獲得待抽取網(wǎng)頁(yè),構(gòu)建所述待抽取網(wǎng)頁(yè)的DOM樹(shù),所述抽取器在所述待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從所述信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);[0038]數(shù)據(jù)導(dǎo)出模塊,用于導(dǎo)出每個(gè)所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。[0039]所述包裝器生成模塊包括:[0040]所述信息模式圖生成子模塊,用于獲得所述已標(biāo)注網(wǎng)頁(yè),構(gòu)建所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建所述信息模式圖,確定所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)在所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū);[0041]語(yǔ)義屬性節(jié)點(diǎn)信息生成子模塊,用于對(duì)于所述每個(gè)語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值;對(duì)于每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序;[0042]包裝器文件導(dǎo)出子模塊,用于根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為所述包裝器文件。[0043]所述待抽取網(wǎng)頁(yè)抽取模塊的抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)包括:[0044]第一抽取子模塊,用于對(duì)于所述信息模式圖的當(dāng)前非葉子語(yǔ)義屬性節(jié)點(diǎn),所述抽取器在所述非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中,尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合;[0045]第二抽取子模塊,用于根據(jù)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中選擇整體最優(yōu)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);[0046]其中,所述根語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)為所述待抽取網(wǎng)頁(yè)DOM樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)。[0047]所述第一抽取子模塊中的尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合,進(jìn)一步用于:[0048]對(duì)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)進(jìn)行開(kāi)始節(jié)點(diǎn)集合和結(jié)束節(jié)點(diǎn)集合的初始化、過(guò)濾、匹配和兩兩組合,生成第一候選數(shù)據(jù)區(qū)集合;在所述第一候選數(shù)據(jù)區(qū)中集合中,刪除開(kāi)始節(jié)點(diǎn)出現(xiàn)在結(jié)束節(jié)點(diǎn)之后的所述第一候選數(shù)據(jù)區(qū),生成第二候選數(shù)據(jù)區(qū)集合;使用所述第二候選數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)分類(lèi)閾值的所述第二候選數(shù)據(jù)區(qū),生成第三候選數(shù)據(jù)區(qū)集合,則所述第三候選數(shù)據(jù)區(qū)集合為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合,抽取所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合完成;[0049]如果所述子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性,使用貪心算法,從所述第三候選數(shù)據(jù)區(qū)集合中逐個(gè)選擇與已選擇的所述第三候選數(shù)據(jù)區(qū)互不重疊且綜合得分最大的所述第三候選數(shù)據(jù)區(qū),直到無(wú)法選擇新的所述第三候選數(shù)據(jù)區(qū)為止,生成第四候選數(shù)據(jù)區(qū)集合;對(duì)所述第四候選數(shù)據(jù)區(qū)集合進(jìn)行兩兩組合作為開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū),生成第一候選迭代數(shù)據(jù)區(qū)集合;使用所述第一候選迭代數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的迭代數(shù)據(jù)區(qū)分類(lèi)閾值的所述第一候選迭代數(shù)據(jù)區(qū),構(gòu)成所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合,抽取對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合完成。[0050]所述第二抽取子模塊進(jìn)一步用于:[0051]對(duì)于所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的每種出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中,為每個(gè)子語(yǔ)義屬性分別選擇至多一個(gè)滿足所述出現(xiàn)順序的最終候選數(shù)據(jù)區(qū)或者最終迭代候選數(shù)據(jù)區(qū)構(gòu)成一個(gè)候選抽取方案,形成所述出現(xiàn)順序?qū)?yīng)的候選抽取方案集合,其中所述候選抽取方案中不同所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)或者所述最終候選迭代數(shù)據(jù)區(qū)不重疊,從所述候選抽取方案集合中選擇綜合得分的和最大的候選抽取方案為所述出現(xiàn)順序?qū)?yīng)的最優(yōu)候選抽取方案;從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序?qū)?yīng)的所述最優(yōu)候選抽取方案中選擇綜合得分的和最大的所述最優(yōu)候選抽取方案為最終抽取方案;所述最終抽取方案中的所述最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。[0052]本發(fā)明的有益之處在于:[0053]1.通用性較高。信息模式圖的構(gòu)建方法和層次抽取的方法使得本發(fā)明可以處理較為復(fù)雜的網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu),包括屬性的多序和嵌套結(jié)構(gòu)等,從而具有較好的通用性。[0054]2.泛化能力和擴(kuò)展性較高。本發(fā)明使用多特征而不是單一特征進(jìn)行抽取,并且特征之間的權(quán)重是針對(duì)具體網(wǎng)頁(yè)的結(jié)構(gòu)特點(diǎn)使用最大化分類(lèi)邊界的思想動(dòng)態(tài)調(diào)整的,使得本發(fā)明可以有效處理不同結(jié)構(gòu)特點(diǎn)的網(wǎng)頁(yè),從而使得抽取方法具有較好的泛化能力。分類(lèi)閾值也是動(dòng)態(tài)調(diào)整的,可以處理屬性缺失的情況并有效地在不同結(jié)構(gòu)特點(diǎn)的網(wǎng)頁(yè)上達(dá)到準(zhǔn)確率和召回率的平衡。另外,本發(fā)明可以較為簡(jiǎn)單的添加新的特征,從而進(jìn)一步增強(qiáng)了方法的可擴(kuò)展性。[0055]3.人工參與度較低。在本發(fā)明中,特征的匹配方式并不是嚴(yán)格匹配,而是計(jì)算相似度得分。另外,標(biāo)簽權(quán)重是動(dòng)態(tài)調(diào)整的,根據(jù)信息熵的思想,不同的標(biāo)簽在不同的網(wǎng)頁(yè)和抽取層次下具有不同的權(quán)重,這樣可以有效地識(shí)別不同標(biāo)簽的區(qū)分度,更好地應(yīng)用于特征得分的計(jì)算。這種特征匹配的方式結(jié)合所述動(dòng)態(tài)的特征權(quán)重、標(biāo)簽權(quán)重、分類(lèi)閾值以及全局最優(yōu)的抽取思想,使得本發(fā)明可以極大化地容忍待抽取數(shù)據(jù)區(qū)與用戶標(biāo)注的原始數(shù)據(jù)區(qū)之間的特征差異,大大提高了特征的泛化能力,從而有效地降低了人工參與度。另外,這些特征權(quán)重和標(biāo)簽權(quán)重的學(xué)習(xí)是在包裝器生成階段完成的,抽取時(shí)只用從包裝器中一次性載入即可,不會(huì)對(duì)在線抽取的效率帶來(lái)影響。[0056]4.使用全局最優(yōu)的思想指導(dǎo)在線抽取,容錯(cuò)性較高。本發(fā)明在進(jìn)行抽取時(shí)會(huì)在所有可能的抽取方案中,選擇最優(yōu)的方案,這樣不會(huì)因?yàn)槟硞€(gè)局部的抽取錯(cuò)誤導(dǎo)致全局的錯(cuò)誤,這種思想也保證了即使在分類(lèi)閾值設(shè)置過(guò)低(屬性存在多個(gè)候選數(shù)據(jù)區(qū))的情況下通常仍然能得到準(zhǔn)確的抽取結(jié)果,從而具有較好的容錯(cuò)性。另外,如優(yōu)點(diǎn)3中所述,這樣可以極大化地容忍特征差異,降低人工參與度。[0057]5.可以保證在線抽取效率。在線抽取階段的所述候選數(shù)據(jù)區(qū)和候選迭代數(shù)據(jù)區(qū)選擇步驟中使用的過(guò)濾算法在實(shí)際應(yīng)用中可以有效地降低最終候選數(shù)據(jù)區(qū)和最終候選迭代數(shù)據(jù)區(qū)的數(shù)量,使得本發(fā)明在保證較高的準(zhǔn)確率和召回率的同時(shí),也保證了在線抽取的效率,從而保證了本發(fā)明具有較強(qiáng)的實(shí)用性?!緦?zhuān)利附圖】【附圖說(shuō)明】[0058]圖1是網(wǎng)頁(yè)信息的抽取方法的示意圖。[0059]圖2是圖1示意圖的總流程圖的實(shí)施例。[0060]圖3是對(duì)語(yǔ)義結(jié)構(gòu)樹(shù)的語(yǔ)義屬性節(jié)點(diǎn)選擇最終標(biāo)注數(shù)據(jù)區(qū)的流程圖的實(shí)施例。[0061]圖4是抽取器進(jìn)行數(shù)據(jù)抽取的總流程圖的實(shí)施例。[0062]圖5是圖4中選擇最終候選數(shù)據(jù)區(qū)/最終候選迭代數(shù)據(jù)區(qū)的流程圖的實(shí)施例。[0063]圖6是網(wǎng)頁(yè)信息的抽取系統(tǒng)的示意圖。[0064]圖7A是一已標(biāo)注網(wǎng)頁(yè)中標(biāo)注的一“消息message”語(yǔ)義屬性的實(shí)施例。[0065]圖7B是圖7A的已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中標(biāo)注的圖7A的“消息message”語(yǔ)義屬性的實(shí)施例。[0066]圖8A是圖7A的已標(biāo)注網(wǎng)頁(yè)中標(biāo)注的另一“消息message”語(yǔ)義屬性的實(shí)施例。[0067]圖8B是圖8A的已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中標(biāo)注的圖8A的“消息message”語(yǔ)義屬性的實(shí)施例。[0068]圖9A是圖7A的已標(biāo)注網(wǎng)頁(yè)中標(biāo)注的另一“消息message”語(yǔ)義屬性的實(shí)施例。[0069]圖9B是圖9A的已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中標(biāo)注的圖9A的“消息message”語(yǔ)義屬性的實(shí)施例。[0070]圖10是根據(jù)圖7A、圖8A和圖9A的三個(gè)不同的“消息message”語(yǔ)義屬性生成的語(yǔ)義結(jié)構(gòu)樹(shù)的實(shí)施例。[0071]圖11是根據(jù)圖10的語(yǔ)義結(jié)構(gòu)樹(shù)生成的信息模式圖的實(shí)施例。【具體實(shí)施方式】[0072]下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)地介紹。[0073]首先,對(duì)本發(fā)明的應(yīng)用場(chǎng)景和用到的概念加以說(shuō)明。[0074]網(wǎng)頁(yè)中的內(nèi)容由一些語(yǔ)義單元構(gòu)成,每個(gè)語(yǔ)義單元對(duì)應(yīng)一個(gè)語(yǔ)義屬性,語(yǔ)義屬性的組合可以構(gòu)成新的語(yǔ)義屬性,將新的語(yǔ)義屬性稱為父語(yǔ)義屬性,父語(yǔ)義屬性直接包含的語(yǔ)義屬性為子語(yǔ)義屬性,同一父語(yǔ)義屬性下的子語(yǔ)義屬性之間互為兄弟語(yǔ)義屬性。語(yǔ)義屬性的每一個(gè)具體取值是網(wǎng)頁(yè)的DOM樹(shù)中的一個(gè)子樹(shù)森林,子樹(shù)森林內(nèi)部的各個(gè)子樹(shù)之間是連續(xù)不重疊的,也就是子樹(shù)森林內(nèi)部的相鄰子樹(shù)之間不存在其它子樹(shù)且各個(gè)子樹(shù)之間沒(méi)有共同節(jié)點(diǎn),將該子樹(shù)森林稱為該語(yǔ)義屬性的一個(gè)數(shù)據(jù)區(qū),將該子樹(shù)森林中所有子樹(shù)的根節(jié)點(diǎn)構(gòu)成的列表稱為該數(shù)據(jù)區(qū)的根節(jié)點(diǎn)列表,將該根節(jié)點(diǎn)列表中的第一個(gè)節(jié)點(diǎn)稱為該數(shù)據(jù)區(qū)的開(kāi)始節(jié)點(diǎn),列表中的最后一個(gè)節(jié)點(diǎn)稱為該數(shù)據(jù)區(qū)的結(jié)束節(jié)點(diǎn)。如果一個(gè)語(yǔ)義屬性的所有數(shù)據(jù)區(qū)只包含一棵子樹(shù),也就是數(shù)據(jù)區(qū)的開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)是同一個(gè)節(jié)點(diǎn),將該語(yǔ)義屬性稱為單節(jié)點(diǎn)語(yǔ)義屬性,否則,為多節(jié)點(diǎn)語(yǔ)義屬性。兄弟語(yǔ)義屬性的數(shù)據(jù)區(qū)之間是不重疊的。兄弟語(yǔ)義屬性的數(shù)據(jù)區(qū)之間存在一定的順序,順序可能有多種,但是通常是有規(guī)律可循的,另外,根據(jù)網(wǎng)頁(yè)的具體內(nèi)容,某些語(yǔ)義屬性可能是缺失的。語(yǔ)義屬性可以分為迭代語(yǔ)義屬性和非迭代語(yǔ)義屬性,對(duì)于一個(gè)語(yǔ)義屬性,如果在其父語(yǔ)義屬性的同一數(shù)據(jù)區(qū)中該語(yǔ)義屬性的數(shù)據(jù)區(qū)最多只出現(xiàn)一次,則該語(yǔ)義屬性為非迭代語(yǔ)義屬性,如果在其父語(yǔ)義屬性的同一數(shù)據(jù)區(qū)中該語(yǔ)義屬性的數(shù)據(jù)區(qū)可能出現(xiàn)兩次或多次,則該語(yǔ)義屬性為迭代語(yǔ)義屬性,如,搜索引擎結(jié)果頁(yè)面中包含多個(gè)網(wǎng)頁(yè)條目,那么“網(wǎng)頁(yè)條目”語(yǔ)義屬性就是迭代語(yǔ)義屬性,每個(gè)網(wǎng)頁(yè)條目?jī)?nèi)部?jī)H包含一個(gè)標(biāo)題和摘要,那么“標(biāo)題”和“摘要”就是相對(duì)于父語(yǔ)義屬性“網(wǎng)頁(yè)條目”的非迭代語(yǔ)義屬性。本發(fā)明的技術(shù)方案是針對(duì)迭代語(yǔ)義屬性是連續(xù)出現(xiàn)的情況,也就是同一迭代語(yǔ)義屬性的兩個(gè)數(shù)據(jù)區(qū)之間不存在別的語(yǔ)義屬性的數(shù)據(jù)區(qū),通常用戶通過(guò)對(duì)抽取需求的簡(jiǎn)單組織,就可以滿足這種情況。將在父語(yǔ)義屬性的一個(gè)數(shù)據(jù)區(qū)中連續(xù)出現(xiàn)的同一迭代語(yǔ)義屬性的數(shù)據(jù)區(qū)集合稱為迭代語(yǔ)義屬性的迭代數(shù)據(jù)區(qū)。迭代數(shù)據(jù)區(qū)包含的各個(gè)數(shù)據(jù)區(qū)的最小公共父節(jié)點(diǎn)LCP(離DOM樹(shù)根節(jié)點(diǎn)最遠(yuǎn)的公共父節(jié)點(diǎn))作為迭代數(shù)據(jù)區(qū)節(jié)點(diǎn)。標(biāo)注是指用戶通過(guò)瀏覽器插件在網(wǎng)頁(yè)中選取其需要抽取的文本字段并為該文本字段添加用戶自定義的語(yǔ)義信息(即語(yǔ)義屬性)。被標(biāo)注上語(yǔ)義屬性的網(wǎng)頁(yè)稱為已標(biāo)注網(wǎng)頁(yè)。根據(jù)已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息,可以從已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中獲取到每個(gè)語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)。對(duì)于非迭代語(yǔ)義屬性,獲取到一個(gè)或多個(gè)最終標(biāo)注數(shù)據(jù)區(qū);對(duì)于迭代屬性,獲取到一個(gè)或多個(gè)最終標(biāo)注迭代數(shù)據(jù)區(qū)。每個(gè)語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中存在一個(gè)或多個(gè)最終標(biāo)注數(shù)據(jù)區(qū),也稱為該語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)集合,語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)集合中所有最終標(biāo)注數(shù)據(jù)區(qū)的開(kāi)始節(jié)點(diǎn)構(gòu)成該語(yǔ)義屬性的開(kāi)始節(jié)點(diǎn)集合(BNodeSet),所有最終標(biāo)注數(shù)據(jù)區(qū)的結(jié)束節(jié)點(diǎn)構(gòu)成該語(yǔ)義屬性的結(jié)束節(jié)點(diǎn)集合(ENodeSet)。語(yǔ)義屬性的開(kāi)始節(jié)點(diǎn)集合(BNodeSet)中所有節(jié)點(diǎn)的HTML標(biāo)簽名稱構(gòu)成該語(yǔ)義屬性的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合(BTagSet),語(yǔ)義屬性的結(jié)束節(jié)點(diǎn)集合(ENodeSet)中所有節(jié)點(diǎn)的HTML標(biāo)簽名稱構(gòu)成該語(yǔ)義屬性的結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合(ETagSet)。語(yǔ)義屬性的開(kāi)始節(jié)點(diǎn)集合(BNodeSet)中所有節(jié)點(diǎn)到其父語(yǔ)義屬性的數(shù)據(jù)區(qū)的根節(jié)點(diǎn)列表的相對(duì)路徑構(gòu)成該語(yǔ)義屬性的開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合(BPathSet),語(yǔ)義屬性的結(jié)束節(jié)點(diǎn)集合(ENodeSet)中所有節(jié)點(diǎn)到其父語(yǔ)義屬性的數(shù)據(jù)區(qū)的根節(jié)點(diǎn)列表的相對(duì)路徑構(gòu)成該語(yǔ)義屬性的結(jié)束節(jié)點(diǎn)相對(duì)路徑集合(EPathSet)。[0075]本發(fā)明的總設(shè)計(jì)思路為:[0076]用戶先對(duì)一個(gè)或多個(gè)同類(lèi)訓(xùn)練網(wǎng)頁(yè)進(jìn)行標(biāo)注,獲得對(duì)應(yīng)的已標(biāo)注網(wǎng)頁(yè);將用戶標(biāo)注的語(yǔ)義屬性添加到已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中合適的數(shù)據(jù)節(jié)點(diǎn)上,根據(jù)用戶標(biāo)注的語(yǔ)義屬性,生成每個(gè)已標(biāo)注網(wǎng)頁(yè)的語(yǔ)義結(jié)構(gòu)樹(shù),得到每個(gè)語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)。然后,對(duì)所有語(yǔ)義結(jié)構(gòu)樹(shù)進(jìn)行解析,通過(guò)將語(yǔ)義結(jié)構(gòu)樹(shù)中所有同名語(yǔ)義屬性節(jié)點(diǎn)整合為信息模式圖中同一個(gè)語(yǔ)義屬性節(jié)點(diǎn)的方式,來(lái)獲取所有已標(biāo)注網(wǎng)頁(yè)對(duì)應(yīng)的信息模式圖。對(duì)于信息模式圖中的每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),計(jì)算其對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)集合內(nèi)部包含的所有標(biāo)簽和標(biāo)簽屬性權(quán)重(父語(yǔ)義屬性的數(shù)據(jù)區(qū)內(nèi)部的標(biāo)簽和標(biāo)簽特征權(quán)重用于抽取該父語(yǔ)義屬性的所有子語(yǔ)義屬性)。然后,對(duì)于信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn),針對(duì)其對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)提取若干個(gè)具有區(qū)分度的DOM樹(shù)結(jié)構(gòu)特征,并為其在已標(biāo)注網(wǎng)頁(yè)中提取數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)的正負(fù)例,根據(jù)該語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的正負(fù)例的情況動(dòng)態(tài)調(diào)整這些DOM樹(shù)結(jié)構(gòu)特征的特征權(quán)重和分類(lèi)閾值,其中,分類(lèi)閾值用來(lái)過(guò)濾噪音數(shù)據(jù)區(qū),可以處理語(yǔ)義屬性缺失的情況。至此,包裝器的內(nèi)容生成完畢,將包裝器導(dǎo)出為包裝器文件,包裝器文件可以被用于抽取其它同類(lèi)網(wǎng)頁(yè)。抽取其它同類(lèi)網(wǎng)頁(yè)(待抽取網(wǎng)頁(yè))時(shí),根據(jù)信息模式圖,在待抽取網(wǎng)頁(yè)的DOM樹(shù)中逐層遞歸抽取每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。先選擇根語(yǔ)義屬性節(jié)點(diǎn)在待抽取網(wǎng)頁(yè)的DOM樹(shù)中的抽取數(shù)據(jù)區(qū),接著在根語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)中抽取其所有子語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū),再使用相同的方法抽取這些子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū),直到所有非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)被抽取完畢,結(jié)束。[0077]在上述的抽取過(guò)程中,先獨(dú)立地為父語(yǔ)義屬性節(jié)點(diǎn)的每個(gè)子語(yǔ)義屬性節(jié)點(diǎn)尋找其可能的抽取結(jié)果,也就是最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合,然后根據(jù)父語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從所有子語(yǔ)義屬性節(jié)點(diǎn)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中尋找整體最優(yōu)的抽取方案作為抽取結(jié)果。[0078]圖1為網(wǎng)頁(yè)信息的抽取方法的示意圖。包括:包裝器生成步驟(S11),獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)信息模式圖和語(yǔ)義屬性節(jié)點(diǎn)信息生成包裝器,將包裝器導(dǎo)出為包裝器文件;抽取器構(gòu)建步驟(S12),解析包裝器文件得到信息模式圖,構(gòu)建用于抽取已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;待抽取網(wǎng)頁(yè)抽取步驟(S13),獲得待抽取網(wǎng)頁(yè),構(gòu)建待抽取網(wǎng)頁(yè)的DOM樹(shù),抽取器在待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);其中,待抽取網(wǎng)頁(yè)為已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè);語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)抽取獲得抽取數(shù)據(jù)區(qū),語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)抽取獲得抽取迭代數(shù)據(jù)區(qū);數(shù)據(jù)導(dǎo)出步驟(S14),導(dǎo)出每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。[0079]具體流程如下:[0080]包裝器生成步驟S11,獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)信息模式圖和語(yǔ)義屬性節(jié)點(diǎn)信息生成包裝器,將包裝器導(dǎo)出為包裝器文件。包括:[0081]信息模式圖生成步驟,獲得已標(biāo)注網(wǎng)頁(yè),構(gòu)建已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù),根據(jù)已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,確定信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū);其中,語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū),語(yǔ)義節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)對(duì)應(yīng)最終標(biāo)注迭代數(shù)據(jù)區(qū);[0082]語(yǔ)義屬性節(jié)點(diǎn)信息生成步驟,對(duì)于每個(gè)語(yǔ)義屬性節(jié)點(diǎn),獲取和保存語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值;對(duì)于每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),獲取和保存非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序;其中,語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的特征樣本集合、特征權(quán)重和分類(lèi)閾值包括數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值,語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的特征樣本集合、特征權(quán)重和分類(lèi)閾值包括數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值以及迭代數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值;[0083]包裝器文件導(dǎo)出步驟,根據(jù)信息模式圖和語(yǔ)義屬性節(jié)點(diǎn)信息生成包裝器,將包裝器導(dǎo)出為包裝器文件,其中語(yǔ)義屬性節(jié)點(diǎn)信息包括每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值、非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序。[0084]抽取器構(gòu)建步驟S12,解析包裝器文件得到信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息,構(gòu)建用于抽取已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器。[0085]待抽取網(wǎng)頁(yè)抽取步驟S13,獲得待抽取網(wǎng)頁(yè),構(gòu)建待抽取網(wǎng)頁(yè)的DOM樹(shù),抽取器在待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);其中,待抽取網(wǎng)頁(yè)為已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè);語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)抽取獲得抽取數(shù)據(jù)區(qū),語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)抽取獲得抽取迭代數(shù)據(jù)區(qū)。包括:[0086]第一抽取步驟,對(duì)于信息模式圖的當(dāng)前非葉子語(yǔ)義屬性節(jié)點(diǎn),抽取器在非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中,尋找非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合;其中,子語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)獲取最終候選數(shù)據(jù)區(qū)集合,子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)獲取最終候選迭代數(shù)據(jù)區(qū)集合;[0087]尋找非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合的操作,包括:[0088]初始化非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的第一開(kāi)始節(jié)點(diǎn)集合和第一結(jié)束節(jié)點(diǎn)集合;利用非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合和結(jié)束節(jié)點(diǎn)相對(duì)路徑集合,分別對(duì)第一開(kāi)始節(jié)點(diǎn)集合和第一結(jié)束節(jié)點(diǎn)集合進(jìn)行過(guò)濾和匹配,產(chǎn)生第二開(kāi)始節(jié)點(diǎn)集合和第二結(jié)束節(jié)點(diǎn)集合;從第二開(kāi)始節(jié)點(diǎn)集合選擇一開(kāi)始節(jié)點(diǎn),從第二結(jié)束節(jié)點(diǎn)集合選擇一結(jié)束節(jié)點(diǎn),生成第一候選數(shù)據(jù)區(qū),形成非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的第一候選數(shù)據(jù)區(qū)集合;從第一候選數(shù)據(jù)區(qū)集合中刪除開(kāi)始節(jié)點(diǎn)出現(xiàn)在結(jié)束節(jié)點(diǎn)之后的第一候選數(shù)據(jù)區(qū),生成第二候選數(shù)據(jù)區(qū)集合;計(jì)算每個(gè)第二候選數(shù)據(jù)區(qū)集合的第二候選數(shù)據(jù)區(qū)的綜合得分,將綜合得分不小于非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)分類(lèi)閾值的第二候選數(shù)據(jù)區(qū)保留,生成第三候選數(shù)據(jù)區(qū)集合;如果非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn),則第三候選數(shù)據(jù)區(qū)集合為非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合,抽取子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合完成;如果非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn),使用貪心算法,從第三候選數(shù)據(jù)區(qū)集合中逐個(gè)選擇與已選擇的第三候選數(shù)據(jù)區(qū)互不且綜合得分最大的第三候選數(shù)據(jù)區(qū),直到無(wú)法選擇新的第三候選數(shù)據(jù)區(qū)為止,形成第四候選數(shù)據(jù)區(qū)集合;[0089]在第四候選數(shù)據(jù)區(qū)集合中,選擇任意兩個(gè)第四候選數(shù)據(jù)區(qū)作為開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū),開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū)以及之間的所有數(shù)據(jù)區(qū)構(gòu)成一個(gè)第一候選迭代數(shù)據(jù)區(qū),形成第一候選迭代數(shù)據(jù)區(qū)集合;[0090]對(duì)于第一候選迭代數(shù)據(jù)區(qū)集合中的每個(gè)第一候選迭代數(shù)據(jù)區(qū),根據(jù)第一候選迭代數(shù)據(jù)區(qū)的最小公共父節(jié)點(diǎn)計(jì)算第一候選迭代數(shù)據(jù)區(qū)的綜合得分,選擇綜合得分不小于非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的迭代數(shù)據(jù)區(qū)分類(lèi)閾值的第一候選迭代數(shù)據(jù)區(qū),構(gòu)成非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合,抽取對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合完成。[0091]第二抽取步驟,根據(jù)非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中選擇整體最優(yōu)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。具體而言,對(duì)于非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的每種出現(xiàn)順序,從非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中,為每個(gè)子語(yǔ)義屬性分別選擇至多一個(gè)滿足出現(xiàn)順序的最終候選數(shù)據(jù)區(qū)或者最終迭代候選數(shù)據(jù)區(qū)構(gòu)成一個(gè)候選抽取方案,形成出現(xiàn)順序?qū)?yīng)的候選抽取方案集合,其中候選抽取方案中不同子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)不重疊,從候選抽取方案集合中選擇綜合得分的和最大的候選抽取方案為出現(xiàn)順序?qū)?yīng)的最優(yōu)候選抽取方案;從非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序?qū)?yīng)的最優(yōu)候選抽取方案中選擇綜合得分的和最大的最優(yōu)候選抽取方案為最終抽取方案;最終抽取方案中的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。[0092]數(shù)據(jù)導(dǎo)出步驟S14,導(dǎo)出每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。[0093]圖2是圖1示意圖的總流程圖的實(shí)施例。包括:[0094]用戶標(biāo)注S21:用于對(duì)訓(xùn)練網(wǎng)頁(yè)S20進(jìn)行用戶標(biāo)注,生成已標(biāo)注網(wǎng)頁(yè)S22,構(gòu)建已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)DT。其中,用戶標(biāo)注的語(yǔ)義屬性被添加到已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)上,請(qǐng)參見(jiàn)圖7A、圖8A、圖9A、圖7B、圖8B和圖9B。訓(xùn)練網(wǎng)頁(yè)為一個(gè)或多個(gè)。[0095]圖7A、圖8A和圖9A分別顯示了同一已標(biāo)注網(wǎng)頁(yè)上的三個(gè)不同的“消息message”語(yǔ)義屬性。[0096]圖7A的“消息message”語(yǔ)義屬性為2層結(jié)構(gòu)。第I層為“消息message”;第2層中包括四個(gè)子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“作者author”、“位置location”、“發(fā)布時(shí)間publish_time”和“內(nèi)容content”。第I層的語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)中對(duì)應(yīng)的標(biāo)注信息為“AET:AB_message和AET:AE_message”;第2層的語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)中對(duì)應(yīng)的標(biāo)注信息分別為“AET:AB_author和AET:AE_author”、“AET:AB_location和AET:AE_location,,、“AET:AB_publish_time和AET:AE_publish_time,,和“AET:AB_content和AET:AE_content”,其中,“AET:AB_語(yǔ)義屬性”代表該語(yǔ)義屬性的開(kāi)始位置,“AET:AE_語(yǔ)義屬性”代表該語(yǔ)義屬性的結(jié)束位置。[0097]圖8A的“消息message”語(yǔ)義屬性分為3層結(jié)構(gòu)。第I層為“消息message”;第2層中包括五個(gè)子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“作者author”、“位置location”、“發(fā)布時(shí)間publish_time”、“回復(fù)消息ori_message”和“內(nèi)容content”;第3層中包括兩個(gè)子語(yǔ)義屬性,它們是第2層“回復(fù)消息orijnessage”的子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“作者author”和“內(nèi)容content”。[0098]圖9A的“消息message”語(yǔ)義屬性分為4層結(jié)構(gòu)。第I層為“消息message”;第2層中包括五個(gè)子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“位置location”、“作者author”、“發(fā)布時(shí)間publish_time”、“回復(fù)消息ori_message”和“內(nèi)容content”;第3層中包括三個(gè)子語(yǔ)義屬性,它們是第2層“回復(fù)消息orijnessage”的子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“作者author”、“內(nèi)容content”和“回復(fù)消息ori_message”;第4層中包括兩個(gè)子語(yǔ)義屬性,它們是第3層“回復(fù)消息orijnessage”的子語(yǔ)義屬性,它們的出現(xiàn)順序?yàn)?“作者author”和“內(nèi)容content”。[0099]圖7B、圖8B和圖9B分別顯示了圖7A、圖8A和圖9A對(duì)應(yīng)的已標(biāo)注網(wǎng)頁(yè)的三個(gè)不同的“消息message”語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中對(duì)應(yīng)的數(shù)據(jù)區(qū)的標(biāo)注情況。即已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中顯示了每個(gè)語(yǔ)義屬性對(duì)應(yīng)的用戶標(biāo)注的原始數(shù)據(jù)區(qū)。例如:“作者author”語(yǔ)義屬性的用戶標(biāo)注的原始數(shù)據(jù)區(qū)為標(biāo)注信息“AET:AB_auth0r”和“AET:AE_auth0r”之間的數(shù)據(jù)區(qū),“消息message”語(yǔ)義屬性的用戶標(biāo)注的原始數(shù)據(jù)區(qū)為標(biāo)注信息“AET:AB_message”和“AET:AE_message”之間的數(shù)據(jù)區(qū)。[0100]語(yǔ)義結(jié)構(gòu)樹(shù)生成S23:用于根據(jù)已標(biāo)注網(wǎng)頁(yè)S22上的標(biāo)注的語(yǔ)義屬性,生成已標(biāo)注網(wǎng)頁(yè)S22對(duì)應(yīng)的語(yǔ)義結(jié)構(gòu)樹(shù)ST,在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中為語(yǔ)義結(jié)構(gòu)樹(shù)的語(yǔ)義屬性節(jié)點(diǎn)選擇對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)Rnew。為每個(gè)已標(biāo)注網(wǎng)頁(yè)分別生成一棵語(yǔ)義結(jié)構(gòu)樹(shù)ST。圖10為根據(jù)圖7A、圖8A和圖9A的三個(gè)不同的“消息message”語(yǔ)義屬性和“根ROOT”語(yǔ)義屬性生成的語(yǔ)義結(jié)構(gòu)樹(shù),其中,對(duì)已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)的根節(jié)點(diǎn),也就是“html”節(jié)點(diǎn),標(biāo)注“根ROOT”語(yǔ)義屬性,再?gòu)囊褬?biāo)注網(wǎng)頁(yè)的DOM樹(shù)中提取所有標(biāo)注的語(yǔ)義屬性生成語(yǔ)義結(jié)構(gòu)樹(shù)(由于添加了根語(yǔ)義屬性節(jié)點(diǎn)“根R00T”,使用用戶標(biāo)注的所有語(yǔ)義屬性可以生成該已標(biāo)注網(wǎng)頁(yè)的語(yǔ)義結(jié)構(gòu)樹(shù))。[0101]最終標(biāo)注數(shù)據(jù)區(qū)Rmw要滿足以下條件:[0102]a)對(duì)于語(yǔ)義結(jié)構(gòu)樹(shù)的葉子語(yǔ)義屬性節(jié)點(diǎn),則其最終標(biāo)注數(shù)據(jù)區(qū)僅包含用戶針對(duì)該語(yǔ)義屬性選中的所有文本信息,而不包含非選中的文本信息(噪音信息)。[0103]b)對(duì)于語(yǔ)義結(jié)構(gòu)樹(shù)的非葉子語(yǔ)義屬性節(jié)點(diǎn),則其最終標(biāo)注數(shù)據(jù)區(qū)僅包含其所有子語(yǔ)義屬性節(jié)點(diǎn)的最終標(biāo)注數(shù)據(jù)區(qū)Rnew,而不包含其它語(yǔ)義屬性節(jié)點(diǎn)的數(shù)據(jù)區(qū)。[0104]c)兄弟語(yǔ)義屬性節(jié)點(diǎn)的最終標(biāo)注數(shù)據(jù)區(qū)之間不存在重疊。[0105]通常,語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)可以表示為已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的一棵子樹(shù),也就是說(shuō),語(yǔ)義屬性可以是單節(jié)點(diǎn)語(yǔ)義屬性,這樣的語(yǔ)義屬性抽取難度相對(duì)較低。另外,一般說(shuō)來(lái),子樹(shù)的根節(jié)點(diǎn)越接近已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)的根節(jié)點(diǎn),子樹(shù)根節(jié)點(diǎn)的局部結(jié)構(gòu)特點(diǎn)與網(wǎng)頁(yè)的具體內(nèi)容越不相關(guān),越可能是網(wǎng)頁(yè)的模板節(jié)點(diǎn),同類(lèi)網(wǎng)頁(yè)之間在該節(jié)點(diǎn)處出現(xiàn)變化的可能性越低,所以對(duì)語(yǔ)義屬性在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)的數(shù)據(jù)區(qū)進(jìn)行標(biāo)注位置調(diào)整的過(guò)程中,盡可能提升該子樹(shù)的根節(jié)點(diǎn)。[0106]在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中,為語(yǔ)義結(jié)構(gòu)樹(shù)的語(yǔ)義屬性節(jié)點(diǎn)選擇對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)Rnew的總設(shè)計(jì)思路如下:[0107]a)為語(yǔ)義結(jié)構(gòu)樹(shù)中的每個(gè)葉子語(yǔ)義屬性節(jié)點(diǎn)在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中尋找對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)。對(duì)于語(yǔ)義結(jié)構(gòu)樹(shù)中的葉子語(yǔ)義屬性節(jié)點(diǎn),找到該語(yǔ)義屬性節(jié)點(diǎn)的對(duì)應(yīng)的用戶標(biāo)注的原始數(shù)據(jù)區(qū)Rtjld必須包含的所有文本節(jié)點(diǎn)的最小公共父節(jié)點(diǎn)LCP,如果該父節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)不滿足上述的最終標(biāo)注數(shù)據(jù)區(qū)的條件,則說(shuō)明該父節(jié)點(diǎn)位置過(guò)高,降低位置,直到找到滿足條件的語(yǔ)義屬性節(jié)點(diǎn)的數(shù)據(jù)區(qū)的開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),結(jié)束;否則,如果該父節(jié)點(diǎn)沒(méi)有兄弟節(jié)點(diǎn),提升標(biāo)注位置到該父節(jié)點(diǎn)的父節(jié)點(diǎn),直到無(wú)法提升,結(jié)束。[0108]b)為語(yǔ)義結(jié)構(gòu)樹(shù)中的每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn)在已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中尋找對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)。對(duì)于語(yǔ)義結(jié)構(gòu)樹(shù)中的非葉子語(yǔ)義屬性節(jié)點(diǎn),找到該語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的最終標(biāo)注數(shù)據(jù)區(qū)的最小公共父節(jié)點(diǎn)LCP,同樣地,如果該父節(jié)點(diǎn)不滿足上述的最終標(biāo)注數(shù)據(jù)區(qū)的條件,則說(shuō)明該父節(jié)點(diǎn)位置過(guò)高,降低位置,直到找到滿足條件的語(yǔ)義屬性開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn),結(jié)束;否則,如果該父節(jié)點(diǎn)沒(méi)有兄弟節(jié)點(diǎn),提升標(biāo)注位置到該父節(jié)點(diǎn)的父節(jié)點(diǎn),直到無(wú)法提升,結(jié)束。[0109]圖3是對(duì)語(yǔ)義結(jié)構(gòu)樹(shù)的語(yǔ)義屬性節(jié)點(diǎn)選擇最終標(biāo)注數(shù)據(jù)區(qū)的流程圖的實(shí)施例。[0110]信息模式圖生成S24:用于根據(jù)語(yǔ)義結(jié)構(gòu)樹(shù)生成信息模式圖。[0111]設(shè)計(jì)思路為:根據(jù)語(yǔ)義結(jié)構(gòu)樹(shù)得到網(wǎng)頁(yè)的信息模式圖。信息模式圖是一個(gè)有向圖,為了表達(dá)網(wǎng)頁(yè)中可能出現(xiàn)的語(yǔ)義屬性嵌套模式,允許信息模式圖中包含環(huán)。為S23中每棵語(yǔ)義結(jié)構(gòu)樹(shù)的每個(gè)語(yǔ)義屬性在信息模式圖中建立一個(gè)語(yǔ)義屬性節(jié)點(diǎn),同名語(yǔ)義屬性在語(yǔ)義結(jié)構(gòu)樹(shù)中的多次出現(xiàn)對(duì)應(yīng)信息模式圖中的同一個(gè)語(yǔ)義屬性節(jié)點(diǎn)。對(duì)于語(yǔ)義結(jié)構(gòu)樹(shù)中語(yǔ)義屬性間的每個(gè)不同的‘父-子’關(guān)系,在信息模式圖中添加一條從父語(yǔ)義屬性節(jié)點(diǎn)指向子語(yǔ)義屬性節(jié)點(diǎn)的有向邊,這樣網(wǎng)頁(yè)的信息模式圖生成完畢。[0112]由于S30中的抽取是按層次進(jìn)行的,也就是沿著有向圖(信息模式圖)的邊指向的方向進(jìn)行抽取,每個(gè)語(yǔ)義屬性抽取完成后繼續(xù)抽取其子語(yǔ)義屬性。所以,在信息模式圖中的每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn)上需要存儲(chǔ)用于抽取其子語(yǔ)義屬性的相關(guān)信息,比如:其子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序、最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)的DOM樹(shù)結(jié)構(gòu)特征。[0113]信息模式圖中兄弟語(yǔ)義屬性之間往往是按照一定出現(xiàn)順序出現(xiàn)的,比如:新聞網(wǎng)頁(yè)的“新聞標(biāo)題”語(yǔ)義屬性就總是出現(xiàn)在“新聞?wù)摹闭Z(yǔ)義屬性之前;在某些情況下,出現(xiàn)順序是區(qū)分某些語(yǔ)義屬性的必要特征,比如網(wǎng)頁(yè)中同一表格(〈table〉)中不同列的信息?’另外,語(yǔ)義屬性的出現(xiàn)順序是并不唯一的,可能存在多種出現(xiàn)順序。對(duì)于一個(gè)父語(yǔ)義屬性,根據(jù)其所有用戶標(biāo)注信息,將其子語(yǔ)義屬性的所有可能的出現(xiàn)順序存儲(chǔ)在該父語(yǔ)義屬性的信息模式圖節(jié)點(diǎn)中,該出現(xiàn)順序被使用于S30。[0114]圖11是根據(jù)圖10的語(yǔ)義結(jié)構(gòu)樹(shù)生成的信息模式圖的實(shí)施例。其中,“消息message”語(yǔ)義屬性對(duì)應(yīng)圖10的三個(gè)“消息message”,為迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注迭代數(shù)據(jù)區(qū),即圖10的三個(gè)“消息message”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合;“作者author”語(yǔ)義屬性對(duì)應(yīng)圖10的第一個(gè)“消息message”的“作者author”、第二個(gè)“消息message”的“作者author”、第二個(gè)“消息message”的“回復(fù)消息ori_message”的“作者author”、第三個(gè)“消息message”的“作者author”、第三個(gè)“消息message”的“回復(fù)消息ori_message”的“作者author”、第三個(gè)“消息message”的“回復(fù)消息ori_message”的“回復(fù)消息ori_message”的“作者author”,為非迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū)集合,即圖10的六個(gè)“作者author”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合;“位置location”語(yǔ)義屬性對(duì)應(yīng)圖10的三個(gè)“位置location”,為非迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū)集合,即圖10的三個(gè)“位置location”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合;“發(fā)布時(shí)間publish_time”語(yǔ)義屬性對(duì)應(yīng)圖10的三個(gè)“發(fā)布時(shí)間pUbliSh_time”,為非迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū)集合,即圖10的三個(gè)“發(fā)布時(shí)間publish_time”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合;“回復(fù)消息ori_message”語(yǔ)義屬性對(duì)應(yīng)圖10的第二個(gè)“消息message”的“回復(fù)消息ori_message”、第三個(gè)“消息message”的“回復(fù)消息ori_message”、第三個(gè)“消息message”的“回復(fù)消息ori_message”的“回復(fù)消息orijnessage”,為非迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū)集合,即圖10的三個(gè)“回復(fù)消息orijnessage”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合;“內(nèi)容content”語(yǔ)義屬性對(duì)應(yīng)圖10的第一個(gè)“消息message”的“內(nèi)容content”、第二個(gè)“消息message”的“內(nèi)容content”、第二個(gè)“消息message”的“回復(fù)消息ori_message”的“內(nèi)容content”、第三個(gè)“消息message”的“內(nèi)容content”、第三個(gè)“消息message”的“回復(fù)消息ori_message”的“內(nèi)容content”、第三個(gè)“消息message”的“回復(fù)消息ori_message”的“回復(fù)消息ori_message”的“內(nèi)容content”,為非迭代語(yǔ)義屬性,對(duì)應(yīng)最終標(biāo)注數(shù)據(jù)區(qū)集合,即圖10的六個(gè)“內(nèi)容content”語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)的集合。[0115]圖11中,“回復(fù)消息ori_message”語(yǔ)義屬性節(jié)點(diǎn)為語(yǔ)義屬性嵌套模式,存在一條自身指向自身的邊,也就是存在環(huán)狀結(jié)構(gòu)。[0116]圖11中,“消息message”語(yǔ)義屬性的子語(yǔ)義屬性的全部順序?yàn)?I)“作者author”、“位置location”、“發(fā)布時(shí)間publish_time”和“內(nèi)容content”;2)“作者author”、“位置location”、“發(fā)布時(shí)間publish_time”、“回復(fù)消息ori_message”和“內(nèi)容content”;3)“位置location”、“作者author”、“發(fā)布時(shí)間publish_time”、“回復(fù)消息ori_message”和“內(nèi)容content”?!盎貜?fù)消息orijnessage”語(yǔ)義屬性的子語(yǔ)義屬性的全部順序?yàn)?1)“作者author”和“內(nèi)容content”;2)“作者author”、“內(nèi)容content”和“回復(fù)消息ori_message”。[0117]信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)上要保存對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)的開(kāi)始節(jié)點(diǎn)集合、結(jié)束節(jié)點(diǎn)集合、開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、開(kāi)始節(jié)點(diǎn)左兄弟節(jié)點(diǎn)序列集合、結(jié)束節(jié)點(diǎn)右兄弟節(jié)點(diǎn)序列集合和根節(jié)點(diǎn)序列集合,非葉子語(yǔ)義屬性節(jié)點(diǎn)上還要保存其子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序。此外,信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)上還要保存對(duì)應(yīng)的標(biāo)簽和標(biāo)簽屬性權(quán)重信息、特征樣本集合、特征權(quán)重和分類(lèi)閾值。[0118]標(biāo)簽和標(biāo)簽屬性權(quán)重計(jì)算S25:用于對(duì)信息模式圖的每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)中包含的標(biāo)簽和標(biāo)簽中包含的屬性進(jìn)行統(tǒng)計(jì),獲得標(biāo)簽和標(biāo)簽屬性的權(quán)重。[0119]設(shè)計(jì)思路為:數(shù)據(jù)區(qū)的不同的HTML標(biāo)簽和標(biāo)簽屬性值具有不同的區(qū)分度,比如:“hi”標(biāo)簽,通常包含的內(nèi)容是網(wǎng)頁(yè)的標(biāo)題,并且在很多網(wǎng)頁(yè)中只出現(xiàn)一次,那么在抽取這些網(wǎng)頁(yè)的標(biāo)題時(shí)“hi”就是一個(gè)區(qū)分度非常高的標(biāo)簽。本發(fā)明中,使用信息論中熵的思想來(lái)度量不同HTML標(biāo)簽和標(biāo)簽屬性的區(qū)分度,也就是信息量。由于S30的抽取階段是根據(jù)信息模式圖逐層遞歸地抽取的,所以關(guān)注的是抽取當(dāng)前層次時(shí)不同標(biāo)簽的區(qū)分度,是局部的區(qū)分度。對(duì)信息模式圖中的所有具有子語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性,分別計(jì)算其數(shù)據(jù)區(qū)內(nèi)包含的標(biāo)簽和標(biāo)簽屬性的權(quán)重,具體步驟如下:[0120]a)從已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中,獲取該語(yǔ)義屬性的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)。[0121]b)統(tǒng)計(jì)最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)中每個(gè)標(biāo)簽出現(xiàn)的次數(shù)η以及所有標(biāo)簽出現(xiàn)的總次數(shù)N。每個(gè)標(biāo)簽的權(quán)重為:[0122]weight=log(N+l/n+1),[0123]其中,加I是為了平滑那些沒(méi)有出現(xiàn)的標(biāo)簽,即對(duì)于該語(yǔ)義屬性,在最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)中沒(méi)有出現(xiàn)的標(biāo)簽的權(quán)重為log(N+l),weigh表示標(biāo)簽的權(quán)重,η和N為不小于O的整數(shù)。[0124]d)對(duì)每個(gè)標(biāo)簽內(nèi)部的不同標(biāo)簽屬性值,統(tǒng)計(jì)該標(biāo)簽出現(xiàn)的次數(shù)η以及該標(biāo)簽屬性出現(xiàn)的次數(shù)m,每個(gè)標(biāo)簽屬性的權(quán)重為:[0125]weight=log(n+l/m+1),[0126]其中,加I是為了平滑那些沒(méi)有出現(xiàn)的標(biāo)簽屬性,即對(duì)于該語(yǔ)義屬性的標(biāo)簽,在最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)的標(biāo)簽中沒(méi)有出現(xiàn)的標(biāo)簽屬性的權(quán)重為log(n+l),weigh表示標(biāo)簽屬性的權(quán)重,m和η為不小于O的整數(shù)。[0127]e)將上述標(biāo)簽和標(biāo)簽屬性權(quán)重存儲(chǔ)到信息模式圖該語(yǔ)義屬性節(jié)點(diǎn)上。[0128]特征權(quán)重和分類(lèi)閾值學(xué)習(xí)S26:用于對(duì)信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)特征權(quán)重和分類(lèi)閾值進(jìn)行學(xué)習(xí),獲得語(yǔ)義屬性節(jié)點(diǎn)的特征權(quán)重和分類(lèi)閾值,還要將語(yǔ)義屬性節(jié)點(diǎn)的特征樣本集合、特征權(quán)重和分類(lèi)閾值保存到信息模式圖該語(yǔ)義屬性節(jié)點(diǎn)上。其中,語(yǔ)義屬性節(jié)點(diǎn)為非迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的特征樣本集合、特征權(quán)重和分類(lèi)閾值包括數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值,語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性節(jié)點(diǎn)時(shí)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的特征樣本集合、特征權(quán)重和分類(lèi)閾值包括數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值以及迭代數(shù)據(jù)區(qū)特征樣本集合、特征權(quán)重和分類(lèi)閾值。[0129]設(shè)計(jì)思路為:抽取的實(shí)質(zhì)是語(yǔ)義屬性的數(shù)據(jù)區(qū)開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)的尋找。本發(fā)明給出了幾個(gè)DOM樹(shù)結(jié)構(gòu)特征的實(shí)施例,用于區(qū)分正確數(shù)據(jù)區(qū)和噪音數(shù)據(jù)區(qū),但不以此為限,可以根據(jù)實(shí)際的應(yīng)用場(chǎng)景添加其它特征。DOM樹(shù)結(jié)構(gòu)特征分別是:[0130]a)開(kāi)始和結(jié)束節(jié)點(diǎn)相對(duì)路徑的特征。[0131]b)開(kāi)始和結(jié)束節(jié)點(diǎn)的兄弟節(jié)點(diǎn)的特征:開(kāi)始節(jié)點(diǎn)的左兄弟節(jié)點(diǎn)序列和結(jié)束節(jié)點(diǎn)的右兄弟節(jié)點(diǎn)序列,序列中節(jié)點(diǎn)數(shù)最好不超過(guò)5個(gè)。[0132]c)數(shù)據(jù)區(qū)內(nèi)部的特征:最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū)的根節(jié)點(diǎn)序列集合[0133]這些都是較為簡(jiǎn)單的特征,都可以表示為標(biāo)簽序列,所以可以使用同樣的方式計(jì)算特征相似度。而且需要限制每個(gè)特征的標(biāo)簽序列的長(zhǎng)度。多特征的動(dòng)態(tài)組合使得他們具有較好的區(qū)分能力,上述特征的簡(jiǎn)單和簡(jiǎn)短性保證了本發(fā)明的抽取效率。[0134]對(duì)于任一開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)對(duì)構(gòu)成的數(shù)據(jù)區(qū),可以為其提取上述所有特征。同樣的,對(duì)于任一迭代數(shù)據(jù)區(qū),以迭代數(shù)據(jù)區(qū)節(jié)點(diǎn)作為開(kāi)始和結(jié)束節(jié)點(diǎn),也可以為其提取上述所有特征。[0135]本發(fā)明要提取每個(gè)語(yǔ)義屬性的所有最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注數(shù)據(jù)區(qū)的特征,構(gòu)成特征集合,把這個(gè)特征集合作為該語(yǔ)義屬性的特征樣本集合。如果語(yǔ)義屬性是非迭代語(yǔ)義屬性,對(duì)應(yīng)的特征樣本集合為數(shù)據(jù)區(qū)特征樣本集合,即所有最終標(biāo)注數(shù)據(jù)區(qū)的特征集合;如果語(yǔ)義屬性是迭代語(yǔ)義屬性,對(duì)應(yīng)的特征樣本集合包括兩種:數(shù)據(jù)區(qū)特征樣本集合和迭代數(shù)據(jù)區(qū)特征樣本集合,其中,數(shù)據(jù)區(qū)特征樣本集合為最終標(biāo)注迭代數(shù)據(jù)區(qū)包含的所有最終標(biāo)注數(shù)據(jù)區(qū)的特征集合,迭代數(shù)據(jù)區(qū)特征樣本集合為最終標(biāo)注迭代數(shù)據(jù)區(qū)節(jié)點(diǎn)的數(shù)據(jù)區(qū)的特征集合。[0136]給定一個(gè)語(yǔ)義屬性的特征樣本集合和特征權(quán)重,可以為一個(gè)數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)計(jì)算其在該語(yǔ)義屬性上的綜合得分。首先計(jì)算該數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)的每一個(gè)特征的特征得分,然后使用該語(yǔ)義屬性的數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)特征權(quán)重對(duì)該數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)的不同特征的特征得分進(jìn)行加權(quán)平均,得到綜合得分。在計(jì)算該數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)的每一個(gè)特征的特征得分時(shí),假設(shè)該數(shù)據(jù)區(qū)或者迭代數(shù)據(jù)區(qū)的當(dāng)前特征的標(biāo)簽序列是S0,該語(yǔ)義屬性的相應(yīng)特征的特征樣本集合為{Si,S2,…,SJ,使用基于編輯距離的最優(yōu)串匹配方法計(jì)算該特征樣本集合中每個(gè)標(biāo)簽序列Sk與Stl的相似度,相似度的計(jì)算公式為:【權(quán)利要求】1.一種網(wǎng)頁(yè)信息的抽取方法,其特征在于,包括:包裝器生成步驟,獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成所述信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為包裝器文件;抽取器構(gòu)建步驟,解析所述包裝器文件得到所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息,構(gòu)建用于抽取所述已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;待抽取網(wǎng)頁(yè)抽取步驟,獲得待抽取網(wǎng)頁(yè),構(gòu)建所述待抽取網(wǎng)頁(yè)的DOM樹(shù),所述抽取器在所述待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從所述信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);數(shù)據(jù)導(dǎo)出步驟,導(dǎo)出每個(gè)所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。2.如權(quán)利要求1所述的網(wǎng)頁(yè)信息的抽取方法,其特征在于,所述包裝器生成步驟進(jìn)一步為:所述信息模式圖生成步驟,獲得所述已標(biāo)注網(wǎng)頁(yè),構(gòu)建所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建所述信息模式圖,確定所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)在所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū);語(yǔ)義屬性節(jié)點(diǎn)信息生成步驟,對(duì)于所述每個(gè)語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值;對(duì)于每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序;`包裝器文件導(dǎo)出步驟,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為所述包裝器文件。3.如權(quán)利要求2所述的網(wǎng)頁(yè)信息的抽取方法,其特征在于,所述待抽取網(wǎng)頁(yè)抽取步驟的抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū),進(jìn)一步為:第一抽取步驟,對(duì)于所述信息模式圖的當(dāng)前非葉子語(yǔ)義屬性節(jié)點(diǎn),所述抽取器在所述非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中,尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合;第二抽取步驟,根據(jù)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中選擇整體最優(yōu)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);其中,所述根語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)為所述待抽取網(wǎng)頁(yè)DOM樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)。4.如權(quán)利要求3所述的網(wǎng)頁(yè)信息的抽取方法,其特征在于,所述第一抽取步驟中的尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合,進(jìn)一步為:對(duì)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)進(jìn)行開(kāi)始節(jié)點(diǎn)集合和結(jié)束節(jié)點(diǎn)集合的初始化、過(guò)濾、匹配和兩兩組合,生成第一候選數(shù)據(jù)區(qū)集合;在所述第一候選數(shù)據(jù)區(qū)中集合中,刪除開(kāi)始節(jié)點(diǎn)出現(xiàn)在結(jié)束節(jié)點(diǎn)之后的所述第一候選數(shù)據(jù)區(qū),生成第二候選數(shù)據(jù)區(qū)集合;使用所述第二候選數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)分類(lèi)閾值的所述第二候選數(shù)據(jù)區(qū),生成第三候選數(shù)據(jù)區(qū)集合,則所述第三候選數(shù)據(jù)區(qū)集合為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合,抽取所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合完成;如果所述子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性,使用貪心算法,從所述第三候選數(shù)據(jù)區(qū)集合中逐個(gè)選擇與已選擇的所述第三候選數(shù)據(jù)區(qū)互不重疊且綜合得分最大的所述第三候選數(shù)據(jù)區(qū),直到無(wú)法選擇新的所述第三候選數(shù)據(jù)區(qū)為止,生成第四候選數(shù)據(jù)區(qū)集合;對(duì)所述第四候選數(shù)據(jù)區(qū)集合進(jìn)行兩兩組合作為開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū),生成第一候選迭代數(shù)據(jù)區(qū)集合;使用所述第一候選迭代數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的迭代數(shù)據(jù)區(qū)分類(lèi)閾值的所述第一候選迭代數(shù)據(jù)區(qū)構(gòu)成所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合,抽取對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合完成。5.如權(quán)利要求4所述的網(wǎng)頁(yè)信息的抽取方法,其特征在于,所述第二抽取步驟進(jìn)一步為:對(duì)于所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的每種出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中,為每個(gè)子語(yǔ)義屬性分別選擇至多一個(gè)滿足所述出現(xiàn)順序的最終候選數(shù)據(jù)區(qū)或者最終迭代候選數(shù)據(jù)區(qū)構(gòu)成一個(gè)候選抽取方案,形成所述出現(xiàn)順序?qū)?yīng)的候選抽取方案集合,其中所述候選抽取方案中不同所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)或者所述最終候選迭代數(shù)據(jù)區(qū)不重疊,從所述候選抽取方案集合中選擇綜合得分的和最大的候選抽取方案為所述出現(xiàn)順`序?qū)?yīng)的最優(yōu)候選抽取方案;從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序?qū)?yīng)的所述最優(yōu)候選抽取方案中選擇綜合得分的和最大的所述最優(yōu)候選抽取方案為最終抽取方案;所述最終抽取方案中的所述最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)。6.—種網(wǎng)頁(yè)信息的抽取系統(tǒng),其特征在于,包括:包裝器生成模塊,用于獲得已標(biāo)注網(wǎng)頁(yè),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建信息模式圖,生成所述信息模式圖中每個(gè)語(yǔ)義屬性節(jié)點(diǎn)的語(yǔ)義屬性節(jié)點(diǎn)信息,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為包裝器文件;抽取器構(gòu)建模塊,用于解析所述包裝器文件得到所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息,構(gòu)建用于抽取所述已標(biāo)注網(wǎng)頁(yè)的同類(lèi)網(wǎng)頁(yè)的抽取器;待抽取網(wǎng)頁(yè)抽取模塊,用于獲得待抽取網(wǎng)頁(yè),構(gòu)建所述待抽取網(wǎng)頁(yè)的DOM樹(shù),所述抽取器在所述待抽取網(wǎng)頁(yè)的DOM樹(shù)中,從所述信息模式圖的根語(yǔ)義屬性節(jié)點(diǎn)開(kāi)始逐層遞歸抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);數(shù)據(jù)導(dǎo)出模塊,用于導(dǎo)出每個(gè)所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中的數(shù)據(jù)作為抽取結(jié)果。7.如權(quán)利要求6所述的網(wǎng)頁(yè)信息的抽取系統(tǒng),其特征在于,所述包裝器生成模塊包括:所述信息模式圖生成子模塊,用于獲得所述已標(biāo)注網(wǎng)頁(yè),構(gòu)建所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù),根據(jù)所述已標(biāo)注網(wǎng)頁(yè)中的標(biāo)注信息生成語(yǔ)義結(jié)構(gòu)樹(shù),根據(jù)所述語(yǔ)義結(jié)構(gòu)樹(shù)構(gòu)建所述信息模式圖,確定所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)在所述已標(biāo)注網(wǎng)頁(yè)的DOM樹(shù)中的最終標(biāo)注數(shù)據(jù)區(qū)或者最終標(biāo)注迭代數(shù)據(jù)區(qū);語(yǔ)義屬性節(jié)點(diǎn)信息生成子模塊,用于對(duì)于所述每個(gè)語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的開(kāi)始節(jié)點(diǎn)標(biāo)簽名稱集合、結(jié)束節(jié)點(diǎn)標(biāo)簽名稱集合、開(kāi)始節(jié)點(diǎn)相對(duì)路徑集合、結(jié)束節(jié)點(diǎn)相對(duì)路徑集合、特征樣本集合、特征權(quán)重和分類(lèi)閾值;對(duì)于每個(gè)非葉子語(yǔ)義屬性節(jié)點(diǎn),獲取和保存所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的標(biāo)簽權(quán)重和標(biāo)簽屬性權(quán)重以及子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序;包裝器文件導(dǎo)出子模塊,根據(jù)所述信息模式圖和所述語(yǔ)義屬性節(jié)點(diǎn)信息生成所述包裝器,將所述包裝器導(dǎo)出為所述包裝器文件。8.如權(quán)利要求7所述的網(wǎng)頁(yè)信息的抽取系統(tǒng),其特征在于,所述待抽取網(wǎng)頁(yè)抽取模塊的抽取所述信息模式圖的每個(gè)語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)包括:第一抽取子模塊,用于對(duì)于所述信息模式圖的當(dāng)前非葉子語(yǔ)義屬性節(jié)點(diǎn),所述抽取器在所述非葉子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)中,尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合;第二抽取子模塊,用于根據(jù)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中選擇整體最優(yōu)的最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū);`其中,所述根語(yǔ)義屬性節(jié)點(diǎn)的抽取數(shù)據(jù)區(qū)為所述待抽取網(wǎng)頁(yè)DOM樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)。9.如權(quán)利要求8所述的網(wǎng)頁(yè)信息的抽取方法,其特征在于,所述第一抽取子模塊中的尋找所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合,進(jìn)一步用于:對(duì)所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)進(jìn)行開(kāi)始節(jié)點(diǎn)集合和結(jié)束節(jié)點(diǎn)集合的初始化、過(guò)濾、匹配和兩兩組合,生成第一候選數(shù)據(jù)區(qū)集合;在所述第一候選數(shù)據(jù)區(qū)中集合中,刪除開(kāi)始節(jié)點(diǎn)出現(xiàn)在結(jié)束節(jié)點(diǎn)之后的所述第一候選數(shù)據(jù)區(qū),生成第二候選數(shù)據(jù)區(qū)集合;使用所述第二候選數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)區(qū)分類(lèi)閾值的所述第二候選數(shù)據(jù)區(qū),生成第三候選數(shù)據(jù)區(qū)集合,則所述第三候選數(shù)據(jù)區(qū)集合為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合,抽取所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選數(shù)據(jù)區(qū)集合完成;如果所述子語(yǔ)義屬性節(jié)點(diǎn)為迭代語(yǔ)義屬性,使用貪心算法,從所述第三候選數(shù)據(jù)區(qū)集合中逐個(gè)選擇與已選擇的所述第三候選數(shù)據(jù)區(qū)互不重疊且綜合得分最大的所述第三候選數(shù)據(jù)區(qū),直到無(wú)法選擇新的所述第三候選數(shù)據(jù)區(qū)為止,生成第四候選數(shù)據(jù)區(qū)集合;對(duì)所述第四候選數(shù)據(jù)區(qū)集合進(jìn)行兩兩組合作為開(kāi)始數(shù)據(jù)區(qū)和結(jié)束數(shù)據(jù)區(qū),生成第一候選迭代數(shù)據(jù)區(qū)集合;使用所述第一候選迭代數(shù)據(jù)區(qū)集合中綜合得分不小于所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的迭代數(shù)據(jù)區(qū)分類(lèi)閾值的所述第一候選迭代數(shù)據(jù)區(qū)構(gòu)成所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合,抽取對(duì)應(yīng)的最終候選迭代數(shù)據(jù)區(qū)集合完成。10.如權(quán)利要求9所述的網(wǎng)頁(yè)信息的抽取系統(tǒng),其特征在于,所述第二抽取子模塊進(jìn)一步用于:對(duì)于所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)的每種出現(xiàn)順序,從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的所有子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)集合或者最終候選迭代數(shù)據(jù)區(qū)集合中,為每個(gè)子語(yǔ)義屬性分別選擇至多一個(gè)滿足所述出現(xiàn)順序的最終候選數(shù)據(jù)區(qū)或者最終迭代候選數(shù)據(jù)區(qū)構(gòu)成一個(gè)候選抽取方案,形成所述出現(xiàn)順序?qū)?yīng)的候選抽取方案集合,其中所述候選抽取方案中不同所述子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的所述最終候選數(shù)據(jù)區(qū)或者所述最終候選迭代數(shù)據(jù)區(qū)不重疊,從所述候選抽取方案集合中選擇綜合得分的和最大的候選抽取方案為所述出現(xiàn)順序?qū)?yīng)的最優(yōu)候選抽取方案;從所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)的全部出現(xiàn)順序?qū)?yīng)的所述最優(yōu)候選抽取方案中選擇綜合得分的和最大的所述最優(yōu)候選抽取方案為最終抽取方案;所述最終抽取方案中的所述最終候選數(shù)據(jù)區(qū)或者最終候選迭代數(shù)據(jù)區(qū)作為所述非葉子語(yǔ)義屬性節(jié)點(diǎn)的子語(yǔ)義屬性節(jié)點(diǎn)對(duì)應(yīng)的抽取數(shù)據(jù)區(qū)或者抽取迭代數(shù)據(jù)區(qū)?!疚臋n編號(hào)】G06F17/30GK103870506SQ201210548678【公開(kāi)日】2014年6月18日申請(qǐng)日期:2012年12月17日優(yōu)先權(quán)日:2012年12月17日【發(fā)明者】程學(xué)旗,萬(wàn)圣賢,余鈞,郭巖,劉悅,張瑾,余智華申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所