網(wǎng)頁內(nèi)容抽取方法和網(wǎng)頁內(nèi)容抽取系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種網(wǎng)頁內(nèi)容抽取方法和和網(wǎng)頁內(nèi)容抽取系統(tǒng)。該網(wǎng)頁內(nèi)容抽取方法包括:提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu);遍歷DOM樹,獲取DOM樹中各結(jié)點(diǎn)的維度特征;將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊;按照結(jié)構(gòu)分塊選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。利用本發(fā)明的技術(shù)方案,根據(jù)網(wǎng)頁的DOM樹結(jié)構(gòu)進(jìn)行結(jié)構(gòu)分塊,根據(jù)結(jié)構(gòu)分塊過濾掉無關(guān)塊的內(nèi)容,抽取出需要的分塊的網(wǎng)頁內(nèi)容,分塊和抽取過程中不需要使用人工規(guī)則,解決了人工規(guī)則效率低、維護(hù)復(fù)雜的問題。
【專利說明】網(wǎng)頁內(nèi)容抽取方法和網(wǎng)頁內(nèi)容抽取系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)頁內(nèi)容抽取方法和網(wǎng)頁內(nèi)容抽取系統(tǒng)。
【背景技術(shù)】
[0002]一般而言,網(wǎng)頁包含的信息豐富而復(fù)雜,可以包括有導(dǎo)航、標(biāo)題、正文、時(shí)間、甚至廣告等內(nèi)容。為了在網(wǎng)頁中抽取有效的內(nèi)容,就需要對(duì)網(wǎng)頁進(jìn)行精細(xì)的分析。在現(xiàn)有技術(shù)中,對(duì)網(wǎng)頁內(nèi)容抽取的方法存在兩種處理方式。
[0003]第一種為利用人工設(shè)置規(guī)則對(duì)頁面中固定某一區(qū)域的內(nèi)容進(jìn)行抽取,
[0004]第二種為人為地對(duì)頁面編譯語言進(jìn)行手工標(biāo)注從而形成網(wǎng)頁構(gòu)造模板,對(duì)于大多數(shù)簡易的網(wǎng)頁可以基于網(wǎng)頁信息的位置總結(jié)出一定的模板形式,這樣在抽取一網(wǎng)頁信息時(shí),只需要按照該網(wǎng)頁對(duì)應(yīng)的模板抽取相應(yīng)的內(nèi)容。
[0005]上述兩種處理方式效率都較低,且存在通用性差,普適性不高的問題,尤其目前互聯(lián)網(wǎng)中的網(wǎng)頁形式千差萬別,網(wǎng)頁特征維度越來越大,甚至可以達(dá)到上百個(gè)維度,要從復(fù)雜的網(wǎng)頁中總結(jié)出符合條件的經(jīng)驗(yàn)公式或者建立標(biāo)注模板,都是非常困難的。另外,對(duì)于維度較多的網(wǎng)頁特征,編寫出的人工規(guī)則必然也是十分繁雜,維護(hù)十分復(fù)雜;而且在網(wǎng)站改版時(shí),此前的模板可能失效,從而導(dǎo)致抽取的內(nèi)容出現(xiàn)偏差。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁內(nèi)容抽取系統(tǒng)和相應(yīng)的網(wǎng)頁內(nèi)容抽取方法。
[0007]依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁內(nèi)容抽取方法。該網(wǎng)頁內(nèi)容抽取方法包括:提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu);遍歷DOM樹,獲取DOM樹中各結(jié)點(diǎn)的維度特征;將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊;按照結(jié)構(gòu)分塊選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
[0008]可選地,遍歷DOM樹進(jìn)一步包括:對(duì)DOM樹進(jìn)行后跟遍歷,并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征和/或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征。
[0009]可選地,將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹進(jìn)一步包括:按照先跟遍歷的順序依次將DOM樹中各結(jié)點(diǎn)的維度特征輸入決策樹。
[0010]可選地,根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊的步驟進(jìn)一步包括:根據(jù)決策樹對(duì)DOM樹中各結(jié)點(diǎn)的分類結(jié)果構(gòu)建網(wǎng)頁的第一分塊序列,其中第一分塊序列包括多個(gè)結(jié)構(gòu)分塊;將第一分塊序列輸入條件隨機(jī)場進(jìn)行優(yōu)化計(jì)算,得到第二分塊序列,其中第二分塊序列包括一個(gè)或多個(gè)經(jīng)優(yōu)化后的結(jié)構(gòu)分塊。
[0011]可選地,結(jié)點(diǎn)的維度特征至少包括以下的任意一項(xiàng)或多項(xiàng):文本長度、超鏈接個(gè)數(shù)、超鏈接文本長度、高亮文本長度、中文字符長度、英文字符長度、數(shù)字字符長度、特定關(guān)鍵詞、特定標(biāo)點(diǎn)符號(hào)。
[0012]可選地,網(wǎng)頁結(jié)構(gòu)分塊的類型至少包括以下的任意一項(xiàng)或多項(xiàng):導(dǎo)航塊、標(biāo)題塊、正文塊、日期塊、時(shí)間塊、廣告塊、作者信息塊、垃圾塊、目錄塊。
[0013]根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁內(nèi)容抽取系統(tǒng)。該網(wǎng)頁內(nèi)容抽取系統(tǒng)包括:D0M樹提取器,適于提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu);D0M樹遍歷器,適于遍歷DOM樹,獲取DOM樹中各結(jié)點(diǎn)的維度特征;決策樹分類器,適于將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊;內(nèi)容抽取器,適于從按照網(wǎng)頁結(jié)構(gòu)分塊中選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
[0014]可選地,DOM樹遍歷器還適于:對(duì)DOM樹進(jìn)行后跟遍歷,并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征和/或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征。
[0015]可選地,決策樹分類器進(jìn)一步包括:輸入模塊,適于按照先跟遍歷的順序依次將DOM樹中各結(jié)點(diǎn)的維度特征輸入決策樹。
[0016]可選地,本發(fā)明提供的網(wǎng)頁內(nèi)容抽取系統(tǒng)進(jìn)一步包括:條件隨機(jī)場處理器,適于對(duì)第一分塊序列進(jìn)行優(yōu)化計(jì)算,輸出第二分塊序列,其中第一分塊序列由決策樹計(jì)算器輸出網(wǎng)頁的結(jié)構(gòu)分塊構(gòu)建,包括多個(gè)結(jié)構(gòu)分塊,第二分塊序列包括一個(gè)或多個(gè)經(jīng)優(yōu)化的分塊。
[0017]本發(fā)明的網(wǎng)頁內(nèi)容抽取方法根據(jù)網(wǎng)頁的DOM樹結(jié)構(gòu)進(jìn)行結(jié)構(gòu)分塊,根據(jù)結(jié)構(gòu)分塊過濾掉無關(guān)塊的內(nèi)容,抽取出需要的分塊的網(wǎng)頁內(nèi)容,分塊和抽取過程中不需要使用人工規(guī)則,解決了人工規(guī)則效率低、維護(hù)復(fù)雜的問題。
[0018]進(jìn)一步地,本發(fā)明的網(wǎng)頁內(nèi)容抽取方法中遍歷得到DOM樹結(jié)點(diǎn)的維度特征,經(jīng)過決策樹的分類以及條件隨機(jī)場的優(yōu)化計(jì)算,分塊準(zhǔn)確度高,能夠滿足對(duì)復(fù)雜多變的網(wǎng)頁進(jìn)行處理的需要。
[0019]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
[0020]根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
【專利附圖】
【附圖說明】
[0021]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0022]圖1示出了一種常見的頁面結(jié)構(gòu)的分塊示意圖;
[0023]圖2示出了另一種常見的頁面結(jié)構(gòu)的分塊示意圖;
[0024]圖3示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取系統(tǒng)100的框圖;
[0025]圖4示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取方法的流程圖;以及
[0026]圖5至圖8示意性地示出了利用本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取方法過程中網(wǎng)頁元素的變化過程。【具體實(shí)施方式】
[0027]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0028]本發(fā)明實(shí)施例的技術(shù)方案是基于對(duì)頁面分塊提出,也就是將頁面按照內(nèi)容劃分成不同類型的“塊”。圖1和圖2分別示出了兩種常見的頁面結(jié)構(gòu),其中,圖1示出的論壇網(wǎng)站的頁面被分為8個(gè)塊,分別為:導(dǎo)航塊、垃圾塊、翻頁、垃圾塊、標(biāo)題塊、作者信息塊、發(fā)表日期塊、正文塊。網(wǎng)站的功能和作用不同,其結(jié)構(gòu)分塊也是不同的,在圖2示出的新聞網(wǎng)站的頁面結(jié)構(gòu)較為簡單,可以分為導(dǎo)航塊、標(biāo)題塊、時(shí)間塊、正文塊等。一般而言,正文塊中包含的內(nèi)容是整個(gè)頁面的核心內(nèi)容,也是需要抽取的網(wǎng)頁內(nèi)容。除以上兩個(gè)典型頁面中的分塊夕卜,根據(jù)頁面的內(nèi)容和版面可以靈活地增加或減少頁面分塊。
[0029]在確定出頁面的分塊類型后,可以使用本發(fā)明實(shí)施例提供的網(wǎng)頁內(nèi)容抽取系統(tǒng)和網(wǎng)頁內(nèi)容抽取方法,查找出需要抽取的頁面分塊,抽取該分塊內(nèi)相應(yīng)的網(wǎng)頁內(nèi)容。無需人工制定規(guī)則或人工標(biāo)注,分塊準(zhǔn)確度高,能夠滿足對(duì)復(fù)雜多變的網(wǎng)頁進(jìn)行處理的需要。
[0030]圖3示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取系統(tǒng)100的框圖。如圖3所示,網(wǎng)頁內(nèi)容抽取系統(tǒng)100包括:D0M樹提取器110、D0M樹遍歷器120、決策樹分類器130、內(nèi)容抽取器130。其中,DOM樹遍歷器120適于遍歷DOM樹,獲取DOM樹中各結(jié)點(diǎn)的維度特征;決策樹分類器130適于將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊;內(nèi)容抽取器130適于從按照網(wǎng)頁結(jié)構(gòu)分塊中選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
[0031]以上DOM樹提取器110可以提取出網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu)。DOM是文檔對(duì)象模型(Document Object Model)的英文縮寫。根據(jù)W3C DOM規(guī)范,DOM是一種與瀏覽器、平臺(tái)、語言無關(guān)的接口,利用DOM可以方便訪問頁面其他的標(biāo)準(zhǔn)組件。DOM是以層次結(jié)構(gòu)組織的結(jié)點(diǎn)或信息片斷的集合。這個(gè)層次結(jié)構(gòu)允許開發(fā)人員在樹中導(dǎo)航尋找特定信息。分析DOM結(jié)構(gòu)通常需要加載整個(gè)文檔和構(gòu)造層次結(jié)構(gòu)。并且由于它是基于信息層次的,因而DOM被認(rèn)為是基于樹或基于對(duì)象的。DOM把HTML文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu)。在得到目標(biāo)的網(wǎng)頁后,DOM樹提取器110可以使用Webkit等瀏覽器引擎,分析網(wǎng)頁的HTML文檔,將網(wǎng)頁解析成DOM樹。
[0032]DOM樹遍歷器120遍歷由DOM樹提取器110得出的DOM樹,獲取該DOM樹中各結(jié)點(diǎn)的維度特征。在本實(shí)施例中,可以使用的維度特征多達(dá)105個(gè),主要涉及以下內(nèi)容:文本長度、超鏈接個(gè)數(shù)、超鏈接文本長度、高亮文本長度(包含加大加粗的文字)、各種特殊字符個(gè)數(shù)、中文、英文、數(shù)字字符長度、是否出現(xiàn)關(guān)鍵詞或特定符號(hào),以及管檢測或特定符號(hào)出現(xiàn)頻率等。
[0033]DOM樹遍歷器120遍歷DOM樹的過程可以采用后跟遍歷的方式進(jìn)行,并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征。后跟遍歷的遍歷順序?yàn)?依次遍歷左子樹、右子樹、根結(jié)點(diǎn),采用這種方式進(jìn)行遍歷,獲取父結(jié)點(diǎn)的維度特征時(shí),可以通過累加子結(jié)點(diǎn)的特征進(jìn)行,避免了重復(fù)計(jì)算。其中,當(dāng)前遍歷結(jié)點(diǎn)自身不帶有維度特征時(shí),該結(jié)點(diǎn)的維度特征通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到。在當(dāng)前遍歷結(jié)點(diǎn)自身帶有維度特征時(shí),該結(jié)點(diǎn)的維度特征通過訪問根結(jié)點(diǎn)累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到。通過遍歷可以得到DOM樹所有結(jié)點(diǎn)的維度特征。
[0034]決策樹分類器130中可以包括輸入模塊,該輸入模塊將DOM樹遍歷器120輸出的各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹對(duì)各結(jié)點(diǎn)進(jìn)行分類,以上預(yù)定規(guī)則可以優(yōu)選采用先跟遍歷的方式進(jìn)行,依次將一個(gè)結(jié)點(diǎn)最多105個(gè)維度特征輸入決策樹。先跟遍歷的遍歷順序?yàn)?依次遍歷根結(jié)點(diǎn)、左子樹、右子樹、采用這種方式進(jìn)行遍歷。利用決策樹進(jìn)行頁面的初步分塊,得到第一分塊序列。
[0035]決策樹是在已知各種分塊中各種維度特征的統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,通過構(gòu)成決策樹來利用結(jié)點(diǎn)的維度特征得出DOM中結(jié)點(diǎn)對(duì)應(yīng)的分塊類型。進(jìn)一步地,本實(shí)施例的網(wǎng)頁內(nèi)容抽取系統(tǒng)還可以包括:條件隨機(jī)場處理器,適于對(duì)上述決策樹分類器130得出的第一分塊序列進(jìn)行優(yōu)化計(jì)算,輸出第二分塊序列,其中第一分塊序列由決策樹計(jì)算器輸出網(wǎng)頁的結(jié)構(gòu)分塊構(gòu)建,包括多個(gè)結(jié)構(gòu)分塊,第二分塊序列包括一個(gè)或多個(gè)經(jīng)優(yōu)化的分塊。
[0036]條件隨機(jī)場處理器,利用條件隨機(jī)場(conditional random fields,簡稱CRF)對(duì)分塊序列進(jìn)行優(yōu)化計(jì)算,提高分塊的準(zhǔn)確率和召回率,其中,將決策樹計(jì)算器輸出網(wǎng)頁的結(jié)構(gòu)分塊構(gòu)建的第一分塊序列作為CRF的輸入,CRF在給定需要標(biāo)記的觀察序列的條件下,計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布,即輸入給定觀察序列,求取最佳序列。從而因此利用CRF可以對(duì)決策樹的分類結(jié)果進(jìn)行糾正,提高了分塊效果。
[0037]內(nèi)容抽取器130按照決策樹分類器130確定出的網(wǎng)頁結(jié)構(gòu)分塊,選擇性地抽取相應(yīng)分中的網(wǎng)頁內(nèi)容,從而得到需要要信息,完成網(wǎng)頁內(nèi)容的抽取。
[0038]本實(shí)施例還提供了一種網(wǎng)頁內(nèi)容抽取方法,該網(wǎng)頁內(nèi)容抽取方法可以由以上介紹的任一種網(wǎng)頁內(nèi)容抽取系統(tǒng)執(zhí)行,利用DOM樹進(jìn)行頁面分塊,并抽取對(duì)應(yīng)分塊的網(wǎng)頁內(nèi)容。圖4示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取方法的流程圖。如圖4所示,該網(wǎng)頁內(nèi)容抽取方法包括:
[0039]步驟S402,提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu);
[0040]步驟S404,遍歷DOM樹,獲取DOM樹中各結(jié)點(diǎn)的維度特征;
[0041]步驟S406,將各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)決策樹的分類結(jié)果確定網(wǎng)頁的結(jié)構(gòu)分塊;
[0042]步驟S408,按照結(jié)構(gòu)分塊選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
[0043]在以上步驟中,步驟S402具體采用對(duì)DOM樹進(jìn)行后跟遍歷的方式進(jìn)行DOM樹的遍歷,而且并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征和/或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到當(dāng)前遍歷結(jié)點(diǎn)的維度特征。采用后跟遍歷的遍歷方式,在獲取當(dāng)前結(jié)點(diǎn)的維度特征時(shí),可以通過累加其子結(jié)點(diǎn)的特征進(jìn)行,避免了重復(fù)計(jì)算。例如,當(dāng)前遍歷結(jié)點(diǎn)自身不帶有維度特征時(shí),該結(jié)點(diǎn)的維度特征通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到。在當(dāng)前遍歷結(jié)點(diǎn)自身帶有維度特征時(shí),該結(jié)點(diǎn)的維度特征通過訪問根結(jié)點(diǎn)累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到。從而可以得到DOM樹所有結(jié)點(diǎn)的維度特征。
[0044]以上結(jié)點(diǎn)的維度特征至少包括以下的任意一項(xiàng)或多項(xiàng):文本長度、超鏈接個(gè)數(shù)、超鏈接文本長度、高亮文本長度、中文字符長度、英文字符長度、數(shù)字字符長度、特定關(guān)鍵詞、特定標(biāo)點(diǎn)符號(hào)。在本實(shí)施例中可以使用的維度特征多達(dá)105個(gè)。
[0045]步驟S406中輸入決策樹的步驟具體可以采用按照先跟遍歷的順序依次將DOM樹中各結(jié)點(diǎn)的維度特征輸入決策樹,利用決策樹根據(jù)維度特征對(duì)結(jié)點(diǎn)進(jìn)行分類,根據(jù)決策樹對(duì)DOM樹中各結(jié)點(diǎn)的分類結(jié)果構(gòu)建網(wǎng)頁的第一分塊序列,將第一分塊序列輸入條件隨機(jī)場進(jìn)行優(yōu)化計(jì)算,得到第二分塊序列。經(jīng)過條件隨機(jī)場的計(jì)算,糾正決策樹輸出的第一分塊序列可能出現(xiàn)的錯(cuò)誤,提高了分塊準(zhǔn)確程度。
[0046]以上網(wǎng)頁的結(jié)構(gòu)分塊可能包括以下任意一項(xiàng)或多項(xiàng):導(dǎo)航塊、標(biāo)題塊、正文塊、日期塊、時(shí)間塊、廣告塊、作者信息塊、垃圾塊、目錄塊。具體的網(wǎng)頁分塊,可以根據(jù)網(wǎng)頁根據(jù)頁面的內(nèi)容和版面可以靈活地增加或減少頁面分塊,以上第一分塊序列和第二分塊序列相當(dāng)于構(gòu)成了網(wǎng)頁結(jié)構(gòu)的“模板”。經(jīng)過分塊,對(duì)網(wǎng)頁內(nèi)容進(jìn)行了分解,便于對(duì)需要的內(nèi)容進(jìn)行抽取。
[0047]圖5至圖8示意性地示出了利用本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁內(nèi)容抽取方法過程中網(wǎng)頁元素的變化過程。其中,圖5示出了將HTML文檔構(gòu)建為DOM樹的過程,在DOM樹中,BODY代表了文檔的主體,DIV和SPAN是網(wǎng)頁中的塊級(jí)元素,A、A、P、B分別代表了 DIV和SPAN內(nèi)更下一級(jí)的元素。
[0048]得到類似于圖5的DOM樹后,進(jìn)行后跟遍歷,圖6示出了 DOM樹進(jìn)行后跟遍歷的順序,根據(jù)圖中示出的順序,可以依次得到B、SPAN、P、A、A、DIV、BODY各個(gè)結(jié)點(diǎn)的維度特征。
[0049]圖7示出了經(jīng)過決策樹運(yùn)算得到的第一分塊序列,在該序列中得到分塊結(jié)果依次為導(dǎo)航塊、正文塊、時(shí)間塊、正文塊,出現(xiàn)了兩個(gè)正文塊,因此需要對(duì)決策樹的初步分塊結(jié)果進(jìn)行優(yōu)化和糾正。將第一分塊序列的結(jié)果作為隨機(jī)條件場的輸入,進(jìn)行優(yōu)化運(yùn)算,運(yùn)算優(yōu)化的輸出結(jié)果為第二分塊序列,該如圖8所示,第二分塊序列的分塊結(jié)果為導(dǎo)航塊、標(biāo)題塊、時(shí)間塊、正文塊。
[0050]根據(jù)內(nèi)容抽取的需要,按照第二分塊序列的分塊結(jié)果可以將正文塊的內(nèi)容進(jìn)行抽取,得到需要的信息。
[0051]本實(shí)施例的網(wǎng)頁內(nèi)容抽取方法和網(wǎng)頁抽取系統(tǒng)根據(jù)網(wǎng)頁的DOM樹結(jié)構(gòu)進(jìn)行結(jié)構(gòu)分塊,根據(jù)結(jié)構(gòu)分塊過濾掉無關(guān)塊的內(nèi)容,抽取出需要的分塊的網(wǎng)頁內(nèi)容,分塊和抽取過程中不需要使用人工規(guī)則,解決了人工規(guī)則效率低、維護(hù)復(fù)雜的問題。
[0052]進(jìn)一步地,本發(fā)明的網(wǎng)頁內(nèi)容抽取方法中遍歷得到DOM樹結(jié)點(diǎn)的維度特征,經(jīng)過決策樹的分類以及條件隨機(jī)場的優(yōu)化計(jì)算,分塊準(zhǔn)確度高,能夠滿足對(duì)復(fù)雜多變的網(wǎng)頁進(jìn)行處理的需要。
[0053]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0054]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0055]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0056]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0057]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁抽取系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0058]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0059]至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
【權(quán)利要求】
1.一種網(wǎng)頁內(nèi)容抽取方法,包括: 提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu); 遍歷所述DOM樹,獲取所述DOM樹中各結(jié)點(diǎn)的維度特征; 將所述各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)所述各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)所述決策樹的分類結(jié)果確定所述網(wǎng)頁的結(jié)構(gòu)分塊; 按照所述結(jié)構(gòu)分塊選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁內(nèi)容抽取方法,其中,遍歷所述DOM樹進(jìn)一步包括:對(duì)所述DOM樹進(jìn)行后跟遍歷,并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到所述當(dāng)前遍歷結(jié)點(diǎn)的維度特征和/或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到所述當(dāng)前遍歷結(jié)點(diǎn)的維度特征。
3.根據(jù)權(quán)利要求1所述的網(wǎng)頁內(nèi)容抽取方法,其中,將所述各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹進(jìn)一步包括:按照先跟遍歷的順序依次將所述DOM樹中各結(jié)點(diǎn)的維度特征輸入決策樹。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的網(wǎng)頁內(nèi)容抽取方法,其中,根據(jù)所述決策樹的分類結(jié)果確定所述網(wǎng)頁的結(jié)構(gòu)分塊的步驟進(jìn)一步包括: 根據(jù)決策樹對(duì)所述DOM樹中各結(jié)點(diǎn)的分類結(jié)果構(gòu)建所述網(wǎng)頁的第一分塊序列,其中第一分塊序列包括多個(gè)結(jié)構(gòu)分塊; 將所述第一分塊序列輸入條件隨機(jī)場進(jìn)行優(yōu)化計(jì)算,得到第二分塊序列,其中第二分塊序列包括一個(gè)或多個(gè)經(jīng)優(yōu)化后的結(jié)構(gòu)分塊。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的網(wǎng)頁內(nèi)容抽取方法,其中,所述結(jié)點(diǎn)的維度特征至少包括以下的任意一項(xiàng)或多項(xiàng):文本長度、超鏈接個(gè)數(shù)、超鏈接文本長度、高亮文本長度、中文字符長度、英文字符長度、數(shù)字字符長度、特定關(guān)鍵詞、特定標(biāo)點(diǎn)符號(hào)。
6.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的網(wǎng)頁內(nèi)容抽取方法,其中,所述網(wǎng)頁結(jié)構(gòu)分塊的類型至少包括以下的任意一項(xiàng)或多項(xiàng):導(dǎo)航塊、標(biāo)題塊、正文塊、日期塊、時(shí)間塊、廣告塊、作者?目息塊、垃圾塊、目錄塊。
7.—種網(wǎng)頁內(nèi)容抽取系統(tǒng),包括: DOM樹提取器,適于提取網(wǎng)頁對(duì)應(yīng)的DOM樹結(jié)構(gòu); DOM樹遍歷器,適于遍歷所述DOM樹,獲取所述DOM樹中各結(jié)點(diǎn)的維度特征; 決策樹分類器,適于將所述各結(jié)點(diǎn)的維度特征按照預(yù)定規(guī)則輸入決策樹,對(duì)所述各結(jié)點(diǎn)進(jìn)行分類,并根據(jù)所述決策樹的分類結(jié)果確定所述網(wǎng)頁的結(jié)構(gòu)分塊; 內(nèi)容抽取器,適于從按照所述網(wǎng)頁結(jié)構(gòu)分塊中選擇性抽取相應(yīng)的網(wǎng)頁內(nèi)容。
8.根據(jù)權(quán)利要求7所述的網(wǎng)頁內(nèi)容抽取系統(tǒng),其中,所述DOM樹遍歷器還適于:對(duì)所述DOM樹進(jìn)行后跟遍歷,并通過累加當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到所述當(dāng)前遍歷結(jié)點(diǎn)的維度特征和/或累加當(dāng)前遍歷結(jié)點(diǎn)自身所帶的維度特征以及當(dāng)前遍歷結(jié)點(diǎn)的所有子結(jié)點(diǎn)的維度特征得到所述當(dāng)前遍歷結(jié)點(diǎn)的維度特征。
9.根據(jù)權(quán)利要求7所述的網(wǎng)頁內(nèi)容抽取系統(tǒng),其中,所述決策樹分類器進(jìn)一步包括:輸入模塊,適于按照先跟遍歷的順序依次將所述DOM樹中各結(jié)點(diǎn)的維度特征輸入決策樹。
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的網(wǎng)頁內(nèi)容抽取系統(tǒng),其進(jìn)一步包括:條件隨機(jī)場處理器,適于對(duì)第一分塊序列進(jìn)行優(yōu)化計(jì)算,輸出第二分塊序列,其中所述第一分塊序列由所述決策樹計(jì)算器輸出所述網(wǎng)頁的結(jié)構(gòu)分塊構(gòu)建,包括多個(gè)所述結(jié)構(gòu)分塊,所述第二分塊序列包括一個(gè)或.多個(gè)經(jīng)優(yōu)化的分塊。
【文檔編號(hào)】G06F17/30GK103473338SQ201310432426
【公開日】2013年12月25日 申請(qǐng)日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】王志剛 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司