一種基于web結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法

文檔序號(hào)：6597265閱讀：324來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于web結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，特別涉及一種WEB結(jié)構(gòu)化信息通用、自動(dòng)提取方法。
背景技術(shù)：
隨著Internet不斷發(fā)展，Web頁(yè)面數(shù)量大幅度增加，網(wǎng)絡(luò)已經(jīng)成為巨大的、分布式的和共享的信息資源。許多信息包含在浩如煙海的Web中，如何幫助人們迅速提取有效信息，成為一個(gè)非常重要的問題。目前數(shù)據(jù)大都以HTML的形式出現(xiàn)。由于缺乏對(duì)數(shù)據(jù)本身的描述，各種HTML標(biāo)簽只是告訴瀏覽器如何顯示它所描述的信息，而并不包含清晰的語(yǔ)義信息，是一種半結(jié)構(gòu)化的數(shù)據(jù)，這使得由HTML描述的頁(yè)面只適合人類的瀏覽，而應(yīng)用程序無(wú)法直接解析并利用WEB上的海量信息。為了增強(qiáng)數(shù)據(jù)的可用性，出現(xiàn)了 WEB信息提取技術(shù)，它通過包裝現(xiàn)有信息源，將HTML網(wǎng)頁(yè)上的信息以更為結(jié)構(gòu)化的方式提取出來(lái)，為應(yīng)用程序利用其中的數(shù)據(jù)提供了可能。現(xiàn)有的信息提取技術(shù)不但可以直接定位到用戶所需的信息，而且采用一定的方式增加了語(yǔ)義和模式信息，為查詢提供了更為精確的方法，使信息的再利用成為可能，因此有著明顯的優(yōu)勢(shì)和廣闊的前景，是當(dāng)今數(shù)據(jù)庫(kù)領(lǐng)域的研究熱點(diǎn)。目前關(guān)于數(shù)據(jù)提取的工作方法可以大致分為以下幾個(gè)類別 (1)基于語(yǔ)言的WEB數(shù)據(jù)提取，通過提供一種專門的模式說(shuō)明語(yǔ)言
(specification language)，定義提取模式。此類代表有WICCAP， Lixto等。 (2)基于本體論(ontology)的數(shù)據(jù)提取，通過引入領(lǐng)域類的本體知識(shí)以及一些啟
發(fā)式規(guī)則，輔助提取過程。 (3)基于包裝器(wrapper)學(xué)習(xí)的數(shù)據(jù)提取，通過有監(jiān)督的機(jī)器學(xué)習(xí)等方法，生成
轉(zhuǎn)換規(guī)則，需要人工提供學(xué)習(xí)的正例和反例。此類代表有Stalker, WIEN等。由于Web頁(yè)面的種類繁多，且信息抽取目的也不盡相同，不存在一種信息提取系
統(tǒng)能夠適應(yīng)千變?nèi)f化的應(yīng)用環(huán)境。通常情況下，基于頁(yè)面結(jié)構(gòu)特征把網(wǎng)頁(yè)大致分為首頁(yè)式、
列表式、正文式、評(píng)論式等幾大類 (1)首頁(yè)式網(wǎng)站的首頁(yè)，一般含有多個(gè)欄目、圖片、動(dòng)畫，以及若干文章標(biāo)題鏈接。如網(wǎng)易首頁(yè)。 (2)列表式信息以列表的方式給出，一般以表格的形式列出若干個(gè)條目，經(jīng)常含有分頁(yè)功能。例如某論壇版面的帖子列表、搜索引擎搜索結(jié)果。
(3)正文式指含有正文內(nèi)容的底層網(wǎng)頁(yè)，一般只含有不超過一篇的文章內(nèi)容，無(wú)評(píng)論或評(píng)論較少。如各類網(wǎng)站的含有具體某篇文章的底層網(wǎng)頁(yè)。
本發(fā)明主要研究"列表式"類網(wǎng)頁(yè)的有效信息自動(dòng)提取方法。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法，提出一種數(shù)據(jù)記錄集的自動(dòng)提取、信息塊內(nèi)容自動(dòng)識(shí)別的提取方法，此方法僅針對(duì)"列表式"的網(wǎng)頁(yè)，如電子商務(wù)網(wǎng)站的產(chǎn)品列表、搜索引擎的結(jié)果、論壇的帖子等網(wǎng)頁(yè)，利用這類網(wǎng)頁(yè)的一些特征，
顯著提高了提取的精度和自動(dòng)化程度。本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的 —種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法，其特征在于，包括以下步驟
1)源代碼獲取通過網(wǎng)頁(yè)URL獲取HTML源代碼； 2)D0MTree生成利用DOMTree生成模塊對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正，同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾，之后生成預(yù)處理過的頁(yè)面DOMTree ; 3)數(shù)據(jù)記錄集提取根據(jù)所述頁(yè)面DOMTree的特性提取出頁(yè)面中的數(shù)據(jù)記錄集，進(jìn)行分析獲取詳細(xì)信息，并過濾噪聲記錄； 4)信息提取模板生成處理步驟3)提取到的數(shù)據(jù)記錄集，對(duì)數(shù)據(jù)記錄集中固定位置范圍內(nèi)的相同信息進(jìn)行提取，并生成信息提取模板； 5)分類將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理；所述步驟3)中數(shù)據(jù)記錄集提取包括以下步驟 3-l、從所述頁(yè)面DOMTree中隨機(jī)取出兩個(gè)未比較過的子樹； 3-2、以樹的高度、樹中節(jié)點(diǎn)數(shù)目作為兩個(gè)子樹是否為相似子樹的第一判斷條件，滿足第一判斷條件的兩個(gè)子樹轉(zhuǎn)到步驟3-3執(zhí)行，不滿足第一判斷條件的兩個(gè)子樹放回該頁(yè)面DOMTree中，重新執(zhí)行步驟3_1 ; 3-3、以兩個(gè)子樹的相似度是否達(dá)到設(shè)定的閾值作為第二判斷條件，將滿足第一判斷條件的兩個(gè)子樹進(jìn)行第二判斷條件的判斷，同時(shí)滿足第一、第二判斷條件的兩個(gè)子樹為相似子樹，不滿足第二判斷條件的兩個(gè)子樹放回該頁(yè)面DOMTree中，重新執(zhí)行步驟3-1 ;
3-4、將兩個(gè)相似子樹放入一個(gè)相似子樹集合中，并定義這種集合為相似組，如果其中一個(gè)子樹已經(jīng)存在于其他相似組中，則將兩個(gè)相似組合并； 3-5、從相似組中選取相似度最大的一組子樹作為該頁(yè)面的數(shù)據(jù)記錄集，將數(shù)據(jù)記錄集中的子樹定義為網(wǎng)頁(yè)信息塊。所述步驟4)中信息提取模板生成包括以下步驟
4-l、將步驟3)提取的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ; 4-2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊，提取兩個(gè)信息塊中的相同內(nèi)容部分，將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B，重復(fù)步驟4-2直到隊(duì)列A中的所有信息塊均已遍歷完畢； 4-3、判斷隊(duì)列B長(zhǎng)度是否大于l，如果大于1，轉(zhuǎn)入4-4執(zhí)行，否則隊(duì)列B中此條記錄即為生成的信息提取模板，信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí)；
4-4、將隊(duì)列A清空，同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A，轉(zhuǎn)到步驟4-2。
所述步驟5)中分類包括以下步驟 5-l、將待處理網(wǎng)頁(yè)與步驟4)生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較，如果網(wǎng)頁(yè)中存在與內(nèi)容標(biāo)識(shí)一致的部分，則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中，轉(zhuǎn)至5-3，否則進(jìn)入5-2 ; 5-2、根據(jù)待處理網(wǎng)頁(yè)的DOMTree葉子節(jié)點(diǎn)所在位置，與信息提取模板中信息的相應(yīng)位置進(jìn)行比對(duì)，如果一致，則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中，否則該網(wǎng)頁(yè)中不包含
需要提取的信息，處理完畢； 5-3 、將經(jīng)過歸類的信息進(jìn)行保存。步驟2)中對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正是指修復(fù)不閉合的HTML標(biāo)記。本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法具有以下優(yōu)點(diǎn)及效果 1)本發(fā)明從Web數(shù)據(jù)源中自動(dòng)提取，在無(wú)用戶干預(yù)時(shí)，該方法能保持較好的抽取
效果，適應(yīng)性強(qiáng)。 2)本發(fā)明運(yùn)用信息提取模板，進(jìn)而減少了噪聲信息，同時(shí)結(jié)合對(duì)信息提取模板的使用對(duì)信息進(jìn)行自動(dòng)的分類。 3)從數(shù)據(jù)源的頁(yè)面結(jié)構(gòu)看，對(duì)于絕大部分的"列表式"頁(yè)面通用，因此本方法具有廣泛的通用性。 4)從數(shù)據(jù)源的差異看，數(shù)據(jù)項(xiàng)的缺失和順序變化對(duì)本方法的影響較小，因此本方法具有較好的健壯性。

圖1為本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法的結(jié)構(gòu)框圖2為數(shù)據(jù)記錄提取算法示意圖3為樹匹配算法示意圖；圖4為本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法的流程圖。
具體實(shí)施例方式
參見圖1，本發(fā)明包括以下幾個(gè)模塊HTML源代碼獲取模塊、DOMTree生成模塊、數(shù)據(jù)記錄集提取模塊、信息提取模板生成模塊與智能分類模塊，首先HTML源代碼獲取模塊通過網(wǎng)頁(yè)URL來(lái)獲取HTML源代碼；然后DOMTree生成模塊對(duì)HTML中的錯(cuò)誤標(biāo)記進(jìn)行修正，同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾，之后生成預(yù)處理過的頁(yè)面DOMTree ;然后根據(jù)頁(yè)面的DOMTree特性提取出頁(yè)面中的數(shù)據(jù)記錄集，并根據(jù)一定的規(guī)則將噪聲記錄集過濾掉，對(duì)獲取到的記錄集進(jìn)行分析，獲取包含在里邊的詳細(xì)信息；同時(shí)將提取到的數(shù)據(jù)記錄集交予信息提取模板生成模塊處理，生成信息提取模板；最后將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理。參見圖2，在HTML DOM Tree中提取相似子樹，并根據(jù)相似子樹提取網(wǎng)頁(yè)信息塊。
數(shù)據(jù)記錄的查找是基于以下兩個(gè)條件 1. —組數(shù)據(jù)記錄集包含了一系列相似的內(nèi)容，并且其對(duì)應(yīng)的HTML標(biāo)記也是相似的。 2. —組相似的數(shù)據(jù)記錄集是由同一根節(jié)點(diǎn)下的一些子節(jié)點(diǎn)構(gòu)成的。定義1 :一個(gè)在HTML DOM Tree中包含r (r > 1)個(gè)節(jié)點(diǎn)的子樹有以下兩個(gè)屬性 1)節(jié)點(diǎn)均擁有相同的父節(jié)點(diǎn)。 2)節(jié)點(diǎn)都是相鄰的。定義2 :—組數(shù)據(jù)記錄集，即兩個(gè)或多個(gè)的相似子樹有以下幾個(gè)屬性
1)這些相似子樹有相同的父節(jié)點(diǎn)。
2)這些相似子樹的層數(shù)差距小于3。3)這些相似子樹的節(jié)點(diǎn)數(shù)量差距小于節(jié)點(diǎn)總數(shù)的30%。4)這些相似子樹的相似度在閾值范圍內(nèi)，該閾值范圍為0. 7至1. 0。以下詳細(xì)解釋相似子樹的查找方法參從節(jié)點(diǎn)2開始，比較以下7對(duì)子樹相似度，其中子樹相似度由其具有相同HTML
標(biāo)識(shí)的節(jié)點(diǎn)數(shù)除以兩個(gè)子樹的平均節(jié)點(diǎn)數(shù)得到
(2， 3)， (2， 4)， (2， 5)， (2， 6)， (2， 7)， (2， 8)， (2， 9)參從節(jié)點(diǎn)3開始，比較以下子樹相似度(3， 4)， (3， 5)， (3， 6)， (3， 7)， (3， 8)， (3， 9)參從節(jié)點(diǎn)4開始，比較以下子樹相似度(4， 5)， (4， 6)， (4， 7)， (4， 8)， (4， 9)參從節(jié)點(diǎn)5開始，比較以下子樹相似度(5， 6) ， (5， 7) ， (5， 8) ， (5， 9)參從節(jié)點(diǎn)6開始，比較以下子樹相似度(6， 7) ， (6， 8) ， (6， 9)參從節(jié)點(diǎn)7開始，比較以下子樹相似度(7，8)， (7，9)參從節(jié)點(diǎn)8開始，比較以下子樹相似度(8， 9)如果(2，3)相似度在設(shè)定的閾值范圍內(nèi)，則將此二元組放入相似l組中。同時(shí)，如
果(3， 5)也相似，則相似1組擴(kuò)充為(2， 3， 5)。若(6， 7)相似，在相似1組中無(wú)法找到子樹
6和7，那么新建相似2組(6，7)，繼續(xù)擴(kuò)充。
最終可能會(huì)找到多個(gè)相似組，再結(jié)合每個(gè)相似組在頁(yè)面中所處的位置、大小等信息判定作為本頁(yè)面數(shù)據(jù)記錄集的相似組。參見圖3，圖中P為D0MTree根節(jié)點(diǎn)，其他小寫單字母為D0MTree各層節(jié)點(diǎn)，Ni， i> 0，表示D0MTree第i個(gè)節(jié)點(diǎn)。本發(fā)明的目的是在WEB頁(yè)面中挖掘和提取數(shù)據(jù)信息，而所有的信息是存儲(chǔ)在HTML D0M Tree中，所以在查找相似子樹的過程中，確定兩棵樹的相似度即為樹匹配方法。在本發(fā)明中，樹TA禾P TB的相似度為SimSTM(TA， TB) = Simpl eTreeMatching (TA， TB) /AVG (| TA | ， | TB |)，其中AVG (| TA | ， | TB |)表示兩棵樹所有節(jié)點(diǎn)數(shù)的平均值。
如圖3所示的樹A與樹B的相似度為7/11 = 0. 63，則樹A與樹B不是相似子樹。
在數(shù)據(jù)記錄集中提取信息提取模板，包括下面幾個(gè)步驟
步驟1、將提取到的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ; 步驟2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊，提取兩個(gè)信息塊中的相同內(nèi)容部分，將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B，重復(fù)步驟2直到隊(duì)列A中的所有信息塊均已遍歷完畢；步驟3、判斷隊(duì)列B長(zhǎng)度是否大于1 ，如果大于1 ，轉(zhuǎn)入步驟4執(zhí)行，否則B中此條記錄即為生成的信息提取模板，信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí)，處理完畢；
步驟4、將隊(duì)列A清空，同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A，轉(zhuǎn)到步驟 2。
上述智能分類模塊包含以下步驟步驟1、將待處理網(wǎng)頁(yè)與生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較，如果網(wǎng)頁(yè)中存在與內(nèi)容標(biāo)識(shí)一致的部分，則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中，轉(zhuǎn)至步驟3，否則進(jìn)入步驟2 ; 步驟2、根據(jù)待處理網(wǎng)頁(yè)的D0MTree葉子節(jié)點(diǎn)所在位置，與信息提取模板中信息的
相應(yīng)位置進(jìn)行比對(duì)，如果一致，則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中，否則該網(wǎng)頁(yè)中不包
含需要提取的信息，處理完畢；步驟3、將經(jīng)過歸類的信息進(jìn)行保存。參照?qǐng)D4，本發(fā)明包括下面幾個(gè)步驟步驟1 :HTML頁(yè)面源代碼獲取。通過網(wǎng)頁(yè)URL來(lái)獲取HTML頁(yè)面源代碼，并將源代碼中HTML標(biāo)記全部轉(zhuǎn)換為大寫(如〈td〉轉(zhuǎn)換為〈TD〉)，并為每個(gè)標(biāo)記添加一個(gè)ID值(如〈TD〉添加后為〈TDID = 〃 ****〃〉)，方便后續(xù)使用。步驟2 :HTML代碼預(yù)處理。原始的HTML代碼包含很多無(wú)用信息，為了提高效率，要對(duì)HTML代碼進(jìn)行預(yù)處理，處理錯(cuò)誤標(biāo)記和無(wú)用標(biāo)記；HTML文檔中，每個(gè)元素由一個(gè)開始標(biāo) 記(opening tag)，結(jié)束標(biāo)簽(closing tag)來(lái)標(biāo)識(shí)。由于WEB瀏覽器(Internet Explorer 等)的容錯(cuò)性，對(duì)于某些錯(cuò)誤標(biāo)記的HTML文件，例如缺少匹配的結(jié)束標(biāo)簽等等，仍然能夠正常顯示在界面上，而這將影響正確區(qū)分HTML節(jié)點(diǎn)層次性，從而影響后續(xù)的數(shù)據(jù)提取。同時(shí)， HTML文檔中，有相當(dāng)一部分的內(nèi)容，對(duì)于信息的提取沒有意義，如一些腳本語(yǔ)言、標(biāo)簽屬性，以及部分類型的標(biāo)簽等等。因此，在構(gòu)造HTML DOMTree之前，有必要對(duì)其進(jìn)行清理精簡(jiǎn)。
根據(jù)以下方法，對(duì)頁(yè)面標(biāo)簽元素進(jìn)行簡(jiǎn)化方法1 :標(biāo)記屬性可以刪除。(這個(gè)感覺從節(jié)點(diǎn)類型上說(shuō)更好點(diǎn))
方法2 :注釋、腳本語(yǔ)言、命名空間、&nbps等內(nèi)容可以刪除。方法3 :標(biāo)記是可刪除的，當(dāng)且僅當(dāng)其內(nèi)容為空。這條規(guī)則是遞歸的，用于消除冗余的嵌套標(biāo)簽。
方法4 :純?cè)肼曅畔?，如廣告、版權(quán)等可以刪除方法5 :輔助瀏覽元素，如導(dǎo)航欄、搜索引擎等可以刪除。
方法6 :友情超鏈可以刪除。步驟3 :構(gòu)建頁(yè)面DOMTree，并標(biāo)識(shí)D0M Tree中每個(gè)節(jié)點(diǎn)下邊包含子節(jié)點(diǎn)的個(gè)數(shù)和層數(shù)。步驟4 :數(shù)據(jù)記錄集的提取，即為DOM Tree中相似組的確定，如果未找到相似組則終止后續(xù)處理。步驟5 :根據(jù)相似組的各種特證如在頁(yè)面中的位置、大小等信息選取一組作為本頁(yè)面的數(shù)據(jù)記錄集。步驟6 :信息提取模板的生成，在提取到的數(shù)據(jù)記錄集中生成信息提取模板。
步驟7 :信息分類，將待處理網(wǎng)頁(yè)與信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較，如果比對(duì)一致則轉(zhuǎn)到步驟ll。步驟8 :根據(jù)待處理網(wǎng)頁(yè)的D0MTree葉子節(jié)點(diǎn)所在位置，與信息提取模板中信息的相應(yīng)位置進(jìn)行比對(duì)，如果比對(duì)一致則轉(zhuǎn)到步驟11 。步驟9:進(jìn)行無(wú)分類保存。
步驟10 :將信息條目按分類信息保存。以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明，不能認(rèn)定
本發(fā)明的具體實(shí)施方式
僅限于此，對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干簡(jiǎn)單的推演或替換，都應(yīng)當(dāng)視為屬于本發(fā)明由所
提交的權(quán)利要求書確定專利保護(hù)范圍。
權(quán)利要求
一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法，其特征在于，包括以下步驟1)源代碼獲取通過網(wǎng)頁(yè)URL獲取HTML源代碼；2)DOMTree生成利用DOMTree生成模塊對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正，同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾，之后生成預(yù)處理過的頁(yè)面DOMTree；3)數(shù)據(jù)記錄集提取根據(jù)所述頁(yè)面DOMTree的特性提取出頁(yè)面中的數(shù)據(jù)記錄集，進(jìn)行分析獲取詳細(xì)信息，并過濾噪聲記錄；4)信息提取模板生成處理步驟3)提取到的數(shù)據(jù)記錄集，對(duì)數(shù)據(jù)記錄集中固定位置范圍內(nèi)的相同信息進(jìn)行提取，并生成信息提取模板；5)分類將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理；
2. 根據(jù)權(quán)利要求l所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法，其特征在于，所述步驟3)中數(shù)據(jù)記錄集提取包括以下步驟3-1 、從所述頁(yè)面DOMTree中隨機(jī)取出兩個(gè)未比較過的子樹；3-2、以樹的高度、樹中節(jié)點(diǎn)數(shù)目作為兩個(gè)子樹是否為相似子樹的第一判斷條件，滿足第一判斷條件的兩個(gè)子樹轉(zhuǎn)到步驟3-3執(zhí)行，不滿足第一判斷條件的兩個(gè)子樹放回該頁(yè)面 DOMTree中，重新執(zhí)行步驟3_1 ;3-3、以兩個(gè)子樹的相似度是否在設(shè)定的歸一化后閾值范圍內(nèi)作為第二判斷條件，該閾值的范圍為0. 7至1. O，將滿足第一判斷條件的兩個(gè)子樹進(jìn)行第二判斷條件的判斷，同時(shí)滿足第一、第二判斷條件的兩個(gè)子樹為相似子樹，不滿足第二判斷條件的兩個(gè)子樹放回該頁(yè) 面DOMTree中，重新執(zhí)行步驟3_1 ;3-4、將兩個(gè)相似子樹放入一個(gè)相似子樹集合中，并定義這種集合為相似組，如果其中一個(gè)子樹已經(jīng)存在于其他相似組中，則將兩個(gè)相似組合并；3- 5、從相似組中選取相似度最大的一組子樹作為該頁(yè)面的數(shù)據(jù)記錄集，將數(shù)據(jù)記錄集中的子樹定義為網(wǎng)頁(yè)信息塊。
3. 根據(jù)權(quán)利要求1所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法，其特征在于，所述步驟4)中生成信息提取模板包括以下步驟4- l、將步驟3)提取的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ;4-2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊，提取兩個(gè)信息塊中的相同內(nèi)容部分，將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B，重復(fù)步驟4-2直到隊(duì)列 A中的所有信息塊均已遍歷完畢；4-3、判斷隊(duì)列B長(zhǎng)度是否大于l，如果大于1，轉(zhuǎn)入4-4執(zhí)行，否則隊(duì)列B中此條記錄即為生成的信息提取模板，信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí)；4- 4、將隊(duì)列A清空，同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A，轉(zhuǎn)到步驟4-2。
4. 根據(jù)權(quán)利要求1所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法，其特征在于，所述步驟5)中分類包括以下步驟5- l、將待處理網(wǎng)頁(yè)與步驟4)生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較，如果網(wǎng)頁(yè) 中存在與內(nèi)容標(biāo)識(shí)一致的部分，則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中，轉(zhuǎn)至 5-3，否則進(jìn)入5-2 ;5-2、根據(jù)待處理網(wǎng)頁(yè)的DOMTree葉子節(jié)點(diǎn)所在位置，與信息提取模板中信息的相應(yīng)位置進(jìn)行比對(duì)，如果一致，則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中，否則該網(wǎng)頁(yè)中不包含需要提取的信息，處理完畢；5-3、將經(jīng)過歸類的信息進(jìn)行保存。
5.如權(quán)利要求1所述一種WEB頁(yè)面信息自動(dòng)提取的方法，其特征在于，所述步驟2)中對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正是指修復(fù)不閉合的HTML標(biāo)記。
全文摘要
本發(fā)明公開一種WEB結(jié)構(gòu)化信息自動(dòng)提取方法，屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域，該方法采用數(shù)據(jù)記錄集自動(dòng)抽取、信息塊內(nèi)容自動(dòng)識(shí)別的提取方法首先通過URL獲取頁(yè)面的HTML代碼；然后對(duì)HTML代碼進(jìn)行預(yù)處理，去除錯(cuò)誤和無(wú)關(guān)標(biāo)記，生成頁(yè)面的DOMTree；接下來(lái)提取頁(yè)面中相似信息塊；最后提取文本模板，對(duì)提取到的信息塊中信息項(xiàng)目進(jìn)行內(nèi)容分類。本發(fā)明旨在提供一種在一定范圍可以通用、自動(dòng)化的WEB信息提取方法，能夠顯著提高提取的精度和自動(dòng)化程度。
文檔編號(hào)G06F17/30GK101727498SQ20101001373
公開日2010年6月9日申請(qǐng)日期2010年1月15日優(yōu)先權(quán)日2010年1月15日
發(fā)明者周亞東, 管曉宏, 薛峰, 趙俊舟, 高峰申請(qǐng)人:西安交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：管曉宏;高峰;周亞東;趙俊舟;薛峰
技術(shù)所有人：西安交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)信息提取相關(guān)技術(shù)

網(wǎng)頁(yè)布局的基本結(jié)構(gòu)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于web結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法