專利名稱:一種基于web結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種WEB結(jié)構(gòu)化信息通用、自動(dòng)提取方法。
背景技術(shù):
隨著Internet不斷發(fā)展,Web頁(yè)面數(shù)量大幅度增加,網(wǎng)絡(luò)已經(jīng)成為巨大的、分布式的和共享的信息資源。許多信息包含在浩如煙海的Web中,如何幫助人們迅速提取有效信息,成為一個(gè)非常重要的問題。 目前數(shù)據(jù)大都以HTML的形式出現(xiàn)。由于缺乏對(duì)數(shù)據(jù)本身的描述,各種HTML標(biāo)簽只是告訴瀏覽器如何顯示它所描述的信息,而并不包含清晰的語(yǔ)義信息,是一種半結(jié)構(gòu)化的數(shù)據(jù),這使得由HTML描述的頁(yè)面只適合人類的瀏覽,而應(yīng)用程序無(wú)法直接解析并利用WEB上的海量信息。為了增強(qiáng)數(shù)據(jù)的可用性,出現(xiàn)了 WEB信息提取技術(shù),它通過包裝現(xiàn)有信息源,將HTML網(wǎng)頁(yè)上的信息以更為結(jié)構(gòu)化的方式提取出來(lái),為應(yīng)用程序利用其中的數(shù)據(jù)提供了可能。現(xiàn)有的信息提取技術(shù)不但可以直接定位到用戶所需的信息,而且采用一定的方式增加了語(yǔ)義和模式信息,為查詢提供了更為精確的方法,使信息的再利用成為可能,因此有著明顯的優(yōu)勢(shì)和廣闊的前景,是當(dāng)今數(shù)據(jù)庫(kù)領(lǐng)域的研究熱點(diǎn)。目前關(guān)于數(shù)據(jù)提取的工作方法可以大致分為以下幾個(gè)類別 (1)基于語(yǔ)言的WEB數(shù)據(jù)提取,通過提供 一 種專門的模式說(shuō)明語(yǔ)言
(specification language),定義提取模式。此類代表有WICCAP, Lixto等。 (2)基于本體論(ontology)的數(shù)據(jù)提取,通過引入領(lǐng)域類的本體知識(shí)以及一些啟
發(fā)式規(guī)則,輔助提取過程。 (3)基于包裝器(wrapper)學(xué)習(xí)的數(shù)據(jù)提取,通過有監(jiān)督的機(jī)器學(xué)習(xí)等方法,生成
轉(zhuǎn)換規(guī)則,需要人工提供學(xué)習(xí)的正例和反例。此類代表有Stalker, WIEN等。 由于Web頁(yè)面的種類繁多,且信息抽取目的也不盡相同,不存在一種信息提取系
統(tǒng)能夠適應(yīng)千變?nèi)f化的應(yīng)用環(huán)境。通常情況下,基于頁(yè)面結(jié)構(gòu)特征把網(wǎng)頁(yè)大致分為首頁(yè)式、
列表式、正文式、評(píng)論式等幾大類 (1)首頁(yè)式網(wǎng)站的首頁(yè),一般含有多個(gè)欄目、圖片、動(dòng)畫,以及若干文章標(biāo)題鏈接。如網(wǎng)易首頁(yè)。 (2)列表式信息以列表的方式給出,一般以表格的形式列出若干個(gè)條目,經(jīng)常含有分頁(yè)功能。例如某論壇版面的帖子列表、搜索引擎搜索結(jié)果。
(3)正文式指含有正文內(nèi)容的底層網(wǎng)頁(yè),一般只含有不超過一篇的文章內(nèi)容,無(wú)評(píng)論或評(píng)論較少。如各類網(wǎng)站的含有具體某篇文章的底層網(wǎng)頁(yè)。
本發(fā)明主要研究"列表式"類網(wǎng)頁(yè)的有效信息自動(dòng)提取方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法,提出一種數(shù)據(jù)記錄集的自動(dòng)提取、信息塊內(nèi)容自動(dòng)識(shí)別的提取方法,此方法僅針對(duì)"列表式"的網(wǎng)頁(yè),如電子商務(wù)網(wǎng)站的產(chǎn)品列表、搜索引擎的結(jié)果、論壇的帖子等網(wǎng)頁(yè),利用這類網(wǎng)頁(yè)的一些特征,
顯著提高了提取的精度和自動(dòng)化程度。 本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的 —種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法,其特征在于,包括以下步驟
1)源代碼獲取通過網(wǎng)頁(yè)URL獲取HTML源代碼; 2)D0MTree生成利用DOMTree生成模塊對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正,同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾,之后生成預(yù)處理過的頁(yè)面DOMTree ; 3)數(shù)據(jù)記錄集提取根據(jù)所述頁(yè)面DOMTree的特性提取出頁(yè)面中的數(shù)據(jù)記錄集,進(jìn)行分析獲取詳細(xì)信息,并過濾噪聲記錄; 4)信息提取模板生成處理步驟3)提取到的數(shù)據(jù)記錄集,對(duì)數(shù)據(jù)記錄集中固定位置范圍內(nèi)的相同信息進(jìn)行提取,并生成信息提取模板; 5)分類將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理; 所述步驟3)中數(shù)據(jù)記錄集提取包括以下步驟 3-l、從所述頁(yè)面DOMTree中隨機(jī)取出兩個(gè)未比較過的子樹; 3-2、以樹的高度、樹中節(jié)點(diǎn)數(shù)目作為兩個(gè)子樹是否為相似子樹的第一判斷條件,滿足第一判斷條件的兩個(gè)子樹轉(zhuǎn)到步驟3-3執(zhí)行,不滿足第一判斷條件的兩個(gè)子樹放回該頁(yè)面DOMTree中,重新執(zhí)行步驟3_1 ; 3-3、以兩個(gè)子樹的相似度是否達(dá)到設(shè)定的閾值作為第二判斷條件,將滿足第一判斷條件的兩個(gè)子樹進(jìn)行第二判斷條件的判斷,同時(shí)滿足第一、第二判斷條件的兩個(gè)子樹為相似子樹,不滿足第二判斷條件的兩個(gè)子樹放回該頁(yè)面DOMTree中,重新執(zhí)行步驟3-1 ;
3-4、將兩個(gè)相似子樹放入一個(gè)相似子樹集合中,并定義這種集合為相似組,如果其中一個(gè)子樹已經(jīng)存在于其他相似組中,則將兩個(gè)相似組合并; 3-5、從相似組中選取相似度最大的一組子樹作為該頁(yè)面的數(shù)據(jù)記錄集,將數(shù)據(jù)記錄集中的子樹定義為網(wǎng)頁(yè)信息塊。 所述步驟4)中信息提取模板生成包括以下步驟
4-l、將步驟3)提取的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ; 4-2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊,提取兩個(gè)信息塊中的相同內(nèi)容部分,將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B,重復(fù)步驟4-2直到隊(duì)列A中的所有信息塊均已遍歷完畢; 4-3、判斷隊(duì)列B長(zhǎng)度是否大于l,如果大于1,轉(zhuǎn)入4-4執(zhí)行,否則隊(duì)列B中此條記錄即為生成的信息提取模板,信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí);
4-4、將隊(duì)列A清空,同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A,轉(zhuǎn)到步驟4-2。
所述步驟5)中分類包括以下步驟 5-l、將待處理網(wǎng)頁(yè)與步驟4)生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較,如果網(wǎng)頁(yè)中存在與內(nèi)容標(biāo)識(shí)一致的部分,則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中,轉(zhuǎn)至5-3,否則進(jìn)入5-2 ; 5-2、根據(jù)待處理網(wǎng)頁(yè)的DOMTree葉子節(jié)點(diǎn)所在位置,與信息提取模板中信息的相應(yīng)位置進(jìn)行比對(duì),如果一致,則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中,否則該網(wǎng)頁(yè)中不包含
需要提取的信息,處理完畢; 5-3 、將經(jīng)過歸類的信息進(jìn)行保存。 步驟2)中對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正是指修復(fù)不閉合的HTML標(biāo)記。 本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法具有以下優(yōu)點(diǎn)及效果 1)本發(fā)明從Web數(shù)據(jù)源中自動(dòng)提取,在無(wú)用戶干預(yù)時(shí),該方法能保持較好的抽取
效果,適應(yīng)性強(qiáng)。 2)本發(fā)明運(yùn)用信息提取模板,進(jìn)而減少了噪聲信息,同時(shí)結(jié)合對(duì)信息提取模板的使用對(duì)信息進(jìn)行自動(dòng)的分類。 3)從數(shù)據(jù)源的頁(yè)面結(jié)構(gòu)看,對(duì)于絕大部分的"列表式"頁(yè)面通用,因此本方法具有廣泛的通用性。 4)從數(shù)據(jù)源的差異看,數(shù)據(jù)項(xiàng)的缺失和順序變化對(duì)本方法的影響較小,因此本方法具有較好的健壯性。
圖1為本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法的結(jié)構(gòu)框 圖2為數(shù)據(jù)記錄提取算法示意 圖3為樹匹配算法示意圖; 圖4為本發(fā)明基于WEB結(jié)構(gòu)化的信息自動(dòng)提取方法的流程圖。
具體實(shí)施例方式
參見圖1,本發(fā)明包括以下幾個(gè)模塊HTML源代碼獲取模塊、DOMTree生成模塊、數(shù)據(jù)記錄集提取模塊、信息提取模板生成模塊與智能分類模塊,首先HTML源代碼獲取模塊通過網(wǎng)頁(yè)URL來(lái)獲取HTML源代碼;然后DOMTree生成模塊對(duì)HTML中的錯(cuò)誤標(biāo)記進(jìn)行修正,同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾,之后生成預(yù)處理過的頁(yè)面DOMTree ;然后根據(jù)頁(yè)面的DOMTree特性提取出頁(yè)面中的數(shù)據(jù)記錄集,并根據(jù)一定的規(guī)則將噪聲記錄集過濾掉,對(duì)獲取到的記錄集進(jìn)行分析,獲取包含在里邊的詳細(xì)信息;同時(shí)將提取到的數(shù)據(jù)記錄集交予信息提取模板生成模塊處理,生成信息提取模板;最后將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理。 參見圖2,在HTML DOM Tree中提取相似子樹,并根據(jù)相似子樹提取網(wǎng)頁(yè)信息塊。
數(shù)據(jù)記錄的查找是基于以下兩個(gè)條件 1. —組數(shù)據(jù)記錄集包含了一系列相似的內(nèi)容,并且其對(duì)應(yīng)的HTML標(biāo)記也是相似的。 2. —組相似的數(shù)據(jù)記錄集是由同一根節(jié)點(diǎn)下的一些子節(jié)點(diǎn)構(gòu)成的。 定義1 :一個(gè)在HTML DOM Tree中包含r (r > 1)個(gè)節(jié)點(diǎn)的子樹有以下兩個(gè)屬性 1)節(jié)點(diǎn)均擁有相同的父節(jié)點(diǎn)。 2)節(jié)點(diǎn)都是相鄰的。 定義2 :—組數(shù)據(jù)記錄集,即兩個(gè)或多個(gè)的相似子樹有以下幾個(gè)屬性
1)這些相似子樹有相同的父節(jié)點(diǎn)。
2)這些相似子樹的層數(shù)差距小于3。3)這些相似子樹的節(jié)點(diǎn)數(shù)量差距小于節(jié)點(diǎn)總數(shù)的30%。4)這些相似子樹的相似度在閾值范圍內(nèi),該閾值范圍為0. 7至1. 0。以下詳細(xì)解釋相似子樹的查找方法參從節(jié)點(diǎn)2開始,比較以下7對(duì)子樹相似度,其中子樹相似度由其具有相同HTML
標(biāo)識(shí)的節(jié)點(diǎn)數(shù)除以兩個(gè)子樹的平均節(jié)點(diǎn)數(shù)得到
(2, 3), (2, 4), (2, 5), (2, 6), (2, 7), (2, 8), (2, 9)參從節(jié)點(diǎn)3開始,比較以下子樹相似度(3, 4), (3, 5), (3, 6), (3, 7), (3, 8), (3, 9)參從節(jié)點(diǎn)4開始,比較以下子樹相似度(4, 5), (4, 6), (4, 7), (4, 8), (4, 9)參從節(jié)點(diǎn)5開始,比較以下子樹相似度(5, 6) , (5, 7) , (5, 8) , (5, 9)參從節(jié)點(diǎn)6開始,比較以下子樹相似度(6, 7) , (6, 8) , (6, 9)參從節(jié)點(diǎn)7開始,比較以下子樹相似度(7,8), (7,9)參從節(jié)點(diǎn)8開始,比較以下子樹相似度(8, 9)如果(2,3)相似度在設(shè)定的閾值范圍內(nèi),則將此二元組放入相似l組中。同時(shí),如
果(3, 5)也相似,則相似1組擴(kuò)充為(2, 3, 5)。若(6, 7)相似,在相似1組中無(wú)法找到子樹
6和7,那么新建相似2組(6,7),繼續(xù)擴(kuò)充。
最終可能會(huì)找到多個(gè)相似組,再結(jié)合每個(gè)相似組在頁(yè)面中所處的位置、大小等信息判定作為本頁(yè)面數(shù)據(jù)記錄集的相似組。 參見圖3,圖中P為D0MTree根節(jié)點(diǎn),其他小寫單字母為D0MTree各層節(jié)點(diǎn),Ni, i> 0,表示D0MTree第i個(gè)節(jié)點(diǎn)。本發(fā)明的目的是在WEB頁(yè)面中挖掘和提取數(shù)據(jù)信息,而所有的信息是存儲(chǔ)在HTML D0M Tree中,所以在查找相似子樹的過程中,確定兩棵樹的相似度即為樹匹配方法。 在本發(fā)明中,樹TA禾P TB的相似度為SimSTM(TA, TB) = Simpl eTreeMatching (TA, TB) /AVG (| TA | , | TB |),其中AVG (| TA | , | TB |)表示兩棵樹所有節(jié)點(diǎn)數(shù)的平均值。
如圖3所示的樹A與樹B的相似度為7/11 = 0. 63,則樹A與樹B不是相似子樹。
在數(shù)據(jù)記錄集中提取信息提取模板,包括下面幾個(gè)步驟
步驟1、將提取到的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ; 步驟2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊,提取兩個(gè)信息塊中的相同內(nèi)容部分,將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B,重復(fù)步驟2直到隊(duì)列A中的所有信息塊均已遍歷完畢; 步驟3、判斷隊(duì)列B長(zhǎng)度是否大于1 ,如果大于1 ,轉(zhuǎn)入步驟4執(zhí)行,否則B中此條記錄即為生成的信息提取模板,信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí),處理完畢;
步驟4、將隊(duì)列A清空,同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A,轉(zhuǎn)到步驟 2。
上述智能分類模塊包含以下步驟 步驟1、將待處理網(wǎng)頁(yè)與生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較,如果網(wǎng)頁(yè)中 存在與內(nèi)容標(biāo)識(shí)一致的部分,則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中,轉(zhuǎn)至步 驟3,否則進(jìn)入步驟2 ; 步驟2、根據(jù)待處理網(wǎng)頁(yè)的D0MTree葉子節(jié)點(diǎn)所在位置,與信息提取模板中信息的
相應(yīng)位置進(jìn)行比對(duì),如果一致,則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中,否則該網(wǎng)頁(yè)中不包
含需要提取的信息,處理完畢; 步驟3、將經(jīng)過歸類的信息進(jìn)行保存。 參照?qǐng)D4,本發(fā)明包括下面幾個(gè)步驟 步驟1 :HTML頁(yè)面源代碼獲取。通過網(wǎng)頁(yè)URL來(lái)獲取HTML頁(yè)面源代碼,并將源代碼 中HTML標(biāo)記全部轉(zhuǎn)換為大寫(如〈td〉轉(zhuǎn)換為〈TD〉),并為每個(gè)標(biāo)記添加一個(gè)ID值(如 〈TD〉添加后為〈TDID = 〃 ****〃 〉),方便后續(xù)使用。 步驟2 :HTML代碼預(yù)處理。原始的HTML代碼包含很多無(wú)用信息,為了提高效率,要 對(duì)HTML代碼進(jìn)行預(yù)處理,處理錯(cuò)誤標(biāo)記和無(wú)用標(biāo)記;HTML文檔中,每個(gè)元素由一個(gè)開始標(biāo) 記(opening tag),結(jié)束標(biāo)簽(closing tag)來(lái)標(biāo)識(shí)。由于WEB瀏覽器(Internet Explorer 等)的容錯(cuò)性,對(duì)于某些錯(cuò)誤標(biāo)記的HTML文件,例如缺少匹配的結(jié)束標(biāo)簽等等,仍然能夠正 常顯示在界面上,而這將影響正確區(qū)分HTML節(jié)點(diǎn)層次性,從而影響后續(xù)的數(shù)據(jù)提取。同時(shí), HTML文檔中,有相當(dāng)一部分的內(nèi)容,對(duì)于信息的提取沒有意義,如一些腳本語(yǔ)言、標(biāo)簽屬性, 以及部分類型的標(biāo)簽等等。因此,在構(gòu)造HTML DOMTree之前,有必要對(duì)其進(jìn)行清理精簡(jiǎn)。
根據(jù)以下方法,對(duì)頁(yè)面標(biāo)簽元素進(jìn)行簡(jiǎn)化 方法1 :標(biāo)記屬性可以刪除。(這個(gè)感覺從節(jié)點(diǎn)類型上說(shuō)更好點(diǎn))
方法2 :注釋、腳本語(yǔ)言、命名空間、&nbps等內(nèi)容可以刪除。 方法3 :標(biāo)記是可刪除的,當(dāng)且僅當(dāng)其內(nèi)容為空。這條規(guī)則是遞歸的,用于消除冗 余的嵌套標(biāo)簽。
方法4 :純?cè)肼曅畔?,如廣告、版權(quán)等可以刪除 方法5 :輔助瀏覽元素,如導(dǎo)航欄、搜索引擎等可以刪除。
方法6 :友情超鏈可以刪除。 步驟3 :構(gòu)建頁(yè)面DOMTree,并標(biāo)識(shí)D0M Tree中每個(gè)節(jié)點(diǎn)下邊包含子節(jié)點(diǎn)的個(gè)數(shù)和 層數(shù)。 步驟4 :數(shù)據(jù)記錄集的提取,即為DOM Tree中相似組的確定,如果未找到相似組則 終止后續(xù)處理。 步驟5 :根據(jù)相似組的各種特證如在頁(yè)面中的位置、大小等信息選取一組作為本 頁(yè)面的數(shù)據(jù)記錄集。 步驟6 :信息提取模板的生成,在提取到的數(shù)據(jù)記錄集中生成信息提取模板。
步驟7 :信息分類,將待處理網(wǎng)頁(yè)與信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較,如果比 對(duì)一致則轉(zhuǎn)到步驟ll。 步驟8 :根據(jù)待處理網(wǎng)頁(yè)的D0MTree葉子節(jié)點(diǎn)所在位置,與信息提取模板中信息的相應(yīng)位置進(jìn)行比對(duì),如果比對(duì)一致則轉(zhuǎn)到步驟11 。 步驟9:進(jìn)行無(wú)分類保存。
步驟10 :將信息條目按分類信息保存。 以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明,不能認(rèn)定
本發(fā)明的具體實(shí)施方式
僅限于此,對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫 離本發(fā)明構(gòu)思的前提下,還可以做出若干簡(jiǎn)單的推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明由所
提交的權(quán)利要求書確定專利保護(hù)范圍。
權(quán)利要求
一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法,其特征在于,包括以下步驟1)源代碼獲取通過網(wǎng)頁(yè)URL獲取HTML源代碼;2)DOMTree生成利用DOMTree生成模塊對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正,同時(shí)對(duì)噪聲標(biāo)記進(jìn)行過濾,之后生成預(yù)處理過的頁(yè)面DOMTree;3)數(shù)據(jù)記錄集提取根據(jù)所述頁(yè)面DOMTree的特性提取出頁(yè)面中的數(shù)據(jù)記錄集,進(jìn)行分析獲取詳細(xì)信息,并過濾噪聲記錄;4)信息提取模板生成處理步驟3)提取到的數(shù)據(jù)記錄集,對(duì)數(shù)據(jù)記錄集中固定位置范圍內(nèi)的相同信息進(jìn)行提取,并生成信息提取模板;5)分類將信息提取模板傳遞給智能分類模塊進(jìn)行詳細(xì)信息條目的分類和保存處理;
2. 根據(jù)權(quán)利要求l所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法,其特征在于,所 述步驟3)中數(shù)據(jù)記錄集提取包括以下步驟3-1 、從所述頁(yè)面DOMTree中隨機(jī)取出兩個(gè)未比較過的子樹;3-2、以樹的高度、樹中節(jié)點(diǎn)數(shù)目作為兩個(gè)子樹是否為相似子樹的第一判斷條件,滿足 第一判斷條件的兩個(gè)子樹轉(zhuǎn)到步驟3-3執(zhí)行,不滿足第一判斷條件的兩個(gè)子樹放回該頁(yè)面 DOMTree中,重新執(zhí)行步驟3_1 ;3-3、以兩個(gè)子樹的相似度是否在設(shè)定的歸一化后閾值范圍內(nèi)作為第二判斷條件,該閾 值的范圍為0. 7至1. O,將滿足第一判斷條件的兩個(gè)子樹進(jìn)行第二判斷條件的判斷,同時(shí)滿 足第一、第二判斷條件的兩個(gè)子樹為相似子樹,不滿足第二判斷條件的兩個(gè)子樹放回該頁(yè) 面DOMTree中,重新執(zhí)行步驟3_1 ;3-4、將兩個(gè)相似子樹放入一個(gè)相似子樹集合中,并定義這種集合為相似組,如果其中 一個(gè)子樹已經(jīng)存在于其他相似組中,則將兩個(gè)相似組合并;3- 5、從相似組中選取相似度最大的一組子樹作為該頁(yè)面的數(shù)據(jù)記錄集,將數(shù)據(jù)記錄集 中的子樹定義為網(wǎng)頁(yè)信息塊。
3. 根據(jù)權(quán)利要求1所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法,其特征在于,所 述步驟4)中生成信息提取模板包括以下步驟4- l、將步驟3)提取的數(shù)據(jù)記錄集放入等待提取隊(duì)列A ;4-2、選取隊(duì)列A中數(shù)據(jù)記錄集中的任意兩個(gè)未比較過的信息塊,提取兩個(gè)信息塊中的 相同內(nèi)容部分,將提取到的相同內(nèi)容加入另外一個(gè)等待提取隊(duì)列B,重復(fù)步驟4-2直到隊(duì)列 A中的所有信息塊均已遍歷完畢;4-3、判斷隊(duì)列B長(zhǎng)度是否大于l,如果大于1,轉(zhuǎn)入4-4執(zhí)行,否則隊(duì)列B中此條記錄即 為生成的信息提取模板,信息提取模板中包括信息的位置以及信息前后的內(nèi)容標(biāo)識(shí);4- 4、將隊(duì)列A清空,同時(shí)將長(zhǎng)度大于1的隊(duì)列B中元素復(fù)制到隊(duì)列A,轉(zhuǎn)到步驟4-2。
4. 根據(jù)權(quán)利要求1所述的一種基于WEB結(jié)構(gòu)的網(wǎng)頁(yè)信息自動(dòng)提取方法,其特征在于,所 述步驟5)中分類包括以下步驟5- l、將待處理網(wǎng)頁(yè)與步驟4)生成的信息提取模板中的內(nèi)容標(biāo)識(shí)進(jìn)行比較,如果網(wǎng)頁(yè) 中存在與內(nèi)容標(biāo)識(shí)一致的部分,則將處于該內(nèi)容標(biāo)識(shí)中的信息歸類至相應(yīng)的類別中,轉(zhuǎn)至 5-3,否則進(jìn)入5-2 ;5-2、根據(jù)待處理網(wǎng)頁(yè)的DOMTree葉子節(jié)點(diǎn)所在位置,與信息提取模板中信息的相應(yīng)位 置進(jìn)行比對(duì),如果一致,則將該節(jié)點(diǎn)的內(nèi)容歸類至相應(yīng)的類別中,否則該網(wǎng)頁(yè)中不包含需要提取的信息,處理完畢;5-3、將經(jīng)過歸類的信息進(jìn)行保存。
5.如權(quán)利要求1所述一種WEB頁(yè)面信息自動(dòng)提取的方法,其特征在于,所述步驟2)中 對(duì)HTML源代碼中的錯(cuò)誤標(biāo)記進(jìn)行修正是指修復(fù)不閉合的HTML標(biāo)記。
全文摘要
本發(fā)明公開一種WEB結(jié)構(gòu)化信息自動(dòng)提取方法,屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,該方法采用數(shù)據(jù)記錄集自動(dòng)抽取、信息塊內(nèi)容自動(dòng)識(shí)別的提取方法首先通過URL獲取頁(yè)面的HTML代碼;然后對(duì)HTML代碼進(jìn)行預(yù)處理,去除錯(cuò)誤和無(wú)關(guān)標(biāo)記,生成頁(yè)面的DOMTree;接下來(lái)提取頁(yè)面中相似信息塊;最后提取文本模板,對(duì)提取到的信息塊中信息項(xiàng)目進(jìn)行內(nèi)容分類。本發(fā)明旨在提供一種在一定范圍可以通用、自動(dòng)化的WEB信息提取方法,能夠顯著提高提取的精度和自動(dòng)化程度。
文檔編號(hào)G06F17/30GK101727498SQ20101001373
公開日2010年6月9日 申請(qǐng)日期2010年1月15日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者周亞東, 管曉宏, 薛峰, 趙俊舟, 高峰 申請(qǐng)人:西安交通大學(xué)