專利名稱:一種基于實體的自底向上Web數(shù)據(jù)抽取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)數(shù)據(jù)管理領(lǐng)域,特別涉及一種針對Web數(shù)據(jù)頁面的自底向上抽取方法。
背景技術(shù):
隨著網(wǎng)絡(luò)信息量的日益擴大,結(jié)構(gòu)單一的Web頁面已經(jīng)不能夠滿足數(shù)據(jù)的承載, 主題多樣、結(jié)構(gòu)復雜的Web頁面數(shù)量在當今的互聯(lián)網(wǎng)絡(luò)中不斷增長。這在拓展人們視線的同時也給Web數(shù)據(jù)的應用帶來很多問題。Web頁面復雜度和噪聲信息量與日俱增,甚至同主題、同數(shù)據(jù)源的頁面都存在很大的偏差,使得網(wǎng)頁中高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)越來越難以被有效的分析和整合,信息的利用率明顯下降。所以,從復雜、多樣的Web頁面中提取信息并將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)變得日益重要。然而,如何準確而高效的從無結(jié)構(gòu)化或者半結(jié)構(gòu)化的HTML頁面中抽取結(jié)構(gòu)化數(shù)據(jù)成為人們研究的課題,同時也是巨大的挑戰(zhàn)。近年來,研究出的有代表性的方法有RoadRunner、ViPER、MDR0除此之外,隨著技術(shù)的發(fā)展,一些在實體領(lǐng)域提出的技術(shù)也被應用到Web數(shù)據(jù)抽取上面。RoadRunner方法需要事先選擇一些Web頁面作為它的訓練集,然后通過比較這些HTML文檔內(nèi)容上的異同來發(fā)現(xiàn)樣本的結(jié)構(gòu)特征,進而由此推導出包裝器的抽取規(guī)則。 RoadRunner方法較比人工標注的方式明顯提高了擴展性,并且可以處理一些嵌套的結(jié)構(gòu)。 但是,對于訓練集未涉及的頁面該方法依然不能很好的適用。ViPER是基于頁面可視化特征的抽取方法,它主要通過模擬人眼對頁面的識別過程來完成抽取。然而,ViPER需要實現(xiàn)建立可視化模型,這將耗費大量的時間,而且當頁面有用信息和噪聲混雜分散存在的時候,ViPER的抽取效果也不盡如人意。MDR方法通過分析包含多記錄的單個HTML頁面來進行包裝器抽取規(guī)則的推導,主要基于頁面的DOM樹特征,分析出DOM樹中節(jié)點的重復模式,識別并劃分頁面中包含的記錄,并以節(jié)點路徑標識記錄中的屬性。后來,改進的MDR II方法采用樹的結(jié)構(gòu)信息來定位節(jié)點,但無論是MDR還是MDR II均無法擺脫對于頁面DOM樹的過分依賴,當某一標識下的屬性發(fā)生改變時,它們無法保證抽取的準確性。所以,該類方法比較適用于結(jié)構(gòu)簡單的頁面抽取,對于復雜的頁面并不適合。近年來,一些研究在這些典型技術(shù)的基礎(chǔ)上提出了新的方法,但大多是直接或者間接基于頁面結(jié)構(gòu)來推導抽取規(guī)則的,所以,這些方法在處理結(jié)構(gòu)復雜、數(shù)據(jù)分散的Web頁面的時候,查全率會明顯的下降。實體抽取技術(shù)的發(fā)展,給解決這一問題帶來了轉(zhuǎn)機,但是目前的方法更多只關(guān)注實體抽取而忽略了它們之間的聯(lián)系,若要取得高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)還需要很多工作,但無疑它為我們提供了良好的契機。
發(fā)明內(nèi)容
針對已有Web數(shù)據(jù)抽取方法的不足,本發(fā)明提供了一種基于實體的自底向上的 Web數(shù)據(jù)抽取方法。
本發(fā)明采用的技術(shù)方案的具體步驟如下步驟1.選擇Web數(shù)據(jù)頁面對于DeepWfeb響應頁面,需要輸入查詢詞來獲得;Web 頁面可以看作是由HTML語言描述的文本字符串,使用DOM解析工具(HtmlAgilityl^ack)將其解析成為標簽和文本;然后,在DOM樹中刪除所有script節(jié)點和comment節(jié)點,對HTML 文檔進行最基本的去噪并做規(guī)范化處理,得到符合XML標準的文檔D ;D可以表示為(T,M, S),其中T是DOM樹中所有標簽節(jié)點的集合,M是DOM樹文本節(jié)點中的分隔符的集合,S是 DOM樹文本節(jié)點中除了 T和M之外所有的文本字符串。步驟2.劃分文本對于給定的文檔D,按照下面兩個條件將S劃分為有序的字符串序列(1)對于每一個t e T,m e M,都以此為分隔在S上做一次劃分;(2)對于相鄰的子字符串且對應的文本節(jié)點在DOM樹中深度相差一級的劃分,予以合并操作;文本S經(jīng)過以上劃分后得到有序序列&ist = <Sl,s2, ... , \>,其中$^8,且
;每一個Si都對應文檔D中的一段文本字符串,這里Si被稱為實體;步驟3.標注實體屬性即賦予中的每個實體一個實體類型的名稱;每類Web 主題都包含特定的實體類型集,那么給定一個主題,也就確定下來該領(lǐng)域的實體類型集A ; 對于每個實體類型a e A,采用一個二級抽取模型,第一級L1定義查全規(guī)則e R1,第二級 L2定義查準規(guī)則ra2 e &,其中R1是該主題所有實體類型的查全屬性集合,&是該主題所有實體類型的查準屬性集合;這樣做能夠很好的將查全率與查準率的相互依賴性拆開,保證
信息的最小丟失和最大收益;給定U^4 ’ B代表能夠匹配該實體的規(guī)則集,A代表匹配B中
B
某條規(guī)則后得到的屬性標簽;具體標注過程如下(1)將隊中的每一條規(guī)則!^在上進行匹配,規(guī)則rxl會將所有匹配它的實體添加X屬性,若某一實體Sx匹配rxl,則將屬性X添加到Sx的屬性列表中,X e A ;經(jīng)過規(guī)則集R1匹配后的實體屬性序列可以表示為
權(quán)利要求
1. 一種基于實體的自底向上Web數(shù)據(jù)抽取方法,其特征在于具體步驟如下 步驟1.選擇Web數(shù)據(jù)頁面對于DeepWeb響應頁面,需要輸入查詢詞來獲得;Web頁面可以看作是由HTML語言描述的文本字符串,使用DOM解析工具(HtmlAgilityPack)將其解析成為標簽和文本;然后,在DOM樹中刪除所有script節(jié)點和comment節(jié)點,對HTML文檔進行最基本的去噪并做規(guī)范化處理,得到符合XML標準的文檔D ;D可以表示為(Τ,Μ, S), 其中T是DOM樹中所有標簽節(jié)點的集合,M是DOM樹文本節(jié)點中的分隔符的集合,S是DOM 樹文本節(jié)點中除了 T和M之外所有的文本字符串;步驟2.劃分文本對于給定的文檔D,按照下面兩個條件將S劃分為有序的字符串序列(1)對于每一個te T,m e M,都以此為分隔在S上做一次劃分;(2)對于相鄰的子字符串且對應的文本節(jié)點在DOM樹中深度相差一級的劃分,予以合并操作;文本S經(jīng)過以上劃分后得到有序序列= Cs1, s2, ... , sn>,其中$cS,且;每一個Si都對應文檔D中的一段文本字符串,這里Si被稱為實體; 步驟3.標注實體屬性即賦予中的每個實體一個實體類型的名稱;每類Web主題都包含特定的實體類型集,那么給定一個主題,也就確定下來該領(lǐng)域的實體類型集A ;對于每個實體類型a e A,采用一個二級抽取模型,第一級L1定義查全規(guī)則e R1,第二級L2 定義查準規(guī)則ra2 e &,其中R1是該主題所有實體類型的查全屬性集合,&是該主題所有實體類型的查準屬性集合;這樣做能夠很好的將查全率與查準率的相互依賴性拆開,保證信息的最小丟失和最大收益;給定U^4 ’ B代表能夠匹配該實體的規(guī)則集,A代表匹配B中某B條規(guī)則后得到的屬性標簽;具體標注過程如下(1)將札中的每一條規(guī)則!^在上進行匹配,規(guī)則rxl會將所有匹配它的實體添加 χ屬性,若某一實體sx匹配rxl,則將屬性χ添加到Sx的屬性列表中,χ e A ;經(jīng)過規(guī)則集R1 匹配后的實體屬性序列可以表示為(2)將&中的每一條規(guī)則!^在上進行匹配,規(guī)則rx2會將所有匹配它的實體唯一標識χ屬性,若某一實體sx匹配rx2,則Sx的屬性唯一確定為X,刪除Sx的其它屬性,χ e A ; 假設(shè)S1的屬性被確定為X1, Sn的屬性被確定為^,那么經(jīng)過規(guī)則集&匹配后的實體屬性序列可以表示為用Alist表示上面的序列,它是一個擁有部分確定屬性的實體屬性序列; 步驟4.抽取屬性序列重復模式設(shè)集合I為所有實體在文本中的索引的集合即Ind = {Index (Si,D) | i e Ζ+},Z+ 是正整數(shù)集合;定義集合 AI = {(a, ind) | a e Alist,ind e 1},具體過程如下(1)選擇起始關(guān)鍵屬性,即找到(ak,indk)滿足
全文摘要
本發(fā)明提供了一種基于實體的自底向上Web數(shù)據(jù)抽取方法,屬于網(wǎng)絡(luò)數(shù)據(jù)管理領(lǐng)域,具體步驟包括選擇Web數(shù)據(jù)頁面、劃分文本、標注實體屬性、抽取屬性序列重復模式抽取、化簡結(jié)果模式;本發(fā)明的Web數(shù)據(jù)抽取方法,可以更廣泛的抽取復雜Web頁面的結(jié)構(gòu)化數(shù)據(jù),有效避免先前抽取技術(shù)對頁面結(jié)構(gòu)的過度依賴,適應性好,準確度高。
文檔編號G06F17/30GK102262658SQ201110196449
公開日2011年11月30日 申請日期2011年7月13日 優(yōu)先權(quán)日2011年7月13日
發(fā)明者于戈, 劉桐, 寇月, 申德榮, 聶鐵錚 申請人:東北大學