一種基于實體的自底向上Web數(shù)據(jù)抽取方法

文檔序號：6560442閱讀：173來源：國知局

專利名稱：一種基于實體的自底向上Web數(shù)據(jù)抽取方法
技術(shù)領(lǐng)域：
本發(fā)明屬于網(wǎng)絡(luò)數(shù)據(jù)管理領(lǐng)域，特別涉及一種針對Web數(shù)據(jù)頁面的自底向上抽取方法。
背景技術(shù)：
隨著網(wǎng)絡(luò)信息量的日益擴大，結(jié)構(gòu)單一的Web頁面已經(jīng)不能夠滿足數(shù)據(jù)的承載，主題多樣、結(jié)構(gòu)復雜的Web頁面數(shù)量在當今的互聯(lián)網(wǎng)絡(luò)中不斷增長。這在拓展人們視線的同時也給Web數(shù)據(jù)的應用帶來很多問題。Web頁面復雜度和噪聲信息量與日俱增，甚至同主題、同數(shù)據(jù)源的頁面都存在很大的偏差，使得網(wǎng)頁中高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)越來越難以被有效的分析和整合，信息的利用率明顯下降。所以，從復雜、多樣的Web頁面中提取信息并將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)變得日益重要。然而，如何準確而高效的從無結(jié)構(gòu)化或者半結(jié)構(gòu)化的HTML頁面中抽取結(jié)構(gòu)化數(shù)據(jù)成為人們研究的課題，同時也是巨大的挑戰(zhàn)。近年來，研究出的有代表性的方法有RoadRunner、ViPER、MDR0除此之外，隨著技術(shù)的發(fā)展，一些在實體領(lǐng)域提出的技術(shù)也被應用到Web數(shù)據(jù)抽取上面。RoadRunner方法需要事先選擇一些Web頁面作為它的訓練集，然后通過比較這些HTML文檔內(nèi)容上的異同來發(fā)現(xiàn)樣本的結(jié)構(gòu)特征，進而由此推導出包裝器的抽取規(guī)則。 RoadRunner方法較比人工標注的方式明顯提高了擴展性，并且可以處理一些嵌套的結(jié)構(gòu)。但是，對于訓練集未涉及的頁面該方法依然不能很好的適用。ViPER是基于頁面可視化特征的抽取方法，它主要通過模擬人眼對頁面的識別過程來完成抽取。然而，ViPER需要實現(xiàn)建立可視化模型，這將耗費大量的時間，而且當頁面有用信息和噪聲混雜分散存在的時候，ViPER的抽取效果也不盡如人意。MDR方法通過分析包含多記錄的單個HTML頁面來進行包裝器抽取規(guī)則的推導，主要基于頁面的DOM樹特征，分析出DOM樹中節(jié)點的重復模式，識別并劃分頁面中包含的記錄，并以節(jié)點路徑標識記錄中的屬性。后來，改進的MDR II方法采用樹的結(jié)構(gòu)信息來定位節(jié)點，但無論是MDR還是MDR II均無法擺脫對于頁面DOM樹的過分依賴，當某一標識下的屬性發(fā)生改變時，它們無法保證抽取的準確性。所以，該類方法比較適用于結(jié)構(gòu)簡單的頁面抽取，對于復雜的頁面并不適合。近年來，一些研究在這些典型技術(shù)的基礎(chǔ)上提出了新的方法，但大多是直接或者間接基于頁面結(jié)構(gòu)來推導抽取規(guī)則的，所以，這些方法在處理結(jié)構(gòu)復雜、數(shù)據(jù)分散的Web頁面的時候，查全率會明顯的下降。實體抽取技術(shù)的發(fā)展，給解決這一問題帶來了轉(zhuǎn)機，但是目前的方法更多只關(guān)注實體抽取而忽略了它們之間的聯(lián)系，若要取得高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)還需要很多工作，但無疑它為我們提供了良好的契機。

發(fā)明內(nèi)容
針對已有Web數(shù)據(jù)抽取方法的不足，本發(fā)明提供了一種基于實體的自底向上的 Web數(shù)據(jù)抽取方法。
本發(fā)明采用的技術(shù)方案的具體步驟如下步驟1.選擇Web數(shù)據(jù)頁面對于DeepWfeb響應頁面，需要輸入查詢詞來獲得；Web 頁面可以看作是由HTML語言描述的文本字符串，使用DOM解析工具(HtmlAgilityl^ack)將其解析成為標簽和文本；然后，在DOM樹中刪除所有script節(jié)點和comment節(jié)點，對HTML 文檔進行最基本的去噪并做規(guī)范化處理，得到符合XML標準的文檔D ;D可以表示為(T，M， S)，其中T是DOM樹中所有標簽節(jié)點的集合，M是DOM樹文本節(jié)點中的分隔符的集合，S是 DOM樹文本節(jié)點中除了 T和M之外所有的文本字符串。步驟2.劃分文本對于給定的文檔D，按照下面兩個條件將S劃分為有序的字符串序列(1)對于每一個t e T，m e M，都以此為分隔在S上做一次劃分；(2)對于相鄰的子字符串且對應的文本節(jié)點在DOM樹中深度相差一級的劃分，予以合并操作；文本S經(jīng)過以上劃分后得到有序序列&ist = <Sl，s2, ... , \>，其中$^8，且
；每一個Si都對應文檔D中的一段文本字符串，這里Si被稱為實體；步驟3.標注實體屬性即賦予中的每個實體一個實體類型的名稱；每類Web 主題都包含特定的實體類型集，那么給定一個主題，也就確定下來該領(lǐng)域的實體類型集A ；對于每個實體類型a e A，采用一個二級抽取模型，第一級L1定義查全規(guī)則e R1,第二級 L2定義查準規(guī)則ra2 e &，其中R1是該主題所有實體類型的查全屬性集合，&是該主題所有實體類型的查準屬性集合；這樣做能夠很好的將查全率與查準率的相互依賴性拆開，保證
信息的最小丟失和最大收益；給定U^4 ’ B代表能夠匹配該實體的規(guī)則集，A代表匹配B中
B
某條規(guī)則后得到的屬性標簽；具體標注過程如下(1)將隊中的每一條規(guī)則！^在上進行匹配，規(guī)則rxl會將所有匹配它的實體添加X屬性，若某一實體Sx匹配rxl，則將屬性X添加到Sx的屬性列表中，X e A ；經(jīng)過規(guī)則集R1匹配后的實體屬性序列可以表示為
權(quán)利要求
1. 一種基于實體的自底向上Web數(shù)據(jù)抽取方法，其特征在于具體步驟如下步驟1.選擇Web數(shù)據(jù)頁面對于DeepWeb響應頁面，需要輸入查詢詞來獲得；Web頁面可以看作是由HTML語言描述的文本字符串，使用DOM解析工具(HtmlAgilityPack)將其解析成為標簽和文本；然后，在DOM樹中刪除所有script節(jié)點和comment節(jié)點，對HTML文檔進行最基本的去噪并做規(guī)范化處理，得到符合XML標準的文檔D ;D可以表示為(Τ，Μ, S), 其中T是DOM樹中所有標簽節(jié)點的集合，M是DOM樹文本節(jié)點中的分隔符的集合，S是DOM 樹文本節(jié)點中除了 T和M之外所有的文本字符串；步驟2.劃分文本對于給定的文檔D，按照下面兩個條件將S劃分為有序的字符串序列(1)對于每一個te T，m e M，都以此為分隔在S上做一次劃分；(2)對于相鄰的子字符串且對應的文本節(jié)點在DOM樹中深度相差一級的劃分，予以合并操作；文本S經(jīng)過以上劃分后得到有序序列= Cs1, s2, ... , sn>，其中$cS，且；每一個Si都對應文檔D中的一段文本字符串，這里Si被稱為實體；步驟3.標注實體屬性即賦予中的每個實體一個實體類型的名稱；每類Web主題都包含特定的實體類型集，那么給定一個主題，也就確定下來該領(lǐng)域的實體類型集A ；對于每個實體類型a e A，采用一個二級抽取模型，第一級L1定義查全規(guī)則e R1,第二級L2 定義查準規(guī)則ra2 e &，其中R1是該主題所有實體類型的查全屬性集合，&是該主題所有實體類型的查準屬性集合；這樣做能夠很好的將查全率與查準率的相互依賴性拆開，保證信息的最小丟失和最大收益；給定U^4 ’ B代表能夠匹配該實體的規(guī)則集，A代表匹配B中某B條規(guī)則后得到的屬性標簽；具體標注過程如下(1)將札中的每一條規(guī)則！^在上進行匹配，規(guī)則rxl會將所有匹配它的實體添加 χ屬性，若某一實體sx匹配rxl，則將屬性χ添加到Sx的屬性列表中，χ e A ；經(jīng)過規(guī)則集R1 匹配后的實體屬性序列可以表示為(2)將&中的每一條規(guī)則!^在上進行匹配，規(guī)則rx2會將所有匹配它的實體唯一標識χ屬性，若某一實體sx匹配rx2，則Sx的屬性唯一確定為X，刪除Sx的其它屬性，χ e A ；假設(shè)S1的屬性被確定為X1, Sn的屬性被確定為^，那么經(jīng)過規(guī)則集&匹配后的實體屬性序列可以表示為用Alist表示上面的序列，它是一個擁有部分確定屬性的實體屬性序列；步驟4.抽取屬性序列重復模式設(shè)集合I為所有實體在文本中的索引的集合即Ind = {Index (Si,D) | i e Ζ+}，Z+ 是正整數(shù)集合；定義集合 AI = {(a, ind) | a e Alist，ind e 1}，具體過程如下(1)選擇起始關(guān)鍵屬性，即找到(ak，indk)滿足
全文摘要
本發(fā)明提供了一種基于實體的自底向上Web數(shù)據(jù)抽取方法，屬于網(wǎng)絡(luò)數(shù)據(jù)管理領(lǐng)域，具體步驟包括選擇Web數(shù)據(jù)頁面、劃分文本、標注實體屬性、抽取屬性序列重復模式抽取、化簡結(jié)果模式；本發(fā)明的Web數(shù)據(jù)抽取方法，可以更廣泛的抽取復雜Web頁面的結(jié)構(gòu)化數(shù)據(jù)，有效避免先前抽取技術(shù)對頁面結(jié)構(gòu)的過度依賴，適應性好，準確度高。
文檔編號G06F17/30GK102262658SQ201110196449
公開日2011年11月30日申請日期2011年7月13日優(yōu)先權(quán)日2011年7月13日
發(fā)明者于戈, 劉桐, 寇月, 申德榮, 聶鐵錚申請人:東北大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：申德榮;劉桐;寇月;聶鐵錚;于戈
技術(shù)所有人：東北大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

根據(jù)數(shù)據(jù)庫生成實體類相關(guān)技術(shù)

idea數(shù)據(jù)庫生成實體類相關(guān)技術(shù)

數(shù)據(jù)庫實體關(guān)系圖相關(guān)技術(shù)

數(shù)據(jù)庫實體相關(guān)技術(shù)

數(shù)據(jù)庫生成java實體類相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于實體的自底向上Web數(shù)據(jù)抽取方法