国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng)及其去噪方法

      文檔序號:6340976閱讀:195來源:國知局
      專利名稱:基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng)及其去噪方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及的是一種互聯(lián)網(wǎng)技術(shù)領(lǐng)域的系統(tǒng)及方法,具體是一種基于 LCS(Longest CommonSubsequence,最長共同子序列)特征樹的最大相似性匹配的網(wǎng)頁去噪 系統(tǒng)及其去噪方法。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)的信息呈現(xiàn)出爆炸式的增長。如何從海量的 網(wǎng)頁信息中找到核心主題信息,成為當今Web研究領(lǐng)域的一種趨勢。一個網(wǎng)頁一般包含一 些內(nèi)容塊,但除了這些內(nèi)容塊,往往包含導(dǎo)航欄、版權(quán)信息、公告消息以及各種各樣形式的 廣告,它們的存在是為了商業(yè)目的或者便于用戶使用,這些與主題無關(guān)的信息可以稱之為 網(wǎng)頁噪聲塊。如何降低網(wǎng)頁中的噪音,對于網(wǎng)頁分類、特征提取、內(nèi)容聚合具有重要意義,已 成為在三網(wǎng)融合的大背景中,基于多媒體內(nèi)容融合的研究熱點。經(jīng)過對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),Yuancheng Li和Jie Yang于2009年在 ((InternationalJoint Conference on Artificial Intelligence (國際人工智能聯(lián)合會 議)》上發(fā)表的"A Novel Methodto Extract Informative Blocks from Web Pages (—種 新型的從網(wǎng)頁抽取信息塊的方法)”中提出將DOM樹的節(jié)點分為HTMLItem和Content兩種 節(jié)點,將Content按種類(圖片、文字、鏈接)和數(shù)量計算權(quán)值,加在其所屬HTMLItem節(jié)點 上作為其重要性的度量,同時HTMLItem自己也有權(quán)值,且隨著其深度遞減。最后按權(quán)值的 大小去除噪聲塊。該方法是基于規(guī)則的,只適用于某些類型網(wǎng)頁,有其局限性。又經(jīng)檢索發(fā)現(xiàn),Ruihua Song, Haifeng Liu等人在2004年發(fā)表在《ACM SlGKDDExplorations Newsletter (美國計算機學(xué)會下屬知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議)的 "Learningimportant models for web page blocks based on layout and content analysis(基于布局和內(nèi)容分析的網(wǎng)頁塊重要性學(xué)習(xí)模型)”提出利用網(wǎng)頁布局來建立視 覺結(jié)構(gòu),同時利用這個視覺結(jié)構(gòu)將網(wǎng)頁分塊,在對網(wǎng)頁分塊之后,利用人工標注并通過神經(jīng) 網(wǎng)絡(luò)和支持向量機來對網(wǎng)頁塊特性到塊重要性的映射函數(shù)進行學(xué)習(xí),最后得到通用的映射 方法。該方法是基于機器學(xué)習(xí)的,機器學(xué)習(xí)太復(fù)雜,效率不高。

      發(fā)明內(nèi)容
      本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供一種基于最大相似性匹配的網(wǎng)頁去噪 系統(tǒng)及其去噪方法,適用于各種內(nèi)容型網(wǎng)站的網(wǎng)頁去噪。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的本發(fā)明涉及一種基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),包括網(wǎng)頁獲取模塊、預(yù)處 理模塊、網(wǎng)頁DOM生成特征樹模塊、特征樹最大相似性匹配模塊和聚集評價模塊,其中網(wǎng) 頁獲取模塊與預(yù)處理模塊相連并傳輸網(wǎng)頁代碼數(shù)據(jù),預(yù)處理模塊與網(wǎng)頁獲取模塊相連并傳 輸預(yù)處理后的目標網(wǎng)頁,預(yù)處理模塊與網(wǎng)頁DOM生成特征樹模塊相連并傳輸預(yù)處理后的網(wǎng) 頁數(shù)據(jù),網(wǎng)頁DOM生成特征樹模塊與特征樹最大相似性匹配模塊相連并傳輸特征樹數(shù)據(jù),特征樹最大相似性匹配模塊與聚集評價模塊相連并傳輸網(wǎng)頁內(nèi)容塊候選集,最后聚集評價 模塊輸出網(wǎng)頁內(nèi)容塊。所述的網(wǎng)頁獲取模塊下載目標網(wǎng)頁,并利用從預(yù)處理模塊得到的預(yù)處理后的目標 網(wǎng)頁,在其中尋找與目標網(wǎng)頁URL相似的網(wǎng)頁URL,并下載相似網(wǎng)頁,該模塊包括網(wǎng)頁下載 單元、鏈接匹配單元,其中網(wǎng)頁下載模塊通過HTTP請求指定URL的網(wǎng)頁;鏈接匹配單元分 析預(yù)處理后的目標網(wǎng)頁代碼并匹配出與目標網(wǎng)頁URL相似的相似網(wǎng)頁地址。所述的預(yù)處理模塊對獲取到的網(wǎng)頁代碼進行預(yù)處理;該模塊包括去除無關(guān)代碼 單元、修正單元,其中去除無關(guān)代碼單元分析網(wǎng)頁代碼,將其中內(nèi)容無關(guān)代碼,例如注釋、 腳本、CSS等去除;修正單元修正網(wǎng)頁代碼中的錯誤。所述的網(wǎng)頁DOM生成特征樹模塊分析網(wǎng)頁DOM樹,并通過計算和重組得到特征樹; 該模塊包括屬性計算單元、特征樹構(gòu)建單元,其中屬性計算單元將DOM樹節(jié)點屬性進行 轉(zhuǎn)換提取得到特征樹節(jié)點的屬性;特征樹構(gòu)建單元利用屬性計算單元的結(jié)果來構(gòu)建特征 樹。所述的特征樹最大相似性匹配模塊對目標網(wǎng)頁特征樹和相似網(wǎng)頁特征樹進行基 于LCS特征樹最大相似性匹配,得到網(wǎng)頁內(nèi)容塊候選集;該模塊包含特征節(jié)點序列生成單 元、相似性匹配單元,其中特征節(jié)點序列生成單元采用逐層遍歷將特征樹轉(zhuǎn)化為特征節(jié)點 隊列;相似性匹配單元并對目標網(wǎng)頁的特征節(jié)點隊列和相似網(wǎng)頁的特征節(jié)點隊列進行LCS 匹配,找出兩個序列不同之處得到網(wǎng)頁內(nèi)容塊候選集。所述的聚集評價模塊將網(wǎng)頁內(nèi)容塊候選集進行聚集并對每個聚集的集合進行特 征分析并評分并找出最重要的內(nèi)容塊;該模塊包含聚集單元、評價單元,其中聚集單元消 除內(nèi)容塊候選集中的祖先和子孫關(guān)系,并將在特征樹位置上比較接近的節(jié)點匯聚在一個集 合里;評價單元用于對網(wǎng)頁信息塊聚集簇中的每個集合進行特征分析并評分,找出最重要 的內(nèi)容塊。本發(fā)明涉及上述系統(tǒng)的去噪方法,包括以下步驟第一步、通過網(wǎng)頁獲取模塊的網(wǎng)頁下載單元下載目標網(wǎng)頁,通過預(yù)處理模塊對獲 取到的目標網(wǎng)頁的代碼進行預(yù)處理。預(yù)處理模塊首先利用去除無關(guān)代碼單元去除注釋、腳 本、CSS等內(nèi)容無關(guān)代碼;然后通過修正單元修正網(wǎng)頁代碼中存在的錯誤和相對鏈接;第二步、通過網(wǎng)頁獲取模塊的鏈接匹配單元對第一步中得到的預(yù)處理后的目標網(wǎng) 頁尋找與目標網(wǎng)頁URL相似的網(wǎng)頁URL,并通過網(wǎng)頁下載單元下載相似網(wǎng)頁;對得到的相似 網(wǎng)頁利用預(yù)處理模塊進行預(yù)處理;第三步、通過網(wǎng)頁DOM生成特征樹模塊對第一步得到的預(yù)處理后的目標網(wǎng)頁和第 二步中得到的預(yù)處理后的相似網(wǎng)頁分析其DOM樹,并通過計算和重組得到特征樹。首先通 過遍歷DOM樹節(jié)點并利用屬性計算單元將DOM樹節(jié)點屬性轉(zhuǎn)換為特征樹節(jié)點的屬性;然 后通過得到的屬性利用特征樹構(gòu)建單元依次構(gòu)建并得到目標網(wǎng)頁特征樹和相似網(wǎng)頁特征 樹;第四步、通過特征樹最大相似性匹配模塊對第三步中的得到的目標網(wǎng)頁特征樹和 相似網(wǎng)頁特征樹進行基于LCS特征樹最大相似性匹配,得到網(wǎng)頁內(nèi)容塊候選集。首先利用 特征節(jié)點序列生成單元將特征樹轉(zhuǎn)換為特征節(jié)點序列;然后利用相似性匹配單元對目標網(wǎng) 頁的特征節(jié)點隊列和相似網(wǎng)頁的特征節(jié)點隊列進行最長子序列匹配,找出兩個序列不同之處得到網(wǎng)頁內(nèi)容塊候選集;第五步、通過聚集評價模塊對第四步得到的網(wǎng)頁內(nèi)容塊候選集進行聚集并對每個 聚集的集合進行特征分析并評分并找出最重要的內(nèi)容塊。首先通過聚集單元消除內(nèi)容塊候 選集中的祖先和子孫關(guān)系,并將在特征樹位置上比較接近的節(jié)點匯聚在一個集合里;然后 利用評價單元用于對網(wǎng)頁信息塊聚集簇中的每個集合進行特征分析并評分,找出最重要的 內(nèi)容塊,即濾除了噪聲內(nèi)容。本發(fā)明的有益效果在于,以基于LCS特征樹結(jié)構(gòu)最大相似性匹配算法為核心,對 目標網(wǎng)頁及其相似網(wǎng)頁生成的特征樹進行相似性匹配,然后根據(jù)匹配結(jié)果的不同之處生成 信息塊候選集,并對候選集根據(jù)信息塊的相似程度和樹結(jié)構(gòu)進行聚集,對聚集結(jié)果的特征 進行分析評分得到最后的信息塊,以達到網(wǎng)頁去噪的目的。這樣,在考慮內(nèi)容的情況下,即 不需要太復(fù)雜的機器學(xué)習(xí),又具有廣泛的適應(yīng)性,能夠很好適用于大多數(shù)內(nèi)容型網(wǎng)站。本發(fā) 明的其他優(yōu)點將通過下面的說明書及附圖來說明。


      圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)圖。圖2為實施例特征樹示意圖。圖3為實施例操作流程圖。
      具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明作詳細說明,本實施例在以本發(fā)明技術(shù)方案為前 提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下 述的實施例。如圖1所示,本實施例包括網(wǎng)頁獲取模塊101、預(yù)處理模塊102、網(wǎng)頁DOM生成特 征樹模塊103、特征樹最大相似性匹配模塊104和聚集評價模塊105,其中網(wǎng)頁獲取模塊 101與預(yù)處理模塊102相連并傳輸網(wǎng)頁代碼數(shù)據(jù),預(yù)處理模塊102與網(wǎng)頁獲取模塊101相連 并傳輸預(yù)處理后的目標網(wǎng)頁,預(yù)處理模塊102與網(wǎng)頁DOM生成特征樹模塊103相連并傳輸 預(yù)處理后的網(wǎng)頁數(shù)據(jù),網(wǎng)頁DOM生成特征樹模塊103與特征樹最大相似性匹配模塊104相 連并傳輸特征樹數(shù)據(jù),特征樹最大相似性匹配模塊104與聚集評價模塊1. 6相連并傳輸網(wǎng) 頁內(nèi)容塊候選集,最后聚集評價模塊105輸出網(wǎng)頁內(nèi)容塊。所述的網(wǎng)頁獲取模塊101下載目標網(wǎng)頁,并利用從預(yù)處理模塊得到的預(yù)處理后的 目標網(wǎng)頁,在其中尋找與目標網(wǎng)頁URL相似的網(wǎng)頁URL,并下載相似網(wǎng)頁,該模塊包括網(wǎng)頁 下載單元、鏈接匹配單元,其中網(wǎng)頁下載模塊通過HTTP請求指定URL的網(wǎng)頁;鏈接匹配單 元分析預(yù)處理后的目標網(wǎng)頁代碼并匹配出與目標網(wǎng)頁URL相似的相似網(wǎng)頁地址。所述的預(yù)處理模塊102對獲取到的網(wǎng)頁代碼進行預(yù)處理;該模塊包括去除無關(guān) 代碼單元、修正單元,其中去除無關(guān)代碼單元分析網(wǎng)頁代碼,將其中內(nèi)容無關(guān)代碼去除; 修正單元修正網(wǎng)頁代碼中的錯誤。所述的網(wǎng)頁DOM生成特征樹模塊103分析網(wǎng)頁DOM樹,并通過計算和重組得到特 征樹;該模塊包括屬性計算單元、特征樹構(gòu)建單元,其中屬性計算單元將DOM樹節(jié)點屬性 進行轉(zhuǎn)換提取得到特征樹節(jié)點的屬性;特征樹構(gòu)建單元利用屬性計算單元的結(jié)果來構(gòu)建特征樹。所述的特征樹最大相似性匹配模塊104對目標網(wǎng)頁特征樹和相似網(wǎng)頁特征樹進 行基于LCS特征樹最大相似性匹配,得到網(wǎng)頁內(nèi)容塊候選集;該模塊包含特征節(jié)點序列生 成單元、相似性匹配單元,其中特征節(jié)點序列生成單元采用逐層遍歷將特征樹轉(zhuǎn)化為特征 節(jié)點隊列;相似性匹配單元并對目標網(wǎng)頁的特征節(jié)點隊列和相似網(wǎng)頁的特征節(jié)點隊列進行 LCS匹配,找出兩個序列不同之處得到網(wǎng)頁內(nèi)容塊候選集。所述的聚集評價模塊105將網(wǎng)頁內(nèi)容塊候選集進行聚集并對每個聚集的集合進 行特征分析并評分并找出最重要的內(nèi)容塊;該模塊包含聚集單元、評價單元,其中聚集單 元消除內(nèi)容塊候選集中的祖先和子孫關(guān)系,并將在特征樹位置上比較接近的節(jié)點匯聚在一 個集合里;評價單元用于對網(wǎng)頁信息塊聚集簇中的每個集合進行特征分析并評分,找出最 重要的內(nèi)容塊。如圖3所示,以著名中文門戶網(wǎng)站新浪的一個網(wǎng)頁為實施例,其URL地址為 "http://news. sina. com. cn/w/2010-09-27/202421181404. shtml,,,將其作為方法的輸入。步驟S301,下載目標網(wǎng)頁,并對得到的目標網(wǎng)頁進行預(yù)處理,去除掉一些與網(wǎng)頁內(nèi) 容無關(guān)項(如JavaScript腳本、注釋等等),JavaScript是動態(tài)客戶端腳本,一般用于網(wǎng)頁 與用戶的互動,與網(wǎng)頁內(nèi)容無關(guān);注釋是網(wǎng)頁設(shè)計者為了方便設(shè)計而添加的網(wǎng)頁頁面不可 見的內(nèi)容,因此也可以直接刪除;同時修正相對路徑問題,由于網(wǎng)頁是下載到本地后進行處 理,處理完后無法放到原網(wǎng)站環(huán)境下去顯示,因此需要把相對URI地址要轉(zhuǎn)化為絕對URI地 址,這包括鏈接、圖片、CSS文件、iframe、frame的URI地址;修正不符合W3C標準的網(wǎng)頁錯 誤,這包括標簽的錯誤嵌套,標簽不成對出現(xiàn)等等。步驟S302,在對目標網(wǎng)頁進行預(yù)處理之后,將其發(fā)送給網(wǎng)頁獲取模塊,對預(yù)處理后 的目標網(wǎng)頁進行鏈接匹配,搜索目標網(wǎng)頁中的所有鏈接,并根據(jù)說明書中的四個原則來粗 略獲取相似網(wǎng)頁的鏈接,然后下載相似網(wǎng)頁,并再發(fā)送給預(yù)處理模塊進行預(yù)處理。步驟S303,對預(yù)處理后的目標網(wǎng)頁和相似網(wǎng)頁,分析其HTML的DOM樹形式,并利用 其得到特征樹。特征樹由特征節(jié)點(CNode)構(gòu)成,以網(wǎng)頁body節(jié)點為根節(jié)點。CNode去除 了 DOM樹節(jié)點中不利于做相似性匹配的屬性,加入了一些由DOM樹種的屬性進行變換融合 的屬性。步驟S304,通過基于LCS特征樹最大相似性匹配模塊對目標網(wǎng)頁和相似網(wǎng)頁進行 匹配,尋找特征節(jié)點序列中的不同節(jié)點。這一步驟可以分為以下幾個環(huán)節(jié)一是由于LCS算法不能直接運用于樹,所以首先將特征樹按逐層遍歷轉(zhuǎn)換為節(jié)點 隊列,特征樹的示意圖如圖2,將特征樹CTl轉(zhuǎn)換為序列為ABCDETO,特征樹CT2轉(zhuǎn)換為序列 為 A,B' C' D' E' F' G'。二是定義兩個二維數(shù)組scoreTable和pointerTable,分別保存子問題相似度累 和與回溯方向,此處表格單元格代表子序列相似度累加的最大值,假設(shè)scoreTable行方向 的序列是Si,列方向的序列是S2,然后運用LCS算法進行最大相似性匹配1.初始化兩個二維數(shù)組scoreTable所有單元格賦值為0 ^ointerable第一行除第一個單元格外全部記 錄向左方向,第一列除第一個單元格外全部記錄向上方向。2.循環(huán)計算子問題的相似度累和以及回溯方向
      從scoreTable第二行第二列開始逐行計算單元格值和pointerTable對應(yīng)單元格 的方向值。m是序列S2的長度,η是序列Sl的長度。for (row = Ito m)for (col = Ito η)Vtop = scoreTable[row-1, col]// 獲取上方單元格的值Vleft = scoreTable [row, col-1]// 獲取左方單元格的值Vtopleft = scoreTable [row_l,col-1] +CompareTwoCNode (Si [col-1],S2 [row-1]) // 計算左上方單元
      格與當前兩節(jié)點的相似度的和scoreTable [row, col] = Max (Vtop, Vleft, Vtopleft)// 計算單元格值(子問題 解)pointerTable [row, col] = getDirection (Vtop, Vleft, Vtopleft) // if 向end offorend offor其中CompareTwoCNode是計算兩個特征節(jié)點相似性的函數(shù),輸入為兩個節(jié)點,輸 出是一個介于O到1之間的值,即相似度。CompareTwoCNode的實現(xiàn)方法如下(1)如果兩個節(jié)點標簽名不同,返回O ;(2)如果兩個節(jié)點都是BODY節(jié)點,返回1,BODY節(jié)點是一個特殊的節(jié)點,它是每棵 特征樹的根節(jié)點,對于BODY節(jié)點,不管它們是否有特征不相同,都認為它們是相似的,而且 相似度為1 ;(3)如果一個是BODY節(jié)點,一個不是,返回O ;(4)如果兩個節(jié)點的父節(jié)點不相似,返回O ;(5)如果兩個節(jié)點的都是內(nèi)容節(jié)點,則比較它們的irmerHTML,相同返回1,否則返 回0,對于內(nèi)容節(jié)點,在比較時要求比較苛刻,除了在特征上要求相似,還要求其在內(nèi)容上相 同;(6)如果兩個節(jié)點一個是內(nèi)容節(jié)點,一個是結(jié)構(gòu)節(jié)點,返回O ;(7)在上面所有情況都不滿足的情況下,計算兩個節(jié)點各特征相同的數(shù)目與特征 總數(shù)目的比值,返回比值。這里的特征包括ID、樣式表類名(className)、節(jié)點在特征樹中 的深度(D印th)、節(jié)點代表的網(wǎng)頁塊的寬度、高度、左邊距、上邊距等。算法中用到的getDirection用于計算回溯方向,輸入是三個方向上的相似度累 和,輸出是上、左、左上中的一個方向。其計算方法如下(1)在不相同的情況下,選取相似度累和最大的那個方向;(2)在有兩個或三個方向上相似度累和相同的情況下,按優(yōu)先選取左上,然后是 上,最后是左的原則。3.算法回溯假設(shè)CTreel是目標網(wǎng)頁的特征樹,CTree2是相似網(wǎng)頁的特征樹。與LCS算法不 同,感興趣的是不是兩棵樹相似之處,而是希望得到CTreel上特有的,而CTree2上沒有或 不同的樹枝或節(jié)點?;厮輳谋砀裼蚁陆情_始,pointerTable記錄了回溯方向??紤]要將Sl變換為S2,對于向上的方向,對Sl來說此處發(fā)生了添加操作,添加操作意味著該節(jié)點是Sl 沒有而S2有的節(jié)點,不是Sl不同于S2的節(jié)點,忽略。對于向左的方向,Sl發(fā)生了刪除操 作,意味著Sl有而S2沒有的節(jié)點,將其加入目標網(wǎng)頁信息塊候選集。對于左上方向,本單 元格的值是左上單元格相似度累和與本單元格位置上的Sl序列和S2序列的節(jié)點之間的相 似度之和,因此可以用本單元格值減去左上單元格值得到此處兩節(jié)點的相似度,與相似度 閾值(Ts)進行比較,如果大于閾值,則認為兩節(jié)點相似,忽略;如果小于閾值,此處發(fā)生替 換操作,意味著Sl有S2也有但不相似的節(jié)點,將其加入目標網(wǎng)頁信息塊候選集。步驟S305,通過聚集評價模塊,消除內(nèi)容快候選集中的祖先和子孫關(guān)系,并將在特 征樹位置上比較接近的節(jié)點匯聚在一個集合里面。在實驗中首先檢查候選集類是否有某個 節(jié)點的子孫節(jié)點,有則將子孫節(jié)點從候選集中去除;然后隨機選取一個候選集中的節(jié)點,在 候選集其他節(jié)點中尋找與其有相同父親節(jié)點的節(jié)點或那些爺爺節(jié)點是其父親節(jié)點的節(jié)點, 將它們置于同一個集合中,繼續(xù)對剩下的節(jié)點做同樣的操作,直到候選集中所有節(jié)點都處 理完畢。最后得到多個集合,稱之為網(wǎng)頁信息塊聚集簇。然后對網(wǎng)頁信息塊聚集簇中的每 個集合進行特征分析并評分,找出最重要的信息塊。計算文本長度、面積、有效面積、內(nèi)容標 簽數(shù)目、鏈接率、文本代碼比率等指標后,對于有助于尋找信息塊的指標(如文本長度),給 排名靠前的聚集簇加分,對于有利于尋找噪聲塊的指標(如鏈接率),對排名靠前的減分懲 罰。對于每個指標對聚集簇按從大到小排序,對前三個進行打分。對于鏈接率,按-5、-3、-1 分值打分;對其他指標按5,、3、1分值打分。最后每個聚集簇都有一個評分,對其進行排名, 選取靠前的幾個分值比較接近的聚集簇作為最后的結(jié)果,即目標網(wǎng)頁的信息塊。利用上述方法從幾個著名中文門戶網(wǎng)站(新浪、騰訊、網(wǎng)易和搜狐)獲取共計2458 個不同類別的網(wǎng)頁地址,作為輸入進行了測試,通過對比原網(wǎng)頁和去噪后結(jié)果,看出導(dǎo)航欄 和廣告等都被濾除,由于利用了相似網(wǎng)頁來去噪,算法達到了平均95. 1 %的正確率,比“A NovelMethod to Extract Informative Blocks from Web Pages (—種新型的從網(wǎng)頁抽取 信息塊的方法)”文中提出的方法的平均正確率85. 9%有明顯的提高,證明本發(fā)明方法對 于網(wǎng)頁都有很好的去噪效果。本發(fā)明中提出的基于DOM樹構(gòu)建特征樹,所構(gòu)建的特征樹適 合于LCS算法進行最大相似性匹配,并利用了 LCS算法能找到全局最優(yōu)解的特點,從而在網(wǎng) 頁去噪中取得了更好的效果。同時,本方法通過分析計算網(wǎng)頁塊的文本長度、面積、有效面積、內(nèi)容標簽數(shù)目、鏈 接率、文本代碼比率等指標,然后根據(jù)噪聲塊和內(nèi)容塊各自特點對網(wǎng)頁內(nèi)容塊候選集進行 評分篩選,能有效區(qū)分噪聲塊和內(nèi)容塊,從而達到很好的去噪效果。
      權(quán)利要求
      1.一種基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征在于,包括網(wǎng)頁獲取模塊、預(yù)處 理模塊、網(wǎng)頁DOM生成特征樹模塊、特征樹最大相似性匹配模塊和聚集評價模塊,其中網(wǎng) 頁獲取模塊與預(yù)處理模塊相連并傳輸網(wǎng)頁代碼數(shù)據(jù),預(yù)處理模塊與網(wǎng)頁獲取模塊相連并傳 輸預(yù)處理后的目標網(wǎng)頁,預(yù)處理模塊與網(wǎng)頁DOM生成特征樹模塊相連并傳輸預(yù)處理后的網(wǎng) 頁數(shù)據(jù),網(wǎng)頁DOM生成特征樹模塊與特征樹最大相似性匹配模塊相連并傳輸特征樹數(shù)據(jù), 特征樹最大相似性匹配模塊與聚集評價模塊相連并傳輸網(wǎng)頁內(nèi)容塊候選集,最后聚集評價 模塊輸出網(wǎng)頁內(nèi)容塊。
      2.根據(jù)權(quán)利要求1所述的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征是,所述的網(wǎng) 頁獲取模塊下載目標網(wǎng)頁,并利用從預(yù)處理模塊得到的預(yù)處理后的目標網(wǎng)頁,在其中尋找 與目標網(wǎng)頁URL相似的網(wǎng)頁URL,并下載相似網(wǎng)頁,該模塊包括網(wǎng)頁下載單元、鏈接匹配單 元,其中網(wǎng)頁下載模塊通過HTTP請求指定URL的網(wǎng)頁;鏈接匹配單元分析預(yù)處理后的目 標網(wǎng)頁代碼并匹配出與目標網(wǎng)頁URL相似的相似網(wǎng)頁地址。
      3.根據(jù)權(quán)利要求1所述的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征是,所述的預(yù) 處理模塊對獲取到的網(wǎng)頁代碼進行預(yù)處理;該模塊包括去除無關(guān)代碼單元、修正單元,其 中去除無關(guān)代碼單元分析網(wǎng)頁代碼,將其中內(nèi)容無關(guān)代碼去除;修正單元修正網(wǎng)頁代碼 中的錯誤。
      4.根據(jù)權(quán)利要求1所述的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征是,所述的網(wǎng) 頁DOM生成特征樹模塊分析網(wǎng)頁DOM樹,并通過計算和重組得到特征樹;該模塊包括屬性 計算單元、特征樹構(gòu)建單元,其中屬性計算單元將DOM樹節(jié)點屬性進行轉(zhuǎn)換提取得到特征 樹節(jié)點的屬性;特征樹構(gòu)建單元利用屬性計算單元的結(jié)果來構(gòu)建特征樹。
      5.根據(jù)權(quán)利要求1所述的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征是,所述的特 征樹最大相似性匹配模塊對目標網(wǎng)頁特征樹和相似網(wǎng)頁特征樹進行基于LCS特征樹最大 相似性匹配,得到網(wǎng)頁內(nèi)容塊候選集;該模塊包含特征節(jié)點序列生成單元、相似性匹配單 元,其中特征節(jié)點序列生成單元采用逐層遍歷將特征樹轉(zhuǎn)化為特征節(jié)點隊列;相似性匹 配單元并對目標網(wǎng)頁的特征節(jié)點隊列和相似網(wǎng)頁的特征節(jié)點隊列進行LCS匹配,找出兩個 序列不同之處得到網(wǎng)頁內(nèi)容塊候選集。
      6.根據(jù)權(quán)利要求1所述的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng),其特征是,所述的聚 集評價模塊將網(wǎng)頁內(nèi)容塊候選集進行聚集并對每個聚集的集合進行特征分析并評分并找 出最重要的內(nèi)容塊;該模塊包含聚集單元、評價單元,其中聚集單元消除內(nèi)容塊候選集中 的祖先和子孫關(guān)系,并將在特征樹位置上比較接近的節(jié)點匯聚在一個集合里;評價單元用 于對網(wǎng)頁信息塊聚集簇中的每個集合進行特征分析并評分,找出最重要的內(nèi)容塊。
      7.一種根據(jù)上述任一權(quán)利要求所述系統(tǒng)的去噪方法,其特征在于,包括以下步驟第一步、通過網(wǎng)頁獲取模塊的網(wǎng)頁下載單元下載目標網(wǎng)頁,通過預(yù)處理模塊對獲取到的目標網(wǎng)頁的代碼進行預(yù)處理,預(yù)處理模塊首先利用去除無關(guān)代碼單元去除內(nèi)容無關(guān)代 碼,然后通過修正單元修正網(wǎng)頁代碼中存在的錯誤和相對鏈接;第二步、通過網(wǎng)頁獲取模塊的鏈接匹配單元對第一步中得到的預(yù)處理后的目標網(wǎng)頁尋 找與目標網(wǎng)頁URL相似的網(wǎng)頁URL,并通過網(wǎng)頁下載單元下載相似網(wǎng)頁;對得到的相似網(wǎng)頁 利用預(yù)處理模塊進行預(yù)處理;第三步、通過網(wǎng)頁DOM生成特征樹模塊對第一步得到的預(yù)處理后的目標網(wǎng)頁和第二步中得到的預(yù)處理后的相似網(wǎng)頁分析其DOM樹,并通過計算和重組得到特征樹;第四步、通過特征樹最大相似性匹配模塊對第三步中的得到的目標網(wǎng)頁特征樹和相似 網(wǎng)頁特征樹進行基于LCS特征樹最大相似性匹配,得到網(wǎng)頁內(nèi)容塊候選集;第五步、通過聚集評價模塊對第四步得到的網(wǎng)頁內(nèi)容塊候選集進行聚集并對每個聚集 的集合進行特征分析并評分并找出最重要的內(nèi)容塊。
      8.根據(jù)權(quán)利要求7所述的去噪方法,其特征是,所述的第三步具體是指首先通過遍歷 DOM樹節(jié)點并利用屬性計算單元將DOM樹節(jié)點屬性轉(zhuǎn)換為特征樹節(jié)點的屬性;然后通過得 到的屬性利用特征樹構(gòu)建單元依次構(gòu)建并得到目標網(wǎng)頁特征樹和相似網(wǎng)頁特征樹。
      9.根據(jù)權(quán)利要求7所述的去噪方法,其特征是,所述的第四步具體是指首先利用特征 節(jié)點序列生成單元將特征樹轉(zhuǎn)換為特征節(jié)點序列;然后利用相似性匹配單元對目標網(wǎng)頁的 特征節(jié)點隊列和相似網(wǎng)頁的特征節(jié)點隊列進行最長子序列匹配,找出兩個序列不同之處得 到網(wǎng)頁內(nèi)容塊候選集。
      10.根據(jù)權(quán)利要求7所述的去噪方法,其特征是,所述的第五步具體是指首先通過聚 集單元消除內(nèi)容塊候選集中的祖先和子孫關(guān)系,并將在特征樹位置上比較接近的節(jié)點匯聚 在一個集合里;然后利用評價單元用于對網(wǎng)頁信息塊聚集簇中的每個集合進行特征分析并 評分,找出最重要的內(nèi)容塊,即濾除了噪聲內(nèi)容。
      全文摘要
      一種互聯(lián)網(wǎng)技術(shù)領(lǐng)域的基于最大相似性匹配的網(wǎng)頁去噪系統(tǒng)及其去噪方法,該系統(tǒng)包括網(wǎng)頁獲取模塊、預(yù)處理模塊、網(wǎng)頁DOM生成特征樹模塊、特征樹最大相似性匹配模塊和聚集評價模塊,網(wǎng)頁獲取模塊與預(yù)處理模塊相連并傳輸網(wǎng)頁代碼數(shù)據(jù),預(yù)處理模塊與網(wǎng)頁獲取模塊相連并傳輸預(yù)處理后的目標網(wǎng)頁,預(yù)處理模塊與網(wǎng)頁DOM生成特征樹模塊相連并傳輸預(yù)處理后的網(wǎng)頁數(shù)據(jù),網(wǎng)頁DOM生成特征樹模塊與特征樹最大相似性匹配模塊相連并傳輸特征樹數(shù)據(jù),特征樹最大相似性匹配模塊與聚集評價模塊相連并傳輸網(wǎng)頁內(nèi)容塊候選集,最后聚集評價模塊輸出網(wǎng)頁內(nèi)容塊。本發(fā)明能夠很好適用于大多數(shù)內(nèi)容型網(wǎng)站。
      文檔編號G06F17/30GK102004805SQ201010618360
      公開日2011年4月6日 申請日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
      發(fā)明者周軍, 安然, 宋鰲, 羅傳飛, 馬玲 申請人:上海交通大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1