国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      結(jié)構(gòu)文檔信息塊的自動分割方法和裝置的制作方法

      文檔序號:6369884閱讀:138來源:國知局
      專利名稱:結(jié)構(gòu)文檔信息塊的自動分割方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及結(jié)構(gòu)文檔信息塊的自動分割方法和裝置。
      背景技術(shù)
      隨著網(wǎng)絡(luò)技術(shù)的日益發(fā)展,人們可以從因特網(wǎng)等網(wǎng)絡(luò)中獲取越來越多的信息,為了有效的利用所獲取的信息,需要對信息進行提取、分類以及存儲等操作,但是由于因特網(wǎng)等網(wǎng)絡(luò)上的信息大多采用結(jié)構(gòu)文檔的形式,人們可以直接獲取的結(jié)構(gòu)文檔中不僅包含所希望的實際的內(nèi)容信息,而且還包含很多表示文檔結(jié)構(gòu)的信息。結(jié)構(gòu)文檔中經(jīng)常有格式上或者形式上相同或者相似的單元,每一個單位屬于一個語義體,即本發(fā)明所述的信息塊。由于信息塊在語義上相對獨立,我們需要從結(jié)構(gòu)文檔中識別和分割信息塊,然后對這些信息塊進行處理,如為每一個信息塊進行索引,以備信息檢索使用;由于信息塊之間的結(jié)構(gòu)相似,可以對某個信息塊進行標(biāo)注信息提取信息,然后對其他和該信息塊相似的信息塊進行信息提取。因此,需要一種從結(jié)構(gòu)文檔中識別和分割信息塊的技術(shù)。
      這里,所謂的結(jié)構(gòu)文檔是,例如HTML(HyperText Markup Language),XML(Extensible Markup Language)等帶有表示文檔結(jié)構(gòu)信息的文檔,所謂信息塊是指相對獨立的信息單元。例如假設(shè)在HTML文件中,有汽車廣告列表,則每一條廣告信息為一個信息塊;在BBS論壇中,頁面上經(jīng)常有話題(topic)列表,則每一個話題為一個信息塊;一個搜索引擎的檢索結(jié)果頁面中,每一個檢索結(jié)果為一個信息塊。結(jié)構(gòu)文檔信息塊的自動識別分割對信息提取和信息檢索非常重要。例如,在HTML文件中,如何自動分割網(wǎng)頁中的信息塊對于Web頁面信息提取的后續(xù)工作是非常重要的。
      從結(jié)構(gòu)文檔中識別并分割信息塊的方法,根據(jù)人工參與的程度可分為以下三種完全人工識別分割方法;半自動識別分割方法,例如,首先通過觀察發(fā)現(xiàn)信息塊之間的分割標(biāo)記,然后編寫程序利用這些分割標(biāo)記進行分割;以及全自動識別分割方法。
      作為現(xiàn)有的一種結(jié)構(gòu)文檔信息塊的全自動識別分割方法,D.WEmbley等人(參見D.W.Embley,Y.S.Jiang,and Y.-K.Ng.Record-boundary discovery in web document s.In SIGMOD’99,1999)提出了一種針對HTML文檔的信息塊的自動分割方法(下面稱為現(xiàn)有技術(shù)1),首先根據(jù)HTML文件的標(biāo)記建立標(biāo)記分析樹,然后確定包含信息塊的子樹,最后使用一些啟發(fā)式的算法在信息塊的候選分割標(biāo)記中選擇分割標(biāo)記。該算法在確定信息塊的子樹時未考慮選擇性的標(biāo)記(如“option”,“div”),所以這種情況將出錯;另外由于選擇分割標(biāo)記時沒有考慮深層次的信息和標(biāo)記序列之間的重復(fù),在某些情況下也會出錯。
      作為另外一種結(jié)構(gòu)文檔信息塊的全自動識別分割方法,Chia-huichang(參見C.H.Chang.and S.C.Lui.IEPADInformation Extractionbased on Pattern Di scovery,In the Proceedings of the tenthInternational Conference on World Wide Web,pp.681-688,May 2-6,2001,Hong Kong.)提出下述方法(下面稱為現(xiàn)有技術(shù)2),將HTML文檔作為一個字符流,利用PAT(Patricia tree)算法計算重復(fù)標(biāo)記序列,每個重復(fù)標(biāo)記序列的所有子樹內(nèi)容為一個信息塊。由于其未考慮HTML文檔的結(jié)構(gòu)特征,因此當(dāng)信息塊之間不是非常一致時,可能分割出錯。

      發(fā)明內(nèi)容
      為了解決上述問題,本發(fā)明提供一種結(jié)構(gòu)文檔信息塊的自動分割方法和裝置,其能對結(jié)構(gòu)文檔中的選擇性標(biāo)記進行處理,并考慮深層次的信息和標(biāo)記序列之間的重復(fù)以及結(jié)構(gòu)文檔的結(jié)構(gòu)特征來自動進行識別和分割,即使結(jié)構(gòu)文檔的結(jié)構(gòu)、重復(fù)模式比較復(fù)雜或信息塊之間不是非常一致的情況下,也能夠?qū)Y(jié)構(gòu)文檔中的信息塊進行正確的識別和分割。
      為了達到本發(fā)明的目的,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置以結(jié)構(gòu)文檔為輸入,對該結(jié)構(gòu)文檔包含的信息塊進行自動識別和分割并輸出分割結(jié)果,其特征在于,包括文檔結(jié)構(gòu)信息生成部,其接受所述結(jié)構(gòu)文檔并根據(jù)該結(jié)構(gòu)文檔生成文檔結(jié)構(gòu)信息;信息塊范圍確定部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息確定信息塊的范圍;分割規(guī)則生成部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部生成的文檔結(jié)構(gòu)信息和所述信息塊范圍確定部所確定的范圍,生成分割規(guī)則;分割部,其根據(jù)所述分割規(guī)則生成部所生成的分割規(guī)則對所述結(jié)構(gòu)文檔進行分割,并輸出分割結(jié)果。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,并且采用寬度優(yōu)先算法搜索該文檔結(jié)構(gòu)樹,找到有效子節(jié)點最多而且其有效文本量和整個文檔的有效文本量之比大于預(yù)先設(shè)定的閾值的節(jié)點,該節(jié)點所對應(yīng)的范圍就是包含所有信息塊的最小范圍,以該節(jié)點為根的子樹為包含所有信息塊的最小子樹。
      根據(jù)本發(fā)明,使用有效子節(jié)點數(shù)量和有效文本量和整個文檔的有效文本量之比值作為判定包含所有信息塊的最小子樹的根節(jié)點可以消除某些特定的節(jié)點和特定的文本對判定包含所有信息塊的最小子樹的根節(jié)點的影響;采用寬度優(yōu)先算法搜索該文檔結(jié)構(gòu)樹可以優(yōu)先考慮距離文檔結(jié)構(gòu)樹的根節(jié)點近的節(jié)點。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,所述分割規(guī)則生成部利用信息塊所在的子樹的根節(jié)點的子節(jié)點及其孫子節(jié)點的標(biāo)記序列計算最優(yōu)重復(fù)模式。
      根據(jù)本發(fā)明,不僅利用信息塊所在的子樹的根節(jié)點的子節(jié)點信息,而且還利用子樹的根節(jié)點的孫子節(jié)點的標(biāo)記序列信息,因此可以處理僅利用信息塊所在的子樹的根節(jié)點的子節(jié)點的標(biāo)記序列所不能解決的問題,具體情況參見實例2。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部如下計算最優(yōu)重復(fù)模式首先對所述根節(jié)點的子節(jié)點序列,計算第一重復(fù)模式;然后對根節(jié)點的子節(jié)點和孫子序列,計算第二重復(fù)模式;最后從所述的第一重復(fù)模式和第二重復(fù)模式中選擇最優(yōu)重復(fù)模式。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部通過以下步驟計算第一重復(fù)模式和第二重復(fù)模式中的至少一個計算原始標(biāo)記序列的第一重復(fù)序列;根據(jù)第一重復(fù)序列,用一個特定的符號代替標(biāo)記序列中的第一重復(fù)序列,得到原始標(biāo)記序列的變形序列;計算所述變形序列的第二重復(fù)序列;根據(jù)第二重復(fù)序列,確定最終重復(fù)模式。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部使用覆蓋度計算重復(fù)模式和選擇最優(yōu)重復(fù)模式。
      其中,某個模式對某個序列的覆蓋度指該序列中符合該模式的元素集合的所有數(shù)目和該序列的數(shù)目的比值。根據(jù)覆蓋度可以精確第計算和選擇最優(yōu)重復(fù)模式。
      另外,本發(fā)明的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述結(jié)構(gòu)文檔為HTML、XML或XHTML。


      圖1表示結(jié)構(gòu)文檔信息塊自動分割裝置結(jié)構(gòu)圖;圖2表示本發(fā)明的實施方式的實例1的HTML文件;圖3表示本發(fā)明的實施方式的實例1的HTML文件的源文件;圖4表示本發(fā)明的實施方式的實例1的HTML文件的結(jié)構(gòu)信息圖;圖5表示本發(fā)明的實施方式的實例1的HTML文件的分割結(jié)果;圖6表示本發(fā)明的實施方式的實例2的HTML文件;圖7表示本發(fā)明的實施方式的實例2的HTML文件的源文件;圖8表示本發(fā)明的實施方式的實例2的HTML文件的結(jié)構(gòu)信息圖;圖9表示現(xiàn)有技術(shù)的HTML文件的分割結(jié)果;圖10表示本發(fā)明的實施方式的實例2的HTML文件的分割結(jié)果;
      圖11表示本發(fā)明的實施方式的實例3的HTML文件;圖12表示本發(fā)明的實施方式的實例3的HTML文件源文件;圖13表示本發(fā)明的實施方式的實例3的HTML文件的結(jié)構(gòu)信息圖;圖14表示本發(fā)明的實施方式的實例3的HTML文件的分割結(jié)果。
      具體實施例方式
      下面參照附圖,對本發(fā)明的具體實施方式
      進行說明。圖1是本發(fā)明的分割裝置的簡要結(jié)構(gòu)示意圖。本發(fā)明的分割裝置由下列4個部分構(gòu)成包括(1)文檔結(jié)構(gòu)信息生成部,(2)信息塊范圍確定部,(3)分割規(guī)則生成部和(4)分割部。下面,對這4個部分進行詳細說明。
      (1)文檔結(jié)構(gòu)信息生成部首先接收結(jié)構(gòu)文檔,利用該文檔的標(biāo)記信息創(chuàng)建文檔結(jié)構(gòu)信息。文檔結(jié)構(gòu)信息反映了結(jié)構(gòu)文檔的內(nèi)容和結(jié)構(gòu),即組成該文檔的各個元素(元素名稱、元素內(nèi)容、元素所包含的各個屬性)以及各個元素之間的構(gòu)成關(guān)系。
      例如接收HTML文件,HTML文件都是把標(biāo)記(即tag,如HTML,tr,td等等)和文本按照HTML的定義聯(lián)在一起的。標(biāo)記包括“<”和“>”以及在“<”和“>”之間為標(biāo)記名稱。標(biāo)記經(jīng)常成對出現(xiàn),為開始標(biāo)記和結(jié)束標(biāo)記。開始標(biāo)記不以“/”開頭,而結(jié)束標(biāo)記以“/”開頭。當(dāng)然也有單獨出現(xiàn)的。HTML文件中的某個標(biāo)記劃分出1個離散的區(qū)域。該離散區(qū)域的開始為開始標(biāo)記的開始位置;該離散區(qū)域的結(jié)束為相對應(yīng)的結(jié)束標(biāo)記的位置。該離散區(qū)域可以被某些標(biāo)記繼續(xù)分割為更小的區(qū)域。標(biāo)記之間相互嵌套,組成了一個嵌套結(jié)構(gòu)。根據(jù)這些信息創(chuàng)建該HTML文件的文檔結(jié)構(gòu)樹描述該文檔的結(jié)構(gòu)信息。
      (2)信息塊范圍確定部信息塊范圍確定部根據(jù)文檔結(jié)構(gòu)信息生成部生成的文檔結(jié)構(gòu)信息,計算出包含所有信息塊的最小范圍。假設(shè)使用文檔結(jié)構(gòu)圖表示文檔結(jié)構(gòu)信息,信息塊范圍確定部確定包含所有信息塊的最小子樹。
      這里以HTML文件為例進行說明,首先接收HTML文件,采用文檔結(jié)構(gòu)樹表示該文檔結(jié)構(gòu)信息,相對應(yīng)區(qū)域的標(biāo)記(tag)名稱為文檔結(jié)構(gòu)樹的節(jié)點名稱。
      所謂有效子節(jié)點數(shù)是指如果子節(jié)點中沒有“FORM”,有效子節(jié)點數(shù)為有效文本量不為0的子節(jié)點數(shù);如果子節(jié)點中含有“FORM”,有效子節(jié)點數(shù)為連續(xù)兩個“FORM”之間的有效文本量不為0子節(jié)點數(shù)的最大者。
      節(jié)點的有效文本量指其所有子節(jié)點的有效文本量之和;如果該節(jié)點為文本節(jié)點,該節(jié)點的有效文本量為該節(jié)點文本的長度;如果該節(jié)點為option,該節(jié)點的有效文本量為0;如果該節(jié)點為div id=LayerXX,該節(jié)點的有效文本量為0。
      采用寬度優(yōu)先算法搜索該文檔結(jié)構(gòu)樹,找到有效子節(jié)點最多而且其有效文本量和整個文檔的文本量之比大于預(yù)先設(shè)定的閾值,例如40%的節(jié)點,以節(jié)點為根節(jié)點的子樹為包含所有信息塊的最小子樹。這個節(jié)點所對應(yīng)的范圍就是包含所有信息塊的最小范圍。
      (3)分割規(guī)則生成部假設(shè)包含信息塊的子圖的根節(jié)點A,其子節(jié)點依次為A1,A2,A3,…,An。分割的任務(wù)就是如何把這些子節(jié)點依次分成若干個組,使每個組都比較相似。每一個組的子節(jié)點序列所對應(yīng)的區(qū)域為需要分割的信息塊。
      分割規(guī)則生成部計算出這些子節(jié)點分組規(guī)則即分割規(guī)則,同時把該規(guī)則輸出保存,以便于分割部使用。
      分割規(guī)則生成部的主要處理過程如下步驟1判斷是否可以利用特殊分割標(biāo)記來分割,如果可以,則該特殊分割標(biāo)記返回,本部結(jié)束;步驟2對節(jié)點A的子節(jié)點序列,計算重復(fù)模式1;步驟3對節(jié)點A的子節(jié)點和孫子序列,計算重復(fù)模式2;步驟4在重復(fù)模式1和重復(fù)模式2中,利用評估函數(shù)選擇最優(yōu)重復(fù)模式;這個最優(yōu)重復(fù)模式即為分割規(guī)則。
      上述處理過程中,步驟2和步驟3可以使用PAT算法等現(xiàn)有的計算方法,也可以使用下述的2-PAT計算方法計算重復(fù)模式;步驟4中可以采用覆蓋度作為評估函數(shù)。下面下面對覆蓋度的概念和計算方法進行詳細的說明。
      假設(shè)字符串為X,模式為Y,X針對模式Y(jié)的k個分割點依次為p1,p2,p3,…,pk,str(pi)(0≤i≤k)為X中從pi開始的符合模式Y(jié)的子串。1ength(str(pi))為str(pi)的長度。覆蓋度score如下計算score=&Sigma;i=1klength(str(pi))length(X)]]>score的數(shù)值越大,所有的str(pi)(0≤i≤k)對X的覆蓋度越高,模式也就越好。
      下面對2-PAT(Patricia tree)方法進行說明,2-PAT方法接收標(biāo)記序列,經(jīng)過計算得到標(biāo)記序列的最優(yōu)重復(fù)模式,例如假設(shè)標(biāo)記序列為“B,I,A,B,I,A,B,I,A,B,I,A,”則標(biāo)記序列的最優(yōu)重復(fù)模式為“B,I,A,”;例如假設(shè)標(biāo)記序列為“A,c,d,B,A,c,d,c,d,c,d,B,”則其最優(yōu)重復(fù)模式為A,(c,d,)*B,具體來說,其處理過程如下假設(shè)接收的標(biāo)記序列為N,步驟1計算N中的重復(fù)序列;例如N為“A,c,d,B,A,c,d,c,d,c,d,B,”時,重復(fù)序列為“c,d,”;步驟2根據(jù)N的重復(fù)序列,對標(biāo)記序列N進行變形。變形的方法是把N中出現(xiàn)的重復(fù)序列或者連續(xù)出現(xiàn)的多個重復(fù)序列替換成某個特定的字母,例如X。上例中N變形為“A,X,B,A,X,B,”;步驟3計算N變形序列的重復(fù)序列,本例中N變形序列的重復(fù)序列為“A,X,B”;步驟4如果接收序列N變形后的重復(fù)序列中包含X,則把該重復(fù)序列中的X替換為(X)*,替換后的重復(fù)序列為最優(yōu)模式,其中(X)*表示0個或者多個同時出現(xiàn);如果接收序列N變形后的重復(fù)序列中不包含X,則接收序列N的重復(fù)序列為N的最優(yōu)模式。
      如上所述,分割規(guī)則生成部不僅利用信息塊所在的子樹的根節(jié)點的子節(jié)點信息,而且還利用子樹的根節(jié)點的孫子節(jié)點的標(biāo)記序列信息,因此可以處理僅利用信息塊所在的子樹的根節(jié)點的子節(jié)點的標(biāo)記序列所不能解決的問題,具體示例參見實例2。
      (4)分割部假設(shè)包含信息塊的子圖的根節(jié)點A,其子節(jié)點依次為A1,A2,A3,…,An。利用分割規(guī)則,把這些子節(jié)點序列依次分成若干組,每個組中的節(jié)點的所代表的區(qū)域組合在一起,就是分割出來的信息塊。
      下面我們舉3個實例來說明本裝置的執(zhí)行過程。
      實例1下面參考圖2至圖5,對應(yīng)用本發(fā)明的結(jié)構(gòu)文檔自動識別分割裝置對實例1的HTML文件進行識別分割的情況進行說明,圖2表示實例1的HTML文件,圖3表示圖2的HTML文件的源文件,圖4表示圖2的HTML文件的結(jié)構(gòu)樹。
      首先,文檔結(jié)構(gòu)信息生成部對該文件進行分析,得到如圖4所示的結(jié)構(gòu)樹,具體來說這里是指結(jié)構(gòu)樹。
      然后,信息塊范圍確定部對該結(jié)構(gòu)圖進行分析,計算每個節(jié)點的有效子節(jié)點數(shù)和有效文本量,從根節(jié)點開始,采用寬度優(yōu)先算法遍歷結(jié)構(gòu)樹,找到有效文本量大于整個該HTML文件文本量的預(yù)先設(shè)定的一個閾值,例如40%而且有效子節(jié)點數(shù)最多的節(jié)點S,如圖4所示,S的所有節(jié)點都為有效子節(jié)點,共計11個。以S為根的子樹為包含信息塊的最小子樹。
      接著,分割規(guī)則生成部計算根節(jié)點S的子節(jié)點序列,并且判斷其有多個特殊標(biāo)記“HR”,則“HR”為分割規(guī)則。
      分割部利用分割規(guī)則進行分割,根節(jié)點S的子節(jié)點序列為“p,br,hr,p,hr,p,hr,p,hr,p,hr,p,hr”,分割為六個組“p,br,hr”,“p,hr”,“p,hr”,“p,hr”,“p,hr”,每個組對應(yīng)一個區(qū)域,即為信息塊。識別并且分割出的信息塊如圖5所示。
      實例2下面參考圖6至圖10,對應(yīng)用本發(fā)明的結(jié)構(gòu)文檔自動識別分割裝置對實例2的HTML文件進行識別分割的情況進行說明,圖6表示實例1的HTML文件,圖7表示圖2的HTML文件的源文件,圖8表示圖2的HTML文件的結(jié)構(gòu)圖。
      首先,文檔結(jié)構(gòu)信息生成部對該文件進行分析,得到如圖8所示的結(jié)構(gòu)圖,具體來說這里是指結(jié)構(gòu)樹。
      然后,信息塊范圍確定部對該結(jié)構(gòu)圖進行分析,信息塊范圍確定部對該結(jié)構(gòu)圖進行分析,計算每個節(jié)點的有效子節(jié)點數(shù)和有效文本量,從根節(jié)點開始,采用寬度優(yōu)先算法遍歷結(jié)構(gòu)圖,找到有效文本量大于整個該HTML文件文本量的預(yù)先設(shè)定的一個閾值,例如40%而且有效子節(jié)點數(shù)最多的節(jié)點S,如圖8所示,S的所有節(jié)點都為有效子節(jié)點,共計10個,以S為根的子樹即為包含信息塊的最小子樹。在這里我們采用了有效文本量的概念,這樣我們忽略了“option”節(jié)點中的文本量。假設(shè)采用現(xiàn)有技術(shù)2提出的方法,節(jié)點“select”的子節(jié)點最多,有12個,而且“select”子樹上的文本量和整個文檔的文本量之比大于40%,這樣確定以select節(jié)點為根的子樹為包含信息塊的最小子樹,根據(jù)圖7所示,“select”節(jié)點所對應(yīng)的區(qū)域不包含信息塊。
      分割規(guī)則生成部計算包含信息塊的最小子樹的根節(jié)點S的子節(jié)點序列“tr,tr,tr,tr,tr,tr,tr,tr,tr,”調(diào)用2-階PAT算法,得到第一重復(fù)模式為“tr”,第一重復(fù)模式的覆蓋度為1,包含信息塊的最小子樹的根節(jié)點S的子節(jié)點和孫子序列為“tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,”,調(diào)用2-階PAT算法,得到第二重復(fù)模式為“tr_td,tr_td_td,”,第二重復(fù)模式的覆蓋度為1,比較第一重復(fù)模式的覆蓋度和第二重復(fù)模式的覆蓋度的大小,第一重復(fù)模式的覆蓋度小于等于第二重復(fù)模式的覆蓋度,第二重復(fù)模式為最佳模式。該最佳模式就是分割規(guī)則。在本實例中本發(fā)明利用了包含信息塊的最小子樹的根節(jié)點S的子節(jié)點和孫子節(jié)點信息,如果只利用子節(jié)點信息,如采用現(xiàn)有技術(shù)1的方法,那么在子節(jié)點序列“tr,tr,tr,tr,tr,tr,tr,tr,tr,”中“tr”為最優(yōu)模式,如果利用這個最優(yōu)模式進行分割,把應(yīng)該是一個信息塊的部分分成兩個部分,錯誤分割結(jié)果如圖9所示。
      而根據(jù)本發(fā)明,分割部利用分割規(guī)則進行分割,根節(jié)點S的子節(jié)點和孫子序列為“tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,”,分割為5個組“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,每個組對應(yīng)一個區(qū)域,即為信息塊。識別并且分割出的信息塊如圖10所示。
      實例3下面參考圖11至圖14,對應(yīng)用本發(fā)明的結(jié)構(gòu)文檔自動識別分割裝置對實例3的HTML文件進行識別分割的情況進行說明,圖11表示實例3的HTML文件,圖12表示圖11的HTML文件的源文件,圖12表示圖11的HTML文件的結(jié)構(gòu)圖。
      首先,文檔結(jié)構(gòu)信息生成部對該文件進行分析,得到圖11所示的結(jié)構(gòu)圖,具體來說這里是指結(jié)構(gòu)樹。
      然后,信息塊范圍確定部對該結(jié)構(gòu)圖進行分析,信息塊范圍確定部對該結(jié)構(gòu)圖進行分析,計算每個節(jié)點的有效子節(jié)點數(shù)和有效文本量,從根節(jié)點開始,采用寬度優(yōu)先算法遍歷結(jié)構(gòu)圖,找到有效文本量大于整個該HTML文件文本量的預(yù)先設(shè)定的一個閾值,例如40%而且有效子節(jié)點數(shù)最多的節(jié)點S,如圖13所示,S的所有節(jié)點都為有效子節(jié)點,共計10個,以S為根的子樹為包含信息塊的最小子樹。
      分割規(guī)則生成部計算包含信息塊的最小子樹根節(jié)點S的子節(jié)點序列“b,b,p,p,p,b,p,p,p,b,p,p,”利用2-PAT方法,得到第一重復(fù)模式為“b(p)*”,第一重復(fù)模式的覆蓋度為11/12,節(jié)點S的子節(jié)點和孫子序列為“b_p,b_p,p_text,p_text,p_text,b_p,p_text,p_text,p_text,b_p,p_text,p_text,”利用2-PAT方法,得到第二重復(fù)模式為“b_p,(p_text,)*”,第二重復(fù)模式的覆蓋度為11/12,比較第一重復(fù)模式的覆蓋度和第二重復(fù)模式的覆蓋度的大小,第一重復(fù)模式的覆蓋度小于等于第二重復(fù)模式的覆蓋度,第二重復(fù)模式為最佳模式,即為分割規(guī)則。在本部中使用2-PAT方法計算序列的重復(fù)模式,可以計算出正確的重復(fù)模式,如計算序列“b,b,p,p,p,b,p,p,p,b,p,p,”的重復(fù)模式,首先計算序列“b,b,p,p,p,b,p,p,p,b,p,p,”的重復(fù)序列為“p,”,然后使用特定的字母M對該序列進行變形為“b,b,M,b,M,b,M”,計算變形后的重復(fù)序列為“b,M,”,由于變形后的重復(fù)序列為“b,M,”包含“M”,那么重復(fù)模式為“b,(P)*”。
      分割部利用分割規(guī)則進行分割,根節(jié)點S的子節(jié)點和孫子序列為“b_p,b_p,p_text,p_text,p_text,b_p,p_text,p_text,p_text,b_p,p_text,p_text,”分割為3個組“b_p,b_p,p_text,p_text,p_text,”“b_p,p_text,p_text,p_text,”,“b_p,p_text,p_text,”,每個組對應(yīng)一個區(qū)域,即為信息塊。識別并且分割出的信息塊如圖14所示。
      實施例子3中,如果采用現(xiàn)有技術(shù)2的方法,由于該方法不考慮文檔結(jié)構(gòu),整個文檔序列為圖13樹狀圖的中序序列,在這個中序序列中尋找重復(fù)序列,重復(fù)度最大的標(biāo)記序列為“P”,利用“P”整個HTML文件的分割標(biāo)記,顯然不能得到正確的分割結(jié)果。
      從上述可以看出,根據(jù)本發(fā)明的結(jié)構(gòu)文檔信息塊自動識別分割裝置,其能對結(jié)構(gòu)文檔中的選擇性標(biāo)記進行處理,并考慮深層次的信息和標(biāo)記序列之間的重復(fù),以及結(jié)構(gòu)文檔的結(jié)構(gòu)特征來自動進行識別和分割,即使結(jié)構(gòu)文檔的結(jié)構(gòu)比較復(fù)雜,重復(fù)模式比較復(fù)雜,信息塊之間不是非常一致的情況下,也能夠?qū)Y(jié)構(gòu)文檔中的信息塊進行正確的識別和分割??梢詫崿F(xiàn)結(jié)構(gòu)文檔信息塊的正確的自動分割。
      本發(fā)明不局限于上述實施方式,在不脫離本發(fā)明的主要內(nèi)容的范圍內(nèi),可以進行各種改變和修改,例如,本發(fā)明的裝置不局限于由四個部分組成,可以將四個部分該按順序任意組合為一個、兩個或三個部分,也可以將其進一步細化劃分成五個以上的部分。同樣本發(fā)明的方法也不局限于為四個步驟,可以將其按順序任意組合為一個、兩個或三個步驟,也可以將其進一步細化劃分成五個以上的步驟等。此外,本發(fā)明的結(jié)構(gòu)文檔不局限于HTML文件,也可以是XML文件,XHTML文件、以及其他具有結(jié)構(gòu)性特征的文檔等。
      權(quán)利要求
      1.一種結(jié)構(gòu)文檔信息塊的自動分割裝置,以結(jié)構(gòu)文檔為輸入,對該結(jié)構(gòu)文檔包含的信息塊進行自動識別和分割并輸出分割結(jié)果,其特征在于,包括文檔結(jié)構(gòu)信息生成部,其接受所述結(jié)構(gòu)文檔并根據(jù)該結(jié)構(gòu)文檔生成文檔結(jié)構(gòu)信息;信息塊范圍確定部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息確定信息塊的范圍;分割規(guī)則生成部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部生成的文檔結(jié)構(gòu)信息和所述信息塊范圍確定部所確定的范圍,生成分割規(guī)則;分割部,其根據(jù)所述分割規(guī)則生成部所生成的分割規(guī)則對所述結(jié)構(gòu)文檔進行分割,并輸出分割結(jié)果。
      2.權(quán)利要求1所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,并且采用寬度優(yōu)先算法搜索該文檔結(jié)構(gòu)樹,找到有效子節(jié)點最多而且其有效文本量和整個文檔的有效文本量之比大于預(yù)先設(shè)定的閾值的節(jié)點,該節(jié)點所對應(yīng)的范圍就是包含所有信息塊的最小范圍,以該節(jié)點為根的子樹為包含所有信息塊的最小子樹。
      3.利要求1所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,所述分割規(guī)則生成部利用信息塊所在的子樹的根節(jié)點的子節(jié)點及其孫子節(jié)點的標(biāo)記序列計算最優(yōu)重復(fù)模式。
      4.權(quán)利要求3所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部如下計算最優(yōu)重復(fù)模式首先對所述根節(jié)點的子節(jié)點序列,計算第一重復(fù)模式;然后對根節(jié)點的子節(jié)點和孫子序列,計算第二重復(fù)模式;最后從所述的第一重復(fù)模式和第二重復(fù)模式中選擇最優(yōu)重復(fù)模式。
      5.權(quán)利要求4所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部通過以下步驟計算第一重復(fù)模式和第二重復(fù)模式中的至少一個計算原始標(biāo)記序列的第一重復(fù)序列;根據(jù)第一重復(fù)序列,用一個特定的符號代替標(biāo)記序列中的第一重復(fù)序列,得到原始標(biāo)記序列的變形序列;計算所述變形序列的第二重復(fù)序列;根據(jù)第二重復(fù)序列中是否包含第一重復(fù)序列,來確定最終重復(fù)模式。
      6.權(quán)利要求3所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述分割規(guī)則生成部使用覆蓋度計算重復(fù)模式和選擇最優(yōu)重復(fù)模式。
      7.權(quán)利要求1至5中任何一項所述的結(jié)構(gòu)文檔信息塊的自動分割裝置,其特征在于所述結(jié)構(gòu)文檔為HTML、XML或XHTML。
      8.一種結(jié)構(gòu)文檔信息塊的自動分割方法,以結(jié)構(gòu)文檔為輸入,對該結(jié)構(gòu)文檔包含的信息塊進行自動識別和分割并輸出分割結(jié)果,其特征在于,包括下列步驟文檔結(jié)構(gòu)信息生成步驟,接受所述結(jié)構(gòu)文檔并根據(jù)該結(jié)構(gòu)文檔生成文檔結(jié)構(gòu)信息;信息塊范圍確定步驟,根據(jù)所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息確定信息塊的范圍;分割規(guī)則生成步驟,根據(jù)所述文檔結(jié)構(gòu)信息生成部生成的文檔結(jié)構(gòu)信息和所述信息塊范圍確定部所確定的范圍,生成分割規(guī)則;分割步驟,根據(jù)所述分割規(guī)則生成部所生成的分割規(guī)則對所述結(jié)構(gòu)文檔進行分割,并輸出分割結(jié)果。
      9.權(quán)利要求8所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述文檔結(jié)構(gòu)信息生成步驟所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,并且采用寬度優(yōu)先算法搜索該文檔結(jié)構(gòu)樹,找到有效子節(jié)點最多而且其有效文本量和整個文檔的有效文本量之比大于預(yù)先設(shè)定的閾值的節(jié)點,該節(jié)點所對應(yīng)的范圍就是包含所有信息塊的最小范圍,以該節(jié)點為根的子樹為包含所有信息塊的最小子樹。
      10.利要求8所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述文檔結(jié)構(gòu)信息生成步驟所生成的文檔結(jié)構(gòu)信息為文檔結(jié)構(gòu)樹,所述分割規(guī)則生成步驟利用信息塊所在的子樹的根節(jié)點的子節(jié)點及其孫子節(jié)點的標(biāo)記序列計算最優(yōu)重復(fù)模式。
      11.權(quán)利要求10所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述分割規(guī)則生成步驟如下計算最優(yōu)重復(fù)模式首先對所述根節(jié)點的子節(jié)點序列,計算第一重復(fù)模式;然后對根節(jié)點的子節(jié)點和孫子序列,計算第二重復(fù)模式;最后從所述的第一重復(fù)模式和第二重復(fù)模式中選擇最優(yōu)重復(fù)模式。
      12.權(quán)利要求11所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述分割規(guī)則生成步驟通過以下步驟計算第一重復(fù)模式和第二重復(fù)模式中的至少一個計算原始標(biāo)記序列的第一重復(fù)序列;根據(jù)第一重復(fù)序列,用一個特定的符號代替標(biāo)記序列中的第一重復(fù)序列,得到原始標(biāo)記序列的變形序列;計算所述變形序列的第二重復(fù)序列;根據(jù)第二重復(fù)序列中是否包含第一重復(fù)序列,來確定最終重復(fù)模式。
      13.權(quán)利要求10所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述分割規(guī)則生成步驟使用覆蓋度計算重復(fù)模式和選擇最優(yōu)重復(fù)模式。
      14.權(quán)利要求8至13中任何一項所述的結(jié)構(gòu)文檔信息塊的自動分割方法,其特征在于所述結(jié)構(gòu)文檔為HTML、XML或XHTML。
      全文摘要
      本發(fā)明提供一種結(jié)構(gòu)文檔信息塊的自動分割裝置和方法,即使結(jié)構(gòu)文檔的結(jié)構(gòu)比較復(fù)雜,重復(fù)模式比較復(fù)雜,信息塊之間不是非常一致的情況下,也能夠?qū)Y(jié)構(gòu)文檔中的信息塊進行正確的識別和分割。該結(jié)構(gòu)文檔信息塊的自動分割裝置包括文檔結(jié)構(gòu)信息生成部,其接受所述結(jié)構(gòu)文檔并根據(jù)該結(jié)構(gòu)文檔生成文檔結(jié)構(gòu)信息;信息塊范圍確定部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部所生成的文檔結(jié)構(gòu)信息確定信息塊的范圍;分割規(guī)則生成部,其根據(jù)所述文檔結(jié)構(gòu)信息生成部生成的文檔結(jié)構(gòu)信息和所述信息塊范圍確定部所確定的范圍,生成分割規(guī)則;分割部,其根據(jù)所述分割規(guī)則生成部所生成的分割規(guī)則對所述結(jié)構(gòu)文檔進行分割,并輸出分割結(jié)果。
      文檔編號G06F17/21GK1567303SQ0314574
      公開日2005年1月19日 申請日期2003年7月3日 優(yōu)先權(quán)日2003年7月3日
      發(fā)明者瞿有利, 徐國偉 申請人:富士通株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1