一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置的制作方法

文檔序號(hào)：6615717閱讀：390來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)頁(yè)信息抽取技術(shù)，尤其是指一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置。
背景技術(shù)：
伴隨網(wǎng)絡(luò)信息爆炸式的增長(zhǎng)，人們對(duì)海量的Web信息的特殊化需求也越來越高，利用大規(guī)模搜索引擎以及專有領(lǐng)域的采集技術(shù)，可以獲取Web上的海量信息，但是Web上提供的數(shù)據(jù)基本上由非結(jié)構(gòu)化的靜態(tài)的超文本鏈接標(biāo)示語言 (HTML, Hypertext Markup Language)代碼構(gòu)成，并不能被信息分析系統(tǒng)直接使用，因此要通過不同的信息抽取系統(tǒng)進(jìn)行抽取，抽取所需要的有價(jià)值的結(jié)構(gòu) 化文本數(shù)據(jù)，才能由信息分析系統(tǒng)進(jìn)行后續(xù)的信息處理。由此可見，信息抽取是信息處理非常關(guān)鍵的一步，如何高效準(zhǔn)確地抽取出結(jié)構(gòu)化文本數(shù)據(jù)也是一直以來研究的熱點(diǎn)。
新聞作為一類重要的實(shí)時(shí)性網(wǎng)絡(luò)信息數(shù)據(jù)，其巨大的應(yīng)用前景，引發(fā)了人們對(duì)新聞內(nèi)容的自動(dòng)分類聚類、信息抽取、自動(dòng)摘要、熱點(diǎn)分析與追蹤等一系列技術(shù)的研究，然而僅僅簡(jiǎn)單的利用搜索引擎技術(shù)很難獲取所需要的所有特定的新聞信息資源，而新聞Web頁(yè)面自動(dòng)抽取技術(shù)的提出，有效地解決了如何準(zhǔn) 確獲取Web頁(yè)面中的結(jié)構(gòu)化的新聞信息資源的難題。
目前，信息抽取系統(tǒng)主要有兩種設(shè)計(jì)方法知識(shí)工程方法和機(jī)器學(xué)習(xí)方法。知識(shí)工程方法需要知識(shí)工程師通過仔細(xì)研究信息抽取領(lǐng)域的特點(diǎn)，設(shè)計(jì)出一套用于抽取所需信息的規(guī)則來實(shí)現(xiàn)信息抽取。一般情況下，開發(fā)高效的信息抽取系統(tǒng)需要這樣一個(gè)過程分析數(shù)據(jù)、寫規(guī)則、運(yùn)行系統(tǒng)、測(cè)試結(jié)果、檢查結(jié)果、改進(jìn)規(guī)則、繼續(xù)迭代等。在規(guī)則的書寫上，知識(shí)工程師必需認(rèn)真分析樣
5本數(shù)據(jù)，還要依據(jù)自身平常所積累的經(jīng)驗(yàn)及對(duì)本領(lǐng)域的特殊領(lǐng)悟。知識(shí)工程方法除需要對(duì)本領(lǐng)域知識(shí)有深入的了解之外，還需要大量的工作時(shí)間。
目前的知識(shí)工程方法的典型應(yīng)用主要是包裝器wrapper技術(shù)，包裝器是將 HTML的內(nèi)容，利用定制好的規(guī)則抽取出來，即將非結(jié)構(gòu)化的HTML代碼轉(zhuǎn)換成結(jié)構(gòu)化的文本數(shù)據(jù)，供信息分析系統(tǒng)進(jìn)行后續(xù)的信息處理。抽取規(guī)則是以特定的一類網(wǎng)頁(yè)為基礎(chǔ)的，抽取規(guī)則的描述和處理是包裝器的核心部分。
現(xiàn)有技術(shù)中抽取規(guī)則的獲取主要有三種方法人工書寫抽取規(guī)則、半自動(dòng) 化獲取抽取規(guī)則及完全自動(dòng)化的獲取抽取規(guī)則，相應(yīng)地，目前應(yīng)用比較多的包裝器有人工書寫抽取規(guī)則的TSIMMIS工具包裝器、半自動(dòng)化生成抽取規(guī)則的 XWRAP系統(tǒng)工具包裝器及完全自動(dòng)化的生成抽取規(guī)則的RoadRunner工具包裝器。包裝器所產(chǎn)生的抽取規(guī)則對(duì)頁(yè)面的結(jié)構(gòu)、內(nèi)容依賴性強(qiáng)，當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生變化時(shí)，包裝器需要重新生成抽取規(guī)則；包裝器的可重用性不強(qiáng)，往往對(duì)不同類型的Web網(wǎng)頁(yè)需要編寫不同的包裝器，因此利用包裝器將非結(jié)構(gòu)化的HTML 代碼轉(zhuǎn)換成結(jié)構(gòu)化的文本數(shù)據(jù)的方法代價(jià)很大。
機(jī)器學(xué)習(xí)方法則不需要知識(shí)工程師人工書寫抽取規(guī)則，只需要有大量人工標(biāo)注過的訓(xùn)練數(shù)據(jù)，依靠機(jī)器學(xué)習(xí)算法，將訓(xùn)練數(shù)據(jù)給程序進(jìn)行學(xué)習(xí)，來得到相應(yīng)的知識(shí)庫(kù)，即得到結(jié)構(gòu)化的文本數(shù)據(jù)。
Web Page Retrieval"[ ACM-SIGIR'05 ]提出了基于特征向量提取和非對(duì)稱感知器權(quán)值訓(xùn)練算法的面向任意網(wǎng)頁(yè)的標(biāo)題自動(dòng)抽取算法。標(biāo)題一般僅涉及一個(gè)段落，而正文則往往包含好多個(gè)段落而抽取難度比較大，因此，該算法不太適用于對(duì)正文的抽取。另外，該算法針對(duì)的是任意網(wǎng)頁(yè)，而針對(duì)新聞網(wǎng)頁(yè)，也很不適用。
可見，無論是知識(shí)工程方法還是機(jī)器學(xué)習(xí)方法均有其缺點(diǎn)知識(shí)工程方法的缺點(diǎn)在于開發(fā)過程需要煩瑣的迭代工作；而機(jī)器學(xué)習(xí)方法則因需要經(jīng)過大量人工標(biāo)注的訓(xùn)練數(shù)據(jù)，過程復(fù)雜，不太適合對(duì)新聞網(wǎng)頁(yè)的自動(dòng)抽取。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置，既能簡(jiǎn)化訓(xùn)練過程的復(fù)雜度，也能同時(shí)提高對(duì)中文新聞網(wǎng)頁(yè)正文抽取的準(zhǔn)確性，且實(shí)現(xiàn)簡(jiǎn)單、方便。
為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法，該方法包括以下步驟
A、根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表，并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表；
B、將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞正文的特征參數(shù)賦權(quán)值；
C、根據(jù)所賦的權(quán)值計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較權(quán)重大小得出新聞?wù)摹?br> 進(jìn)一步地，步驟A中所述生成頁(yè)面數(shù)據(jù)列表為從網(wǎng)頁(yè)中采集超文本鏈接標(biāo)示語言HTML源文件，從HTML源文件中抽取文本數(shù)據(jù)，生成頁(yè)面數(shù)據(jù)列
其中，所述從HTML源文件中抽取文本數(shù)據(jù)為對(duì)HTML源文件進(jìn)行預(yù) 處理并構(gòu)建文檔樹，從構(gòu)建的文檔樹中抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的文本數(shù)據(jù)。
進(jìn)一步地，所述預(yù)處理為將源文件中所有的標(biāo)簽TAG進(jìn)行匹配；將TAG 以外其它地方出現(xiàn)的同樣的特殊標(biāo)記進(jìn)行替換；將所有的標(biāo)記修改為正確嵌套；將所有的HTML代碼字符表示形式統(tǒng)一。進(jìn)一步地，步驟A中所述細(xì)化篩選為 Al、刪除頁(yè)面數(shù)據(jù)列表中所有多余的HTML標(biāo)記； A2 、丟棄頁(yè)面數(shù)據(jù)列表中除用戶有特殊需要以外的超鏈接； A3、根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉頁(yè)面數(shù)據(jù)列表中多余的文本部分。較佳地，步驟B中所述針對(duì)新聞?wù)牡奶卣鲄?shù)為新聞文本長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近及距離新聞標(biāo)題的遠(yuǎn)近。
進(jìn)一步地，步驟B所述賦權(quán)值為
Bl、分別為純文本列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與文本長(zhǎng)度成正比的正的權(quán)值WEIGHT 1;
B2、若排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭，給所述純文本數(shù)據(jù)賦一個(gè)負(fù)的權(quán)值WEIGHT2;
B3、得到新聞的標(biāo)題，計(jì)算所得到的新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離，根據(jù)每項(xiàng)純文本數(shù)據(jù)與新聞標(biāo)題的距離，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值WEIGHT3;
B4、根據(jù)步驟B3得到的新聞標(biāo)題獲得發(fā)布時(shí)間，根據(jù)每項(xiàng)純文本數(shù)據(jù)距離發(fā)布時(shí)間的距離遠(yuǎn)近，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值 WEIGHT4。
較佳地，步驟B3中所述新聞標(biāo)題的獲得方法為通過點(diǎn)擊文字超鏈接進(jìn) 入新聞頁(yè)面的父頁(yè)面的超鏈接文字得到，或通過新聞頁(yè)面文字的樣式和新聞標(biāo) 題本身的特點(diǎn)得到，或通過HTML源碼中節(jié)點(diǎn)范圍中的內(nèi)容得到。
進(jìn)一步地，所述發(fā)布時(shí)間的獲得方法為
B41、掃描整個(gè)HTML源文件的所有時(shí)間格式，保存掃描到的所有時(shí)間格式，并記錄掃描到的所有時(shí)間在該HTML源文件中的位置；
B42、根據(jù)獲得的新聞標(biāo)題，在HTML源文件中定位新聞標(biāo)題的位置； B43、計(jì)算所有時(shí)間與新聞標(biāo)題的距離，距離最小者為新聞發(fā)布時(shí)間。較佳地，所述步驟C為將純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)?特征參數(shù)得到的權(quán)值全部或部分相加，得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重。
較佳地，得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重后，該方法進(jìn)一步包括比較最終權(quán)重的大小，所有純文本數(shù)據(jù)的最終權(quán)重均不相等時(shí)，或有純文本數(shù)據(jù)的最終權(quán)重相等，但有比該相等權(quán)重更大的權(quán)重時(shí)，取最終權(quán)重最大的純文本數(shù)據(jù) 為新聞?wù)?；有純文本?shù)據(jù)的最終權(quán)重相等，且沒有比相等權(quán)重更大的權(quán)重時(shí)，比較最終權(quán)重相等的純文本數(shù)據(jù)針對(duì)距離新聞標(biāo)題的權(quán)值，針對(duì)距離新聞標(biāo)題的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br> 一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置，該裝置包括頁(yè)面數(shù)據(jù)列表抽取模塊、細(xì)化篩選模塊、賦權(quán)值模塊、新聞?wù)某槿∧K，其中，
頁(yè)面數(shù)據(jù)列表抽取模塊，用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù) 據(jù)列表發(fā)送給細(xì)化篩選模塊；
細(xì)化篩選模塊，用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊發(fā)送來的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表，并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送給賦權(quán)
值模塊；
賦權(quán)值模塊，用于將細(xì)化篩選模塊發(fā)送來的經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)按照特征參數(shù)賦權(quán)值，并將每項(xiàng)純文本數(shù)據(jù)及其得到的權(quán)值發(fā)送給
新聞?wù)某槿∧K；
新聞?wù)某槿∧K，用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較權(quán)重大小得出新聞?wù)摹?br> 進(jìn)一步地，所述頁(yè)面數(shù)據(jù)列表抽取模塊進(jìn)一步包括采集單元、預(yù)處理單元、文檔樹構(gòu)建單元及頁(yè)面數(shù)據(jù)列表抽取單元，其中，
采集單元，用于采集HTML源文件，并將采集到的HTML源文件發(fā)送給預(yù)處理單元；
預(yù)處理單元，用于對(duì)采集單元發(fā)送過來的HTML源文件進(jìn)行預(yù)處理，并將經(jīng)過預(yù)處理單元預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼發(fā)送給文檔樹構(gòu)建單元；
文檔樹構(gòu)建單元，用于將預(yù)處理單元發(fā)送來的標(biāo)準(zhǔn)規(guī)范的HTML代碼構(gòu)建成文檔樹，并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元；
頁(yè)面數(shù)據(jù)列表抽取單元、用于從文檔樹構(gòu)建單元發(fā)送來的文檔樹中抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的頁(yè)面數(shù)據(jù)，并將得到的頁(yè)面數(shù)據(jù)按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊。
本發(fā)明所提供的中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置，根據(jù)規(guī)范的中文新聞網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的共同特點(diǎn)，根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表，并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表，然后將純文本列表中每項(xiàng)
9純文本數(shù)據(jù)對(duì)應(yīng)新聞?wù)牡亩喾N特征參數(shù)賦權(quán)值，根據(jù)最終權(quán)重值得出新聞?wù)?文。這樣，對(duì)于較為規(guī)范的新聞?lì)惥W(wǎng)頁(yè)，其正文抽取的準(zhǔn)確率可以達(dá)到90%。
在具體產(chǎn)品的實(shí)際使用中，抽取ioo個(gè)網(wǎng)站的新聞網(wǎng)頁(yè)，抽樣統(tǒng)計(jì)的準(zhǔn)確率在
80%以上，由此可見，本發(fā)明充分利用了中文新聞網(wǎng)頁(yè)的特點(diǎn)，進(jìn)行多層細(xì)化篩選，且按照多項(xiàng)針對(duì)正文的特征參數(shù)進(jìn)行加權(quán)，提高了對(duì)中文新聞網(wǎng)頁(yè)正文
抽取的準(zhǔn)確性，且實(shí)現(xiàn)簡(jiǎn)單、方便；既克服了機(jī)器學(xué)習(xí)需要大量經(jīng)過人工標(biāo)注
的訓(xùn)練數(shù)據(jù)，過程復(fù)雜的問題，也避免了對(duì)包裝器大量繁雜抽取規(guī)則的書寫過程。

圖l為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法流程示意圖2為本發(fā)明實(shí)施例中HTML文檔樹結(jié)構(gòu)示意圖；圖3為本發(fā)明實(shí)施例中純文本列表示意圖4為本發(fā)明中具體對(duì)純文本列表中每一項(xiàng)文本數(shù)據(jù)進(jìn)行加權(quán)的流程示意
圖5為本發(fā)明中新聞發(fā)布時(shí)間的抽取流程示意圖6為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置結(jié)構(gòu)示意圖7為本發(fā)明中純文本列表抽取模塊的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
本發(fā)明基于規(guī)范中文新聞網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的共同特點(diǎn)，抽象出一套統(tǒng)一的中文新聞網(wǎng)頁(yè)正文抽取方案，本發(fā)明的基本思想是根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù) 據(jù)列表，并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表，然后應(yīng)用多項(xiàng)特征加權(quán)的方法，將純文本列表中每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)牡亩喾N特征參數(shù)賦權(quán)值；最后計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并通過比較權(quán)重大小得出新聞?wù)摹?br> 目前，規(guī)范的中文新聞網(wǎng)頁(yè)普遍存在以下幾點(diǎn)共同特性1、風(fēng)格類似新聞?wù)膬?nèi)容部分占據(jù)網(wǎng)頁(yè)的中心位置，并且內(nèi)容都在一對(duì)〈TABLEx/TABLE〉或〈DIVx/DIV〉內(nèi)。新聞?wù)?一般是一篇文檔中片幅最長(zhǎng)
的文字，文字由比較大段的統(tǒng)一格式組成，正文的不同段落往往依次排列；
2、結(jié)構(gòu)類似新聞?wù)耐ǔ０凑?標(biāo)題+發(fā)布時(shí)間+來源"的固定段落層次排列，且新聞?wù)囊话憔o鄰發(fā)布時(shí)間的下方，距離標(biāo)題較近；
3、內(nèi)容類似新聞?wù)亩温溟_始一般不會(huì)包含"版權(quán)聲明"等字樣，正文段落內(nèi)有大量的超鏈接，例如相關(guān)新聞頁(yè)面，推薦頁(yè)面，廣告頁(yè)面等，排除超鏈接文字，正文為最主要的文字區(qū)域。
基于中文新聞網(wǎng)頁(yè)正文的上述共性，本發(fā)明釆用表格自動(dòng)抽取的方法，配合正文長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近、距離新聞標(biāo)題的遠(yuǎn)近等多項(xiàng)決策加權(quán)的技術(shù)方案，進(jìn)行中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取。
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施作進(jìn)一步詳細(xì)的說明。
圖1為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法流程圖，如圖l所示，該方法包括以下步驟
步驟IOI、釆集獲得新聞頁(yè)面的HTML源文件；
此處，一般是用釆集器進(jìn)行采集。
步驟102、對(duì)HTML源文件進(jìn)行預(yù)處理，得到標(biāo)準(zhǔn)規(guī)范的HTML代碼；因?yàn)閃eb網(wǎng)頁(yè)的數(shù)據(jù)多樣性和網(wǎng)頁(yè)結(jié)構(gòu)的復(fù)雜性，需要對(duì)HTML源文件
中的HTML代碼進(jìn)行統(tǒng)一的網(wǎng)頁(yè)規(guī)范化處理，即進(jìn)行預(yù)處理。具體的預(yù)處理方
法包括
首先，將源文件中所有的標(biāo)簽(TAG)進(jìn)行匹配，將源文件中不成對(duì)出現(xiàn)的TAG進(jìn)行修改，保證所有開始和結(jié)東TAG的匹配，因?yàn)镠TML中的TAG標(biāo)記必須成對(duì)出現(xiàn)；
其次，將除TAG標(biāo)記以外其它地方出現(xiàn)的"<"和"〉'，分別替換為"<"和"&rt;"，因?yàn)樵贖TML代碼中頁(yè)面顯示的內(nèi)容如果出現(xiàn)"<"和">"，會(huì)與TAG標(biāo)記中包含的"<"和">"混淆；這里，"<"和">"屬于TAG中的特珠標(biāo)記，除了 TAG中的特珠標(biāo)記，對(duì)其它地方出現(xiàn)同樣的特殊標(biāo)記需要進(jìn)
ii行替換，以避免標(biāo)記重復(fù)，替換后的標(biāo)記只要與TAG標(biāo)記的特殊標(biāo)記不重復(fù)且
可以識(shí)別即可；
之后，將所有的標(biāo)記修改為正確嵌套，所謂正確實(shí)際就是保證配對(duì)，嵌套的標(biāo)記符合配對(duì)的規(guī)則，能保證嵌套可以正常解析；
最后，將所有的HTML代碼字符的形式進(jìn)行統(tǒng)一，這里，所謂統(tǒng)一是指將所有HTML代碼字符全部轉(zhuǎn)化成大寫或全部轉(zhuǎn)化成小寫，以方便整個(gè)抽取過程中對(duì)模式匹配的要求。
步驟103、構(gòu)建HTML文檔樹；
步驟102中的預(yù)處理過程是構(gòu)造HTML文檔樹的前提，本步驟根據(jù)步驟102所得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼，利用HTML代碼的標(biāo)記構(gòu)建HTML文檔樹，將文檔樹中的每個(gè)節(jié)點(diǎn)包含一對(duì)標(biāo)記間的所有字符，且節(jié)點(diǎn)的名字設(shè)置為對(duì)應(yīng)標(biāo)記的名字。由于HTML代碼具有開始和結(jié)束TAG成對(duì)出現(xiàn)的特征，在起始標(biāo)記和結(jié)東標(biāo)記之間包括網(wǎng)頁(yè)描述屬性和網(wǎng)頁(yè)內(nèi)容兩部分信息，所以構(gòu)造Web文檔結(jié)構(gòu)樹的時(shí)候釆用標(biāo)記匹配和回溯相結(jié)合的方法，并忽略對(duì)TAG標(biāo)記的屬性描述信息。
目前，一般HTML的標(biāo)記大都是由〈TAG〉和々TAG〉成對(duì)組成，所以需要標(biāo)記匹配，從第一個(gè)〈TAG〉開始，到下一個(gè)與之匹配的々TAG〉結(jié)東標(biāo)記之間的內(nèi)容是這個(gè)TAG的實(shí)際內(nèi)容；采用回溯的方法，是因?yàn)闃?biāo)記可以嵌套，在一個(gè)〈TABLEx/TABLE〉之內(nèi)可能還有子〈TABLEx/TABLE〉，所以要找出所有的配對(duì)的〈TABLE〉標(biāo)記，直到最后一個(gè)匹配々TABLE〉標(biāo)記，才能準(zhǔn)確找出每一個(gè)《ABLE〉對(duì)。
由于本發(fā)明主要是對(duì)新聞頁(yè)面范圍內(nèi)內(nèi)容的抽取，所以需要考慮的HTML標(biāo)記主要有<HTML〉</HTML〉<BODY>、 </BODY>、 <TABLE〉、 </TABLE>、<DIV>、 </DIV>、 <TR>、 </TR>、 <TD>、 </TD>,在構(gòu)建HTML文檔樹時(shí)，可將其它的HTML標(biāo)記視為無用HTML標(biāo)記直接舍棄。
以下具體以一段經(jīng)過預(yù)處理的文檔樹的構(gòu)建為例來說明
<113>張三的博客<spa n class="classl，，>
<img src="http:〃www.sina.com/img/star.gif， alt:"會(huì)員，，id="starl"></ s pan>
<spa n class="stat，，>
您的博客已經(jīng)有
<span class="count，， id="vcount，，>8888</ span>
人瀏覽</ s pan></h3>
利用上述經(jīng)過預(yù)處理的數(shù)據(jù)所構(gòu)建的文檔樹如圖2所示，文檔樹中每個(gè)節(jié)點(diǎn)包含一對(duì)標(biāo)記間的所有字符，且節(jié)點(diǎn)的名字為對(duì)應(yīng)標(biāo)記的名字。
步驟104、根據(jù)步驟103中構(gòu)建的HTML文檔樹生成頁(yè)面數(shù)據(jù)列表；根據(jù)步驟103中構(gòu)建的HTML文檔樹取出每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的數(shù)據(jù)，并將得到的數(shù)據(jù)按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表，待下一步細(xì)化處理。
通常，包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)為〈TABLE〉和〈DIV〉，這里，一般是根據(jù)〈TABLE〉和<DIV>的位置，得到每一個(gè)〈TABLE〉〈/TABLE〉， <DIV〉</DIV〉范圍中的數(shù)據(jù)，將得到的每一個(gè)〈TABLEx/TABLE、 <DIV></DIV>$圍中的數(shù)據(jù)，按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表，待下一步細(xì)化處理；
上述步驟102~104的目的是從HTML源文件中更加直觀地生成頁(yè)面數(shù)據(jù)列表，在實(shí)際操作中，也可以直接從HTML源文件中生成頁(yè)面數(shù)據(jù)列表。
步驟105、對(duì)頁(yè)面數(shù)據(jù)列表中的數(shù)據(jù)進(jìn)行細(xì)化篩選，得到純文本列表；
因?yàn)門ABLE結(jié)構(gòu)的范圍很大，包含的內(nèi)容也很多，所以必須對(duì)上一步得到的頁(yè)面數(shù)據(jù)列表中的數(shù)據(jù)進(jìn)行細(xì)化篩選，具體做法如下
先刪除所有多余的HTML標(biāo)記，如〈Px/P〉， <li></li>, 〈span〉〈/span〉等；再處理超鏈接，這里包括圖片鏈接和文字鏈接。其中，文字鏈接由〈ahrefx/a〉標(biāo)記確定，主要是一些相關(guān)新聞，新聞評(píng)論，站內(nèi)鏈接，以及大量的廣告信息，所以釆取全部舍棄的策略；對(duì)于圖片超鏈接，用戶沒有特殊要求的，將所有超鏈接的標(biāo)記，即，將包含〈img >的標(biāo)記和內(nèi)容統(tǒng)統(tǒng)舍棄，如果用戶要求保存的新聞圖片，按照〈mg〉的位置記錄圖片在正文中的位置，將圖片的保存路徑作為特殊文本保留在內(nèi)容中，當(dāng)讀取正文時(shí)，即可加載圖片信息。
然后，根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉多余的文本內(nèi)容。這里，一般過濾掉〈FORMx/FO脂〉，〈SELLECT〉 </SELLECT>， <STYLE〉</STYLE>,<SCRIPT></SCRIPT >中的文本內(nèi)容，因?yàn)?lt;FORM></FORM>是需要和服務(wù)器交互的表單項(xiàng)，<SELLECT> </SELLECT>為下拉列表內(nèi)容項(xiàng)，<SCRIPT〉</SCRIPT 〉為一些動(dòng)態(tài)網(wǎng)頁(yè)的腳本語言，<STYLE></STYLE〉為一些網(wǎng)頁(yè)的樣式，所以這些內(nèi)容不是用戶所需要的正文內(nèi)容，但是經(jīng)常會(huì)以大篇幅的文字形式出現(xiàn)，成為正文選擇的千擾項(xiàng)，所以此處需要進(jìn)行過濾舍棄。
頁(yè)面數(shù)據(jù)列表經(jīng)過細(xì)化篩選后得到的文本列表如圖3所示，將經(jīng)過細(xì)化篩選后的純文本數(shù)據(jù)組織在******之間，方便查看結(jié)果，也易于理解。圖3中，第一段文字為新聞的標(biāo)題，第二段為新聞發(fā)布時(shí)間、新聞?wù)?、來源、作者等，第三段為版?quán)聲明，其他的多余信息已經(jīng)過細(xì)化篩選舍棄掉。
步驟106、將經(jīng)過細(xì)化篩選后得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照多種特征進(jìn)行加權(quán)；
由于得到的文本列表包含了頁(yè)面內(nèi)所有的純文本數(shù)據(jù)，很難按照一個(gè)標(biāo)準(zhǔn)去判定哪一個(gè)是正文，所以按照中文新聞的四個(gè)共性，進(jìn)行加權(quán)。因?yàn)橹形男侣劦乃膫€(gè)共性分別為1)正文一般都是一篇文檔中篇幅最長(zhǎng)的文字；2)正文緊臨發(fā)布時(shí)間的下方；3)正文的段落開始一般不會(huì)包含"版權(quán)聲明"等字樣；4)正文距離標(biāo)題較近。所以，通常選取文本的長(zhǎng)度、文本是否包含關(guān)鍵字、文本距離發(fā)布時(shí)間的遠(yuǎn)近、及文本距離新聞標(biāo)題的遠(yuǎn)近這四項(xiàng)作為針對(duì)新聞?wù)牡奶卣鲄?shù)，基于針對(duì)新聞?wù)牡奶卣鲄?shù)為每一段文本賦權(quán)值，即進(jìn)行加權(quán)處理，具體加權(quán)過程如圖4所示，包括以下步驟步驟106a:為每項(xiàng)純文本數(shù)據(jù)按照長(zhǎng)度賦權(quán)值；
分別為列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT1,權(quán)值WEIGHT1與文本長(zhǎng)度成正比，但是權(quán)值的具體大小可以隨實(shí)際情況進(jìn)行調(diào)節(jié)。
此處，可以根據(jù)以下公式計(jì)算WEIGHTl=N*OneTableLength/500,其中，OneTableLength為每一項(xiàng)表格文本列表內(nèi)容的字符長(zhǎng)度，以500個(gè)字符作為基準(zhǔn)，N為調(diào)整因子。但在實(shí)際操作中，可以根據(jù)具體需要釆用相應(yīng)的權(quán)重計(jì)算公式，只要保證權(quán)值WEIGHT1與文本長(zhǎng)度成正比即可。
步驟106b:為每項(xiàng)純文本數(shù)據(jù)按照排除關(guān)鍵字賦權(quán)值；
根據(jù)大量50個(gè)新聞?wù)军c(diǎn)的試驗(yàn)，95 %的大篇幅的干擾文本內(nèi)容多出現(xiàn)在版權(quán)聲明和網(wǎng)站信息中，需要提取其中的主要關(guān)鍵字，作為排除特征，比如"版權(quán)聲明"，"免責(zé)聲明"，"版權(quán)說明"，"①凡本網(wǎng)"等。若這些排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭，則給這些純文本數(shù)據(jù)賦一個(gè)負(fù)的權(quán)值WEIGHT2。這里，判斷關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭的標(biāo)準(zhǔn)一般為排除關(guān)鍵字的位置在純文本數(shù)據(jù)開始的前8個(gè)字符內(nèi)。當(dāng)然，也可能出現(xiàn)包含N個(gè)字的排除關(guān)鍵字，則排除關(guān)鍵字的位置在純文本數(shù)據(jù)開始的前Nx2個(gè)字符內(nèi)，認(rèn)為排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)的開頭。
步驟106c:為每項(xiàng)純文本數(shù)據(jù)按照距離新聞標(biāo)題的遠(yuǎn)近賦權(quán)值；
這里，新聞標(biāo)題可以通過點(diǎn)擊文字超鏈接進(jìn)入新聞頁(yè)面的那一級(jí)頁(yè)面，通常稱為列表頁(yè)或父頁(yè)面的超鏈接文字得到，也可以通過頁(yè)面文字的樣式和標(biāo)題本身的特點(diǎn)，如字?jǐn)?shù)，字號(hào)，加粗等，還可以通過頁(yè)面特定節(jié)點(diǎn)<TITLE></TITLE〉中的內(nèi)容得到，得到新聞標(biāo)題以后，計(jì)算新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離，根據(jù)每項(xiàng)純文本數(shù)據(jù)距離新聞標(biāo)題的距離遠(yuǎn)近，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT3，距離越近，權(quán)值越大，距離越遠(yuǎn)，權(quán)值越小，即權(quán)值WEIGHT3與距離成反比。
步驟106d:為每項(xiàng)純文本數(shù)據(jù)按照距離發(fā)布時(shí)間的遠(yuǎn)近賦權(quán)值；一般的網(wǎng)頁(yè)都會(huì)按照版面的排列順序來布局表格，雖然有時(shí)由于嵌套，可能順序稍有改變，但基本不影響新聞發(fā)布時(shí)間與正文距離的判斷。這種加權(quán)的方法依賴于發(fā)布時(shí)間的精確取得，具體抽取發(fā)布時(shí)間的算法，如圖5所示
步驟dl:掃描整個(gè)HTML源文件的所有時(shí)間格式，存儲(chǔ)于時(shí)間列表，并記錄在HTML源文件里掃描到的所有時(shí)間在該HTML源文件中的位置；
步驟d2:在HTML源文件中定位標(biāo)題的位置，根據(jù)步驟106c得到的新聞標(biāo)題，確定新聞標(biāo)題相應(yīng)的位置；
步驟d3:計(jì)算所有時(shí)間與標(biāo)題的距離，距離最小者為新聞發(fā)布時(shí)間。由于標(biāo)題下方往往緊接著發(fā)布時(shí)間，所以以標(biāo)題作為參照物，是一個(gè)很好的評(píng)估標(biāo)準(zhǔn)。根據(jù)每項(xiàng)純文本數(shù)據(jù)距離發(fā)布時(shí)間的距離遠(yuǎn)近，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT4,距離越近，權(quán)值越大，距離越遠(yuǎn)，權(quán)值越小，即權(quán)值WEIGHT4與距離成反比。
這里，在按照各種決策賦權(quán)值的順序可任意變化，在賦權(quán)值時(shí)，可以綜合情況來對(duì)所賦權(quán)值進(jìn)行適當(dāng)?shù)恼{(diào)節(jié)如果新聞標(biāo)題和發(fā)布時(shí)間的獲取比較準(zhǔn)確時(shí)，可以適當(dāng)?shù)販p小按照長(zhǎng)度賦的權(quán)值WEIGHT1,而適當(dāng)?shù)卦龃骔EIGHT3 、WEIGHT4的權(quán)值；如果新聞標(biāo)題和發(fā)布時(shí)間的獲取不夠準(zhǔn)確，可以適當(dāng)調(diào)大按照長(zhǎng)度賦的權(quán)值WEIGHT1，而適當(dāng)?shù)販p小按照距離新聞標(biāo)題的距離賦的權(quán)值WEIGHT3 、按照距離發(fā)布時(shí)間的距離賦的權(quán)值WEIGHT4;當(dāng)正文內(nèi)容很短時(shí)，版權(quán)聲明干擾信息的影響會(huì)很大，此時(shí)需要將負(fù)的權(quán)值WEIGHT2的絕對(duì)值適當(dāng)調(diào)大。
步驟107、計(jì)算文本列表中的每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重并比較權(quán)重大小，
得出正文內(nèi)容；
將純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)奶卣鲄?shù)得到的權(quán)值全部
或部分相加，即將每項(xiàng)純文本數(shù)據(jù)各自的WEIGHT1、 WEIGHT3、 WEIGHT4、WEIGHT2中的兩項(xiàng)、三項(xiàng)或全部相加，得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，只是每項(xiàng)純文本數(shù)據(jù)得到最終權(quán)重的項(xiàng)和項(xiàng)數(shù)必須相同，這樣才有可比性。
得到純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重后，最終權(quán)重全部不相等的，或最終權(quán)重有相等的，但是有比該相等權(quán)重更大的權(quán)重時(shí)，取最終權(quán)重最大的純文本數(shù)據(jù)即為新聞?wù)?；最終權(quán)重有相等的，且沒有比該相等權(quán)重更大的權(quán)重時(shí)，可以比較最終權(quán)重相等的純文本數(shù)據(jù)按照距離新聞標(biāo)題的遠(yuǎn)近得到的權(quán) 值，按照距離發(fā)布時(shí)間的遠(yuǎn)近得到的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br> 在實(shí)際信息的抽取過程中，得到權(quán)值相等的情況很少，另外，選取按照距離新聞標(biāo)題的遠(yuǎn)近得到的權(quán)值作為判斷的標(biāo)準(zhǔn)，是因?yàn)橐?guī)范的新聞?wù)目隙ㄓ?標(biāo)題，按照這點(diǎn)得到新聞?wù)牡臏?zhǔn)確性更強(qiáng)。
為實(shí)現(xiàn)本發(fā)明，釆用圖6所示裝置，該裝置包括以下模塊頁(yè)面數(shù)據(jù)列表抽取模塊61、細(xì)化篩選模塊62、賦權(quán)值模塊63、新聞?wù)某槿∧K64,其中，
頁(yè)面數(shù)據(jù)列表抽取模塊61，用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊62;
細(xì)化篩選模塊62,用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊61發(fā)送來的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表，并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送給賦權(quán)值模塊63;
賦權(quán)值模塊63，用于將細(xì)化篩選模塊62發(fā)送來的經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦予權(quán)值，并將每項(xiàng)純文本數(shù)據(jù)及其按照針對(duì)新聞?wù)牡奶卣鲄?shù)得到的權(quán)值發(fā)送給新聞?wù)某?取模塊64;
新聞?wù)某槿∧K64,用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較權(quán)重大小得出新聞?wù)膬?nèi)容。
其中，頁(yè)面數(shù)據(jù)列表抽取模塊61進(jìn)一步包括釆集單元611、預(yù)處理單元612、文檔樹構(gòu)建單元613、頁(yè)面數(shù)據(jù)列表抽取單元614,如圖7所示，其中，
采集單元611，用于釆集HTML源文件，并將釆集到的HTML源文件發(fā)送給預(yù)處理單元612;
預(yù)處理單元612,用于對(duì)釆集單元611發(fā)送過來的HTML源文件進(jìn)行預(yù)處理，并將經(jīng)過預(yù)處理單元612預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范化的HTML代碼發(fā)送給文檔樹構(gòu)建單元613;
文檔樹構(gòu)建單元613,用于將預(yù)處理單元612發(fā)送過來的標(biāo)準(zhǔn)規(guī)范化的 HTML代碼構(gòu)建成文檔樹，并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元614;
頁(yè)面數(shù)據(jù)列表抽取單元614、用于從文檔樹構(gòu)建單元613發(fā)送來的文檔樹中抽取包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍中的頁(yè)面數(shù)據(jù)，并將得到的頁(yè)面數(shù)據(jù)按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊 62;
本發(fā)明應(yīng)用多種特征值加權(quán)決策的新聞?wù)牡姆椒把b置，充分利用了中文新聞的結(jié)構(gòu)特征，利用統(tǒng)一的模版程序，無需人工干預(yù)就能自動(dòng)獲取中文新聞?wù)牡膬?nèi)容，并且保持了較高的準(zhǔn)確性、實(shí)用性和通用性。如果網(wǎng)頁(yè)是比較規(guī)范的新聞?lì)惥W(wǎng)頁(yè)，其正文抽取的準(zhǔn)確率可以達(dá)到90%。在具體產(chǎn)品的實(shí)際使用中，抽取100個(gè)網(wǎng)站的新聞網(wǎng)頁(yè)，抽樣統(tǒng)計(jì)的準(zhǔn)確率在80%以上。
以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法，其特征在于，該方法包括以下步驟A、根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表，并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表；B、將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦權(quán)值；C、根據(jù)所賦的權(quán)值計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較權(quán)重大小得出新聞?wù)摹?br> 2、根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟A中所述生成頁(yè)面數(shù) 據(jù)列表為從網(wǎng)頁(yè)中釆集超文本鏈接標(biāo)示語言HTML源文件，從HTML源文件中抽取文本數(shù)據(jù)，生成頁(yè)面數(shù)據(jù)列表。
3、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述從HTML源文件中抽取文本數(shù)據(jù)為對(duì)HTML源文件進(jìn)行預(yù)處理并構(gòu)建文檔樹，從構(gòu)建的文檔樹中抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的文本數(shù)據(jù)。
4、根據(jù)權(quán)利要求3所述的方法，其特征在于，所述預(yù)處理為將源文件中所有的標(biāo)簽TAG進(jìn)行匹配；將TAG以外其它地方出現(xiàn)的同樣的特殊標(biāo)記進(jìn)行替換；將所有的標(biāo)記修改為正確嵌套；將所有的HTML代碼字符表示形式統(tǒng)一。
5、根據(jù)權(quán)利要求2至4任一項(xiàng)所述的方法，其特征在于，步驟A中所述細(xì)化篩選為Al、刪除頁(yè)面數(shù)據(jù)列表中所有多余的HTML標(biāo)記；A2、丟棄頁(yè)面數(shù)據(jù)列表中除用戶有特殊需要以外的超鏈接；A3、根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉頁(yè)面數(shù)據(jù)列表中多余的文本部分。
6、根據(jù)權(quán)利要求5所述的方法，其特征在于，步驟B中所述針對(duì)新聞?wù)?文的特征參數(shù)為新聞文本長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近及距離新聞標(biāo)題的遠(yuǎn)近。
7、根據(jù)權(quán)利要求6所述的方法，其特征在于，步驟B所述賦權(quán)值為 Bl、分別為純文本列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與文本長(zhǎng)度成正比的正的權(quán)值WEIGHT 1;B2、若排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭，給所述純文本數(shù)據(jù)賦一個(gè)負(fù)的權(quán)值WEIGHT2;B3、得到新聞的標(biāo)題，計(jì)算所得到的新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離，根據(jù)每項(xiàng)純文本數(shù)據(jù)與新聞標(biāo)題的距離，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值WEIGHT3;B4、根據(jù)步驟B3得到的新聞標(biāo)題獲得發(fā)布時(shí)間，根據(jù)每項(xiàng)純文本數(shù)據(jù)距離發(fā)布時(shí)間的距離遠(yuǎn)近，為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值 WEIGHT4。
8、根據(jù)權(quán)利要求7所述的方法，其特征在于，步驟B3中所述新聞標(biāo)題的獲得方法為通過點(diǎn)擊文字超鏈接進(jìn)入新聞頁(yè)面的父頁(yè)面的超鏈接文字得到，或通過新聞頁(yè)面文字的樣式和新聞標(biāo)題本身的特點(diǎn)得到，或通過HTML源碼中節(jié)點(diǎn)范圍中的內(nèi)容得到。
9、根據(jù)權(quán)利要求8所述的方法，其特征在于，所述發(fā)布時(shí)間的獲得方法為 B41、掃描整個(gè)HTML源文件的所有時(shí)間格式，保存掃描到的所有時(shí)間格式，并記錄掃描到的所有時(shí)間在該HTML源文件中的位置；B42、根據(jù)獲得的新聞標(biāo)題，在HTML源文件中定位新聞標(biāo)題的位置； B43、計(jì)算所有時(shí)間與新聞標(biāo)題的距離，距離最小者為新聞發(fā)布時(shí)間。
10、根據(jù)權(quán)利要求9所述的方法，其特征在于，所述步驟C為將純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)奶卣鲄?shù)得到的權(quán)值全部或部分相加，得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重。
11、根據(jù)權(quán)利要求IO所述的方法，其特征在于，得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重后，該方法進(jìn)一步包括比較最終權(quán)重的大小，所有純文本數(shù)據(jù)的最終權(quán)重均不相等時(shí)，或有純文本數(shù)據(jù)的最終權(quán)重相等，但有比該相等權(quán)重更大的權(quán)重時(shí)，取最終權(quán)重最大的純文本數(shù)據(jù)為新聞?wù)?；有純文本?shù)據(jù)的最終權(quán)重相等，且沒有比相等權(quán)重更大的權(quán)重時(shí)，比較最終權(quán)重相等的純文本數(shù)據(jù)針對(duì) 距離新聞標(biāo)題的權(quán)值，針對(duì)距離新聞標(biāo)題的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br> 12、一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置，其特征在于，該裝置包括頁(yè)面數(shù)據(jù)列表抽取模塊、細(xì)化篩選模塊、賦權(quán)值模塊、新聞?wù)某槿∧K，其中，頁(yè)面數(shù)據(jù)列表抽取模塊，用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù) 據(jù)列表發(fā)送給細(xì)化篩選模塊；細(xì)化篩選模塊，用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊發(fā)送來的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，得到純文本列表，并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送給賦權(quán)值模塊；賦權(quán)值模塊，用于將細(xì)化篩選模塊發(fā)送來的經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)按照特征參數(shù)賦權(quán)值，并將每項(xiàng)純文本數(shù)據(jù)及其得到的權(quán)值發(fā)送給新聞?wù)某槿∧K；新聞?wù)某槿∧K，用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較權(quán)重大小得出新聞?wù)摹?br> 13、根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述頁(yè)面數(shù)據(jù)列表抽取模塊進(jìn)一步包括采集單元、預(yù)處理單元、文檔樹構(gòu)建單元及頁(yè)面數(shù)據(jù)列表抽取單元，其中，采集單元，用于采集HTML源文件，并將采集到的HTML源文件發(fā)送給預(yù)處理單元；預(yù)處理單元，用于對(duì)釆集單元發(fā)送過來的HTML源文件進(jìn)行預(yù)處理，并將經(jīng)過預(yù)處理單元預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼發(fā)送給文檔樹構(gòu)建單元；文檔樹構(gòu)建單元，用于將預(yù)處理單元發(fā)送來的標(biāo)準(zhǔn)規(guī)范的HTML代碼構(gòu)建成文檔樹，并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元；頁(yè)面數(shù)據(jù)列表抽取單元、用于從文檔樹構(gòu)建單元發(fā)送來的文檔樹中抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的頁(yè)面數(shù)據(jù)，并將得到的頁(yè)面數(shù)據(jù)按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表，并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊。
全文摘要
本發(fā)明公開了一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法，該方法包括根據(jù)網(wǎng)頁(yè)生成得到頁(yè)面數(shù)據(jù)列表，并對(duì)得到的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選，然后將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦權(quán)值，計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重，并比較最終權(quán)重大小得出新聞?wù)摹１景l(fā)明同時(shí)還公開了一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置，該裝置包括頁(yè)面數(shù)據(jù)列表抽取模塊、細(xì)化篩選模塊、賦權(quán)值模塊及新聞?wù)某槿∧K，整個(gè)裝置用于完成中文新聞?wù)某槿」δ?。利用本發(fā)明，既能簡(jiǎn)化訓(xùn)練過程的復(fù)雜度，也能同時(shí)提高對(duì)中文新聞網(wǎng)頁(yè)正文抽取的準(zhǔn)確性，且實(shí)現(xiàn)簡(jiǎn)單、方便。
文檔編號(hào)G06F17/30GK101470728SQ20071030414
公開日2009年7月1日申請(qǐng)日期2007年12月25日優(yōu)先權(quán)日2007年12月25日
發(fā)明者吳於茜, 斌和, 凱康, 楊建武申請(qǐng)人:北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：和斌;康凱;吳於茜;楊建武
技術(shù)所有人：北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

java新聞網(wǎng)頁(yè)正文抽取相關(guān)技術(shù)

網(wǎng)頁(yè)新聞?wù)淖詣?dòng)抽取相關(guān)技術(shù)

網(wǎng)頁(yè)正文自動(dòng)抽取技術(shù)相關(guān)技術(shù)

正文抽取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置的制作方法