專利名稱:一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁(yè)信息抽取技術(shù),尤其是指一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽 取方法及裝置。
背景技術(shù):
伴隨網(wǎng)絡(luò)信息爆炸式的增長(zhǎng),人們對(duì)海量的Web信息的特殊化需求也越來 越高,利用大規(guī)模搜索引擎以及專有領(lǐng)域的采集技術(shù),可以獲取Web上的海量 信息,但是Web上提供的數(shù)據(jù)基本上由非結(jié)構(gòu)化的靜態(tài)的超文本鏈接標(biāo)示語言 (HTML, Hypertext Markup Language)代碼構(gòu)成,并不能被信息分析系統(tǒng)直接 使用,因此要通過不同的信息抽取系統(tǒng)進(jìn)行抽取,抽取所需要的有價(jià)值的結(jié)構(gòu) 化文本數(shù)據(jù),才能由信息分析系統(tǒng)進(jìn)行后續(xù)的信息處理。由此可見,信息抽取 是信息處理非常關(guān)鍵的一步,如何高效準(zhǔn)確地抽取出結(jié)構(gòu)化文本數(shù)據(jù)也是一直 以來研究的熱點(diǎn)。
新聞作為一類重要的實(shí)時(shí)性網(wǎng)絡(luò)信息數(shù)據(jù),其巨大的應(yīng)用前景,引發(fā)了人 們對(duì)新聞內(nèi)容的自動(dòng)分類聚類、信息抽取、自動(dòng)摘要、熱點(diǎn)分析與追蹤等一系 列技術(shù)的研究,然而僅僅簡(jiǎn)單的利用搜索引擎技術(shù)很難獲取所需要的所有特定 的新聞信息資源,而新聞Web頁(yè)面自動(dòng)抽取技術(shù)的提出,有效地解決了如何準(zhǔn) 確獲取Web頁(yè)面中的結(jié)構(gòu)化的新聞信息資源的難題。
目前,信息抽取系統(tǒng)主要有兩種設(shè)計(jì)方法知識(shí)工程方法和機(jī)器學(xué)習(xí)方法。 知識(shí)工程方法需要知識(shí)工程師通過仔細(xì)研究信息抽取領(lǐng)域的特點(diǎn),設(shè)計(jì)出 一套用于抽取所需信息的規(guī)則來實(shí)現(xiàn)信息抽取。 一般情況下,開發(fā)高效的信息 抽取系統(tǒng)需要這樣一個(gè)過程分析數(shù)據(jù)、寫規(guī)則、運(yùn)行系統(tǒng)、測(cè)試結(jié)果、檢查 結(jié)果、改進(jìn)規(guī)則、繼續(xù)迭代等。在規(guī)則的書寫上,知識(shí)工程師必需認(rèn)真分析樣
5本數(shù)據(jù),還要依據(jù)自身平常所積累的經(jīng)驗(yàn)及對(duì)本領(lǐng)域的特殊領(lǐng)悟。知識(shí)工程方 法除需要對(duì)本領(lǐng)域知識(shí)有深入的了解之外,還需要大量的工作時(shí)間。
目前的知識(shí)工程方法的典型應(yīng)用主要是包裝器wrapper技術(shù),包裝器是將 HTML的內(nèi)容,利用定制好的規(guī)則抽取出來,即將非結(jié)構(gòu)化的HTML代碼轉(zhuǎn)換 成結(jié)構(gòu)化的文本數(shù)據(jù),供信息分析系統(tǒng)進(jìn)行后續(xù)的信息處理。抽取規(guī)則是以特 定的一類網(wǎng)頁(yè)為基礎(chǔ)的,抽取規(guī)則的描述和處理是包裝器的核心部分。
現(xiàn)有技術(shù)中抽取規(guī)則的獲取主要有三種方法人工書寫抽取規(guī)則、半自動(dòng) 化獲取抽取規(guī)則及完全自動(dòng)化的獲取抽取規(guī)則,相應(yīng)地,目前應(yīng)用比較多的包 裝器有人工書寫抽取規(guī)則的TSIMMIS工具包裝器、半自動(dòng)化生成抽取規(guī)則的 XWRAP系統(tǒng)工具包裝器及完全自動(dòng)化的生成抽取規(guī)則的RoadRunner工具包裝 器。包裝器所產(chǎn)生的抽取規(guī)則對(duì)頁(yè)面的結(jié)構(gòu)、內(nèi)容依賴性強(qiáng),當(dāng)頁(yè)面結(jié)構(gòu)發(fā)生 變化時(shí),包裝器需要重新生成抽取規(guī)則;包裝器的可重用性不強(qiáng),往往對(duì)不同 類型的Web網(wǎng)頁(yè)需要編寫不同的包裝器,因此利用包裝器將非結(jié)構(gòu)化的HTML 代碼轉(zhuǎn)換成結(jié)構(gòu)化的文本數(shù)據(jù)的方法代價(jià)很大。
機(jī)器學(xué)習(xí)方法則不需要知識(shí)工程師人工書寫抽取規(guī)則,只需要有大量人工 標(biāo)注過的訓(xùn)練數(shù)據(jù),依靠機(jī)器學(xué)習(xí)算法,將訓(xùn)練數(shù)據(jù)給程序進(jìn)行學(xué)習(xí),來得到 相應(yīng)的知識(shí)庫(kù),即得到結(jié)構(gòu)化的文本數(shù)據(jù)。
Web Page Retrieval"[ ACM-SIGIR'05 ]提出了基于特征向量提取和非對(duì)稱感知 器權(quán)值訓(xùn)練算法的面向任意網(wǎng)頁(yè)的標(biāo)題自動(dòng)抽取算法。標(biāo)題一般僅涉及一個(gè)段 落,而正文則往往包含好多個(gè)段落而抽取難度比較大,因此,該算法不太適用 于對(duì)正文的抽取。另外,該算法針對(duì)的是任意網(wǎng)頁(yè),而針對(duì)新聞網(wǎng)頁(yè),也很不 適用。
可見,無論是知識(shí)工程方法還是機(jī)器學(xué)習(xí)方法均有其缺點(diǎn)知識(shí)工程方法 的缺點(diǎn)在于開發(fā)過程需要煩瑣的迭代工作;而機(jī)器學(xué)習(xí)方法則因需要經(jīng)過大量 人工標(biāo)注的訓(xùn)練數(shù)據(jù),過程復(fù)雜,不太適合對(duì)新聞網(wǎng)頁(yè)的自動(dòng)抽取。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取 方法及裝置,既能簡(jiǎn)化訓(xùn)練過程的復(fù)雜度,也能同時(shí)提高對(duì)中文新聞網(wǎng)頁(yè)正文 抽取的準(zhǔn)確性,且實(shí)現(xiàn)簡(jiǎn)單、方便。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的 一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法,該方法包括以下步驟
A、 根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表,并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化 篩選,得到純文本列表;
B、 將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞 正文的特征參數(shù)賦權(quán)值;
C、 根據(jù)所賦的權(quán)值計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比 較權(quán)重大小得出新聞?wù)摹?br>
進(jìn)一步地,步驟A中所述生成頁(yè)面數(shù)據(jù)列表為從網(wǎng)頁(yè)中采集超文本鏈接 標(biāo)示語言HTML源文件,從HTML源文件中抽取文本數(shù)據(jù),生成頁(yè)面數(shù)據(jù)列
其中,所述從HTML源文件中抽取文本數(shù)據(jù)為對(duì)HTML源文件進(jìn)行預(yù) 處理并構(gòu)建文檔樹,從構(gòu)建的文檔樹中抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的 文本數(shù)據(jù)。
進(jìn)一步地,所述預(yù)處理為將源文件中所有的標(biāo)簽TAG進(jìn)行匹配;將TAG 以外其它地方出現(xiàn)的同樣的特殊標(biāo)記進(jìn)行替換;將所有的標(biāo)記修改為正確嵌套; 將所有的HTML代碼字符表示形式統(tǒng)一 。 進(jìn)一步地,步驟A中所述細(xì)化篩選為 Al、刪除頁(yè)面數(shù)據(jù)列表中所有多余的HTML標(biāo)記; A2 、丟棄頁(yè)面數(shù)據(jù)列表中除用戶有特殊需要以外的超鏈接; A3、根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉頁(yè)面數(shù)據(jù)列表中多余的文本部分。 較佳地,步驟B中所述針對(duì)新聞?wù)牡奶卣鲄?shù)為新聞文本長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近及距離新聞標(biāo)題的遠(yuǎn)近。
進(jìn)一步地,步驟B所述賦權(quán)值為
Bl、分別為純文本列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與文本長(zhǎng)度成正比的正的 權(quán)值WEIGHT 1;
B2、若排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭,給所述純文本數(shù)據(jù)賦一個(gè)負(fù)的 權(quán)值WEIGHT2;
B3、得到新聞的標(biāo)題,計(jì)算所得到的新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離, 根據(jù)每項(xiàng)純文本數(shù)據(jù)與新聞標(biāo)題的距離,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反 比的正的權(quán)值WEIGHT3;
B4、根據(jù)步驟B3得到的新聞標(biāo)題獲得發(fā)布時(shí)間,根據(jù)每項(xiàng)純文本數(shù)據(jù)距 離發(fā)布時(shí)間的距離遠(yuǎn)近,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值 WEIGHT4。
較佳地,步驟B3中所述新聞標(biāo)題的獲得方法為通過點(diǎn)擊文字超鏈接進(jìn) 入新聞頁(yè)面的父頁(yè)面的超鏈接文字得到,或通過新聞頁(yè)面文字的樣式和新聞標(biāo) 題本身的特點(diǎn)得到,或通過HTML源碼中節(jié)點(diǎn)范圍中的內(nèi)容得到。
進(jìn)一步地,所述發(fā)布時(shí)間的獲得方法為
B41、掃描整個(gè)HTML源文件的所有時(shí)間格式,保存掃描到的所有時(shí)間格 式,并記錄掃描到的所有時(shí)間在該HTML源文件中的位置;
B42、根據(jù)獲得的新聞標(biāo)題,在HTML源文件中定位新聞標(biāo)題的位置; B43、計(jì)算所有時(shí)間與新聞標(biāo)題的距離,距離最小者為新聞發(fā)布時(shí)間。 較佳地,所述步驟C為將純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)?特征參數(shù)得到的權(quán)值全部或部分相加,得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重。
較佳地,得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重后,該方法進(jìn)一步包括比較最 終權(quán)重的大小,所有純文本數(shù)據(jù)的最終權(quán)重均不相等時(shí),或有純文本數(shù)據(jù)的最 終權(quán)重相等,但有比該相等權(quán)重更大的權(quán)重時(shí),取最終權(quán)重最大的純文本數(shù)據(jù) 為新聞?wù)?;有純文本?shù)據(jù)的最終權(quán)重相等,且沒有比相等權(quán)重更大的權(quán)重時(shí), 比較最終權(quán)重相等的純文本數(shù)據(jù)針對(duì)距離新聞標(biāo)題的權(quán)值,針對(duì)距離新聞標(biāo)題的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br>
一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置,該裝置包括頁(yè)面數(shù)據(jù)列表抽取 模塊、細(xì)化篩選模塊、賦權(quán)值模塊、新聞?wù)某槿∧K,其中,
頁(yè)面數(shù)據(jù)列表抽取模塊,用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面數(shù) 據(jù)列表發(fā)送給細(xì)化篩選模塊;
細(xì)化篩選模塊,用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊發(fā)送來的頁(yè)面數(shù)據(jù)列表進(jìn)行 細(xì)化篩選,得到純文本列表,并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送給賦權(quán)
值模塊;
賦權(quán)值模塊,用于將細(xì)化篩選模塊發(fā)送來的經(jīng)過細(xì)化篩選得到的純文本列 表中的每項(xiàng)按照特征參數(shù)賦權(quán)值,并將每項(xiàng)純文本數(shù)據(jù)及其得到的權(quán)值發(fā)送給
新聞?wù)某槿∧K;
新聞?wù)某槿∧K,用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比較權(quán)重大 小得出新聞?wù)摹?br>
進(jìn)一步地,所述頁(yè)面數(shù)據(jù)列表抽取模塊進(jìn)一步包括采集單元、預(yù)處理單 元、文檔樹構(gòu)建單元及頁(yè)面數(shù)據(jù)列表抽取單元,其中,
采集單元,用于采集HTML源文件,并將采集到的HTML源文件發(fā)送給 預(yù)處理單元;
預(yù)處理單元,用于對(duì)采集單元發(fā)送過來的HTML源文件進(jìn)行預(yù)處理,并將 經(jīng)過預(yù)處理單元預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼發(fā)送給文檔樹構(gòu)建單元;
文檔樹構(gòu)建單元,用于將預(yù)處理單元發(fā)送來的標(biāo)準(zhǔn)規(guī)范的HTML代碼構(gòu)建 成文檔樹,并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元;
頁(yè)面數(shù)據(jù)列表抽取單元、用于從文檔樹構(gòu)建單元發(fā)送來的文檔樹中抽取每 個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的頁(yè)面數(shù)據(jù),并將得到的頁(yè)面數(shù)據(jù)按照得到的先 后順序組織成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊。
本發(fā)明所提供的中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法及裝置,根據(jù)規(guī)范的中 文新聞網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的共同特點(diǎn),根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表,并對(duì)生 成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選,得到純文本列表,然后將純文本列表中每項(xiàng)
9純文本數(shù)據(jù)對(duì)應(yīng)新聞?wù)牡亩喾N特征參數(shù)賦權(quán)值,根據(jù)最終權(quán)重值得出新聞?wù)?文。這樣,對(duì)于較為規(guī)范的新聞?lì)惥W(wǎng)頁(yè),其正文抽取的準(zhǔn)確率可以達(dá)到90%。
在具體產(chǎn)品的實(shí)際使用中,抽取ioo個(gè)網(wǎng)站的新聞網(wǎng)頁(yè),抽樣統(tǒng)計(jì)的準(zhǔn)確率在
80%以上,由此可見,本發(fā)明充分利用了中文新聞網(wǎng)頁(yè)的特點(diǎn),進(jìn)行多層細(xì)化 篩選,且按照多項(xiàng)針對(duì)正文的特征參數(shù)進(jìn)行加權(quán),提高了對(duì)中文新聞網(wǎng)頁(yè)正文
抽取的準(zhǔn)確性,且實(shí)現(xiàn)簡(jiǎn)單、方便;既克服了機(jī)器學(xué)習(xí)需要大量經(jīng)過人工標(biāo)注
的訓(xùn)練數(shù)據(jù),過程復(fù)雜的問題,也避免了對(duì)包裝器大量繁雜抽取規(guī)則的書寫過 程。
圖l為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法流程示意圖2為本發(fā)明實(shí)施例中HTML文檔樹結(jié)構(gòu)示意圖; 圖3為本發(fā)明實(shí)施例中純文本列表示意圖4為本發(fā)明中具體對(duì)純文本列表中每一項(xiàng)文本數(shù)據(jù)進(jìn)行加權(quán)的流程示意
圖5為本發(fā)明中新聞發(fā)布時(shí)間的抽取流程示意圖6為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置結(jié)構(gòu)示意圖7為本發(fā)明中純文本列表抽取模塊的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
本發(fā)明基于規(guī)范中文新聞網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容的共同特點(diǎn),抽象出 一套統(tǒng)一的 中文新聞網(wǎng)頁(yè)正文抽取方案,本發(fā)明的基本思想是根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù) 據(jù)列表,并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選,得到純文本列表,然后應(yīng)用 多項(xiàng)特征加權(quán)的方法,將純文本列表中每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)牡亩喾N特 征參數(shù)賦權(quán)值;最后計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并通過比 較權(quán)重大小得出新聞?wù)摹?br>
目前,規(guī)范的中文新聞網(wǎng)頁(yè)普遍存在以下幾點(diǎn)共同特性1、 風(fēng)格類似新聞?wù)膬?nèi)容部分占據(jù)網(wǎng)頁(yè)的中心位置,并且內(nèi)容都在一對(duì)〈TABLEx/TABLE〉或〈DIVx/DIV〉內(nèi)。新聞?wù)?一般是 一篇文檔中片幅最長(zhǎng)
的文字,文字由比較大段的統(tǒng)一格式組成,正文的不同段落往往依次排列;
2、 結(jié)構(gòu)類似新聞?wù)耐ǔ0凑?標(biāo)題+發(fā)布時(shí)間+來源"的固定段落層次排列,且新聞?wù)囊话憔o鄰發(fā)布時(shí)間的下方,距離標(biāo)題較近;
3、 內(nèi)容類似新聞?wù)亩温溟_始一般不會(huì)包含"版權(quán)聲明"等字樣,正文段落內(nèi)有大量的超鏈接,例如相關(guān)新聞頁(yè)面,推薦頁(yè)面,廣告頁(yè)面等,排除超鏈接文字,正文為最主要的文字區(qū)域。
基于中文新聞網(wǎng)頁(yè)正文的上述共性,本發(fā)明釆用表格自動(dòng)抽取的方法,配合正文長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近、距離新聞標(biāo)題的遠(yuǎn)近等多項(xiàng)決策加權(quán)的技術(shù)方案,進(jìn)行中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取。
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施作進(jìn)一步詳細(xì)的說明。
圖1為本發(fā)明中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法流程圖,如圖l所示,該方法包括以下步驟
步驟IOI、釆集獲得新聞頁(yè)面的HTML源文件;
此處, 一般是用釆集器進(jìn)行采集。
步驟102、對(duì)HTML源文件進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)規(guī)范的HTML代碼;因?yàn)閃eb網(wǎng)頁(yè)的數(shù)據(jù)多樣性和網(wǎng)頁(yè)結(jié)構(gòu)的復(fù)雜性,需要對(duì)HTML源文件
中的HTML代碼進(jìn)行統(tǒng)一的網(wǎng)頁(yè)規(guī)范化處理,即進(jìn)行預(yù)處理。具體的預(yù)處理方
法包括
首先,將源文件中所有的標(biāo)簽(TAG)進(jìn)行匹配,將源文件中不成對(duì)出現(xiàn)的TAG進(jìn)行修改,保證所有開始和結(jié)東TAG的匹配,因?yàn)镠TML中的TAG標(biāo)記必須成對(duì)出現(xiàn);
其次,將除TAG標(biāo)記以外其它地方出現(xiàn)的"<"和"〉',分別替換為"<"和"&rt;",因?yàn)樵贖TML代碼中頁(yè)面顯示的內(nèi)容如果出現(xiàn)"<"和">",會(huì)與TAG標(biāo)記中包含的"<"和">"混淆;這里,"<"和">"屬于TAG中的特珠標(biāo)記,除了 TAG中的特珠標(biāo)記,對(duì)其它地方出現(xiàn)同樣的特殊標(biāo)記需要進(jìn)
ii行替換,以避免標(biāo)記重復(fù),替換后的標(biāo)記只要與TAG標(biāo)記的特殊標(biāo)記不重復(fù)且
可以識(shí)別即可;
之后,將所有的標(biāo)記修改為正確嵌套,所謂正確實(shí)際就是保證配對(duì),嵌套的標(biāo)記符合配對(duì)的規(guī)則,能保證嵌套可以正常解析;
最后,將所有的HTML代碼字符的形式進(jìn)行統(tǒng)一,這里,所謂統(tǒng)一是指將所有HTML代碼字符全部轉(zhuǎn)化成大寫或全部轉(zhuǎn)化成小寫,以方便整個(gè)抽取過程中對(duì)模式匹配的要求。
步驟103、構(gòu)建HTML文檔樹;
步驟102中的預(yù)處理過程是構(gòu)造HTML文檔樹的前提,本步驟根據(jù)步驟102所得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼,利用HTML代碼的標(biāo)記構(gòu)建HTML文檔樹,將文檔樹中的每個(gè)節(jié)點(diǎn)包含一對(duì)標(biāo)記間的所有字符,且節(jié)點(diǎn)的名字設(shè)置為對(duì)應(yīng)標(biāo)記的名字。由于HTML代碼具有開始和結(jié)束TAG成對(duì)出現(xiàn)的特征,在起始標(biāo)記和結(jié)東標(biāo)記之間包括網(wǎng)頁(yè)描述屬性和網(wǎng)頁(yè)內(nèi)容兩部分信息,所以構(gòu)造Web文檔結(jié)構(gòu)樹的時(shí)候釆用標(biāo)記匹配和回溯相結(jié)合的方法,并忽略對(duì)TAG標(biāo)記的屬性描述信息。
目前, 一般HTML的標(biāo)記大都是由〈TAG〉和々TAG〉成對(duì)組成,所以需要標(biāo)記匹配,從第一個(gè)〈TAG〉開始,到下一個(gè)與之匹配的々TAG〉結(jié)東標(biāo)記之間的內(nèi)容是這個(gè)TAG的實(shí)際內(nèi)容;采用回溯的方法,是因?yàn)闃?biāo)記可以嵌套,在一個(gè)〈TABLEx/TABLE〉之內(nèi)可能還有子〈TABLEx/TABLE〉,所以要找出所有的配對(duì)的〈TABLE〉標(biāo)記,直到最后一個(gè)匹配々TABLE〉標(biāo)記,才能準(zhǔn)確找出每一個(gè)《ABLE〉對(duì)。
由于本發(fā)明主要是對(duì)新聞頁(yè)面范圍內(nèi)內(nèi)容的抽取,所以需要考慮的HTML標(biāo)記主要有<HTML〉</HTML〉<BODY>、 </BODY>、 <TABLE〉、 </TABLE>、<DIV>、 </DIV>、 <TR>、 </TR>、 <TD>、 </TD>,在構(gòu)建HTML文檔樹時(shí),可將其它的HTML標(biāo)記視為無用HTML標(biāo)記直接舍棄。
以下具體以 一 段經(jīng)過預(yù)處理的文檔樹的構(gòu)建為例來說明
<113>張三的博客<spa n class="classl,,>
<img src="http:〃www.sina.com/img/star.gif, alt:"會(huì)員,,id="starl"></ s pan>
<spa n class="stat,,>
您的博客已經(jīng)有
<span class="count,, id="vcount,,>8888</ span>
人瀏覽</ s pan></h3>
利用上述經(jīng)過預(yù)處理的數(shù)據(jù)所構(gòu)建的文檔樹如圖2所示,文檔樹中每個(gè)節(jié)點(diǎn)包含一對(duì)標(biāo)記間的所有字符,且節(jié)點(diǎn)的名字為對(duì)應(yīng)標(biāo)記的名字。
步驟104、根據(jù)步驟103中構(gòu)建的HTML文檔樹生成頁(yè)面數(shù)據(jù)列表;根據(jù)步驟103中構(gòu)建的HTML文檔樹取出每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的數(shù)據(jù),并將得到的數(shù)據(jù)按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表,待下一步細(xì)化處理。
通常,包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)為〈TABLE〉和〈DIV〉,這里, 一般是根據(jù)〈TABLE〉和<DIV>的位置,得到每 一 個(gè)〈TABLE〉〈/TABLE〉 , <DIV〉</DIV〉范圍中的數(shù)據(jù),將得到的每一個(gè)〈TABLEx/TABLE、 <DIV></DIV>$圍中的數(shù)據(jù),按照得到的先后順序組織成頁(yè)面數(shù)據(jù)列表,待下一步細(xì)化處理;
上述步驟102~104的目的是從HTML源文件中更加直觀地生成頁(yè)面數(shù)據(jù)列表,在實(shí)際操作中,也可以直接從HTML源文件中生成頁(yè)面數(shù)據(jù)列表。
步驟105、對(duì)頁(yè)面數(shù)據(jù)列表中的數(shù)據(jù)進(jìn)行細(xì)化篩選,得到純文本列表;
因?yàn)門ABLE結(jié)構(gòu)的范圍很大,包含的內(nèi)容也很多,所以必須對(duì)上一步得到的頁(yè)面數(shù)據(jù)列表中的數(shù)據(jù)進(jìn)行細(xì)化篩選,具體做法如下
先刪除所有多余的HTML標(biāo)記,如〈Px/P〉, <li></li>, 〈span〉〈/span〉等;再處理超鏈接,這里包括圖片鏈接和文字鏈接。其中,文字鏈接由〈ahrefx/a〉標(biāo)記確定,主要是一些相關(guān)新聞,新聞評(píng)論,站內(nèi)鏈接,以及大量的廣告信息,所以釆取全部舍棄的策略;對(duì)于圖片超鏈接,用戶沒有特殊要求的,將所有超鏈接的標(biāo)記,即,將包含〈img >的標(biāo)記和內(nèi)容統(tǒng)統(tǒng)舍棄,如果用戶要求保存的新聞圖片,按照〈mg〉的位置記錄圖片在正文中的位置,將圖片的保存路徑作為特殊文本保留在內(nèi)容中,當(dāng)讀取正文時(shí),即可加載圖片信息。
然后,根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉多余的文本內(nèi)容。這里, 一般過濾掉〈FORMx/FO脂〉,〈SELLECT〉 </SELLECT>, <STYLE〉</STYLE>,<SCRIPT></SCRIPT >中的文本內(nèi)容,因?yàn)?lt;FORM></FORM>是需要和服務(wù)器交互的表單項(xiàng),<SELLECT> </SELLECT>為下拉列表內(nèi)容項(xiàng),<SCRIPT〉</SCRIPT 〉為一些動(dòng)態(tài)網(wǎng)頁(yè)的腳本語言,<STYLE></STYLE〉為 一 些網(wǎng)頁(yè)的樣式,所以這些內(nèi)容不是用戶所需要的正文內(nèi)容,但是經(jīng)常會(huì)以大篇幅的文字形式出現(xiàn),成為正文選擇的千擾項(xiàng),所以此處需要進(jìn)行過濾舍棄。
頁(yè)面數(shù)據(jù)列表經(jīng)過細(xì)化篩選后得到的文本列表如圖3所示,將經(jīng)過細(xì)化篩選后的純文本數(shù)據(jù)組織在******之間,方便查看結(jié)果,也易于理解。圖3中,第一段文字為新聞的標(biāo)題,第二段為新聞發(fā)布時(shí)間、新聞?wù)?、來源、作者等,第三段為版?quán)聲明,其他的多余信息已經(jīng)過細(xì)化篩選舍棄掉。
步驟106、將經(jīng)過細(xì)化篩選后得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照多種特征進(jìn)行加權(quán);
由于得到的文本列表包含了頁(yè)面內(nèi)所有的純文本數(shù)據(jù),很難按照一個(gè)標(biāo)準(zhǔn)去判定哪一個(gè)是正文,所以按照中文新聞的四個(gè)共性,進(jìn)行加權(quán)。因?yàn)橹形男侣劦乃膫€(gè)共性分別為1)正文一般都是一篇文檔中篇幅最長(zhǎng)的文字;2)正文緊臨發(fā)布時(shí)間的下方;3)正文的段落開始一般不會(huì)包含"版權(quán)聲明"等字樣;4)正文距離標(biāo)題較近。所以,通常選取文本的長(zhǎng)度、文本是否包含關(guān)鍵字、文本距離發(fā)布時(shí)間的遠(yuǎn)近、及文本距離新聞標(biāo)題的遠(yuǎn)近這四項(xiàng)作為針對(duì)新聞?wù)牡奶卣鲄?shù),基于針對(duì)新聞?wù)牡奶卣鲄?shù)為每一段文本賦權(quán)值,即進(jìn)行加權(quán)處理,具體加權(quán)過程如圖4所示,包括以下步驟步驟106a:為每項(xiàng)純文本數(shù)據(jù)按照長(zhǎng)度賦權(quán)值;
分別為列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT1,權(quán)值WEIGHT1與文本長(zhǎng)度成正比,但是權(quán)值的具體大小可以隨實(shí)際情況進(jìn)行調(diào)節(jié)。
此處,可以根據(jù)以下公式計(jì)算WEIGHTl=N*OneTableLength/500,其中,OneTableLength為每一項(xiàng)表格文本列表內(nèi)容的字符長(zhǎng)度,以500個(gè)字符作為基準(zhǔn),N為調(diào)整因子。但在實(shí)際操作中,可以根據(jù)具體需要釆用相應(yīng)的權(quán)重計(jì)算公式,只要保證權(quán)值WEIGHT1與文本長(zhǎng)度成正比即可。
步驟106b:為每項(xiàng)純文本數(shù)據(jù)按照排除關(guān)鍵字賦權(quán)值;
根據(jù)大量50個(gè)新聞?wù)军c(diǎn)的試驗(yàn),95 %的大篇幅的干擾文本內(nèi)容多出現(xiàn)在版權(quán)聲明和網(wǎng)站信息中,需要提取其中的主要關(guān)鍵字,作為排除特征,比如"版權(quán)聲明","免責(zé)聲明","版權(quán)說明","①凡本網(wǎng)"等。若這些排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭,則給這些純文本數(shù)據(jù)賦一個(gè)負(fù)的權(quán)值WEIGHT2。這里,判斷關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭的標(biāo)準(zhǔn)一般為排除關(guān)鍵字的位置在純文本數(shù)據(jù)開始的前8個(gè)字符內(nèi)。當(dāng)然,也可能出現(xiàn)包含N個(gè)字的排除關(guān)鍵字,則排除關(guān)鍵字的位置在純文本數(shù)據(jù)開始的前Nx2個(gè)字符內(nèi),認(rèn)為排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)的開頭。
步驟106c:為每項(xiàng)純文本數(shù)據(jù)按照距離新聞標(biāo)題的遠(yuǎn)近賦權(quán)值;
這里,新聞標(biāo)題可以通過點(diǎn)擊文字超鏈接進(jìn)入新聞頁(yè)面的那一級(jí)頁(yè)面,通常稱為列表頁(yè)或父頁(yè)面的超鏈接文字得到,也可以通過頁(yè)面文字的樣式和標(biāo)題本身的特點(diǎn),如字?jǐn)?shù),字號(hào),加粗等,還可以通過頁(yè)面特定節(jié)點(diǎn)<TITLE></TITLE〉中的內(nèi)容得到,得到新聞標(biāo)題以后,計(jì)算新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離,根據(jù)每項(xiàng)純文本數(shù)據(jù)距離新聞標(biāo)題的距離遠(yuǎn)近,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT3,距離越近,權(quán)值越大,距離越遠(yuǎn),權(quán)值越小,即權(quán)值WEIGHT3與距離成反比。
步驟106d:為每項(xiàng)純文本數(shù)據(jù)按照距離發(fā)布時(shí)間的遠(yuǎn)近賦權(quán)值;一般的網(wǎng)頁(yè)都會(huì)按照版面的排列順序來布局表格,雖然有時(shí)由于嵌套,可能順序稍有改變,但基本不影響新聞發(fā)布時(shí)間與正文距離的判斷。這種加權(quán)的方法依賴于發(fā)布時(shí)間的精確取得,具體抽取發(fā)布時(shí)間的算法,如圖5所示
步驟dl:掃描整個(gè)HTML源文件的所有時(shí)間格式,存儲(chǔ)于時(shí)間列表,并記錄在HTML源文件里掃描到的所有時(shí)間在該HTML源文件中的位置;
步驟d2:在HTML源文件中定位標(biāo)題的位置,根據(jù)步驟106c得到的新聞標(biāo)題,確定新聞標(biāo)題相應(yīng)的位置;
步驟d3:計(jì)算所有時(shí)間與標(biāo)題的距離,距離最小者為新聞發(fā)布時(shí)間。由于標(biāo)題下方往往緊接著發(fā)布時(shí)間,所以以標(biāo)題作為參照物,是一個(gè)很好的評(píng)估標(biāo)準(zhǔn)。根據(jù)每項(xiàng)純文本數(shù)據(jù)距離發(fā)布時(shí)間的距離遠(yuǎn)近,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)正的權(quán)值WEIGHT4,距離越近,權(quán)值越大,距離越遠(yuǎn),權(quán)值越小,即權(quán)值WEIGHT4與距離成反比。
這里,在按照各種決策賦權(quán)值的順序可任意變化,在賦權(quán)值時(shí),可以綜合情況來對(duì)所賦權(quán)值進(jìn)行適當(dāng)?shù)恼{(diào)節(jié)如果新聞標(biāo)題和發(fā)布時(shí)間的獲取比較準(zhǔn)確時(shí),可以適當(dāng)?shù)販p小按照長(zhǎng)度賦的權(quán)值WEIGHT1,而適當(dāng)?shù)卦龃骔EIGHT3 、WEIGHT4的權(quán)值;如果新聞標(biāo)題和發(fā)布時(shí)間的獲取不夠準(zhǔn)確,可以適當(dāng)調(diào)大按照長(zhǎng)度賦的權(quán)值WEIGHT1,而適當(dāng)?shù)販p小按照距離新聞標(biāo)題的距離賦的權(quán)值WEIGHT3 、按照距離發(fā)布時(shí)間的距離賦的權(quán)值WEIGHT4;當(dāng)正文內(nèi)容很短時(shí),版權(quán)聲明干擾信息的影響會(huì)很大,此時(shí)需要將負(fù)的權(quán)值WEIGHT2的絕對(duì)值適當(dāng)調(diào)大。
步驟107、計(jì)算文本列表中的每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重并比較權(quán)重大小,
得出正文內(nèi)容;
將純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)奶卣鲄?shù)得到的權(quán)值全部
或部分相加,即將每項(xiàng)純文本數(shù)據(jù)各自的WEIGHT1、 WEIGHT3、 WEIGHT4、WEIGHT2中的兩項(xiàng)、三項(xiàng)或全部相加,得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,只是每項(xiàng)純文本數(shù)據(jù)得到最終權(quán)重的項(xiàng)和項(xiàng)數(shù)必須相同,這樣才有可比性。
得到純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重后,最終權(quán)重全部不相等的,或最終權(quán)重有相等的,但是有比該相等權(quán)重更大的權(quán)重時(shí),取最終權(quán)重最大的純文本數(shù)據(jù)即為新聞?wù)?;最終權(quán)重有相等的,且沒有比該相等權(quán)重更大的權(quán)重時(shí),可以比較最終權(quán)重相等的純文本數(shù)據(jù)按照距離新聞標(biāo)題的遠(yuǎn)近得到的權(quán) 值,按照距離發(fā)布時(shí)間的遠(yuǎn)近得到的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br>
在實(shí)際信息的抽取過程中,得到權(quán)值相等的情況很少,另外,選取按照距 離新聞標(biāo)題的遠(yuǎn)近得到的權(quán)值作為判斷的標(biāo)準(zhǔn),是因?yàn)橐?guī)范的新聞?wù)目隙ㄓ?標(biāo)題,按照這點(diǎn)得到新聞?wù)牡臏?zhǔn)確性更強(qiáng)。
為實(shí)現(xiàn)本發(fā)明,釆用圖6所示裝置,該裝置包括以下模塊頁(yè)面數(shù)據(jù)列表 抽取模塊61、細(xì)化篩選模塊62、賦權(quán)值模塊63、新聞?wù)某槿∧K64,其中,
頁(yè)面數(shù)據(jù)列表抽取模塊61,用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面 數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊62;
細(xì)化篩選模塊62,用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊61發(fā)送來的頁(yè)面數(shù)據(jù)列 表進(jìn)行細(xì)化篩選,得到純文本列表,并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送 給賦權(quán)值模塊63;
賦權(quán)值模塊63,用于將細(xì)化篩選模塊62發(fā)送來的經(jīng)過細(xì)化篩選得到的純 文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦予權(quán)值,并將每 項(xiàng)純文本數(shù)據(jù)及其按照針對(duì)新聞?wù)牡奶卣鲄?shù)得到的權(quán)值發(fā)送給新聞?wù)某?取模塊64;
新聞?wù)某槿∧K64,用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比較權(quán)重 大小得出新聞?wù)膬?nèi)容。
其中,頁(yè)面數(shù)據(jù)列表抽取模塊61進(jìn)一步包括釆集單元611、預(yù)處理單元612、 文檔樹構(gòu)建單元613、頁(yè)面數(shù)據(jù)列表抽取單元614,如圖7所示,其中,
采集單元611,用于釆集HTML源文件,并將釆集到的HTML源文件發(fā)送 給預(yù)處理單元612;
預(yù)處理單元612,用于對(duì)釆集單元611發(fā)送過來的HTML源文件進(jìn)行預(yù)處 理,并將經(jīng)過預(yù)處理單元612預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范化的HTML代碼發(fā)送給文 檔樹構(gòu)建單元613;
文檔樹構(gòu)建單元613,用于將預(yù)處理單元612發(fā)送過來的標(biāo)準(zhǔn)規(guī)范化的 HTML代碼構(gòu)建成文檔樹,并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元614;
頁(yè)面數(shù)據(jù)列表抽取單元614、用于從文檔樹構(gòu)建單元613發(fā)送來的文檔樹 中抽取包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍中的頁(yè)面數(shù)據(jù),并將得到的頁(yè)面數(shù)據(jù)按照得到 的先后順序組織成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊 62;
本發(fā)明應(yīng)用多種特征值加權(quán)決策的新聞?wù)牡姆椒把b置,充分利用了中 文新聞的結(jié)構(gòu)特征,利用統(tǒng)一的模版程序,無需人工干預(yù)就能自動(dòng)獲取中文新 聞?wù)牡膬?nèi)容,并且保持了較高的準(zhǔn)確性、實(shí)用性和通用性。如果網(wǎng)頁(yè)是比較 規(guī)范的新聞?lì)惥W(wǎng)頁(yè),其正文抽取的準(zhǔn)確率可以達(dá)到90%。在具體產(chǎn)品的實(shí)際使 用中,抽取100個(gè)網(wǎng)站的新聞網(wǎng)頁(yè),抽樣統(tǒng)計(jì)的準(zhǔn)確率在80%以上。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法,其特征在于,該方法包括以下步驟A、根據(jù)網(wǎng)頁(yè)數(shù)據(jù)生成頁(yè)面數(shù)據(jù)列表,并對(duì)生成的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選,得到純文本列表;B、將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)純文本數(shù)據(jù)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦權(quán)值;C、根據(jù)所賦的權(quán)值計(jì)算純文本列表中每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比較權(quán)重大小得出新聞?wù)摹?br>
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A中所述生成頁(yè)面數(shù) 據(jù)列表為從網(wǎng)頁(yè)中釆集超文本鏈接標(biāo)示語言HTML源文件,從HTML源文 件中抽取文本數(shù)據(jù),生成頁(yè)面數(shù)據(jù)列表。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從HTML源文件中抽 取文本數(shù)據(jù)為對(duì)HTML源文件進(jìn)行預(yù)處理并構(gòu)建文檔樹,從構(gòu)建的文檔樹中 抽取每個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的文本數(shù)據(jù)。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)處理為將源文件中 所有的標(biāo)簽TAG進(jìn)行匹配;將TAG以外其它地方出現(xiàn)的同樣的特殊標(biāo)記進(jìn)行 替換;將所有的標(biāo)記修改為正確嵌套;將所有的HTML代碼字符表示形式統(tǒng)一。
5、 根據(jù)權(quán)利要求2至4任一項(xiàng)所述的方法,其特征在于,步驟A中所述 細(xì)化篩選為Al、刪除頁(yè)面數(shù)據(jù)列表中所有多余的HTML標(biāo)記;A2、丟棄頁(yè)面數(shù)據(jù)列表中除用戶有特殊需要以外的超鏈接;A3、根據(jù)頁(yè)面數(shù)據(jù)中的節(jié)點(diǎn)信息過濾掉頁(yè)面數(shù)據(jù)列表中多余的文本部分。
6、 根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟B中所述針對(duì)新聞?wù)?文的特征參數(shù)為新聞文本長(zhǎng)度、排除關(guān)鍵字、距離發(fā)布時(shí)間的遠(yuǎn)近及距離新 聞標(biāo)題的遠(yuǎn)近。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,步驟B所述賦權(quán)值為 Bl、分別為純文本列表中每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與文本長(zhǎng)度成正比的正的權(quán)值WEIGHT 1;B2、若排除關(guān)鍵字出現(xiàn)在純文本數(shù)據(jù)開頭,給所述純文本數(shù)據(jù)賦一個(gè)負(fù)的 權(quán)值WEIGHT2;B3、得到新聞的標(biāo)題,計(jì)算所得到的新聞標(biāo)題與每項(xiàng)純文本數(shù)據(jù)的距離, 根據(jù)每項(xiàng)純文本數(shù)據(jù)與新聞標(biāo)題的距離,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反 比的正的權(quán)值WEIGHT3;B4、根據(jù)步驟B3得到的新聞標(biāo)題獲得發(fā)布時(shí)間,根據(jù)每項(xiàng)純文本數(shù)據(jù)距 離發(fā)布時(shí)間的距離遠(yuǎn)近,為每項(xiàng)純文本數(shù)據(jù)賦一個(gè)與距離成反比的正的權(quán)值 WEIGHT4。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,步驟B3中所述新聞標(biāo)題的 獲得方法為通過點(diǎn)擊文字超鏈接進(jìn)入新聞頁(yè)面的父頁(yè)面的超鏈接文字得到, 或通過新聞頁(yè)面文字的樣式和新聞標(biāo)題本身的特點(diǎn)得到,或通過HTML源碼中 節(jié)點(diǎn)范圍中的內(nèi)容得到。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述發(fā)布時(shí)間的獲得方法為 B41、掃描整個(gè)HTML源文件的所有時(shí)間格式,保存掃描到的所有時(shí)間格式,并記錄掃描到的所有時(shí)間在該HTML源文件中的位置;B42、根據(jù)獲得的新聞標(biāo)題,在HTML源文件中定位新聞標(biāo)題的位置; B43、計(jì)算所有時(shí)間與新聞標(biāo)題的距離,距離最小者為新聞發(fā)布時(shí)間。
10、 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述步驟C為將純文本 列表中的每項(xiàng)純文本數(shù)據(jù)按照新聞?wù)奶卣鲄?shù)得到的權(quán)值全部或部分相加, 得到每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重。
11、 根據(jù)權(quán)利要求IO所述的方法,其特征在于,得到每項(xiàng)純文本數(shù)據(jù)的最 終權(quán)重后,該方法進(jìn)一步包括比較最終權(quán)重的大小,所有純文本數(shù)據(jù)的最終 權(quán)重均不相等時(shí),或有純文本數(shù)據(jù)的最終權(quán)重相等,但有比該相等權(quán)重更大的 權(quán)重時(shí),取最終權(quán)重最大的純文本數(shù)據(jù)為新聞?wù)?;有純文本?shù)據(jù)的最終權(quán)重相等,且沒有比相等權(quán)重更大的權(quán)重時(shí),比較最終權(quán)重相等的純文本數(shù)據(jù)針對(duì) 距離新聞標(biāo)題的權(quán)值,針對(duì)距離新聞標(biāo)題的權(quán)值最大的純文本數(shù)據(jù)為新聞?wù)摹?br>
12、 一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置,其特征在于,該裝置包括 頁(yè)面數(shù)據(jù)列表抽取模塊、細(xì)化篩選模塊、賦權(quán)值模塊、新聞?wù)某槿∧K,其 中,頁(yè)面數(shù)據(jù)列表抽取模塊,用于根據(jù)網(wǎng)頁(yè)生成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面數(shù) 據(jù)列表發(fā)送給細(xì)化篩選模塊;細(xì)化篩選模塊,用于對(duì)頁(yè)面數(shù)據(jù)列表抽取模塊發(fā)送來的頁(yè)面數(shù)據(jù)列表進(jìn)行 細(xì)化篩選,得到純文本列表,并將經(jīng)過細(xì)化篩選得到的純文本列表發(fā)送給賦權(quán)值模塊;賦權(quán)值模塊,用于將細(xì)化篩選模塊發(fā)送來的經(jīng)過細(xì)化篩選得到的純文本列 表中的每項(xiàng)按照特征參數(shù)賦權(quán)值,并將每項(xiàng)純文本數(shù)據(jù)及其得到的權(quán)值發(fā)送給新聞?wù)某槿∧K;新聞?wù)某槿∧K,用于計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比較權(quán)重大 小得出新聞?wù)摹?br>
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述頁(yè)面數(shù)據(jù)列表抽取模 塊進(jìn)一步包括采集單元、預(yù)處理單元、文檔樹構(gòu)建單元及頁(yè)面數(shù)據(jù)列表抽取 單元,其中,采集單元,用于采集HTML源文件,并將采集到的HTML源文件發(fā)送給 預(yù)處理單元;預(yù)處理單元,用于對(duì)釆集單元發(fā)送過來的HTML源文件進(jìn)行預(yù)處理,并將 經(jīng)過預(yù)處理單元預(yù)處理得到的標(biāo)準(zhǔn)規(guī)范的HTML代碼發(fā)送給文檔樹構(gòu)建單元; 文檔樹構(gòu)建單元,用于將預(yù)處理單元發(fā)送來的標(biāo)準(zhǔn)規(guī)范的HTML代碼構(gòu)建成文檔樹,并將構(gòu)建成的文檔樹發(fā)送給頁(yè)面數(shù)據(jù)列表抽取單元;頁(yè)面數(shù)據(jù)列表抽取單元、用于從文檔樹構(gòu)建單元發(fā)送來的文檔樹中抽取每 個(gè)包含頁(yè)面數(shù)據(jù)的節(jié)點(diǎn)范圍內(nèi)的頁(yè)面數(shù)據(jù),并將得到的頁(yè)面數(shù)據(jù)按照得到的先 后順序組織成頁(yè)面數(shù)據(jù)列表,并將該頁(yè)面數(shù)據(jù)列表發(fā)送給細(xì)化篩選模塊。
全文摘要
本發(fā)明公開了一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取方法,該方法包括根據(jù)網(wǎng)頁(yè)生成得到頁(yè)面數(shù)據(jù)列表,并對(duì)得到的頁(yè)面數(shù)據(jù)列表進(jìn)行細(xì)化篩選,然后將經(jīng)過細(xì)化篩選得到的純文本列表中的每項(xiàng)按照針對(duì)新聞?wù)牡奶卣鲄?shù)賦權(quán)值,計(jì)算每項(xiàng)純文本數(shù)據(jù)的最終權(quán)重,并比較最終權(quán)重大小得出新聞?wù)摹1景l(fā)明同時(shí)還公開了一種中文新聞網(wǎng)頁(yè)正文的自動(dòng)抽取裝置,該裝置包括頁(yè)面數(shù)據(jù)列表抽取模塊、細(xì)化篩選模塊、賦權(quán)值模塊及新聞?wù)某槿∧K,整個(gè)裝置用于完成中文新聞?wù)某槿」δ?。利用本發(fā)明,既能簡(jiǎn)化訓(xùn)練過程的復(fù)雜度,也能同時(shí)提高對(duì)中文新聞網(wǎng)頁(yè)正文抽取的準(zhǔn)確性,且實(shí)現(xiàn)簡(jiǎn)單、方便。
文檔編號(hào)G06F17/30GK101470728SQ20071030414
公開日2009年7月1日 申請(qǐng)日期2007年12月25日 優(yōu)先權(quán)日2007年12月25日
發(fā)明者吳於茜, 斌 和, 凱 康, 楊建武 申請(qǐng)人:北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)技術(shù)有限公司