国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法

      文檔序號:6384187閱讀:394來源:國知局
      專利名稱:一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種對網(wǎng)絡(luò)貼文進(jìn)行自動標(biāo)引的系統(tǒng),同時也涉及該系統(tǒng)實(shí)現(xiàn)網(wǎng)絡(luò)貼文標(biāo)引的方法,屬于網(wǎng)頁信息采集技術(shù)領(lǐng)域。
      背景技術(shù)
      通過計算機(jī)對目標(biāo)文本進(jìn)行自動分析,根據(jù)詞在目標(biāo)文本中出現(xiàn)的特點(diǎn),選擇一部分詞作為標(biāo)引詞,把目標(biāo)文本轉(zhuǎn)化成二次文獻(xiàn)。這種過程稱為自動標(biāo)引(automaticindexing)。目前,現(xiàn)有自動標(biāo)引技術(shù)采用了多種技術(shù)方法實(shí)現(xiàn),總體上可分為統(tǒng)計分析方法、語言分析方法、人工智能方法和混合方法。其中,絕大部分方法是基于抽詞思想實(shí)現(xiàn)的,同時標(biāo)引范圍往往僅限于目標(biāo)文本本身。在申請?zhí)枮?01010168526. 2的中國專利申請中,公開了一種基于知識網(wǎng)絡(luò)的文本標(biāo)弓I系統(tǒng)及其方法。該文本標(biāo)弓I系統(tǒng)包括單文本特征提取單元、多文本詞關(guān)系提取單元、知識樹生成單元、知識樹應(yīng)用單元以及知識庫存儲單元。對于輸入文本標(biāo)引系統(tǒng)的文本,首先進(jìn)行分詞,獲取文本中的文本特征詞;根據(jù)文本特征詞所對應(yīng)的知識樹的節(jié)點(diǎn)位置,推演出該文本對應(yīng)的類別詞;在類別詞的基礎(chǔ)上,通過判別式模型對類別詞的合法性進(jìn)行判定,由此提煉出可靠的類別詞詞集,再通過可靠的類別詞詞集對文本特征詞詞集進(jìn)行重新定位,形成可靠的文本特征詞詞集。該技術(shù)方案可以使內(nèi)容詞提取、類別標(biāo)注和短語的提取一體化,因此提取的效果能夠互相促進(jìn);各個詞的語義通過知識網(wǎng)絡(luò)的節(jié)點(diǎn)得以表現(xiàn),從而減少歧義的發(fā)生。另外,在專利號為ZL 200910061711.9的中國發(fā)明專利中,提供了一種引文自動標(biāo)引方法,包括以下步驟步驟1,對提交文檔進(jìn)行切割得到文本塊,對文本塊提取特征詞句串或信息指紋;然后將特征詞句串或信息指紋提交給檢索引擎;步驟2,對于被提交的特征詞句串或信息指紋,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的搜索結(jié)果時,記錄搜索結(jié)果作為相應(yīng)文本塊的引文出處,并記錄文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;步驟3,結(jié)合提交文檔中已有引用標(biāo)引和搜索結(jié)果去除重復(fù)的引文出處后,按照在提交文檔中的位置前后關(guān)系對所有引文出處排序后進(jìn)行標(biāo)引。該發(fā)明克服了現(xiàn)有手工方法效率十分低下的弱點(diǎn),提高了標(biāo)引速度和準(zhǔn)確性。

      發(fā)明內(nèi)容
      本發(fā)明所要解決的技術(shù)問題在于提供一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法。該技術(shù)方案充分利用網(wǎng)絡(luò)貼文的背景信息,擴(kuò)充標(biāo)引范圍,使得自動標(biāo)引更加準(zhǔn)確。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案—種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng),包括貼文提供模塊、背景信息提取模塊、背景分析引擎、文本標(biāo)引模塊和標(biāo)引融合模塊;其中,所述貼文提供模塊連接背景信息提取模塊,所述背景信息提取模塊一方面連接所述背景分析引擎,另一方面連接所述文本標(biāo)引模塊;
      所述背景分析引擎和所述文本標(biāo)引模塊分別與所述標(biāo)引融合模塊連接;所述背景信息提取模塊用于分離網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容,分別提供給所述背景分析引擎和所述文本標(biāo)引模塊進(jìn)行標(biāo)引,所述背景分析引擎和所述文本標(biāo)引模塊的標(biāo)引結(jié)果送入所述標(biāo)引融合模塊中進(jìn)行融合,作為網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。其中較優(yōu)地,所述背景分析引擎中進(jìn)一步包括URL背景庫。一種網(wǎng)絡(luò)貼文標(biāo)引方法,基于上述的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)實(shí)現(xiàn),包括如下步驟對于待標(biāo)引的網(wǎng)絡(luò)貼文,首先將所述網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容進(jìn)行分離,分別提供給背景分析引擎和文本標(biāo)引模塊進(jìn)行標(biāo)引;將所述背景分析引擎和所述文本標(biāo)引模塊的標(biāo)引結(jié)果進(jìn)行融合,作為所述網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。其中較優(yōu)地,在所述背景分析引擎中,針對貼文內(nèi)容中出現(xiàn)的URL地址,首先在URL背景庫中進(jìn)行查詢;如果在所述URL背景庫中存在該URL地址,導(dǎo)出對應(yīng)的標(biāo)引結(jié)果后返回,如果在所述URL背景庫中不存在該URL地址,打開該URL地址并萃取URL地址對應(yīng)網(wǎng)頁的主題和正文,對主題和正文進(jìn)行文本標(biāo)引,然后將標(biāo)引結(jié)果及相應(yīng)的URL地址存儲至所述URL背景庫。其中較優(yōu)地,所述背景信息包括但不限于網(wǎng)絡(luò)貼文的發(fā)帖人ID、發(fā)帖時間、所處網(wǎng)絡(luò)空間、所處地理空間以及貼文內(nèi)容中的URL地址。本發(fā)明融合文本標(biāo)引模塊的標(biāo)引結(jié)果和背景分析弓I擎的標(biāo)引結(jié)果,對網(wǎng)絡(luò)貼文的標(biāo)引不再僅僅依據(jù)貼文內(nèi)容本身,而是通過對網(wǎng)絡(luò)貼文其他背景信息的標(biāo)引得到其隱含的語義,使得相應(yīng)的標(biāo)弓I結(jié)果更加全面準(zhǔn)確。


      圖1是本發(fā)明所提供的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)的整體結(jié)構(gòu)圖;圖2顯示了網(wǎng)絡(luò)貼文背景信息的具體種類;圖3是背景分析引擎針對貼文內(nèi)容中的URL地址進(jìn)行標(biāo)引的流程示意圖。
      具體實(shí)施例方式本發(fā)明所提供的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)的技術(shù)特點(diǎn)在于通過對網(wǎng)絡(luò)貼文背景信息的進(jìn)一步檢測準(zhǔn)確標(biāo)引網(wǎng)絡(luò)貼文,以解決現(xiàn)有技術(shù)中網(wǎng)絡(luò)貼文中背后隱藏信息不能檢測的問題。為此,如圖1所示,本發(fā)明所提供的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)包括貼文提供模塊、背景信息提取模塊、背景分析引擎、文本標(biāo)引模塊和標(biāo)引融合模塊。其中,貼文提供模塊連接背景信息提取模塊,用于向背景信息提取模塊提供待標(biāo)引的網(wǎng)絡(luò)貼文。背景信息提取模塊用于分離網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容,分別提供給背景分析引擎和文本標(biāo)引模塊。該背景信息提取模塊一方面連接背景分析引擎,另一方面連接文本標(biāo)引模塊。背景分析引擎和文本標(biāo)引模塊分別與標(biāo)引融合模塊連接,其中背景分析引擎中進(jìn)一步包括URL背景庫,用于實(shí)現(xiàn)對背景信息的標(biāo)引,文本標(biāo)引模塊用于實(shí)現(xiàn)對貼文內(nèi)容的標(biāo)引,兩方面的標(biāo)引結(jié)果送入標(biāo)引融合模塊中進(jìn)行融合,作為該網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。在本發(fā)明中,網(wǎng)絡(luò)貼文作為網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)的系統(tǒng)輸入,包含文本形式的貼文內(nèi)容、發(fā)帖人ID、發(fā)帖時間、所處網(wǎng)絡(luò)空間、所處地理空間以及貼文內(nèi)容中的URL (統(tǒng)一資源定位符)地址等信息。如圖2所示,發(fā)帖人ID、發(fā)帖時間、所處網(wǎng)絡(luò)空間、所處地理空間以及貼文內(nèi)容中的URL地址等屬性信息作為網(wǎng)絡(luò)貼文的背景信息,是背景分析引擎進(jìn)一步分析的基礎(chǔ)。而文本形式的貼文內(nèi)容是文本標(biāo)弓I模塊進(jìn)行分析的基礎(chǔ)。背景提取模塊將網(wǎng)絡(luò)貼文中的背景信息提取出來,作為背景分析引擎的輸入。其中,貼文內(nèi)容中的URL地址是背景分析引擎進(jìn)一步讀取分析的關(guān)鍵對象。背景分析引擎通過對上述背景信息進(jìn)行進(jìn)一步讀取分析,對網(wǎng)絡(luò)貼文進(jìn)行背景標(biāo)引。文本標(biāo)引模塊主要對網(wǎng)絡(luò)貼文中的純文本內(nèi)容進(jìn)行文本標(biāo)引。該文本標(biāo)引模塊可以采用計算機(jī)自然語言處理領(lǐng)域的成熟算法,以軟件或者固件方式實(shí)現(xiàn),在此就不詳細(xì)說明了。圖3顯示了背景分析引擎針對貼文內(nèi)容中的URL地址進(jìn)行標(biāo)引的基本流程。背景分析引擎針對貼文內(nèi)容中出現(xiàn)的URL地址(即任務(wù)URL),首先在URL背景庫中進(jìn)行查詢。如果在URL背景庫中存在該URL地址,直接導(dǎo)出對應(yīng)的標(biāo)引結(jié)果后返回。如果在URL背景庫中不存在該URL地址,打開該URL地址并萃取URL地址對應(yīng)網(wǎng)頁的主題和正文,由文本標(biāo)弓I模塊對主題和正文進(jìn)行文本標(biāo)弓I,然后將標(biāo)弓I結(jié)果及相應(yīng)的URL地址存儲至URL背景庫,返回。在上述步驟中,對網(wǎng)頁主題和正文的萃取可以采用信息抽取領(lǐng)域的成熟技術(shù)實(shí)現(xiàn),例如中國發(fā)明專利ZL 200810066432. 7所介紹的互聯(lián)網(wǎng)網(wǎng)頁清洗方法等,在此就不具體說明了。標(biāo)引融合模塊通過融合文本標(biāo)引模塊的標(biāo)引結(jié)果和背景分析引擎的標(biāo)引結(jié)果,作為網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。這樣,對網(wǎng)絡(luò)貼文的標(biāo)引不再僅僅依據(jù)貼文內(nèi)容本身,而是通過對網(wǎng)絡(luò)貼文其他背景信息的標(biāo)引得到其隱含的語義,使得相應(yīng)的標(biāo)引結(jié)果更加全面準(zhǔn)確。以上對本發(fā)明所提供的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法進(jìn)行了詳細(xì)的說明。對本領(lǐng)域的一般技術(shù)人員而言,在不背離本發(fā)明實(shí)質(zhì)精神的前提下對它所做的任何顯而易見的改動,都將構(gòu)成對本發(fā)明專利權(quán)的侵犯,將承擔(dān)相應(yīng)的法律責(zé)任。
      權(quán)利要求
      1.一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng),其特征在于 所述網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)包括貼文提供模塊、背景信息提取模塊、背景分析引擎、文本標(biāo)引模塊和標(biāo)引融合模塊;其中, 所述貼文提供模塊連接背景信息提取模塊,所述背景信息提取模塊一方面連接所述背景分析引擎,另一方面連接所述文本標(biāo)引模塊; 所述背景分析引擎和所述文本標(biāo)引模塊分別與所述標(biāo)引融合模塊連接; 所述背景信息提取模塊用于分離網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容,分別提供給所述背景分析引擎和所述文本標(biāo)引模塊進(jìn)行標(biāo)引,所述背景分析引擎和所述文本標(biāo)引模塊的標(biāo)引結(jié)果送入所述標(biāo)引融合模塊中進(jìn)行融合,作為網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。
      2.如權(quán)利要求1所述的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng),其特征在于 所述背景分析引擎中進(jìn)一步包括URL背景庫。
      3.—種網(wǎng)絡(luò)貼文標(biāo)引方法,基于權(quán)利要求1或2所述的網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)實(shí)現(xiàn),其特征在于 對于待標(biāo)引的網(wǎng)絡(luò)貼文,首先將所述網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容進(jìn)行分離,分別提供給背景分析引擎和文本標(biāo)引模塊進(jìn)行標(biāo)引; 將所述背景分析引擎和所述文本標(biāo)引模塊的標(biāo)引結(jié)果進(jìn)行融合,作為所述網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。
      4.如權(quán)利要求3所述的網(wǎng)絡(luò)貼文標(biāo)引方法,其特征在于 在所述背景分析引擎中,針對貼文內(nèi)容中出現(xiàn)的URL地址,首先在URL背景庫中進(jìn)行查詢; 如果在所述URL背景庫中存在該URL地址,導(dǎo)出對應(yīng)的標(biāo)引結(jié)果后返回,如果在所述URL背景庫中不存在該URL地址,打開該URL地址并萃取URL地址對應(yīng)網(wǎng)頁的主題和正文,對主題和正文進(jìn)行文本標(biāo)引,然后將標(biāo)引結(jié)果及相應(yīng)的URL地址存儲至所述URL背景庫。
      5.如權(quán)利要求3所述的網(wǎng)絡(luò)貼文標(biāo)引方法,其特征在于 所述背景信息包括但不限于網(wǎng)絡(luò)貼文的發(fā)帖人ID、發(fā)帖時間、所處網(wǎng)絡(luò)空間、所處地理空間以及貼文內(nèi)容中的URL地址。
      全文摘要
      本發(fā)明公開了一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法。該系統(tǒng)包括貼文提供模塊、背景信息提取模塊、背景分析引擎、文本標(biāo)引模塊和標(biāo)引融合模塊;其中,背景信息提取模塊用于分離網(wǎng)絡(luò)貼文的背景信息和貼文內(nèi)容,分別提供給背景分析引擎和文本標(biāo)引模塊進(jìn)行標(biāo)引,背景分析引擎和文本標(biāo)引模塊的標(biāo)引結(jié)果送入標(biāo)引融合模塊中進(jìn)行融合,作為網(wǎng)絡(luò)貼文的最終標(biāo)引結(jié)果。本發(fā)明融合文本標(biāo)引模塊的標(biāo)引結(jié)果和背景分析引擎的標(biāo)引結(jié)果,對網(wǎng)絡(luò)貼文的標(biāo)引不再僅僅依據(jù)貼文內(nèi)容本身,而是通過對網(wǎng)絡(luò)貼文其他背景信息的標(biāo)引得到其隱含的語義,使得相應(yīng)的標(biāo)引結(jié)果更加全面準(zhǔn)確。
      文檔編號G06F17/30GK103064892SQ20121054067
      公開日2013年4月24日 申請日期2012年12月13日 優(yōu)先權(quán)日2012年12月13日
      發(fā)明者宋傳寶, 王樹強(qiáng), 張作職 申請人:北京海量融通軟件技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1