一種基于查詢結果的語義相關度計算方法

文檔序號：6553938閱讀：277來源：國知局

專利名稱：一種基于查詢結果的語義相關度計算方法
技術領域：
本發(fā)明涉及一種計算詞之間語義相關度的方法，屬于自然語言處理、計算機信息檢索領域，適用于計算不同詞性的、非英語語言的、和相關性動態(tài)變化的詞之間的語義相關度。
背景技術：
語義相關度在自然語言處理和信息檢索領域有著重要的應用，比如對詞進行消歧，發(fā)現(xiàn)和檢索詞之間語義上相關的內容。語義相關度和語義相似度是兩個不同的概念。語義相似度是一種特殊的語義相關度，它一般是基于“包括”關系的層次結構來度量詞之間的相似性。而語義相關度通過詞之間的各種關系(例如相似關系，相反關系，關聯(lián)關系等)來度量詞之間的整體相關性。相對于語義相似度，語義相關度的應用范圍更廣，并且其度量也更復雜。目前的語義相關度計算方法主要包括以下幾種1)基于路徑的方法，在詞構建的樹形層次結構上，通過測量詞之間路徑的長短來度量詞之間的語義相關度；2)基于信息內容的方法，在詞構建的樹形層次結構上，通過測量詞所包含的信息量來度量詞之間的語義相關度。以上兩種方法都要依賴于樹形結構，主要是英文詞典WordNet，這導致這兩種方法無法處理非英語詞。并且，基于路徑和信息內容的方法無法處理不同詞性之間的語義相關度，進一步限制了它們的使用范圍。3)基于釋義的方法，基于WordNet詞典，通過測量詞釋義之間的相同的單詞個數(shù)來計算語義相關度；4)基于向量的方法，基于WordNet構建表示詞意義的向量，通過向量計算來度量相關度。以上兩種方法都可以計算不同詞性之間的相關度，但不能處理非英語詞之間的語義相關度。上面四種方法的語義相關度準確度不高，且不能反映詞之間相關度動態(tài)變化的特點。為了克服以上方法的缺陷，本發(fā)明提出一種基于查詢結果的語義相關度計算方法，使用檢索結果的統(tǒng)計信息和內容信息來計算詞之間的語義相關度，其準確度較高?；诓樵兘Y果的語義相關度方法，沒有語言和詞性的限制，并且其結果還能反映詞之間相關度動態(tài)變化的特點。由于目前最常用的檢索系統(tǒng)為搜索引擎，本發(fā)明約定本文中的檢索系統(tǒng)為搜索引擎，檢索結果為文本網(wǎng)頁。

發(fā)明內容
要解決的技術問題為了克服已有方法的缺陷、提高計算詞之間語義相關度的準確度，本發(fā)明提出一種基于查詢結果的語義相關度計算方法，首先使用檢索系統(tǒng)對詞進行檢索，然后使用檢索結果的統(tǒng)計信息和內容信息來計算詞之間的語義相關度，其準確度較高，并且能對非英語和不同詞性的詞進行準確的相關度計算。技術方案
本發(fā)明的基本思想是詞之間的語義相關度可以通過對應檢索結果的統(tǒng)計信息和內容信息來反映。本發(fā)明首先使用檢索系統(tǒng)分別對兩個檢索詞、兩個檢索詞的“AND”組合詞進行檢索，獲得各自的網(wǎng)頁數(shù)，和兩個檢索詞各自對應的前若干個網(wǎng)頁內容；然后采用網(wǎng)頁數(shù)計算語義相關度的統(tǒng)計值，采用網(wǎng)頁內容構建詞的上下文向量計算語義相關度的內容值；最后綜合統(tǒng)計值和內容值得到最終的語義相關度。本發(fā)明的具體步驟為步驟一利用檢索系統(tǒng)獲取兩個詞、和t2的統(tǒng)計信息和內容信息，所述的統(tǒng)計信息就是采用檢索系統(tǒng)的編程接口分別檢索詞tp、和、AND t2，返回的對應的網(wǎng)頁數(shù)目 HitsU Hits2和Hitsl2 ；所述的內容信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、t2，返回的對應的前η個網(wǎng)頁的集合Contentl和Content〗，所述的AND表示邏輯與，所述的η 的取值范圍為5 10 ；步驟二利用步驟一得到的統(tǒng)計信息和內容信息分別計算詞、和、的統(tǒng)計相關度和內容相關度；
權利要求
1. 一種基于查詢結果的語義相關度計算方法，其特征在于步驟如下步驟一利用檢索系統(tǒng)獲取兩個詞ti和t2的統(tǒng)計信息和內容信息，所述的統(tǒng)計信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、、和、AND t2，返回的對應的網(wǎng)頁數(shù)目Hitsl、 Hits2和Hitsl2 ；所述的內容信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、t2，返回的對應的前η個網(wǎng)頁的集合Contentl和Content〗，所述的AND表示邏輯與，所述的η的取值范圍為5 10 ；步驟二利用步驟一得到的統(tǒng)計信息和內容信息分別計算詞、和t2的統(tǒng)計相關度和內容相關度；,HitsU所述的統(tǒng)計相關度的計算公式為-Jels = min{^1 HUs2} ’其中，rels表示統(tǒng)計相關度，min {Hitsl，Hits2}表示取Hitsl、Hits2兩者中的最小值；所述的內容相關度的具體計算過程為步驟a 分別構建詞、和t2的上下文向量，對于詞、首先，去除網(wǎng)頁集合Contentl 中所有網(wǎng)頁中的除名詞、動詞、形容詞和副詞以外的所有詞，得到詞、的詞序列集合wl ；然后，統(tǒng)計詞序列集合《1中每一個詞在網(wǎng)頁集合Contentl所包含的所有網(wǎng)頁中出現(xiàn)的次數(shù)總和，得到詞序列集合wl對應的頻率值集合Pl ；最后，以詞序列集合wl中的詞為不同的維度、以頻率值集合Pl中對應的頻率值為相應維度上的值構造得到詞、的上下文向量$ ；對于詞t2 首先，去除網(wǎng)頁集合Content2中所有網(wǎng)頁中的除名詞、動詞、形容詞和副詞以外的所有詞，得到詞t2的詞序列集合w2 ；然后，統(tǒng)計詞序列集合w2中每一個詞在網(wǎng)頁集合Content2所包含的所有網(wǎng)頁中出現(xiàn)的次數(shù)總和，得到詞序列集合w2對應的頻率值集合 p2 ；最后，以詞序列集合w2中的詞為不同的維度、以頻率值集合p2中對應的頻率值為相應維度上的值構造得到詞、的上下文向量G ；所述的詞序列集合僅由名詞、動詞、形容詞和副詞構成；所述的頻率值集合中的頻率值即為詞序列集合中每個詞出現(xiàn)的次數(shù)總和，與詞序列集合中的詞相對應；所述的上下文向量的維數(shù)等于詞序列集合中詞的個數(shù)；步驟b 對齊詞、和t2的上下文向量G和；，具體為首先，合并上下文向量€和；的所有維度，得到新的維度序列；然后，對照新的維度序列分別重新排列上下文向量■^和^T2 中的值，對于新的維度序列中存在而上下文向量G或€中不存在的維度，令上下文向量 V1或G中對應該維度的值為零，得到對齊后的詞、和t2的上下文向量》和。；步驟C:利用夾角余弦公式計算得到、和t2的內容相關度；其中，rel。表示內容相關度；步驟三按rel = α Xrels+(1-α ) Xrel。計算得到詞、和t2的最終的語義相關度所述的α的取值范圍為0. 3 0. 7。
全文摘要
本發(fā)明提出了一種基于查詢結果的語義相關度計算方法，首先使用檢索系統(tǒng)對詞進行檢索，得到相應的統(tǒng)計信息和內容信息，然后利用檢索得到的統(tǒng)計信息和內容信息分別來計算詞之間的統(tǒng)計相關度和內容相關度，最后，將統(tǒng)計相關度和內容相關度相綜合得到詞之間最終的語義相關度。利用本發(fā)明方法計算詞之間的相關度具有較高的準確度，沒有語言和詞性的限制，并且其結果還能反映詞之間相關度動態(tài)變化的特點，能對非英語和不同詞性的詞進行準確的相關度計算。
文檔編號G06F17/30GK102184233SQ20111012327
公開日2011年9月14日申請日期2011年5月12日優(yōu)先權日2011年5月12日
發(fā)明者常威威, 方俊, 郭雷申請人:西北工業(yè)大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：方俊;郭雷;常威威
技術所有人：西北工業(yè)大學
我是此專利的發(fā)明人

上一篇：一種鼠蟲監(jiān)控裝置及采用其進行圖像跟蹤識別的方法
上一篇：基于馬爾科夫鏈的網(wǎng)格服務質量調度方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于查詢結果的語義相關度計算方法