專利名稱:一種基于查詢結果的語義相關度計算方法
技術領域:
本發(fā)明涉及一種計算詞之間語義相關度的方法,屬于自然語言處理、計算機信息檢索領域,適用于計算不同詞性的、非英語語言的、和相關性動態(tài)變化的詞之間的語義相關度。
背景技術:
語義相關度在自然語言處理和信息檢索領域有著重要的應用,比如對詞進行消歧,發(fā)現(xiàn)和檢索詞之間語義上相關的內容。語義相關度和語義相似度是兩個不同的概念。語義相似度是一種特殊的語義相關度,它一般是基于“包括”關系的層次結構來度量詞之間的相似性。而語義相關度通過詞之間的各種關系(例如相似關系,相反關系,關聯(lián)關系等)來度量詞之間的整體相關性。相對于語義相似度,語義相關度的應用范圍更廣,并且其度量也更復雜。目前的語義相關度計算方法主要包括以下幾種1)基于路徑的方法,在詞構建的樹形層次結構上,通過測量詞之間路徑的長短來度量詞之間的語義相關度;2)基于信息內容的方法,在詞構建的樹形層次結構上,通過測量詞所包含的信息量來度量詞之間的語義相關度。以上兩種方法都要依賴于樹形結構,主要是英文詞典WordNet,這導致這兩種方法無法處理非英語詞。并且,基于路徑和信息內容的方法無法處理不同詞性之間的語義相關度,進一步限制了它們的使用范圍。3)基于釋義的方法,基于WordNet詞典,通過測量詞釋義之間的相同的單詞個數(shù)來計算語義相關度;4)基于向量的方法,基于WordNet構建表示詞意義的向量,通過向量計算來度量相關度。以上兩種方法都可以計算不同詞性之間的相關度,但不能處理非英語詞之間的語義相關度。上面四種方法的語義相關度準確度不高,且不能反映詞之間相關度動態(tài)變化的特點。為了克服以上方法的缺陷,本發(fā)明提出一種基于查詢結果的語義相關度計算方法,使用檢索結果的統(tǒng)計信息和內容信息來計算詞之間的語義相關度,其準確度較高?;诓樵兘Y果的語義相關度方法,沒有語言和詞性的限制,并且其結果還能反映詞之間相關度動態(tài)變化的特點。由于目前最常用的檢索系統(tǒng)為搜索引擎,本發(fā)明約定本文中的檢索系統(tǒng)為搜索引擎,檢索結果為文本網(wǎng)頁。
發(fā)明內容
要解決的技術問題為了克服已有方法的缺陷、提高計算詞之間語義相關度的準確度,本發(fā)明提出一種基于查詢結果的語義相關度計算方法,首先使用檢索系統(tǒng)對詞進行檢索,然后使用檢索結果的統(tǒng)計信息和內容信息來計算詞之間的語義相關度,其準確度較高,并且能對非英語和不同詞性的詞進行準確的相關度計算。技術方案
本發(fā)明的基本思想是詞之間的語義相關度可以通過對應檢索結果的統(tǒng)計信息和內容信息來反映。本發(fā)明首先使用檢索系統(tǒng)分別對兩個檢索詞、兩個檢索詞的“AND”組合詞進行檢索,獲得各自的網(wǎng)頁數(shù),和兩個檢索詞各自對應的前若干個網(wǎng)頁內容;然后采用網(wǎng)頁數(shù)計算語義相關度的統(tǒng)計值,采用網(wǎng)頁內容構建詞的上下文向量計算語義相關度的內容值;最后綜合統(tǒng)計值和內容值得到最終的語義相關度。本發(fā)明的具體步驟為步驟一利用檢索系統(tǒng)獲取兩個詞、和t2的統(tǒng)計信息和內容信息,所述的統(tǒng)計信息就是采用檢索系統(tǒng)的編程接口分別檢索詞tp、和、AND t2,返回的對應的網(wǎng)頁數(shù)目 HitsU Hits2和Hitsl2 ;所述的內容信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、t2, 返回的對應的前η個網(wǎng)頁的集合Contentl和Content〗,所述的AND表示邏輯與,所述的η 的取值范圍為5 10 ;步驟二 利用步驟一得到的統(tǒng)計信息和內容信息分別計算詞、和、的統(tǒng)計相關度和內容相關度;
權利要求
1. 一種基于查詢結果的語義相關度計算方法,其特征在于步驟如下 步驟一利用檢索系統(tǒng)獲取兩個詞ti和t2的統(tǒng)計信息和內容信息,所述的統(tǒng)計信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、、和、AND t2,返回的對應的網(wǎng)頁數(shù)目Hitsl、 Hits2和Hitsl2 ;所述的內容信息就是采用檢索系統(tǒng)的編程接口分別檢索詞、、t2,返回的對應的前η個網(wǎng)頁的集合Contentl和Content〗,所述的AND表示邏輯與,所述的η的取值范圍為5 10 ;步驟二 利用步驟一得到的統(tǒng)計信息和內容信息分別計算詞、和t2的統(tǒng)計相關度和內容相關度;,HitsU所述的統(tǒng)計相關度的計算公式為-Jels = min{^1 HUs2} ’其中,rels表示統(tǒng)計相關度,min {Hitsl,Hits2}表示取Hitsl、Hits2兩者中的最小值;所述的內容相關度的具體計算過程為步驟a 分別構建詞、和t2的上下文向量,對于詞、首先,去除網(wǎng)頁集合Contentl 中所有網(wǎng)頁中的除名詞、動詞、形容詞和副詞以外的所有詞,得到詞、的詞序列集合wl ;然后,統(tǒng)計詞序列集合《1中每一個詞在網(wǎng)頁集合Contentl所包含的所有網(wǎng)頁中出現(xiàn)的次數(shù)總和,得到詞序列集合wl對應的頻率值集合Pl ;最后,以詞序列集合wl中的詞為不同的維度、以頻率值集合Pl中對應的頻率值為相應維度上的值構造得到詞、的上下文向量$ ;對于詞t2 首先,去除網(wǎng)頁集合Content2中所有網(wǎng)頁中的除名詞、動詞、形容詞和副詞以外的所有詞,得到詞t2的詞序列集合w2 ;然后,統(tǒng)計詞序列集合w2中每一個詞在網(wǎng)頁集合Content2所包含的所有網(wǎng)頁中出現(xiàn)的次數(shù)總和,得到詞序列集合w2對應的頻率值集合 p2 ;最后,以詞序列集合w2中的詞為不同的維度、以頻率值集合p2中對應的頻率值為相應維度上的值構造得到詞、的上下文向量G ;所述的詞序列集合僅由名詞、動詞、形容詞和副詞構成;所述的頻率值集合中的頻率值即為詞序列集合中每個詞出現(xiàn)的次數(shù)總和,與詞序列集合中的詞相對應;所述的上下文向量的維數(shù)等于詞序列集合中詞的個數(shù);步驟b 對齊詞、和t2的上下文向量G和;,具體為首先,合并上下文向量€和; 的所有維度,得到新的維度序列;然后,對照新的維度序列分別重新排列上下文向量■^和^T2 中的值,對于新的維度序列中存在而上下文向量G或€中不存在的維度,令上下文向量 V1或G中對應該維度的值為零,得到對齊后的詞、和t2的上下文向量》和。;步驟C:利用夾角余弦公式 計算得到、和t2的內容相關度;其中,rel。表示內容相關度;步驟三按rel = α Xrels+(1-α ) Xrel。計算得到詞、和t2的最終的語義相關度所述的α的取值范圍為0. 3 0. 7。
全文摘要
本發(fā)明提出了一種基于查詢結果的語義相關度計算方法,首先使用檢索系統(tǒng)對詞進行檢索,得到相應的統(tǒng)計信息和內容信息,然后利用檢索得到的統(tǒng)計信息和內容信息分別來計算詞之間的統(tǒng)計相關度和內容相關度,最后,將統(tǒng)計相關度和內容相關度相綜合得到詞之間最終的語義相關度。利用本發(fā)明方法計算詞之間的相關度具有較高的準確度,沒有語言和詞性的限制,并且其結果還能反映詞之間相關度動態(tài)變化的特點,能對非英語和不同詞性的詞進行準確的相關度計算。
文檔編號G06F17/30GK102184233SQ20111012327
公開日2011年9月14日 申請日期2011年5月12日 優(yōu)先權日2011年5月12日
發(fā)明者常威威, 方俊, 郭雷 申請人:西北工業(yè)大學