專利名稱:一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法
技術(shù)領(lǐng)域:
本發(fā)明設(shè)計短文本的相似度計算,具體地指一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法,屬于文本挖掘領(lǐng)域。
背景技術(shù):
短文本(Short Text)指那些長度較短的文本形式,它具有廣泛的外延,越來越多的交流平臺更加頻繁地使用短文本,如手機短信息、即時消息、BBS標題、微博、在線聊天記錄、博客及新聞評論等。目前,短文本數(shù)據(jù)量日益龐大,對短文本的文本挖掘在話題跟蹤與發(fā)現(xiàn)、流行語分析、輿情預警、圖像檢索等領(lǐng)域有廣泛的應(yīng)用前景。但是,由于短文本的文本長度短,導致其樣本特征非常稀疏,不利于檢索分析。另外短文本表達簡潔或者使用不符合規(guī)范的要求,往往會超出傳統(tǒng)或者正常的文字表達意思,如現(xiàn)下網(wǎng)絡(luò)流行的“微博”,網(wǎng)絡(luò)用語中常常使用其諧音“圍脖”進行代指。短文本的這些獨特語言特征大大降低了短文本相似度計算的精度,所以如何有效地提高計算精度是短文本挖掘的一個難點。為解決該難點,我們提出一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法,利用大規(guī)模語料庫覆蓋面廣的特點,從語義上理解短文本的含義。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法,能克服短文本自身樣本特征不足和用語不規(guī)范的缺點,通過語義分析提高相似度計算的精度。為實現(xiàn)上述目的,本發(fā)明包括如下步驟(1)對短文本進行預處理;(2)將預處理后的單個短文本以及預處理后的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結(jié)果數(shù)量計算短文本兩兩之間的相似度。在上述技術(shù)方案中,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、 副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結(jié)尾,提取出單詞的詞干,并計算所述詞干的詞頻。在上述技術(shù)方案中,所述步驟O)中的語料庫為Web搜索引擎或維基百科。在上述技術(shù)方案中,所述步驟C3)利用下述的公式計算短文本Sl和S2之間的相似度。
權(quán)利要求
1.一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法,其特征在于,包括如下步驟(1)對短文本進行預處理;(2)將預處理后的單個短文本以及預處理后的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫;(3)利用語料庫返回的檢索結(jié)果數(shù)量計算短文本兩兩之間的相似度。
2.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法,其特征在于,所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾,所述通用的停用詞為語氣助詞、副詞、介詞和連接詞;(1-2)過濾組成短文本的各個單詞分詞變換形式的結(jié)尾,提取出單詞的詞干,并計算所述詞干的詞頻。
3.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法,其特征在于步驟O)中所用搜索引擎為Web搜索引擎或維基百科。
4.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法,其特征在于,步驟(3)中相似度通過下式計算Similarity (si, s2) =-log/(^1^2)-log/(.1) +log/(.2)-log/(.1,.2)式中,f(sl)為將短文本si作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量;f(s2)是將短文本s2作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量;f (sl,s2)則將si和s2的組合作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量。
5.根據(jù)權(quán)利要求1 4任一項所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法,其特征在于所述短文本的長度小于或者等于200字符。
全文摘要
本發(fā)明公開了一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法,包括如下步驟(1)對短文本進行預處理;(2)將單個短文本和短文本的兩兩組合作為檢索查詢詞分別提交給大規(guī)模語料庫;(3)利用返回的檢索結(jié)果數(shù)量來計算短文本兩兩之間的相似度。本計算方法不依賴傳統(tǒng)的文本處理,而且能夠快速和有效地得到計算結(jié)果。將短文本作為檢索詞,大規(guī)模語料庫將返回包含該短文本的檢索結(jié)果。檢索結(jié)果內(nèi)容包含該短文本的文本解釋,而其數(shù)量可以看作是一個壓縮器,蘊含著該短文本在該語料庫的語義解釋。
文檔編號G06F17/30GK102567537SQ20111045837
公開日2012年7月11日 申請日期2011年12月31日 優(yōu)先權(quán)日2011年12月31日
發(fā)明者劉東飛, 夏紅霞, 李琳, 袁景凌, 鐘珞 申請人:武漢理工大學