一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法

文檔序號：6355126閱讀：247來源：國知局

專利名稱：一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法
技術(shù)領(lǐng)域：
本發(fā)明設(shè)計短文本的相似度計算，具體地指一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法，屬于文本挖掘領(lǐng)域。
背景技術(shù)：
短文本(Short Text)指那些長度較短的文本形式，它具有廣泛的外延，越來越多的交流平臺更加頻繁地使用短文本，如手機短信息、即時消息、BBS標題、微博、在線聊天記錄、博客及新聞評論等。目前，短文本數(shù)據(jù)量日益龐大，對短文本的文本挖掘在話題跟蹤與發(fā)現(xiàn)、流行語分析、輿情預警、圖像檢索等領(lǐng)域有廣泛的應(yīng)用前景。但是，由于短文本的文本長度短，導致其樣本特征非常稀疏，不利于檢索分析。另外短文本表達簡潔或者使用不符合規(guī)范的要求，往往會超出傳統(tǒng)或者正常的文字表達意思，如現(xiàn)下網(wǎng)絡(luò)流行的“微博”，網(wǎng)絡(luò)用語中常常使用其諧音“圍脖”進行代指。短文本的這些獨特語言特征大大降低了短文本相似度計算的精度，所以如何有效地提高計算精度是短文本挖掘的一個難點。為解決該難點，我們提出一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法，利用大規(guī)模語料庫覆蓋面廣的特點，從語義上理解短文本的含義。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法，能克服短文本自身樣本特征不足和用語不規(guī)范的缺點，通過語義分析提高相似度計算的精度。為實現(xiàn)上述目的，本發(fā)明包括如下步驟(1)對短文本進行預處理；(2)將預處理后的單個短文本以及預處理后的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫；(3)利用語料庫返回的檢索結(jié)果數(shù)量計算短文本兩兩之間的相似度。在上述技術(shù)方案中，所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾，所述通用的停用詞為語氣助詞、副詞、介詞和連接詞；(1-2)過濾組成短文本的各個單詞分詞變換形式的結(jié)尾，提取出單詞的詞干，并計算所述詞干的詞頻。在上述技術(shù)方案中，所述步驟O)中的語料庫為Web搜索引擎或維基百科。在上述技術(shù)方案中，所述步驟C3)利用下述的公式計算短文本Sl和S2之間的相似度。
權(quán)利要求
1.一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法，其特征在于，包括如下步驟(1)對短文本進行預處理；(2)將預處理后的單個短文本以及預處理后的短文本的兩兩組合作為檢索查詢詞分別提交給語料庫；(3)利用語料庫返回的檢索結(jié)果數(shù)量計算短文本兩兩之間的相似度。
2.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法，其特征在于，所述步驟(1)具體為(1-1)利用通用的停用詞列表對短文本進行過濾，所述通用的停用詞為語氣助詞、副詞、介詞和連接詞；(1-2)過濾組成短文本的各個單詞分詞變換形式的結(jié)尾，提取出單詞的詞干，并計算所述詞干的詞頻。
3.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法，其特征在于步驟O)中所用搜索引擎為Web搜索引擎或維基百科。
4.根據(jù)權(quán)利要求1所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法，其特征在于，步驟(3)中相似度通過下式計算Similarity (si, s2) =-log/(^1^2)-log/(.1) +log/(.2)-log/(.1,.2)式中，f(sl)為將短文本si作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量；f(s2)是將短文本s2作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量；f (sl，s2)則將si和s2的組合作為語料庫的檢索查詢詞得到的檢索結(jié)果的數(shù)量。
5.根據(jù)權(quán)利要求1 4任一項所述基于檢索結(jié)果數(shù)量的短文本相似度計算方法，其特征在于所述短文本的長度小于或者等于200字符。
全文摘要
本發(fā)明公開了一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法，包括如下步驟(1)對短文本進行預處理；(2)將單個短文本和短文本的兩兩組合作為檢索查詢詞分別提交給大規(guī)模語料庫；(3)利用返回的檢索結(jié)果數(shù)量來計算短文本兩兩之間的相似度。本計算方法不依賴傳統(tǒng)的文本處理，而且能夠快速和有效地得到計算結(jié)果。將短文本作為檢索詞，大規(guī)模語料庫將返回包含該短文本的檢索結(jié)果。檢索結(jié)果內(nèi)容包含該短文本的文本解釋，而其數(shù)量可以看作是一個壓縮器，蘊含著該短文本在該語料庫的語義解釋。
文檔編號G06F17/30GK102567537SQ20111045837
公開日2012年7月11日申請日期2011年12月31日優(yōu)先權(quán)日2011年12月31日
發(fā)明者劉東飛, 夏紅霞, 李琳, 袁景凌, 鐘珞申請人:武漢理工大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李琳;鐘珞;袁景凌;夏紅霞;劉東飛
技術(shù)所有人：武漢理工大學
我是此專利的發(fā)明人

上一篇：固態(tài)硬盤sata接口的數(shù)據(jù)傳輸方法
上一篇：一種隔離卡內(nèi)存清空檢測測試工具的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

短文本相似度相關(guān)技術(shù)

短文本相似度計算相關(guān)技術(shù)

短文本相似度算法相關(guān)技術(shù)

短文本語義相似度相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

文本相似度算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于檢索結(jié)果數(shù)量的短文本相似度計算方法