国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于萬(wàn)有引力的文本相似度計(jì)算方法

      文檔序號(hào):6590451閱讀:441來(lái)源:國(guó)知局
      專(zhuān)利名稱:一種基于萬(wàn)有引力的文本相似度計(jì)算方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種文本的相似度計(jì)算方法,具體是涉及以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn),是一種基于萬(wàn)有引力的文本相似度計(jì)算方法。
      背景技術(shù)
      目前應(yīng)用最廣的文本相似度計(jì)算方法是基于向量空間模型的余弦計(jì)算方法。向量空間模型將文本表示成一個(gè)權(quán)值向量,向量中的每一項(xiàng)均由詞項(xiàng)組成,而每個(gè)詞項(xiàng)的權(quán)重由TFIDF方法確定。余弦計(jì)算公式則計(jì)算文本權(quán)值向量的夾角的余弦值,并以此作為文本相似度。但是使用基于向量空間模型的余弦計(jì)算方法計(jì)算文本的相似度時(shí),存在以下不足:
      (I)向量空間模型把文本看成詞項(xiàng)的集合,把詞項(xiàng)與詞項(xiàng)之間的關(guān)系看成是獨(dú)立的,這樣就損失了大量的文本結(jié)構(gòu)信息。(2)余弦計(jì)算公式?jīng)]有考慮文本中關(guān)鍵詞之間的語(yǔ)義相關(guān)性,也沒(méi)有考慮關(guān)鍵詞之間的結(jié)構(gòu)相關(guān)性。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于針對(duì)基于向量空間模型的余弦計(jì)算方法的不足,提供一種基于萬(wàn)有引力的文本相似度計(jì)算方法,該計(jì)算方法以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn)。為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下:以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);所述的緊密度是關(guān)鍵詞之間相關(guān)性,與關(guān)鍵詞和關(guān)鍵詞對(duì)的權(quán)重相關(guān)。根據(jù)上述的發(fā)明思想,本發(fā)明采用下述技術(shù)方案:
      一種基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于,其具體步驟如下:
      (1)輸入領(lǐng)域文集中的任意兩篇文本;
      (2)文本表示與最大公共子圖的生成;
      (3)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度;
      (4)計(jì)算文本的相似度;
      (5)輸出文本的相似度。所述的文本的最大公共子圖的緊密度,其緊密度計(jì)算式如下:
      權(quán)利要求
      1.一種基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);所述的緊密度是關(guān)鍵詞之間相關(guān)性,與關(guān)鍵詞和關(guān)鍵詞對(duì)的權(quán)重相關(guān);其具體步驟如下: (1)輸入領(lǐng)域文集中的任意兩篇文本; (2)文本表示與最大公共子圖的生成; (3)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度; (4)計(jì)算文本的相似度; (5)輸出文本的相似度。
      2.按權(quán)利要求1所述的基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:所述步驟(3)中的文本的最大公共子圖的緊密度,其緊密度計(jì)算式如下:
      3.按權(quán)利要求1所述的基于萬(wàn)有引力的文本相似度計(jì)算方法,其特征在于:所述步驟(4)中的文本的相似度,其相似度計(jì)算式如下:
      全文摘要
      本發(fā)明公開(kāi)了一種基于萬(wàn)有引力的文本相似度計(jì)算方法。該方法具體步驟如下(1)輸入領(lǐng)域文集中的任意兩篇文本;(2)文本表示與最大公共子圖的生成;(4)基于萬(wàn)有引力計(jì)算文本的最大公共子圖的緊密度;(5)計(jì)算文本的相似度;(6)輸出文本的相似度。該方法以文本的最大公共子圖為相似度的參照物,從物理學(xué)的萬(wàn)有引力定律中延伸出緊密度的概念對(duì)參照物進(jìn)行量化,以文本轉(zhuǎn)化為文本的最大公共子圖的相似程度為相似度的衡量標(biāo)準(zhǔn);該方法簡(jiǎn)便易操作,效果好。
      文檔編號(hào)G06F17/27GK103164394SQ201310093108
      公開(kāi)日2013年6月19日 申請(qǐng)日期2013年3月22日 優(yōu)先權(quán)日2012年7月16日
      發(fā)明者陳雪, 吳超 申請(qǐng)人:上海大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1