一種文本相似度評估方法及裝置的制造方法

文檔序號：9727300閱讀：402來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本相似度評估方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動通信技術(shù)領(lǐng)域，特別是涉及一種文本相似度評估方法及裝置。
【背景技術(shù)】
[0002] 隨著通信及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，互聯(lián)網(wǎng)成為用戶發(fā)布信息及獲取信息的重要平臺。在海量的互聯(lián)網(wǎng)文本信息中，有些文本信息在主題或內(nèi)容上彼此具有很高的相似性或相關(guān)性，導(dǎo)致信息的冗余性很高。因此需要通過相似度評估的方法對這些文本信息進(jìn)行相似程度評估，進(jìn)而對其進(jìn)行去重、歸類，以便更準(zhǔn)確、高效的管理這些信息資源。
[0003] 現(xiàn)有的文本相似度的評估方法一般是基于逐詞比較的方法，即將待比較的兩個文本信息分別切分成詞（或稱為字符串），再對這兩個文本包含的詞逐個進(jìn)行比較，以共同包含的詞在總詞中所占的比例作為衡量這兩個文本的相似程度的標(biāo)準(zhǔn)。
[0004] 然而，這種方法一方面在對文本分詞時準(zhǔn)確性較差，另一方面采用逐詞比較方法的計算效率也較低。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例提供了一種文本相似度評估方法及裝置，以解決現(xiàn)有的文本相似度評估方法的準(zhǔn)確性差和計算效率較低的問題。
[0006] 為了解決上述技術(shù)問題，本發(fā)明實施例公開了如下技術(shù)方案：
[0007] -方面，提供了一種文本相似度評估方法，所述方法包括：
[0008] 將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后，從所述分詞集合中再篩選有效分詞集合；
[0009] 統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn)的次數(shù)，根據(jù)所述次數(shù)計算所述目標(biāo)文本的向量余弦值，根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似度。
[0010] 可選的，所述將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后，從所述分詞集合中再篩選有效分詞集合包括：
[0011] 分別獲得待評估的兩個目標(biāo)文本包含的語句單元，對所述語句單元進(jìn)行分詞處理，獲得所述語句單元對應(yīng)的至少一個分詞集合；
[0012] 確定所述語句單元對應(yīng)的分詞集合包含的詞的類型，其中所述詞的類型包括單一詞和非單一詞，分別統(tǒng)計各類型的詞在所述語句單元對應(yīng)的分詞集合中的數(shù)量；
[0013] 根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集合。
[0014] 可選的，所述根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集合包括：
[0015] 如果所述語句單元對應(yīng)一個分詞集合，則所述一個分詞集合即為所述語句單元對應(yīng)的有效分詞集合；
[0016] 如果所述語句單元對應(yīng)至少兩個分詞集合，則分別統(tǒng)計所述至少兩個分詞集合對應(yīng)的總詞數(shù)量，所述總詞數(shù)量為單一詞和非單一詞的數(shù)量之和；
[0017] 當(dāng)所述至少兩個分詞集合對應(yīng)的總詞數(shù)量不相等時，從所述至少兩個分詞集合中選擇總詞數(shù)量最少的分詞集合作為所述語句單元對應(yīng)的有效分詞集合；當(dāng)所述總詞數(shù)量相等時，從所述至少兩個分詞集合中選擇單一詞的數(shù)量最少的分詞集合為所述語句單元對應(yīng) 的有效分詞集合。
[0018] 可選的，所述對所述語句單元進(jìn)行分詞處理包括：根據(jù)正向最大匹配算法或條件隨機(jī)場CRF算法對所述語句單元進(jìn)行分詞處理。
[0019] 可選的，所述根據(jù)所述次數(shù)計算所述兩個目標(biāo)文本的向量余弦值采用如下公式：
[0021] 其中，Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值，counLAi為所述有效分詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù)，counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0022] 可選的，根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似度包括：
[0023] 從預(yù)設(shè)的閾值中確定小于等于所述向量余弦值的最小閾值，將所述最小閾值對應(yīng) 的相似度等級作為所述目標(biāo)文本的相似度等級。
[0024] 另一方面，提供了一種文本相似度評估裝置，所述裝置包括：
[0025] 篩選單元，用于將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后，從所述分詞集合中再篩選有效分詞集合；
[0026] 確定單元，用于統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn) 的次數(shù)，根據(jù)所述次數(shù)計算所述目標(biāo)文本的向量余弦值，根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似度。
[0027] 可選的，所述篩選單元包括：
[0028] 分詞子單元，用于分別獲得待評估的兩個目標(biāo)文本包含的語句單元，并對所述語句單元進(jìn)行分詞處理，獲得所述語句單元對應(yīng)的至少一個分詞集合；
[0029] 統(tǒng)計子單元，用于確定所述語句單元對應(yīng)的分詞集合包含的詞的類型，所述詞的類型包括單一詞和非單一詞，并分別統(tǒng)計各類型的詞在所述語句單元對應(yīng)的分詞集合中的數(shù)量；
[0030] 確定子單元，用于根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集合；
[0031] 可選的，所述確定子單元包括：
[0032] 判斷子單元，用于判斷所述語句單元是否對應(yīng)至少兩個集合；
[0033] 第一確定子單元，用于如果所述語句單元對應(yīng)一個分詞集合，則確定所述一個分詞集合即為所述語句單元對應(yīng)的有效分詞集合；
[0034] 統(tǒng)計子單元，用于如果所述語句單元對應(yīng)至少兩個分詞集合，則分別統(tǒng)計所述至少兩個分詞集合對應(yīng)的總詞數(shù)量，所述總詞數(shù)量為單一詞和非單一詞的數(shù)量之和；
[0035] 第二確定子單元，用于當(dāng)所述至少兩個分詞集合對應(yīng)的總詞數(shù)量不相等時，從所述至少兩個分詞集合中選擇總詞數(shù)量最少的分詞集合作為所述語句單元對應(yīng)的有效分詞集合；當(dāng)所述總詞數(shù)量相等時，從所述至少兩個分詞集合中選擇單一詞的數(shù)量最少的分詞集合為所述語句單元對應(yīng)的有效分詞集合。
[0036] 可選的，所述分詞子單元具體用于根據(jù)正向最大匹配算法或條件隨機(jī)場CRF算法對所述語句單元進(jìn)行分詞處理。
[0037] 可選的，所述確定單元具體用于根據(jù)如下公式計算所述兩個目標(biāo)文本的向量余弦值：
[0039] 其中，Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值，counLAi為所述有效分詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù)，counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0040] 可選的，所述確定單元具體用于從預(yù)設(shè)的閾值中確定小于等于所述向量余弦值的最小閾值，將所述最小閾值對應(yīng)的相似度等級作為所述目標(biāo)文本的相似度等級。
[0041] 上述技術(shù)方案提供的文本相似度評估方法及裝置的實施例，首先將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后，從所述分詞集合中再篩選有效分詞集合；再統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn)的次數(shù)，并根據(jù)所述次數(shù)計算所述目標(biāo)文本的向量余弦值，以及根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似度。
[0042] 所述實施例在對語句單元進(jìn)行分詞的基礎(chǔ)上進(jìn)一步對所述語句單元對應(yīng)的多個分詞結(jié)果進(jìn)行最優(yōu)化篩選，從而篩選出該語句單元對應(yīng)的一個有效分詞集合，進(jìn)而提高了分詞結(jié)果的準(zhǔn)確性；此外通過計算目標(biāo)文本的向量余弦值，并根據(jù)所

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁捷;尹兵;
技術(shù)所有人：廣州愛九游信息技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：網(wǎng)頁主題句的抽取方法及裝置的制造方法
上一篇：一種文本特征提取系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本相似度計算方法相關(guān)技術(shù)

文本相似度相關(guān)技術(shù)

文本相似度算法相關(guān)技術(shù)

文本相似度計算相關(guān)技術(shù)

短文本相似度相關(guān)技術(shù)

短文本相似度計算相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本相似度評估方法及裝置的制造方法