一種文本相似度評估方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動通信技術(shù)領(lǐng)域,特別是涉及一種文本相似度評估方法及裝置。
【背景技術(shù)】
[0002] 隨著通信及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)成為用戶發(fā)布信息及獲取信息的重要平 臺。在海量的互聯(lián)網(wǎng)文本信息中,有些文本信息在主題或內(nèi)容上彼此具有很高的相似性或 相關(guān)性,導(dǎo)致信息的冗余性很高。因此需要通過相似度評估的方法對這些文本信息進(jìn)行相 似程度評估,進(jìn)而對其進(jìn)行去重、歸類,以便更準(zhǔn)確、高效的管理這些信息資源。
[0003] 現(xiàn)有的文本相似度的評估方法一般是基于逐詞比較的方法,即將待比較的兩個文 本信息分別切分成詞(或稱為字符串),再對這兩個文本包含的詞逐個進(jìn)行比較,以共同包 含的詞在總詞中所占的比例作為衡量這兩個文本的相似程度的標(biāo)準(zhǔn)。
[0004] 然而,這種方法一方面在對文本分詞時準(zhǔn)確性較差,另一方面采用逐詞比較方法 的計算效率也較低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實施例提供了一種文本相似度評估方法及裝置,以解決現(xiàn)有的文本相似度 評估方法的準(zhǔn)確性差和計算效率較低的問題。
[0006] 為了解決上述技術(shù)問題,本發(fā)明實施例公開了如下技術(shù)方案:
[0007] -方面,提供了一種文本相似度評估方法,所述方法包括:
[0008] 將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后,從所述分詞 集合中再篩選有效分詞集合;
[0009] 統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn)的次數(shù),根據(jù)所 述次數(shù)計算所述目標(biāo)文本的向量余弦值,根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似 度。
[0010] 可選的,所述將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合 后,從所述分詞集合中再篩選有效分詞集合包括:
[0011] 分別獲得待評估的兩個目標(biāo)文本包含的語句單元,對所述語句單元進(jìn)行分詞處 理,獲得所述語句單元對應(yīng)的至少一個分詞集合;
[0012] 確定所述語句單元對應(yīng)的分詞集合包含的詞的類型,其中所述詞的類型包括單一 詞和非單一詞,分別統(tǒng)計各類型的詞在所述語句單元對應(yīng)的分詞集合中的數(shù)量;
[0013] 根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集合。
[0014] 可選的,所述根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集合包 括:
[0015] 如果所述語句單元對應(yīng)一個分詞集合,則所述一個分詞集合即為所述語句單元對 應(yīng)的有效分詞集合;
[0016] 如果所述語句單元對應(yīng)至少兩個分詞集合,則分別統(tǒng)計所述至少兩個分詞集合對 應(yīng)的總詞數(shù)量,所述總詞數(shù)量為單一詞和非單一詞的數(shù)量之和;
[0017] 當(dāng)所述至少兩個分詞集合對應(yīng)的總詞數(shù)量不相等時,從所述至少兩個分詞集合中 選擇總詞數(shù)量最少的分詞集合作為所述語句單元對應(yīng)的有效分詞集合;當(dāng)所述總詞數(shù)量相 等時,從所述至少兩個分詞集合中選擇單一詞的數(shù)量最少的分詞集合為所述語句單元對應(yīng) 的有效分詞集合。
[0018] 可選的,所述對所述語句單元進(jìn)行分詞處理包括:根據(jù)正向最大匹配算法或條件 隨機(jī)場CRF算法對所述語句單元進(jìn)行分詞處理。
[0019] 可選的,所述根據(jù)所述次數(shù)計算所述兩個目標(biāo)文本的向量余弦值采用如下公式:
[0021] 其中,Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值,counLAi為所述有效分 詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù),counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0022] 可選的,根據(jù)所述向量余弦值確定所述目標(biāo)文本的相似度包括:
[0023] 從預(yù)設(shè)的閾值中確定小于等于所述向量余弦值的最小閾值,將所述最小閾值對應(yīng) 的相似度等級作為所述目標(biāo)文本的相似度等級。
[0024] 另一方面,提供了一種文本相似度評估裝置,所述裝置包括:
[0025] 篩選單元,用于將待評估的兩個目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合 后,從所述分詞集合中再篩選有效分詞集合;
[0026] 確定單元,用于統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn) 的次數(shù),根據(jù)所述次數(shù)計算所述目標(biāo)文本的向量余弦值,根據(jù)所述向量余弦值確定所述目 標(biāo)文本的相似度。
[0027] 可選的,所述篩選單元包括:
[0028] 分詞子單元,用于分別獲得待評估的兩個目標(biāo)文本包含的語句單元,并對所述語 句單元進(jìn)行分詞處理,獲得所述語句單元對應(yīng)的至少一個分詞集合;
[0029] 統(tǒng)計子單元,用于確定所述語句單元對應(yīng)的分詞集合包含的詞的類型,所述詞的 類型包括單一詞和非單一詞,并分別統(tǒng)計各類型的詞在所述語句單元對應(yīng)的分詞集合中的 數(shù)量;
[0030] 確定子單元,用于根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞集 合;
[0031] 可選的,所述確定子單元包括:
[0032] 判斷子單元,用于判斷所述語句單元是否對應(yīng)至少兩個集合;
[0033] 第一確定子單元,用于如果所述語句單元對應(yīng)一個分詞集合,則確定所述一個分 詞集合即為所述語句單元對應(yīng)的有效分詞集合;
[0034] 統(tǒng)計子單元,用于如果所述語句單元對應(yīng)至少兩個分詞集合,則分別統(tǒng)計所述至 少兩個分詞集合對應(yīng)的總詞數(shù)量,所述總詞數(shù)量為單一詞和非單一詞的數(shù)量之和;
[0035] 第二確定子單元,用于當(dāng)所述至少兩個分詞集合對應(yīng)的總詞數(shù)量不相等時,從所 述至少兩個分詞集合中選擇總詞數(shù)量最少的分詞集合作為所述語句單元對應(yīng)的有效分詞 集合;當(dāng)所述總詞數(shù)量相等時,從所述至少兩個分詞集合中選擇單一詞的數(shù)量最少的分詞 集合為所述語句單元對應(yīng)的有效分詞集合。
[0036] 可選的,所述分詞子單元具體用于根據(jù)正向最大匹配算法或條件隨機(jī)場CRF算法 對所述語句單元進(jìn)行分詞處理。
[0037] 可選的,所述確定單元具體用于根據(jù)如下公式計算所述兩個目標(biāo)文本的向量余弦 值:
[0039] 其中,Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值,counLAi為所述有效分 詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù),counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0040] 可選的,所述確定單元具體用于從預(yù)設(shè)的閾值中確定小于等于所述向量余弦值的 最小閾值,將所述最小閾值對應(yīng)的相似度等級作為所述目標(biāo)文本的相似度等級。
[0041] 上述技術(shù)方案提供的文本相似度評估方法及裝置的實施例,首先將待評估的兩個 目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞集合后,從所述分詞集合中再篩選有效分詞集 合;再統(tǒng)計所述有效分詞集合包含的詞分別在所述兩個目標(biāo)文本中出現(xiàn)的次數(shù),并根據(jù)所 述次數(shù)計算所述目標(biāo)文本的向量余弦值,以及根據(jù)所述向量余弦值確定所述目標(biāo)文本的相 似度。
[0042] 所述實施例在對語句單元進(jìn)行分詞的基礎(chǔ)上進(jìn)一步對所述語句單元對應(yīng)的多個 分詞結(jié)果進(jìn)行最優(yōu)化篩選,從而篩選出該語句單元對應(yīng)的一個有效分詞集合,進(jìn)而提高了 分詞結(jié)果的準(zhǔn)確性;此外通過計算目標(biāo)文本的向量余弦值,并根據(jù)所