度評(píng)估方法的另一個(gè)實(shí)施例中,上述步驟102在計(jì)算目標(biāo)文本 的余弦相似值時(shí),可首先將兩個(gè)目標(biāo)文本中各語句單元對應(yīng)的有效分詞集合進(jìn)行匯總?cè)?重,然后統(tǒng)計(jì)出其中的每一個(gè)詞分別在兩個(gè)目標(biāo)文本中出現(xiàn)的次數(shù),之后,具體可根據(jù)如下 公式計(jì)算所述目標(biāo)文本A和B的向量余弦值:
[0080] 其中,Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值,counLAi為所述有效分 詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù),counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0081] 假設(shè)待評(píng)估的兩個(gè)目標(biāo)文本A、B分別為"我們最近的確有點(diǎn)累"和"我們最近沒有 有點(diǎn)累"(實(shí)際中待評(píng)估的目標(biāo)文本的語句單元數(shù)量通常都較大,這里僅為介紹方法本身來 舉例說明,因此每個(gè)目標(biāo)文本只包含一個(gè)語句單元)。
[0082] 其中目標(biāo)文本A的有效分詞集合為{ "我們"、"最近"、"的確"、"有點(diǎn)"、"累;
[0083] 目標(biāo)文本B的有效分詞集合為{ "我們"、"最近"、"沒有"、"有點(diǎn)"、"累"}。
[0084] 對上述兩個(gè)有效分詞集合匯總?cè)ブ睾鬄閧 "我們"、"最近"、"的確"、"有點(diǎn)"、"累"、 "沒有" },分別統(tǒng)計(jì)其中的每一個(gè)詞在目標(biāo)文本A和目標(biāo)文本B中出現(xiàn)的次數(shù):
[0085] 目標(biāo)文本A中各詞出現(xiàn)的次數(shù)為:
[0086] "我:1次,"最近" :1次,"的確" :1次,"有點(diǎn)" :1次,"累" :1次,"沒有" :0次。
[0087] 目標(biāo)文本B中各詞出現(xiàn)的次數(shù)為:
[0088] "我:1次,"最近" :1次,"的確" :0次,"有點(diǎn)" :1次,"累" :1次,"沒有" :1次。
[0089] 將上述各詞在目標(biāo)文本A、B中出現(xiàn)的"次數(shù)"的值帶入上述向量余弦值的計(jì)算公 式中,可計(jì)算出出Cos_AB的值為0. 8。
[0090] 如圖3所示為本發(fā)明文本相似度評(píng)估方法的另一個(gè)實(shí)施例的步驟102的具體流程 圖,在該實(shí)施例中,上述步驟102可具體包括如下子步驟1021至1023 :
[0091] 步驟1021 :預(yù)設(shè)至少一個(gè)閾值,所述閾值大于等于0小于等于1 ;
[0092] 步驟1022 :為每一個(gè)所述閾值設(shè)置對應(yīng)的相似度等級(jí),所述閾值越大,則對應(yīng)的 所述相似度等級(jí)越高;
[0093] 步驟1023 :確定小于等于所述向量余弦值的最小閾值,則所述最小閾值對應(yīng)的相 似度等級(jí)即為所述目標(biāo)文本的相似度等級(jí)。
[0094] 例如,設(shè)置0、0. 5、0. 9三個(gè)閾值,分別對應(yīng)不相似、中等相似、非常相似三個(gè)相似 度等級(jí)。
[0095] 由于上述目標(biāo)文本A和B的向量余弦值為0. 8,小于等于該值的最小閾值為0. 5, 而最小閾值〇. 5對應(yīng)的相似等級(jí)為"中等相似",則可認(rèn)為該目標(biāo)文本A和B的相似程度為 "中等相似"。
[0096] 本發(fā)明文本相似度評(píng)估方法提供的上述實(shí)施例在對語句單元進(jìn)行分詞的基礎(chǔ)上 進(jìn)一步對所述語句單元對應(yīng)的多個(gè)分詞結(jié)果進(jìn)行最優(yōu)化篩選,根據(jù)分詞結(jié)果中包含的詞的 類型和數(shù)量篩選出該語句單元對應(yīng)的有效分詞集合,從而提高了分詞結(jié)果的準(zhǔn)確性;此外 通過計(jì)算目標(biāo)文本的向量余弦值,并根據(jù)所述向量余弦值確定目標(biāo)文本的相似度的評(píng)估算 法,與逐詞比較的評(píng)估方法相比,運(yùn)算速度得到了顯著提高。
[0097] 與文本相似度評(píng)估方法提供的實(shí)施例相對應(yīng),本發(fā)明還提供了文本相似度評(píng)估裝 置的實(shí)施例。
[0098] 如圖4所示為本發(fā)明文本相似度評(píng)估裝置提供的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖,所述 裝置包括:
[0099] 篩選單元401,用于將待評(píng)估的兩個(gè)目標(biāo)文本分別按語句單元進(jìn)行分詞得到分詞 集合后,從所述分詞集合中再篩選有效分詞集合;
[0100] 確定單元402,用于統(tǒng)計(jì)所述有效分詞集合包含的詞分別在所述兩個(gè)目標(biāo)文本中 出現(xiàn)的次數(shù),根據(jù)所述次數(shù)計(jì)算所述目標(biāo)文本的向量余弦值,根據(jù)所述向量余弦值確定所 述目標(biāo)文本的相似度。
[0101] 圖5為本發(fā)明文本相似度評(píng)估裝置提供的另一個(gè)實(shí)施例的篩選單元的結(jié)構(gòu)示意 圖,可選的,所述篩選單元401包括:
[0102] 分詞子單元4011,用于分別獲得待評(píng)估的兩個(gè)目標(biāo)文本包含的語句單元,并對所 述語句單元進(jìn)行分詞處理,獲得所述語句單元對應(yīng)的至少一個(gè)分詞集合;
[0103] 統(tǒng)計(jì)子單元4012,用于確定所述語句單元對應(yīng)的分詞集合包含的詞的類型,所述 詞的類型包括單一詞和非單一詞,并分別統(tǒng)計(jì)各類型的詞在所述語句單元對應(yīng)的分詞集合 中的數(shù)量;
[0104] 確定子單元4013,用于根據(jù)所述詞的類型及數(shù)量確定各語句單元對應(yīng)的有效分詞 集合。
[0105] 圖6為本發(fā)明文本相似度評(píng)估裝置提供的另一個(gè)實(shí)施例的確定子單元4013的結(jié) 構(gòu)示意圖,可選的,所述確定子單元4013包括:
[0106] 判斷子單元40131,用于判斷所述語句單元是否對應(yīng)至少兩個(gè)集合;
[0107] 第一確定子單元40132,用于如果所述語句單元對應(yīng)一個(gè)分詞集合,則確定所述一 個(gè)分詞集合即為所述語句單元對應(yīng)的有效分詞集合;
[0108] 統(tǒng)計(jì)子單元40133,用于如果所述語句單元對應(yīng)至少兩個(gè)分詞集合,則分別統(tǒng)計(jì)所 述至少兩個(gè)分詞集合對應(yīng)的總詞數(shù)量,所述總詞數(shù)量為單一詞和非單一詞的數(shù)量之和;
[0109] 第二確定子單元40134,用于如果所述至少兩個(gè)分詞集合對應(yīng)的總詞數(shù)量不相等 時(shí),從所述至少兩個(gè)分詞集合中選擇總詞數(shù)量最少的分詞集合作為所述語句單元對應(yīng)的有 效分詞集合;當(dāng)所述總詞數(shù)量相等時(shí),從所述至少兩個(gè)分詞集合中選擇單一詞的數(shù)量最少 的分詞集合為所述語句單元對應(yīng)的有效分詞集合。
[0110] 可選的,所述分詞子單元4011具體用于根據(jù)正向最大匹配算法或條件隨機(jī)場CRF 算法對所述語句單元進(jìn)行分詞處理。
[0111] 可選的,所述確定單元402具體用于根據(jù)如下公式計(jì)算所述兩個(gè)目標(biāo)文本的向量 余弦值:
[0113] 其中,Cos_AB為目標(biāo)文本A和目標(biāo)文本B的向量余弦值,counLAi為所述有效分 詞集合包含的詞i在目標(biāo)文本A中出現(xiàn)的次數(shù),counLBi為所述有效分詞集合包含的詞i 在目標(biāo)文本B中出現(xiàn)的次數(shù)。
[0114] 可選的,所述確定單元402還用于從預(yù)設(shè)的閾值中確定小于等于所述向量余弦值 的最小閾值,將所述最小閾值對應(yīng)的相似度等級(jí)作為所述目標(biāo)文本的相似度等級(jí)。
[0115] 本發(fā)明提供的文本相似度評(píng)估裝置的實(shí)施例,技術(shù)方案本質(zhì)與上述文本相似度評(píng) 估方法的實(shí)施例相同,因此未做具體解釋描述,相關(guān)之處可參見上述文本相似度評(píng)估方法 的實(shí)施例的對應(yīng)部分。
[0116] 本發(fā)明文本相似度評(píng)估裝置提供的上述實(shí)施例在對語句單元進(jìn)行分詞的基礎(chǔ)上 進(jìn)一步對所述語句單元對應(yīng)的多個(gè)分詞結(jié)果進(jìn)行最優(yōu)化篩選,以篩選出該語句單元對應(yīng)的 一個(gè)有效分詞集合,從而提高了分詞結(jié)果的準(zhǔn)確性;此外通過計(jì)算目標(biāo)文本的向量余弦值, 并根據(jù)所述向量余弦值確定目標(biāo)文本的相似度的評(píng)估算法,與逐詞比較的評(píng)估方法相比, 運(yùn)算速度得到了顯著提高。
[0117] 本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明實(shí)施例中的技術(shù)可借助軟件加