目標(biāo)文本主題詞的選取方法、裝置及終端的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本處理領(lǐng)域,具體涉及一種目標(biāo)文本主題詞的選取方法、裝置及終 端。
【背景技術(shù)】
[0002] 目前,手機、電腦等終端可以提供文件分類、信息檢索、廣告推薦等服務(wù)。例如可以 將目標(biāo)文本劃分到與其內(nèi)容匹配的類別、從多個文件中找到與檢索操作匹配目標(biāo)文本、或 者利用記載了用戶相關(guān)信息的目標(biāo)文本向用戶終端推送廣告等等。
[0003] 上述這些操作都涉及到對目標(biāo)文件進(jìn)行處理。通常先從目標(biāo)文本中選取若干個主 題詞,然后以選取的主題詞代替目標(biāo)文本參與相關(guān)操作。其中,主題詞源于目標(biāo)文本,可以 概括目標(biāo)文本的內(nèi)容特征。
[0004] 本發(fā)明的發(fā)明人在研究和實踐過程中發(fā)現(xiàn),在對目標(biāo)文本進(jìn)行處理選取主題詞 時,現(xiàn)有技術(shù)一般是將目標(biāo)文本按照最小語義原則進(jìn)行分詞操作得到多個詞語,然后刪除 停用詞(比如的、了、標(biāo)點符號等)。對剩余的詞語進(jìn)行計算,統(tǒng)計每個詞語在目標(biāo)文本中 出現(xiàn)的次數(shù)(Term Frequency,簡稱TF),以及利用訓(xùn)練文本計算每個詞的逆向文件頻率值 (term frequency-inverse document frequency,簡稱 IDF)。最后將 TF 和 IDF 相乘得到 每個詞語的權(quán)重,按照所需主題詞的個數(shù)N,選取權(quán)重較大的N個詞語作為主題詞。
[0005] 采用現(xiàn)有技術(shù)方案,舉例說明,例如,目標(biāo)文本為"小米手機是國產(chǎn)智能手機的代 表,是國產(chǎn)民族品牌的佼佼者。",對其進(jìn)行分詞操作得到如下分詞結(jié)果:"小米/手機/是/ 國產(chǎn)/智能/手機/的/代表/,/是/國產(chǎn)/民族/品牌/的/佼佼者/。",其中,每個詞 語用"/"分開,刪除分詞操作得到的停用詞:"是/的/,/。"。
[0006] 若每個詞語在目標(biāo)文本中出現(xiàn)的次數(shù)TF如表一所示,利用訓(xùn)練文本計算得到的 詞語的IDF如表二所示,則詞語的權(quán)重如表三所示:
[0007] 表一詞語在目標(biāo)文本中出現(xiàn)的次數(shù)TF的列表
[0008]
[0009] 表二利用訓(xùn)練文本計算得到的詞語的逆向文件頻率值IDF的列表
[0010]
[0011] 表三詞語的權(quán)重的列表
[0012]
[0013] 若需要四個主題詞,則由表三根據(jù)權(quán)重由大到小選取出四個詞語:'佼佼者、手機、 國產(chǎn)、民族'作為目標(biāo)文本的主題詞。根據(jù)這四個詞語的含義及目標(biāo)文本的內(nèi)容,可知,用這 四個詞語作為目標(biāo)文本的主題詞時,其表達(dá)的意思與目標(biāo)文本表達(dá)的意思存在較大差異。
[0014] 因此,采用現(xiàn)有技術(shù)對目標(biāo)文本主題詞進(jìn)行選取時,選取的主題詞有時不夠準(zhǔn)確。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明實施例提供一種目標(biāo)文本主題詞的選取方法、裝置及終端,以期提高目標(biāo) 文本主題詞選取的準(zhǔn)確性。
[0016] 本發(fā)明實施例第一方面提供一種目標(biāo)文本主題詞的選取方法,包括:
[0017] 對目標(biāo)文本進(jìn)行分詞操作,得到Kl個詞語,其中,所述Kl為大于1的整數(shù);
[0018] 獲取所述Kl個詞語的詞性和位置;
[0019] 基于所述Kl個詞語的詞性和位置,將所述Kl個詞語中滿足預(yù)設(shè)合并條件的相鄰 的詞語合并為短語,得到K2個短語,其中,所述K2為大于等于1的整數(shù);
[0020] 從所述Kl個詞語和所述K2個短語中選取N個權(quán)重較大的詞語或短語作為所述目 標(biāo)文本的N個主題詞,其中,所述N為小于Kl的整數(shù)。
[0021] 結(jié)合第一方面,在第一方面的第一種可能的實施方式中,
[0022] 所述預(yù)設(shè)合并條件包括:若相鄰詞語的詞性依次為:名詞名詞、動詞名詞、形容詞 名詞、或者數(shù)量詞名詞,則將相鄰的詞語合并為短語。
[0023] 結(jié)合第一方面,在第一方面的第二種可能的實施方式中,
[0024] 若所述Kl個詞語中包括K3個停用詞,其中,所述K3為小于Kl的整數(shù);
[0025] 所述從所述Kl個詞語和所述K2個短語中選取N個權(quán)重較大的詞語或短語作為所 述目標(biāo)文本的N個主題詞,包括:
[0026] 從所述K1-K3個非停用詞和所述K2個短語中選取N個權(quán)重較大的詞語或短語作 為所述目標(biāo)文本的N個主題詞,其中,所述N為小于Kl的整數(shù)。
[0027] 結(jié)合第一方面、第一方面的第一種可能的實施方式或第一方面的第二種可能的實 施方式,在第一方面的第三種可能的實施方式中,
[0028] 詞語i的權(quán)重為所述詞語i在所述目標(biāo)文本中出現(xiàn)的次數(shù)與所述詞語i的逆向文 本頻率值的乘積,其中,所述詞語i為所述Kl個詞語中的任意一個詞語;
[0029] 短語j的權(quán)重為所述短語j在所述目標(biāo)文本中出現(xiàn)的次數(shù)與所述短語j的逆向文 本頻率值的乘積,其中,所述短語j為所述K2個短語中的任意一個短語。
[0030] 本發(fā)明實施例第二方面提供一種目標(biāo)文本主題詞的選取裝置,包括:
[0031] 分詞單元,用于對目標(biāo)文本進(jìn)行分詞操作,得到Kl個詞語,其中,所述Kl為大于1 的整數(shù);
[0032] 獲取單元,用于獲取所述Kl個詞語的詞性和位置;
[0033] 合并單元,用于基于所述Kl個詞語的詞性和位置,將所述Kl個詞語中滿足預(yù)設(shè)合 并條件的相鄰的詞語合并為短語,得到K2個短語,其中,所述K2為大于等于1的整數(shù);
[0034] 選取單元,用于從所述Kl個詞語和所述K2個短語中選取N個權(quán)重較大的詞語或 短語作為所述目標(biāo)文本的N個主題詞,其中,所述N為小于Kl的整數(shù)。
[0035] 結(jié)合第二方面,在第二方面的第一種可能的實施方式中,
[0036] 所述預(yù)設(shè)合并條件包括:若相鄰詞語的詞性依次為:名詞名詞、動詞名詞、形容詞 名詞、或者數(shù)量詞名詞,則將相鄰的詞語合并為短語。
[0037] 結(jié)合第二方面,在第二方面的第二種可能的實施方式中,
[0038] 所述選取單元具體用于,若所述Kl個詞語中包括Κ3個停用詞,則從所述Κ1-Κ3個 非停用詞和所述Κ2個短語中選取N個權(quán)重較大的詞語或短語作為所述目標(biāo)文本的N個主 題詞,其中,所述Κ3為小于Kl的整數(shù),所述N為小于Kl的整數(shù)。
[0039] 結(jié)合第二方面、第二方面的第一種可能的實施方式或第二方面的第二種可能的實 施方式,在第二方面的第三種可能的實施方式中,
[0040] 詞語i的權(quán)重為所述詞語i在所述目標(biāo)文本中出現(xiàn)的次數(shù)與所述詞語i的逆向文 本頻率值的乘積,其中,所述詞語i為所述Kl個詞語中的任意一個詞語;
[0041] 短語j的權(quán)重為所述短語j在所述目標(biāo)文本中出現(xiàn)的次數(shù)與所述短語j的逆向文 本頻率值的乘積,其中,所述短語j為所述K2個短語中的任意一個短語。
[0042] 本發(fā)明實施例第三方面提供一種終端,包括上述的目標(biāo)文本主題詞的選取裝置。
[0043] 本發(fā)明實施例提供的技術(shù)方案,將目標(biāo)文本分詞后,將滿足預(yù)設(shè)合并條件的相鄰 的詞語進(jìn)行合并,并將合并后的短語作為主題詞的選取對象。相對于現(xiàn)有技術(shù),本發(fā)明實施 例增加了主題詞的選取對象,在選取主題詞時,根據(jù)選取對象的權(quán)重可能會將短語選為目 標(biāo)文本的主題詞,由于短語相對于得到短語的各詞語其含義與目標(biāo)文本的含義更加接近, 其作為主題詞更加準(zhǔn)確。因此,本發(fā)明實施例提供了將短語選擇為主題詞的可能性,有利于 提高目標(biāo)文本主題詞選取的準(zhǔn)確性。
【附圖說明】
[0044] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0045] 圖l_a是本發(fā)明實施例提供的一種目標(biāo)文本主題詞的選取方法的流程示意圖;
[0046] 圖l_b是本發(fā)明實施例提供的另一種目標(biāo)文本主題詞的選取方法的流程示意圖;
[0047] 圖Ι-e是本發(fā)明實施例提供的另一種目標(biāo)文本主題詞的選取方法的流程示意圖;
[0048] 圖2是本發(fā)明實施例提供的另一種目標(biāo)文本主題詞的選取方法的流程示意圖;
[0049] 圖3是本發(fā)明實施例提供的一種目標(biāo)文本主題