詞的選取裝置的示意圖;
[0050] 圖4是本發(fā)明實(shí)施例提供的一種終端的示意圖。
【具體實(shí)施方式】
[0051] 本發(fā)明實(shí)施例提供目標(biāo)文本主題詞的選取方法、裝置及終端,以期提高目標(biāo)文本 主題詞選取的準(zhǔn)確性。
[0052] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0053] 以下分別進(jìn)行詳細(xì)說明。
[0054] 本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第二"、"第三"和"第 四"等是用于區(qū)別不同對(duì)象,而不是用于描述特定順序。此外,術(shù)語"包括"和"具有"以及 它們?nèi)魏巫冃?,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、 系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或 單元,或可選地還包括對(duì)于這些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0055] 本發(fā)明目標(biāo)文本主題詞的選取方法的一個(gè)實(shí)施例。其中,一種目標(biāo)文本主題詞的 選取方法可以包括:對(duì)目標(biāo)文本進(jìn)行分詞操作,得到Kl個(gè)詞語,其中,所述Kl為大于1的整 數(shù);獲取所述Kl個(gè)詞語的詞性和位置;基于所述Kl個(gè)詞語的詞性和位置,將所述Kl個(gè)詞 語中滿足預(yù)設(shè)合并條件的相鄰的詞語合并為短語,得到K2個(gè)短語,其中,所述K2為大于等 于1的整數(shù);從所述Kl個(gè)詞語和所述K2個(gè)短語中選取N個(gè)權(quán)重較大的詞語或短語作為所 述目標(biāo)文本的N個(gè)主題詞,其中,所述N為小于Kl的整數(shù)。
[0056] 參見圖Ι-a,圖Ι-a為本發(fā)明的一個(gè)實(shí)施例提供的一種目標(biāo)文本主題詞的選取方 法的流程示意圖。如圖1所示,本發(fā)明的一個(gè)實(shí)施例提供的一種目標(biāo)文本主題詞的選取方 法可以包括如下步驟:
[0057] S101、對(duì)目標(biāo)文本進(jìn)行分詞操作,得到Kl個(gè)詞語,其中,所述Kl為大于1的整數(shù)。
[0058] 其中,上述目標(biāo)文本可以是包括多個(gè)詞語、標(biāo)點(diǎn)符號(hào)或者其他字符的字符串。比如 "物聯(lián)網(wǎng)通俗來講就是物物相連的網(wǎng)絡(luò),根本上還是以互聯(lián)網(wǎng)為基礎(chǔ),只是在它的基礎(chǔ)上做 了一些延伸和擴(kuò)展,延伸到了任何物體和物體之間,進(jìn)行信息交換和通信。"這段話可以作 為一個(gè)目標(biāo)文本?!颈尘凹夹g(shù)】中提到的"小米手機(jī)是國產(chǎn)智能手機(jī)的代表,是國產(chǎn)民族品牌的 佼佼者。"這句話也可以作為一個(gè)目標(biāo)文本。
[0059] 對(duì)目標(biāo)文本進(jìn)行分詞操作,是指將目標(biāo)文本進(jìn)行拆分,比如按照最小語義原則將 目標(biāo)文本拆分成一個(gè)個(gè)語義獨(dú)立的詞語,具體地,拆分后得到的詞語可以是有具體含義的 詞語,也可能包括沒有具體含義的停用詞,比如標(biāo)點(diǎn)符號(hào)、是、的、得、地、了等。
[0060] S102、獲取所述Kl個(gè)詞語的詞性和位置。
[0061 ] 其中,詞性可以包括:名詞、動(dòng)詞、形容詞、助詞、感嘆詞、標(biāo)點(diǎn)符號(hào)、特殊字符等。詞 語的位置指詞語之間的相對(duì)位置關(guān)系,比如相鄰或者非相鄰等。
[0062] 比如"今天天氣晴朗。",拆分后得到的4個(gè)詞語,分別為:"今天/天氣/晴朗/。"。 則對(duì)該目標(biāo)文本進(jìn)行分詞后獲得的4個(gè)詞語的詞性分別是:名詞、名詞、形容詞、標(biāo)點(diǎn)符號(hào)。 Kl個(gè)詞語的位置包括:'今天'與'天氣'是臨近詞、'天氣'與'晴朗'是臨近詞、'晴朗'與 '。'是相鄰詞。
[0063] S103、基于所述Kl個(gè)詞語的詞性和位置,將所述Kl個(gè)詞語中滿足預(yù)設(shè)合并條件的 相鄰的詞語合并為短語,得到K2個(gè)短語,其中,所述K2為大于等于1的整數(shù)。
[0064] 可選的,在本發(fā)明一些可能的實(shí)施方式中,所述預(yù)設(shè)合并條件可以包括:若相鄰詞 語的詞性依次為:名詞名詞、動(dòng)詞名詞、形容詞名詞或者數(shù)量詞名詞,則將相鄰的詞語合并 為短語。具體地,預(yù)設(shè)合并條件可以是上述相鄰詞性的一種或者多種,當(dāng)然,也可以設(shè)置預(yù) 設(shè)合并條件包括其他相鄰詞性的詞語進(jìn)行合并。如前面所述的目標(biāo)文本"今天天氣晴朗。" 分詞后得到的詞語中,相鄰詞語'今天'與'天氣'是名詞名詞,符合預(yù)設(shè)合并條件,則將'今 天'與'天氣'合并,合并后得到短語'今天天氣'。
[0065] S104、從所述Kl個(gè)詞語和所述K2個(gè)短語中選取N個(gè)權(quán)重較大的詞語或短語作為 所述目標(biāo)文本的N個(gè)主題詞,其中,所述N為小于Kl的整數(shù)。
[0066] 對(duì)于上面的目標(biāo)文本"今天天氣晴朗。"可以從"今天/天氣/晴朗/。/今天天 氣"這幾個(gè)詞中選取主題詞,具體地可以按照權(quán)重值由大到小的順序選取主題詞,比如若選 取兩個(gè)主題詞,刪除停用詞'。',其余幾個(gè)詞語及短語"今天/天氣/晴朗/今天天氣"的權(quán) 重依次為:3. 3、3. 0、4. 2、3. 5,則按照權(quán)重由大到小選擇權(quán)重位于前兩位的詞或者短語作為 該目標(biāo)文本的主題詞,即選取'晴朗'和'今天天氣'作為主題詞。
[0067] 可以看出,由于短語'今天天氣'為主題詞的選取對(duì)象,當(dāng)其權(quán)重較大符合條件時(shí), 選擇'今天天氣'比選擇'今天'或者'天氣'與目標(biāo)文本的內(nèi)容更加匹配。因此采用本發(fā)明 實(shí)施例提供的技術(shù)方案選取主題詞時(shí)增加了主題詞選取的準(zhǔn)確性。
[0068] 可選的,在本發(fā)明一些可能的實(shí)施方式中,如圖Ι-b所示,在S106、從所述Kl個(gè)詞 語和所述K2個(gè)短語中選取N個(gè)權(quán)重較大的詞語或短語作為所述目標(biāo)文本的N個(gè)主題詞之 前,還包括:
[0069] S105、計(jì)算所述Kl個(gè)詞語和所述K2個(gè)短語的權(quán)重。
[0070] 可選的,在本發(fā)明一些可能的實(shí)施方式中,如圖1-c所示,若所述Kl個(gè)詞語中包括 K3個(gè)停用詞,其中,所述K3為小于Kl的整數(shù);
[0071] 在S103之后,還可以包括:
[0072] S107、計(jì)算所述Kl個(gè)詞語中K1-K3個(gè)非停用詞的權(quán)重以及K2個(gè)短語的權(quán)重。
[0073] S108、從所述K1-K3個(gè)非停用詞和所述K2個(gè)短語中選取N個(gè)權(quán)重較大的詞語或短 語作為所述目標(biāo)文本的N個(gè)主題詞,其中,所述N為小于Kl的整數(shù)。
[0074] 可選的,在本發(fā)明一些可能的實(shí)施方式中,權(quán)重可以通過如下方法計(jì)算得到:
[0075] 首先,統(tǒng)計(jì)詞語或者短語在所述目標(biāo)文本中出現(xiàn)的次數(shù)TF。比如"今天/天氣/ 晴朗/今天天氣"這四個(gè)詞語和短語在目標(biāo)文本"今天天氣晴朗。"中出現(xiàn)的次數(shù)都是1次, 如表四所示。
[0076] 表四
[0077]
[0078] 其次,利用訓(xùn)練文本計(jì)算詞語或者短語的逆向文本頻率值IDF。IDF可以由訓(xùn)練文 本的總文件數(shù)目除以包含所述詞語或者短語的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。其 中,訓(xùn)練文本是事先收集的一些相關(guān)文本集。比如,利用訓(xùn)練文本計(jì)算"今天/天氣/晴朗 /今天天氣"這四個(gè)詞語和短語得到的IDF分別為:3. 3、3. 0、4. 2、6. 3,如表五所示。
[0079] 表五
[0080]
[0081] 然后,將詞語或者短語的TF與IDF相乘得到詞語或者短語的權(quán)重,比如利用前面 的統(tǒng)計(jì)及計(jì)算結(jié)果,"今天/天氣/晴朗/今天天氣"這四個(gè)詞語和短語的權(quán)重分別為:3. 3、 3. 0、4. 2、6. 3,如表六所示。
[0082] 表六
[0083]
[0084] 采用本發(fā)明實(shí)施例,若主題詞的個(gè)數(shù)為兩個(gè),則根據(jù)對(duì)應(yīng)權(quán)重由大到小的順序選 取'今天天氣'和'晴朗'作為主題詞。
[0085] 可以看出,本發(fā)明實(shí)施例的技術(shù)方案中,將目標(biāo)文本分詞后,將滿足預(yù)設(shè)合并條件 的相鄰的詞語進(jìn)行合并,并將合并后的短語作為主題詞的選取對(duì)象。相對(duì)于現(xiàn)有技術(shù),本發(fā) 明實(shí)施例增加了主題詞的選取對(duì)象,在選取主題詞時(shí),根據(jù)選取對(duì)象的權(quán)重可能會(huì)將短語 選為目標(biāo)文本的主題詞,由于短語相對(duì)于得到短語的各詞語其含義與目標(biāo)文本的含義更加 接近,其作為主題詞更加準(zhǔn)確。因此,本發(fā)明實(shí)施例提供的目標(biāo)文本主題詞的選取方法,有 利于提高目標(biāo)文本主題詞選取的準(zhǔn)確性。
[0086] 為便于更好的理解和實(shí)施本發(fā)明實(shí)施例的上述方案,下面通過一些具體的應(yīng)用場 景進(jìn)行舉例說明。
[0087] 參見圖2,圖2為本發(fā)明的另一個(gè)實(shí)施例提供的一種目標(biāo)文本主題詞的選取方