一種為文本集合生成語義標(biāo)識的方法和裝置制造方法

文檔序號：6637711閱讀：411來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種為文本集合生成語義標(biāo)識的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種為文本集合生成語義標(biāo)識的方法和裝置，所述方法包括以下步驟：對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
【專利說明】一種為文本集合生成語義標(biāo)識的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】，尤其涉及一種為文本集合生成語義標(biāo)識的方法和裝直。

【背景技術(shù)】
[0002] 目前，在互聯(lián)網(wǎng)領(lǐng)域，為了更好的了解用戶的需求和興趣，經(jīng)常需要對各類短文本進(jìn)行分類，針對每個(gè)短文本集合，通過對該文本集合中的文本進(jìn)行分析，生成與該文本集合對應(yīng)的語義標(biāo)識，并為每一個(gè)文本集合打上相對應(yīng)的語義標(biāo)識。如某個(gè)襯衫集合打上"襯衫女"/ "襯衫男"等語義標(biāo)識；如針對某鞋類，打上"豆豆鞋女"或"牛津鞋"等語義標(biāo)識。但是由于文本類別繁多，數(shù)以萬計(jì)，通過傳統(tǒng)方法對每一種文本集合打上相應(yīng)的語義標(biāo)識，效率較低，速度緩慢。

【發(fā)明內(nèi)容】

[0003] 鑒于上述問題，提出了本發(fā)明，以便提供一種克服上述問題或者至少部分地解決上述問題的為文本集合生成語義標(biāo)識的方法和裝置。
[0004] 依據(jù)本發(fā)明的第一方面，提供了一種為文本集合生成語義標(biāo)識的方法，包括步驟：對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度 L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0005] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，所述對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識的步驟包括以下中的至少一個(gè)：對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0006] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字；以及在判斷為是的情況下，刪除所述候選語義標(biāo)識。
[0007] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配，以確定對于每一個(gè)候選語義標(biāo) 識匹配成功的文本數(shù)量Ν，以作為該候選語義標(biāo)識的文本特征；以及根據(jù)用戶行為日志，統(tǒng) 計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。
[0008] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次M、以及長度L正相關(guān)。
[0009] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括：判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié)果均為是，則確定所述語義標(biāo)識與所述文本匹配。
[0010] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，所述根據(jù) 用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟包括：根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次M。
[0011] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中，所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè) 候選語義標(biāo)識的優(yōu)先級的步驟包括：根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P : /5 = Viv X X (l + log Uf) / ιοοοο)。
[0012] 依據(jù)本發(fā)明的第二方面，提供了一種為文本集合生成語義標(biāo)識的裝置，包括：候選語義標(biāo)識獲得模塊，用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；優(yōu)先級確定模塊，用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及正式語義標(biāo)識確定模塊，用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0013] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，所述候選語義標(biāo)識獲得模塊用于執(zhí)行以下中的至少一個(gè)：對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0014] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，還包括候選語義標(biāo)識篩選模塊，用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后：從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字；以及在判斷為是的情況下，刪除所述候選語義標(biāo)識。
[0015] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，還包括文本特征和用戶行為特征獲得模塊，用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后：將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征；以及根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。
[0016] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次M、以及長度L正相關(guān)。
[0017] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，所述文本特征和用戶行為特征獲得模塊用于：判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié)果均為是，則確定所述語義標(biāo)識與所述文本匹配。
[0018] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，所述文本特征和用戶行為特征獲得模塊用于：根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次M。
[0019] 可選地，在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中，所述優(yōu)先級確定模塊用于：根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P : P = # X VIX (I + log (JO / 10000)。
[0020] 本發(fā)明提供了上述為文本集合生成語義標(biāo)識的方法和裝置。根據(jù)本發(fā)明的實(shí)施例，可以對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識，并根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級，然后，將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。由此，相對于現(xiàn)有技術(shù)中為文本集合或類別生成語義標(biāo)識的方案，極大地提高了效率，并且能夠適應(yīng)任何新出現(xiàn)或新領(lǐng)域的文本集合或類別，為其生成適當(dāng)?shù)恼Z義標(biāo)識。此外，由于在確定候選語義標(biāo)識的優(yōu)先級時(shí)還考慮了候選語義標(biāo)識的用戶行為特征，能夠使得最終確定的正式語義標(biāo)識更準(zhǔn)確，更能夠符合用戶的實(shí)際需求。
[0021] 上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的【具體實(shí)施方式】。

【專利附圖】

【附圖說明】
[0022] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號表示相同的部件。在附圖中：
[0023] 圖1是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法的流程圖；以及
[0024] 圖2是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置以及服務(wù)器的結(jié) 構(gòu)示意圖。

【具體實(shí)施方式】
[0025] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026] 根據(jù)本發(fā)明的第一方面，提供了一種為文本集合生成語義標(biāo)識的方法。圖1示出了根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法100的流程圖。
[0027] 如圖1所示，所述方法100始于步驟S110,在步驟SllO中，對文本集合中的每一個(gè) 文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo) 識。
[0028] 根據(jù)本發(fā)明的實(shí)施例，所述步驟SllO可以包括以下子步驟中的至少一個(gè)：
[0029] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞（子步驟Sl 12);
[0030] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞（子步驟S114);以及；
[0031] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識（子步驟Sl 16)。
[0032] 在上述子步驟S112中，可以對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞。可選地，可以采用本領(lǐng)域中的任何分詞技術(shù)來對于文本集合中的每一個(gè)文本進(jìn)行分詞。例如，某一文本內(nèi)容為"望京世界百貨豆豆鞋專賣店"，對該文本進(jìn)行分詞后，得到一組分詞為："望京"、"世界"、"百貨"、"豆"、"豆"、"鞋"、"專賣店"。舉出此示例是為了幫助讀者更容易地理解本發(fā)明的原理，而非意在以任何形式限制本發(fā)明的范圍。本發(fā)明的范圍不限于此，而是可以應(yīng)用于任何文本集合和文本內(nèi)容。
[0033] 在上述子步驟S114中，將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞。根據(jù)本發(fā)明的實(shí)施例，若第一組分詞中存在連續(xù)η個(gè)分詞均為單字，則將該η個(gè)連續(xù)的單字合并成一個(gè)分詞，其中η大于等于2,以得到第二組分詞。承接前述例子，該組分詞中存在連續(xù)3個(gè) 單字"豆"、"豆"、"鞋"，則將該3個(gè)單字合并為一個(gè)分詞"豆豆鞋"，因此，可以得到第二組分詞為："望京"、"世界"、"百貨"、"豆豆鞋"、"專賣店"。
[0034] 在上述子步驟Sl 16中，將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。根據(jù)本發(fā)明的實(shí)施例，以對上述第二組分詞中的各個(gè)分詞進(jìn)行排列組合為例，可以遍歷第二組分詞中的每一個(gè)分詞，將當(dāng)前遍歷的分詞作為一個(gè)候選語義標(biāo)識，再以該當(dāng)前遍歷的分詞作為組合分詞的首分詞，將該當(dāng)前遍歷的分詞后面的每一個(gè)分詞分別作為組合分詞的尾分詞，針對每一個(gè)尾分詞，將前述首分詞+中間分詞（其中中間分詞為位于首分詞與該尾分詞之間的分詞）+尾分詞，作為一個(gè)組合分詞，將該組合分詞作為候選語義標(biāo)識；以此類推，直到遍歷完第二組分詞中的所有分詞。承接上述例子，遍歷第二組分詞，首先遍歷"望京"，將"望京"本身作為候選語義標(biāo)識，將組合分詞"望京世界"、"望京世界百貨"、"望京世界百貨豆豆鞋"、"望京世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識；遍歷下一個(gè)分詞"世界"，將"世界"本身作為一候選語義標(biāo)識，將組合分詞"世界百貨"、"世界百貨豆豆鞋"、"世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識依次遍歷，直到遍歷完"專賣店"為止。可以將按照上述步驟獲得的所有語義標(biāo)識作為所述文本相對應(yīng)的候選語義標(biāo)識。
[0035] 根據(jù)本發(fā)明的一種可選的實(shí)施例，在執(zhí)行上述步驟SllO之后，所述方法可以包括以下可選步驟：從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字；以及在判斷為是的情況下，刪除所述候選語義標(biāo)識。上述可選步驟的目的主要是從候選語義標(biāo)識中濾除無效的語義標(biāo)識。
[0036] 如圖1所示，在所述步驟SllO之后，執(zhí)行步驟S130,其中，根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級。
[0037] 根據(jù)本發(fā)明的實(shí)施例，在執(zhí)行上述步驟SllO之后、步驟S130之前，可以執(zhí)行以下步驟：將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征；以及根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。即，在上述實(shí)施例中，候選語義標(biāo)識的文本特征為對于該候選語義標(biāo)識匹配成功的文本數(shù)量N，而候選語義標(biāo)識的用戶行為特征為該候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M。
[0038] 根據(jù)本發(fā)明的實(shí)施例，上述將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括：判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié)果均為是，則確定所述語義標(biāo)識與所述文本匹配。承接上述例子，假設(shè)候選語義標(biāo)識為"豆豆鞋"，則其完全包含在文本"豆豆鞋女士"中，與該文本匹配，但不完全包含在"豆鞋女士"中，與該文本不匹配。由此，可以得到對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征。
[0039] 根據(jù)本發(fā)明的實(shí)施例，上述根據(jù)用戶行為日志統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟包括：根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次M?？蛇x地，文本在用戶行為中涉及可以包括以下幾種情況：情況 1，用戶輸入該候選語義標(biāo)識所在的文本，將該文本作為查詢關(guān)鍵詞；情況2,用戶通過點(diǎn)擊 (如單擊/雙擊）或其它方式（比如用戶點(diǎn)擊鏈接后顯示的網(wǎng)頁的標(biāo)題為該候選語義標(biāo)識所在的文本）觸發(fā)該候選語義標(biāo)識所在的文本，例如，文本1為"豆豆鞋女"，文本2為"豆豆鞋男"，候選語義標(biāo)識為"豆豆鞋"，根據(jù)所有的用戶行為日志統(tǒng)計(jì)得到：用戶在輸入框中輸入"豆豆鞋女"的次數(shù)為nl，輸入框中輸入"豆豆鞋男"的次數(shù)為n2,用戶通過點(diǎn)擊"豆豆鞋女"的次數(shù)為n3,點(diǎn)擊"豆豆鞋男"的次數(shù)為n4,采用其他方式觸發(fā)"豆豆鞋女"的次數(shù)為 n5,采用其他方式觸發(fā)"豆豆鞋男"的次數(shù)為n5,則統(tǒng)計(jì)得到該候選語義標(biāo)識"豆豆鞋"被用戶選中的總頻次為（nl+n2+n3+n4+n5+n6)。可選地，可以將上述情況1和情況2中的次數(shù)相力口，以得到每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ，以作為該候選語義標(biāo)識的用戶行為特征。
[0040] 根據(jù)本發(fā)明的實(shí)施例，所述候選語義標(biāo)識的優(yōu)先級可以與所述文本數(shù)量N、頻次 M、以及長度L正相關(guān)。在一種實(shí)施例中，所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟可以包括：根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P=Z5 = ^xVZxfl + IogU/) / 10000)。本領(lǐng)域技術(shù)人員能夠理解：通過上述公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P的方式僅為本發(fā)明的一種實(shí)施例，本發(fā)明的范圍不限于此，只要能夠根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級，都符合本發(fā)明的原理，落入本發(fā)明的范圍內(nèi)。
[0041] 如圖1所示，在步驟S120之后，執(zhí)行步驟S130,其中，將優(yōu)先級最高的一個(gè)或多個(gè) 候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。可選地，可以將優(yōu)先級最高的一個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識，也可以將優(yōu)先級最高的多個(gè)候選語義標(biāo) 識確定為所述文本集合的正式語義標(biāo)識。
[0042] 根據(jù)本發(fā)明的第二方面，與上述方法100相對應(yīng)，本發(fā)明還提供了一種為文本集合生成語義標(biāo)識的裝置200。圖2是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置200以及服務(wù)器300的結(jié)構(gòu)示意圖。
[0043] 如圖2所示，所述裝置200主要包括候選語義標(biāo)識獲得模塊210、優(yōu)先級確定模塊 220、正式語義標(biāo)識確定模塊230。根據(jù)本發(fā)明的實(shí)施例，所述候選語義標(biāo)識獲得模塊210用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè) 文本相對應(yīng)的候選語義標(biāo)識；所述優(yōu)先級確定模塊220用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；所述正式語義標(biāo)識確定模塊230用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0044] 首先，所述候選語義標(biāo)識獲得模塊210對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0045] 根據(jù)本發(fā)明的實(shí)施例，所述候選語義標(biāo)識獲得模塊210可以執(zhí)行以下操作中的至少一個(gè)：
[0046] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；
[0047] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及；
[0048] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0049] 根據(jù)本發(fā)明的實(shí)施例，首先，所述候選語義標(biāo)識獲得模塊210可以對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞?？蛇x地，所述候選語義標(biāo)識獲得模塊210可以采用本領(lǐng)域中的任何分詞技術(shù)來對于文本集合中的每一個(gè)文本進(jìn)行分詞。例如，某一文本內(nèi)容為"望京世界百貨豆豆鞋專賣店"，所述候選語義標(biāo)識獲得模塊210對該文本進(jìn)行分詞后，得到一組分詞為："望京"、"世界"、"百貨"、"豆"、"豆"、"鞋"、 "專賣店"。舉出此示例是為了幫助讀者更容易地理解本發(fā)明的原理，而非意在以任何形式限制本發(fā)明的范圍。本發(fā)明的范圍不限于此，而是可以應(yīng)用于任何文本集合和文本內(nèi)容。
[0050] 隨后，所述候選語義標(biāo)識獲得模塊210可以將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞。根據(jù)本發(fā)明的實(shí)施例，若第一組分詞中存在連續(xù)η個(gè)分詞均為單字，則所述候選語義標(biāo)識獲得模塊210將該η個(gè)連續(xù)的單字合并成一個(gè)分詞，其中η大于等于2,以得到第二組分詞。承接前述例子，該組分詞中存在連續(xù)3個(gè)單字"豆"、"豆"、"鞋"，則將該3個(gè)單字合并為一個(gè)分詞"豆豆鞋"，因此，可以得到第二組分詞為："望京"、"世界"、"百貨"、"豆豆鞋"、"專賣店"。
[0051] 之后，所述候選語義標(biāo)識獲得模塊210將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。根據(jù)本發(fā)明的實(shí)施例，以對上述第二組分詞中的各個(gè)分詞進(jìn)行排列組合為例，所述候選語義標(biāo)識獲得模塊210可以遍歷第二組分詞中的每一個(gè)分詞，將當(dāng)前遍歷的分詞作為一個(gè)候選語義標(biāo)識，再以該當(dāng)前遍歷的分詞作為組合分詞的首分詞，將該當(dāng)前遍歷的分詞后面的每一個(gè) 分詞分別作為組合分詞的尾分詞，針對每一個(gè)尾分詞，所述候選語義標(biāo)識獲得模塊210可以將前述首分詞+中間分詞（其中中間分詞為位于首分詞與該尾分詞之間的分詞）+尾分詞作為一個(gè)組合分詞，將該組合分詞作為候選語義標(biāo)識；以此類推，直到遍歷完第二組分詞中的所有分詞。承接上述例子，遍歷第二組分詞，所述候選語義標(biāo)識獲得模塊210首先遍歷 "望京"，將"望京"本身作為候選語義標(biāo)識，將組合分詞"望京世界"、"望京世界百貨"、"望京世界百貨豆豆鞋"、"望京世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識；所述候選語義標(biāo)識獲得模塊210遍歷下一個(gè)分詞"世界"，將"世界"本身作為一候選語義標(biāo)識，將組合分詞"世界百貨"、"世界百貨豆豆鞋"、"世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識依次遍歷，直到遍歷完"專賣店"為止。所述候選語義標(biāo)識獲得模塊210可以將按照上述操作獲得的所有語義標(biāo)識作為所述文本相對應(yīng)的候選語義標(biāo)識。
[0052] 根據(jù)本發(fā)明的一種可選的實(shí)施例，所述裝置200還可以包括可選模塊一候選語義標(biāo)識篩選模塊，用于在所述候選語義標(biāo)識獲得模塊210獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后：從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字；以及在判斷為是的情況下，刪除所述候選語義標(biāo)識。上述可選模塊的功能主要是從候選語義標(biāo)識中濾除無效的語義標(biāo)識。
[0053] 之后，所述優(yōu)先級確定模塊220根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級。
[0054] 根據(jù)本發(fā)明的實(shí)施例，所述裝置200還可以包括文本特征和用戶行為特征獲得模塊，用于在所述候選語義標(biāo)識獲得模塊210獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后、在所述優(yōu)先級確定模塊220確定每一個(gè)候選語義標(biāo)識的優(yōu)先級之前，將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量Ν，以作為該候選語義標(biāo)識的文本特征；以及根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ，以作為該候選語義標(biāo)識的用戶行為特征。即，在上述實(shí)施例中，候選語義標(biāo)識的文本特征為對于該候選語義標(biāo)識匹配成功的文本數(shù)量Ν，而候選語義標(biāo)識的用戶行為特征為該候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ。
[0055] 根據(jù)本發(fā)明的實(shí)施例，所述文本特征和用戶行為特征獲得模塊的上述將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的操作包括：判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo) 識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié)果均為是，所述文本特征和用戶行為特征獲得模塊則確定所述語義標(biāo)識與所述文本匹配。承接上述例子，假設(shè)候選語義標(biāo)識為"豆豆鞋"，則其完全包含在文本"豆豆鞋女士"中，與該文本匹配，但不完全包含在"豆鞋女士"中，與該文本不匹配。由此，所述文本特征和用戶行為特征獲得模塊可以得到對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量Ν，以作為該候選語義標(biāo)識的文本特征。
[0056] 根據(jù)本發(fā)明的實(shí)施例，所述文本特征和用戶行為特征獲得模塊的上述根據(jù)用戶行為日志統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的操作包括：根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次Μ?？蛇x地，文本在用戶行為中涉及可以包括以下幾種情況：情況1，用戶輸入該候選語義標(biāo)識所在的文本，將該文本作為查詢關(guān)鍵詞；情況2,用戶通過點(diǎn)擊（如單擊/雙擊）或其它方式（比如用戶點(diǎn)擊鏈接后顯示的網(wǎng)頁的標(biāo)題為該候選語義標(biāo)識所在的文本）觸發(fā)該候選語義標(biāo)識所在的文本，例如，文本1為"豆豆鞋女"，文本2為"豆豆鞋男"，候選語義標(biāo)識為"豆豆鞋"，根據(jù)所有的用戶行為日志統(tǒng)計(jì)得到：用戶在輸入框中輸入"豆豆鞋女"的次數(shù)為nl，輸入框中輸入"豆豆鞋男"的次數(shù)為n2,用戶通過點(diǎn)擊"豆豆鞋女"的次數(shù)為n3,點(diǎn)擊"豆豆鞋男"的次數(shù)為n4，采用其他方式觸發(fā)"豆豆鞋女"的次數(shù)為n5,采用其他方式觸發(fā)"豆豆鞋男"的次數(shù)為n5，則統(tǒng)計(jì)得到該候選語義標(biāo)識"豆豆鞋"被用戶選中的總頻次為（nl+n2+n3+n4+n5+n6)?？蛇x 地，所述文本特征和用戶行為特征獲得模塊可以將上述情況1和情況2中的次數(shù)相加，以得到每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ，以作為該候選語義標(biāo)識的用戶行為特征。
[0057] 根據(jù)本發(fā)明的實(shí)施例，所述候選語義標(biāo)識的優(yōu)先級可以與所述文本數(shù)量Ν、頻次 Μ、以及長度L正相關(guān)。在一種實(shí)施例中，所述優(yōu)先級確定模塊220可以根據(jù)所述匹配成功的文本數(shù)量Ν、頻次Μ、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級Ρ:尸= #xVZx(l + IogOO / 10000)。本領(lǐng)域技術(shù)人員能夠理解：所述優(yōu)先級確定模塊220通過上述公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P的方式僅為本發(fā)明的一種實(shí)施例，本發(fā)明的范圍不限于此，只要能夠根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級，都符合本發(fā)明的原理，落入本發(fā)明的范圍內(nèi)。
[0058] 然后，所述正式語義標(biāo)識確定模塊230將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識?？蛇x地，所述正式語義標(biāo)識確定模塊230可以將優(yōu) 先級最高的一個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識，也可以將優(yōu)先級最高的多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0059] 本發(fā)明提供了上述為文本集合生成語義標(biāo)識的方法和裝置。根據(jù)本發(fā)明的實(shí)施例，可以對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識，并根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級，然后，將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。由此，相對于現(xiàn)有技術(shù)中為文本集合或類別生成語義標(biāo)識的方案，極大地提高了效率，并且能夠適應(yīng)任何新出現(xiàn)或新領(lǐng)域的文本集合或類別，為其生成適當(dāng)?shù)恼Z義標(biāo)識。此外，由于在確定候選語義標(biāo)識的優(yōu)先級時(shí)還考慮了候選語義標(biāo)識的用戶行為特征，能夠使得最終確定的正式語義標(biāo)識更準(zhǔn)確，更能夠符合用戶的實(shí)際需求。
[0060] 在此提供的方法和裝置不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述，構(gòu)造這類裝置所要求的結(jié)構(gòu)是顯而易見的。此外，本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白，可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容，并且上面對特定語言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。
[0061] 在此處所提供的說明書中，說明了大量具體細(xì)節(jié)。然而，能夠理解，本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中，并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù)，以便不模糊對本說明書的理解。
[0062] 類似地，應(yīng)當(dāng)理解，為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè)，在上面對本發(fā)明的示例性實(shí)施例的描述中，本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而，并不應(yīng)將該公開的方法解釋成反映如下意圖：即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說，如權(quán)利要求書所反映的那樣，發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此，遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】，其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0063] 本領(lǐng)域那些技術(shù)人員可以理解，可以對實(shí)施例中的裝置中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)裝置中。可以把實(shí)施例中的若干模塊組合成一個(gè)模塊或單元或組件，以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者模塊中的至少一些是相互排斥之外，可以采用任何組合對本說明書（包括伴隨的權(quán)利要求、摘要和附圖）中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述，本說明書（包括伴隨的權(quán)利要求、摘要和附圖）中公開的每個(gè)特征可以由提供相同、等同或相似目的替代特征來代替。
[0064] 此外，本領(lǐng)域的技術(shù)人員能夠理解，盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征，但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如，在權(quán)利要求書中，所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0065] 本發(fā)明的各個(gè)裝置實(shí)施例可以以硬件實(shí)現(xiàn)，或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn)，或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器（DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的裝置中的一些或者全部模塊的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序（例如，計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品）。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上，或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到，或者在載體信號上提供，或者以任何其他形式提供。
[0066] 應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制，并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中，不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中，這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序?？蓪⑦@些單詞解釋為名稱。
[0067] 本發(fā)明還公開了：
[0068] Al. -種為文本集合生成語義標(biāo)識的方法，包括步驟：
[0069] 對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；
[0070] 根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及
[0071] 將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0072] A2.如權(quán)利要求Al所述的方法，其中所述對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識的步驟包括以下中的至少一個(gè)：
[0073] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；
[0074] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及
[0075] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0076] A3.如權(quán)利要求Al所述的方法，其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：
[0077] 從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；
[0078] 判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；
[0079] 在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng) 的第二組分詞中的非首字或非尾字；以及
[0080] 在判斷為是的情況下，刪除所述候選語義標(biāo)識。
[0081] A4.如權(quán)利要求Al至A3中的任一項(xiàng)所述的方法，其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：
[0082] 將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn) 行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征；以及
[0083] 根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。
[0084] A5.如權(quán)利要求A4所述的方法，其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量 N、頻次M、以及長度L正相關(guān)。
[0085] A6.如權(quán)利要求A4所述的方法，其中將所述文本集合中所有文本相對應(yīng)的每一個(gè) 候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括：
[0086] 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié) 果均為是，則確定所述語義標(biāo)識與所述文本匹配。
[0087] A7.如權(quán)利要求A4所述的方法，其中所述根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟包括：
[0088] 根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次M。
[0089] A8.如權(quán)利要求A4所述的方法，其中所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟包括：
[0090] 根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P :
[0091] P = # X λ/Γ X (I + log (#) / 10000)。
[0092] B9. -種為文本集合生成語義標(biāo)識的裝置，包括：
[0093] 候選語義標(biāo)識獲得模塊，用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；
[0094] 優(yōu)先級確定模塊，用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及
[0095] 正式語義標(biāo)識確定模塊，用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0096] B10.如權(quán)利要求B9所述的裝置，其中所述候選語義標(biāo)識獲得模塊用于執(zhí)行以下中的至少一個(gè)：
[0097] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；
[0098] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及
[0099] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0100] BlL如權(quán)利要求B9所述的裝置，還包括候選語義標(biāo)識篩選模塊，用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后：
[0101] 從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；
[0102] 判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；
[0103] 在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng) 的第二組分詞中的非首字或非尾字；以及
[0104] 在判斷為是的情況下，刪除所述候選語義標(biāo)識。
[0105] B12.如權(quán)利要求B9至Bll中的任一項(xiàng)所述的裝置，還包括文本特征和用戶行為特征獲得模塊，用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后：
[0106] 將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn) 行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征；以及
[0107] 根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。
[0108] B13.如權(quán)利要求B12所述的裝置，其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù) 量N、頻次M、以及長度L正相關(guān)。
[0109] B14.如權(quán)利要求B12所述的裝置，其中所述文本特征和用戶行為特征獲得模塊用于：
[0110] 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié) 果均為是，則確定所述語義標(biāo)識與所述文本匹配。
[0111] B15.如權(quán)利要求B12所述的裝置，其中所述文本特征和用戶行為特征獲得模塊用于：
[0112] 根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的的頻次M。
[0113] B16.如權(quán)利要求B8所述的裝置，其中所述優(yōu)先級確定模塊用于：
[0114] 根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P :
[0115] Z5 = # X VZ X (I + log ClO / 10000)。
【權(quán)利要求】
1. 一種為文本集合生成語義標(biāo)識的方法，包括步驟：對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
2. 如權(quán)利要求1所述的方法，其中所述對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識的步驟包括以下中的至少一個(gè)：對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
3. 如權(quán)利要求1所述的方法，其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：從候選語義標(biāo)識中刪除單字候選語義標(biāo)識；判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字；在判斷為是的情況下，進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字；以及在判斷為是的情況下，刪除所述候選語義標(biāo)識。
4. 如權(quán)利要求1至3中的任一項(xiàng)所述的方法，其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后，所述方法還包括步驟：將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配，以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N，以作為該候選語義標(biāo)識的文本特征；以及根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M，以作為該候選語義標(biāo)識的用戶行為特征。
5. 如權(quán)利要求4所述的方法，其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次 M、以及長度L正相關(guān)。
6. 如權(quán)利要求4所述的方法，其中將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括：判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù)，如果兩個(gè)判斷結(jié)果均為是，則確定所述語義標(biāo)識與所述文本匹配。
7. 如權(quán)利要求4所述的方法，其中所述根據(jù)用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟包括：根據(jù)所述用戶行為日志，統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次，以確定所述文本在用戶行為中所涉及的頻次M。
8. 如權(quán)利要求4所述的方法，其中所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟包括：根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L，通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P: Z3 = # X VI X (I + log (i〇/ 10000)〇
9. 一種為文本集合生成語義標(biāo)識的裝置，包括：候選語義標(biāo)識獲得模塊，用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè)，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識；優(yōu)先級確定模塊，用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L，確定每一個(gè)候選語義標(biāo)識的優(yōu)先級；以及正式語義標(biāo)識確定模塊，用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
10. 如權(quán)利要求9所述的裝置，其中所述候選語義標(biāo)識獲得模塊用于執(zhí)行以下中的至少一個(gè)：對所述文本集合中的每一個(gè)文本進(jìn)行分詞，以獲得每一個(gè)文本相對應(yīng)的第一組分詞；將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞，以獲得與每一個(gè)文本相對應(yīng)的第二組分詞；以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合，以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
【文檔編號】G06F17/30GK104462360SQ201410743203
【公開日】2015年3月25日申請日期:2014年12月5日優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】楊詩申請人:北京奇虎科技有限公司, 奇智軟件（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊詩;
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本語義分析相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

文本語義相似度計(jì)算相關(guān)技術(shù)

短文本語義分析相關(guān)技術(shù)

短文本語義相似度相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種為文本集合生成語義標(biāo)識的方法和裝置制造方法