一種為文本集合生成語義標(biāo)識的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種為文本集合生成語義標(biāo)識的方法和裝置,所述方法包括以下步驟:對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識;根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;以及將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
【專利說明】一種為文本集合生成語義標(biāo)識的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種為文本集合生成語義標(biāo)識的方法和 裝直。
【背景技術(shù)】
[0002] 目前,在互聯(lián)網(wǎng)領(lǐng)域,為了更好的了解用戶的需求和興趣,經(jīng)常需要對各類短文本 進(jìn)行分類,針對每個(gè)短文本集合,通過對該文本集合中的文本進(jìn)行分析,生成與該文本集合 對應(yīng)的語義標(biāo)識,并為每一個(gè)文本集合打上相對應(yīng)的語義標(biāo)識。如某個(gè)襯衫集合打上"襯衫 女"/ "襯衫男"等語義標(biāo)識;如針對某鞋類,打上"豆豆鞋女"或"牛津鞋"等語義標(biāo)識。但 是由于文本類別繁多,數(shù)以萬計(jì),通過傳統(tǒng)方法對每一種文本集合打上相應(yīng)的語義標(biāo)識,效 率較低,速度緩慢。
【發(fā)明內(nèi)容】
[0003] 鑒于上述問題,提出了本發(fā)明,以便提供一種克服上述問題或者至少部分地解決 上述問題的為文本集合生成語義標(biāo)識的方法和裝置。
[0004] 依據(jù)本發(fā)明的第一方面,提供了一種為文本集合生成語義標(biāo)識的方法,包括步驟: 對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文 本相對應(yīng)的候選語義標(biāo)識;根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度 L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;以及將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定 為所述文本集合的正式語義標(biāo)識。
[0005] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,所述對文 本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相 對應(yīng)的候選語義標(biāo)識的步驟包括以下中的至少一個(gè):對所述文本集合中的每一個(gè)文本進(jìn)行 分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分詞;將所述每一個(gè)文本相對應(yīng)的第一組分詞中 的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組 分詞;以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組 合,以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0006] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,在獲得每 一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后,所述方法還包括步驟:從候選語義標(biāo)識中刪除單字 候選語義標(biāo)識;判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字;在判斷為是的情況 下,進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或 非尾字;以及在判斷為是的情況下,刪除所述候選語義標(biāo)識。
[0007] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,在獲得每 一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后,所述方法還包括步驟:將所述文本集合中所有文本 相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配,以確定對于每一個(gè)候選語義標(biāo) 識匹配成功的文本數(shù)量Ν,以作為該候選語義標(biāo)識的文本特征;以及根據(jù)用戶行為日志,統(tǒng) 計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M,以作為該候選語義標(biāo)識 的用戶行為特征。
[0008] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,所述候選 語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次M、以及長度L正相關(guān)。
[0009] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,將所述文 本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括: 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義 標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié)果均為 是,則確定所述語義標(biāo)識與所述文本匹配。
[0010] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中,所述根據(jù) 用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟 包括:根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢 的頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中所涉及的頻次M。
[0011] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法中, 所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每一個(gè) 候選語義標(biāo)識的優(yōu)先級的步驟包括:根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以 及候選語義標(biāo)識的長度L,通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P : /5 = Viv X X (l + log Uf) / ιοοοο)。
[0012] 依據(jù)本發(fā)明的第二方面,提供了一種為文本集合生成語義標(biāo)識的裝置,包括:候選 語義標(biāo)識獲得模塊,用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至 少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識;優(yōu)先級確定模塊,用于根據(jù)所述候選語 義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;以及 正式語義標(biāo)識確定模塊,用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集 合的正式語義標(biāo)識。
[0013] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,所述候選 語義標(biāo)識獲得模塊用于執(zhí)行以下中的至少一個(gè):對所述文本集合中的每一個(gè)文本進(jìn)行分 詞,以獲得每一個(gè)文本相對應(yīng)的第一組分詞;將所述每一個(gè)文本相對應(yīng)的第一組分詞中的 連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分 詞;以及將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合, 以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0014] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,還包括候 選語義標(biāo)識篩選模塊,用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語 義標(biāo)識之后:從候選語義標(biāo)識中刪除單字候選語義標(biāo)識;判斷組成候選語義標(biāo)識的首分詞 或尾分詞是否為單字;在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選語 義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字;以及在判斷為是的情況下,刪除所述候 選語義標(biāo)識。
[0015] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,還包括文 本特征和用戶行為特征獲得模塊,用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對 應(yīng)的候選語義標(biāo)識之后:將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述 每一個(gè)文本進(jìn)行匹配,以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N,以作為該候 選語義標(biāo)識的文本特征;以及根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在 用戶行為中所涉及的頻次M,以作為該候選語義標(biāo)識的用戶行為特征。
[0016] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,所述候選 語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次M、以及長度L正相關(guān)。
[0017] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,所述文本 特征和用戶行為特征獲得模塊用于:判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文 本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出 現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié)果均為是,則確定所述語義標(biāo)識與所述文本匹配。
[0018] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置中,所述文本 特征和用戶行為特征獲得模塊用于:根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所 在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中 所涉及的頻次M。
[0019] 可選地,在根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置 中,所述優(yōu)先級確定模塊用于:根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及 候選語義標(biāo)識的長度L,通過以下公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P : P = # X VIX (I + log (JO / 10000)。
[0020] 本發(fā)明提供了上述為文本集合生成語義標(biāo)識的方法和裝置。根據(jù)本發(fā)明的實(shí)施 例,可以對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得 每一個(gè)文本相對應(yīng)的候選語義標(biāo)識,并根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、 以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級,然后,將優(yōu)先級最高的一個(gè)或多個(gè)候選語 義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。由此,相對于現(xiàn)有技術(shù)中為文本集合或類別 生成語義標(biāo)識的方案,極大地提高了效率,并且能夠適應(yīng)任何新出現(xiàn)或新領(lǐng)域的文本集合 或類別,為其生成適當(dāng)?shù)恼Z義標(biāo)識。此外,由于在確定候選語義標(biāo)識的優(yōu)先級時(shí)還考慮了候 選語義標(biāo)識的用戶行為特征,能夠使得最終確定的正式語義標(biāo)識更準(zhǔn)確,更能夠符合用戶 的實(shí)際需求。
[0021] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0022] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0023] 圖1是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法的流程圖;以及
[0024] 圖2是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝置以及服務(wù)器的結(jié) 構(gòu)示意圖。
【具體實(shí)施方式】
[0025] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026] 根據(jù)本發(fā)明的第一方面,提供了一種為文本集合生成語義標(biāo)識的方法。圖1示出 了根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的方法100的流程圖。
[0027] 如圖1所示,所述方法100始于步驟S110,在步驟SllO中,對文本集合中的每一個(gè) 文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo) 識。
[0028] 根據(jù)本發(fā)明的實(shí)施例,所述步驟SllO可以包括以下子步驟中的至少一個(gè):
[0029] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分 詞(子步驟Sl 12);
[0030] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合 并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞(子步驟S114);以及;
[0031] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合, 以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識(子步驟Sl 16)。
[0032] 在上述子步驟S112中,可以對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每 一個(gè)文本相對應(yīng)的第一組分詞。可選地,可以采用本領(lǐng)域中的任何分詞技術(shù)來對于文本集 合中的每一個(gè)文本進(jìn)行分詞。例如,某一文本內(nèi)容為"望京世界百貨豆豆鞋專賣店",對該文 本進(jìn)行分詞后,得到一組分詞為:"望京"、"世界"、"百貨"、"豆"、"豆"、"鞋"、"專賣店"。舉 出此示例是為了幫助讀者更容易地理解本發(fā)明的原理,而非意在以任何形式限制本發(fā)明的 范圍。本發(fā)明的范圍不限于此,而是可以應(yīng)用于任何文本集合和文本內(nèi)容。
[0033] 在上述子步驟S114中,將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或 更多個(gè)單字分詞分別合并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞。根據(jù)本 發(fā)明的實(shí)施例,若第一組分詞中存在連續(xù)η個(gè)分詞均為單字,則將該η個(gè)連續(xù)的單字合并成 一個(gè)分詞,其中η大于等于2,以得到第二組分詞。承接前述例子,該組分詞中存在連續(xù)3個(gè) 單字"豆"、"豆"、"鞋",則將該3個(gè)單字合并為一個(gè)分詞"豆豆鞋",因此,可以得到第二組分 詞為:"望京"、"世界"、"百貨"、"豆豆鞋"、"專賣店"。
[0034] 在上述子步驟Sl 16中,將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的 各個(gè)分詞進(jìn)行排列組合,以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。根據(jù)本發(fā)明的實(shí)施例, 以對上述第二組分詞中的各個(gè)分詞進(jìn)行排列組合為例,可以遍歷第二組分詞中的每一個(gè)分 詞,將當(dāng)前遍歷的分詞作為一個(gè)候選語義標(biāo)識,再以該當(dāng)前遍歷的分詞作為組合分詞的首 分詞,將該當(dāng)前遍歷的分詞后面的每一個(gè)分詞分別作為組合分詞的尾分詞,針對每一個(gè)尾 分詞,將前述首分詞+中間分詞(其中中間分詞為位于首分詞與該尾分詞之間的分詞)+尾 分詞,作為一個(gè)組合分詞,將該組合分詞作為候選語義標(biāo)識;以此類推,直到遍歷完第二組 分詞中的所有分詞。承接上述例子,遍歷第二組分詞,首先遍歷"望京",將"望京"本身作為 候選語義標(biāo)識,將組合分詞"望京世界"、"望京世界百貨"、"望京世界百貨豆豆鞋"、"望京世 界百貨豆豆鞋專賣店"作為候選語義標(biāo)識;遍歷下一個(gè)分詞"世界",將"世界"本身作為一 候選語義標(biāo)識,將組合分詞"世界百貨"、"世界百貨豆豆鞋"、"世界百貨豆豆鞋專賣店"作為 候選語義標(biāo)識依次遍歷,直到遍歷完"專賣店"為止。可以將按照上述步驟獲得的所有語義 標(biāo)識作為所述文本相對應(yīng)的候選語義標(biāo)識。
[0035] 根據(jù)本發(fā)明的一種可選的實(shí)施例,在執(zhí)行上述步驟SllO之后,所述方法可以包括 以下可選步驟:從候選語義標(biāo)識中刪除單字候選語義標(biāo)識;判斷組成候選語義標(biāo)識的首分 詞或尾分詞是否為單字;在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選 語義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字;以及在判斷為是的情況下,刪除所述 候選語義標(biāo)識。上述可選步驟的目的主要是從候選語義標(biāo)識中濾除無效的語義標(biāo)識。
[0036] 如圖1所示,在所述步驟SllO之后,執(zhí)行步驟S130,其中,根據(jù)所述候選語義標(biāo)識 的文本特征、用戶行為特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級。
[0037] 根據(jù)本發(fā)明的實(shí)施例,在執(zhí)行上述步驟SllO之后、步驟S130之前,可以執(zhí)行以下 步驟:將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹 配,以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N,以作為該候選語義標(biāo)識的文本 特征;以及根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及 的頻次M,以作為該候選語義標(biāo)識的用戶行為特征。即,在上述實(shí)施例中,候選語義標(biāo)識的文 本特征為對于該候選語義標(biāo)識匹配成功的文本數(shù)量N,而候選語義標(biāo)識的用戶行為特征為 該候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M。
[0038] 根據(jù)本發(fā)明的實(shí)施例,上述將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義 標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括:判斷所述候選語義標(biāo)識中的每個(gè)單字是否都 包含在文本中、并且每個(gè)單字在所述候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述 文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié)果均為是,則確定所述語義標(biāo)識與所述文本匹配。承接 上述例子,假設(shè)候選語義標(biāo)識為"豆豆鞋",則其完全包含在文本"豆豆鞋女士"中,與該文本 匹配,但不完全包含在"豆鞋女士"中,與該文本不匹配。由此,可以得到對于每一個(gè)候選語 義標(biāo)識匹配成功的文本數(shù)量N,以作為該候選語義標(biāo)識的文本特征。
[0039] 根據(jù)本發(fā)明的實(shí)施例,上述根據(jù)用戶行為日志統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文 本在用戶行為中所涉及的頻次M的步驟包括:根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語 義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用 戶行為中所涉及的頻次M??蛇x地,文本在用戶行為中涉及可以包括以下幾種情況:情況 1,用戶輸入該候選語義標(biāo)識所在的文本,將該文本作為查詢關(guān)鍵詞;情況2,用戶通過點(diǎn)擊 (如單擊/雙擊)或其它方式(比如用戶點(diǎn)擊鏈接后顯示的網(wǎng)頁的標(biāo)題為該候選語義標(biāo)識 所在的文本)觸發(fā)該候選語義標(biāo)識所在的文本,例如,文本1為"豆豆鞋女",文本2為"豆 豆鞋男",候選語義標(biāo)識為"豆豆鞋",根據(jù)所有的用戶行為日志統(tǒng)計(jì)得到:用戶在輸入框中 輸入"豆豆鞋女"的次數(shù)為nl,輸入框中輸入"豆豆鞋男"的次數(shù)為n2,用戶通過點(diǎn)擊"豆豆 鞋女"的次數(shù)為n3,點(diǎn)擊"豆豆鞋男"的次數(shù)為n4,采用其他方式觸發(fā)"豆豆鞋女"的次數(shù)為 n5,采用其他方式觸發(fā)"豆豆鞋男"的次數(shù)為n5,則統(tǒng)計(jì)得到該候選語義標(biāo)識"豆豆鞋"被用 戶選中的總頻次為(nl+n2+n3+n4+n5+n6)。可選地,可以將上述情況1和情況2中的次數(shù)相 力口,以得到每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ,以作為該候選語 義標(biāo)識的用戶行為特征。
[0040] 根據(jù)本發(fā)明的實(shí)施例,所述候選語義標(biāo)識的優(yōu)先級可以與所述文本數(shù)量N、頻次 M、以及長度L正相關(guān)。在一種實(shí)施例中,所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為 特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟可以包括:根據(jù)所述匹配成功 的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L,通過以下公式確定每一個(gè)候選語義標(biāo)識 的優(yōu)先級P=Z5 = ^xVZxfl + IogU/) / 10000)。本領(lǐng)域技術(shù)人員能夠理解:通過上述 公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P的方式僅為本發(fā)明的一種實(shí)施例,本發(fā)明的范圍 不限于此,只要能夠根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每 一個(gè)候選語義標(biāo)識的優(yōu)先級,都符合本發(fā)明的原理,落入本發(fā)明的范圍內(nèi)。
[0041] 如圖1所示,在步驟S120之后,執(zhí)行步驟S130,其中,將優(yōu)先級最高的一個(gè)或多個(gè) 候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。可選地,可以將優(yōu)先級最高的一個(gè)候 選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識,也可以將優(yōu)先級最高的多個(gè)候選語義標(biāo) 識確定為所述文本集合的正式語義標(biāo)識。
[0042] 根據(jù)本發(fā)明的第二方面,與上述方法100相對應(yīng),本發(fā)明還提供了一種為文本集 合生成語義標(biāo)識的裝置200。圖2是根據(jù)本發(fā)明的實(shí)施例的為文本集合生成語義標(biāo)識的裝 置200以及服務(wù)器300的結(jié)構(gòu)示意圖。
[0043] 如圖2所示,所述裝置200主要包括候選語義標(biāo)識獲得模塊210、優(yōu)先級確定模塊 220、正式語義標(biāo)識確定模塊230。根據(jù)本發(fā)明的實(shí)施例,所述候選語義標(biāo)識獲得模塊210用 于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一個(gè) 文本相對應(yīng)的候選語義標(biāo)識;所述優(yōu)先級確定模塊220用于根據(jù)所述候選語義標(biāo)識的文本 特征、用戶行為特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;所述正式語義標(biāo)識 確定模塊230用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式 語義標(biāo)識。
[0044] 首先,所述候選語義標(biāo)識獲得模塊210對文本集合中的每一個(gè)文本進(jìn)行分詞、單 字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0045] 根據(jù)本發(fā)明的實(shí)施例,所述候選語義標(biāo)識獲得模塊210可以執(zhí)行以下操作中的至 少一個(gè):
[0046] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分 詞;
[0047] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合 并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞;以及;
[0048] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合, 以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0049] 根據(jù)本發(fā)明的實(shí)施例,首先,所述候選語義標(biāo)識獲得模塊210可以對所述文本集 合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分詞??蛇x地,所述候選語 義標(biāo)識獲得模塊210可以采用本領(lǐng)域中的任何分詞技術(shù)來對于文本集合中的每一個(gè)文本 進(jìn)行分詞。例如,某一文本內(nèi)容為"望京世界百貨豆豆鞋專賣店",所述候選語義標(biāo)識獲得模 塊210對該文本進(jìn)行分詞后,得到一組分詞為:"望京"、"世界"、"百貨"、"豆"、"豆"、"鞋"、 "專賣店"。舉出此示例是為了幫助讀者更容易地理解本發(fā)明的原理,而非意在以任何形式 限制本發(fā)明的范圍。本發(fā)明的范圍不限于此,而是可以應(yīng)用于任何文本集合和文本內(nèi)容。
[0050] 隨后,所述候選語義標(biāo)識獲得模塊210可以將所述每一個(gè)文本相對應(yīng)的第一組分 詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第 二組分詞。根據(jù)本發(fā)明的實(shí)施例,若第一組分詞中存在連續(xù)η個(gè)分詞均為單字,則所述候選 語義標(biāo)識獲得模塊210將該η個(gè)連續(xù)的單字合并成一個(gè)分詞,其中η大于等于2,以得到第 二組分詞。承接前述例子,該組分詞中存在連續(xù)3個(gè)單字"豆"、"豆"、"鞋",則將該3個(gè)單 字合并為一個(gè)分詞"豆豆鞋",因此,可以得到第二組分詞為:"望京"、"世界"、"百貨"、"豆豆 鞋"、"專賣店"。
[0051] 之后,所述候選語義標(biāo)識獲得模塊210將所述每一個(gè)文本對應(yīng)的第一組分詞或第 二組分詞中的各個(gè)分詞進(jìn)行排列組合,以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。根據(jù)本 發(fā)明的實(shí)施例,以對上述第二組分詞中的各個(gè)分詞進(jìn)行排列組合為例,所述候選語義標(biāo)識 獲得模塊210可以遍歷第二組分詞中的每一個(gè)分詞,將當(dāng)前遍歷的分詞作為一個(gè)候選語義 標(biāo)識,再以該當(dāng)前遍歷的分詞作為組合分詞的首分詞,將該當(dāng)前遍歷的分詞后面的每一個(gè) 分詞分別作為組合分詞的尾分詞,針對每一個(gè)尾分詞,所述候選語義標(biāo)識獲得模塊210可 以將前述首分詞+中間分詞(其中中間分詞為位于首分詞與該尾分詞之間的分詞)+尾分 詞作為一個(gè)組合分詞,將該組合分詞作為候選語義標(biāo)識;以此類推,直到遍歷完第二組分詞 中的所有分詞。承接上述例子,遍歷第二組分詞,所述候選語義標(biāo)識獲得模塊210首先遍歷 "望京",將"望京"本身作為候選語義標(biāo)識,將組合分詞"望京世界"、"望京世界百貨"、"望京 世界百貨豆豆鞋"、"望京世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識;所述候選語義標(biāo)識獲 得模塊210遍歷下一個(gè)分詞"世界",將"世界"本身作為一候選語義標(biāo)識,將組合分詞"世界 百貨"、"世界百貨豆豆鞋"、"世界百貨豆豆鞋專賣店"作為候選語義標(biāo)識依次遍歷,直到遍 歷完"專賣店"為止。所述候選語義標(biāo)識獲得模塊210可以將按照上述操作獲得的所有語 義標(biāo)識作為所述文本相對應(yīng)的候選語義標(biāo)識。
[0052] 根據(jù)本發(fā)明的一種可選的實(shí)施例,所述裝置200還可以包括可選模塊一候選語 義標(biāo)識篩選模塊,用于在所述候選語義標(biāo)識獲得模塊210獲得每一個(gè)文本相對應(yīng)的候選語 義標(biāo)識之后:從候選語義標(biāo)識中刪除單字候選語義標(biāo)識;判斷組成候選語義標(biāo)識的首分詞 或尾分詞是否為單字;在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選語 義標(biāo)識相對應(yīng)的第二組分詞中的非首字或非尾字;以及在判斷為是的情況下,刪除所述候 選語義標(biāo)識。上述可選模塊的功能主要是從候選語義標(biāo)識中濾除無效的語義標(biāo)識。
[0053] 之后,所述優(yōu)先級確定模塊220根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特 征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級。
[0054] 根據(jù)本發(fā)明的實(shí)施例,所述裝置200還可以包括文本特征和用戶行為特征獲得模 塊,用于在所述候選語義標(biāo)識獲得模塊210獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后、 在所述優(yōu)先級確定模塊220確定每一個(gè)候選語義標(biāo)識的優(yōu)先級之前,將所述文本集合中所 有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配,以確定對于每一個(gè)候選 語義標(biāo)識匹配成功的文本數(shù)量Ν,以作為該候選語義標(biāo)識的文本特征;以及根據(jù)用戶行為 日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ,以作為該候選語 義標(biāo)識的用戶行為特征。即,在上述實(shí)施例中,候選語義標(biāo)識的文本特征為對于該候選語義 標(biāo)識匹配成功的文本數(shù)量Ν,而候選語義標(biāo)識的用戶行為特征為該候選語義標(biāo)識所在的文 本在用戶行為中所涉及的頻次Μ。
[0055] 根據(jù)本發(fā)明的實(shí)施例,所述文本特征和用戶行為特征獲得模塊的上述將所述文本 集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的操作包括:判 斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選語義標(biāo) 識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié)果均為是, 所述文本特征和用戶行為特征獲得模塊則確定所述語義標(biāo)識與所述文本匹配。承接上述例 子,假設(shè)候選語義標(biāo)識為"豆豆鞋",則其完全包含在文本"豆豆鞋女士"中,與該文本匹配, 但不完全包含在"豆鞋女士"中,與該文本不匹配。由此,所述文本特征和用戶行為特征獲 得模塊可以得到對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量Ν,以作為該候選語義標(biāo)識 的文本特征。
[0056] 根據(jù)本發(fā)明的實(shí)施例,所述文本特征和用戶行為特征獲得模塊的上述根據(jù)用戶行 為日志統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的操作包括:根 據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的頻次、 被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中所涉及的頻次Μ??蛇x地,文本在用戶行 為中涉及可以包括以下幾種情況:情況1,用戶輸入該候選語義標(biāo)識所在的文本,將該文本 作為查詢關(guān)鍵詞;情況2,用戶通過點(diǎn)擊(如單擊/雙擊)或其它方式(比如用戶點(diǎn)擊鏈接 后顯示的網(wǎng)頁的標(biāo)題為該候選語義標(biāo)識所在的文本)觸發(fā)該候選語義標(biāo)識所在的文本,例 如,文本1為"豆豆鞋女",文本2為"豆豆鞋男",候選語義標(biāo)識為"豆豆鞋",根據(jù)所有的用 戶行為日志統(tǒng)計(jì)得到:用戶在輸入框中輸入"豆豆鞋女"的次數(shù)為nl,輸入框中輸入"豆豆 鞋男"的次數(shù)為n2,用戶通過點(diǎn)擊"豆豆鞋女"的次數(shù)為n3,點(diǎn)擊"豆豆鞋男"的次數(shù)為n4, 采用其他方式觸發(fā)"豆豆鞋女"的次數(shù)為n5,采用其他方式觸發(fā)"豆豆鞋男"的次數(shù)為n5, 則統(tǒng)計(jì)得到該候選語義標(biāo)識"豆豆鞋"被用戶選中的總頻次為(nl+n2+n3+n4+n5+n6)??蛇x 地,所述文本特征和用戶行為特征獲得模塊可以將上述情況1和情況2中的次數(shù)相加,以得 到每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次Μ,以作為該候選語義標(biāo)識 的用戶行為特征。
[0057] 根據(jù)本發(fā)明的實(shí)施例,所述候選語義標(biāo)識的優(yōu)先級可以與所述文本數(shù)量Ν、頻次 Μ、以及長度L正相關(guān)。在一種實(shí)施例中,所述優(yōu)先級確定模塊220可以根據(jù)所述匹配成功 的文本數(shù)量Ν、頻次Μ、以及候選語義標(biāo)識的長度L,通過以下公式確定每一個(gè)候選語義標(biāo)識 的優(yōu)先級Ρ:尸= #xVZx(l + IogOO / 10000)。本領(lǐng)域技術(shù)人員能夠理解:所述優(yōu)先 級確定模塊220通過上述公式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P的方式僅為本發(fā)明的一 種實(shí)施例,本發(fā)明的范圍不限于此,只要能夠根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為 特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級,都符合本發(fā)明的原理,落入本發(fā)明的 范圍內(nèi)。
[0058] 然后,所述正式語義標(biāo)識確定模塊230將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識 確定為所述文本集合的正式語義標(biāo)識??蛇x地,所述正式語義標(biāo)識確定模塊230可以將優(yōu) 先級最高的一個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識,也可以將優(yōu)先級最高 的多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0059] 本發(fā)明提供了上述為文本集合生成語義標(biāo)識的方法和裝置。根據(jù)本發(fā)明的實(shí)施 例,可以對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得 每一個(gè)文本相對應(yīng)的候選語義標(biāo)識,并根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、 以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級,然后,將優(yōu)先級最高的一個(gè)或多個(gè)候選語 義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。由此,相對于現(xiàn)有技術(shù)中為文本集合或類別 生成語義標(biāo)識的方案,極大地提高了效率,并且能夠適應(yīng)任何新出現(xiàn)或新領(lǐng)域的文本集合 或類別,為其生成適當(dāng)?shù)恼Z義標(biāo)識。此外,由于在確定候選語義標(biāo)識的優(yōu)先級時(shí)還考慮了候 選語義標(biāo)識的用戶行為特征,能夠使得最終確定的正式語義標(biāo)識更準(zhǔn)確,更能夠符合用戶 的實(shí)際需求。
[0060] 在此提供的方法和裝置不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類裝置所要求 的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種 編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。
[0061] 在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),以便不模糊對本說明書的理解。
[0062] 類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利 要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具 體實(shí)施方式的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為 本發(fā)明的單獨(dú)實(shí)施例。
[0063] 本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的裝置中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)裝置中。可以把實(shí)施例中的若干模塊 組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。 除了這樣的特征和/或過程或者模塊中的至少一些是相互排斥之外,可以采用任何組合對 本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方 法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利 要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的替代特征來代替。
[0064] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一 都可以以任意的組合方式來使用。
[0065] 本發(fā)明的各個(gè)裝置實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用 微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的裝置中的一些或者全部 模塊的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者 全部的裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存 儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特 網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0066] 應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這 樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件 項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為 名稱。
[0067] 本發(fā)明還公開了:
[0068] Al. -種為文本集合生成語義標(biāo)識的方法,包括步驟:
[0069] 對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得 每一個(gè)文本相對應(yīng)的候選語義標(biāo)識;
[0070] 根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每一個(gè)候選 語義標(biāo)識的優(yōu)先級;以及
[0071] 將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
[0072] A2.如權(quán)利要求Al所述的方法,其中所述對文本集合中的每一個(gè)文本進(jìn)行分詞、 單字合并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識的步驟包括 以下中的至少一個(gè):
[0073] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分 詞;
[0074] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合 并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞;以及
[0075] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合, 以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0076] A3.如權(quán)利要求Al所述的方法,其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之 后,所述方法還包括步驟:
[0077] 從候選語義標(biāo)識中刪除單字候選語義標(biāo)識;
[0078] 判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字;
[0079] 在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng) 的第二組分詞中的非首字或非尾字;以及
[0080] 在判斷為是的情況下,刪除所述候選語義標(biāo)識。
[0081] A4.如權(quán)利要求Al至A3中的任一項(xiàng)所述的方法,其中在獲得每一個(gè)文本相對應(yīng)的 候選語義標(biāo)識之后,所述方法還包括步驟:
[0082] 將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn) 行匹配,以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N,以作為該候選語義標(biāo)識的 文本特征;以及
[0083] 根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的 頻次M,以作為該候選語義標(biāo)識的用戶行為特征。
[0084] A5.如權(quán)利要求A4所述的方法,其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量 N、頻次M、以及長度L正相關(guān)。
[0085] A6.如權(quán)利要求A4所述的方法,其中將所述文本集合中所有文本相對應(yīng)的每一個(gè) 候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括:
[0086] 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述 候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié) 果均為是,則確定所述語義標(biāo)識與所述文本匹配。
[0087] A7.如權(quán)利要求A4所述的方法,其中所述根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語 義標(biāo)識所在的文本在用戶行為中所涉及的頻次M的步驟包括:
[0088] 根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查 詢的頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中所涉及的頻次M。
[0089] A8.如權(quán)利要求A4所述的方法,其中所述根據(jù)所述候選語義標(biāo)識的文本特征、用 戶行為特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟包括:
[0090] 根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L,通過以下公 式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P :
[0091] P = # X λ/Γ X (I + log (#) / 10000)。
[0092] B9. -種為文本集合生成語義標(biāo)識的裝置,包括:
[0093] 候選語義標(biāo)識獲得模塊,用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排 列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識;
[0094] 優(yōu)先級確定模塊,用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長 度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;以及
[0095] 正式語義標(biāo)識確定模塊,用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所 述文本集合的正式語義標(biāo)識。
[0096] B10.如權(quán)利要求B9所述的裝置,其中所述候選語義標(biāo)識獲得模塊用于執(zhí)行以下 中的至少一個(gè):
[0097] 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分 詞;
[0098] 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合 并為一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞;以及
[0099] 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合, 以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
[0100] BlL如權(quán)利要求B9所述的裝置,還包括候選語義標(biāo)識篩選模塊,用于在所述候選 語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后:
[0101] 從候選語義標(biāo)識中刪除單字候選語義標(biāo)識;
[0102] 判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字;
[0103] 在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng) 的第二組分詞中的非首字或非尾字;以及
[0104] 在判斷為是的情況下,刪除所述候選語義標(biāo)識。
[0105] B12.如權(quán)利要求B9至Bll中的任一項(xiàng)所述的裝置,還包括文本特征和用戶行為特 征獲得模塊,用于在所述候選語義標(biāo)識獲得模塊獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之 后:
[0106] 將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn) 行匹配,以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N,以作為該候選語義標(biāo)識的 文本特征;以及
[0107] 根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的 頻次M,以作為該候選語義標(biāo)識的用戶行為特征。
[0108] B13.如權(quán)利要求B12所述的裝置,其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù) 量N、頻次M、以及長度L正相關(guān)。
[0109] B14.如權(quán)利要求B12所述的裝置,其中所述文本特征和用戶行為特征獲得模塊用 于:
[0110] 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述 候選語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié) 果均為是,則確定所述語義標(biāo)識與所述文本匹配。
[0111] B15.如權(quán)利要求B12所述的裝置,其中所述文本特征和用戶行為特征獲得模塊用 于:
[0112] 根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查 詢的頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中所涉及的的頻次M。
[0113] B16.如權(quán)利要求B8所述的裝置,其中所述優(yōu)先級確定模塊用于:
[0114] 根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L,通過以下公 式確定每一個(gè)候選語義標(biāo)識的優(yōu)先級P :
[0115] Z5 = # X VZ X (I + log ClO / 10000)。
【權(quán)利要求】
1. 一種為文本集合生成語義標(biāo)識的方法,包括步驟: 對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組合中的至少一個(gè),以獲得每一 個(gè)文本相對應(yīng)的候選語義標(biāo)識; 根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L,確定每一個(gè)候選語義 標(biāo)識的優(yōu)先級;以及 將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文本集合的正式語義標(biāo)識。
2. 如權(quán)利要求1所述的方法,其中所述對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合 并、排列組合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識的步驟包括以下中 的至少一個(gè): 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分詞; 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為 一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞;以及 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合,以獲 得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
3. 如權(quán)利要求1所述的方法,其中在獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識之后,所 述方法還包括步驟: 從候選語義標(biāo)識中刪除單字候選語義標(biāo)識; 判斷組成候選語義標(biāo)識的首分詞或尾分詞是否為單字; 在判斷為是的情況下,進(jìn)一步判斷所述單字是否位于與所述候選語義標(biāo)識相對應(yīng)的第 二組分詞中的非首字或非尾字;以及 在判斷為是的情況下,刪除所述候選語義標(biāo)識。
4. 如權(quán)利要求1至3中的任一項(xiàng)所述的方法,其中在獲得每一個(gè)文本相對應(yīng)的候選語 義標(biāo)識之后,所述方法還包括步驟: 將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語義標(biāo)識與所述每一個(gè)文本進(jìn)行匹 配,以確定對于每一個(gè)候選語義標(biāo)識匹配成功的文本數(shù)量N,以作為該候選語義標(biāo)識的文本 特征;以及 根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本在用戶行為中所涉及的頻次M,以作為該候選語義標(biāo)識的用戶行為特征。
5. 如權(quán)利要求4所述的方法,其中所述候選語義標(biāo)識的優(yōu)先級與所述文本數(shù)量N、頻次 M、以及長度L正相關(guān)。
6. 如權(quán)利要求4所述的方法,其中將所述文本集合中所有文本相對應(yīng)的每一個(gè)候選語 義標(biāo)識與所述每一個(gè)文本進(jìn)行匹配的步驟包括: 判斷所述候選語義標(biāo)識中的每個(gè)單字是否都包含在文本中、并且每個(gè)單字在所述候選 語義標(biāo)識中出現(xiàn)的次數(shù)是否小于所述單字在所述文本中出現(xiàn)的次數(shù),如果兩個(gè)判斷結(jié)果均 為是,則確定所述語義標(biāo)識與所述文本匹配。
7. 如權(quán)利要求4所述的方法,其中所述根據(jù)用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識 所在的文本在用戶行為中所涉及的頻次M的步驟包括: 根據(jù)所述用戶行為日志,統(tǒng)計(jì)每一個(gè)候選語義標(biāo)識所在的文本被用戶輸入進(jìn)行查詢的 頻次、被用戶點(diǎn)擊的頻次,以確定所述文本在用戶行為中所涉及的頻次M。
8. 如權(quán)利要求4所述的方法,其中所述根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為 特征、以及長度L,確定每一個(gè)候選語義標(biāo)識的優(yōu)先級的步驟包括: 根據(jù)所述匹配成功的文本數(shù)量N、頻次M、以及候選語義標(biāo)識的長度L,通過以下公式確 定每一個(gè)候選語義標(biāo)識的優(yōu)先級P: Z3 = # X VI X (I + log (i〇/ 10000)〇
9. 一種為文本集合生成語義標(biāo)識的裝置,包括: 候選語義標(biāo)識獲得模塊,用于對文本集合中的每一個(gè)文本進(jìn)行分詞、單字合并、排列組 合中的至少一個(gè),以獲得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識; 優(yōu)先級確定模塊,用于根據(jù)所述候選語義標(biāo)識的文本特征、用戶行為特征、以及長度L, 確定每一個(gè)候選語義標(biāo)識的優(yōu)先級;以及 正式語義標(biāo)識確定模塊,用于將優(yōu)先級最高的一個(gè)或多個(gè)候選語義標(biāo)識確定為所述文 本集合的正式語義標(biāo)識。
10. 如權(quán)利要求9所述的裝置,其中所述候選語義標(biāo)識獲得模塊用于執(zhí)行以下中的至 少一個(gè): 對所述文本集合中的每一個(gè)文本進(jìn)行分詞,以獲得每一個(gè)文本相對應(yīng)的第一組分詞; 將所述每一個(gè)文本相對應(yīng)的第一組分詞中的連續(xù)兩個(gè)或更多個(gè)單字分詞分別合并為 一個(gè)分詞,以獲得與每一個(gè)文本相對應(yīng)的第二組分詞;以及 將所述每一個(gè)文本對應(yīng)的第一組分詞或第二組分詞中的各個(gè)分詞進(jìn)行排列組合,以獲 得每一個(gè)文本相對應(yīng)的候選語義標(biāo)識。
【文檔編號】G06F17/30GK104462360SQ201410743203
【公開日】2015年3月25日 申請日期:2014年12月5日 優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】楊詩 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司