替換詞典生成方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種替換詞典生成方法及裝置,其中方法包括:獲取句對資源,利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典;對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語;根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典,提高了替換詞典的準(zhǔn)確率和召回率。
【專利說明】替換詞典生成方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及數(shù)據(jù)搜索技術(shù),尤其涉及一種替換詞典生成方法及裝置。
【背景技術(shù)】
[0002] 搜索引擎在對用戶輸入的語句進(jìn)行檢索時,為了能夠返回更多的搜索結(jié)果,需要 對語句中的關(guān)鍵詞進(jìn)行同義替換,然后利用替換后的同義詞進(jìn)行檢索。在搜索引擎中,由改 寫模塊根據(jù)替換詞典負(fù)責(zé)對語句中的關(guān)鍵詞進(jìn)行同義替換。因此,替換詞典的質(zhì)量直接決 定著檢索的效果,提高替換詞典的準(zhǔn)確率和召回率直接會帶來相關(guān)性收益。
[0003]目前,生成替換詞典的常用方法是:對于句對資源,先利用IBM模型做統(tǒng)計對齊, 生成一份替換詞典,然后利用語言先驗(yàn)知識和IBM模型對替換詞典做一次最佳對齊,生成 線上可用的替換詞典。
[0004] 上述做法的最大缺點(diǎn)是:直接利用IBM模型生成替換詞典,導(dǎo)致生成的替換詞典 準(zhǔn)確率和召回率較低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種替換詞典生成方法及裝置,能夠生成準(zhǔn)確率和召回率較高的替換 詞典。
[0006] 第一方面,本發(fā)明實(shí)施例提供了一種替換詞典生成方法,包括:
[0007] 獲取句對資源;
[0008] 利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典;
[0009] 對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對 齊,生成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞 語;
[0010] 根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
[0011] 進(jìn)一步的,所述利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前,還包括:
[0012] 對所述句對資源進(jìn)行預(yù)處理。
[0013] 進(jìn)一步的,所述預(yù)處理包括以下處理方法中的至少一種:
[0014] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
[0015] 進(jìn)一步的,所述規(guī)則對齊包括以下對齊方法中的至少一種:
[0016] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
[0017] 進(jìn)一步的,所述對所述句對資源中的剩余語料,利用融合了語言先驗(yàn)知識的IBM 模型做統(tǒng)計對齊,生成第二替換詞典,包括:
[0018] 根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征,確定所述剩余語 料中的詞語在IBM迭代過程中E步驟E-St印的后驗(yàn)概率;
[0019] 根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
[0020] 進(jìn)一步的,所述根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征, 確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率,包括:
[0021] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后 驗(yàn)概率:
[0022]
[0023] 其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分 詞語;
[0024] wOTigin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;
[0025] 為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán) 重;
[0026]Wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重;
[0027]Wwmive。為所述剩余語料中的詞語利用詞向量距離的權(quán)重;
[0028]IC/Γ? 為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中查詢問題 的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率;
[0029]A少ΓΙ/;'為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中用戶點(diǎn) 擊標(biāo)題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率;
[0030] Pedit (fi(n)Ie/n))為僅考慮編輯距離的情況下,第η個句對資源對應(yīng)的剩余語料中 查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率;
[0031] Ρ?*ε(?·/η)|θ/η))為僅考慮詞向量的情況下,第η個句對資源對應(yīng)的剩余語料中 查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
[0032] 進(jìn)一步的,根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞 典,包括:
[0033] 根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊,得到對 齊矩陣;
[0034] 利用所述對齊矩陣生成所述第三替換詞典。
[0035] 進(jìn)一步的,所述根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最 佳對齊,包括:
[0036] 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或 viterbi算法對所述句對資源做最佳對齊。
[0037] 進(jìn)一步的,利用所述對齊矩陣生成所述第三替換詞典包括:
[0038] 對所述對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對;
[0039] 利用所述短語替換對生成所述第三替換詞典。
[0040] 進(jìn)一步的,對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對,包括:
[0041] 枚舉所述對齊矩陣中所有可能的對齊短語對;
[0042] 判斷所述所有可能的對齊短語對是否滿足對齊一致性;
[0043] 將滿足對齊一致性的對齊短語對作為所述短語替換對。
[0044] 進(jìn)一步的,利用所述短語替換對生成所述第三替換詞典,包括:
[0045] 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
[0046] 進(jìn)一步的,對所述短語替換對進(jìn)行過濾處理,包括:
[0047] 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
[0048] 第二方面,本發(fā)明實(shí)施例還提供了一種替換詞典生成裝置,包括:
[0049] 獲取模塊,用于獲取句對資源;
[0050] 規(guī)則對齊模塊,用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替 換詞典;
[0051] 統(tǒng)計對齊模塊,用于對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的 IBM模型做統(tǒng)計對齊,生成第二替換詞典;其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī) 則對齊模塊進(jìn)行規(guī)則對齊后剩余的詞語;
[0052] 生成模塊,用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換 詞典。
[0053] 進(jìn)一步的,所述裝置還包括:
[0054] 預(yù)處理模塊,用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則 對齊之前,對所述句對資源進(jìn)行預(yù)處理。
[0055] 進(jìn)一步的,所述預(yù)處理模塊,具體用于采用以下處理方法中的至少一種對所述句 對資源進(jìn)行預(yù)處理:
[0056] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
[0057] 進(jìn)一步的,所述規(guī)則對齊模塊,具體用于采用以下對齊方法中的至少一種對所述 句對資源做規(guī)則對齊:
[0058] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
[0059] 進(jìn)一步的,所述統(tǒng)計對齊模塊,包括:
[0060] 概率確定子模塊,用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個 特征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后驗(yàn)概率;
[0061] 生成子模塊,用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
[0062] 進(jìn)一步的,所述概率確定子模塊具體用于:
[0063] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后 驗(yàn)概率:
【權(quán)利要求】
1. 一種替換詞典生成方法,其特征在于,包括: 獲取句對資源; 利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典; 對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生 成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語; 根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用語言先驗(yàn)知識對所述句對資源 做規(guī)則對齊之前,還包括: 對所述句對資源進(jìn)行預(yù)處理。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)處理包括以下處理方法中的至少 一種: 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
4. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,所述規(guī)則對齊包括以下對齊方 法中的至少一種: 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
5. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,所述對所述句對資源中的剩余 語料,利用融合了語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典,包括: 根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征,確定所述剩余語料中 的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率; 根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)替換概率、反向概率、詞向量和編輯 距離中的至少一個特征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后 驗(yàn)概率,包括: 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概 率:
其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞 語; w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重; wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重; 為所述剩余語料中的詞語利用詞向量距離的權(quán)重; IU""I 為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第 j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; I/T)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率; k/H>)為僅考慮編輯距離的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; 圪,-(/TK")為僅考慮詞向量的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
7. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,根據(jù)所述第一替換詞典和第二 替換詞典生成線上可用的第三替換詞典,包括: 根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊,得到對齊矩 陣; 利用所述對齊矩陣生成所述第三替換詞典。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述第一替換詞典和所述第二 替換詞典對所述句對資源做最佳對齊,包括: 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或viterbi算 法對所述句對資源做最佳對齊。
9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,利用所述對齊矩陣生成所述第三替換詞 典,包括: 對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對; 利用所述短語替換對生成所述第三替換詞典。
10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,對所述對齊矩陣進(jìn)行短語抽取,得到短 語替換對,包括: 枚舉所述對齊矩陣中所有可能的對齊短語對; 判斷所述所有可能的對齊短語對是否滿足對齊一致性; 將滿足對齊一致性的對齊短語對作為所述短語替換對。
11. 根據(jù)權(quán)利要求9所述的方法,其特征在于,利用所述短語替換對生成所述第三替換 詞典,包括: 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述對得到的所述短語替換對進(jìn)行過 濾處理,包括: 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
13.-種替換詞典生成裝置,其特征在于,包括: 獲取模塊,用于獲取句對資源; 規(guī)則對齊模塊,用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞 血. ,、?> 統(tǒng)計對齊模塊,用于對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典;其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對 齊模塊進(jìn)行規(guī)則對齊后剩余的詞語; 生成模塊,用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞 典。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 預(yù)處理模塊,用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊 之前,對所述句對資源進(jìn)行預(yù)處理。
15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述預(yù)處理模塊具體用于采用以下處 理方法中的至少一種對所述句對資源進(jìn)行預(yù)處理: 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
16. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述規(guī)則對齊模塊具體用 于采用以下對齊方法中的至少一種對所述句對資源做規(guī)則對齊: 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
17. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述統(tǒng)計對齊模塊包括: 概率確定子模塊,用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特 征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率; 生成子模塊,用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述概率確定子模塊具體用于: 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概 率:
其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞 語; w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重; wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重; 為所述剩余語料中的詞語利用詞向量距離的權(quán)重; U.fI<)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; (4n)I/:W)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率; I 為僅考慮編輯距離的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; k/H))為僅考慮詞向量的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
19. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述生成模塊包括: 最佳對齊子模塊,用于根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做 最佳對齊,得到對齊矩陣; 第一生成子模塊,用于利用所述對齊矩陣生成所述第三替換詞典。
20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述最佳對齊子模塊具體用于: 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或viterbi算 法對所述句對資源做最佳對齊。
21. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述第一生成子模塊包括: 短語抽取子模塊,用于對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對; 第二生成子模塊,用于利用所述短語替換對生成所述第三替換詞典。
22. 根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述短語抽取子模塊具體用于: 枚舉所述對齊矩陣中所有可能的對齊短語對; 判斷所述所有可能的對齊短語對是否滿足對齊一致性; 將滿足對齊一致性的對齊短語對作為所述短語替換對。
23. 根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述第二生成子模塊具體用于: 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
24. 根據(jù)權(quán)利要求23所述的裝置,其特征在于,所述第二生成子模塊具體用于: 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
【文檔編號】G06F17/30GK104484377SQ201410746317
【公開日】2015年4月1日 申請日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】石磊, 李朋凱, 曾增烽, 林英展 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司