替換詞典生成方法及裝置制造方法

文檔序號：6637802閱讀：216來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

替換詞典生成方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種替換詞典生成方法及裝置，其中方法包括：獲取句對資源，利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊，生成第一替換詞典；對所述句對資源中的剩余語料，利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊，生成第二替換詞典，其中，所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語；根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典，提高了替換詞典的準(zhǔn)確率和召回率。
【專利說明】替換詞典生成方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及數(shù)據(jù)搜索技術(shù)，尤其涉及一種替換詞典生成方法及裝置。

【背景技術(shù)】
[0002] 搜索引擎在對用戶輸入的語句進(jìn)行檢索時，為了能夠返回更多的搜索結(jié)果，需要對語句中的關(guān)鍵詞進(jìn)行同義替換，然后利用替換后的同義詞進(jìn)行檢索。在搜索引擎中，由改寫模塊根據(jù)替換詞典負(fù)責(zé)對語句中的關(guān)鍵詞進(jìn)行同義替換。因此，替換詞典的質(zhì)量直接決定著檢索的效果，提高替換詞典的準(zhǔn)確率和召回率直接會帶來相關(guān)性收益。
[0003]目前，生成替換詞典的常用方法是：對于句對資源，先利用IBM模型做統(tǒng)計對齊，生成一份替換詞典，然后利用語言先驗(yàn)知識和IBM模型對替換詞典做一次最佳對齊，生成線上可用的替換詞典。
[0004] 上述做法的最大缺點(diǎn)是：直接利用IBM模型生成替換詞典，導(dǎo)致生成的替換詞典準(zhǔn)確率和召回率較低。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供一種替換詞典生成方法及裝置，能夠生成準(zhǔn)確率和召回率較高的替換詞典。
[0006] 第一方面，本發(fā)明實(shí)施例提供了一種替換詞典生成方法，包括：
[0007] 獲取句對資源；
[0008] 利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊，生成第一替換詞典；
[0009] 對所述句對資源中的剩余語料，利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊，生成第二替換詞典，其中，所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語；
[0010] 根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
[0011] 進(jìn)一步的，所述利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前，還包括：
[0012] 對所述句對資源進(jìn)行預(yù)處理。
[0013] 進(jìn)一步的，所述預(yù)處理包括以下處理方法中的至少一種：
[0014] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
[0015] 進(jìn)一步的，所述規(guī)則對齊包括以下對齊方法中的至少一種：
[0016] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
[0017] 進(jìn)一步的，所述對所述句對資源中的剩余語料，利用融合了語言先驗(yàn)知識的IBM 模型做統(tǒng)計對齊，生成第二替換詞典，包括：
[0018] 根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-St印的后驗(yàn)概率；
[0019] 根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
[0020] 進(jìn)一步的，所述根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率，包括：
[0021] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后驗(yàn)概率：
[0022]
[0023] 其中，e表示用戶輸入的查詢問題，f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞語；
[0024] wOTigin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重；
[0025] 為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán) 重；
[0026]Wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重；
[0027]Wwmive。為所述剩余語料中的詞語利用詞向量距離的權(quán)重；
[0028]IC/Γ? 為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率；
[0029]A少ΓΙ/；'為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中用戶點(diǎn) 擊標(biāo)題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率；
[0030] Pedit (fi(n)Ie/n))為僅考慮編輯距離的情況下，第η個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率；
[0031] Ρ?*ε(?·/η)|θ/η))為僅考慮詞向量的情況下，第η個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
[0032] 進(jìn)一步的，根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典，包括：
[0033] 根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊，得到對齊矩陣；
[0034] 利用所述對齊矩陣生成所述第三替換詞典。
[0035] 進(jìn)一步的，所述根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊，包括：
[0036] 基于所述第一替換詞典和所述第二替換詞典，采用二分圖最優(yōu)匹配算法或 viterbi算法對所述句對資源做最佳對齊。
[0037] 進(jìn)一步的，利用所述對齊矩陣生成所述第三替換詞典包括：
[0038] 對所述對所述對齊矩陣進(jìn)行短語抽取，得到短語替換對；
[0039] 利用所述短語替換對生成所述第三替換詞典。
[0040] 進(jìn)一步的，對所述對齊矩陣進(jìn)行短語抽取，得到短語替換對，包括：
[0041] 枚舉所述對齊矩陣中所有可能的對齊短語對；
[0042] 判斷所述所有可能的對齊短語對是否滿足對齊一致性；
[0043] 將滿足對齊一致性的對齊短語對作為所述短語替換對。
[0044] 進(jìn)一步的，利用所述短語替換對生成所述第三替換詞典，包括：
[0045] 對所述短語替換對進(jìn)行過濾處理后，生成所述第三替換詞典。
[0046] 進(jìn)一步的，對所述短語替換對進(jìn)行過濾處理，包括：
[0047] 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
[0048] 第二方面，本發(fā)明實(shí)施例還提供了一種替換詞典生成裝置，包括：
[0049] 獲取模塊，用于獲取句對資源；
[0050] 規(guī)則對齊模塊，用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊，生成第一替換詞典；
[0051] 統(tǒng)計對齊模塊，用于對所述句對資源中的剩余語料，利用融合有語言先驗(yàn)知識的 IBM模型做統(tǒng)計對齊，生成第二替換詞典；其中，所述剩余語料為所述句對資源中經(jīng)所述規(guī) 則對齊模塊進(jìn)行規(guī)則對齊后剩余的詞語；
[0052] 生成模塊，用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
[0053] 進(jìn)一步的，所述裝置還包括：
[0054] 預(yù)處理模塊，用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前，對所述句對資源進(jìn)行預(yù)處理。
[0055] 進(jìn)一步的，所述預(yù)處理模塊，具體用于采用以下處理方法中的至少一種對所述句對資源進(jìn)行預(yù)處理：
[0056] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
[0057] 進(jìn)一步的，所述規(guī)則對齊模塊，具體用于采用以下對齊方法中的至少一種對所述句對資源做規(guī)則對齊：
[0058] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
[0059] 進(jìn)一步的，所述統(tǒng)計對齊模塊，包括：
[0060] 概率確定子模塊，用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后驗(yàn)概率；
[0061] 生成子模塊，用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
[0062] 進(jìn)一步的，所述概率確定子模塊具體用于：
[0063] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率：

【權(quán)利要求】
1. 一種替換詞典生成方法，其特征在于，包括：獲取句對資源；利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊，生成第一替換詞典；對所述句對資源中的剩余語料，利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊，生成第二替換詞典，其中，所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語；根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前，還包括：對所述句對資源進(jìn)行預(yù)處理。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述預(yù)處理包括以下處理方法中的至少一種：糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
4. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法，其特征在于，所述規(guī)則對齊包括以下對齊方法中的至少一種：相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
5. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法，其特征在于，所述對所述句對資源中的剩余語料，利用融合了語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊，生成第二替換詞典，包括：根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率；根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率，包括：利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率：
其中，e表示用戶輸入的查詢問題，f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞語； w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重；wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重； wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重；為所述剩余語料中的詞語利用詞向量距離的權(quán)重； IU""I 為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第 j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率； I/T)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率； k/H>)為僅考慮編輯距離的情況下，第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率；圪,-(/TK")為僅考慮詞向量的情況下，第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
7. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法，其特征在于，根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典，包括：根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊，得到對齊矩陣；利用所述對齊矩陣生成所述第三替換詞典。
8. 根據(jù)權(quán)利要求7所述的方法，其特征在于，所述根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊，包括：基于所述第一替換詞典和所述第二替換詞典，采用二分圖最優(yōu)匹配算法或viterbi算法對所述句對資源做最佳對齊。
9. 根據(jù)權(quán)利要求7所述的方法，其特征在于，利用所述對齊矩陣生成所述第三替換詞典，包括：對所述對齊矩陣進(jìn)行短語抽取，得到短語替換對；利用所述短語替換對生成所述第三替換詞典。
10. 根據(jù)權(quán)利要求9所述的方法，其特征在于，對所述對齊矩陣進(jìn)行短語抽取，得到短語替換對，包括：枚舉所述對齊矩陣中所有可能的對齊短語對；判斷所述所有可能的對齊短語對是否滿足對齊一致性；將滿足對齊一致性的對齊短語對作為所述短語替換對。
11. 根據(jù)權(quán)利要求9所述的方法，其特征在于，利用所述短語替換對生成所述第三替換詞典，包括：對所述短語替換對進(jìn)行過濾處理后，生成所述第三替換詞典。
12. 根據(jù)權(quán)利要求11所述的方法，其特征在于，所述對得到的所述短語替換對進(jìn)行過濾處理，包括：基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
13.-種替換詞典生成裝置，其特征在于，包括：獲取模塊，用于獲取句對資源；規(guī)則對齊模塊，用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊，生成第一替換詞血. ，、?> 統(tǒng)計對齊模塊，用于對所述句對資源中的剩余語料，利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊，生成第二替換詞典；其中，所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊模塊進(jìn)行規(guī)則對齊后剩余的詞語；生成模塊，用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
14. 根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述裝置還包括：預(yù)處理模塊，用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前，對所述句對資源進(jìn)行預(yù)處理。
15. 根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述預(yù)處理模塊具體用于采用以下處理方法中的至少一種對所述句對資源進(jìn)行預(yù)處理：糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
16. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置，其特征在于，所述規(guī)則對齊模塊具體用于采用以下對齊方法中的至少一種對所述句對資源做規(guī)則對齊：相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
17. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置，其特征在于，所述統(tǒng)計對齊模塊包括：概率確定子模塊，用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征，確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率；生成子模塊，用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
18. 根據(jù)權(quán)利要求17所述的裝置，其特征在于，所述概率確定子模塊具體用于：利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率：
其中，e表示用戶輸入的查詢問題，f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞語； w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重；wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重； wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重；為所述剩余語料中的詞語利用詞向量距離的權(quán)重； U.fI<)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率； (4n)I/：W)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率； I 為僅考慮編輯距離的情況下，第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率； k/H))為僅考慮詞向量的情況下，第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
19. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置，其特征在于，所述生成模塊包括：最佳對齊子模塊，用于根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊，得到對齊矩陣；第一生成子模塊，用于利用所述對齊矩陣生成所述第三替換詞典。
20. 根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述最佳對齊子模塊具體用于：基于所述第一替換詞典和所述第二替換詞典，采用二分圖最優(yōu)匹配算法或viterbi算法對所述句對資源做最佳對齊。
21. 根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述第一生成子模塊包括：短語抽取子模塊，用于對所述對齊矩陣進(jìn)行短語抽取，得到短語替換對；第二生成子模塊，用于利用所述短語替換對生成所述第三替換詞典。
22. 根據(jù)權(quán)利要求21所述的裝置，其特征在于，所述短語抽取子模塊具體用于：枚舉所述對齊矩陣中所有可能的對齊短語對；判斷所述所有可能的對齊短語對是否滿足對齊一致性；將滿足對齊一致性的對齊短語對作為所述短語替換對。
23. 根據(jù)權(quán)利要求21所述的裝置，其特征在于，所述第二生成子模塊具體用于：對所述短語替換對進(jìn)行過濾處理后，生成所述第三替換詞典。
24. 根據(jù)權(quán)利要求23所述的裝置，其特征在于，所述第二生成子模塊具體用于：基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
【文檔編號】G06F17/30GK104484377SQ201410746317
【公開日】2015年4月1日申請日期:2014年12月9日優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】石磊, 李朋凱, 曾增烽, 林英展申請人:百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石磊;李朋凱;曾增烽;林英展;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：一種信息處理方法及電子設(shè)備的制作方法
上一篇：一種磁盤訪問方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

kindle詞典的安裝方法相關(guān)技術(shù)

基于詞典的分詞方法相關(guān)技術(shù)

生體魔力生成裝置相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

替換詞典生成方法及裝置制造方法