国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      替換詞典生成方法及裝置制造方法

      文檔序號:6637802閱讀:216來源:國知局
      替換詞典生成方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種替換詞典生成方法及裝置,其中方法包括:獲取句對資源,利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典;對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語;根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典,提高了替換詞典的準(zhǔn)確率和召回率。
      【專利說明】替換詞典生成方法及裝置

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明實(shí)施例涉及數(shù)據(jù)搜索技術(shù),尤其涉及一種替換詞典生成方法及裝置。

      【背景技術(shù)】
      [0002] 搜索引擎在對用戶輸入的語句進(jìn)行檢索時,為了能夠返回更多的搜索結(jié)果,需要 對語句中的關(guān)鍵詞進(jìn)行同義替換,然后利用替換后的同義詞進(jìn)行檢索。在搜索引擎中,由改 寫模塊根據(jù)替換詞典負(fù)責(zé)對語句中的關(guān)鍵詞進(jìn)行同義替換。因此,替換詞典的質(zhì)量直接決 定著檢索的效果,提高替換詞典的準(zhǔn)確率和召回率直接會帶來相關(guān)性收益。
      [0003]目前,生成替換詞典的常用方法是:對于句對資源,先利用IBM模型做統(tǒng)計對齊, 生成一份替換詞典,然后利用語言先驗(yàn)知識和IBM模型對替換詞典做一次最佳對齊,生成 線上可用的替換詞典。
      [0004] 上述做法的最大缺點(diǎn)是:直接利用IBM模型生成替換詞典,導(dǎo)致生成的替換詞典 準(zhǔn)確率和召回率較低。


      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明提供一種替換詞典生成方法及裝置,能夠生成準(zhǔn)確率和召回率較高的替換 詞典。
      [0006] 第一方面,本發(fā)明實(shí)施例提供了一種替換詞典生成方法,包括:
      [0007] 獲取句對資源;
      [0008] 利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典;
      [0009] 對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對 齊,生成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞 語;
      [0010] 根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
      [0011] 進(jìn)一步的,所述利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊之前,還包括:
      [0012] 對所述句對資源進(jìn)行預(yù)處理。
      [0013] 進(jìn)一步的,所述預(yù)處理包括以下處理方法中的至少一種:
      [0014] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
      [0015] 進(jìn)一步的,所述規(guī)則對齊包括以下對齊方法中的至少一種:
      [0016] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
      [0017] 進(jìn)一步的,所述對所述句對資源中的剩余語料,利用融合了語言先驗(yàn)知識的IBM 模型做統(tǒng)計對齊,生成第二替換詞典,包括:
      [0018] 根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征,確定所述剩余語 料中的詞語在IBM迭代過程中E步驟E-St印的后驗(yàn)概率;
      [0019] 根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
      [0020] 進(jìn)一步的,所述根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征, 確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率,包括:
      [0021] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后 驗(yàn)概率:
      [0022]
      [0023] 其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分 詞語;
      [0024] wOTigin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;
      [0025] 為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán) 重;
      [0026]Wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重;
      [0027]Wwmive。為所述剩余語料中的詞語利用詞向量距離的權(quán)重;
      [0028]IC/Γ? 為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中查詢問題 的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率;
      [0029]A少ΓΙ/;'為第k-Ι輪迭代得到的第η個句對資源對應(yīng)的剩余語料中用戶點(diǎn) 擊標(biāo)題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率;
      [0030] Pedit (fi(n)Ie/n))為僅考慮編輯距離的情況下,第η個句對資源對應(yīng)的剩余語料中 查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率;
      [0031] Ρ?*ε(?·/η)|θ/η))為僅考慮詞向量的情況下,第η個句對資源對應(yīng)的剩余語料中 查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
      [0032] 進(jìn)一步的,根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞 典,包括:
      [0033] 根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊,得到對 齊矩陣;
      [0034] 利用所述對齊矩陣生成所述第三替換詞典。
      [0035] 進(jìn)一步的,所述根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最 佳對齊,包括:
      [0036] 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或 viterbi算法對所述句對資源做最佳對齊。
      [0037] 進(jìn)一步的,利用所述對齊矩陣生成所述第三替換詞典包括:
      [0038] 對所述對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對;
      [0039] 利用所述短語替換對生成所述第三替換詞典。
      [0040] 進(jìn)一步的,對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對,包括:
      [0041] 枚舉所述對齊矩陣中所有可能的對齊短語對;
      [0042] 判斷所述所有可能的對齊短語對是否滿足對齊一致性;
      [0043] 將滿足對齊一致性的對齊短語對作為所述短語替換對。
      [0044] 進(jìn)一步的,利用所述短語替換對生成所述第三替換詞典,包括:
      [0045] 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
      [0046] 進(jìn)一步的,對所述短語替換對進(jìn)行過濾處理,包括:
      [0047] 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
      [0048] 第二方面,本發(fā)明實(shí)施例還提供了一種替換詞典生成裝置,包括:
      [0049] 獲取模塊,用于獲取句對資源;
      [0050] 規(guī)則對齊模塊,用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替 換詞典;
      [0051] 統(tǒng)計對齊模塊,用于對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的 IBM模型做統(tǒng)計對齊,生成第二替換詞典;其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī) 則對齊模塊進(jìn)行規(guī)則對齊后剩余的詞語;
      [0052] 生成模塊,用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換 詞典。
      [0053] 進(jìn)一步的,所述裝置還包括:
      [0054] 預(yù)處理模塊,用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則 對齊之前,對所述句對資源進(jìn)行預(yù)處理。
      [0055] 進(jìn)一步的,所述預(yù)處理模塊,具體用于采用以下處理方法中的至少一種對所述句 對資源進(jìn)行預(yù)處理:
      [0056] 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
      [0057] 進(jìn)一步的,所述規(guī)則對齊模塊,具體用于采用以下對齊方法中的至少一種對所述 句對資源做規(guī)則對齊:
      [0058] 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
      [0059] 進(jìn)一步的,所述統(tǒng)計對齊模塊,包括:
      [0060] 概率確定子模塊,用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個 特征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-Step的后驗(yàn)概率;
      [0061] 生成子模塊,用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
      [0062] 進(jìn)一步的,所述概率確定子模塊具體用于:
      [0063] 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后 驗(yàn)概率:

      【權(quán)利要求】
      1. 一種替換詞典生成方法,其特征在于,包括: 獲取句對資源; 利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞典; 對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生 成第二替換詞典,其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對齊后剩余的詞語; 根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞典。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用語言先驗(yàn)知識對所述句對資源 做規(guī)則對齊之前,還包括: 對所述句對資源進(jìn)行預(yù)處理。
      3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)處理包括以下處理方法中的至少 一種: 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
      4. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,所述規(guī)則對齊包括以下對齊方 法中的至少一種: 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
      5. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,所述對所述句對資源中的剩余 語料,利用融合了語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典,包括: 根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特征,確定所述剩余語料中 的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概率; 根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
      6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)替換概率、反向概率、詞向量和編輯 距離中的至少一個特征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后 驗(yàn)概率,包括: 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概 率:
      其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞 語; w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重; wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重; 為所述剩余語料中的詞語利用詞向量距離的權(quán)重; IU""I 為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第 j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; I/T)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率; k/H>)為僅考慮編輯距離的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; 圪,-(/TK")為僅考慮詞向量的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
      7. 根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,根據(jù)所述第一替換詞典和第二 替換詞典生成線上可用的第三替換詞典,包括: 根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做最佳對齊,得到對齊矩 陣; 利用所述對齊矩陣生成所述第三替換詞典。
      8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述第一替換詞典和所述第二 替換詞典對所述句對資源做最佳對齊,包括: 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或viterbi算 法對所述句對資源做最佳對齊。
      9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,利用所述對齊矩陣生成所述第三替換詞 典,包括: 對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對; 利用所述短語替換對生成所述第三替換詞典。
      10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,對所述對齊矩陣進(jìn)行短語抽取,得到短 語替換對,包括: 枚舉所述對齊矩陣中所有可能的對齊短語對; 判斷所述所有可能的對齊短語對是否滿足對齊一致性; 將滿足對齊一致性的對齊短語對作為所述短語替換對。
      11. 根據(jù)權(quán)利要求9所述的方法,其特征在于,利用所述短語替換對生成所述第三替換 詞典,包括: 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
      12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,所述對得到的所述短語替換對進(jìn)行過 濾處理,包括: 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
      13.-種替換詞典生成裝置,其特征在于,包括: 獲取模塊,用于獲取句對資源; 規(guī)則對齊模塊,用于利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊,生成第一替換詞 血. ,、?> 統(tǒng)計對齊模塊,用于對所述句對資源中的剩余語料,利用融合有語言先驗(yàn)知識的IBM模型做統(tǒng)計對齊,生成第二替換詞典;其中,所述剩余語料為所述句對資源中經(jīng)所述規(guī)則對 齊模塊進(jìn)行規(guī)則對齊后剩余的詞語; 生成模塊,用于根據(jù)所述第一替換詞典和第二替換詞典生成線上可用的第三替換詞 典。
      14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 預(yù)處理模塊,用于在所述規(guī)則對齊模塊利用語言先驗(yàn)知識對所述句對資源做規(guī)則對齊 之前,對所述句對資源進(jìn)行預(yù)處理。
      15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述預(yù)處理模塊具體用于采用以下處 理方法中的至少一種對所述句對資源進(jìn)行預(yù)處理: 糾錯處理、分詞處理、分詞修正處理和數(shù)據(jù)歸一化處理。
      16. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述規(guī)則對齊模塊具體用 于采用以下對齊方法中的至少一種對所述句對資源做規(guī)則對齊: 相同詞對齊、同義詞對齊、歸一化對齊、Stemming對齊、轉(zhuǎn)音詞對齊和停用詞標(biāo)記。
      17. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述統(tǒng)計對齊模塊包括: 概率確定子模塊,用于根據(jù)替換概率、反向概率、詞向量和編輯距離中的至少一個特 征,確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-st印的后驗(yàn)概率; 生成子模塊,用于根據(jù)所述后驗(yàn)概率的IBM模型生成所述第二替換詞典。
      18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述概率確定子模塊具體用于: 利用以下公式確定所述剩余語料中的詞語在IBM迭代過程中E步驟E-step的后驗(yàn)概 率:
      其中,e表示用戶輸入的查詢問題,f為與所述查詢問題對應(yīng)的用戶點(diǎn)擊標(biāo)題部分詞 語; w?igin為IBM模型上一輪迭代生成的所述剩余語料中的詞語的替換概率的權(quán)重;wMVOTse為IBM模型上一輪迭代生成的所述剩余語料中的詞語的反向替換概率的權(quán)重; wedit為所述剩余語料中的詞語的詞語之間編輯距離的權(quán)重; 為所述剩余語料中的詞語利用詞向量距離的權(quán)重; U.fI<)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中查詢問題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; (4n)I/:W)為第k-1輪迭代得到的第n個句對資源對應(yīng)的剩余語料中用戶點(diǎn)擊標(biāo) 題部分詞語的第i個詞語替換查詢問題的第j個詞語的概率; I 為僅考慮編輯距離的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率; k/H))為僅考慮詞向量的情況下,第n個句對資源對應(yīng)的剩余語料中查詢問 題的第j個詞語替換用戶點(diǎn)擊標(biāo)題部分詞語的第i個詞語的概率。
      19. 根據(jù)權(quán)利要求13?15任一項(xiàng)所述的裝置,其特征在于,所述生成模塊包括: 最佳對齊子模塊,用于根據(jù)所述第一替換詞典和所述第二替換詞典對所述句對資源做 最佳對齊,得到對齊矩陣; 第一生成子模塊,用于利用所述對齊矩陣生成所述第三替換詞典。
      20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述最佳對齊子模塊具體用于: 基于所述第一替換詞典和所述第二替換詞典,采用二分圖最優(yōu)匹配算法或viterbi算 法對所述句對資源做最佳對齊。
      21. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述第一生成子模塊包括: 短語抽取子模塊,用于對所述對齊矩陣進(jìn)行短語抽取,得到短語替換對; 第二生成子模塊,用于利用所述短語替換對生成所述第三替換詞典。
      22. 根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述短語抽取子模塊具體用于: 枚舉所述對齊矩陣中所有可能的對齊短語對; 判斷所述所有可能的對齊短語對是否滿足對齊一致性; 將滿足對齊一致性的對齊短語對作為所述短語替換對。
      23. 根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述第二生成子模塊具體用于: 對所述短語替換對進(jìn)行過濾處理后,生成所述第三替換詞典。
      24. 根據(jù)權(quán)利要求23所述的裝置,其特征在于,所述第二生成子模塊具體用于: 基于多種不同特征的決策樹模型對所述短語替換對進(jìn)行過濾處理。
      【文檔編號】G06F17/30GK104484377SQ201410746317
      【公開日】2015年4月1日 申請日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
      【發(fā)明者】石磊, 李朋凱, 曾增烽, 林英展 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1