国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種裁減語言模型的方法和裝置的制作方法

      文檔序號:6351734閱讀:259來源:國知局
      專利名稱:一種裁減語言模型的方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語言建模技術(shù)領(lǐng)域,尤其涉及一種裁減語言模型的方法和裝置。
      背景技術(shù)
      隨著計算機硬件性能的不斷提升和軟件智能性的不斷提高,人們越來越期望計算機能夠提供更加自然的人機交互方式,這表現(xiàn)在:(I)提供更加智能的漢語輸入法;(2)提供連續(xù)語音輸入功能;(3)提供連續(xù)手寫功能。而這三種交互方式的實現(xiàn),底層都需要有語言建模技術(shù)的支持,語言模型的性能直接決定了上述人機交互軟件的智能性和易用性。統(tǒng)計語言建模技術(shù)是目前語言建模的主流技術(shù),Ngram語言模型是最成功的統(tǒng)計語言模型。Ngram表示在語料庫中連續(xù)出現(xiàn)的N個詞組成的詞語序列,比較常用的是bigram(2個詞組成的序列)和trigram(3個詞組成的序列),Ngram語言模型由大量的Ngram組成。Ngram語言模型是根據(jù)詞語之間的條件概率來計算候選漢語句子的概率,并挑選概率最大的候選漢語語句作為人機交互軟件的輸出。按照Ngram語言模型的規(guī)定,對于一個包含m個詞的漢語語句S = W1W2...Wm,其概率為:
      權(quán)利要求
      1.一種裁減語言模型的方法,其特征在于,所述方法包括: 對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram ; 針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵; 刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述相對熵由以下公式計算:
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)采用回退平滑算法時,所述相對熵由以下公式計算:
      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)采用插值平滑算法時,所述相對熵由以下公式計算:
      5.根據(jù)權(quán)利要求1-4任一所述的方法,其特征在于,將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
      6.一種裁減語言模型的裝置,其特征在于,所述裝置包括: 統(tǒng)計模塊,用于對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram ; 計算模塊,用于針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵;裁減模塊,用于刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。
      7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計算模塊采用以下公式計算相對熵:
      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)采用回退平滑算法時,所述計算模塊采用以下公式計算相對熵:
      9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)采用插值平滑算法時,所述計算模塊采用以下公式計算相對熵:
      10.根據(jù)權(quán)利要求6-9任一所述的裝置,其特征在于,裁減模塊,還用于將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
      全文摘要
      本發(fā)明提出一種裁減語言模型的方法和裝置,其中方法包括對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram;針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵;刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。本發(fā)明能夠降低裁減過程對Ngram語言模型性能的影響。
      文檔編號G06F9/44GK103164198SQ20111041697
      公開日2013年6月19日 申請日期2011年12月14日 優(yōu)先權(quán)日2011年12月14日
      發(fā)明者周楊, 肖鏡輝, 李露 申請人:深圳市騰訊計算機系統(tǒng)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1