国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種語言建模方法及語言建模裝置的制作方法

      文檔序號:6560444閱讀:221來源:國知局
      專利名稱:一種語言建模方法及語言建模裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語言識別技術(shù),特別涉及一種語言建模方法及語言建模裝置。
      背景技術(shù)
      隨著計算機硬件性能的不斷提升和軟件智能的不斷提高,人們越來越期望計算機能夠提供更加自然的人機交互方式,主要表現(xiàn)在(I)提供更加智能的漢語輸入法;(2)提供語音識別功能;(3)提供 手寫字符識別功能。而這三種交互方式的實現(xiàn),底層都需要有語言建模技術(shù)的支持。因而,語言建模方法的優(yōu)劣,直接決定了語言模型性能的高低,也決定了上述人機交互軟件效果的好壞。目前最常用的語言建模方法包括統(tǒng)計語言模型建模方法以及Ngram語言模型建模方法,下面進(jìn)行簡要說明。統(tǒng)計語言模型以概率論和數(shù)理統(tǒng)計理論為基礎(chǔ),用來計算漢語語句的概率,使得輸出的正確語句的概率大于錯誤語句的概率。例如,對于漢語輸入的漢語語句“說明此處漢語語句的概率”,在統(tǒng)計語言模型中,該漢語語句可以分解為若干個詞語,如說明\此處...,對于一個包含m (m為自然數(shù))個詞的漢語語句S = W1W2K Wm,根據(jù)Bayes理論,該漢語語句概率(輸出正確的概率)可以分解為包含多個詞語的條件概率的乘積,即
      權(quán)利要求
      1.一種語言建模方法,其特征在于,該方法包括 根據(jù)預(yù)先建立的標(biāo)準(zhǔn)Ngram語言模型,分別計算用戶輸入中各詞語的標(biāo)準(zhǔn)條件概率;按照預(yù)先設(shè)置的基于緩存的語言建模策略,根據(jù)所述用戶輸入以及預(yù)先緩存的用戶輸入,分別計算所述用戶輸入中各詞語的緩存條件概率; 根據(jù)各詞語的標(biāo)準(zhǔn)條件概率以及緩存條件概率計算融合條件概率,基于融合條件概率獲取各輸出語句的語句概率; 選擇概率最大的輸出語句輸出并緩存該輸出語句。
      2.如權(quán)利要求I所述的方法,其特征在于,計算用戶輸入中第i個詞語的緩存條件概率包括 獲取包含該第i個詞語及該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在緩存的訓(xùn)練語料中出現(xiàn)的次數(shù)ki; 獲取包含該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在緩存的訓(xùn)練語料中出現(xiàn)的次數(shù)I^1 ; 獲取該第i個詞語的時間函數(shù)值; 計算次數(shù)匕與次數(shù)I^1的比值,將計算得到的比值與該第i個詞語的時間函數(shù)值相乘,得到所述用戶輸入中第i個詞語的緩存條件概率。
      3.如權(quán)利要求2所述的方法,其特征在于,將預(yù)先設(shè)置的常數(shù)與第i個詞語進(jìn)入緩存區(qū)中的時間點與當(dāng)前用戶輸入語句的時間點之間的時間間隔進(jìn)行相比得到所述時間函數(shù)值。
      4.如權(quán)利要求3所述的方法,其特征在于,計算用戶輸入中第i個詞語的標(biāo)準(zhǔn)條件概率包括 獲取包含該第i個詞語及該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在標(biāo)準(zhǔn)Ngram語言模型的訓(xùn)練語料中出現(xiàn)的次數(shù)k' i; 獲取包含該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在標(biāo)準(zhǔn)Ngram語言模型的訓(xùn)練語料中出現(xiàn)的次數(shù)k'卜1; 計算次數(shù)k' i與次數(shù)k' η的比值,將計算得到的比值作為所述用戶輸入中第i個詞語的標(biāo)準(zhǔn)條件概率。
      5.如權(quán)利要求4所述的方法,其特征在于,計算第i個詞語的融合條件概率包括 Al、確定取值在O至I之間的插值系數(shù); A2、計算該插值系數(shù)與第i個詞語的標(biāo)準(zhǔn)條件概率的乘積; A3、計算I與該插值系數(shù)的差與第i個詞語的緩存條件概率的乘積; A4、計算步驟A2、A3得到的乘積的和,作為第i個詞語的融合條件概率。
      6.如權(quán)利要求5所述的方法,其特征在于,計算輸出語句的語句概率包括 分別獲取語句包含的各詞語的融合條件概率; 將獲取的各詞語的融合條件概率依次相乘得到輸出語句的語句概率。
      7.如權(quán)利要求6所述的方法,其特征在于,所述緩存的用戶輸入采用隊列的數(shù)據(jù)結(jié)構(gòu),所述第i個詞語的時間間隔的取值為第i個詞語在緩存隊列中的位置。
      8.如權(quán)利要求I至7中任一項所述的方法,其特征在于,在所述選擇概率最大的輸出語句輸出后,緩存該輸出語句前,進(jìn)一步包括對輸出語句進(jìn)行修正。
      9.如權(quán)利要求8所述的方法,其特征在于,所述用戶輸入包括輸入法輸入、手寫識別輸入以及語音識別輸入。
      10.如權(quán)利要求I所述的方法,其特征在于,在所述預(yù)先緩存的用戶輸入為空時,所述用戶輸入中各詞語的緩存條件概率等于該詞語的標(biāo)準(zhǔn)條件概率。
      11.一種語言建模裝置,其特征在于,該裝置包括標(biāo)準(zhǔn)Ngram語言模型模塊、緩存模塊、基于緩存的語言建模模塊以及混合模型模塊,其中, 標(biāo)準(zhǔn)Ngram語言模型模塊,用于接收用戶的輸入,分別計算用戶輸入中各詞語的標(biāo)準(zhǔn)條件概率,輸出至混合模型模塊; 緩存模塊,用于緩存混合模型模塊輸出的語句; 基于緩存的語言建模模塊,用于按照預(yù)先設(shè)置的基于緩存的語言建模策略,根據(jù)用戶的輸入以及緩存模塊緩存的語句,分別計算用戶輸入中各詞語的緩存條件概率,輸出至混合模型模塊; 混合模型模塊,用于根據(jù)各詞語的標(biāo)準(zhǔn)條件概率以及緩存條件概率計算融合條件概率,基于融合條件概率獲取各輸出語句的語句概率,選擇概率最大的輸出語句輸出。
      12.如權(quán)利要求11所述的裝置,其特征在于,所述標(biāo)準(zhǔn)Ngram語言模型模塊包括第一詞語序列頻次計數(shù)單元、第二詞語序列頻次計數(shù)單元以及標(biāo)準(zhǔn)條件概率計算單元,其中, 第一詞語序列頻次計數(shù)單元,用于獲取包含該第i個詞語及該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在標(biāo)準(zhǔn)Ngram語言模型的訓(xùn)練語料中出現(xiàn)的次數(shù)k' i,輸出至標(biāo)準(zhǔn)條件概率計算單元; 第二詞語序列頻次計數(shù)單元,用于獲取包含該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在標(biāo)準(zhǔn)Ngram語言模型的訓(xùn)練語料中出現(xiàn)的次數(shù)k' ^1,輸出至標(biāo)準(zhǔn)條件概率計算單元; 標(biāo)準(zhǔn)條件概率計算單元,用于計算次數(shù)k' i與次數(shù)k' η的比值,將計算得到的比值作為所述用戶輸入中第i個詞語的標(biāo)準(zhǔn)條件概率。
      13.如權(quán)利要求12所述的裝置,其特征在于,所述基于緩存的語言建模模塊包括第三詞語序列頻次計數(shù)單元、第四詞語序列頻次計數(shù)單元、時間函數(shù)值獲取單元以及緩存條件概率計算單元,其中, 第三詞語序列頻次計數(shù)單元,用于獲取包含該第i個詞語及該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在緩存的訓(xùn)練語料中出現(xiàn)的次數(shù)ki;輸出至緩存條件概率計算單元; 第四詞語序列頻次計數(shù)單元,用于獲取包含該第i個詞語之前預(yù)設(shè)常數(shù)個詞語的詞語序列在緩存的訓(xùn)練語料中出現(xiàn)的次數(shù)Iv1,輸出至緩存條件概率計算單元; 時間函數(shù)值獲取單元,用于獲取該第i個詞語的時間函數(shù)值,輸出至緩存條件概率計算單元; 緩存條件概率計算單元,用于計算次數(shù)h與次數(shù)I^1的比值,將計算得到的比值與該第i個詞語的時間函數(shù)值相乘,得到所述用戶輸入中第i個詞語的緩存條件概率。
      14.如權(quán)利要求13所述的裝置,其特征在于,所述混合模型模塊包括插值系數(shù)存儲單元、第一乘積單元、第二乘積單元、融合條件概率計算單元、語句概率計算單元以及輸出語句選擇單元,其中, 插值系數(shù)存儲單元,用于存儲預(yù)先設(shè)置在O至I之間的插值系數(shù); 第一乘積單元,用于根據(jù)插值系數(shù)存儲單元存儲的插值系數(shù),計算該插值系數(shù)與第i個詞語的標(biāo)準(zhǔn)條件概率的乘積,輸出至融合條件概率計算單元; 第二乘積單元,用于計算I與該插值系數(shù)的差與第i個詞語的緩存條件概率的乘積,輸出至融合條件概率計算單元; 融合條件概率計算單元,用于將接收的與第i個詞語相關(guān)的乘積進(jìn)行相加,作為第i個詞語的融合 條件概率; 語句概率計算單元,用于將融合條件概率計算單元獲取的各詞語的融合條件概率依次相乘得到輸出語句的語句概率; 輸出語句選擇單元,用于選擇語句概率計算單元計算得到的最大語句概率,將該最大語句概率對應(yīng)的輸出語句輸出。
      全文摘要
      本發(fā)明公開了一種語言建模方法及語言建模裝置。該方法包括根據(jù)預(yù)先建立的標(biāo)準(zhǔn)Ngram語言模型,分別計算用戶輸入中各詞語的標(biāo)準(zhǔn)條件概率;按照預(yù)先設(shè)置的基于緩存的語言建模策略,根據(jù)用戶的輸入以及預(yù)先緩存的用戶輸入,分別計算用戶輸入中各詞語的緩存條件概率;根據(jù)各詞語的標(biāo)準(zhǔn)條件概率以及緩存條件概率計算融合條件概率,基于融合條件概率獲取各輸出語句的語句概率;選擇概率最大的輸出語句輸出并緩存該輸出語句。應(yīng)用本發(fā)明,可以滿足不同用戶對漢語輸入的需求、提高識別準(zhǔn)確率。
      文檔編號G06F17/30GK102880611SQ20111019706
      公開日2013年1月16日 申請日期2011年7月14日 優(yōu)先權(quán)日2011年7月14日
      發(fā)明者肖鏡輝 申請人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1