一種裁減語言模型的方法和裝置的制作方法

文檔序號：6351734閱讀：259來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種裁減語言模型的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語言建模技術(shù)領(lǐng)域，尤其涉及一種裁減語言模型的方法和裝置。
背景技術(shù)：
隨著計算機硬件性能的不斷提升和軟件智能性的不斷提高，人們越來越期望計算機能夠提供更加自然的人機交互方式，這表現(xiàn)在:(I)提供更加智能的漢語輸入法；(2)提供連續(xù)語音輸入功能；(3)提供連續(xù)手寫功能。而這三種交互方式的實現(xiàn)，底層都需要有語言建模技術(shù)的支持，語言模型的性能直接決定了上述人機交互軟件的智能性和易用性。統(tǒng)計語言建模技術(shù)是目前語言建模的主流技術(shù)，Ngram語言模型是最成功的統(tǒng)計語言模型。Ngram表示在語料庫中連續(xù)出現(xiàn)的N個詞組成的詞語序列，比較常用的是bigram(2個詞組成的序列)和trigram(3個詞組成的序列)，Ngram語言模型由大量的Ngram組成。Ngram語言模型是根據(jù)詞語之間的條件概率來計算候選漢語句子的概率，并挑選概率最大的候選漢語語句作為人機交互軟件的輸出。按照Ngram語言模型的規(guī)定，對于一個包含m個詞的漢語語句S = W1W2...Wm,其概率為:
權(quán)利要求
1.一種裁減語言模型的方法，其特征在于，所述方法包括: 對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram ；針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵；刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述相對熵由以下公式計算:
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)采用回退平滑算法時，所述相對熵由以下公式計算:
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)采用插值平滑算法時，所述相對熵由以下公式計算:
5.根據(jù)權(quán)利要求1-4任一所述的方法，其特征在于，將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
6.一種裁減語言模型的裝置，其特征在于，所述裝置包括: 統(tǒng)計模塊，用于對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表，所述Ngram列表包括原始Ngram語言模型中的所有Ngram ；計算模塊，用于針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵；裁減模塊，用于刪除至少一個所述Ngram列表中相對熵小的Ngram，得到裁剪后的Ngram語言模型。
7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述計算模塊采用以下公式計算相對熵:
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，當(dāng)采用回退平滑算法時，所述計算模塊采用以下公式計算相對熵:
9.根據(jù)權(quán)利要求7所述的裝置，其特征在于，當(dāng)采用插值平滑算法時，所述計算模塊采用以下公式計算相對熵:
10.根據(jù)權(quán)利要求6-9任一所述的裝置，其特征在于，裁減模塊，還用于將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
全文摘要
本發(fā)明提出一種裁減語言模型的方法和裝置，其中方法包括對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計，形成原始Ngram語言模型的Ngram列表，所述Ngram列表包括原始Ngram語言模型中的所有Ngram；針對Ngram列表中的每個Ngram，計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵；刪除至少一個所述Ngram列表中相對熵小的Ngram，得到裁剪后的Ngram語言模型。本發(fā)明能夠降低裁減過程對Ngram語言模型性能的影響。
文檔編號G06F9/44GK103164198SQ20111041697
公開日2013年6月19日申請日期2011年12月14日優(yōu)先權(quán)日2011年12月14日
發(fā)明者周楊, 肖鏡輝, 李露申請人:深圳市騰訊計算機系統(tǒng)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周楊;肖鏡輝;李露
技術(shù)所有人：深圳市騰訊計算機系統(tǒng)有限公司
我是此專利的發(fā)明人

上一篇：一種基于cuda技術(shù)的仿真投影drr生成方法
上一篇：大型建筑工程質(zhì)量的關(guān)鍵工序識別與監(jiān)控方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語言模型平滑方法相關(guān)技術(shù)

機械手裝置模型產(chǎn)品相關(guān)技術(shù)

裝置藝術(shù)模型相關(guān)技術(shù)

化工裝置模型相關(guān)技術(shù)

語言獲得裝置相關(guān)技術(shù)

聲光語言報警裝置相關(guān)技術(shù)

先天語言獲得裝置相關(guān)技術(shù)

語言模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種裁減語言模型的方法和裝置的制作方法