專利名稱:一種裁減語言模型的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言建模技術(shù)領(lǐng)域,尤其涉及一種裁減語言模型的方法和裝置。
背景技術(shù):
隨著計算機硬件性能的不斷提升和軟件智能性的不斷提高,人們越來越期望計算機能夠提供更加自然的人機交互方式,這表現(xiàn)在:(I)提供更加智能的漢語輸入法;(2)提供連續(xù)語音輸入功能;(3)提供連續(xù)手寫功能。而這三種交互方式的實現(xiàn),底層都需要有語言建模技術(shù)的支持,語言模型的性能直接決定了上述人機交互軟件的智能性和易用性。統(tǒng)計語言建模技術(shù)是目前語言建模的主流技術(shù),Ngram語言模型是最成功的統(tǒng)計語言模型。Ngram表示在語料庫中連續(xù)出現(xiàn)的N個詞組成的詞語序列,比較常用的是bigram(2個詞組成的序列)和trigram(3個詞組成的序列),Ngram語言模型由大量的Ngram組成。Ngram語言模型是根據(jù)詞語之間的條件概率來計算候選漢語句子的概率,并挑選概率最大的候選漢語語句作為人機交互軟件的輸出。按照Ngram語言模型的規(guī)定,對于一個包含m個詞的漢語語句S = W1W2...Wm,其概率為:
權(quán)利要求
1.一種裁減語言模型的方法,其特征在于,所述方法包括: 對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram ; 針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵; 刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述相對熵由以下公式計算:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)采用回退平滑算法時,所述相對熵由以下公式計算:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)采用插值平滑算法時,所述相對熵由以下公式計算:
5.根據(jù)權(quán)利要求1-4任一所述的方法,其特征在于,將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
6.一種裁減語言模型的裝置,其特征在于,所述裝置包括: 統(tǒng)計模塊,用于對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram ; 計算模塊,用于針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵;裁減模塊,用于刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計算模塊采用以下公式計算相對熵:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)采用回退平滑算法時,所述計算模塊采用以下公式計算相對熵:
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)采用插值平滑算法時,所述計算模塊采用以下公式計算相對熵:
10.根據(jù)權(quán)利要求6-9任一所述的裝置,其特征在于,裁減模塊,還用于將裁減后的Ngram語言模型應(yīng)用到輸入法引擎中。
全文摘要
本發(fā)明提出一種裁減語言模型的方法和裝置,其中方法包括對訓(xùn)練語料數(shù)據(jù)進行Ngram統(tǒng)計,形成原始Ngram語言模型的Ngram列表,所述Ngram列表包括原始Ngram語言模型中的所有Ngram;針對Ngram列表中的每個Ngram,計算裁減掉該Ngram之后的Ngram語言模型與原始Ngram語言模型的概率分布之間的相對熵;刪除至少一個所述Ngram列表中相對熵小的Ngram,得到裁剪后的Ngram語言模型。本發(fā)明能夠降低裁減過程對Ngram語言模型性能的影響。
文檔編號G06F9/44GK103164198SQ20111041697
公開日2013年6月19日 申請日期2011年12月14日 優(yōu)先權(quán)日2011年12月14日
發(fā)明者周楊, 肖鏡輝, 李露 申請人:深圳市騰訊計算機系統(tǒng)有限公司