一種基于用戶輸入場景動態(tài)加載語言模型的方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于用戶輸入場景動態(tài)加載語言模型的方法和裝置,該方法包括:判斷當前的用戶輸入場景;根據(jù)所述用戶輸入場景,選擇對應的場景語言模型;將所述場景語言模型與通用語言模型融合成混合語言模型;加載所述混合語言模型對用戶輸入進行處理;其中,所述場景語言模型和通用語言模型是通過訓練得到的。本發(fā)明通過訓練場景語言模型,在用戶輸入過程中動態(tài)判斷用戶輸入場景,加載相應的場景語言模型與通用語言模型融合,共同處理用戶輸入,提高了人機交互軟件,尤其是輸入法軟件對典型場景下的用戶輸入需求的處理能力。
【專利說明】—種基于用戶輸入場景動態(tài)加載語言模型的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于用戶輸入場景動態(tài)加載語言模型的方法及裝置。
【背景技術(shù)】
[0002]隨著計算機硬件性能的不斷提升和軟件智能性的不斷提高,人們越來越期望計算機能夠提供更加自然的人機交互方式,這表現(xiàn)在:(1)提供更加智能的漢語輸入法;(2)提供更加精確的語音識別功能;(3)提供連續(xù)手寫字符識別功能。而這三種交互方式的實現(xiàn),底層都需要有語言建模技術(shù)的支持。語言建模技術(shù)的優(yōu)劣,直接決定了語言模型性能的高低,也決定了上述人機交互軟件效果的好壞。
[0003]統(tǒng)計語言模型以概率論和數(shù)理統(tǒng)計理論為基礎(chǔ),用來計算自然語言語句的概率,使得正確的語句的概率大于錯誤的語句的概率。對于一個包含m個詞的自然語言語句S =W1W^Wm,根據(jù)Bayes理論,其概率可以分解為若干個條件概率的乘積,即
【權(quán)利要求】
1.一種基于用戶輸入場景動態(tài)加載語言模型的方法,包括: 判斷當前的用戶輸入場景; 根據(jù)所述用戶輸入場景,選擇對應的場景語言模型; 將所述場景語言模型與通用語言模型融合成混合語言模型;以及 加載所述混合語言模型對用戶輸入進行處理; 其中,所述場景語言模型和通用語言模型是通過訓練得到的。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述判斷當前的用戶輸入場景的步驟還包括: 根據(jù)典型場景列表和用戶輸入環(huán)境上下文,判斷當前的用戶輸入場景,其中,所述典型場景列表是通過對用戶輸入法宿主軟件和/或用戶輸入信息進行分類統(tǒng)計得到的,所述用戶輸入環(huán)境上下文包括用戶輸入信息和/或輸入法宿主軟件信息。
3.根據(jù)權(quán)利要求1所述的方法,還包括: 根據(jù)場景訓練語料生成針對用戶輸入場景的場景詞表;根據(jù)所述場景訓練語料和所述場景詞表,用最大似然估計法訓練出場景語言模型。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)場景訓練語料生成針對用戶輸入場景的場景詞表的步驟包括: 根據(jù)典型場景列表對場景訓練語料進行分類; 分別從分類后的各場景訓練語料中抽取出對應的場景備選詞表;以及 根據(jù)所述場景備選詞表與通用詞表得出所述場景詞表。
5.根據(jù)權(quán)利要求1所述的方法,所述將所述場景語言模型與通用語言模型融合成混合語言模型的步驟包括: 用線性插值的方式將所述場景語言模型與通用語言模型融合成混合語言模型,插值系數(shù)用于調(diào)節(jié)所述場景語言模型和通用語言模型在所述混合語言模型中的比重。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述語言模型是Ngram模型,所述場景語言模型是Bigram模型或Unigram模型。
7.一種基于用戶輸入場景動態(tài)加載語言模型的裝置,包括: 輸入場景判斷模塊,用于判斷當前的用戶輸入場景; 場景語言模型選擇模塊,用于根據(jù)所述用戶輸入場景,選擇對應的場景語言模型; 語言模型融合模塊,用于將所述場景語言模型與通用語言模型融合成混合語言模型;以及 用戶輸入處理模塊,用于加載所述混合語言模型對用戶輸入進行處理;以及 語言模型訓練模塊,用于訓練出所述場景語言模型和所述通用語言模型。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述輸入場景判斷模塊包括: 用于根據(jù)典型場景列表和/或用戶輸入環(huán)境上下文,判斷當前的用戶輸入場景的模塊,其中,所述典型場景列表是通過對用戶輸入法宿主軟件和/或用戶輸入信息進行分類統(tǒng)計得到的,所述用戶輸入環(huán)境上下文包括用戶輸入信息和/或輸入法宿主軟件信息。
9.根據(jù)權(quán)利要求7所述的裝置,還包括: 場景詞表生成模塊,用于根據(jù)場景訓練語料生成針對用戶輸入場景的場景詞表,所述語言模型訓練模塊包括場景語言模型訓練模塊,用于根據(jù)所述場景訓練語料和所述場景詞表,用最大似然估計法訓練出場景語言模型。
10.根據(jù)權(quán)利要求9所述的裝置,其中,所述場景詞表生成模塊包括: 語料分類模塊,用于根據(jù)所述典型場景列表對場景訓練語料進行分類; 詞表抽取模塊,用于分別從分類后的各場景訓練語料中抽取出對應的場景備選詞表;以及 詞表計算模塊,用于根據(jù)所述場景備`選詞表與通用詞表計算出所述場景詞表。
【文檔編號】G06F17/20GK103577386SQ201210276985
【公開日】2014年2月12日 申請日期:2012年8月6日 優(yōu)先權(quán)日:2012年8月6日
【發(fā)明者】肖鏡輝, 李鑫, 劉廷超, 湯利華 申請人:騰訊科技(深圳)有限公司