一種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法
【專利摘要】本發(fā)明為大規(guī)模孤立詞語音識別提供了一種提高識別魯棒性的方法。本發(fā)明的方法引入了不同語音幀之間的相關性,為語音識別的特征參數(shù)加入了動態(tài)特征。同時通過CASA方法將噪聲環(huán)境下的語音進行了噪聲消除,擴大了語音識別應用領域的范圍。本發(fā)明待識別孤立詞為10240詞,實驗結果表明,在將語音幀間信息作為動態(tài)參數(shù)加入到語音特征參數(shù)后,平均每個詞匯的第一識別概率和第二識別概率的差值增大了30%。
【專利說明】-種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法
【技術領域】
[0001] 本發(fā)明涉及孤立詞語音識別領域,具體涉及一種提高大規(guī)模孤立詞語音識別的魯 棒性的方法。
【背景技術】
[0002] 合理的特征參數(shù)能極大的提高語音識別的準確率和魯棒性,因此選取語音特征參 數(shù)至關重要。
[0003] 語音信號的特征參數(shù)主要分成兩類:第一類為時域特征參數(shù),一幀語音信號的各 個時域采樣值直接構成一個向量,每個采樣點實際上就是一個振幅值;第二類為時域變換 頻域特征向量,即對采樣后的一幀語音信號進行某種變換后產(chǎn)生的特征參數(shù)。前者的優(yōu)點 在于計算簡單,缺點是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對應,各種變換域特征 向量的計算比較復雜,但能從不同的角度反映幅度譜的特征。
[0004] 語音識別技術中研究和應用最廣泛的特征參數(shù)是基于人的聲道模型和聽覺機理 的線性預測倒譜系數(shù)(LPCC)和Mel頻率倒譜系數(shù)(MFCC)參數(shù),而在低頻段MFCC參數(shù)具有 較高的譜分辨率,抗噪聲干擾的性能優(yōu)于LPCC,因此更適合于語音識別。語音的LPCC參數(shù) 在語音識別中具有最廣泛的應用,但特別容易受到噪聲的干擾。從目前使用的情況來看,梅 爾刻度倒頻譜參數(shù)已基本取代原本常用的線性預測編碼導出的倒頻譜參數(shù),原因是它考慮 了人類發(fā)聲與接收聲音的特性,在語音識別方面表現(xiàn)出了更好的魯棒性。
[0005] MFCC特征提取過程通常都做了一個很不準確的假設,即不同幀間的語音是不相關 的。由于語音在時域上是連續(xù)的,基于其時域上的分出來的語音幀也應該是連續(xù)的。因此 可以用前后相鄰兩幀的特征向量的差值和語音幀相疊來反映連續(xù)語音幀的內在關系。語音 幀的倒譜系數(shù)一旦通過某種算法計算出來后,就不變的,是靜態(tài)的,只能反映幀內的特性; 反映巾貞間規(guī)律的信息是動態(tài)的,這就需要動態(tài)的特征參數(shù),這些動態(tài)特征和靜態(tài)特征組成 互補,能很大程度的提高系統(tǒng)的識別性能。幀間動態(tài)信息可以用兩種方法表示,前后兩幀的 MFCC參數(shù)之間的差值和前后兩幀采樣點的重疊。
【發(fā)明內容】
[0006] 為解決現(xiàn)有技術中存在的問題,本發(fā)明為大規(guī)模孤立詞語音識別提出了一種基于 語音幀間動態(tài)信息的提高語音識別魯棒性的方法,本發(fā)明通過以下技術方案實現(xiàn):
[0007] -種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法,其特征在于:所述方法 引入不同語音幀之間的相關性,選擇梅爾倒譜系數(shù)(MFCC)進行大規(guī)模孤立詞語音識別,對 噪聲環(huán)境下的語音采用人耳聽覺機制的計算聽覺場景分析(CASA)方法消除噪聲,包括以 下步驟:
[0008] A.對采集的語音進行分巾貞,幀長25ms,幀間重疊10ms,每幀400個點;
[0009] B.采用CASA方法消除噪聲,具體為:
[0010] 計算噪聲譜的包絡envN(i,j)和語音譜的包絡envs(i,j),采用如下公式:
[0011]
[0012] 其中Xi,j (η)表示第i幀中第j個頻率上的第η個采樣值,N = 400 ;純凈語音信號 的計算方法如下:
[0013]
【權利要求】
1. 一種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法,其特征在于:所述方法引 入不同語音幀之間的相關性,選擇梅爾倒譜系數(shù)(MFCC)進行大規(guī)模孤立詞語音識別,對噪 聲環(huán)境下的語音采用人耳聽覺機制的計算聽覺場景分析(CASA)方法消除噪聲,包括以下 步驟:。 A. 對采集的語音進行分幀,幀長25ms,幀間重疊10ms,每幀400個點; B. 采用CASA方法消除噪聲,具體為: 計算噪聲譜的包絡envN(i,j)和語音譜的包絡envs(i,j),采用如下公式:
其中(η)表示第i幀中第j個頻率上的第η個采樣值,N = 400 ;純凈語音信號的計 算方法如下:
其中c (n,i)表示第i幀的第η個經(jīng)過噪聲分離后的采樣值,I表示所有的語音幀數(shù); C. 采用如下6個過程將去噪后的語音進行處理,得到梅爾倒譜系數(shù)ct (n),t代表第t 幀: (1) 加入漢明窗來減小幀起始處和結束處的信號的不連續(xù)性; (2) 對每一幀進行語音端點檢測,得到有用的語音幀; (3) 對每一幀語音幀進行512點的FFT變換; (4) FFT變換后的語音信號在頻域上進行梅爾倒譜變換; (5) 經(jīng)梅爾變換后的語音數(shù)據(jù)取對數(shù)能量; (6) 進行余弦離散變換后,再進行歸一化計算得到ct (η); D. 前后幀提取的特征向量的差值,作為一組參數(shù)代表語音幀間的動態(tài)信息,補充到 MFCC參數(shù)中,計算幀間動態(tài)信息所采用的公式為如下:
其中,T為一個孤立詞中的有效語音幀數(shù),t代表第t幀,η代表第t幀中的第η個MFCC 參數(shù)。
【文檔編號】G10L25/24GK104064197SQ201410281239
【公開日】2014年9月24日 申請日期:2014年6月20日 優(yōu)先權日:2014年6月20日
【發(fā)明者】劉明, 王明江 申請人:哈爾濱工業(yè)大學深圳研究生院