一種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法

文檔序號：2827576閱讀：333來源：國知局

一種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法
【專利摘要】本發(fā)明為大規(guī)模孤立詞語音識別提供了一種提高識別魯棒性的方法。本發(fā)明的方法引入了不同語音幀之間的相關性，為語音識別的特征參數(shù)加入了動態(tài)特征。同時通過CASA方法將噪聲環(huán)境下的語音進行了噪聲消除，擴大了語音識別應用領域的范圍。本發(fā)明待識別孤立詞為10240詞，實驗結果表明，在將語音幀間信息作為動態(tài)參數(shù)加入到語音特征參數(shù)后，平均每個詞匯的第一識別概率和第二識別概率的差值增大了30%。
【專利說明】-種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法

【技術領域】
[0001] 本發(fā)明涉及孤立詞語音識別領域，具體涉及一種提高大規(guī)模孤立詞語音識別的魯棒性的方法。

【背景技術】
[0002] 合理的特征參數(shù)能極大的提高語音識別的準確率和魯棒性，因此選取語音特征參數(shù)至關重要。
[0003] 語音信號的特征參數(shù)主要分成兩類：第一類為時域特征參數(shù)，一幀語音信號的各個時域采樣值直接構成一個向量，每個采樣點實際上就是一個振幅值；第二類為時域變換頻域特征向量，即對采樣后的一幀語音信號進行某種變換后產(chǎn)生的特征參數(shù)。前者的優(yōu)點在于計算簡單，缺點是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對應，各種變換域特征向量的計算比較復雜，但能從不同的角度反映幅度譜的特征。
[0004] 語音識別技術中研究和應用最廣泛的特征參數(shù)是基于人的聲道模型和聽覺機理的線性預測倒譜系數(shù)（LPCC)和Mel頻率倒譜系數(shù)（MFCC)參數(shù)，而在低頻段MFCC參數(shù)具有較高的譜分辨率，抗噪聲干擾的性能優(yōu)于LPCC，因此更適合于語音識別。語音的LPCC參數(shù) 在語音識別中具有最廣泛的應用，但特別容易受到噪聲的干擾。從目前使用的情況來看，梅爾刻度倒頻譜參數(shù)已基本取代原本常用的線性預測編碼導出的倒頻譜參數(shù)，原因是它考慮了人類發(fā)聲與接收聲音的特性，在語音識別方面表現(xiàn)出了更好的魯棒性。
[0005] MFCC特征提取過程通常都做了一個很不準確的假設，即不同幀間的語音是不相關的。由于語音在時域上是連續(xù)的，基于其時域上的分出來的語音幀也應該是連續(xù)的。因此可以用前后相鄰兩幀的特征向量的差值和語音幀相疊來反映連續(xù)語音幀的內在關系。語音幀的倒譜系數(shù)一旦通過某種算法計算出來后，就不變的，是靜態(tài)的，只能反映幀內的特性；反映巾貞間規(guī)律的信息是動態(tài)的，這就需要動態(tài)的特征參數(shù)，這些動態(tài)特征和靜態(tài)特征組成互補，能很大程度的提高系統(tǒng)的識別性能。幀間動態(tài)信息可以用兩種方法表示，前后兩幀的 MFCC參數(shù)之間的差值和前后兩幀采樣點的重疊。

【發(fā)明內容】

[0006] 為解決現(xiàn)有技術中存在的問題，本發(fā)明為大規(guī)模孤立詞語音識別提出了一種基于語音幀間動態(tài)信息的提高語音識別魯棒性的方法，本發(fā)明通過以下技術方案實現(xiàn)：
[0007] -種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法，其特征在于：所述方法引入不同語音幀之間的相關性，選擇梅爾倒譜系數(shù)（MFCC)進行大規(guī)模孤立詞語音識別，對噪聲環(huán)境下的語音采用人耳聽覺機制的計算聽覺場景分析（CASA)方法消除噪聲，包括以下步驟：
[0008] A.對采集的語音進行分巾貞，幀長25ms，幀間重疊10ms，每幀400個點；
[0009] B.采用CASA方法消除噪聲，具體為：
[0010] 計算噪聲譜的包絡envN(i，j)和語音譜的包絡envs(i，j)，采用如下公式：
[0011]
[0012] 其中Xi，j (η)表示第i幀中第j個頻率上的第η個采樣值，N = 400 ;純凈語音信號的計算方法如下：
[0013]

【權利要求】
1. 一種基于語音幀間動態(tài)信息提高語音識別魯棒性的方法，其特征在于：所述方法引入不同語音幀之間的相關性，選擇梅爾倒譜系數(shù)（MFCC)進行大規(guī)模孤立詞語音識別，對噪聲環(huán)境下的語音采用人耳聽覺機制的計算聽覺場景分析（CASA)方法消除噪聲，包括以下步驟：。 A. 對采集的語音進行分幀，幀長25ms，幀間重疊10ms，每幀400個點； B. 采用CASA方法消除噪聲，具體為：計算噪聲譜的包絡envN(i，j)和語音譜的包絡envs(i，j)，采用如下公式：
其中(η)表示第i幀中第j個頻率上的第η個采樣值，N = 400 ;純凈語音信號的計算方法如下：
其中c (n，i)表示第i幀的第η個經(jīng)過噪聲分離后的采樣值，I表示所有的語音幀數(shù)； C. 采用如下6個過程將去噪后的語音進行處理，得到梅爾倒譜系數(shù)ct (n)，t代表第t 幀： (1) 加入漢明窗來減小幀起始處和結束處的信號的不連續(xù)性； (2) 對每一幀進行語音端點檢測，得到有用的語音幀； (3) 對每一幀語音幀進行512點的FFT變換； (4) FFT變換后的語音信號在頻域上進行梅爾倒譜變換； (5) 經(jīng)梅爾變換后的語音數(shù)據(jù)取對數(shù)能量； (6) 進行余弦離散變換后，再進行歸一化計算得到ct (η); D. 前后幀提取的特征向量的差值，作為一組參數(shù)代表語音幀間的動態(tài)信息，補充到 MFCC參數(shù)中，計算幀間動態(tài)信息所采用的公式為如下：
其中，T為一個孤立詞中的有效語音幀數(shù)，t代表第t幀，η代表第t幀中的第η個MFCC 參數(shù)。
【文檔編號】G10L25/24GK104064197SQ201410281239
【公開日】2014年9月24日申請日期:2014年6月20日優(yōu)先權日:2014年6月20日
【發(fā)明者】劉明, 王明江申請人:哈爾濱工業(yè)大學深圳研究生院

完整全部詳細技術資料下載