一種基于聲學模型陣列的魯棒語音識別方法

文檔序號：2828065閱讀：306來源：國知局

一種基于聲學模型陣列的魯棒語音識別方法
【專利摘要】本發(fā)明公開一種基于聲學模型陣列的魯棒語音識別方法，包括訓練階段和測試階段。在訓練階段，根據(jù)語音的最高頻率為訓練語音設(shè)定多個上限頻率，提取多組特征向量，并進行模型訓練，得到聲學模型陣列。在測試階段，首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音，估計測試語音的上限頻率；然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型，并對其參數(shù)進行調(diào)整，得到測試環(huán)境聲學模型；最后根據(jù)測試語音上限頻率進行特征提取，得到含噪測試語音的特征向量，并用測試環(huán)境聲學模型對其進行聲學解碼，得到識別結(jié)果。本發(fā)明可以提高噪聲環(huán)境中語音識別系統(tǒng)的性能，提高系統(tǒng)的魯棒性。
【專利說明】-種基于聲學模型陣列的魯棒語音識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語音識別【技術(shù)領(lǐng)域】，具體涉及到根據(jù)多個語音上限頻率，提取多組不同頻率范圍的特征向量，構(gòu)建聲學模型陣列，并對與測試語音上限頻率相匹配的聲學模型進行補償，提高語音識別系統(tǒng)魯棒性的模型自適應(yīng)方法。

【背景技術(shù)】
[0002] 在語音識別系統(tǒng)的實際應(yīng)用中，由于環(huán)境噪聲等語音變異性的影響，預(yù)先訓練的聲學模型往往與測試環(huán)境下提取的特征參數(shù)不匹配，這會導致語音識別系統(tǒng)性能的嚴重下降。因此，有必要對環(huán)境失配進行補償，提高語音識別系統(tǒng)的識別性能。
[0003] 在語音信號處理中，語音被分成一系列前后有部分采樣值重疊的幀。對于大部分幀來說，語音信號的基音及各次諧波只存在于頻譜的低頻部分；高頻部分只含有少量語音成分。因而，可以將語音信號的頻譜劃分為低頻諧波部分和高頻非周期部分。高頻非周期部分對安靜環(huán)境下的語音識別有一定作用，因此被包含在特征參數(shù)中。然而，語音頻譜的高頻部分能量較小，在噪聲環(huán)境下，容易被噪聲覆蓋，因此在含噪測試環(huán)境下，含噪語音頻譜的高頻部分為噪聲成分，不僅不能給語音識別提供有效作用，而且會給后端的模型自適應(yīng)帶來不利影響。因此，在噪聲環(huán)境下，有必要估計含噪語音頻譜中有效語音成分的上限頻率，然后根據(jù)該上限頻率，去處高頻部分，保留低頻周期部分，用于語音識別。
[0004] 一般來說，由于不同語音音節(jié)的發(fā)音強弱不同，即使在同一種含噪測試環(huán)境下，不同幀的語音上限頻率也是不同的。而語音識別系統(tǒng)一般采用隱馬爾可夫模型（HMM:Hidden MarkovModel)作為聲學模型，用于訓練生成HMM的特征向量的頻率范圍或向量維數(shù)必須相同。因此，在測試階段的含噪語音上限頻率估計中，必須采用一個平均值作為整個發(fā)音的語音上限頻率。

【發(fā)明內(nèi)容】

[0005] 發(fā)明目的：針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供一種基于聲學模型陣列的魯棒語音識別方法。在訓練階段，首先根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率；然后分別以這N個頻率為語音頻譜的最高頻率，提取特征向量，并進行模型訓練，得到聲學模型陣列。在測試階段，首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音，估計當前測試環(huán)境下語音的上限頻率；然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型，并對其參數(shù) 進行調(diào)整，得到測試環(huán)境聲學模型；最后根據(jù)測試語音上限頻率進行特征提取，得到含噪測試語音的特征向量，并用測試環(huán)境聲學模型對其進行聲學解碼，得到識別結(jié)果。
[0006] 技術(shù)方案：一種基于聲學模型陣列的魯棒語音識別方法，包括訓練階段和測試階段兩部分，其中：
[0007] 訓練階段的具體步驟包括：
[0008] (1)根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率，這N個上限頻率在Mel頻域等間距分布；
[0009] (2)分別以N個上限頻率為語音頻譜的最高頻率，提取N組不同上限頻率的特征向量：特征1、特征2，…，特征N;
[0010] (3)分別用特征1、特征2,…，特征N進行模型訓練，得到N組不同的聲學模型：聲學模型1、聲學模型2，…，聲學模型N，組成聲學模型序列；聲學模型序列中的每組聲學模型除了包括全部語音單元的聲學模型外，還包括其特征對應(yīng)的上限頻率，用于后端的聲學模型選??；
[0011] 測試階段的具體步驟包括：
[0012] (4)根據(jù)測試環(huán)境下的自適應(yīng)語音估計當前測試環(huán)境下含噪語音的上限頻率；
[0013] (5)根據(jù)估得的測試語音上限頻率，從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型；
[0014] (6)根據(jù)自適應(yīng)語音，對選取的聲學模型的參數(shù)進行調(diào)整，使之與當前測試環(huán)境相匹配，得到測試環(huán)境聲學模型；
[0015] (7)根據(jù)估得的測試語音上限頻率，為含噪測試語音提取特征向量，并用模型自適應(yīng)得到的測試環(huán)境聲學模型對其進行聲學解碼，得到識別結(jié)果。
[0016] 有益效果：與現(xiàn)有技術(shù)相比，本發(fā)明根據(jù)多個語音上限頻率，提取多組不同頻率范圍的特征向量，構(gòu)建聲學模型陣列，并對與測試語音上限頻率相匹配的聲學模型進行補償，得到測試環(huán)境聲學模型。用對應(yīng)多個語音上限頻率的聲學模型陣列取代單一頻率范圍的聲學模型，預(yù)測實際環(huán)境下測試語音頻譜的頻率范圍；在含噪測試環(huán)境下的語音識別中，只保留含噪語音頻譜的低頻周期成分，去除語音上限頻率以上的高頻噪聲部分，減小高頻噪聲對模型自適應(yīng)的影響，從而提高模型自適應(yīng)的精度，得到與測試環(huán)境更加匹配的聲學模型。與傳統(tǒng)的全頻帶模型自適應(yīng)技術(shù)相比，本發(fā)明可以提高低信噪比環(huán)境下語音識別系統(tǒng)的性能，增強系統(tǒng)的魯棒性。

【專利附圖】

【附圖說明】
[0017] 圖1為本發(fā)明實施例的方法流程圖，方法包括訓練階段和測試階段兩個部分；訓練部分包括N路不同上限頻率的特征提取及模型訓練；測試部分包括語音上限頻率估計、模型選擇、模型自適應(yīng)、特征提取和聲學解碼5個模塊。

【具體實施方式】
[0018] 下面結(jié)合具體實施例，進一步闡明本發(fā)明，應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍，在閱讀了本發(fā)明之后，本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0019] 如圖1所示，基于聲學模型陣列的魯棒語音識別方法，包括如下步驟：
[0020] 1、訓練語音上限頻率設(shè)定：
[0021] 設(shè)訓練語音庫中語音的最高頻率為f_，首先將其轉(zhuǎn)換到Mel頻域：

【權(quán)利要求】
1. 一種基于聲學模型陣列的魯棒語音識別方法，其特征在于：包括訓練階段和測試階段兩部分；在訓練階段，首先根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率；然后分別以這N個頻率為語音頻譜的最高頻率，提取特征向量，并進行模型訓練，得到聲學模型陣列；在測試階段，首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音，估計當前測試環(huán)境下語音的上限頻率；然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型，并對其參數(shù)進行調(diào)整，得到測試環(huán)境聲學模型；最后根據(jù)測試語音上限頻率進行特征提取，得到含噪測試語音的特征向量，并用測試環(huán)境聲學模型對其進行聲學解碼，得到識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于聲學模型陣列的魯棒語音識別方法，其特征在于：訓練階段 (1) 根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率，這N個上限頻率在Mel頻域等間距分布； (2) 分別以N個上限頻率為語音頻譜的最高頻率，提取N組不同上限頻率的特征向量：特征1、特征2，…，特征N ; (3) 分別用特征1、特征2,…，特征N進行模型訓練，得到N組不同的聲學模型：聲學模型1、聲學模型2，…，聲學模型N，組成聲學模型序列；聲學模型序列中的每組聲學模型除了包括全部語音單元的聲學模型外，還包括其特征對應(yīng)的上限頻率，用于后端的聲學模型選取。
3. 根據(jù)權(quán)利要求2所述的基于聲學模型陣列的魯棒語音識別方法，其特征在于：測試階段 (4) 根據(jù)測試環(huán)境下的自適應(yīng)語音估計當前測試環(huán)境下含噪語音的上限頻率； (5) 根據(jù)估得的測試語音上限頻率，從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型； (6) 根據(jù)自適應(yīng)語音，對選取的聲學模型的參數(shù)進行調(diào)整，使之與當前測試環(huán)境相匹配，得到測試環(huán)境聲學模型； (7) 根據(jù)估得的測試語音上限頻率，為含噪測試語音提取特征向量，并用模型自適應(yīng)得到的測試環(huán)境聲學模型對其進行聲學解碼，得到識別結(jié)果。
4. 根據(jù)權(quán)利要求3所述的基于聲學模型陣列的魯棒語音識別方法，其特征在于：測試階段的模型自適應(yīng)采用對數(shù)譜域線性變換，在Mel濾波器組的每個通道上用單變量線性回歸逼近實際環(huán)境變換關(guān)系，線性變換參數(shù)從測試環(huán)境下的少量自適應(yīng)語音中估計。
5. 根據(jù)權(quán)利要求3所述的基于聲學模型陣列的魯棒語音識別方法，其特征在于：測試環(huán)境下的特征提取需要根據(jù)估得的測試語音上限頻率進行，以保證選取的聲學模型的頻率范圍與特征向量的頻率范圍一致。
6. 根據(jù)權(quán)利要求2所述的基于聲學模型陣列的魯棒語音識別方法，其特征在于：設(shè)訓練語音庫中語音的最高頻率為fmax，首先將其轉(zhuǎn)換到Mel頻域：
其中，F(xiàn)max表示Mel頻域的最高頻率；然后，根據(jù)Fmax設(shè)定N個語音頻譜上限頻率：
:最后，將這N個頻率轉(zhuǎn)換到線性頻域：
其中，fk表示第k個語音頻譜上限頻率；分別以fi，f2，…，fN為語音信號頻譜的最高頻率，為訓練語音提取倒譜特征，得到與 f\，f2，…，&對應(yīng)的多組特征：特征1，特征2，…，特征N。
【文檔編號】G10L15/20GK104392718SQ201410699802
【公開日】2015年3月4日申請日期:2014年11月26日優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】呂勇申請人:河海大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂勇;
技術(shù)所有人：河海大學;
我是此專利的發(fā)明人

上一篇：通過振動信號告知聽障人士語音信息的裝置及方法
上一篇：一種用于聲吶基陣的復合隔聲障板的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別模型相關(guān)技術(shù)

語音識別模型訓練相關(guān)技術(shù)

魯棒優(yōu)化模型相關(guān)技術(shù)

模型的魯棒性相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于聲學模型陣列的魯棒語音識別方法