一種基于聲學模型陣列的魯棒語音識別方法
【專利摘要】本發(fā)明公開一種基于聲學模型陣列的魯棒語音識別方法,包括訓練階段和測試階段。在訓練階段,根據(jù)語音的最高頻率為訓練語音設(shè)定多個上限頻率,提取多組特征向量,并進行模型訓練,得到聲學模型陣列。在測試階段,首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音,估計測試語音的上限頻率;然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型,并對其參數(shù)進行調(diào)整,得到測試環(huán)境聲學模型;最后根據(jù)測試語音上限頻率進行特征提取,得到含噪測試語音的特征向量,并用測試環(huán)境聲學模型對其進行聲學解碼,得到識別結(jié)果。本發(fā)明可以提高噪聲環(huán)境中語音識別系統(tǒng)的性能,提高系統(tǒng)的魯棒性。
【專利說明】-種基于聲學模型陣列的魯棒語音識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語音識別【技術(shù)領(lǐng)域】,具體涉及到根據(jù)多個語音上限頻率,提取多組不 同頻率范圍的特征向量,構(gòu)建聲學模型陣列,并對與測試語音上限頻率相匹配的聲學模型 進行補償,提高語音識別系統(tǒng)魯棒性的模型自適應(yīng)方法。
【背景技術(shù)】
[0002] 在語音識別系統(tǒng)的實際應(yīng)用中,由于環(huán)境噪聲等語音變異性的影響,預(yù)先訓練的 聲學模型往往與測試環(huán)境下提取的特征參數(shù)不匹配,這會導致語音識別系統(tǒng)性能的嚴重下 降。因此,有必要對環(huán)境失配進行補償,提高語音識別系統(tǒng)的識別性能。
[0003] 在語音信號處理中,語音被分成一系列前后有部分采樣值重疊的幀。對于大部分 幀來說,語音信號的基音及各次諧波只存在于頻譜的低頻部分;高頻部分只含有少量語音 成分。因而,可以將語音信號的頻譜劃分為低頻諧波部分和高頻非周期部分。高頻非周期部 分對安靜環(huán)境下的語音識別有一定作用,因此被包含在特征參數(shù)中。然而,語音頻譜的高頻 部分能量較小,在噪聲環(huán)境下,容易被噪聲覆蓋,因此在含噪測試環(huán)境下,含噪語音頻譜的 高頻部分為噪聲成分,不僅不能給語音識別提供有效作用,而且會給后端的模型自適應(yīng)帶 來不利影響。因此,在噪聲環(huán)境下,有必要估計含噪語音頻譜中有效語音成分的上限頻率, 然后根據(jù)該上限頻率,去處高頻部分,保留低頻周期部分,用于語音識別。
[0004] 一般來說,由于不同語音音節(jié)的發(fā)音強弱不同,即使在同一種含噪測試環(huán)境下,不 同幀的語音上限頻率也是不同的。而語音識別系統(tǒng)一般采用隱馬爾可夫模型(HMM:Hidden MarkovModel)作為聲學模型,用于訓練生成HMM的特征向量的頻率范圍或向量維數(shù)必須 相同。因此,在測試階段的含噪語音上限頻率估計中,必須采用一個平均值作為整個發(fā)音的 語音上限頻率。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于聲學模型陣列的魯 棒語音識別方法。在訓練階段,首先根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率;然 后分別以這N個頻率為語音頻譜的最高頻率,提取特征向量,并進行模型訓練,得到聲學模 型陣列。在測試階段,首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音,估計當前測試環(huán)境下語音的 上限頻率;然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型,并對其參數(shù) 進行調(diào)整,得到測試環(huán)境聲學模型;最后根據(jù)測試語音上限頻率進行特征提取,得到含噪測 試語音的特征向量,并用測試環(huán)境聲學模型對其進行聲學解碼,得到識別結(jié)果。
[0006] 技術(shù)方案:一種基于聲學模型陣列的魯棒語音識別方法,包括訓練階段和測試階 段兩部分,其中:
[0007] 訓練階段的具體步驟包括:
[0008] (1)根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率,這N個上限頻率在Mel頻 域等間距分布;
[0009] (2)分別以N個上限頻率為語音頻譜的最高頻率,提取N組不同上限頻率的特征向 量:特征1、特征2,…,特征N;
[0010] (3)分別用特征1、特征2,…,特征N進行模型訓練,得到N組不同的聲學模型: 聲學模型1、聲學模型2,…,聲學模型N,組成聲學模型序列;聲學模型序列中的每組聲學 模型除了包括全部語音單元的聲學模型外,還包括其特征對應(yīng)的上限頻率,用于后端的聲 學模型選??;
[0011] 測試階段的具體步驟包括:
[0012] (4)根據(jù)測試環(huán)境下的自適應(yīng)語音估計當前測試環(huán)境下含噪語音的上限頻率;
[0013] (5)根據(jù)估得的測試語音上限頻率,從聲學模型陣列中選取與測試語音上限頻率 匹配的聲學模型;
[0014] (6)根據(jù)自適應(yīng)語音,對選取的聲學模型的參數(shù)進行調(diào)整,使之與當前測試環(huán)境相 匹配,得到測試環(huán)境聲學模型;
[0015] (7)根據(jù)估得的測試語音上限頻率,為含噪測試語音提取特征向量,并用模型自適 應(yīng)得到的測試環(huán)境聲學模型對其進行聲學解碼,得到識別結(jié)果。
[0016] 有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)多個語音上限頻率,提取多組不同頻率范 圍的特征向量,構(gòu)建聲學模型陣列,并對與測試語音上限頻率相匹配的聲學模型進行補償, 得到測試環(huán)境聲學模型。用對應(yīng)多個語音上限頻率的聲學模型陣列取代單一頻率范圍的聲 學模型,預(yù)測實際環(huán)境下測試語音頻譜的頻率范圍;在含噪測試環(huán)境下的語音識別中,只保 留含噪語音頻譜的低頻周期成分,去除語音上限頻率以上的高頻噪聲部分,減小高頻噪聲 對模型自適應(yīng)的影響,從而提高模型自適應(yīng)的精度,得到與測試環(huán)境更加匹配的聲學模型。 與傳統(tǒng)的全頻帶模型自適應(yīng)技術(shù)相比,本發(fā)明可以提高低信噪比環(huán)境下語音識別系統(tǒng)的性 能,增強系統(tǒng)的魯棒性。
【專利附圖】
【附圖說明】
[0017] 圖1為本發(fā)明實施例的方法流程圖,方法包括訓練階段和測試階段兩個部分;訓 練部分包括N路不同上限頻率的特征提取及模型訓練;測試部分包括語音上限頻率估計、 模型選擇、模型自適應(yīng)、特征提取和聲學解碼5個模塊。
【具體實施方式】
[0018] 下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0019] 如圖1所示,基于聲學模型陣列的魯棒語音識別方法,包括如下步驟:
[0020] 1、訓練語音上限頻率設(shè)定:
[0021] 設(shè)訓練語音庫中語音的最高頻率為f_,首先將其轉(zhuǎn)換到Mel頻域:
【權(quán)利要求】
1. 一種基于聲學模型陣列的魯棒語音識別方法,其特征在于:包括訓練階段和測試階 段兩部分;在訓練階段,首先根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率;然后分 別以這N個頻率為語音頻譜的最高頻率,提取特征向量,并進行模型訓練,得到聲學模型陣 列;在測試階段,首先根據(jù)測試環(huán)境下的少量自適應(yīng)語音,估計當前測試環(huán)境下語音的上限 頻率;然后從聲學模型陣列中選取與測試語音上限頻率匹配的聲學模型,并對其參數(shù)進行 調(diào)整,得到測試環(huán)境聲學模型;最后根據(jù)測試語音上限頻率進行特征提取,得到含噪測試語 音的特征向量,并用測試環(huán)境聲學模型對其進行聲學解碼,得到識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于聲學模型陣列的魯棒語音識別方法,其特征在于:訓練 階段 (1) 根據(jù)語音的最高頻率為訓練語音設(shè)定N個上限頻率,這N個上限頻率在Mel頻域等 間距分布; (2) 分別以N個上限頻率為語音頻譜的最高頻率,提取N組不同上限頻率的特征向量: 特征1、特征2,…,特征N ; (3) 分別用特征1、特征2,…,特征N進行模型訓練,得到N組不同的聲學模型:聲學 模型1、聲學模型2,…,聲學模型N,組成聲學模型序列;聲學模型序列中的每組聲學模型 除了包括全部語音單元的聲學模型外,還包括其特征對應(yīng)的上限頻率,用于后端的聲學模 型選取。
3. 根據(jù)權(quán)利要求2所述的基于聲學模型陣列的魯棒語音識別方法,其特征在于:測試 階段 (4) 根據(jù)測試環(huán)境下的自適應(yīng)語音估計當前測試環(huán)境下含噪語音的上限頻率; (5) 根據(jù)估得的測試語音上限頻率,從聲學模型陣列中選取與測試語音上限頻率匹配 的聲學模型; (6) 根據(jù)自適應(yīng)語音,對選取的聲學模型的參數(shù)進行調(diào)整,使之與當前測試環(huán)境相匹 配,得到測試環(huán)境聲學模型; (7) 根據(jù)估得的測試語音上限頻率,為含噪測試語音提取特征向量,并用模型自適應(yīng)得 到的測試環(huán)境聲學模型對其進行聲學解碼,得到識別結(jié)果。
4. 根據(jù)權(quán)利要求3所述的基于聲學模型陣列的魯棒語音識別方法,其特征在于:測試 階段的模型自適應(yīng)采用對數(shù)譜域線性變換,在Mel濾波器組的每個通道上用單變量線性回 歸逼近實際環(huán)境變換關(guān)系,線性變換參數(shù)從測試環(huán)境下的少量自適應(yīng)語音中估計。
5. 根據(jù)權(quán)利要求3所述的基于聲學模型陣列的魯棒語音識別方法,其特征在于:測試 環(huán)境下的特征提取需要根據(jù)估得的測試語音上限頻率進行,以保證選取的聲學模型的頻率 范圍與特征向量的頻率范圍一致。
6. 根據(jù)權(quán)利要求2所述的基于聲學模型陣列的魯棒語音識別方法,其特征在于:設(shè)訓 練語音庫中語音的最高頻率為fmax,首先將其轉(zhuǎn)換到Mel頻域:
其中,F(xiàn)max表示Mel頻域的最高頻率;然后,根據(jù)Fmax設(shè)定N個語音頻譜上限頻率 :
:最后,將這N個頻率轉(zhuǎn)換到線性頻域:
其中,fk表示第k個語音頻譜上限頻率; 分別以fi,f2,…,fN為語音信號頻譜的最高頻率,為訓練語音提取倒譜特征,得到與 f\,f2,…,&對應(yīng)的多組特征:特征1,特征2,…,特征N。
【文檔編號】G10L15/20GK104392718SQ201410699802
【公開日】2015年3月4日 申請日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】呂勇 申請人:河海大學