專利名稱:一種用于魯棒語音識別的語音特征提取方法
技術領域:
本發(fā)明涉及語音識別領域,尤其涉及一種在語音識別中,能夠對平穩(wěn)和非平穩(wěn)噪聲有明顯抑制作用的語音特征提取算法方法。
背景技術:
語音識別系統(tǒng)在復雜環(huán)境下識別性能急劇降低是語音識別中最重要的問題之一。 例如在馬路上手機語音查詢地理位置,用戶所處的聲學環(huán)境非常復雜且變化迅速,這對語音識別系統(tǒng)的性能產生了極大的影響。原有的語音識別系統(tǒng)在沒有噪聲的環(huán)境下能取得很好的處理和識別效果,但在現(xiàn)實應用中識別系統(tǒng)的性能會由于時變的不可預測的環(huán)境噪音和信道的影響,說話人的差異,談話內容的變化等因素影響嚴重下降。所以如何提高語音識別系統(tǒng)在訓練和測試環(huán)境的不匹配條件下的魯棒性成為語音識別技術的關鍵。
近年來,在語音識別技術環(huán)境魯棒性這一研究領域人們提出了很多改進技術和算法,并取得了一定的效果。根據語音識別的流程,魯棒語音識別可以分為四類時頻域的抗噪;特征域的噪聲補償;模型域的噪聲自適應和解碼域的自適應。最早的技術是時頻域的抗噪,例如譜減和維納濾波,還有經典的歐洲電信標準協(xié)會的兩階段維納濾波。特征層面噪聲抑制通常是在提取特征的過程中對噪聲進行補償。由于PLP和MFCC特征一直占據鰲頭, 所以特征層面的噪聲抑制大多是在這兩種特征上進行的,例如向量泰勒級數等。第三個階段是在模型方面對噪聲進行自適應,包括多狀態(tài)的語音模型、共享變量參數的HMM等。第四個層面是在解碼層面的噪聲自適應,包括不確定性解碼和用子帶重估來代替不確定性解碼坐寸ο
所有的這些方法從根本上來說都是尋求在某種準則下訓練環(huán)境和測試環(huán)境之間不匹配的一種最佳補償。在一系列假設前提條件,如加性噪音的高斯分布、噪音與語音信號的獨立性、不同噪音之間的獨立性、信道的漸變特性等等,這些方法對于語音識別技術的魯棒性都作出了有益的探索和貢獻,尤其在平穩(wěn)噪聲環(huán)境下有較好的噪聲抑制效果。但這與在真實噪音環(huán)境下語音識別系統(tǒng)的應用要求還有很大的差距,因此對于更加復雜的環(huán)境, 比如突發(fā)噪聲等環(huán)境卻無能為力。發(fā)明內容
(一 )要解決的技術問題
為了解決上述的在復雜環(huán)境下的語音識別率低,而普通的特征提取方法對非平穩(wěn)噪聲的抑制能力不夠強的缺點,本發(fā)明提出一種能夠提高其識別率的特征提取方法,目的在于提高帶有突發(fā)噪聲和音樂噪聲等加性噪聲影響的語音的識別率,并且使純凈環(huán)境下的語音識別率不下降。
( 二 )技術方案
本發(fā)明所基于的一種用于魯棒語音識別的語音特征提取方法,包括以下步驟來實現(xiàn)
步驟I、獲取語音信號的功率譜;
步驟2、將所獲得的功率譜通過濾波器組處理,獲得含噪語音的短時功率譜;
步驟3、根據所獲得的含噪語音的短時功率譜,采用幀平均的方式求取含噪語音的中等時長功率譜;
步驟4、對所獲得的含噪語音的中等時長功率譜進行不對稱濾波和掩蔽抗噪,以得到純凈語音的中等時長功率譜;
步驟5、根據所述純凈語音的中等時長功率譜、含噪語音的中等時長功率譜和含噪語音的短時功率譜獲取純凈語音的短時功率譜;
步驟6、對純凈語音的短時功率譜進行能量歸一化處理,以消除乘性噪音;
步驟7、對消除了乘性噪音的純凈語音的短時功率譜進行等響度加重;
步驟8、對等響度加重后的純凈語音的短時功率譜進行指數非線性操作;
步驟9、對進行了指數非線性操作后的純凈語音的短時功率譜進行傅立葉逆變換, 以求取倒譜系數,對倒譜系數進行均值歸一化處理,最終得到語音特征。
本發(fā)明從傳統(tǒng)的語音特征提取方法入手,針對傳統(tǒng)語音特征抗噪能力弱的缺點, 提出了若干手段改進語音特征,最終形成一套新的語音特征提取方法。本發(fā)明針對噪聲變化比語音慢的特點,利用幀平均的方式將短時功率譜轉換為中等時長的功率譜,用于估計噪聲;利用不對稱濾波的方式,分別估計含噪語音中噪聲和語音的頻譜包絡;在不對稱濾波的基礎上采用掩蔽的方式估計信噪比,并對其進行處理,將其轉換為短時功率譜的信噪比進行抗噪;還通過能量歸一化和指數非線性對功率譜進行處理。本發(fā)明提出的用于魯棒語音識別的語音特征提取方法不僅能夠對噪聲進行更加準確的估計,也能使語音特征更加符合人耳的聽覺特性。因此這種特征提取方法所求取的特征對噪聲有很好的抑制作用。
(三)有益效果
本發(fā)明從傳統(tǒng)的語音特征提取方法入手,在傳統(tǒng)的語音特征提取方法中加入了抗噪處理和符合人耳聽覺的變換處理,使得這種特征提取方法不僅能夠擬制各種加性噪聲, 并且在純凈環(huán)境下的識別率也高于傳統(tǒng)的語音特征提取方法。
圖I為本發(fā)明用于魯棒語音識別的語音特征提取方法的總流程框圖2為包含掩蔽的不對稱低通濾波抗噪模塊的結構流程圖3為圖2中掩蔽模塊的結構流程圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
圖I為本發(fā)明用于魯棒語音識別的語音特征提取方法的總流程框圖。如圖I所示, 本發(fā)明提出的一種用于魯棒語音識別的語音特征提取方法主要由以下幾個流程組成對語音信號進行預加重;對語音加窗并采用短時傅立葉變換求取語音頻譜;對語音頻譜平方, 求取功率譜;采用濾波器組對功率譜進行處理,以獲得含噪語音的短時功率譜;采用幀平均的方式求取含噪語音的中等時長功率譜;對所求取的含噪語音的中等時長功率譜進行不對稱低通濾波處理,跟蹤語音中的噪聲,同時對所求取的中等時長功率譜進行掩蔽處理,得到純凈語音的短時功率譜;對純凈語音和帶噪語音的功率譜的比值進行通道平均處理,以進行平滑;將平滑后的純凈語音和帶噪語音的功率譜比值同濾波器組輸出的含噪語音的短時功率譜相乘,得到純凈語音的短時功率譜;對純凈語音的短時功率譜進行能量歸一化處理,以消除乘性噪聲;將歸一化后的短時功率譜進行等響度加重,使其符合人耳聽覺效應; 然后將等響度加重后的功率譜利用指數操作進行強度響度轉換,使其符合人的生理特征; 之后對經過強度響度轉換后的功率譜進行傅立葉逆變換;再根據傅立葉逆變換得到的結果求取倒譜系數;最后對求取的倒譜系數進行均值歸一化處理,最終得到本發(fā)明方法的語音特征。以下對發(fā)明的各步驟具體闡述。
一、對語音信號進行預加重
預加重的目的是削弱低頻干擾的影響,突出高頻信號的主成份。通常使用如下公式對語音采樣點進行預加重
權利要求
1.一種用于魯棒語音識別的語音特征提取方法,其特征在于,該方法包括 步驟I、獲取語音信號的功率譜; 步驟2、將所獲得的功率譜通過濾波器組處理,獲得含噪語音的短時功率譜; 步驟3、根據所獲得的含噪語音的短時功率譜,采用幀平均的方式求取含噪語音的中等時長功率譜; 步驟4、對所獲得的含噪語音的中等時長功率譜進行不對稱濾波和掩蔽抗噪,以得到純凈語音的中等時長功率譜; 步驟5、根據所述純凈語音的中等時長功率譜、含噪語音的中等時長功率譜和含噪語音的短時功率譜獲取純凈語音的短時功率譜; 步驟6、對純凈語音的短時功率譜進行能量歸一化處理,以消除乘性噪音; 步驟7、對消除了乘性噪音的純凈語音的短時功率譜進行等響度加重; 步驟8、對等響度加重后的純凈語音的短時功率譜進行指數非線性操作; 步驟9、對進行了指數非線性操作后的純凈語音的短時功率譜進行傅立葉逆變換,以求取倒譜系數,對倒譜系數進行均值歸一化處理,最終得到語音特征。
2.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,步驟I中所述獲取語音信號的頻譜進一步包括以下內容 步驟11、對語音信號采用公式(I)進行預加重
3.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述步驟2中采用的濾波器組為梅爾濾波器組Mel-f ilter bank或Gamma-tone濾波器組,通道數根據不同的濾波器選取不同的數目,其中,利用Ga_a-tone濾波器組求和得到含噪語音的短時功率譜,如公式(3)所示
4.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,步驟3中采用幀平均的方式求取含噪語音的中等時長功率譜,如公式(4)所示 A = "H PWJ]U) 其中Q[m,I]為含噪語音的中等時長功率譜,m和I分別表示幀和濾波器組通道的索引,M表示求取中等時長的時候,分別向前和向后所取的幀數之和,P[m',1]為第m'幀的含噪語音短時功率譜。
5.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,步驟4中所述對所獲得的含噪語音的中等時長功率譜進行不對稱濾波和掩蔽抗噪具體包括以下幾個步驟 步驟41、將所獲得的含噪語音中等時長功率譜經第一個不對稱低通濾波器進行濾波,并將所述含噪語音中等時長功率譜減去所述第一個不對稱低通濾波器的輸出結果以進行整合;其中所述第一個不對稱低通濾波器如公式(5)表示
6.根據權利要求5所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述掩蔽模塊的操作流程包括以下內容 所述經半波整流模塊得到的Qjm,I]經過掩蔽模塊的MAX模塊得到Qp [m,I]如公式(9)所示 Qp[m, I] = max(入 tQp[m-l, I], Q0[m, I])(9) 其中Xt是遺忘系數,取值范圍是(0 1),掩蔽模塊最后的輸出值Qtm[m,l]由第二選擇性開關決定,所述第二選擇性開關如公式(10)所示
7.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述步驟5中獲取純凈語音的短時功率譜包括以下內容 步驟51,計算得到所獲得的純凈語音的中等時長功率譜與含噪語音的中等時長功率譜的比值H[m,l]如公式(11)所示
8.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述步驟6中對純凈語音的短時功率譜進行能量歸一化處理,如公式(15)所示 其中k是任意常數,T[m, I]為純凈語音的短時功率譜,U [m]如公式(14)所示
9.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述步驟7中,所述對純凈語音的短時功率譜進行等響度加重如公式(17)所示
10.根據權利要求1所述的用于魯棒語音識別的語音特征提取方法,其特征在于,所述步驟8中,所述對等響度加重后的純凈語音的短時功率譜進行指數非線性操作如公式(18)所示 L[m, I] = 0[m, I] 9(18) 其中e為指數非線性的參數,0[m,I]為所述等響度加重后的純凈語音的短時功率譜。
全文摘要
本發(fā)明公開了一種用于魯棒語音識別的語音特征提取方法,該方法包括獲取功率譜;采用濾波器組對功率譜進行處理;采用幀平均的方式求取中等時長的功率譜;對功率譜進行不對稱濾波處理,同時對功率譜進行掩蔽處理,得到純凈語音功率譜;對純凈語音和帶噪語音功率譜的比值進行通道平均處理,以進行平滑;將平滑后的純凈語音和帶噪語音的功率譜比值同濾波器組輸出的功率譜相乘,得到純凈語音的短時功率譜;對短時功率譜進行能量歸一化處理,以消除乘性噪聲;功率譜進行等響度加重;功率譜進行指數操作;對功率譜進行傅立葉逆變換;求取信號的倒譜系數;對倒譜系數進行均值歸一化處理。本發(fā)明提取的語音信號的特征,速度快,能夠實現(xiàn)在線處理;利用本發(fā)明提取的特征訓練出的聲學模型,具用很好的抗噪效果;本發(fā)明具有非常重大的使用意義。
文檔編號G10L15/20GK102982801SQ20121044943
公開日2013年3月20日 申請日期2012年11月12日 優(yōu)先權日2012年11月12日
發(fā)明者徐波, 范利春, 柯登峰, 孟猛 申請人:中國科學院自動化研究所