專利名稱:噪聲抑制、提取語音特征、語音識別及訓練語音模型的方法和裝置的制作方法
技術領域:
本發(fā)明總體涉及語音識別技術,具體地,涉及語音譜的噪聲抑制技術。
技術背景目前流行的語音識別系統(tǒng)對純凈語音能夠獲得非常高的識別精度,但 由于噪聲帶來聲學模型和聲學特征之間的失配,在噪聲環(huán)境下現(xiàn)有的語音 識別系統(tǒng)的性能會急劇下降。在噪聲穩(wěn)健性方面的工作主要集中在前端設計,目的是減少噪聲帶來的在語音特征空間的失配。最小均方誤差(Minimum Mean-Square Error, MMSE)估計是一種語音增強算法,其能夠有效地抑制背景噪聲,從而提 高輸入信號的信噪比(Signal-to-Noise Ratio, SNR)。對于最小均方誤差 估計,在Y. Ephraim和D. Malah的文獻"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-32, pp.ll09-1121, 1984中進行了詳細的描述,其全部內(nèi)容以引用方式包含于 此,以供參考(下文中稱為文獻l)。在該文獻中,利用MMSE估計對短 時謙幅度(Short-Time Spectral Amplitude, STSA)進行了估計,并提出 了利用MMSE STSA估計的系統(tǒng),以及將該系統(tǒng)與廣泛使用的基于Wiener 濾波和減謙算法(Spectral Subtraction Algorithm)的系統(tǒng)進行了比較。盡管在Y. Ephraim和D. Malah的文獻中使用的鐠的均方誤差的失真 測量在數(shù)學上易處理,并獲得了很好的結果,但是它不是最理想的方式。 眾所周知,基于對數(shù)謙的均方誤差的失真測量更適合于語音處理,例如在 R. M. Gray, A. Buzo, A. H. Gray, Jr.和Y. Matsuyama的文獻"Distortion measures for speech processing," IEEE Trans. Acoust., Speech, Signal processing, vol. ASSP-28, pp. 367-376, Aug. 1980中進行了詳細的描迷,其 全部內(nèi)容以引用方式包含于此,以供參考。因此,該失真測量廣泛地用于 語音分析和識別。對于對數(shù)譜最小均方誤差(LogMMSE)估計,在Y. Ephrahn和D. Malah的文獻"Speech enhancement using a minimum mean-square error log-spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-33, pp.443-445, 1985中進行了詳細的描述, 其全部內(nèi)容以引用方式包含于此,以供參考(下文中稱為文獻2)。 LogMMSE優(yōu)于MMSE,因為它能夠獲得更小的剩余噪聲水平,同時不影 響語音本身的質(zhì)量。在LogMMSE增強算法中,采用泰勒級數(shù)累加或者數(shù) 值積分來計算增益函數(shù)。然而,在此構架中,存在以下兩個問題1. 泰勒級數(shù)累加只有當輸入數(shù)值較小時計算精確,而數(shù)值積分只有在 輸入數(shù)值較大時計算精確。2. 利用泰勒級數(shù)累加或者數(shù)值積分計算增益函數(shù)的計算量很大。發(fā)明內(nèi)容為了解決上述現(xiàn)有技術中存在的問題,本發(fā)明提供了噪聲抑制方法, 提取語音特征的方法,語音識別方法和訓練語音模型的方法,以及噪聲抑 制裝置,提取語音特征的裝置,語音識別裝置和訓練語音模型的裝置。根據(jù)本發(fā)明的一個方面,提供了一種用于含噪聲語音譜的噪聲抑制方 法,包括根據(jù)噪聲估計語,對所述含噪聲語音譜進行對數(shù)譜最小均方誤 差估計,以降低所述含噪聲語音譜的噪聲;其中,用分段線性函數(shù)代替增 益函數(shù)來進行所述對數(shù)譜最小均方誤差估計。根據(jù)本發(fā)明的另 一個方面,提供了 一種用于含噪聲語音譜的噪聲抑制 方法,包括根據(jù)噪聲估計鐠,對所述含噪聲語音譜進行對數(shù)譜最小均方
誤差估計,以降低所述含噪聲語音譜的噪聲;其中,通過以下步稞計算增 益函數(shù)來進行所迷對數(shù)譜最小均方誤差估計利用泰勒級數(shù)累加計算所述 增益函數(shù);利用數(shù)值積分計算所迷增益函數(shù);以及合并所述泰勒級數(shù)累加 的結果和所述數(shù)值積分的結果。根據(jù)本發(fā)明的另一個方面,提供了一種用于提取語音特征的方法,包 括將含噪聲語音變換成含噪聲語音譜;利用上述的噪聲抑制方法,降低 所述含噪聲語音鐠的噪音;以及從所述噪聲降低的語音譜提取語音特征。根據(jù)本發(fā)明的另一個方面,提供了一種語音識別方法,包括利用上 述的提取語音特征的方法,提取語音特征;以及根據(jù)所述提取出的語音特 征,識別語音。根據(jù)本發(fā)明的另一個方面,提供了一種訓練語音模型的方法,包括 利用上述的提取語音特征的方法,提取語音特征;以及根據(jù)所述提取出的 語音特征,訓練所述語音模型。根據(jù)本發(fā)明的另 一個方面,提供了 一種用于含噪聲語音譜的噪聲抑制 裝置,包括估計單元(estimation unit),根據(jù)噪聲估計譜,對所述含噪 聲語音譜進行對數(shù)讒最小均方誤差估計,以降低所述含噪聲語音語的噪聲; 其中,所述估計單元使用分段線性函數(shù)代替增益函數(shù)來進行所述對數(shù)傳最 小均方誤差估計。根據(jù)本發(fā)明的另 一個方面,提供了 一種用于含噪聲語音譜的噪聲抑制 裝置,包括估計單元(estimation unit),根據(jù)噪聲估計譜,對所述含噪 聲語音謙進行對數(shù)鐠最小均方誤差估計,以降低所述含噪聲語音諳的噪聲; 其中,所述估計單元包括泰勒級數(shù)累加計算單元(Taylor series accumulation calculation unit),利用泰勒級數(shù)累加計算所述增益函數(shù); 數(shù)值積、分i十算單元(numeric integration calculation unit),利用lt值積分 計算所迷增益函數(shù);以及合并單元(combination unit),用于合并所述泰 勒級數(shù)累加計算單元計算的結果和所述數(shù)值積分計算單元計算的結杲。根據(jù)本發(fā)明的另一個方面,提供了一種用于提取語音特征的裝置,包 括變換單元(transforming unit),將含噪聲語音變換成含噪聲語音語;
根據(jù)上述的噪聲抑制裝置,用于降低所述含噪聲語音譜的噪音;以及提取 單元(extracting unit),從所述噪聲降低的語音譜提取所述語音特征。根據(jù)本發(fā)明的另一個方面,提供了一種語音識別裝置,包括根據(jù)上 述的提取語音特征的裝置,用于提取語音特征;以及語音識別單元(speech recognition unit),根據(jù)所述提取出的語音特征,識別語音。根據(jù)本發(fā)明的另一個方面,提供了一種訓練語音模型的裝置,包括 根據(jù)上述的提取語音特征的裝置,用于提取語音特征;以及模型訓練單元 (model-training unit),根據(jù)所述提取出的語音特征,訓練所述語音模型。
相信通過以下結合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。圖l是才艮據(jù)本發(fā)明的一個實施例的噪聲抑制方法的流程圖;圖2A-2D示出了設置分段線性函數(shù)的分割點的過程的一個實例,其中圖2A示出了一個增益函數(shù)的曲線,圖2B示出了增益函數(shù)的導數(shù)的曲線,圖2C示出了增益函數(shù)和分段線性函數(shù)之間的差別的曲線,以及圖2D示出了分割后的分段線性函數(shù)的曲線;圖3是根據(jù)本發(fā)明的另一個實施例的噪聲抑制方法的流程圖;圖4A-4C示出了對泰勒級數(shù)累加和數(shù)值積分進行合并的一個實例,其中圖4A示出了通辻秦勒級數(shù)累加獲得的增益函數(shù),圖4B示出了通過數(shù)值積分獲得的增益函數(shù),以及圖4C示出了通過合并上述兩種計算方法獲得的增益函數(shù);圖5示出了計算合并閾值的一個實例;圖6是根據(jù)本發(fā)明的另 一個實施例的提取語音特征的方法的流程圖; 圖7是根據(jù)本發(fā)明的另 一個實施例的語音識別方法的流程圖; 圖8是根據(jù)本發(fā)明的另一個實施例的訓練語音模型的方法的流程圖; 圖9是根據(jù)本發(fā)明的另一個實施例的噪聲抑制裝置的方框圖; 圖IO是根據(jù)本發(fā)明的另一個實施例的噪聲抑制裝置的方框圖;圖11是根據(jù)本發(fā)明的另一個實施例的提取語音特征的裝置的方框圖; 圖12是#^據(jù)本發(fā)明的另一個實施例的語音識別裝置的方框圖;以及 圖13是根據(jù)本發(fā)明的另 一個實施例的訓練語音模型的裝置的方框囝。
具體實施方式
為了便于后面實施例的理解,首先簡要介紹一下最小均方誤差 (MMSE)估計以及對數(shù)諉最小均方誤差(LogMMSE)估計的原理。MMSE估計是一種語音增強算法,它利用背景噪聲的估計諳,對含噪 聲語音譜中的噪聲進行抑制,獲得噪聲得到抑制的語音譜。具體地,最小均方誤差估計通過以下公式進行力)=+ ,,o s " r (1)i一klW),os"r} (2)其中,y(t)表示包含語音信號x(t)和噪聲信號d(t)的信號,為表示語音信號x(t)的笫*個謙分量的振幅,^4表示通過^t的MMSE估計得到的語音譜。通過推導得到1二cAmoa)凡 (3)其中v4表示噪聲得到抑制的語音譜,及A表示含噪聲語音譜,c是常數(shù), &是根據(jù)噪聲估計謙獲得的先驗信噪比,yA是根據(jù)噪聲估計譜和含噪聲語 音譜獲得的后驗信噪比,M(^)是合流超幾何函數(shù),以及*表示第*個譜分量。具體細節(jié)參見上述Y. Ephraim和D. Malah的文獻1。LogMMSE估計也是一種語音增強算法,它能夠獲得更小的剩余噪聲 水平,同時不影響語音本身的質(zhì)量。具體地,LogMMSE估計通過以下公 式進行4 = exp帥n ^ I別, 0 s " T]} ( 5 )其中w
其中,與進行MMSE估計時使用的公式(1)不同的是,對語音信號 x(t)的第A個鐠分量的振幅A取對數(shù)。通過推導得到<formula>formula see original document page 12</formula>(6 )l + ^ 卞4 f J 如下定義增益函數(shù)Gfi^:<formula>formula see original document page 12</formula>(7)從而得到噪聲得到抑制的語音謙為(8)具體細節(jié)參見上述Y. Ephraim和D. Malah的文獻2。下面就結合附圖對本發(fā)明的各個實施例進行詳細的說明。 圖l是才艮據(jù)本發(fā)明的一個實施例的噪聲抑制方法的流程圖。如圖1所 示,首先,在步驟101,輸入含噪聲語音譜。含噪聲語音譜是根據(jù)包含背 景噪聲和語音的聲音數(shù)據(jù),例如利用快速傅里葉變換得到的語音譜,因此 是背景噪聲和語音疊加在一起的語音譜。接著,在步驟105,根據(jù)預先估計的噪聲估計語,對含噪聲語音進行 對數(shù)語最小均方誤差估計。噪聲估計譜是對沒有語音的背景噪聲進行預先 估計得到的。獲得噪聲估計譜的方式很多,例如,對多次采集的背景噪聲 譜進行平均等等,本發(fā)明對此并沒有特別的限制。具體地,根據(jù)上迷公式 (8)進行對數(shù)譜最小均方誤差估計,其中利用分段線性函數(shù)代替公式(8)中的增益函數(shù)(7(^),變換后的4^式為<formula>formula see original document page 12</formula>其中^表示噪聲得到抑制的語音諳,A表示含噪聲語音語,&是根據(jù) 噪聲估計傳獲得的先驗信噪比,^是根據(jù)噪聲估計諳和含噪聲語音譜獲得 的后驗信噪比,i^t^是分段線性函數(shù),以及it表示第A個譜分量。在本實施例中,可以利用預先設定分割點的分段線性函數(shù)^l^近似增益函數(shù)G^/j。例如,可以通過以下步驟進行分段線性函數(shù)Z/i^近似增益 函數(shù)G^"的過程。具體地,圖2A-2D示出了設置分段線性函數(shù)的分割點的過程的一個實 例,其中圖2A示出了一個增益函數(shù)G(vJ的曲線,圖2B示出了增益函數(shù)的 導數(shù)的曲線,圖2C示出了增益函數(shù)和分段線性函數(shù)之間的差別的曲線, 以及圖2D示出了分割后的分段線性函數(shù)丄W的曲線。具體的分割過程如 下。首先,計算增益函數(shù)G"6^的導數(shù),如圖2B所述。為了方便,在本實 例中,只取導數(shù)值在0.05-0.50范圍內(nèi)的曲線作為示例。接著,設定分段線性函數(shù)丄W的初始分割點,如圖2B所述。例如在 本實例中,初始分割點設在導數(shù)值為0.10、 1.15、 0.20、 0.25、 0.30、 0.35、 0.40、 0.45處。接著,計算在初始分割點的每兩個連續(xù)分割點之間的分段線性函數(shù)/: 和增益函數(shù)C (^之間的差別,如圖2C所示。接著,將計算出的每兩個連續(xù)分割點之間的函數(shù)值的差別與預先設定的閾值進行比較,例如,在本實例中,閾值設定為0.037。通過比較,如果 差別大于0.037,則在兩個連續(xù)分割點之間插入一個新的分割點,例如,在 分割點0.10和0.15之間,例如在它們的中點處插入一個新的分割點。重復上述計算差別的步驟及其之后的步驟,直到?jīng)]有所述差別大于所 述閾值。從而,得到如圖2D所示的分段線性函數(shù)。返回到圖1,在利用分段線性函數(shù)丄(^)代替增益函數(shù)GT"ft)進行對數(shù)譜 最小均方誤差估計之后,在步驟110,輸出通過對數(shù)譜最小均方誤差估計 降低噪聲的語音i普。通過本實施例的噪聲抑制方法,利用分段線性函數(shù)代替增益函數(shù),極 大地降低了對數(shù)譜最小均方誤差估計的計算量,同時保持了噪聲抑制性能。
在同一發(fā)明構思下,圖3是4艮據(jù)本發(fā)明的另一個實施例的噪聲抑制方 法的流程圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實 施例相同的部分,適當省略其說明。如圖3所示,首先,在步驟301,輸入含噪聲語音譜。含噪聲語音譜 是根據(jù)包含背景噪聲和語音的聲音數(shù)據(jù),例如利用快速傅里葉變換得到的 語音譜,因此是背景噪聲和語音疊加在一起的語音譜。接著,在步驟305,對含噪聲語音進行對數(shù)鐠最小均方誤差估計。具 體地,在該步驟中,利用公式(8),通過泰勒級數(shù)累加計算增益函數(shù)來進 行對數(shù)謙最小均方誤差估計,得到如圖4A所示的曲線。本實施例中釆用 的泰勒級數(shù)累加方法可以是本領域的技術人員公知的任何方法,本發(fā)明對 此并沒有限制,在此不再贅述。在圖4A中可以看出,在輸入變量較小時,通#勒級數(shù)累加獲得的 增益函數(shù)值很精確,而在輸入變量較大時,計算出的增益函數(shù)值不精確。接著,在步驟310,根據(jù)噪聲估計譜,利用公式(8),通過數(shù)值積分 計算增益函數(shù)來進行對數(shù)諉最小均方誤差估計,得到如圖4B所示的曲線。 本實施例中采用的數(shù)值積分方法可以是本領域的技術人員公知的任何方 法,本發(fā)明對此并沒有限制,在此不再贅述。在圖4B中可以看出,與泰勒級數(shù)累加方法計算的結果相反,在輸入 變量較大時,通過數(shù)值積分獲得的增益函數(shù)值很精確,而在輸入變量較小 時,計算出的增益函數(shù)值不精確。接著,在步驟315,合并通過泰勒級數(shù)累加方法計算的結果和數(shù)值積 分方法計算的結果。具體地,可以將圖4A中通過泰勒級數(shù)累加獲得的增益函數(shù)值中不精 確的部分利用通過數(shù)值積分獲得的增益函數(shù)值替換,或者將圖4B中通過 數(shù)值積分獲得的增益函數(shù)值中不精確的部分利用通過泰勒級數(shù)累加獲得的 增益函數(shù)值替換。此外,也可以在泰勒級數(shù)累加方法和數(shù)值積分方法都精 確的范圍內(nèi)任意取一點(例如圖4A和圖4B中兩條曲線的最接近處),作 為合并閾值,將小于合并閾值的通過泰勒級數(shù)累加方法計算得到的增益函
數(shù)值和大于合并閾值的通過數(shù)值積分方法計算得到的增益函數(shù)值合并。 優(yōu)選,可以通過如下方法確定上述合并閾值。首先,將通過泰勒級數(shù)累加方法計算的增益函數(shù)值和通過數(shù)值積分方 法計算的增益函數(shù)值進行相減,然后可選地對相減得到的結果取絕對值并可選地作對數(shù)變換,得到如圖3所示的曲線。然后,選擇圖3的曲線的最 小值處對應的輸入變量作為上述合并閾值。在確定合并閾值后,將小于合并閾值的通過泰勒級數(shù)累加方法計算得值合并,如圖4A-4C所示,從而得到精確的增益函數(shù)值。返回到圖3,在通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)譜最小均方誤差估計之后,在步驟320,輸出通過對數(shù)譜最小均方誤差估計降低噪聲的語音語。通過本實施例的噪聲抑制方法,通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)i瞽最小均方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌補單獨使用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。在同一發(fā)明構思下,圖6是根據(jù)本發(fā)明的另一個實施例的提取語音特 征的方法的流程圖。下面就結合該圖,對本實施例進行描述。對于那些與 前面實施例相同的部分,適當省略其說明。如圖6所示,首先,在步驟601,輸入含噪聲語音,該含噪聲語音包 括說話人說出的語音和背景噪聲。接著,在步驟605,將所述含噪聲語音變換成含噪聲語音譜,例如通 過快速傅立葉變換(Fast Fourier Transform, FFT)將時域上的語音變換 成頻域上的語音語。接著,在步驟610,利用上面根據(jù)圖1和圖2的實施例所述的噪聲抑 制方法,降低所述含噪聲語音謙的噪音。所述噪聲抑制方法是根據(jù)上述公 式(9)進行對數(shù)語最小均方誤差估計,其中,利用分段線性函數(shù)代替了增 益函數(shù)。具體的降噪過程與上述實施例中的相同,在此不再贅述。
此夕卜,也可以利用上面沖艮據(jù)圖3至圖5的實施例所述的噪聲抑制方法, 降低所述含噪聲語音譜的噪音。所述噪聲抑制方法是根據(jù)上述公式(8)進 行對數(shù)諉最小均方誤差估計,其中,通過合并泰勒級數(shù)累加方法和數(shù)值積 分方法進行對數(shù)語最小均方誤差估計。具體的降噪過程與上述實施例中的 相同,在此不再贅述。最后,在步驟615,從噪聲降低的語音譜中提取語音特征。具體地, 可以通過Mel頻率倒譜系數(shù)(Mel Frequency c印tral Coefficient, MFCC ) 或線性預測倒謙系數(shù)(Linear Predictive C印stral Coefficient, LPCC )等 常規(guī)方法提取語音特征,本發(fā)明對此沒有特別限制。通過以上的說明可知,本實施例的提取語音特征的方法可以在從含噪 聲語音譜中提取語音特征之前,通過上述公式(9)進行對數(shù)鐠最小均方誤 差估計來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了 對數(shù)i普最小均方誤差估計的計算量,同時保持了噪聲抑制性能。因此,可 以提高語音特征的質(zhì)量。此外,本實施例的提取語音特征的方法也可以在從含噪聲語音譜中提 取語音特征之前,通過上述公式(8)進行對數(shù)譜最小均方誤差估計來降低 噪聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)譜最小均 方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌補單獨使 用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因此,可以提高 語音特征的質(zhì)量。在同一發(fā)明構思下,圖7是根據(jù)本發(fā)明的另一個實施例的語音識別方 法的流程圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實 施例相同的部分,適當省略其說明。如圖7所示,首先,在步驟701,利用上面參考圖6的實施例所述的 提取語音特征的方法,提取語音特征。具體的提取過程與上述實施例中的 相同,在此不再贅述。然后,在步驟705,根據(jù)所述提取出的語音特征,進行語音識別。具 體地,例如,將提取出的語音特征和預先訓練好的模板進行比較,從而識別出所述語音的內(nèi)容信息,本發(fā)明對此沒有特別限制。通過以上的說明可知,本實施例的語音識別方法可以在從含噪聲語音譜中提取語音特征之前,通過上迷公式(9)進行對數(shù)譜最小均方誤差估計 來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了對數(shù)譜 最小均方誤差估計的計算量,同時保持了噪聲抑制性能,從而可以提高語 音特征的質(zhì)量。因此,可以提高語音識別的性能。此外,可選地,本實施例的語音識別方法也可以在從含噪聲語音鐠中 提取語音特征之前,通過上述公式(8)進行對數(shù)譜最小均方誤差估計來降 低噪聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)譜最小 均方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌補單獨 使用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因此,可以提 高語音識別的性能。在同一發(fā)明構思下,圖8;^才艮據(jù)本發(fā)明的另一個實施例的訓練語音模型的方法的流程圖。下面就結合該圖,對本實施例進行描述。對于那些與 前面實施例相同的部分,適當省略其說明。如圖8所示,首先,在步驟801,利用上面參考圖6的實施例所述的 提取語音特征的方法,提取語音特征。具體的提取過程與上述實施例中的 相同,在此不再贅述。然后,在步驟805,根據(jù)所述提取出的語音特征,訓練所迷語音模型。通過以上的說明可知,在本實施例的訓練語音模型的方法中,可以在 從含噪聲語音語中提取語音特征之前,通過上述公式(9)進行對數(shù)語最小 均方誤差估計來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地 降低了對數(shù)譜最小均方誤差估計的計算量,同時保持了噪聲抑制性能,從 而可以提高語音特征的質(zhì)量。因此,可以提高訓練出的模型的質(zhì)量。此外,可選地,本實施例的訓練語音模型的方法也可以在從含噪聲語 音譜中提取語音特征之前,通過上述公式(8)進行對數(shù)語最小均方誤差估 計來降低噪聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù) 譜最小均方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌 補單獨使用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因此, 可以提高訓練出的模型的質(zhì)量。在同一發(fā)明構思下,圖9是才艮據(jù)本發(fā)明的一個實施例的噪聲抑制裝置 的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施 例相同的部分,適當省略其說明。如圖9所示,本實施例的用于含噪聲語音譜的噪聲抑制裝置900包括 對數(shù)語最小均方誤差估計單元(log-spectral minimum mean-square error estimation unit)卯l,其根據(jù)噪聲估計譜,對所述含噪聲語音鐠進行對數(shù) 鐠最小均方誤差估計,以降低所述含噪聲語音譜的噪聲。所述對數(shù)譜最小 均方誤差估計單元900利用分段線性函數(shù)代替增益函數(shù),根據(jù)上述公式(9 ) 進行對數(shù)鐠最小均方誤差估計,具體細節(jié)與上述參考圖1和2的實施例中 關于噪聲抑制方法的描述相同,在此不再贅述。本實施例的噪聲抑制裝置900還可以包括分割點保存單元905,用于 保存所述分段線性函數(shù)的分割點;以及噪聲估計保存單元910,用于保存 對背景噪聲進行預先估計獲得的噪聲估計。此外,所述噪聲估計也可以從 外部輸入所述對數(shù)謙最小均方誤差估計單元901。通過以上的說明可知,由于本實施例的噪聲抑制裝置卯0利用分段線 性函數(shù)代替增益函數(shù),極大地降低了對數(shù)譜最小均方誤差估計的計算量, 同時保持了噪聲抑制性能。在同一發(fā)明構思下,圖IO是才艮據(jù)本發(fā)明的另一個實施例的噪聲抑制裝 置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實 施例相同的部分,適當省略其說明。如圖10所示,本實施例的用于含噪聲語音譜的噪聲抑制裝置1000包 括對數(shù)謙最小均方誤差估計單元(log-spectral minimum mean-square error estimation unit) 1001,其根據(jù)噪聲估計謙,對所述含噪聲語音譜進 行對數(shù)鐠最小均方誤差估計,以降低所述含噪聲語音鐠的噪聲。具體細節(jié) 與上迷參考圖3至圖5的實施例中關于噪聲抑制方法的描述相同,在 具體地,對數(shù)鐠最小均方誤差估計單元1001還包括泰勒級數(shù)累加計算 單元(Taylor series accumulation calculation unit) 10011 ,其利用公式(8 ), 通過泰勒級數(shù)累加計算增益函數(shù)來進行對數(shù)譜最小均方誤差估計,得到如 圖4A所示的曲線。本實施例中采用的泰勒級數(shù)累加計算單元10011可以 是本領域的技術人員公知的任何能夠進行泰勒級數(shù)累加的裝置,本發(fā)明對 此并沒有限制,在此不再贅述。在圖4A中可以看出,在輸入變量較小時,由泰勒級數(shù)累加計算單元 10011計算出的增益函數(shù)值很精確,而在輸入變量較大時,計算出的增益 函數(shù)值不精確。此外,對數(shù)譜最小均方誤差估計單元1001還包括數(shù)值積分計算單元 (numeric integration calculation unit) 10012,其利用乂〉式(8),通過數(shù) 值積分計算增益函數(shù)來進行對數(shù)語最小均方誤差估計,得到如圖4B所示 的曲線。本實施例中采用的數(shù)值積分計算單元10012可以是本領域的技術 人員公知的任何能夠進行數(shù)值積分的裝置,本發(fā)明對此并沒有限制,在此 不再贅述。在圖4B中可以看出,與由泰勒級數(shù)累加計算單元10011計算出的結 果相反,在輸入變量較大時,由數(shù)值積分計算單元10012計算出的增益函 數(shù)值4艮精確,而在輸入變量較小時,計算出的增益函數(shù)值不精確。此外,對數(shù)譜最小均方誤差估計單元1001還包括合并單元 (combination unit) 10013,用于合并由泰勒級數(shù)累加計算單元10011計 算出的結果和由數(shù)值積分計算單元10012計算出的結果。具體地,可以將圖4A中由泰勒級數(shù)累加計算單元10011計算出的增 益函數(shù)值中不精確的部分利用由數(shù)值積分計算單元10012計算出的增益函 數(shù)值替換,或者將圖4B中由數(shù)值積分計算單元10012計算出的增益函數(shù) 值中不精確的部分利用由泰勒級數(shù)累加計算單元10011計算出的增益函數(shù) 值替換。此外,也可以在泰勒級數(shù)累加計算單元10011和數(shù)值積分計算單 元10012都精確的范圍內(nèi)任意取一點(例如圖4A和圖4B中兩條曲線的最 接近處),作為合并閾值,將小于合并閾值的由泰勒級數(shù)累加計算單元
10011計算出的增益函數(shù)值和大于合并閾值的由數(shù)值積分計算羊元10012 計算出的增益函數(shù)值合并。優(yōu)選,合并單元100U包括減法羊元(subtraction unit),其將由泰 勒級數(shù)累加計算單元10011計算出的增益函數(shù)值和由數(shù)值積分計算單元 10012計算出的增益函數(shù)值進行相減;可選的絕對值運算單元(absolute operation unit),對減法單元得到的結果取絕對值;可選的對數(shù)運算單元 (logarithmic operation unit),對絕對值運算單元得到的結果進行對數(shù)變 換,得到如圖3所示的曲線;以及選擇單元(selection unit),選擇圖3 的曲線的最小值處對應的輸入變量作為上述合并閾值。在確定合并閾值后,合并單元10013將小于合并閾值的由泰勒級數(shù)累 加計算單元10011計算出的增益函數(shù)值和大于合并閾值的由數(shù)值積分計算 單元10012計算出的增益函數(shù)值合并,如圖4A-4C所示,從而得到精確的 增益函數(shù)值。通過本實施例的噪聲抑制裝置1000,通過泰勒級數(shù)累加計算單元 10011、數(shù)值積分計算單元10012和合并單元10013合并泰勒級數(shù)累加方法 和數(shù)值積分方法進行對數(shù)謙最小均方誤差估計,能夠得到理論上所預期的 去除噪聲的性能,從而彌補單獨使用泰勒級數(shù)累加方法或數(shù)值積分方法計 算不精確的缺點。在同一發(fā)明構思下,圖ll是根據(jù)本發(fā)明的另一個實施例的提取語音特 征的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與 前面實施例相同的部分,適當省略其說明。如圖11所示,本實施例的用于提取語音特征的裝置1100包括輸入 單元(inputting unit )1501,輸入含噪聲語音;變換單元(transforming unit) 1105,將所述含噪聲語音變換成含噪聲語音諳;上面所述的噪聲抑制裝置 卯O或噪聲抑制裝置1000,用于降低所述含噪聲語音鐠的噪音;以及提取 單元(extracting unit )1110,從所述噪聲降低的語音語提取所述語音特征。 具體細節(jié)與上述參考圖6的實施例中關于提取語音特征的方法的描述相 同,在此不再贅述。
通過以上的i兌明可知,本實施例的提取語音特征的裝置1100可以在從 含噪聲語音譜中提取語音特征之前,通過上述公式(9)進行對數(shù)譜最小均 方誤差估計來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降 低了對數(shù)"^普最小均方誤差估計的計算量,同時保持了噪聲抑制性能。因此, 可以提高語音特征的質(zhì)量。此夕卜,本實施例的提取語音特征的裝置1100也可以在從含噪聲語音譜 中提取語音特征之前,通過上述公式(8)進行對數(shù)譜最小均方誤差估計來 降低噪聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)i普最 小均方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌補單 獨使用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因此,可以 提高語音特征的質(zhì)量。在同一發(fā)明構思下,圖12是才艮據(jù)本發(fā)明的另一個實施例的語音識別裝 置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實 施例相同的部分,適當省略其說明。如圖12所示,本實施例的語音識別裝置1200包括上面所述的提取 語音特征的裝置1100,用于提取語音特征;以及語音識別單元(speech recognition unit) 1201,根據(jù)所述提取出的語音特征,進行語音識別。具 體細節(jié)與上述參考圖7的實施例中關于語音識別方法的描述相同,在此不 再贅述。通過以上的i兌明可知,本實施例的語音識別裝置1200可以在從含噪聲 語音譜中提取語音特征之前,通過上述公式(9)進行對數(shù)鐠最小均方誤差 估計來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了對 數(shù)譜最小均方誤差估計的計算量,同時保持了噪聲抑制性能。因此,可以 提高語音識別的性能。此外,本實施例的語音識別裝置1200也可以在從含噪聲語音i普中提取 語音特征之前,通過上述公式(8)進行對數(shù)謙最小均方誤差估計來降低噪 聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行對數(shù)譜最小均方 誤差估計,能夠得到理論上所預期的去除噪聲的性能,從而彌補單獨使用
泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因此,可以提高語 音識別的性能。在同一發(fā)明構思下,圖13是根據(jù)本發(fā)明的另一個實施例的訓練語音模 型的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與 前面實施例相同的部分,適當省略其說明。如圖13所示,本實施例的訓練語音模型的裝置1300包括上面所述 的提取語音特征的裝置1100,用于提取語音特征;以及模型訓練單元 (model-trainingunit) 1301,根據(jù)所述提取出的語音特征,訓練所述語音 模型。具體細節(jié)與上述參考圖8的實施例中關于訓練語音模型的方法的描 述相同,在此不再贅述。通過以上的說明可知,本實施例的訓練語音模型的裝置1300可以在從 含噪聲語音鐠中提取語音特征之前,通過上述公式(9)進行對數(shù)謙最小均 方誤差估計來降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降 低了對數(shù)譜最小均方誤差估計的計算量,同時保持了噪聲抑制性能,從而 可以提高語音特征的質(zhì)量。因此,可以提高訓練出的模型的質(zhì)量。此外,可選地,本實施例的訓練語音模型的裝置1300也可以在從含噪 聲語音鐠中提取語音特征之前,通過上述公式(8)進行對數(shù)譜最小均方誤 差估計來降低噪聲,其中通過合并泰勒級數(shù)累加方法和數(shù)值積分方法進行 對數(shù)謙最小均方誤差估計,能夠得到理論上所預期的去除噪聲的性能,從 而彌補單獨使用泰勒級數(shù)累加方法或數(shù)值積分方法計算不精確的缺點。因 此,可以提高訓練出的模型的質(zhì)量。以上雖然通過一些示例性的實施例詳細地描述了本發(fā)明的噪聲抑制方 法,提取語音特征的方法,語音識別方法和訓練語音模型的方法,以及噪 聲抑制裝置,提取語音特征的裝置,語音識別裝置和訓練語音模型的裝置, 但是以上這些實施例并不是窮舉的,本領域技術人員可以在本發(fā)明的精神 和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā) 明的范圍僅由所附權利要求為準。
權利要求
1.一種用于含噪聲語音譜的噪聲抑制方法,包括根據(jù)噪聲估計譜,對所述含噪聲語音譜進行對數(shù)譜最小均方誤差估計,以降低所述含噪聲語音譜的噪聲;其中,用分段線性函數(shù)代替增益函數(shù)來進行所述對數(shù)譜最小均方誤差估計。
2. 根據(jù)權利要求1所述的噪聲抑制方法,其中,利用預先設定的分 割點將所述增益函數(shù)變換為所述分段線性函數(shù),進行所述對數(shù)鐠最小均方 誤差估計。
3. 根據(jù)權利要求2所述的噪聲抑制方法,其中,所述分段線性函數(shù) 的所述預先設定的分割點通過以下步驟獲得計算所述增益函數(shù)的導數(shù); 設定所述分段線性函數(shù)的初始分割點;計算在所述初始分割點的每兩個連續(xù)分割點之間的所述分段線性函數(shù) 和所述增益函數(shù)之間的差別;如果所述差別大于一閾值,在所述兩個連續(xù)分割點之間插入一個新的 分割點;以及重復所述計算差別的步驟及其之后的步驟,直到?jīng)]有所述差別大于所 述閾值。
4. 才艮據(jù)權利要求1-3中的任意一項所述的噪聲抑制方法,其中,所 述對數(shù)謙最小均方誤差估計通過以下公式進行其中A表示噪聲得到抑制的語音謙,A表示含噪聲語音譜,&是根據(jù) 噪聲估計鐠獲得的先驗信噪比,^是根據(jù)噪聲估計譜和含噪聲語音譜獲得的后驗信噪比,£(^)是分段線性函數(shù),以及A:表示第A個鐠分量。
5. —種用于含噪聲語音譜的噪聲抑制方法,包括 根據(jù)噪聲估計鐠,對所述含噪聲語音譜進行對數(shù)譜最小均方誤差估計,以降低所述含噪聲語音譜的噪聲;其中,通過以下步驟計算增益函數(shù)來進行所述對數(shù)譜最小均方誤差估計利用泰勒級數(shù)累加計算所述增益函數(shù); 利用數(shù)值積分計算所述增益函數(shù);以及 合并所述泰勒級數(shù)累加的結果和所述數(shù)值積分的結果。
6. 根據(jù)權利要求5所述的噪聲抑制方法,其中,所述合并步驟包括 將所述泰勒級數(shù)累加的結果和所述數(shù)值積分的結果在它們之間的最接近處 合并。
7. 根據(jù)權利要求6所迷的噪聲抑制方法,其中,所述合并步驟包括 將所述泰勒級數(shù)累加的結果和所述數(shù)值積分的結果相減; 選擇上述相減的結果中絕對值最小處的值作為閾值;以及 根據(jù)所述閾值,合并所述泰勒級數(shù)累加的結果和所述數(shù)值積分的結果。
8. 根據(jù)權利要求7所述的噪聲抑制方法,其中,所述合并步驟包括 將小于所述閾值的所述泰勒級數(shù)累加的結果和大于所述閾值的所述數(shù)值積 分的結果合并。
9. 一種用于提取語音特征的方法,包括 將含噪聲語音變換成含噪聲語音諳;利用上述權利要求1-8中的任意一項所述的噪聲抑制方法,降低所述 含噪聲語音鐠的噪音;以及從所述噪聲降低的語音謙提取語音特征。
10. 根悟權利要求9所述的提取語音特征的方法,其中,所述變換步 驟包括快速傅立葉變換。
11. 一種語音識別方法,包括利用上述權利要求9或10所述的提取語音特征的方法,提取語音特征;以及沖艮據(jù)所述提取出的語音特征,識別語音。
12. —種訓練語音模型的方法,包括利用上述權利要求9或10所述的提取語音特征的方法,提取語音特征;以及根據(jù)所述提取出的語音特征,訓練所述語音模型。
13. —種用于含噪聲語音鐠的噪聲抑制裝置,包括估計單元,根據(jù)噪聲估計譜,對所述含噪聲語音譜進行對數(shù)譜最小均 方誤差估計,以降低所述含噪聲語音語的噪聲;其中,所述估計單元使用分段線性函數(shù)代替增益函數(shù)來進行所述對數(shù) 譜最小均方誤差估計。
14. 根據(jù)權利要求13所述的噪聲抑制裝置,其中,利用預先設定的 分割點將所述增益函數(shù)變換為所述分段線性函數(shù),進行所述對數(shù)譜最小均 方誤差估計。
15. 根據(jù)權利要求13或14所述的噪聲抑制裝置,其中,所述估計單 元通過以下公式進行對數(shù)謙最小均方誤差估計其中A表示噪聲得到抑制的語音譜,及/t表示含噪聲語音諮,^是根據(jù) 噪聲估計譜獲得的先驗信噪比,^是根據(jù)噪聲估計譜和含噪聲語音語獲得的后驗信噪比,Z^^是分段線性函數(shù),以及ife表示第A個譜分量。
16. —種用于含噪聲語音譜的噪聲抑制裝置,包括估計單元,根據(jù)噪聲估計譜,對所述含噪聲語音譜進行對數(shù)譜最小均 方誤差估計,以降低所述含噪聲語音譜的噪聲; 其中,所述估計單元包括泰勒級數(shù)累加計算單元,利用泰勒級數(shù)累加計算所述增益函數(shù); 數(shù)值積分計算單元,利用數(shù)值積分計算所述增益函數(shù);以及 合并單元,用于合并所述泰勒級數(shù)累加計算單元計算的結果和所述數(shù) 值積分計算單元計算的結果。
17. 根據(jù)權利要求16所述的噪聲抑制裝置,其中,所述合并單元將 所述泰勒級數(shù)累加計算羊元計算的結果和所述數(shù)值積分計算單元計算的結 果在它們之間的最接近處合并。
18. 根據(jù)權利要求17所述的噪聲抑制裝置,其中,所述合并單元包括減法單元,將所述泰勒級數(shù)累加計算單元計算的結果和所述數(shù)值積分 計算單元計算的結果相減;以及選擇單元,用于選擇上述減法單元獲得的結果中絕對值最小處的值作 為閾值;其中所述合并單元根據(jù)所述閾值,合并所述泰勒級數(shù)累加計算單元計 算的結果和所述數(shù)值積分計算單元計算的結果。
19. 根據(jù)權利要求18所述的噪聲抑制裝置,其中,所述合并單元將 小于所述閾值的所述泰勒級數(shù)累加計算單元計算的結果和大于所述閾值的 所述數(shù)值積分計算單元計算的結果合并。
20. —種用于提取語音特征的裝置,包括 變換單元,將含噪聲語音變換成含噪聲語音譜; 根據(jù)上述權利要求13-19中的任意一項所述的噪聲抑制裝置,用于降低所述含噪聲語音謙的噪音;以及提取單元,從所述噪聲降低的語音譜提取所述語音特征。
21. 根據(jù)權利要求20所述的提取語音特征的裝置,其中,所述變換 單元配置為通過快速傅立葉變換進行變換。
22. —種語音識別裝置,包括根據(jù)上述權利要求20或21所述的提取語音特征的裝置,用于提取語 音特征;以及語音識別單元,根據(jù)所述提取出的語音特征,識別語音。
23. —種訓練語音模型的裝置,包括根據(jù)上述權利要求20或21所述的提取語音特征的裝置,用于提取語 奩特征;以及模型訓練單元,根據(jù)所述提取出的語音特征,訓練所述語音模型
全文摘要
本發(fā)明提供了噪聲抑制方法,提取語音特征的方法,語音識別方法和訓練語音模型的方法,以及噪聲抑制裝置,提取語音特征的裝置,語音識別裝置和訓練語音模型的裝置。根據(jù)本發(fā)明的一個方面,提供了一種用于含噪聲語音譜的噪聲抑制方法,包括根據(jù)噪聲估計譜,對所述含噪聲語音譜進行對數(shù)譜最小均方誤差估計,以降低所述含噪聲語音譜的噪聲;其中,通過以下步驟計算增益函數(shù)來進行所述對數(shù)譜最小均方誤差估計利用泰勒級數(shù)累加計算所述增益函數(shù);利用數(shù)值積分計算所述增益函數(shù);以及合并所述泰勒級數(shù)累加的結果和所述數(shù)值積分的結果。
文檔編號G10L21/00GK101154383SQ200610141240
公開日2008年4月2日 申請日期2006年9月29日 優(yōu)先權日2006年9月29日
發(fā)明者沛 丁, 磊 何, 蕤 趙, 杰 郝, 翔 鄢 申請人:株式會社東芝