專利名稱:麥克風(fēng)陣列用后置濾波器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及麥克風(fēng)陣列用后置濾波器。
技術(shù)背景出于便利性和靈活性,人們希望針對移動電話機和自動語音識別系統(tǒng)那樣的多種應(yīng)用系統(tǒng)存在免提(hands-free)技術(shù)。作為該技術(shù)中的重要 問題之一,存在由遠方的麥克風(fēng)接收的信號的可靠性由于各種噪聲而明顯 降低的問題。作為該問題的解決方法人們想到了空間濾波,其為了抑制來 自規(guī)定的方向以外的方向的噪聲信號而使用利用了麥克風(fēng)陣列。麥克風(fēng)陣 列帶來了高質(zhì)量的語音效果,并具有減少噪聲的突出的優(yōu)點。最近,存在如下的提案(參照文獻1: J.Bitzer, K.U.Simmer and K.國D.Kammeyer, "Multi-Microphone Noise Reduction Techniques as F ront隱end Devices for Speech Recognition," Speech communication,vo1.34, pp.3-12,2001.)。在該提案中,公開了在假設(shè)所希望的語音信號和噪聲信號 之間的相關(guān)為不相關(guān)時,多通道維納濾波器得到相對寬帶寬的輸入,4吏輸 出的平方差最小的最優(yōu)解。而且,可將多通道維納濾波器,進一步分解為 最小方差無失真響應(yīng) (MVDR: Minimum Variance Distortionless Response)波束成形器和其后的維納后置濾波器。 一般地,多通道維納濾 波器與只使用了 MVDR波束成形器的情況相比以更高的SN比形成輸出。 因此,在實際應(yīng)用的噪聲環(huán)境中,附加的后置濾波對于提高麥克風(fēng)陣列的 性能來說是很有必要的。關(guān)于上述的后置濾波,提出有各種后置濾波技術(shù)(參照文獻2: R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustic, Speech, Signal Processing, vol.5, pp.25782581, 1988.、文獻3: I. A. McCowan and H. Bourlard, "Microphone Array Post-filter Based on Noise Field Coherence," IEEE Trans, on Speech and Audio Processing, vol.ll,no.6,pp.709-716,2003.、 文獻4 : I. Cohen and B. Berdugo,"Microphone Array Post-filtering for Non畫Stationary Noise Suppression," in Proc. IEEE Int. Conf. on Acoustic Speech Signal Processing, pp.901-904, May 2002.、及文獻5: I. Cohen, "Multi-Channel Post-filtering in Non-stationary Noise Environments," IEEE Trans. Signal Processing, Vol. 52, No.5, pp.1149-1160,2004.)。廣泛使用之一的多通"置濾波器最初由 Zelinski提出。該后置濾波器(以下稱為"澤林斯基(Zelinski)后置濾波 器"),假定是不同的麥克風(fēng)之間的噪聲是完全不相關(guān)的噪聲場。但是,在 實際的環(huán)境中,特別如果是接近麥克風(fēng)的情況和噪聲之間的相關(guān)性較高的 低頻域,此假定很難滿足。為了抑制表現(xiàn)較高相關(guān)性的噪聲,還提出將一般化后的旁瓣消除器 (GSC)與澤林斯基(Zelinski)后置濾波器結(jié)合的方法(參照文獻6: S. Fischer, K.D. Kammeyer, and K.U.Simmer, "Adaptive Microphone Arrays for Speech Enhancement in Coherent and Incoherent Noise Fields," in Proc 3rd joint meeting of the Acoustical Society of America and the Acoustical Society of Japan,Honolulu,Hawaii,1996.)。但是,也被指出了, GSC和Zelinski后置濾波器在低頻區(qū)域的工作狀況都不好。因此,提出了 如下方法,即為了降低高頻中的低相關(guān)噪聲成分而使用Zelinski后置濾波 器,而對于降低低頻中的高相關(guān)噪聲成分,進行頻譜減法計算(參照文獻 7: J. Meyer and K.U. Simmer, "Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction," in Proc. IEEE Int. Cont. on Acoustic, Speech ,Signal Processing, Munich, Germany, pp.21-24,1997.)。但是,該方法中,與多通道維納后置濾波器的基本構(gòu)成 相矛盾,并且,為了執(zhí)行頻鐠減法計算需要語音激活檢測器(VAD)。以下,對多通道維納后置濾波器進行說明,并對要解決的課題進行 說明。之后,對Zelinski后置濾波器以及作為與其比較而使用的McCowan 后置濾波器進行說明。在存在噪聲的環(huán)境中具有M個傳感器的麥克風(fēng)陣列的情況下,第m 個觀測信號Xm(t)由二個成分構(gòu)成。第一個信號,是利用所希望的聲 源和第m個傳感器之間的沖擊(impulse)響應(yīng)而被轉(zhuǎn)換的所希望的信 號。第二個信號是附加的噪聲nm(t)。這樣,接收信號由(l)式給出。4<formula>formula see original document page 5</formula>
其中,m = 1、 2、…、M、 , *是巻積算符。若適用短時間傅立葉轉(zhuǎn)換(STFT) 則可如下表示時間-頻率區(qū)域的所觀測的信號。X(k,l) = S(k,i)A(k) + N(k,l)…(2)其中,k是頻率指針(index ), l是幀指針。<formula>formula see original document page 5</formula>其目的是根據(jù)包含所觀測的噪聲的信號來估計所希望的信號。如果 使用矩陣表示,則估計輸出信號T(k, l)則下式給出。<formula>formula see original document page 5</formula> (6)其中,w(k,l)是加權(quán)系數(shù),上標符號H是復(fù)共軛轉(zhuǎn)置。若要求使所希望的信號和其估計之間的均方差最小,則得到最優(yōu)的 加權(quán)系數(shù),得到多通道維納濾波器。如果假定所希望的信號和噪聲信號 相互不相關(guān),則可以進一步將多通道維納濾波器分解成MVDR波束成 形器和維納后置濾波器。[式1]<formula>formula see original document page 5</formula>在(7)式中,第一項是MVDR波束成形器的項,第二項是維納后置形器針對規(guī)定方向進行所希望的信號的無失真 MMSE估計。通過利用維納后置濾波器進一步降低剩余的噪聲,可以改進 噪聲降低能力,并產(chǎn)生高SN比。作為MVDR波束成形器,提出有Frost的波束成形器(參照文獻8: O丄.Frost , "An algorithm for linearly constrained adaptive array processing," in Proc. IEEE, vol. 60,pp.926-935,1972.)和被一般化的旁瓣消 除器(GSC)等若干自適應(yīng)算法,以及以擴散噪音場的假定為前提的超 指向型波束成形器等若干非自應(yīng)算法。在以下的討論中,在不失一般性的范圍內(nèi),假定事先朝向所希望的 信號方向配置麥克風(fēng)陣列,為了處理各麥克風(fēng)上的相同的希望的語音信 號而將多通道輸入進行按比例縮放(scaling)。這時,時間延遲補償輸 出如下。X =S(k,l) + N (k,l) (m = 1, 2,…,M)…(8)以下,對稱之為Zelinski后置濾波器和McCowan后置濾波器的二個 后置濾波器進行簡單說明。對于Zelinski后置濾波器提供了一種使用估計的自相關(guān)和互相關(guān)譜密 度,在噪聲完全不相關(guān)的噪聲場中維納濾波器的解決策略。如果所希望的 信號和噪聲信號無相關(guān)性,噪聲具有相同的功率密度,在不同的麥克風(fēng)之 間無相關(guān)性,則可將多通道輸入自相關(guān)和互相關(guān)譜密度d) XiXi(k, 1) 和(J)XiXj(k, 1)簡化為 xx (k,l) =*ss(k,l) +$nn(k,l)…(9) xx (k,l) = ss(k,l)…(10)基于自相關(guān)和互相關(guān)譜密度的簡化表示(式(9)及(10)),可以 將Zelinski后置濾波器寫成定式。[式2]其中,取實數(shù)R{}(涉及全部的傳感器對)和平均運算,針對估計 誤差,有助于提高該后置濾波器的魯棒性。利用按比例縮放后的麥克風(fēng) 信號估計自相關(guān)和互相關(guān)譜密度。但是,實際上,各麥克風(fēng)中的噪聲是無相關(guān)性的這樣的Zelinski后 置濾波器的基本的假定,在實際的環(huán)境中是很難滿足??紤]該事實, McCowan,放寬了各麥克風(fēng)中的噪聲無相關(guān)性的這樣的假定,并作出了如 下假定,即,各麥克風(fēng)中的噪聲具有相同的功率譜密度,并且相互存在關(guān) 系,其相關(guān)性的大小由相干函數(shù)(coherence function)給出。而且,在所希望的語音信號和噪聲信號之間無相關(guān)性的假定,和放 寬了的噪聲之間相關(guān)的假定下,可由后述的公式給出多通道自相關(guān)和互 相關(guān)鐠密度。其中,rniiij(k, l)是復(fù)相干函數(shù)(后述的式(17))。(1) XA (k, 1) 、 (MjXj(k,l)和(J)XiX〗(k, l)可如下簡化。參xx (kj) =#;ss(k』)+ *:rm(k,D…(12)j i xx (k,l) :"s(k,l) + 一nn(kj)…(13)i i XX (k,D = ss(k,l) + rnn(k,D#nn(lU)…(14):! i , i而且,可以基于這些表示,來表達維納后置濾波器的分子項即語音功率的譜密度d)ss-(k, 1)。 [式3<formula>formula see original document page 7</formula>會,夠糾〗(-草,力+~"貼)(15)可用下式表達McCowan后置濾波器,( "J,,, "D,,)]。McCowan后置濾波器是以使用辦公室中的多通道錄音為前提的,是 為了在此環(huán)境中,與Zelinski后置濾波器相比,實現(xiàn)改進的性能而提出的, 但是,如果預(yù)先假設(shè)的相干函數(shù)和實際的相干函數(shù)之間存在差別,則會降 低性能。發(fā)明內(nèi)容本發(fā)明的目的是提供一種新的后置濾波器,其具有擴散噪聲場中的 混合結(jié)構(gòu)。本發(fā)明作為針對如有回音的房間或車廂內(nèi)環(huán)境等、擴散噪聲場多 的、實際使用的噪聲環(huán)境的合理模型而提出。在擴散噪聲場中,低頻噪 聲有高相關(guān)性,高頻噪聲有低相關(guān)性??紤]這些特性,本發(fā)明使用了高 頻噪聲(低相關(guān)性)用的多通道維納后置濾波器和低頻噪聲(高相關(guān)性) 用的單通道維納后置濾波器。對于高頻,采用改進Zelinski后置濾波器, 且該改進Zelinski后置濾波器利用不同的麥克風(fēng)對充分地考慮、利用了噪 聲間的相關(guān)關(guān)系。對于低頻,采用了基于判定指向型SN比估計機制的、 進一步降低"音樂噪聲,,的單通道維納后置濾波器。本發(fā)明涉及的后置濾 波器,理論上,基于多通道維納濾波器的基本構(gòu)成,可以有效地減少擴散 噪聲場中的高相關(guān)噪聲和低相關(guān)噪聲。本發(fā)明涉及的后置濾波器,具有麥克風(fēng)陣列,由用于輸入語音信 號的至少二個麥克風(fēng)構(gòu)成;波束成形器,進行從上述麥克風(fēng)陣列輸入的 語音信號的成形;分割器,將包含從上述麥克風(fēng)陣列輸入的噪聲的目標 聲音,以規(guī)定的頻率,至少分割成二個頻帶;第一濾波器,用于估計在 上述麥克風(fēng)之間噪聲不相關(guān)的情況下的濾波器增益;第二濾波器,用于 估計上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波 器增益;加法器,將上述第一濾波器和上述第二濾波器的輸出相加;和 基于上述加法器和上述波束成形器的輸出來降低噪聲的單元。
圖1是表示完全的擴散噪聲場對于頻率的MSC函數(shù)的圖。 圖2是本發(fā)明所涉及的后置濾波器的框圖。 圖3是表示改進Zelinski后置濾波器的概略構(gòu)成的框圖。 圖4是表示單通道維納后置濾波器的概略構(gòu)成的框圖。 圖5是表示指向系數(shù)和頻率之間的關(guān)系的圖。圖6A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的 SEGENR的實驗結(jié)果的圖。圖6B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的 SEGENR的實驗結(jié)果的圖。圖7A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的NR 的實驗結(jié)果的圖。圖7B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的NR 的實驗結(jié)果的圖。圖8A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的LSD 的實驗結(jié)果的圖。圖8B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的LSD 的實驗結(jié)果的圖。圖9A是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與 日語"df3f J:3L <"對應(yīng)的測定例的圖。圖9B是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與日語"i"^f J:3L <"對應(yīng)的測定例的圖。圖9C是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與 日語"df 丄3L <"對應(yīng)的測定例的圖。圖9D是表示在100km/h速度下的車輛環(huán)境中的語音i普圖的典型的與 日語"(h'3f丄3L <"對應(yīng)的測定例的圖。圖9E是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與 日語"i'5f J:3L <"對應(yīng)的測定例的圖。圖9F是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與 日語"if ,f丄3L <"對應(yīng)的測定例的圖。圖9G是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與 日語"i:'5f丄3L <"對應(yīng)的測定例的圖。圖9H是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與日語"d:'5f J:3L <"對應(yīng)的測定例的圖。
具體實施方式
[211參照附圖對本發(fā)明的實施方式進行說明。在下述的說明中,首先對模型噪音場中的相干函數(shù)及其應(yīng)用進行說明。然后,對擴散噪音場中的 混合后置濾波器進行說明,最后,對本發(fā)明所涉及的后置濾波器的優(yōu)點 進行說明。[221為了給噪音場賦予特征,廣泛使用了由下式定義的復(fù)相干函數(shù)。<formula>formula see original document page 10</formula>其中,(J)XiXj(k, l)是二個信號Xi(t)和Xj(t)之間的互相關(guān)鐠密度,d) xiXi (k, 1)和(j) XjXj (k, 1)分別是Xi(t)和Xj(t)的自相關(guān)譜密度。作為特 別的重要方法的振幅平方相干(MSC: magnitude-squared coherence ) 函數(shù),定義為由用于分析噪音場而在本說明書中使用的MSC(k,l)= ir XiXj(k,l)l2給出的復(fù)相干函數(shù)的振幅的平方。作為本說明書的基本假定之一的擴散噪聲場,表示為針對多個實際 噪聲環(huán)境的合理的模型。利用以下的MSC函數(shù)來給擴散噪音場賦予特 征。[式6sin(2^M/e》-《夠其中,d是鄰接的麥克風(fēng)的距離,c是聲速。在圖1中表示相對頻 率的完全的擴散噪音場的MSC函數(shù)。根據(jù)圖1可以容易地求出下述那 樣的擴散噪音場的幾個特性。1. MSC函數(shù),是依賴于頻率,并依賴于時間的函數(shù)。2. 不同的麥克風(fēng)中的噪聲,在低頻具有高相關(guān)性,在高頻具有低 相關(guān)性。為了將頻鐠分成低相關(guān)部分和高相關(guān)部分,將二個區(qū)域分開的過渡 頻率ft選擇在由f,c/(2d)給出的第一最小值。由于明確地將聲速c視為 常數(shù),所以過渡頻率筒單地由二個麥克風(fēng)之間的距離d決定。為了將本發(fā)明涉及的后置濾波器公式化,進行以下的假定。(1) 所希望的語音信號和噪聲信號在各麥克風(fēng)中是不相關(guān)的。(2 )噪聲的功率譜密度在各麥克風(fēng)中是扭同的。(3) 不同的麥克風(fēng)中的噪聲是擴散噪聲。ii實際上可明確的是,假定(1)在通常語音信號處理中被使用,而且,假定(2)和(3)在多數(shù)的實際噪聲環(huán)境中可以實現(xiàn)。在以下的說明,對用于提高后置濾波器的噪聲降低性能的混合后置 濾波器進行說明。作為后置濾波器,應(yīng)用高頻區(qū)域的改進Zdinski后置 濾波器和低頻區(qū)域的單通道維納后置濾波器。圖2是本發(fā)明所涉及的后置 濾波器的框圖。另外,圖3是表示改進Zelinski后置濾波器的概略構(gòu)成 的框圖。圖4是表示單通道維納后置濾波器的概略構(gòu)成的框圖。如圖2所示,本發(fā)明所涉及的后置濾波器,具有麥克風(fēng)陣列10 (以下也簡單地稱為"麥克風(fēng)");高速傅立葉變換器11;時間匹配器12;波束成形器13;頻帶分割器14;改進Zelinski濾波器增益估計器20 (改進Zelinski后置濾波器);單通道濾波器增益估計器30;加法器40;濾波器41;延遲器42;高速傅立葉反變換器50。如圖3所示,改進Zelinski濾波器增益估計器20具有互相關(guān)鐠密 度運算器21;平均器22;自相關(guān)譜密度運算器23;平均器24;除法器25。 另外,如圖4所示,單通道濾波器增益估計器30具有平均器31;噪聲 位移更新器32;后驗(posteriori )SNR運算器33;遲延器34;先驗(Priori) SNR運算器35; SAP運算器36;單通道維納濾波器增益估計器37 (單通 道維納后置濾波器)。在上述這樣的構(gòu)成中,基于各麥克風(fēng)10中的噪聲是相互不相關(guān)的 假定,需要使無相關(guān)性的噪音場中的語音及其估計之間的均方差最小。 如上述,在多通道輸入的自相關(guān)和互相關(guān)語密度中包含相關(guān)噪聲成分。 因此,如果在估計多通道輸入的自相關(guān)和互相關(guān)鐠密度中所使用的噪聲 相關(guān)性較小,則認為可以抑制性能的降低。如圖l所示,在擴散噪音場中,不同的麥克風(fēng)相互不相關(guān)噪聲成分 只存在于過渡頻率ft以上的頻率。按照與麥克風(fēng)之間的距離來決定過渡 頻率,所以,對于具有不同的要素相互間隔的麥克風(fēng),利用不同的過渡 頻率賦予特征。也就是,對于具有不同的要素相互間隔的不同的麥克 風(fēng),在不同的頻率區(qū)域可以被^L為不相關(guān)噪聲。進而,對于某個頻率, 只對于被限定的麥克風(fēng),噪聲相互不相關(guān), 一般地,對于全部的麥克風(fēng) 不是這樣。由此,通過計算出該麥克風(fēng)對上的多通道輸入的自相關(guān)和互相關(guān)鐠密度,可以得到改進Zelinski后置濾波器。具體如下。按照麥克風(fēng)陣列的麥克風(fēng)配置,預(yù)先決定過渡頻率。具體地是,如 果考慮在以距離dij分開的傳感器i和j (i、 j<M)之間具有要素相互 間隔的M傳感器陣列,則有用于決定M(M-1)/2的過渡頻率的M(M-1)/2 的麥克風(fēng)對。此外,過渡頻率可以分別用ft, ij = c/(2dij)來計算。在這 種情況下,由于對于幾個麥克風(fēng)對要素相互間隔相同,所以,過渡頻率 也相同。例如,在直線上等間隔地排列M個麥克風(fēng)的情況下,在 M(M-l)/2個麥克風(fēng)中,由于具有(M-1)的不同的要素相互間隔,所以,可以決定由ft1、 ft2.....ft^表示的(M-l)個不同的過渡頻率。此外,不失一般性地,也可以進一步假定過渡頻率之間的關(guān)系是 ft、f 〈…〈ftM—1。此外,如果不將M個麥克風(fēng)等間隔地排列,或不排列 在直線上,則也可以以不同的間隔排列M(M-l)/2個的麥克風(fēng)對全部, 在這種情況下,選擇M ( M-l) /2個過渡頻率。利用高速傅立葉變換器11對從麥克風(fēng)10輸入的例如語音進行傅立 葉變換。對傅立葉變換后的信號,利用時間匹配器12,補正輸入信號對 于各麥克風(fēng)10之間的同一語音的時間偏差。此外,在這種情況下,也 可以使基于高速傅立葉變換器11和時間匹配器12的處理的順序顛倒。然后,實施了時間上匹配的語音信號被輸入到頻帶分割器14,頻帶分割器14,將全部頻率以(M-l)個不同的過渡頻率ft1、 ft2..... f,—1分割成B。、 Bi.....Bi^M個子頻帶。M個子頻帶中的Bi.....Bn的(M-l)個子頻帶,被輸入改進Zelinski濾波器增益估計器20。另外, 實施了時間上的匹配的語音信號也輸入到波束成形器13,進行波束成形后 輸入濾波器41。對于輸入到改進Zelinski濾波器增益估計器20的(M-1)個的子頻帶, 利用互相關(guān)i普密度運算器21計算互相關(guān)譜密度,并利用平均器22求出其 平均值。此外,在利用平均器22進行平均時,不是針對全部的輸入,而是 選擇在其頻帶內(nèi)噪聲無相關(guān)性的麥克風(fēng)對中的自相關(guān)(互相關(guān))鐠密度來 進行平均。另夕卜,利用自相關(guān)譜密度運算器23運算自相關(guān)譜密度,并利用 平均器24求出其平均值。此外,如下求出互相關(guān)鐠密度運算器21和自譜 密度運算器23中的噪聲信號的鐠密度。組Qm的麥克風(fēng)對中 的噪聲是不相關(guān)。在這種情況下,由 xM (k,l)= 一3(11,1)+ #歴氛1)…(19)(k,l)二爭ss(k,l)…(20) 給出多通道輸入的自相關(guān)和互相關(guān)鐠密度,根據(jù)這些鐠密度可以估計所 希望的語音和噪聲信號的譜密度。而且,將利用平均器22和24平均后的自動和重疊譜密度,在除法 器25中進行除法運算后,輸出高頻帶的濾波器增益(增益函數(shù))。在這 里,如果是Zelinski后置濾波器,由于將全部的麥克風(fēng)對中的自相關(guān)(互 相關(guān))鐠密度進行平均后求出濾波器增益,所以,也包含噪聲的相關(guān)性較 高(脫離假定)的數(shù)據(jù)。因此,作為結(jié)果,濾波器增益的估計魯棒性較差。 另 一方面,如果是改進Zelinski后置濾波器,只選擇噪聲相關(guān)性較低(未 脫離假定)的數(shù)據(jù)作為組Qm,并在其中進行了平均,所以魯棒性較高。 其中,改進Zelinski后置濾波器的增益函數(shù),如下述給出。[式7<formula>formula see original document page 14</formula>此外,在上述說明中,過渡頻率的決定,只依賴于麥克風(fēng)陣列的配 置,不依賴于輸入信號。另外,自相關(guān)和互相關(guān)譜密度的估計順序中所 包含的麥克風(fēng)對的選擇,有助于改進Zelinski后置濾波器的計算成本的 減少。另一方面,來自各麥克風(fēng)10的子頻帶BQ,被輸入單通道濾波器增 益估計器30。如果全部的麥克風(fēng)對中的噪聲是高相關(guān)的,即使使用了改進Zelinski后置濾波器,也不能根據(jù)多通道輸入的自相關(guān)和互相關(guān)鐠密度 估計所希望的語音信號的自相關(guān)鐠密度。因此,對于低頻,為了估計維納 后置濾波器采用了單通道技術(shù)。首先,輸入到單通道濾波器增益估計器30的子頻帶Bq,由平均器 31在通道間被進行平均。被平均后的子頻帶B。,輸入噪聲位移更新器 32和后驗SNR運算器33。噪聲位移更新器32基于來自平均器31和SAP 運算器36的信號進行更新處理,并將估計噪聲頻鐠輸出到后驗SNR運 算器33和延遲器34。從后驗SNR運算器33到先驗SNR運算器35執(zhí) 行詳細后述的各種運算。單通道維納濾波器增益估計器37基于來自先 驗SNR運算器35的信號,輸出低頻帶中的濾波器增益(增益函數(shù))。在上述那樣的構(gòu)成中,維納后置濾波器的增益函數(shù)可以改寫成如下 形式。[式8' ^^) + #朋(*,1) Ep(k,蓋)卩+ E[IN(k,1)12l + SNRpriori(W)"'徵其中,E[]是期望算符,SNRpri。ri (k,l)是用S N r prtori《W)=印S (W》12〗/ ElN(kJ)ft定義的先驗SNR。利用先驗SNR運算器35所運算的先驗SNR ( SNRpri。ri ( k,l))的 估計,由如下的判定指向性估計機制所更新。[式SNRPrk>ri(kJ) = " !S(k,陽1》1勺+(1—eg)m股〖g服贈(fe,1)-i,o]…(23)在式(23)中,ot (0<a<l)是遺忘系數(shù),SNRP。st (k,l)是由后驗 SNR運算器33運算的后驗SNR,用SNRpost ( k,l) = IX ( k, 1) 12/E [ | N (k,l) |2]表示。由此,上述那樣的判定指向性估計機制大大地減少了 "音樂噪聲"。這里,為了提高單通道維納后置濾波器的性能,極其重要的一點是 以高精度估計噪聲的功率譜密度E [ IN( k, 1) I2]。該噪聲的功率譜密度, 利用如下的基于軟決定的近似法得到。E[l:咖)卩]一E[亂1)卩]+ (1-J )E[lN(k,l)f IX(k,l)]…(24)在(24)式中,P (0<P<1)是控制噪聲估計的更新比率的遺忘系數(shù)。在語音的存在是不確定的狀況下,將(24)式的右邊的第二項,作 為使用式(25)觀測的信號的譜密度來估計。E卩N(k,l)卩IX細=q(k,l膽—(k,I)l2 + (li(k,l))E[lN(k,卜l)f]…《25)在(25)式中,q(k,l)是語音不存在概率,lX-(k,l) |2是各傳感器中的 各個噪聲的譜密度的平均。此外,[式10。1 M , 。 微=1這樣計算各傳感器中的各個噪聲的鐠密度的平均的理由,是因為如果只考慮i個傳感器,則有可能產(chǎn)生起因于估計錯誤的發(fā)生了偏差的測 量。若假定復(fù)高斯統(tǒng)計值模型,并應(yīng)用貝葉斯定理和全概率定理,則可 利用下式給出語音不存在概率。[式11<formula>formula see original document page 16</formula>《26)在(26)式中,q' (k,l)是先驗的語音不存在概率,根據(jù)實驗選擇 適當(dāng)?shù)闹?。用加法?0將如上述求出的高頻帶和低頻帶中的濾波器增益(增益 函數(shù))進行加法計算,并向濾波器41輸出加法計算結(jié)果。濾波器41將 根據(jù)波束成形器13和加法器40的輸出而降低了高頻帶和低頻帶中的噪 聲后的信號輸出到延遲器42和高速傅立葉反變換器50。高速傅立葉反 變換器50將輸入信號進行傅立葉反變換,并輸出到后級的例如語音識 別裝置等。另外,由延遲器42輸出的信號用于單通道濾波器增益估計 器30中的增益函數(shù)的計算。本發(fā)明所涉及的后置濾波器,在理論上依據(jù)了多通道維納后置濾波 器的框架,應(yīng)該可以說是維納后置濾波器。對于低頻區(qū)域,由(22)式 給出的后置濾波器明顯是維納濾波器。對于高頻區(qū)域,為了利用改進 Zelinski后置濾波器進行估計而使用的噪聲是不相關(guān)的,所以,多通道輸 入的互相關(guān)譜密度提供更正確的語音的自相關(guān)譜密度估計。因此,在高頻 區(qū)域所釆用的改進Zelinski后置濾波器可以看成是維納后置濾波器。如上述構(gòu)成的本發(fā)明所涉及的后置濾波器,作為最優(yōu)的麥克風(fēng)陣列 用后置濾波器,應(yīng)著重提供更一般的表達形式。如果是完全不相關(guān)的噪 聲場,只要將本發(fā)明所涉及的后置濾波器的過渡頻率設(shè)定為零,則變成 Zelinski后置濾波器。而且,如果是全部噪聲完全具有相關(guān)性的噪音場, 只要將本發(fā)明涉及的后置濾波器的過渡頻率設(shè)定為最高的頻率,則變成 單通道維納后置濾波器。為了確認擴散噪音場中的本發(fā)明所涉及的后置濾波器的有效性,在 各種車的噪聲環(huán)境中,對Zelinski后置濾波器、McCowan后置濾波器、 和包含單一的單通道維納后置濾波器的其他的以往的后置濾波器進行了 比較。波束成形器,最初適用于多通道噪聲信號。而且,利用本發(fā)明涉及 的后置濾波器進一步使波束成形器進一步提高了其作用。在客觀和主觀上 對性能進行了評價。實驗構(gòu)成如下。為了在實際的車輛環(huán)境中估計本發(fā)明所涉及的后置濾波器的性能,17將由要素相互間隔為10cm的相等間隔的3個麥克風(fēng)構(gòu)成的線性陣列安 裝在車的遮陽板上。陣列在駕駛員的正面距離駕駛員約50cm。在車以50km/h和100km/h的速度在高速道路上行駛過程中,利用 全部的通道同時進行多通道噪聲錄音。噪聲主要由發(fā)動機噪聲、空調(diào)噪 聲和由于輪胎與道路之間的摩擦引起的噪聲構(gòu)成。將由50個日文構(gòu)成 的清晰的語音信號從ATR數(shù)據(jù)庫中取出。將語音和噪聲信號的雙方, 在最初以16位的精度再抽樣為12kHz。通過將清晰的語音信號和實際 的多通道車輛噪聲,以不同的全球SNR水平(-5、 20) dB進行人工混 合,生成多通道噪聲信號。該生成順序具有以下的優(yōu)點。(1) 可以看成進行了理想的時間遲延補償。(2) 由于明確地測量混入條件,所以可以容易使用客觀的方法進行性 能估計。通過將圖1所示的理論sine函數(shù)和根據(jù)實際的噪聲錄音而計算的測 量MSC函數(shù)進行比較,對擴散噪音場的有效性進行了調(diào)查。根據(jù)圖1, 可以知道,存在瞬間的變化,但是,另一方面,測量MSC函數(shù)跟蹤理 論sinc函數(shù)的趨勢。其值,滿足本發(fā)明所涉及的后置濾波器中使用的擴 散噪音場的假定。利用擴散噪聲場中的MVDR波束成形器的解決策略即超指向性波 束成形器來實現(xiàn)波束成形濾波器。作為與頻率k有關(guān)的函數(shù)的超指向性 波束成形器的增益函數(shù)是[式12
<formula>formula see original document page 18</formula>對于擴散噪聲源,表示陣列的噪聲降低能力的指向系數(shù)(DI)用下 式表示,[式13<formula>formula see original document page 19</formula> (23》并將該指向系數(shù)和頻率之間的關(guān)系表示于圖5。根據(jù)圖5可以清楚 地知道,超指向性波束成形器對抑制低頻噪聲成分沒有效果。為了客觀地估計本發(fā)明涉及的后置濾波器,使用了分段SNR (SEGSNR)、噪聲降低比(NR)及對數(shù)鐠距離(LSD)的下述三個客觀 上的語音質(zhì)量測量。分段SNR ( SEGSNR)是廣泛使用于噪聲降低和語音增強算法中的 客觀的估計方法。將SEGSNR定義為清晰的語音功率,和包含噪聲的 語音中所包含的噪聲信號或利用提出的算法降低了噪聲后的信號中所 包含噪聲信號的比率,并以如下給出。[式14]<formula>formula see original document page 19</formula>其中,s()、 S—()是將利用所試驗的算法處理后的參照語音信號和抑制了噪聲信號后"信號。另外,L和K表示信號的幀數(shù)和每幀(與STFT 的長度相等)的采樣數(shù)。噪聲降低比(NR),用于對提出的算法的噪聲降低性能進行估計。 當(dāng)沒有語音時,將NR定義成包含噪聲的輸入的功率和被增強的信號的 功率的比率,并利用下式表示。[式15]<formula>formula see original document page 20</formula>
其中,①表示沒有語音的幀的組,1①l是濃度。X(k, l)和s-(k, 1) 分別是噪聲信號和增強后的語音信號(enhanced signal )。對數(shù)鐠距離(LSD )經(jīng)常用于對所規(guī)定的語音信號的失真進行估計。 LSD定義為清晰的語音的對數(shù)鐠和噪聲信號的對數(shù)鐠或利用提出的算 法增強后的信號的對數(shù)鐠之間的距離,并如下給出。[式16<formula>formula see original document page 20</formula>
其中,V表示存在語音的幀的組,IVI是其基數(shù)。S(k,l)和S-(k,l)分別是參照清晰信號和增強后的語音信號的頻譜。將在二個噪聲狀態(tài)(50km/h和100km/h )下,以各種SNR水平計 算的平均SEGSNR和NR的結(jié)果,分別表示于從圖6A到圖7B。另夕卜, 將LSD的結(jié)果表示于圖8。涉及各個噪聲狀態(tài)的全部的句子,將實驗結(jié) 果的值平均。在麥克風(fēng)錄音、波束成形器輸出、及本發(fā)明涉及的后置濾 波器的輸出時,對性能進行估計。此外,圖6A、圖7A及圖8A是50km/h 行駛時,圖6B、圖7B及圖8B是100km/h行駛時。另外,圖中的記號, 四邊形表示波束成形器的輸出,菱形表示Zelinski后置濾波器,加號表 示McCowan后置濾波器的輸出,三角形表示單通道維納后置濾波器的輸 出,圓形表示本發(fā)明涉及的后置濾波器的輸出,圖8中的x記號是表示沒 有施加任何處理的保持原錄音狀態(tài)的信號的平均對數(shù)i普距離(LSD )。如從圖6A到圖7B所示,波束成形器單獨且Zelinski后置濾波器,對于抑制低頻噪聲成分時a現(xiàn)充分的性能,不能得到SEGSNR改進和噪 聲降低的結(jié)果。it^示了對上述說明進行確認的結(jié)果。將噪聲場的適當(dāng)?shù)?相干函數(shù)作為參數(shù)的McCowan后置濾波器對SEGSNR進行了很大地改 進。但是,在所有的噪聲狀態(tài)下,與Zelinski后置濾波器和McCowan后 置濾波器相比較,單通道維納后置濾波器表現(xiàn)了更高的對SEGSNR和NR 的改善。而且,本發(fā)明涉及的后置濾波器,在全部的試驗條件下,給出了 與單通道后置濾波器同等的SEGSNR和NR,表現(xiàn)了最高的性能。關(guān)于圖8A和圖8B的LSD的結(jié)果,僅波束成形器、和Zelinski后 置濾波器,與沒有使用濾波器的情況相比,在所有的SN比中,減少了 LSD。 單通道維納后置濾波器,在低SNR情況下,降低了語音的失真,但是,在 高SNR的情況下,反而增大了失真。提出的方法和McCowan后置濾波器, 在SN比水平的大部分中表現(xiàn)出最低的LSD。本發(fā)明所涉及的后置濾波器的主觀性能評價,使用語音頻譜圖,以 及通過非正式的試聽試驗有效地進行。從圖9A至圖9H表示100km/h 的速度下的車輛環(huán)境下的與"if^f J:3L <"這樣的日語句子對應(yīng)的 語音頻譜圖的典型的測量例。從圖9A至圖9C分別表示第一麥克風(fēng)中 的原始清晰語音信號、第一麥克風(fēng)中的噪聲信號、第一麥克風(fēng)中的噪聲 信號(SNR=10dB)。圖9D是波束成形器的輸出,如圖5所示由于在 低頻的噪聲抑制上存在弱點,所以存在較大的低頻噪聲。另外,圖9E 所示的Zelinski后置濾波器的輸出表示,由于低頻區(qū)域中的噪聲的高相關(guān) 特性,在低頻提供了相當(dāng)受限的性能。圖9F表示,McCowan后置濾波器 也抑制了低頻區(qū)域的噪聲。但是,由于估計的相干函數(shù)和實際的相干函數(shù) 之間的差異而導(dǎo)致存在殘存噪聲。單通道維納后置濾波器,如圖9G所示 產(chǎn)生了語音失真。圖9H是本發(fā)明涉及的后置濾波器,表示可以沒有附加 語音失真地對擴散性噪聲進行抑制。在非正式的收聽試驗中,證明了與其 他相比本發(fā)明的后置濾波器是優(yōu)越的。如上述那樣,實際環(huán)境中的本發(fā)明的后置濾波器的基本假定(擴散 噪聲場),比Zelinski后置濾波器(無相關(guān)性的噪聲場)的假定更合理, 所以,本發(fā)明涉及的后置濾波器比Zelinski后置濾波器更優(yōu)越。并且,本 發(fā)明涉及的后置濾波器在減少低頻的高相關(guān)噪聲成分方面是成功的。McCowan后置濾波器,其基于噪聲場的相干函數(shù)而決定。因此,其21性能很大地依賴于所假定的相千函數(shù)的精度。假定和實際的相干函數(shù)之間 的差異會導(dǎo)致性能劣化。但是,本發(fā)明所涉及的混合后置濾波器,為了區(qū)別相關(guān)和不相關(guān)噪聲,只利用了過渡頻率,不涉;M目干函數(shù)的實際的瞬時 值,減輕了相干函數(shù)之間的誤差引起的效果。本發(fā)明所涉及的混合后置濾波器,比在全頻帶中使用的單通道維納后 置濾波器更優(yōu)越?;谠肼暤奶匦詼y量值的單通道維納后置濾波器,即使 采用軟決定機制也幾乎不能與非固定噪聲源對應(yīng)。但是,基于自相關(guān)和互 相關(guān)譜密度的估計的多通道的技術(shù),即使對于非固定噪聲也提供了在理論上所希望的性能。本發(fā)明所涉及的改進Zelinski后置濾波器,在高頻區(qū)域 的各個分割頻率區(qū)域完全提供了該性能。如上所述,本發(fā)明,假定擴散噪聲場提出了針對麥克風(fēng)陣列的后置 濾波器。本發(fā)明所涉及的后置濾波器,結(jié)合高頻區(qū)域的改進Zelinski后 置濾波器和低頻區(qū)域的單通道維納后置濾波器而構(gòu)成。對于本發(fā)明所涉及的后置濾波器,與其他算法相比,有以下的優(yōu)點。(1) 理論上,本發(fā)明所涉及的后置濾波器是維納后置濾波器,所以符 合了多通道維納后置濾波器的框架。(2) 實際上,本發(fā)明所涉及的后置濾波器減少了噪聲,在各種車輛的 噪聲環(huán)境下,與其他算法相比,對估計所希望的語音很有效。根據(jù)本發(fā)明,可以有效地減少擴散噪聲場中的高相關(guān)噪聲和低相關(guān) 噪聲。本發(fā)明,不限于上述各實施方式,除此以外,可以在實施階段,不 脫離其主旨的范圍內(nèi)實施各種變形。進而,對于上述各實施方式,包含 各種階段的發(fā)明,通過對公開的多個構(gòu)成要件進行適當(dāng)?shù)淖兏?,可以?到各種發(fā)明。另外,例如,即使從各實施方式所示的全構(gòu)成要件中刪除幾個構(gòu)成 要件,也可以解決在發(fā)明所要解決的課題欄目中所述的課題,在得到在 發(fā)明的效果處所述的效果的情況下,可以將刪除了該構(gòu)成要件的構(gòu)成而 得到本發(fā)明。根據(jù)本發(fā)明,可以有效地減少擴散噪聲場中的高相關(guān)噪聲和低相關(guān) 噪聲。
權(quán)利要求
1. 一種后置濾波器,其特征在于,具有麥克風(fēng)陣列,其由用于輸入語音信號的至少兩個麥克風(fēng)構(gòu)成;波束成形器,其進行自上述麥克風(fēng)陣列輸入的語音信號的成形;分割器,其將包含自上述麥克風(fēng)陣列輸入的噪聲的目標聲音,以規(guī)定的頻率,至少分割成二個頻帶;第一濾波器,其用于估計在上述麥克風(fēng)之間噪聲為不相關(guān)情況下的濾波器增益;第二濾波器,其用于估計在上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波器增益;加法器,其將上述第一濾波器和上述第二濾波器的輸出相加;以及基于上述加法器和上述波束成形器的輸出來降低噪聲的單元。
2. 如權(quán)利要求l所述的后置濾波器,其特征在于, 上述第一濾波器是改進澤林斯基后置濾波器,上述第二濾波器是單通道維納后置濾波器。
3. 如權(quán)利要求1或2所述的后置濾波器,其特征在于,上述第一濾波器通過求出互相關(guān)譜密度和自相關(guān)譜密度之比來估 計濾波器增益,上述第二濾波器,基于后置濾波器的輸出信號和后驗SNR來計算 先驗SNR,并基于先驗SNR估計濾波器增益。
4. 如權(quán)利要求1至3中任意一項所述的后置濾波器,其特征在于, 依據(jù)上述麥克風(fēng)之間的距離來決定利用上述分割器分割的目標聲音的頻率。
5. 如權(quán)利要求4所述的后置濾波器,其特征在于, 上述第一濾波器,在被分割后的多個頻帶中,選擇在各頻帶中噪聲為不相關(guān)的麥克風(fēng)對來估計濾波器增益。
全文摘要
本發(fā)明提供一種后置濾波器,其具有麥克風(fēng)陣列(10),其由用于輸入語音信號的至少二個麥克風(fēng)構(gòu)成;波束成形器(13),其進行從上述麥克風(fēng)陣列輸入的語音信號的成形;分割器(14),其將包含自上述麥克風(fēng)陣列輸入的噪聲的目標聲音,以規(guī)定的頻率,至少分割成二個頻帶;第一濾波器(20),其用于估計在上述麥克風(fēng)之間噪聲為不相關(guān)的情況下的濾波器增益;第二濾波器(30),其用于估計上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波器增益;加法器(40),其將來自上述第一濾波器和上述第二濾波器的輸出相加;以及基于來自上述加法器和上述波束成形器的輸出來降低噪聲的單元(41)。
文檔編號G10L21/02GK101263734SQ20068003188
公開日2008年9月10日 申請日期2006年8月31日 優(yōu)先權(quán)日2005年9月2日
發(fā)明者上地正昭, 佐佐木和也, 李軍峰, 赤木正人 申請人:豐田自動車株式會社