麥克風(fēng)陣列用后置濾波器的制作方法

文檔序號：2836896閱讀：903來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：麥克風(fēng)陣列用后置濾波器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及麥克風(fēng)陣列用后置濾波器。
技術(shù)背景出于便利性和靈活性，人們希望針對移動電話機和自動語音識別系統(tǒng)那樣的多種應(yīng)用系統(tǒng)存在免提(hands-free)技術(shù)。作為該技術(shù)中的重要問題之一，存在由遠方的麥克風(fēng)接收的信號的可靠性由于各種噪聲而明顯降低的問題。作為該問題的解決方法人們想到了空間濾波，其為了抑制來自規(guī)定的方向以外的方向的噪聲信號而使用利用了麥克風(fēng)陣列。麥克風(fēng)陣列帶來了高質(zhì)量的語音效果，并具有減少噪聲的突出的優(yōu)點。最近，存在如下的提案(參照文獻1: J.Bitzer, K.U.Simmer and K.國D.Kammeyer, "Multi-Microphone Noise Reduction Techniques as F ront隱end Devices for Speech Recognition," Speech communication,vo1.34, pp.3-12，2001.)。在該提案中，公開了在假設(shè)所希望的語音信號和噪聲信號之間的相關(guān)為不相關(guān)時，多通道維納濾波器得到相對寬帶寬的輸入，4吏輸出的平方差最小的最優(yōu)解。而且，可將多通道維納濾波器，進一步分解為最小方差無失真響應(yīng) (MVDR: Minimum Variance Distortionless Response)波束成形器和其后的維納后置濾波器。一般地，多通道維納濾波器與只使用了 MVDR波束成形器的情況相比以更高的SN比形成輸出。因此，在實際應(yīng)用的噪聲環(huán)境中，附加的后置濾波對于提高麥克風(fēng)陣列的性能來說是很有必要的。關(guān)于上述的后置濾波，提出有各種后置濾波技術(shù)(參照文獻2: R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustic, Speech, Signal Processing, vol.5， pp.25782581, 1988.、文獻3: I. A. McCowan and H. Bourlard, "Microphone Array Post-filter Based on Noise Field Coherence," IEEE Trans, on Speech and Audio Processing, vol.ll,no.6,pp.709-716，2003.、文獻4 : I. Cohen and B. Berdugo,"Microphone Array Post-filtering for Non畫Stationary Noise Suppression," in Proc. IEEE Int. Conf. on Acoustic Speech Signal Processing, pp.901-904， May 2002.、及文獻5: I. Cohen, "Multi-Channel Post-filtering in Non-stationary Noise Environments," IEEE Trans. Signal Processing, Vol. 52, No.5, pp.1149-1160,2004.)。廣泛使用之一的多通"置濾波器最初由 Zelinski提出。該后置濾波器(以下稱為"澤林斯基(Zelinski)后置濾波器")，假定是不同的麥克風(fēng)之間的噪聲是完全不相關(guān)的噪聲場。但是，在實際的環(huán)境中，特別如果是接近麥克風(fēng)的情況和噪聲之間的相關(guān)性較高的低頻域，此假定很難滿足。為了抑制表現(xiàn)較高相關(guān)性的噪聲，還提出將一般化后的旁瓣消除器 (GSC)與澤林斯基(Zelinski)后置濾波器結(jié)合的方法(參照文獻6: S. Fischer, K.D. Kammeyer, and K.U.Simmer， "Adaptive Microphone Arrays for Speech Enhancement in Coherent and Incoherent Noise Fields," in Proc 3rd joint meeting of the Acoustical Society of America and the Acoustical Society of Japan,Honolulu，Hawaii，1996.)。但是，也被指出了， GSC和Zelinski后置濾波器在低頻區(qū)域的工作狀況都不好。因此，提出了如下方法，即為了降低高頻中的低相關(guān)噪聲成分而使用Zelinski后置濾波器，而對于降低低頻中的高相關(guān)噪聲成分，進行頻譜減法計算(參照文獻 7: J. Meyer and K.U. Simmer, "Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction," in Proc. IEEE Int. Cont. on Acoustic, Speech ,Signal Processing, Munich, Germany, pp.21-24,1997.)。但是，該方法中，與多通道維納后置濾波器的基本構(gòu)成相矛盾，并且，為了執(zhí)行頻鐠減法計算需要語音激活檢測器(VAD)。以下，對多通道維納后置濾波器進行說明，并對要解決的課題進行說明。之后，對Zelinski后置濾波器以及作為與其比較而使用的McCowan 后置濾波器進行說明。在存在噪聲的環(huán)境中具有M個傳感器的麥克風(fēng)陣列的情況下，第m 個觀測信號Xm(t)由二個成分構(gòu)成。第一個信號，是利用所希望的聲源和第m個傳感器之間的沖擊(impulse)響應(yīng)而被轉(zhuǎn)換的所希望的信號。第二個信號是附加的噪聲nm(t)。這樣，接收信號由(l)式給出。4<formula>formula see original document page 5</formula>
其中，m = 1、 2、…、M、， *是巻積算符。若適用短時間傅立葉轉(zhuǎn)換(STFT) 則可如下表示時間-頻率區(qū)域的所觀測的信號。X(k,l) = S(k，i)A(k) + N(k，l)…(2)其中，k是頻率指針(index ), l是幀指針。<formula>formula see original document page 5</formula>其目的是根據(jù)包含所觀測的噪聲的信號來估計所希望的信號。如果使用矩陣表示，則估計輸出信號T(k, l)則下式給出。<formula>formula see original document page 5</formula> (6)其中，w(k,l)是加權(quán)系數(shù)，上標符號H是復(fù)共軛轉(zhuǎn)置。若要求使所希望的信號和其估計之間的均方差最小，則得到最優(yōu)的加權(quán)系數(shù)，得到多通道維納濾波器。如果假定所希望的信號和噪聲信號相互不相關(guān)，則可以進一步將多通道維納濾波器分解成MVDR波束成形器和維納后置濾波器。[式1]<formula>formula see original document page 5</formula>在(7)式中，第一項是MVDR波束成形器的項，第二項是維納后置形器針對規(guī)定方向進行所希望的信號的無失真 MMSE估計。通過利用維納后置濾波器進一步降低剩余的噪聲，可以改進噪聲降低能力，并產(chǎn)生高SN比。作為MVDR波束成形器，提出有Frost的波束成形器(參照文獻8: O丄.Frost ， "An algorithm for linearly constrained adaptive array processing," in Proc. IEEE, vol. 60，pp.926-935，1972.)和被一般化的旁瓣消除器(GSC)等若干自適應(yīng)算法，以及以擴散噪音場的假定為前提的超指向型波束成形器等若干非自應(yīng)算法。在以下的討論中，在不失一般性的范圍內(nèi)，假定事先朝向所希望的信號方向配置麥克風(fēng)陣列，為了處理各麥克風(fēng)上的相同的希望的語音信號而將多通道輸入進行按比例縮放(scaling)。這時，時間延遲補償輸出如下。X =S(k，l) + N (k,l) (m = 1, 2，…，M)…(8)以下，對稱之為Zelinski后置濾波器和McCowan后置濾波器的二個后置濾波器進行簡單說明。對于Zelinski后置濾波器提供了一種使用估計的自相關(guān)和互相關(guān)譜密度，在噪聲完全不相關(guān)的噪聲場中維納濾波器的解決策略。如果所希望的信號和噪聲信號無相關(guān)性，噪聲具有相同的功率密度，在不同的麥克風(fēng)之間無相關(guān)性，則可將多通道輸入自相關(guān)和互相關(guān)譜密度d) XiXi(k， 1) 和(J)XiXj(k, 1)簡化為 xx (k,l) =*ss(k,l) +$nn(k，l)…(9) xx (k,l) = ss(k,l)…(10)基于自相關(guān)和互相關(guān)譜密度的簡化表示(式(9)及(10))，可以將Zelinski后置濾波器寫成定式。[式2]其中，取實數(shù)R{}(涉及全部的傳感器對)和平均運算，針對估計誤差，有助于提高該后置濾波器的魯棒性。利用按比例縮放后的麥克風(fēng) 信號估計自相關(guān)和互相關(guān)譜密度。但是，實際上，各麥克風(fēng)中的噪聲是無相關(guān)性的這樣的Zelinski后置濾波器的基本的假定，在實際的環(huán)境中是很難滿足?？紤]該事實， McCowan,放寬了各麥克風(fēng)中的噪聲無相關(guān)性的這樣的假定，并作出了如下假定，即，各麥克風(fēng)中的噪聲具有相同的功率譜密度，并且相互存在關(guān) 系，其相關(guān)性的大小由相干函數(shù)(coherence function)給出。而且，在所希望的語音信號和噪聲信號之間無相關(guān)性的假定，和放寬了的噪聲之間相關(guān)的假定下，可由后述的公式給出多通道自相關(guān)和互相關(guān)鐠密度。其中，rniiij(k， l)是復(fù)相干函數(shù)(后述的式(17))。(1) XA (k， 1) 、 (MjXj(k，l)和(J)XiX〗(k， l)可如下簡化。參xx (kj) =#;ss(k』)+ *:rm(k，D…(12)j i xx (k,l) :"s(k，l) + 一nn(kj)…(13)i i XX (k，D = ss(k，l) + rnn(k，D#nn(lU)…(14):！ i ， i而且，可以基于這些表示，來表達維納后置濾波器的分子項即語音功率的譜密度d)ss-(k， 1)。 [式3<formula>formula see original document page 7</formula>會,夠糾〗(-草,力+~"貼)(15)可用下式表達McCowan后置濾波器,( "J，，， "D，，)]。McCowan后置濾波器是以使用辦公室中的多通道錄音為前提的，是為了在此環(huán)境中，與Zelinski后置濾波器相比，實現(xiàn)改進的性能而提出的，但是，如果預(yù)先假設(shè)的相干函數(shù)和實際的相干函數(shù)之間存在差別，則會降低性能。發(fā)明內(nèi)容本發(fā)明的目的是提供一種新的后置濾波器，其具有擴散噪聲場中的混合結(jié)構(gòu)。本發(fā)明作為針對如有回音的房間或車廂內(nèi)環(huán)境等、擴散噪聲場多的、實際使用的噪聲環(huán)境的合理模型而提出。在擴散噪聲場中，低頻噪聲有高相關(guān)性，高頻噪聲有低相關(guān)性?？紤]這些特性，本發(fā)明使用了高頻噪聲(低相關(guān)性)用的多通道維納后置濾波器和低頻噪聲(高相關(guān)性) 用的單通道維納后置濾波器。對于高頻，采用改進Zelinski后置濾波器，且該改進Zelinski后置濾波器利用不同的麥克風(fēng)對充分地考慮、利用了噪聲間的相關(guān)關(guān)系。對于低頻，采用了基于判定指向型SN比估計機制的、進一步降低"音樂噪聲，，的單通道維納后置濾波器。本發(fā)明涉及的后置濾波器，理論上，基于多通道維納濾波器的基本構(gòu)成，可以有效地減少擴散噪聲場中的高相關(guān)噪聲和低相關(guān)噪聲。本發(fā)明涉及的后置濾波器，具有麥克風(fēng)陣列，由用于輸入語音信號的至少二個麥克風(fēng)構(gòu)成；波束成形器，進行從上述麥克風(fēng)陣列輸入的語音信號的成形；分割器，將包含從上述麥克風(fēng)陣列輸入的噪聲的目標聲音，以規(guī)定的頻率，至少分割成二個頻帶；第一濾波器，用于估計在上述麥克風(fēng)之間噪聲不相關(guān)的情況下的濾波器增益；第二濾波器，用于估計上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波器增益；加法器，將上述第一濾波器和上述第二濾波器的輸出相加；和基于上述加法器和上述波束成形器的輸出來降低噪聲的單元。

圖1是表示完全的擴散噪聲場對于頻率的MSC函數(shù)的圖。圖2是本發(fā)明所涉及的后置濾波器的框圖。圖3是表示改進Zelinski后置濾波器的概略構(gòu)成的框圖。圖4是表示單通道維納后置濾波器的概略構(gòu)成的框圖。圖5是表示指向系數(shù)和頻率之間的關(guān)系的圖。圖6A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的 SEGENR的實驗結(jié)果的圖。圖6B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的 SEGENR的實驗結(jié)果的圖。圖7A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的NR 的實驗結(jié)果的圖。圖7B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的NR 的實驗結(jié)果的圖。圖8A是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的LSD 的實驗結(jié)果的圖。圖8B是表示在各種SNR水平的二個噪聲狀態(tài)下計算出的平均的LSD 的實驗結(jié)果的圖。圖9A是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與日語"df3f J:3L <"對應(yīng)的測定例的圖。圖9B是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與日語"i"^f J:3L <"對應(yīng)的測定例的圖。圖9C是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與日語"df 丄3L <"對應(yīng)的測定例的圖。圖9D是表示在100km/h速度下的車輛環(huán)境中的語音i普圖的典型的與日語"(h'3f丄3L <"對應(yīng)的測定例的圖。圖9E是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與日語"i'5f J:3L <"對應(yīng)的測定例的圖。圖9F是表示在100km/h速度下的車輛環(huán)境中的語音譜圖的典型的與日語"if ，f丄3L <"對應(yīng)的測定例的圖。圖9G是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與日語"i:'5f丄3L <"對應(yīng)的測定例的圖。圖9H是表示在100km/h速度下的車輛環(huán)境中的語音鐠圖的典型的與日語"d:'5f J:3L <"對應(yīng)的測定例的圖。
具體實施方式
[211參照附圖對本發(fā)明的實施方式進行說明。在下述的說明中，首先對模型噪音場中的相干函數(shù)及其應(yīng)用進行說明。然后，對擴散噪音場中的混合后置濾波器進行說明，最后，對本發(fā)明所涉及的后置濾波器的優(yōu)點進行說明。[221為了給噪音場賦予特征，廣泛使用了由下式定義的復(fù)相干函數(shù)。<formula>formula see original document page 10</formula>其中，(J)XiXj(k， l)是二個信號Xi(t)和Xj(t)之間的互相關(guān)鐠密度，d) xiXi (k， 1)和(j) XjXj (k， 1)分別是Xi(t)和Xj(t)的自相關(guān)譜密度。作為特別的重要方法的振幅平方相干(MSC: magnitude-squared coherence ) 函數(shù)，定義為由用于分析噪音場而在本說明書中使用的MSC(k，l)= ir XiXj(k，l)l2給出的復(fù)相干函數(shù)的振幅的平方。作為本說明書的基本假定之一的擴散噪聲場，表示為針對多個實際噪聲環(huán)境的合理的模型。利用以下的MSC函數(shù)來給擴散噪音場賦予特征。[式6sin(2^M/e》-《夠其中，d是鄰接的麥克風(fēng)的距離，c是聲速。在圖1中表示相對頻率的完全的擴散噪音場的MSC函數(shù)。根據(jù)圖1可以容易地求出下述那樣的擴散噪音場的幾個特性。1. MSC函數(shù)，是依賴于頻率，并依賴于時間的函數(shù)。2. 不同的麥克風(fēng)中的噪聲，在低頻具有高相關(guān)性，在高頻具有低相關(guān)性。為了將頻鐠分成低相關(guān)部分和高相關(guān)部分，將二個區(qū)域分開的過渡頻率ft選擇在由f,c/(2d)給出的第一最小值。由于明確地將聲速c視為常數(shù)，所以過渡頻率筒單地由二個麥克風(fēng)之間的距離d決定。為了將本發(fā)明涉及的后置濾波器公式化，進行以下的假定。(1) 所希望的語音信號和噪聲信號在各麥克風(fēng)中是不相關(guān)的。(2 )噪聲的功率譜密度在各麥克風(fēng)中是扭同的。(3) 不同的麥克風(fēng)中的噪聲是擴散噪聲。ii實際上可明確的是，假定(1)在通常語音信號處理中被使用，而且，假定(2)和(3)在多數(shù)的實際噪聲環(huán)境中可以實現(xiàn)。在以下的說明，對用于提高后置濾波器的噪聲降低性能的混合后置濾波器進行說明。作為后置濾波器，應(yīng)用高頻區(qū)域的改進Zdinski后置濾波器和低頻區(qū)域的單通道維納后置濾波器。圖2是本發(fā)明所涉及的后置濾波器的框圖。另外，圖3是表示改進Zelinski后置濾波器的概略構(gòu)成的框圖。圖4是表示單通道維納后置濾波器的概略構(gòu)成的框圖。如圖2所示，本發(fā)明所涉及的后置濾波器，具有麥克風(fēng)陣列10 (以下也簡單地稱為"麥克風(fēng)")；高速傅立葉變換器11;時間匹配器12;波束成形器13;頻帶分割器14;改進Zelinski濾波器增益估計器20 (改進Zelinski后置濾波器)；單通道濾波器增益估計器30;加法器40;濾波器41;延遲器42;高速傅立葉反變換器50。如圖3所示，改進Zelinski濾波器增益估計器20具有互相關(guān)鐠密度運算器21;平均器22;自相關(guān)譜密度運算器23;平均器24;除法器25。另外，如圖4所示，單通道濾波器增益估計器30具有平均器31;噪聲位移更新器32;后驗(posteriori )SNR運算器33;遲延器34;先驗(Priori) SNR運算器35; SAP運算器36;單通道維納濾波器增益估計器37 (單通道維納后置濾波器)。在上述這樣的構(gòu)成中，基于各麥克風(fēng)10中的噪聲是相互不相關(guān)的假定，需要使無相關(guān)性的噪音場中的語音及其估計之間的均方差最小。如上述，在多通道輸入的自相關(guān)和互相關(guān)語密度中包含相關(guān)噪聲成分。因此，如果在估計多通道輸入的自相關(guān)和互相關(guān)鐠密度中所使用的噪聲相關(guān)性較小，則認為可以抑制性能的降低。如圖l所示，在擴散噪音場中，不同的麥克風(fēng)相互不相關(guān)噪聲成分只存在于過渡頻率ft以上的頻率。按照與麥克風(fēng)之間的距離來決定過渡頻率，所以，對于具有不同的要素相互間隔的麥克風(fēng)，利用不同的過渡頻率賦予特征。也就是，對于具有不同的要素相互間隔的不同的麥克風(fēng)，在不同的頻率區(qū)域可以被^L為不相關(guān)噪聲。進而，對于某個頻率，只對于被限定的麥克風(fēng)，噪聲相互不相關(guān)，一般地，對于全部的麥克風(fēng) 不是這樣。由此，通過計算出該麥克風(fēng)對上的多通道輸入的自相關(guān)和互相關(guān)鐠密度，可以得到改進Zelinski后置濾波器。具體如下。按照麥克風(fēng)陣列的麥克風(fēng)配置，預(yù)先決定過渡頻率。具體地是，如果考慮在以距離dij分開的傳感器i和j (i、 j<M)之間具有要素相互間隔的M傳感器陣列，則有用于決定M(M-1)/2的過渡頻率的M(M-1)/2 的麥克風(fēng)對。此外，過渡頻率可以分別用ft， ij = c/(2dij)來計算。在這種情況下，由于對于幾個麥克風(fēng)對要素相互間隔相同，所以，過渡頻率也相同。例如，在直線上等間隔地排列M個麥克風(fēng)的情況下，在 M(M-l)/2個麥克風(fēng)中，由于具有(M-1)的不同的要素相互間隔，所以，可以決定由ft1、 ft2.....ft^表示的(M-l)個不同的過渡頻率。此外，不失一般性地，也可以進一步假定過渡頻率之間的關(guān)系是 ft、f 〈…〈ftM—1。此外，如果不將M個麥克風(fēng)等間隔地排列，或不排列在直線上，則也可以以不同的間隔排列M(M-l)/2個的麥克風(fēng)對全部，在這種情況下，選擇M ( M-l) /2個過渡頻率。利用高速傅立葉變換器11對從麥克風(fēng)10輸入的例如語音進行傅立葉變換。對傅立葉變換后的信號，利用時間匹配器12,補正輸入信號對于各麥克風(fēng)10之間的同一語音的時間偏差。此外，在這種情況下，也可以使基于高速傅立葉變換器11和時間匹配器12的處理的順序顛倒。然后，實施了時間上匹配的語音信號被輸入到頻帶分割器14，頻帶分割器14，將全部頻率以(M-l)個不同的過渡頻率ft1、 ft2..... f，—1分割成B。、 Bi.....Bi^M個子頻帶。M個子頻帶中的Bi.....Bn的(M-l)個子頻帶，被輸入改進Zelinski濾波器增益估計器20。另外，實施了時間上的匹配的語音信號也輸入到波束成形器13，進行波束成形后輸入濾波器41。對于輸入到改進Zelinski濾波器增益估計器20的(M-1)個的子頻帶，利用互相關(guān)i普密度運算器21計算互相關(guān)譜密度，并利用平均器22求出其平均值。此外，在利用平均器22進行平均時，不是針對全部的輸入，而是選擇在其頻帶內(nèi)噪聲無相關(guān)性的麥克風(fēng)對中的自相關(guān)(互相關(guān))鐠密度來進行平均。另夕卜，利用自相關(guān)譜密度運算器23運算自相關(guān)譜密度，并利用平均器24求出其平均值。此外，如下求出互相關(guān)鐠密度運算器21和自譜密度運算器23中的噪聲信號的鐠密度。組Qm的麥克風(fēng)對中的噪聲是不相關(guān)。在這種情況下，由 xM (k，l)= 一3(11，1)+ #歴氛1)…(19)(k，l)二爭ss(k，l)…(20) 給出多通道輸入的自相關(guān)和互相關(guān)鐠密度，根據(jù)這些鐠密度可以估計所希望的語音和噪聲信號的譜密度。而且，將利用平均器22和24平均后的自動和重疊譜密度，在除法器25中進行除法運算后，輸出高頻帶的濾波器增益(增益函數(shù))。在這里，如果是Zelinski后置濾波器，由于將全部的麥克風(fēng)對中的自相關(guān)(互相關(guān))鐠密度進行平均后求出濾波器增益，所以，也包含噪聲的相關(guān)性較高(脫離假定)的數(shù)據(jù)。因此，作為結(jié)果，濾波器增益的估計魯棒性較差。另一方面，如果是改進Zelinski后置濾波器，只選擇噪聲相關(guān)性較低(未脫離假定)的數(shù)據(jù)作為組Qm，并在其中進行了平均，所以魯棒性較高。其中，改進Zelinski后置濾波器的增益函數(shù)，如下述給出。[式7<formula>formula see original document page 14</formula>此外，在上述說明中，過渡頻率的決定，只依賴于麥克風(fēng)陣列的配置，不依賴于輸入信號。另外，自相關(guān)和互相關(guān)譜密度的估計順序中所包含的麥克風(fēng)對的選擇，有助于改進Zelinski后置濾波器的計算成本的減少。另一方面，來自各麥克風(fēng)10的子頻帶BQ,被輸入單通道濾波器增益估計器30。如果全部的麥克風(fēng)對中的噪聲是高相關(guān)的，即使使用了改進Zelinski后置濾波器，也不能根據(jù)多通道輸入的自相關(guān)和互相關(guān)鐠密度估計所希望的語音信號的自相關(guān)鐠密度。因此，對于低頻，為了估計維納后置濾波器采用了單通道技術(shù)。首先，輸入到單通道濾波器增益估計器30的子頻帶Bq,由平均器 31在通道間被進行平均。被平均后的子頻帶B。，輸入噪聲位移更新器 32和后驗SNR運算器33。噪聲位移更新器32基于來自平均器31和SAP 運算器36的信號進行更新處理，并將估計噪聲頻鐠輸出到后驗SNR運算器33和延遲器34。從后驗SNR運算器33到先驗SNR運算器35執(zhí) 行詳細后述的各種運算。單通道維納濾波器增益估計器37基于來自先驗SNR運算器35的信號，輸出低頻帶中的濾波器增益(增益函數(shù))。在上述那樣的構(gòu)成中，維納后置濾波器的增益函數(shù)可以改寫成如下形式。[式8' ^^) + #朋(*，1) Ep(k，蓋)卩+ E[IN(k,1)12l + SNRpriori(W)"'徵其中，E[]是期望算符，SNRpri。ri (k，l)是用S N r prtori《W)=印S (W》12〗/ ElN(kJ)ft定義的先驗SNR。利用先驗SNR運算器35所運算的先驗SNR ( SNRpri。ri ( k，l))的估計，由如下的判定指向性估計機制所更新。[式SNRPrk>ri(kJ) = " !S(k，陽1》1勺+(1—eg)m股〖g服贈(fe,1)-i,o]…(23)在式(23)中，ot (0<a<l)是遺忘系數(shù)，SNRP。st (k，l)是由后驗 SNR運算器33運算的后驗SNR，用SNRpost ( k，l) = IX ( k， 1) 12/E [ | N (k，l) |2]表示。由此，上述那樣的判定指向性估計機制大大地減少了 "音樂噪聲"。這里，為了提高單通道維納后置濾波器的性能，極其重要的一點是以高精度估計噪聲的功率譜密度E [ IN( k， 1) I2]。該噪聲的功率譜密度，利用如下的基于軟決定的近似法得到。E[l:咖)卩]一E[亂1)卩]+ (1-J )E[lN(k,l)f IX(k，l)]…(24)在(24)式中，P (0<P<1)是控制噪聲估計的更新比率的遺忘系數(shù)。在語音的存在是不確定的狀況下，將(24)式的右邊的第二項，作為使用式(25)觀測的信號的譜密度來估計。E卩N(k，l)卩IX細=q(k,l膽—(k，I)l2 + (li(k，l))E[lN(k,卜l)f]…《25)在(25)式中，q(k,l)是語音不存在概率，lX-(k，l) |2是各傳感器中的各個噪聲的譜密度的平均。此外，[式10。1 M ，。微=1這樣計算各傳感器中的各個噪聲的鐠密度的平均的理由，是因為如果只考慮i個傳感器，則有可能產(chǎn)生起因于估計錯誤的發(fā)生了偏差的測量。若假定復(fù)高斯統(tǒng)計值模型，并應(yīng)用貝葉斯定理和全概率定理，則可利用下式給出語音不存在概率。[式11<formula>formula see original document page 16</formula>《26)在(26)式中，q' (k,l)是先驗的語音不存在概率，根據(jù)實驗選擇適當(dāng)?shù)闹?。用加法?0將如上述求出的高頻帶和低頻帶中的濾波器增益(增益函數(shù))進行加法計算，并向濾波器41輸出加法計算結(jié)果。濾波器41將根據(jù)波束成形器13和加法器40的輸出而降低了高頻帶和低頻帶中的噪聲后的信號輸出到延遲器42和高速傅立葉反變換器50。高速傅立葉反變換器50將輸入信號進行傅立葉反變換，并輸出到后級的例如語音識別裝置等。另外，由延遲器42輸出的信號用于單通道濾波器增益估計器30中的增益函數(shù)的計算。本發(fā)明所涉及的后置濾波器，在理論上依據(jù)了多通道維納后置濾波器的框架，應(yīng)該可以說是維納后置濾波器。對于低頻區(qū)域，由(22)式給出的后置濾波器明顯是維納濾波器。對于高頻區(qū)域，為了利用改進 Zelinski后置濾波器進行估計而使用的噪聲是不相關(guān)的，所以，多通道輸入的互相關(guān)譜密度提供更正確的語音的自相關(guān)譜密度估計。因此，在高頻區(qū)域所釆用的改進Zelinski后置濾波器可以看成是維納后置濾波器。如上述構(gòu)成的本發(fā)明所涉及的后置濾波器，作為最優(yōu)的麥克風(fēng)陣列用后置濾波器，應(yīng)著重提供更一般的表達形式。如果是完全不相關(guān)的噪聲場，只要將本發(fā)明所涉及的后置濾波器的過渡頻率設(shè)定為零，則變成 Zelinski后置濾波器。而且，如果是全部噪聲完全具有相關(guān)性的噪音場，只要將本發(fā)明涉及的后置濾波器的過渡頻率設(shè)定為最高的頻率，則變成單通道維納后置濾波器。為了確認擴散噪音場中的本發(fā)明所涉及的后置濾波器的有效性，在各種車的噪聲環(huán)境中，對Zelinski后置濾波器、McCowan后置濾波器、和包含單一的單通道維納后置濾波器的其他的以往的后置濾波器進行了比較。波束成形器，最初適用于多通道噪聲信號。而且，利用本發(fā)明涉及的后置濾波器進一步使波束成形器進一步提高了其作用。在客觀和主觀上對性能進行了評價。實驗構(gòu)成如下。為了在實際的車輛環(huán)境中估計本發(fā)明所涉及的后置濾波器的性能，17將由要素相互間隔為10cm的相等間隔的3個麥克風(fēng)構(gòu)成的線性陣列安裝在車的遮陽板上。陣列在駕駛員的正面距離駕駛員約50cm。在車以50km/h和100km/h的速度在高速道路上行駛過程中，利用全部的通道同時進行多通道噪聲錄音。噪聲主要由發(fā)動機噪聲、空調(diào)噪聲和由于輪胎與道路之間的摩擦引起的噪聲構(gòu)成。將由50個日文構(gòu)成的清晰的語音信號從ATR數(shù)據(jù)庫中取出。將語音和噪聲信號的雙方，在最初以16位的精度再抽樣為12kHz。通過將清晰的語音信號和實際的多通道車輛噪聲，以不同的全球SNR水平(-5、 20) dB進行人工混合，生成多通道噪聲信號。該生成順序具有以下的優(yōu)點。(1) 可以看成進行了理想的時間遲延補償。(2) 由于明確地測量混入條件，所以可以容易使用客觀的方法進行性能估計。通過將圖1所示的理論sine函數(shù)和根據(jù)實際的噪聲錄音而計算的測量MSC函數(shù)進行比較，對擴散噪音場的有效性進行了調(diào)查。根據(jù)圖1，可以知道，存在瞬間的變化，但是，另一方面，測量MSC函數(shù)跟蹤理論sinc函數(shù)的趨勢。其值，滿足本發(fā)明所涉及的后置濾波器中使用的擴散噪音場的假定。利用擴散噪聲場中的MVDR波束成形器的解決策略即超指向性波束成形器來實現(xiàn)波束成形濾波器。作為與頻率k有關(guān)的函數(shù)的超指向性波束成形器的增益函數(shù)是[式12
<formula>formula see original document page 18</formula>對于擴散噪聲源，表示陣列的噪聲降低能力的指向系數(shù)(DI)用下式表示，[式13<formula>formula see original document page 19</formula> (23》并將該指向系數(shù)和頻率之間的關(guān)系表示于圖5。根據(jù)圖5可以清楚地知道，超指向性波束成形器對抑制低頻噪聲成分沒有效果。為了客觀地估計本發(fā)明涉及的后置濾波器，使用了分段SNR (SEGSNR)、噪聲降低比(NR)及對數(shù)鐠距離(LSD)的下述三個客觀上的語音質(zhì)量測量。分段SNR ( SEGSNR)是廣泛使用于噪聲降低和語音增強算法中的客觀的估計方法。將SEGSNR定義為清晰的語音功率，和包含噪聲的語音中所包含的噪聲信號或利用提出的算法降低了噪聲后的信號中所包含噪聲信號的比率，并以如下給出。[式14]<formula>formula see original document page 19</formula>其中，s()、 S—()是將利用所試驗的算法處理后的參照語音信號和抑制了噪聲信號后"信號。另外，L和K表示信號的幀數(shù)和每幀(與STFT 的長度相等)的采樣數(shù)。噪聲降低比(NR)，用于對提出的算法的噪聲降低性能進行估計。當(dāng)沒有語音時，將NR定義成包含噪聲的輸入的功率和被增強的信號的功率的比率，并利用下式表示。[式15]<formula>formula see original document page 20</formula>
其中，①表示沒有語音的幀的組，1①l是濃度。X(k， l)和s-(k， 1) 分別是噪聲信號和增強后的語音信號(enhanced signal )。對數(shù)鐠距離(LSD )經(jīng)常用于對所規(guī)定的語音信號的失真進行估計。 LSD定義為清晰的語音的對數(shù)鐠和噪聲信號的對數(shù)鐠或利用提出的算法增強后的信號的對數(shù)鐠之間的距離，并如下給出。[式16<formula>formula see original document page 20</formula>
其中，V表示存在語音的幀的組，IVI是其基數(shù)。S(k，l)和S-(k，l)分別是參照清晰信號和增強后的語音信號的頻譜。將在二個噪聲狀態(tài)(50km/h和100km/h )下，以各種SNR水平計算的平均SEGSNR和NR的結(jié)果，分別表示于從圖6A到圖7B。另夕卜，將LSD的結(jié)果表示于圖8。涉及各個噪聲狀態(tài)的全部的句子，將實驗結(jié) 果的值平均。在麥克風(fēng)錄音、波束成形器輸出、及本發(fā)明涉及的后置濾波器的輸出時，對性能進行估計。此外，圖6A、圖7A及圖8A是50km/h 行駛時，圖6B、圖7B及圖8B是100km/h行駛時。另外，圖中的記號，四邊形表示波束成形器的輸出，菱形表示Zelinski后置濾波器，加號表示McCowan后置濾波器的輸出，三角形表示單通道維納后置濾波器的輸出，圓形表示本發(fā)明涉及的后置濾波器的輸出，圖8中的x記號是表示沒有施加任何處理的保持原錄音狀態(tài)的信號的平均對數(shù)i普距離(LSD )。如從圖6A到圖7B所示，波束成形器單獨且Zelinski后置濾波器，對于抑制低頻噪聲成分時a現(xiàn)充分的性能，不能得到SEGSNR改進和噪聲降低的結(jié)果。it^示了對上述說明進行確認的結(jié)果。將噪聲場的適當(dāng)?shù)?相干函數(shù)作為參數(shù)的McCowan后置濾波器對SEGSNR進行了很大地改進。但是，在所有的噪聲狀態(tài)下，與Zelinski后置濾波器和McCowan后置濾波器相比較，單通道維納后置濾波器表現(xiàn)了更高的對SEGSNR和NR 的改善。而且，本發(fā)明涉及的后置濾波器，在全部的試驗條件下，給出了與單通道后置濾波器同等的SEGSNR和NR，表現(xiàn)了最高的性能。關(guān)于圖8A和圖8B的LSD的結(jié)果，僅波束成形器、和Zelinski后置濾波器，與沒有使用濾波器的情況相比，在所有的SN比中，減少了 LSD。單通道維納后置濾波器，在低SNR情況下，降低了語音的失真，但是，在高SNR的情況下，反而增大了失真。提出的方法和McCowan后置濾波器，在SN比水平的大部分中表現(xiàn)出最低的LSD。本發(fā)明所涉及的后置濾波器的主觀性能評價，使用語音頻譜圖，以及通過非正式的試聽試驗有效地進行。從圖9A至圖9H表示100km/h 的速度下的車輛環(huán)境下的與"if^f J:3L <"這樣的日語句子對應(yīng)的語音頻譜圖的典型的測量例。從圖9A至圖9C分別表示第一麥克風(fēng)中的原始清晰語音信號、第一麥克風(fēng)中的噪聲信號、第一麥克風(fēng)中的噪聲信號(SNR=10dB)。圖9D是波束成形器的輸出，如圖5所示由于在低頻的噪聲抑制上存在弱點，所以存在較大的低頻噪聲。另外，圖9E 所示的Zelinski后置濾波器的輸出表示，由于低頻區(qū)域中的噪聲的高相關(guān) 特性，在低頻提供了相當(dāng)受限的性能。圖9F表示，McCowan后置濾波器也抑制了低頻區(qū)域的噪聲。但是，由于估計的相干函數(shù)和實際的相干函數(shù) 之間的差異而導(dǎo)致存在殘存噪聲。單通道維納后置濾波器，如圖9G所示產(chǎn)生了語音失真。圖9H是本發(fā)明涉及的后置濾波器，表示可以沒有附加語音失真地對擴散性噪聲進行抑制。在非正式的收聽試驗中，證明了與其他相比本發(fā)明的后置濾波器是優(yōu)越的。如上述那樣，實際環(huán)境中的本發(fā)明的后置濾波器的基本假定(擴散噪聲場)，比Zelinski后置濾波器(無相關(guān)性的噪聲場)的假定更合理，所以，本發(fā)明涉及的后置濾波器比Zelinski后置濾波器更優(yōu)越。并且，本發(fā)明涉及的后置濾波器在減少低頻的高相關(guān)噪聲成分方面是成功的。McCowan后置濾波器，其基于噪聲場的相干函數(shù)而決定。因此，其21性能很大地依賴于所假定的相千函數(shù)的精度。假定和實際的相干函數(shù)之間的差異會導(dǎo)致性能劣化。但是，本發(fā)明所涉及的混合后置濾波器，為了區(qū)別相關(guān)和不相關(guān)噪聲，只利用了過渡頻率，不涉;M目干函數(shù)的實際的瞬時值，減輕了相干函數(shù)之間的誤差引起的效果。本發(fā)明所涉及的混合后置濾波器，比在全頻帶中使用的單通道維納后置濾波器更優(yōu)越?；谠肼暤奶匦詼y量值的單通道維納后置濾波器，即使采用軟決定機制也幾乎不能與非固定噪聲源對應(yīng)。但是，基于自相關(guān)和互相關(guān)譜密度的估計的多通道的技術(shù)，即使對于非固定噪聲也提供了在理論上所希望的性能。本發(fā)明所涉及的改進Zelinski后置濾波器，在高頻區(qū)域的各個分割頻率區(qū)域完全提供了該性能。如上所述，本發(fā)明，假定擴散噪聲場提出了針對麥克風(fēng)陣列的后置濾波器。本發(fā)明所涉及的后置濾波器，結(jié)合高頻區(qū)域的改進Zelinski后置濾波器和低頻區(qū)域的單通道維納后置濾波器而構(gòu)成。對于本發(fā)明所涉及的后置濾波器，與其他算法相比，有以下的優(yōu)點。(1) 理論上，本發(fā)明所涉及的后置濾波器是維納后置濾波器，所以符合了多通道維納后置濾波器的框架。(2) 實際上，本發(fā)明所涉及的后置濾波器減少了噪聲，在各種車輛的噪聲環(huán)境下，與其他算法相比，對估計所希望的語音很有效。根據(jù)本發(fā)明，可以有效地減少擴散噪聲場中的高相關(guān)噪聲和低相關(guān) 噪聲。本發(fā)明，不限于上述各實施方式，除此以外，可以在實施階段，不脫離其主旨的范圍內(nèi)實施各種變形。進而，對于上述各實施方式，包含各種階段的發(fā)明，通過對公開的多個構(gòu)成要件進行適當(dāng)?shù)淖兏?，可以?到各種發(fā)明。另外，例如，即使從各實施方式所示的全構(gòu)成要件中刪除幾個構(gòu)成要件，也可以解決在發(fā)明所要解決的課題欄目中所述的課題，在得到在發(fā)明的效果處所述的效果的情況下，可以將刪除了該構(gòu)成要件的構(gòu)成而得到本發(fā)明。根據(jù)本發(fā)明，可以有效地減少擴散噪聲場中的高相關(guān)噪聲和低相關(guān) 噪聲。
權(quán)利要求
1. 一種后置濾波器，其特征在于，具有麥克風(fēng)陣列，其由用于輸入語音信號的至少兩個麥克風(fēng)構(gòu)成；波束成形器，其進行自上述麥克風(fēng)陣列輸入的語音信號的成形；分割器，其將包含自上述麥克風(fēng)陣列輸入的噪聲的目標聲音，以規(guī)定的頻率，至少分割成二個頻帶；第一濾波器，其用于估計在上述麥克風(fēng)之間噪聲為不相關(guān)情況下的濾波器增益；第二濾波器，其用于估計在上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波器增益；加法器，其將上述第一濾波器和上述第二濾波器的輸出相加；以及基于上述加法器和上述波束成形器的輸出來降低噪聲的單元。
2. 如權(quán)利要求l所述的后置濾波器，其特征在于，上述第一濾波器是改進澤林斯基后置濾波器,上述第二濾波器是單通道維納后置濾波器。
3. 如權(quán)利要求1或2所述的后置濾波器，其特征在于，上述第一濾波器通過求出互相關(guān)譜密度和自相關(guān)譜密度之比來估計濾波器增益,上述第二濾波器，基于后置濾波器的輸出信號和后驗SNR來計算先驗SNR,并基于先驗SNR估計濾波器增益。
4. 如權(quán)利要求1至3中任意一項所述的后置濾波器，其特征在于，依據(jù)上述麥克風(fēng)之間的距離來決定利用上述分割器分割的目標聲音的頻率。
5. 如權(quán)利要求4所述的后置濾波器，其特征在于，上述第一濾波器，在被分割后的多個頻帶中，選擇在各頻帶中噪聲為不相關(guān)的麥克風(fēng)對來估計濾波器增益。
全文摘要
本發(fā)明提供一種后置濾波器，其具有麥克風(fēng)陣列(10)，其由用于輸入語音信號的至少二個麥克風(fēng)構(gòu)成；波束成形器(13)，其進行從上述麥克風(fēng)陣列輸入的語音信號的成形；分割器(14)，其將包含自上述麥克風(fēng)陣列輸入的噪聲的目標聲音，以規(guī)定的頻率，至少分割成二個頻帶；第一濾波器(20)，其用于估計在上述麥克風(fēng)之間噪聲為不相關(guān)的情況下的濾波器增益；第二濾波器(30)，其用于估計上述麥克風(fēng)陣列中的一個麥克風(fēng)或麥克風(fēng)陣列的平均信號的濾波器增益；加法器(40)，其將來自上述第一濾波器和上述第二濾波器的輸出相加；以及基于來自上述加法器和上述波束成形器的輸出來降低噪聲的單元(41)。
文檔編號G10L21/02GK101263734SQ20068003188
公開日2008年9月10日申請日期2006年8月31日優(yōu)先權(quán)日2005年9月2日
發(fā)明者上地正昭, 佐佐木和也, 李軍峰, 赤木正人申請人:豐田自動車株式會社

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：赤木正人;李軍峰;上地正昭;佐佐木和也
技術(shù)所有人：豐田自動車株式會社
我是此專利的發(fā)明人

上一篇：立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法
上一篇：能量整形裝置以及能量整形方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

后置濾波器相關(guān)技術(shù)

麥克風(fēng)陣列相關(guān)技術(shù)

麥克風(fēng)陣列聲源定位相關(guān)技術(shù)

麥克風(fēng)陣列解決方案相關(guān)技術(shù)

麥克風(fēng)陣列信號處理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

麥克風(fēng)陣列用后置濾波器的制作方法