的算法不作限定,但本實施例以采用 基于廣義旁瓣消除(Generalized Sidelobe Canceler;GSC)的自適應(yīng)波束形成方法為例進 行說明。
[0051]采用GSC的自適應(yīng)波束形成方法對目標聲源方向進行增強處理,同時利用旁瓣消 除能夠抑制一部分來自其他方向的噪音和混響干擾信號,可以達到一定的抑制噪音和混響 的作用。
[0052]最重要的是,在匹配訓練階段通過引入波束形成技術(shù),使得輸出信號中包含了陣 列處理運算所產(chǎn)生的語音失真部分,利用上述輸出信號重新訓練獲得的聲學模型,除了可 以"學習"到遠場混響效應(yīng)之外,還能夠"學習"到波束形成處理所帶來的語音變形效應(yīng),使 得最終獲得的遠場識別的聲學模型與待識別的信號更匹配,從而可以進一步改善遠場識別 性能。
[0053]步驟204,利用上述輸出信號重新訓練聲學模型,獲得遠場識別的聲學模型。
[0054]經(jīng)過自適應(yīng)波束形成處理后,可以得到一路輸出信號。不難看出,這路輸出信號既 通過沖激響應(yīng)函數(shù)的引入,模擬了遠場混響效應(yīng),又通過自適應(yīng)波束形成技術(shù)的引入,模擬 了信號通過麥克風陣列處理后的失真效應(yīng),而這兩點,恰好是遠場識別與近場識別的兩個 最重要的不同點。利用上述輸出信號重新訓練聲學模型,所獲得的遠場識別的聲學模型,很 好地學習了這兩個重要的遠場效應(yīng),使得上述遠場識別的聲學模型與待識別的信號更匹 配,識別率也更高。
[0055]本實施例中,步驟201~步驟204與步驟101可以并行執(zhí)行,也可以先后執(zhí)行,但圖2以步驟201~步驟204在步驟101之前執(zhí)行為例示出。
[0056]獲得上述遠場識別的聲學模型之后,在步驟101與步驟102的遠場語音識別階段, 仍以在智能電視系統(tǒng)中進行遠場語音識別為例,通過麥克風陣列接收到的4路待識別的遠 場語音,都是包含混響的信號,這一點已經(jīng)通過卷積沖激響應(yīng)函數(shù)的方式,灌輸?shù)搅擞柧殧?shù) 據(jù)當中;將上述待識別的遠場語音經(jīng)過GSC自適應(yīng)波束形成處理后,得到一路待識別的信 號,然后通過上述遠場識別的聲學模型對這一路待識別的信號進行識別,這一路待識別的 信號由于陣列處理的緣故,與原始信號相比產(chǎn)生一定的失真,這一點通過波束形成匹配訓 練技術(shù)也加入到了訓練數(shù)據(jù)當中,所以本實施例中,待識別的信號與訓練數(shù)據(jù)最大限度地 實現(xiàn)了匹配。
[0057]此外,本實施例并沒有真實錄制大量的遠場語音作為訓練數(shù)據(jù),雖然真實錄制大 量的遠場語音作為訓練數(shù)據(jù)是理論上最合理的訓練方法,得到的模型也最匹配,但是這樣 做不僅浪費了大量的近場訓練數(shù)據(jù),而且要耗費大量的時間和人力來進行錄制,成本極高, 現(xiàn)實中幾乎不可行。本實施例提供的遠場語音識別方法利用已有的近場語音作為源頭,產(chǎn) 生和近場語音同等規(guī)模的模擬遠場訓練數(shù)據(jù),既節(jié)省了大量的錄音成本,又顯著地改善了 遠場識別效果。
[0058]本實施例提供的遠場語音識別方法中,一方面,通過沖激響應(yīng)函數(shù)的引入,將遠場 數(shù)據(jù)的混響效應(yīng)引入到訓練數(shù)據(jù)中,另一方面,將波束形成技術(shù)引入到匹配訓練當中,使得 語音信號通過陣列處理產(chǎn)生的變形和失真,也引入到訓練數(shù)據(jù)當中,從而最大限度地實現(xiàn) 了訓練數(shù)據(jù)和識別數(shù)據(jù)的匹配,從而有效改善了遠場識別的性能。實驗證明,該方法可用于 任何遠場識別任務(wù)中,對遠場識別性能具有明顯地改善。
[0059]圖4為本發(fā)明遠場語音識別裝置一個實施例的結(jié)構(gòu)示意圖,圖4所示的遠場語音識 別裝置可以實現(xiàn)本發(fā)明圖1所示實施例的流程。如圖4所示,上述遠場語音識別裝置可以包 括:獲得模塊41和識別模塊42;
[0060]其中,獲得模塊41,用于將麥克風陣列接收的待識別的遠場語音進行自適應(yīng)波束 形成處理,獲得一路待識別的信號;
[0061] 識別模塊42,用于通過遠場識別的聲學模型對獲得模塊41獲得的待識別的信號進 行識別。
[0062]上述遠場語音識別裝置中,獲得模塊41將麥克風陣列接收的待識別的遠場語音進 行自適應(yīng)波束形成處理,獲得一路待識別的信號,然后識別模塊42通過遠場識別的聲學模 型對所述待識別的信號進行識別,其中,上述遠場識別的聲學模型能夠與遠場識別的輸入 語音信號實現(xiàn)真正匹配,從而可以提升遠場語音識別的識別性能。
[0063]圖5為本發(fā)明遠場語音識別裝置另一個實施例的結(jié)構(gòu)示意圖,與圖4所示的遠場語 音識別裝置相比,不同之處在于,圖5所示的遠場語音識別裝置還可以包括:確定模塊43和 訓練t旲塊44;
[0064]其中,確定模塊43,用于在識別模塊42對獲得模塊41獲得的待識別的信號進行識 別之前,確定遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù);
[0065]具體地,確定模塊43可以包括:拓撲結(jié)構(gòu)確定子模塊431和估計子模塊432;
[0066]其中,拓撲結(jié)構(gòu)確定子模塊431,用于根據(jù)遠場語音識別的應(yīng)用場景,確定麥克風 陣列拓撲結(jié)構(gòu);
[0067 ]估計子模塊43 2,用于根據(jù)拓撲結(jié)構(gòu)確定子模塊431確定的麥克風陣列拓撲結(jié)構(gòu)估 計遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù)。
[0068]具體實現(xiàn)時,可以根據(jù)具體的識別任務(wù),確定遠場語音識別的應(yīng)用場景。舉例來 說,比如要將遠場語音識別應(yīng)用在智能電視系統(tǒng)中,那么可以設(shè)計一種含有N= 4路麥克風 的均勻線性陣列,均勻的布置在電視機頂端。人與電視機(也就是與麥克風陣列)的距離大 約為2至4米,這是一種典型的遠場語音識別的場景。
[0069]拓撲結(jié)構(gòu)確定子模塊431確定了具體的應(yīng)用場景和麥克風陣列拓撲結(jié)構(gòu)之后,接 下來估計子模塊432需要估計遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù)。這一組沖激 響應(yīng)函數(shù)能夠模擬原始聲源經(jīng)過空間傳輸和/或房間反射等影響,到達麥克風時的最終結(jié) 果。說的再具體些,這一組沖激響應(yīng)函數(shù)能夠模擬遠場空間的混響效應(yīng)。
[0070] 沖激響應(yīng)函數(shù)的估計,可以利用數(shù)字信號處理理論獲得。假設(shè)聲源到第1路麥克風 的沖激響應(yīng)函數(shù)為1η(η),原始聲源信號為x(n),則第1路麥克風的接收信號可以表示為:
[0071] y(n) =x(n)*hi(n) (1)
[0072] 式(1)中,*表示卷積。
[0073]對式(1)等號兩邊進行傅立葉變換,可得:
[0074] Υ(ω)=Χ(ω)Ηι(ω) (2)
[0075] 對式(2)等號兩邊取共輒,可得:
[0076] ~ (3..)
[0077] 將式(2)與式(3)相乘,可得:
[0078]丨:Τ2(0〇卜μ2柄丨丨埤一}丨 (4;)
[0079]因此:
[0080] (65)
[0081 ]可以在聲源處,播放一段白噪聲聲源,然后在第一個麥克風的位置接收白噪聲信 號,便可得到Χ(ω)和Υ(ω),進而可以求出出(ω)以及1η(η)。
[0082]利用同樣的方法,估計子模塊432可以估計出聲源到另外三路麥克風之間的沖激 響應(yīng)函數(shù)h2(n)、h3(n)和h4(n)。
[0083]對于家居客廳環(huán)境,一個典型的沖激響應(yīng)函數(shù)可以如圖3所示。
[0084]本實施例中,獲得模塊41,還用于將確定模塊43確定的沖激響應(yīng)函數(shù)與近場訓練 數(shù)據(jù)相卷積,獲得每一路麥克風接收到的模擬遠場信號;以及將上述每一路麥克風接收到 的模擬遠場信號進行自適應(yīng)波束形成處理,獲得一路輸出信號。
[0085]具體地,獲得模塊41將近場訓練數(shù)據(jù)s(n),與每一路沖激響應(yīng)函數(shù)卷積,可以獲得 每一路麥克風接收到的模擬遠場信號,如下所示:
[0086] Xd(n)=s(n)*hi(n) (6)
[0087] Xc2(n) = s(n)*h2(n) (7)
[0088] xC3(n) =s(n)*h3(n) (8)
[0089] xC4(n) =s(n)*h4(n) (9)
[0090] 這一步完成了訓練數(shù)據(jù)從近場到遠場的轉(zhuǎn)換,從近場訓練數(shù)據(jù)s(n)出發(fā),得到了 模擬遠場信號xca(n)~Xc;4(n)。每一路麥克風接收到的模擬遠場信號都包含了聲源到該路 麥克風的沖激響應(yīng)信息。換句話說,麥克風陣列的每一路模擬遠場信號都是近場信號加入 混響后的結(jié)果。
[0091] 然后,獲得模塊41可以將上述每一路麥克風接收到的模擬遠場信號Xcl(n)~Xc4 (η),通過陣列處理模塊,進行自適應(yīng)波束形成處理?;邴溈孙L陣列的自適應(yīng)波束形成有 很多成熟的算法,本實施例對進行自適應(yīng)波束形成處