遠場語音識別方法和裝置的制造方法_2

文檔序號：9668712閱讀：來源：國知局

的算法不作限定，但本實施例以采用基于廣義旁瓣消除(Generalized Sidelobe Canceler;GSC)的自適應(yīng)波束形成方法為例進行說明。
[0051]采用GSC的自適應(yīng)波束形成方法對目標聲源方向進行增強處理，同時利用旁瓣消除能夠抑制一部分來自其他方向的噪音和混響干擾信號，可以達到一定的抑制噪音和混響的作用。
[0052]最重要的是，在匹配訓練階段通過引入波束形成技術(shù)，使得輸出信號中包含了陣列處理運算所產(chǎn)生的語音失真部分，利用上述輸出信號重新訓練獲得的聲學模型，除了可以"學習"到遠場混響效應(yīng)之外，還能夠"學習"到波束形成處理所帶來的語音變形效應(yīng)，使得最終獲得的遠場識別的聲學模型與待識別的信號更匹配，從而可以進一步改善遠場識別性能。
[0053]步驟204,利用上述輸出信號重新訓練聲學模型，獲得遠場識別的聲學模型。
[0054]經(jīng)過自適應(yīng)波束形成處理后，可以得到一路輸出信號。不難看出，這路輸出信號既通過沖激響應(yīng)函數(shù)的引入，模擬了遠場混響效應(yīng)，又通過自適應(yīng)波束形成技術(shù)的引入，模擬了信號通過麥克風陣列處理后的失真效應(yīng)，而這兩點，恰好是遠場識別與近場識別的兩個最重要的不同點。利用上述輸出信號重新訓練聲學模型，所獲得的遠場識別的聲學模型，很好地學習了這兩個重要的遠場效應(yīng)，使得上述遠場識別的聲學模型與待識別的信號更匹配，識別率也更高。
[0055]本實施例中，步驟201~步驟204與步驟101可以并行執(zhí)行，也可以先后執(zhí)行，但圖2以步驟201~步驟204在步驟101之前執(zhí)行為例示出。
[0056]獲得上述遠場識別的聲學模型之后，在步驟101與步驟102的遠場語音識別階段，仍以在智能電視系統(tǒng)中進行遠場語音識別為例，通過麥克風陣列接收到的4路待識別的遠場語音，都是包含混響的信號，這一點已經(jīng)通過卷積沖激響應(yīng)函數(shù)的方式，灌輸?shù)搅擞柧殧?shù) 據(jù)當中；將上述待識別的遠場語音經(jīng)過GSC自適應(yīng)波束形成處理后，得到一路待識別的信號，然后通過上述遠場識別的聲學模型對這一路待識別的信號進行識別，這一路待識別的信號由于陣列處理的緣故，與原始信號相比產(chǎn)生一定的失真，這一點通過波束形成匹配訓練技術(shù)也加入到了訓練數(shù)據(jù)當中，所以本實施例中，待識別的信號與訓練數(shù)據(jù)最大限度地實現(xiàn)了匹配。
[0057]此外，本實施例并沒有真實錄制大量的遠場語音作為訓練數(shù)據(jù)，雖然真實錄制大量的遠場語音作為訓練數(shù)據(jù)是理論上最合理的訓練方法，得到的模型也最匹配，但是這樣做不僅浪費了大量的近場訓練數(shù)據(jù)，而且要耗費大量的時間和人力來進行錄制，成本極高，現(xiàn)實中幾乎不可行。本實施例提供的遠場語音識別方法利用已有的近場語音作為源頭，產(chǎn) 生和近場語音同等規(guī)模的模擬遠場訓練數(shù)據(jù)，既節(jié)省了大量的錄音成本，又顯著地改善了遠場識別效果。
[0058]本實施例提供的遠場語音識別方法中，一方面，通過沖激響應(yīng)函數(shù)的引入，將遠場數(shù)據(jù)的混響效應(yīng)引入到訓練數(shù)據(jù)中，另一方面，將波束形成技術(shù)引入到匹配訓練當中，使得語音信號通過陣列處理產(chǎn)生的變形和失真，也引入到訓練數(shù)據(jù)當中，從而最大限度地實現(xiàn) 了訓練數(shù)據(jù)和識別數(shù)據(jù)的匹配，從而有效改善了遠場識別的性能。實驗證明，該方法可用于任何遠場識別任務(wù)中，對遠場識別性能具有明顯地改善。
[0059]圖4為本發(fā)明遠場語音識別裝置一個實施例的結(jié)構(gòu)示意圖，圖4所示的遠場語音識別裝置可以實現(xiàn)本發(fā)明圖1所示實施例的流程。如圖4所示，上述遠場語音識別裝置可以包括:獲得模塊41和識別模塊42;
[0060]其中，獲得模塊41，用于將麥克風陣列接收的待識別的遠場語音進行自適應(yīng)波束形成處理，獲得一路待識別的信號；
[0061] 識別模塊42,用于通過遠場識別的聲學模型對獲得模塊41獲得的待識別的信號進行識別。
[0062]上述遠場語音識別裝置中，獲得模塊41將麥克風陣列接收的待識別的遠場語音進行自適應(yīng)波束形成處理，獲得一路待識別的信號，然后識別模塊42通過遠場識別的聲學模型對所述待識別的信號進行識別，其中，上述遠場識別的聲學模型能夠與遠場識別的輸入語音信號實現(xiàn)真正匹配，從而可以提升遠場語音識別的識別性能。
[0063]圖5為本發(fā)明遠場語音識別裝置另一個實施例的結(jié)構(gòu)示意圖，與圖4所示的遠場語音識別裝置相比，不同之處在于，圖5所示的遠場語音識別裝置還可以包括:確定模塊43和訓練t旲塊44;
[0064]其中，確定模塊43,用于在識別模塊42對獲得模塊41獲得的待識別的信號進行識別之前，確定遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù)；
[0065]具體地，確定模塊43可以包括:拓撲結(jié)構(gòu)確定子模塊431和估計子模塊432;
[0066]其中，拓撲結(jié)構(gòu)確定子模塊431，用于根據(jù)遠場語音識別的應(yīng)用場景，確定麥克風陣列拓撲結(jié)構(gòu)；
[0067 ]估計子模塊43 2，用于根據(jù)拓撲結(jié)構(gòu)確定子模塊431確定的麥克風陣列拓撲結(jié)構(gòu)估計遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù)。
[0068]具體實現(xiàn)時，可以根據(jù)具體的識別任務(wù)，確定遠場語音識別的應(yīng)用場景。舉例來說，比如要將遠場語音識別應(yīng)用在智能電視系統(tǒng)中，那么可以設(shè)計一種含有N= 4路麥克風的均勻線性陣列，均勻的布置在電視機頂端。人與電視機(也就是與麥克風陣列）的距離大約為2至4米，這是一種典型的遠場語音識別的場景。
[0069]拓撲結(jié)構(gòu)確定子模塊431確定了具體的應(yīng)用場景和麥克風陣列拓撲結(jié)構(gòu)之后，接下來估計子模塊432需要估計遠場聲源到每一路麥克風之間的沖激響應(yīng)函數(shù)。這一組沖激響應(yīng)函數(shù)能夠模擬原始聲源經(jīng)過空間傳輸和/或房間反射等影響，到達麥克風時的最終結(jié) 果。說的再具體些，這一組沖激響應(yīng)函數(shù)能夠模擬遠場空間的混響效應(yīng)。
[0070] 沖激響應(yīng)函數(shù)的估計，可以利用數(shù)字信號處理理論獲得。假設(shè)聲源到第1路麥克風的沖激響應(yīng)函數(shù)為1η(η)，原始聲源信號為x(n)，則第1路麥克風的接收信號可以表示為：
[0071] y(n) =x(n)*hi(n) (1)
[0072] 式（1)中，*表示卷積。
[0073]對式(1)等號兩邊進行傅立葉變換，可得：
[0074] Υ(ω)=Χ(ω)Ηι(ω) (2)
[0075] 對式(2)等號兩邊取共輒，可得：
[0076] ~ (3..)
[0077] 將式(2)與式(3)相乘，可得：
[0078]丨：Τ2(0〇卜μ2柄丨丨埤一}丨 (4；)
[0079]因此：
[0080] (65)
[0081 ]可以在聲源處，播放一段白噪聲聲源，然后在第一個麥克風的位置接收白噪聲信號，便可得到Χ(ω)和Υ(ω)，進而可以求出出（ω)以及1η(η)。
[0082]利用同樣的方法，估計子模塊432可以估計出聲源到另外三路麥克風之間的沖激響應(yīng)函數(shù)h2(n)、h3(n)和h4(n)。
[0083]對于家居客廳環(huán)境，一個典型的沖激響應(yīng)函數(shù)可以如圖3所示。
[0084]本實施例中，獲得模塊41，還用于將確定模塊43確定的沖激響應(yīng)函數(shù)與近場訓練數(shù)據(jù)相卷積，獲得每一路麥克風接收到的模擬遠場信號；以及將上述每一路麥克風接收到的模擬遠場信號進行自適應(yīng)波束形成處理，獲得一路輸出信號。
[0085]具體地，獲得模塊41將近場訓練數(shù)據(jù)s(n)，與每一路沖激響應(yīng)函數(shù)卷積，可以獲得每一路麥克風接收到的模擬遠場信號，如下所示：
[0086] Xd(n)=s(n)*hi(n) (6)
[0087] Xc2(n) = s(n)*h2(n) (7)
[0088] xC3(n) =s(n)*h3(n) (8)
[0089] xC4(n) =s(n)*h4(n) (9)
[0090] 這一步完成了訓練數(shù)據(jù)從近場到遠場的轉(zhuǎn)換，從近場訓練數(shù)據(jù)s(n)出發(fā)，得到了模擬遠場信號xca(n)~Xc；4(n)。每一路麥克風接收到的模擬遠場信號都包含了聲源到該路麥克風的沖激響應(yīng)信息。換句話說，麥克風陣列的每一路模擬遠場信號都是近場信號加入混響后的結(jié)果。
[0091] 然后，獲得模塊41可以將上述每一路麥克風接收到的模擬遠場信號Xcl(n)~Xc4 (η)，通過陣列處理模塊，進行自適應(yīng)波束形成處理?；邴溈孙L陣列的自適應(yīng)波束形成有很多成熟的算法，本實施例對進行自適應(yīng)波束形成處

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)