遠(yuǎn)場語音識(shí)別方法和裝置的制造方法

文檔序號(hào)：9668712閱讀：724來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

遠(yuǎn)場語音識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，尤其涉及一種遠(yuǎn)場語音識(shí)別方法和裝置。
【背景技術(shù)】
[0002] 遠(yuǎn)場語音識(shí)別，即遠(yuǎn)距離語音識(shí)別，在以智能家居為代表的多種領(lǐng)域的訴求越來越明顯。目前，近場語音識(shí)別已經(jīng)能夠達(dá)到很高的識(shí)別率，但是遠(yuǎn)場語音識(shí)別，尤其是說話人距離麥克風(fēng)3至5米的距離，由于噪聲和/或混響等干擾因素的影響，識(shí)別率遠(yuǎn)遠(yuǎn)低于近場語音識(shí)別。
[0003] 遠(yuǎn)場識(shí)別性能之所以下降如此明顯，是由于在遠(yuǎn)場場景下，語音信號(hào)幅度過低，噪聲和/或混響等其他干擾因素凸顯，而識(shí)別系統(tǒng)中的聲學(xué)模型通常是由近場語音數(shù)據(jù)訓(xùn)練生成，識(shí)別數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的不匹配導(dǎo)致遠(yuǎn)場語音識(shí)別率迅速下降。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此，本發(fā)明的第一個(gè)目的在于提出一種遠(yuǎn)場語音識(shí)別方法。該方法中，對遠(yuǎn)場語音進(jìn)行識(shí)別時(shí)所采用的遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí)現(xiàn)真正匹配，從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0006] 本發(fā)明的第二個(gè)目的在于提出一種遠(yuǎn)場語音識(shí)別裝置。
[0007] 為了實(shí)現(xiàn)上述目的，本發(fā)明第一方面實(shí)施例的遠(yuǎn)場語音識(shí)別方法，包括:將麥克風(fēng) 陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理，獲得一路待識(shí)別的信號(hào);通過遠(yuǎn) 場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào)進(jìn)行識(shí)別。
[0008] 本發(fā)明實(shí)施例的遠(yuǎn)場語音識(shí)別方法中，將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn) 行自適應(yīng)波束形成處理，獲得一路待識(shí)別的信號(hào)，然后通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào)進(jìn)行識(shí)別，其中，上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí) 現(xiàn)真正匹配，從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0009] 為了實(shí)現(xiàn)上述目的，本發(fā)明第二方面實(shí)施例的遠(yuǎn)場語音識(shí)別裝置，包括：獲得模塊，用于將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理，獲得一路待識(shí) 別的信號(hào)；識(shí)別模塊，用于通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述獲得模塊獲得的待識(shí)別的信號(hào) 進(jìn)行識(shí)別。
[0010] 本發(fā)明實(shí)施例的遠(yuǎn)場語音識(shí)別裝置中，獲得模塊將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn) 場語音進(jìn)行自適應(yīng)波束形成處理，獲得一路待識(shí)別的信號(hào)，然后識(shí)別模塊通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào)進(jìn)行識(shí)別，其中，上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí)現(xiàn)真正匹配，從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0011] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0012] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解，其中：
[0013] 圖1為本發(fā)明遠(yuǎn)場語音識(shí)別方法一個(gè)實(shí)施例的流程圖；
[0014] 圖2為本發(fā)明遠(yuǎn)場語音識(shí)別方法另一個(gè)實(shí)施例的流程圖；
[0015] 圖3為本發(fā)明遠(yuǎn)場語音識(shí)別方法中沖激響應(yīng)函數(shù)一個(gè)實(shí)施例的示意圖；
[0016] 圖4為本發(fā)明遠(yuǎn)場語音識(shí)別裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；
[0017] 圖5為本發(fā)明遠(yuǎn)場語音識(shí)別裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018] 下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。相反，本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0019] 圖1為本發(fā)明遠(yuǎn)場語音識(shí)別方法一個(gè)實(shí)施例的流程圖，如圖1所示，上述遠(yuǎn)場語音識(shí)別方法可以包括：
[0020] 步驟101，將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理，獲得一路待識(shí)別的信號(hào)。
[0021] 步驟102,通過遠(yuǎn)場識(shí)別的聲學(xué)模型對上述待識(shí)別的信號(hào)進(jìn)行識(shí)別。
[0022] 上述遠(yuǎn)場語音識(shí)別方法中，將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理，獲得一路待識(shí)別的信號(hào)，然后通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào) 進(jìn)行識(shí)別，其中，上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí)現(xiàn)真正匹配，從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0023] 圖2為本發(fā)明遠(yuǎn)場語音識(shí)別方法另一個(gè)實(shí)施例的流程圖，如圖2所示，步驟102之前，還可以包括：
[0024]步驟201，確定遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。
[0025] 具體地，確定遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)可以為:根據(jù)遠(yuǎn)場語音識(shí)別的應(yīng)用場景，確定麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu);根據(jù)上述麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)估計(jì)遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。
[0026] 具體實(shí)現(xiàn)時(shí)，可以根據(jù)具體的識(shí)別任務(wù)，確定遠(yuǎn)場語音識(shí)別的應(yīng)用場景。舉例來說，比如要將遠(yuǎn)場語音識(shí)別應(yīng)用在智能電視系統(tǒng)中，那么可以設(shè)計(jì)一種含有N= 4路麥克風(fēng) 的均勻線性陣列，均勻的布置在電視機(jī)頂端。人與電視機(jī)(也就是與麥克風(fēng)陣列）的距離大約為2至4米，這是一種典型的遠(yuǎn)場語音識(shí)別的場景。
[0027] 確定了具體的應(yīng)用場景和麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)之后，接下來需要估計(jì)遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。這一組沖激響應(yīng)函數(shù)能夠模擬原始聲源經(jīng)過空間傳輸和/或房間反射等影響，到達(dá)麥克風(fēng)時(shí)的最終結(jié)果。說的再具體些，這一組沖激響應(yīng)函數(shù)能夠模擬遠(yuǎn)場空間的混響效應(yīng)。
[0028] 沖激響應(yīng)函數(shù)的估計(jì)，可以利用數(shù)字信號(hào)處理理論獲得。假設(shè)聲源到第1路麥克風(fēng) 的沖激響應(yīng)函數(shù)為1η(η)，原始聲源信號(hào)為x(n)，則第1路麥克風(fēng)的接收信號(hào)可以表示為：
[0029] y(n) =x(n)*hi(n) (1)
[0030] 式（1)中，*表示卷積。
[0031 ]對式(1)等號(hào)兩邊進(jìn)行傅立葉變換，可得：
[0032] Υ(ω)=Χ(ω)Ηι(ω) (2)
[0033] 對式(2)等號(hào)兩邊取共輒，可得：
[0034] F"(^} ^ .5Γ(??)1^(^) (3)
[0035] 將式(2)與式(3)相乘，可得：
[0036] (4)
[0037]
[0038] 、.' (5)
[0039]可以在聲源處，播放一段白噪聲聲源，然后在第一個(gè)麥克風(fēng)的位置接收白噪聲信號(hào)，便可得到Χ(ω)和Υ(ω)，進(jìn)而可以求出出（ω)以及1η(η)。
[0040] 利用同樣的方法，可以估計(jì)出聲源到另外三路麥克風(fēng)之間的沖激響應(yīng)函數(shù)1!2(11)、 h3(n)和h4(n)〇
[0041] 對于家居客廳環(huán)境，一個(gè)典型的沖激響應(yīng)函數(shù)可以如圖3所示，圖3為本發(fā)明遠(yuǎn)場語音識(shí)別方法中沖激響應(yīng)函數(shù)一個(gè)實(shí)施例的示意圖。
[0042]步驟202,將上述沖激響應(yīng)函數(shù)與近場訓(xùn)練數(shù)據(jù)相卷積，獲得每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)。
[0043] 具體地，將近場訓(xùn)練數(shù)據(jù)s(n)，與每一路沖激響應(yīng)函數(shù)卷積，可以獲得每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)，如下所示：
[0044] Xd(n)= s(n)*hi(n) (6)
[0045] Xc2(n) = s(n)*h2(n) (7)
[0046] xC3(n)=s(n)*h3(n) (8)
[0047] xC4(n) =s(n)*h4(n) (9)
[0048] 這一步完成了訓(xùn)練數(shù)據(jù)從近場到遠(yuǎn)場的轉(zhuǎn)換，從近場訓(xùn)練數(shù)據(jù)s(n)出發(fā)，得到了模擬遠(yuǎn)場信號(hào)xca(n)~Xc；4(n)。每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)都包含了聲源到該路麥克風(fēng)的沖激響應(yīng)信息。換句話說，麥克風(fēng)陣列的每一路模擬遠(yuǎn)場信號(hào)都是近場信號(hào)加入混響后的結(jié)果。
[0049]步驟203,將上述每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)進(jìn)行自適應(yīng)波束形成處理，獲得一路輸出信號(hào)。
[0050]具體地，可以將上述每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)Xcl(n)~Xc4(n)，通過陣列處理模塊，進(jìn)行自適應(yīng)波束形成處理?；邴溈孙L(fēng)陣列的自適應(yīng)波束形成有很多成熟的算法，本實(shí)施例對進(jìn)行自適應(yīng)波束形成處理時(shí)所采用

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3