遠(yuǎn)場語音識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種遠(yuǎn)場語音識(shí)別方法和裝置。
【背景技術(shù)】
[0002] 遠(yuǎn)場語音識(shí)別,即遠(yuǎn)距離語音識(shí)別,在以智能家居為代表的多種領(lǐng)域的訴求越來 越明顯。目前,近場語音識(shí)別已經(jīng)能夠達(dá)到很高的識(shí)別率,但是遠(yuǎn)場語音識(shí)別,尤其是說話 人距離麥克風(fēng)3至5米的距離,由于噪聲和/或混響等干擾因素的影響,識(shí)別率遠(yuǎn)遠(yuǎn)低于近場 語音識(shí)別。
[0003] 遠(yuǎn)場識(shí)別性能之所以下降如此明顯,是由于在遠(yuǎn)場場景下,語音信號(hào)幅度過低,噪 聲和/或混響等其他干擾因素凸顯,而識(shí)別系統(tǒng)中的聲學(xué)模型通常是由近場語音數(shù)據(jù)訓(xùn)練 生成,識(shí)別數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的不匹配導(dǎo)致遠(yuǎn)場語音識(shí)別率迅速下降。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此,本發(fā)明的第一個(gè)目的在于提出一種遠(yuǎn)場語音識(shí)別方法。該方法中,對遠(yuǎn)場語 音進(jìn)行識(shí)別時(shí)所采用的遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí)現(xiàn)真正匹 配,從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0006] 本發(fā)明的第二個(gè)目的在于提出一種遠(yuǎn)場語音識(shí)別裝置。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的遠(yuǎn)場語音識(shí)別方法,包括:將麥克風(fēng) 陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理,獲得一路待識(shí)別的信號(hào);通過遠(yuǎn) 場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào)進(jìn)行識(shí)別。
[0008] 本發(fā)明實(shí)施例的遠(yuǎn)場語音識(shí)別方法中,將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn) 行自適應(yīng)波束形成處理,獲得一路待識(shí)別的信號(hào),然后通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述待 識(shí)別的信號(hào)進(jìn)行識(shí)別,其中,上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí) 現(xiàn)真正匹配,從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0009] 為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的遠(yuǎn)場語音識(shí)別裝置,包括:獲得模 塊,用于將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理,獲得一路待識(shí) 別的信號(hào);識(shí)別模塊,用于通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述獲得模塊獲得的待識(shí)別的信號(hào) 進(jìn)行識(shí)別。
[0010] 本發(fā)明實(shí)施例的遠(yuǎn)場語音識(shí)別裝置中,獲得模塊將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn) 場語音進(jìn)行自適應(yīng)波束形成處理,獲得一路待識(shí)別的信號(hào),然后識(shí)別模塊通過遠(yuǎn)場識(shí)別的 聲學(xué)模型對所述待識(shí)別的信號(hào)進(jìn)行識(shí)別,其中,上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別 的輸入語音信號(hào)實(shí)現(xiàn)真正匹配,從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0011] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0012] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0013] 圖1為本發(fā)明遠(yuǎn)場語音識(shí)別方法一個(gè)實(shí)施例的流程圖;
[0014] 圖2為本發(fā)明遠(yuǎn)場語音識(shí)別方法另一個(gè)實(shí)施例的流程圖;
[0015] 圖3為本發(fā)明遠(yuǎn)場語音識(shí)別方法中沖激響應(yīng)函數(shù)一個(gè)實(shí)施例的示意圖;
[0016] 圖4為本發(fā)明遠(yuǎn)場語音識(shí)別裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0017] 圖5為本發(fā)明遠(yuǎn)場語音識(shí)別裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本 發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0019] 圖1為本發(fā)明遠(yuǎn)場語音識(shí)別方法一個(gè)實(shí)施例的流程圖,如圖1所示,上述遠(yuǎn)場語音 識(shí)別方法可以包括:
[0020] 步驟101,將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波束形成處理,獲得 一路待識(shí)別的信號(hào)。
[0021] 步驟102,通過遠(yuǎn)場識(shí)別的聲學(xué)模型對上述待識(shí)別的信號(hào)進(jìn)行識(shí)別。
[0022] 上述遠(yuǎn)場語音識(shí)別方法中,將麥克風(fēng)陣列接收的待識(shí)別的遠(yuǎn)場語音進(jìn)行自適應(yīng)波 束形成處理,獲得一路待識(shí)別的信號(hào),然后通過遠(yuǎn)場識(shí)別的聲學(xué)模型對所述待識(shí)別的信號(hào) 進(jìn)行識(shí)別,其中,上述遠(yuǎn)場識(shí)別的聲學(xué)模型能夠與遠(yuǎn)場識(shí)別的輸入語音信號(hào)實(shí)現(xiàn)真正匹配, 從而可以提升遠(yuǎn)場語音識(shí)別的識(shí)別性能。
[0023] 圖2為本發(fā)明遠(yuǎn)場語音識(shí)別方法另一個(gè)實(shí)施例的流程圖,如圖2所示,步驟102之 前,還可以包括:
[0024]步驟201,確定遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。
[0025] 具體地,確定遠(yuǎn)場聲源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)可以為:根據(jù)遠(yuǎn)場語 音識(shí)別的應(yīng)用場景,確定麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu);根據(jù)上述麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)估計(jì)遠(yuǎn)場聲 源到每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。
[0026] 具體實(shí)現(xiàn)時(shí),可以根據(jù)具體的識(shí)別任務(wù),確定遠(yuǎn)場語音識(shí)別的應(yīng)用場景。舉例來 說,比如要將遠(yuǎn)場語音識(shí)別應(yīng)用在智能電視系統(tǒng)中,那么可以設(shè)計(jì)一種含有N= 4路麥克風(fēng) 的均勻線性陣列,均勻的布置在電視機(jī)頂端。人與電視機(jī)(也就是與麥克風(fēng)陣列)的距離大 約為2至4米,這是一種典型的遠(yuǎn)場語音識(shí)別的場景。
[0027] 確定了具體的應(yīng)用場景和麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)之后,接下來需要估計(jì)遠(yuǎn)場聲源到 每一路麥克風(fēng)之間的沖激響應(yīng)函數(shù)。這一組沖激響應(yīng)函數(shù)能夠模擬原始聲源經(jīng)過空間傳輸 和/或房間反射等影響,到達(dá)麥克風(fēng)時(shí)的最終結(jié)果。說的再具體些,這一組沖激響應(yīng)函數(shù)能 夠模擬遠(yuǎn)場空間的混響效應(yīng)。
[0028] 沖激響應(yīng)函數(shù)的估計(jì),可以利用數(shù)字信號(hào)處理理論獲得。假設(shè)聲源到第1路麥克風(fēng) 的沖激響應(yīng)函數(shù)為1η(η),原始聲源信號(hào)為x(n),則第1路麥克風(fēng)的接收信號(hào)可以表示為:
[0029] y(n) =x(n)*hi(n) (1)
[0030] 式(1)中,*表示卷積。
[0031 ]對式(1)等號(hào)兩邊進(jìn)行傅立葉變換,可得:
[0032] Υ(ω)=Χ(ω)Ηι(ω) (2)
[0033] 對式(2)等號(hào)兩邊取共輒,可得:
[0034] F"(^} ^ .5Γ(??)1^(^) (3)
[0035] 將式(2)與式(3)相乘,可得:
[0036] (4)
[0037]
[0038] 、.' (5)
[0039]可以在聲源處,播放一段白噪聲聲源,然后在第一個(gè)麥克風(fēng)的位置接收白噪聲信 號(hào),便可得到Χ(ω)和Υ(ω),進(jìn)而可以求出出(ω)以及1η(η)。
[0040] 利用同樣的方法,可以估計(jì)出聲源到另外三路麥克風(fēng)之間的沖激響應(yīng)函數(shù)1!2(11)、 h3(n)和h4(n)〇
[0041] 對于家居客廳環(huán)境,一個(gè)典型的沖激響應(yīng)函數(shù)可以如圖3所示,圖3為本發(fā)明遠(yuǎn)場 語音識(shí)別方法中沖激響應(yīng)函數(shù)一個(gè)實(shí)施例的示意圖。
[0042]步驟202,將上述沖激響應(yīng)函數(shù)與近場訓(xùn)練數(shù)據(jù)相卷積,獲得每一路麥克風(fēng)接收到 的模擬遠(yuǎn)場信號(hào)。
[0043] 具體地,將近場訓(xùn)練數(shù)據(jù)s(n),與每一路沖激響應(yīng)函數(shù)卷積,可以獲得每一路麥克 風(fēng)接收到的模擬遠(yuǎn)場信號(hào),如下所示:
[0044] Xd(n)= s(n)*hi(n) (6)
[0045] Xc2(n) = s(n)*h2(n) (7)
[0046] xC3(n)=s(n)*h3(n) (8)
[0047] xC4(n) =s(n)*h4(n) (9)
[0048] 這一步完成了訓(xùn)練數(shù)據(jù)從近場到遠(yuǎn)場的轉(zhuǎn)換,從近場訓(xùn)練數(shù)據(jù)s(n)出發(fā),得到了 模擬遠(yuǎn)場信號(hào)xca(n)~Xc;4(n)。每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)都包含了聲源到該路 麥克風(fēng)的沖激響應(yīng)信息。換句話說,麥克風(fēng)陣列的每一路模擬遠(yuǎn)場信號(hào)都是近場信號(hào)加入 混響后的結(jié)果。
[0049]步驟203,將上述每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)進(jìn)行自適應(yīng)波束形成處理, 獲得一路輸出信號(hào)。
[0050]具體地,可以將上述每一路麥克風(fēng)接收到的模擬遠(yuǎn)場信號(hào)Xcl(n)~Xc4(n),通過陣 列處理模塊,進(jìn)行自適應(yīng)波束形成處理?;邴溈孙L(fēng)陣列的自適應(yīng)波束形成有很多成熟的 算法,本實(shí)施例對進(jìn)行自適應(yīng)波束形成處理時(shí)所采用