專利名稱:一種語音增強(qiáng)的系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音增強(qiáng)技術(shù)領(lǐng)域,特別是涉及一種語音增強(qiáng)的系統(tǒng)。
背景技術(shù):
語音增強(qiáng)技術(shù)應(yīng)用于噪聲環(huán)境下的語音通信,可以提高通話質(zhì)量;應(yīng)用于人機(jī)對話,可以提高識別正確率。在人們的日常生活的各種噪聲環(huán)境下,人們往往更希望獲取經(jīng)過降噪處理后的語音信息。語音增強(qiáng)的方法按通道個(gè)數(shù)可以分為單麥克語音增強(qiáng)與麥克風(fēng)陣列增強(qiáng)技術(shù)。傳統(tǒng)的單麥克語音增強(qiáng)技術(shù)如譜減法、維納濾波等方法,都是先估計(jì)噪聲幅值或能量,再將其從帶噪語音中減去。對于平穩(wěn)噪聲如白噪聲,可以達(dá)到一定的效果, 然而對于諸如非目標(biāo)人說話的噪聲、音樂噪聲等非平穩(wěn)噪聲則可能造成較嚴(yán)重的語音損傷。傳統(tǒng)的多麥克語音增強(qiáng)技術(shù)是波速形成技術(shù),包括延時(shí)相加、延時(shí)相減等固定波束,以及廣義旁瓣消除等自適應(yīng)波束。貝爾實(shí)驗(yàn)室研發(fā)了一種具有自適應(yīng)特性的差分麥克風(fēng)陣列 (Gary W. Elko, Anh-Tho Nguyen Pong,A simple adaptive first-orderdifferential microphone, In :proc.1995Workshop on Applications of SignalProcessing to Audio and Acoustics,72-169),此類方法通過自適應(yīng)調(diào)整空間濾波的參數(shù),對位于零陷方向的不同類型的噪聲均有一定的去噪效果但仍存在例如聲源定位、對于來自與主聲源相近的角度方向的噪聲抑制效果差等問題。此外還有多子帶的處理技術(shù),如華為公司申請的一個(gè)專利 (200410034505. 6) “一種語音增強(qiáng)方法”。該方法采用的是多子帶處理技術(shù),雖然也能取得一定的去噪效果,但由于其仍是基于對子帶信噪比的估計(jì),因而也無法廣泛適用于各種噪聲類型。因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是如何能夠創(chuàng)新地提出一種語音增強(qiáng)的方法或者是系統(tǒng),以滿足各類噪聲環(huán)境下的語音增強(qiáng)需求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種語音增強(qiáng)的系統(tǒng),用以滿足各類噪聲環(huán)境下的語音增強(qiáng)需求,在實(shí)現(xiàn)較好去噪效果的同時(shí)保證較高的語音質(zhì)量。為了解決上述問題,本發(fā)明公開了一種語音增強(qiáng)的系統(tǒng),所述系統(tǒng)包括語音采集模塊,包括兩路麥克,其中一路麥克置于目標(biāo)聲源的近端;另一路麥克置于目標(biāo)聲源的遠(yuǎn)端;所述采集模塊用于采集兩路語音信號;雙麥克語音增強(qiáng)模塊,用于對采集的兩路語音信號進(jìn)行處理,以獲取增強(qiáng)后的目標(biāo)聲源語音信號;所述雙麥克語音增強(qiáng)模塊包括以下子模塊波束形成子模塊,用于獲得目標(biāo)聲源語音的參考信號;零陷波束形成子模塊,用于獲得環(huán)境噪聲的參考信號;外圍分析子模塊,用于通過模擬聲音進(jìn)入人耳的過程,將兩路語音進(jìn)行分頻及對語音信號進(jìn)行變換;特征提取子模塊,用于提取分頻后兩路語音信號的延時(shí)差和能量差信息;
生成掩蔽子模塊,根據(jù)提取的延時(shí)差和能量差信息獲得不同時(shí)頻區(qū)域?qū)?yīng)的掩蔽值;掩蔽值平滑子模塊,用于對提取的掩蔽值進(jìn)行平滑處理;語音信號重建子模塊,用于對由波束形成模塊得到的參考信號進(jìn)行掩蔽值處理, 并合成增強(qiáng)后的語音信號作為輸出。優(yōu)選的,所述語音采集模塊還包括以下子模塊濾波子模塊,用于對兩路麥克采集的語音信號進(jìn)行帶通濾波;放大子模塊,用于將濾波后的語音信號進(jìn)行放大;A/D轉(zhuǎn)換子模塊,用于將放大后的語音信號轉(zhuǎn)換為數(shù)字信號。優(yōu)選的,所述雙麥克語音增強(qiáng)模塊還包括以下子模塊語音激活檢測子模塊,用于檢測純環(huán)境噪聲語音段。優(yōu)選的,所述外圍分析子模塊包括以下單元內(nèi)耳耳蝸模擬單元,用于將語音信號進(jìn)行g(shù)ammatone濾波分頻,獲取兩路信號在 128個(gè)不同子頻帶的語音信號;內(nèi)耳非線性神經(jīng)傳導(dǎo)模擬單元,用于將每個(gè)頻率通道的子帶信號進(jìn)行非線性變換;中耳模擬單元,用于通過對每個(gè)通道的gammatone濾波器的增益按照等響度曲線進(jìn)行調(diào)整。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明通過特定的雙麥克結(jié)構(gòu),模擬人耳的聽覺場景分析能力來實(shí)現(xiàn)語音增強(qiáng), 具有與噪聲類型無關(guān)的特點(diǎn),可廣泛應(yīng)用于各類噪聲環(huán)境下的語音增強(qiáng),利用計(jì)算聽覺場景分析的原理,將目標(biāo)語音從背景噪聲中進(jìn)行分離,從而實(shí)現(xiàn)去噪,從而實(shí)現(xiàn)了與噪聲的具體類型、各種噪聲源的個(gè)數(shù)、目標(biāo)聲源與噪聲源的空間拓?fù)浣Y(jié)構(gòu)無關(guān),在實(shí)現(xiàn)較好去噪效果的同時(shí)保證較高的語音質(zhì)量。
圖1是本發(fā)明具體實(shí)施方式
中所述的人耳基本結(jié)構(gòu)的示意圖;圖2是本發(fā)明具體實(shí)施方式
中所述的外圍分析的基本原理與人耳工作機(jī)理的對照示意圖;圖3是本發(fā)明實(shí)施例所述的一種語音增強(qiáng)的系統(tǒng)結(jié)構(gòu)圖;圖4是本發(fā)明實(shí)施例所述的語音采集中麥克風(fēng)陣列分布的結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例所述的語音信號采集部分結(jié)構(gòu)框圖;圖6是本發(fā)明實(shí)施例所述的雙麥克語音增強(qiáng)算法部分總體示意圖;圖7是本發(fā)明實(shí)施例所述的雙麥克VAD模塊原理示意;圖8是本發(fā)明實(shí)施例所述的Meddis模型原理示意圖;圖9是本發(fā)明實(shí)施例所述的信號重建原理示意圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。近年來,基于聽覺場景分析的語音處理技術(shù)的研究日趨活躍。聽覺場景分析 (Auditory Scene Analysis)是指人類的聽覺系統(tǒng)能夠從復(fù)雜的混合聲音中選擇并跟蹤某一說話人的聲音,這一現(xiàn)象首先由Cherry發(fā)現(xiàn),并稱之為“雞尾酒會效應(yīng)”。聽覺場景分析的概念首先是由著名心理聽覺學(xué)家Albert Bregman在其專著《計(jì)算場景分析》中提出。聽覺系統(tǒng)利用聲音的各種特性(時(shí)域、頻域、空間位置等),通過自下而上(分解)和自上而下 (學(xué)習(xí))的雙向信息交流,對現(xiàn)實(shí)世界的混合聲音進(jìn)行分解,使各成分歸屬于各自的物理聲源。此后,人們嘗試用計(jì)算機(jī)模擬人的這種聽覺特性,產(chǎn)生了計(jì)算聽覺場景分析 (Computational Auditory Scene Analysis,CASA)方法。既然是模擬人的一種生理機(jī)能, 因此,這里對人耳的生理結(jié)構(gòu)及聲音進(jìn)入人耳、引起神經(jīng)沖動并由聽神經(jīng)傳導(dǎo)、人腦的處理機(jī)能做一些介紹并用計(jì)算機(jī)算法的形式模擬實(shí)現(xiàn)。人耳的基本結(jié)構(gòu)的示意圖如圖1所示,主要包括外耳、中耳、內(nèi)耳。其中,外耳包括外耳道和鼓膜,鼓膜是中耳的門戶。聲音經(jīng)鼓膜傳到中耳,中耳主要由錐骨、鐙骨、鉆骨三塊聽小骨組成,其對聲音的傳播起到一個(gè)類似于杠桿的放大作用。內(nèi)耳里最重要的器官是耳蝸,當(dāng)聲音引起內(nèi)耳的卵圓窗振動后,這種振動通過耳蝸內(nèi)的淋巴液的流動傳遞。而耳蝸內(nèi)有細(xì)小的毛細(xì)胞把淋巴液流動轉(zhuǎn)化為生物電信號產(chǎn)生神經(jīng)沖動,最后由神經(jīng)把信息送往大腦進(jìn)一步處理。模擬聲音由空間路徑進(jìn)行傳播以及人的外耳部分對聲音的影響我們用的是 HRTF (Head Related Transfer Function),這個(gè)頭相關(guān)傳輸函數(shù)是通過一個(gè)人頭模型采集聲音信號,再計(jì)算出來的一個(gè)傳輸函數(shù)。由于中耳的模擬是與內(nèi)耳的工作相關(guān)的,我們先介紹內(nèi)耳。內(nèi)耳的第一個(gè)過程是進(jìn)行耳蝸濾波,將聲音分解到不同的頻帶上。例如,可以采用1 個(gè)濾波器組成的非均勻的 gammatone濾波器組,由于各個(gè)頻帶是依據(jù)人耳的聽覺特性進(jìn)行劃分的,gammatone濾波器組體現(xiàn)了人耳的聽覺特性信息。而中耳的工作可以對于各個(gè)頻率通道按照等響度曲線對gammatone濾波器的增益進(jìn)行調(diào)整來進(jìn)行模擬。內(nèi)耳的另一個(gè)過程就是產(chǎn)生神經(jīng)沖動的過程,這是一個(gè)非線性變換的過程??梢圆捎肕eddis模型進(jìn)行模擬。以上模擬人耳的三個(gè)過程我們稱為外圍分析,外圍分析的基本原理與人耳工作機(jī)理的示意圖如圖2所示。實(shí)施例參照圖3,示出了本發(fā)明的一種語音增強(qiáng)的系統(tǒng)結(jié)構(gòu)圖,所述系統(tǒng)具體包括語音采集模塊301,包括兩路麥克,其中一路麥克置于目標(biāo)聲源的近端;另一路麥克置于目標(biāo)聲源的遠(yuǎn)端;所述采集模塊用于采集兩路語音信號;本發(fā)明提出的語音增強(qiáng)技術(shù)采用兩路麥克風(fēng),因而屬于麥克風(fēng)陣列語音增強(qiáng)技術(shù)的一種。語音采集部分的麥克風(fēng)陣列分布結(jié)構(gòu)如圖4所示。其中一路麥克置于目標(biāo)聲源的近端,另一路麥克置于目標(biāo)說話人的遠(yuǎn)端。
優(yōu)選的,所述語音采集模塊301還包括以下子模塊濾波子模塊3011,用于對兩路麥克采集的語音信號進(jìn)行帶通濾波;放大子模塊3012,用于將濾波后的語音信號進(jìn)行放大;A/D轉(zhuǎn)換子模塊3013,用于將放大后的語音信號轉(zhuǎn)換為數(shù)字信號。兩個(gè)麥克采集兩路語音信號,所采集的兩路語音信號首先經(jīng)過濾波和放大處理, 再通過A/D變換得到語音數(shù)字信號,以備進(jìn)一步處理。語音信號采集部分的結(jié)構(gòu)框圖如圖 5所示。近端麥克風(fēng)主要是采集的目標(biāo)聲源語音信號但混雜有環(huán)境噪聲。為使最后的處理效果更好,先是使用直接采集到的兩路語音信號進(jìn)行波束形成計(jì)算,形成主瓣方向?qū)?zhǔn)目標(biāo)聲源的一個(gè)波束,以抑制掉一部分環(huán)境噪聲。遠(yuǎn)端麥克風(fēng)主要是采集的環(huán)境噪聲的參考信號,但混雜有目標(biāo)聲源語音信號。為使最后的處理效果更好,使用直接采集到的兩路語音信號進(jìn)行零陷波束形成計(jì)算,形成零瓣方向?qū)?zhǔn)目標(biāo)聲源的一個(gè)波束,以抑制掉一部分目標(biāo)聲源信號。雙麥克語音增強(qiáng)模塊302,用于對采集的兩路語音信號進(jìn)行處理,以獲取增強(qiáng)后的目標(biāo)聲源語音信號;所述雙麥克語音增強(qiáng)模塊302包括以下子模塊波束形成子模塊3021,用于獲得目標(biāo)聲源語音的參考信號;零陷波束形成子模塊3022,用于獲得環(huán)境噪聲的參考信號;波束形成子模塊3021與零陷波束形成子模塊3022的原理相似,大致如下
對于位置c處的聲源發(fā)出的語音信號由采集電路采集到的兩路信號X1 (η)與& (η) 的頻域表達(dá)為Xi (k) (i = 1,2)如式(13)所示Xi (k) = Di (k, c) Ai (k) Ui (k,c) S (k) i = 1,2 (13)其中,c = {x, y,ζ}是直角系中聲源的坐標(biāo),Pi = Ixi, Yi, zj是第i個(gè)麥克在直角坐標(biāo)系中的坐標(biāo),S(k)是聲源信號,Di(k,c)是表示聲音在空間中傳播時(shí)幅度與相位的變化,其表達(dá)式如式(14)所示
權(quán)利要求
1.一種語音增強(qiáng)的系統(tǒng),其特征在于,所述系統(tǒng)包括語音采集模塊,包括兩路麥克,其中一路麥克置于目標(biāo)聲源的近端;另一路麥克置于目標(biāo)聲源的遠(yuǎn)端;所述采集模塊用于采集兩路語音信號;雙麥克語音增強(qiáng)模塊,用于對采集的兩路語音信號進(jìn)行處理,以獲取增強(qiáng)后的目標(biāo)聲源語音信號;所述雙麥克語音增強(qiáng)模塊包括以下子模塊 波束形成子模塊,用于獲得目標(biāo)聲源語音的參考信號; 零陷波束形成子模塊,用于獲得環(huán)境噪聲的參考信號;外圍分析子模塊,用于通過模擬聲音進(jìn)入人耳的過程,將兩路語音進(jìn)行分頻及對語音信號進(jìn)行變換;特征提取子模塊,用于提取分頻后兩路語音信號的延時(shí)差和能量差信息; 生成掩蔽子模塊,根據(jù)提取的延時(shí)差和能量差信息獲得不同時(shí)頻區(qū)域?qū)?yīng)的掩蔽值; 掩蔽值平滑子模塊,用于對提取的掩蔽值進(jìn)行平滑處理;語音信號重建子模塊,用于對由波束形成模塊得到的參考信號進(jìn)行掩蔽值處理,并合成增強(qiáng)后的語音信號作為輸出。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述語音采集模塊還包括以下子模塊 濾波子模塊,用于對兩路麥克采集的語音信號進(jìn)行帶通濾波;放大子模塊,用于將濾波后的語音信號進(jìn)行放大;A/D轉(zhuǎn)換子模塊,用于將放大后的語音信號轉(zhuǎn)換為數(shù)字信號。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述雙麥克語音增強(qiáng)模塊還包括以下子模塊語音激活檢測子模塊,用于檢測純環(huán)境噪聲語音段。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述外圍分析子模塊包括以下單元 內(nèi)耳耳蝸模擬單元,用于將語音信號進(jìn)行g(shù)ammatone濾波分頻,獲取兩路信號在1 個(gè)不同子頻帶的語音信號;內(nèi)耳非線性神經(jīng)傳導(dǎo)模擬單元,用于將每個(gè)頻率通道的子帶信號進(jìn)行非線性變換; 中耳模擬單元,用于通過對每個(gè)通道的gammatone濾波器的增益按照等響度曲線進(jìn)行調(diào)整。
全文摘要
本發(fā)明提供了一種語音增強(qiáng)的系統(tǒng),通過特定的雙麥克結(jié)構(gòu),模擬人耳的聽覺場景分析能力來實(shí)現(xiàn)語音增強(qiáng),具有與噪聲類型無關(guān)的特點(diǎn),可廣泛應(yīng)用于各類噪聲環(huán)境下的語音增強(qiáng),利用計(jì)算聽覺場景分析的原理,將目標(biāo)語音從背景噪聲中進(jìn)行分離,從而實(shí)現(xiàn)去噪,從而實(shí)現(xiàn)了與噪聲的具體類型、各種噪聲源的個(gè)數(shù)、目標(biāo)聲源與噪聲源的空間拓?fù)浣Y(jié)構(gòu)無關(guān),在實(shí)現(xiàn)較好去噪效果的同時(shí)保證較高的語音質(zhì)量。
文檔編號G10L19/00GK102456351SQ20101051529
公開日2012年5月16日 申請日期2010年10月14日 優(yōu)先權(quán)日2010年10月14日
發(fā)明者楊華中, 梁維謙, 胡奎, 蔣毅, 陳卓 申請人:清華大學(xué)