專利名稱:控制麥克風(fēng)錄音的方法、數(shù)字化音頻信號(hào)處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理技術(shù)領(lǐng)域,尤其是涉及一種控制麥克風(fēng)錄音的方 法及其裝置,以及一種聲源定位方法及其裝置和一種數(shù)字化音頻信號(hào)處理方法 及其系統(tǒng)。
背景技術(shù):
目前基于麥克風(fēng)設(shè)備進(jìn)行錄音的技術(shù)已經(jīng)應(yīng)用十分普遍,在許多數(shù)碼設(shè)備
(如照相機(jī)和DV設(shè)備)中通常都裝置有麥克風(fēng)陣列,用來與視頻裝置部分進(jìn) 行音視頻的同步錄制。
目前的數(shù)碼設(shè)備中有的已經(jīng)集成了變焦麥克風(fēng)的功能,變焦麥克風(fēng)的特點(diǎn) 是由兩個(gè)或者兩個(gè)以上的麥克風(fēng)組成的麥克風(fēng)陣列,隨著目標(biāo)聲源的拉近,拾 音角度可以增大,錄音靈敏度將降低,反之隨著目標(biāo)聲源的拉遠(yuǎn),拾音角度可 以減小,錄音靈敏度將升高。
圖1為理想情況下變焦麥克風(fēng)在近焦情況下的錄音范圍示意圖,圖2為現(xiàn) 理想情況下變焦麥克風(fēng)在長焦情況下的錄音范圍示意圖。
目前的家用小型攝像設(shè)備(DV)中一般都會(huì)裝置兩個(gè)固定位置和角度的 麥克風(fēng),組成麥克風(fēng)陣列,通過波束形成技術(shù)來控制拾音角度,通過模擬增益 控制來改變錄音靈敏度。從而實(shí)現(xiàn)變焦功能。但是這種變焦方式的變焦能力非 常有限,從而不能較好的提高錄音效果。
與此同時(shí),目前數(shù)碼設(shè)備在將錄制的模擬音頻信號(hào)處理成數(shù)字音頻信號(hào) 后,對(duì)數(shù)字音頻信號(hào)的處理過程也沒有考慮目標(biāo)聲源拉遠(yuǎn)或拉近的因素影響, 從而也使得最終播放出來的錄音也不能達(dá)到理想的效果。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種控制麥克風(fēng)錄音的方法及其裝置,以提高數(shù)碼設(shè)備 的錄音效果。
相應(yīng)的,本發(fā)明實(shí)施例還提供一種聲源定位方法及其裝置。 本發(fā)明實(shí)施例還提供一種數(shù)字化音頻信號(hào)處理方法及其系統(tǒng),以提高數(shù)碼 設(shè)備的錄音效果。
本發(fā)明實(shí)施例提供的技術(shù)方案具體如下
一種控制麥克風(fēng)錄音的方法,包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲 源到麥克風(fēng)陣列的距離;以及根據(jù)獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng) 之間的夾角大小。
相應(yīng)的,本發(fā)明實(shí)施例還提供了一種控制麥克風(fēng)錄音的裝置,包括距離獲 得單元,用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離; 夾角調(diào)整單元,用于根據(jù)距離獲得單元獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥 克風(fēng)之間的夾角大小。
一種聲源定位方法,包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克 風(fēng)陣列的距離;以及根據(jù)獲得的距離,確定麥克風(fēng)陣列的拾音角度;分別在所 述拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào) 的最大互相關(guān)值;根據(jù)在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度 范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲源發(fā)聲的概率。
相應(yīng)的,本發(fā)明實(shí)施例還提供了一種聲源定位裝置,包括距離獲得單元, 用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;以及拾音 角度確定單元,用于根據(jù)距離獲得單元獲得的距離,確定麥克風(fēng)陣列的拾音角 度;相關(guān)值確定單元,用于分別在所述拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng) 陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;發(fā)聲概率確定單元,用 于根據(jù)相關(guān)值確定單元在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度 范圍外確定一種數(shù)字化音頻信號(hào)處理方法,包括將通過麥克風(fēng)陣列錄制的^t擬化音頻
信號(hào)轉(zhuǎn)換為數(shù)字化音頻信號(hào);在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克 風(fēng)陣列的距離,以及確定目標(biāo)聲源發(fā)聲的概率;根據(jù)獲得的所述距離和確定的 所述概率,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行處理。
相應(yīng)的,本發(fā)明實(shí)施例還提供了一種數(shù)字化音頻信號(hào)處理系統(tǒng),包括信號(hào) 轉(zhuǎn)化單元,用于將通過麥克風(fēng)陣列錄制的模擬化音頻信號(hào)轉(zhuǎn)換為數(shù)字化音頻信 號(hào);距離獲得單元,用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣 列的距離;以及發(fā)聲概率確定單元,用于確定目標(biāo)聲源發(fā)聲的概率;處理單元, 用于根據(jù)距離獲得單元獲得的所述距離和發(fā)聲概率確定單元確定的所述概率, 對(duì)信號(hào)轉(zhuǎn)換單元轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行處理。
本發(fā)明實(shí)施例在數(shù)碼i殳備中,通過及時(shí)獲得目標(biāo)聲源距離麥克風(fēng)陣列的距 離,并根據(jù)該獲得的距離及時(shí)調(diào)整麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)之間的夾角,從 而可以使得麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)可以根據(jù)目標(biāo)聲源的拉遠(yuǎn)或拉近,采用 不同的夾角來進(jìn)行錄音,因此避免了現(xiàn)有技術(shù)中無論目標(biāo)聲源的拉遠(yuǎn)或拉近, 兩個(gè)麥克風(fēng)的夾角都固定不變,從而影響錄音效果的問題。
相應(yīng)的,本發(fā)明實(shí)施例在聲源定位處理過程中,也考慮了目標(biāo)聲源距離麥 克風(fēng)陣列的距離,使得目標(biāo)聲源的定位結(jié)果更為精確。
相應(yīng)的,本發(fā)明實(shí)施例在對(duì)數(shù)字化音頻信號(hào)進(jìn)行處理時(shí),例如進(jìn)行波束形 成處理、噪聲消除處理和數(shù)字增益控制處理時(shí),都考慮到了目標(biāo)聲源距離麥克 風(fēng)陣列的距離和/或目標(biāo)聲源定位的結(jié)果,因此提高了處理后的音頻信號(hào)的質(zhì) 量,較好的增強(qiáng)了數(shù)碼設(shè)備的錄音效果。
下面將結(jié)合各個(gè)附圖對(duì)本發(fā)明實(shí)施例的具體實(shí)施過程進(jìn)行詳盡的闡述,其 中在各個(gè)附圖中
圖1為現(xiàn)有變焦麥克風(fēng)在近焦情況下的錄音范圍示意圖;圖2為現(xiàn)有變焦麥克風(fēng)在長焦情況下的錄音范圍示意圖3為本發(fā)明實(shí)施例中對(duì)目標(biāo)聲源進(jìn)行定位處理的原理示意圖4為本發(fā)明實(shí)施例中聲源定位裝置的具體組成結(jié)構(gòu)框圖5為本發(fā)明實(shí)施例波束形成處理的具體示意圖6為現(xiàn)有技術(shù)中基于短時(shí)鐠調(diào)整法實(shí)現(xiàn)噪聲消除的處理過程示意圖7為本發(fā)明實(shí)施例中基于短時(shí)譜調(diào)整法實(shí)現(xiàn)噪聲消除的處理過程示意
圖8為本發(fā)明實(shí)施例給出的斜坡函數(shù)的')的示意圖9為本發(fā)明實(shí)施例中數(shù)字化音頻信號(hào)處理裝置的具體組成結(jié)構(gòu)框圖10為應(yīng)用本發(fā)明提出的各設(shè)計(jì)方案的數(shù)碼DV設(shè)備的具體結(jié)構(gòu)組成框圖。
具體實(shí)施例方式
本發(fā)明實(shí)施例提出的控制麥克風(fēng)錄音的設(shè)計(jì)方案,通過在數(shù)碼設(shè)備(如 DV或照相機(jī))中設(shè)置兩個(gè)可控制夾角的麥克風(fēng)構(gòu)成麥克風(fēng)陣列,其中麥克風(fēng) 較佳的可以為單指向性麥克風(fēng)。數(shù)碼設(shè)備在通過麥克風(fēng)陣列錄音過程中,獲得 目標(biāo)聲源到麥克風(fēng)陣列的距離,并根據(jù)獲得的該距離,調(diào)整麥克風(fēng)陣列中兩個(gè) 麥克風(fēng)之間的夾角大小,從而使得數(shù)碼設(shè)備中的麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)可 以隨著目標(biāo)聲源的拉遠(yuǎn)或拉近,及時(shí)調(diào)整到合適的夾角進(jìn)行錄音,較好的提高 了錄音效果。
上述可以按照目標(biāo)聲源到麥克風(fēng)陣列之間的距離與麥克風(fēng)之間的夾角大 小成各種線性或者非線性關(guān)系,來根據(jù)獲得距離值,及時(shí)調(diào)整麥克風(fēng)陣列中兩 個(gè)麥克風(fēng)之間的夾角,為了簡單起見,下面僅給出一種按照目標(biāo)聲源到麥克風(fēng) 陣列之間的距離與兩個(gè)麥克風(fēng)之間的夾角大小成線性關(guān)系,調(diào)整麥克風(fēng)陣列中 兩個(gè)麥克風(fēng)之間的夾角大小的實(shí)現(xiàn)關(guān)系式
Angle-(10-Distance) x 10 ( 1)其中,Angle表示調(diào)整后的兩個(gè)麥克風(fēng)之間的夾角大小,Distance表示目 標(biāo)聲源到麥克風(fēng)陣列之間的距離。通過該式(1)對(duì)兩個(gè)麥克風(fēng)之間的夾角大 小進(jìn)行調(diào)整,可以使得當(dāng)目標(biāo)聲源到麥克風(fēng)陣列之間的距離每增加lm,兩個(gè) 麥克風(fēng)之間的夾角減小IO度,這樣當(dāng)目標(biāo)聲源到麥克風(fēng)陣列之間的距離為lm 時(shí),兩個(gè)麥克風(fēng)之間可以達(dá)到最大夾角90度,而當(dāng)目標(biāo)聲源到麥克風(fēng)陣列之 間的距離為10m時(shí),兩個(gè)麥克風(fēng)之間可以達(dá)到最小夾角0度。
上述提出的控制麥克風(fēng)錄音的設(shè)計(jì)方案主要適用于通過芯片程序指令進(jìn) 行觸發(fā)來實(shí)現(xiàn)夾角的調(diào)整,這種方式比較適合于數(shù)碼設(shè)備的鏡頭自動(dòng)對(duì)焦的情 況。在這種情況下,用戶并不需要調(diào)節(jié)焦距,而是通過數(shù)碼設(shè)備的鏡頭進(jìn)行自 動(dòng)對(duì)焦,自動(dòng)對(duì)焦后,芯片程序就可以自動(dòng)獲得焦距信息Distance (即目標(biāo)聲 源到麥克風(fēng)陣列的距離),然后根據(jù)上述式(l)自動(dòng)計(jì)算出麥克風(fēng)陣列中兩個(gè) 麥克風(fēng)之間應(yīng)該調(diào)整到的合適夾角Angle,然后根據(jù)計(jì)算出的Angle信息自動(dòng) 通過機(jī)械裝置來調(diào)節(jié)兩個(gè)麥克風(fēng)之間的夾角。
相應(yīng)于上述提出的控制麥克風(fēng)錄音的設(shè)計(jì)方案,這里進(jìn)而給出實(shí)現(xiàn)上述方 法的裝置組成結(jié)構(gòu),其具體包括距離獲得單元,用于在數(shù)碼設(shè)備中的麥克風(fēng)陣 列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,其中可以通過鏡頭自動(dòng)對(duì) 焦過程中,獲得焦距信息來作為需要獲得的目標(biāo)聲源到麥克風(fēng)陣列的距離;夾 角調(diào)整單元,用于根據(jù)距離獲得單元獲得的距離,來調(diào)整麥克風(fēng)陣列中兩個(gè)麥 克風(fēng)之間的夾角大小,其中夾角調(diào)整單元可以根據(jù)距離獲得單元獲得的距離, 按照目標(biāo)聲源到麥克風(fēng)陣列的距離與需調(diào)整的夾角大小成線性關(guān)系或成非線 性關(guān)系,來調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。從而使得數(shù)碼設(shè)備 中的麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)可以隨著目標(biāo)聲源的拉遠(yuǎn)或拉近,及時(shí)調(diào)整到 合適的夾角進(jìn)行錄音,較好的提高了錄音效果。
本發(fā)明實(shí)施例提出的聲源定位設(shè)計(jì)方案也充分考慮了數(shù)碼設(shè)備在攝像過 程中,目標(biāo)聲源到麥克風(fēng)陣列的距離信息,以較好地提高聲源定位的精確度。 其實(shí)現(xiàn)原理為在數(shù)碼設(shè)備中的麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,并根據(jù)獲得的該距離,來確定麥克風(fēng)陣列的拾音角度;分別在所 確定的拾音角度范圍內(nèi)和范圍外,分別確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的 音頻信號(hào)的最大互相關(guān)值;然后根據(jù)在拾音角度范圍內(nèi)確定的最大互相關(guān)值, 與在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲源真實(shí)發(fā)聲的 概率。
其中在采用本發(fā)明實(shí)施例提出的目標(biāo)聲源定位方案的&出上,還可以進(jìn)而 采用本發(fā)明實(shí)施例上述提出的控制麥克風(fēng)錄音的設(shè)計(jì)方案,即在上述聲源定位 實(shí)現(xiàn)原理的基礎(chǔ)上,還可以進(jìn)而根據(jù)獲得的目標(biāo)聲源到麥克風(fēng)陣列的距離信 息,來調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小(該過程請(qǐng)具體參照上述 針對(duì)控制麥克風(fēng)錄音的實(shí)現(xiàn)方案的具體介紹)。
聲源定位的基本原理是目標(biāo)聲源真實(shí)發(fā)出的聲音到達(dá)麥克風(fēng)陣列中各個(gè) 麥克風(fēng)的時(shí)間不同,因此各個(gè)麥克風(fēng)采集到的信號(hào)就有相位的差異,通過對(duì)各 個(gè)信號(hào)進(jìn)行分析,估計(jì)出各個(gè)信號(hào)的相位差異,同時(shí)根據(jù)麥克風(fēng)陣列的尺寸和 結(jié)構(gòu)等幾何關(guān)系就可以估計(jì)出目標(biāo)聲源真實(shí)發(fā)出聲音的地方相對(duì)于麥克風(fēng)陣
列的位置和方向o
如圖3所示,為本發(fā)明實(shí)施例中對(duì)目標(biāo)聲源進(jìn)行定位處理的原理示意圖, 由圖3可知
c; =丄sin(p) / c (2) 其中d為聲波到達(dá)兩個(gè)麥克風(fēng)的時(shí)間差,c為聲速,L為兩個(gè)麥克風(fēng)之間 的間距,p是聲源的入射角度。
由上式(2)可得p = arcsin(o//Z) (3) 也就是說,只要能夠準(zhǔn)確的估計(jì)出聲波到達(dá)兩個(gè)麥克風(fēng)的時(shí)間差,即兩個(gè) 麥克風(fēng)采集到的信號(hào)的相位差,那么就可以利用麥克風(fēng)陣列的尺寸和結(jié)構(gòu)等幾 何關(guān)系推算出聲波的入射方向,即聲源的位置。
聲源定位的方法以計(jì)算兩個(gè)麥克風(fēng)采集信號(hào)的互相關(guān)函數(shù)為基礎(chǔ),通過兩 路信號(hào)的最大互相關(guān)位置,來估計(jì)相位差,如下d = argmax^V20"》 (4)
其中d為前面已經(jīng)提到的聲波到達(dá)兩個(gè)麥克風(fēng)的時(shí)間差,sl, s2指兩個(gè)麥 克風(fēng)分別錄制到的兩路信號(hào),R指相關(guān)函數(shù),r指兩個(gè)麥克風(fēng)分別錄制到的兩 路信號(hào)的相位差。此式(4)的意思即是通過計(jì)算相關(guān)函數(shù),來確定最大互 相關(guān)的位置r,從而得到d。
相關(guān)函數(shù)R的計(jì)算方法如下
w-i
U一2^(,("-r) (5)
w=0
其中N為一幀信號(hào)的長度。
由于"艮多情況下并不一定是一個(gè)整數(shù),因此往往需要采用傅立葉變換,將 上式(5)變換到頻域進(jìn)行計(jì)算,具體如下
U" = 2>' (6)
通過上式(6),就可以得到各個(gè)延時(shí)間隔r對(duì)應(yīng)的互相關(guān)函數(shù)值,即可以 得到各個(gè)可能的入射角度對(duì)應(yīng)的互相關(guān)值。
根據(jù)目標(biāo)聲源到麥克風(fēng)矩陣之間的距離值Distance值,可以通過下述公式 來計(jì)算麥克風(fēng)陣列的拾音角度Angle:
Angle=( 10-Distance) x 10 (7)
即目標(biāo)聲源入射角度p應(yīng)該在-Angle/2至+Angle/2之間。 首先,基于下述等式,在上述計(jì)算得到的拾音角度范圍內(nèi),確定麥克風(fēng)陣 列中兩個(gè)麥克J5U妾收到的音頻信號(hào)的最大互相關(guān)值
M = m (8)
其中貝表示在拾音角度范圍內(nèi),麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音 頻信號(hào)的最大互相關(guān)值;r = £sin( /c , -Angle/2 <=^<=+Angle/2;
然后,基于下述等式,在上述計(jì)算得到的拾音角度范圍外,確定麥克風(fēng)陣 列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值i 2 = max(i SiS2 (9)
其中A2表示在拾音角度范圍外,麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;r = £sin( /c, -90度<=^<-Angle/2或者+Angle/2〈爐〈-90度。
最后可以通過上述計(jì)算得到的R1與R2的比值,來描述目標(biāo)聲源真實(shí)發(fā)聲的概率dr,即
dr=Rl/R2,且這里dr的最終取值被限制在0 ~ 1之間。
相應(yīng)于上述提出的聲源定位的設(shè)計(jì)方案,這里進(jìn)而給出實(shí)現(xiàn)該方法的裝置組成結(jié)構(gòu),如圖4所示,具體包括距離獲得單元401,用于在數(shù)碼設(shè)備中的麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,其中可以通過鏡頭自動(dòng)對(duì)焦過程中,獲得焦距信息來作為需要獲得的目標(biāo)聲源到麥克風(fēng)陣列的距離;拾音角度確定單元402,用于根據(jù)距離獲得單元401獲得的距離,確定麥克風(fēng)陣列的拾音角度,相關(guān)值確定單元403,用于分別在拾音角度確定單元402確定的拾音角度范圍內(nèi)和范圍外,分別確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;發(fā)聲概率確定單元404,用于根據(jù)相關(guān)值確定單元403在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲源發(fā)聲的概率。
此外本發(fā)明實(shí)施例提出的聲源定位裝置在上述圖4的基礎(chǔ)上還可以進(jìn)而包括夾角調(diào)整單元405,用于根據(jù)距離獲得單元401獲得的距離,來調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。有關(guān)該裝置的具體實(shí)現(xiàn)細(xì)節(jié)請(qǐng)參照上述針對(duì)聲源定位方法的詳細(xì)介紹,這里不再給以過多贅述。
本發(fā)明實(shí)施例提出的數(shù)字化音頻信號(hào)處理的設(shè)計(jì)方案也充分考慮了數(shù)碼設(shè)備在攝像過程中,目標(biāo)聲源到麥克風(fēng)陣列的距離信息,并考慮了目標(biāo)聲源真實(shí)發(fā)聲的概率情況,以此來提高錄音效果。具體實(shí)現(xiàn)原理為將數(shù)碼設(shè)備通過麥克風(fēng)陣列錄制的^t擬化音頻信號(hào)轉(zhuǎn)換為數(shù)字化音頻信號(hào);在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,以及確定目標(biāo)聲源發(fā)聲的概率(具體確定過程請(qǐng)參照上述針對(duì)聲源定位設(shè)計(jì)方案的詳細(xì)介紹);根據(jù)獲得的目標(biāo)聲源到麥克風(fēng)陣列的距離和確定的目標(biāo)聲源發(fā)聲的概率,對(duì)上述轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行相關(guān)處理,其中這里的處理包括但不限于為波束形成處理、噪聲消除處理和數(shù)字增益控制處理等。
此外本發(fā)明實(shí)施例提出的數(shù)字化音頻信號(hào)處理的設(shè)計(jì)方案還可以和上述提出的麥克風(fēng)錄音控制的設(shè)計(jì)方案、及與上述提出的聲源定位的設(shè)計(jì)方案進(jìn)行任意組成的使用。即在本發(fā)明實(shí)施例提出的數(shù)字化音頻信號(hào)處理的實(shí)現(xiàn)基礎(chǔ)上,還可以進(jìn)而根據(jù)獲得的距離,來調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。另外,也可以通過上述已經(jīng)介紹的目標(biāo)聲源定位實(shí)現(xiàn)方案來確定這里的目標(biāo)聲源發(fā)聲的概率。
基于上面的介紹,下面詳細(xì)介紹波束形成的處理過程
波束形成算法主要是通過對(duì)麥克風(fēng)陣列采集到的音頻信號(hào)進(jìn)行處理,使得麥克風(fēng)陣列對(duì)空間域中的某些方向具有較大的增益,而對(duì)其他方向具有較小的增益,好像形成一個(gè)定向的波束一樣。通過波束形成處理就可以利用目標(biāo)聲源和噪聲源在空間域上的差別和各聲源到麥克風(fēng)陣列的距離和方向不同,來給予目標(biāo)聲源方向較大的增益,即把波束指向目標(biāo)語音,從而達(dá)到信號(hào)分離,抑制噪聲的作用。
在本發(fā)明實(shí)施例中,以數(shù)碼設(shè)備中采用平行》文置的兩個(gè)單指向性麥克風(fēng)組成麥克風(fēng)陣列為例進(jìn)行說明,目標(biāo)聲源應(yīng)該在麥克風(fēng)陣列的正前方,因此目標(biāo)聲源距離麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)是等距離的??梢哉J(rèn)為兩個(gè)麥克風(fēng)采集到的目標(biāo)聲源的相位和幅度是基本相同的。因此將兩路信號(hào)疊加,可以起到增強(qiáng)目標(biāo)聲音的作用,但是這樣做在目標(biāo)聲源與麥克風(fēng)陣列的距離較近(即近焦廣角)的情況下,會(huì)破壞錄制聲音的立體聲特性。因此本實(shí)施例中的波束形成要求受到目標(biāo)聲源到麥克風(fēng)陣列的距離(即焦距參數(shù))因素的控制,要求距離遠(yuǎn)時(shí)(即長焦時(shí)),使用高的混合比例參數(shù)對(duì)兩個(gè)麥克風(fēng)分別錄制的音頻信號(hào)進(jìn)行波束形成處理,反之要求距離近時(shí)(即近焦時(shí)),使用低的混合比例參數(shù)對(duì)兩個(gè)麥克風(fēng)分別錄制的音頻信號(hào)進(jìn)^f亍波束形成處理。如圖5所示,為本發(fā)明實(shí)施例波束形成處理的具體示意圖,其具體實(shí)現(xiàn)方式為
首先,根據(jù)目標(biāo)聲源到麥克風(fēng)陣列的距離和信號(hào)混合比例參數(shù)成正比的規(guī)則,基于獲得的該距離確定信號(hào)混合比例參數(shù),具體可以通過下述關(guān)系式來確定信號(hào)混合比例參數(shù)
r=0.5+(Distance-l)*0.05 (10)
其中,r表示信號(hào)混合比例參數(shù),Distance表示目標(biāo)聲源到麥克風(fēng)陣列的距離,這樣當(dāng)Distance為10m時(shí),r=0.95;當(dāng)Distance為lm時(shí),r=0.5。
再次,基于上述確定的信號(hào)混合比例參數(shù),對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行波束形成處理,具體通過下述關(guān)系式對(duì)麥克風(fēng)陣列中的兩個(gè)麥克風(fēng)分別錄制的音頻信號(hào)進(jìn)行轉(zhuǎn)換后得到的兩路數(shù)字化音頻信號(hào)進(jìn)行波束形成處理
Yl(k)=Xl(k)+rX2(k)
Y2(k)=X2(k)+rXl(k) (11)
其中Xl(k)和X2(k)表示兩路輸入的音頻信號(hào),Yl(k)和Y2(k)表示兩路輸出
能保證目標(biāo)聲源在處于近焦時(shí)具有較好的立體聲特性。下面詳細(xì)介紹噪聲消除的處理過程
本實(shí)施例這里以采用的噪聲消除算法為基于短時(shí)譜調(diào)整的算法為例來進(jìn)行說明。如圖6所示,為現(xiàn)有技術(shù)中基于短時(shí)譜調(diào)整法實(shí)現(xiàn)噪聲消除的處理過程示意圖,其基本實(shí)現(xiàn)原理是利用目標(biāo)聲源的概率分布,對(duì)當(dāng)前幀中帶噪語音的每一個(gè)頻傳分量的幅度值進(jìn)行約束,即對(duì)每一個(gè)頻譜幅度值乘以一個(gè)噪聲
消除增益系數(shù)G[/].具體如下式
S'[/〗 (12)其中鄧]表示帶噪語音,S'[/]表示噪聲消除后的語音。由于信噪比高時(shí),含有語音的可能性大,衰減??;反之,則認(rèn)為含有語音的可能性小,衰減則增大,因此實(shí)現(xiàn)降噪、語音增強(qiáng)的作用,據(jù)此噪聲消除增益G[/]可以通過下述關(guān)系式來確定
G[']=(汁,〗「/ (A WI W]) + G- '(1"(A [。 I yW》 (13)
其中G[i]為對(duì)頻域每個(gè)頻語幅度的增益,A[Z]為對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的噪聲方差,4[/]為對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的信號(hào)方差,
p(A[/]i為對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的目標(biāo)聲源發(fā)聲的概率,gmin為
對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的目標(biāo)聲源發(fā)聲的概率為0時(shí),將對(duì)頻域每個(gè)頻譜幅度的增益設(shè)為的一個(gè)小量,"通常取05-1。
本發(fā)明實(shí)施例這里提出的噪聲消除方案相對(duì)于上述現(xiàn)有技術(shù)的噪聲消除方案,主要存在下述兩點(diǎn)改進(jìn)
第一,由于目標(biāo)聲源到麥克風(fēng)陣列的距離是在不斷變化的,這樣當(dāng)目標(biāo)聲源到麥克風(fēng)陣列的距離較遠(yuǎn)時(shí)(即長焦時(shí)),本發(fā)明實(shí)施例這里采用較大的增益,而當(dāng)目標(biāo)聲源到麥克風(fēng)陣列的距離較近時(shí)(即近焦時(shí)),本發(fā)明實(shí)施例這里采用較小的增益。由于增益的改變,在放大或者縮小目標(biāo)聲源的同時(shí)也會(huì)在一定程度上放大或者縮小背景噪聲,因此本發(fā)明實(shí)施例考慮在長焦大增益時(shí),采用較大的噪聲壓縮參數(shù),而在近焦小增益時(shí),釆用較小的噪聲壓縮參數(shù),從而使背景噪聲的大小不會(huì)隨著目標(biāo)聲源到麥克風(fēng)陣列的距離不斷改變而出現(xiàn)較大的起伏。
第二,借助于聲源定位的結(jié)果,在噪聲消除算法中,根據(jù)信噪比估計(jì)目標(biāo)聲源真實(shí)發(fā)聲的概率時(shí),可以借助聲源定位結(jié)果進(jìn)行加權(quán)處理。
如圖7所示,為本發(fā)明實(shí)施例中基于短時(shí)i普調(diào)整法實(shí)現(xiàn)噪聲消除的處理過程示意圖,其中具體實(shí)現(xiàn)原理是基于目標(biāo)聲源到麥克風(fēng)陣列的距離和聲源定位得到的目標(biāo)聲源真實(shí)發(fā)音的概率,估計(jì)噪聲消除增益;將轉(zhuǎn)換后的數(shù)字化帶噪音頻信號(hào)乘以估計(jì)得到的噪聲消除增益,從而得到消除噪聲后的音頻信號(hào)?;谇懊娼榻B的目標(biāo)聲源定位的設(shè)計(jì)方案得到的比值dr來對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的目標(biāo)聲源發(fā)聲的概率/K^則叩])進(jìn)行加權(quán),具體如下式所示 ] I剛=P(柳I叩]H (14)
其中/ '(/Z,[i]1 I!!'])即為加權(quán)后得到的目標(biāo)聲源發(fā)聲的概率。
并且,本發(fā)明實(shí)施例提出在對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的目標(biāo)聲源發(fā)
聲的概率為0時(shí),將對(duì)頻域每個(gè)頻譜幅度的增益設(shè)為的一個(gè)小量G^設(shè)置為可 變的值,該值要求受到目標(biāo)聲源到麥克風(fēng)陣列的距離(distance)的控制,具體 可以通過下述關(guān)系式進(jìn)行控制
G'rain =5 + Z)/"ance (15) 這樣當(dāng)distance為lm時(shí),G'^為6dB,當(dāng)distance為10m時(shí),G'曲為15dB。 基于前述,用于確定噪聲消除增益的關(guān)系式就可以更新為
則=(汁,〗「/ 化w I徹)+G'- '(1"化W i卿° 下面詳細(xì)介紹數(shù)字增益控制的處理過程
本發(fā)明實(shí)施例這里對(duì)數(shù)字增益控制處理過程進(jìn)行介紹時(shí),以自動(dòng)增益控制 為例來進(jìn)行介紹(即AGC),數(shù)字增益控制處理主要用來調(diào)節(jié)音頻輸出信號(hào)的 幅度。本發(fā)明實(shí)施例的主要設(shè)計(jì)思想是利用聲源定位的結(jié)果,當(dāng)判斷得到目標(biāo) 聲源沒有真實(shí)發(fā)出聲音時(shí),通過減小增益來進(jìn)一步抑制噪聲強(qiáng)度。而當(dāng)判斷得 到目標(biāo)聲源真實(shí)發(fā)出聲音時(shí),通過增大增益從而增強(qiáng)語音,提高信噪比。對(duì)此, 本發(fā)明實(shí)施例提出的技術(shù)方案具體實(shí)現(xiàn)過程為
首先,判斷通過聲源定位處理得到的目標(biāo)聲源真實(shí)發(fā)聲的概率是否大于一 預(yù)先設(shè)定的闊值;若大于,則基于一預(yù)先設(shè)定的第一平滑因子和該得到的概率, 確定對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益;若小于等 于,則基于一預(yù)先設(shè)定的第二平滑因子和該得到的概率,確定對(duì)轉(zhuǎn)換后的數(shù)字 化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,其中預(yù)先設(shè)定的第一平滑因子小 于第二平滑因子;基于上述確定的幀間增益,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行 幀內(nèi)平滑處理。
下面結(jié)合具體算法來詳細(xì)介紹本發(fā)明實(shí)施例提出的數(shù)字增益控制的處理過程
本實(shí)施例利用前面聲源定位處理產(chǎn)生的概率dr作為當(dāng)前幀的即時(shí)增益, 并考慮到增益突然增大或者減小的時(shí)候,信號(hào)幅度也會(huì)突然增大和減小,這樣 就會(huì)帶來一些人耳能感覺到的噪聲,為此采用平滑增益以緩和這種變化,避免 輸出信號(hào)幅度的階越式跳變,能使人耳基本感覺不到增益變化所帶來的噪聲。 因此,首先需要對(duì)聲源定位處理產(chǎn)生的概率dr進(jìn)行幀間平滑,得到幀間平滑 后的增益gain,如下式所示
其中式中g(shù)&"'表示對(duì)當(dāng)前幀進(jìn)行幀間平滑處理后得到的幀間增益;g。!'"表 示對(duì)當(dāng)前幀的前一幀進(jìn)行幀間平滑處理后得到的幀間增益;"為平滑因子,* 為該概率。
另外,考慮到保護(hù)語音質(zhì)量為首要因素,因此采取快升慢降的策略。即只 要發(fā)現(xiàn)目標(biāo)聲源真實(shí)發(fā)聲,增益要迅速上升,若發(fā)現(xiàn)目標(biāo)聲源沒有真實(shí)發(fā)聲, 增益要緩慢下降。目標(biāo)聲源是否真實(shí)發(fā)聲,這里以dr與0.5的大小關(guān)系來確定。 快升慢降的策略通過給a設(shè)置不同的值來實(shí)現(xiàn),即
當(dāng)dr>0.5時(shí)a =0.75;
當(dāng)dr<=0.5時(shí)a =0.95;
為了進(jìn)一步避免數(shù)字增益控制引起的信號(hào)幅度變化所帶來的噪聲,這里在 幀間平滑的基礎(chǔ)上,進(jìn)一步作了幀內(nèi)平滑,并進(jìn)一步通過斜坡函數(shù)來實(shí)現(xiàn),如 下式所示
gaz'" '(f) -— 6(/)ga/w — oW + (1 — 6(/))gaf" 一 wew, ! = 0 ~ Af — 1
其中式中g(shù)ain'(i)為對(duì)當(dāng)前幀做了幀內(nèi)平滑后的每個(gè)樣點(diǎn)的增益;g"/"—。W 為對(duì)上一幀做了幀間平滑后得到的幀間增益;gm'w —"ew為對(duì)當(dāng)前幀做了幀間平 滑后得到的幀間增益;斜坡函數(shù)定義為6(/卜l-〃M,其中M表示幀長,通常 M=128,如圖8所示,為本發(fā)明實(shí)施例這里給出的斜坡函數(shù)6(/)的示意圖。
可以看出,由于斜坡函數(shù)6(/)在開始時(shí)對(duì)于上一幀的gain給予了較大權(quán)值,對(duì)于當(dāng)前幀的gain給予了較小權(quán)值;而在末尾時(shí)正好相反,因此可以有效地平 滑增益突變所帶來的影響。
用最終得到的增益去分別處理麥克風(fēng)陣列中兩個(gè)麥克風(fēng)分別錄制的音頻 信號(hào)經(jīng)模數(shù)轉(zhuǎn)化后,所得到的兩路數(shù)字化音頻信號(hào),就得到了最后輸出的兩路 音頻信號(hào)
Outl(k)=Inl(k)gain,(k); Out2(k)=In2(k)gain,(k)。
相應(yīng)于上述提出的數(shù)字化音頻信號(hào)處理的設(shè)計(jì)方案,這里進(jìn)而給出實(shí)現(xiàn)該 方法的裝置組成結(jié)構(gòu),如圖9所示,具體包括信號(hào)轉(zhuǎn)化單元901,用于將通過 麥克風(fēng)陣列錄制的模擬化音頻信號(hào)轉(zhuǎn)換為數(shù)字化音頻信號(hào),信號(hào)轉(zhuǎn)換單元901 就是通常所說的A/D轉(zhuǎn)換器;距離獲得單元902,用于在麥克風(fēng)陣列錄音過程 中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,該單元如何獲得該距離,已經(jīng)在上述 控制麥克風(fēng)錄音的裝置和聲源定位的裝置中給以說明;發(fā)聲概率確定單元903, 用于確定目標(biāo)聲源發(fā)聲的概率,該單元如何具體確定目標(biāo)聲源發(fā)聲的概率已經(jīng) 在上述聲源定位的裝置中給予了說明;處理單元904,用于根據(jù)距離獲得單元 902獲得的距離和發(fā)聲概率確定單元903確定的概率,對(duì)信號(hào)轉(zhuǎn)換單元901轉(zhuǎn) 換后的數(shù)字化音頻信號(hào)進(jìn)行處理。
較佳的,該數(shù)字化音頻信號(hào)處理裝置中還可以進(jìn)而包括夾角調(diào)整單元905, 用于根據(jù)距離獲得單元902獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的 夾角大小。
其中發(fā)聲概率確定單元卯3具體包括拾音角度確定子單元,相關(guān)值確定子 單元和發(fā)聲概率確定子單元。其中每個(gè)子單元的具體作用請(qǐng)參照上述圖4中的 詳細(xì)介紹,這里不再過多贅述。
其中若處理單元904在對(duì)數(shù)字化音頻信號(hào)進(jìn)行波束形成處理時(shí),其具體包 括包括混合比例參數(shù)確定子單元,用于根據(jù)距離獲得單元獲得的距離和信號(hào)混 合比例參數(shù)成正比的規(guī)則,基于該距離確定信號(hào)混合比例參數(shù);波束形成子單元,用于基于混合比例參數(shù)確定子單元確定的信號(hào)混合比例參數(shù),對(duì)信號(hào)轉(zhuǎn)換 單元轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行波束形成處理。
若處理單元904在對(duì)數(shù)字化音頻信號(hào)進(jìn)行噪聲消除處理時(shí),其具體包括增 益估計(jì)子單元,用于基于該距離和該概率,估計(jì)噪聲消除增益;噪聲消除子單
元,用于將信號(hào)轉(zhuǎn)換單元轉(zhuǎn)換后的數(shù)字化帶噪音頻信號(hào)乘以估計(jì)得到的噪聲消 除增益,得到消除噪聲后的音頻信號(hào)。
若處理單元904在對(duì)數(shù)字化音頻信號(hào)進(jìn)行數(shù)字增益控制處理時(shí),其具體包 括判斷子單元,用于判斷該概率是否大于一預(yù)定閾值;幀間增益確定子單元, 用于在判斷子單元的判斷結(jié)果為是時(shí),基于第一平滑因子和所述概率,確定對(duì) 轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,以及在判斷子單元 的判斷結(jié)果為否時(shí),基于第二平滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字化音 頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,其中第一平滑因子小于第二平滑因 子;幀內(nèi)平滑子單元,用于基于幀間增益確定子單元確定的幀間增益,對(duì)轉(zhuǎn)換 后的數(shù)字化音頻信號(hào)進(jìn)行幀內(nèi)平滑處理。
其中處理單元904可以任意組合使用波束形成處理、噪聲消除處理和數(shù)字 增益控制處理,即處理單元904可以僅對(duì)數(shù)字化音頻信號(hào)進(jìn)行波束形成處理、 或僅對(duì)數(shù)字化音頻信號(hào)進(jìn)行噪聲消除處理、或僅對(duì)數(shù)字化音頻信號(hào)進(jìn)行數(shù)字增 益控制處理,也可以對(duì)數(shù)字化音頻信號(hào)進(jìn)行上述任意兩種處理,還可以對(duì)數(shù)字 化音頻信號(hào)進(jìn)行上述三種處理。
不但本發(fā)明實(shí)施例這里提出的波束形成處理方案、噪聲消除處理方案和數(shù) 字增益控制處理方案可以進(jìn)行任意組合使用,而且上述提出的控制麥克風(fēng)錄音 的方案、聲源定位方案和數(shù)字化音頻信號(hào)處理的方案也可以進(jìn)行任意組合使 用。
下面以將上述各個(gè)方案同時(shí)應(yīng)用在數(shù)碼DV設(shè)備中為例,詳盡介紹一個(gè)具 體實(shí)施例,如圖IO所示,為應(yīng)用本發(fā)明提出的各設(shè)計(jì)方案的數(shù)碼DV設(shè)備的 具體結(jié)構(gòu)組成框圖,具體包括
23兩個(gè)單指向性的麥克風(fēng)(micl和mic2)組成的麥克風(fēng)陣列、模擬處理部分、數(shù)字處理部分和A/D轉(zhuǎn)化部分;其中模擬處理部分和數(shù)字處理部分均由焦距信息參數(shù)進(jìn)行控制,其中這里的焦距信息參數(shù)即為目標(biāo)聲源到DV設(shè)備鏡頭的距離,可以在鏡頭對(duì)焦的時(shí)候得到,這里假設(shè)目標(biāo)聲源距離鏡頭的最近有效距離為lm,最遠(yuǎn)有效距離為10m,焦距信息參數(shù)的值可量化為從1到10的整數(shù)。
模擬處理部分具體包括麥克風(fēng)夾角控制處理和模擬增益控制處理兩部分,其中麥克風(fēng)夾角控制處理是比較重要的一個(gè)部分,該部分通過控制兩個(gè)單指向性的麥克風(fēng)之間的夾角,使得在近焦情況下兩個(gè)麥克風(fēng)之間的夾角大,而在長焦情況下兩個(gè)麥克風(fēng)之間的夾角小。
模擬增益控制處理部分用于控制麥克風(fēng)錄音的靈每丈度,目標(biāo)遠(yuǎn)時(shí),則鏡頭焦距用長焦,麥克風(fēng)靈敏度要高;反之,目標(biāo)近,則鏡頭焦距用近焦,麥克風(fēng)靈敏度要低。為了對(duì)麥克風(fēng)錄制的音頻信號(hào)進(jìn)行模擬增益處理,需要得到聲強(qiáng)與距離的關(guān)系,不過這個(gè)關(guān)系比較復(fù)雜,并不是簡單的線性關(guān)系。 一般來說聲波強(qiáng)度與距離的關(guān)系和波陣面有關(guān)。例如,對(duì)于平面波而言,聲強(qiáng)與距離無關(guān);柱面波的聲強(qiáng)與距離成反比;球面波的聲強(qiáng)與距離平方成反比。當(dāng)目標(biāo)很近時(shí),聲波類似于球面波,而當(dāng)目標(biāo)較遠(yuǎn)時(shí),聲波類似平面波。由于這里只需要知道從lm到10m這IO個(gè)離散距離的聲強(qiáng)關(guān)系,因此這里不去推導(dǎo)兩者之間的復(fù)雜關(guān)系,而是可以用經(jīng)驗(yàn)數(shù)據(jù),用查表的方法解決。本實(shí)施例這里設(shè)置模擬增益值可以取聲強(qiáng)的倒數(shù),這樣就可以保證在各個(gè)距離下,錄音音量都比較適中。模擬增益值和聲強(qiáng)的對(duì)應(yīng)關(guān)系表具體如下
表l:距離,聲強(qiáng)與增益關(guān)系表
距離12345678910
聲強(qiáng)PlP2P3P4P5P6P7P8P9P10
增益1/P11/P21/P31/P41/P51/P61/P7腦1/P91/P10
處于模擬處理部分和數(shù)字處理部分之間的A/D轉(zhuǎn)換部分,主要用于將模擬
24音頻信號(hào)轉(zhuǎn)換成數(shù)字化音頻信號(hào),以供后面數(shù)字處理部分進(jìn)行處理。
其中數(shù)字處理部分包括聲源定位處理部分、波束形成處理部分、噪聲消除處理部分和數(shù)字增益控制部分,聲源定位處理用來確定拾音角度范圍內(nèi)目標(biāo)聲源是否真實(shí)發(fā)聲,具體實(shí)現(xiàn)原理已經(jīng)在上述聲源定位的設(shè)計(jì)方案中進(jìn)行了詳盡
闡述,聲源定位得到的目標(biāo)聲源真實(shí)發(fā)聲的概率dr將用于指導(dǎo)后續(xù)的處理工作。
波束形成處理部分主要用于根據(jù)焦距信息參數(shù)調(diào)節(jié)波束形態(tài),其具體實(shí)現(xiàn)過程已經(jīng)在上述數(shù)字化音頻信號(hào)處理過程中進(jìn)行了詳盡闡述。
噪聲消除處理部分用于根據(jù)焦距信息參數(shù)以及聲源定位結(jié)果,有控制的消除北京噪聲,其具體實(shí)現(xiàn)過程也已經(jīng)在上述數(shù)字化音頻信號(hào)處理過程中進(jìn)行了詳盡闡述。
數(shù)字增益控制處理部分,用于根據(jù)聲源定位的結(jié)果,來自動(dòng)調(diào)節(jié)數(shù)字化音頻信號(hào)的增益,其具體實(shí)現(xiàn)過程也已經(jīng)在上述數(shù)字化音頻信號(hào)處理過程中進(jìn)行了詳盡闡述。
由此可見,本具體實(shí)施方式
中數(shù)碼DV設(shè)備中的各個(gè)信號(hào)處理部分都可以受到焦距信息參數(shù)的控制,從而可以跟隨焦距的拉遠(yuǎn)或拉近進(jìn)行適應(yīng)性的調(diào)整處理,因此可以使得整體錄音效果提升。
明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1、一種控制麥克風(fēng)錄音的方法,其特征在于,包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;以及根據(jù)獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
2、 如權(quán)利要求1所述的方法,其特征在于,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克 風(fēng)之間的夾角大小具體為按照所述距離與夾角大小成線性關(guān)系或非線性關(guān)系,調(diào)整麥克風(fēng)陣列中兩 個(gè)麥克風(fēng)之間的夾角大小。
3、 如權(quán)利要求1或2所述的方法,其特征在于,基于下述等式,調(diào)整麥 克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小Angle=(10-Distance) x 10其中,Angle表示兩個(gè)麥克風(fēng)之間的夾角大小,Distance表示所述距離。
4、 一種控制麥克風(fēng)錄音的裝置,其特征在于,包括 距離獲得單元,用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;夾角調(diào)整單元,用于根據(jù)距離獲得單元獲得的距離,調(diào)整麥克風(fēng)陣列中兩 個(gè)麥克風(fēng)之間的夾角大小。
5、 如權(quán)利要求4所述的裝置,其特征在于,夾角調(diào)整單元根據(jù)距離獲得 單元獲得的距離,按照所述距離與夾角大小成線性關(guān)系或非線性關(guān)系,調(diào)整麥 克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
6、 一種聲源定位方法,其特征在于,包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;以及 根據(jù)獲得的距離,確定麥克風(fēng)陣列的拾音角度;分別在所述拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收 到的音頻信號(hào)的最大互相關(guān)值;根據(jù)在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲源發(fā)聲的概率。
7、 如權(quán)利要求6所述的方法,其特征在于,基于下述等式,確定麥克風(fēng) 陣列的拾音角度Angle=(10-Distance)x 10其中,Angle表示麥克風(fēng)陣列的拾音角度,Distance表示所述距離。
8、 如權(quán)利要求6所述的方法,其特征在于,基于下述等式,在所述拾音 角度范圍內(nèi),確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān) 值其中及表示在拾音角度范圍內(nèi),麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信 號(hào)的最大互相關(guān)值;sl, s2分別表示麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的兩路音頻信號(hào),R指相 關(guān)函數(shù);r二丄sin(p)/c , 其中Z表示兩個(gè)麥克風(fēng)之間的距離,-Angle/2 <=^<=+Angle/2, Angle表示麥克風(fēng)陣列的拾音角度,c表示聲速。
9、 如權(quán)利要求8所述的方法,其特征在于,基于下述等式,在所述拾音 角度范圍外,確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān) 值i 2 = max(Ur))其中i 2表示在拾音角度范圍外,麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信 號(hào)的最大互相關(guān)值;sl, s2分別表示麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的兩路音頻信號(hào),R指相 關(guān)函數(shù);r=Zsin(p)/c,其中z表示兩個(gè)麥克風(fēng)之間的距離,_90度^^〈-Angle/2 或者+Angle/2《^《90度,Angle表示麥克風(fēng)陣列的拾音角度,c表示聲速。
10、 如權(quán)利要求6所述的方法,其特征在于,還包括根據(jù)獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
11、 一種聲源定位裝置,其特征在于,包括距離獲得單元,用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣 列的3巨離;以及拾音角度確定單元,用于根據(jù)距離獲得單元獲得的距離,確定麥克風(fēng)陣列 的拾音角度;相關(guān)值確定單元,用于分別在所述拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng) 陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;發(fā)聲概率確定單元,用于根據(jù)相關(guān)值確定單元在拾音角度范圍內(nèi)確定的最 大互相關(guān)值,和在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲 源發(fā)聲的概率。
12、 如權(quán)利要求11所述的裝置,其特征在于,還包括 夾角調(diào)整單元,用于根據(jù)距離獲得單元獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
13、 一種數(shù)字化音頻信號(hào)處理方法,其特征在于,包括 將通過麥克風(fēng)陣列錄制的模擬化音頻信號(hào)轉(zhuǎn)換為數(shù)字化音頻信號(hào); 在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離,以及 確定目標(biāo)聲源發(fā)聲的概率;根據(jù)獲得的所述距離和確定的所述概率,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行 處理。
14、 如權(quán)利要求13所述的方法,其特征在于,還包括 根據(jù)獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
15、 如權(quán)利要求13或14所述的方法,其特征在于,確定目標(biāo)聲源發(fā)聲的 概率,具體包括根據(jù)獲得的所述距離,確定麥克風(fēng)陣列的拾音角度;分別在所述拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;根據(jù)在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度范圍外確定的 最大互相關(guān)值的比值,來確定目標(biāo)聲源發(fā)聲的概率。
16、 如權(quán)利要求13所述的方法,其特征在于,所述處理包括波束形成處 理,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行波束形成處理,具體包括根據(jù)所述距離和信號(hào)混合比例參數(shù)成正比的規(guī)則,基于獲得的所述距離確 定信號(hào)混合比例參數(shù);以及基于確定的信號(hào)混合比例參數(shù),對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行波束形成 處理。
17、 如權(quán)利要求16所述的方法,其特征在于,所述規(guī)則為下述關(guān)系式 r=0.5+(Distance-l)*0.05其中,r表示信號(hào)混合比例參數(shù),Distance表示所述距離。
18、 如權(quán)利要求13所述的方法,其特征在于,所述處理包括噪聲消除處 理,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行噪聲消除處理,具體包括基于所述距離和所述概率,估計(jì)噪聲消除增益;將轉(zhuǎn)換后的數(shù)字化帶噪音頻信號(hào)乘以估計(jì)得到的噪聲消除增益,得到消除 噪聲后的音頻信號(hào)。
19、 如權(quán)利要求18所述的方法,其特征在于,基于所述距離和所述概率, 按照下述關(guān)系式來估計(jì)噪聲消除增益則=(汁,r./* ]I順+ g',.(1 -;/(邵]I卿)其中鄰]表示噪聲消除增益; A[/]為對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)估計(jì)的噪聲方差; 4
i w]) = p(A[。IW])^ ,其中HAWI W])為對(duì)轉(zhuǎn)換后的數(shù)字化音頻信 號(hào)估計(jì)的目標(biāo)聲源發(fā)聲的概率,a為確定的所述概率;G 'rain為根據(jù)與獲得的所述距離成正比的規(guī)律,基于所述距離得到的量。
20、 如權(quán)利要求19所述的方法,其特征在于,根據(jù)所述距離,基于下述 關(guān)系式得到G、G 'min = 5 +流tan ce其中£fc tan "表示所述距離。
21、 如權(quán)利要求13所述的方法,其特征在于,所述處理包括數(shù)字增益控 制處理,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行數(shù)字增益控制處理,具體包括判斷所述概率是否大于一預(yù)定閾值;若判斷結(jié)果為是,則基于第一平滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字 化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,以及若判斷結(jié)果為否,則基于第二平滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字 化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,其中第一平滑因子小于第二平滑 因子;基于確定的幀間增益,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀內(nèi)平滑處理。
22、 如權(quán)利要求21所述的方法,其特征在于,所述預(yù)定闊值為0.5,所述 第一平滑因子為0.75,所述第二平滑因子為0.95。
23、 如權(quán)利要求21所述的方法,其特征在于,基于下述關(guān)系式,基于平 滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀間平滑后得到的幀 間增益其中g(shù)mv表示對(duì)當(dāng)前幀進(jìn)行幀間平滑處理后得到的幀間增益; g&"表示對(duì)當(dāng)前幀的前一幀進(jìn)行幀間平滑處理后得到的幀間增益; "為平滑因子,A為所述概率。
24、 如權(quán)利要求23所述的方法,其特征在于,基于確定的幀間增益,按 照下述關(guān)系式,對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀內(nèi)平滑處理= 6(z')ga/w 一 oW + (1 - 6(/))ga/w _其中g(shù)ain'(i)為對(duì)當(dāng)前幀做了幀內(nèi)平滑后的每個(gè)樣點(diǎn)的增益;g"/w_oW為對(duì)上一幀做了幀間平滑后得到的幀間增益;_"ew為對(duì)當(dāng)前幀做了幀間平滑后得到的幀間增益; 6(/) = l-〃M,其中M表示幀長,/ = 0~M —1。
25、 一種數(shù)字化音頻信號(hào)處理系統(tǒng),其特征在于,包括 信號(hào)轉(zhuǎn)化單元,用于將通過麥克風(fēng)陣列錄制的才莫擬化音頻信號(hào)轉(zhuǎn)換為數(shù)字化音頻信號(hào);距離獲得單元,用于在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣 列的距離;以及發(fā)聲概率確定單元,用于確定目標(biāo)聲源發(fā)聲的概率;處理單元,用于根據(jù)距離獲得單元獲得的所述距離和發(fā)聲概率確定單元確 定的所述概率,對(duì)信號(hào)轉(zhuǎn)換單元轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行處理。
26、 如權(quán)利要求25所述的系統(tǒng),其特征在于,還包括 夾角調(diào)整單元,用于才艮據(jù)距離獲得單元獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。
27、 如權(quán)利要求25或26所述的系統(tǒng),其特征在于,發(fā)聲概率確定單元具 體包括拾音角度確定子單元,用于根據(jù)距離獲得單元獲得的距離,所述確定麥克 風(fēng)陣列的拾音角度;相關(guān)值確定子單元,用于分別在所述拾音角度范圍內(nèi)和范圍外,確定麥克 風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;發(fā)聲概率確定子單元,用于根據(jù)相關(guān)值確定子單元在拾音角度范圍內(nèi)確定 的最大互相關(guān)值,和在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目 標(biāo)聲源發(fā)聲的概率。
28、 如權(quán)利要求25所述的系統(tǒng),其特征在于,所述處理單元具體包括 混合比例參數(shù)確定子單元,用于根據(jù)距離獲得單元獲得的所述距離和信號(hào)混合比例參數(shù)成正比的規(guī)則,基于所述距離確定信號(hào)混合比例參數(shù);波束形成子單元,用于基于混合比例參數(shù)確定子單元確定的信號(hào)混合比例 參數(shù),對(duì)信號(hào)轉(zhuǎn)換單元轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行波束形成處理。
29、 如權(quán)利要求25所述的系統(tǒng),其特征在于,所述處理單元具體包括 增益估計(jì)子單元,用于基于所述距離和所述概率,估計(jì)噪聲消除增益; 噪聲消除子單元,用于將信號(hào)轉(zhuǎn)換單元轉(zhuǎn)換后的數(shù)字化帶噪音頻信號(hào)乘以估計(jì)得到的噪聲消除增益,得到消除噪聲后的音頻信號(hào)。
30、 如權(quán)利要求25所述的系統(tǒng),其特征在于,所述處理單元具體包括 判斷子單元,用于判斷所述概率是否大于一預(yù)定闊值; 幀間增益確定子單元,用于在判斷子單元的判斷結(jié)果為是時(shí),基于第一平滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀間平滑后得到的幀 間增益,以及在判斷子單元的判斷結(jié)果為否時(shí),基于第二平滑因子和所述概率,確定對(duì)轉(zhuǎn)換后的數(shù)字化音頻信號(hào)進(jìn)行幀間平滑后得到的幀間增益,其中第 一平滑因子 小于第二平滑因子;幀內(nèi)平滑子單元,用于基于幀間增益確定子單元確定的幀間增益,對(duì)轉(zhuǎn)換 后的數(shù)字化音頻信號(hào)進(jìn)行幀內(nèi)平滑處理。
全文摘要
本發(fā)明公開了一種控制麥克風(fēng)錄音的方法、聲源定位方法、數(shù)字化音頻信號(hào)處理方法及其對(duì)應(yīng)裝置,用以提高數(shù)碼設(shè)備的錄音效果。本發(fā)明提供的控制麥克風(fēng)錄音的方法包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;以及根據(jù)獲得的距離,調(diào)整麥克風(fēng)陣列中兩個(gè)麥克風(fēng)之間的夾角大小。本發(fā)明提供的聲源定位方法,包括在麥克風(fēng)陣列錄音過程中,獲得目標(biāo)聲源到麥克風(fēng)陣列的距離;以及根據(jù)獲得的距離,確定麥克風(fēng)陣列的拾音角度;分別在拾音角度范圍內(nèi)和范圍外,確定麥克風(fēng)陣列中兩個(gè)麥克風(fēng)接收到的音頻信號(hào)的最大互相關(guān)值;根據(jù)在拾音角度范圍內(nèi)確定的最大互相關(guān)值,和在拾音角度范圍外確定的最大互相關(guān)值的比值,來確定目標(biāo)聲源發(fā)聲的概率。
文檔編號(hào)H04R29/00GK101478711SQ20081024731
公開日2009年7月8日 申請(qǐng)日期2008年12月29日 優(yōu)先權(quán)日2008年12月29日
發(fā)明者馮宇紅, 晨 張 申請(qǐng)人:北京中星微電子有限公司