基于語(yǔ)音類(lèi)似度的混音方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及基于語(yǔ)音類(lèi)似度的混音方法。
【背景技術(shù)】
[0002] 混音是將語(yǔ)音、音樂(lè)、音效等多種音源混合的處理過(guò)程,在音樂(lè)錄音、音視頻會(huì)議 的相關(guān)應(yīng)用中,占據(jù)重要位置,混音的好壞直接影響到產(chǎn)品的成功與否。
[0003] 在多輸入多輸出的會(huì)議混音場(chǎng)景中,目前常見(jiàn)的混音方法是直接在時(shí)域基于能量 選擇混音通道,猜位疊加混音,此方法在傳統(tǒng)應(yīng)用中,如沒(méi)有噪聲和雜音的固定終端環(huán)境 下,有比較理想的效果,但若是在一個(gè)移動(dòng)場(chǎng)景中,終端差異大,噪聲、雜音等時(shí)刻變化,混 音效果就大打折扣。并且,由于不同的客戶端采集的音頻信號(hào)能量大小差異較大,基于能量 選擇混音通道會(huì)排除聲音小的客戶端。
【發(fā)明內(nèi)容】
[0004] 針對(duì)現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明的目的在于提供一種基于語(yǔ)音類(lèi)似度的混音方法, 其通過(guò)計(jì)算語(yǔ)音類(lèi)似度,將類(lèi)似度高的才參加混音,對(duì)雜音、噪聲有抑制作用。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0006] 基于語(yǔ)音類(lèi)似度的混音方法,包括如下步驟:
[0007] 步驟一:對(duì)從客戶端輸入的音頻信號(hào)進(jìn)行歸一化處理;
[0008] 步驟二;計(jì)算各語(yǔ)音通道當(dāng)前語(yǔ)音電平大小W獲得各語(yǔ)音通道當(dāng)前語(yǔ)音電平集合 V G {Vi|i G化口},其中i為語(yǔ)音通道,Vi為語(yǔ)音通道i的當(dāng)前電平值,C為語(yǔ)音通道總 數(shù)量;
[0009] 步驟H ;對(duì)輸入的音頻信號(hào)進(jìn)行分峽處理,并針對(duì)每個(gè)相應(yīng)的客戶端分峽后的各 峽音頻信號(hào)從時(shí)域變換到頻域,得到各峽音頻信號(hào)的音頻頻域數(shù)據(jù);
[0010] 步驟四:計(jì)算出每個(gè)客戶端對(duì)應(yīng)語(yǔ)音通道的語(yǔ)音類(lèi)似度Y ;
[0011] 步驟五:判斷各語(yǔ)音通道的語(yǔ)音類(lèi)似度Y是否大于預(yù)設(shè)的固定口限值F,選擇語(yǔ) 音類(lèi)似度Y大于固定口限值F的語(yǔ)音通道進(jìn)入步驟六;
[0012] 步驟六;對(duì)各語(yǔ)音通道的語(yǔ)音類(lèi)似度Y進(jìn)行排序,選擇語(yǔ)音類(lèi)似度Y的排名前M 的語(yǔ)音通道作為候選語(yǔ)音通道進(jìn)入步驟走;M為候選語(yǔ)音通道的數(shù)量;
[0013] 步驟走:各語(yǔ)音通道根據(jù)其相應(yīng)的語(yǔ)音類(lèi)似度Y和總目標(biāo)電平目,通過(guò)公式:
【主權(quán)項(xiàng)】
1. 基于語(yǔ)音類(lèi)似度的混音方法,其特征在于,包括如下步驟: 步驟一:對(duì)從客戶端輸入的音頻信號(hào)進(jìn)行歸一化處理; 步驟二:計(jì)算各語(yǔ)音通道當(dāng)前語(yǔ)音電平大小以獲得各語(yǔ)音通道當(dāng)前語(yǔ)音電平集合ve {Vi|ie (〇,C]},其中i為語(yǔ)音通道,Vi為語(yǔ)音通道i的當(dāng)前電平值,C為語(yǔ)音通道總 數(shù)量; 步驟三:對(duì)輸入的音頻信號(hào)進(jìn)行分幀處理,并針對(duì)每個(gè)相應(yīng)的客戶端分幀后的各幀音 頻信號(hào)從時(shí)域變換到頻域,得到各幀音頻信號(hào)的音頻頻域數(shù)據(jù); 步驟四:計(jì)算出每個(gè)客戶端對(duì)應(yīng)語(yǔ)音通道的語(yǔ)音類(lèi)似度Y; 步驟五:對(duì)各語(yǔ)音通道的語(yǔ)音類(lèi)似度Y進(jìn)行排序,選擇語(yǔ)音類(lèi)似度Y大于預(yù)設(shè)的固定 門(mén)限值F的語(yǔ)音通道進(jìn)入步驟六; 步驟六:對(duì)各語(yǔ)音通道的語(yǔ)音類(lèi)似度Y進(jìn)行排序,選擇語(yǔ)音類(lèi)似度Y的排名前M的語(yǔ) 音通道作為候選語(yǔ)音通道進(jìn)入步驟七;M為候選語(yǔ)音通道的數(shù)量; 步驟七:各語(yǔ)音通道根據(jù)其相應(yīng)的語(yǔ)音類(lèi)似度Y和預(yù)設(shè)的總目標(biāo)電平3,通過(guò)公式:
計(jì)算出各候選語(yǔ)音通道的目標(biāo)電平值;上述ai為候選語(yǔ)音通 道i的目標(biāo)電平值,Yd候選語(yǔ)音通道i的語(yǔ)音類(lèi)似度; 步驟八:根據(jù)各語(yǔ)音通道的電平值,通過(guò)公式g, =(1-你y+yh.-v,,) /e[〇.M]計(jì) 算出各個(gè)候選語(yǔ)音通道的電平增益,其中,gi為語(yǔ)音通道i電平增益,g為上一次的電平增 益,e為濾波器系數(shù); 步驟九:根據(jù)各候選語(yǔ)音通道的電平增益值,對(duì)候選語(yǔ)音通道通過(guò)公式:x(i,j)=gi*x(i,j),ie [〇,M]je[0,N]進(jìn)行電平提升,其中j為頻點(diǎn)編號(hào),N為各幀內(nèi)采樣點(diǎn)總個(gè) 數(shù),x(i,j)表示第i個(gè)通道的第j個(gè)音頻頻域數(shù)據(jù); 步驟十:對(duì)各候選語(yǔ)音通道的音頻頻域數(shù)據(jù)進(jìn)行疊加混音:
其中k為當(dāng)前語(yǔ)音輸出通道,之后 執(zhí)行步驟十一; 步驟十一:將疊加后的各幀音頻頻域數(shù)據(jù)從頻域反變換到時(shí)域,對(duì)疊加后的音頻信號(hào) 進(jìn)行反歸一化處理并進(jìn)行輸出。
2. 如權(quán)利要求1所述的基于語(yǔ)音類(lèi)似度的混音方法,其特征在于,步驟七還包括如下 步驟:對(duì)音頻頻域數(shù)據(jù)的電平值進(jìn)行電平修正:/e[0,M],其中 <為候選語(yǔ)音通道i上一次的電平值,d為濾波器系數(shù)。
3. 如權(quán)利要求1所述的基于語(yǔ)音類(lèi)似度的混音方法,其特征在于,步驟三通過(guò)傅里葉 變換將各幀音頻信號(hào)從時(shí)域變換到頻域:X(e) =FFT(x(f)),f G (〇,N)為時(shí)域采樣點(diǎn)序 號(hào),e e(〇,N)為頻域采樣點(diǎn)序號(hào)。
4. 如權(quán)利要求3所述的基于語(yǔ)音類(lèi)似度的混音算法,其特征在于,步驟四包括如下子 步驟: 步驟a:根據(jù)公式E(e) = |X(e) |~2,ee(0,N)計(jì)算音頻頻域數(shù)據(jù)的 各頻譜處的能量E(e); 步驟b:根據(jù)公式
統(tǒng)計(jì)音頻頻譜分 布P,其中,《3為固定值,對(duì)應(yīng)各子頻帶權(quán)重系數(shù),a為頻域采樣點(diǎn); 步驟c:根據(jù)公另
?算音頻頻域數(shù)據(jù)的短時(shí)能量 Es,b為濾波器更新系數(shù),取值范圍為[0,1],Ea為第a個(gè)頻譜能量; 步驟d:根據(jù)公¥
[音頻頻域數(shù)據(jù)的長(zhǎng)時(shí)能量 Eph為濾波器更新系數(shù),取值范圍[0,1]; 步驟e:根據(jù)公5
計(jì)算語(yǔ)音類(lèi)似度Y,其中c為常量,取值范圍 為[0,1],e表示以e為底的指數(shù)函數(shù),e= 2. 71828。
5.如權(quán)利要求1所述的基于語(yǔ)音類(lèi)似度的混音方法,其特征在于,步驟十一通過(guò)傅里 葉反變換將各幀音頻信號(hào)的音頻頻域數(shù)據(jù)從頻域反變換到時(shí)域:X(k,f) =IFFT(y(k,e)) ke(0,C)為當(dāng)前輸出通道,X(k,f)為最終時(shí)域混音數(shù)據(jù)。
【專(zhuān)利摘要】本發(fā)明涉及基于語(yǔ)音類(lèi)似度的混音方法,其對(duì)客戶端輸入的音頻信號(hào)進(jìn)行歸一化處置,將音頻信號(hào)分幀并進(jìn)行時(shí)頻變換,設(shè)置語(yǔ)音通道的目標(biāo)電平,計(jì)算語(yǔ)音通道當(dāng)前的電平大小,計(jì)算各語(yǔ)音通道的語(yǔ)音類(lèi)似度,通過(guò)語(yǔ)音類(lèi)似度和目標(biāo)電平計(jì)算各語(yǔ)音通道的電平值,并根據(jù)各語(yǔ)音通道的電平值大小計(jì)算電平增益,得到電平提升后的音頻頻域數(shù)據(jù),對(duì)音頻頻域數(shù)據(jù)進(jìn)行疊加混音,最后用傅里葉反變換將音頻頻域數(shù)據(jù)轉(zhuǎn)換為時(shí)域數(shù)據(jù)。語(yǔ)音類(lèi)似度越大,對(duì)應(yīng)的語(yǔ)音通道的電平值越大,如此可以保證混音中語(yǔ)音類(lèi)似度越大的語(yǔ)音通道的音量就越大。
【IPC分類(lèi)】H04M3-56, G10L25-48, G10L19-00
【公開(kāi)號(hào)】CN104616665
【申請(qǐng)?zhí)枴緾N201510052414
【發(fā)明人】付姝華
【申請(qǐng)人】深圳市云之訊網(wǎng)絡(luò)技術(shù)有限公司
【公開(kāi)日】2015年5月13日
【申請(qǐng)日】2015年1月30日