基于噪聲屏蔽核的說話人識別方法
【專利摘要】本發(fā)明公開了語音信號處理領(lǐng)域的一種基于噪聲屏蔽核的說話人識別方法。該方法包括:步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征;步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM;步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM;步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM;步驟5:用混合GMM生成噪聲屏蔽超矢量;步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。該方法可以對音頻中含有的噪聲進(jìn)行自動屏蔽,且實現(xiàn)簡單,可以有效提高噪聲條件下說話人識別的性能。
【專利說明】基于噪聲屏蔽核的說話人識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音信號處理領(lǐng)域,尤其涉及一種基于噪聲屏蔽核的說話人識別方法。
【背景技術(shù)】
[0002]說話人識別技術(shù)可以通過語音識別說話人的身份,它在遠(yuǎn)程身份認(rèn)證、信息安全等領(lǐng)域有著廣泛的應(yīng)用。目前在說話人識別領(lǐng)域,GSV-SVM (基于高斯混合模型均值超矢量的支持向量機)是一種常用的方法,它先利用UBM (通用背景模型)生成GSV (高斯混合模型均值超矢量),然后再用SVM (支持向量機)進(jìn)行說話人識別。該方法容易受噪聲的影響,為了解決這一問題,一般在前端進(jìn)行語音增強,或者建模時采用信道補償技術(shù)。但這些方法都需要引入額外的模塊來處理噪聲,實現(xiàn)時較為復(fù)雜。
【發(fā)明內(nèi)容】
[0003]針對上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種基于噪聲屏蔽核的說話人識別方法,其特征在于,所述方法具體包括以下步驟:
[0004]步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征;
[0005]步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM ;
[0006]步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM ;
[0007]步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM ;
[0008]步驟5:用混合GMM生成噪聲屏蔽超矢量;
[0009]步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。
[0010]所述步驟I中短時特征采用短時倒譜特征,短時倒譜特征類型是線性預(yù)測倒譜系統(tǒng)LPCC、美爾頻標(biāo)倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP。
[0011]所述步驟I中短時特征還能夠采用短時能量、短時過零率、短時相關(guān)系數(shù)。
[0012]所述步驟2和步驟3中GMM模型訓(xùn)練方法采用EM算法。
[0013]所述步驟2中M取值是幾百至幾千,所述步驟3中N取值是幾十至幾百,M取值為ION以上。
[0014]所述步驟4中GMM拼接方法為:設(shè)語音GMM參數(shù)為{?,Σ1,^ = 1,...,Μ},噪聲6麗參數(shù)為{0二義^ = 1,...,#},其中界
為高斯混元的權(quán)重,μ為高斯混元的均值向量,Σ為高斯混元的方差矩陣,下標(biāo)m為高斯混元的標(biāo)號,上標(biāo)s表示語音,上標(biāo)η表示噪聲,則混合GMM的參數(shù)為:[0015]
【權(quán)利要求】
1.一種基于噪聲屏蔽核的說話人識別方法,其特征在于,該方法具體包括以下步驟: 步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征; 步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM ; 步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM ; 步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM ; 步驟5:用混合GMM生成噪聲屏蔽超矢量; 步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。
2.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟I中短時特征采用短時倒譜特征,短時倒譜特征類型是線性預(yù)測倒譜系統(tǒng)LPCC、美爾頻標(biāo)倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP。
3.根據(jù)權(quán)利要求1或2所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟I中短時特征還能夠采用短時能量、短時過零率、短時相關(guān)系數(shù)。
4.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟2和步驟3中GMM模型訓(xùn)練方法采用EM算法。
5.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟2中M取值是幾百至幾千,所述步驟3中N取值是幾十至幾百,M取值為ION以上。
6.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟4中GMM拼接方法為:設(shè)語音GMM參數(shù)為{
7.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟5中噪聲屏蔽超矢量的產(chǎn)生方法為僅計算前M個混元對應(yīng)的維,屏蔽掉噪聲對應(yīng)的維。
8.根據(jù)權(quán)利要求1或7所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟5中噪聲屏蔽超矢量的具體產(chǎn)生方法如下: 步驟501:假設(shè)一段音頻的短時倒譜特征為{xt,t=l,…,Τ},其中X為一幀特征,下標(biāo)t為幀標(biāo)號,T為總幀數(shù),逐幀計算各個高斯混元的后驗概率,t=l,…,T,m=l,…,M:
9.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述SVM的訓(xùn)練和測試中核函數(shù)采用線性核。
【文檔編號】G10L17/20GK103714818SQ201310681894
【公開日】2014年4月9日 申請日期:2013年12月12日 優(yōu)先權(quán)日:2013年12月12日
【發(fā)明者】張衛(wèi)強, 劉加 申請人:清華大學(xué)