国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于噪聲屏蔽核的說話人識別方法

      文檔序號:2826513閱讀:226來源:國知局
      基于噪聲屏蔽核的說話人識別方法
      【專利摘要】本發(fā)明公開了語音信號處理領(lǐng)域的一種基于噪聲屏蔽核的說話人識別方法。該方法包括:步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征;步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM;步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM;步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM;步驟5:用混合GMM生成噪聲屏蔽超矢量;步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。該方法可以對音頻中含有的噪聲進(jìn)行自動屏蔽,且實現(xiàn)簡單,可以有效提高噪聲條件下說話人識別的性能。
      【專利說明】基于噪聲屏蔽核的說話人識別方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于語音信號處理領(lǐng)域,尤其涉及一種基于噪聲屏蔽核的說話人識別方法。
      【背景技術(shù)】
      [0002]說話人識別技術(shù)可以通過語音識別說話人的身份,它在遠(yuǎn)程身份認(rèn)證、信息安全等領(lǐng)域有著廣泛的應(yīng)用。目前在說話人識別領(lǐng)域,GSV-SVM (基于高斯混合模型均值超矢量的支持向量機)是一種常用的方法,它先利用UBM (通用背景模型)生成GSV (高斯混合模型均值超矢量),然后再用SVM (支持向量機)進(jìn)行說話人識別。該方法容易受噪聲的影響,為了解決這一問題,一般在前端進(jìn)行語音增強,或者建模時采用信道補償技術(shù)。但這些方法都需要引入額外的模塊來處理噪聲,實現(xiàn)時較為復(fù)雜。

      【發(fā)明內(nèi)容】

      [0003]針對上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種基于噪聲屏蔽核的說話人識別方法,其特征在于,所述方法具體包括以下步驟:
      [0004]步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征;
      [0005]步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM ;
      [0006]步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM ;
      [0007]步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM ;
      [0008]步驟5:用混合GMM生成噪聲屏蔽超矢量;
      [0009]步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。
      [0010]所述步驟I中短時特征采用短時倒譜特征,短時倒譜特征類型是線性預(yù)測倒譜系統(tǒng)LPCC、美爾頻標(biāo)倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP。
      [0011]所述步驟I中短時特征還能夠采用短時能量、短時過零率、短時相關(guān)系數(shù)。
      [0012]所述步驟2和步驟3中GMM模型訓(xùn)練方法采用EM算法。
      [0013]所述步驟2中M取值是幾百至幾千,所述步驟3中N取值是幾十至幾百,M取值為ION以上。
      [0014]所述步驟4中GMM拼接方法為:設(shè)語音GMM參數(shù)為{?,Σ1,^ = 1,...,Μ},噪聲6麗參數(shù)為{0二義^ = 1,...,#},其中界
      為高斯混元的權(quán)重,μ為高斯混元的均值向量,Σ為高斯混元的方差矩陣,下標(biāo)m為高斯混元的標(biāo)號,上標(biāo)s表示語音,上標(biāo)η表示噪聲,則混合GMM的參數(shù)為:[0015]
      【權(quán)利要求】
      1.一種基于噪聲屏蔽核的說話人識別方法,其特征在于,該方法具體包括以下步驟: 步驟1:輸入音頻數(shù)據(jù),對音頻數(shù)據(jù)逐幀提取短時特征; 步驟2:采用語音數(shù)據(jù)的短時特征訓(xùn)練一個含M個高斯混元的GMM模型,記為語音GMM ; 步驟3:采用噪聲數(shù)據(jù)的短時特征訓(xùn)練一個含N個高斯混元的GMM模型,記為噪聲GMM ; 步驟4:將語音GMM和噪聲GMM拼接成一個混合GMM ; 步驟5:用混合GMM生成噪聲屏蔽超矢量; 步驟6:采用生成的噪聲屏蔽超矢量進(jìn)行SVM的訓(xùn)練和測試,完成說話人的訓(xùn)練和識別。
      2.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟I中短時特征采用短時倒譜特征,短時倒譜特征類型是線性預(yù)測倒譜系統(tǒng)LPCC、美爾頻標(biāo)倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP。
      3.根據(jù)權(quán)利要求1或2所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟I中短時特征還能夠采用短時能量、短時過零率、短時相關(guān)系數(shù)。
      4.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟2和步驟3中GMM模型訓(xùn)練方法采用EM算法。
      5.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟2中M取值是幾百至幾千,所述步驟3中N取值是幾十至幾百,M取值為ION以上。
      6.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟4中GMM拼接方法為:設(shè)語音GMM參數(shù)為{
      7.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟5中噪聲屏蔽超矢量的產(chǎn)生方法為僅計算前M個混元對應(yīng)的維,屏蔽掉噪聲對應(yīng)的維。
      8.根據(jù)權(quán)利要求1或7所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述步驟5中噪聲屏蔽超矢量的具體產(chǎn)生方法如下: 步驟501:假設(shè)一段音頻的短時倒譜特征為{xt,t=l,…,Τ},其中X為一幀特征,下標(biāo)t為幀標(biāo)號,T為總幀數(shù),逐幀計算各個高斯混元的后驗概率,t=l,…,T,m=l,…,M:
      9.根據(jù)權(quán)利要求1所述的基于噪聲屏蔽核的說話人識別方法,其特征在于,所述SVM的訓(xùn)練和測試中核函數(shù)采用線性核。
      【文檔編號】G10L17/20GK103714818SQ201310681894
      【公開日】2014年4月9日 申請日期:2013年12月12日 優(yōu)先權(quán)日:2013年12月12日
      【發(fā)明者】張衛(wèi)強, 劉加 申請人:清華大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1