基于支持向量機(jī)的說(shuō)話人確認(rèn)方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,包括如下步驟:建立通用信道模型;將純凈語(yǔ)音經(jīng)過(guò)所述通用信道模型,提取純凈特征參數(shù);對(duì)測(cè)試語(yǔ)音直接提取測(cè)試特征參數(shù);將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,組合成融合特征參數(shù);將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。所述建立通用信道模型具體是:通過(guò)對(duì)來(lái)自不同信道的訓(xùn)練語(yǔ)音融合為一個(gè)多通道信息的帶通濾波器;其中,所述訓(xùn)練語(yǔ)音為純凈語(yǔ)音。本發(fā)明還對(duì)應(yīng)公開了一種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),包括建模模塊、提取模塊、融合模塊和確認(rèn)模塊。采用本發(fā)明,具有識(shí)別率高的特點(diǎn)。
【專利說(shuō)明】
基于支持向量機(jī)的說(shuō)話人確認(rèn)方法及其系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于說(shuō)話人識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方 法及其系統(tǒng)。
【背景技術(shù)】
[0002] 說(shuō)話人識(shí)別屬于生物識(shí)別技術(shù)的一種,以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu) 勢(shì)受到世人矚目,廣泛應(yīng)用于安全控制、保密部門身份驗(yàn)證、法庭鑒別等行業(yè)。
[0003] 與文本無(wú)關(guān)的說(shuō)話人識(shí)別技術(shù)是當(dāng)前研究重點(diǎn),目前最常用的方法有:基于VQ矢 量量化的方法,基于HMM概率統(tǒng)計(jì)模型的方法,基于GMM高斯混合模型的方法和基于ANN人工 神經(jīng)網(wǎng)絡(luò)的方法等.目前基于GMM的說(shuō)話人識(shí)別系統(tǒng),在安靜環(huán)境下用高品質(zhì)話筒采集語(yǔ) 音,對(duì)于幾十名話者的識(shí)別率可達(dá)90%以上.
[0004] 但對(duì)于實(shí)際GSM網(wǎng)絡(luò)傳輸?shù)碾娫捳Z(yǔ)音,存在噪聲的實(shí)際環(huán)境語(yǔ)音進(jìn)行識(shí)別時(shí)性能 顯著惡化.識(shí)別環(huán)境與訓(xùn)練環(huán)境失配導(dǎo)致的語(yǔ)音聲學(xué)參數(shù)的變異是識(shí)別率下降的主要原 因.減小環(huán)境失配影響的方法主要有特征參數(shù)補(bǔ)償和魯棒特征提取。MFCC就是一種目前廣 泛采用具有魯棒性的參數(shù);實(shí)際應(yīng)用中的特征參數(shù)補(bǔ)償技術(shù)有:譜減法(SS)倒譜均值減。 (CMS)、特征映射等.其中譜減法主要用于消除環(huán)境中的加性干擾噪聲,CMS可用于消除線性 信道干擾.而特征映射需要首先訓(xùn)練一個(gè)通用背景模型(GMMUBM) ,GMM-UBM結(jié)構(gòu)復(fù)雜而且收 斂速度較慢.
[0005] 現(xiàn)有采用MFCC參數(shù),基于GMM模型,設(shè)計(jì)了一個(gè)30人的說(shuō)話人識(shí)別系統(tǒng),在干凈環(huán) 境(訓(xùn)練和識(shí)別語(yǔ)音未受任何加性和卷積噪聲影響)下該系統(tǒng)的識(shí)別率可以達(dá)到93%,然而 在通信環(huán)境下(識(shí)別語(yǔ)音來(lái)自無(wú)線信道),識(shí)別率則大幅度下降,只能達(dá)到58%.對(duì)訓(xùn)練和識(shí) 別語(yǔ)音都做了CMS處理之后,系統(tǒng)識(shí)別率提升了 14%,但是對(duì)于總體而言,識(shí)別率還是不能 滿足更高的要求。
[0006] 因此,通過(guò)支持向量機(jī)(Support Vector Machine,SVM)的說(shuō)話人模型,是一種區(qū) 分性模型,著眼于兩類數(shù)據(jù)的邊界描述,不注重某類數(shù)據(jù)內(nèi)部的分布,具有良好的區(qū)分性。 但是在實(shí)際測(cè)試過(guò)程總,在低頻部分,信道變化比較大,而高頻分變化比較小,在改善訓(xùn)練 和測(cè)試語(yǔ)音的特征參數(shù)匹配度上依然不高,最后導(dǎo)致識(shí)別率不高。
【發(fā)明內(nèi)容】
[0007] 為了解決上述問(wèn)題,本發(fā)明的第一目的提供一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方 法,具有識(shí)別率高的特點(diǎn)。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
[0009] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,包括如下步驟:
[0010]建立通用信道模型;
[0011] 將純凈語(yǔ)音經(jīng)過(guò)所述通用信道模型,提取純凈特征參數(shù);
[0012] 對(duì)測(cè)試語(yǔ)音直接提取測(cè)試特征參數(shù);
[0013] 將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,組合成融合特征參數(shù);
[0014] 將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。
[0015] 進(jìn)一步地,所述建立通用信道模型具體是:通過(guò)對(duì)來(lái)自不同信道的訓(xùn)練語(yǔ)音融合 為一個(gè)多通道信息的帶通濾波器;其中,所述訓(xùn)練語(yǔ)音為純凈語(yǔ)音。
[0016] 進(jìn)一步地,所述將純凈特征參數(shù)和測(cè)試特征參數(shù)融合步驟具體是:
[0017] 將純凈特征參數(shù)進(jìn)行向量化,得到純凈高維向量;
[0018] 將測(cè)試特征參數(shù)進(jìn)行向量化,得到測(cè)試高維向量;
[0019] 然后將純凈高維向量和測(cè)試高維向量堆疊在一起,組合成融合特征參數(shù)。
[0020] 進(jìn)一步地,對(duì)所述純凈特征參數(shù)和測(cè)試特征參數(shù)的提取都包括對(duì)Mel頻率倒譜系 數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP的提取。
[0021] 進(jìn)一步地,所述將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn) 結(jié)果的具體步驟是:
[0022I對(duì)融合特征參數(shù)進(jìn)行預(yù)處理;
[0023] 提取預(yù)處理后的語(yǔ)音信息的特征參數(shù);
[0024] 將所述特征參數(shù)與支持向量機(jī)模型的相關(guān)特征參數(shù)進(jìn)行匹配,判斷是否匹配,如 果是,則輸出"肯定";否則,則輸出"否定"。
[0025] 本發(fā)明的第二目的提供一種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),具有識(shí)別率高的 特點(diǎn)。
[0026] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
[0027] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)的系統(tǒng),包括:
[0028] 建模模塊,用于建立通用信道模型;
[0029] 提取模塊,用于提取純凈語(yǔ)音和測(cè)試語(yǔ)音的特征參數(shù),分別得到純凈特征參數(shù)和 測(cè)試特征參數(shù),其中所述純凈語(yǔ)音首先需要經(jīng)過(guò)所述通用信道模型;
[0030] 融合模塊,用于將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,得到融合特征參數(shù);
[0031] 確認(rèn)模塊,用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn) 結(jié)果。
[0032] 本發(fā)明的第三目的提供一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,具有識(shí)別率高的 特點(diǎn)。
[0033] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
[0034] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,包括如下步驟:
[0035] 將純凈語(yǔ)音進(jìn)行特征參數(shù)的提取,得到純凈特征參數(shù);
[0036] 將純凈特征參數(shù)進(jìn)行特征補(bǔ)償,得到純凈補(bǔ)償特征參數(shù);
[0037] 將訓(xùn)練語(yǔ)音進(jìn)行特征參數(shù)的提取,得到訓(xùn)練特征參數(shù);
[0038] 將訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,得到訓(xùn)練補(bǔ)償特征參數(shù);
[0039] 將純凈補(bǔ)償特征參數(shù)與訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行融合,得到融合補(bǔ)償特征參數(shù);
[0040] 將融合補(bǔ)償特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。
[0041] 進(jìn)一步地,所述將純凈特征參數(shù)進(jìn)行特征補(bǔ)償?shù)木唧w步驟是:利用NMF非負(fù)矩陣分 解算法對(duì)純凈特征參數(shù)進(jìn)行增加和降噪處理;
[0042] 所述將訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償?shù)木唧w步驟是:利用NMF非負(fù)矩陣分解算法對(duì) 訓(xùn)練特征參數(shù)進(jìn)行增加和降噪處理;所述將純凈補(bǔ)償特征參數(shù)與訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行融 合步驟具體是:將純凈補(bǔ)償特征參數(shù)進(jìn)行向量化,得到純凈補(bǔ)償高維向量;將訓(xùn)練補(bǔ)償特征 參數(shù)進(jìn)行向量化,得到訓(xùn)練補(bǔ)償高維向量;然后將純凈補(bǔ)償高維向量和訓(xùn)練補(bǔ)償高維向量 堆疊在一起,得到融合補(bǔ)償特征參數(shù)。
[O 04 3 ]進(jìn)一步地,對(duì)所述純凈特征參數(shù)和訓(xùn)練特征參數(shù)的提取都包括對(duì)M e 1頻率倒譜系 數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP的提取。
[0044] 本發(fā)明的第四目的提供一種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),具有識(shí)別率高的 特點(diǎn)。
[0045] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
[0046] 提取模塊,用于提取純凈語(yǔ)音和訓(xùn)練語(yǔ)音的特征參數(shù),分別得到純凈特征參數(shù)和 訓(xùn)練特征參數(shù);
[0047] 補(bǔ)償模塊,用于對(duì)純凈特征參數(shù)和訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,分別得到純凈補(bǔ) 償特征參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù);
[0048] 融合模塊,用于將純凈特征補(bǔ)償參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)入融合,得到融合補(bǔ) 償特征參數(shù);
[0049] 確認(rèn)模塊,用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn) 結(jié)果。
[0050] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0051] 本發(fā)明所述的一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其中第一種方式是利用建 立通用信道模型,然后將純凈語(yǔ)音通過(guò)通用信道模型中進(jìn)行濾波后,進(jìn)行特征參數(shù)的提取, 得到純凈特征參數(shù);與此同時(shí),將測(cè)試語(yǔ)音直接進(jìn)行特征參數(shù)的提取,得到測(cè)試特征參數(shù); 然后將純凈特征參數(shù)與測(cè)試特征參數(shù)進(jìn)行融合,得到融合特征參數(shù)。最后將所述融合特征 參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。其利用了在對(duì)不同信道的測(cè)試 結(jié)果中,多次測(cè)量得到的信道特征類似,所以采用在前期對(duì)已測(cè)信道特征的統(tǒng)計(jì)平均作為 實(shí)際信道的通用模型,并且將純凈語(yǔ)音通過(guò)該通用信道模型作為訓(xùn)練語(yǔ)音,通過(guò)實(shí)驗(yàn)表明, 經(jīng)過(guò)該方式處理后,識(shí)別率有所提升。另外,對(duì)應(yīng)于本發(fā)明所述的一種基于支持向量機(jī)的說(shuō) 話人確認(rèn)系統(tǒng),其采用對(duì)應(yīng)的建模模塊用于建立通用信道模型,然后通過(guò)提取模塊用于提 取純凈語(yǔ)音以及測(cè)試語(yǔ)音的特征參數(shù),然后在通過(guò)融合模塊對(duì)純凈特征慘呼和測(cè)試特征參 數(shù)融合,然后得到融合特征參數(shù),該融合特征參數(shù)經(jīng)過(guò)確認(rèn)模塊進(jìn)行確認(rèn),得出最后的確認(rèn) 結(jié)果。
[0052] 本發(fā)明所述的另一種基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,通過(guò)將提取的特征參數(shù) 進(jìn)行補(bǔ)償,進(jìn)而去除第一維和第二維的特征參數(shù),接著再將補(bǔ)償后的純凈補(bǔ)償特征參數(shù)進(jìn) 行融合,得到融合補(bǔ)償特征參數(shù),該融合補(bǔ)償特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹 配后,得出確認(rèn)結(jié)果。該方法通過(guò)對(duì)提取的特征參數(shù)進(jìn)行補(bǔ)償后,將對(duì)識(shí)別存在較大影響的 第一維系數(shù)和第二維系數(shù)去掉,從而對(duì)整個(gè)識(shí)別效果會(huì)得到一定改善。另外,與之對(duì)應(yīng)的一 種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),其設(shè)置有提取模塊,補(bǔ)償模塊,融合模塊以及確認(rèn)模 塊,其中補(bǔ)償模塊用于對(duì)純凈特征參數(shù)和訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,使得提取后的特征 參數(shù)的特征的局部可區(qū)分化,進(jìn)而提高了識(shí)別效果。
【附圖說(shuō)明】
[0053] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)的說(shuō)明,其中:
[0054] 圖1是本發(fā)明所述的基于支持向量機(jī)說(shuō)話人確認(rèn)方法中的實(shí)施例1的流程圖;
[0055] 圖2是本發(fā)明所述的基于支持向量機(jī)說(shuō)話人確認(rèn)方法中的實(shí)施例1的結(jié)構(gòu)示意圖;
[0056] 圖3是本發(fā)明所述的基于支持向量機(jī)說(shuō)話人確認(rèn)方法中的實(shí)施例2的流程圖;
[0057] 圖4是本發(fā)明所述的基于支持向量機(jī)說(shuō)話人確認(rèn)方法中的實(shí)施例2的結(jié)構(gòu)示意圖;
[0058] 圖5是本發(fā)明所述的基于支持向量機(jī)說(shuō)話人確認(rèn)方法將實(shí)施例1和實(shí)施例2分別實(shí) 驗(yàn)的示意圖。
[0059] 圖中:
[0060] 1:建模模塊2:提取模塊3:融合模塊4:確認(rèn)模塊5:補(bǔ)償模塊
【具體實(shí)施方式】
[0061]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí) 施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0062] 實(shí)施例1:
[0063]本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,通過(guò)對(duì)前端的訓(xùn)練語(yǔ)音進(jìn)行處 理,去除不同信道帶來(lái)的測(cè)試結(jié)果的影響,因此建立通用信道模型,該通用信道模型是通過(guò) 前期已測(cè)信道特征的統(tǒng)計(jì)平均作為實(shí)際信道的通用模型,因此避免了每次信道不同帶來(lái)的 識(shí)別影響。具體步驟如下:
[0064] S101:建立通用信道模型;
[0065] 通過(guò)對(duì)來(lái)自不同信道的訓(xùn)練語(yǔ)音融合為一個(gè)多通道信息的帶通濾波器,也即是通 過(guò)前期已測(cè)信道特征的統(tǒng)計(jì)平均作為實(shí)際信道的通用模型;其中,所述訓(xùn)練語(yǔ)音為純凈語(yǔ) 音。
[0066] S102:將純凈語(yǔ)音經(jīng)過(guò)所述通用信道模型,提取純凈特征參數(shù);
[0067] 該提取的特征參數(shù)包括Mel頻率倒譜系數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP。
[0068] S103:對(duì)測(cè)試語(yǔ)音直接提取測(cè)試特征參數(shù);
[0069] S104:將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,組合成融合特征參數(shù);
[0070] 將純凈特征參數(shù)和測(cè)試特征參數(shù)分析進(jìn)行向量化,得到純凈特征高維向量和測(cè)試 特征高維向量,然后將高維向量堆疊在一起,得到融合特征參數(shù)。
[0071 ] S105:將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果:
[0072] 其具體還包括:S1051:對(duì)融合特征參數(shù)進(jìn)行預(yù)處理,所述預(yù)處理包括預(yù)加重處理 和分幀加窗處理,其中預(yù)加重處理用以去除輻射影響,分幀加窗處理用于克服吉布斯現(xiàn)象。 通過(guò)傳遞函數(shù)H(Z) = Iif1的一階高通濾波器濾波實(shí)現(xiàn)預(yù)加重,其中a為預(yù)加重系數(shù);同時(shí) 語(yǔ)音信號(hào)的分幀加窗,主要是為了克服吉布斯現(xiàn)象,使語(yǔ)音在短時(shí)(IOms~40ms)內(nèi)能夠平 滑過(guò)渡,保持其連續(xù)性,更加穩(wěn)定.本文采用Hamming窗,其時(shí)域形式為:
[0073]
[0074] S1052:提取預(yù)處理后的語(yǔ)音信息的特征參數(shù),具體如下:
[0075] 先對(duì)語(yǔ)音信號(hào)端點(diǎn)檢測(cè)以提取語(yǔ)音的有用部分,去除靜音段.因?yàn)闈嵋舻哪芰枯^ 大,清音和靜音的能量較小,但清音的短時(shí)過(guò)零率很大,所以本文采用基于短時(shí)能量和過(guò)零 率雙門限判別法提取有聲部分。端點(diǎn)檢測(cè)之后,對(duì)語(yǔ)音幀進(jìn)行短時(shí)傅里葉變換并計(jì)算其短 時(shí)能量譜,再用S個(gè)Mel帶通濾波器組濾波,最后對(duì)這S個(gè)濾波器的輸出功率取對(duì)數(shù)和反離散 余弦變換之后就得到S個(gè)MFCC系數(shù).一般取S前1216個(gè)。
[0076] S1053:將所述特征參數(shù)與支持向量機(jī)模型的相關(guān)特征參數(shù)進(jìn)行匹配,判斷是否匹 配,如果是,則輸出"肯定";否則,則輸出"否定"。
[0077] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,通過(guò)建立通用信道模型,保證 訓(xùn)練語(yǔ)音能適用于各種不同的信道,進(jìn)而保證后續(xù)再識(shí)別過(guò)程中的效率提高。
[0078] 與之對(duì)應(yīng)的基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),包括如圖2所示的組成結(jié)構(gòu),具體 包括建模模塊1、提取模塊2、融合模塊3和確認(rèn)模塊4。
[0079] 其中,所述建模模塊1用于建立通用信道模型;
[0080] 所述提取模塊2用于提取純凈語(yǔ)音和測(cè)試語(yǔ)音的特征參數(shù),分別得到純凈特征參 數(shù)和測(cè)試特征參數(shù),其中所述純凈語(yǔ)音首先需要經(jīng)過(guò)所述通用信道模型;其中純凈特征參 數(shù)和測(cè)試特征參數(shù)的提取都包括對(duì)Mel頻率倒譜系數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP的提取。
[0081] 所述融合模塊3用于將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,得到融合特征參數(shù);
[0082] 所述確認(rèn)模塊4用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出 確認(rèn)結(jié)果。
[0083] 在所述確認(rèn)模塊4在進(jìn)行匹配的過(guò)程中,具體包括有對(duì)融合特征參數(shù)的預(yù)處理,該 預(yù)處理有包括有預(yù)加重處理和分幀加窗處理,其中預(yù)加重處理用以去除輻射影響,分幀加 窗處理用于克服吉布斯現(xiàn)象。通過(guò)傳遞函數(shù)H(Z) = Iif1的一階高通濾波器濾波實(shí)現(xiàn)預(yù)加 重,其中a為預(yù)加重系數(shù);同時(shí)語(yǔ)音信號(hào)的分幀加窗,主要是為了克服吉布斯現(xiàn)象,使語(yǔ)音在 短時(shí)(IOms~40ms)內(nèi)能夠平滑過(guò)渡,保持其連續(xù)性,更加穩(wěn)定.本文采用Hamming窗,其時(shí)域 形式為:
[0084]
[0085] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法和系統(tǒng),是通過(guò)對(duì)訓(xùn)練語(yǔ)音進(jìn)行 前端處理,即設(shè)計(jì)一個(gè)通用信道模型,該通用信號(hào)模型是用于對(duì)已測(cè)信道特征的統(tǒng)計(jì)平均 作為實(shí)際信道的通用模型,因此避免了每次信道不同帶來(lái)的不良影響。
[0086] 實(shí)施例2:
[0087]本發(fā)明另一種所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,是建立在對(duì)于已經(jīng)提取 特征參數(shù)的訓(xùn)練語(yǔ)音和純凈語(yǔ)音進(jìn)行補(bǔ)償,該補(bǔ)償可以對(duì)特征參數(shù)進(jìn)行增加和降噪處理, 使得補(bǔ)償后的特征參數(shù)的局部可區(qū)分性提高,進(jìn)而為后序的確認(rèn)效果提高打下了基礎(chǔ)。如 圖3所示,具體步驟如下:
[0088I S201:將純凈語(yǔ)音進(jìn)行特征參數(shù)的提取,得到純凈特征參數(shù);
[0089] 該提取過(guò)程中,包括對(duì)Mel頻率倒譜系數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP的提取。
[0090] S202:將純凈特征參數(shù)進(jìn)行特征補(bǔ)償,得到純凈補(bǔ)償特征參數(shù);
[0091]該步驟中采用了 NMF非負(fù)矩陣分解算法對(duì)特征參數(shù)進(jìn)行補(bǔ)償,具體對(duì)特征參數(shù)進(jìn) 行增加和降噪處理,以提高局部可區(qū)分性。
[0092] S203:將訓(xùn)練語(yǔ)音進(jìn)行特征參數(shù)的提取,得到訓(xùn)練特征參數(shù);
[0093] 該提取過(guò)程中,包括對(duì)Mel頻率倒譜系數(shù)MFCC和感知線性預(yù)測(cè)系統(tǒng)PLP的提取。
[0094] S204:將訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,得到訓(xùn)練補(bǔ)償特征參數(shù);
[0095] S205:將純凈補(bǔ)償特征參數(shù)與訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行融合,得到融合補(bǔ)償特征參 數(shù);
[0096] 該步驟中具體是對(duì)純凈補(bǔ)償特征參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù)分寫進(jìn)行向量化處理, 得到高維向量,然后將得到的高維向量堆疊在一起。
[0097] S206:將融合補(bǔ)償特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。 [0098]該步驟具體還包括:
[00"] 其具體還包括:S2051:對(duì)融合補(bǔ)償特征參數(shù)進(jìn)行預(yù)處理,所述預(yù)處理包括預(yù)加重 處理和分幀加窗處理,其中預(yù)加重處理用以去除輻射影響,分幀加窗處理用于克服吉布斯 現(xiàn)象。通過(guò)傳遞函數(shù)H(Z) = I^z-1的一階高通濾波器濾波實(shí)現(xiàn)預(yù)加重,其中a為預(yù)加重系數(shù); 同時(shí)語(yǔ)音信號(hào)的分幀加窗,主要是為了克服吉布斯現(xiàn)象,使語(yǔ)音在短時(shí)(IOms~40ms)內(nèi)能 夠平滑過(guò)渡,保持其連續(xù)性,更加穩(wěn)定.本文采用Hamming窗,其時(shí)域形式為:
[0100]
[0101] S2052:提取預(yù)處理后的語(yǔ)音信息的特征參數(shù),具體如下:
[0102] 先對(duì)語(yǔ)音信號(hào)端點(diǎn)檢測(cè)以提取語(yǔ)音的有用部分,去除靜音段。因?yàn)闈嵋舻哪芰枯^ 大,清音和靜音的能量較小,但清音的短時(shí)過(guò)零率很大,所以本文采用基于短時(shí)能量和過(guò)零 率雙門限判別法提取有聲部分。端點(diǎn)檢測(cè)之后,對(duì)語(yǔ)音幀進(jìn)行短時(shí)傅里葉變換并計(jì)算其短 時(shí)能量譜,再用S個(gè)Mel帶通濾波器組濾波,最后對(duì)這S個(gè)濾波器的輸出功率取對(duì)數(shù)和反離散 余弦變換之后就得到S個(gè)MFCC系數(shù).一般取S前1216個(gè)。
[0103] S2053:將所述特征參數(shù)與支持向量機(jī)模型的相關(guān)特征參數(shù)進(jìn)行匹配,判斷是否匹 配,如果是,則輸出"肯定";否則,則輸出"否定"。
[0104] 本發(fā)明所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,通過(guò)對(duì)已經(jīng)提取特征參數(shù)的訓(xùn) 練語(yǔ)音和純凈語(yǔ)音進(jìn)行補(bǔ)償,該補(bǔ)償可以對(duì)特征參數(shù)進(jìn)行增加和降噪處理,使得補(bǔ)償后的 特征參數(shù)的局部可區(qū)分性提尚,以便后續(xù)提尚確認(rèn)效率。
[0105] 與之對(duì)應(yīng)的基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),包括如圖4所示的組成結(jié)構(gòu),具體 包括提取模塊2、補(bǔ)償模塊5、融合模塊3和確認(rèn)模塊4,其中:
[0106] 所述提取模塊2用于提取純凈語(yǔ)音和訓(xùn)練語(yǔ)音的特征參數(shù),分別得到純凈特征參 數(shù)和訓(xùn)練特征參數(shù);
[0107] 所述補(bǔ)償模塊5用于對(duì)純凈特征參數(shù)和訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,分別得到純 凈補(bǔ)償特征參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù);該補(bǔ)償模塊5利用NMF非負(fù)矩陣分解算法對(duì)特征參數(shù) 進(jìn)行增加和降噪處理,進(jìn)而使得特征參數(shù)的局部可區(qū)分性提高。
[0108] 所述融合模塊3用于將純凈特征補(bǔ)償參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)入融合,得到融 合補(bǔ)償特征參數(shù);
[0109] 所述確認(rèn)模塊4用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出 確認(rèn)結(jié)果。
[0110] 在所述確認(rèn)模塊4在進(jìn)行匹配的過(guò)程中,具體包括有對(duì)融合特征參數(shù)的預(yù)處理,該 預(yù)處理有包括有預(yù)加重處理和分幀加窗處理,其中預(yù)加重處理用以去除輻射影響,分幀加 窗處理用于克服吉布斯現(xiàn)象。通過(guò)傳遞函數(shù)H(Z) = Iif1的一階高通濾波器濾波實(shí)現(xiàn)預(yù)加 重,其中a為預(yù)加重系數(shù);同時(shí)語(yǔ)音信號(hào)的分幀加窗,主要是為了克服吉布斯現(xiàn)象,使語(yǔ)音在 短時(shí)(IOms~40ms)內(nèi)能夠平滑過(guò)渡,保持其連續(xù)性,更加穩(wěn)定.本文采用Hamming窗,其時(shí)域 形式為:
[0111]
[0112] 為了更好的體現(xiàn)兩種方式的識(shí)別率高的特點(diǎn),本發(fā)明如下具體實(shí)例進(jìn)行比較測(cè) 試:
[0113] 在實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)來(lái)源于國(guó)際知名語(yǔ)音庫(kù)Timit,隨機(jī)選取其中30個(gè)說(shuō)話人,每人10 句發(fā)音,作為實(shí)驗(yàn)測(cè)試對(duì)象。Timit數(shù)據(jù)庫(kù)的語(yǔ)音本身為16khz采樣率,由于一般電話信道帶 寬小于4kHz,為了減小輸入輸出語(yǔ)音的不匹配程度,我們將所有試驗(yàn)用語(yǔ)音都降采樣為 8khz.實(shí)驗(yàn)方法如圖5所示,兩臺(tái)電腦Cl和C2放置于不同地點(diǎn),將用到的300句語(yǔ)音存放在Cl 中,隨機(jī)選擇兩部電話A和B分別放置于兩電腦旁,用A電話呼叫B電話,B接聽,保持通話中. 將Cl的播放功能打開,C2的錄音功能打開.按順序播放A旁邊的電腦Cl中的300句語(yǔ)音,由電 話A通過(guò)基站傳給電話B,并用B旁邊的電腦C2錄下來(lái)。
[0114] 本發(fā)明中采用GMM-EM算法訓(xùn)練得到各說(shuō)話人的GMM模型.文中將原始的不通過(guò)無(wú) 線信道的語(yǔ)音稱為干凈語(yǔ)音,將通過(guò)信道的語(yǔ)音稱為信道語(yǔ)音,然后將用干凈和信道來(lái)代 替這兩種語(yǔ)音.每一個(gè)說(shuō)話人,4句用于訓(xùn)練,6句用于識(shí)別。我們通過(guò)測(cè)量多部電話機(jī),一共 采用了300句語(yǔ)音做實(shí)驗(yàn)。我們對(duì)"干凈一干凈"、"干凈一信道"、"干凈一信道(CMS)"、"信 道一信道"等多種情況進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果如下表1:
[0116] 表一
[0117] 其中"干凈一干凈"表示采用干凈語(yǔ)音訓(xùn)練,并用干凈語(yǔ)音識(shí)別的情況;"干凈一信 道"表示采用干凈語(yǔ)音訓(xùn)練,而用信道語(yǔ)音識(shí)別的情況,表中分別列出了直接測(cè)試結(jié)果以及 采用本文改進(jìn)實(shí)施例1、實(shí)施例2后的結(jié)果;"信道一信道"則表示訓(xùn)練語(yǔ)音和識(shí)別語(yǔ)音經(jīng)過(guò) 了相同信道的情況。
[0118] 分析表1可知,在干凈環(huán)境下,識(shí)別率能達(dá)到93%,在訓(xùn)練和測(cè)試語(yǔ)音為相同信道 失真的情況下,系統(tǒng)的識(shí)別率也能達(dá)到88%,說(shuō)明在環(huán)境匹配的情況下,系統(tǒng)的識(shí)別率還是 比較理想的.但是識(shí)別環(huán)境與訓(xùn)練環(huán)境失配情況下,由于信道對(duì)識(shí)別語(yǔ)音的干擾.系統(tǒng)識(shí)別 率會(huì)迅速降低,只能達(dá)到58% .采用傳統(tǒng)的倒譜均值減方法(CMS),識(shí)別率提升了 14% .
[0119] 采用實(shí)施例1的方式,將干凈語(yǔ)音送入實(shí)際測(cè)量得到的通用信道模型濾波后,再作 為訓(xùn)練語(yǔ)音,相應(yīng)的識(shí)別率提高為84%,由此可知通過(guò)信道濾波技術(shù)能夠使得語(yǔ)音的訓(xùn)練 和識(shí)別環(huán)境有效的匹配.但由于真實(shí)信道環(huán)境復(fù)雜多變,已測(cè)的通用信道模型不能很好的 擬合每個(gè)具體的信道,但在一定程度削弱了信道的影響.
[0120]采用實(shí)施例2的方式,將語(yǔ)音的MFCC第二維參數(shù)去掉,識(shí)別率也提高到81 %,正是 由于信道對(duì)于語(yǔ)音MFCC參數(shù)的第二維影響較大,所以去掉第二維后系統(tǒng)的識(shí)別率提升比較 明顯.
[0121] 兩種不同的處理方法都是為了盡量減小訓(xùn)練環(huán)境和識(shí)別環(huán)境不同造成的語(yǔ)音參 數(shù)失配.系統(tǒng)的識(shí)別率在原來(lái)干凈一一信道的情況下都提高了 20%左右,與傳統(tǒng)的CMS方法 相比,識(shí)別率提升了9%-12%。
[0122] 以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,故 凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何修改、 等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于支持向量機(jī)模型的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步驟: 建立通用信道模型; 將純凈語(yǔ)音經(jīng)過(guò)所述通用信道模型,提取純凈特征參數(shù); 對(duì)測(cè)試語(yǔ)音直接提取測(cè)試特征參數(shù); 將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,組合成融合特征參數(shù); 將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。2. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于: 所述建立通用信道模型具體是: 通過(guò)對(duì)來(lái)自不同信道的訓(xùn)練語(yǔ)音融合為一個(gè)多通道信息的帶通濾波器; 其中,所述訓(xùn)練語(yǔ)音為純凈語(yǔ)音。3. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的說(shuō)話人的確認(rèn)方法,其特征在于: 所述將純凈特征參數(shù)和測(cè)試特征參數(shù)融合步驟具體是: 將純凈特征參數(shù)進(jìn)行向量化,得到純凈高維向量; 將測(cè)試特征參數(shù)進(jìn)行向量化,得到測(cè)試高維向量; 然后將純凈高維向量和測(cè)試高維向量堆疊在一起,組合成融合特征參數(shù)。4. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于: 對(duì)所述純凈特征參數(shù)和測(cè)試特征參數(shù)的提取都包括對(duì)Mel頻率倒譜系數(shù)MFCC和感知線 性預(yù)測(cè)系統(tǒng)PLP的提取。5. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于: 所述將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果的具體步驟 是: 對(duì)融合特征參數(shù)進(jìn)行預(yù)處理; 提取預(yù)處理后的語(yǔ)音信息的特征參數(shù); 將所述特征參數(shù)與支持向量機(jī)模型的相關(guān)特征參數(shù)進(jìn)行匹配,判斷是否匹配,如果是, 貝1J輸出"肯定";否則,則輸出"否定"。6. -種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),其特征在于,包括: 建模模塊,用于建立通用信道模型; 提取模塊,用于提取純凈語(yǔ)音和測(cè)試語(yǔ)音的特征參數(shù),分別得到純凈特征參數(shù)和測(cè)試 特征參數(shù),其中所述純凈語(yǔ)音首先需要經(jīng)過(guò)所述通用信道模型; 融合模塊,用于將純凈特征參數(shù)和測(cè)試特征參數(shù)融合,得到融合特征參數(shù); 確認(rèn)模塊,用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。7. -種基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步驟: 將純凈語(yǔ)音進(jìn)行特征參數(shù)的提取,得到純凈特征參數(shù); 將純凈特征參數(shù)進(jìn)行特征補(bǔ)償,得到純凈補(bǔ)償特征參數(shù); 將訓(xùn)練語(yǔ)音進(jìn)行特征參數(shù)的提取,得到訓(xùn)練特征參數(shù); 將訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,得到訓(xùn)練補(bǔ)償特征參數(shù); 將純凈補(bǔ)償特征參數(shù)與訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行融合,得到融合補(bǔ)償特征參數(shù); 將融合補(bǔ)償特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。8. 根據(jù)權(quán)利要求7所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于: 所述將純凈特征參數(shù)進(jìn)行特征補(bǔ)償?shù)木唧w步驟是: 利用NMF非負(fù)矩陣分解算法對(duì)純凈特征參數(shù)進(jìn)行增加和降噪處理; 所述將訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償?shù)木唧w步驟是: 利用NMF非負(fù)矩陣分解算法對(duì)訓(xùn)練特征參數(shù)進(jìn)行增加和降噪處理; 所述將純凈補(bǔ)償特征參數(shù)與訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行融合步驟具體是: 將純凈補(bǔ)償特征參數(shù)進(jìn)行向量化,得到純凈補(bǔ)償高維向量; 將訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)行向量化,得到訓(xùn)練補(bǔ)償高維向量; 然后將純凈補(bǔ)償高維向量和訓(xùn)練補(bǔ)償高維向量堆疊在一起,得到融合補(bǔ)償特征參數(shù)。9. 根據(jù)權(quán)利要求7所述的基于支持向量機(jī)的說(shuō)話人確認(rèn)方法,其特征在于: 對(duì)所述純凈特征參數(shù)和訓(xùn)練特征參數(shù)的提取都包括對(duì)Mel頻率倒譜系數(shù)MFCC和感知線 性預(yù)測(cè)系統(tǒng)PLP的提取。10. -種基于支持向量機(jī)的說(shuō)話人確認(rèn)系統(tǒng),其特征在于: 提取模塊,用于提取純凈語(yǔ)音和訓(xùn)練語(yǔ)音的特征參數(shù),分別得到純凈特征參數(shù)和訓(xùn)練 特征參數(shù); 補(bǔ)償模塊,用于對(duì)純凈特征參數(shù)和訓(xùn)練特征參數(shù)進(jìn)行特征補(bǔ)償,分別得到純凈補(bǔ)償特 征參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù); 融合模塊,用于將純凈特征補(bǔ)償參數(shù)和訓(xùn)練補(bǔ)償特征參數(shù)進(jìn)入融合,得到融合補(bǔ)償特 征參數(shù); 確認(rèn)模塊,用于將融合特征參數(shù)通過(guò)說(shuō)話人支持向量機(jī)模型進(jìn)行匹配,得出確認(rèn)結(jié)果。
【文檔編號(hào)】G10L17/02GK105845143SQ201610172974
【公開日】2016年8月10日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】陳昊亮
【申請(qǐng)人】廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司