基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
【專利摘要】本發(fā)明公開了一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,包括如下步驟:獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar和通用背景模型的身份認(rèn)證矢量WUBM;獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest;通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar、通用背景模型的身份認(rèn)證矢量WUBM和被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest通過(guò)Rnorm得分歸一化計(jì)算得分Λ6(ωtest,ωclm);判斷所述得分Λ6(ωtest,ωclm)是否高于一閾值,如果是,表示確認(rèn),則接收;否則,拒絕。采用本發(fā)明,在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上,大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
【專利說(shuō)明】
基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于說(shuō)話人識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于Rnorm得分歸一化的說(shuō)話人 確認(rèn)方法。
【背景技術(shù)】
[0002] 說(shuō)說(shuō)話人確認(rèn)的最后一步是做判決,這個(gè)過(guò)程實(shí)際上就是將輸入語(yǔ)音信號(hào)與聲稱 說(shuō)話人模型相比較得出的似然值與一個(gè)事先設(shè)定的判決門限進(jìn)行比較,若似然值高于判決 門限,則接受聲稱的說(shuō)話人,否則拒絕。調(diào)整判決門限是非常困難的,一般判決門限的選取 是根據(jù)經(jīng)驗(yàn)來(lái)決定的。
[0003] 得分的變化受很多因素的影響:
[0004] ?說(shuō)話人發(fā)音有差異,受心情、年齡、健康狀況和本身聲道的影響;
[0005] ?不同說(shuō)話人訓(xùn)練數(shù)據(jù)質(zhì)量不同、內(nèi)容不同、持續(xù)時(shí)間不同;
[0006] ?訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)獲取時(shí)的環(huán)境噪聲不匹配、信道不匹配。
[0007] 傳統(tǒng)的得分歸一化方法 211〇1'111、1'11〇1'111、21'11〇1'111、1211〇1'1]1是面向基于6]\1]\1-1]13]\1的說(shuō)話 人確認(rèn)系統(tǒng)而提出的,并且這些得分歸一化方法已經(jīng)成功的應(yīng)用在了基于GMM-UBM的說(shuō)話 人確認(rèn)系統(tǒng),但是對(duì)于基于身份認(rèn)證矢量ivector的說(shuō)話人確認(rèn)(i-SV)系統(tǒng)來(lái)說(shuō),基于 ivector的說(shuō)話人確認(rèn)系統(tǒng),其中訓(xùn)練階段的主要目的是為每一個(gè)說(shuō)話人tar,根據(jù)其訓(xùn)練 語(yǔ)音,訓(xùn)練得到一個(gè)相應(yīng)的ivector模型。測(cè)試階段的主要目的是給定一段語(yǔ)音test和聲稱 說(shuō)話人clm,判斷test語(yǔ)音是否為說(shuō)話人elm發(fā)出的,判斷條件即為計(jì)算聲稱說(shuō)話人模型 和被測(cè)試語(yǔ)音模型之間的相似度。訓(xùn)練語(yǔ)音會(huì)帶很多的噪音,例如信 道噪音等,而這些噪音會(huì)造成訓(xùn)練好的ivector矢量模型的偏移。例如聲稱說(shuō)話人模型 是根據(jù)聲稱說(shuō)話人的訓(xùn)練語(yǔ)音訓(xùn)練得到的,而ω 'test是被測(cè)試語(yǔ)音去除信道噪 聲之后得到的ivector模型,如圖1所示,定義0clm,切扣為ω山與ω test之間的夾角,0clm, test'為 〇 elm與 〇 testZ?間的夾角,9non-elm, test為 〇 non-elm與 〇 testZ?間的夾角。
[0008] 理論上ω 'tesi^p 近,如果0clm,test足夠小,小于我們所設(shè)置的閾值,SV系統(tǒng)則 認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的,但是實(shí)際情況是會(huì)存在信道噪聲的,所以ω 'test則會(huì)有 可能偏離到《test。則最后進(jìn)行判斷的夾角為0cim, test,如圖2(a)可以看出9clm,test較大,大于 閾值,則在這種情況下,說(shuō)話人確認(rèn)系統(tǒng)就不認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的,這便是信 道失配造成的判斷錯(cuò)誤。
[0009] 同時(shí),圖2(b)給出了模型即非聲稱說(shuō)話人的ivector模型,可以看出c〇test 距離《__。^也很遠(yuǎn),對(duì)不同的說(shuō)話人會(huì)存在著不同的影響,這種影響會(huì)帶來(lái)閾值設(shè)置的問(wèn) 題,但是對(duì)不同說(shuō)話人存在著不同的影響,所以需要對(duì)每個(gè)人設(shè)置不同的閾值,這樣就大大 增加了確認(rèn)系統(tǒng)的復(fù)雜度。
【發(fā)明內(nèi)容】
[0010]為了解決上述問(wèn)題,本發(fā)明的目的提供一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn) 方法,在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上,大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
[0011] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
[0012] 本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步 驟:
[0013]獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模塊的身份認(rèn)證矢 mffuBM ;
[0014]獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
[00?5]通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模塊的身份認(rèn)證矢量Wubm和被測(cè) 試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test,ω clm);
[0016] 判斷所述得分Λ6(ω?(^,ω。^)是否高于一閾值,如果是,表示確認(rèn),則接收;否則, 拒絕。
[0017] 進(jìn)一步地,所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量C0tar具體步驟如下:
[0018] 計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
[0019] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份 認(rèn)證矢量ivector模型;
[0020] 所述公式為:
[0021 ] 進(jìn)一步地,所述全局差異空間矩陣T計(jì)算步驟如下:
[0022] 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量;
[0023] 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
[0024]計(jì)算ω的后驗(yàn)分布;
[0025] 最大似然值重估,更新全局差異空間矩陣Τ;
[0026] 全局差異空間矩陣Τ更新公式如下:
[0027] Τ?ΦΓ=
[0028]
[0029] J h ο
[0030] 其中?\表示T的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0031 ] 進(jìn)一步地,計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下: [0032]給定說(shuō)話人s,s=l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS,提取出特征 序列
[0033] X = {Xt 11 = 1,2,. . .,P},對(duì)于每一個(gè)高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩 陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量如下:
[0034]
[0035]
[0036]
[0037] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
[0038]
[0039] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;[0040] 定義一階中心統(tǒng)計(jì)量ff〇)和二階中心統(tǒng)計(jì)量為:
[0041]
[0042]
[0043]
[0044] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
[0045] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . .為 ¥fXs)^RCPxl e = 1,2,...,C拼接成的超矢量,§⑷為對(duì)角陣,對(duì)角塊的組成為 e = l,2,...,C 對(duì)角元素。 ,+
[0046] 進(jìn)一步地,所述計(jì)算ω的后驗(yàn)分布具體步驟如下:
[0047]給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢 量,則《s,h的后驗(yàn)分布是均值⑷,協(xié)方差矩陣為尸⑷的高斯分布,則:
[0048]
[0049] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
[0050] 進(jìn)一步地,所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM 算法獲取。
[0051 ]進(jìn)一步地,所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下:
[0052 ] 計(jì)算測(cè)試語(yǔ)音y test (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
[0053] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的 身份認(rèn)證矢量ivector模型;
[0054] 所述公式為
[0055] 進(jìn)一步地,所述全局差異空間矩陣T計(jì)算步驟如下:
[0056] 計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量;
[0057]隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
[0058]計(jì)算ω的后驗(yàn)分布;
[0059] 最大似然值重估,更新全局差異空間矩陣Τ;
[0060] 全局差異空間矩陣Τ更新公式如下:
[0062]
[0061] ΤιΦ0= Ω?
[0063] J " D:.
[0064] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0065] 進(jìn)一步地,計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下:
[0066] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h = l,2, . . .,NS,提取出特征序列
[0067] X={Xt|t = l,2,...,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì) 應(yīng)的Baum-Welch統(tǒng)計(jì)量如下:
[0068]
[0069]
[0070] t
[0071] 其中,對(duì)于任意一幀t,Yt(c)代表特征矢量xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
[0072] fcnf ; -1
一 * ' e "
[0073] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;
[0074] 定義一階中心統(tǒng)計(jì)量氧.〇)和二階中心統(tǒng)計(jì)量艮⑷為:
[0075]
[0076]
[0077]
[0078] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
[0079] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . . ⑷eRCM,r = !,2,…,C拼接成的超矢量,%)eRCft<fP為對(duì)角陣,對(duì)角塊的組成為 t ⑴ eR"' r = 對(duì)角元素;
[0080] 所述計(jì)算ω的后驗(yàn)分布具體步驟如下:
[0081] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t) ,h = l ,2, . . . ,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)Τ,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω s,h的后驗(yàn) 分布是均值為P⑷τ?Λ0),協(xié)方差矩陣為lls)的高斯分布,則:
[0082]
[0083] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
[0084]進(jìn)一步地,所述通過(guò)Rnorm得分歸一化計(jì)算得分的公式具體為:
[0085]
[0086] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0087]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,通過(guò)首先獲取訓(xùn)練結(jié)算 的目標(biāo)說(shuō)話人、通用背景模型和測(cè)試測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量,然后通過(guò) Rnorm得分歸一化計(jì)算得分來(lái)與設(shè)定的閾值進(jìn)行比較,如果得分高于閾值,則表示確認(rèn),則 接受,否則拒絕。
[0088] 本發(fā)明所述的一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,首先結(jié)合身份認(rèn)證 矢量的說(shuō)話人確認(rèn)系統(tǒng)的優(yōu)勢(shì),再通過(guò)直接采用通用背景模型來(lái)代表非聲稱說(shuō)話人模型, 解決無(wú)需每一個(gè)說(shuō)話人建立一個(gè)對(duì)應(yīng)的非聲稱說(shuō)話人模型,從而也就簡(jiǎn)化了計(jì)算的復(fù)雜 度,也相應(yīng)節(jié)省了時(shí)間,并且在確認(rèn)準(zhǔn)確率上也是很高的。
【附圖說(shuō)明】
[0089]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)的說(shuō)明,其中:
[0090 ]圖1是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中Rnorm 算法設(shè)計(jì)思想示意圖;
[0091]圖2(a)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖;
[0092]圖2(b)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音不是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖;
[0093]圖3是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的流程圖;
[0094]圖4是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在??ΜΙΤ數(shù)據(jù)庫(kù)下 DET曲線圖;
[0095]圖5是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在"3convs-lconv" 任務(wù)下的DET曲線圖。
【具體實(shí)施方式】
[0096]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí) 施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0097] 本發(fā)明所述的基于Rnorm(Ratio normalization)得分歸一化的說(shuō)話人確認(rèn)方法, 是建立在傳統(tǒng)得分歸一化的基礎(chǔ)上,利用其優(yōu)勢(shì),并且基于身份認(rèn)證矢量的說(shuō)話人確認(rèn)系 統(tǒng)結(jié)合,可以做到比較高的確認(rèn)率。但是在利用身份認(rèn)證矢量確認(rèn)系統(tǒng)結(jié)合時(shí),在最后進(jìn)行 歸一化得分計(jì)算后,對(duì)于不同的說(shuō)話人需要設(shè)置不同的閾值來(lái)進(jìn)行判別,因此會(huì)造成最后 判別過(guò)程中的復(fù)雜度,以及耗費(fèi)大量時(shí)間。為了解決該問(wèn)題,通過(guò)直接采用通過(guò)背景模型代 替非聲稱說(shuō)話人模型,進(jìn)而也就只需設(shè)置一個(gè)閾值,即可完成最后的判別,因此大大降低了 計(jì)算的復(fù)雜度,節(jié)省了時(shí)間。
[0098]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,如圖3所示的流程圖,其 具體步驟如下:
[0099] S01:獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量c〇tar的具體步驟如下:
[0100 ] (1)計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
[0101] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身 份認(rèn)證矢量ivector模型;
[0102] 所述公式為
[0103] 所述全局差異空間矩陣T計(jì)算步驟如下:
[0104] (a)計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量:給定說(shuō)話人s,s = 1,2,~,5和它的第11段語(yǔ)音70(〇,11 = 1,2,...,隊(duì),提取出特征序列乂={以卜=1,2,..., P},對(duì)于每一個(gè)高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量 如下:
[0105]
[0106]
[0107] ?
[0108] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
[0109] ^^1 = 1
-· *
[0110] W。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;
[0111] 定義一階中心統(tǒng)計(jì)量(6:(.、)和二階中心統(tǒng)計(jì)量⑶為:
[0112]
[0113]
[0114]
[0115] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
[0116] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . .,C,iXdeR#1, 氧.⑷e R^1s c = 1,2,...,Γ拼接成的超矢量,e為對(duì)角陣,對(duì)角塊的組成為 ⑴ e R"'" c = 1,2,:·.:.,C對(duì)角元素。
[0117] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
[0118] (c)計(jì)算ω的后驗(yàn)分布:
[0119] 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . . ,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢 量,則c〇s,h的后驗(yàn)分布是均值為r1⑷⑷,方差矩陣為尸(8)的高斯分布,則:
[0125]
[0120]
[0121] E[ c0s,hcos,hT]=E[ c0s,h]E[ c0s,hT][0122] (d)最大似然值重估,更新全局差異空間矩陣T;[0123] 全局差異空間矩陣T更新公式如下:[0124] ΤιΦ0= Ω?
[0126]
[0127] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0128] S02:獲取通用背景模型的身份認(rèn)證矢量Wubm:
[0129] 所述通用背景模型的身份認(rèn)證矢量WUBM通過(guò)最大期望EM算法獲取。
[0130] S03:獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
[0131 ] (1)計(jì)算測(cè)試語(yǔ)音ytest(t)的Baume-Welch的統(tǒng)計(jì)量;
[0132] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest (t)的身份認(rèn)證矢量i vector模型;
[0133] 所述公式為
V 。 .·· .· \ Q
[0134] 其中,所述全局差異空間矩陣T計(jì)算步驟如下:
[0?35] (a)計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量;
[0136] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS,提取出特征序列X={xt|t =1,2, . . .,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng) 計(jì)量如下:
[0137]
[0138]
[0139]
[0140] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征x t落入c狀態(tài)的后驗(yàn)概率,表示為:
[0142] wc73旭用苜京LMV1候型屮弟CT尚斯模型所對(duì)應(yīng)的混合權(quán)值;[0143] 定義一階中心統(tǒng)計(jì)量?;(5)和二階中心統(tǒng)計(jì)量為:
[0141]
[0144]
[0145]
[0146]
[0147] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
[0148] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(S)I,C = l,. . .為 f(⑷e RW,d,2,C:拼接成的超矢量,RCPxCP為對(duì)角陣,對(duì)角塊的組成為 r 二 對(duì)角元素。
[0149] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
[0150] (c)計(jì)算ω的后驗(yàn)分布;
[0151] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h = l,2, . . .,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)T,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω s,h的后驗(yàn) 分布是均值為卜⑷Τ7Σ?,⑷協(xié)方差矩陣為尸(3)的高斯分布,則:
[0152]
[0153] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。[0154] (d)最大似然值重估,更新全局差異空間矩陣T;[0155] 全局差異空間矩陣Τ更新公式如下:[0156] ΤιΦ0= Ω?
[0157]
[0158]
[0159] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0160] S04:通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量Wubm和 被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test,ω clm);
[0161] 其中
其中wclm與ω tar屬于同一概念,只是cotar 是在訓(xùn)練階段,wclm是在測(cè)試階段,也就是說(shuō)二者在計(jì)算方法也是一致的。
[0162] S05 :判斷所述得分Λ 6( ω test,ω elm)是否高于一閾值,如果是,表示確認(rèn),則接收; 否則,拒絕。
[0163]本文利用了 MSR-toolbo工具包實(shí)現(xiàn)了基于ivector的文本無(wú)關(guān)的說(shuō)話人確認(rèn)系統(tǒng) 作為基線系統(tǒng),實(shí)驗(yàn)中使用的語(yǔ)音數(shù)據(jù)庫(kù)有兩個(gè),一個(gè)是TIMIT,一個(gè)是NIST SRE 2004。 MFCC維數(shù)為20維,其中第一維為對(duì)數(shù)能量,對(duì)20維的MFCC求一階差分和二階差分,最后特征 維數(shù)為60維。對(duì)60維的特征進(jìn)行特征彎折和倒譜均值歸一化處理。訓(xùn)練UBM的數(shù)據(jù)來(lái)自NIST SRE2004數(shù)據(jù)庫(kù)下8sides和16個(gè)sides中的792句話,每句話約為3min~5π?η,??ΜΙΤ數(shù)據(jù)庫(kù) 中的4620句話,每句話約為3s~5s,Noise-92中的15中噪聲語(yǔ)音,訓(xùn)練的UBM是一個(gè)2028維 的性別相關(guān)(gender-dependent)的GMM模型。I vector的維數(shù)取400 〇
[0164] 其中,國(guó)際LDC組織發(fā)布的語(yǔ)音數(shù)據(jù)庫(kù)??ΜΙΤ是第一個(gè)擁有大量說(shuō)話人的可用的語(yǔ) 音數(shù)據(jù)庫(kù),是由MIT、SRI國(guó)際研究所和德克薩斯儀器公司共同開發(fā),因而廣泛的應(yīng)用于說(shuō)話 人識(shí)別的研究。TIMIT的錄音環(huán)境為公共場(chǎng)所,錄音人員有630人(男438人,女192人),這些 說(shuō)話人的語(yǔ)音中包含了英語(yǔ)的八種方言,每個(gè)說(shuō)話人讀10個(gè)句子,每個(gè)句子發(fā)音長(zhǎng)度約3s ~5s,錄音方式和傳輸信道為固定麥克風(fēng),錄音內(nèi)容為英語(yǔ)句子,無(wú)錄音時(shí)間間隔。??ΜΙΤ語(yǔ) 音數(shù)據(jù)庫(kù)采樣率為16ΚΗζ,量化率為16b i t。
[0165] 從1996年開始NIST SRE評(píng)測(cè)以來(lái),NIST后續(xù)每一次評(píng)測(cè)使用的數(shù)據(jù)庫(kù)都是在前面 幾年評(píng)測(cè)的基礎(chǔ)上,根據(jù)當(dāng)前研究水平及實(shí)際應(yīng)用情況進(jìn)行適當(dāng)?shù)恼{(diào)整錄制的,從而逐漸 積累了大量的數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)為8k采樣,8bit量化,μ壓縮的sph文件格式,主 要來(lái)源于Mixerl庫(kù),總共包含616個(gè)說(shuō)話人,其中女性370人,男性246人。NIST SRE 2004中 的數(shù)據(jù)均為日常生活中的通話數(shù)據(jù),錄音設(shè)備主要包括無(wú)繩電話、固定電話和移動(dòng)電話,同 時(shí)該數(shù)據(jù)庫(kù)考慮了多語(yǔ)種以及說(shuō)話人雙語(yǔ)問(wèn)題,其中該數(shù)據(jù)庫(kù)的語(yǔ)種平均分布在阿拉伯 語(yǔ)、英語(yǔ)、俄語(yǔ)、法語(yǔ)、漢語(yǔ)上。由于NIST SRE 2004的設(shè)計(jì)綜合考慮了語(yǔ)種和信道,所以該數(shù) 據(jù)庫(kù)常被用于訓(xùn)練UBM模型或信道空間等。從表一中可知,NIST SRE 2004包括7種訓(xùn)練情況 和4種測(cè)試情況。
[0166]
[0167] 表一 NIST SRE 2004評(píng)測(cè)任務(wù)情況
[0168] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在無(wú)信道失配情 況下的性能,??ΜΙΤ數(shù)據(jù)庫(kù)是一個(gè)標(biāo)準(zhǔn)的語(yǔ)音數(shù)據(jù)庫(kù),錄制方式單一,錄音內(nèi)容為英語(yǔ),錄音 環(huán)境干凈。取ΤΙΜΙΤ測(cè)試數(shù)據(jù)庫(kù)中的108人,訓(xùn)練9句話,測(cè)試1句話,用60〇 sentenCes作為仿 冒者語(yǔ)音。
[0169]
[0170] 表二TIMIT數(shù)據(jù)庫(kù)下在i-SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
[0171] 從圖4和表二中可以看出本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法 比原始的余弦相似度CSS評(píng)分方法在i-SV系統(tǒng)的EER上降低了0.4%,比CSS-Znorm、CSS-Tnorm和CSS-ZTnorm、CSS-TZnorm評(píng)分方法都要優(yōu)秀,但是最小檢測(cè)代價(jià)相對(duì)來(lái)說(shuō)變化較 小。但是從圖4中可以看出基于CSS-Rnorm和CSS-ZTnorm評(píng)分方法的i-SV系統(tǒng)整體的變化趨 勢(shì)相似、性能相近,原因是由于TIMIT語(yǔ)音本身就是很干凈、無(wú)信道失配的語(yǔ)音,在基礎(chǔ)的 CSS評(píng)分之下已經(jīng)能取得很好的結(jié)果,所有各種歸一化方法對(duì)??ΜΙΤ數(shù)據(jù)庫(kù)測(cè)試結(jié)果的影響 不大,但是仍能改變系統(tǒng)的性能。
[0172] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法提出的i-CSS-Rnorm-SV系統(tǒng)的在有信道失配情況下的性能,本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話 人確認(rèn)方法選擇了NIST SRE 2004數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)擁有多種語(yǔ)音信道,包括 麥克風(fēng)信道、電話信道等,同時(shí)采集環(huán)境具有多樣性。取NIST SRE2004中的任務(wù)"3conVS-lconvs",其中每個(gè)人的訓(xùn)練語(yǔ)音為3句話,均為電話語(yǔ)音對(duì)話,雙聲道錄制,約為5min,測(cè)試 為1句話,共22899條測(cè)試樣例。
[0173] 從圖5中可以看出,對(duì)于NIST SRE 2004數(shù)據(jù)庫(kù)中"3convs-lconv"任務(wù)來(lái)說(shuō),基于 CSS-Rnorm評(píng)分方法的i-SV系統(tǒng)取得了最優(yōu)秀的結(jié)果,比起基于CSS評(píng)分方法的i-SV系統(tǒng)降 低了 4 · 5 % 的EER,CSS-Tnorm 優(yōu)于 CSS-Znorm,但是基于 CSS-ZTnorm 和 CSS-TZnorm 的 i-SV 系 統(tǒng)的EER和minDCF指標(biāo)很相近,差別不大。但是從表三中可以看出,i-CSS-Znorm-SV取得了 最好的最小檢測(cè)代價(jià),i-CSS-Znorm-SV在系統(tǒng)的復(fù)雜度和速度上展示了自身的優(yōu)勢(shì)。存在 該現(xiàn)象的原因是因?yàn)閆norm得分歸一化的計(jì)算是離線完成的,所以能實(shí)現(xiàn)最小的minDCF,而 Tnorm得分歸一化的計(jì)算是在測(cè)試的時(shí)候完成的,所以minDCF比Znorm要差,由于本發(fā)明所 述的基于R η 〇 r m得分歸一化的說(shuō)話人確認(rèn)方法提出的R η 〇 r m得分歸一化方法綜合考慮了 ivector模型評(píng)分的特征以及對(duì)閾值設(shè)置的影響,所以在信道失配條件下EER能達(dá)到最小。
[0174]
[0175] 表三"3convs_lconv"任務(wù)下在i_SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
[0176]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,故 凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何修改、 等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步驟: 獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模型的身份認(rèn)證矢量 WuBM; 獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test; 通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量WuBM和被測(cè)試語(yǔ) 音的身份認(rèn)證矢量ω test通過(guò)化orm得分歸一化計(jì)算得分Λ 6( ω test,ω elm); 判斷所述得分A 6( ?test, ω Elm)是否高于一闊值,如果是,表示確認(rèn),則接收;否則,拒 絕。2. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar具體步驟如下: 計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量; 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份認(rèn)證矢 量ivector模型; 所述公式為3. 根據(jù)權(quán)利要求2所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述全局差異空間矩陣T計(jì)算步驟如下: 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量; 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值; 計(jì)算ω的后驗(yàn)分布; 最大似然值重估,更新全局差異空間矩陣Τ; 全局差異空間矩陣Τ更新公式如下:其中Τι表示Τ的第i行,Ωι代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分布"步 驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn)練完 畢。4. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量具體如下: 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2,. . .,Ns,提取出特征序列X ={xt 11 = 1,2,. . .,P},對(duì)于每一個(gè)高斯分量C,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的 Baum-We Ich統(tǒng)計(jì)量如下:其中,對(duì)于任意一帖t,丫 t(C)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率,即第t 帖的特征Xt落入C狀態(tài)的后驗(yàn)概率,表示為:Wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值; 定義一階中屯、統(tǒng)計(jì)量F的和二階中屯、統(tǒng)計(jì)量§心)為:其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量; 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Ne(s)I,c = l,. . .,C為二=1,2,. . .,C拼接成的超矢量,為對(duì)角陣,對(duì)角塊的組成為c = l,2,. . .,C對(duì)角元素。5. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述計(jì)算ω的后驗(yàn)分布具體步驟如下: 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2,...,化提取出的特征序列 X={xt|t = l,2,..,,P},令1(s) = I+tT5:-i化(s)T,其中S代表UBM協(xié)方差矩陣的超矢量,貝IJ ws,h的后驗(yàn)分布是均值為的,協(xié)方差矩陣為ri(s)的高斯分布,則:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。6. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM算法獲取。7. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下: 計(jì)算測(cè)試語(yǔ)音ytest (t)的Baume-We 1 ch的統(tǒng)計(jì)量; 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的身份 認(rèn)證矢量ivector模型; 所述公式為:8. 根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述全局差異空間矩陣T計(jì)算步驟如下: 計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量; 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值; 計(jì)算ω的后驗(yàn)分布; 最大似然值重估,更新全局差異空間矩陣Τ; 全局差異空間矩陣τ更新公式如下:其中Ti表示Τ的第i行,Ω i代表Ω的第i行,i = 1,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分布"步 驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn)練完 畢。9.根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下: 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys, h(t),h = 1,2,. . .,Ns,提取出特征序列X = {xt 11 = 1, 2, . . .,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量 如下:其中,對(duì)于任意一帖t,丫 t(c)代表特征矢量xt相對(duì)每個(gè)高斯分量C的狀態(tài)占有率,即第t 帖的特征xt落入C狀態(tài)的后驗(yàn)概率,表示為:wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值; 定義一階中屯、統(tǒng)計(jì)量iUs)和二階中屯、統(tǒng)計(jì)量§。樹為:其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量; 令N ( S )為CP X CP的對(duì)角陣,它的對(duì)角塊為N。( S ) I,C = 1,. . .,C,電的E Rcw為 FCy)G民cw>c = l,2,. . .,C拼接成的超矢量,為對(duì)角陣,對(duì)角塊的組成為 客山)e民fxf,〇 = 1,2,...,(:對(duì)角元素; 所述計(jì)算ω的后驗(yàn)分布具體步驟如下: 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h=l,2,...,Ns提取出的特征序列X={xt|t = l, 2,. . .,P},令1 (S) = Ι+ΤΤ Σ -1飾(S)T,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω S,h的后驗(yàn)分 布是均值為(詩(shī)ΤΤΣ-1|;杉),協(xié)方差矩陣為ri (s)的高斯分布,則:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。10.根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于:所述 通過(guò)化orm得分歸一化計(jì)算得分的公式具體為:
【文檔編號(hào)】G10L17/02GK105976819SQ201610172918
【公開日】2016年9月28日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】陳昊亮
【申請(qǐng)人】廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司