基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法

文檔序號(hào)：10614119閱讀：401來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
【專利摘要】本發(fā)明公開了一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法，包括如下步驟：獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar和通用背景模型的身份認(rèn)證矢量WUBM；獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest；通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar、通用背景模型的身份認(rèn)證矢量WUBM和被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest通過(guò)Rnorm得分歸一化計(jì)算得分Λ6(ωtest,ωclm)；判斷所述得分Λ6(ωtest,ωclm)是否高于一閾值，如果是，表示確認(rèn)，則接收；否則，拒絕。采用本發(fā)明，在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上，大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
【專利說(shuō)明】
基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于說(shuō)話人識(shí)別技術(shù)領(lǐng)域，具體涉及一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法。
【背景技術(shù)】
[0002] 說(shuō)說(shuō)話人確認(rèn)的最后一步是做判決，這個(gè)過(guò)程實(shí)際上就是將輸入語(yǔ)音信號(hào)與聲稱說(shuō)話人模型相比較得出的似然值與一個(gè)事先設(shè)定的判決門限進(jìn)行比較，若似然值高于判決門限，則接受聲稱的說(shuō)話人，否則拒絕。調(diào)整判決門限是非常困難的，一般判決門限的選取是根據(jù)經(jīng)驗(yàn)來(lái)決定的。
[0003] 得分的變化受很多因素的影響：
[0004] ?說(shuō)話人發(fā)音有差異，受心情、年齡、健康狀況和本身聲道的影響；
[0005] ?不同說(shuō)話人訓(xùn)練數(shù)據(jù)質(zhì)量不同、內(nèi)容不同、持續(xù)時(shí)間不同；
[0006] ?訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)獲取時(shí)的環(huán)境噪聲不匹配、信道不匹配。
[0007] 傳統(tǒng)的得分歸一化方法 211〇1'111、1'11〇1'111、21'11〇1'111、1211〇1'1]1是面向基于6]\1]\1-1]13]\1的說(shuō)話人確認(rèn)系統(tǒng)而提出的，并且這些得分歸一化方法已經(jīng)成功的應(yīng)用在了基于GMM-UBM的說(shuō)話人確認(rèn)系統(tǒng)，但是對(duì)于基于身份認(rèn)證矢量ivector的說(shuō)話人確認(rèn)（i-SV)系統(tǒng)來(lái)說(shuō)，基于 ivector的說(shuō)話人確認(rèn)系統(tǒng)，其中訓(xùn)練階段的主要目的是為每一個(gè)說(shuō)話人tar，根據(jù)其訓(xùn)練語(yǔ)音，訓(xùn)練得到一個(gè)相應(yīng)的ivector模型。測(cè)試階段的主要目的是給定一段語(yǔ)音test和聲稱說(shuō)話人clm，判斷test語(yǔ)音是否為說(shuō)話人elm發(fā)出的，判斷條件即為計(jì)算聲稱說(shuō)話人模型和被測(cè)試語(yǔ)音模型之間的相似度。訓(xùn)練語(yǔ)音會(huì)帶很多的噪音，例如信道噪音等，而這些噪音會(huì)造成訓(xùn)練好的ivector矢量模型的偏移。例如聲稱說(shuō)話人模型是根據(jù)聲稱說(shuō)話人的訓(xùn)練語(yǔ)音訓(xùn)練得到的，而ω 'test是被測(cè)試語(yǔ)音去除信道噪聲之后得到的ivector模型，如圖1所示，定義0clm,切扣為ω山與ω test之間的夾角，0clm, test'為〇 elm與〇 testZ?間的夾角，9non-elm, test為〇 non-elm與〇 testZ?間的夾角。
[0008] 理論上ω 'tesi^p 近，如果0clm,test足夠小，小于我們所設(shè)置的閾值，SV系統(tǒng)則認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的，但是實(shí)際情況是會(huì)存在信道噪聲的，所以ω 'test則會(huì)有可能偏離到《test。則最后進(jìn)行判斷的夾角為0cim, test，如圖2(a)可以看出9clm,test較大，大于閾值，則在這種情況下，說(shuō)話人確認(rèn)系統(tǒng)就不認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的，這便是信道失配造成的判斷錯(cuò)誤。
[0009] 同時(shí)，圖2(b)給出了模型即非聲稱說(shuō)話人的ivector模型，可以看出c〇test 距離《__。^也很遠(yuǎn)，對(duì)不同的說(shuō)話人會(huì)存在著不同的影響，這種影響會(huì)帶來(lái)閾值設(shè)置的問(wèn) 題，但是對(duì)不同說(shuō)話人存在著不同的影響，所以需要對(duì)每個(gè)人設(shè)置不同的閾值，這樣就大大增加了確認(rèn)系統(tǒng)的復(fù)雜度。

【發(fā)明內(nèi)容】

[0010]為了解決上述問(wèn)題，本發(fā)明的目的提供一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn) 方法，在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上，大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
[0011] 為實(shí)現(xiàn)上述目的，本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的：
[0012] 本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于，包括如下步驟：
[0013]獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模塊的身份認(rèn)證矢 mffuBM ；
[0014]獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
[00?5]通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模塊的身份認(rèn)證矢量Wubm和被測(cè) 試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test，ω clm);
[0016] 判斷所述得分Λ6(ω?(^，ω。^)是否高于一閾值，如果是，表示確認(rèn)，則接收;否則，拒絕。
[0017] 進(jìn)一步地，所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量C0tar具體步驟如下：
[0018] 計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量；
[0019] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份認(rèn)證矢量ivector模型；
[0020] 所述公式為：
[0021 ] 進(jìn)一步地，所述全局差異空間矩陣T計(jì)算步驟如下：
[0022] 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量；
[0023] 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；
[0024]計(jì)算ω的后驗(yàn)分布；
[0025] 最大似然值重估，更新全局差異空間矩陣Τ;
[0026] 全局差異空間矩陣Τ更新公式如下：
[0027] Τ?ΦΓ=
[0028]
[0029] J h ο
[0030] 其中?\表示T的第i行，Ω,代表Ω的第i行，i = l，2,…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0031 ] 進(jìn)一步地，計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下： [0032]給定說(shuō)話人s，s=l，2,…，S和它的第h段語(yǔ)音ys,h(t)，h=l，2, . . .，NS，提取出特征序列
[0033] X = {Xt 11 = 1，2，. . .，P}，對(duì)于每一個(gè)高斯分量c，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量如下：
[0034]
[0035]
[0036]
[0037] 其中，對(duì)于任意一幀t，yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率，即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率，表示為：
[0038]
[0039] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值；[0040] 定義一階中心統(tǒng)計(jì)量ff〇)和二階中心統(tǒng)計(jì)量為：
[0041]
[0042]
[0043]
[0044] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量；
[0045] 令N(s)為CPXCP的對(duì)角陣，它的對(duì)角塊為Nc(s)I，c = l，. . .為￥fXs)^RCPxl e = 1,2，...,C拼接成的超矢量，§⑷為對(duì)角陣，對(duì)角塊的組成為 e = l,2,...，C 對(duì)角元素。，+
[0046] 進(jìn)一步地，所述計(jì)算ω的后驗(yàn)分布具體步驟如下：
[0047]給定說(shuō)話人s，s = l，2,…，S和它的第h段語(yǔ)音ys,h(t)，h=l，2, . . .，NS提取出的特征序列X={xt|t = l，2，...，P}，令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢量，則《s,h的后驗(yàn)分布是均值⑷，協(xié)方差矩陣為尸⑷的高斯分布，則：
[0048]
[0049] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
[0050] 進(jìn)一步地，所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM 算法獲取。
[0051 ]進(jìn)一步地，所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下：
[0052 ] 計(jì)算測(cè)試語(yǔ)音y test (t)的Baume-We 1 ch的統(tǒng)計(jì)量；
[0053] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的身份認(rèn)證矢量ivector模型；
[0054] 所述公式為
[0055] 進(jìn)一步地，所述全局差異空間矩陣T計(jì)算步驟如下：
[0056] 計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量；
[0057]隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；
[0058]計(jì)算ω的后驗(yàn)分布；
[0059] 最大似然值重估，更新全局差異空間矩陣Τ;
[0060] 全局差異空間矩陣Τ更新公式如下：
[0062]
[0061] ΤιΦ0= Ω?
[0063] J " D:.
[0064] 其中?\表示Τ的第i行，Ω,代表Ω的第i行，i = l，2,…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0065] 進(jìn)一步地，計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下：
[0066] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t)，h = l，2, . . .，NS，提取出特征序列
[0067] X={Xt|t = l，2，...，P}，對(duì)于高斯分量c，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì) 應(yīng)的Baum-Welch統(tǒng)計(jì)量如下：
[0068]
[0069]
[0070] t
[0071] 其中，對(duì)于任意一幀t，Yt(c)代表特征矢量xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率，即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率，表示為：
[0072] fcnf ； -1
一 * ' e "
[0073] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值；
[0074] 定義一階中心統(tǒng)計(jì)量氧.〇)和二階中心統(tǒng)計(jì)量艮⑷為：
[0075]
[0076]
[0077]
[0078] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量；
[0079] 令N(s)為CPXCP的對(duì)角陣，它的對(duì)角塊為Nc(s)I，c = l，. . . ⑷eRCM，r = !，2,…，C拼接成的超矢量，％)eRCft<fP為對(duì)角陣，對(duì)角塊的組成為 t ⑴ eR"' r = 對(duì)角元素；
[0080] 所述計(jì)算ω的后驗(yàn)分布具體步驟如下：
[0081] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t) ,h = l ,2, . . . ,NS提取出的特征序列X= {xt 11 = 1，2，. . .，P}，令1 (s) = Ι+Ττ Σ Id s)Τ，其中Σ代表UBM協(xié)方差矩陣的超矢量，則ω s,h的后驗(yàn) 分布是均值為P⑷τ?Λ0)，協(xié)方差矩陣為lls)的高斯分布，則：
[0082]
[0083] E[ c0s，hcos，hT]=E[ c0s，h]E[ c^h^+l-ks)。
[0084]進(jìn)一步地，所述通過(guò)Rnorm得分歸一化計(jì)算得分的公式具體為：
[0085]
[0086] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：
[0087]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法，通過(guò)首先獲取訓(xùn)練結(jié)算的目標(biāo)說(shuō)話人、通用背景模型和測(cè)試測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量，然后通過(guò) Rnorm得分歸一化計(jì)算得分來(lái)與設(shè)定的閾值進(jìn)行比較，如果得分高于閾值，則表示確認(rèn)，則接受，否則拒絕。
[0088] 本發(fā)明所述的一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法，首先結(jié)合身份認(rèn)證矢量的說(shuō)話人確認(rèn)系統(tǒng)的優(yōu)勢(shì)，再通過(guò)直接采用通用背景模型來(lái)代表非聲稱說(shuō)話人模型，解決無(wú)需每一個(gè)說(shuō)話人建立一個(gè)對(duì)應(yīng)的非聲稱說(shuō)話人模型，從而也就簡(jiǎn)化了計(jì)算的復(fù)雜度，也相應(yīng)節(jié)省了時(shí)間，并且在確認(rèn)準(zhǔn)確率上也是很高的。
【附圖說(shuō)明】
[0089]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)的說(shuō)明，其中：
[0090 ]圖1是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中Rnorm 算法設(shè)計(jì)思想示意圖；
[0091]圖2(a)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖；
[0092]圖2(b)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音不是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖；
[0093]圖3是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的流程圖；
[0094]圖4是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在??ΜΙΤ數(shù)據(jù)庫(kù)下 DET曲線圖；
[0095]圖5是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在"3convs-lconv" 任務(wù)下的DET曲線圖。
【具體實(shí)施方式】
[0096]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說(shuō)明，應(yīng)當(dāng)理解，此處所描述的優(yōu)選實(shí) 施例僅用于說(shuō)明和解釋本發(fā)明，并不用于限定本發(fā)明。
[0097] 本發(fā)明所述的基于Rnorm(Ratio normalization)得分歸一化的說(shuō)話人確認(rèn)方法，是建立在傳統(tǒng)得分歸一化的基礎(chǔ)上，利用其優(yōu)勢(shì)，并且基于身份認(rèn)證矢量的說(shuō)話人確認(rèn)系統(tǒng)結(jié)合，可以做到比較高的確認(rèn)率。但是在利用身份認(rèn)證矢量確認(rèn)系統(tǒng)結(jié)合時(shí)，在最后進(jìn)行歸一化得分計(jì)算后，對(duì)于不同的說(shuō)話人需要設(shè)置不同的閾值來(lái)進(jìn)行判別，因此會(huì)造成最后判別過(guò)程中的復(fù)雜度，以及耗費(fèi)大量時(shí)間。為了解決該問(wèn)題，通過(guò)直接采用通過(guò)背景模型代替非聲稱說(shuō)話人模型，進(jìn)而也就只需設(shè)置一個(gè)閾值，即可完成最后的判別，因此大大降低了計(jì)算的復(fù)雜度，節(jié)省了時(shí)間。
[0098]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法，如圖3所示的流程圖，其具體步驟如下：
[0099] S01:獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量c〇tar的具體步驟如下：
[0100 ] (1)計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量；
[0101] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份認(rèn)證矢量ivector模型；
[0102] 所述公式為
[0103] 所述全局差異空間矩陣T計(jì)算步驟如下：
[0104] (a)計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量:給定說(shuō)話人s，s = 1，2，~，5和它的第11段語(yǔ)音70(〇，11 = 1，2，...，隊(duì)，提取出特征序列乂={以卜=1，2，...， P}，對(duì)于每一個(gè)高斯分量c，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量如下：
[0105]
[0106]
[0107] ?
[0108] 其中，對(duì)于任意一幀t，yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率，即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率，表示為：
[0109] ^^1 = 1
-· *
[0110] W。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值；
[0111] 定義一階中心統(tǒng)計(jì)量(6:(.、）和二階中心統(tǒng)計(jì)量⑶為：
[0112]
[0113]
[0114]
[0115] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量；
[0116] 令N(s)為CPXCP的對(duì)角陣，它的對(duì)角塊為Nc(s)I，c = l，. . .，C，iXdeR#1，氧.⑷e R^1s c = 1,2，...,Γ拼接成的超矢量，e為對(duì)角陣，對(duì)角塊的組成為 ⑴ e R"'" c = 1,2,:·.:.,C對(duì)角元素。
[0117] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；
[0118] (c)計(jì)算ω的后驗(yàn)分布：
[0119] 給定說(shuō)話人s，s = l,2,…，S和它的第h段語(yǔ)音ys,h(t)，h=l，2, . . . ,NS提取出的特征序列X={xt|t = l，2，...，P}，令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢量，則c〇s,h的后驗(yàn)分布是均值為r1⑷⑷，方差矩陣為尸(8)的高斯分布，則：
[0125]
[0120]
[0121] E[ c0s,hcos,hT]=E[ c0s,h]E[ c0s,hT][0122] (d)最大似然值重估，更新全局差異空間矩陣T;[0123] 全局差異空間矩陣T更新公式如下：[0124] ΤιΦ0= Ω?
[0126]
[0127] 其中?\表示Τ的第i行，Ω,代表Ω的第i行，i = l，2,…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0128] S02:獲取通用背景模型的身份認(rèn)證矢量Wubm:
[0129] 所述通用背景模型的身份認(rèn)證矢量WUBM通過(guò)最大期望EM算法獲取。
[0130] S03:獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
[0131 ] (1)計(jì)算測(cè)試語(yǔ)音ytest(t)的Baume-Welch的統(tǒng)計(jì)量；
[0132] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest (t)的身份認(rèn)證矢量i vector模型；
[0133] 所述公式為
V 。 .·· .· \ Q
[0134] 其中，所述全局差異空間矩陣T計(jì)算步驟如下：
[0?35] (a)計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量；
[0136] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t)，h=l，2, . . .，NS，提取出特征序列X={xt|t =1，2, . . .，P}，對(duì)于高斯分量c，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng) 計(jì)量如下：
[0137]
[0138]
[0139]
[0140] 其中，對(duì)于任意一幀t，yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率，即第t幀的特征x t落入c狀態(tài)的后驗(yàn)概率，表示為：
[0142] wc73旭用苜京LMV1候型屮弟CT尚斯模型所對(duì)應(yīng)的混合權(quán)值；[0143] 定義一階中心統(tǒng)計(jì)量?；(5)和二階中心統(tǒng)計(jì)量為：
[0141]
[0144]
[0145]
[0146]
[0147] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量；
[0148] 令N(s)為CPXCP的對(duì)角陣，它的對(duì)角塊為Nc(S)I，C = l，. . .為 f(⑷e RW，d,2,C:拼接成的超矢量，RCPxCP為對(duì)角陣，對(duì)角塊的組成為 r 二對(duì)角元素。
[0149] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；
[0150] (c)計(jì)算ω的后驗(yàn)分布；
[0151] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t)，h = l，2, . . .，NS提取出的特征序列X= {xt 11 = 1，2，. . .，P}，令1 (s) = Ι+Ττ Σ Id s)T，其中Σ代表UBM協(xié)方差矩陣的超矢量，則ω s,h的后驗(yàn) 分布是均值為卜⑷Τ7Σ?,⑷協(xié)方差矩陣為尸(3)的高斯分布，則：
[0152]
[0153] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。[0154] (d)最大似然值重估，更新全局差異空間矩陣T;[0155] 全局差異空間矩陣Τ更新公式如下：[0156] ΤιΦ0= Ω?
[0157]
[0158]
[0159] 其中?\表示Τ的第i行，Ω,代表Ω的第i行，i = l，2,…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn) 練完畢。
[0160] S04:通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量Wubm和被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test，ω clm);
[0161] 其中
其中wclm與ω tar屬于同一概念，只是cotar 是在訓(xùn)練階段，wclm是在測(cè)試階段，也就是說(shuō)二者在計(jì)算方法也是一致的。
[0162] S05 :判斷所述得分Λ 6( ω test，ω elm)是否高于一閾值，如果是，表示確認(rèn)，則接收；否則，拒絕。
[0163]本文利用了 MSR-toolbo工具包實(shí)現(xiàn)了基于ivector的文本無(wú)關(guān)的說(shuō)話人確認(rèn)系統(tǒng) 作為基線系統(tǒng)，實(shí)驗(yàn)中使用的語(yǔ)音數(shù)據(jù)庫(kù)有兩個(gè)，一個(gè)是TIMIT，一個(gè)是NIST SRE 2004。 MFCC維數(shù)為20維，其中第一維為對(duì)數(shù)能量，對(duì)20維的MFCC求一階差分和二階差分，最后特征維數(shù)為60維。對(duì)60維的特征進(jìn)行特征彎折和倒譜均值歸一化處理。訓(xùn)練UBM的數(shù)據(jù)來(lái)自NIST SRE2004數(shù)據(jù)庫(kù)下8sides和16個(gè)sides中的792句話，每句話約為3min~5π?η，??ΜΙΤ數(shù)據(jù)庫(kù) 中的4620句話，每句話約為3s~5s，Noise-92中的15中噪聲語(yǔ)音，訓(xùn)練的UBM是一個(gè)2028維的性別相關(guān)（gender-dependent)的GMM模型。I vector的維數(shù)取400 〇
[0164] 其中，國(guó)際LDC組織發(fā)布的語(yǔ)音數(shù)據(jù)庫(kù)??ΜΙΤ是第一個(gè)擁有大量說(shuō)話人的可用的語(yǔ) 音數(shù)據(jù)庫(kù)，是由MIT、SRI國(guó)際研究所和德克薩斯儀器公司共同開發(fā)，因而廣泛的應(yīng)用于說(shuō)話人識(shí)別的研究。TIMIT的錄音環(huán)境為公共場(chǎng)所，錄音人員有630人（男438人，女192人），這些說(shuō)話人的語(yǔ)音中包含了英語(yǔ)的八種方言，每個(gè)說(shuō)話人讀10個(gè)句子，每個(gè)句子發(fā)音長(zhǎng)度約3s ~5s，錄音方式和傳輸信道為固定麥克風(fēng)，錄音內(nèi)容為英語(yǔ)句子，無(wú)錄音時(shí)間間隔。??ΜΙΤ語(yǔ) 音數(shù)據(jù)庫(kù)采樣率為16ΚΗζ，量化率為16b i t。
[0165] 從1996年開始NIST SRE評(píng)測(cè)以來(lái)，NIST后續(xù)每一次評(píng)測(cè)使用的數(shù)據(jù)庫(kù)都是在前面幾年評(píng)測(cè)的基礎(chǔ)上，根據(jù)當(dāng)前研究水平及實(shí)際應(yīng)用情況進(jìn)行適當(dāng)?shù)恼{(diào)整錄制的，從而逐漸積累了大量的數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)為8k采樣，8bit量化，μ壓縮的sph文件格式，主要來(lái)源于Mixerl庫(kù)，總共包含616個(gè)說(shuō)話人，其中女性370人，男性246人。NIST SRE 2004中的數(shù)據(jù)均為日常生活中的通話數(shù)據(jù)，錄音設(shè)備主要包括無(wú)繩電話、固定電話和移動(dòng)電話，同時(shí)該數(shù)據(jù)庫(kù)考慮了多語(yǔ)種以及說(shuō)話人雙語(yǔ)問(wèn)題，其中該數(shù)據(jù)庫(kù)的語(yǔ)種平均分布在阿拉伯語(yǔ)、英語(yǔ)、俄語(yǔ)、法語(yǔ)、漢語(yǔ)上。由于NIST SRE 2004的設(shè)計(jì)綜合考慮了語(yǔ)種和信道，所以該數(shù) 據(jù)庫(kù)常被用于訓(xùn)練UBM模型或信道空間等。從表一中可知，NIST SRE 2004包括7種訓(xùn)練情況和4種測(cè)試情況。
[0166]
[0167] 表一 NIST SRE 2004評(píng)測(cè)任務(wù)情況
[0168] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在無(wú)信道失配情況下的性能，??ΜΙΤ數(shù)據(jù)庫(kù)是一個(gè)標(biāo)準(zhǔn)的語(yǔ)音數(shù)據(jù)庫(kù)，錄制方式單一，錄音內(nèi)容為英語(yǔ)，錄音環(huán)境干凈。取ΤΙΜΙΤ測(cè)試數(shù)據(jù)庫(kù)中的108人，訓(xùn)練9句話，測(cè)試1句話，用60〇 sentenCes作為仿冒者語(yǔ)音。
[0169]
[0170] 表二TIMIT數(shù)據(jù)庫(kù)下在i-SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
[0171] 從圖4和表二中可以看出本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法比原始的余弦相似度CSS評(píng)分方法在i-SV系統(tǒng)的EER上降低了0.4%，比CSS-Znorm、CSS-Tnorm和CSS-ZTnorm、CSS-TZnorm評(píng)分方法都要優(yōu)秀，但是最小檢測(cè)代價(jià)相對(duì)來(lái)說(shuō)變化較小。但是從圖4中可以看出基于CSS-Rnorm和CSS-ZTnorm評(píng)分方法的i-SV系統(tǒng)整體的變化趨勢(shì)相似、性能相近，原因是由于TIMIT語(yǔ)音本身就是很干凈、無(wú)信道失配的語(yǔ)音，在基礎(chǔ)的 CSS評(píng)分之下已經(jīng)能取得很好的結(jié)果，所有各種歸一化方法對(duì)??ΜΙΤ數(shù)據(jù)庫(kù)測(cè)試結(jié)果的影響不大，但是仍能改變系統(tǒng)的性能。
[0172] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法提出的i-CSS-Rnorm-SV系統(tǒng)的在有信道失配情況下的性能，本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法選擇了NIST SRE 2004數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)擁有多種語(yǔ)音信道，包括麥克風(fēng)信道、電話信道等，同時(shí)采集環(huán)境具有多樣性。取NIST SRE2004中的任務(wù)"3conVS-lconvs"，其中每個(gè)人的訓(xùn)練語(yǔ)音為3句話，均為電話語(yǔ)音對(duì)話，雙聲道錄制，約為5min，測(cè)試為1句話，共22899條測(cè)試樣例。
[0173] 從圖5中可以看出，對(duì)于NIST SRE 2004數(shù)據(jù)庫(kù)中"3convs-lconv"任務(wù)來(lái)說(shuō)，基于 CSS-Rnorm評(píng)分方法的i-SV系統(tǒng)取得了最優(yōu)秀的結(jié)果，比起基于CSS評(píng)分方法的i-SV系統(tǒng)降低了 4 · 5 % 的EER，CSS-Tnorm 優(yōu)于 CSS-Znorm，但是基于 CSS-ZTnorm 和 CSS-TZnorm 的 i-SV 系統(tǒng)的EER和minDCF指標(biāo)很相近，差別不大。但是從表三中可以看出，i-CSS-Znorm-SV取得了最好的最小檢測(cè)代價(jià)，i-CSS-Znorm-SV在系統(tǒng)的復(fù)雜度和速度上展示了自身的優(yōu)勢(shì)。存在該現(xiàn)象的原因是因?yàn)閆norm得分歸一化的計(jì)算是離線完成的，所以能實(shí)現(xiàn)最小的minDCF，而 Tnorm得分歸一化的計(jì)算是在測(cè)試的時(shí)候完成的，所以minDCF比Znorm要差，由于本發(fā)明所述的基于R η 〇 r m得分歸一化的說(shuō)話人確認(rèn)方法提出的R η 〇 r m得分歸一化方法綜合考慮了 ivector模型評(píng)分的特征以及對(duì)閾值設(shè)置的影響，所以在信道失配條件下EER能達(dá)到最小。
[0174]
[0175] 表三"3convs_lconv"任務(wù)下在i_SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
[0176]以上所述，僅是本發(fā)明的較佳實(shí)施例而已，并非對(duì)本發(fā)明作任何形式上的限制，故凡是未脫離本發(fā)明技術(shù)方案內(nèi)容，依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何修改、等同變化與修飾，均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于，包括如下步驟：獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模型的身份認(rèn)證矢量 WuBM；獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test; 通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量WuBM和被測(cè)試語(yǔ) 音的身份認(rèn)證矢量ω test通過(guò)化orm得分歸一化計(jì)算得分Λ 6( ω test，ω elm); 判斷所述得分A 6( ?test, ω Elm)是否高于一闊值，如果是，表示確認(rèn)，則接收；否則，拒絕。2. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar具體步驟如下：計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量；通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份認(rèn)證矢量ivector模型；所述公式為3. 根據(jù)權(quán)利要求2所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述全局差異空間矩陣T計(jì)算步驟如下：計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量；隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；計(jì)算ω的后驗(yàn)分布；最大似然值重估，更新全局差異空間矩陣Τ; 全局差異空間矩陣Τ更新公式如下：其中Τι表示Τ的第i行，Ωι代表Ω的第i行，i = l，2,…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn)練完畢。4. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量具體如下：給定說(shuō)話人s，s = l，2,…，S和它的第h段語(yǔ)音ys,h(t)，h=l，2,. . .，Ns，提取出特征序列X ={xt 11 = 1，2，. . .，P}，對(duì)于每一個(gè)高斯分量C，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的 Baum-We Ich統(tǒng)計(jì)量如下：其中，對(duì)于任意一帖t，丫 t(C)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率，即第t 帖的特征Xt落入C狀態(tài)的后驗(yàn)概率，表示為：Wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值；定義一階中屯、統(tǒng)計(jì)量F的和二階中屯、統(tǒng)計(jì)量§心)為：其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量；令N(s)為CPXCP的對(duì)角陣，它的對(duì)角塊為Ne(s)I，c = l，. . .，C為二=1，2，. . .，C拼接成的超矢量，為對(duì)角陣，對(duì)角塊的組成為c = l，2,. . .，C對(duì)角元素。5. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述計(jì)算ω的后驗(yàn)分布具體步驟如下：給定說(shuō)話人s，s = l，2,…，S和它的第h段語(yǔ)音ys,h(t)，h=l，2,...，化提取出的特征序列 X={xt|t = l，2，..，，P}，令1(s) = I+tT5：-i化(s)T，其中S代表UBM協(xié)方差矩陣的超矢量，貝IJ ws,h的后驗(yàn)分布是均值為的，協(xié)方差矩陣為ri(s)的高斯分布，則：E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。6. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM算法獲取。7. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下：計(jì)算測(cè)試語(yǔ)音ytest (t)的Baume-We 1 ch的統(tǒng)計(jì)量；通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T，利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的身份認(rèn)證矢量ivector模型；所述公式為：8. 根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：所述全局差異空間矩陣T計(jì)算步驟如下：計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量；隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值；計(jì)算ω的后驗(yàn)分布；最大似然值重估，更新全局差異空間矩陣Τ; 全局差異空間矩陣τ更新公式如下：其中Ti表示Τ的第i行，Ω i代表Ω的第i行，i = 1，2，…，CP，重復(fù)"計(jì)算ω的后驗(yàn)分布"步驟和"最大似然值重估，更新全局差異空間矩陣Τ"步驟十次，則全局差異空間矩陣Τ訓(xùn)練完畢。9.根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于：計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下：給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys, h(t)，h = 1，2，. . .，Ns，提取出特征序列X = {xt 11 = 1， 2, . . .，P}，對(duì)于高斯分量c，本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量如下：其中，對(duì)于任意一帖t，丫 t(c)代表特征矢量xt相對(duì)每個(gè)高斯分量C的狀態(tài)占有率，即第t 帖的特征xt落入C狀態(tài)的后驗(yàn)概率，表示為：wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值；定義一階中屯、統(tǒng)計(jì)量iUs)和二階中屯、統(tǒng)計(jì)量§。樹為：其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量；令N ( S )為CP X CP的對(duì)角陣，它的對(duì)角塊為N。（ S ) I，C = 1，. . .，C，電的E Rcw為 FCy)G民cw>c = l，2，. . .，C拼接成的超矢量，為對(duì)角陣，對(duì)角塊的組成為客山）e民fxf，〇 = 1，2，...，(：對(duì)角元素；所述計(jì)算ω的后驗(yàn)分布具體步驟如下：測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t)，h=l，2，...，Ns提取出的特征序列X={xt|t = l， 2，. . .，P}，令1 (S) = Ι+ΤΤ Σ -1飾(S)T，其中Σ代表UBM協(xié)方差矩陣的超矢量，則ω S,h的后驗(yàn)分布是均值為(詩(shī)ΤΤΣ-1|;杉），協(xié)方差矩陣為ri (s)的高斯分布，則：E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。10.根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法，其特征在于:所述通過(guò)化orm得分歸一化計(jì)算得分的公式具體為：
【文檔編號(hào)】G10L17/02GK105976819SQ201610172918
【公開日】2016年9月28日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】陳昊亮
【申請(qǐng)人】廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳昊亮;
技術(shù)所有人：廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司;
我是此專利的發(fā)明人

上一篇：一種語(yǔ)音情感分析系統(tǒng)的制作方法
上一篇：指令識(shí)別的處理方法及裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法