国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法

      文檔序號(hào):10614119閱讀:401來(lái)源:國(guó)知局
      基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
      【專利摘要】本發(fā)明公開了一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,包括如下步驟:獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar和通用背景模型的身份認(rèn)證矢量WUBM;獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest;通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ωtar、通用背景模型的身份認(rèn)證矢量WUBM和被測(cè)試語(yǔ)音的身份認(rèn)證矢量ωtest通過(guò)Rnorm得分歸一化計(jì)算得分Λ6(ωtest,ωclm);判斷所述得分Λ6(ωtest,ωclm)是否高于一閾值,如果是,表示確認(rèn),則接收;否則,拒絕。采用本發(fā)明,在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上,大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
      【專利說(shuō)明】
      基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法
      技術(shù)領(lǐng)域
      [0001]本發(fā)明屬于說(shuō)話人識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于Rnorm得分歸一化的說(shuō)話人 確認(rèn)方法。
      【背景技術(shù)】
      [0002] 說(shuō)說(shuō)話人確認(rèn)的最后一步是做判決,這個(gè)過(guò)程實(shí)際上就是將輸入語(yǔ)音信號(hào)與聲稱 說(shuō)話人模型相比較得出的似然值與一個(gè)事先設(shè)定的判決門限進(jìn)行比較,若似然值高于判決 門限,則接受聲稱的說(shuō)話人,否則拒絕。調(diào)整判決門限是非常困難的,一般判決門限的選取 是根據(jù)經(jīng)驗(yàn)來(lái)決定的。
      [0003] 得分的變化受很多因素的影響:
      [0004] ?說(shuō)話人發(fā)音有差異,受心情、年齡、健康狀況和本身聲道的影響;
      [0005] ?不同說(shuō)話人訓(xùn)練數(shù)據(jù)質(zhì)量不同、內(nèi)容不同、持續(xù)時(shí)間不同;
      [0006] ?訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)獲取時(shí)的環(huán)境噪聲不匹配、信道不匹配。
      [0007] 傳統(tǒng)的得分歸一化方法 211〇1'111、1'11〇1'111、21'11〇1'111、1211〇1'1]1是面向基于6]\1]\1-1]13]\1的說(shuō)話 人確認(rèn)系統(tǒng)而提出的,并且這些得分歸一化方法已經(jīng)成功的應(yīng)用在了基于GMM-UBM的說(shuō)話 人確認(rèn)系統(tǒng),但是對(duì)于基于身份認(rèn)證矢量ivector的說(shuō)話人確認(rèn)(i-SV)系統(tǒng)來(lái)說(shuō),基于 ivector的說(shuō)話人確認(rèn)系統(tǒng),其中訓(xùn)練階段的主要目的是為每一個(gè)說(shuō)話人tar,根據(jù)其訓(xùn)練 語(yǔ)音,訓(xùn)練得到一個(gè)相應(yīng)的ivector模型。測(cè)試階段的主要目的是給定一段語(yǔ)音test和聲稱 說(shuō)話人clm,判斷test語(yǔ)音是否為說(shuō)話人elm發(fā)出的,判斷條件即為計(jì)算聲稱說(shuō)話人模型 和被測(cè)試語(yǔ)音模型之間的相似度。訓(xùn)練語(yǔ)音會(huì)帶很多的噪音,例如信 道噪音等,而這些噪音會(huì)造成訓(xùn)練好的ivector矢量模型的偏移。例如聲稱說(shuō)話人模型 是根據(jù)聲稱說(shuō)話人的訓(xùn)練語(yǔ)音訓(xùn)練得到的,而ω 'test是被測(cè)試語(yǔ)音去除信道噪 聲之后得到的ivector模型,如圖1所示,定義0clm,切扣為ω山與ω test之間的夾角,0clm, test'為 〇 elm與 〇 testZ?間的夾角,9non-elm, test為 〇 non-elm與 〇 testZ?間的夾角。
      [0008] 理論上ω 'tesi^p 近,如果0clm,test足夠小,小于我們所設(shè)置的閾值,SV系統(tǒng)則 認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的,但是實(shí)際情況是會(huì)存在信道噪聲的,所以ω 'test則會(huì)有 可能偏離到《test。則最后進(jìn)行判斷的夾角為0cim, test,如圖2(a)可以看出9clm,test較大,大于 閾值,則在這種情況下,說(shuō)話人確認(rèn)系統(tǒng)就不認(rèn)為test語(yǔ)音為說(shuō)話人elm發(fā)出的,這便是信 道失配造成的判斷錯(cuò)誤。
      [0009] 同時(shí),圖2(b)給出了模型即非聲稱說(shuō)話人的ivector模型,可以看出c〇test 距離《__。^也很遠(yuǎn),對(duì)不同的說(shuō)話人會(huì)存在著不同的影響,這種影響會(huì)帶來(lái)閾值設(shè)置的問(wèn) 題,但是對(duì)不同說(shuō)話人存在著不同的影響,所以需要對(duì)每個(gè)人設(shè)置不同的閾值,這樣就大大 增加了確認(rèn)系統(tǒng)的復(fù)雜度。

      【發(fā)明內(nèi)容】

      [0010]為了解決上述問(wèn)題,本發(fā)明的目的提供一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn) 方法,在保證確認(rèn)準(zhǔn)確率較高的基礎(chǔ)上,大大簡(jiǎn)化了計(jì)算的復(fù)雜度和節(jié)省了計(jì)算的時(shí)間。
      [0011] 為實(shí)現(xiàn)上述目的,本發(fā)明按以下技術(shù)方案予以實(shí)現(xiàn)的:
      [0012] 本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步 驟:
      [0013]獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模塊的身份認(rèn)證矢 mffuBM ;
      [0014]獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
      [00?5]通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模塊的身份認(rèn)證矢量Wubm和被測(cè) 試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test,ω clm);
      [0016] 判斷所述得分Λ6(ω?(^,ω。^)是否高于一閾值,如果是,表示確認(rèn),則接收;否則, 拒絕。
      [0017] 進(jìn)一步地,所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量C0tar具體步驟如下:
      [0018] 計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
      [0019] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份 認(rèn)證矢量ivector模型;
      [0020] 所述公式為:
      [0021 ] 進(jìn)一步地,所述全局差異空間矩陣T計(jì)算步驟如下:
      [0022] 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量;
      [0023] 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
      [0024]計(jì)算ω的后驗(yàn)分布;
      [0025] 最大似然值重估,更新全局差異空間矩陣Τ;
      [0026] 全局差異空間矩陣Τ更新公式如下:
      [0027] Τ?ΦΓ=
      [0028]
      [0029] J h ο
      [0030] 其中?\表示T的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
      [0031 ] 進(jìn)一步地,計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下: [0032]給定說(shuō)話人s,s=l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS,提取出特征 序列
      [0033] X = {Xt 11 = 1,2,. . .,P},對(duì)于每一個(gè)高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩 陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量如下:
      [0034]
      [0035]
      [0036]
      [0037] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
      [0038]
      [0039] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;[0040] 定義一階中心統(tǒng)計(jì)量ff〇)和二階中心統(tǒng)計(jì)量為:
      [0041]
      [0042]
      [0043]
      [0044] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
      [0045] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . .為 ¥fXs)^RCPxl e = 1,2,...,C拼接成的超矢量,§⑷為對(duì)角陣,對(duì)角塊的組成為 e = l,2,...,C 對(duì)角元素。 ,+
      [0046] 進(jìn)一步地,所述計(jì)算ω的后驗(yàn)分布具體步驟如下:
      [0047]給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢 量,則《s,h的后驗(yàn)分布是均值⑷,協(xié)方差矩陣為尸⑷的高斯分布,則:
      [0048]
      [0049] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
      [0050] 進(jìn)一步地,所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM 算法獲取。
      [0051 ]進(jìn)一步地,所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下:
      [0052 ] 計(jì)算測(cè)試語(yǔ)音y test (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
      [0053] 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的 身份認(rèn)證矢量ivector模型;
      [0054] 所述公式為
      [0055] 進(jìn)一步地,所述全局差異空間矩陣T計(jì)算步驟如下:
      [0056] 計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量;
      [0057]隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
      [0058]計(jì)算ω的后驗(yàn)分布;
      [0059] 最大似然值重估,更新全局差異空間矩陣Τ;
      [0060] 全局差異空間矩陣Τ更新公式如下:
      [0062]
      [0061] ΤιΦ0= Ω?
      [0063] J " D:.
      [0064] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
      [0065] 進(jìn)一步地,計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下:
      [0066] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h = l,2, . . .,NS,提取出特征序列
      [0067] X={Xt|t = l,2,...,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì) 應(yīng)的Baum-Welch統(tǒng)計(jì)量如下:
      [0068]
      [0069]
      [0070] t
      [0071] 其中,對(duì)于任意一幀t,Yt(c)代表特征矢量xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
      [0072] fcnf ; -1
      一 * ' e "
      [0073] w。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;
      [0074] 定義一階中心統(tǒng)計(jì)量氧.〇)和二階中心統(tǒng)計(jì)量艮⑷為:
      [0075]
      [0076]
      [0077]
      [0078] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
      [0079] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . . ⑷eRCM,r = !,2,…,C拼接成的超矢量,%)eRCft<fP為對(duì)角陣,對(duì)角塊的組成為 t ⑴ eR"' r = 對(duì)角元素;
      [0080] 所述計(jì)算ω的后驗(yàn)分布具體步驟如下:
      [0081] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t) ,h = l ,2, . . . ,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)Τ,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω s,h的后驗(yàn) 分布是均值為P⑷τ?Λ0),協(xié)方差矩陣為lls)的高斯分布,則:
      [0082]
      [0083] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
      [0084]進(jìn)一步地,所述通過(guò)Rnorm得分歸一化計(jì)算得分的公式具體為:
      [0085]
      [0086] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
      [0087]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,通過(guò)首先獲取訓(xùn)練結(jié)算 的目標(biāo)說(shuō)話人、通用背景模型和測(cè)試測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量,然后通過(guò) Rnorm得分歸一化計(jì)算得分來(lái)與設(shè)定的閾值進(jìn)行比較,如果得分高于閾值,則表示確認(rèn),則 接受,否則拒絕。
      [0088] 本發(fā)明所述的一種基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,首先結(jié)合身份認(rèn)證 矢量的說(shuō)話人確認(rèn)系統(tǒng)的優(yōu)勢(shì),再通過(guò)直接采用通用背景模型來(lái)代表非聲稱說(shuō)話人模型, 解決無(wú)需每一個(gè)說(shuō)話人建立一個(gè)對(duì)應(yīng)的非聲稱說(shuō)話人模型,從而也就簡(jiǎn)化了計(jì)算的復(fù)雜 度,也相應(yīng)節(jié)省了時(shí)間,并且在確認(rèn)準(zhǔn)確率上也是很高的。
      【附圖說(shuō)明】
      [0089]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)的說(shuō)明,其中:
      [0090 ]圖1是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中Rnorm 算法設(shè)計(jì)思想示意圖;
      [0091]圖2(a)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖;
      [0092]圖2(b)是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的【背景技術(shù)】中測(cè) 試語(yǔ)音不是聲稱說(shuō)話人發(fā)出的評(píng)分原理示意圖;
      [0093]圖3是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法的流程圖;
      [0094]圖4是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在??ΜΙΤ數(shù)據(jù)庫(kù)下 DET曲線圖;
      [0095]圖5是本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在"3convs-lconv" 任務(wù)下的DET曲線圖。
      【具體實(shí)施方式】
      [0096]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí) 施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
      [0097] 本發(fā)明所述的基于Rnorm(Ratio normalization)得分歸一化的說(shuō)話人確認(rèn)方法, 是建立在傳統(tǒng)得分歸一化的基礎(chǔ)上,利用其優(yōu)勢(shì),并且基于身份認(rèn)證矢量的說(shuō)話人確認(rèn)系 統(tǒng)結(jié)合,可以做到比較高的確認(rèn)率。但是在利用身份認(rèn)證矢量確認(rèn)系統(tǒng)結(jié)合時(shí),在最后進(jìn)行 歸一化得分計(jì)算后,對(duì)于不同的說(shuō)話人需要設(shè)置不同的閾值來(lái)進(jìn)行判別,因此會(huì)造成最后 判別過(guò)程中的復(fù)雜度,以及耗費(fèi)大量時(shí)間。為了解決該問(wèn)題,通過(guò)直接采用通過(guò)背景模型代 替非聲稱說(shuō)話人模型,進(jìn)而也就只需設(shè)置一個(gè)閾值,即可完成最后的判別,因此大大降低了 計(jì)算的復(fù)雜度,節(jié)省了時(shí)間。
      [0098]本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法,如圖3所示的流程圖,其 具體步驟如下:
      [0099] S01:獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量c〇tar的具體步驟如下:
      [0100 ] (1)計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量;
      [0101] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身 份認(rèn)證矢量ivector模型;
      [0102] 所述公式為
      [0103] 所述全局差異空間矩陣T計(jì)算步驟如下:
      [0104] (a)計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量:給定說(shuō)話人s,s = 1,2,~,5和它的第11段語(yǔ)音70(〇,11 = 1,2,...,隊(duì),提取出特征序列乂={以卜=1,2,..., P},對(duì)于每一個(gè)高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量 如下:
      [0105]
      [0106]
      [0107] ?
      [0108] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征xt落入c狀態(tài)的后驗(yàn)概率,表示為:
      [0109] ^^1 = 1
      -· *
      [0110] W。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值;
      [0111] 定義一階中心統(tǒng)計(jì)量(6:(.、)和二階中心統(tǒng)計(jì)量⑶為:
      [0112]
      [0113]
      [0114]
      [0115] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
      [0116] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(s)I,c = l,. . .,C,iXdeR#1, 氧.⑷e R^1s c = 1,2,...,Γ拼接成的超矢量,e為對(duì)角陣,對(duì)角塊的組成為 ⑴ e R"'" c = 1,2,:·.:.,C對(duì)角元素。
      [0117] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
      [0118] (c)計(jì)算ω的后驗(yàn)分布:
      [0119] 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2, . . . ,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM協(xié)方差矩陣的超矢 量,則c〇s,h的后驗(yàn)分布是均值為r1⑷⑷,方差矩陣為尸(8)的高斯分布,則:
      [0125]
      [0120]
      [0121] E[ c0s,hcos,hT]=E[ c0s,h]E[ c0s,hT][0122] (d)最大似然值重估,更新全局差異空間矩陣T;[0123] 全局差異空間矩陣T更新公式如下:[0124] ΤιΦ0= Ω?
      [0126]
      [0127] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
      [0128] S02:獲取通用背景模型的身份認(rèn)證矢量Wubm:
      [0129] 所述通用背景模型的身份認(rèn)證矢量WUBM通過(guò)最大期望EM算法獲取。
      [0130] S03:獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量cotest;
      [0131 ] (1)計(jì)算測(cè)試語(yǔ)音ytest(t)的Baume-Welch的統(tǒng)計(jì)量;
      [0132] (2)通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest (t)的身份認(rèn)證矢量i vector模型;
      [0133] 所述公式為
      V 。 .·· .· \ Q
      [0134] 其中,所述全局差異空間矩陣T計(jì)算步驟如下:
      [0?35] (a)計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量;
      [0136] 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h=l,2, . . .,NS,提取出特征序列X={xt|t =1,2, . . .,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng) 計(jì)量如下:
      [0137]
      [0138]
      [0139]
      [0140] 其中,對(duì)于任意一幀t,yt(c)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率, 即第t幀的特征x t落入c狀態(tài)的后驗(yàn)概率,表示為:
      [0142] wc73旭用苜京LMV1候型屮弟CT尚斯模型所對(duì)應(yīng)的混合權(quán)值;[0143] 定義一階中心統(tǒng)計(jì)量?;(5)和二階中心統(tǒng)計(jì)量為:
      [0141]
      [0144]
      [0145]
      [0146]
      [0147] 其中m。為通用背景UBM模型中第c個(gè)高斯模型所對(duì)應(yīng)的均值矢量;
      [0148] 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Nc(S)I,C = l,. . .為 f(⑷e RW,d,2,C:拼接成的超矢量,RCPxCP為對(duì)角陣,對(duì)角塊的組成為 r 二 對(duì)角元素。
      [0149] (b)隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值;
      [0150] (c)計(jì)算ω的后驗(yàn)分布;
      [0151] 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h = l,2, . . .,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)T,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω s,h的后驗(yàn) 分布是均值為卜⑷Τ7Σ?,⑷協(xié)方差矩陣為尸(3)的高斯分布,則:
      [0152]
      [0153] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。[0154] (d)最大似然值重估,更新全局差異空間矩陣T;[0155] 全局差異空間矩陣Τ更新公式如下:[0156] ΤιΦ0= Ω?
      [0157]
      [0158]
      [0159] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分 布"步驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn) 練完畢。
      [0160] S04:通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量Wubm和 被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test通過(guò)Rnorm得分歸一化計(jì)算得分Λ 6( ω test,ω clm);
      [0161] 其中
      其中wclm與ω tar屬于同一概念,只是cotar 是在訓(xùn)練階段,wclm是在測(cè)試階段,也就是說(shuō)二者在計(jì)算方法也是一致的。
      [0162] S05 :判斷所述得分Λ 6( ω test,ω elm)是否高于一閾值,如果是,表示確認(rèn),則接收; 否則,拒絕。
      [0163]本文利用了 MSR-toolbo工具包實(shí)現(xiàn)了基于ivector的文本無(wú)關(guān)的說(shuō)話人確認(rèn)系統(tǒng) 作為基線系統(tǒng),實(shí)驗(yàn)中使用的語(yǔ)音數(shù)據(jù)庫(kù)有兩個(gè),一個(gè)是TIMIT,一個(gè)是NIST SRE 2004。 MFCC維數(shù)為20維,其中第一維為對(duì)數(shù)能量,對(duì)20維的MFCC求一階差分和二階差分,最后特征 維數(shù)為60維。對(duì)60維的特征進(jìn)行特征彎折和倒譜均值歸一化處理。訓(xùn)練UBM的數(shù)據(jù)來(lái)自NIST SRE2004數(shù)據(jù)庫(kù)下8sides和16個(gè)sides中的792句話,每句話約為3min~5π?η,??ΜΙΤ數(shù)據(jù)庫(kù) 中的4620句話,每句話約為3s~5s,Noise-92中的15中噪聲語(yǔ)音,訓(xùn)練的UBM是一個(gè)2028維 的性別相關(guān)(gender-dependent)的GMM模型。I vector的維數(shù)取400 〇
      [0164] 其中,國(guó)際LDC組織發(fā)布的語(yǔ)音數(shù)據(jù)庫(kù)??ΜΙΤ是第一個(gè)擁有大量說(shuō)話人的可用的語(yǔ) 音數(shù)據(jù)庫(kù),是由MIT、SRI國(guó)際研究所和德克薩斯儀器公司共同開發(fā),因而廣泛的應(yīng)用于說(shuō)話 人識(shí)別的研究。TIMIT的錄音環(huán)境為公共場(chǎng)所,錄音人員有630人(男438人,女192人),這些 說(shuō)話人的語(yǔ)音中包含了英語(yǔ)的八種方言,每個(gè)說(shuō)話人讀10個(gè)句子,每個(gè)句子發(fā)音長(zhǎng)度約3s ~5s,錄音方式和傳輸信道為固定麥克風(fēng),錄音內(nèi)容為英語(yǔ)句子,無(wú)錄音時(shí)間間隔。??ΜΙΤ語(yǔ) 音數(shù)據(jù)庫(kù)采樣率為16ΚΗζ,量化率為16b i t。
      [0165] 從1996年開始NIST SRE評(píng)測(cè)以來(lái),NIST后續(xù)每一次評(píng)測(cè)使用的數(shù)據(jù)庫(kù)都是在前面 幾年評(píng)測(cè)的基礎(chǔ)上,根據(jù)當(dāng)前研究水平及實(shí)際應(yīng)用情況進(jìn)行適當(dāng)?shù)恼{(diào)整錄制的,從而逐漸 積累了大量的數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)為8k采樣,8bit量化,μ壓縮的sph文件格式,主 要來(lái)源于Mixerl庫(kù),總共包含616個(gè)說(shuō)話人,其中女性370人,男性246人。NIST SRE 2004中 的數(shù)據(jù)均為日常生活中的通話數(shù)據(jù),錄音設(shè)備主要包括無(wú)繩電話、固定電話和移動(dòng)電話,同 時(shí)該數(shù)據(jù)庫(kù)考慮了多語(yǔ)種以及說(shuō)話人雙語(yǔ)問(wèn)題,其中該數(shù)據(jù)庫(kù)的語(yǔ)種平均分布在阿拉伯 語(yǔ)、英語(yǔ)、俄語(yǔ)、法語(yǔ)、漢語(yǔ)上。由于NIST SRE 2004的設(shè)計(jì)綜合考慮了語(yǔ)種和信道,所以該數(shù) 據(jù)庫(kù)常被用于訓(xùn)練UBM模型或信道空間等。從表一中可知,NIST SRE 2004包括7種訓(xùn)練情況 和4種測(cè)試情況。
      [0166]
      [0167] 表一 NIST SRE 2004評(píng)測(cè)任務(wù)情況
      [0168] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法在無(wú)信道失配情 況下的性能,??ΜΙΤ數(shù)據(jù)庫(kù)是一個(gè)標(biāo)準(zhǔn)的語(yǔ)音數(shù)據(jù)庫(kù),錄制方式單一,錄音內(nèi)容為英語(yǔ),錄音 環(huán)境干凈。取ΤΙΜΙΤ測(cè)試數(shù)據(jù)庫(kù)中的108人,訓(xùn)練9句話,測(cè)試1句話,用60〇 sentenCes作為仿 冒者語(yǔ)音。
      [0169]
      [0170] 表二TIMIT數(shù)據(jù)庫(kù)下在i-SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
      [0171] 從圖4和表二中可以看出本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法 比原始的余弦相似度CSS評(píng)分方法在i-SV系統(tǒng)的EER上降低了0.4%,比CSS-Znorm、CSS-Tnorm和CSS-ZTnorm、CSS-TZnorm評(píng)分方法都要優(yōu)秀,但是最小檢測(cè)代價(jià)相對(duì)來(lái)說(shuō)變化較 小。但是從圖4中可以看出基于CSS-Rnorm和CSS-ZTnorm評(píng)分方法的i-SV系統(tǒng)整體的變化趨 勢(shì)相似、性能相近,原因是由于TIMIT語(yǔ)音本身就是很干凈、無(wú)信道失配的語(yǔ)音,在基礎(chǔ)的 CSS評(píng)分之下已經(jīng)能取得很好的結(jié)果,所有各種歸一化方法對(duì)??ΜΙΤ數(shù)據(jù)庫(kù)測(cè)試結(jié)果的影響 不大,但是仍能改變系統(tǒng)的性能。
      [0172] 為了檢驗(yàn)本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話人確認(rèn)方法提出的i-CSS-Rnorm-SV系統(tǒng)的在有信道失配情況下的性能,本發(fā)明所述的基于Rnorm得分歸一化的說(shuō)話 人確認(rèn)方法選擇了NIST SRE 2004數(shù)據(jù)庫(kù)。NIST SRE 2004數(shù)據(jù)庫(kù)擁有多種語(yǔ)音信道,包括 麥克風(fēng)信道、電話信道等,同時(shí)采集環(huán)境具有多樣性。取NIST SRE2004中的任務(wù)"3conVS-lconvs",其中每個(gè)人的訓(xùn)練語(yǔ)音為3句話,均為電話語(yǔ)音對(duì)話,雙聲道錄制,約為5min,測(cè)試 為1句話,共22899條測(cè)試樣例。
      [0173] 從圖5中可以看出,對(duì)于NIST SRE 2004數(shù)據(jù)庫(kù)中"3convs-lconv"任務(wù)來(lái)說(shuō),基于 CSS-Rnorm評(píng)分方法的i-SV系統(tǒng)取得了最優(yōu)秀的結(jié)果,比起基于CSS評(píng)分方法的i-SV系統(tǒng)降 低了 4 · 5 % 的EER,CSS-Tnorm 優(yōu)于 CSS-Znorm,但是基于 CSS-ZTnorm 和 CSS-TZnorm 的 i-SV 系 統(tǒng)的EER和minDCF指標(biāo)很相近,差別不大。但是從表三中可以看出,i-CSS-Znorm-SV取得了 最好的最小檢測(cè)代價(jià),i-CSS-Znorm-SV在系統(tǒng)的復(fù)雜度和速度上展示了自身的優(yōu)勢(shì)。存在 該現(xiàn)象的原因是因?yàn)閆norm得分歸一化的計(jì)算是離線完成的,所以能實(shí)現(xiàn)最小的minDCF,而 Tnorm得分歸一化的計(jì)算是在測(cè)試的時(shí)候完成的,所以minDCF比Znorm要差,由于本發(fā)明所 述的基于R η 〇 r m得分歸一化的說(shuō)話人確認(rèn)方法提出的R η 〇 r m得分歸一化方法綜合考慮了 ivector模型評(píng)分的特征以及對(duì)閾值設(shè)置的影響,所以在信道失配條件下EER能達(dá)到最小。
      [0174]
      [0175] 表三"3convs_lconv"任務(wù)下在i_SV系統(tǒng)上不同評(píng)分方法的EER和minDCF
      [0176]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,故 凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何修改、 等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于,包括如下步驟: 獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar和通用背景模型的身份認(rèn)證矢量 WuBM; 獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test; 通過(guò)目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar、通用背景模型的身份認(rèn)證矢量WuBM和被測(cè)試語(yǔ) 音的身份認(rèn)證矢量ω test通過(guò)化orm得分歸一化計(jì)算得分Λ 6( ω test,ω elm); 判斷所述得分A 6( ?test, ω Elm)是否高于一闊值,如果是,表示確認(rèn),則接收;否則,拒 絕。2. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述獲取訓(xùn)練階段的目標(biāo)說(shuō)話人的身份認(rèn)證矢量ω tar具體步驟如下: 計(jì)算任意說(shuō)話人J的任意一段語(yǔ)音yj (t)的Baume-We 1 ch的統(tǒng)計(jì)量; 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算J的語(yǔ)音yj(t)的身份認(rèn)證矢 量ivector模型; 所述公式為3. 根據(jù)權(quán)利要求2所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述全局差異空間矩陣T計(jì)算步驟如下: 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量; 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值; 計(jì)算ω的后驗(yàn)分布; 最大似然值重估,更新全局差異空間矩陣Τ; 全局差異空間矩陣Τ更新公式如下:其中Τι表示Τ的第i行,Ωι代表Ω的第i行,i = l,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分布"步 驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn)練完 畢。4. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 計(jì)算訓(xùn)練語(yǔ)音中每個(gè)說(shuō)話人S所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量具體如下: 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2,. . .,Ns,提取出特征序列X ={xt 11 = 1,2,. . .,P},對(duì)于每一個(gè)高斯分量C,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的 Baum-We Ich統(tǒng)計(jì)量如下:其中,對(duì)于任意一帖t,丫 t(C)代表特征矢量Xt相對(duì)每個(gè)高斯分量c的狀態(tài)占有率,即第t 帖的特征Xt落入C狀態(tài)的后驗(yàn)概率,表示為:Wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值; 定義一階中屯、統(tǒng)計(jì)量F的和二階中屯、統(tǒng)計(jì)量§心)為:其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量; 令N(s)為CPXCP的對(duì)角陣,它的對(duì)角塊為Ne(s)I,c = l,. . .,C為二=1,2,. . .,C拼接成的超矢量,為對(duì)角陣,對(duì)角塊的組成為c = l,2,. . .,C對(duì)角元素。5. 根據(jù)權(quán)利要求3所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述計(jì)算ω的后驗(yàn)分布具體步驟如下: 給定說(shuō)話人s,s = l,2,…,S和它的第h段語(yǔ)音ys,h(t),h=l,2,...,化提取出的特征序列 X={xt|t = l,2,..,,P},令1(s) = I+tT5:-i化(s)T,其中S代表UBM協(xié)方差矩陣的超矢量,貝IJ ws,h的后驗(yàn)分布是均值為的,協(xié)方差矩陣為ri(s)的高斯分布,則:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。6. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述訓(xùn)練階段的通用背景模型的身份認(rèn)證矢量WUBM是通過(guò)最大期望EM算法獲取。7. 根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述獲取測(cè)試階段的被測(cè)試語(yǔ)音的身份認(rèn)證矢量ω test的步驟如下: 計(jì)算測(cè)試語(yǔ)音ytest (t)的Baume-We 1 ch的統(tǒng)計(jì)量; 通過(guò)已經(jīng)訓(xùn)練好的全局差異空間矩陣T,利用如下公式計(jì)算測(cè)試的語(yǔ)音ytest(t)的身份 認(rèn)證矢量ivector模型; 所述公式為:8. 根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 所述全局差異空間矩陣T計(jì)算步驟如下: 計(jì)算測(cè)試語(yǔ)音所對(duì)應(yīng)的Baum-We 1 ch統(tǒng)計(jì)量; 隨機(jī)產(chǎn)生全局差異空間矩陣T的初始值; 計(jì)算ω的后驗(yàn)分布; 最大似然值重估,更新全局差異空間矩陣Τ; 全局差異空間矩陣τ更新公式如下:其中Ti表示Τ的第i行,Ω i代表Ω的第i行,i = 1,2,…,CP,重復(fù)"計(jì)算ω的后驗(yàn)分布"步 驟和"最大似然值重估,更新全局差異空間矩陣Τ"步驟十次,則全局差異空間矩陣Τ訓(xùn)練完 畢。9.根據(jù)權(quán)利要求7所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于: 計(jì)算測(cè)試語(yǔ)音ytest(t)所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量具體如下: 給定測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys, h(t),h = 1,2,. . .,Ns,提取出特征序列X = {xt 11 = 1, 2, . . .,P},對(duì)于高斯分量c,本文定義權(quán)重、均值和協(xié)方差矩陣所對(duì)應(yīng)的Baum-Welch統(tǒng)計(jì)量 如下:其中,對(duì)于任意一帖t,丫 t(c)代表特征矢量xt相對(duì)每個(gè)高斯分量C的狀態(tài)占有率,即第t 帖的特征xt落入C狀態(tài)的后驗(yàn)概率,表示為:wc為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的混合權(quán)值; 定義一階中屯、統(tǒng)計(jì)量iUs)和二階中屯、統(tǒng)計(jì)量§。樹為:其中m。為通用背景UBM模型中第C個(gè)高斯模型所對(duì)應(yīng)的均值矢量; 令N ( S )為CP X CP的對(duì)角陣,它的對(duì)角塊為N。( S ) I,C = 1,. . .,C,電的E Rcw為 FCy)G民cw>c = l,2,. . .,C拼接成的超矢量,為對(duì)角陣,對(duì)角塊的組成為 客山)e民fxf,〇 = 1,2,...,(:對(duì)角元素; 所述計(jì)算ω的后驗(yàn)分布具體步驟如下: 測(cè)試語(yǔ)音和它的第h段語(yǔ)音ys,h(t),h=l,2,...,Ns提取出的特征序列X={xt|t = l, 2,. . .,P},令1 (S) = Ι+ΤΤ Σ -1飾(S)T,其中Σ代表UBM協(xié)方差矩陣的超矢量,則ω S,h的后驗(yàn)分 布是均值為(詩(shī)ΤΤΣ-1|;杉),協(xié)方差矩陣為ri (s)的高斯分布,則:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。10.根據(jù)權(quán)利要求1所述的基于化orm得分歸一化的說(shuō)話人確認(rèn)方法,其特征在于:所述 通過(guò)化orm得分歸一化計(jì)算得分的公式具體為:
      【文檔編號(hào)】G10L17/02GK105976819SQ201610172918
      【公開日】2016年9月28日
      【申請(qǐng)日】2016年3月23日
      【發(fā)明人】陳昊亮
      【申請(qǐng)人】廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1