專利名稱:語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法
技術(shù)領(lǐng)域:
語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及隱含馬爾可夫模型(Hidden Markov Model,即HMM)的概率統(tǒng)計(jì)識(shí)別方法的領(lǐng)域。
自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR) 已經(jīng)歷了差不多半個(gè)世紀(jì)的研究歷程。著名的隱含馬爾可夫模型(Hidden Markov Model,HMM)的使用是語(yǔ)音識(shí)別發(fā)展史上的里程碑?;贖MM的概率統(tǒng)計(jì)識(shí)別方法目前仍然是語(yǔ)音識(shí)別研究中最常用的模型框架。
隱含馬爾可夫模型可以看成是一個(gè)有限狀態(tài)自動(dòng)機(jī),見(jiàn)
圖1,這是一個(gè)最常用的HMM的拓?fù)浣Y(jié)構(gòu)。在每一個(gè)離散時(shí)刻t,它只能處于有限多種狀態(tài)中的某一種狀態(tài)。假設(shè)允許出現(xiàn)的狀態(tài)有U種,記之為Sl,l=1~U。若自動(dòng)機(jī)在時(shí)刻t所處的狀態(tài)用q(t)表示,那么q(t)只能等于S1~SU中的某一個(gè),這可表述為q(t)∈{S1~SU},t。如果此自動(dòng)機(jī)開(kāi)始運(yùn)行的時(shí)間起點(diǎn)定為t=1,那么在以后每一時(shí)刻t它所處的狀態(tài)以概率方式取決于初始狀態(tài)概率矢量π和狀態(tài)轉(zhuǎn)移概率矩陣A。對(duì)于任何時(shí)刻t,(t≥1),自動(dòng)機(jī)的狀態(tài)q(t)取S1~SU中哪一種的概率只取決于前一時(shí)刻(t-1)所處的狀態(tài),而與更前的任何時(shí)刻所取的狀態(tài)無(wú)關(guān)。這樣,由此產(chǎn)生的狀態(tài)序列q(1),q(2),q(3),…是一條一階馬爾可夫鏈。此系統(tǒng)在任何時(shí)刻t所處的狀態(tài)q(t)隱藏在系統(tǒng)內(nèi)部,不為外界所見(jiàn),外界只能得到系統(tǒng)在該狀態(tài)下提供的隨機(jī)輸出(語(yǔ)音信號(hào)特征的概率),隱含馬爾可夫模型由此得名。
我們知道,語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)特性。為此,可以將語(yǔ)音劃分為不同的短時(shí)段,每段對(duì)應(yīng)于HMM的一個(gè)狀態(tài),段與段之間的遷移可以用HMM中狀態(tài)到狀態(tài)的轉(zhuǎn)移來(lái)表示。每個(gè)狀態(tài)具有特定的模型參數(shù),可以描述一幀語(yǔ)音的平穩(wěn)的統(tǒng)計(jì)特性,如果下一幀語(yǔ)音具有相同的統(tǒng)計(jì)特性,則狀態(tài)不轉(zhuǎn)移,或者說(shuō)下一個(gè)狀態(tài)仍然跳到本狀態(tài),反之如果下一幀語(yǔ)音的統(tǒng)計(jì)特性變化了,則下一個(gè)狀態(tài)會(huì)跳到與該段語(yǔ)音統(tǒng)計(jì)特性相符的狀態(tài)。
由上可以看出,隱含馬爾可夫模型是建立在一定物理意義上的數(shù)學(xué)模型,其中的各狀態(tài)相對(duì)于發(fā)音器官在人說(shuō)話中所經(jīng)歷的每個(gè)相對(duì)穩(wěn)定的過(guò)程,比較貼切的描述了語(yǔ)音信號(hào)的時(shí)變性和準(zhǔn)平穩(wěn)性。
圖1示出了HMM對(duì)輸入語(yǔ)音的描述。圖中語(yǔ)音為中文的“他去無(wú)錫市”。我們同時(shí)用相應(yīng)的音子來(lái)標(biāo)注輸入語(yǔ)音。各音子標(biāo)注相對(duì)于一個(gè)HMM。我們?cè)趫D中示出了一個(gè)從左到右的HMM拓?fù)浣Y(jié)構(gòu)。各狀態(tài)有相應(yīng)的輸出概率分布。狀態(tài)1和狀態(tài)9分別為起始狀態(tài)和終止?fàn)顟B(tài),它們用來(lái)將不同的HMM串接起來(lái),只是一個(gè)不占時(shí)間的過(guò)渡狀態(tài),本身并不產(chǎn)生對(duì)外的輸出。我們用實(shí)線畫出了不同標(biāo)注劃分的語(yǔ)音倒譜均值。
HMM可以用如下的參數(shù)來(lái)具體表示(為表述方便,直接用狀態(tài)編號(hào)i,j表示狀態(tài)集合{S1~SU}中的第i個(gè)和第j個(gè)狀態(tài))A-狀態(tài)轉(zhuǎn)移概率矩陣,元素為aij=P(j|i),1≤i,j≤U(1)表示由狀態(tài)i到狀態(tài)j的概率。根據(jù)轉(zhuǎn)移概率的定義,我們有,Σj=1Uaij=1,∀1≤i≤U----(2)]]>其中U表示模型狀態(tài)總數(shù)。在圖1中所示的最常用的具有由左到右拓?fù)浣Y(jié)構(gòu)的HMM中,A實(shí)際上為一雙線對(duì)角陣。
B-輸出概率密度p(X(t)|q(t)=i)(3)表示在狀態(tài)q(t)=i,對(duì)于觀測(cè)語(yǔ)音特征X(t)的似然值。語(yǔ)音信號(hào)特征的概率分布往往用高斯分布的疊加來(lái)逼近p(X|q)=Σk=1MwkN(X;μk,Σk)]]>=Σk=1Mwk(Πn=1N12πσknexp(-(xn-μkn)2σkn2))---(4)]]>為方便表述,省略時(shí)間標(biāo)號(hào)t和狀態(tài)編號(hào)i,其中X=[x1,x2,…,xN]是N維觀測(cè)特征矢量,μk=[μk1,μk2,…μkN],Σk=[σk12,σk22,···,σkN2]]]>和wk分別是高斯分布N(X;μk,∑k)的均值,方差和權(quán)重,由于[x1,x2,…,xN]一般都是經(jīng)過(guò)正交變換得到的,所以高斯分布的協(xié)方差矩陣用對(duì)角陣∑k來(lái)描述。從(4)中可以看到,觀測(cè)概率密度函數(shù)是由M個(gè)N維高斯分布按一定的權(quán)重疊加而成;由于每一個(gè)高斯分布的協(xié)方差矩陣均為對(duì)角陣,因此每個(gè)高斯分布可以寫成N個(gè)1維高斯分布連乘的形式。
π-各狀態(tài)的起始概率分布。元素πi∈
,1≤i≤U。在圖1所示的HMM中,狀態(tài)1是唯一的起始狀態(tài),所以π1=1,其余狀態(tài)的起始概率均為0。
以上參數(shù)是用純凈語(yǔ)音通過(guò)訓(xùn)練過(guò)程得到的。訓(xùn)練將通過(guò)訓(xùn)練語(yǔ)音數(shù)據(jù)來(lái)調(diào)整上述參數(shù),也就獲得了語(yǔ)音特征的統(tǒng)計(jì)信息。訓(xùn)練結(jié)束后,就可以進(jìn)行識(shí)別了。
基于HMM的語(yǔ)音識(shí)別是將輸入的語(yǔ)音特征序列[X(1),X(2),…,X(T],根據(jù)最大似然準(zhǔn)則,搜索出最佳狀態(tài)序列Q^=[q^(1),q^(2),···,q^(T)],]]>從而揭開(kāi)HMM的隱含部分,其中T是待識(shí)別的語(yǔ)音的長(zhǎng)度,共有T幀特征。這一過(guò)程可以表述為Q^=argmaxQ=[q(1),q(2),···,q(T)]q(t)∈{S1~SU}∀1≤t≤T{P(q(1),q(2),···,q(T),X(1),X(2),···,X(T)}]]>=argmaxQ=[q(1),q(2),···,q(T)]q(t)∈{S1~SU},∀1≤t≤T{Πt(P(X(t)|q(t))·P(q(t)|q(t-1)))}]]>取對(duì)數(shù)=argmaxQ=[q(1),q(2),···,q(T)]q(t)∈{S1~SU},∀1≤t≤T{Σt(log(P(X(t)|q(t)))+log(P(q(t)|q(t-1))))}----(5)]]>=argmaxQ=[q(1),q(2),···,q(T)]q(t)∈{S1~SU},∀1≤t≤T{Σtlog(P(X(t)|q(t)))+Σtlog(P(q(t)|q(t-1)))}]]>其中Σtlogp(X(t)|q(t))]]>是累積觀測(cè)對(duì)數(shù)概率值,ΣtlogP(q(t)|q(t-1))]]>是累積狀態(tài)轉(zhuǎn)移對(duì)數(shù)概率值。從(5)式中可以看到,識(shí)別過(guò)程就是搜索最優(yōu)的狀態(tài)序列,候選狀態(tài)序列的長(zhǎng)度為T,每個(gè)時(shí)刻有U種狀態(tài)可選擇。判斷最優(yōu)狀態(tài)序列的準(zhǔn)則為該狀態(tài)序列的概率最大,包括該狀態(tài)序列上累積觀測(cè)概率對(duì)數(shù)值和累積狀態(tài)轉(zhuǎn)移對(duì)數(shù)概率值。
對(duì)于可能的狀態(tài)序列Q=[q(1),q(2),…,q(T)],q(t)∈{S1~SU}1≤t≤T,一共有UT種選擇,因此對(duì)(5)式直接求解的計(jì)算量是非常巨大的,在實(shí)際系統(tǒng)中,識(shí)別的核心算法是Viterbi迭代算法。定義δt(i)=maxq(1),q(2),···,q(t-1)P(q(1),q(2),···,q(t-1),q(t)=i,X(1),X(2),···,X(t))----(6)]]>即,δt(i)為在時(shí)刻t,以指定i為此刻的狀態(tài),對(duì)于部分觀測(cè)X(1)X(2)…X(t),部分路徑q(1)q(2)…q(t-1),q(t)=i的最大似然值。Viterbi算法為迭代上式的動(dòng)態(tài)規(guī)劃算法①初始化δt(i)=πip(X(1)|q(1)=i),1≤i≤U(7)t(i)為空 (8)②迭代δt(j)=max1≤i≤IJ[δt-1(i)aij]p(X(t)|q(t)=j)----(9)]]>根據(jù)δt(j)的定義,其計(jì)算可以通過(guò)搜索前一時(shí)刻(t-1)的所有的δt-1(i),1≤i≤U得到。這樣就避免了t時(shí)刻之前的重復(fù)計(jì)算。 t(j)記錄了δt(j)是具體由哪一個(gè)δt-1(i)跳轉(zhuǎn)到狀態(tài)j得到的。
③終止最大概率P*=max1≤i≤U[δT(i)]----(11)]]>根據(jù)定義δt(T)=maxq(1),q(2),···,q(T-1)P(q(1),q(2),···,q(T)=i,X(1),X(2),···,X(T)),]]>這和(5)式中的最優(yōu)結(jié)果非常接近,只是δt(T)中最后一個(gè)狀態(tài)是指定的。因此考慮所有可能的狀態(tài)后得到的P*即為(5)式中最優(yōu)狀態(tài)序列對(duì)應(yīng)的概率。
最佳路徑的最后的狀態(tài)q*(T)=argmax1≤i≤U[δT(i)]----(12)]]>④通過(guò)回溯依次輸出最佳路徑上的其它狀態(tài)q*(t)=t+1(q*(t+1)),t=T-1,T-2,…,1(13)可以看出,δt(i)用來(lái)記錄在時(shí)刻t各狀態(tài)產(chǎn)生部分輸出的最大概率,而t(j)則用來(lái)記錄路徑的連接信息。
目前純凈語(yǔ)音識(shí)別已達(dá)到一個(gè)比較成熟的階段,以IBM的Via Voice為代表,對(duì)連續(xù)語(yǔ)音的識(shí)別率可達(dá)到90%以上,但是對(duì)背景噪聲和輸入話筒有較嚴(yán)格的要求,否則系統(tǒng)性能將會(huì)有很大的下降。造成這種情況的原因是訓(xùn)練環(huán)境和識(shí)別環(huán)境的失配。現(xiàn)在很多識(shí)別系統(tǒng)的參數(shù)都是在實(shí)驗(yàn)室環(huán)境中訓(xùn)練得到的,訓(xùn)練語(yǔ)音大多是在安靜背景下,通過(guò)高質(zhì)量麥克風(fēng)采集的。而到了實(shí)際的應(yīng)用場(chǎng)合,由于多種因素的影響,識(shí)別語(yǔ)音不可避免的會(huì)和系統(tǒng)參數(shù)存在失配,從而造成實(shí)際性能和實(shí)驗(yàn)室中的性能的大相徑庭。
基于HMM的語(yǔ)音識(shí)別是一種統(tǒng)計(jì)的方法,實(shí)際運(yùn)用中的測(cè)試語(yǔ)音和訓(xùn)練語(yǔ)音在統(tǒng)計(jì)特性上越接近,則識(shí)別精度越高;反之則識(shí)別精度將會(huì)急劇下降。許多無(wú)法預(yù)測(cè)的情況導(dǎo)致測(cè)試環(huán)境和訓(xùn)練環(huán)境的失配,所以識(shí)別系統(tǒng)的魯棒性是其走向應(yīng)用,步入市場(chǎng)的極其關(guān)鍵的制約因素,如果沒(méi)有一定的魯棒性,則這些識(shí)別系統(tǒng)只能在實(shí)驗(yàn)室里作紙上談兵的游戲。
提高語(yǔ)音識(shí)別系統(tǒng)對(duì)沖擊噪聲的魯棒性,是目前該領(lǐng)域中一個(gè)非常引人注目的問(wèn)題。隨著無(wú)線數(shù)字通信以及互聯(lián)網(wǎng)的迅猛發(fā)展,語(yǔ)音識(shí)別系統(tǒng)將越來(lái)越多的面對(duì)來(lái)自上述信道的語(yǔ)音識(shí)別任務(wù)。例如,系統(tǒng)要求能夠?qū)κ謾C(jī)或IP電話查詢語(yǔ)音作出正確的識(shí)別,并根據(jù)識(shí)別結(jié)果反饋給用戶正確的回答。由于無(wú)線信道中的干擾,或者是IP電話中的丟包,被錯(cuò)誤傳輸?shù)恼Z(yǔ)音幀在接收端將無(wú)法恢復(fù)成原始語(yǔ)音,而會(huì)被譯碼成噪聲片段,即沖擊噪聲。上述干擾和丟包等情況在無(wú)線信道和互聯(lián)網(wǎng)中是經(jīng)常發(fā)生的事,所以沖擊噪聲是上述信道特有的對(duì)語(yǔ)音識(shí)別不利的因素。
沖擊噪聲造成的當(dāng)前語(yǔ)音特征與訓(xùn)練模型的嚴(yán)重失配,使得當(dāng)前幀的觀測(cè)概率p(X|q)遠(yuǎn)遠(yuǎn)低于正常的值,此時(shí)的最佳狀態(tài)選擇的可信度是非常低的,因此會(huì)出現(xiàn)大量的錯(cuò)誤。比如在正常的無(wú)噪情況下,正確路徑最后累計(jì)的觀測(cè)對(duì)數(shù)概率值Σtlogp(X(t)|q(t)),]]>比錯(cuò)誤競(jìng)爭(zhēng)路徑大20,此時(shí)系統(tǒng)會(huì)選擇正確的路徑;而當(dāng)出現(xiàn)沖擊噪聲時(shí),此時(shí)的觀測(cè)對(duì)數(shù)概率值,log(p(X|q))會(huì)比正常值低許多,正確路徑的此處的概率比較并不能提供有效的識(shí)別信息,反而往往會(huì)擾亂正常的識(shí)別,如正確路徑的觀測(cè)對(duì)數(shù)概率值會(huì)比錯(cuò)誤的低10,經(jīng)過(guò)幾幀后,正確路徑在無(wú)噪段獲得的累積概率優(yōu)勢(shì)將不復(fù)存在,而錯(cuò)誤路徑則依靠在噪聲幀獲得的不可信的概率優(yōu)勢(shì)被識(shí)別器最終選取。圖2(b)給出了沖擊噪聲影響下的觀測(cè)似然值。此處的識(shí)別特征是13維的MFCC(Mel-Scaled Frequency Cepstral coefficients),即[C0,C1,…,C12]。在沖擊噪聲環(huán)境中,最佳狀態(tài)序列的搜索希望能夠按照正確路徑進(jìn)行,即能夠識(shí)別出無(wú)噪聲情況下的結(jié)果。但是在噪聲幀,如第4~第10幀,正確路徑的觀測(cè)概率遠(yuǎn)遠(yuǎn)低于錯(cuò)誤的競(jìng)爭(zhēng)路徑的觀測(cè)概率,盡管后者也非常低。觀測(cè)概率差距造成最佳狀態(tài)序列的搜索偏移到錯(cuò)誤競(jìng)爭(zhēng)路徑上來(lái),從而識(shí)別出錯(cuò)誤的結(jié)果。
沖擊噪聲造成識(shí)別時(shí)語(yǔ)音特征和訓(xùn)練模型的嚴(yán)重失配,基于傳統(tǒng)HMM的語(yǔ)音識(shí)別系統(tǒng)在這種噪聲環(huán)境中的性能將急劇下降,甚至遠(yuǎn)遠(yuǎn)低于所能允許的最低限度。因此,語(yǔ)音識(shí)別系統(tǒng)是否包含了有效的抗沖擊噪聲技術(shù)是其今后能否真正達(dá)到實(shí)用的關(guān)鍵問(wèn)題。
一些經(jīng)典的抗噪聲技術(shù),如并行模型合并(Parallel Model Combination),語(yǔ)音增強(qiáng)(Speech Enhancement),倒譜均值歸一化(Cepstral Mean Normalization)等,對(duì)沖擊噪聲的效果都不理想。這是因?yàn)檫@些方法需要得到噪聲的先驗(yàn)知識(shí),隨機(jī)性是沖擊噪聲的最大特點(diǎn),因此上述條件在實(shí)際應(yīng)用中很難得到滿足。
目前也出現(xiàn)了一些專門針對(duì)沖擊噪聲的方法,這些方法的核心是前端的沖擊噪聲檢測(cè)和被損傷的語(yǔ)音幀的恢復(fù)。這類方法有兩個(gè)明顯的缺點(diǎn)(1)沖擊噪聲檢測(cè)和數(shù)據(jù)重構(gòu)所帶來(lái)的附加運(yùn)算將嚴(yán)重影響識(shí)別速度。
(2)沒(méi)有考慮前端數(shù)據(jù)重構(gòu)和識(shí)別器的匹配問(wèn)題,這限制了識(shí)別器性能的改善空間。
因此,這類方法仍然限制了語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性。
FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)出發(fā)點(diǎn)為在語(yǔ)音識(shí)別最佳狀態(tài)序列搜索過(guò)程中,設(shè)置一門限對(duì)觀測(cè)概率最低取值進(jìn)行限制,這樣沖擊噪聲出現(xiàn)時(shí)的不正常概率取值能夠被提高至一門限值,正確路徑和錯(cuò)誤競(jìng)爭(zhēng)路徑之間的不正常概率差距就會(huì)被消除,使得正確路徑能夠保持原有的概率優(yōu)勢(shì),被識(shí)別器最終選擇。而無(wú)噪時(shí),正確路徑和錯(cuò)誤競(jìng)爭(zhēng)路徑上的觀測(cè)概率取值均在門限之上,兩者之間的正常的路徑選擇不會(huì)受到影響。
在傳統(tǒng)HMM框架中,觀測(cè)概率的計(jì)算是根據(jù)概率密度函數(shù)的原始定義。此處對(duì)HMM框架的改進(jìn)體現(xiàn)在對(duì)觀測(cè)概率最低取值限上。
FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的三個(gè)核心問(wèn)題(1)特征劃分與其概率的最低取值限制FOP系統(tǒng)并不是直接對(duì)識(shí)別特征的整體概率進(jìn)行最低取值限制,而是先根據(jù)各維特征對(duì)噪聲的敏感程度進(jìn)行劃分,然后對(duì)各部分的概率進(jìn)行嚴(yán)格程度不同的最低取值限制。這樣可以更有效的消除噪聲帶來(lái)的影響,同時(shí)保留更多的對(duì)識(shí)別有利的信息。根據(jù)各維對(duì)沖擊噪聲的敏感程度對(duì)語(yǔ)音特征進(jìn)行劃分可以描述為X=[x1,x2,…,xN]=[X1,X2,…,XL],(14)這樣語(yǔ)音特征X被劃分成L個(gè)子向量,每個(gè)子向量對(duì)沖擊噪聲的敏感程度,或者是穩(wěn)健程度,都是不同的。由于每一高斯分量的協(xié)方差矩陣是對(duì)角陣,因此高斯分布中各維是相互獨(dú)立的,那么上述各子向量的概率對(duì)于整體觀測(cè)概率的貢獻(xiàn)在高斯分量這一級(jí)可以被分解開(kāi)來(lái)p(X|q)=Σk=1MwkΠl=1LN(Xl;μk,l,Σk,l),----(15)]]>其中μk,l,∑k,l是子向量Xl在第k個(gè)高斯分量中對(duì)應(yīng)的均值和方差。觀測(cè)概率的計(jì)算進(jìn)行了如下的改進(jìn)pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk,l),----(16)]]>其中Nf(Xl;μk,l,∑k,l)是最低取值限制后的高斯分布 當(dāng)M(Xl;μk,l,∑k,l)≥THl, (17)其他這樣Nf(Xl;μk,l,∑k,l)的值將不會(huì)小于THl,THl是根據(jù)各子向量Xl對(duì)沖擊噪聲的敏感程度所確定的門限,特別的,limTHl→0Nf(Xl;μk,l,Σk,l)=N(Xl;μk,l,Σk,l),----(18)]]>即此時(shí)對(duì)概率取值不作任何限制,還可以看到,傳統(tǒng)的HMM框架實(shí)際上可以看成是改進(jìn)后的理論框架的特例。
pf(X|q)將直接替代(5)式中的p(X|q)用于最佳狀態(tài)序列的搜索,而狀態(tài)轉(zhuǎn)移概率P(q(t)|q(t-1))將保持不變,這樣對(duì)識(shí)別有益的狀態(tài)駐留信息將得以保持。
(2)各維語(yǔ)音特征對(duì)沖擊噪聲敏感度的量度各維語(yǔ)音特征對(duì)沖擊噪聲的敏感程度是不同的,沖擊噪聲造成的影響正常識(shí)別的概率差距主要集中在這些特征維。圖2(c)的例子給出的是部分特征維的觀測(cè)似然值,此處的子向量是由前5維MFCC特征所組成,即[C0,C1,…,C4]。由該圖可以看到,正確路徑和錯(cuò)誤競(jìng)爭(zhēng)路徑在此5維子向量上的概率差距非常接近于在整體特征向量([C0,C1,…,C12])上的概率差距,或者說(shuō)沖擊噪聲的影響主要集中在這幾維。因此消除在這幾維上的概率差距,也就消除了在整體特征上的概率差距。在系統(tǒng)設(shè)計(jì)時(shí)應(yīng)該對(duì)這幾維的概率計(jì)算賦予比較高的門限進(jìn)行嚴(yán)格的最低取值限制,而對(duì)剩余特征維的概率計(jì)算則賦予比較低的門限進(jìn)行非常弱的限制,這樣的特征劃分在有效消除概率差距的同時(shí),能夠保留其他維的識(shí)別信息。
語(yǔ)音特征的劃分主要依據(jù)是各維對(duì)沖擊噪聲的敏感程度。各維特征對(duì)沖擊噪聲的敏感程度可由下述分散指數(shù)衡量Dn=|μn|/σn,n=1,2,…,N,(19)μn,σn是各維均值和標(biāo)準(zhǔn)差的統(tǒng)計(jì)平均值μn=Σj=1UΣk=1MjμjknΣj=1UMj,σn=Σj=1UΣk=1MjσjknΣj=1UMj,----(20)]]>其中μjkn,σjkn分別是第j個(gè)狀態(tài)的第k個(gè)高斯分量在第n維上的均值和標(biāo)準(zhǔn)差,Mj是第j個(gè)狀態(tài)的高斯分量數(shù)目。這樣將各維所有的均值和標(biāo)準(zhǔn)差加起來(lái),除以總數(shù),便得到了統(tǒng)計(jì)平均值。
Dn比較大,則說(shuō)明第n維特征比較易于聚類,則沖擊噪聲對(duì)該維的影響也就較大。在圖3的例子中,被沖擊噪聲干擾的特征聚類到了錯(cuò)誤的模型中,其與正確模型的概率差距隨著Dn的增加而變大。因此,語(yǔ)音特征應(yīng)根據(jù)各維分散指數(shù)的大小劃分成一系列子向量,并賦予不同的門限加以嚴(yán)格程度各異的最低概率取值限制,對(duì)由分散指數(shù)較大的特征維所組成的子向量應(yīng)采用較高的門限進(jìn)行相對(duì)嚴(yán)格的限制。
(3)門限確定門限的確定是FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)中非常關(guān)鍵的步驟。所選定的門限即要能夠消除觀測(cè)概率在由沖擊噪聲造成的不正常取值情況下的概率差距,又要能夠保證沒(méi)有噪聲時(shí)的正常的概率計(jì)算和比較,即應(yīng)該在消除噪聲影響和保持無(wú)噪情況下鑒別信息兩者之間作出好的折中。在圖1(c)中的門限對(duì)這幾維來(lái)說(shuō)就是比較合適的,不僅在門限之下的概率差距被有效的消除,而且門限之上的正常的概率計(jì)算也不受影響。
門限值是和一定的置信區(qū)間、置信度相聯(lián)系的,如果一特征子向量的概率值小于門限,則等價(jià)于該子向量處于對(duì)應(yīng)的置信區(qū)間之外,那么該子向量由于置信度過(guò)低而會(huì)被看作是不合理的或者是不正常的數(shù)據(jù),其觀測(cè)概率值也會(huì)被限制。假設(shè)子向量Xf是根據(jù)各維特征對(duì)噪聲的敏感度所劃分出的L個(gè)子向量中的某一個(gè),其維數(shù)為R,則其門限THf與置信區(qū)間H、置信度Pc的關(guān)系如下N(Xf;μf,Σf)|Xf∈H=THf,----(21)]]>并且∫HN(xf;μf,∑f)dxf=Pc。(22)其中μf,∑f是Xf對(duì)應(yīng)各維的的均值和方差的統(tǒng)計(jì)平均值,計(jì)算方法見(jiàn)式(20)。置信區(qū)間H是關(guān)于均值點(diǎn)μf對(duì)稱的一個(gè)區(qū)域的邊界,數(shù)據(jù)落在該區(qū)域的概率為Pc,也就是該置信區(qū)間的置信度。圖4(a)給出的一維時(shí)的例子清楚的說(shuō)明了上述關(guān)系,對(duì)于多維的情況,門限的計(jì)算非常復(fù)雜,這里采取的是置信區(qū)間近似法,見(jiàn)圖4(b)。(對(duì)于1維,置信區(qū)間為一線段;對(duì)于2維,置信區(qū)間為一橢圓,計(jì)算中用一外切的矩形來(lái)代替;對(duì)于3維,置信區(qū)間為一橢球,計(jì)算中用一外切的長(zhǎng)方體來(lái)代替;對(duì)于更高的維,置信區(qū)間為一超橢球,計(jì)算中用一外切的超長(zhǎng)方體來(lái)代替)假設(shè)Xf=[x1,x2,…,xR]是一R維子向量,此時(shí)的置信區(qū)間H是一R維的橢球,dr是其各維的半徑,此時(shí)(22)式的積分是及其困難的。置信區(qū)間近似法將用一外切的R維長(zhǎng)方體 來(lái)代替H。首先考慮(21)式在第r維的投影N(xf;μf,Σf)|Xf∈H,Σz≠1(xz-dz)2=0=(Πz=1R12πσz)·exp{-dr22σr2}=THf,r=1,2,···,R.----(23)]]>由(23)式可以得到drσr=2log(G/THf),----(24)]]>其中G=Πz=1R12πσz.]]>當(dāng)(22)式的積分在 中進(jìn)行時(shí),可以將各維的積分分解開(kāi)∫HN(xf;μf,Σf)dxf≅∫H^N(xf;μf,Σf)dxf]]>=Πr=1R∫-drdrN(xr;0,σr2)dxr]]>=Πr=1R∫-dr/σrdr/σrN(ξr;0,1)dξr]]>=Πr=1R∫-2log(G/THf)2log(G/THf)N(ξr;0,1)dξr]]>=(2·Φ(2log(G/THf))-1)R]]>=Pc---(25)]]>其中ξr=xr/σr,Φ(x)=∫-∞xN(x;0,1)dx,]]>Φ(x)可以通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或者是通過(guò)計(jì)算機(jī)程序用級(jí)數(shù)累加的方法求得。從(25)式可以看到,置信區(qū)間H在各維的投影[μr-dr,μr+dr]具有相同的置信度∫-drdrN(xr;0,σr2)dxr=(2·Φ(2log(G/THf))-1)=PcR=ΔPS,----(26)]]>根據(jù)經(jīng)驗(yàn)取Ps=99.9%,可由(26)式得到比較合適的門限THf。
本發(fā)明的特征在于在最佳狀態(tài)搜索時(shí),用分散指數(shù)對(duì)上述語(yǔ)音觀測(cè)特征X(t)的N維特征進(jìn)行對(duì)噪聲敏感度的劃分,即使X=[x1,x2,…,xN]=[X1,X2,…,XL];上述各子向量的概率對(duì)于整體觀測(cè)概率的貢獻(xiàn)在高斯分量這一級(jí)被分解為pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk.,l),]]>其中μk,l,∑k,l是子向量Xl在第k個(gè)高斯分量中對(duì)應(yīng)的均值和方差;再用門限THl對(duì)各高斯分量Nf(Xl;μk,l,∑k,l)進(jìn)行觀測(cè)概率最低取值限制,于是最低取值限制后的高斯分布可表示為 當(dāng)N(Xl;μk,l,∑k,l)≥THl;其他與此對(duì)應(yīng)的語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法依次會(huì)有以下步驟(1)讀入根據(jù)有純凈語(yǔ)音訓(xùn)練得到的HMM參數(shù)狀態(tài)轉(zhuǎn)移概率αij,各狀態(tài)高斯分布的均值μk,方差∑k和權(quán)重wk,各狀態(tài)起始概率πi;(2)計(jì)算分散指數(shù)Dn以確定語(yǔ)音特征X各維特征對(duì)噪聲的敏感度Dn=|μn|/σn,n=1,2,…,N,μn、σn為各維n的均值和標(biāo)準(zhǔn)差的統(tǒng)計(jì)平均值μn=Σj=1UΣk=1MjμjknΣj=1UMj,σn=Σj=1UΣk=1MjσjknΣj=1UMj,]]>μjkn、σjkn分別是第j個(gè)狀態(tài)的第k個(gè)高斯分量在第n維上的均值和標(biāo)準(zhǔn)差,Mj是第j個(gè)狀態(tài)下的高斯分量的數(shù)目;(3)根據(jù)各維n分散指數(shù)Dn的大小,把語(yǔ)音特征X劃分為L(zhǎng)個(gè)特征子向量X=[x1,x2,…,xN]=[X1,X2,…,XL],相應(yīng)的,觀測(cè)概率pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk,l),]]>μk,l,∑k,l是子向量Xl在第k個(gè)高斯分量中對(duì)應(yīng)的均值和方差;(4)根據(jù)各子向量對(duì)沖擊噪聲的敏感程度計(jì)算門限。對(duì)于根據(jù)各維特征對(duì)于噪聲敏感度所劃分出來(lái)L個(gè)子向量中的某一個(gè)Xf=[x1,x2,…,xR],R是該子向量的維數(shù),通過(guò)置信區(qū)間近似法,其門限THf通過(guò)公式2·Φ(2log(G/THf))-1=PS]]>計(jì)算出。其中Φ(x)=∫-∞xN(x;0,1)dx,]]>Φ(x)可以通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或者是通過(guò)計(jì)算機(jī)程序用級(jí)數(shù)累加的方法求得,G=Πn=1R12πσn,]]>σn為第n維特征的標(biāo)準(zhǔn)差的統(tǒng)計(jì)平均值,其值在第(2)步中已經(jīng)得到。Ps是各維的置信度,根據(jù)經(jīng)驗(yàn)取Ps=99.9%可以計(jì)算出比較合適的門限值。
(5)根據(jù)門限TH求出最低取值限制后的高斯分布 當(dāng)N(Xl;μk,l,∑k,l)≥THl,其他從而得到改進(jìn)后的觀測(cè)概率pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk,l)]]>(6)輸入識(shí)別語(yǔ)音文件列表;(7)輸入識(shí)別語(yǔ)音數(shù)據(jù);(8)提取語(yǔ)音識(shí)別特征MFCC,ΔMFCC(動(dòng)態(tài));(9)最佳狀態(tài)序列搜索;(10)識(shí)別結(jié)果輸出;(11)識(shí)別語(yǔ)音文件列表的批處理識(shí)別結(jié)束。
所述的依次連接的核心模塊,即輸入識(shí)別語(yǔ)音文件、提取語(yǔ)音識(shí)別特征、最佳狀態(tài)序列搜索子程序框圖含有以下步驟(1)輸入包含噪聲幀及幀序號(hào)在內(nèi)的識(shí)別語(yǔ)音數(shù)據(jù);(2)輸入語(yǔ)音識(shí)別特征MFCC、動(dòng)態(tài)MFCC各自的維數(shù)及敏感特征的維數(shù)。
(3)Viterbi(維特比)譯碼初始化;(4)按幀序列號(hào)的順序依次讀入語(yǔ)音特征序列X(t)|1≤t≤T;(5)計(jì)算語(yǔ)音特征X(t)|t=1、狀態(tài)編號(hào)j=1、高斯分量編號(hào)k=1時(shí)所有子向量1≤l≤L的修改后的高斯分量Nf(Xl(t);μk,l,∑k,l)以及更新高斯分量觀測(cè)概率值N(t,j,k)=N(t,j,k)·Nf(Xl(t);μk,l,∑k,l);(6)計(jì)算完語(yǔ)音特征X(t)|t=1、狀態(tài)編號(hào)j=1、高斯分量編號(hào)1≤k≤K下的所有的高斯分量,接著計(jì)算X(t)在狀態(tài)j=1下的觀測(cè)概率值p(X(t)|q(t))=Σk=1MwkN(t,j,k);]]>(7)計(jì)算完語(yǔ)音特征X(t)|t=1、狀態(tài)1≤j≤U下的各觀測(cè)概率值p(X(t)|q(t))|1≤q(t)=j(luò)≤U;(8)用Viterbi譯碼迭代算法求出在當(dāng)前時(shí)刻下的最佳部分狀態(tài)序列;(9)計(jì)算完所有的語(yǔ)音特征X(t)|1≤t≤T;(10)Viterbi譯碼終止。
使用證明它達(dá)到了預(yù)期目標(biāo)。
圖2沖擊噪聲對(duì)語(yǔ)音識(shí)別的影響;(a)受沖擊噪聲影響的語(yǔ)譜圖;(b)語(yǔ)音特征的對(duì)數(shù)概率值[C0,C1,…,C12];(c)部分語(yǔ)音特征維的對(duì)數(shù)概率值[C0,C1,…,C4]。 無(wú)噪情況下的最佳路徑(正確結(jié)果) 有噪情況下的最佳路徑(錯(cuò)誤結(jié)果)
圖3各維特征對(duì)沖擊噪聲的敏感度與其分散指數(shù)的關(guān)系;(a)Dn較小的情況(b)Dn較大的情況。
圖4門限TH與置信區(qū)間H、置信度Pc之間的關(guān)系;(a)一維時(shí)的情況;(b)多維時(shí)的情況。
圖5本發(fā)明所述方法的主程序流程框圖。
圖6本發(fā)明所述方法的核心模塊流程框圖。
在圖6中,含噪語(yǔ)音中沖擊噪聲是用幀長(zhǎng)400ms、能量較高的寬帶高斯白噪聲來(lái)仿真,其出現(xiàn)概率為10%,語(yǔ)音識(shí)別的特征為13維MFCC和13維動(dòng)態(tài)MFCC。敏感特征為[C0~C2]=ΔX1,]]>對(duì)應(yīng)的門限對(duì)數(shù)值為THl=-11.1,第6幀是噪聲。
在根據(jù)各維特征的分散指數(shù)進(jìn)行特征劃分,并計(jì)算出各部分的最低概率取值門限后,最佳狀態(tài)序列搜索過(guò)程將對(duì)各幀語(yǔ)音特征的概率計(jì)算進(jìn)行最小取值限制,這是FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的核心模塊,其流程圖如圖7所示。觀測(cè)概率最低取值限制是在高斯分量這一級(jí)展開(kāi)的。首先計(jì)算每一幀特征的所劃分的各子向量的觀測(cè)概率值Nf(Xl(t);μk,l,∑k,l|q(t)=j(luò)),這一值是經(jīng)過(guò)最低取值限制后得到的。然后累乘各子向量觀測(cè)概率值得到高斯分量觀測(cè)概率,后者經(jīng)累加得到特征X(t)在狀態(tài)q(t)=j(luò)時(shí)的觀測(cè)概率值,該值將更新最佳狀態(tài)序列的搜索過(guò)程,當(dāng)對(duì)每一狀態(tài)都重復(fù)此操作后,在此時(shí)刻t的最佳狀態(tài)序列搜索結(jié)束。在完成最后時(shí)刻的狀態(tài)搜索后,最佳狀態(tài)序列也就得到了,這即為識(shí)別的結(jié)果。
在噪聲幀,如t=6,對(duì)于傳統(tǒng)HMM框架,正確路徑和錯(cuò)誤競(jìng)爭(zhēng)路徑在該幀對(duì)敏感特征的觀測(cè)概率對(duì)數(shù)值為-32和-17,均是不正常的值,但此處錯(cuò)誤路徑獲得了不可信的概率優(yōu)勢(shì)(-17)-(-32)=15,造成識(shí)別出錯(cuò)誤的結(jié)果。采用FOP后,兩者的觀測(cè)概率對(duì)數(shù)值均被修正為THl,即-11.1,不正常的概率差距因此被消除,沖擊噪聲對(duì)識(shí)別的影響因此被化解。
FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在Pentium計(jì)算機(jī)上得以實(shí)現(xiàn)。我們用TI-digits數(shù)據(jù)庫(kù)對(duì)該系統(tǒng)進(jìn)行了測(cè)試。實(shí)驗(yàn)中采用了兩種沖擊噪聲仿真沖擊噪聲和機(jī)關(guān)槍噪聲。仿真沖擊噪聲是用幅度較大的白噪聲片段隨機(jī)的替代純凈語(yǔ)音幀,沖擊噪聲幀的比例為10%。機(jī)關(guān)槍噪聲是加性的背景噪聲,實(shí)驗(yàn)考察了噪聲對(duì)識(shí)別的影響非常大,即信噪比較低時(shí)的情況。實(shí)驗(yàn)中的語(yǔ)音特征為13維MFCC和13維ΔMFCC,即[C0,…,C12,ΔC0,…,ΔC12]。
在實(shí)驗(yàn)中輸入純凈語(yǔ)音以及被沖擊噪聲污染后的語(yǔ)音,該系統(tǒng)輸出識(shí)別的結(jié)果,即語(yǔ)音的內(nèi)容。通過(guò)與基于傳統(tǒng)HMM的語(yǔ)音識(shí)別系統(tǒng)的比較,發(fā)現(xiàn)FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠非常有效的提高在沖擊噪聲中識(shí)別的正確率,并維持在純凈環(huán)境下的高識(shí)別精度。實(shí)驗(yàn)結(jié)果和分析如下。
表1傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度RA(Recognition Accuracy,%)
從表1中可以看到,傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)對(duì)純凈語(yǔ)音的識(shí)別性能非常好,但當(dāng)出現(xiàn)沖擊噪聲時(shí),系統(tǒng)識(shí)別精度急劇下降,如在機(jī)關(guān)槍噪聲下,傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度只有62.3%,如此低的識(shí)別率使得傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)在實(shí)際中是無(wú)法使用的。
表2 FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度RA(%)及對(duì)性能的改善ERR(Error RateReduction,%)
從表2中可以看到FOP抗沖擊噪聲自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠有效的提高系統(tǒng)在沖擊噪聲中的性能,并且能夠?qū)儍粽Z(yǔ)音保持較高的識(shí)別精度。實(shí)驗(yàn)中將13MFCC+13ΔMFCC分成3部分,第一部分對(duì)沖擊噪聲比較敏感,所以對(duì)這部分的最低概率取值限制比較嚴(yán)格,其門限由(26)式求得,其中Ps=99.9%。第二部分對(duì)沖擊噪聲比較穩(wěn)健,所以沒(méi)有限制其概率取值,第三部分也比較穩(wěn)健,所以取了一個(gè)非常低的門限。相比較基于傳統(tǒng)HMM框架的語(yǔ)音識(shí)別系統(tǒng),所采用的各特征劃分方案均能有效的提高系統(tǒng)在沖擊噪聲中的識(shí)別精度,并同時(shí)維持在純凈情況下的高性能。如在第一種特征劃分方案下,系統(tǒng)在仿真沖擊噪聲的識(shí)別精度由85.0%提高到96.0%,在機(jī)關(guān)槍噪聲中的識(shí)別精度由62.3%提高到95.0%,而在純凈語(yǔ)音中的識(shí)別精度維持100.0%不變。FOP抗沖擊噪聲系統(tǒng)除了能夠有效的提高語(yǔ)音識(shí)別系統(tǒng)在沖擊噪聲中的性能,還具有以下一些優(yōu)點(diǎn),從而使之有很強(qiáng)的實(shí)用性(1)附加計(jì)算量非常小。識(shí)別階段的觀測(cè)概率取值限制只增加了一些判斷和替換操作,幾乎不影響識(shí)別速度。
(2)不需要有關(guān)噪聲的先驗(yàn)知識(shí)。
(3)合理的特征劃分和門限選擇能夠保證在純凈情況下的正常識(shí)別。
(4)對(duì)傳統(tǒng)HMM框架的改進(jìn)是在最后的識(shí)別階段,因此可以在前面加入其他的抗噪聲算法。
權(quán)利要求
1.語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法,含有用計(jì)算機(jī)執(zhí)行的隱含馬爾可夫模型(Hidden Markov Model,即HMM)的概率統(tǒng)計(jì)識(shí)別方法,它根據(jù)語(yǔ)音具有的短時(shí)平穩(wěn)性的特點(diǎn),把語(yǔ)音劃分為一系列短時(shí)段,每段對(duì)應(yīng)于HMM的一個(gè)狀態(tài),用每個(gè)狀態(tài)具有的以下特定的模型參數(shù)來(lái)描述各幀語(yǔ)音的平穩(wěn)統(tǒng)計(jì)特征(1)各狀態(tài)的起始概率分布π,πi∈
,1≤i≤U,U為HMM的狀態(tài)總數(shù),起始狀態(tài)的概率π1=1,其余狀態(tài)的起始概率為0;(2)狀態(tài)轉(zhuǎn)移概率矩陣A,元素αij=P(j|i),1≤i,j≤U,表示在t時(shí)刻由狀態(tài)i到j(luò)的概率,它只取決于前一時(shí)刻(t-1)所處的狀態(tài),狀態(tài)轉(zhuǎn)移概率滿足Σj=1Uaij=1,∀1≤i≤U;]]>(3)輸出概率密度,即觀測(cè)概率,表示系統(tǒng)在某狀態(tài)下向外界提供的隨機(jī)輸出(語(yǔ)音信號(hào)特征的概率),用p(X(t)|q(t)=i)表示,即在狀態(tài)q(t)=i下,對(duì)于觀測(cè)語(yǔ)音特征X(t)的概率似然值;X(t)的概率分布往往用高斯分布的疊加來(lái)逼近,在省略時(shí)間標(biāo)號(hào)t和狀態(tài)編號(hào)i時(shí),可以表示為p(X|q)=Σk=1MwkN(X;μk,Σk)]]>=Σk=1Mwk(Πn=1N12πσknexp(-(xn-μkn)2σkn2));]]>X=[x1,x2,…,xN]是N維觀測(cè)特征矢量,wk是第k個(gè)高斯分布N(X;μk,∑k)的權(quán)重,μk=[μk1,μk2,…μkN]是高斯分布的均值,Σk=[σk12,σk22,···,σkN2]]]>是高斯分布的方差;根據(jù)最大似然準(zhǔn)則,語(yǔ)音識(shí)別的過(guò)程是從輸入的語(yǔ)音特征序列[X(1),X(2),…,X(T)]中搜索出相應(yīng)的最佳狀態(tài)序列Q^=[q^(1),q^(2),···,q^(T)],]]>T是待識(shí)別語(yǔ)音的長(zhǎng)度,共有T幀特征;本發(fā)明的特征在于在最佳狀態(tài)搜索時(shí),用分散指數(shù)對(duì)上述語(yǔ)音觀測(cè)特征X(t)的N維特征進(jìn)行對(duì)噪聲敏感度的劃分,即使X=[x1,x2,…,xN]=[X1,X2,…,XL];上述各子向量的概率對(duì)于整體觀測(cè)概率的貢獻(xiàn)在高斯分量這一級(jí)被分解為pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk,l),]]>其中μk,l,∑k,l是子向量Xl在第k個(gè)高斯分量中對(duì)應(yīng)的均值和方差;再用門限THl對(duì)各高斯分量Nf(Xl;μk,l,∑k,l)進(jìn)行觀測(cè)概率最低取值限制,于是最低取值限制后的高斯分布可表示為 當(dāng)N(Xl;μk,l,∑k,l)≥THl;其他與此對(duì)應(yīng)的語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法依次會(huì)有以下步驟(1)讀入根據(jù)由純凈語(yǔ)音訓(xùn)練得到的HMM參數(shù)狀態(tài)轉(zhuǎn)移概率αij,各狀態(tài)高斯分布的均值μk,方差∑k和權(quán)重wk,各狀態(tài)起始概率πi;(2)計(jì)算分散指數(shù)Dn以確定語(yǔ)音特征X各維特征對(duì)噪聲的敏感度Dn=|μn|/σn,n=1,2,…,N,μn、σn為各維n的均值和標(biāo)準(zhǔn)差的統(tǒng)計(jì)平均值μn=Σj=1UΣk=1MjμjknΣj=1UMj,σn=Σj=1UΣk=1MjσjknΣj=1UMj,]]>μjkn、σjkn分別是第j個(gè)狀態(tài)的第k個(gè)高斯分量在第n維上的均值和標(biāo)準(zhǔn)差,Mj是第j個(gè)狀態(tài)下的高斯分量的數(shù)目;(3)根據(jù)各維n分散指數(shù)Dn的大小,把語(yǔ)音特征X劃分為L(zhǎng)個(gè)特征子向量X=[x1,x2,…,xN]=[X1,X2,…,XL],相應(yīng)的,觀測(cè)概率pf(X|q)=Σk=1MwkΠl=1LNf(X1;μk,l,Σk,l),]]>μk,l,Σk,l是子向量Xl在第k個(gè)高斯分量中對(duì)應(yīng)的均值和方差;(4)根據(jù)各子向量對(duì)沖擊噪聲的敏感程度計(jì)算門限,對(duì)于根據(jù)各維特征對(duì)于噪聲敏感度所劃分出來(lái)L個(gè)子向量中的某一個(gè)Xf=[x1,x2,…,xR],R是該子向量的維數(shù),通過(guò)置信區(qū)間近似法,其門限THf通過(guò)公式2·Φ(2log(G/THf))-1=Ps]]>計(jì)算出,其中Φ(x)=∫-∞xN(x;0,1)dx,]]>Φ(x)可以通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或者是通過(guò)計(jì)算機(jī)程序用級(jí)數(shù)累加的方法求得,G=Πn=1R12πσn,]]>σn為第n維特征的標(biāo)準(zhǔn)差的統(tǒng)計(jì)平均值,其值在第(2)步中已經(jīng)得到;Ps是各維的置信度,根據(jù)經(jīng)驗(yàn)取Ps=99.9%可以計(jì)算出比較合適的門限值;(5)根據(jù)門限TH求出最低取值限制后的高斯分布 當(dāng)N(Xl;μk,l,∑k,l)≥THl其他,從而得到改進(jìn)后的觀測(cè)概率pf(X|q)=Σk=1MwkΠl=1LNf(Xl;μk,l,Σk,l)]]>(6)輸入識(shí)別語(yǔ)音文件列表;(7)輸入識(shí)別語(yǔ)音數(shù)據(jù);(8)提取語(yǔ)音識(shí)別特征MFCC,ΔMFCC(動(dòng)態(tài));(9)最佳狀態(tài)序列搜索;(10)識(shí)別結(jié)果輸出;(11)識(shí)別語(yǔ)音文件列表的批處理識(shí)別結(jié)束。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法其特征在于所述的依次連接的核心模塊,即輸入識(shí)別語(yǔ)音文件、提取語(yǔ)音識(shí)別特征、最佳狀態(tài)序列搜索子程序框圖含有以下步驟(1)輸入包含噪聲幀及幀序號(hào)在內(nèi)的識(shí)別語(yǔ)音數(shù)據(jù);(2)輸入語(yǔ)音識(shí)別特征MFCC、動(dòng)態(tài)MFCC各自的維數(shù)及敏感特征的維數(shù);(3)Viterbi(維特比)譯碼初始化;(4)按幀序列號(hào)的順序依次讀入語(yǔ)音特征序列X(t)|1≤t≤T;(5)計(jì)算語(yǔ)音特征X(t)|t=1、狀態(tài)編號(hào)j=1、高斯分量編號(hào)k=1時(shí)所有子向量1≤l≤L的修改后的高斯分量Nf(Xl(t);μk,l,∑k,l)以及更新高斯分量觀測(cè)概率值N(t,j,k)=N(t,j,k)·Nf(Xl(t);μk,l,∑k,l);(6)計(jì)算完語(yǔ)音特征X(t)|t=1、狀態(tài)編號(hào)j=1、高斯分量編號(hào)1≤k≤K下的所有的高斯分量,接著計(jì)算X(t)在狀態(tài)j=1下的觀測(cè)概率值p(X(t)|q(t))=Σk=1MwkN(t,j,k);]]>(7)計(jì)算完語(yǔ)音特征X(t)|t=1、狀態(tài)1≤j≤U下的各觀測(cè)概率值p(X(t)|q(t))|1≤q(t)=j(luò)≤U;(8)用Viterbi譯碼迭代算法求出在當(dāng)前時(shí)刻下的最佳部分狀態(tài)序列;(9)計(jì)算完所有的語(yǔ)音特征X(t)|1≤t≤T;(10)Viterbi譯碼終止。
全文摘要
語(yǔ)音識(shí)別系統(tǒng)中限制觀測(cè)概率最低取值的抗沖擊噪聲方法屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,其特征在于它是在隱含馬爾可夫模型概率統(tǒng)計(jì)識(shí)別方法的最佳狀態(tài)序列搜索階段中,先用分散指數(shù)對(duì)語(yǔ)音特征的各維進(jìn)行對(duì)噪聲敏感程度的劃分,再用門限對(duì)其中敏感特征的觀測(cè)概率進(jìn)行最低取值限制,以便更有效的消除噪聲帶來(lái)的影響。同時(shí)也保留更多的對(duì)識(shí)別有用的信息。它除了能顯著提高語(yǔ)音識(shí)別系統(tǒng)在沖擊噪聲中的性能,還具有以下優(yōu)點(diǎn)附加計(jì)算量非常小,幾乎不影響識(shí)別速度;不需要有關(guān)噪聲的先驗(yàn)知識(shí);合理的特征劃分和門限選擇能夠保證在純凈情況下的正常識(shí)別,以及對(duì)傳統(tǒng)HMM框架的改進(jìn)是在最后的識(shí)別階段,因此可以在前面加入其他的抗噪聲算法。
文檔編號(hào)G10L15/20GK1464501SQ02123439
公開(kāi)日2003年12月31日 申請(qǐng)日期2002年6月28日 優(yōu)先權(quán)日2002年6月28日
發(fā)明者丁沛, 曹志剛 申請(qǐng)人:清華大學(xué)