專利名稱:一種基于小波包分解及混合高斯模型估計的語音識別方法
專利說明一種基于小波包分解及混合高斯模型估計的語音識別方法 技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別是指一種基于小波包分解及混合高斯模型的語音識別方法。
背景技術(shù):
一個典型的語音識別系統(tǒng)通常包括如下過程信號預(yù)處理、特征參數(shù)提取、建立模式庫、模式匹配、后處理等。其中特征參數(shù)提取和建模是語音識別的兩個關(guān)鍵性問題。當前最常用的兩種特征參數(shù)是線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)和Melp頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC),而最主要的識別方法是隱馬爾可夫模型(Hidden Markov Model,HMM)。
LPCC是指將線性預(yù)測系數(shù)經(jīng)倒譜變換后得到的參數(shù)。它從人的發(fā)聲機理入手,通過對聲道的短管級聯(lián)模型的研究,認為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式,從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預(yù)測采樣值之間達到均方差最小LMS,即可得到線性預(yù)測系數(shù)LPC[1-8]。這種模型能用極少的參數(shù)表現(xiàn)語音的波形和頻譜特性,達到很好的降維效果,同時具有很高的計算率,因此有著廣泛的應(yīng)用。LPC模型是基于發(fā)音模型建立的,是純數(shù)學(xué)模型,并沒有充分利用人耳的聽覺特性。事實上,人耳的聽覺特性是一個特殊的非線性系統(tǒng),對不同頻率信號的靈敏度響應(yīng)不同,基本上是一個對數(shù)關(guān)系。MFCC參數(shù)充分模擬了人的聽覺特性,而且沒有任何前提假設(shè),因此具有識別性能高和抗噪能力強等特點。MFCC參數(shù)將線性頻標轉(zhuǎn)換為Mel頻標,強調(diào)語音的低頻信息,從而突出了對識別有利的信息。這是因為語音信息大多數(shù)集中在低頻部分,高頻部分易受噪聲的影響。但是LPCC參數(shù)是基于線性頻標的,因此沒有這一特性。MFCC參數(shù)提取過程中需要FFT變換,可以獲得語音信號的頻域信息,有利于語音的端點檢測等。但相較于LPCC,MFCC的提取復(fù)雜,并且花費時間較長。
LPCC和MFCC的特點都是用極少的參數(shù)表現(xiàn)語音的波形和頻譜特性。特征參數(shù)提取實質(zhì)上是一個使高維樣本數(shù)據(jù)到低維特征空間的降維過程。但是對于大量的,高耦合的樣本進行分類識別,目前在理論上或者試驗上,我們還不能夠充分的說明上述特征提取過程的充分性。
20世紀70年代,語音識別的主要方法是以動態(tài)規(guī)劃為基礎(chǔ)的動態(tài)時間規(guī)整(Dynamic TimeWarping)[9],解決了語音的特征提取和不等長匹配問題,對小詞匯量、特定人的語音識別十分有效。造入70年代后期,人們尋找了各種新的聲學(xué)建模方法。具有重要意義的是矢量量化技術(shù)(VectorQuantization,VQ)[10],它具有很好的數(shù)據(jù)壓縮能力和比較理想的聚類功能。HMM的有關(guān)理論基礎(chǔ)是Baum等人[11-13]于1970年前后建立起來的,隨后由CMU的Baker和IBM的Jelinek等人[14-19]將其應(yīng)用在語音識別中。20世紀80年代由于Bell實驗室Rabiner等人的工作[20-23],使其逐漸成為語音識別領(lǐng)域的主流技術(shù)。
HMM之所以能夠成功應(yīng)用于語音識別,是因為它是一個雙隨機過程,其中一個是Markov鏈,它描述狀態(tài)的轉(zhuǎn)移。另一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。HMM通過這兩個相互關(guān)聯(lián)的隨機過程共同描述語音信號的統(tǒng)計特性,滿足語音信號中時變的特性,使得HMM具有比其它方法更優(yōu)越的識別性能。但是經(jīng)典HMM模型存在一些缺陷 1.初始模型的選取。經(jīng)典HMM采用Baum-Welsh訓(xùn)練算法,該算法是EM算法[24]的一個特例,受初始值影響較大,容易陷入局部最優(yōu)。
2.時空復(fù)雜度很高,導(dǎo)致訓(xùn)練和識別的效率低,難以直接應(yīng)用。
3.經(jīng)典HMM是一個齊次模型,狀態(tài)轉(zhuǎn)移時不考慮狀態(tài)駐留時間長度,使得經(jīng)典HMM不能合適地表征語音信號的時域結(jié)構(gòu)。
針對這些缺陷,自上個世紀90年代至今人們建立了多種HMM的派生模型[15-39]和針對訓(xùn)練的優(yōu)化算法[40-52],但仍不能從根本上解決上述問題。
小波變換是20世紀80年代逐漸發(fā)展起來的一門數(shù)學(xué)分析方法,一出現(xiàn)就受到數(shù)學(xué)界和工程界的廣泛重視。它最早由法國數(shù)學(xué)家Morlet提出[53],1988年Mallat將計算機視覺領(lǐng)域內(nèi)的多尺度分析的思想引入到小波分析中,提出多分辯分析(或逼近)概念[54],用多分辨分析來定義小波,給出了著名的Mallat算法,并將這一理論用于圖像分析和完全重構(gòu)[55],開創(chuàng)了小波理論在信號處理中的應(yīng)用。
小波分析克服了短時傅立葉變換在單分辨率上的缺陷,具有多分辨率分析的特點,在時域和頻域都有表征信號局部信息的能力,時間窗和頻率窗都可以根據(jù)信號的具體形態(tài)動態(tài)調(diào)整,在一般情況下,在低頻部分(信號較平穩(wěn))可以采用較低的時間分辨率,而提高頻率的分辨率,在高頻情況下(頻率變化不大)可以用較低的頻率分辨率來換取精確的時間定位。因為這些特點,小波分析可以探測正常信號中的瞬態(tài),并展示其頻率成分,被稱為數(shù)學(xué)顯微鏡,廣泛應(yīng)用于各個時頻分析領(lǐng)域。
但是從小波分析的算法可以看出,小波分解只對低頻部分進行進一步分解,使頻率的分辨率變得越來越高,而高頻部分則不予考慮。語音信號頻帶較寬,若用小波對其進行分解勢必會丟失一些重要的信息。
由Coifman和Wickerhauser提出的小波包理論[56-57]能夠為信號提供一種更為精細的分析方法,它將頻帶進行多層次劃分,對小波沒有細分的高頻部分進行進一步分解,并能根據(jù)被分析信號的特征,自適應(yīng)地選擇相應(yīng)頻帶,使之與信號頻譜相匹配,進一步提高了時-頻分辨率,以二級分解為例,小波和小波包的區(qū)別如圖1所示。因此小波包分解是一種更廣泛應(yīng)用的小波分解方法,廣泛應(yīng)用于各種信號處理、編碼、消噪等領(lǐng)域。
發(fā)明內(nèi)容本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述不足,提供一種基于小波包分解及混合高斯模型估計的語音識別方法,該方法用小波包將已知訓(xùn)練樣本分解到各個頻段,利用高斯模型的構(gòu)造性方法,描述了各類別樣本在各個頻段上的能量分布情況,通過比較測試樣本與訓(xùn)練模型在各頻段上的能量分布的差異來判斷測試樣本的類別。
本發(fā)明提供的基于小波包分解及混合高斯模型估計的語音識別方法的具體步驟如下 第1、對已知語音訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理,得到標準化的M維特征向量; 第2、對上步得到的訓(xùn)練樣本的特征向量進行n級小波包分解,得到訓(xùn)練樣本在各個頻段上的分解值;其中n=log2(M)-1,頻段個數(shù)為Sf=M/2; 第3、按照類別、頻段將上步得到的訓(xùn)練樣本的小波包分解值動態(tài)聚類成子類,計算每個子類的均值向量和協(xié)方差矩陣; 第4、為每類訓(xùn)練樣本在各個頻段構(gòu)造高斯模型集; 第5、按照類別計算訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣; 第6、導(dǎo)入所有訓(xùn)練樣本的高斯模型集,計算待測試樣本的分布概率; 第7、計算待測試樣本的分布概率的估計值,判斷待測試樣本的類別。
其中, 第1步對已知語音訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理的方法是 第1.1、對每一個已知訓(xùn)練樣本語音數(shù)據(jù)(xi)1×N首先進行快速傅立葉變換; 第1.2、提取訓(xùn)練樣本的1到M維特征向量y=(y1,y2,…,yM)∈RM,其中M為維數(shù),按照內(nèi)積空間RM中的距離‖y‖=<y,y>1/2,其中(·,·)表示內(nèi)積空間的內(nèi)積,把向量y標準化,即其中‖y‖定義為表示向量的長度,RM中其它的內(nèi)積定義也是適用的,而且所有的標準化之后的訓(xùn)練樣本數(shù)據(jù)按照類別分別構(gòu)成訓(xùn)練樣本集Ωi_RM,i=1,...,L,這里L為樣本類別數(shù),所有標準化之后的訓(xùn)練樣本構(gòu)成集合 其中維數(shù)M取2048,1024、512、256、128、或64中任一數(shù)。
第2步中所述的各個頻段上的分解值的獲得方法是在降維后的數(shù)據(jù)空間中,對訓(xùn)練樣本的特征向量
,進行n級小波包分解,其中n=log2(M)-1,得到在所有Sf=M/2個頻段的二維向量集合i=1,…,L,k==1,…,L,k=1,…,Sf,其中L為樣本類別數(shù)。
第3步中所述的每個子類的均值向量和協(xié)方差矩陣的計算方法是 第3.1、將第i類樣本第k個頻段的二維向量集Ski,動態(tài)聚類成Tki個子類使得這里L為樣本類別數(shù),Sf為每類樣本的頻段數(shù),Tki為第i類樣本在第k頻段的子類個數(shù); 第3.2、對屬于第i類第k個頻段第j子類Sk,ji的所有二維向量的均值向量μ=(μ1,μ2)和協(xié)方差矩陣C ρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2, 式中,|Sk,ji|為集合Sk,ji元素的個數(shù),i=1,…,L,k=1,…,Sf, 第4步中所述的高斯模型集由屬于每個子類的樣本單獨構(gòu)造的高斯模型函數(shù)組成,對于第i類第k頻段第j子類樣本來說,其構(gòu)造的高斯模型函數(shù)為 式中μ=(μ1,μ2)為子類的均值向量、C為子類的協(xié)方差矩陣,i=1,…,L,k=1,…,Sf, 由此訓(xùn)練樣本的高斯模型集可表示為 第5步中所述的訓(xùn)練樣本頻段之間前向轉(zhuǎn)移概率矩陣是通過依次計算某個頻段向其下一個頻段轉(zhuǎn)移的概率矩陣而得到,其具體步驟如下 計算第i類樣本由第k頻段到第k+1頻段的轉(zhuǎn)移概率矩陣Pf(k,k+1)i,k=1,…,Sf, 當k=Sf時,則計算第k頻段到第1頻段的轉(zhuǎn)移概率Pf(k,1)i; 其中所述的計算第i類樣本由第k頻段到第k+1頻段的轉(zhuǎn)移概率矩陣Pf(k,k+1)i,k=1,…,Sf的方法是,對于第i類訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j子類并且在第k+1頻段上的值屬于此頻段的第t子類,則令aj,t=aj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段轉(zhuǎn)移概率矩陣Tki為第i類樣本在第k頻段的子類個數(shù)。
第5步中所述的訓(xùn)練樣本頻段之間后向轉(zhuǎn)移概率矩陣是通過依次計算某個頻段向其前一個頻段轉(zhuǎn)移的概率矩陣而得到,其具體步驟如下 計算第i類樣本由第k頻段到第k-1頻段的轉(zhuǎn)移概率矩陣Pb(k,k-1)i,k=1,…,Sf, 若k=1,則計算第k頻段到第Sf頻段的轉(zhuǎn)移概率Pb(k,Sf)i; 其中所述的計算第i類樣本由第k頻段到第k-1頻段的轉(zhuǎn)移概率矩陣Pb(k,k-1)i,k=1,…,Sf方法是,對于第i類訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j子類并且在第k-1頻段上的值屬于此頻段的第t子類,則令bj,t=bj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段轉(zhuǎn)移概率矩陣Tki為第i類樣本在第k頻段的子類個數(shù)。
第6步中所述的待測試樣本的分布概率是指待測試樣本在各類樣本各個頻段上的所有高斯模型函數(shù)的值,具體計算步驟如下 將經(jīng)過預(yù)處理后的待測試樣本,用小波包分解得到其在各個頻段的小波系數(shù)zk,k=1,…Sf; 根據(jù)第i類樣本的高斯模型集Gk,ji,帶入zk計算其所有子類的高斯模型函數(shù)值Gk,ji(zk),得到測試樣本在第k頻段的分布概率 按照上述步驟計算所有待測試樣本在所有頻段的分布概率。
第7步中所述的計算待測試樣本的分布概率的估計值,判斷待測試樣本的類別的方法是導(dǎo)入訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣,按照類別計算待測試樣本在各個頻段的分布概率估計值與準確值的誤差和,將誤差和最小的類別作為識別結(jié)果; 其中所述待測試樣本在各個頻段的分布概率估計值與準確值的誤差和的計算方法為 式中pe(k-1)ipf(k-1,k)i指根據(jù)前向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)ipb(k+1,k)i指根據(jù)后向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)i為待測試樣本在第i類第k+1頻段的分布概率的準確值,當k=1時并且當k=Sf時 本發(fā)明的優(yōu)點和積極效果 1本發(fā)明給出了任意類別樣本準確的系列二維空間簇(各個頻段)能量的分布圖。由于對樣本進行了快速傅立葉變換和特征向量標準化,再用小波包將其準確的分解到系列二維空間簇(各個頻段)的各個過程,都是可逆過程,因此信息的類別不產(chǎn)生歧義,避免了傳統(tǒng)方法特征提取信息不夠充分的缺陷。然后我們繪出了每一類別在各個頻段的能量的分布圖,而且不同類別樣本的分布情況是有顯著差異的。
2給出了利用訓(xùn)練樣本動態(tài)聚類后的參數(shù)直接構(gòu)造出高斯模型和轉(zhuǎn)移概率矩陣的訓(xùn)練方法,直接構(gòu)造局部最優(yōu)模型,從而得到了全局模型。不需要像經(jīng)典HMM那樣先給模型初始化,然后進行多次重估模型參數(shù)才能達到最佳,避免了經(jīng)典HMM方法訓(xùn)練結(jié)果受初始值影響較大、容易陷入局部最優(yōu)解的問題。而且所有的運算都是在二維空間上進行,很大程度上降低了時空復(fù)雜度。識別效果較經(jīng)典HMM有所提高。
3本發(fā)明利用的小波包能夠?qū)㈩l段進行多層次劃分,對高頻部分進行進一步分解,能夠提取所有頻段的信息,不丟失頻率信息。因含噪語音的噪聲只影響部分頻段,對全局識別結(jié)果的影響幅度較小,對噪聲的魯棒性較好,避免了經(jīng)典HMM對噪聲魯棒性較差的問題。
圖1是小波與小波包二級分解示意圖,a)小波分解圖,b)小波包分解圖。
圖2是詞“下”的原始語音數(shù)據(jù)和經(jīng)快速傅立葉變換處理的新數(shù)據(jù)的對比圖;a)整體對比圖,b)局部對比圖;其中1)為原始數(shù)據(jù),2)為新數(shù)據(jù),3)為誤差值。
圖3是語音信號數(shù)據(jù)與單位化的特征向量,a)語音數(shù)據(jù),b)特征向量。
圖4是部分冗余的語音樣本。
圖5是“后”和“左”的語音樣本在二維空間中各個頻段能量的分布圖,深色為“后”、淺色為“左”的分布圖。
圖6是六類詞各50個訓(xùn)練樣本在第105頻段上構(gòu)造的第1子類的高斯模型;圖中1表示詞“前”,2表示詞“后”,3表示詞“左”,4表示詞“右”,5表示詞“上”、6表示詞“下”。
圖7是訓(xùn)練過程的流程圖。
圖8是判斷測試樣本類別的流程圖。
[具體實施方式
] 實施例1 本發(fā)明提供的基于小波包分解及混合高斯模型估計的語音識別方法的具體過程如下 第一、對語音訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理,包括兩部分 對每個語音訓(xùn)練樣本數(shù)據(jù)(xi)i×N首先進行快速傅立葉變換,然后提取的1到M維數(shù)據(jù)y=(y1,y2,…,yM)∈RM,這里取M=2048,從而達到訓(xùn)練樣本數(shù)據(jù)(xi)1×N降維目的,并且訓(xùn)練樣本的特征向量數(shù)據(jù)經(jīng)過逆快速傅立葉變換得到的新數(shù)據(jù),在聽覺上還是可以分辨出訓(xùn)練樣本數(shù)據(jù)所屬的類別。如圖2a)中,波形a為“下”的原始語音數(shù)據(jù)x,波形b為特征向量y經(jīng)過逆快速傅立葉變換得到的新數(shù)據(jù),波形c是原始語音數(shù)據(jù)與新數(shù)據(jù)的誤差值。圖2b)反映的是局部誤差。由這兩幅圖可以看出原始數(shù)據(jù)與新數(shù)據(jù)的差別很小。
將提取的訓(xùn)練樣本的特征向量y=(y1,y2,…,yM)∈RM,按照內(nèi)積空間RM中的距離‖y‖,把向量y標準化,即以第6類詞(“下”)的第1個訓(xùn)練樣本為例,圖3a)給出它的原始語音數(shù)據(jù)x的波形圖,b)給出了它經(jīng)單位化后的特征向量
的波形圖。在單位化過程中,可以選擇的距離公式有 歐式距離 將所有標準化之后的特征向量按照類別分別構(gòu)成訓(xùn)練樣本集Ωi_RM,i=1,...,L,這里L=6,所有標準化之后的訓(xùn)練樣本構(gòu)成集合這個預(yù)處理過程,消除了訓(xùn)練樣本中的冗余數(shù)據(jù),如圖4中,三種波形屬于同一個語音樣本,差別只在于能量大小不同。
第二、對訓(xùn)練樣本的特征向量進行小波包分解,在降維后的數(shù)據(jù)空間中,對訓(xùn)練樣本的特征向量
,進行n級小波包分解,其中,n=10,如第一步中提到的第6類第1個樣本在第1頻段的小波包分解系數(shù)為z=(0.0063032,-0.0024796)得到訓(xùn)練樣本在所有Sf=1024個頻段上的二維向量集合i=1,…,L,k=1,…,Sf,其中L=6。根據(jù)這些分解值我們可以觀察各類樣本在所有頻段的能量分布情況,如圖5給出了“后”和“左”的各50個語音樣本在二維空間中各個頻段能量的分布圖,二者存在明顯差別。
第三、按照類別、頻段將訓(xùn)練樣本的小波包分解值動態(tài)聚類成子類,計算每個子類的均值向量和協(xié)方差矩陣 令全部經(jīng)小波包分解后的二維向量集合為首先劃分第i類樣本集合 將第i類樣本第k頻段上的數(shù)據(jù)集Ski,動態(tài)聚類成Tki個子類,如第6類樣本在第1頻段的動態(tài)聚類數(shù)目其中使得這里L=6為樣本類別數(shù),Sf=1024為每類樣本的頻段數(shù),Tki為第i類樣本在第k頻段的子類個數(shù); 計算每個子類的均值向量和協(xié)方差矩陣。對于第i類第k個頻段第j子類Sk,ji中的所有二維向量的均值向量μ=(μ1,μ2)和協(xié)方差矩陣C ρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2 式中,|Sk,ji|為集合Sk,ji元素的個數(shù),i=1,…,L,k=1,…,Sf, 如第6類第1頻段第1子類的均值向量μ=(0.014099,0.00064203),協(xié)方差矩陣 第四、為每類訓(xùn)練樣本在各個頻段上構(gòu)造高斯模型集 首先構(gòu)造第i類二維向量集合Si_S_RM的高斯模型集。
1)令k=1; 2)令i=1; 3)根據(jù)第k頻段第j子類Sk,ji的所有二維向量的均值向量μ=(μ1,μ2)和協(xié)方差矩陣C,構(gòu)造第k頻段第j子類的高斯模型函數(shù) 4)j=j(luò)+1,當時返回3)繼續(xù),否則繼續(xù)計算5); 5)k=k+1,當k≤Sf時返回2)繼續(xù),否則終止計算。
按照上述步驟,得到第i類樣本的高斯模型集 如圖6中給出了六類詞(“前”、“后”、“左”、“右”、“上”、“下”)的各50個訓(xùn)練樣本在第105頻段上構(gòu)造的第1子類的高斯模型。
按照上面算法,同理可以得到每類的高斯模型集。
由此訓(xùn)練樣本的高斯模型集可表示為 第五、計算每類訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣,以第i類訓(xùn)練樣本為例,方法為 1)令k=1; 2)對于第i類每個訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j個子類并且在第k+1頻段上的值屬于此頻段的第t個子類,則令aj,t=aj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段轉(zhuǎn)移概率矩陣 3)令k=k+1,當k≠Sf時,返回2)繼續(xù),否則繼續(xù)計算步驟4); 4)計算k頻段到第1個頻段的轉(zhuǎn)移概率Pf(k,1)i,終止。
如第6類第1頻段到第2頻段的前向轉(zhuǎn)移概率矩陣Pf(1,2)1為 按照上面的算法計算每類頻段間的前向轉(zhuǎn)移概率矩陣。
每一類訓(xùn)練樣本頻段之間的后向轉(zhuǎn)移概率矩陣的計算方法,以第i類訓(xùn)練樣本為例,其具體步驟如下 1)令k=Sf; 2)對于第i類每一個訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j子類并且在第k-1頻段上的值屬于此頻段的第t子類,則令bj,t=bj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段轉(zhuǎn)移概率矩陣Tki為第i類樣本在第k頻段的子類個數(shù)。
3)令k=k-1,當k≠1時,返回2)繼續(xù),否則繼續(xù)計算步驟4); 4)計算1頻段到第Sf頻段的轉(zhuǎn)移概率Pb(k,Sf)i,終止。
按照上面的算法計算每類頻段間的后向轉(zhuǎn)移概率矩陣。
如第6類第2頻段到第1頻段的后向轉(zhuǎn)移概率矩陣Pb(2,1)1為 第六、導(dǎo)入所有訓(xùn)練樣本的高斯模型集,計算待測試樣本在各類各頻段的分布概率,以第i類樣本為例,具體步驟如下 將經(jīng)過預(yù)處理后的待測試樣本,用小波包分解得到其在各個頻段的小波包系數(shù)zk,k=1,…Sf; 根據(jù)第i類樣本的高斯模型集,帶入zk計算其所有子類的高斯模型函數(shù)值Gk,ji(zk),得到測試樣本在第k頻段的分布概率 按照上述步驟計算待測試樣本在所有頻段的分布概率。第1個測試樣本(實際為第1類)在第1類模型下,第1頻段的分布概率為在第2頻段的分布概率為 第1個測試樣本所有的誤差和為 第七、計算待測試樣本的分布概率的估計值,判斷待測試樣本的類別是指導(dǎo)入訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣,按照類別計算待測試樣本在各個頻段的分布概率估計值與準確值的誤差和,將誤差和最小的類別作為識別結(jié)果。步驟如下 根據(jù)第i類樣本的前向轉(zhuǎn)移概率矩陣Pfi和后向轉(zhuǎn)移概率矩陣Pbi,計算待測試樣本在第i類所有各個頻段的分布概率估計值與準確值的誤差和 式中pe(k-1)ipf(k-1,k)i指根據(jù)前向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)ipb(k+1,k)i指根據(jù)后向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)i為待測試樣本在第i類第k+1頻段的分布概率的準確值,當k=1時并且當k=Sf時 按照上述步驟計算待測試樣本在各類的誤差和,選出誤差和最小的類別作為識別結(jié)果。以第1個測試樣本(實際為第1類)為例,在6類樣本模型下的誤差和為δ=(0.1187,0.16561,0.121,0.12423,0.16775,0.17292)。
本發(fā)明提出的一種基于小波包分解及混合高斯模型估計的語音識別方法,訓(xùn)練和識別過程分別如圖7和圖8所示,,實施的實驗結(jié)果如下 我們使用的語音庫由表示方向的六類詞組成(即L=6),包括“前’、“后”、“左”、“右”、“上”、“下”。共22個人參與錄制,分別來自黑龍江、河南、山東、湖北、陜西、新疆、江蘇、福建等。每人每詞發(fā)10遍音,麥克風單聲道輸入,采樣率為8kHZ,量化精度為16bit,其錄制語音環(huán)境可視為干凈語音。其中每類隨機選取50個作為訓(xùn)練樣本、30個作為測試樣本,在PC機上進行了實驗,得到結(jié)果如表1 表1 高斯模型法實驗結(jié)果 對比經(jīng)典HMM,HMM的特征采用24維mfcc系數(shù),采用4狀態(tài),自左向右、帶自環(huán)、無跳轉(zhuǎn)的HMM拓撲結(jié)構(gòu),每狀態(tài)3個高斯混合模型,實驗結(jié)果如表2 表2 高斯模型法和經(jīng)典HMM對比實驗結(jié)果 對待測試語音進行加噪處理,所加噪聲為高斯白噪聲,信噪比分別取為10dB,6dB,2dB,1dB。與經(jīng)典HMM對比,實驗結(jié)果如表3 表3 加噪語音的對比實驗結(jié)果
由表1、表2可以看出,在訓(xùn)練樣本不充分的情況下,按照基于小波包分解及混合高斯模型的方法可以準確地描述出每一類別在各個頻段的能量的分布情況,無論是在識別率還是運行時間上均優(yōu)于經(jīng)典HMM。由表3可以看出,對于含噪語音的識別效果,基于小波包分解及混合高斯模型的方法的正確率明顯高于經(jīng)典HMM,該方法對噪聲的魯棒性較好。
附參考文獻WillskyA S.Digital Signal Processing and Control and Estimation[M]Theory.The MIT Press,1979.RabinerL R,SchaferR W.Digital Processing of Speech Signals.Prentic-Hal[M],Inc,USA,1978.J D Markel,A H Gray.Linear Preditive of Speech[M].Springer-Verlag New York,Inc.Secaucus,NJ,USA,1982.B.S.Atal and S.L.Hanauer,“Speech analysis and.synthesis by linear prediction ofthe speech wave,”J.Acoust.Soc.Amer.,vol.50,pp.637-655,Aug.1971.Markel,J.D.Formant trajectory estimation from a linear least-squares inverse filterSanta Barbara,CASpeech Communications Research Laboratory.1971.180p.Itakurs F,Saho S.Digital filtering techniques for speech analysis and synthesis.Proceedings of the 7thInternational Congress on Acoustics.BudapestAkademici Kiadb,1971.Vol.3.p.261-4.Kay S M,M.spls S L.Speclrum analysis-a modern perspective.Proc.WSE691380-419,1981.D T Pham and A Le Breton Levinson Durbin-type algorithms for continuous-time autoregressivemodels and applications.Math.Control,Signals and Systems,1991,vol 4,pp 69-79.Fumitada Itakura.Minimum prediction residual principle applied to speech recognition[J].IEEE Transon Acoustics,Speech and Signal Processing.1975,ASSP-23(1)67-72Makhoul J,Roucos S,Gish H.Vector quantization in speech coding[J].ProcIEEE,1985.73(11)1551-1588Leonard E Baum,Ted Petrie.Statistical Inference for Probabilistic Functions of Finite State MarkovChains.The Annals of Mathematical Statistics,Vol.37,No.6(Dec.,1966),pp.1554-1563Leonard E Baum,T Petrie,G Soules,N Weiss.A Maximization Technique Occurring in the StatisticalAnalysis of Probabilistic Functions of Markov Chains[J].Ann.Math.Statist.1970,41162-171.Leonard E Baum.An inequality and associated maximization technique in statistical estimation forprobabilistic functions of Markov processes[J].Inequalities,1972,3(1)1-8.Baker J K.The DRAGON System——An overview.IEEE Trans.ASSP,1975,23(1)24-29.F.Jelinek.A Fast Sequential Decoding Algorithm Using A Stack[J].IBM J.Res.Develop,1969,Vol.13,pp.675-685.L.R.Bahl and F.Jelinek.Decoding for Channels with Insertions,Deletions,and Substitutions withApplications to Speech Recognition[J].IEEE Trans.on I T 1975,21(2)404-411.F.Jelinek,L.R.Bahl,and R.L.Mercer.Design of A Linguistic Statistical Decoder for TheRecognition of Continuous Speech[J].IEEE Trans on IT,1975,21(2)250-256.F.Jelinek.Continuous Speech Recognition by Statistical Methods[J].Proc.IEEE,1976,64(4),532-536.L.R.Bahl,F(xiàn).Jelinek,and R.L.Mercer.A Maximum Likelihood Approach to Continuous SpeechRecognition[J].IEEE Trans.PAMI,1983,5(1)179-190. Rabiner L R,Levinson S,Sondi M M.On the application of vector quantization and hidden markovmodels to speaker-independent,isolated word recognition[J].Bell Syst Tech J,1983,62(4)1075-1105Rabiner L R,Wilpon J G,Soong F K.High.Performance connected digit recognition using hiddenMarkov models[J].IEEE Trans on Acoustics,Speech and Signal Processing,1989,37(8)1214-1225 Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition[J].Proc IEEE 1989,77(2)257-285Rabiner L,Juang B H.Fundamentals of speech recognition[M].EnglewoodPrentice Hall,1993.362~364. A.P.Dempster,N.M.Laird and D.B.Rubin,“Maximum likelihood from incomplete data via the EMalgorithm”,Journal of the Royal Statistical Society (B),vol.39,pp.1-38,1977. J L Gauvain and C.-H.Lee,“Maximum a posteriori estimation for multivariate Gaussian mixtureobservation of Markov chains”,IEEE Transactions on Speech and Audio Processing,vol.2,no.4,pp.291-298,April 1994.P.C.Chang and B.-H.Juang,“Discriminative training of dynamic programming based speechrecognizers”,IEEE Trans.Speech and Audio Processing,vol.1,no.2,pp.135-143,April 1993. Scott Axelrod,Vaibhava Goel,Ramesh Gopinath,Peder Olsen,Karthik Visweswariah. DiscriminativeEstimation of Subspace Constrained Gaussian Mixture Models for Speech Recognition. in Proc.IEEE Int.Audio Speech and Language Processing,Vol 15,pp172-189,Jan,2007.R.P.Lippmann,“An intorduction to computing with neural nets”,IEEE ASSP Mag.,pp.4-22,April1987.E.McDermott and S.Katagiri,“Shift-invariant multi-category phoneme recognition using kohonen’sLVQ2,”in Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),1989,pp.81-84. B.-H.Juang,W.Hou and C.-H.Lee,“Minimum classification error rate Methods for SpeechRecognition”,IEEE Trans.Speech and Audio Processing,vo1.5,no.3,pp.257-265,May 1997.R.Schlüter,W.Macherey,B.Müller and H.Ney,“A combined maximum mutual information andmaximum likelihood approach for mixture density splitting”,in Proc.EUROSPEECH,vol.4,1999,pp.1715-1718. Bahl L,Brown P,De Souza P,Mercer,R.Maximum mutual information estimation of hidden Markovmodel parameters for speech recognition[J].in Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.11,April 1986,pp.49-52. Ephraim Y,Dembo A,Rabiner L R.A Maximum Discrimination Information Approach for HiddenMarkov Modeling[J].Proc.ICASSP’87,198725-28.Ephraim Y,Rabiner L R.On the Relations between Modeling Approaches for information Source.[J].Proc.ICASSP’88,198824-27A.Nadas,“Adecision theoretic formulation of a training problem in speech recognition and acomparison of training by unconditional versus conditional maximum likelihood,”IEEE Transactions onAcoustics,Speech,and Signal Processing,vol.31,no.4,pp.814-817,1983.L.Bahl,P.Brown,P.de Souza,and R.Mercer,“Estimating hidden Markov model parameters so as tomaximize speech recognition accuracy,”IEEE Transactions on Speech and Audio Processing,vol.1,no.1,pp.77-83,1993.V.Goel,S.Axelrod,R.Gopinath,P.Olsen,and K.Visweswariah,“Discriminative estimation ofsubspace precision and mean (SPAM)models,”in Proc.Eurospeech,2003.Q.Li,B.-H.Juang,“A new algorithm for fast discriminative training”,in Proc.Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.1,2002,pp.97-100.Q.Li,B.-H.Juang,“Fast discriminative training for sequential observations with application tospeaker identification”,in Proc.Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.2,2003,pp.397-400.Levinson S E,Rabiner L,Sondhi M M.An introduction to the application of the theory of probabilisticfunctions of a Markov process to automatic speech recognition[J].Bel Syst Tech J,1983,62(4)1035~1074.Juang B H.Maximum Likelihood Estimation for Mixture Multivariate Stochastic Observations ofMarkov Chains[J].AT&T Tech.J.1985,64(6)1235-1249.Huang X D.Phoneme Classification Using Semi-Continuous Hidden Markov Models.IEEE Trans.Signal Processing,1992,40(5)1062-1067.Huang,X.D.,Jack,M.A.,(1989)“Semi-continuous hidden Markov models for speech.signals,”Computer Speech and Language,3239-251,1989.Bellegarda J R,Nahamoo D.Tied mixture continuous parameter modeling for speech recognition[J].IEEE Trans Acoust,Speech,Signal Processing,1990,38(12)2033~2206.Poritz A B.Linear predictive hidden Markov models and the speech signal.Proc.ICASSP’82,19821291-1294. B.H.Juang and L.R.Rabiner,“Mixture Autoregressive Hidden Markov Models for Speech Signal”,IEEE Trans.ASSP,vol.33,pp.140~1412,Dec.1985.P Kenny,et al.A linear predictive HMM for vector-valued observation with application to speech-recognition[J].IEEETraps,1990,ASSP-38(2)220-225.Hu Zhiping,Imai Satoshi.Modeling improvement of the continuous hidden Markov model for speechrecognition.InIEEE Signal Processing Soviety,eds.Proc.Int.Conf.Acoustics,Speech,and SignalProcessing.San Francisco,CalifornaThe San Francisco Marriott,1992.373~376.Ramesh P,Wilpon J G Modeling state durations in hidden Markov models for automatic speechrecognition.InIEEE Signal Processing Society,eds.Proc.Int.Conf.Acoustics,Speech,and SignalProcessing.San Francisco,CaliforniaThe San Francisco Marriott,1992.381~984.Rabiner L R,Wilpon J G,Soong F K.High performance connected digit recognition using hiddenMarkov models.IEEE Trans.On Acoustics,Speech and Signal Processing,1989,37(8)1214~1225Kriouile A,Mari J F,Haton J P.Some improvements in speech recognition Algoriths based onHMM.InIEEE Signal Processing Society,eds.Pro.Int.Conf.Acoustics,Speech,and SingnalProcessing.Albuquerque,New MexicoAlbuquerque Convention Center,1990.545~548.M Ostendorf,et al.From HMM’s to segment modelsa unified view of stachastic modehng for speechrecognition[J].IEEE Trans,1996,SAP4(5)360 378.A.Grossmann and J.Morlet.Decomposition of Hardy functions into square integrable wavelets ofconstant shape.SIAM J.Math.Anal,1984,(15)723-736.S.G.Mallat,″A theory for multiresolution signal decompositionthe wavelet representa-tion,″IEEETrans.on Pattem Analysis and Machine Intelligence,Vol.11,No.7,pp.674-693,1989S.G.Mallat,Multifrequency channel decompositions[J].IEEE Tran.on ASSP,1989;37(12)2091-2110.Coifman R R,Wickerhauser M V.Entropy-based algorithms for best basis selection.IEEE Trans.OnInformation Theory,1992.38(2)713-718M V Wickerhauser.Acoustic signal compression with wavelet packets[A].In C.K.ChuiWaveletsatutorial in theory and applications[C].Academic Press,1992.679-700.
權(quán)利要求
1.一種基于小波包分解及混合高斯模型估計的語音識別方法,其特征在于該方法的具體步驟如下
第1、對已知語音訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理,得到標準化的M維特征向量;
第2、對上步得到的訓(xùn)練樣本的特征向量進行n級小波包分解,得到訓(xùn)練樣本在各個頻段上的分解值;其中n=log2(M)-1,頻段個數(shù)為Sf=M/2;
第3、按照類別、頻段將上步得到的訓(xùn)練樣本的小波包分解值動態(tài)聚類成子類,計算每個子類的均值向量和協(xié)方差矩陣;
第4、為每類訓(xùn)練樣本在各個頻段構(gòu)造高斯模型集;
第5、按照類別計算訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣;
第6、導(dǎo)入所有訓(xùn)練樣本的高斯模型集,計算待測試樣本的分布概率;
第7、計算待測試樣本的分布概率的估計值,判斷待測試樣本的類別。
2.如權(quán)利要求1所述的語音識別方法,其特征在于,第1步對語音訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理的方法是
第1.1、對每個訓(xùn)練樣本語音數(shù)據(jù)(xi)1×N首先進行快速傅立葉變換;
第1.2、提取訓(xùn)練樣本的1到M維特征向量y=(y1,y2,…,yM)∈RM,其中M為維數(shù),按照內(nèi)積空間RM中的距離‖y‖=<y,y>1/2,其中(·,·)表示內(nèi)積空間的內(nèi)積,把向量y標準化,即其中‖y‖定義為表示向量的長度,RM中其它的內(nèi)積定義也是適用的,而且所有的標準化之后的訓(xùn)練樣本數(shù)據(jù)按照類別分別構(gòu)成訓(xùn)練樣本集Ωi_RM,i=1,...,L,這里L為樣本類別數(shù),所有標準化之后的訓(xùn)練樣本構(gòu)成集合
3.如權(quán)利要求2所述的語音識別方法,其特征在于,其中維數(shù)M取2048,1024、512、256、128、或64中任一數(shù)。
4.如權(quán)利要求1所述的語音識別方法,其特征在于,第2步中所述的各個頻段的分解值的獲得方法是在降維后的數(shù)據(jù)空間中,對訓(xùn)練樣本的特征向量
進行n級小波包分解,其中n=log2(M)-1,得到在所有Sf=M/2個頻段的二維向量集合其中L為樣本類別數(shù)。
5.如權(quán)利要求1所述的語音識別方法,其特征在于,第3步中所述的每個子類的均值向量和協(xié)方差矩陣的計算方法是
第3.1、將第i類樣本第k頻段的二維向量集Ski,動態(tài)聚類成Tki個子類使得這里L為樣本類別數(shù),Sf為每類樣本的頻段數(shù),Tki為第i類樣本在第k頻段的子類個數(shù);
第3.2、對于屬于第i類第k個頻段第j子類Sk,ji的所有二維向量的均值向量μ=(μ1,μ2)和協(xié)方差矩陣C
ρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2,
式中,|Sk,ji|為集合Sk,ji元素的個數(shù),i=1,…,L,k=1,…,Sf,
6.如權(quán)利要求1所述的語音識別方法,其特征在于,第4步中所述的高斯模型集由屬于每個子類的樣本單獨構(gòu)造的高斯模型函數(shù)組成,對于第i類第k頻段第j子類樣本來說,其構(gòu)造的高斯模型函數(shù)為
式中μ=(μ1,μ2)為子類的均值向量、C為子類的協(xié)方差矩陣,
i=1,…,L,K=1,…,Sf,由此訓(xùn)練樣本的高斯模型集可表示為
7.如權(quán)利要求1所述的語音識別方法,其特征在于,第5步中所述的訓(xùn)練樣本頻段之間前向轉(zhuǎn)移概率矩陣是通過依次計算某個頻段向其下一個頻段轉(zhuǎn)移的概率矩陣而得到,其具體步驟如下
計算第i類樣本由第k頻段到第k+1頻段的轉(zhuǎn)移概率矩陣Pf(k,k+1)i,k=1…,Sf,
當k=Sf時,則計算第k頻段到第1個頻段的轉(zhuǎn)移概率Pf(k,1)i;
其中所述的計算第i類樣本由第k頻段到第k+1頻段的轉(zhuǎn)移概率矩陣Pf(k,k+1)i,k=1,…,Sf的方法是,對于第i類訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j子類并且在第k+1頻段上的值屬于此頻段的第t子類,則令aj,t=aj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段的轉(zhuǎn)移概率矩陣Tki為第i類樣本在第k頻段的子類個數(shù)。
8.如權(quán)利要求1所述的語音識別方法,其特征在于,第5步中所述的訓(xùn)練樣本頻段之間后向轉(zhuǎn)移概率矩陣是通過依次計算某個頻段向其前一個頻段轉(zhuǎn)移的概率矩陣而得到,其具體步驟如下
計算第i類樣本由第k頻段到第k-1頻段的轉(zhuǎn)移概率矩陣Pb(k,k-1)i,k=1,…,Sf
若k=1,則計算第k頻段到第Sf頻段的轉(zhuǎn)移概率Pb(k,Sf)i;
其中所述的計算第i類樣本由第k頻段到第k-1頻段的轉(zhuǎn)移概率矩陣Pb(k,k-1)i,k=1,…,Sf方法是,對于第i類訓(xùn)練樣本,如果它在第k頻段上的值屬于此頻段的第j子類并且在第k-1頻段上的值屬于此頻段的第t子類,則令bj,t=bj,t+1,由此得到第i類樣本由第k頻段到第k+1頻段轉(zhuǎn)移概率矩陣Tki為第i類樣本在第k頻段的子類個數(shù)。
9.如權(quán)利要求1所述的語音識別方法,其特征在于,第6步中所述的待測試樣本的分布概率是指待測試樣本在各類各頻段的所有高斯模型函數(shù)的值,具體計算步驟如下
將經(jīng)過預(yù)處理后的測試樣本,用小波包分解得到其在各個頻段的小波包系數(shù)zk,k=1,…Sf;
根據(jù)第i類高斯模型集Gk,ji,帶入zk計算其在第k頻段所有子類的高斯模型函數(shù)值Gk,ji(zk),得到待測試樣本在第k頻段的分布概率
按照上述步驟計算所有待測試樣本在所有頻段的分布概率。
10.如權(quán)利要求1所述的語音識別方法,其特征在于,第7步中所述的計算待測試樣本的分布概率的估計值,判斷待測試樣本的類別的方法是導(dǎo)入訓(xùn)練樣本頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣,按照類別計算待測試樣本在各個頻段的分布概率估計值與準確值的誤差和,將誤差和最小的類別作為識別結(jié)果;
其中所述待測試樣本在各個頻段的分布概率估計值與準確值的誤差和的計算方法為
式中pe(k-1)ipf(k-1,k)i指根據(jù)前向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)ipb(k+1,k)i指根據(jù)后向轉(zhuǎn)移概率矩陣計算得到的待測試樣本在第i類第k頻段的分布概率的估計值,pe(k+1)i為待測試樣本在第i類第k+1頻段的分布概率的準確值,當k=1時
并且當k=Sf時
全文摘要
一種基于小波包分解及混合高斯模型估計的語音識別方法。包括對已知語音訓(xùn)練樣本進行預(yù)處理,得到標準化特征向量;對特征向量進行小波包分解,得到在各個頻段上的分解值;按照類別、頻段將訓(xùn)練樣本的小波包分解值動態(tài)聚類成子類,計算每個子類的均值向量和協(xié)方差矩陣;在各個頻段上構(gòu)造高斯模型集;計算頻段之間的前向轉(zhuǎn)移概率矩陣和后向轉(zhuǎn)移概率矩陣;導(dǎo)入所有訓(xùn)練樣本的高斯模型集,計算測試樣本的分布概率及其估計值,判斷測試樣本的類別。本發(fā)明給出了任意類別樣本準確的系列二維空間簇(各個頻段)能量的分布圖,所有的訓(xùn)練和識別運算都是在二維空間上進行,無論是用加噪的還是未加噪語音樣本訓(xùn)練,識別效果均好于經(jīng)典HMM方法。
文檔編號G10L15/00GK101188107SQ200710061240
公開日2008年5月28日 申請日期2007年9月28日 優(yōu)先權(quán)日2007年9月28日
發(fā)明者李春利, 董冠靈, 倩 郭, 肖春景, 敏 張 申請人:中國民航大學(xué)