專(zhuān)利名稱(chēng):用于自動(dòng)語(yǔ)音識(shí)別的優(yōu)化的局部特征提取的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及語(yǔ)音識(shí)別系統(tǒng),具體地說(shuō),涉及用于提取識(shí)別特征的基于子波的系統(tǒng),該系統(tǒng)對(duì)于不同的聲音類(lèi)別是優(yōu)化的。
當(dāng)分析語(yǔ)音信號(hào)時(shí),第一步是提取表征信號(hào)的有用的信息的特征。通常,該特征提取過(guò)程涉及將語(yǔ)音信號(hào)分割成預(yù)定幀大小的重疊窗口,然后在該信號(hào)窗口上計(jì)算快速付立葉變換(FFT)。然后通過(guò)放棄對(duì)數(shù)頻譜的付立葉變換中高階項(xiàng)來(lái)提取倒頻譜系數(shù)的有限集合。然后可以使用產(chǎn)生的倒頻譜系數(shù)構(gòu)造語(yǔ)音模型,通常為隱藏式馬爾科夫模型。
通常的FFT分析的最大缺點(diǎn)是它的固定時(shí)間頻率分辯率。在分析語(yǔ)音時(shí),希望使用多個(gè)不同的時(shí)間頻率分辯率,以更好地識(shí)別時(shí)間頻率平面上非線性分布的語(yǔ)音信息。換句話說(shuō),希望在為諸如元音等慢速變化結(jié)構(gòu)提供較低時(shí)間分辯率時(shí),為快速變化的摩擦音和輔音提供更陡的時(shí)間分辯率。不幸的是,當(dāng)前的技術(shù)難于達(dá)到。盡管有可能并行地構(gòu)造和使用一組識(shí)別器(每一識(shí)別器設(shè)計(jì)成用于一特定語(yǔ)音特征),這樣的方案仍會(huì)帶來(lái)繁重的計(jì)算負(fù)擔(dān)。
本發(fā)明應(yīng)用子波技術(shù)提供一分析辦法,它覆蓋了較寬范圍的不同語(yǔ)音類(lèi)別。使用本發(fā)明的子波技術(shù),可以構(gòu)造和使用單一的識(shí)別器,其中的語(yǔ)音模型已經(jīng)通過(guò)唯一特征提取過(guò)程對(duì)于不同類(lèi)別的聲音是優(yōu)化的。于是本發(fā)明的識(shí)別器在不增加識(shí)別分析過(guò)程的復(fù)雜性的情況下對(duì)于不同的語(yǔ)音類(lèi)別是優(yōu)化的。
參照以下結(jié)合附圖的說(shuō)明可以完整地理解本發(fā)明的目的和優(yōu)點(diǎn)。
圖1是用于說(shuō)明語(yǔ)音聲信號(hào)的子波分組變換的當(dāng)前優(yōu)選實(shí)施例的概念性硬件或軟件圖;圖2說(shuō)明了在子頻帶分析中實(shí)施的當(dāng)前優(yōu)選時(shí)間頻率分解;圖3是根據(jù)本發(fā)明的用于實(shí)施子頻帶特征提取的優(yōu)選實(shí)施例的方框圖4描述了用于處理高通濾波器的混疊效應(yīng)的當(dāng)前優(yōu)選技術(shù);以及圖5是一流程圖說(shuō)明了為特定類(lèi)別聲音選擇優(yōu)化的子波樹(shù)的過(guò)程。
本發(fā)明的局部特征提取系統(tǒng)使用聲波型的子波分解。子波分解可以借助時(shí)間上和頻率上為局部的函數(shù)來(lái)表示聲信息。于是,子波分解不同于傳統(tǒng)的付立葉序列分解。在傳統(tǒng)的付立葉分析中,正弦和余弦在頻率上是局部的,但在時(shí)間和空間上是全局的。例如,一短脈沖具有較慢的衰減系數(shù),難于測(cè)量和使用FFT表示。為了表示這樣的脈沖,付立葉序列必須完全依靠消除技術(shù)。將函數(shù)屬性與系數(shù)屬性關(guān)聯(lián)起來(lái)的整個(gè)付立葉分析是難于通過(guò)正弦波函數(shù)提供的非局部支持來(lái)進(jìn)行。
給定向量空間S,基是一組向量(e1,…en),ei←S,覆蓋空間S。如果對(duì)于i≠j,ei與ej線性無(wú)關(guān),則基稱(chēng)作完全的并且來(lái)自線性代數(shù)的每一向量x∈S可以分解在基中(以及重構(gòu)),只要標(biāo)量積<x,y>S→R被定義(R是實(shí)數(shù)集)為x=Σi=1n<ei,x<ei]]>其中<ei,x>ei稱(chēng)為沿著ei的向量的分量,并且集合<ei,x>ei,i=1,…n稱(chēng)為向量在基(e1,...en)上的投影。
函數(shù)和信號(hào)是一向量空間,只要標(biāo)量積定義為<f,g>=∫f(x)g(x)*dx其中f,g是函數(shù)(或信號(hào),數(shù)學(xué)上這是用于相同對(duì)象的兩個(gè)名稱(chēng))并且g*是g的共軛。這意味著能夠構(gòu)造函數(shù)空間的基,將函數(shù)投影在這樣的基中并使用等式1和2重新構(gòu)造信號(hào)。
具體地說(shuō),從稱(chēng)為母子波的原型函數(shù)W(x)的變換W(x)→W(x+b)和擴(kuò)展W(x)→W(ax)中構(gòu)造子波基。一旦母子波滿(mǎn)足一些基本屬性,通過(guò)變換和擴(kuò)展母子波,如前所述,就可以獲得函數(shù)空間的基。
本發(fā)明的目標(biāo)是提供一種表示函數(shù),特別是在時(shí)間和頻率上是局部函數(shù)的新方式。如果我們和付立葉序列比較,可以得出正弦和余弦在頻率上是局部的,但在時(shí)間或空間上是全局的。
本發(fā)明利用子波獲得在時(shí)間和頻率上的局部支持。盡管有一些方式可以進(jìn)行子波分解,當(dāng)前優(yōu)選的技術(shù)是使用基于在低通和高通分量中對(duì)信號(hào)進(jìn)行分解的遞歸算法。替代地,可以使用迭代過(guò)程。
為了說(shuō)明,圖1示出了如何使用按級(jí)聯(lián)樹(shù)結(jié)構(gòu)排列的低通和高通濾波器來(lái)進(jìn)行子波分解。樹(shù)中的每個(gè)節(jié)點(diǎn)包括一個(gè)單元塊,由高通濾波器10和相應(yīng)的低通濾波器12組成。在每個(gè)濾波器之后是下降采樣處理器14,用于提供非冗余表示。原始信號(hào)在16輸入并且通過(guò)反向操作能夠由子信號(hào)優(yōu)選地重組。
系統(tǒng)借助分層的時(shí)間頻率分辯率分析以?xún)?yōu)化的方式提取局部特征。通過(guò)以非平衡方式擴(kuò)展子波分解樹(shù)18可以實(shí)現(xiàn)該分析過(guò)程。就此方面,請(qǐng)注意,在樹(shù)的底部(在20處)的節(jié)點(diǎn)表示的頻率分辯率要優(yōu)于在樹(shù)的頂部(在22處)的節(jié)點(diǎn)表示的頻率分辯率。
圖2描述了時(shí)間頻率平面的分解。對(duì)于圖2底部的最低頻率,在0和1kHz之間,其中需要最高頻率分辯率,可以在通過(guò)七級(jí)濾波和下降采樣之后得到子信號(hào)。對(duì)于(以16kHz)采樣的信號(hào)相應(yīng)的子波長(zhǎng)度為24ms并且頻率分辯率為125Hz,相反,對(duì)于6KHz之上的最高頻率(圖2的頂部),其中出現(xiàn)的語(yǔ)音信息較少并且不詳細(xì),在通過(guò)三級(jí)濾波和下降采樣之后可以得到子信號(hào)。相應(yīng)的子波長(zhǎng)度為3ms并且頻率分辯率為1kHz。
圖3描述了當(dāng)前優(yōu)選的特征提取系統(tǒng)。首先將語(yǔ)音信號(hào)提供給子波分組變換塊32,該塊以如上圖1所述的非平衡方式將信號(hào)分解成子波。通過(guò)將信號(hào)饋送到級(jí)聯(lián)的濾波器組中可以在連續(xù)的基礎(chǔ)上進(jìn)行對(duì)語(yǔ)音信號(hào)30的處理。產(chǎn)生的子波變換提供了局部支持,從而可以直接對(duì)原始信號(hào)進(jìn)行處理。換句話說(shuō),不需要象通常對(duì)FFT處理那樣應(yīng)用窗口技術(shù)。
優(yōu)選實(shí)施例應(yīng)用的濾波器是通過(guò)理想的低通(或高通)濾波器的頻率響應(yīng)與長(zhǎng)度15的Kaiser窗口的頻率響應(yīng)的卷積來(lái)設(shè)計(jì)的,以使濾波器的脈動(dòng)最小化。目標(biāo)是在通帶和阻帶之間獲得陡的變換,這樣要求濾波器最小重疊。這又導(dǎo)致在濾波器組的輸出中較低的相關(guān)。在以此方式計(jì)算了低通濾波器之后,使用對(duì)離散的Dirac函數(shù)的脈沖響應(yīng)和可以確定高通濾波器。
圖3中,在34處描述了變換塊32的輸出,作為表示時(shí)間頻率分解,其詳細(xì)情況見(jiàn)圖2。
盡管在下降采樣之后可以直接使用低通濾波器的輸出,優(yōu)選實(shí)施例對(duì)高通濾波器的輸出進(jìn)行的附加的處理以反向某種混疊效應(yīng)(所謂的“Gray code(灰碼)”效應(yīng))。圖4說(shuō)明了混疊方案。注意,低通濾波和下降采樣步驟產(chǎn)生了范圍從null頻率至Nyquist頻率的頻率。這一般描述在40。相反,在高通濾波和下降采樣之后,維持在從null頻率至Nyquist頻率范圍內(nèi)的頻譜是濾波的信號(hào)的高頻帶頻譜的鏡像。于是,為了提取高頻帶的高頻帶(逐一地應(yīng)用兩個(gè)高通濾波器),有必要采用高通濾波器的輸出的低頻帶。這樣在高通濾波器工作之后產(chǎn)生了不想要的高通和低通濾波器的反相。
為了彌補(bǔ),優(yōu)選實(shí)施例對(duì)于高通濾波級(jí)之下的每個(gè)濾波級(jí)進(jìn)行了反相操作,直至進(jìn)行另一高通濾波級(jí)。兩個(gè)相繼的混疊組合效應(yīng)將抵消。在圖4中,在42處示出反相的高頻帶。
一旦校正了混疊,葉節(jié)點(diǎn)濾波器的輸出通過(guò)進(jìn)行方框36描述的積分過(guò)程被平滑。對(duì)于每個(gè)子頻帶1,系統(tǒng)對(duì)于相應(yīng)的子信號(hào)x1(n)計(jì)算平均幅值(如果∝=1)或平均能量(如果∝=2),稱(chēng)作e1等式1el=1NΣn=lN|xl(n)|∝,l=1,2,····,L]]>可以在每個(gè)子頻帶的相同數(shù)目N的系數(shù)上計(jì)算上述平均值。由于對(duì)于樹(shù)結(jié)構(gòu)每向下一級(jí)都將采樣速率除2,分層時(shí)間分辯率被如圖2所示地保存。較大的平均窗口(相應(yīng)于最低子頻帶)的大小稱(chēng)為窗口的大小。然后將平均窗口偏移一幀大小以便以幀速率傳遞子頻帶幅值。對(duì)于最高子頻帶可以調(diào)整平均的子信號(hào)采樣的數(shù)目N,這樣平均窗口時(shí)間擴(kuò)展不會(huì)小于一幀。然后,如框37所示,進(jìn)行壓縮操作。完成的壓縮操作的類(lèi)型取決于語(yǔ)音信號(hào)的屬性。對(duì)于清潔的語(yǔ)音,可以進(jìn)行非線性對(duì)數(shù)運(yùn)算。對(duì)于噪聲干擾語(yǔ)音,可以使用開(kāi)方壓縮運(yùn)算。這些運(yùn)算對(duì)e1進(jìn)行非線性運(yùn)算。盡管上述的對(duì)數(shù)運(yùn)算是優(yōu)選的,可以應(yīng)用其他非線性運(yùn)算。
如框38所示,通過(guò)應(yīng)用等式2中的離散余弦變換(DCT)可以提取倒頻譜系數(shù)等式2CK=Σl=1Llog(el)cos(k(l-0.5)Lπ),k=0,1,···,K]]>該結(jié)果是一組子頻帶特征39,可以在構(gòu)造諸如隱藏馬爾科夫模型等語(yǔ)音模型時(shí),表示原語(yǔ)音信號(hào)30。
子頻帶分析提供了許多自由度。必要的話,可以選擇濾波器組樹(shù)中的任意的節(jié)點(diǎn)來(lái)提供對(duì)特定聲音類(lèi)別的時(shí)間頻率分解。換句話說(shuō),不必要僅將葉子節(jié)點(diǎn)用在子波分解中。相反地,可以使用葉子節(jié)點(diǎn)和中間節(jié)點(diǎn)的任何組合。選擇哪節(jié)點(diǎn)用于特定的聲音類(lèi)別(例如摩擦音、爆破音、其他輔音、元音等)是局部特征提取系統(tǒng)如何為這些不同類(lèi)別的聲音提供優(yōu)化的結(jié)果。
尋找哪節(jié)點(diǎn)組合最適合于給定的聲音類(lèi)別的過(guò)程是按如下工作的一個(gè)迭代過(guò)程。
參見(jiàn)圖5,用于對(duì)給定的聲音類(lèi)別選擇優(yōu)化的樹(shù)結(jié)構(gòu)的過(guò)程運(yùn)行在標(biāo)記為100的語(yǔ)料庫(kù)上。第一步(步驟102)從標(biāo)記數(shù)據(jù)中提取感興趣的聲音類(lèi)別。于是,如果該樹(shù)對(duì)于摩擦音將是最優(yōu)的,則從標(biāo)記的訓(xùn)練數(shù)據(jù)中提取所有表示摩擦音的音素。然后在104,如前所述地計(jì)算子波樹(shù)。在計(jì)算完子波樹(shù),下一步確定如何最佳地裁剪該樹(shù)以?xún)?yōu)化地和考慮的聲音類(lèi)別匹配。描述的過(guò)程繼續(xù)地以遞歸或迭代方式檢驗(yàn)每個(gè)節(jié)點(diǎn)。
于是在步驟106,對(duì)于樹(shù)的每個(gè)節(jié)點(diǎn),計(jì)算規(guī)一的能量。通過(guò)適當(dāng)?shù)膿Q算使能量(或能量的變換)規(guī)一化,這樣所有節(jié)點(diǎn)的能量之和等于1。如果當(dāng)前測(cè)試的節(jié)點(diǎn)的能量低于一預(yù)定閾值,如在108測(cè)試,則樹(shù)裁剪算法丟棄該節(jié)點(diǎn)以及其子節(jié)點(diǎn)。否則,通過(guò)使用合適的距離計(jì)算其鑒別能量來(lái)進(jìn)一步檢驗(yàn)該節(jié)點(diǎn)。這描述在步驟110。于是,如步驟112所示,相近似的鑒別能量計(jì)算構(gòu)成了父節(jié)點(diǎn)的所有子節(jié)點(diǎn)。
對(duì)于已計(jì)算的父節(jié)點(diǎn)和子節(jié)點(diǎn)的鑒別能量,步驟114將父節(jié)點(diǎn)的鑒別能量與子節(jié)點(diǎn)的鑒別能量之和進(jìn)行比較。如步驟116所示,如果子節(jié)點(diǎn)的鑒別能量之和大于父節(jié)點(diǎn)的鑒別能量,則該子節(jié)點(diǎn)被包括在樹(shù)中。否則,在步驟118,通過(guò)丟棄子節(jié)點(diǎn)和這些子節(jié)點(diǎn)的后代來(lái)裁剪樹(shù)。
圖5描述的過(guò)程繼續(xù)直到每個(gè)節(jié)點(diǎn)或者被如上所述地測(cè)試或由于是一個(gè)被排除的節(jié)點(diǎn)的子節(jié)點(diǎn)而被排除。結(jié)果產(chǎn)生一子波樹(shù),對(duì)于考慮的聲音類(lèi)別是最優(yōu)化的。在以此方式擴(kuò)展了一樹(shù)之后,系統(tǒng)可以繼續(xù)對(duì)不同的聲音類(lèi)別擴(kuò)展其他樹(shù)(使用不同的裁剪)。
不同的樹(shù)可以是最優(yōu)地鑒別一定的聲音組。從一過(guò)生長(zhǎng)樹(shù)中提取所有的這些樹(shù),這樣對(duì)于計(jì)算希望的特征所使用的優(yōu)化子樹(shù)的節(jié)點(diǎn)來(lái)說(shuō),只需一個(gè)分解。
可以在這些專(zhuān)門(mén)的特征的每個(gè)上訓(xùn)練專(zhuān)門(mén)的隱藏馬爾科夫模型。例如,一組從輔音中鑒別元音的專(zhuān)門(mén)模型可以從專(zhuān)門(mén)屬性中構(gòu)造,以?xún)?yōu)化地在這樣的聲音中高精度地鑒別。
于是通過(guò)先識(shí)別范圍廣的(例如輔音對(duì)元音),然后再識(shí)別該類(lèi)別中的特定聲音,在多通識(shí)別范例中實(shí)現(xiàn)模型的粗-細(xì)分辯率。替代地,在一通系統(tǒng)中可以一起使用所有模型(粗和細(xì)分辯率)來(lái)產(chǎn)生提供關(guān)于發(fā)音信息的范圍廣和范圍精細(xì)的聲音的系列。
盡管,以?xún)?yōu)選實(shí)施例的形式說(shuō)明了本發(fā)明,應(yīng)理解,在不背離由所附權(quán)利要求書(shū)限定的本發(fā)明的精神實(shí)質(zhì)和范圍的條件下,可以對(duì)本發(fā)明進(jìn)行許多修改和變型。
權(quán)利要求
1.一種為自動(dòng)語(yǔ)音識(shí)別提取特征的方法,包括使用一組子波分解語(yǔ)言聲信號(hào);定義和選擇子波基以加強(qiáng)對(duì)特定聲音類(lèi)別的鑒別;和將所述基應(yīng)用于所述子波組以產(chǎn)生多個(gè)表示從所述語(yǔ)言聲信號(hào)中提取的特征的分解系數(shù)。
2.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括將所述子波組表示成分解系數(shù),并且后置處理所述系數(shù)以去相關(guān)和壓縮它們。
3.根據(jù)權(quán)利要求1的方法,其中語(yǔ)言聲信號(hào)被采樣和以數(shù)字形式表示的。
4.根據(jù)權(quán)利要求1的方法,其中所述子波組被組織成樹(shù)結(jié)構(gòu)。
5.根據(jù)權(quán)利要求4的方法,其中所述樹(shù)結(jié)構(gòu)是從級(jí)聯(lián)的基本處理塊得出的二叉樹(shù)結(jié)構(gòu)。
6.根據(jù)權(quán)利要求5的方法,其中所述基本處理塊在下降采樣之后進(jìn)行高通和低通濾波。
7.根據(jù)權(quán)利要求4的方法,其中所述樹(shù)結(jié)構(gòu)定義了多個(gè)葉節(jié)點(diǎn),每一個(gè)葉節(jié)點(diǎn)提供分解系數(shù)。
8.根據(jù)權(quán)利要求4的方法,其中所述樹(shù)結(jié)構(gòu)定義了根節(jié)點(diǎn),其中所述方法進(jìn)一步包括連續(xù)地將所述語(yǔ)言聲信號(hào)饋送到所述根節(jié)點(diǎn)。
9.根據(jù)權(quán)利要求4的方法,其中所述樹(shù)結(jié)構(gòu)定義了多個(gè)葉節(jié)點(diǎn),選擇葉節(jié)點(diǎn)以使預(yù)定的聲類(lèi)別的鑒別最大化。
10.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括在時(shí)間窗口上積分所述分解系數(shù)。
11.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括對(duì)所述分解系數(shù)進(jìn)行非線性運(yùn)算。
12.根據(jù)權(quán)利要求11的方法,其中非線性運(yùn)算包括壓縮分解系數(shù)。
13.根據(jù)權(quán)利要求1的方法,其中所述子波組被組織成具有多個(gè)節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)。
14.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括計(jì)算每個(gè)節(jié)點(diǎn)的平均幅值。
15.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括對(duì)選定的節(jié)點(diǎn)進(jìn)行離散余弦變換以提取倒頻譜系數(shù)。
16.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括通過(guò)計(jì)算表明每個(gè)節(jié)點(diǎn)上的能量的值并且在計(jì)算值低于一預(yù)定閾值時(shí)裁剪節(jié)點(diǎn),來(lái)選擇所述節(jié)點(diǎn)的一部分。
17.根據(jù)權(quán)利要求16的方法,其中表明能量的值是一壓縮后的能量。
18.根據(jù)權(quán)利要求4的方法,進(jìn)一步包括通過(guò)計(jì)算所述節(jié)點(diǎn)的一個(gè)第一節(jié)點(diǎn)的鑒別能量,并且進(jìn)一步計(jì)算所述節(jié)點(diǎn)的所述第一節(jié)點(diǎn)的子節(jié)點(diǎn)的鑒別能量,并且如果所述子節(jié)點(diǎn)的鑒別能量之和小于所述節(jié)點(diǎn)的所述第一節(jié)點(diǎn)的鑒別能量則裁剪所述子節(jié)點(diǎn),來(lái)選擇所述節(jié)點(diǎn)的一部分。
19.根據(jù)權(quán)利要求1的方法,包括產(chǎn)生第一多個(gè)分解系數(shù)以表示第一類(lèi)別聲音和產(chǎn)生第二多個(gè)分解系數(shù)以表示第二類(lèi)別聲音,并且使用所述第一和第二分解分量產(chǎn)生在語(yǔ)音識(shí)別中使用的第一和第二組專(zhuān)用模型。
20.根據(jù)權(quán)利要求19的方法,其中將所述第一和第二組模型用于多通配置,從而對(duì)于識(shí)別結(jié)果首先使用第一組模型,之后使用第二組模型進(jìn)行處理。
21.根據(jù)權(quán)利要求19的方法,其中同時(shí)使用所述第一組和第二組模型以提供相應(yīng)于第一和第二聲音類(lèi)別兩者的識(shí)別結(jié)果。
22.根據(jù)權(quán)利要求19的方法,其中所述第一類(lèi)別聲音對(duì)應(yīng)于廣的聲音的類(lèi)別之間的第一級(jí)鑒別,并且其中所述第二類(lèi)別聲音對(duì)應(yīng)于窄的聲音類(lèi)別之間的第二級(jí)鑒別。
全文摘要
將語(yǔ)言聲信號(hào)分解成以非對(duì)稱(chēng)樹(shù)數(shù)據(jù)結(jié)構(gòu)排列的子波,從樹(shù)中可以選擇節(jié)點(diǎn)以便最佳地提取局部特征,這是在模型化特定類(lèi)別聲音單元時(shí)所需要的。通過(guò)積分可以平滑子波分組變換,并且在進(jìn)行離散的余弦變換之前對(duì)子波行組壓縮來(lái)應(yīng)用非線性運(yùn)算。然后可以使用產(chǎn)生的諸如倒頻譜系數(shù)等子頻帶特征來(lái)構(gòu)造語(yǔ)音識(shí)別器的語(yǔ)音模型。使用以此方式提取的局部特征信息使單個(gè)識(shí)別器相對(duì)于幾個(gè)不同類(lèi)別的聲音單元是最優(yōu)的,這樣就不需要并行識(shí)別器。
文檔編號(hào)G10L15/02GK1299127SQ0012833
公開(kāi)日2001年6月13日 申請(qǐng)日期2000年11月24日 優(yōu)先權(quán)日1999年11月24日
發(fā)明者盧卡斯·里加茲奧, 戴維·克萊澤, 特德·艾波保, 讓?zhuān)藙诘隆ふ部?申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社