專利名稱:采用連續(xù)密度隱藏式馬爾克夫模型的語音識(shí)別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語音識(shí)別,更具體地說,本發(fā)明涉及采用連續(xù)隱藏式馬爾克夫模型的計(jì)算機(jī)語音識(shí)別系統(tǒng)。
語音識(shí)別領(lǐng)域正面臨一種需要提供一種具有最小識(shí)別誤差率的、與講話者無關(guān)的連續(xù)語音識(shí)別系統(tǒng)的挑戰(zhàn)。實(shí)現(xiàn)這個(gè)目標(biāo)的關(guān)鍵在于語音識(shí)別系統(tǒng)所采用的識(shí)別算法。識(shí)別算法基本上就是語音信號(hào),一種連續(xù)時(shí)間信號(hào),向表示先前從培訓(xùn)數(shù)據(jù)中得到的語音的音素和音韻描述的一組參考模式的對(duì)應(yīng)變換。為了實(shí)現(xiàn)這種對(duì)應(yīng)變換,對(duì)于語音信號(hào)的數(shù)字形式采用信號(hào)處理技術(shù),諸如快速富里葉變換(FFT)、線性預(yù)測(cè)編碼(LPC)、或?yàn)V波器組(Fitter banks)進(jìn)行處理,以獲取這些語音信號(hào)的適合代表參數(shù)。一種共用的代表是在每個(gè)時(shí)間間隔包含表示包含在語音信號(hào)中的頻帶和/或能帶的FFT或LPC系數(shù)的特征向量。一序列這種特征向量被對(duì)應(yīng)變換到用于識(shí)別包含在語音信號(hào)中的語言單位、單詞和/或句子的一組參考模式。
通常,語音信號(hào)不會(huì)與存儲(chǔ)的參考模式精確匹配。實(shí)現(xiàn)精確匹配的困難是由于語音信號(hào)特征的極大的變化性使之不能利用存儲(chǔ)的參考模式完全地和準(zhǔn)確地獲取。概率模型和統(tǒng)計(jì)技術(shù)比那些試圖實(shí)現(xiàn)精確匹配的技術(shù)更加成功地應(yīng)用于預(yù)測(cè)預(yù)期的信息。這類技術(shù)中有一種稱為隱藏式馬爾克夫模型(HMM)。這些技術(shù)更適合于語音識(shí)別,因?yàn)樗鼈兪谴_定最有可能與語音信號(hào)匹配的參考模式,而不是尋找一種精確的匹配。
一個(gè)隱藏式馬爾克夫模型由一序列與變換相連的狀態(tài)構(gòu)成。一個(gè)隱藏式馬爾克夫模型可以表示語音的一個(gè)特定的音素單位,諸如一個(gè)音素或字詞。與每個(gè)狀態(tài)相關(guān)的是一個(gè)指示該狀態(tài)與一個(gè)特征向量匹配的似然性的輸出概率。對(duì)于每種變換,存在指示遵循變換的似然性的一個(gè)相關(guān)的變換概率。這種變換和輸出概率是從先前的講話語音模式,稱之為“培訓(xùn)數(shù)據(jù)”,統(tǒng)計(jì)估算出來的。識(shí)別問題就是一個(gè)尋找具有與表示輸入語音信號(hào)的特征向量匹配的最高概率的狀態(tài)序列的問題。首先,這個(gè)搜索過程包括枚舉每一種已經(jīng)模型化的可能的狀態(tài)序列和確定該狀態(tài)序列與輸入語音信號(hào)匹配的概率。對(duì)應(yīng)于具有最高概率的狀態(tài)序列的語調(diào)被選擇為識(shí)別的語調(diào)。
大部分基于隱藏式馬爾克夫模型的語音識(shí)別系統(tǒng)是以向量量化的離散的隱藏式馬爾克夫模型為基礎(chǔ)的。離散的隱藏式馬爾克夫模型具有有限組的輸出符號(hào),變換和輸出概率是建立在離散的概率分布函數(shù)(pdfs)基礎(chǔ)上的。向量量化用于借助于被稱為代碼字的一種離散的代表參數(shù)表征連續(xù)語音信號(hào)。特征向量與使用失真量值的一個(gè)代碼字匹配。該特征向量用具有最小失真量值的代碼字的索引代替。識(shí)別問題轉(zhuǎn)換降低為計(jì)算一個(gè)所關(guān)注的語音信號(hào)的離散的輸出概率,就象一種查表運(yùn)算,這只需要最少的計(jì)算量。
但是,語音信號(hào)是連續(xù)信號(hào)。盡管有可能利用代碼字量化連續(xù)信號(hào),但是這種量化可能會(huì)產(chǎn)生嚴(yán)重的音質(zhì)降低,結(jié)果導(dǎo)致識(shí)別準(zhǔn)確性很差。利用連續(xù)密度隱藏式馬爾克夫模型的識(shí)別系統(tǒng)不會(huì)產(chǎn)生由于量化失真造成的不準(zhǔn)確的問題。連續(xù)密度隱藏式馬爾克夫模型能夠直接利用估算連續(xù)密度概率分布函數(shù)對(duì)連續(xù)語音信號(hào)模型化,從而達(dá)到較高的識(shí)別準(zhǔn)確率。但是,連續(xù)密度隱藏式馬爾克夫模型需要大量的培訓(xùn)數(shù)據(jù)和需要較長(zhǎng)時(shí)間的識(shí)別運(yùn)算,這妨礙了它們?cè)诖蟛糠稚虡I(yè)語音識(shí)別系統(tǒng)中的應(yīng)用。所以,存在于連續(xù)語音識(shí)別系統(tǒng)中的主要問題是采用連續(xù)密度隱藏式馬爾克夫模型以實(shí)現(xiàn)較高的識(shí)別準(zhǔn)確率。
本發(fā)明涉及一種語音識(shí)別系統(tǒng),這種系統(tǒng)改進(jìn)了用對(duì)應(yīng)于一種語言表達(dá)式的連續(xù)密度隱藏式馬爾克夫模型對(duì)語音信號(hào)的模型化。在優(yōu)選實(shí)施例中,識(shí)別系統(tǒng)利用一個(gè)與前后音無關(guān)的和幾個(gè)與前后音有關(guān)的隱藏式馬爾克夫模型以不同的前后相關(guān)模式表示一種語音的音素單位。這些隱藏式馬爾克夫模型中每一個(gè)的輸出和變換概率利用培訓(xùn)數(shù)據(jù)估算。與對(duì)應(yīng)于相同的模型化的音素的相同狀態(tài)相關(guān)的輸出概率被群聚形成各句音(senone)。對(duì)于每個(gè)表示預(yù)測(cè)未發(fā)生的數(shù)據(jù)的輸出概率的穩(wěn)定性的與前后音相關(guān)的各句音還產(chǎn)生一個(gè)加權(quán)因子。在該優(yōu)選實(shí)施例中,通過在培訓(xùn)數(shù)據(jù)的所有數(shù)據(jù)點(diǎn)的刪除內(nèi)插估算加權(quán)因子。除了上述方式,還可以從數(shù)據(jù)點(diǎn)的代表參數(shù)或者從數(shù)據(jù)點(diǎn)的代表參數(shù)所產(chǎn)生的隨機(jī)生成數(shù)據(jù)點(diǎn)估算加權(quán)因子。
識(shí)別裝置接收一個(gè)輸入的語音并產(chǎn)生最有可能與輸入的語音的特征向量匹配的候選字序列。該字序列可以由對(duì)應(yīng)于隱藏式馬爾克夫模型的狀態(tài)序列的各種句音排列構(gòu)成。該識(shí)別裝置利用一個(gè)聲音和語言概率評(píng)分確定哪一個(gè)句音/狀態(tài)排列與特征向量最匹配。聲概率評(píng)分表示句音排列對(duì)應(yīng)于特征向量的似然性,語言概率評(píng)分表示語音與出現(xiàn)在語言中的句音排列相對(duì)應(yīng)的似然性。聲概率評(píng)分基于輸出和變換概率分析。輸出概率分析通過將每個(gè)輸出概率作為加權(quán)因子的函數(shù)加權(quán)而利用與前后音相關(guān)的和與前后音無關(guān)的句音的輸出概率。具有最穩(wěn)定估算的輸出概率將支配分析過程,從而改進(jìn)輸出概率分析。輸出概率分析的改進(jìn)改善了聲評(píng)分,進(jìn)而改善了整個(gè)識(shí)別的準(zhǔn)確率。
本發(fā)明的上述和其它的特征以及優(yōu)點(diǎn)通過以下對(duì)如附圖所示的、本發(fā)明的優(yōu)選實(shí)施例的更加詳細(xì)的描述將變得十分清楚,在不同的附圖中相同的參照標(biāo)號(hào)表示相同的單元。附圖不是按比例繪制的,重點(diǎn)在于解釋本發(fā)明的原理。
圖1為應(yīng)用于優(yōu)選實(shí)施例的一個(gè)語音識(shí)別系統(tǒng)的方框圖。
圖2為用于圖1所示的系統(tǒng)的培訓(xùn)方法的流程圖。
圖3為計(jì)算用于圖1所示系統(tǒng)中所用的加權(quán)因子的方法的流程圖。
圖4為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的優(yōu)選實(shí)施例的流程圖。
圖5為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的第一變型實(shí)施例的流程圖。
圖6為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的第二變型實(shí)施例的流程圖。
圖7A和圖7B表示隱藏式馬爾克夫模型的一個(gè)實(shí)例和與一個(gè)音素相關(guān)的句音結(jié)構(gòu)。
圖8為用于圖1所示系統(tǒng)的語音識(shí)別方法的流程圖。
通過本發(fā)明的優(yōu)選實(shí)施例認(rèn)識(shí)到通過對(duì)表示同一音素單位的不同輸出概率針對(duì)每一輸出概率能夠預(yù)測(cè)未形成的數(shù)據(jù)的程度進(jìn)行加權(quán)處理能夠在采用連續(xù)密度隱藏式馬爾克夫模型的語音識(shí)別系統(tǒng)中得到提高的識(shí)別準(zhǔn)確率。權(quán)利要求中提出保護(hù)的發(fā)明中的語音識(shí)別系統(tǒng)接收以連續(xù)信號(hào)形式構(gòu)成的輸入語音,并產(chǎn)生相應(yīng)于該語音的最可能的語言表達(dá)式。該優(yōu)選實(shí)施例通過使構(gòu)成語音信號(hào)的代表參數(shù)的一組特征向量與識(shí)別可能的語言表達(dá)式的一序列隱藏式馬爾克夫模型相匹配而識(shí)別一個(gè)語言表達(dá)式。一個(gè)隱藏式馬爾克夫模型可以表示一個(gè)音素,一序列隱藏式馬爾克夫模型可以表示由許多音素構(gòu)成的單詞或句子。
由于連續(xù)密度概率分布函數(shù),例如高斯概率分布函數(shù)的混合形式,在模型化一個(gè)語音信號(hào)時(shí)更加準(zhǔn)確,所以可以利用它們表示一個(gè)狀態(tài)的輸出概率。這個(gè)輸出概率函數(shù)由培訓(xùn)數(shù)據(jù)統(tǒng)計(jì)估算。通常為了準(zhǔn)確地估算輸出概率函數(shù)培訓(xùn)數(shù)據(jù)的數(shù)量不足。為了解決這個(gè)問題,對(duì)于預(yù)定組的音素構(gòu)成了與前后音無關(guān)和與前后音有關(guān)的模型。然后用與前后音有關(guān)模型的輸出概率對(duì)前后音無關(guān)模型的輸出概率進(jìn)行內(nèi)插。這是通過一個(gè)加權(quán)或插值因子完成的,所說的加權(quán)或插值因子估算與前后音有關(guān)的隱藏式馬爾克夫模型的輸出概率函數(shù)能夠預(yù)測(cè)先前在培訓(xùn)數(shù)據(jù)中不存在的數(shù)據(jù)的程度。因此,與前后音有關(guān)狀態(tài)的新調(diào)整的輸出概率函數(shù)是兩種模型的輸出概率函數(shù)根據(jù)估算的穩(wěn)定性進(jìn)行加權(quán)得到的組合函數(shù)。所以,在該優(yōu)選實(shí)施例中,刪除的插值用于平滑概率空間,而不是參數(shù)空間。
圖1表示一個(gè)語音識(shí)別系統(tǒng)10,該系統(tǒng)可以用于實(shí)施根據(jù)本發(fā)明的優(yōu)選實(shí)施例的識(shí)別和培訓(xùn)方法。語音識(shí)別系統(tǒng)10包括一個(gè)輸入裝置12,例如一個(gè)麥克風(fēng),但是并不限于麥克風(fēng),它接收一個(gè)輸入語音,并產(chǎn)生相應(yīng)的模擬電信號(hào)。或者,可以用存儲(chǔ)在一個(gè)存儲(chǔ)器中的語音作為輸入語音。與該語音相應(yīng)的模擬電信號(hào)被傳輸?shù)侥?shù)(A/D)轉(zhuǎn)換器14,該轉(zhuǎn)換器將模擬信號(hào)轉(zhuǎn)換成一序列數(shù)字采樣信號(hào)。然后這些數(shù)字采樣信號(hào)傳輸?shù)教卣鞒槿∑?6,該抽取器抽取數(shù)字化的輸入語音信號(hào)的代表參數(shù)。這個(gè)代表參數(shù)獲取輸入語音的聲特性??扇〉氖?,特征抽取器16進(jìn)行頻譜分析以產(chǎn)生一序列特征向量,每個(gè)特征向量包含表示輸入語音信號(hào)的頻譜的系數(shù)。進(jìn)行頻譜分析的方法是信號(hào)處理領(lǐng)域中所熟知的,可以包括快速傅里葉變換(FFT)、線性預(yù)測(cè)編碼(LPC)、和倒譜系數(shù),所有這些方法特征抽取器16都可以使用。特征抽取器16可以是能夠進(jìn)行頻譜分析的任何常規(guī)處理器。頻譜分析可以以10毫秒的間隔進(jìn)行以將輸入語音信號(hào)分割成表示25毫秒語音的特征向量。但是,本發(fā)明并不限于使用表示25毫秒語音的特征向量。還可以使用表示不同時(shí)間長(zhǎng)度語音的特征向量。對(duì)整個(gè)輸入語音信號(hào)重復(fù)這個(gè)過程,結(jié)果得到一序列特征向量,然后將這些特征向量傳送到一個(gè)數(shù)據(jù)處理器38中。數(shù)據(jù)處理器38可以是任何常規(guī)的計(jì)算機(jī),例如桌面?zhèn)€人電腦。數(shù)據(jù)處理器包含一個(gè)按規(guī)定路線發(fā)送這些特征向量的一個(gè)轉(zhuǎn)換模塊18。轉(zhuǎn)換模塊18可以用硬件或軟件實(shí)現(xiàn)。但是,語音識(shí)別系統(tǒng)并不局限于在數(shù)據(jù)處理器上運(yùn)行。其它類型的可執(zhí)行媒體也可以使用,諸如,但是并不限于,一個(gè)計(jì)算機(jī)可讀的存儲(chǔ)媒體,它可以是一個(gè)存儲(chǔ)器、光盤,或軟盤。
在最初的培訓(xùn)階段,轉(zhuǎn)換模塊18轉(zhuǎn)換到將特征向量導(dǎo)向培訓(xùn)裝置20的位置。培訓(xùn)裝置20利用這些特征向量估算表示存在于培訓(xùn)數(shù)據(jù)中的音素的隱藏式馬爾克夫模型的參數(shù),并計(jì)算識(shí)別裝置34所用的一組加權(quán)因子。下面參照附圖2-6更詳細(xì)地描述培訓(xùn)裝置20所使用的方法。簡(jiǎn)單地說,培訓(xùn)裝置20通過從這些培訓(xùn)數(shù)據(jù)估算基于與前后音無關(guān)和與前后音有關(guān)音素的隱藏式馬爾克夫模型的參數(shù)而產(chǎn)生這些模型。每一與前后音有關(guān)狀態(tài)的輸出分布群聚形成句音,存儲(chǔ)在句音表存儲(chǔ)器30中。一般來說,句音表存儲(chǔ)器30保存與前后音有關(guān)和與前后音無關(guān)隱藏式馬爾克夫模型的句音。對(duì)于每個(gè)隱藏式馬爾克夫模型的句音標(biāo)識(shí)符儲(chǔ)存在隱藏式馬爾克夫模型存儲(chǔ)器28中。此外,計(jì)算對(duì)于每個(gè)與前后音有關(guān)句音的加權(quán)因子,并將其存儲(chǔ)在用于識(shí)別裝置34的λ表存儲(chǔ)器26中。λ表存儲(chǔ)器26存儲(chǔ)用與前后音有關(guān)的隱藏式馬爾克夫模型標(biāo)引的λ值。培訓(xùn)裝置20還利用了一個(gè)文本副本,其中包括培訓(xùn)數(shù)據(jù)的譯文22和包含每個(gè)單詞的語音描述的字典24以確保每個(gè)單詞都被正確地模擬。在下面的討論中將更加詳細(xì)地描述培訓(xùn)裝置20的操作。字典24包含每個(gè)單詞的以音素形式體現(xiàn)的發(fā)音。例如,字典中“add”的詞條可能是“/AEDD”。
在最初的培訓(xùn)階段之后,轉(zhuǎn)換模塊18進(jìn)行轉(zhuǎn)換將特征向量導(dǎo)向識(shí)別裝置34。識(shí)別裝置34將這一組特征向量識(shí)別為由構(gòu)成單詞,這些單詞又構(gòu)成句子,的音素組成的語言表達(dá)式?,F(xiàn)在參照附圖8詳細(xì)描述在該識(shí)別裝置34中使用的方法。識(shí)別裝置34使用存儲(chǔ)在隱藏式馬爾克夫模型存儲(chǔ)器28中的與前后音無關(guān)的和與前后音有關(guān)的隱藏式馬爾克夫模型、存儲(chǔ)在句音表存儲(chǔ)器30中的與前后音無關(guān)的和與前后音有關(guān)的句音、存儲(chǔ)在λ表存儲(chǔ)器26中的加權(quán)因子、和存儲(chǔ)在語言模型存儲(chǔ)器32中的語言模型以及字典24。語言模型存儲(chǔ)器22可以載明語法規(guī)則。在該優(yōu)選實(shí)施例中,從識(shí)別裝置34中產(chǎn)生的語言表達(dá)式顯示在一個(gè)輸出裝置36上,例如一個(gè)常規(guī)的打印機(jī)、計(jì)算機(jī)監(jiān)視器、或類似裝置。但是,本發(fā)明并不局限于將語言表達(dá)式顯示在一個(gè)輸出裝置上。例如,可以將語言表達(dá)式輸入另一個(gè)程序或處理器以進(jìn)行進(jìn)一步的處理或者可以存儲(chǔ)起來。
附圖2-6是表示在系統(tǒng)的培訓(xùn)階段中所執(zhí)行的步驟的流程圖,在這些步驟中估算隱藏式馬爾克夫模型的參數(shù)和句音,并計(jì)算加權(quán)因子。簡(jiǎn)言之,培訓(xùn)方法開始時(shí)接收以單詞、句子、短語、或類似形式構(gòu)成的輸入語音,并將它們轉(zhuǎn)換為代表參數(shù),例如已經(jīng)知道的以特征向量的形式。形成隱藏式馬爾克夫模型和句音的結(jié)構(gòu),并且利用這些培訓(xùn)數(shù)據(jù)計(jì)算這些數(shù)據(jù)結(jié)構(gòu)的參數(shù)的估算值。然后利用刪除內(nèi)插技術(shù)確定加權(quán)因子。
參見附圖2,培訓(xùn)方法開始時(shí)接收一序列的語音(步驟42),并如前面參照?qǐng)D1所述將其轉(zhuǎn)換成一序列的特征向量(步驟44)。完整的一組特征向量被稱為“培訓(xùn)數(shù)據(jù)”。在優(yōu)選實(shí)施例中,利用LPC倒譜分析以使語音信號(hào)模型化,并得到一個(gè)特征向量,該特征向量包含下列39個(gè)表示信號(hào)中包含的頻率和能譜的倒譜和能量系數(shù)(1)12個(gè)LPC美-頻倒譜系數(shù),xk(t),1<=K<=12;(2)12個(gè)LPCΔ美-頻倒譜系數(shù)Δxk(t),1<=K<=12;(3)12個(gè)LPCΔΔ美-頻倒譜系數(shù)ΔΔxk(t),1<=K<=12;以及(4)能量、Δ能量、和ΔΔ能量系數(shù)。使用LPC倒譜分析模擬語音信號(hào)在語音識(shí)別領(lǐng)域是眾所周知的。
在步驟46,生成句音和隱藏式馬爾克夫模型數(shù)據(jù)結(jié)構(gòu)。句音是語音識(shí)別領(lǐng)域中熟知的數(shù)據(jù)結(jié)構(gòu),有關(guān)句音以及用于構(gòu)成句音的方法的詳細(xì)介紹可以在M.Huang等人所寫“用句音預(yù)測(cè)未產(chǎn)生的三音素”(trophone)(Proc.ICASSP‘93 Vol.II,pp.311-314,1993)一文中找到。在優(yōu)選實(shí)施例中,一個(gè)隱藏式馬爾克夫模型可以用于對(duì)一個(gè)音素的語音單位模型化。隱藏式馬爾克夫模型也可以被稱為聲模型。選擇這個(gè)語音單位是為了適應(yīng)大詞匯識(shí)別。對(duì)單個(gè)的單詞模型化需要較長(zhǎng)的培訓(xùn)時(shí)間和附加的存儲(chǔ)空間以存儲(chǔ)相關(guān)的參數(shù)。這對(duì)于小詞匯系統(tǒng)是可行的,但是對(duì)于使用大詞匯的系統(tǒng)是不實(shí)用的。然而,本發(fā)明不限于以音素為基礎(chǔ)的隱藏式馬爾克夫模型。其它語音單位,例如單詞、雙音素、和音節(jié)都可以用作隱藏式馬爾克夫模型的基礎(chǔ)。
可以使用兩種類型的隱藏式馬爾克夫模型。與前后音有關(guān)的隱藏式馬爾克夫模型可以用于模擬一個(gè)音素及其左右音素。這種類型的模型化獲取到通常在單詞模型化中存在的前后音的相關(guān)性。與前后音無關(guān)的隱藏式馬爾克夫模型可以用于任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中處于前后音的音素模型化,所以使得它與任何特定的前后音無關(guān)。選擇包含一組音素及其相關(guān)的左右音素的預(yù)定模式,用與前后音有關(guān)的隱藏式馬爾克夫模型進(jìn)行模型化。所選擇的這些模式表示最常出現(xiàn)的音素和最常出現(xiàn)的這些音素的前后音素。培訓(xùn)數(shù)據(jù)可以提供有關(guān)這些模型的參數(shù)的估算值。與前后音無關(guān)的模型可以基于所選擇的音素,并由任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中的音素上下文進(jìn)行模擬。同樣,培訓(xùn)數(shù)據(jù)將提供對(duì)于這些與前后音無關(guān)模型參數(shù)的估算結(jié)果。
使用與前后音無關(guān)的和與前后音有關(guān)的模型都有益于提高識(shí)別準(zhǔn)確度。每種模型的穩(wěn)定性與用于估算其參數(shù)的培訓(xùn)數(shù)據(jù)的數(shù)量有關(guān),所說參數(shù)還能夠使其預(yù)測(cè)培訓(xùn)數(shù)據(jù)中沒有的數(shù)據(jù)。兩種模型相互結(jié)合,由于得益于兩種模型的培訓(xùn)數(shù)據(jù),可以提供更加穩(wěn)定的估算結(jié)果。例如,與前后音有關(guān)的模型在共同發(fā)音效應(yīng)模型化時(shí)是有益的,但是由于有限的培訓(xùn)數(shù)據(jù)可能培訓(xùn)得不夠(盡管一個(gè)講話者可能努力將各個(gè)單詞發(fā)音成一組連接的音素,但是講話者的發(fā)音器官不能同時(shí)動(dòng)作以產(chǎn)生相互不發(fā)生影響的音素。結(jié)果,一個(gè)音素被在一個(gè)單詞中位于它前面的音素和位于它后面的音素強(qiáng)烈地影響著。這種效應(yīng)就是“共同發(fā)音效應(yīng)”)。相反,與前后音無關(guān)的模型是經(jīng)過很好培訓(xùn)的,從而產(chǎn)生更加穩(wěn)定的估算結(jié)果,對(duì)此不再詳述。識(shí)別裝置可以結(jié)合使用兩種模型,并以適當(dāng)?shù)姆绞郊訖?quán),以產(chǎn)生更加準(zhǔn)確的聲概率評(píng)分。
進(jìn)一步考慮講話者之間的差別,例如男性和女性聲域中共振頻率(即聲域諧振頻率)的差別,隱藏式馬爾克夫模型可以利用這些輸出概率分布函數(shù)(在本申請(qǐng)中稱之為“輸出概率分布函數(shù)”)的單峰分布的混合。可取的是,可以使用高斯概率密度函數(shù)的混合。但是,本發(fā)明并不局限于這種特定限制。其它眾所周知的連續(xù)密度函數(shù)的混合,例如拉普拉斯和K0型密度函數(shù)也可以使用。
此外,為了獲取在不同的與前后音有關(guān)的音素狀態(tài)之間的相似性和增加可用于每個(gè)句音的培訓(xùn)數(shù)據(jù)的數(shù)量,對(duì)于相同的與前后音無關(guān)的音素,不同的與前后音有關(guān)的音素隱藏式馬爾克夫模型模型的相同狀態(tài)的輸出分布群聚在一起構(gòu)成句音。
附圖7A表示了用于音素/aa/114的一個(gè)與前后音無關(guān)的隱藏式馬爾克夫模型結(jié)構(gòu)的實(shí)例。該與前后音無關(guān)的隱藏式馬爾克夫模型包括三種狀態(tài),標(biāo)記為狀態(tài)1(111)、狀態(tài)2(112)和狀態(tài)3(113)。附圖7A中表示的隱藏式馬爾克夫模型對(duì)伴隨有任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中的左右音素的音素/aa/模型化,所說的左右音素在附圖7A中用符號(hào)(*,*)標(biāo)記。括號(hào)中的第一個(gè)位置表示在指定音素之前的音素, 第二個(gè)位置表示在指定音素之后的音素。句音在對(duì)于與相同音素相應(yīng)的每種類型的模型(例如與前后音有關(guān)相對(duì)與前后音無關(guān)的)相同的狀態(tài)(例如狀態(tài)1)范圍中分類。在這個(gè)實(shí)例中,與前后音無關(guān)的隱藏式馬爾克夫模型分別包括與狀態(tài)1、2和3對(duì)應(yīng)的句音10、55和125。
附圖7B表示一個(gè)與音素/aa/相應(yīng)的與前后音有關(guān)的隱藏式馬爾克夫模型的實(shí)例。在附圖7B中有5個(gè)與前后音有關(guān)的模型,這些模型以5種不同的音素前后關(guān)系(115-119)模擬音素/aa/。例如,與前后音有關(guān)的模型/aa/(/dh/,/b/)115在左邊或前面的音素為/dh/,右邊的音素為/b/的前后范圍內(nèi)對(duì)音素/aa/模型化。句音在不同隱藏式馬爾克夫模型的相同狀態(tài)范圍內(nèi)分類。在狀態(tài)1中,有兩個(gè)與前后音有關(guān)的句音,標(biāo)記為句音14和25??傊瑢?duì)于音素/aa/,在狀態(tài)1有兩個(gè)與前后音有關(guān)的句音14和35和一個(gè)與前后音無關(guān)的句音10,在狀態(tài)2有兩個(gè)與前后音有關(guān)的句音25和85和一個(gè)與前后音無關(guān)的句音55;在狀態(tài)3有一個(gè)與前后音有關(guān)的句音99和一個(gè)與前后音無關(guān)的句音125。
因此,用于優(yōu)選實(shí)施例中的基于音素的連續(xù)密度隱藏式馬爾克夫模型可以表征為下列數(shù)學(xué)定義(1)N,模型中狀態(tài)的數(shù)目;可取的是,使用三個(gè)狀態(tài)。但是,本發(fā)明并不局限于三個(gè)狀態(tài),而是可以使用多達(dá)5個(gè)狀態(tài)。
(2)M,在輸出概率分布函數(shù)中混合的數(shù)目。
(3)A={aij},狀態(tài)轉(zhuǎn)變概率分布,從狀態(tài)i轉(zhuǎn)變到狀態(tài)j。
(4)B={bi(X)},輸出概率分布;當(dāng)處于狀態(tài)i時(shí)輸出特征向量x的概率,其中bi(x)=Σk=1MckN(x,μk,Vk)-----(1)]]>其中N(x,μk,Vk)表示利用平均向量μk和協(xié)方差矩陣Vk定義的多維高斯密度函數(shù);混合部分的數(shù)目通常為1到50;ck是第k個(gè)混合部分在狀態(tài)i中的加權(quán)因子。
與每狀態(tài)i相關(guān)的輸出概率分布用句音,sdi表示,可以表示為P(x1,sdi)。
(5)π={π1},初始狀態(tài)分布。
為了方便,用壓縮符號(hào)∝=(A,B,π)表示模型的一組完整的參數(shù),其也被稱為一個(gè)隱藏式馬爾克夫模型的參數(shù)空間。
在附圖2的步驟48中,估算有關(guān)句音、與前后音有關(guān)的隱藏式馬爾克夫模型和與前后音無關(guān)的隱藏式馬爾克夫模型參數(shù)。一個(gè)隱藏式馬爾克夫模型的培訓(xùn)階段包括利用培訓(xùn)數(shù)據(jù)、語音22的音素、和單詞24的音素拼讀字典估算這些參數(shù)。輸出和轉(zhuǎn)變概率可以利用眾所周知的Baum-Welch或向前-向后算法估算。由于Baum-Welch算法使得培訓(xùn)數(shù)據(jù)可以更好地得到利用,所以較為可取。有關(guān)內(nèi)容在Huang等人撰寫的“用于語音識(shí)別的隱藏式馬爾克夫模型”(愛丁堡大學(xué)出版社,1990)一書中予以了介紹。但是,本發(fā)明并不局限于這種特殊的培訓(xùn)算法,其它算法也可以使用。通常利用培訓(xùn)數(shù)據(jù)的大約5次迭代就可以得到較好的參數(shù)估算結(jié)果。
在附圖2的步驟50中,產(chǎn)生每一與前后音有關(guān)的句音的加權(quán)或內(nèi)插因子,并用數(shù)學(xué)符號(hào),λ表示。加權(quán)因子將用于將與前后音有關(guān)的隱藏式馬爾克夫模型的輸出概率內(nèi)插入到與前后音無關(guān)的隱藏式馬爾克夫模型的輸出概率中。這些加權(quán)因子表示與前后音有關(guān)的輸出概率分布函數(shù)在預(yù)測(cè)未產(chǎn)生數(shù)據(jù)方面的適合程度。輸出概率分布函數(shù)利用培訓(xùn)數(shù)據(jù)估算,并且接近地預(yù)測(cè)與培訓(xùn)數(shù)據(jù)類似的數(shù)據(jù)。但是,利用表示每一個(gè)可能的輸入語音的培訓(xùn)數(shù)據(jù)不可能估算輸出概率分布函數(shù),或者利用足夠的培訓(xùn)數(shù)據(jù)正確地預(yù)測(cè)所有未產(chǎn)生的數(shù)據(jù)。加權(quán)因子的作用是指示對(duì)于預(yù)測(cè)未產(chǎn)生數(shù)據(jù)輸出pdf的適合程度,這是用于估算與前后音有關(guān)的與前后音無關(guān)的模型的培訓(xùn)數(shù)據(jù)的函數(shù)。當(dāng)用于與前后音有關(guān)的模型的培訓(xùn)數(shù)據(jù)的數(shù)量變大時(shí),λ將趨近于1.0,輸出概率分布函數(shù)將急劇地加權(quán)。利用少量的用于與前后音有關(guān)的模型的培訓(xùn)數(shù)據(jù),λ將趨近于0.0,輸出概率分布函數(shù)將加權(quán)較少。用于每一與前后音有關(guān)的句音的λ最佳值通過刪除內(nèi)插技術(shù)確定。
簡(jiǎn)而言之,刪除內(nèi)插技術(shù)將培訓(xùn)數(shù)據(jù)劃分為不同的兩組。一組用于估算模型的參數(shù),另一組用于確定加權(quán)因子,加權(quán)因子表示輸出概率分布函數(shù)能夠預(yù)測(cè)未產(chǎn)生數(shù)據(jù)的適合程度。這種方法是反復(fù)進(jìn)行的,在每次迭代過程中循環(huán)不同的各組,并產(chǎn)生一個(gè)新的模型和加權(quán)因子。在所有迭代結(jié)束時(shí),計(jì)算加權(quán)因子的平均值,并用于識(shí)別階段。
附圖3-6表示用于計(jì)算加權(quán)因子的步驟。參見附圖3,培訓(xùn)數(shù)據(jù)在步驟60被分成K塊??扇〉氖牵袃蓧K數(shù)據(jù)。但是,本發(fā)明不局限于這些數(shù)目的數(shù)據(jù)塊,根據(jù)培訓(xùn)數(shù)據(jù)存儲(chǔ)的限制和培訓(xùn)時(shí)間可以使用其它數(shù)目的數(shù)據(jù)塊。
對(duì)于每個(gè)與前后音有關(guān)的句音計(jì)算加權(quán)因子(步驟62),這種計(jì)算是通過首先利用句音表求出senSI(步驟63)實(shí)現(xiàn)的,該senSI是該與senSD(即與前后音有關(guān)的句音)對(duì)應(yīng)的與前后音無關(guān)的句音。計(jì)算公式是通過一種迭代方法在步驟64推導(dǎo)出的,當(dāng)新的λ值,標(biāo)記為λ新之間的差值滿足一定的閾值時(shí),該計(jì)算公式收斂。可取的是,當(dāng)|λ-λ新|<.0001時(shí),該方法收斂或結(jié)束。該方法在步驟66從選擇一個(gè)初始的λ值開始。開始時(shí),為了進(jìn)行一個(gè)句音的第一次迭代,使用者預(yù)先選擇了一個(gè)初始值??扇〉氖牵@個(gè)初始值可以是一個(gè)估算的假設(shè)值,例如0.8。對(duì)于所有其它迭代,初始值可以是以前計(jì)算出的新值,λ=λ新。在步驟68中,該方法迭代K次。在步驟70的每次迭代中,選擇一塊數(shù)據(jù)作為刪除的數(shù)據(jù)塊,所選擇的刪除數(shù)據(jù)塊是以前沒有選擇的。
然后該方法利用除去刪除的數(shù)據(jù)塊以外的所有數(shù)據(jù)塊的培訓(xùn)數(shù)據(jù)估算每個(gè)與前后音有關(guān)的(標(biāo)記為b1)句音和與前后音無關(guān)的(標(biāo)記為b2)句音的輸出概率(步驟72)。這些參數(shù)是利用如上所述在培訓(xùn)階段估算隱藏式馬爾克夫模型參數(shù)的相同技術(shù)(即Baum-Welch算法)進(jìn)行估算的。
接著在步驟74,計(jì)算新值λ新。計(jì)算假定要求“強(qiáng)制排列”。在培訓(xùn)過程中,如果使用了Viterbi算法,可以用一個(gè)特定的句音識(shí)別培訓(xùn)數(shù)據(jù)中的每個(gè)特征向量。這種利用句音的對(duì)應(yīng)變換或向量就是所知的“強(qiáng)制排列”。λ新根據(jù)以下的數(shù)學(xué)公式計(jì)算λnew=1NΣi=1N(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))---(2)]]>其中N=在相應(yīng)于句音senSD的刪除數(shù)據(jù)塊中利用強(qiáng)制排列的數(shù)據(jù)點(diǎn)或特征向量的數(shù)目xi=特征向量i,1≤i≤Nb1(xi)=由上述方程(1)定義的與前后音有關(guān)的輸出概率分布函數(shù)b2(xi)=由上述方程(1)定義的與前后音無關(guān)的輸出概率分布函數(shù)λ*b1(xi)+(1-λ)*b2(xi)簡(jiǎn)稱總概率。
為K次迭代的每一次迭代確定一個(gè)λ新值。在步驟76中, 當(dāng)完成所有K次迭代時(shí),計(jì)算一個(gè)平均值,該平均值可以用下列數(shù)學(xué)表達(dá)式表示λnew=Σj=1KNjλnewjΣJ=1KNj----(3)]]>其中j=刪除數(shù)據(jù)塊的標(biāo)號(hào)K=數(shù)據(jù)塊的數(shù)量λj新=利用刪除數(shù)據(jù)塊j估算的λ值Nj=在刪除數(shù)據(jù)塊j中利用強(qiáng)制排列對(duì)應(yīng)于senSD的數(shù)據(jù)點(diǎn)的數(shù)量。
如果λ新值不滿足預(yù)定的閾值,則重新執(zhí)行步驟66到步驟76。當(dāng)該方法對(duì)于一個(gè)特定的與前后音有關(guān)的句音收斂時(shí),將λ新的當(dāng)前值存儲(chǔ)到與該特定的與前后音有關(guān)的句音相關(guān)的λ表26中。
附圖4表示根據(jù)上述的方程(2)和(3)計(jì)算加權(quán)因子的新值λ新的步驟的流程圖。將對(duì)應(yīng)于刪除數(shù)據(jù)塊中的每個(gè)數(shù)據(jù)點(diǎn)的總概率的與前后音有關(guān)的輸出概率分布函數(shù)的有影響部分求和可以計(jì)算出所說新值。因此,在步驟79,利用在步驟48中生成的模型和強(qiáng)制排列找出在對(duì)應(yīng)于senSD的刪除數(shù)據(jù)塊中的所有點(diǎn)。在步驟80,對(duì)于用senSD排列的刪除數(shù)據(jù)塊中的每一個(gè)數(shù)據(jù)點(diǎn)xi重復(fù)該方法。在步驟82根據(jù)下列數(shù)學(xué)公式確定數(shù)據(jù)點(diǎn)xi的與前后音有關(guān)的輸出概率分布函數(shù)相對(duì)于總概率的有影響部分(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))----(4)]]>在步驟84將這樣計(jì)算得出的所有數(shù)據(jù)點(diǎn)的有影響部分之和相加。當(dāng)?shù)?jì)算完成,即在刪除數(shù)據(jù)塊中用senSD排列的所有數(shù)據(jù)點(diǎn)都經(jīng)過處理時(shí),在步驟86根據(jù)上述的方程(2)計(jì)算有影響部分的平均值,λ新。
上述加權(quán)因子的計(jì)算利用了刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)。這種方法以增加培訓(xùn)時(shí)間以及培訓(xùn)裝置執(zhí)行計(jì)算程序所需的存儲(chǔ)量為代價(jià)得到了更加準(zhǔn)確的計(jì)算結(jié)果。在某些情況下,生成相應(yīng)的刪除數(shù)據(jù)塊中數(shù)據(jù)點(diǎn)的代表參數(shù),并用適合的參數(shù)代替可能更加有利。另一種方法是利用從數(shù)據(jù)點(diǎn)的代表參數(shù)到senSD重構(gòu)的數(shù)據(jù)點(diǎn)。這些方法只能提供粗略近似的數(shù)據(jù)點(diǎn),但是卻具有計(jì)算效率高的優(yōu)點(diǎn)。
附圖5和附圖6表示這些計(jì)算加權(quán)因子的選擇實(shí)施例。附圖5表示第一選擇實(shí)施例。參見附圖5,如圖所示在步驟90中生成刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)的代表參數(shù)。在這種情況下,該代表參數(shù)是高斯函數(shù)的混合表示。這種表示可以利用如上所述的Baum-Welch算法求得。所產(chǎn)生的參數(shù)包括相應(yīng)于每一個(gè)混合部分j的平均值μi,和加權(quán)因子cj。λ新值λ新的計(jì)算可以根據(jù)下列數(shù)學(xué)公式相對(duì)于刪除數(shù)據(jù)塊μj進(jìn)行λnew=Σj=1Mcj*(λ*b1(μj))(λ*b1(μj)+(1-λ)*b2(μj))---(5)]]>其中M=正常混合分量的數(shù)量;Cj=第j個(gè)正?;旌戏至康募訖?quán);
μj=第j個(gè)正?;旌戏至康钠骄?;步驟92-98按照下列方式進(jìn)行計(jì)算。步驟92對(duì)于每個(gè)混合分量進(jìn)行迭代計(jì)算,并確定與前后音有關(guān)的輸出概率相對(duì)于具有相應(yīng)的平均值和加權(quán)參數(shù)的混合的總概率的有影響部分。對(duì)于混合部分,它在數(shù)學(xué)上的表示為cj*(λ*b1(μj))(λ*b1(μj)+(1-λ)*b2(μj))----(6)]]>在步驟96,對(duì)于所有的混合分量求出這些有影響部分的和。在步驟98,將在步驟96中求得的最后的和作為當(dāng)前的senSD和刪除數(shù)據(jù)塊的λ新值存儲(chǔ)起來。
參見附圖3,當(dāng)K次迭代完成時(shí),過程進(jìn)入步驟76,根據(jù)上述的方程(3)計(jì)算λ新的平均值。該過程如上所述繼續(xù)進(jìn)行,參見圖3,直到該方法收斂和當(dāng)前的平均值λ新存儲(chǔ)在對(duì)應(yīng)于特定的與前后音有關(guān)的句音的λ表26中。
在計(jì)算加權(quán)因子的第二個(gè)選擇實(shí)施例中,使用了選擇數(shù)目的數(shù)據(jù)點(diǎn),它們是從句音的代表參數(shù)中隨機(jī)產(chǎn)生的。附圖6表示了所說的第二個(gè)選擇實(shí)施例,它可以根據(jù)上述提出的方程(2)對(duì)一個(gè)刪除數(shù)據(jù)塊進(jìn)行數(shù)學(xué)描述,除了{(lán)xi}=所產(chǎn)生的數(shù)據(jù)點(diǎn)和N=所產(chǎn)生的數(shù)據(jù)點(diǎn)的數(shù)量。
如圖3所示,這個(gè)選擇實(shí)施例與優(yōu)選實(shí)施例不同之處在于λ新新值的確定方式(步驟74)。流程順序保持如圖3所示。參見圖6,在步驟100,為刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)產(chǎn)生一個(gè)代表參數(shù)。這個(gè)代表參數(shù)可以由高斯混合函數(shù)構(gòu)成。這個(gè)代表參數(shù)可以使用Baum-Welch算法根據(jù)刪除數(shù)據(jù)塊中的培訓(xùn)數(shù)據(jù)推導(dǎo)出來。根據(jù)這個(gè)代表參數(shù),如圖所示在步驟102,利用一個(gè)具有平均值和加權(quán)參數(shù)的隨機(jī)數(shù)發(fā)生器重構(gòu)預(yù)定數(shù)量的數(shù)據(jù)點(diǎn)。重構(gòu)數(shù)據(jù)點(diǎn)的數(shù)量折衷考慮了計(jì)算λ新所需的精確度和計(jì)算需求兩個(gè)方面。較大數(shù)量的數(shù)據(jù)點(diǎn)提高了λ新的精確度,但是增大了計(jì)算需求。每個(gè)混合部分的適合的重構(gòu)數(shù)據(jù)數(shù)量是100。
在步驟104,對(duì)于在步驟104中成組數(shù)據(jù)點(diǎn)中的每個(gè)數(shù)據(jù)點(diǎn)執(zhí)行步驟106和108。在步驟106,確定數(shù)據(jù)點(diǎn)相對(duì)于數(shù)據(jù)點(diǎn)的總概率與前后音有關(guān)的輸出概率的有影響部分。這可以用數(shù)學(xué)公式表示為(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))---(9)]]>在步驟108,對(duì)于集合中所有數(shù)據(jù)點(diǎn)求出這些有影響部分的和。當(dāng)對(duì)所有數(shù)據(jù)點(diǎn)完成迭代運(yùn)算時(shí),將所有有影響部分的平均值返回作為λ新值,(步驟110)。參見附圖3,當(dāng)完成K次迭代時(shí),過程進(jìn)入步驟76根據(jù)上述方程(3)計(jì)算λ新的平均值。該計(jì)算程序如上參照?qǐng)D3所述繼續(xù)進(jìn)行,直到該計(jì)算過程收斂和當(dāng)前的平均值λ新存儲(chǔ)在特定的與前后音有關(guān)的句音的λ表26中。
當(dāng)培訓(xùn)數(shù)據(jù)已經(jīng)產(chǎn)生,并存儲(chǔ)在適合的存儲(chǔ)位置時(shí),識(shí)別系統(tǒng)就準(zhǔn)備工作。語音識(shí)別系統(tǒng)的基本任務(wù)是檢測(cè)在輸入的語音信號(hào)中包含的語音信息。這個(gè)任務(wù)是一個(gè)多級(jí)解碼問題,因?yàn)樗枰挂恍蛄刑卣飨蛄颗c一序列音素匹配,使一序列音素與一序列單詞匹配,和使一序列單詞與一個(gè)句子匹配。這是通過構(gòu)成所有已經(jīng)模型化的可能的語言表達(dá)式和計(jì)算該表達(dá)式與一序列特征向量匹配的概率來實(shí)現(xiàn)的。由于一個(gè)語言表達(dá)式包含一序列音素,所以所說的確定可能包括計(jì)算一種似然性即構(gòu)成表達(dá)式的音素與特征向量匹配和該表達(dá)式可能出現(xiàn)(即語法正確)的似然性。構(gòu)成表達(dá)式的音素與特征向量匹配的概率可以簡(jiǎn)稱為聲評(píng)分,該表達(dá)式出現(xiàn)的概率可以簡(jiǎn)稱為語言評(píng)分。語言評(píng)分考慮了語言的句法和語義,例如語法,并且指出與這一組音素相應(yīng)的這一組單詞是否構(gòu)成一個(gè)語法正確的語言表達(dá)式。
在優(yōu)選實(shí)施例中,音素用隱藏式馬爾克夫模型表示,其中相同狀態(tài)的輸出概率分布函數(shù)群聚在一起構(gòu)成句音。使一個(gè)特征向量與一個(gè)音素匹配的方法必然使得一個(gè)特征向量與表示該音素的一個(gè)隱藏式馬爾克夫模型的狀態(tài)相關(guān)的句音匹配。因此,語言表達(dá)式可以由對(duì)應(yīng)于一組隱藏式馬爾克夫模型的狀態(tài)的句音構(gòu)成。
在本發(fā)明的優(yōu)選實(shí)施例中,識(shí)別系統(tǒng)的任務(wù)可以是找出使概率P(W/X)達(dá)到最大的單詞序列W。概率P(W/X)表示語言表達(dá)式W出現(xiàn)給定的輸入語音信號(hào)X的概率。W可以是一個(gè)單詞串,表示為W=W1,W2,…,Wi,…,Wn,其中Wi表示各個(gè)單詞,每個(gè)單詞用一組音素表示,Wi=p1,p2,…,pq,X是用一組特征向量表示的輸入語音信號(hào),表示為X=x1,x2,…,xn。這個(gè)最大化問題可以利用眾所周知的Bayes公式的改進(jìn)公式求解,其數(shù)學(xué)表示為P(W/X)=(P(X/W)P(W)/P(X) (10)P(X/W)是輸入語音信號(hào)X與單詞串W匹配的概率,簡(jiǎn)稱為聲評(píng)分。P(W)為單詞串W出現(xiàn)的概率,簡(jiǎn)稱為語言評(píng)分。由于P(X)與W無關(guān),使P(W/X)最大化等價(jià)于使分子,即對(duì)于所有單詞串W的,P(X/W)P(W)最大。
識(shí)別工作考慮各種單詞組以努力確定最佳匹配。對(duì)于每個(gè)單詞組,識(shí)別工作計(jì)算聲評(píng)分和語音評(píng)分。語音評(píng)分指示在語音中該單詞組的似然性如何,在上述方程(10)中由P(W)項(xiàng)表示。聲評(píng)分指示一序列聲特征向量與單詞組W的聲模型匹配的程度如何。在上述公式中聲評(píng)分由P(X/W)項(xiàng)表示。
在計(jì)算一個(gè)給定單詞組的聲評(píng)分過程中,識(shí)別工作考慮各種句音排列。一種句音排列就是從這一組聲特征向量到句音的一個(gè)對(duì)應(yīng)變換,其為每個(gè)聲特征向量指定唯一的一個(gè)句音。只有能夠得出所考慮的單詞組的句音排列才會(huì)被識(shí)別工作所考慮。計(jì)算在每一種句音排列的約束下單詞串的聲評(píng)分。單詞串的聲評(píng)分是在所有可能的句音排列中最好的聲評(píng)分。
數(shù)學(xué)上,它可以表示為P(X/W)=Max[P(X/(W,Aj))]從i=1到q其中Ai…Aq對(duì)于單詞串W的所有可能的句音排列在給定的句音排列A的約束下對(duì)于單詞串W的聲評(píng)分的計(jì)算還可以表示為P(X/(W,A))=(Πj=1nP(xi/Sdj))*P(A)----(11)]]>其中句音排列A指定或標(biāo)記第i個(gè)聲特征向量xi對(duì)應(yīng)于與前后音有關(guān)的句音sdi。P(A)表示句音組sdi…sdn的狀態(tài)轉(zhuǎn)變概率。P(xi/sdi)表示特征向量xi與與前后音有關(guān)的句音sdi匹配的概率。
聲評(píng)分的實(shí)質(zhì)是計(jì)算輸出概率p(x|sd)。這表示特征向量,x,與與前后音有關(guān)的隱藏式馬爾克夫模型狀態(tài)相應(yīng)的句音,sd,匹配的似然性。但是,估算不準(zhǔn)確的輸出概率分布函數(shù)會(huì)造成聲評(píng)分計(jì)算的不準(zhǔn)確性。這通常是由于培訓(xùn)數(shù)據(jù)不足引起的。隨著使用更多的培訓(xùn)數(shù)據(jù)估算輸出概率分布函數(shù)增加了分布的穩(wěn)定性。
解決這個(gè)問題的一種方法是利用多個(gè)在若干清晰度水平上模擬相同音素的隱藏式馬爾克夫模型。然后可以利用在各種清晰度水平上的輸出概率分布函數(shù)和將它們結(jié)合在一起構(gòu)成特定狀態(tài)的輸出概率分布函數(shù)。這種結(jié)合是在培訓(xùn)過程中預(yù)測(cè)未產(chǎn)生數(shù)據(jù)的能力基礎(chǔ)上進(jìn)行的。更加適合于預(yù)測(cè)未產(chǎn)生數(shù)據(jù)的穩(wěn)定的輸出概率分布函數(shù)在組合的輸出概率分布函數(shù)中將得到更多的加權(quán),而估算不準(zhǔn)確的輸出概率分布函數(shù)只得到較少的加權(quán)。在優(yōu)選實(shí)施例中,利用多個(gè)與前后音有關(guān)的隱藏式馬爾克夫模型和一個(gè)與前后音無關(guān)的隱藏式馬爾克夫模型模擬一個(gè)音素。對(duì)于相應(yīng)于以前在培訓(xùn)階段計(jì)算的與前后音有關(guān)狀態(tài)的每個(gè)句音,用一個(gè)加權(quán)因子λ指示每個(gè)句音被指定的加權(quán)。λ越大(趨近于1.0),與前后音有關(guān)的句音越占優(yōu)勢(shì),而與前后音無關(guān)的句音的加權(quán)越少。當(dāng)λ較小時(shí)(趨近于0.0),與前后音無關(guān)的句音占主導(dǎo)地位。因此,輸出概率p(x|sd)的計(jì)算可以用下列的數(shù)學(xué)公式表示p(x|sd)=λ*p(x|sdd)+(l-λ)*p(x|sdi)(12)其中λ是句音sd的在0到1之間的加權(quán)因子;x是特征向量;sdd是與與前后音有關(guān)的隱藏式馬爾克夫模型的一個(gè)狀態(tài)相關(guān)的句音;sdi是與與前后音無關(guān)的隱藏式馬爾克夫模型的相應(yīng)狀態(tài)相關(guān)的句音;p(x|sdd)是特征向量x與句音sdd匹配的概率;p(x|sdi)是特征向量x與句音sdi匹配的概率。
因此,輸出概率,p(x|sd),是作為與前后音有關(guān)的和與前后音無關(guān)的句音的輸出概率的函數(shù)線性插入的。加權(quán)因子或內(nèi)插因子λ指示每個(gè)句音內(nèi)插的程度。
附圖8表示語音識(shí)別方法的工作。參見附圖8,該方法從接收一個(gè)輸入語音開始(步驟122),并將輸入語音轉(zhuǎn)變成特征向量(步驟124),有關(guān)特征向量前面已經(jīng)參照附圖1作了詳細(xì)描述。在步驟126,該方法對(duì)于每個(gè)能表示輸入語音的單詞序列執(zhí)行步驟128-136。該單詞序列可以由各種不同的句音排列構(gòu)成,其中每個(gè)音素排列相應(yīng)于一序列隱藏式馬爾克夫模型狀態(tài)。在步驟128-134,確定可以表示單詞序列的每一種可能的句音排列的組合識(shí)別評(píng)分。組合識(shí)別評(píng)分可以根據(jù)改進(jìn)的Bayes公式,即如上所述的方程(10)確定。組合識(shí)別評(píng)分包括一個(gè)聲評(píng)分和一個(gè)語言評(píng)分。聲評(píng)分在步驟130確定,語言評(píng)分在步驟132確定,在步驟134計(jì)算組合評(píng)分。然后在步驟136選擇具有最高組合識(shí)別評(píng)分的句音排列表示單詞序列。在步驟138,該方法將輸入語音識(shí)別為具有最高組合識(shí)別評(píng)分的單詞序列。
在步驟130,可以如上所述根據(jù)方程(11)確定該聲評(píng)分,其中輸出概率按照如上所述的方程(12)計(jì)算。
在步驟132,該方法在表示存儲(chǔ)在語音模型存儲(chǔ)器32中的代表語言表達(dá)式的語言模型基礎(chǔ)上計(jì)算語言評(píng)分。語言模型利用語言的結(jié)構(gòu)和語義知識(shí)預(yù)測(cè)在以前發(fā)音的單詞中一個(gè)單詞出現(xiàn)的似然性。語言模型可以是一種雙詞式模型,其中語言評(píng)分基于一個(gè)單詞被一個(gè)特定的第二個(gè)單詞跟隨的概率。另一方面,語言模型也可以基于N-詞式而不是雙固定模型,或者各自基于子字語言概率。此外,可以使用其它詞法知識(shí),例如句法和語法規(guī)則創(chuàng)造語言模型。創(chuàng)造和使用語言模型的方法在本領(lǐng)域中是眾所周知的,在上面參照的Huang等人撰寫的書中有詳細(xì)的描述。
上面詳述的本發(fā)明通過利用對(duì)應(yīng)于在不同的前后語音關(guān)系中相同的發(fā)音過程的多個(gè)連續(xù)密度輸出概率提高了語音識(shí)別系統(tǒng)的識(shí)別能力。由于它改進(jìn)了模型在模型沒有被訓(xùn)練過的預(yù)測(cè)語音過程的性能,因而提高了特征向量與隱藏式馬爾克夫模型的對(duì)應(yīng)變換。在這種水平上的改進(jìn)是極其有利的,因?yàn)樵谶@種水平上的對(duì)應(yīng)變換是識(shí)別方法進(jìn)一步建立的基礎(chǔ)。
但是,應(yīng)當(dāng)指出本發(fā)明不限于語音識(shí)別系統(tǒng)。任何需要使語音與語言表達(dá)式匹配的應(yīng)用都可以利用該提出權(quán)利要求的發(fā)明。語音可以是任何形式的聲數(shù)據(jù),例如,但并不限于,聲音、語聲波形、和類似者。這樣一種應(yīng)用的實(shí)例是語音合成系統(tǒng),這種系統(tǒng)利用概率化模型從代表一個(gè)語言表達(dá)式的字符串產(chǎn)生一個(gè)語音波形。
盡管上面已經(jīng)詳細(xì)地描述了本發(fā)明的優(yōu)選實(shí)施例,但是需要強(qiáng)調(diào)指出,這樣做是為了解釋本發(fā)明,從而能夠使本領(lǐng)域技術(shù)人員將本發(fā)明用于各種需要改進(jìn)上述裝置的不同應(yīng)用中,因此,本說明書中的具體描述除了說明與本發(fā)明相關(guān)的現(xiàn)有技術(shù)所需內(nèi)容以外,并不是對(duì)本發(fā)明范圍的必要限制。
權(quán)利要求
1.一種在計(jì)算機(jī)系統(tǒng)中使輸入語音與語言表達(dá)式匹配的方法,該方法包括以下步驟對(duì)于語音的許多音素單位中的每一個(gè),提供一組較為細(xì)致的聲模型和一個(gè)不大細(xì)致的聲模型表示該音素單位,每個(gè)聲模型具有一組狀態(tài),其后是一組變換,每種狀態(tài)表示在某一時(shí)間點(diǎn)出現(xiàn)在該音素單位中的語音的一部分,并具有一個(gè)輸出概率,表示輸入語音的一部分在某一時(shí)間點(diǎn)出現(xiàn)在該音素單位中的似然性;對(duì)于所選擇的較為細(xì)致的聲模型序列中的每一個(gè),確定輸入語音與這一序列匹配的接近程度,所說的匹配還包括以下步驟對(duì)于所選擇的一序列較為細(xì)致的聲模型的每種狀態(tài),確定一個(gè)累計(jì)的輸出概率,作為該狀態(tài)和代表相同音素單位的不大細(xì)致的聲模型的相同狀態(tài)的輸出概率的組合;以及確定與輸入語音匹配最好的一個(gè)序列,這一序列代表語言表達(dá)式。
2.如權(quán)利要求1所述的一種方法,其特征在于每個(gè)聲模型都是一個(gè)連續(xù)密度的隱藏式馬爾克夫模型。
3.如權(quán)利要求1所述的一種方法,其特征在于確定輸出概率的步驟還包括將不大細(xì)致模型和較為細(xì)致模型的輸出概率加權(quán)的步驟,它們?cè)诮M合時(shí)具有不同的加權(quán)因子。
4.如權(quán)利要求1所述的一種方法,其特征在于提供一組較為細(xì)致的聲模型的步驟還包括利用一定數(shù)量的語音培訓(xùn)數(shù)據(jù)培訓(xùn)每個(gè)聲模型的步驟;和確定輸出概率的步驟還包括將不大細(xì)致模型和較為細(xì)致模型的輸出概率相對(duì)于用于培訓(xùn)每個(gè)聲模型的培訓(xùn)數(shù)據(jù)的數(shù)量加權(quán)的步驟。
5.一種在計(jì)算機(jī)系統(tǒng)中確定一個(gè)輸入語音與一個(gè)語言表達(dá)式匹配的似然性的方法,所說輸入語音包括一組指示所說語音在給定時(shí)間間隔中聲特性的特征向量,所說語言表達(dá)式包括一組指示所說聲特性在所說語言表達(dá)式中一個(gè)位置出現(xiàn)的輸出概率的句音,該方法包括以下步驟產(chǎn)生一組與前后音有關(guān)的句音;產(chǎn)生與表示所說語言表達(dá)式的相同位置的一組與前后音有關(guān)的句音相關(guān)的一個(gè)與前后音無關(guān)的句音;產(chǎn)生可能與所說輸入語音匹配的語言表達(dá)式;對(duì)于所說輸入語音的每一個(gè)特征向量,確定所說特征向量與在所說語言表達(dá)式中的與前后音有關(guān)的句音匹配的輸出概率,所說語言表達(dá)式與所說特征向量出現(xiàn)在同一時(shí)間間隔內(nèi),所說輸出概率的確定利用了與前后音有關(guān)的句音相關(guān)的與前后音無關(guān)的句音;和利用所說輸出概率確定所說輸入語音與所說語言表達(dá)式匹配的似然性。
6.如權(quán)利要求5所述的一種方法,其特征在于所說輸出概率包括一個(gè)連續(xù)密度概率函數(shù)。
7.如權(quán)利要求5所述的一種方法,其特征在于產(chǎn)生一組與前后音有關(guān)的句音的步驟還包括利用表示語音的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音有關(guān)的句音的步驟;產(chǎn)生與前后音無關(guān)的句音的步驟還包括利用所說的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音無關(guān)的句音的步驟;和確定輸出概率的步驟還包括根據(jù)用于培訓(xùn)所說句音的培訓(xùn)數(shù)據(jù)的數(shù)量組合與前后音無關(guān)的和與前后音有關(guān)的句音的步驟。
8.如權(quán)利要求5所述的一種方法,其特征在于產(chǎn)生一組與前后音有關(guān)的句音的步驟還包括以下步驟利用代表語音的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音有關(guān)的句音的步驟;對(duì)于每一個(gè)與前后音有關(guān)的句音產(chǎn)生一個(gè)表示用于估算所說句音的培訓(xùn)數(shù)據(jù)的數(shù)量的加權(quán)因子;和確定輸出概率的步驟還包括根據(jù)所說加權(quán)因子組合所說的與前后音有關(guān)的句音和與前后音無關(guān)的句音的步驟。
9.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括根據(jù)培訓(xùn)數(shù)據(jù)的數(shù)量利用一種刪除插入技術(shù)產(chǎn)生所說加權(quán)因子的步驟。
10.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和對(duì)培訓(xùn)數(shù)據(jù)的數(shù)量的代表參數(shù)應(yīng)用一種刪除插入技術(shù)產(chǎn)生所說的加權(quán)因子。
11.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的一個(gè)代表參數(shù);根據(jù)培訓(xùn)數(shù)據(jù)的代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn),所說的數(shù)據(jù)點(diǎn)表示所說的培訓(xùn)數(shù)據(jù);和通過向所說數(shù)據(jù)點(diǎn)應(yīng)用刪除內(nèi)插技術(shù)產(chǎn)生所說的加權(quán)因子。
12.一種在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中識(shí)別輸入語音的方法,所說方法包括以下步驟培訓(xùn)一組與前后音有關(guān)的連續(xù)密度隱藏式馬爾克夫模型,以表示語音的一組音素單位,所說培訓(xùn)利用在一個(gè)給定時(shí)間間隔內(nèi)表示所說語音的聲特性的一定數(shù)量的語音培訓(xùn)數(shù)據(jù),每個(gè)模型具有與變換相關(guān)的狀態(tài),每個(gè)狀態(tài)表示音素單位的一部分并具有一個(gè)輸出概率,所說輸出概率指示一個(gè)語音的聲特性出現(xiàn)在所說的音素單位的一部分中的概率;對(duì)于表示語音的同一音素單位的一組與前后音有關(guān)的連續(xù)密度隱藏式馬爾克夫模型產(chǎn)生一個(gè)與前后音無關(guān)的連續(xù)密度隱藏式馬爾克夫模型;產(chǎn)生一組成序列的與前后音有關(guān)的模型,每個(gè)序列表示一個(gè)語言表達(dá)式;對(duì)于每個(gè)序列的與前后音有關(guān)的模型,確定所說輸入語音的聲特性與在所說序列的與前后音有關(guān)模型中的狀態(tài)匹配的聲概率,所說聲概率包括在該序列中的每個(gè)與前后音有關(guān)的模型的每個(gè)狀態(tài)的輸出概率和對(duì)應(yīng)于同一音素單位的與前后音無關(guān)的模型的輸出概率;和利用所說聲概率識(shí)別與所說輸入語音最接近匹配的語言表達(dá)式。
13.如權(quán)利要求12所述的一種方法,還包括對(duì)于所說與前后音有關(guān)模型的每一個(gè)狀態(tài)產(chǎn)生一個(gè)加權(quán)因子的步驟,所說加權(quán)因子指示與每一個(gè)狀態(tài)相關(guān)的用于培訓(xùn)所說輸出概率的培訓(xùn)數(shù)據(jù)的數(shù)量;和確定聲概率的步驟還包括根據(jù)所說加權(quán)因子將與前后音有關(guān)模型的狀態(tài)和與前后音無關(guān)模型的狀態(tài)的輸出概率加權(quán)的步驟。
14.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括通過對(duì)一定數(shù)量的培訓(xùn)數(shù)據(jù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出加權(quán)因子的步驟。
15.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和通過對(duì)所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
16.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個(gè)加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);根據(jù)所說培訓(xùn)數(shù)據(jù)的代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn);和通過對(duì)所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出加權(quán)因子。
17.一種用于使輸入語音與語言表達(dá)式匹配的計(jì)算機(jī)系統(tǒng),它包括一個(gè)存儲(chǔ)裝置,用于存儲(chǔ)一組表示語音的各個(gè)音素單位的與前后音有關(guān)的和與前后音無關(guān)的聲模型,表示各個(gè)音素單位的這一組與前后音有關(guān)的聲模型具有至少一個(gè)相關(guān)的表示語音的音素單位的與前后音無關(guān)的聲模型,每個(gè)聲模型包括具有變換的若干狀態(tài),每個(gè)狀態(tài)表示所說音素單位在某一時(shí)間點(diǎn)的一部分,并且具有一個(gè)輸出概率,指示所說輸入語音的一部分在某一時(shí)間點(diǎn)出現(xiàn)在該音素單位中的似然性;一個(gè)模型序列生成器,其產(chǎn)生選定序列的與前后音有關(guān)的聲模型,表示可能與所說輸入語音匹配的一組語言表達(dá)式;一個(gè)處理器,用于確定所說序列模型中的每一個(gè)與輸入語音匹配的程度,所說處理器通過利用所說序列的每個(gè)狀態(tài)的累計(jì)輸出概率使所說輸入語音的一部分與在所說序列中的一個(gè)狀態(tài)匹配,所說的累計(jì)輸出概率包括與前后音有關(guān)的聲模型的每個(gè)狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率的組合;和一個(gè)比較器,用于確定與輸入語音最佳匹配的序列,所說序列表示語言表達(dá)式。
18.如權(quán)利要求17所述的一種系統(tǒng),其特征在于每個(gè)聲模型是一個(gè)連續(xù)密度隱藏式馬爾克夫模型。
19.如權(quán)利要求17所述的一種系統(tǒng),其特征在于它還包括一個(gè)培訓(xùn)裝置,以接收一定數(shù)量的語音培訓(xùn)數(shù)據(jù)和利用所說數(shù)量的培訓(xùn)數(shù)據(jù)對(duì)各個(gè)聲模型的每一個(gè)狀態(tài)估算輸出概率;和處理器還包括一個(gè)組合器件,以確定每一個(gè)狀態(tài)的累計(jì)輸出概率,所說組合器件相對(duì)于用于估算各個(gè)輸出概率的培訓(xùn)數(shù)據(jù)的數(shù)量將所說序列的每一個(gè)狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率組合。
20.如權(quán)利要求17所述的一種系統(tǒng),其特征在于它還包括一個(gè)培訓(xùn)裝置,以接收一定數(shù)量的語音培訓(xùn)數(shù)據(jù),用于利用所說數(shù)量的培訓(xùn)數(shù)據(jù)估算各個(gè)聲模型的每一個(gè)狀態(tài)的輸出概率,所說培訓(xùn)裝置對(duì)于各個(gè)與前后音有關(guān)的聲模型的每一個(gè)狀態(tài)產(chǎn)生一個(gè)加權(quán)因子,指示輸出概率能夠預(yù)測(cè)在培訓(xùn)數(shù)據(jù)中不存在的語音的程度;和所說處理器還包括一個(gè)組合器件,以確定一個(gè)狀態(tài)的累計(jì)輸出概率,所說組合器件相對(duì)于每一個(gè)狀態(tài)的加權(quán)因子將所說序列的每一個(gè)狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率組合。
21.如權(quán)利要求20所述的一種系統(tǒng),其特征在于通過向所說數(shù)量的培訓(xùn)數(shù)據(jù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
22.如權(quán)利要求20所述的一種系統(tǒng),其特征在于所說培訓(xùn)數(shù)據(jù)還包括一個(gè)參數(shù)生成器,以產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和通過向所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
23.如權(quán)利要求20所述的一種系統(tǒng),其特征在于所說培訓(xùn)裝置還包括一個(gè)參數(shù)生成器,以產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);一個(gè)數(shù)據(jù)生成器,以根據(jù)所說代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn);和通過向所說的這一組數(shù)據(jù)點(diǎn)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
全文摘要
本發(fā)明提供了用于改進(jìn)語音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確度的一種方法和系統(tǒng),其利用連續(xù)密度隱藏式馬爾克夫模型表示在所說的語言中存在的語音的音素單位。反映語音與一個(gè)模型化的語言表達(dá)式匹配的似然性的一個(gè)聲評(píng)分依賴于與隱藏式馬爾克夫模型的狀態(tài)相關(guān)的輸出概率。對(duì)于每個(gè)音素單位產(chǎn)生與前后音有關(guān)的和與前后音無關(guān)的連續(xù)密度隱藏式馬爾克夫模型。通過根據(jù)一個(gè)加權(quán)因子將與前后音有關(guān)狀態(tài)的輸出概率和與前后音無關(guān)狀態(tài)的輸出概率加權(quán)確定與一個(gè)狀態(tài)相關(guān)的輸出概率。
文檔編號(hào)G10L15/18GK1171592SQ9711491
公開日1998年1月28日 申請(qǐng)日期1997年4月30日 優(yōu)先權(quán)日1996年5月1日
發(fā)明者黃學(xué)東, 米林德·V·馬哈簡(jiǎn) 申請(qǐng)人:微軟公司