專利名稱:半監(jiān)控說話者自適應的制作方法
技術領域:
本發(fā)明涉及自動語音識別(ASR),特別涉及執(zhí)行自動語音識別系統(tǒng)的未受監(jiān)控自適應或在線自適應的方法以及能夠實現本發(fā)明方法的語音識別系統(tǒng)。
本領域的語音識別器包括一組統(tǒng)計分布,這種分布模擬了某些語音片段的聲學特性。這些聲學特性被編碼為特征矢量。作為一個例子,可以為每個音節(jié)做一個高斯分布。這些分布被掛接到某個狀態(tài)上。(隨機)狀態(tài)轉換網絡(通常為隱馬爾可夫模型)定義了狀態(tài)序列和特征矢量序列的概率。通過一個狀態(tài)需要利用一個特征矢量,該特征矢量覆蓋例如長度為10ms的一幀語音信號。
這種識別器的隨機參數被利用大量的語音數據來訓練,其中的語音數據如果來自單個說話者則產生說話者有關系統(tǒng)(SD),如果來自多個說話者產生說話者無關系統(tǒng)(SI)。
說話者自適應是廣泛用來提高SI系統(tǒng)識別率的方法。說話者有關系統(tǒng)的技術產生比說話者無關系統(tǒng)更高的識別率。然而,對于很多應用,從單個說話者獲得足夠的數據來訓練該系統(tǒng)是不容易的。在消費設備中,這一點甚至是不希望的。為了解決識別率中的誤匹配,說話者自適應算法被廣泛用來獲得接近于說話者有關系統(tǒng)的識別率,但是與說話者有關系統(tǒng)相比,僅使用了一部分說話者有關數據。這些系統(tǒng)最初使用說話者無關模型,這些模型然后被調整以便更好地與說話者聲學特性相匹配。
通常地,這種自適應在監(jiān)控下進行。即,說出的字是已知的,識別器被迫來識別它們。因此,特定片段分布的時間隊列可以得到。這種實際特征矢量和對應分布參數之間的失配形成這種自適應的基礎。受監(jiān)控的自適應要求在每個新的說話者實際使用識別器之前,說話者都要進行自適應過程。
圖5給出根據以前技術的這種示例性語音識別系統(tǒng)的方框圖。麥克風51接收的說話者聲音在連接到特征提取模塊53的A/D轉換臺52中轉換成數字信號,其中在特征提取單元53中,進行了特征提取來獲得特征矢量,例如,每10ms得到一個。這種特征矢量被用于語音識別系統(tǒng)的訓練或在訓練之后用于最初說話者無關模型的自適應,并在識別器的使用中用于識別說話者的聲音。
為了訓練,特征提取單元53通過開關54的觸點a和c連接到訓練模塊55。在隱馬爾可夫模型(HMM)下工作的示例語音識別系統(tǒng)的訓練模塊55獲得一組說話者無關(SI)的HMM。這一點通常由自動語音識別設備的制造商通過利用包括很多不同說話者的大型數據庫來執(zhí)行。
在語音識別系統(tǒng)調入一組SI模型之后,開關54的觸點a和b被連接使得特征提取模塊53提取的特征矢量被提供給識別模塊57使得該系統(tǒng)可以被消費者使用并適應該消費者。然后識別模塊57在所提取的特征矢量和說話者無關模型組的基礎上計算識別結果。在對單個說話者進行適應的過程中,識別模塊57被連接到自適應模塊58,后一模塊計算將要被存儲于存儲器59中的說話者自適應模型組。以后,識別模塊57在所提取的特征矢量和說話者自適應模型組的基礎上計算識別結果。說話者自適應模型的進一步自適應可以重復進行以便進一步提高針對特定說話者的系統(tǒng)特性。存在幾種用于說話者自適應的方法,例如,最大后自適應(MAP)或最大似然性線性回歸(MLLR)自適應。
一般地,說話者自適應技術修正隱馬爾可夫模型的參數使得他們與新說話者的聲學特性更好地匹配。如上面陳述的,一般在批處理或離線自適應中進行。這意味著在說話者可以使用識別系統(tǒng)之前,他/她必須讀到預定義的文本,然后進行自適應。一旦這一點完成,該系統(tǒng)可以被用于識別。這種模型也叫做受監(jiān)控的自適應,因為文本對于系統(tǒng)來說是已知的,而且相應語音信號和對應于文本的模型之間的強迫組合被執(zhí)行并被用于自適應。
然而,未受監(jiān)控的或在線的方法更適用于大多數的消費設備。在這種情況下,自適應發(fā)生于系統(tǒng)的使用過程中。識別后的聲音被用于自適應,修正后的模型被用于下一發(fā)聲的識別并且依此類推。在這種情況下,說出的文本對于本系統(tǒng)是未知的,但是不同的是,用到了已經識別出的字。
EP0763816A2建議使用置信度測量值作為HMM訓練的優(yōu)化準則。這些置信度測量值是用于將識別結果分成“可能正確”或“可能不正確”的附加信息源。這里,置信度測量值被用于確認n個最佳識別的字符串,并且這種確認過程的結果,即,損耗函數的導數,被用作模型訓練的優(yōu)化準則。在這種情況下,所用的發(fā)音被用于訓練,并且該方法被用于最大化可能混淆的字之間似然性的差值。然而,該文檔僅涉及系統(tǒng)使用之前的HMM訓練。
另一方面,EP0773532A2揭示了一種通過說出一個預定的關鍵字″oops″來校正誤識別的方法,之后使用者可能通過擊鍵來校正誤識別的字或者系統(tǒng)嘗試自己校正誤差。在任何情況下,系統(tǒng)在一個(序列)字被誤識別時才訓練/調整語音模型。
本發(fā)明關注于利用未受監(jiān)控或在線自適應對語音識別系統(tǒng)中的說話者無關隱馬爾可夫模型的自適應。在這些系統(tǒng)中,在每個新發(fā)音或者甚至在部分發(fā)音之后,HMM必須被精確化。此外,進入系統(tǒng)的字不會被重復幾次并且對于系統(tǒng)來說是未知的。因此,只有遞增的說話者自適應是可能的,即,一次只能得到很少的自適應數據,并且另外會出現問題,即,誤匹配的發(fā)生取決于說話者無關系統(tǒng)的性能,因為識別模塊的輸出必須被假定為正確的字。這些字然后被用于自適應,并且如果這個字被誤識別,自適應算法將會以錯誤的方式修正該模型。當這種情況重復發(fā)生時,識別性能會急劇下降。
因此,本發(fā)明的一個目標是提出一種用于解決上述與以前技術相聯(lián)系的問題的未受監(jiān)控自適應的方法和設備。
本發(fā)明的方法在獨立的權利要求1到17中被定義并且本發(fā)明的設備在獨立的權利要求23中被定義。優(yōu)選的實施方案分別在隨后有關的權利要求中被定義。
根據本發(fā)明,一種測量值表明了識別結果的可靠程度。系統(tǒng)的自適應是基于所述識別結果的可信度的。因此,根據本發(fā)明的方法被叫做半監(jiān)控的說話者自適應,因為不需要任何的監(jiān)控用戶或用于自適應的固定詞匯組。
在可靠識別的情況下,發(fā)音可以被用來適應特定說話者,但是在不可靠識別中,該發(fā)音被拋棄以避免對模型的錯誤修正。另外,依據可信度,可以計算出一個權重來確定自適應的力度。
本發(fā)明以及其用來判斷是否用發(fā)音來作自適應的幾個方法將從下面結合附圖對示例實施方案的詳細描述中得到更好的理解。
圖1給出根據本發(fā)明一個實施方案的語音識別系統(tǒng);圖2給出根據本發(fā)明的第一自適應方法,其中使用了置信度測量值;圖3給出根據本發(fā)明的第二自適應方法,其中對話歷史被查看;圖4給出根據本發(fā)明切換回最初的說話者無關模型的方法;圖5給出根據以前技術的示例語音識別系統(tǒng)。
圖2給出根據本發(fā)明的第一自適應方法,其中使用了置信度測量值以避免對誤識別字的適應并確定自適應度。該方法在開始于步驟S21的無限循環(huán)中重復執(zhí)行。
在所述的第一步驟S21中,用戶發(fā)音的識別按照根據以前技術的語音識別系統(tǒng)類似的方式進行。在接下來的步驟S22中,置信度測量值被用于步驟S21的識別結果中。在這個步驟中,置信度測量值被用來測量識別結果的可信度。在置信度測量值小于某一閾值時,所識別的字被認為是不可信的,并且將不被用于自適應,這樣使得自適應過程在步驟S21重新開始,在該步驟中,進行下一個用戶發(fā)音的識別。如果另一方面,置信度測量值大于閾值,識別結果被認為是可靠的并被用于步驟S23中的自適應,然后在步驟S21的自適應過程重新開始以識別下一個用戶的發(fā)音。
要計算根據本發(fā)明的置信度測量值,首先從識別假設和/或語音信號中提取一個或多個特征。然后,基于這些特征判斷音節(jié)/字/短語是否可以被分類為正確識別或不正確識別。這種判斷并不是很困難的判斷,但是所接收聲音的正確性概率被計算。這種判斷是例如基于神經網絡或判斷樹的,它們將特征作為輸入,并基于某些內部參數來計算置信度測量值。
當神經網絡被用來計算置信度測量值時,輸出(即置信度測量值)一般是一個在0和1之間的值;該值越接近1,音節(jié)/字/聲音或其序列就越有可能被正確識別。因此,在0和1之間的閾值被定義,超過所述閾值的置信度測量值將識別結果分類為正確。
在其基礎上計算出置信度測量值的特征被從識別結果中提取出來或基于識別結果直接從語音信號中計算出來。這些特征可以,例如是n個最佳識別假設、HMM狀態(tài)持續(xù)期、所識別的字中所識別音節(jié)的持續(xù)期或者片段概率的(相對)成績。后者可以在給定一個包括幾個幀的完整語音片段的情況下,通過確定包括在字假設中的這種音節(jié)的概率的隨機模型計算出來。
置信度測量值也可以直接被用來確定自適應度,當然,置信度測量值的最簡單情況是只提取一個特征,例如在識別過程中由HMM提供的成績,并且基于閾值直接判斷所識別的字是否正確。在這種情況下,自適應度總是為常數。
作為固定閾值的另一可選方案,置信度測量值可以被用來計算一個權重,該權重確定在步驟S23中進行的自適應的力度。
此外,有可能改變其它用來在自適應過程中作出判斷所參考的參數,例如,用于判斷的閾值如何在語音信號的獲得特征的基礎上被調整。
在HMM模型的說話者自適應過程中發(fā)生了問題,因為這影響置信度測量值的各個特征。這要求特征的歸一化使得它們對于HMM模型的這種變化保持不變,或者它要求對置信度測量值的特征或參數或置信度測量值與之比較的閾值作自動在線自適應。這種自適應基于優(yōu)化類似置信度測量值正確性的準則的正規(guī)算法。置信度測量準確性在視覺、解釋和韻律模塊中確定的用戶反應的基礎上被估計出來。
此外,置信度測量值不僅能被用于整個用戶聲音,也可用于字或音節(jié),使得不總是整個發(fā)音被拒絕自適應,而僅僅是單個誤匹配字或包括誤匹配音節(jié)的字也被拒絕自適應。還有可能的是將置信度測量值應用于另外的任意長度的語音段。
這種由置信度測量值指導的自適應不需要來自用戶的行動,例如向系統(tǒng)通告字被誤識別了。因此,該方法對于自動語音識別系統(tǒng)中未受監(jiān)控或在線自適應能獲得比根據以前技術的系統(tǒng)更高的識別率,因為不是每個用戶聲音或用戶說出的每個字被用于自適應,這與該發(fā)音或字可能被誤識別以及自適應度取決于正確識別結果的概率的事實無關。
圖3給出根據本發(fā)明的第二自適應方法,其中對話歷史被觀察以判斷發(fā)音或單個字或幾個字是否被用于自適應。
在對話系統(tǒng)中,用戶的反應常常表示出所識別的字是否正確。用來判斷用戶反應的方法在圖3中給出。類似于圖2中描述的方法,該方法在步驟S31開始的無限循環(huán)中重復進行。
在步驟S31中,用戶發(fā)音編號I的識別類似于以前技術系統(tǒng)的方式。因此,識別結果經歷步驟S32中的解釋,在該步驟中將判斷用戶是否滿意系統(tǒng)對其在發(fā)音編號i之前的發(fā)音所作出的反應。這種發(fā)音編號I-1的例子可以是“打開電視”,出于某些原因,該系統(tǒng)識別為“打開收音機”,因此收音機被打開。當用戶意識到這種錯誤,他/她的下一個發(fā)音(即發(fā)音編號I)可能類似于“不對,不是收音機,是電視”或“錯誤,我說的是電視”。在這種情況下,系統(tǒng)將在發(fā)音號碼I的基礎上在步驟S32解釋為以前識別的發(fā)音是誤識別,并且不能被用于自適應。在這種情況下,其中用戶發(fā)音編號I-1被用于自適應的步驟S33被省略,在步驟S33之后,其中系統(tǒng)執(zhí)行行動或響應的步驟S34不會在步驟S33被執(zhí)行,而是在步驟S32之后直接執(zhí)行。在步驟S34中系統(tǒng)的行動或響應之后,在步驟S31識別下一個用戶發(fā)音編號I+1之前,在步驟S35中增加I的值。
在步驟S32中,除了發(fā)音的字面意思或解釋結果之外,關于用戶情緒狀態(tài)的信息,例如語調和/或韻律可以被考慮用來判斷用戶是否滿意。因此通過利用語調和/或韻律來解釋該發(fā)音,系統(tǒng)不需要任何特殊的關鍵字來認識到以前識別的發(fā)音發(fā)生了誤識別。例如,如果用戶在以前說出的字被誤識別之后以憤怒的語氣對系統(tǒng)說“打開電視”,系統(tǒng)會理解為他/她并沒有改變主意,但是以前識別出的命令被誤識別了,因此它不應該被用于自適應。
此外,被可視計算機系統(tǒng),例如可以解釋如模仿等用戶反應的連接到計算機的視頻攝像機觀察到的用戶的反應可以被用來確認已識別的發(fā)音,例如基于從用戶或用戶臉部得到的圖象或視頻序列。
在這種情況下,盡管識別器基于背景聲音或噪聲識別出一些字,也可以確定是否這種模仿表示憤怒或驚訝或者用戶的嘴是否閉著。
依賴于某一用戶反應或某些用戶反應的組合和強度,可以確定自適應度。如在置信度測量值情況下,也有可能設置一個閾值,并給出一個確定的判斷使得自適應度為常數。
圖4給出根據本發(fā)明的一種方法,其中如果自適應模型的性能太差,系統(tǒng)將會切換回初始的SI模型。
在這種情況下,系統(tǒng)識別一種情況,其中自適應是在利用誤識別的字(重復)的情況下進行的,或者新用戶在使用該系統(tǒng),因為這樣識別率會下降。因此,系統(tǒng)會切換回最初的說話者無關模型。與圖2和3描述的方法類似,該方法會在開始于并行執(zhí)行的步驟S41和S43的無限循環(huán)中重復進行。
因此,在所述的步驟S41,對用戶發(fā)音的識別被利用自適應模型來執(zhí)行,而在步驟S43中,同樣用戶的發(fā)音被利用初始的說話者無關模型來進行識別。對于兩個識別結果可以分別在步驟S42和S44中進行置信度測量。在隨后的步驟S45中,在步驟S41和S43對下一個用戶發(fā)音進行并行識別之前,(例如)置信度測量值的兩個結果被比較以確定是否在步驟S46重新開始以說話者無關模型進行自適應或在步驟S47進一步使用并調整自適應模型。
該方法并不限于使用置信度測量值來比較所述的識別結果。還有可能的是,系統(tǒng)使用其它的用戶反應,例如,在相應發(fā)音或音調和/或韻律之前/之后某一時間的行為。還可以想象到的是,系統(tǒng)讓用戶來決定使用哪一個模型,或哪一個識別結果是正確的,然后為進一步的識別/自適應使用各自的模型組。
因此,通過保持原始模型并將它們的性能與自適應后的相比,例如,在一定數量的自適應步驟或語音間斷之后,系統(tǒng)也用到初始模型,并且在利用說話者無關模型的識別結果和/或置信度測量值表明自適應后的模型并不如初始模型性能好時,自適應重新開始。因此,可以確保識別率永遠不會降低(明顯地),而只是升高或保持在同一水平。通過執(zhí)行這種方法,用戶的期望可以完全滿足,因為用戶希望有一個能夠習慣他說話方式的自動語音識別系統(tǒng),就象人類能做到的那樣。
還有可能的是,說話者自適應模型不僅與說話者無關模型比較以確保識別率永遠不會(明顯)降低,而且或者不同的是將最新的說話者自適應模型與較早的說話者自適應模型比較以選出具有最佳識別性能的模型并基于這些模型繼續(xù)調整。
當然,上面描述的根據本發(fā)明的所有4種方法或其中的一組可以被組合來防止在未監(jiān)控或在線自適應模式下對誤識別的字或句子進行自適應。利用這些方法,可以控制是否在已識別字或發(fā)音的情況下,進行自適應。此外,能夠保證識別率不會降低(明顯地)。如上面提到的,所推薦的算法是獨立于自適應方法的,即它們可以與任何的說話者自適應算法組合。
利用一個或幾個本發(fā)明方法用于未監(jiān)控或在線說話者自適應的根據本發(fā)明的識別系統(tǒng)的一個示例實施方案在圖1中給出。
與圖5中根據以前技術的語音識別系統(tǒng)相比,圖1中給出的本發(fā)明的系統(tǒng)并不包括類似以前技術系統(tǒng)中訓練模塊55的訓練模塊或類似電路。這并不是根據本發(fā)明系統(tǒng)的局限之處,因為訓練是獨立于本發(fā)明所關心的自適應而進行的。當然,在特征提取模塊之后提供的自適應/識別模式和訓練模式之中或之間切換的開關也可以被提供,其中的開關將特征矢量傳遞給識別模塊4,如圖1所示,或傳遞給未給出的訓練模塊,該訓練模塊可以反過來訪問存儲在存儲器5中的一組說話者無關模塊。
圖1僅給出了根據本發(fā)明用于半監(jiān)控說話者自適應的自動語音識別系統(tǒng)的一部分。因此,在特征提取模塊3例如每隔10ms進行一次特征提取以獲得特征矢量之前,麥克風1產生的模擬語音信號在A/D轉換臺2中轉換成數字信號。該特征矢量被傳遞給識別模塊4,該模塊可以訪問其中存儲著說話者無關模型組的存儲器5、其中存儲有說話者自適應模型組的存儲器6以及使用例如MAP或MLLR的自適應方法的自適應模塊7以便通過對說話者無關模型組的調整來產生說話者自適應模型組。因此,自適應模塊7可以通過用于存儲說話者自適應模塊組的存儲器6訪問存儲在存儲器5中的說話者無關模型。到此為止,所有的模塊或存儲設備都以根據以前技術的語音識別系統(tǒng)中類似的方法被使用。
根據本發(fā)明,識別模塊將其結果還傳送給韻律提取模塊8和一個解釋模塊9,它們執(zhí)行兩種方法來確定一個音節(jié),幾個音節(jié),一個字幾個字還是整個發(fā)音是否應該如上面描述的那樣被用于自適應。此外,識別模塊的結果被傳送給置信度測量模塊13,該模塊如上面描述的那樣計算置信度測量值。這些模塊將它們各自的結果傳送給判斷單元11,該單元確定是否對所述音節(jié),單個字,幾個字或整個發(fā)音進行自適應以便將其結果提供給自適應模塊7,該模塊接著使用該單個音節(jié),字,幾個字或整個發(fā)音來調整說話者自適應模塊。判斷單元11也接收視覺模塊12的輸出,該輸出表示對應于某一發(fā)音的用戶可視行動,即,它的可視情緒狀態(tài),例如是否其模仿表示出憤怒或驚訝,或者是否用戶說了什麼或者是否所識別的發(fā)音為其它人所說。
系統(tǒng)是否使用說話者無關模型組或說話者自適應模型的判斷在確認模塊10中進行,該模塊接收識別模塊4的兩個結果,即基于說話者自適應模型組的結果和基于說話者無關模型組的結果。確認模塊10的結果影響到判斷模塊11,判斷模塊也將控制信號傳遞給識別模塊4,識別模塊確定哪一組模型被用于識別以及傳遞給韻律提取模塊8、解釋模塊9以及置信度測量模塊13的結果。
除了改變閾值來確定是否整個發(fā)音或部分發(fā)音應該被用于自適應之外,判斷模塊11的輸入特征值可以被調整或者模塊11的參數值可以被調整。
當然,判斷模塊11也確定所述單個音節(jié)、幾個音節(jié)、單個字、幾個字或整個發(fā)音的可信率以確定在自適應模塊7中執(zhí)行的自適應的力度。而且用于韻律提取模塊8,解釋模塊9和確認模塊10/置信度測量模塊13的參數可以如上面提到的那樣動態(tài)改變。還有可能的是,判斷模塊11并不是立即切換回說話者無關模型,如果它們性能比較好的話,而是在作出這種決定之前等待更多的發(fā)音。
因此,根據上面描述的優(yōu)選實施方案,判斷單元11接收用戶發(fā)音或部分發(fā)音的置信度測量值(參數和特征可以是自適應的)、當用戶發(fā)出整個發(fā)音或部分發(fā)音時,關于該用戶韻律的信息、在用戶發(fā)音環(huán)境基礎上確定的用戶反應的解釋、視覺上用戶行為的解釋、用戶的確認來確定自適應度。當然,本發(fā)明并不限于這些,也可以在這些信息的一個子組的基礎上作出該判斷。
權利要求
1.一種執(zhí)行自動語音識別系統(tǒng)的不受監(jiān)控的自適應和/或在線自適應的方法,特征在于,在所接收發(fā)音或部分的接收發(fā)音的輔助下,系統(tǒng)的自適應度是基于所述所接收發(fā)音或部分的接收發(fā)音的識別結果的可信度的。
2.根據權利要求1的方法,特征在于,當識別可信度大于一個閾值時,所述所接收發(fā)音或部分所述所接收發(fā)音被用于自適應,當識別可信度小于所述閾值時,所述所接收發(fā)音或部分所述所接收發(fā)音被拋棄。
3.根據權利要求1或2的方法,特征在于,閾值是固定的或動態(tài)可變的。
4.根據權利要求1到3中任何一個的方法,特征在于,所述所接收發(fā)音或部分所述所接收發(fā)音的識別結果的可信度是在置信度測量值的基礎上被測量的。
5.根據權利要求4的方法,特征在于,作為所述置信度測量值基礎的參數和/或特征是自適應的。
6.根據權利要求4或5的方法,特征在于,置信度測量值被針對發(fā)音、每個所接收發(fā)音或部分所接收發(fā)音的基于字或音節(jié)的置信度成績來計算。
7.根據權利要求6的方法,特征在于,所述置信度成績確定所述所接收發(fā)音或部分所接收發(fā)音的識別結果的可信度。
8.根據權利要求1到7中任何一個的方法,特征在于,所述所接收發(fā)音或部分所接收發(fā)音的識別結果的可信度在所述發(fā)音的說話者的反應的基礎上被測量。
9.根據權利要求8的方法,特征在于,所述反應是通過視覺計算機系統(tǒng)基于從用戶或用戶臉部得到的圖象或視頻序列而確定的。
10.根據權利要求8或9的方法,特征在于,所述置信度測量值取決于說出所述發(fā)音的人的情緒狀態(tài)。
11.根據權利要求8到10中任何一個的方法,特征在于,所述反應是通過在所述所接收發(fā)音或部分所接收發(fā)音之后接收的發(fā)音或部分該發(fā)音的識別和解釋來確定的。
12.根據權利要求11的方法,特征在于,在所述所接收發(fā)音或部分所接收發(fā)音之后接收的發(fā)音或部分該發(fā)音被檢查以找到表明以前接收到的發(fā)音是否被正確識別的預定關鍵字。
13.根據權利要求10到14中任何一個的方法,特征在于,通過對所述所接收發(fā)音或部分所接收發(fā)音之后接收的發(fā)音或部分該發(fā)音的第二信息的解釋來確定所述的反應。
14.根據權利要求13的方法,特征在于,所述所接收發(fā)音或部分所接收發(fā)音之后接收的發(fā)音或部分該發(fā)音的所述第二信息是所述所接收發(fā)音或部分所接收發(fā)音之后接收的發(fā)音或部分該發(fā)音的音調和/或韻律。
15.執(zhí)行自動語音識別系統(tǒng)的不受監(jiān)控的自適應和/或在線自適應的方法,其中,在所接收發(fā)音或部分所接收發(fā)音的輔助下,系統(tǒng)的自適應通過對一組參數的重復調整來執(zhí)行,該方法的特征在于,在系統(tǒng)識別性能下降的情況下,至少一組以前的參數被存儲來交換當前使用的參數。
16.根據權利要求15的方法,特征在于,最初的參數組被存儲。
17.根據權利要求15或16的方法,特征在于,通過在所存儲的以前參數和最新自適應參數的基礎上比較實際的識別結果來判斷系統(tǒng)的識別性能。
18.根據權利要求15到17中任何一個的方法,特征在于,系統(tǒng)的識別性能在權利要求1到17中任何一個定義的方法的基礎上來判斷。
19.根據權利要求1到18中任何一個的方法,特征在于,利用隱馬爾可夫模型的自適應來進行系統(tǒng)的自適應。
20.根據權利要求19的方法,特征在于,它被用來將說話者無關隱馬爾可夫模型向說話者有關隱馬爾可夫模型的性能調整。
21.具有不受監(jiān)控的自適應和/或在線自適應的語音識別系統(tǒng),包括用來接收用戶說出的字并輸出模擬信號的麥克風(1);連接到所述麥克風(1)將所述模擬信號轉換成數字信號的A/D轉換臺(2);連接到所述A/D轉換臺(2)以便從數字信號中提取用戶的所述接收字的特征矢量的特征提取模塊(3);連接到所述特征提取模塊(3)以便在所述特征矢量和一組說話者無關和/或說話者自適應模型的基礎上識別用戶的所述接收字的識別模塊(4);接收來自所述識別模塊(4)的識別結果以產生和/或調整所述說話者自適應模型組的自適應模塊(7);該系統(tǒng)的特征在于連接到所述識別模塊(4)的判斷單元(11)為所述自適應模塊(7)提供一個信號,該信號表明是否使用某個接收到的字用來產生和/或調整說話者自適應模型組。
22.根據權利要求21的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號表明所述自適應模塊(7)在所述某個接收字的基礎上的說話者自適應模型組的自適應力度。
23.根據權利要求21或22的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號是在第一控制信號的基礎上創(chuàng)建的,其中的第一控制信號是由連接在所述識別模塊(4)和判斷單元(11)之中或之間的韻律提取模塊(8)產生的。
24.根據權利要求21到23中任何一個的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號是在第二控制信號的基礎上創(chuàng)建的,其中的第二控制信號是由連接在所述識別模塊(4)和判斷單元(11)之中或之間的解釋模塊(9)產生的。
25.根據權利要求21到24中任何一個的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號是在第三控制信號的基礎上創(chuàng)建的,其中的第三控制信號是由連接在所述識別模塊(4)和判斷單元(11)之中或之間的確認模塊(10)產生的。
26.根據權利要求21到24中任何一個的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號是在第四控制信號的基礎上創(chuàng)建的,其中的第四控制信號是由連接在所述識別模塊(4)和判斷單元(11)之中或之間的置信度測量模塊(11)產生的。
27.根據權利要求21到24中任何一個的語音識別系統(tǒng),特征在于,來自所述判斷單元(11)的被提供給所述自適應模塊(7)的信號是在第五控制信號的基礎上創(chuàng)建的,其中的第五控制信號是由連接到所述判斷單元(11)的視覺模塊(12)產生的。
全文摘要
在未受監(jiān)控或在線自動語音識別系統(tǒng)中,為了防止對誤識別字的自適應,置信度測量值被使用,或者用戶的反應被解釋以判斷是否已識別的音節(jié)、幾個音節(jié)、一個字、幾個字或整個發(fā)音應該被用于說話者無關模型組到說話者自適應模型組的自適應,在自適應被執(zhí)行的情況下,判斷對該識別出的發(fā)音或部分識別出的發(fā)音進行多強的自適應。此外,說話者自適應性能的確認被進行以確保識別率永遠不會(明顯)降低,而只會升高或保持在同一水平。
文檔編號G10L15/065GK1264888SQ9912650
公開日2000年8月30日 申請日期1999年12月17日 優(yōu)先權日1998年12月17日
發(fā)明者S·戈倫茲, R·科姆佩, P·布赫納, 巖橋直人 申請人:索尼國際(歐洲)股份有限公司, 索尼公司