專利名稱:語音識別的方法和裝置的制作方法
多年以來,日常適用的語音識別和語音控制系統(tǒng)的發(fā)展體現(xiàn)了計(jì)算機(jī)技術(shù)的一種發(fā)展主線。在該發(fā)展過程中已取得重大進(jìn)步,而且建立了一些在實(shí)際應(yīng)用中被證明是可靠的、且適合市場銷售的語音識別系統(tǒng)。這種進(jìn)步的系統(tǒng)原則上也適合被用來對計(jì)算機(jī)或所連接的外圍設(shè)備進(jìn)行語音控制。只能處理較小詞匯表的簡單語音識別系統(tǒng)也已經(jīng)在日用電子設(shè)備和KFZ設(shè)備的領(lǐng)域以及其它領(lǐng)域中使用,其中,根據(jù)有限的詞匯表對設(shè)備進(jìn)行聲控是可能和有意義的。
在處理速度、也即在跟上快速的語音方面還存在某些問題,對較發(fā)達(dá)的系統(tǒng)而言,對硬件基礎(chǔ)會有較高的要求,而且還有較高的購置成本。
在語音識別系統(tǒng)的進(jìn)一步發(fā)展過程中,尤其需要注意對語音字的連續(xù)流中的關(guān)鍵字序列進(jìn)行識別的問題。這種關(guān)鍵字序列大多具有規(guī)定較嚴(yán)格的信息結(jié)構(gòu),而該信息結(jié)構(gòu)可以在合適的處理中實(shí)現(xiàn)非常簡單和可靠的識別,而且,所述的關(guān)鍵字序列還經(jīng)常與語音控制任務(wù)聯(lián)系在一起,譬如輸入數(shù)字碼、電話號碼、時鐘時間或日期等。按照現(xiàn)有技術(shù)(在某種程度上是成功的),這種序列的處理是在譬如基于已知的隱式-馬爾可夫-仿真的常規(guī)語音識別系統(tǒng)的范圍內(nèi)實(shí)現(xiàn)的,其中,識別結(jié)果的實(shí)時輸出也是可能的-譬如通過部分回溯的方法。
本發(fā)明所基于的任務(wù)在于提供這種類型的方法和用于執(zhí)行該方法的裝置,它們可以可靠、簡單和快速地識別關(guān)鍵字序列。
該任務(wù)在方法方面由具有權(quán)利要求1的特征部分的方法來解決,而在裝置方面由具有權(quán)利要求9的特征部分的裝置來解決。
本發(fā)明包含如下的基本思想,即通過把識別過程劃分成兩個或多個分步驟來更好或更可靠地解決有關(guān)關(guān)鍵字序列的識別問題,其中在所述的分步驟中分別采用了特定的話音識別系統(tǒng)。該思想是以如下知識為出發(fā)點(diǎn),即具有較小詞匯表的語音識別系統(tǒng)比具有較大詞匯表的語音識別系統(tǒng)能夠更快和更可靠地工作。它還基于如下思想,即某些在日常用語中經(jīng)常出現(xiàn)的重要關(guān)鍵字序列還具有較明確規(guī)定的信息結(jié)構(gòu),因此,可以優(yōu)選地根據(jù)前面的分步驟的檢測結(jié)果來在接下來的分步驟中有條件地激活分別具有特定詞匯表的多個語音識別系統(tǒng)。另外,本發(fā)明還基于如下知識,即尤其在不利的聲學(xué)條件下(在嘈雜的環(huán)境噪聲或較強(qiáng)的失真情況下),具有較小詞匯表的語音識別系統(tǒng)能比具有較大詞匯表的語音識別系統(tǒng)提供更好的精度。因此,有條件地使用多個具有較小詞匯表的系統(tǒng)能提高關(guān)鍵字序列的檢測速率,另一方面又能降低誤檢率。
本發(fā)明規(guī)定,彼此相聯(lián)系的語音識別系統(tǒng)被連續(xù)地激活,并在完成其特定的檢測任務(wù)和存儲所測定的關(guān)鍵字或一部分關(guān)鍵字序列之后被再次去活,然后激活另一系統(tǒng)去完成其所分配的檢測任務(wù),存儲所測定的另一關(guān)鍵字或另一部分關(guān)鍵字序列,并依此類推。在所述的檢測過程結(jié)束之后,將每次測定的關(guān)鍵字或一部分關(guān)鍵字序列按規(guī)則組合起來,并將其輸出,或?yàn)閷?shí)現(xiàn)控制任務(wù)而將其傳輸給相應(yīng)的控制單元。
在所述方法的一種優(yōu)選改進(jìn)方案中,根據(jù)所述測定的第一關(guān)鍵字或一部分第一關(guān)鍵字序列的類型來從多個在一定程度上準(zhǔn)備就緒的語音識別系統(tǒng)中選出和激活一個按照所述第一檢測子結(jié)果被認(rèn)為是合適的語音識別系統(tǒng)。
根據(jù)另一優(yōu)選的改進(jìn)方案,在檢測第一關(guān)鍵字或一部分關(guān)鍵字序列之后,為檢測第二關(guān)鍵字或一部分第二關(guān)鍵字序列(且類似地針對序列中的其它部分)而在語音流中預(yù)定一個時窗,在該時窗內(nèi)必須出現(xiàn)第二(或另一)檢測結(jié)果。根據(jù)具體的系統(tǒng)配置,該時窗可以是一個絕對的時間間隔,或是一個參考實(shí)際輸入的話音信號的時間間隔。若在該時窗過去之后沒有出現(xiàn)檢測結(jié)果,則尤其重新激活所述首先采用的系統(tǒng)。
在另一優(yōu)選實(shí)施方案中,可以在各個采用的語音識別系統(tǒng)之間實(shí)現(xiàn)無損耗的切換,該方案設(shè)立了語音數(shù)據(jù)的緩沖。也就是說,在所述的第一檢測步驟期間,在一種遵循FIFO(先進(jìn)先出)原理的過程中以緩沖段的形式、并用預(yù)定的長度不斷地臨時存儲所述語音流中的最后一段。所述緩沖段的時間長度取決于所述第一語音識別系統(tǒng)的檢測速度,它必須足夠長,以致于能緩沖在關(guān)鍵字的說出和其檢測之間的時間段(具有附加的安全值)。在第二檢測步驟中通過延遲該緩沖段來處理所述的語音流,其中該第二檢測步驟通過第一檢測步驟的結(jié)果的出現(xiàn)來進(jìn)行觸發(fā)。
本發(fā)明的一種尤其重要的應(yīng)用體現(xiàn)在一些關(guān)鍵字序列,其中,所述的第一關(guān)鍵字或第一部分關(guān)鍵字序列具有如此的特性,使得其后有規(guī)則地跟隨有所述語音流的一個數(shù)字或一個包含數(shù)字的段。在該情形下,采用一種與所述數(shù)字或數(shù)字組合的識別相匹配的系統(tǒng)來作為第二語音識別系統(tǒng)。作為關(guān)鍵字序列的第一關(guān)鍵字,譬如可能出現(xiàn)概念“號碼”、“電話號碼”、“日期”或“時鐘時間”等,在這些概念之后跟隨了一些數(shù)字串或某些數(shù)字/詞組合,針對這些數(shù)字串或數(shù)字/詞組合的識別可以激活具有相應(yīng)限制的詞匯表的系統(tǒng)。
一種對計(jì)算機(jī)或計(jì)算機(jī)外圍設(shè)備的語音控制較為重要的另一應(yīng)用領(lǐng)域?yàn)橐恍╆P(guān)鍵字序列,其中所述的第一關(guān)鍵字被稱為裝置的類(譬如“設(shè)備”),而在該序列的其它部分中指定一些能以任意方式被激活的特定裝置或設(shè)備。很容易可以理解,此處也可以相互聯(lián)系地使用一些具有減少的語音詞匯表的簡單語音識別系統(tǒng),由此實(shí)現(xiàn)很高的識別可靠性。
除了上述計(jì)算機(jī)或計(jì)算機(jī)外圍設(shè)備的語音控制的重要應(yīng)用之外,所述的語音控制對于職業(yè)或私人領(lǐng)域內(nèi)的其它技術(shù)設(shè)備也具有很大的經(jīng)濟(jì)意義,譬如汽車或家用的電器(例如導(dǎo)航系統(tǒng)、音頻或視頻系統(tǒng)、家用電器、電信終端、玩具,等等)。
所建議的解決辦法的裝置方面基本上可以直接從方法方面得出;另外,本發(fā)明的優(yōu)點(diǎn)和實(shí)用性可以由從屬權(quán)利要求和下面借助附圖對優(yōu)選實(shí)施例的說明中得出。在這些附圖中
圖1用簡圖示出了本發(fā)明的一種功能框圖形式的簡單實(shí)施方案,圖2示出了一種用于闡明本發(fā)明優(yōu)選改進(jìn)方案的語音流緩沖原理的圖形,以及圖3用簡圖示出了功能框圖形式的另一種實(shí)施方案。
在圖1中簡要地繪出了一種用于檢測連續(xù)語音流S中的關(guān)鍵字序列的語音識別裝置100。所述的語音流S在分支點(diǎn)101處被劃分成兩個(信息相同的)語音流S1和S2。子語音流S1直接到達(dá)第一話音識別單元102的輸入端,確切地說是到達(dá)第一檢測級102a的第一輸入端,該第一檢測級的第二輸入端上連接了第一詞匯表存儲器102b。所述的第一檢測級102a具有一個與語音識別過程控制器103相連的控制輸出端和一個與第一關(guān)鍵字存儲器104相連的數(shù)據(jù)輸出端。
第二子語音流S2到達(dá)環(huán)形語音緩沖器105的輸入端,在該緩沖器內(nèi)總是臨時存儲該語音流的最后一段,由此在其輸出端上輸出一個延遲了該緩沖器的語音流部分的子語音流S2’。所述的語音流S2’到達(dá)第二語音識別單元106的輸入端,類似于第一語音識別單元102,第二語音識別單元106由第二檢測級106a和第二詞匯表存儲器106b組成。第二檢測級106a的數(shù)據(jù)輸出端被連接在第二關(guān)鍵字存儲器107上。兩個關(guān)鍵字存儲器104、107的輸出端被接到序列存儲器108的輸入端上,而序列存儲器108的輸出端又同時表現(xiàn)為所述裝置100的輸出端。所述的語音識別過程控制器具有兩個控制輸出端,它們被連接到第一或第二語音識別單元102或106的控制輸入端上。
于是,在所述由語音識別過程控制器103在識別過程開始時進(jìn)行激活的第一語音識別單元102中檢驗(yàn)所述的語音流S(其形式為載有整個信息內(nèi)容的子語音流S1)是否出現(xiàn)在第一詞匯表存儲器102b中所存儲的字詞。如果出現(xiàn)了這種字詞,則將其寄存在第一檢測單元102a中,并把該相關(guān)的字詞接收到第一關(guān)鍵字存儲器104中,同時向語音識別過程控制器103輸出一個控制信號。然后由該語音識別過程控制器去活所述的第一語音識別單元102和激活所述-一直是無效的-的第二語音識別單元106。
在經(jīng)過環(huán)形語音緩沖器105之后,被延遲的子語音流S2’到達(dá)語音識別單元106的輸入端,并且(如同第一檢測單元102中的子語音流S1一樣)在該第二檢測單元106內(nèi)對該子語音流S2’進(jìn)行檢驗(yàn),以檢驗(yàn)是否出現(xiàn)所述存儲在第二詞匯表存儲器106b內(nèi)的字群中的第二關(guān)鍵字。在通過第二檢測級106a檢測到該第二關(guān)鍵字的情況下,將該關(guān)鍵字輸出到第二關(guān)鍵字存儲器107中。同時向所述的語音識別過程控制器103輸出一個控制信號,由該控制器103隨后再次去活第二語音識別單元106,并替而代之再次激活第一語音識別單元102。
然后,由語音識別過程控制器103控制把第一和第二關(guān)鍵字存儲器104、107中所存儲的字輸出到序列存儲器106,并在那兒有規(guī)則地存放這些字,以準(zhǔn)備從該裝置100輸出。因此在該簡單的實(shí)施例中,是通過分級地使用兩個具有均被減少的不同詞匯表的不同語音識別單元來完成關(guān)鍵字序列的檢測。
所建議的方法的具體應(yīng)用和上文所概述的裝置譬如也可以用一個實(shí)際的重要應(yīng)用實(shí)例來詳細(xì)講述可以已知下面的字序列,-輸入電話號碼<數(shù)字串>
-輸入日期<日期>
-輸入時鐘時間<時鐘時間>
-詢問設(shè)備<設(shè)備>,其中,尖括弧內(nèi)的表達(dá)式可以具有如下意義<數(shù)字串>連續(xù)相繼的數(shù)字<日期>日期表示,譬如“99年11月2日”<時鐘時間>時鐘時間表示,譬如“9點(diǎn)10分”<設(shè)備>有限的設(shè)備群中的元素,譬如“計(jì)算機(jī)”制造如下的語音識別系統(tǒng)1.系統(tǒng)檢測一些序列“輸入電話號碼”,“輸入日期”,“輸入時鐘時間”,“詢問設(shè)備”2.系統(tǒng)數(shù)字串識別器3.系統(tǒng)日期識別器4.系統(tǒng)時鐘時間識別器5.系統(tǒng)從預(yù)定的庫存中檢測各個設(shè)備名。
根據(jù)系統(tǒng)1的結(jié)果來激活系統(tǒng)2~5中的一個。系統(tǒng)1另外還必須提供被識別的關(guān)鍵字序列的(時間)結(jié)束點(diǎn)的有關(guān)信息。于是,當(dāng)激活系統(tǒng)2~5中的一個時,繼續(xù)在該點(diǎn)上進(jìn)行識別,因此緩沖是必要的。另外,所述的識別系統(tǒng)必須至少是實(shí)時地工作。
在圖2中概要地示出了語音流中的最后一段的緩沖功能,以便由第二語音識別單元(“系統(tǒng)2”)進(jìn)行嚴(yán)密的處理。用t0表示第一語音識別單元(“系統(tǒng)1”)檢測第一關(guān)鍵字序列“輸入電話號碼”的時間點(diǎn),用tE表示該第一關(guān)鍵字序列的時間結(jié)束點(diǎn),用Ph,l表示在緩沖器系統(tǒng)中由系統(tǒng)1在時間點(diǎn)t0實(shí)際讀取語音數(shù)據(jù)的位置,用Ph2表示在相同時間點(diǎn)t0時(此時系統(tǒng)2恰好被激活)的系統(tǒng)2的相應(yīng)采樣位置。
于是可以看出,通過所述的緩沖確保了由系統(tǒng)1的處理時間和檢測第一關(guān)鍵字序列所消耗的、且顯然與一段語音流相對應(yīng)的時間不會導(dǎo)致語音流數(shù)據(jù)的損耗。在此處所示的實(shí)施例中,如果沒有緩沖,原則上將會給系統(tǒng)2喪失掉前兩個數(shù)字“4”和“6”,從而總共有一個檢測再也不能訪問到它們。
在圖3中示出了相對于圖1的裝置進(jìn)行了改進(jìn)的語音處理裝置200,它的特點(diǎn)是在于雙級聯(lián)的語音識別系統(tǒng)和在第二級中對不同系統(tǒng)的選擇可能性。另外,所標(biāo)示的第一和第二級具有一些基本上與圖1的裝置相同的部件201~208,且它們是用相應(yīng)的參考數(shù)字來表示的,這些部件在此不再贅述。
在此,序列存儲器208-通過用兩根垂直劃線進(jìn)行分段來表示-被構(gòu)造用來接收一個三分的關(guān)鍵字序列。來自(此處為第一)語音緩沖器205的子信號流S2’在分支點(diǎn)209處一方面被分支到第二檢測級206a,另一方面被分支到第二語音緩沖器210。在那兒對輸出端所提供的(由此被雙倍延遲的)子語音流S2.2”進(jìn)行了進(jìn)一步的緩沖或延遲。該子語音流S2.2”被輸入到第三語音識別單元211的輸入端,確切地說是具體輸入到第三檢測級211a。
如同第一和第二語音識別單元202、206一樣,所述的第三語音識別單元211同樣也包含一個特定的詞匯表存儲器211b,它與第三檢測級211a的第二輸入端相連。同樣,類似于第一和第二語音識別單元的實(shí)施方案,此處的(第三)檢測級也后接了一個(第三)關(guān)鍵字存儲器212,該關(guān)鍵字存儲器的輸出端與序列存儲器208相連??梢院翢o問題地從上文針對圖1的說明中推導(dǎo)出,組件210~212實(shí)現(xiàn)了關(guān)鍵字序列的識別的第三步,該第三步也對應(yīng)于所述方法的第三層級。
還需指出的是,在所述第一檢測級(包括第一關(guān)鍵字存儲器204)的輸出端上連接了一個選擇級203S,它被組織為查詢表的形式,而且它總是給各個測定的第一關(guān)鍵字分配多個可用的第二語音識別單元中的一個,并把相應(yīng)的選擇信號輸出到語音識別過程控制器203。利用從該過程控制器203向上伸出的點(diǎn)劃線箭頭來表示除了圖中所示的第二語音識別單元206之外,還可以有選擇地控制第二級的其它語音識別單元。正如圖中所示的第二語音識別單元206被分配了第三語音識別單元211一樣,顯然又可以給這些其它的語音識別單元分配第三級的語音識別單元。很容易理解,另外還可以在所述的第二和第三級之間設(shè)置類似的選擇級,以便還可以在這些級上根據(jù)所識別的第二關(guān)鍵字或第二關(guān)鍵字序列部分來激活從提供使用的多個第三語音識別單元中所選出的識別單元。最后,也可以利用單個的緩沖器來進(jìn)行級聯(lián),其延遲時間是可變的,且必須易于被縮小以實(shí)現(xiàn)實(shí)時的處理。
對于其余的細(xì)節(jié),本發(fā)明的實(shí)施方案并不局限于上述的實(shí)施例,而還可以有許多由技術(shù)人員進(jìn)行推斷的變型。
權(quán)利要求
1.語音識別方法,其中,通過與所存儲的樣品進(jìn)行比較來檢測語音字的連續(xù)語音流中的一段,其特征在于-在第一檢測步驟中借助第一語音識別系統(tǒng)來檢驗(yàn)所述的語音流中是否出現(xiàn)預(yù)定的第一關(guān)鍵字或第一關(guān)鍵字序列,-為響應(yīng)第一關(guān)鍵字或第一關(guān)鍵字序列的檢測而存儲該關(guān)鍵字或該關(guān)鍵字序列,去活所述的第一語音識別系統(tǒng),并激活一個第二語音識別系統(tǒng),-在第二檢測步驟中借助所述的第二語音識別系統(tǒng)來檢驗(yàn)所述的語音流中是否出現(xiàn)預(yù)定的第二關(guān)鍵字或第二關(guān)鍵字序列,-為響應(yīng)所述第二關(guān)鍵字或第二關(guān)鍵字序列的檢測而存儲該關(guān)鍵字或該關(guān)鍵字序列,去活所述的第二語音識別系統(tǒng),并激活所述第一或另一語音識別系統(tǒng),以及-將所存儲的第一和第二關(guān)鍵字或關(guān)鍵字序列組合起來,并將其輸出或準(zhǔn)備輸出。
2.如權(quán)利要求1所述的方法,其特征在于根據(jù)所述測定的第一關(guān)鍵字或第一關(guān)鍵字序列的類型來激活從多個可用的第二語音識別系統(tǒng)中選出的一個。
3.如權(quán)利要求1或2所述的方法,其特征在于為檢測所述的第二關(guān)鍵字或第二關(guān)鍵字序列而在語音流中預(yù)定一個時窗。
4.如上述權(quán)利要求之一所述的方法,其特征在于在所述的第一檢測步驟期間,在存儲過程中以緩沖段的形式不斷地臨時存儲所述語音流中的最后一段,以及利用延遲了所述緩沖段的語音流來執(zhí)行所述的第二檢測步驟,其中,根據(jù)所述第一語音識別系統(tǒng)的檢測時間常數(shù)來確定所述緩沖段的時間長度。
5.如上述權(quán)利要求之一所述的方法,其特征在于預(yù)定如下的關(guān)鍵字或關(guān)鍵字序列來作為第一關(guān)鍵字或第一關(guān)鍵字序列,即在它們之后有規(guī)律地跟隨有作為第二關(guān)鍵字或第二關(guān)鍵字序列的數(shù)字或包含數(shù)字的段,而且采用一種與所述的數(shù)字識別相匹配的語音識別系統(tǒng)來作為第二語音識別系統(tǒng)。
6.如權(quán)利要求5所述的方法,其特征在于預(yù)定一些字詞“號碼”、“電話號碼”、“日期”或“時鐘時間”中的一個來作為第一關(guān)鍵字,且所述的第二關(guān)鍵字序列為一種數(shù)字串或日期信息或時鐘時間信息。
7.如上述權(quán)利要求之一所述的方法,其特征在于通過分別采用特定的語音識別系統(tǒng),所述的方法具有多于兩個的檢測步驟。
8.如上述權(quán)利要求之一所述的方法,其特征在于被用來對計(jì)算機(jī)或經(jīng)計(jì)算機(jī)控制的設(shè)備、或電信設(shè)備或日用電子設(shè)備進(jìn)行語音控制。
9.用于執(zhí)行如上述權(quán)利要求之一所述的方法的裝置(100;200),具有-第一語音識別系統(tǒng)(102;202),用于檢驗(yàn)在連續(xù)的語音流中是否出現(xiàn)預(yù)定的第一關(guān)鍵字或第一關(guān)鍵字序列,-第二語音識別系統(tǒng)(106;206),用于檢驗(yàn)在所述連續(xù)的語音流中是否出現(xiàn)預(yù)定的、跟隨所述第一關(guān)鍵字或第一關(guān)鍵字序列的第二關(guān)鍵字或第二關(guān)鍵字序列,-語音識別過程控制器(103;203),用于在開始時激活所述的第一語音識別系統(tǒng),并有條件地根據(jù)所述第一語音識別系統(tǒng)的檢測結(jié)果來在稍后激活所述的第二語音識別系統(tǒng),其中,所述的第一和第二語音識別系統(tǒng)具備帶有不同詞匯的第一或第二詞匯表存儲器(102b,106b;202b,206b)。
10.如權(quán)利要求9所述的裝置,其特征在于一種尤其為環(huán)形緩沖器的、用于緩沖所述連續(xù)語音流的緩沖存儲器(105;205,210),用于緩和所述第一語音識別系統(tǒng)(102;202)檢測所述第一關(guān)鍵字或第一關(guān)鍵字序列的處理時間。
11.如權(quán)利要求9或10所述的裝置,其特征在于設(shè)置多于兩個的語音識別系統(tǒng)(202,206,211),用于分級和有條件地檢測多于兩個的、且相互有聯(lián)系的關(guān)鍵字或關(guān)鍵字序列。
12.如權(quán)利要求9~11之一所述的裝置,其特征在于被分配給每個語音識別系統(tǒng)的各個關(guān)鍵字存儲器(104,107;204,207,212)和與所述關(guān)鍵字存儲器相連接的序列存儲器(108;208),用于有規(guī)則地存放由所述關(guān)鍵字存儲器的存儲內(nèi)容組合而成的序列。
全文摘要
語音識別方法,其中通過與所存儲的樣品進(jìn)行比較來檢測語音字的連續(xù)語音流中的一段,其中,為響應(yīng)第一關(guān)鍵字的檢測而存儲該關(guān)鍵字,去活第一語音識別系統(tǒng)并激活一個第二語音識別系統(tǒng),而且,在第二檢測步驟中借助所述的第二語音識別系統(tǒng)來檢驗(yàn)所述的語音流中是否出現(xiàn)預(yù)定的第二關(guān)鍵字或第二關(guān)鍵字序列。
文檔編號G10L15/00GK1365487SQ00809342
公開日2002年8月21日 申請日期2000年4月5日 優(yōu)先權(quán)日1999年6月24日
發(fā)明者A·基普 申請人:西門子公司