專利名稱:通過計算機在交談語音中識別至少一個密鑰字的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一個通過計算機在交談語音識別至少一個密鑰字的方法和設(shè)備。
識別交談語音的方法和設(shè)備公開于[1]。在那里也基本介紹了一部分用于語音識別以及重要的、在語音識別中常用技術(shù)的設(shè)備或者方法。
一個密鑰字是一個確定的字,應當由一個語音識別設(shè)備以交談的語音識別該密鑰字。大多數(shù)的一個預先確定的事件結(jié)合如此的一個密鑰字,也就是說在識別這個密鑰字之后執(zhí)行這個事件。
在[2]中也說明了識別交談語音的方法和設(shè)備。由此表明,通過特別實施時間軸的壓縮或者延伸,一個借助于隱藏的-Markov模型的仿真允許匹配于送話器速度的變化,并且因此實現(xiàn)在識別時預先給定的語音結(jié)構(gòu)單元動態(tài)匹配于交換語音。這相當于一個動態(tài)匹配(也就是動態(tài)的程序設(shè)計),例如通過Viterbi算法保證這個匹配。
例如通過確定在特征矢量之間的一個(多維)間隔確定在聲音或者聲音串之間的間隔(時間間隔),這些特征矢量以數(shù)字的形式描述語音的聲音。這個間隔是在聲音或聲音串之間類似程度一個實例。
本發(fā)明的任務在于給出一個識別密鑰字的方法和設(shè)備,其中這個識別是最強的并且對干擾不敏感。
根據(jù)獨立權(quán)利要求的特征解決這個任務。
給出通過計算機在交談語音識別至少一個密鑰字的方法,其中密鑰字劃分為若干段,并且每段分配了一定數(shù)量的參考特征。在交談語音中包含的測試樣本劃分為若干段,其中測試樣本的每段分配了由密鑰字相應段的一定數(shù)量的參考特征形成的類似該段的參考特征。如果對于密鑰字的參考特征對測試樣本的積累的段方式的分配來說,類似程度低于一個預先確定的界限,則測試樣本識別為密鑰字。如果該類似程度不低于一個預先確定的界限,則測試樣本不識別為密鑰字。對此,低的類程度表明密鑰字的參考特征同測試樣本的一個盡可能好的一致。
下面簡短討論不同的概念及其意義測試樣本是在交談語音中包含的樣本,該樣本與密鑰字進行比較,并且也許可能識別為密鑰字。類似程度表明測試樣本與密鑰字或者一部分測試樣本與一部分密鑰字的一致程度。段是測試樣本或者密鑰字的間隔,該間隔具有一個預先確定的持續(xù)時間。參考特征是密鑰字的針對段的子特征。參考樣本含有表明密鑰字的表達形式的參考特征,字等級含有全部的參考樣本,可以通過參考特征的不同組合產(chǎn)生全部參考樣本,其中對于密鑰字來說每段存儲了特別的多個參考特征。在訓練階段,為各自密鑰字的參考特征確定并存儲代表,而在識別階段進行測試樣本與密鑰字的可能的參考樣本的比較。
在訓練階段,主要為參考特征存儲一個預先確定數(shù)量M個代表。如果提供比參考特征多的位置作為自由位置M使用,則例如以一個浮動的平均值的形式可以實現(xiàn)參考特征的取平均,以便因此在代表中考慮附加的參考特征的信息。
本發(fā)明的一個繼續(xù)發(fā)展在于,測試樣本(和/或密鑰字)是一個已存儲的聲音單位,特別是一個字。測試樣本和/或密鑰字也可以是每一個音位、一個復音、一個通常由多個音位組合的聲音或者一定數(shù)量的字。
一個另外的繼續(xù)發(fā)展在于,對于密鑰字和對于測試樣本來說段的數(shù)目總是相同的。
在一個附加的繼續(xù)發(fā)展的范圍內(nèi),測試樣本與多個密鑰字比較,并且得出類似于測試樣本的密鑰字。這相當于一個單字識別的系統(tǒng),其中多個密鑰字說明在交談語音中必須識別的單字。分別得出密鑰字,其最好地相配于在交談語音中包含的測試樣本。
這也是一個繼續(xù)發(fā)展,即特征矢量應用于密鑰字以及測試樣本的存儲,其中在預先確定的取樣時刻語音被數(shù)字化,并且以表明語音的數(shù)據(jù)存儲每一個特征矢量。在一個預處理的范圍內(nèi)進行語音信號的數(shù)字化。主要是全部的10ms從語音信號中確定一個特征矢量。
一個另外的繼續(xù)發(fā)展在于,為每個段存儲一個對該段的所有特征矢量取平均值的特征矢量,并且作為對于該段表征的特征矢量繼續(xù)使用。例如全部10ms產(chǎn)生的數(shù)字化的語音數(shù)據(jù)主要預處理成為具有25ms的時間擴展的重疊的時間窗口。為此可以使用一個LPC分析、一個頻譜分析或一個倒頻譜分析。對于每個10ms間隔提供具有n個系數(shù)的特征矢量作為各自分析的結(jié)果使用。主要對一個段的特征矢量取平均,因此每段提供一個特征矢量使用。在識別密鑰字的訓練的范圍內(nèi),來自交談語音的若干源的每段存儲多個不同的參考特征,因此提供多個已取平均的參考特征(密鑰字的特征矢量)使用。
此外給出一個用于在交談語音識別至少一個密鑰字的設(shè)備,其具有一個處理器單元,如此建立該單元,即實施如下步驟-密鑰字劃分為若干段,其中分配給每段一定數(shù)量的參考特征;-交談語音中的測試樣本劃分為若干段,其中可以分配給測試樣本的每段一個由密鑰字的相應段的一定數(shù)量的系統(tǒng)特征形成的類似于測試驗本的參考特征;-如果對于密鑰字的參考特征對測試樣本的積累的段方式的分配來說類似程度低于一個預先確定的界限,則測試樣本識別為密鑰字;-如果類似程度不低于預先確定的界限,則不識別密鑰字。
從屬權(quán)利要求中也得出本發(fā)明的繼續(xù)發(fā)展。
該設(shè)備特別適合于實施根據(jù)本發(fā)明的方法或?qū)嵤┮粋€其前面闡述的繼續(xù)發(fā)展。
根據(jù)下面的圖詳細描述本發(fā)明的實施例。
圖示
圖1一個簡圖,描述了在交談語音識別至少一個密鑰字的方法的步驟,圖2一個具有二種可能的識別密鑰字的實施例的簡圖,圖3一個簡圖,其闡明測試樣本在密鑰字上的映射和類似程度的確定,圖4在交談語音識別一個密鑰字的設(shè)備。
圖1指出了一個簡圖,其描述了在交談語音識別至少一個密鑰字的方法的步驟。
在25ms持續(xù)時間的重疊的時間窗口內(nèi)首先所有10ms數(shù)字化交談語音,并且也許可以預處理(濾波)。為此或者應用一個LPC分析、一個頻譜分析或者應用一個倒頻譜分析。在每個10ms間隔內(nèi)提供一個具有n個系數(shù)的特征矢量作為預處理的結(jié)果使用。
根據(jù)在字之間依據(jù)間隔能量或間隔頻譜斷定的間隔確定交談語音的-主要是字-各個成分。按這種方式辨認在交談語音內(nèi)的一個單獨的字。
在圖1中粗略區(qū)別兩個組成部分,一個訓練階段101和一個識別階段102。不僅在訓練階段101而且也在識別階段102斷定的字是一個密鑰字或是一個測試樣本,劃分為一個預先確定的數(shù)目段。首先對段的特征矢量取平均值。具有已取平均的特征矢量的段的順序提供一個字樣本。
一個在交談語音中識別的字(密鑰字或測試樣本)分別被劃分為預先確定數(shù)目的段。對在一個段的內(nèi)部的多個特征矢量取平均值,其中這個已取平均值的特征矢量全部說明這個字(字樣本)。存儲一個密鑰字用于此后的識別,對此存儲這個密鑰字的多個代表。特別有用地表明,多次錄取多個送話器的密鑰字,并且分別存儲最好描述密鑰字的錄取。對此每段以各一個已取平均值的特征矢量的形式存儲最好的錄取。因而得出涉及密鑰字的各自段的參考特征的預先確定的數(shù)目。根據(jù)以這種方式存儲的參考特征,由通過段的順序確定的次序形成的字可以組合成不同的參考樣本。對此密鑰字的不同代表的參考特征組合成為一個參考樣本。因此得出參考樣本的多種可能性作為密鑰字的原始代表存儲。在這個接著訓練階段101的識別階段102中最近的參考特征(涉及段)分別被分配給測試樣本的相應段。
訓練階段101包含密鑰字劃分為預先確定數(shù)目的段(參見方框103)。在步驟104中為每段i存儲ki個參考特征,其中k表明為密鑰字確定的代表的數(shù)目。在步驟105中通過參考特征的順序描述字等級,通過段的順序預先確定該參考特征。通過參考特征同參考樣本的不用組合說明字的等級,該字的等級以所有存儲的變化說明密鑰字,該組合描述了字等級的參考樣本層次。
在識別階段102中確定,是否可以把一個稱作測試樣本的字分配給密鑰字。為此根據(jù)上面的論述在步驟106中把測試樣本分段。在步驟107中測試樣本的段映射到密鑰字的段上,其中給測試樣本的每個段分別分配密鑰字的最類似的參考特征。對所有的段實施這個分配,為每個段計算的類似程度積累成為一個總的類似程度(參見步驟108)。如果積累的類似程度的值低于一個預先確定的界限,則該類似程度滿足測試樣本和密鑰字的高度類似,測試樣本識別為密鑰字(參見步驟109)。
特別根據(jù)一個間隔確定這個類似。如果兩個樣本類似,則這兩個樣本彼此有一個較小的間隔,相應地特征矢量的差值是低的。為各自的段確定的類似程度因此按照特征矢量的間隔,再者對于一個在段到段的映射中執(zhí)行的映射誤差來說也滿足這樣的間隔。類似程度的累積相當于段方式引起的映射誤差的相加,總的類似程度因而是一個在測試樣本分配給密鑰字的情況下總共引起的誤差的值。由于特別多個測試樣本應當識別為一個密鑰字,所以測試樣本被映射在多個密鑰字上,其中分別段方式地確定類似程度,并且為對每個密鑰字的每個分配計算一個累積的類似程度。識別這一個密鑰字,在該密鑰字中累積的總類似程度具有對多個密鑰字的所有分配的最小值。
圖2指出了一個具有兩種可能的識別密鑰字的實施例的簡圖。在圖1的情況下描述的、對于每個密鑰字來說類似程度的確定(參閱步驟201)導致最類似的密鑰字的識別或者得出(參閱步驟202或者對圖1的說明)。如果最好的累積類似程度、也就是在測試樣本映射到各自密鑰字上的情況下最低的誤差,高于一個預先確定的界限,則第二實施例不識別字等級或不得出字的等級。在如此情況下一個分配、也就是測試樣本在一個密鑰字上的映射是如此差,以此為出發(fā)點,即測試樣本不適密鑰字。中止對最好相配的密鑰字的被迫分配,該字始終是差的,并且?guī)缀醪幌嗯洹?br>
在圖3中描述了一個簡圖,該簡圖闡明了測試樣本在密鑰字上的映射和類似程度的確定。
一個測試樣本TEM的五個段SgiT(i=1、2…5)示范地映射在一個參考樣本RMU的五個段SGiS上??梢酝ㄟ^參考特征RMi的不同組合描述必須識別的密鑰字(字等級),通過段的次序決定參考特征。正如上面說明的,參考特征確定為密鑰字的段的特別好的代表(訓練階段)。
開始時把測試樣本的第一段SG1T分配給密鑰字的第一段SG1S。對此描述測試樣本TEM的第一段SG1T的、已取平均值特征矢量映射到參考特征RM1和RM2的最好一個上。接著測試樣本TEM的第二段SG2T映射到密鑰字的一個最近的參考特征上。對此三個不同的途徑W1、W2和W3是可能的。途徑W1向右增加0是一個段,途徑W2向右增加1是一個段,并且途徑W3向右增加2是一個段。也就是確定最好的類似程度,其中測試樣本TEM的第二段SG2T與參考特征RM1、RM2(對于途徑W1)、RM3、RM4、RM5(對于途徑W2)和RM1、RM2(對于途徑W3)進行比較,并且確定最類似的。相應地,依賴于在從第一到第二段的轉(zhuǎn)變過程中,也在從第二到第三段的轉(zhuǎn)變過程中采取的途徑繼續(xù)進行。
示范地對于第一段SG1S和第三段SG3S來說體現(xiàn)密鑰字的參考特征是相同的,因為各自段描述相同的聲音。為了不浪費不必要的存儲位置,分別多次存儲參考特征RMi并且逐個存儲在每個密鑰字中,則編制一個表,該表包含參考特征(參閱表)。就密鑰字的段來說因此在表TABELLE的存儲范圍內(nèi)僅僅保存指針,其中指針介紹參考特征的各自數(shù)據(jù)。一個指針(也就是在一個表內(nèi)的偏移)的存儲位置需求比屬于各自參考特征的數(shù)據(jù)明顯低。
圖4指出了一個用于語音識別至少一個密鑰字的設(shè)備。根據(jù)預處理402從交談語音401中確定特征矢量(參見[2])。接著實施一個字開始/字結(jié)束確定,并且已鑒別的字劃分為N個段(參見方框404)。在訓練階段(通過連接405確定)期間在一個步驟406中這些段存儲在一個數(shù)據(jù)庫407中,其中特別是按照一個浮動的平均值,一個段的多于M個的代表導致對在數(shù)據(jù)庫407中的代表取平均。為此一個段的代表經(jīng)過一個連接408被供給取平均的過程(也就是聚合)。在一個識別階段(通過連接409說明),隨著最佳相配于一個測試樣本的段選擇進行非線性的映射,其中為每個段從數(shù)據(jù)庫407中確定一個代表(參見方框410)。接著在一個方框411中實現(xiàn)分級,并且得出已識別的字(參見方框411)。
在該文獻的范圍內(nèi)引用了如下的出版物[1]A.Hauenstein“用于自動語音識別的一個處理器的算法和方案的最佳化”,慕尼黑工程學院,集成電路講座,論文,19.07.1993,第二章,13至26頁。N.Haberland,及其他人的“語音教學-如何在以計算機為基礎(chǔ)的語音識別中起作用 ”,C’t5/98,Heinz Heise出版社,漢諾威1998,120至125頁。
權(quán)利要求
1.通過一個計算機在交談語音識別至少一個密鑰字的方法,a)在該方法中密鑰字劃分為若干段,其中分配給每一個段一定數(shù)量的參考特征,b)在該方法中,在交談語音中的測試樣本劃分為若干段,其中給測試樣本的每個段分配由密鑰字的相應段的一定數(shù)量的參考特征形成的類似于該段的參考特征,c)在該方法中測試樣本作為密鑰字識別,為如此密鑰字確定一個類似程度,對于密鑰字的參考特征對測試樣本的累積的段方式分配來說該類似程度低于一個預先確定的界限。
2.按照權(quán)利要求1的方法,其中,測試樣本是一個獨立的聲音單元,特別是一個字。
3.按照權(quán)利要求1或2的方法,其中,對于密鑰字和對于測試樣本,段的數(shù)目總是相同的。
4.按照權(quán)利要求1至3之一的方法,其中,測試樣本與多個密鑰字進行比較并且輸出最類似的密鑰字。
5.按照上述權(quán)利要求之一的方法,其中為了存儲密鑰字以及測試樣本的語音使用了特征矢量,其中在預先確定的取樣時刻對語音數(shù)字化,并且以表征語音的數(shù)據(jù)存儲每一個特征矢量。
6.按照權(quán)利要求5的方法,其中為每個段存儲一個對這個段的所有特征矢量取平均值的特征矢量,并且作為用于這個段的特征矢量繼續(xù)使用。
7.按照上述權(quán)利要求之一的方法,其中如此確定預先確定的界限,即始終識別一個密鑰字。
8.在交談語音識別至少一個密鑰字的設(shè)備,在該設(shè)備中預先規(guī)定一個處理器單元,如此設(shè)計這個處理器單元,a)密鑰字可以化為若干段,其中可以分配給每個段一定數(shù)量的參考特征,b)在交談中的測試樣本可以劃分為若干段,其中可以給測試樣本的每個段分配由用于密鑰字的相應段的一定數(shù)量的參考特征形成的類似于該段的參考特征,c)如果對于密鑰字的參考特征對測試樣本的累積的段方式分配來說類似程度低于一個預先確定的界限,則測試樣本可以作為密鑰字識別。
全文摘要
為了在交談語音識別一個密鑰字,該密鑰字,同樣象一個必須識別的測試樣本一樣,劃分為若干段。通過形成一個間隔度,關(guān)于這些段積累這個間隔度,密鑰字和測試樣本的各個段互相映射。在一個訓練階段多次存儲密鑰字,其中為密鑰字的每個段分別確定并存儲多個參考特征。在識別中實現(xiàn)同測試樣本的附屬段最好相配的參考特征的段方式分配。
文檔編號G10L15/10GK1309801SQ99808603
公開日2001年8月22日 申請日期1999年5月3日 優(yōu)先權(quán)日1998年5月15日
發(fā)明者B·凱梅雷爾 申請人:西門子公司