国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      在交談語言中識別密鑰字的方法

      文檔序號:2820755閱讀:382來源:國知局
      專利名稱:在交談語言中識別密鑰字的方法
      技術領域
      本發(fā)明涉及在交談語言中識別密鑰字的方法。
      在交談語言中識別密鑰字時,迄今為止始終必需模擬完整交談的表現(xiàn)。專業(yè)人員基本上已知了二種方法從[1]中公開了一個識別密鑰字的方法,該方法使用了具有大量詞匯的語言識別器。對此試圖完全識別所交談的語言。緊接著根據(jù)可能存在的密鑰字檢查已識別的字。由于大量詞匯并由于在模擬突發(fā)語言的表現(xiàn)時的問題和噪音,該方法也不能明確一個附加于語言信號部分的字,該方法是費勁的并且有錯誤的。
      為了模擬不屬于密鑰字的詞匯的表現(xiàn)部分(所謂的OOV部分,OOV=超出詞匯),一個另外的方法使用了特殊的填充模型(也就是填充符-無用結(jié)構(gòu))。如此的語言識別器在[2]中說明,并且包含密鑰字以及一個填充結(jié)構(gòu)或多個填充結(jié)構(gòu)。該方法提供了一組填充字定義符和密鑰字定義符。對此,擬定或者訓練一個適合的填充結(jié)構(gòu)是困難的,這更好地突出模擬的密鑰字,也表明關于密鑰字結(jié)構(gòu)的高的鑒別。
      此外從[3]或[4]中公開了隱式-Markov結(jié)構(gòu)(HMMs),從[3]或[4]中公開了,借助于Viterbi算法確定的一個最好路徑。
      隱式-Markov結(jié)構(gòu)(HMMs)服務于個別隨機過程(也就是所謂的Markov過程)的描述。在語言識別的范圍內(nèi)隱式-Markov結(jié)構(gòu)(HMMs)此外用于建立一個字典,在該字典中記錄由各子單元構(gòu)成的字結(jié)構(gòu)。
      通過λ=(A,B,π)(0-1)正式描述隱式-Markov結(jié)構(gòu),其中該等式具有一個二次狀態(tài)轉(zhuǎn)移矩陣A,其包含狀態(tài)轉(zhuǎn)移概率AijA={Aij},其中,i,j=1…N(0-2)并且具有一個發(fā)送矩陣B,其包括發(fā)送概率BikB={Bik},其中i=1…N,k=1…M(0-3)一個N維矢量π用于初始化,對于時刻t=1,N個狀態(tài)的出現(xiàn)概率確定π={πi}=P(s(1)=si) (0-4)對此,概率一般以P(s(t)=qt) (0-5)表明,Markov鏈s={s(1),S(2),S(3),…,s(t)…}(0-6)在時刻t處于狀態(tài)qt。對此Markov鏈s具有一個取值范圍s(t)∈{s1,s2,…,sN} (0-7)其中,該取值范圍包含一個有限數(shù)量的N個狀態(tài)。這樣的狀態(tài)稱為qt,在該狀態(tài)中Markov過程處于時刻t。
      在狀態(tài)si中從一個確定的標記σk的出現(xiàn)得出發(fā)送概率BikBik=P(σk|qt=si) (0-8)其中,根據(jù)∑={σ1,σ2,…,σM} (0-9)數(shù)值M的字符組包∑含確定的標記σk(k=1…M)。
      隱式-Markov結(jié)構(gòu)的每個狀態(tài)可能有預先確定數(shù)量的隨機狀態(tài)本身、最近狀態(tài)、再下一個狀態(tài)、等等,這樣就從隱式-Markov結(jié)構(gòu)中得出狀態(tài)空間。具有所有可能轉(zhuǎn)變的狀態(tài)空間稱作格子結(jié)構(gòu)。在1階的隱式-Markov結(jié)構(gòu)中大于一個時間間距的后面的經(jīng)歷是不重要的。
      Viterbi算法基于這種思想。即如果處于狀態(tài)空間內(nèi)的最佳路徑上,則該路徑一直是整體最佳路徑的組成部分。由于1階的隱式-Markov結(jié)構(gòu),僅僅考慮了一個狀態(tài)的最好的原型(Vorgaenger),因為差的原型事先已經(jīng)包含一個差的求值。這也意味著,對于每個時間間隔確定路徑的所有可能的連續(xù)并選出最好的連續(xù),這樣就可以遞推地、從第一時刻開始、逐個時間間隔地尋找最佳路徑。
      在二個在[1]和[2]中說明的方法中,各一個OOV部分的模擬是必須的。在第一種情況[1]中,表現(xiàn)的字必須明確地存在于識別器的詞匯中,在第二種情況[2]中通過特殊的填充結(jié)構(gòu)描述所有的字和OOV噪聲。
      本發(fā)明的任務在于,說明一個方法,該方法能夠在交談語言中識別密鑰字,因此避免上述的缺點。
      根據(jù)權利要求1的特征解決了這個任務。
      根據(jù)本發(fā)明描述了一個以交談語言識別密鑰字的方法,其中,通過一組狀態(tài)W描述密鑰字。以預先確定的速率掃描交談語言,并且在每個掃描時刻t從交談語言中產(chǎn)生一個屬于掃描時刻t的語言信號的特征矢量Ot。借助于一個Viterbi算法在一組狀態(tài)W上映射特征矢量Ot的一組O,其中,在一個狀態(tài)中一個局部置信度代替發(fā)送程度,主要是發(fā)送概率的負對數(shù)。Viterbi算法提供了一個完整的置信度C(也就是置信度C)。如果得出C(W,O)<T (1)其中,各符號表示C() 置信度,W 密鑰字,描述為一組狀態(tài),O 一組特征矢量Ot,T 一個預先確定的閾值則以交談語言識別密鑰字。
      否則,不以交談語言識別密鑰字。
      本發(fā)明的優(yōu)點在于,不必全部模擬表現(xiàn),就可以在交談語言內(nèi)部識別密鑰字。因此得出在執(zhí)行時明顯地降低了費用,并且因此也得出一個高效(較快的)的方法。通過(完整的)置信度C作為一個基本的譯碼原理使用,在譯碼過程內(nèi)聲音的模擬局限于密鑰字。
      改進在于,在每個掃描時刻t,通過隱式-Markov結(jié)構(gòu)的狀態(tài)空間在一組狀態(tài)W的一個第一狀態(tài)中開始一個新的路徑。因此,在每個掃描時刻假設,在交談語言中包含密鑰字的開端。根據(jù)置信度在密鑰字的通過隱式-Markov結(jié)構(gòu)體現(xiàn)的狀態(tài)上映射由后面的掃描時刻產(chǎn)生的特征矢量。在映射的結(jié)尾,也就是路徑結(jié)尾,得出完整的置信度,根據(jù)該置信度邏輯判斷作出,是否密鑰字的假定開端是確實是如此的。如果是。則識別密鑰字,否則不識別。
      在本發(fā)明的改進的范圍內(nèi),通過C=-log P(w|o) (2)確定完整的置信度C,并且通過c=-logP(Ot|sj)&CenterDot;P(sj)P(Ot)---(3)]]>確定附屬的局部置信度c,其中各符號表示sj一組狀態(tài)的一個狀態(tài),P(W|O)在一組特征矢量Ot的條件下密鑰字的一個概率,
      P(Ot|sj) 發(fā)送概率,P(sj) 狀態(tài)sj的概率,P(Ot) 特征矢量Ot的概率。
      合適的完整置信度是通過這個性質(zhì)表征的,即說明關于一個可靠度的情況,以該可靠性證明密鑰字。在負的對數(shù)范圍內(nèi)完整置信度C的較小值表達一個高度的可靠性。
      在一個附加改進的范圍內(nèi),通過C=-logP(O|W)P(O|W&OverBar;)---(4)]]>確定置信度C,并且通過c=-logP(Ot|sj)P(Ot|sj&OverBar;)---(5)]]>確定附屬的局部置信度,其中各符號表示P(O|W) 在不出現(xiàn)密鑰字W的條件下特征矢量Ot組的概率,
      狀態(tài)sj的反情況(也就是非狀態(tài)sj)。
      所描述的置信度的優(yōu)點此外在于,其是可以計算的,也就是前面的訓練和/或評估是不必的。
      從完整的置信度的定義中能夠分別推導出局部置信度的定義。在與這個密鑰字的表現(xiàn)同步的時刻,局部密鑰字進行密鑰字的置信度的計算。
      通過關系式P(Ot)=&Sigma;kP(Ot|sk)&CenterDot;P(sk)---(6)]]>和P(Ot|sj&OverBar;)=&Sigma;k&NotEqual;jP(Ot|sk)&CenterDot;P(sk)---(7)]]>能夠計算局部置信度。
      此外,可以通過合適的近似方法確定P(Ot)或者P(Ot|
      )。對于如此的近似方法的一個實例是在每個時刻t對n個最好的發(fā)送-logP(Ot|sj)取平均值。
      通常借助于Viterbi算法實施譯碼過程ct,sj=mink(ct-1,sk+ct,sj+akj),]]>其中,各符號表示Ct,sj在狀態(tài)sj中在時刻t的完整的累加置信度,Ct-1,sk在狀態(tài)sk中在時刻t-1的完整的累加置信度,ct,sj在狀態(tài)sj中在時刻t的局部置信度,akj在狀態(tài)sj狀態(tài)sk的轉(zhuǎn)移附加量(Strafe)。
      因為對于一個密鑰字的完整置信度的描述來說,除時間限度外不需要局部置信度,所以在對密鑰字的尋找中放棄OOV部分的聲音模擬。
      通過使用Viterbi算法可能在每個時刻t、在密鑰字的第一狀態(tài)中開始一個新的路徑,其中首先密鑰字劃分為隱式-Markov結(jié)構(gòu)(HMMs)的各個狀態(tài),對于密鑰字來說優(yōu)化完整的置信度,并且同時確定最佳的開始時刻(Viterbi算法的后臺跟蹤)。
      此外,對于預先確定的時期來說在閾值T之下尋找一個最小值是按照目的的。因此避免了,在這個預先確定的時期內(nèi)多次識別密鑰字。
      如果得出密鑰字,這些密鑰字鑒于其通過各自的狀態(tài)組體現(xiàn)的說明形式彼此是類似的,則使用一個機理是有利的,該程序在識別密鑰字時排消除了在識別密鑰字的時期內(nèi)有時包含在交談的語言信號內(nèi)的另外的密鑰字。
      在從屬權利要求中給出本發(fā)明的改進。
      根據(jù)下面的附圖詳細描述本發(fā)明的實施例。
      圖示

      圖1以交談語言識別密鑰字的方法的方框圖,圖2闡明確定置信度的示意圖,圖3圖3的示意圖,其描述了在一個預先確定的持續(xù)時期中假設置信度的曲線。
      在圖1中描述了以連續(xù)的語言識別密鑰字的方法的方框圖。
      在步驟101中通過一組狀態(tài)W描述密鑰字。對此首先以各三個狀態(tài)替換音位HMMs(參見[3])。在下一步驟102中掃描連續(xù)的語言,并且在每個時刻t從連續(xù)的語言信號中為一個屬于掃描時刻t的語言信號建立一個特征矢量Ot。對此,特征矢量Ot1包含預先確定數(shù)量的特征,這些特征表明在掃描時刻t的語言信號的特征,也就是組成部分。
      在步驟103中在一組狀態(tài)W上映射一組特征矢量,這些特征對于不同的掃描時刻t是從語言信號中獲得的。對此映射規(guī)則說明Viterbi算法(參見[3])。用一個局部的置信度代替在Viterbi算法中使用的發(fā)送概率-log P(Ot|sj)。在步驟104中Viterbi算法在每個時刻提供一個完整的置信度C,其對于一組狀態(tài)W中所找到的狀態(tài)來說累積包含各個局部置信度。如果得出C(W,O)<T (1),則在步驟105中以連續(xù)語言識別密鑰字,其中各符號表示C() 完整置信度,W 密鑰字,描述為一組狀態(tài),O 一組特征矢量Ot,T 一個預先確定的閾值。
      否則不以連續(xù)語言識別密鑰字。
      下面說明對于一個完整置信度的二個可能的實現(xiàn)和各一個從屬的局部置信度。另外置信度是可以想象的。
      第一置信度從密鑰字的一個后驗概率的負對數(shù)中第一完整置信度定義為一個置信度C1=-log P(W|O) (2)。
      下面聯(lián)系以下假定運用Bayes的準則P(O)=&Pi;TP(Ot)---(8)]]>P(W)=&Pi;tP(s&psi;(t))---(9)]]>P(O|W)=&Pi;t[P(Ot|s&psi;(t))&CenterDot;a&psi;(t-1),&psi;(t)]---(10)]]>一組特征矢量P(O)的概率對此表達為各個特征矢量P(Ot)的概率的乘數(shù)。通過一個HMMs的全部各個選擇的狀態(tài)的各個概率P( )相乘的方法,以相同的方式計算整個字的P(W)的概率。其中函數(shù) (t)是在密鑰字的狀態(tài)上的特征矢量(也就是時間)的映射。有條件的概率P(O|W)與HMMs的通常的概率一致,其可以借助于發(fā)送概率P(Ot| )和躍遷概率 進行計算。因此得出完整置信度C1c1=&Sigma;t-log(P(Ot|s&psi;(t))&CenterDot;P(s&psi;(t))P(Ot)&CenterDot;a&psi;(t-1),&psi;(t))---(11)]]>如果考慮Viterbi算法的工作方式,則推薦局部置信度c1(Ot|sj)的定義,該置信度在Vterbi算法的尋找過程的內(nèi)部使用c1(Ot|sj)=-logP(Ot|sj)&CenterDot;P(sj)P(Ot)---(12)]]>考慮到HMMs的所有狀態(tài),就可以計算在等式(12)的分母中出現(xiàn)的特征矢量的概率的概率P(Ot)=&Sigma;kP(Ot|sk)&CenterDot;P(sk)---(13)]]>(參見等式(6))。
      在前面的訓練中確定這些狀態(tài)的后驗概率P(sk)。因此局部置信度c1(Ot|sj)是完全可以計算的。
      第二置信度第二置信度的定義包括一次在狀態(tài)W的表征密鑰字的組的條件下特征矢量Ot的一組O的有條件的概率比例,和另一次在對此相反結(jié)構(gòu)W的條件下的比例。對此得出C2=-logP(O|W)p(O|W&OverBar;)---(4).]]>對此W僅僅表明一種實際不存在的結(jié)構(gòu),可是可以計算其發(fā)送概率。與第一完整的置信度的定義不同,這個定義導致一個對稱的完整置信度,如果滿足P(O|W)=P(O|W)(14)則其在0時具有一個對稱中心。類似于定義完整置信度的情況,通過代入等式(8)、(9)和(10)在考慮各個相反的結(jié)構(gòu)

      的情況下得出如下等式c2=&Sigma;t-logP(Ot|s&psi;(t))&CenterDot;a&psi;(t-1),&psi;(t)P(Ot|s&psi;(t))&CenterDot;a&psi;(t-1),&psi;(t)---(15).]]>一個適合的、在由Viterbi算法實施的尋找中可以使用的局部置信度c2(Ot)被定義為c2(Ot|sj)=-logP(Ot|sj)P(Ot|sj&OverBar;)---(16).]]>在這種情況下也可以計算局部置信度c2(Ot|sj),因為,除了對于P(Ot|sj)之外可以自身計算所有加權的發(fā)送概率P(Ot|sj&OverBar;)=&Sigma;k&NotEqual;jP(Ot|sk)&CenterDot;P(sk)---(7)]]>這樣就可以計算分母,(也參見等式(7))。
      因此對置信度進行了二重定義,在低值的情況下(在這個置信度C2是一個負值的情況下),一個高的可靠性表明,已經(jīng)正確識別密鑰字。
      作為這個可計算的置信度的優(yōu)點說明,即不必訓練附加的HMMs,也不必高明地處理另外相關的參數(shù)。在使用普通的音位HMMs的情況下可以計算置信度。
      正如上面示出的,置信度的定義可以與一個基于隱式-Markov結(jié)構(gòu)的Viterbi尋找結(jié)合。HMMs的全部的各個狀態(tài)sj不確定概率P(Ot|sj)的負對數(shù),而是確定一個局部置信度c1或c2代替該對數(shù)。
      在圖2中描述了一個示意圖,其闡明一個置信度的確定。
      在圖2的上圖中,在橫坐標上描述了離散的時刻t1、t2…,并且在縱坐標上通過一組狀態(tài)ZS表征的密鑰字SW。在圖2的下面部分中示出了對時間軸t的一個連續(xù)的語言信號。
      連續(xù)的語言信號可以包含多個的,也可以包含不同的密鑰字,其中在一個時刻主要僅僅包含一個密鑰字。
      在離散時刻掃描連續(xù)的語言信號,并且以特征矢量Ot存儲在各個掃描時刻存在的信息。根據(jù)本發(fā)明,以此為出發(fā)點,即密鑰字開始于全部的這些掃描時刻。也就是在每個掃描時刻t1、t2或t3每次開始一個電位的密鑰字,以Viterbi算法的曲線可以復合其路徑。為了簡化,以一個密鑰字為出發(fā)點,其中多個密鑰字每次都需要每個要識別的密鑰字的方法。
      如果該密鑰字也在時刻t1開始,則根據(jù)從連續(xù)語言中獲得的特征矢量Ot進行緊跟在時刻t1的特征矢量的映射。分別確定關于累加置信度的最好的路徑PF。對于每個時刻t得出一個置信度C。置信度的值產(chǎn)生關于此的情況,即密鑰字是否包含在連續(xù)的語言中,或不,并且在時刻t結(jié)束。
      在圖2中示范地畫入了路徑,其開始于時刻t1、t2和t3,并且在時刻t4、t5和t6導致完整的置信度CI、CII和CIII。屬于CI和CII的完整置信度對應于在t1內(nèi)的可能的密鑰字開端,而完整置信度CIII最好通過在t2內(nèi)開始的路徑實現(xiàn)。
      在此可以看出,在每個時刻t發(fā)現(xiàn)一個完整的置信度C,其中通過使用Viterbi算法確定一個附屬的開始時刻。
      如果連續(xù)的語言包含一些完全另外的東西作為密鑰字,則置信度相應地變差,不能進行識別。根據(jù)Viterbi算法的工作方式,確定的完整置信度的不同路徑的長度是不同的,因此預示,由四個狀態(tài)的局部置信度形成完整置信度CI,而完整置信度CII和CIII包括五個狀態(tài)的局部置信度。因此相應密鑰字的持續(xù)時間為4Δt和5Δt。
      圖3闡明了這種關系。從圖2中確定的完整置信度CI、CII和CIII示范地在圖3中繪在縱坐標上。橫坐標再表征時間t。
      對于每個時刻t分別得出一個適當?shù)耐暾眯哦菴。
      首先確定完整置信度C的最小值MIN,并且因此以此為出發(fā)點,密鑰字以該最小值MIN存在于連續(xù)的語言中。
      就此而言這是重要的,因為在時刻ta已經(jīng)低于完整置信度C的閾值,也就是識別密鑰字。可是,正如在圖3中示范描述的,鑒于可變的動態(tài)匹配(確定位置置信度的不同持續(xù)時間),在緊接著到來的時刻ta+i“較好地”識別密鑰字,為了斷定什么時候最佳地識別密鑰字,在附屬時刻tMIN確定MIN。從這個時刻tMIN開始,借助于后臺跟蹤(參見[3])確定在連續(xù)語言信號中的開始時刻。也確定在連續(xù)語言信號中交談密鑰字的開端。
      在此可以看出,對于每個密鑰字可以實施一個如此的最小值確定,對于一個密鑰字的持續(xù)時間不能識別另外的密鑰字。如果同時進行連續(xù)語言疊加的多個密鑰字,則密鑰字首先是正確的密鑰字,與另外密鑰字相比其置信度表現(xiàn)較高的可靠性。
      在文獻的范圍內(nèi)引用了如下出版物[1]M.Weintraub“使用SRI譯碼的大詞匯量語言識別系統(tǒng)的鍵盤點”,Proc.IEEE ICASSP,1993,第2冊,463-466頁。H.Boulard,B.D’hoore和J.-M.Boite“在字點系統(tǒng)中的優(yōu)化識別和拒絕性能”,Proc.IEEE ICASSP,1994,第1冊,373-376頁。L.R.Rabiner,B.H.Juang“隱式markov模型的介紹”,IEEE ASSP雜志,1986,4-16頁。A.Hauenstein“用于自動語言識別的算法優(yōu)化和處理器的設計”,在慕尼黑技術大學的關于集成電路的博士論文,19.07.1993,13-35頁。
      權利要求
      1.在交談語言中識別密鑰字的方法,a)在該方法中,通過一組隱式-Markov模型的狀態(tài)W描述密鑰字,b)在該方法中,以一個預先確定的速率掃描交談語言,并且在每個掃描時刻t從交談語言中產(chǎn)生對于一個屬于掃描時刻t的語言信號的特征矢量Ot,c)在該方法中,借助于Viterbi算法在一組狀態(tài)上映射特征矢量Ot的組O,其中在一個狀態(tài)中局部置信度代替發(fā)送程度,d)在該方法中Viterbi算法提供一個完整的置信度C,e)在該方法中,如果得出C(W,O)<T其中,各符號表示C() 置信度,W密鑰字,描述為一組狀態(tài),O一組特征矢量Ot,T一個預先確定的閾值,則在交談語言中識別密鑰字,f)在該方法中,否則不以交談語言識別密鑰字。
      2.按照權利要求1的方法,其中,發(fā)送程度是發(fā)送概率的一個負對數(shù)。
      3.按照權利要求1或2的方法,其中,在每個掃描時刻t在狀態(tài)W的組的第一狀態(tài)中開始一個新的路徑。
      4.按照上述權利要求之一的方法,其中,在每個掃描時刻t,Viterbi算法提供一個完整的置信度。
      5.按照上述權利要求之一的方法,其中,通過C=-log P(W|O)確定置信度C,并且通過c=-logP(Ot|sj)&CenterDot;P(sj)P(Ot),]]>確定附屬的局部置信度,其中,sj表示一組狀態(tài)中的一個狀態(tài)。
      6.按照權利要求1至4之一的方法,其中,通過C=-logP(O|W)P(O|W&OverBar;),]]>確定置信度C,并且通過c=-logP(Ot|sj)P(Ot|sj&OverBar;),]]>確定附屬的局部置信度,其中W 表示非密鑰字。
      表示非狀態(tài)sj。
      7.按照上述權利要求之一的方法,其中,確定用于一個預先給出的持續(xù)時間的完整的置信度,并且從完整置信度的最小值中推斷出密鑰字的開始時刻。
      8.按照權利要求7的方法,其中,該最小值低于一個預先確定的閾值。
      9.用于識別多個密鑰字的方法,對于每個密鑰字同時使用按照上述權利要求之一的方法,其中只要低于多個預先確定的閾值,就以較好的置信度識別密鑰字。
      10.按照權利要求9的方法,其中,對于這個時期,在該時期內(nèi)要識別的密鑰字包含在交談語言中,不識別另外的密鑰字。
      全文摘要
      在每個掃描時刻假設一個密鑰字的開端,這樣就以交談語言識別了該密鑰字。然后嘗試在一組描述密鑰字的HMM狀態(tài)上映射該密鑰字。在表象空間內(nèi)借助于Viterbi算法確定最好的路徑,一個局部置信度代替一個在Viterbi算法中使用的附屬概率使用。如果對于最好的Viterbi路徑來說由局部置信度結(jié)合成的一個完整置信度低于一個下面的界限,則識別密鑰字,該路徑作為假設密鑰字的開端的掃描時刻得到證實。
      文檔編號G10L15/00GK1270688SQ98809296
      公開日2000年10月18日 申請日期1998年9月7日 優(yōu)先權日1997年9月18日
      發(fā)明者J·容卡維特施, H·赫格 申請人:西門子公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1