国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于反模型的置信度估計方法及裝置的制作方法

      文檔序號:2837519閱讀:557來源:國知局
      專利名稱:基于反模型的置信度估計方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語音識別技術(shù)中的用于探測和拒識集外詞輸入的置信度估 計技術(shù),具體地,涉及訓練與音素相關(guān)的反模型的方法和裝置、生成用于 基于反模型的置信度估計的權(quán)重的方法和裝置、用于語音識別結(jié)果的基于 反模型的置信度估計方法和裝置、以及語音識別方法和系統(tǒng)。
      背景技術(shù)
      一般地,在進行語音識別時,語音識別系統(tǒng)總是輸出最大概率所對應 的最佳候選作為識別結(jié)果。然而,當輸入語音包含集外詞時,這樣的"最 佳但是錯誤"的識別結(jié)果往往會導致嚴重的問題,尤其對于語音命令控制 系統(tǒng)。因此,如何探測和拒識集外詞是語音識別系統(tǒng)的一個核心技術(shù)。
      已經(jīng)提出了利用置信度估計技術(shù)解決集外詞的探測和拒識的技術(shù)方 案。在現(xiàn)有技術(shù)中,存在多種置信度估計的技術(shù),下面簡要描述主要的幾 種技術(shù)。
      方法1:使用每個候選的聲學后驗概率(聲學得分)作為置信度,則 聲學得分越高,置信度越高。該方法直接利用了在識別過程中得到的聲學 得分,系統(tǒng)額外開銷最小。然而,該方法由于僅依賴于用于識別語音的聲 學模型,因此只能提供有限的探測和拒識集外詞的性能。
      方法2:從由語音識別系統(tǒng)中的解碼器輸出的N-best多候選列表、詞 網(wǎng)格和/或混淆網(wǎng)絡(luò)等中提取置信度。該方法在G. Evermann和P.C. Woodland所著的文章 "Large Vocabulary Decoding and Confidence Estimation Using Word Posteriori probabilities"(發(fā)表于Proceeding of ICASSP, 2000 )以及A. Lee, K. Shikano和T. Kawahara所著的文章"RealTime Word Confidence Scoring Using Local Posterior Probabilities on Tree Trellis Search"(發(fā)表于Proceeding of ICASSP, 2004)中進行了詳 細的描述。
      方法3:利用諸如統(tǒng)計語言模型的退化得分等啟發(fā)式信息計算識別結(jié) 果的置信度。該方法在X. Huang, A. Acero和H. Hon所著的文獻"Spoken Language Processing: A Guide to Theory, Algorithm and System Development"(由Prentice Hall出版,第9.7節(jié),pp. 451-455, 2001)中
      進行了詳細的描述。以上文^/文章的全部內(nèi)容以引用方式包含于此,以供 參考。
      上述方法2和方法3通常適用于中等或者大型詞表的語音識別系統(tǒng), 尤其是方法3必須基于充^il練的語言模型。
      方法4:使用最優(yōu)候選與某個備擇假設(shè)之間的對數(shù)似然比作為置信度, 以實現(xiàn)集外詞的拒識。該方法適合于小詞表的語音識別系統(tǒng),例如語音命 令控制系統(tǒng)。

      發(fā)明內(nèi)容
      本發(fā)明正是基于上述技術(shù)問題而提出的,其目的在于提供一種訓練與 音素相關(guān)的反模型的方法和裝置、生成用于基于反模型的置信度估計的權(quán) 重的方法和裝置、用于語音識別結(jié)果的基于反模型的置信度估計方法和裝 置、以及語音識別方法和系統(tǒng)。
      根據(jù)本發(fā)明的 一個方面,提供一種訓練與音素相關(guān)的>^才莫型的方法, 包括以音素為聲學基元識別訓練語音,以得到上述訓練語音的識別結(jié)果; 分析上述識別結(jié)果中的各個音素之間的混淆度;對于上述識別結(jié)果中的每 一個音素,選擇至少一個易于與該音素混淆的竟爭性音素;建立第一反模 型和第二>^才莫型;利用與上述至少一個竟爭性音素對應的訓練語音段,訓 練上述第 一反才莫型;利用與除了上述至少一個竟爭性音素之外的音素對應 的訓練語音段,訓練上述第二反模型。
      根據(jù)本發(fā)明的另一個方面,提供一種生成用于基于反才莫型的置信度估計的權(quán)重的方法,包括建立訓練語音集合;基于上述訓練語音集合,設(shè) 計多個用于各自的特定語音命令控制應用的詞表;對于每一個上述特定語 音命令控制應用,以音素為聲學基元構(gòu)建相應的語音識別器;利用多個上 述語音識別器,對相應的上述詞表中的語音進行識別,以得到上述語音的 識別結(jié)果;對于上述識別結(jié)果中的每一個音素,對該音素的由反才莫型、音 素類型和音素位置構(gòu)成的每一個組合,計算該組合的對數(shù)似然比;根據(jù)上 述每一個組合的上述對數(shù)似然比,確定單獨利用該組合進行置信度估計時 的等錯誤率;以及根據(jù)上述每一個組合的上述等錯誤率,設(shè)定上述每一個 組合的權(quán)重,其中,上述等錯誤率低的組合的權(quán)重比上述等錯誤率高的組 合的權(quán)重高;其中,上述每一個音素的反模型是利用上述的訓練與音素相 關(guān)的^j漠型的方法訓練的。
      根據(jù)本發(fā)明的另 一個方面,提供一種用于語音識別結(jié)果的基于反模型 的置信度估計方法,包括對于上述語音識別結(jié)果中的每一個音素,基于 該音素的聲學得分和該音素的反模型,計算該音素的對數(shù)似然比;以;M" 于上述語音識別結(jié)果中的每一個詞,計算該詞的對數(shù)似然比為組成該詞的 所有音素的對數(shù)似然比與各自的權(quán)重的乘積和;其中,上述反模型是利用 上述的訓練與音素相關(guān)的反模型的方法訓練的;上述權(quán)重是利用上述的生 成用于基于反模型的置信度估計的權(quán)重的方法生成的。
      根據(jù)本發(fā)明的另一個方面,提供一種語音識別方法,包括以音素為 聲學基元對輸入的語音進行識別,以得到上述語音的識別結(jié)果;以及利用 上述的用于語音識別結(jié)果的基于反模型的置信度估計方法,對上述語音的 識別結(jié)果進行置信度估計。
      根據(jù)本發(fā)明的另 一個方面,提供一種訓練與音素相關(guān)的反模型的裝置, 包括語音識別器,其以音素為聲學基元識別訓練語音,以得到上述訓練 語音的識別結(jié)果;混淆度分析單元,其分析上述識別結(jié)果中的各個音素之 間的混淆度;選擇單元,其對于上述識別結(jié)果中的每一個音素,選擇至少 一個易于與該音素混淆的竟爭性音素;反模型建立單元,其對于上述每一 個音素,建立第一反模型和第二反模型;第一訓練單元,其對于上述每一個音素,利用與該音素的上述至少一個竟爭性音素對應的訓練語音段,訓
      練該音素的上述第一反模型;以及第二訓練單元,其對于上述每一個音素, 利用與除了該音素的上述至少 一個竟爭性音素之外的音素對應的訓練語音 段,訓練該音素的上述第二反模型。
      根據(jù)本發(fā)明的另 一個方面,提供一種生成用于基于反才莫型的置信度估 計的權(quán)重的裝置,包括訓練語音集合;詞表設(shè)計單元,其基于上述訓練 語音集合,設(shè)計多個用于各自的特定語音命令控制應用的詞表;多個語音 識別器,其分別對應于上述特定語音命令控制應用的每一個并被構(gòu)建為以 音素為聲學基元,并且對相應的上述詞表中的語音進行識別,以得到上述 語音的識別結(jié)果;對數(shù)似然比計算單元,其對于上述識別結(jié)果中的每一個 音素,對該音素的由反模型、音素類型和音素位置構(gòu)成的每一個組合,計 算該組合的對數(shù)似然比;等錯誤率確定單元,其根據(jù)上述每一個組合的上 述對數(shù)似然比,確定單獨利用該組合進行置信度估計時等錯誤率;以及權(quán) 重設(shè)定單元,其根據(jù)上述每一個組合的上述等錯誤率,設(shè)定上述每一個組 合的權(quán)重,其中,上述等錯誤率低的組合的權(quán)重比上述等錯誤率高的組合 的權(quán)重高;其中,上述每一個音素的反模型是利用上述的訓練與音素相關(guān) 的反才莫型的裝置訓練的。
      根據(jù)本發(fā)明的另一個方面,提供一種用于語音識別結(jié)果的基于反才莫型 的置信度估計裝置,包括音素的對數(shù)似然比計算單元,其對于上述語音 識別結(jié)果中的每一個音素,基于該音素的聲學得分和反才莫型,計算該音素 的對數(shù)似然比;以及詞的對數(shù)似然比計算單元,其對于上述語音識別結(jié)果 中的每一個詞,計算該詞的對數(shù)似然比為組成該詞的所有音素的對數(shù)似然 比與各自的權(quán)重的乘積和;其中,上述反模型是利用上述的訓練與音素相 關(guān)的反模型的裝置訓練的;上述權(quán)重是利用上述的生成用于基于^^模型的 置信度估計的權(quán)重的裝置生成的。
      根據(jù)本發(fā)明的另一個方面,提供一種語音識別系統(tǒng),包括語音識別 裝置,其以音素為聲學基元對輸入的語音進行識別,以得到上述語音的識 別結(jié)果;以及上述的用于語音識別結(jié)果的基于反模型的置信度估計裝置,其對上述語音的識別結(jié)果進行置信度估計。


      圖1是根據(jù)本發(fā)明的一個實施例的訓練與音素有關(guān)的反模型的方法的
      流程圖2是根據(jù)本發(fā)明的一個實施例的生成用于基于反模型的置信度估計 的權(quán)重的方法的流程圖3是根據(jù)本發(fā)明的一個實施例的用于語音識別結(jié)果的基于反模型的 置信度估計方法的流程圖4是根據(jù)本發(fā)明的一個實施例的語音識別方法的流程圖5是根據(jù)本發(fā)明的一個實施例的訓練與音素有關(guān)的反模型的裝置的 示意性方框圖6是根據(jù)本發(fā)明的一個實施例的生成用于基于反模型的置信度估計 的權(quán)重的裝置的示意性方框圖7是根據(jù)本發(fā)明的一個實施例的用于語音識別結(jié)果的基于反模型的 置信度估計裝置的示意性方框圖8是根據(jù)本發(fā)明的一個實施例的語音識別系統(tǒng)的示意性方框圖。
      具體實施例方式
      相信通過以下結(jié)合附圖對本發(fā)明的具體實施例的詳細描述,本發(fā)明的 上述和其它目的、特征和優(yōu)點將變得更加明顯。
      為了便于后面實施例的理解,首先簡要介紹一下前面所述的對數(shù)似然 比(LogLikelihood Ratio,簡稱LLR)測試。
      LLR測試使用下面的公式(1)計算LLR:
      <formula>formula see original document page 13</formula> (1)
      其中,O表示輸入語音,H。表示與識別輸出的最佳候選的目標模型對應的 零假設(shè),Hi表示與該目標模型的反模型對應的備擇假設(shè),P表示后驗概率。顯然,對于每個輸入語音O,如果基于零假設(shè)的概率P(OIH。)遠大于基于 備擇假設(shè)的概率P(OIH0,則零假設(shè)是可靠的。在具體的決策中,如果零 假設(shè)與備擇假設(shè)之間的對數(shù)似然比大于預定的決策閾值,則零假設(shè)Ho是可 靠的,最佳候選可被接受;反之,拒絕最佳候選。
      在LLR測試技術(shù)中,反模型的設(shè)計和訓練非常重要,其直接決定語音 識別系統(tǒng)對集外詞的拒識性能。
      下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細的說明。
      圖1是根據(jù)本發(fā)明的一個實施例的訓練與音素有關(guān)的反模型的方法的 流程圖。下面結(jié)合附圖,詳細說明本實施例。利用本實施例的方法訓練的 反才莫型將4皮用于后面結(jié)合其它實施例描述的生成用于基于反模型的置信度 估計的權(quán)重的方法和用于語音識別結(jié)果的基于反模型的置信度估計方法。
      如圖1所示,首先在步驟101,對訓練語音進行識別,以得到訓練語 音的識別結(jié)果。通常,訓練語音可定義為用于訓練聲學^^莫型以估計某些參 數(shù)的語音數(shù)據(jù),例如,由用戶預先錄入的語音數(shù)據(jù)。具體地,利用以音素 為聲學基元的語音識別器識別訓練語音,例如,該語音識別器是音素循環(huán) 識別網(wǎng)絡(luò)。當然,本領(lǐng)域的普通技術(shù)人員可以理解,還可以使用其它以音 素為聲學基元的語音識別器,這種語音識別器的結(jié)構(gòu)和原理是已知的,此 處省略說明。
      接著,在步驟105,分析在步驟101獲得的識別結(jié)果中的各個音素之 間的混淆度,從而得到記錄有每個音素對之間的混淆度的混淆矩陣。在本 實施例中,音素對之間的混淆度是指使得該音素對中的一個音素被誤識為 另一個音素的訓練語音的樣本個數(shù)。
      本領(lǐng)域的普通技術(shù)人員能夠理解,在該步驟中可以使用任何一個現(xiàn)有 的或未來的混淆度分析方法。
      然后,在步驟110,對于識別結(jié)果中的每一個音素,選擇至少一個易 于與該音素混淆的竟爭性音素。具體地,對于每一個音素,首先按照與該 音素之間的混淆度的大小對其它音素進行排序,然后從所排序的其它音素 中選擇混淆度較大的一個或多個音素,以j吏該音素與這些音素之間的混淆度的總和與訓練語音中該音素的樣本總數(shù)的比值超過混淆度闊值,那么這 些音素就是該音素的竟爭性音素。
      在本實施例中,混淆度閾值是預先確定的,優(yōu)選地,混淆度閾值的范
      圍是80%-卯%。
      然后,在步驟115,對每一個音素建立第一反纟莫型和第二反4莫型。在 本實施例中,初始的第一反模型和第二反模型具有相同的拓樸結(jié)構(gòu),并且 第一反模型和第二反模型可以是高斯混合模型(Gaussian Mixed Model, 簡稱GMM)或者隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)。
      然后,在步驟120,利用訓練語音中與該音素的竟爭性音素對應的訓 練語音段,訓練該音素的第一反模型。并在步驟125,利用訓練語音中與 除了竟爭性音素之外的音素對應的訓練語音段,訓練該音素的第二反模型。
      因此,這樣訓練好的第 一反模型在聲學空間上與對應的音素的聲學距 離較近,并對由于語音相似性而導致的識別錯誤敏感,從而對集外詞的探 測精度高,然而該反才莫型也容易導致將正確識別結(jié)果作為集外詞拒絕的錯 誤拒絕增多。另外,訓練好的第二反才莫型在聲學空間上與對應的音素的聲 學距離較遠,但是對環(huán)境變化的魯棒性較好,并且相對于固定的決策閾值 穩(wěn)定。通過這兩個反模型,可以既保持對集外詞的探測精度,又增強魯棒 性,從而降低錯誤拒絕率。
      本領(lǐng)域的普通技術(shù)人員容易知道,可以采用標準的聲學模型訓練方法 對第 一反模型和第二反模型進行訓練。
      此外,在本實施例中,對于中文語音,可以采用聲母和韻母代替音素。
      通過以上描述可以看出,本實施例的訓練與音素相關(guān)的反才莫型的方法 基于訓練語音的識別結(jié)果的混淆度分析,利用兩種類型的語音段分別訓練
      每一個音素的第一反模型和第二反模型,通過兩個反模型的結(jié)合,可以使 得采用兩個反模型的語音識別系統(tǒng)能夠準確地探測集外詞,并增強對環(huán)境 變化的魯棒性,減少餘誤拒絕。
      在同一發(fā)明構(gòu)思下,圖2是根據(jù)本發(fā)明的一個實施例的生成用于基于 反模型的置信度估計的權(quán)重的方法的流程圖。下面結(jié)合附圖,詳細說明本實施例,其中與前面實施例相同的部分,省略其說明。利用本實施例的方 法生成的權(quán)重將被用于后面結(jié)合其它實施例描述的用于語音識別結(jié)果的基 于反模型的置信度估計方法。
      如圖2所示,在步驟201,建立訓練語音集合。在本實施例中,訓練 語音集合至少包括音素平衡的詞和短語;特定語音命令控制應用中的常 用詞;以及"諒不同噪聲的語音。
      接著,在步驟205,基于該訓練語音集合,設(shè)計多個用于各自的特定 語音命令控制應用的詞表。具體地,根據(jù)某個特定語音命令控制應用的需
      要,在訓練語音集合中,選擇相應的訓練語音以構(gòu)成詞表。
      然后,在步驟210,對于每一個特定語音命令控制應用,以音素為聲 學基元構(gòu)建相應的語音識別器,用于識別用于該特定語音命令控制應用的 語音。在該步驟中構(gòu)建的語音識別器可以是現(xiàn)有或未來的任何一個以音素
      為聲學基元的基于統(tǒng)計模型的語音識別器。
      這樣,根據(jù)上述所設(shè)計的詞表和所構(gòu)建的語音識別器,可以生成用于 對數(shù)似然比計算的權(quán)重。
      然后,在步驟215,利用在步驟210中構(gòu)建的多個語音識別器,對相 應的詞表中的語音進行識別,以得到這些語音的識別結(jié)果,該識別結(jié)果中 包括音素的聲學得分。
      接著,在步驟220,對于識別結(jié)果中的每一個音素,對由該音素的反 模型、音素類型和音素位置構(gòu)成的每一個組合,計算該組合的對數(shù)似然比 作為其置信度,其中,音素的反模型是利用圖l所示的實施例的訓練與音 素相關(guān)的反才莫型的方法訓練的。
      具體地,根據(jù)識別結(jié)果中的一個音素,確定該音素的反才莫型、音素類 型和音素位置,并構(gòu)成多個組合。然后,對于多個組合的每一個,計算其
      對數(shù)似然比。
      如果反模型是高斯混合模型,則利用下式(2)計算對數(shù)似然比
      m T丄、(Ot)卞(AS氣-》ogb:(。t))
      丄m t=l
      卞(As『-|>g(j;<p(ot i ,( 2)
      lm t=i i=i
      其中,LLR:表示第m個音素與第C個反模型之間的對數(shù)似然比,Tm表示
      第m個音素的語音樣本總幀數(shù)(駐留長度),AScorem表示第m個音素的 聲學得分,Ot表示第m個音素的第t幀語音樣本,b:c)表示第c個反模型 對應的混合高斯分布,Ne表示第c個反模型對應的混合高斯分布的總數(shù)量, P一K。)表示第c個反模型對應的混合高斯分布中第i個高斯分布,w:表示 第i個高斯分布的混合權(quán)重。
      從公式(2 )可以看出,對數(shù)似然比的計算開銷主要來自高斯混合模型 的計算,在此可以采用高斯剪枝技術(shù),從而在性能不變的情況下顯著降低 計算量。
      然后,在步驟225,根據(jù)在步驟220中計算的每一個組合的對數(shù)似然 比,確定單獨利用該組合進行置信度估計時的等錯誤率。
      一般地,語音識別錯誤包括前面所述的錯誤拒絕和錯誤接受,其中錯 誤接受是指將錯誤的識別結(jié)果(集外詞或者集內(nèi)詞的錯誤識別)作為正確 結(jié)果接受。顯然,這兩種錯誤是一對矛盾體。例如,對于一個語音識別系 統(tǒng),當錯誤拒絕降低時,會導致錯誤接受增加,反之亦然。通過調(diào)節(jié)決策 闊值,可以使得餘溪拒絕率和錯誤接受率相同,此時的錯誤拒絕率或錯誤 接受率就是等錯誤率。通過等錯誤率,可以評估一個組合對于語音識別錯 誤探測的顯著性,從而衡量語音識別系統(tǒng)的拒識性能。通常,等錯誤率越 低,該組合對于語音識別錯誤探測的顯著性越高,系統(tǒng)的拒識性能也越高, 從而該音素的該組合在包含該音素的詞的對數(shù)似然比計算中的權(quán)重越大。
      最后,在步驟230,根據(jù)每一個組合的等錯誤率,設(shè)定每一個組合的 權(quán)重,其中,等錯誤率低的組合的權(quán)重比等錯誤率高的組合的權(quán)重高。
      通過以上描述可以看出,本實施例的生成用于基于反模型的置信度估 計的權(quán)重的方法在考慮了音素的平衡和不同的語音命令控制應用的優(yōu)化的基礎(chǔ)上,根據(jù)每個音素的由反模型、音素類型和音素位置構(gòu)成的每一個組 合所導致的語音識別錯誤的等錯誤率,設(shè)定該組合的權(quán)重,從而以數(shù)據(jù)驅(qū) 動的方式生成各個權(quán)重,提供了良好的可移植性。
      在同一個發(fā)明構(gòu)思下,圖3是根據(jù)本發(fā)明的一個實施例的用于語音識 別結(jié)果的基于反模型的置信度估計方法的流程圖,其中語音識別結(jié)果包括 音素的聲學得分。下面結(jié)合附圖,詳細說明本實施例,其中與前面實施例 相同的部分,省略其說明。
      如圖3所示,首先在步驟301,對于語音識別結(jié)果中的每一個音素, 基于該音素的聲學得分和該音素的反模型,計算該音素的對數(shù)似然比。在 本實施例中,音素的反模型是利用圖l所示的實施例的訓練與音素相關(guān)的 反模型的方法訓練的。
      具體地,在第一反模型和第二反模型是高斯混合模型的情況下,利用 前面所述的公式(2)計算音素的對數(shù)似然比LLR:,其表示第m個音素與 第c個反模型之間的對數(shù)似然比。
      然后,在步驟310,對于語音識別結(jié)果中的每一個詞,計算該詞的對 數(shù)似然比為組成該詞的所有音素的對數(shù)似然比與各自的權(quán)重的乘積和,即 詞的似然比等于其所包含的所有音素的對數(shù)似然比的加權(quán)和。由于不同的 音素類型和音素在詞內(nèi)的位置,詞內(nèi)的各個音素對于整個詞的置信度的貢 獻是不同的,例如,對于中文語音,通常清聲母對于置信度的貢獻比濁韻 母大,并且詞首的音素在一個詞中# 重要,因此不同的音素應具有不同的 權(quán)重。在本實施例中,音素的權(quán)重是利用圖2所示的實施例的生成用于基 于反模型的置信度估計的權(quán)重的方法生成的。
      具體地,通過下式(3)計算詞的對數(shù)似然比
      LLR=t|>cm(LLRcm) (3)
      c-l m=l
      其中,tSw^^i, w:表示權(quán)重,M表示組成該詞的音素的個數(shù)。
      通過以上描述可以看出,本實施例的用于語音識別結(jié)果的基于反才莫型的置信度估計方法采用詞的對數(shù)似然比作為置信度,并且通過詞內(nèi)各音素 的對數(shù)似然比的加權(quán)和來計算詞的對數(shù)似然比,考慮了音素的反模型、音 素類型和音素位置的影響,可以顯著提高語音識別系統(tǒng)的拒識性能。
      進一步地,在另一個實施例中,當獲得了語音識別結(jié)果中的每一個詞
      的對數(shù)似然比(步驟310)之后,比較每一個詞的對數(shù)似然比與一個或者 多個決策閾值,以確定該詞是否正確地識別。
      在本實施例中,決策閾值可以由用戶根據(jù)需要預先確定。如果是一個 決策閾值,則當詞的對數(shù)似然比大于該決策閾值時,則指示該詞,皮正確地 識別,否則指示該詞是錯誤識別。如果是多個決策閾值,則當詞的對數(shù)似 然比大于最大的決策閾值時,指示該詞;陂正確地識別;當詞的對數(shù)似然比 小于最小的決策閾值時,指示該詞是錯誤識別;當詞的對數(shù)似然比在最小 的決策閾值與最大的決策閾值之間時,通知用戶重新調(diào)整決策閾值。
      進一步地,在另一個實施例中,當獲得了語音識別結(jié)果中的每一個詞 的對數(shù)似然比(步驟310)之后,利用歸一化函數(shù)將詞的對數(shù)似然比歸一 化為一定范圍內(nèi)的置信度得分,例如1到100。然后將語音識別結(jié)果及其 置信度得分提供給用戶。
      在同一個發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明的一個實施例的語音識別方 法的流程圖。下面結(jié)合附圖,詳細說明本實施例,其中與前面實施例相同 的部分,省略其說明。
      如圖4所示,首先在步驟401,以音素為聲學基元對輸入的語音進行 識別,以得到輸入的語音的識別結(jié)果。如前所述,可以利用以音素為聲學 基元的語音識別器對輸入的語音進行識別,例如,音素循環(huán)識別網(wǎng)絡(luò)等。
      然后,在步驟410,利用圖3所示的實施例的用于語音識別結(jié)果的基 于反模型的置信度估計方法,對輸入的語音的識別結(jié)果進行置信度估計。
      在同一個發(fā)明構(gòu)思下,圖5是才艮據(jù)本發(fā)明的一個實施例的訓練與音素 有關(guān)的反模型的裝置的示意性方框圖。下面結(jié)合附圖,詳細說明本實施例。 利用本實施例的裝置訓練的反模型將被用于后面結(jié)合其它實施例描述的生 成用于基于反模型的置信度估計的權(quán)重的裝置和用于語音識別結(jié)果的基于反模型的置信度估計裝置。
      如圖5所示,本實施例的訓練與音素有關(guān)的反模型的裝置500包括 語音識別器501,其以音素為聲學基元識別訓練語音,以得到訓練語音的 識別結(jié)果;混淆度分析單元502,其分析通過語音識別器501得到的識別 結(jié)果中的各個音素之間的混淆度;竟爭性音素選擇單元503,其對于識別 結(jié)果中的每一個音素,選擇至少一個易于與該音素混淆的竟爭性音素;反 模型建立單元504,其對于每一個音素,建立第一反模型和第二反模型; 第一訓練單元505,其對于每一個音素,利用與該音素的竟爭性音素對應 的語音段,訓練該音素的第一反模型;以及第二訓練單元506,其對于每 一個音素,利用與除了該音素的竟爭性音素之外的音素對應的語音段,訓 練該音素的第二反才莫型。
      在本實施例中,語音識別器501可以是現(xiàn)有的或未來的任何一個以音 素為聲學基元的基于統(tǒng)計模型的語音識別器。
      當利用竟爭性音素選擇單元503選擇某個音素的竟爭性音素時,首先 由音素排序單元根據(jù)與該音素之間的混淆度,對其它音素進行排序,然后 音素選擇單元從由音素排序單元排序的其它音素中選擇一個或多個混淆度 大的音素,以使這些音素與該音素之間的混淆度的總和與訓練語音中該音 素的樣本總數(shù)的比值超過混淆度閾值,那么這些音素就是該音素的竟爭性 音素。
      反模型建立單元504所建立的第一反模型和第二反模型的初始拓樸結(jié) 構(gòu)可以相同,并且第一反模型和第二反模型可以是高斯混合模型或隱馬爾 可夫模型。
      應當指出,本實施例中的訓練與音素相關(guān)的反模型的裝置500及其各 個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器) 執(zhí)行相應的程序來實現(xiàn)。并且,本實施例的訓練與音素相關(guān)的反模型的裝 置500在操作上可以實現(xiàn)圖1所示的實施例的訓練與音素相關(guān)的^J漠型的 方法。
      在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明的一個實施例的生成用于基于反模型的置信度估計的權(quán)重的裝置的示意性方框圖。下面結(jié)合附圖,詳細
      說明本實施例,其中與前面實施例相同的部分,省略其i兌明。利用本實施 例的裝置生成的權(quán)重將被用于后面結(jié)合其它實施例描述的用于語音識別結(jié) 果的基于反模型的置信度估計裝置。
      如圖6所示,本實施例的生成用于基于>^模型的置信度估計的權(quán)重的 裝置600包括訓練語音集合601,其包含訓練語音;詞表設(shè)計單元602, 其基于訓練語音集合601中的訓練語音,設(shè)計多個用于各自的特定語音命 令控制應用的詞表;多個語音識別器603,其分別對應于特定語音命令控 制應用的每一個并被構(gòu)建為以音素為聲學基元,并且對由詞表設(shè)計單元 602設(shè)計的詞表中的語音進行識別,以得到識別結(jié)果;對數(shù)似然比計算單
      元604,其對于識別結(jié)果中的每一個音素,對該音素的由反才莫型、音素類 型和音素位置構(gòu)成的每一個組合,計算該組合的對數(shù)似然比;等錯誤率確
      定單元605,其根據(jù)每一個組合的對數(shù)似然比,確定單獨利用該組合進行 置信度估計時的等錯誤率;以及權(quán)重設(shè)定單元606,其根據(jù)每一個組合的 等錯誤率,設(shè)定每一個組合的權(quán)重,其中,等錯誤率低的組合的權(quán)重比等 錯誤率高的組合的權(quán)重高;其中,每一個音素的反才莫型是利用圖5所示的 實施例的訓練與音素相關(guān)的反才莫型的裝置500訓練的。
      在本實施例中,訓練語音集合601至少包括音素平衡的詞和短語; 特定語音命令控制應用中的常用詞;以及混有不同噪聲的語音。
      在對數(shù)似然比計算單元604中,如果音素的反模型是高斯混合模型, 則根據(jù)前面所述的公式(2)計算每一個組合的對數(shù)似然比。
      應當指出,本實施例中的生成用于基于反模型的置信度估計的權(quán)重的 裝置600及其各個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過計 算機(處理器)執(zhí)行相應的程序來實現(xiàn)。并且,本實施例的生成用于基于 反模型的置信度估計的權(quán)重的裝置600在操作上可以實現(xiàn)圖2所示的實施 例的生成用于基于反模型的置信度估計的權(quán)重的方法。
      在同一個發(fā)明構(gòu)思下,圖7是根據(jù)本發(fā)明的一個實施例的用于語音識 別結(jié)果的基于反模型的置信度估計裝置的示意性方框圖。下面結(jié)合附圖,詳細說明本實施例,其中與前面實施例相同的部分,省略其說明。
      如圖7所示,本實施例的用于語音識別結(jié)果的基于反模型的置信度估 計裝置700包括音素的對數(shù)似然比計算單元701,其對于語音識別結(jié)果 中的每一個音素,基于該音素的聲學得分和反模型,計算該音素的對數(shù)似 然比;以及詞的對數(shù)似然比計算單元702,其對于語音識別結(jié)果中的每一 個詞,計算該詞的對數(shù)似然比為組成該詞的所有音素的對數(shù)似然比與各自 的權(quán)重的乘積和;其中,音素的反模型是利用圖5所示的實施例的訓練與 音素相關(guān)的反模型的裝置500訓練的,權(quán)重是利用圖6所示的實施例的生 成用于基于反模型的置信度估計的權(quán)重的裝置600生成的。
      在音素的對數(shù)似然比計算單元701中,如果音素的反模型是高斯混合 模型,則根據(jù)前面所述的公式(2)計算音素的對數(shù)似然比;而在詞的對數(shù) 似然比計算單元702中,根據(jù)前面所述的公式(3)計算詞的對數(shù)似然比。
      進一步地,本實施例的用于語音識別結(jié)果的基于反模型的置信度估計 裝置700還包括比較單元,其比較所計算的每一個詞的對數(shù)似然比與一 個或者多個決策閾值,以確定該詞是否正確地識別。當詞的對數(shù)似然比大 于決策閾值時,表示該詞被正確地識別。
      如前所述,決策閾值可以由用戶才艮據(jù)需要預先確定。如果是一個決策 閾值,則當詞的對數(shù)似然比大于該決策閾值時,則指示該詞,皮正確地識別, 否則指示該詞是錯誤識別。如果是多個決策閾值,則當詞的對數(shù)似然比大 于最大的決策閾值時,指示該詞被正確地識別;當詞的對數(shù)似然比小于最 小的決策閾值時,指示該詞是錯誤識別;當詞的對數(shù)似然比在最小的決策 閾值與最大的決策閾值之間時,通知用戶重新調(diào)整決策閾值。
      進一步地,本實施例的用于語音識別結(jié)果的基于反^t型的置信度估計 裝置700還包括歸一化單元,其利用歸一化函數(shù)將詞的對數(shù)似然比歸一 化為一定范圍內(nèi)的置信度得分,例如1到100。
      應當指出,本實施例中的用于語音識別結(jié)果的基于反模型的置信度估 計裝置700及其各個組成部分可以用專用的電路或芯片構(gòu)成,也可以通過 計算機(處理器)執(zhí)行相應的程序來實現(xiàn)。并且,本實施例的用于語音識別結(jié)果的基于反模型的置信度估計裝置700在操作上可以實現(xiàn)圖3所示的 實施例的用于語音識別結(jié)果的基于反模型的置信度估計方法。
      在同一發(fā)明構(gòu)思下,圖8是根據(jù)本發(fā)明的一個實施例的語音識別系統(tǒng) 的示意性方框圖。下面結(jié)合附圖,詳細說明本實施例,其中與前面實施例 相同的部分,省略其說明。
      如圖8所示,本實施例的語音識別系統(tǒng)800包括語音識別裝置801, 其可以是現(xiàn)有的或未來的任何一種以音素為聲學基元的語音識別裝置,對 輸入的語音進行識別,以得到語音的識別結(jié)果;以瓦基于反模型的置信度 估計裝置,其可以是圖7所示的實施例的用于語音識別結(jié)果的基于反模型 的置信度估計裝置700,用于對由語音識別裝置801輸出的識別結(jié)果進行 置信度估計。
      應當指出,本實施例的語音識別系統(tǒng)800及其各個組成部分可以用專 用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應的程序來實 現(xiàn)。并且,本實施例的語音識別系統(tǒng)800在操作上可以實現(xiàn)圖4所示的實 施例的語音識別方法。
      以上雖然通過一些示例性的實施例詳細描述了本發(fā)明的訓練與音素相 關(guān)的反模型的方法和裝置、生成用于基于反模型的置信度估計的權(quán)重的方 法和裝置、用于語音識別結(jié)果的基于反模型的置信度估計方法和裝置以及 語音識別方法和系統(tǒng),但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人 員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不 限于這些實施例,本發(fā)明的范圍僅由所附的權(quán)利要求限定。
      權(quán)利要求
      1. 一種訓練與音素相關(guān)的反模型的方法,包括以音素為聲學基元識別訓練語音,以得到上述訓練語音的識別結(jié)果;分析上述識別結(jié)果中的各個音素之間的混淆度;對于上述識別結(jié)果中的每一個音素,選擇至少一個易于與該音素混淆的競爭性音素;建立第一反模型和第二反模型;利用與上述至少一個競爭性音素對應的訓練語音段,訓練上述第一反模型;以及利用與除了上述至少一個競爭性音素之外的音素對應的訓練語音段,訓練上述第二反模型。
      2. 根據(jù)權(quán)利要求1所述的訓練與音素相關(guān)的反4莫型的方法,其中, 上述選擇至少一個易于與該音素混淆的竟爭性音素的步驟包括根據(jù)與該音素之間的混淆度,對上述識別結(jié)果中的其它音素進行排序;以及從所排序的上述其它音素中選擇一個或多個混淆度大的音素作為竟爭 性音素,以使其與該音素之間的混淆度的總和與上述訓練語音中該音素的 樣本總數(shù)的比值超過混淆度閾值。
      3. 根據(jù)權(quán)利要求1或2所述的訓練與音素相關(guān)的反模型的方法,其 中,上述音素用中文語音的聲母和韻母替換。
      4. 根據(jù)權(quán)利要求1至3任意一項所述的訓練與音素相關(guān)的反模型的 方法,其中,上述第一反模型和第二反模型是高斯混合模型。
      5. 根據(jù)權(quán)利要求1至3任意一項所述的訓練與音素相關(guān)的反模型的 方法,其中,上述第一反模型和第二反模型是隱馬爾可夫才莫型。
      6. —種生成用于基于反模型的置信度估計的權(quán)重的方法,包括 建立訓練語音集合;基于上述訓練語音集合,設(shè)計多個用于各自的特定語音命令控制應用的詞表;對于每一個上述特定語音命令控制應用,以音素為聲學基元構(gòu)建相應 的語音識別器;利用多個上述語音識別器,對相應的上述詞表中的語音進行識別,以 得到上述語音的識別結(jié)果;對于上述識別結(jié)果中的每一個音素,對該音素的由反模型、音素類型和音素位置構(gòu)成的每一個組合, 計算該組合的對數(shù)似然比;根據(jù)上述每一個組合的上述對數(shù)似然比,確定單獨利用該組合進 行置信度估計時的等錯誤率;以及根據(jù)上述每一個組合的上述等錯誤率,設(shè)定上述每一個組合的權(quán) 重,其中,上述等錯誤率低的組合的權(quán)重比上述等錯誤率高的組合的權(quán)重 高;其中,上述每一個音素的反模型是利用權(quán)利要求1至5任意一項所述 的訓練與音素相關(guān)的^i莫型的方法訓練的。
      7. 根據(jù)權(quán)利要求6所述的生成用于基于反模型的置信度估計的權(quán)重 的方法,其中,上述訓練語音集合至少包括音素平衡的詞和短語;特定 語音命令控制應用中的常用詞;以及混有不同噪聲的語音。
      8. 根據(jù)權(quán)利要求6或7所述的生成用于基于反模型的置信度估計的 權(quán)重的方法,其中,在上述反模型是高斯混合模型的情況下,計算每一個 組合的對數(shù)似然比的步驟包括計算下式<formula>formula see original document page 3</formula>其中,llr:表示第m個音素與第c個反模型之間的對數(shù)似然比,Tm 表示第m個音素的訓練語音幀數(shù),AScorem表示第m個音素的聲學得分, 0(表示第m個音素的第t幀語音樣本,Ne表示第c個反模型對應的混合高 斯分布的總數(shù)量,P(,I々)表示第c個反模型對應的混合高斯分布中第i個高斯分布,w,。表示第i個高斯分布的混合權(quán)重。
      9. 一種用于語音識別結(jié)果的基于反模型的置信度估計的方法,包括 對于上述語音識別結(jié)果中的每一個音素,基于該音素的聲學得分和該音素的反模型,計算該音素的對數(shù)似然比;以及對于上述語音識別結(jié)果中的每一個詞,計算該詞的對數(shù)似然比為組成 該詞的所有音素的對數(shù)似然比與各自的權(quán)重的乘積和;其中,上述反模型是利用權(quán)利要求1至5任意一項所述的訓練與音素 相關(guān)的>^才莫型的方法訓練的;上^重是利用權(quán)利要求6至8任意一項所述的生成用于基于>^才莫型 的置信度估計的權(quán)重的方法生成的。
      10. 根據(jù)權(quán)利要求9所述的用于語音識別結(jié)果的基于反模型的置信度 估計方法,其中,在上述反模型是高斯混合模型的情況下,所述計算該音 素的對數(shù)似然比的步驟包括計算下式LLR: t(AS氣-5>g(jxp(Ot I ,lm t-1 i=l其中,LLR:表示第m個音素與第c個反模型之間的對數(shù)似然比,Tm 表示第m個音素的訓練語音幀數(shù),AScorem表示第m個音素的聲學得分, Ot表示第m個音素的第t幀語音樣本,Ne表示第c個反模型對應的混合高 斯分布的總數(shù)量,P(, I表示第c個反模型對應的混合高斯分布中第i個高 斯分布,^表示第i個高斯分布的混合權(quán)重。
      11. 根據(jù)權(quán)利要求9或10所述的用于語音識別結(jié)果的基于反模型的置 信度估計方法,還包括比較上述每一個詞的對數(shù)似然比與 一個或者多個決策閾值,以確定該 詞是否正確地識別。
      12. 根據(jù)權(quán)利要求9或10所述的用于語音識別結(jié)果的基于>^才莫型的置 信度估計方法,還包括將上述詞的對數(shù)似然比歸一化為一定范圍內(nèi)的置 信度得分。
      13. —種語音識別方法,包括以音素為聲學基元對輸入的語音進行識別,以得到上述語音的識別結(jié) 果;以及利用權(quán)利要求9至12任意一項所述的用于語音識別結(jié)果的基于反模型 的置信度估計方法,對上述語音的識別結(jié)果進行置信度估計。
      14. 一種訓練與音素相關(guān)的反模型的裝置,包括語音識別器,其以音素為聲學基元識別訓練語音,以得到上述訓練語 音的識別結(jié)果;混淆度分析單元,其分析上述識別結(jié)果中的各個音素之間的混淆度; 竟爭性音素選擇單元,其對于上述識別結(jié)果中的每一個音素,選擇至少 一個易于與該音素混淆的竟爭性音素;反模型建立單元,其對于上述每一個音素,建立第一反模型和第二反模型;第一訓練單元,其對于上述每一個音素,利用與該音素的上述至少一個竟爭性音素對應的訓練語音段,訓練該音素的上述第一反模型;以及 第二訓練單元,其對于上述每一個音素,利用與除了該音素的上述至少一個竟爭性音素之外的音素對應的訓練語音段,訓練該音素的上述第二 反模型。
      15. 根據(jù)權(quán)利要求14所述的訓練與音素相關(guān)的反模型的裝置,其中,上述竟爭性音素選擇單元包括音素排序單元,用于根據(jù)與該音素之間的混淆度,對上述識別結(jié)果中的其它音素進行排序;以及音素選擇單元,用于從所排序的上述其它音素中選擇一個或多個混淆 度大的音素作為竟爭性音素,以使其與該音素之間的混淆度的總和與上述 訓練語音中該音素的樣本總數(shù)的比值超過混淆度閾值。
      16. 根據(jù)權(quán)利要求14或15所述的訓練與音素相關(guān)的反模型的裝置,其 中,上述音素用中文語音的聲母和韻母替換。
      17. 根據(jù)權(quán)利要求14至16任意一項所述的訓練與音素相關(guān)的反才莫型的裝置,其中,上述第一反模型和第二反模型是高斯混合才莫型。
      18. 根據(jù)權(quán)利要求14至16任意一項所述的訓練與音素相關(guān)的反模型的 裝置,其中,上述第一反模型和第二反模型是隱馬爾可夫模型。
      19. 一種生成用于基于反模型的置信度估計的權(quán)重的裝置,包括 訓練語音集合;詞表設(shè)計單元,其基于上述訓練語音集合,設(shè)計多個用于各自的特定 語音命令控制應用的詞表;多個語音識別器,其分別對應于上述特定語音命令控制應用的每一個 并被構(gòu)建為以音素為聲學基元,并且對相應的上述詞表中的語音進行識別, 以得到上述語音的識別結(jié)果;對數(shù)似然比計算單元,其對于上述識別結(jié)果中的每一個音素,對該音 素的由反模型、音素類型和音素位置構(gòu)成的每一個組合,計算該組合的對 數(shù)似然比;等錯誤率確定單元,其根據(jù)上述每一個組合的上述對數(shù)似然比,確定 單獨利用該組合進行置信度估計時的等錯誤率;以及權(quán)重設(shè)定單元,其根據(jù)上述每一個組合的上述等錯誤率,設(shè)定上述每 一個組合的權(quán)重,其中,上述等錯誤率低的組合的權(quán)重比上述等錯誤率高 的組合的4又重高;其中,上述每一個音素的反模型是利用權(quán)利要求14至18任意一項所 述的訓練與音素相關(guān)的反模型的裝置訓練的。
      20. 根據(jù)權(quán)利要求19所述的生成用于基于反模型的置信度估計的權(quán)重 的裝置,其中,上述訓練語音集合至少包括音素平衡的詞和短語;特定 語音命令控制應用中的常用詞;以及混有不同噪聲的語音。
      21. 根據(jù)權(quán)利要求19或20所述的生成用于基于反模型的置信度估計的 權(quán)重的裝置,其中,在上述反模型是高斯混合模型的情況下,上^t數(shù)似 然比計算單元根據(jù)下式計算上述每一個組合的對數(shù)似然比<formula>formula see original document page 6</formula>其中,llr:表示第m個音素與第c個反模型之間的對數(shù)似然比,Tm 表示第m個音素的訓練語音幀數(shù),AScorem表示第m個音素的聲學得分, Ot表示第m個音素的第t幀語音樣本,Ne表示第c個反模型對應的混合高 斯分布的總數(shù)量,P—I義:)表示第c個反模型對應的混合高斯分布中第i個高 斯分布,w〖表示第i個高斯分布的混合權(quán)重。
      22. —種用于語音識別結(jié)果的基于反模型的置信度估計裝置,包括 音素的對數(shù)似然比計算單元,其對于上述語音識別結(jié)果中的每一個音素,基于該音素的聲學得分和反模型,計算該音素的對數(shù)似然比;以及 詞的對數(shù)似然比計算單元,其對于上述語音識別結(jié)果中的每一個詞, 計算該詞的對數(shù)似然比為組成該詞的所有音素的對數(shù)似然比與各自的權(quán)重 的乘積和;其中,上述反模型是利用權(quán)利要求14至18任意一項所述的訓練與音 素相關(guān)的反模型的裝置訓練的;上述權(quán)重是利用權(quán)利要求19至21任意一項所述的生成用于基于反模 型的置信度估計的權(quán)重的裝置生成的。
      23. 根據(jù)權(quán)利要求22所述的用于語音識別結(jié)果的基于反模型的置信度 估計裝置,其中,在上述反模型是高斯混合模型的情況下,上述音素的對 數(shù)似然比計算單元根據(jù)下式計算上述每一個音素的對數(shù)似然比<formula>formula see original document page 7</formula>其中,llr匸表示第m個音素與第c個反模型之間的對數(shù)似然比,Tm 表示第m個音素的訓練語音幀數(shù),AScorem表示第m個音素的聲學得分, Ot表示第m個音素的第t幀語音樣本,Ne表示第c個反模型對應的混合高 斯分布的總數(shù)量,p(.i;O表示第c個反模型對應的混合高斯分布中第i個高斯分布,w:表示第i個高斯分布的混合權(quán)重。
      24. 根據(jù)權(quán)利要求22或23所述的用于語音識別結(jié)果的基于反模型的置 信度估計裝置,還包括比較單元,其比較上述每一個詞的對數(shù)似然比與一個或者多個決策閾值,以確定該詞是否正確地識別。
      25. 根據(jù)權(quán)利要求22或23所述的用于語音識別結(jié)果的基于反模型的置 信度估計裝置,還包括歸一化單元,其將上述詞的對數(shù)似然比歸一化為一定范圍內(nèi)的置信度得分。
      26. —種語音識別系統(tǒng),包括語音識別裝置,其以音素為聲學基元對輸入的語音進行識別,以得到 上述語音的識別結(jié)果;以及權(quán)利要求22至25任意一項所述的用于語音識別結(jié)果的基于反模型的 置信度估計裝置,其對上述語音的識別結(jié)果進行置信度估計。
      全文摘要
      本發(fā)明提供一種訓練與音素相關(guān)的反模型的方法和裝置、生成用于基于反模型的置信度估計的權(quán)重的方法和裝置、用于語音識別結(jié)果的基于反模型的置信度估計方法和裝置、語音識別方法和系統(tǒng),其中訓練與音素相關(guān)的反模型的方法包括以音素為聲學基元識別訓練語音,以得到訓練語音的識別結(jié)果;分析識別結(jié)果中的各個音素之間的混淆度;對于識別結(jié)果中的每一個音素,選擇易于與該音素混淆的至少一個競爭性音素;建立第一反模型和第二反模型;利用與上述至少一個競爭性音素對應的訓練語音段,訓練第一反模型;利用與除了上述至少一個競爭性音素之外的音素對應的訓練語音段,訓練第二反模型。
      文檔編號G10L15/00GK101452701SQ200710194139
      公開日2009年6月10日 申請日期2007年12月5日 優(yōu)先權(quán)日2007年12月5日
      發(fā)明者磊 何 申請人:株式會社東芝
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1