国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種非特定人孤立詞語音識別方法及裝置的制作方法

      文檔序號:2821681閱讀:441來源:國知局
      專利名稱:一種非特定人孤立詞語音識別方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及自動語音識別技術(shù)領(lǐng)域,特別是一種非特定人孤立詞語音識別方法及裝置。
      背景技術(shù)
      近年來非特定人孤立詞語音識別技術(shù)(IWR)取得了巨大的發(fā)展,識別率達(dá)到99%以上。目前在非特定人IWR系統(tǒng)中普遍采用兩種方法一種是整詞建模,整詞匹配的方法;一種是基于聲韻母建模和詞樹搜索的方法。
      第一種方法把詞作為建模和識別單元,狀態(tài)的數(shù)目n與詞所包含的音子的數(shù)目保持基本一致,一般選擇2-10。在模型訓(xùn)練階段中采用K均值聚類方法,首先把該詞對應(yīng)的所有訓(xùn)練語音平均分成n段以對應(yīng)于n個狀態(tài),計算初始模型參數(shù),即每個狀態(tài)的觀察數(shù)據(jù)的均值和方差;再運用Viterbi算法找到每個訓(xùn)練語音和臨時模型匹配的最佳路徑,回溯得到語音對應(yīng)的新的狀態(tài)序列;然后重新計算模型參數(shù),經(jīng)過3-4迭代即可得到最終模型。在識別階段,運用Viterbi算法計算輸入語音和所有候選模型的似然得分,得分中的最大值所對應(yīng)的詞即為識別結(jié)果。整詞建模方法的優(yōu)點是計算量小,識別率高;缺點是需要采集大量的訓(xùn)練語音,這給實際應(yīng)用帶來了不便。
      第二種基于聲韻母建模和詞樹搜索的算法在識別時采用基于詞樹的一遍或多遍路徑搜索算法。在建模階段,首先要選擇聲學(xué)建模單元,針對漢語的特點,一般選擇聲韻母作為聲學(xué)建模的基本單元,每個單元用隱馬爾可夫模型(HMM)建模。然后利用大量訓(xùn)練數(shù)據(jù)和一個初始模型,把語音按照HMM的輸出狀態(tài)切分開來并轉(zhuǎn)化成特征序列的形式,并根據(jù)語音的上下文信息對其進(jìn)行標(biāo)注。最后對標(biāo)注后的特征集在包含了問題集的決策樹上進(jìn)行決策聚類,得到高精度的三音子模型,經(jīng)過在決策樹上的退化訓(xùn)練,又可以得到上下文無關(guān)的Basephone模型。在識別階段,一般采用基于詞樹框架的寬度優(yōu)先搜索算法(如Beam Search)或深度優(yōu)先的搜索算法(如A*Search)。該算法的優(yōu)點是建模精度高,可以適用于較大規(guī)模的詞表,而且使用時無需訓(xùn)練,更改詞表方便,有利于實際應(yīng)用;缺點是算法復(fù)雜,需要的存儲空間大,而且識別時會引入搜索誤差,從而引起識別率的下降。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于提出一種新的孤立詞語音識別方法,以滿足無需訓(xùn)練的中小詞表非特定人孤立詞語音識別要求。
      本發(fā)明提出了一種新的非特定人孤立詞語音識別方法。發(fā)明的基本特征是對于給定的詞表不需要采集語音進(jìn)行訓(xùn)練來得到模型,而是直接把聲韻母或音節(jié)作為基元,將已事先訓(xùn)練好的基元模型按照詞的聲韻母或音節(jié)序列拼接得到整詞模型,識別時采用整詞匹配算法。
      一種非特定人孤立詞語音識別方法,對于給定的詞表不需要采集語音進(jìn)行訓(xùn)練來得到模型,而是直接把聲韻母或音節(jié)作為基元,將已事先訓(xùn)練好的基元模型按照詞的聲韻母或音節(jié)序列拼接得到整詞模型,識別時采用整詞匹配算法。
      由語音庫訓(xùn)練得到的聲韻母模型可以是basephone模型,也可以是triphone模型。
      語音庫可以是中文和外文的任何語音庫。
      構(gòu)建基元GMM(高斯混合模型)模型時可以采用不同狀態(tài)數(shù)和混合數(shù)的組合。
      該發(fā)明的技術(shù)要點是首先選取聲學(xué)基元如聲韻母或音節(jié),訓(xùn)練得到基元模型,然后根據(jù)詞表中的詞條的聲韻母序列或者音節(jié)序列拼接成整詞模型,識別時運用Viterbi算法計算輸入語音和所有候選模型的似然得分,得分中的最大值所對應(yīng)的詞即為識別結(jié)果。
      該算法主要由三個步驟組成,具體說明如下
      1.1模型訓(xùn)練我們需要得到的整詞模型是由基元模型串接而成的,因此選取合適的基元模型及其訓(xùn)練方法對于系統(tǒng)的識別性能有重大影響,本節(jié)就這方面的內(nèi)容進(jìn)行了詳細(xì)介紹。
      1.1.1模型基元的選取因為我們希望詞表是可變的,所以我們必須選擇比詞更小的基元進(jìn)行建模,然后把基本建模單元串接形成詞的模型。可供選擇的基元包括音節(jié)、半音節(jié)、聲韻母、音素。
      對于音節(jié),漢語中的無調(diào)音節(jié)有409個,如果考慮音調(diào),有1300個有調(diào)音節(jié)。音節(jié)可以很好的刻劃語音內(nèi)部的變化,所以在進(jìn)行上下文無關(guān)的聲學(xué)建模時,使用有調(diào)或者無調(diào)語音是可以的,而且可以取得相當(dāng)好的效果。但是由于基元數(shù)目過大,如果訓(xùn)練語音不夠充分,會引起訓(xùn)練數(shù)據(jù)稀疏的問題?;谏鲜鲈?,我們選取無調(diào)音節(jié)作為基元,把863大詞匯連續(xù)語音庫用來訓(xùn)練基元模型。
      音素作為模型基元在英語語音識別中獲得了廣泛的應(yīng)用,并取得了很好的效果。音素在漢語中有三十多個,但音素并沒有反映出漢語語音的特點,而且相對于聲韻母,音素顯得更加不穩(wěn)定,給手工標(biāo)注帶來了困難,因此音素不適宜作為建?;?br> 漢字是單音節(jié)的,而且漢語中的音節(jié)是聲韻結(jié)構(gòu),使得對音節(jié)以及詞條的表示變得比較規(guī)則和統(tǒng)一,這是漢語音節(jié)所特有的結(jié)構(gòu)。選取聲韻母作為建?;?,其語音段長度以及基元數(shù)目都是比較適當(dāng)?shù)?,而且由于建模單元比較小,訓(xùn)練數(shù)據(jù)很充分,估計也越準(zhǔn)確。我們采用的聲韻母建模基元集包括24個聲母模型,37個韻母模型和1個靜音模型。
      1.1.2模型訓(xùn)練語音庫經(jīng)上面的分析可知,聲韻母和音節(jié)都比較適合作為建?;?。我們訓(xùn)練所采用的語音庫是863大詞匯量連續(xù)語音庫,其分為男性83人和女性82人,每人念句子或短語500個左右。
      1.1.3聲韻母基元模型的訓(xùn)練方法聲韻母模型根據(jù)是否利用上下文信息可以分為兩種basephone模型和triphone模型,我們通過實驗比較了分別采用這兩種模型的識別系統(tǒng)的性能。
      訓(xùn)練basephone模型時,首先把所有句子和短語的聲學(xué)特征序列按照其聲韻母的各個狀態(tài)輸出切開,并存儲在相應(yīng)的文件中;然后在完成對所有語音樣本的切分即特征存儲后,對于每個聲母或韻母的每個狀態(tài)輸出的特征采用K-means聚類算法得到GMM描述的狀態(tài)輸出模型。
      訓(xùn)練triphone模型時,不能直接對聲韻母的特征進(jìn)行聚類,而是首先要對切分開的聲韻母中狀態(tài)輸出特征集合進(jìn)行上下文相關(guān)信息標(biāo)注;然后采用決策樹分類器對各個聲韻母的各個狀態(tài)輸出的訓(xùn)練樣本進(jìn)行分類;最后根據(jù)得到的分類決策樹產(chǎn)生對應(yīng)的triphone模型,根據(jù)樣本分類結(jié)果,采用K-means算法,得到被所有triphone模型狀態(tài)輸出共享的GMM模型集。
      1.1.4音節(jié)模型的訓(xùn)練方法音節(jié)模型的訓(xùn)練方法和basephone模型的訓(xùn)練方法有些相似。首先把所有句子和短語的聲學(xué)特征序列按照其音節(jié)的各個狀態(tài)輸出切開,并存儲在相應(yīng)的文件中;然后在完成對所有語音樣本的切分即特征存儲后,對于每個音節(jié)的每個狀態(tài)輸出的特征采用K-means聚類算法得到GMM描述的狀態(tài)輸出模型。
      1.2整詞模型的構(gòu)建采用basephone模型時,整詞模型的構(gòu)造比較簡單,只需根據(jù)詞表中詞條的聲韻母序列選擇相應(yīng)的聲韻母模型拼接起來即可。采用triphone模型時,首先要根據(jù)詞條中各聲韻母的上下文信息,通過查找triphone模型的上下文相關(guān)模型映射文件,找到各聲韻母對應(yīng)的triphone模型,然后拼接起來得到整詞模型。
      采用音節(jié)作為建?;獣r,整詞模型的構(gòu)造方法與采用basephone模型時類似,根據(jù)詞表中詞條的音節(jié)序列選擇相應(yīng)的音節(jié)模型拼接起來即可。
      1.3識別方法識別階段的任務(wù)是在候選語音中找到與待識語音似然得分最高的一個。在求每個候選語音與待識語音似然得分時,首先計算待識語音每幀與該候選語音每個狀態(tài)的似然得分,然后采用Viterbi算法得到最佳路徑和最佳得分,把該得分作為兩語音的似然得分。
      識別階段的任務(wù)是在候選語音中找到與待識語音似然得分最大的一個。在求每個候選語音與待識語音的似然得分時,首先計算待識語音每幀與該候選語音每個狀態(tài)的距離測度,然后采用Viterbi算法得到最佳路徑和最高得分,把該得分作為兩語音的似然得分。在basephone模型中由于每個聲韻母的模型是固定的,而且詞表中的若干詞條可能會包含相同的聲母或韻母,在采用上述計算方法時會使得在求待識語音每幀特征與所有候選語音每個狀態(tài)模型的距離測度時,包含了大量的重復(fù)計算。我們可以采用數(shù)據(jù)共享技術(shù)解決這一問題,即首先計算詞表中所有包含的聲韻母模型和待識語音每幀特征的距離測度,存儲在表中。然后在計算待識語音每幀特征與所有候選語音每個狀態(tài)模型的似然得分時,通過查表即可得到該得分。在較大詞表情況下,采用該數(shù)據(jù)共享技術(shù)可以大大減少計算量,提供識別速度。
      采用本發(fā)明的優(yōu)點在于結(jié)合了傳統(tǒng)的整詞建模和基于聲韻母建模、詞樹搜索兩種方法的優(yōu)點。對于給定的詞表,不需采集語音訓(xùn)練,而且模型精度高,識別率高,由于采用數(shù)據(jù)共享技術(shù),計算速度快。
      2實例為了說明本發(fā)明的有效性,我們做了下述對比實驗方法一是整詞建模、整詞匹配算法;方法二是選取聲韻母作為建模基元、整詞匹配算法,得到分別在basephone和triphone模型及不同的狀態(tài)數(shù)和混合數(shù)條件下的識別結(jié)果;方法三是選取音節(jié)作為建?;?、整詞匹配算法,得到不同狀態(tài)數(shù)和混和數(shù)下的識別結(jié)果。
      2.1實驗條件實驗中的測試集為21個短語,平均長度為4個字,其中有些詞的混淆度較大,詞表如表2所示。每個模型的樣本是92個,特征提取采用能量和12維MFCC及其一階、二階差分共39維特征。測試詞表如表1所示。
      2.2實驗一本實驗中采用整詞建模、整詞匹配算法,每個模型的狀態(tài)數(shù)為8,GMM模型的混合系數(shù)為1時識別率已經(jīng)很高,因此沒有必要選取更大的混合系數(shù)。實驗結(jié)果如表2所示。
      2.3實驗二本實驗中采用基于聲韻母建模、整詞識別的算法,得到分別在basephone和triphone模型及不同的狀態(tài)數(shù)和混合數(shù)條件下的識別結(jié)果,希望發(fā)現(xiàn)basephone和triphone模型性能的差異,狀態(tài)數(shù)和混合數(shù)對識別系統(tǒng)性能的影響。實驗結(jié)果如表3所示,表中狀態(tài)數(shù)目為1個聲韻母所包含的狀態(tài)數(shù)。
      2.4實驗三本實驗中采用基于音節(jié)建模、整詞匹配的算法,得到在不同狀態(tài)數(shù)和混和數(shù)條件下的識別結(jié)果。實驗結(jié)果如表4所示,表中狀態(tài)數(shù)目為1個音節(jié)所包含的狀態(tài)數(shù)。
      2.5實驗結(jié)果分析從幾組實驗結(jié)果我們可以得到以下結(jié)論●從實驗結(jié)果可以看到采用方法二或三的識別系統(tǒng)其識別率可以達(dá)到甚至超過采用方法一的識別系統(tǒng),而且在測試集中某些詞混淆度大的情況下,后兩種方法對這些詞的識別率更高,如實驗中的第12個詞,在方法一中,識別率為92.4%,而方法二中,在triphone模型4狀態(tài)1混合情況下識別率達(dá)到100%,方法三中,在8狀態(tài)1混合情況下識別率也達(dá)到97.8%。后兩種方法中每個詞的識別率都比較均勻,因為篇幅關(guān)系,我們在這里沒有一一列出每個詞的識別率,在表3、4中只給出了總的識別率。實驗結(jié)果表明我們采用的新的建模方法是行之有效的。
      ●從basephone和triphone模型的對比實驗結(jié)果表3可以看到triphone模型比basephone模型識別率高。這是因為triphone模型包含了聲韻母的上下文信息,其整詞模型精確地刻劃了語音內(nèi)部的變化,而basephone模型沒有考慮上下文信息,建模基元之間并無相關(guān)性,因而由其串聯(lián)得到的整詞模型較為粗糙。但是由于可以采用數(shù)據(jù)共享技術(shù),選取basephone為建模基元具有計算量小,速度快的優(yōu)點。
      ●對比表3和4可知,選取音節(jié)作為建模基元的識別效果基本和選取triphone作為建?;男Ч喈?dāng),而遠(yuǎn)遠(yuǎn)優(yōu)于選取basephone作為建?;男Ч?。這是因為音節(jié)可以很好地刻劃語音內(nèi)部的變化。實驗結(jié)果也說明在語音識別中音節(jié)內(nèi)部的信息比音節(jié)之間的上下文信息更重要。音節(jié)作為建?;ctriphone作為建?;容^,具有建模方法簡單、靈活、模型存儲空間小的優(yōu)點,因此在嵌入式孤立詞語音識別系統(tǒng)中是一個較好的選擇。
      ●發(fā)現(xiàn)在相同的建模方式下,基元模型的狀態(tài)數(shù)和混合數(shù)的增加會帶來識別率的提高。這是在意料之中的,因為狀態(tài)數(shù)和混合數(shù)越多,模型對語音的刻劃越精確,我們做狀態(tài)數(shù)和混合數(shù)的不同組合實驗的目的是為了研究兩者哪個對識別率的影響最大,并據(jù)此選擇合適的參數(shù),實驗結(jié)果表明狀態(tài)數(shù)對識別率的影響更大,在詞表中的某些詞混淆度較大的情況下,狀態(tài)數(shù)的提高對識別率起決定性的作用。當(dāng)采用triphone作為建?;獣r,可以選取狀態(tài)數(shù)為2,混和數(shù)為1;當(dāng)采用音節(jié)作為建模基元時,可以選取狀態(tài)數(shù)為4,混和數(shù)為1。在上述兩套組合情況下,模型較小,總識別率高,而且詞表中每個詞的識別率都比較均勻,在實際應(yīng)用中較為理想。
      表1測試詞表
      表2采用方法一測試結(jié)果(%) 表3采用方法二測試結(jié)果(%)
      表4采用方法三測試結(jié)果(%) 一種非特定人孤立詞語音識別裝置,由數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結(jié)果輸出裝置組成,其特征在于數(shù)據(jù)采集裝置,用于采集語音數(shù)據(jù),并把它送給DSP進(jìn)行處理;數(shù)據(jù)處理裝置,主要完成處理語音數(shù)據(jù)和識別;數(shù)據(jù)存儲裝置,主要存儲程序代碼和初始化數(shù)據(jù),在系統(tǒng)啟動時加載;識別結(jié)果輸出裝置,完成把識別結(jié)果轉(zhuǎn)化為相應(yīng)控制信號;數(shù)據(jù)采集裝置連接于數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結(jié)果輸出裝置。


      圖1是本發(fā)明的構(gòu)造整詞模型流程圖。
      圖2是本發(fā)明的語音識別流程圖。
      圖3是本發(fā)明的孤立詞語音識別裝置圖。
      具體實施例方式
      圖1為構(gòu)造整詞模型的程序流程圖,其步驟如下步驟S1-1切分基元,使用的語音庫可以是863連續(xù)語音庫或其他語音庫,所有句子和短語的聲學(xué)特征序列按照其聲韻母或音節(jié)的各個狀態(tài)輸出切開,并存儲在相應(yīng)的文件中;步驟S1-2訓(xùn)練基元模型。訓(xùn)練模型可以采用K-Means或者EM算法。
      步驟S1-3拼接整詞模型,根據(jù)詞表中詞條的聲韻母序列或者音節(jié)序列拼接得到整詞模型。
      圖2為孤立詞語音識別程序流程圖,其步驟如下步驟S2-1采集語音數(shù)據(jù)。該部分對應(yīng)的硬件為麥克風(fēng)、AD采用及放大電路。
      步驟S2-2特征提取。采用的特征包括語音識別中經(jīng)常采用的LPCC、MFCC等參數(shù)。
      步驟S2-3模型匹配。即在候選語音中找到與待識語音似然得分最高的一個。在求每個候選語音與待識語音似然得分時,首先計算待識語音每幀與該候選語音每個狀態(tài)的似然得分,然后采用Viterbi算法得到最佳路徑和最佳得分,把該得分作為兩語音的似然得分。
      步驟S2-4輸出識別結(jié)果。
      圖3為孤立詞語音識別裝置圖,按照功能的不同可以劃分為4個裝置1、數(shù)據(jù)采集裝置。包括話筒(M1),模擬接口芯片TLC320AD50及放大電路(M2)。該裝置用于采集語音數(shù)據(jù),并把它送給DSP(數(shù)字信號處理器)進(jìn)行處理。
      2、數(shù)據(jù)處理裝置。數(shù)據(jù)處理裝置由DSP(M3)組成,DSP是整個識別系統(tǒng)最核心的部分,主要完成處理語音數(shù)據(jù)和識別的功能。數(shù)據(jù)處理裝置也可以由ARM或單片機(jī)等微處理芯片代替。
      3、數(shù)據(jù)存儲裝置。數(shù)據(jù)存儲裝置由SRAM(靜態(tài)存儲器)(M4)和FLASH(閃存)(M5)組成。其中SRAM提供程序運行所需要的臨時空間;FLASH是一種可電擦除的只讀存儲器,主要存儲程序代碼和初始化數(shù)據(jù),在系統(tǒng)啟動時加載。
      4、識別結(jié)果輸出裝置。識別結(jié)果輸出裝置主要由DSP的McBSP接口(M6)和RS232接口(M7)組成。完成把識別結(jié)果轉(zhuǎn)化為相應(yīng)控制信號的功能。
      權(quán)利要求
      1.一種非特定人孤立詞語音識別方法,其特征在于,對于給定的詞表不需要采集語音進(jìn)行訓(xùn)練來得到模型,而是直接把聲韻母或音節(jié)作為基元,將已事先訓(xùn)練好的基元模型按照詞的聲韻母或音節(jié)序列拼接得到整詞模型,識別時采用整詞匹配算法。
      2.據(jù)權(quán)利要求1所述的非特定人孤立詞語音識別方法,其特征在于,由語音庫訓(xùn)練得到的聲韻母模型可以是basephone模型,也可以是triphone模型。
      3.據(jù)權(quán)利要求2所述的非特定人孤立詞語音識別方法,其特征在于,語音庫可以是中文和外文的任何語音庫。
      4.根據(jù)權(quán)利要求2所述的非特定人孤立詞語音識別方法,其特征在于,構(gòu)建基元GMM模型時可以采用不同狀態(tài)數(shù)和混合數(shù)的組合。
      5.根據(jù)權(quán)利要求1所述的非特定人孤立詞語音識別方法,其特征在于,構(gòu)造整詞模型的步驟如下步驟S1-1切分基元,使用的語音庫可以是863連續(xù)語音庫或其他語音庫,所有句子和短語的聲學(xué)特征序列按照其聲韻母或音節(jié)的各個狀態(tài)輸出切開,并存儲在相應(yīng)的文件中;步驟S1-2訓(xùn)練基元模型;步驟S1-3拼接整詞模型,根據(jù)詞表中詞條的聲韻母序列或者音節(jié)序列拼接得到整詞模型。
      6.根據(jù)權(quán)利要求1所述的非特定人孤立詞語音識別方法,其特征在于,孤立詞語音識別的步驟如下步驟S2-1采集語音數(shù)據(jù);步驟S2-2特征提??;步驟S2-3模型匹配,即在候選語音中找到與待識語音似然得分最高的一個;步驟S2-4輸出識別結(jié)果。
      7.一種非特定人孤立詞語音識別裝置,由數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結(jié)果輸出裝置組成,其特征在于數(shù)據(jù)采集裝置,用于采集語音數(shù)據(jù),并把它送給DSP進(jìn)行處理;數(shù)據(jù)處理裝置,主要完成處理語音數(shù)據(jù)和識別;數(shù)據(jù)存儲裝置,主要存儲程序代碼和初始化數(shù)據(jù),在系統(tǒng)啟動時加載;識別結(jié)果輸出裝置,完成把識別結(jié)果轉(zhuǎn)化為相應(yīng)控制信號;數(shù)據(jù)采集裝置連接于數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結(jié)果輸出裝置。
      8.根據(jù)權(quán)利要求7所述的非特定人孤立詞語音識別裝置,其特征在于,據(jù)采集裝置,包括話筒(M1),模擬接口芯片及放大電路(M2);該裝置用于采集語音數(shù)據(jù),并把它送給DSP進(jìn)行處理。
      9.根據(jù)權(quán)利要求7所述的非特定人孤立詞語音識別裝置,其特征在于,數(shù)據(jù)處理裝置由DSP(M3)組成,DSP是整個識別系統(tǒng)最核心的部分,數(shù)據(jù)處理裝置也可以由ARM或單片機(jī)等微處理芯片代替。
      10.根據(jù)權(quán)利要求7所述的非特定人孤立詞語音識別裝置,其特征在于,數(shù)據(jù)存儲裝置由SRAM(M4)和FLASH(M5)組成,其中SRAM提供程序運行所需要的臨時空間;FLASH是一種可電擦除的只讀存儲器,主要存儲程序代碼和初始化數(shù)據(jù),在系統(tǒng)啟動時加載。
      11.根據(jù)權(quán)利要求7所述的非特定人孤立詞語音識別裝置,其特征在于,識別結(jié)果輸出裝置,識別結(jié)果輸出裝置主要由DSP的McBSP接口(M6)和RS232接口(M7)組成。
      全文摘要
      本發(fā)明涉及自動語音識別技術(shù)領(lǐng)域,特別是一種非特定人孤立詞語音識別方法及裝置。方法對于給定的詞表不需要采集語音進(jìn)行訓(xùn)練來得到模型,而是直接把聲韻母或音節(jié)作為基元,將已事先訓(xùn)練好的基元模型按照詞的聲韻母或音節(jié)序列拼接得到整詞模型,識別時采用整詞匹配算法。裝置包括數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結(jié)果輸出裝置。本發(fā)明的方法可滿足無需訓(xùn)練的中小詞表非特定人孤立詞語音識別要求。可用于非特定人孤立詞語音識別中。
      文檔編號G10L15/00GK1741131SQ200410057149
      公開日2006年3月1日 申請日期2004年8月27日 優(yōu)先權(quán)日2004年8月27日
      發(fā)明者李成榮, 李峰, 浦劍濤, 岳紅強(qiáng) 申請人:中國科學(xué)院自動化研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1