專利名稱:基于語音識別的信息校核方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音技術(shù)領(lǐng)域,尤其涉及采用大詞表非特定人語音識別技術(shù)用于信息校核、查詢以及命令控制的方法。
目前郵政服務(wù)系統(tǒng)中,郵包信息校核過程采用大量的人力,通過人工對郵包進(jìn)行校核。其校核過程為(1)首先將郵包根據(jù)一定的車次或運(yùn)送方向進(jìn)行分類。(2)從計(jì)算機(jī)中輸出相應(yīng)的郵包信息校核單。(3)通過人工將每件郵包上信息與校核單上的郵包的信息進(jìn)行校核。校核信息為郵包起始郵局名、郵包到達(dá)郵局名、郵包編號、郵包種類等。通過校核確保所有郵包沒有在運(yùn)輸過程中出現(xiàn)丟包或多包。丟包為校核單上有該郵包,而實(shí)際上該郵包不存在;多包為校核單上沒有該郵包,而實(shí)際上該郵包存在。根據(jù)校核情況還要對丟包、多包情況進(jìn)行特殊處理。對丟包的需要追回;對多包的需要根據(jù)包上信息確認(rèn)是運(yùn)送錯(cuò)誤,還是校核單漏掉該包。如果是運(yùn)送錯(cuò)誤要將錯(cuò)誤郵包退回前面的發(fā)送站。由于在主要的郵政中轉(zhuǎn)局,每天發(fā)送、接收的郵包達(dá)到幾百萬包以上的數(shù)量,因此人工校核過程非常繁重和勞累,而且易于出錯(cuò)。
語音識別技術(shù)逐步成熟,已經(jīng)能夠用于工業(yè)系統(tǒng)信息校核、查詢、控制。在國外一些訂票系統(tǒng)、信息查詢系統(tǒng)、電話服務(wù)系統(tǒng)已經(jīng)開始使用語音識別技術(shù)。語音識別為人機(jī)交互提供最有效、最便捷的工具。
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種基于語音識別的信息校核方法。將語音識別技術(shù)用于信息校核系統(tǒng),具有勞動(dòng)效率高、校核精度高,以及勞動(dòng)強(qiáng)度小等特點(diǎn)。
本發(fā)明提出的一種基于語音識別的信息校核方法,包括語音信號的端點(diǎn)檢測及語音識別參數(shù)提取、非特定人語音識別模型的預(yù)先訓(xùn)練、非特定人語音識別、語音識別置信測度與拒識模型、語音識別置信測度與拒識模型、非特定人語音識別的說話人自適應(yīng)學(xué)習(xí)、語音識別詞條的生成、語音提示各部分,其特征在于,各部分具體包括以下步驟A、語音信號的端點(diǎn)檢測及語音識別參數(shù)提取(1)語音信號通過計(jì)算機(jī)的聲卡A/D進(jìn)行采樣成為原始數(shù)字語音信號;(2)對所說的原始數(shù)字語音信號進(jìn)行頻譜整形及分幀加窗處理,以保證分幀語音的準(zhǔn)平穩(wěn)性;(3)使用語音信號的短時(shí)能量、波形走勢特征進(jìn)行端點(diǎn)檢測,去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;(4)對分幀加窗處理后的語音信號進(jìn)行語音(識別)特征提??;B、非特定人語音識別模型的預(yù)先訓(xùn)練(1)預(yù)先采集大量的語音數(shù)據(jù),建立訓(xùn)練語音數(shù)據(jù)庫,采集的語音與要識別的語音的語言種類相一致;(2)從所說的數(shù)據(jù)庫中的語音信號提取語音特征參數(shù),然后在PC機(jī)上通過預(yù)先的學(xué)習(xí)過程將這些特征參數(shù)轉(zhuǎn)變成識別模型的參數(shù);識別模型采用基于音素隱含碼爾科夫模型(Hidden Markov Model,HMM),訓(xùn)練的方法是根據(jù)最大似然準(zhǔn)則,對HMM模型參數(shù)(包均值與方差)進(jìn)行估值;C、非特定人語音識別(1)將所說的語音特征與語音識別模型進(jìn)行模式匹配,通過N-best維特比(Viterbi)幀同步束搜索算法,實(shí)時(shí)地提取前三選最好識別結(jié)果,在識別搜索過程中保留了所有有用“關(guān)鍵詞”信息,不需要再進(jìn)行回溯;(2)輸入語音信息,每校核一條該語音信息,就自動(dòng)剪掉該詞條對應(yīng)的語音發(fā)音模板,減少搜索空間,以提高校核過程的語音識別速度與識別精度;識別過程的語言模型采用基于多子樹三元詞對文法;D、語音識別置信測度與拒識模型:
在維特比(Viterbi)幀同步束搜索過程中結(jié)合置信測度與拒識模型的計(jì)算;通過判定識別語音的置信度的大小,確定是否接受或拒識該語音識別結(jié)果,同時(shí)拒掉在操作過程的無關(guān)語音;E、非特定人語音識別的說話人自適應(yīng)學(xué)習(xí)采用說話人自適應(yīng)方法對識別模型進(jìn)行調(diào)整;所說的自適應(yīng)方法采用最大后驗(yàn)概率方法,通過迭代方法逐步修正識別模板參數(shù);F、語音識別詞條的生成根據(jù)需要校核的數(shù)據(jù)文本信息,借助發(fā)音字典自動(dòng)生成要識別詞條的語音發(fā)音模板;輸入的語音信息與這些發(fā)音模板信息通過所說的非特定人語音識別進(jìn)行比較;發(fā)音字典由識別詞匯漢字與對應(yīng)的漢語拼音構(gòu)成,預(yù)先存放在計(jì)算機(jī)中;G、語音提示采用語音合成技術(shù)進(jìn)行語音提示,語音合成模型參數(shù)分析提取過程在計(jì)算機(jī)上通過預(yù)先處理后完成,并存儲(chǔ)在計(jì)算機(jī)的硬盤中用于語音合成,語音合成模型使用碼激勵(lì)語音編碼模型;語音提示用于回放識別結(jié)果,若回放語音與輸入語音一致,則表示識別結(jié)果正確;若不一致,則要求使用者讀入語音命令,重新進(jìn)行該語音命令的識別。
所說的語音信號的端點(diǎn)檢測及語音識別參數(shù)提取特征可采用結(jié)合語音/噪聲最大似然判決器與波形走勢判決器的檢測方法;語音識別特征參數(shù)提取是根據(jù)人耳的聽覺特性計(jì)算出來的一種特征矢量,即MFCC(Mel-Frequency Cepstrum Coefficients)參數(shù)。
所說的非特定人語音識別模型的預(yù)先訓(xùn)練特征可采用分三步逐步細(xì)化訓(xùn)練HMM模型方法,模型參數(shù)包括均值、協(xié)方差矩陣、混合高斯加權(quán)系數(shù)。
所說的非特定人語音識別可采用了多子樹三元詞對文法的幀同步束搜索方法。在識別搜索過程中保留了字串的所有有用信息,不需要再進(jìn)行回溯,可以實(shí)時(shí)地提取前三選最好識別結(jié)果。
所說語音識別置信測度與拒識模型可采用基于整詞置信測度估值方法以及在線的垃圾模型作為無關(guān)語音的拒識模型,提高了識別模型的穩(wěn)健性,吸收了無關(guān)語音與噪聲。
所說的非特定人語音識別的說話人自適應(yīng)學(xué)習(xí)可采用基于最大后驗(yàn)概率的自適應(yīng)方法,通過迭代分別對語音識別參數(shù)進(jìn)行調(diào)整,使模型之間鑒別測度保持最大鑒別性。
所說語音識別詞條的生成可采用基于多子樹三元詞對文法的結(jié)構(gòu),根據(jù)要校核的文本信息生成對應(yīng)的語音詞條發(fā)音模板,語音詞條發(fā)音模板是以音素為基本單元組成的樹狀模板。
本發(fā)明提出并采用一種基于大詞匯量、非特定人、穩(wěn)健、連續(xù)語音識別技術(shù)通過語音對信息進(jìn)行校核的方法。利用該方法可以構(gòu)成一個(gè)基于語音識別的信息校核軟件系統(tǒng)。該校核系統(tǒng)可以在計(jì)算機(jī)上實(shí)現(xiàn)實(shí)時(shí)操作。該系統(tǒng)的軟件模塊包括通過聲卡的語音數(shù)據(jù)采樣,語音信號的端點(diǎn)檢測及語音識別參數(shù)提取,非特定人語音識別,置信測度與拒識模型,說話人自適應(yīng),語音提示。校核系統(tǒng)的輸出為前三選的最好識別結(jié)果。操作過程與識別結(jié)果都有語音提示。
本發(fā)明具有如下優(yōu)點(diǎn)(1)本發(fā)明為基于PC機(jī)的大詞匯量非特定人連續(xù)語音識別方法。這些方法具有識別精度高、穩(wěn)健性好、系統(tǒng)資源開銷小等特點(diǎn);(2)考慮到系統(tǒng)的實(shí)用性,在識別算法中增加置信測度與拒識模型,增加了說話人自適應(yīng)方法;(3)采用基于音素語音識別模型,使系統(tǒng)可以方便的通過文本文件增加語音識別詞條,不需要重新訓(xùn)練識別系統(tǒng);(4)使用語音信號的短時(shí)能量、波形走勢等特征進(jìn)行端點(diǎn)檢測,提高語音信號的端點(diǎn)檢測的精確性;(5)采用基于多子樹三元詞對文法,結(jié)合幀同步束搜索的剪枝方法,能夠保證很高的識別率;(6)模型中增加了穩(wěn)健語音識別方法,能夠針對信道失真自動(dòng)調(diào)整識別參數(shù)。
(7)本發(fā)明的基于語音識別的信息校核方法不僅可以用于郵包信息的校核,而且能夠應(yīng)用于鐵路、航空、電信、醫(yī)藥等領(lǐng)域中的信息校核與語音查詢系統(tǒng)中,成為各種信息系統(tǒng)中不可缺少的重要工具之一。
附簡要說明
圖1為本發(fā)明實(shí)施例語音/噪聲最大似然判決器估值模型示意圖。
圖2為本發(fā)明實(shí)施例端點(diǎn)檢測判決器對不同噪聲抗干擾示意圖。
圖3本發(fā)明實(shí)施例基于語音識別HMM模型拓?fù)浣Y(jié)構(gòu)。
圖4為本發(fā)明實(shí)施例多子樹三元詞對文法結(jié)構(gòu)圖。
圖5為本實(shí)施例的識別詞條樹狀語音模型結(jié)構(gòu)。
圖6為本實(shí)施例系統(tǒng)整體框圖。
本發(fā)明結(jié)合基于語音識別的郵包信息校核實(shí)施例進(jìn)行詳細(xì)說明,本發(fā)明實(shí)施例整個(gè)方法構(gòu)成可以分為(1)A/D采樣及采樣后語音的預(yù)加重,提高高頻信號的能量,并進(jìn)行加窗分幀處理;(2)端點(diǎn)檢測,確定有效的語音參數(shù);(3)語音特征參數(shù)的提取;(4)采用幀同步束搜索Viterbi剪枝算法對識別模板進(jìn)行比較,并將最佳的語音識別結(jié)果輸出。每個(gè)步驟的細(xì)節(jié)說明如下。
1、端點(diǎn)檢測(1)語音信號通過麥克風(fēng)進(jìn)行計(jì)算機(jī)的聲卡,然后通過16-位線性A/D進(jìn)行采樣,成為原始的數(shù)字語音。采樣頻率為16kHz。
(2)對原始數(shù)字語音信號進(jìn)行頻譜整形及分幀加窗(采用哈明窗)處理,保證分幀語音的準(zhǔn)平穩(wěn)性。其中幀長為32ms,幀移為16ms,預(yù)加重濾波器取為H(z)=1-0.98z-1。
(3)端點(diǎn)檢測方法由語音/噪聲最大似然判決器與波形走勢判決器組成。本實(shí)施例的語音/噪聲最大似然判決器和波形走勢判決器詳細(xì)說明如下A、語音/噪聲最大似然判決器最大似然判決器的工作原理如圖1所示。其中s(n)為輸入干凈的原始語音信號。h(n)為由于信道引入的失真函數(shù)。d(n)為輸入的加性噪聲。y(n)為真實(shí)接收到的語音信號。判決方法根據(jù)公式(1)來計(jì)算log(σey)+(ety-μey)22σey2<log(σed)+(ety-μed)22σed2------(1)]]>若公式(1)條件滿足,則輸入信號為語音和噪聲之和,反之,輸入的信號為噪聲。公式(1)即為語音/噪聲最大似然判決器。其中ety為信號y(n)的能量。μed為噪聲能量的均值,它可以通過對輸入信號的幾個(gè)初始幀估計(jì)得出,并且隨著對噪聲幀的增加同時(shí)不斷地更新。μed=E[1Ks·Σn=1Ksdt(n)·dt(n)]=1Ks·Σn=1KSE[dt2(n)]------(2)]]>同噪聲的均值估值方法相類似,噪聲能量的方差σed2]]>的估值方法為σed2=D[1Ks·Σn=1KSdt(n)·dt(n)]=1Ks2·Σn=1Ks(E[dt4(n)]-(E[dt2(n)])2)------(3)]]>B、波形走勢判決器為了提高起終點(diǎn)判決的文件性,本發(fā)明實(shí)施例還利用到語音信號的波形特點(diǎn)。人們聲道的運(yùn)動(dòng)是有慣性的,任何語音信號的變化都有一個(gè)漸變過程,不會(huì)出現(xiàn)類似于沖擊響應(yīng)的波形;而對于信道上的機(jī)械聲或信道噪聲來說,其形狀往往類似于沖擊響應(yīng)或者是沒有漸變過程。如果不考慮語音信號的波形特點(diǎn),很難把它們區(qū)分開來。在起終點(diǎn)檢測方法中將波形的走勢與前面的最大似然判決方法結(jié)合起來,取得很好的試驗(yàn)結(jié)果。如果連續(xù)三幀的能量(et-2,et-1,et)滿足公式(1),那么就計(jì)算t幀后連續(xù)5幀的平均能量e5=(et+1+et+2+et+3+et+4+et+5)/5(4)
如果e5≥et-2+et-1+et則從認(rèn)為已經(jīng)檢測到語音信號的起點(diǎn),否則,繼續(xù)檢測起點(diǎn)。該檢測方法稱為波形走勢(WT,Waveform Tendency)判決器。
結(jié)合兩種端點(diǎn)檢測方法后,可以有效地去除圖2中出現(xiàn)的兩種主要的干擾噪聲。其中(a)為平穩(wěn)的噪聲,(b)為突發(fā)性噪聲。
2、語音識別特征參數(shù)提取(1)語音的短時(shí)頻域特征能精確描述語音的變化。MEL頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients-MFCC)是根據(jù)人耳的聽覺特性計(jì)算出來的一種特征矢量,MFCC是建立在富立葉頻譜分析基礎(chǔ)上的。
(2)MFCC的計(jì)算方法為首先根據(jù)MEL頻率把信號頻譜等分成若干個(gè)帶通組,其帶通的頻率響應(yīng)是三角形或正弦形的。然后計(jì)算相應(yīng)濾波器組的信號能量,再通過離散余弦變換計(jì)算對應(yīng)倒譜系數(shù)。MFCC特征主要反映語音的靜態(tài)特征,語音信號的動(dòng)態(tài)特征可以用靜態(tài)特征的一階差分譜和二階差分譜來描述。這些動(dòng)態(tài)信息和靜態(tài)信息相互補(bǔ)充,能很大程度提高語音識別的性能。整個(gè)語音特征用MFCC參數(shù)、MFCC差分系數(shù)、歸一化能量系數(shù)及其差分系數(shù)來構(gòu)成。
3、非特定人語音識別模板的訓(xùn)練(1)隱含馬爾柯夫模型(HMM)是目前最成熟最有效的語音識別算法。HMM從左向右的狀態(tài)轉(zhuǎn)移模型,它能很好的描敘了語音發(fā)音特點(diǎn)。本實(shí)施例采用的模型為3狀態(tài)隱含馬爾柯夫模型。其結(jié)構(gòu)如圖3所示。其中qi表示HMM的狀態(tài)。aij表示HMM的跳轉(zhuǎn)概率。bj(Ot)為HMM模型的狀態(tài)輸出的多流混合高斯密度概率分布函數(shù)。如公式(5)所示。bj(Ot)=Πs=1s[Σm=1MsCjsmN(Ost;μjsm;φjsm)]γs------(5)]]>其中S是數(shù)據(jù)的流數(shù),MS是每一數(shù)據(jù)流中的混合高斯密度分布的個(gè)數(shù);N為高維高斯分布;N(O;μ;φ)=1(2π)n|φ|e-12(o-μ)φ-1(o-μ)-----(6)]]>(2)HMM模型采用三步逐步細(xì)化的訓(xùn)練方法A.首先,使用孤立字的語音數(shù)據(jù),采用改進(jìn)分段K平均算法,對識別模型進(jìn)行初始化,對內(nèi)部狀態(tài)進(jìn)行初步分割,然后用Viterbi算法對分割的狀態(tài)進(jìn)行迭代調(diào)整,通常迭代10左右就可以完成。
B.對每個(gè)初始化模型利用Baum-Welch算法進(jìn)行再估值,通過此次訓(xùn)練能得到較精確HMM模型參數(shù)。
C.嵌套的模型細(xì)化訓(xùn)練應(yīng)用大量語音數(shù)據(jù)根據(jù)訓(xùn)練語句標(biāo)號文件將語音子模型構(gòu)成復(fù)合模型進(jìn)行細(xì)化訓(xùn)練,通過此步之后就可以得到精致的HMM模型參數(shù)。
4、非特定人語音識別(1)本實(shí)施例采用多子樹三元詞對文法幀同步束搜索方法。多子樹三元詞對文法結(jié)構(gòu)如圖4所示。其中第一,第二子樹為要識別的郵包起始與終點(diǎn)地名。第三子樹為要識別的郵包編號。該搜索算法屬于廣度優(yōu)先搜索算法,每識別到新的一幀,就要對所有可能的候選路徑的匹配距離進(jìn)行比較和排序,保留前面的若干條較好的路徑作為活躍路徑,將其它路徑剪除,然后繼續(xù)進(jìn)行下一幀語音的識別,這就是所謂的“剪枝”處理。根據(jù)計(jì)算機(jī)的硬件條件(存儲(chǔ)空間、運(yùn)算速度等)保持一定數(shù)量的活躍路徑,活躍路徑KdctBeam一般在幾十條到數(shù)百條之間,故稱為“束搜索”算法。
(2)結(jié)合多子樹三元詞對文法模型,本實(shí)施例的語音識別方法采用計(jì)算模型為R^=arg{min(A,W)[logP(O/A)+logP(A/W)]}]]>=arg{min(A,W){Σm=1M{[Σt=dm-1v+1dmclogP(Ot/Cm)]+[Σt=dmc+1dmvlogP(Ot/Vm)]}------(7)]]>+Σi=1NWΣm=1M[logP(Cm/wi)+logP(VM/wi)+logP(Tm/wi)]}}]]>其中P(·)為概率。O是語音的特征矢量。A是語音發(fā)音模型,也就是HMM模型。Cm是聲母發(fā)音模型。Vm是韻母發(fā)音模型。Tm是語調(diào)模型。W是有詞序列。M是全音節(jié)的個(gè)數(shù),M為408。Nw為要識別識別詞的數(shù)量。P(A/W)模糊發(fā)音模型。
(3)搜索流程如下A.語音幀號nFrameNo=0時(shí),初始化所有路徑結(jié)構(gòu)1)輔音類路徑CactBeam的初始化由于搜索是從發(fā)送站子樹開始展開的,所以CactBeam要按照發(fā)送站子樹第一層的所有輔音節(jié)點(diǎn)進(jìn)行初始化,則初始化的輔音類路徑數(shù)目CactBeamNum為發(fā)送站子樹第一層的輔音節(jié)點(diǎn)數(shù),具體的初始化操作如下for(BeamNo=0;BeamNo<CactBeamNum;BeamNo++){NodeNum設(shè)為1;WordList
設(shè)為對應(yīng)的輔音半音節(jié)序號;WordState
設(shè)為0,即該節(jié)點(diǎn)對應(yīng)發(fā)送站子樹;CurNode設(shè)為相應(yīng)節(jié)點(diǎn)在發(fā)送站子樹中的序號;CheckSum設(shè)為對應(yīng)的輔音半音節(jié)序號;按公式(5)計(jì)算初始距離Dist
;其它結(jié)構(gòu)項(xiàng)目前沒有意義,設(shè)為0或-1或無窮大(實(shí)際上是一個(gè)足夠大的數(shù))。
2)元音類路徑VactBeam的初始化由于漢字是輔音-元音結(jié)構(gòu),搜索都是從輔音開始的,所以VactBeam的各個(gè)結(jié)構(gòu)項(xiàng)目前沒有意義,根據(jù)其各自的意義分別設(shè)為0或-1或無窮大(實(shí)際上是一個(gè)足夠大的數(shù))。初始化的元音類路徑數(shù)目VactBeamNum為KVTone=1254。
B.當(dāng)開始對第nFrameNo幀語音進(jìn)行識別前,先根據(jù)剪枝策略決定是否改變活躍路徑的數(shù)目,即CactBeamNum和VactBeamNum的值。
C.對CactBeam和VactBeam中的所有活躍路徑做第t幀語音內(nèi)的Viterbi匹配,字內(nèi)不允許狀態(tài)跳越。
D.利用三元詞對文法檢查上一幀語音生成的可跳轉(zhuǎn)路徑HeadTail是否合理,根據(jù)跳轉(zhuǎn)的位置采用相應(yīng)的語法信息1)如果跳轉(zhuǎn)發(fā)生在子樹內(nèi)部,則主要根據(jù)對應(yīng)跳轉(zhuǎn)弧上計(jì)數(shù)器的值決定是否跳轉(zhuǎn)若計(jì)數(shù)器值大于0,可以跳轉(zhuǎn);否則不能跳轉(zhuǎn)。
2)如果跳轉(zhuǎn)發(fā)生在發(fā)送站子樹與接收站子樹之間,則根據(jù)語法關(guān)系數(shù)組OutInRelation中的相關(guān)信息判斷是否跳轉(zhuǎn)。
3)如果跳轉(zhuǎn)發(fā)生在接收站子樹與郵包編號子樹之間,則根據(jù)語法關(guān)系數(shù)組Relation中的相關(guān)信息判斷是否跳轉(zhuǎn)。
根據(jù)判斷,如果可以跳轉(zhuǎn),則執(zhí)行第e步,否則執(zhí)行第g步。
E.路徑跳轉(zhuǎn)處理1) CurNode對應(yīng)的半音節(jié)進(jìn)入WordList;2)如果CurNode是某個(gè)子樹(發(fā)送站子樹、接收站子樹或郵包編號子樹)的一個(gè)葉子節(jié)點(diǎn),則其對應(yīng)的子樹詞條序號進(jìn)入OutInCodeNo;3)跳轉(zhuǎn)后路徑的累積匹配距離Dist等于跳轉(zhuǎn)前路徑的累積距離加上前面第(3)步計(jì)算出的距離之和;4)對跳轉(zhuǎn)路徑的其它結(jié)構(gòu)項(xiàng)進(jìn)行相應(yīng)處理,生成新的路徑;5)對路徑結(jié)構(gòu)隊(duì)列進(jìn)行插入修改a)若路徑結(jié)構(gòu)隊(duì)列中已經(jīng)有此路徑,則留下距離小的;b)若路徑結(jié)構(gòu)隊(duì)列中無此路徑,則根據(jù)其積累距離及已有活躍路徑數(shù)決定是否插入。
F.檢查當(dāng)前的活躍路徑是否可以向新的單元跳轉(zhuǎn),為下一幀語音的處理做好準(zhǔn)備。跳轉(zhuǎn)條件是該路徑是否到達(dá)半音節(jié)的最后一個(gè)狀態(tài),具體方法是檢測Dist[STATENUM]是否更新過。如果可以跳轉(zhuǎn),則將該路徑存入跳轉(zhuǎn)路徑結(jié)構(gòu)HeadTail,否則執(zhí)行第g步。
G.若nFrameNo=FRAMENUM(輸入語音的總幀數(shù)),執(zhí)行第h步;否則nFrameNo++,執(zhí)行第b步。
H. 將以元音結(jié)尾的活躍路徑VactBeam進(jìn)行排序,將最優(yōu)的若干條路徑輸出作為識別結(jié)果;同時(shí)在識別結(jié)果得到確認(rèn)后,對相應(yīng)的語法信息進(jìn)行修改,為識別下一句語音輸入做好準(zhǔn)備。
5、語音識別置信測度與拒識模型(1) 置信測度的估值在語音識別中有很重要的作用。本實(shí)施例采用基于詞置信測度似然比估值方法。通過在線的垃圾模型構(gòu)成拒識模型,進(jìn)行置信測度的估值。
利用通過判定識別語音的置信程度確定是否接受識別結(jié)果;(2) 利用N個(gè)候選詞表中所包含的有用信息,在識別過程中建立在線垃圾模型,將每一幀N候選詞表的似然度的某種平均值作為在線垃圾模型的似然度。若語音段O={Ol,…,Ot,…,OT}對應(yīng)的第一候選結(jié)果為模型W1,對應(yīng)的第n選結(jié)果為模型串{Wtn}t=1,2,...,T,]]>則n選結(jié)果的t幀得分Stn=log(p(Ot|Wtn))]]>。 此時(shí)的似然比檢驗(yàn)為LLR(O)=logP(O/W1)-1N-1logΣn=2NP(O/Wn)]]>≈Σt=1TSt1-1N-1Σn=2NΣt=1TStn]]>=LL(O,W1)-1N-1Σn=2NΣt=1TLL(Ot,Wtn)]]>(3) 在本實(shí)施例中,N為3。通過置信測度與拒識模型,識別模型能夠拒掉95%的非相關(guān)語音噪聲與其它噪聲。
6、說話人語音識別模型的自適應(yīng)(1) 本實(shí)施例采用基于最大后驗(yàn)概率(Maximum a posteriori,MAP)的方法,利用Bayes學(xué)習(xí)理論,將非特定人的識別碼本作為先驗(yàn)信息與被適應(yīng)人的信息相結(jié)合實(shí)現(xiàn)自適應(yīng)。MAP算法基于以下準(zhǔn)則θi^=argmaxθiP(θi|x)------(9)]]>其中x為訓(xùn)練樣本,θi為第i個(gè)語音模型的參數(shù),θi^]]>為模型參數(shù)的Bayes估計(jì)值。
MAP算法的優(yōu)點(diǎn)在于,該算法基于最大后驗(yàn)概率準(zhǔn)則,具有理論上的最優(yōu)性。(2) 公式(9)可以得到HMM模型均值參數(shù)重估公式μ‾=Σt=1Tγ(t)xt‾+τm‾Σt=1Tγ(t)+τ------(10)]]>通過重新估值語音特征矢量分布的狀態(tài)序列就可以得到γ(t)的估值。先驗(yàn)參數(shù)m與τ很難獲得其理論估計(jì)值,因此本發(fā)明設(shè)置先驗(yàn)參數(shù)m為非特定人語音識別模型的均值矢量,先驗(yàn)參數(shù)τ=4.0。
7、語音識別詞條的構(gòu)成(1) 本實(shí)施例校核條目的在每一子樹下的樹狀語音模型結(jié)構(gòu)如圖5所示。其中每一個(gè)圓圈表示一個(gè)半音節(jié)語音識別單元模型。通過音節(jié)之間的級聯(lián)形成完整的語音識別詞條。語音識別詞條的生成過程如下A.從數(shù)據(jù)庫讀出有關(guān)文件記錄;
B.將記錄中簡寫、合并的信息條目分別展開,計(jì)算郵包的總條目;C.根據(jù)發(fā)送站集、接收站集和郵包編號集中的音節(jié)數(shù)目統(tǒng)計(jì)各音節(jié)出現(xiàn)的次數(shù);D.生成發(fā)送站集的拼音文件、代碼文件和樹文件;E.生成接收站集的拼音文件、代碼文件和樹文件;F.生成郵包編號集的拼音文件、代碼文件和樹文件;G.生成整個(gè)郵包條目集的拼音文件和代碼文件;H.統(tǒng)計(jì)郵包條目各部分之間的語法約束信息,并將其以數(shù)組方式存入語法信息文件。
8、語音提示處理(1) 采用碼激勵(lì)LPC語音編碼模型;模型參數(shù)在計(jì)算機(jī)上預(yù)先進(jìn)行處理,編輯,壓縮。語音編解碼算法可以采用標(biāo)準(zhǔn)的ITUG.723.1方法。(2) 需要壓縮的語音為4000多個(gè)郵政地名與數(shù)碼串,存儲(chǔ)的語音用于識別結(jié)果的回放。
本實(shí)施例將以上各個(gè)步驟編制成軟件處理模塊,綜合在一起可以構(gòu)成基于語音識別的郵包信息校核軟件系統(tǒng)。整個(gè)系統(tǒng)的總流程框圖如圖6所示,包括(1)首先將郵包校核路單數(shù)據(jù)裝載到校核系統(tǒng)中。(2)系統(tǒng)自動(dòng)將路單數(shù)據(jù)轉(zhuǎn)換成為要識別的語音詞條模板。(3)通過聲卡輸入語音,對語音信號進(jìn)行加窗、端點(diǎn)檢測,以及語音識別特征參數(shù)提取。(4)系統(tǒng)根據(jù)預(yù)先確定的功能進(jìn)行判決,如果當(dāng)前系統(tǒng)處于說話人自適應(yīng)的工作狀態(tài),則自動(dòng)更新的語音識別模型。如果系統(tǒng)處于信息校核工作狀態(tài),則進(jìn)行相應(yīng)的語音識別。(5)在識別的過程中,同時(shí)通過拒識模型判斷識別結(jié)果的置信程度,確保系統(tǒng)識別結(jié)果的可靠性。(6)將語音信息與已經(jīng)存入郵包信息校核系統(tǒng)中由校核路單數(shù)據(jù)構(gòu)成的識別詞條進(jìn)行模式比較。對正確識別的郵包條目進(jìn)行勾核,對錯(cuò)誤識別的郵包可以重新讀入語音或在相應(yīng)的條目上打上標(biāo)記等待后面處理。(7)識別結(jié)果采用合成語音回放反饋給用戶,對于用戶的語音命令,系統(tǒng)將自動(dòng)完成校核的任務(wù)。
本實(shí)施例基于上述方法開發(fā)的基于語音識別的郵包信息校核系統(tǒng),采用語音識別技術(shù)可以大大地減輕了目前郵包校核過程中的勞動(dòng)強(qiáng)度,提高勞動(dòng)效率與校核的準(zhǔn)確性,實(shí)現(xiàn)無紙操作。本實(shí)施例可以識別的語音為漢語普通話與四川話。識別郵包信息為全國4000多個(gè)郵政地名,以及數(shù)碼串。對漢語普通話首選識別率為97.7%,前三選識別率為99.5%。對四川話首選識別率為98%,前三選識別率為99.9%。
權(quán)利要求
1.本發(fā)明提出的一種基于語音識別的信息校核方法,包括語音信號的端點(diǎn)檢測及語音識別參數(shù)提取、非特定人語音識別模型的預(yù)先訓(xùn)練、非特定人語音識別、語音識別置信測度與拒識模型、語音識別置信測度與拒識模型、非特定人語音識別的說話人自適應(yīng)學(xué)習(xí)、語音識別詞條的生成、語音提示各部分,具體包括以下步驟A、語音信號的端點(diǎn)檢測及語音識別參數(shù)提取(1)語音信號通過計(jì)算機(jī)的聲卡A/D進(jìn)行采樣成為原始數(shù)字語音信號;(2)對所說的原始數(shù)字語音信號進(jìn)行頻譜整形及分幀加窗處理,以保證分幀語音的準(zhǔn)平穩(wěn)性;(3)使用語音信號的短時(shí)能量、波形走勢特征進(jìn)行端點(diǎn)檢測,去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;(4)對分幀加窗處理后的語音信號進(jìn)行語音(識別)特征提??;B、非特定人語音識別模型的預(yù)先訓(xùn)練(1)預(yù)先采集大量的語音數(shù)據(jù),建立訓(xùn)練語音數(shù)據(jù)庫,采集的語音與要識別的語音的語言種類相一致;(2)從所說的數(shù)據(jù)庫中的語音信號提取語音特征參數(shù),然后在PC機(jī)上通過預(yù)先的學(xué)習(xí)過程將這些特征參數(shù)轉(zhuǎn)變成識別模型的參數(shù);識別模型采用基于音素隱含碼爾科夫模型(Hidden Markov Model,HMM),訓(xùn)練的方法是根據(jù)最大似然準(zhǔn)則,對HMM模型參數(shù)(包均值與方差)進(jìn)行估值;C、非特定人語音識別(1)將所說的語音特征與語音識別模型進(jìn)行模式匹配,通過N-best維特比(Viterbi)幀同步束搜索算法,實(shí)時(shí)地提取前三選最好識別結(jié)果,在識別搜索過程中保留了所有有用“關(guān)鍵詞”信息,不需要再進(jìn)行回溯;(2)輸入語音信息,每校核一條該語音信息,就自動(dòng)剪掉該詞條對應(yīng)的語音發(fā)音模板,減少搜索空間,以提高校核過程的語音識別速度與識別精度。識別過程的語言模型采用基于多子樹三元詞對文法;D、語音識別置信測度與拒識模型在維特比(Viterbi)幀同步束搜索過程中結(jié)合置信測度與拒識模型的計(jì)算。通過判定識別語音的置信度的大小,確定是否接受或拒識該語音識別結(jié)果,同時(shí)拒掉在操作過程的無關(guān)語音;E、非特定人語音識別的說話人自適應(yīng)學(xué)習(xí);采用說話人自適應(yīng)方法對識別模型進(jìn)行調(diào)整;所說的自適應(yīng)方法采用最大后驗(yàn)概率方法,通過迭代方法逐步修正識別模板參數(shù);F、語音識別詞條的生成根據(jù)需要校核的數(shù)據(jù)文本信息,借助發(fā)音字典自動(dòng)生成要識別詞條的語音發(fā)音模板。輸入的語音信息與這些發(fā)音模板信息通過前面的非特定人語音識別進(jìn)行比較;發(fā)音字典由識別詞匯漢字與對應(yīng)的漢語拼音構(gòu)成,預(yù)先存放在計(jì)算機(jī)中;G、語音提示采用語音合成技術(shù)進(jìn)行語音提示,語音合成模型參數(shù)分析提取過程在計(jì)算機(jī)上通過預(yù)先處理后完成,并存儲(chǔ)在計(jì)算機(jī)的硬盤中用于語音合成,語音合成模型使用碼激勵(lì)語音編碼模型;語音提示用于回放識別結(jié)果,若回放語音與輸入語音一致,則表示識別結(jié)果正確;若不一致,則要求使用者讀入語音命令,重新進(jìn)行該語音命令的識別。
2.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說的語音信號的端點(diǎn)檢測及語音識別參數(shù)提取采用語音/噪聲最大似然判決器與波形走勢判決器結(jié)合的檢測方法;所說的語音識別特征參數(shù)提取是根據(jù)人耳的聽覺特性計(jì)算出來的一種MFCC特征矢量參數(shù)。
3.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說的非特定人語音識別模型的預(yù)先訓(xùn)練為采用分三步逐步細(xì)化訓(xùn)練HMM模型方法,模型參數(shù)包括均值、協(xié)方差矩陣、混合高斯加權(quán)系數(shù)。
4.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說的非特定人語音識別采用了多子樹三元詞對文法的幀同步束搜索方法,在識別搜索過程中保留了字串的所有有用信息,不需要再進(jìn)行回溯,可以實(shí)時(shí)地提取前三選最好識別結(jié)果。
5.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說置信測度估值與拒識模型采用基于整詞置信測度估值方法以及在線的垃圾模型作為無關(guān)語音的拒識模型,提高了識別模型的穩(wěn)健性,吸收了無關(guān)語音與噪聲。
6.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說的非特定人語音識別的說話人自適應(yīng)學(xué)習(xí)采用基于最大后驗(yàn)概率的自適應(yīng)方法,通過迭代分別對語音識別參數(shù)進(jìn)行調(diào)整,使模型之間鑒別測度保持最大鑒別性。
7.如權(quán)利要求1所述的基于信息校核的語音識別方法,其特征在于,所說語音識別詞條采用基于多子樹三元詞對文法的結(jié)構(gòu),根據(jù)要校核的文本信息生成對應(yīng)的語音詞條發(fā)音模板,語音詞條發(fā)音模板是以音素為基本單元組成的樹狀模板。
全文摘要
本發(fā)明屬于語音技術(shù)領(lǐng)域,包括:非特定人語音識別模型的預(yù)先訓(xùn)練、語音信號的端點(diǎn)檢測、語音識別參數(shù)提取、基于多子樹三元詞對文法的幀同步束搜索Viterbi語音識別方法、語音識別置信測度與拒識模型、非特定人語音識別模型的說話人自適應(yīng)學(xué)習(xí)、語音提示。本發(fā)明的基于語音識別的信息校核方法具有識別率高、穩(wěn)健性好等特點(diǎn)。構(gòu)成的語音識別系統(tǒng)可以用于信息查詢、語音命令識別、學(xué)習(xí)機(jī),以及生產(chǎn)環(huán)節(jié)的控制系統(tǒng)中。
文檔編號G07C11/00GK1293428SQ00130298
公開日2001年5月2日 申請日期2000年11月10日 優(yōu)先權(quán)日2000年11月10日
發(fā)明者劉加, 單翼翔, 劉潤生 申請人:清華大學(xué)