專利名稱:語音識別裝置、模型訓練方法、及交通信息服務平臺的制作方法
技術領域:
本發(fā)明屬于語音信號處理技術領域,涉及一種智能交通信息服務應用系統(tǒng),尤其涉及一 種語音識別裝置,此外,本發(fā)明還涉及一種上述語音識別裝置的模型訓練方法,同時還涉及 使用上述語音識別裝置的交通智能信息服務平臺。
背景技術:
智能交通信息服務應用領域中,手機、PDA等信息服務手持終端由于環(huán)境、使用者自身素 質(zhì)等條件限制,使得人機信息交互及為不便,于是通過語音識別完成客戶端向服務器端信息 輸入成為了交通信息服務應用的重要功能之一。
語音識別當前的應用焦點集中在大詞匯量非特定人連續(xù)語音識別上。 一般來說,較為可 靠的音識別系統(tǒng)都只能應用在小詞匯量(< 1000)范圍內(nèi), 一但詞匯條目數(shù)量增加,語音識 別的正確率和正確速度都將有明顯下降。隨著語音技術的發(fā)展和成熟,語音識別的詞匯量, 正確率已有了明顯提高。以語音合成、語音識別、語音編解碼為代表的智能語音技術正逐漸 開始向其他應用領域滲透,特別的,在交通信息服務應用領域中,用戶通過語音完成人機信 息交流方式,大大簡化了原本復雜的操作過程,使得交通信息服務更具人性化魅力和個性化 特色。該技術已引起國內(nèi)外計算機、消費電子業(yè)界的廣泛關注,尤其在美國、歐洲、日本等 工業(yè)發(fā)達國家,都在不斷加大研究和產(chǎn)業(yè)化的力度。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是提供一種可以方便用戶與城市交通智能信息服務平臺信 息交互的語音識別裝置。
另外,本發(fā)明還提供了使用上述語音識別裝置的交通智能信息服務平臺。 另外,本發(fā)明還提供了上述語音識別裝置的模型訓練方法。
為解決上述技術問題,本發(fā)明采用如下技術方案
一種語音識別裝置,包括數(shù)據(jù)采集管理模塊、語音識別模塊,所述語音識別裝置還包括 模型訓練模塊,所述數(shù)據(jù)采集管理模塊、模型訓練模塊分別與所述語音識別模塊連接; 所述模型訓練模塊用于產(chǎn)生可供識別器識別的HMM模型;
所述數(shù)據(jù)采集管理模塊包括數(shù)據(jù)存儲命名規(guī)則單元、數(shù)據(jù)拆分單元;數(shù)據(jù)存儲命名規(guī)則單元用于制定特定的數(shù)據(jù)存儲命名格式規(guī)范;數(shù)據(jù)拆分單元用于將錄制的完整語音數(shù)據(jù)實體 根據(jù)命名格式規(guī)范以具體每一條路名為單位拆分成對應的小的語音單位;所述數(shù)據(jù)存儲整理 單元根據(jù)設定的規(guī)則,將所述數(shù)據(jù)拆分單元拆分完畢的小語音單元保存在數(shù)據(jù)庫對應位置中;
語音識別模塊包括數(shù)據(jù)預處理單元、識別單元、漢字與拼音字母轉(zhuǎn)換爭元;數(shù)據(jù)預處理 單元用于為待識別人實時語音錄制,同時實現(xiàn)語音編碼轉(zhuǎn)換;識別單元通過HMM模型,得到 識別概率,并列舉出概率較大的若干項條目作為識別結(jié)果;漢字與拼音字母轉(zhuǎn)換單元用于將 識別出的一系列字母按照拼音和聲調(diào)規(guī)則映射到對應漢字,并向用戶呈現(xiàn)最終結(jié)果。
作為本發(fā)明的一種優(yōu)選方案,所述模型訓練模塊包括-
訓練配置信息單元,用于為訓練準備必要的初始化數(shù)據(jù),包括交通路名字典文件、發(fā)音 文件、HMM模型原形文件、屮文拼音轉(zhuǎn)換文件、訓練計劃文件;
語音編碼轉(zhuǎn)換單元,用于將音頻的時域波形轉(zhuǎn)換為用于描述語音頻域特征參數(shù),將WAV 格式音頻轉(zhuǎn)換為MFCC、 一階、二階差分MFCC系數(shù),用于描述語音信號頻域特征;
訓練過程控制單元,用于控制實施訓練具體步驟流程,包括初始化MHH模型過程、字間 音素停頓訓練過程、音素組合訓練過程、添加復合轉(zhuǎn)移概率訓練過程、加入聲調(diào)訓練過程;
訓練強度控制單元,用于控制訓練過程中重復疊代訓練次數(shù),通過訓練模塊各單元配合 最終產(chǎn)生可供識別器使用的HMM模型。
作為本發(fā)明的一種優(yōu)選方案,所述語音識別模塊還包括語音回放單元,用于實時采集的
語音數(shù)據(jù)并向客戶回放。
作為本發(fā)明的一種優(yōu)選方案,所述語音識別模塊還包括有限狀態(tài)自動機,語音識別裝置
在識別過程中,按照所述有限狀態(tài)自動機設定的路線判別;識別單元根據(jù)HMM模型得出對應
由音素組合而成的字概率并按照自動機模型設計的識別路線得到最終識別概率輸出,并列舉
出概率較大的若干項條目作為識別結(jié)果。
作為本發(fā)明的一種優(yōu)選方案,所述識別單元通過FMM模型和自動機模型,得到識別概率, 并列舉出概率較大的前五項條目作為識別結(jié)果。
作為本發(fā)明的一種優(yōu)選方案,所述數(shù)據(jù)采集管理模塊還包括錄制單元,以便錄音人員 根據(jù)軟件給出的相應提示朗讀對應詞條,記錄對應語音數(shù)據(jù);數(shù)據(jù)存儲整理單元,用于記錄 語音數(shù)據(jù)存放信息,并根據(jù)該信息將數(shù)據(jù)存儲在數(shù)據(jù)庫相應位置中。
作為本發(fā)明的一種優(yōu)選方案,所述數(shù)據(jù)存儲整理單元記錄的語音數(shù)據(jù)存放信息至少包括 錄音人姓名、性別、錄制時間、數(shù)據(jù)存儲路徑、完成路名條目、錄音人發(fā)音是否標準等信息。
作為本發(fā)明的一種優(yōu)選方案,所述語音識別裝置用于智能交通信息服務平臺中,所述錄制單元用于保存待錄音者錄制的城市交通路名語音信息,以WAV音頻格式作為訓練樣本,錄 制過程中錄制單元提供待對應路名的中文提示,錄制者按照提示使用麥克風朗讀,系統(tǒng)自動 保存朗讀結(jié)果,所有路名的音頻數(shù)據(jù)保存在一個完整的WAV文件中。
作為本發(fā)明的 -種優(yōu)選方案,所述語音編碼轉(zhuǎn)換單元將WAV波形數(shù)據(jù)轉(zhuǎn)換到頻域的Mel 頻率倒譜系數(shù)MFCC,并求得其一階和二階差分和頻域能量,以供訓練和識別使用。
一種交通智能信息服務平臺,使用上述的語音識別裝置。
一種語音識別裝置的模型訓練方法,包括如下步驟-
步驟SIO、讀入交通路名字典文件、發(fā)音文件、HMM模型原形文件、中文與漢語拼音轉(zhuǎn)換
文件、訓練計劃文件并配置基本數(shù)據(jù);
步驟ll,將WAV音頻數(shù)據(jù)轉(zhuǎn)換成MFCC系數(shù),并求得其一階和二階差分和頻域能量;
步驟S12,根據(jù)H醒模型原形文件,計算音頻編碼后MFCC系數(shù)的均值和方差初始化HMM模型;
步驟S13,根據(jù)強度設定要求進行指定次數(shù)訓練;
步驟SOO,訓練結(jié)束,產(chǎn)生最終可供識別的H顧模型。
作為本發(fā)明的一種優(yōu)選方案,所述方法在步驟S00前還包括如下步驟
步驟S14,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的
HMM模型;否則進入S15;
步驟S15,在字與字之間加入停頓符號sp,并且在每一句話結(jié)束后加入結(jié)束符號sil,
并且在S5得到的訓練模型中在停頓狀態(tài)和結(jié)束狀態(tài)之間加入轉(zhuǎn)移概率; 步驟S16,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S17,判斷是否己經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的 H腿模型,否則進入S18;
步驟S18,為加快識別速度,需盡可能減少音素數(shù)量, 一些因素是可以組合形成一個整
體;
步驟S19,在H應中音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率; 步驟S20,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S21,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入SOO結(jié)束訓練,得到最終的 H醒模型,否則進入S22;
步驟S22,但是為了能更進一步減少音素數(shù)量,把不影響發(fā)音的因素組合在一起; 步驟S23,在H廳中第二次音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率; 步驟S24,根據(jù)強度設定要求進行指定次數(shù)訓練。步驟S25,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的 H薩模型,否則進入S26;
步驟S26,在HMM中每個字發(fā)音音素最后加入拼音聲調(diào); 步驟S27,根據(jù)強度設定要求進行指定次數(shù)訓練。
本發(fā)明的有益效果在于由于本發(fā)明不但提供語音識別模塊,還提供了配套的數(shù)據(jù)采集 管理模塊和模型訓練模塊,因此可以方便的根據(jù)不同城市的交通路名情況配置相應識別裝置, 達到通行性的效果。并且在訓練數(shù)據(jù)充足的情況下,使用本發(fā)明訓練過程得到的HMM模型識 別正確率也將得到保證。
圖1為本發(fā)明語音識別裝置的組成示意圖。 圖2為模型訓練方法的工作流程圖。
具體實施例方式
為了更清楚地說明本發(fā)明的技術方案以及技術效果,以下結(jié)合
本發(fā)明的中文城 市交通路名語音識別裝置、語音識別訓練方法以及具有該語音識別裝置的智能交通信息服務 系統(tǒng)的較佳實例。
請參閱圖1,其中顯示本發(fā)明的較佳實施例的語音識別裝置的方框圖。如圖所示,本發(fā) 明的語音識別裝置IO,用于智能交通信息服務平臺l中,為交通服務20提供信息輸入,該語 音識別裝置10包括,數(shù)據(jù)采集管理模塊IOO、模型訓練模塊IIO、以及語音識別模塊120,本 實例中該智能交通信息服務平臺采用隱馬爾可夫模型HMM語音識別技術。
本實施例中數(shù)據(jù)采集管理模塊100進一步包括錄制單元IOOI,用于保存待錄音者錄制 的城市交通路名語音信息,以WAV音頻格式作為訓練樣本,錄制過程中錄制單元提供待對應 路名的中文提示,錄制者按照提示使用麥克風朗讀,系統(tǒng)自動保存朗讀結(jié)果,所有路名的音 頻數(shù)據(jù)保存在一個完整的WAV文件中,更詳細地說,考慮到存儲空間的大小,本實施例中是 采用22050Hz和單聲道的采樣格式對道路信息進行采樣錄制;存儲命名規(guī)則單元1002,根據(jù) 錄音人姓名、性別、錄制時間、聲調(diào)、語速、路名數(shù)據(jù)庫內(nèi)容特征設定命名規(guī)則,供數(shù)據(jù)拆 分單元和數(shù)據(jù)存儲整理單元使用;數(shù)據(jù)拆分單元1003,將1001錄制的大塊完整語音數(shù)據(jù),以路名數(shù)據(jù)庫中每一條路為單位拆分為小的單位,并對根據(jù)設定的命名規(guī)則和路名稱對其重新 命名;數(shù)據(jù)存儲整理單元1004,將數(shù)據(jù)拆分單元1003拆分完畢的小語音單元,根據(jù)設定的規(guī) 則保存在數(shù)據(jù)庫對應位置中。
訓練模塊110涉及到四個主要單元,首先根據(jù)訓練所需要的配置信息檢査相關文件是否 存在IIOI,不符合要求則給出提示信息。配置信息需要使用到的文件有交通路名字典文件, 該文件存放實例城市所有交通道路的路名中文數(shù)據(jù)庫,所有待識別的路名都必須出現(xiàn)在該數(shù) 據(jù)庫中,但是由于本識別裝置是面向中文語音識別的,因此排除實例城市中帶有英文字母符 號的路名,如"A20公路";發(fā)音文件,該文件記錄上述字典文件中出現(xiàn)的中文路名字符按照 漢語拼音規(guī)則拆分成音素序列,如"四平路"按照規(guī)則拆分成音素后應該為"s i p ing 1 u"; FMM模型原形文件,該文件給出H^I模型信息記錄格式及初始化值,包括模型對應音素,狀態(tài) 數(shù),狀態(tài)均值和方差,以及各狀態(tài)之間的轉(zhuǎn)移概率,在后續(xù)訓練過程中將不斷更新上述值; 中文拼音轉(zhuǎn)換文件,該文件記錄字典文件中所有出現(xiàn)中文字符對應的拼音字符,包括聲調(diào)信 息,使用'l' '2' '3' '4'四個符號分別表示聲調(diào)的第一聲、第二聲、第三聲、第四聲,如 "建國路"對應的記錄應該為"jian4 guo2 lu4";訓練計劃,該文件主要記錄訓練過程的每 一個具體實施步驟,及訓練次數(shù),如進行加入聲調(diào)的訓練,訓練次數(shù)為3等等;語音編碼1102, 將WAV波形數(shù)據(jù)轉(zhuǎn)換到頻域的Mel頻率倒譜系數(shù)(MFCC)并求出其一階和二階差分和頻域能 量,使用上述四種特征參數(shù)描述一段具體語音的性質(zhì),供訓練和識別使用。通過訓練過程控 制單元1103和訓練強度控制單元1104實施具體訓練。
請參閱圖2,其中顯示本發(fā)明的語音訓練方法的工作流程圖,以下結(jié)合具體實施例進行 說明。模型訓練使用BaunHVelch算法估計模型參數(shù),使用Viterbi解碼算法給出最佳狀態(tài)序 列。
步驟SIO,讀入交通路名字典文件、發(fā)音文件、H羅模型原形文件、中文與漢語拼音轉(zhuǎn)換 文件、訓練計劃文件并配置基本數(shù)據(jù)。
步驟Sll,將WAV音頻數(shù)據(jù)轉(zhuǎn)換成MFCC系數(shù),并計算厶MFCC' 、 AMFCC,,、和Energy。 步驟S12,根據(jù)H躍模型原形文件,計算音頻編碼后MFCC系數(shù)的均值和方差初始化HMM模型。 步驟S13,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S14,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S28結(jié)束訓練,得到最終的 H醒模型,否則進入S15。
步驟S15,在字與字之間加入停頓sp,并且在每一句話結(jié)束后加入結(jié)束符號sil,并且 在S14得到的訓練模型中在狀態(tài)sp和狀態(tài)sil之間加入轉(zhuǎn)移概率。步驟S16,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S17,判斷是否己經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S28結(jié)束訓練,得到最終的 HMM模型,否則進入S18。
步驟S18,為加快識別速度,需盡可能減少音素數(shù)量, 一些因素是可以組合形成一個整 體,如"好"按照音素劃分應該為、'、'a'、 'o',但是可以把后面兩個音素組合成一個因 素"ao",該步驟對可以合并組合的因素進行整理,減少路名中出現(xiàn)的總音素數(shù)量。
步驟S19,在HMM中音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率。
步驟S20,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S21,判斷是否己經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S28結(jié)束訓練,得到最終的 HMM模型,否則進入S22。
步驟S22,但是為了能更進一步減少音素數(shù)量,可以把一些不影響發(fā)音的因素也組合在 一起,如'了,按照前述S18規(guī)則可以把音素劃分為'1'、 'i'、 'ao',但是'i'、 'ao'兩 個因素在發(fā)音時可連續(xù)發(fā)音,因此可以將它們看作統(tǒng)一整體"iao",我們將這些情況的音素 也組合在一起進一步減少路名中出現(xiàn)的總音素數(shù)量。
步驟S23,在HMM中第二次音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率。
步驟S24,根據(jù)強度設定要求進行指定次數(shù)訓練。
步驟S25,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S28結(jié)束訓練,得到最終的 HMM模型,否則進入S26。
步驟S26,在H羅中每個字發(fā)音音素最后加入拼音聲調(diào)。 步驟S27,根據(jù)強度設定要求進行指定次數(shù)訓練。 步驟S28,訓練結(jié)束,產(chǎn)生最終可供識別的H飄模型。
語音識別模塊120主要涉及四個單元,包括預處理單元1201,通過數(shù)據(jù)采集裝置把實 時采集到的待識別者輸入語音信號保存在本地臨時緩沖中,語音回放單元1202在主進程中創(chuàng) 建一個子進程,用于回放剛輸入的語音信號。另一方面,調(diào)用1102單元的編碼轉(zhuǎn)換單元將其 轉(zhuǎn)換成MFCC特征。調(diào)用識別單元1203,其中識別單元必須具備已經(jīng)訓練完畢的HMM模型文件 和自動機模型文件,H醒模型文件在前面已經(jīng)詳細闡述過,這里不再重復;自動機模型文件定 義了簡化語音識別過程的狀態(tài)轉(zhuǎn)移路線,比如字典文件中所有的路名以'四'開頭的路線只 有"四平路"和"四川路"兩條,如果識別裝置識別出第一個字為'四'時,下一步識別就 只有'平'和'川'兩種可能,其他任何輸入都將被忽略,因此可大大節(jié)省匹配計算所消耗 的時間。最后調(diào)用漢字與拼音字母轉(zhuǎn)換單元1204,將識別得到的結(jié)果都轉(zhuǎn)換成對應漢字,將概率最大的前五項結(jié)果呈現(xiàn)給識別者,識別者可以通過觸摸屏或鼠標等器械從五個條目中選 擇最后結(jié)果,系統(tǒng)將該結(jié)果輸入智能交通信息服務平臺,為客戶提供進一步服務??蛻敉ㄟ^ 語音,方便輸入起點和終點路段名稱,獲得最短路徑出行方案、最短時間出行方案、公交線 路查詢、出行導航等等服務。
由于本發(fā)明不但提供語音識別模塊,還提供了配套的數(shù)據(jù)采集管理模塊和模型訓練模塊, 因此可以方便的根據(jù)不同城市的交通路名情況配置相應識別裝置,達到通行性的效果。并且 在訓練數(shù)據(jù)充足的情況下,使用本發(fā)明訓練過程得到的HMM模型識別正確率也將得到保證。
以上實施例僅用以說明而非限制本發(fā)明的技術方案。如本實施例僅以交通領域為例介紹 了本發(fā)明語音識別裝置,本發(fā)明可以用于其他領域。不脫離本發(fā)明精神和范圍的任何修改或 局部替換,均應涵蓋在本發(fā)明的權(quán)利要求范圍當中。
權(quán)利要求
1. 一種語音識別裝置,包括數(shù)據(jù)采集管理模塊、語音識別模塊,其特征在于所述語音識別裝置還包括模型訓練模塊,所述數(shù)據(jù)采集管理模塊、模型訓練模塊分別與所述語音識別模塊連接;所述模型訓練模塊用于產(chǎn)生可供識別器識別的HMM模型;所述數(shù)據(jù)采集管理模塊包括數(shù)據(jù)存儲命名規(guī)則單元、數(shù)據(jù)拆分單元;數(shù)據(jù)存儲命名規(guī)則單元用于制定特定的數(shù)據(jù)存儲命名格式規(guī)范;數(shù)據(jù)拆分單元用于將語音數(shù)據(jù)實體根據(jù)命名格式規(guī)范以具體每一條路名為單位拆分成對應的小的語音單位;語音識別模塊包括數(shù)據(jù)預處理單元、識別單元、漢字與拼音字母轉(zhuǎn)換單元;數(shù)據(jù)預處理單元用于為待識別人實時語音錄制,同時實現(xiàn)語音編碼轉(zhuǎn)換;識別單元通過HMM模型,得到識別概率,并列舉出概率較大的若干項條目作為識別結(jié)果;漢字與拼音字母轉(zhuǎn)換單元用于將識別出的一系列字母按照拼音和聲調(diào)規(guī)則映射到對應漢字,并向用戶呈現(xiàn)最終結(jié)果。
2、 根據(jù)權(quán)利要求1所述的語音識別裝置,其特征在于所述模型訓練模塊包括 訓練配置信息單元,用于為訓練準備必要的初始化數(shù)據(jù);語音編碼轉(zhuǎn)換單元,用于將音頻的時域波形轉(zhuǎn)換為用于描述語音頻域特征參數(shù); 訓練過程控制單元,用于控制實施訓練具體步驟流程; 訓練強度控制單元,用于控制訓練過程中重復疊代訓練次數(shù)。
3、 根據(jù)權(quán)利要求1所述的語音識別裝置,其特征在于所述語音識別模塊還包括語音回 放單元,用于實時采集的語音數(shù)據(jù)并向客戶回放。
4、 根據(jù)權(quán)利要求1所述的語音識別裝置,其特征在于所述語音識別模塊還包括有限狀 態(tài)自動機,語音識別裝置在識別過程中,按照所述有限狀態(tài)自動機設定的路線判別;識別單 元通過MM模型和自動機模型,得到識別概率,并列舉出概率較大的若干項條目作為識別結(jié) 果。
5、 根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于所述識別單元根據(jù)HMM模型得出 對應由音素組合而成的字概率并按照自動機模型設計的識別路線得到最終識別概率輸出,并 列舉出概率較大的前五項條目作為識別結(jié)果。
6、 根據(jù)權(quán)利要求1所述的語音識別裝置,其特征在于所述數(shù)據(jù)采集管理模塊還包括 錄制單元,用于在錄音人員朗讀詞條時記錄對應語音數(shù)據(jù);數(shù)據(jù)存儲整理單元,用于記錄語音數(shù)據(jù)存放信息,并根據(jù)設定的規(guī)則,將所述數(shù)據(jù)拆分 單元拆分完畢的小語音單元保存在數(shù)據(jù)庫對應位置中:。
7、 根據(jù)權(quán)利要求6所述的語音識別裝置,其特征在于所述數(shù)據(jù)存儲整理單元記錄的語音數(shù)據(jù)存放信息至少包括錄音人姓名、性別、錄制時間、數(shù)據(jù)存儲路徑、完成路名條目、錄 音人發(fā)音是否標準等信息。
8、 根據(jù)權(quán)利要求1所述的語音識別裝置,其特征在于所述語音識別裝置用于智能交通 信息服務平臺中,所述錄制單元用于保存待錄音者錄制的城市交通路名語音信息,以WAV音 頻格式作為訓練樣本,錄制過程中錄制單元提供待對應路名的中文提示,錄制者按照提示使 用麥克風朗讀,系統(tǒng)自動保存朗讀結(jié)果,所有路名的音頻數(shù)據(jù)保存在一個完整的WAV文件中。
9、 根據(jù)權(quán)利要求2所述的語音識別裝置,其特征在于所述語音編碼轉(zhuǎn)換單元將WAV波 形數(shù)據(jù)轉(zhuǎn)換到頻域的Mel頻率倒譜系數(shù)MFCC,并求得其一階和二階差分和頻域能量,以供訓 練和識別使用。
10、 一種交通智能信息服務平臺,其特征在于,使用權(quán)利要求1至9任意一項所述的語 音識別裝置。
11、 一種語音識別裝置的模型訓練方法,其特征在于包括如下步驟步驟SIO、讀入交通路名字典文件、發(fā)音文件、HMM模型原形文件、中文與漢語拼音轉(zhuǎn)換 文件、訓練計劃文件并配置基本數(shù)據(jù);步驟ll,將WAV音頻數(shù)據(jù)轉(zhuǎn)換成MFCC系數(shù),并求得其一階和二階差分和頻域能量; 步驟S12,根據(jù)H麗模型原形文件,計算音頻編碼后MFCC系數(shù)的均值和方差初始化H腿模型; 步驟S13,根據(jù)強度設定要求進行指定次數(shù)訓練; 步驟SOO,訓練結(jié)束,產(chǎn)生最終可供識別的H廳模型。
12、 根據(jù)權(quán)利要求ll所述的模型訓練方法,其特征在于所述方法在步驟S00前還包括 如下步驟步驟S14,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的 H醒模型;否則進入S15;步驟S15,在字與字之間加入停頓符號sp,并且在每一句話結(jié)束后加入結(jié)束符號sil,并且在S5得到的訓練模型中在停頓狀態(tài)和結(jié)束狀態(tài)之間加入轉(zhuǎn)移概率;步驟S16,根據(jù)強度設定要求進行指定次數(shù)訓練。
13、 根據(jù)權(quán)利要求12所述的模型訓練方法,其特征在于還包括如下步驟-步驟S17,判斷是否已經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的 HMM模型,否則進入S18;步驟S18,為加快識別速度,需盡可能減少音素數(shù)量, 一些因素是可以組合形成一個整體;步驟S19,在HMM中音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率; 步驟S20,根據(jù)強度設定要求進行指定次數(shù)訓練。
14、 根據(jù)權(quán)利要求13所述的模型訓練方法,其特征在于還包括如下步驟 步驟S21,判斷是否巳經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的HMM模型,否則進入S22;步驟S22,但是為了能更進一步減少音素數(shù)量,把不影響發(fā)音的因素組合在一起; 步驟S23,在HMM中第二次音素組合后添加可轉(zhuǎn)移狀態(tài)的轉(zhuǎn)移概率; 步驟S24,根據(jù)強度設定要求進行指定次數(shù)訓練。
15、 根據(jù)權(quán)利要求14所述的模型訓練方法,其特征在于還包括如下步驟-歩驟S25,判斷是否己經(jīng)達到訓練計劃要求,如果是則轉(zhuǎn)入S00結(jié)束訓練,得到最終的HMM模型,否則進入S26;步驟S26,在HMM中每個字發(fā)音音素最后加入拼音聲調(diào); 步驟S27,根據(jù)強度設定要求進行指定次數(shù)訓練。
全文摘要
本發(fā)明揭示了一種語音識別裝置,包括數(shù)據(jù)采集管理模塊、語音識別模塊、模型訓練模塊,數(shù)據(jù)采集管理模塊、模型訓練模塊分別與語音識別模塊連接;模型訓練模塊用于產(chǎn)生可供識別器識別的HMM模型,其包括訓練配置信息單元、語音編碼轉(zhuǎn)換單元、訓練過程控制單元、訓練強度控制單元;數(shù)據(jù)采集管理模塊包括錄制單元、數(shù)據(jù)存儲整理單元;語音識別模塊包括數(shù)據(jù)預處理單元、語音回放單元、識別單元。由于本發(fā)明不但提供語音識別模塊,還提供了配套的數(shù)據(jù)采集管理模塊和模型訓練模塊,因此可方便地根據(jù)不同城市的交通路名情況配置相應識別裝置,達到通行性的效果。在訓練數(shù)據(jù)充足的情況下,使用本發(fā)明訓練過程得到的HMM模型識別正確率也將得到保證。
文檔編號G10L15/28GK101286317SQ200810038370
公開日2008年10月15日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者吳俊偉, 鈺 方, 曾國蓀, 白星振, 苗奪謙, 蔣昌俊, 閆春鋼, 陳閎中 申請人:同濟大學