一種語音識別的特征向量量化快速收斂方法

文檔序號：2827578閱讀：971來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音識別的特征向量量化快速收斂方法
【專利摘要】本發(fā)明為大規(guī)模孤立詞語音識別的特征向量量化提供了一種快速收斂的方法，能比較快的建立碼本。本發(fā)明的方法解決了一般特征向量由于詞匯量大而導(dǎo)致碼本建立過程慢的缺點(diǎn)，實(shí)驗(yàn)結(jié)果表明，相比較于模擬退火算法，該發(fā)明的碼本建立過程中運(yùn)算的迭代次數(shù)減小了一個(gè)10的量級，同時(shí)消除了除法運(yùn)算和大量的乘法運(yùn)算。
【專利說明】一種語音識別的特征向量量化快速收斂方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及孤立詞語音識別領(lǐng)域，具體涉及一種語音識別的特征向量量化快速收斂方法。

【背景技術(shù)】
[0002] 在向量空間中，對大量的向量進(jìn)行某種特性的統(tǒng)計(jì)是很難的，甚至是不現(xiàn)實(shí)的。如果用一個(gè)編碼來表示具有相似特性的一簇向量，則可以減少數(shù)學(xué)建模上計(jì)算的復(fù)雜度以及減少運(yùn)算時(shí)間。這些具有相似特性的向量的集合稱為簇，或聚類。比如，相互之間歐式距離小于某個(gè)閾值的向量可以歸類到同一個(gè)簇中，或向量的范數(shù)小于某個(gè)閾值的向量可以歸類到同一個(gè)簇中，等等。
[0003] 在語音識別系統(tǒng)中，語音的特征參數(shù)本身就是一個(gè)向量，可以按照某種規(guī)則將語音特征參數(shù)進(jìn)行分類。語音識別中，一個(gè)很關(guān)鍵的步驟就是特征參數(shù)的量化，以利于減小存儲空間和進(jìn)行后續(xù)的匹配模板的計(jì)算。以d維向量為例，我們可以把一個(gè)d維向量對應(yīng) 到d維向量空間內(nèi)的一個(gè)點(diǎn)。所有d維向量的集合就構(gòu)成了坐標(biāo)空間C。將整個(gè)坐標(biāo)空間 C劃分成Μ個(gè)區(qū)域，每個(gè)區(qū)域成為一個(gè)聚類，每個(gè)聚類用一個(gè)符號，例如數(shù)字編號來代表，其屬性用該聚類的中心點(diǎn)的一個(gè)d維向量表示。
[0004] 實(shí)際上，碼本就是Μ個(gè)聚類形成的集合，建立碼本的過程就是模式分類中的聚類的實(shí)現(xiàn)過程。常用的聚類實(shí)現(xiàn)的方法都可以用來建立碼本，主要有：LBG聚類算法、模擬退火算法等等。
[0005] LBG聚類算法、模擬退火算法實(shí)現(xiàn)的語音識別的碼本比較準(zhǔn)確，但確定是在實(shí)現(xiàn)聚類的過程中，由于要反復(fù)迭代計(jì)算，迭代次數(shù)比較大，因此上述兩種算法的收斂速度都比較慢。如何在不損失碼本精度的前提下，加快聚類算法的收斂速度，快速建立碼本就是一個(gè)必須要考慮的問題。

【發(fā)明內(nèi)容】

[0006] 為解決現(xiàn)有技術(shù)中存在的問題，本發(fā)明為大規(guī)模孤立詞語音識別提供了一種不損失碼本精確度，但能加快聚類收斂速度，快速建立碼本的方法。本發(fā)明通過以下技術(shù)方案實(shí) 現(xiàn)：
[0007] -種語音識別的特征向量量化快速收斂方法，其特征在于：所述方法包括以下步驟：
[0008] (1)使用LBG算法對語音特征向量進(jìn)行訓(xùn)練，產(chǎn)生初始碼本，碼本的個(gè)數(shù)與訓(xùn)練用詞庫中詞的個(gè)數(shù)相同；
[0009] (2)從詞庫中隨機(jī)選一個(gè)詞，將其標(biāo)識為Α，該詞經(jīng)特征參數(shù)提取后，和所有碼本按照下式進(jìn)行平均量化誤差D 1的計(jì)算，
[0010]

【權(quán)利要求】
1. 一種語音識別的特征向量量化快速收斂方法，其特征在于：所述方法包括以下步驟： (1) 使用LBG算法對語音特征向量進(jìn)行訓(xùn)練，產(chǎn)生初始碼本，碼本的個(gè)數(shù)與訓(xùn)練用詞庫中詞的個(gè)數(shù)相同； (2) 從詞庫中隨機(jī)選一個(gè)詞，將其標(biāo)識為A，該詞經(jīng)特征參數(shù)提取后，和所有碼本按照下式進(jìn)行平均量化誤差D1的計(jì)算，
其中，τ是一個(gè)詞的有效語音幀的幀數(shù)，q是子簇的中心向量；如果詞語B的碼本給出最小的范數(shù)，則進(jìn)行步驟（3)，否則進(jìn)行步驟（4); (3) 對每一個(gè)詞的每一幀特征向量Xt，找出其在詞A的簇中的距離它最近的子簇，該子簇的中心向量用Cj表示；找出Xt在詞B的簇中的距離它最近的子簇，該子簇的中心向量用Cf表示，距離分別用D A、DB表示；如果（DA-DB)/DA〈 δ，則按照下式改變對應(yīng)子簇的中心向量：
如果（da-db)/da>s，則按照下式改變對應(yīng)子簇的中心向量：
其中s是預(yù)先定義的一個(gè)閾值，α是一個(gè)可變量，α隨著迭代次數(shù)的增加而減小； (4) 在該情況下，詞Α被正確識別，只需要調(diào)整詞Α的碼本的子簇的中心向量，對每一幀的幀向量Xt，按照下式進(jìn)行跳幀
其中，β是一個(gè)預(yù)先定義的可變量，β隨著迭代次數(shù)的增加而遞減； (5) 返回步驟（2)，進(jìn)行迭代，直到⑷=δ或β = 〇。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于：所述步驟（1)中產(chǎn)生初始碼本的具體步驟為：首先，將同一個(gè)孤立詞由不同的人發(fā)音實(shí)現(xiàn)的語音信號的特征向量歸類到同一個(gè)簇中，這樣對Ν個(gè)詞的語音識別系統(tǒng)，則可以建立Ν個(gè)簇，每個(gè)簇中的所有向量繼續(xù)歸類成一定數(shù)量的子簇，即第i個(gè)簇中的子簇個(gè)數(shù)為隊(duì)；對第i個(gè)簇，隨機(jī)地選擇隊(duì)個(gè)向量，每個(gè)向量初始地代表一個(gè)子簇的平均值或中心向量，對第i個(gè)簇中剩余的每個(gè)特征向量，根據(jù)其與各個(gè)子簇的中心向量的歐氏距離，將它賦給最近的子簇，該過程中采用LBG算法來實(shí)現(xiàn)。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于：根據(jù)最終的簇來劃分特征向量時(shí)，有的子簇包含的向量數(shù)為零，所以要阻止空子簇的出現(xiàn)；若有空子簇，則取消對應(yīng)的子簇，然后找出平均畸變最大的子簇，把對應(yīng)該子簇的向量一分為二，重復(fù)檢測，直到?jīng)]有空子簇出現(xiàn)為止。
【文檔編號】G10L15/06GK104064181SQ201410281283
【公開日】2014年9月24日申請日期:2014年6月20日優(yōu)先權(quán)日:2014年6月20日
【發(fā)明者】劉明, 王明江申請人:哈爾濱工業(yè)大學(xué)深圳研究生院

完整全部詳細(xì)技術(shù)資料下載