一種語音識別的特征向量量化快速收斂方法
【專利摘要】本發(fā)明為大規(guī)模孤立詞語音識別的特征向量量化提供了一種快速收斂的方法,能比較快的建立碼本。本發(fā)明的方法解決了一般特征向量由于詞匯量大而導(dǎo)致碼本建立過程慢的缺點(diǎn),實(shí)驗(yàn)結(jié)果表明,相比較于模擬退火算法,該發(fā)明的碼本建立過程中運(yùn)算的迭代次數(shù)減小了一個(gè)10的量級,同時(shí)消除了除法運(yùn)算和大量的乘法運(yùn)算。
【專利說明】一種語音識別的特征向量量化快速收斂方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及孤立詞語音識別領(lǐng)域,具體涉及一種語音識別的特征向量量化快速收 斂方法。
【背景技術(shù)】
[0002] 在向量空間中,對大量的向量進(jìn)行某種特性的統(tǒng)計(jì)是很難的,甚至是不現(xiàn)實(shí)的。如 果用一個(gè)編碼來表示具有相似特性的一簇向量,則可以減少數(shù)學(xué)建模上計(jì)算的復(fù)雜度以及 減少運(yùn)算時(shí)間。這些具有相似特性的向量的集合稱為簇,或聚類。比如,相互之間歐式距離 小于某個(gè)閾值的向量可以歸類到同一個(gè)簇中,或向量的范數(shù)小于某個(gè)閾值的向量可以歸類 到同一個(gè)簇中,等等。
[0003] 在語音識別系統(tǒng)中,語音的特征參數(shù)本身就是一個(gè)向量,可以按照某種規(guī)則將語 音特征參數(shù)進(jìn)行分類。語音識別中,一個(gè)很關(guān)鍵的步驟就是特征參數(shù)的量化,以利于減小 存儲空間和進(jìn)行后續(xù)的匹配模板的計(jì)算。以d維向量為例,我們可以把一個(gè)d維向量對應(yīng) 到d維向量空間內(nèi)的一個(gè)點(diǎn)。所有d維向量的集合就構(gòu)成了坐標(biāo)空間C。將整個(gè)坐標(biāo)空間 C劃分成Μ個(gè)區(qū)域,每個(gè)區(qū)域成為一個(gè)聚類,每個(gè)聚類用一個(gè)符號,例如數(shù)字編號來代表,其 屬性用該聚類的中心點(diǎn)的一個(gè)d維向量表示。
[0004] 實(shí)際上,碼本就是Μ個(gè)聚類形成的集合,建立碼本的過程就是模式分類中的聚類 的實(shí)現(xiàn)過程。常用的聚類實(shí)現(xiàn)的方法都可以用來建立碼本,主要有:LBG聚類算法、模擬退 火算法等等。
[0005] LBG聚類算法、模擬退火算法實(shí)現(xiàn)的語音識別的碼本比較準(zhǔn)確,但確定是在實(shí)現(xiàn)聚 類的過程中,由于要反復(fù)迭代計(jì)算,迭代次數(shù)比較大,因此上述兩種算法的收斂速度都比較 慢。如何在不損失碼本精度的前提下,加快聚類算法的收斂速度,快速建立碼本就是一個(gè)必 須要考慮的問題。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明為大規(guī)模孤立詞語音識別提供了一種不損 失碼本精確度,但能加快聚類收斂速度,快速建立碼本的方法。本發(fā)明通過以下技術(shù)方案實(shí) 現(xiàn):
[0007] -種語音識別的特征向量量化快速收斂方法,其特征在于:所述方法包括以下步 驟:
[0008] (1)使用LBG算法對語音特征向量進(jìn)行訓(xùn)練,產(chǎn)生初始碼本,碼本的個(gè)數(shù)與訓(xùn)練用 詞庫中詞的個(gè)數(shù)相同;
[0009] (2)從詞庫中隨機(jī)選一個(gè)詞,將其標(biāo)識為Α,該詞經(jīng)特征參數(shù)提取后,和所有碼本 按照下式進(jìn)行平均量化誤差D 1的計(jì)算,
[0010]
【權(quán)利要求】
1. 一種語音識別的特征向量量化快速收斂方法,其特征在于:所述方法包括以下步 驟: (1) 使用LBG算法對語音特征向量進(jìn)行訓(xùn)練,產(chǎn)生初始碼本,碼本的個(gè)數(shù)與訓(xùn)練用詞庫 中詞的個(gè)數(shù)相同; (2) 從詞庫中隨機(jī)選一個(gè)詞,將其標(biāo)識為A,該詞經(jīng)特征參數(shù)提取后,和所有碼本按照 下式進(jìn)行平均量化誤差D1的計(jì)算,
其中,τ是一個(gè)詞的有效語音幀的幀數(shù),q是子簇的中心向量;如果詞語B的碼本給出 最小的范數(shù),則進(jìn)行步驟(3),否則進(jìn)行步驟(4); (3) 對每一個(gè)詞的每一幀特征向量Xt,找出其在詞A的簇中的距離它最近的子簇,該子 簇的中心向量用Cj表示;找出Xt在詞B的簇中的距離它最近的子簇,該子簇的中心向量 用Cf表示,距離分別用D A、DB表示;如果(DA-DB)/DA〈 δ,則按照下式改變對應(yīng)子簇的中心向 量:
如果(da-db)/da>s,則按照下式改變對應(yīng)子簇的中心向量:
其中s是預(yù)先定義的一個(gè)閾值,α是一個(gè)可變量,α隨著迭代次數(shù)的增加而減小; (4) 在該情況下,詞Α被正確識別,只需要調(diào)整詞Α的碼本的子簇的中心向量,對每一幀 的幀向量Xt,按照下式進(jìn)行跳幀
其中,β是一個(gè)預(yù)先定義的可變量,β隨著迭代次數(shù)的增加而遞減; (5) 返回步驟(2),進(jìn)行迭代,直到⑷=δ或β = 〇。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于:所述步驟(1)中產(chǎn)生初始碼本的具體步 驟為: 首先,將同一個(gè)孤立詞由不同的人發(fā)音實(shí)現(xiàn)的語音信號的特征向量歸類到同一個(gè)簇 中,這樣對Ν個(gè)詞的語音識別系統(tǒng),則可以建立Ν個(gè)簇,每個(gè)簇中的所有向量繼續(xù)歸類成一 定數(shù)量的子簇,即第i個(gè)簇中的子簇個(gè)數(shù)為隊(duì); 對第i個(gè)簇,隨機(jī)地選擇隊(duì)個(gè)向量,每個(gè)向量初始地代表一個(gè)子簇的平均值或中心向 量,對第i個(gè)簇中剩余的每個(gè)特征向量,根據(jù)其與各個(gè)子簇的中心向量的歐氏距離,將它賦 給最近的子簇,該過程中采用LBG算法來實(shí)現(xiàn)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于:根據(jù)最終的簇來劃分特征向量時(shí),有的子 簇包含的向量數(shù)為零,所以要阻止空子簇的出現(xiàn);若有空子簇,則取消對應(yīng)的子簇,然后找 出平均畸變最大的子簇,把對應(yīng)該子簇的向量一分為二,重復(fù)檢測,直到?jīng)]有空子簇出現(xiàn)為 止。
【文檔編號】G10L15/06GK104064181SQ201410281283
【公開日】2014年9月24日 申請日期:2014年6月20日 優(yōu)先權(quán)日:2014年6月20日
【發(fā)明者】劉明, 王明江 申請人:哈爾濱工業(yè)大學(xué)深圳研究生院