致隨后的三幀均被錯(cuò)誤的預(yù)測(cè)成標(biāo)簽1。推而廣之,單向的循環(huán)神經(jīng)網(wǎng)絡(luò)在遇到 簡(jiǎn)單模式重復(fù)很多時(shí),容易導(dǎo)致其隨后的標(biāo)簽被預(yù)測(cè)錯(cuò),而且"余尾效應(yīng)"的大小跟模式的 簡(jiǎn)單程度和重復(fù)次數(shù)比較相關(guān)。雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)在遇到簡(jiǎn)單模式重復(fù)很多時(shí),容易導(dǎo) 致其前后的標(biāo)簽被預(yù)測(cè)錯(cuò),而且"余尾效應(yīng)"同樣跟模式的簡(jiǎn)單程度和重復(fù)次數(shù)比較相關(guān)。
[0021] 為此,為了解決采用循環(huán)神經(jīng)網(wǎng)絡(luò)(尤其是LSTM)對(duì)語(yǔ)音識(shí)別進(jìn)行聲學(xué)建模時(shí)會(huì)出 現(xiàn)的"余尾效應(yīng)"的問(wèn)題,本發(fā)明提出一種利用長(zhǎng)短時(shí)記憶LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音 識(shí)別的方法和裝置。具體地,下面參考附圖描述本發(fā)明實(shí)施例的利用長(zhǎng)短時(shí)記憶LSTM循環(huán) 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音識(shí)別的方法和裝置。
[0022] 圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的利用長(zhǎng)短時(shí)記憶LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音 識(shí)別的方法的流程圖。如圖2所示,該方法可包括:
[0023] S201,接收第t時(shí)刻的語(yǔ)音輸入數(shù)據(jù)。
[0024] 可以理解,語(yǔ)音識(shí)別系統(tǒng)在對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),主要是通過(guò)聲學(xué)模型對(duì)該語(yǔ)音進(jìn) 行聲學(xué)特征的提取。其中,在本發(fā)明的實(shí)施例中,該聲學(xué)模型可通過(guò)長(zhǎng)短時(shí)記憶LSTM循環(huán)神 經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模的。其中,在本發(fā)明的實(shí)施例中,該長(zhǎng)短時(shí)記憶LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型 可包括輸入門、遺忘門、輸出門、狀態(tài)單元和LSTM結(jié)果等,這些數(shù)據(jù)可分別通過(guò)以下公式(1) 計(jì)算獲得:
[0025]
[0026]
[0027]
[0028]
[0029]
[0030] 其中,Xt為第t時(shí)刻的語(yǔ)音輸入數(shù)據(jù),W為權(quán)重矩陣,b為偏置向量,^〇、(:、111分別 為輸入門、遺忘門、輸出門、狀態(tài)單元和LSTM結(jié)果,?為向量按元素的乘積,oSsigmoid函 數(shù),sigmoid函數(shù)的計(jì)算公式為:
h分別為狀態(tài)單元的輸入和輸出激活函 數(shù),激活函數(shù)為tanh函數(shù),tanh函數(shù)的計(jì)算公式為
[0031] 具體地,語(yǔ)音識(shí)別系統(tǒng)在對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),可實(shí)時(shí)接收當(dāng)前第t時(shí)刻的語(yǔ)音輸入 數(shù)據(jù)。
[0032] S202,根據(jù)預(yù)設(shè)規(guī)則選擇第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM隱含層狀態(tài),其中,η為正 整數(shù)。
[0033] 其中,在本發(fā)明的實(shí)施例中,該預(yù)設(shè)規(guī)則可包括但不限于:從第t-Ι時(shí)刻至第t-n時(shí) 刻的LSTM隱含層狀態(tài)中選擇出至少一個(gè)最大不同的LSTM隱含層狀態(tài)作為選擇結(jié)果;和/或, 采用L0-范數(shù)的稀疏性,從第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM隱含層狀態(tài)中選擇出至少一個(gè) LSTM隱含層狀態(tài);和/或,根據(jù)人工經(jīng)驗(yàn)從第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM隱含層狀態(tài)中選擇 出至少一個(gè)LSTM隱含層狀態(tài)??梢岳斫猓鲜鲱A(yù)設(shè)規(guī)則還可以根據(jù)實(shí)際需求(如新的任務(wù)) 設(shè)計(jì)相應(yīng)的選擇規(guī)則。
[0034] 具體地,在接收到第t時(shí)刻的語(yǔ)音輸入數(shù)據(jù)的同時(shí),此時(shí)已存在有第t-Ι時(shí)刻至第 t-n時(shí)刻的LSTM隱含層狀態(tài),此時(shí)可根據(jù)上述預(yù)設(shè)規(guī)則從該第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM 隱含層狀態(tài)種選擇滿足該預(yù)設(shè)規(guī)則的LSTM隱含層狀態(tài)作為選擇結(jié)果,以用于計(jì)算第t時(shí)刻 的LSTM結(jié)果。
[0035] 例如,在實(shí)時(shí)接收到當(dāng)前時(shí)刻的語(yǔ)音輸入數(shù)據(jù)時(shí),可將該當(dāng)前時(shí)刻的語(yǔ)音輸入數(shù) 據(jù)代入上述式(1)以得到對(duì)應(yīng)的LSTM結(jié)果輸出,如圖3所示,當(dāng)將接收到的當(dāng)前第t時(shí)刻的語(yǔ) 音輸入數(shù)據(jù)xt代入上述式(1)時(shí),可先獲取當(dāng)前第t時(shí)刻的前面所有時(shí)刻(如第t-Ι時(shí)刻至第 t-n時(shí)刻)的LSTM隱含層狀態(tài),然后,根據(jù)上述預(yù)設(shè)規(guī)則從第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM隱 含層狀態(tài)中選擇出一個(gè)或多個(gè)LSTM隱含層狀態(tài)。可以看出,本步驟重要思想在于在第t-Ι時(shí) 刻至第t-n時(shí)刻中選擇LSTM隱含層狀態(tài)的這個(gè)選擇過(guò)程,也就是這個(gè)過(guò)程引入了"多時(shí)間尺 度"的概念,同時(shí)因?yàn)榭梢圆贿x擇其中的某個(gè)或者某幾個(gè)LSTM隱含層狀態(tài),所以存在"可跨 跳"的概念。
[0036] 可選地,在本發(fā)明的實(shí)施例中,該η可為預(yù)先配置的。可以理解,該η可以是通過(guò)大 量試驗(yàn)而得到的經(jīng)驗(yàn)值,將η配置成該經(jīng)驗(yàn)值可以使得語(yǔ)音識(shí)別效果更好等特點(diǎn)。
[0037]可選地,在本發(fā)明的一個(gè)實(shí)施例中,該η可通過(guò)自學(xué)習(xí)獲得。可以理解,可通過(guò)在完 成一次語(yǔ)音識(shí)別之后,根據(jù)此次識(shí)別效果來(lái)自行更新并完善該η的值,使得下次語(yǔ)音識(shí)別能 夠達(dá)到更好的效果。由此,通過(guò)不斷自學(xué)習(xí)而更新并完善該η的值,可以不斷完善語(yǔ)音識(shí)別, 提高識(shí)別準(zhǔn)確度等。
[0038] S203,根據(jù)選擇的至少一個(gè)LSTM隱含層狀態(tài)、第t時(shí)刻的語(yǔ)音輸入數(shù)據(jù)、以及LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)模型生成第t時(shí)刻的LSTM結(jié)果。
[0039] 具體地,在從第t-Ι時(shí)刻至第t-n時(shí)刻的LSTM隱含層狀態(tài)中選擇出一個(gè)或多個(gè)LSTM 隱含層狀態(tài)之后,可根據(jù)選擇出的一個(gè)或多個(gè)LSTM隱含層狀態(tài)、當(dāng)前第t時(shí)刻的輸入數(shù)據(jù)代 入上述式(1)以得到該第t時(shí)刻的LSTM結(jié)果。
[0040]為了使得本領(lǐng)域技術(shù)人員能夠更加清楚地了解本發(fā)明的特點(diǎn),下面可將上述LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)普通的LSTM模型進(jìn)行對(duì)比描述。
[0041]圖3是本發(fā)明提出的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型(即圖3中所示的多時(shí)間尺度的LSTM模 型)與普通常規(guī)的LSTM結(jié)構(gòu)的基本對(duì)比原理。如圖3所示,假設(shè)給定的輸入序列為x = (X1,· · ·,χτ),其中,T表示序列的長(zhǎng)度。
[0042] 1)對(duì)于任意時(shí)刻的輸入xt,本發(fā)明提出的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型通過(guò)上述式(1) 對(duì)模型中的各個(gè)單元進(jìn)行計(jì)算。
[0043] 2)對(duì)于任意時(shí)刻的輸入Xt,普通常規(guī)的LSTM結(jié)構(gòu)可通過(guò)下列公式(2)對(duì)模型中的 各個(gè)單元進(jìn)行計(jì)算:
[0044]
[0045] 其中,式(2)中的參數(shù)含義可參照上述式(1)中的參數(shù)。在此不再贅述。
[0046]從上述兩個(gè)公式可以看出,對(duì)于普通常規(guī)的LSTM模型,本發(fā)明提出的LSTM循環(huán)神 經(jīng)網(wǎng)絡(luò)模型在該公式的基礎(chǔ)上了進(jìn)行了改進(jìn)。其中,?表示可選"+"操作,計(jì)算法會(huì)根據(jù)輸 入數(shù)據(jù)的不同,自動(dòng)選擇其中一項(xiàng)或者多項(xiàng)進(jìn)行求和操作。
[0047] 也就是說(shuō),本發(fā)明提出的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型采用了傳統(tǒng)梯度下降法,即按照 梯度計(jì)算的理論,不同的數(shù)據(jù)采用不同的計(jì)算項(xiàng),而其梯度亦是針對(duì)該項(xiàng)的求導(dǎo)回傳(此操 作類似于Max pooling的梯度回傳過(guò)程)。
[0048] 綜上,本發(fā)明基于多時(shí)間尺度的深度循環(huán)神經(jīng)網(wǎng)絡(luò)可跨跳模型(即上述式(1)所 示)來(lái)解決上述問(wèn)題,模型引入跨幀之間的時(shí)間依賴關(guān)系,算法自動(dòng)地學(xué)習(xí)不同時(shí)間尺度之 間的依賴關(guān)系,對(duì)于簡(jiǎn)單重復(fù)模式自適應(yīng)的采用大的時(shí)間跨度依賴,而對(duì)變化比較劇烈的 自適應(yīng)的采取小的時(shí)間跨度,從而根據(jù)語(yǔ)音幀序列模式的簡(jiǎn)單程度自動(dòng)學(xué)習(xí)與其適應(yīng)的時(shí) 序依賴關(guān)系,從而很好的解決了深度循環(huán)神經(jīng)網(wǎng)絡(luò)的"余尾效應(yīng)"。
[0049]需要說(shuō)明的是,本發(fā)明提出的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型首先是建立在循環(huán)神經(jīng)網(wǎng)絡(luò) 的基礎(chǔ)上,卻不同于普通的循環(huán)神經(jīng)網(wǎng)路,普通的循環(huán)神經(jīng)網(wǎng)絡(luò)一定是前后幀之間具有嚴(yán) 格的時(shí)序依賴關(guān)系,而本發(fā)明的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型不止在建立普通的前后幀時(shí)序依賴 關(guān)系,還建模多時(shí)間尺度意義上的時(shí)序依賴關(guān)系。這是因?yàn)檎Z(yǔ)音信號(hào)是短時(shí)平穩(wěn)信號(hào),很多 時(shí)候存在相似的特征持續(xù)很多幀,而這種時(shí)序意義上的時(shí)序依賴是沒(méi)有意義的,也會(huì)消弱 模型的建模能力。本發(fā)明的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型通過(guò)隨機(jī)梯度方法自動(dòng)的學(xué)習(xí)時(shí)間尺度 的依賴關(guān)系,是模型能夠最大程度上發(fā)揮其潛能,從而更好的完成聲學(xué)建模過(guò)程。
[0050] 還需要說(shuō)明的是,本發(fā)明提出的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型區(qū)別于Clockwork RNN( - 種新式的基于人工神經(jīng)網(wǎng)絡(luò)的時(shí)間序列學(xué)習(xí)算法)<Xlockwork RNN是通過(guò)人為設(shè)計(jì)的固定 跨度的時(shí)間尺度的依賴關(guān)系。這種依賴關(guān)系在具有短時(shí)平穩(wěn)特性的聲學(xué)建模中只能獲得次 優(yōu)結(jié)果,因?yàn)樗荒馨l(fā)揮根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行自適應(yīng)多時(shí)間尺度的