本發(fā)明涉及語音識別系統(tǒng),具體涉及訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置。
背景技術(shù):
語音識別系統(tǒng)一般包含聲學(xué)模型(am)和語言模型(lm)兩個(gè)部分。聲學(xué)模型是統(tǒng)計(jì)語音特征對音素單元概率分布的模型,語言模型是統(tǒng)計(jì)詞序列(詞匯上下文)出現(xiàn)概率的模型,語音識別過程是根據(jù)兩個(gè)模型的概率得分的加權(quán)和得到得分最高的結(jié)果。
近幾年,神經(jīng)網(wǎng)絡(luò)聲學(xué)模型(nnam)作為一種新方法被引入語音識別系統(tǒng),極大地提高了識別性能。
在神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中,傳統(tǒng)的技術(shù)是使用強(qiáng)制對齊的方法得到每個(gè)語音特征樣本的輸出目標(biāo)并將其概率設(shè)置為1,然后基于交叉熵訓(xùn)練聲學(xué)模型。
后來也有通過使用所有輸出目標(biāo)的概率分布作為目標(biāo)輸出,基于kl距離(kullback-leiblerdivergence,又稱為kl散度)訓(xùn)練聲學(xué)模型,kl距離是和交叉熵等價(jià)的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明者們發(fā)現(xiàn),在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中,單一目標(biāo)的訓(xùn)練和所有輸出目標(biāo)的訓(xùn)練都沒有合理的使用訓(xùn)練目標(biāo)之間的相似性,缺乏對訓(xùn)練目標(biāo)的選擇和篩選。
對于單一目標(biāo)的訓(xùn)練,在給定訓(xùn)練樣本的情況下,輸出狀態(tài)目標(biāo)的概率為1,其他輸出狀態(tài)目標(biāo)為0,而這樣的訓(xùn)練忽略了輸出狀態(tài)目標(biāo)和其他狀態(tài)目標(biāo)的之間的相似性,破壞了輸出狀態(tài)目標(biāo)的真實(shí)的概率分布。例如一些和輸出狀態(tài)目標(biāo)非常相似的其他狀態(tài)也應(yīng)該有一個(gè)合理的概率分布值。
對于所有輸出目標(biāo)的訓(xùn)練,也沒有合理的使用訓(xùn)練目標(biāo)之間的相似性,缺乏對訓(xùn)練目標(biāo)的選擇和篩選。
另外,在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練中,對于具有多個(gè)輸出狀態(tài)目標(biāo)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練來說,使用交叉熵作為訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練不夠靈活,不能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。
為了進(jìn)一步改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練方法,提高語音識別的精度,本發(fā)明提出了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置,并進(jìn)一步提供了語音識別方法和語音識別裝置。在本發(fā)明的一個(gè)實(shí)施方式中,將與標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,聚集的音素狀態(tài)和標(biāo)注的音素狀態(tài)一起分享輸出概率。具體地,提供了以下技術(shù)方案。
[1]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,包括:
基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù),計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;
將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;
使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和
基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
通過上述方案[1]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[2]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
計(jì)算上述音素狀態(tài)的得分的步驟包括:
基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算上述音素狀態(tài)的得分。
通過上述方案[2]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[3]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
計(jì)算上述音素狀態(tài)的得分的步驟包括:
基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算上述音素狀態(tài)的得分。
[4]根據(jù)上述方案[3]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
計(jì)算上述音素狀態(tài)的得分的步驟包括:
通過向前傳播,得到上述音素狀態(tài)的得分。
通過上述方案[3]或[4]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[5]根據(jù)上述方案[1]至[4]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集的步驟包括:
利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進(jìn)行過濾。
[6]根據(jù)上述方案[5]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[5]或[6]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[7]根據(jù)上述方案[1]至[6]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率的步驟包括:
基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。
[8]根據(jù)上述方案[1]至[7]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的步驟包括:
使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[9]根據(jù)上述方案[8]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。
[10]根據(jù)上述方案[9]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:
上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:
通過上述方案[10]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。
[11]一種語音識別方法,包括:
輸入待識別的語音;
利用由上述方案[1]至[10]的任一方案所述的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。
通過上述方案[11]的語音識別方法,能夠提高語音識別的精度。
[12]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,包括:
計(jì)算單元,其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù),計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;
聚集單元,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;
分享單元,其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和
訓(xùn)練單元,其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
通過上述方案[12]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[13]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述計(jì)算單元,基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算上述音素狀態(tài)的得分。
通過上述方案[13]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[14]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述計(jì)算單元,基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算上述音素狀態(tài)的得分。
[15]根據(jù)上述方案[14]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述計(jì)算單元,通過向前傳播,得到上述音素狀態(tài)的得分。
通過上述方案[14]或[15]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[16]根據(jù)上述方案[12]至[15]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述聚集單元,利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進(jìn)行過濾。
[17]根據(jù)上述方案[16]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述聚集單元,將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[16]或[17]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[18]根據(jù)上述方案[12]至[17]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述分享單元,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。
[19]根據(jù)上述方案[12]至[18]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述訓(xùn)練單元,使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[20]根據(jù)上述方案[19]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。
[21]根據(jù)上述方案[20]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,
上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:
其中
通過上述方案[21]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。
[22]一種語音識別裝置,包括:
輸入單元,其輸入待識別的語音;
語音識別單元,其利用由上述方案[12]至[21]的任一方案所述的裝置訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。
通過上述方案[22]的語音識別裝置,能夠提高語音識別的精度。
[23]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,
在計(jì)算上述音素狀態(tài)的得分的步驟之前還包括:
將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾,可以降低計(jì)算量,提高計(jì)算效率。
[24]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,還包括:
過濾單元,其在上述計(jì)算單元計(jì)算上述音素狀態(tài)的得分之前,將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。
通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,在計(jì)算單元計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾,可以降低計(jì)算量,提高計(jì)算效率。
附圖說明
通過以下結(jié)合附圖對本發(fā)明具體實(shí)施方式的說明,能夠更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。
圖3是根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。
圖4是根據(jù)本發(fā)明的另一實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。
圖5是根據(jù)本發(fā)明的另一實(shí)施方式的語音識別裝置的框圖。
具體實(shí)施方式
下面就結(jié)合附圖對本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
<訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法>
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。
如圖1所示,首先,在步驟s101中,基于訓(xùn)練數(shù)據(jù)10,計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。
在本實(shí)施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。
在本實(shí)施方式中,優(yōu)選,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算距離,距離越近,得分越高。
另外,也可以基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型可以是利用本領(lǐng)域知曉的任何訓(xùn)練方法進(jìn)行訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
對于給定的訓(xùn)練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個(gè)音素狀態(tài)的得分。
接著,在步驟105,將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中,閾值可以基于實(shí)際需要進(jìn)行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。
另外,在本實(shí)施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進(jìn)行過濾。具體地,如果一些音素狀態(tài)與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上,則將其過濾掉。
另外,也可以在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾掉,而只計(jì)算與標(biāo)注的音素狀態(tài)在同一個(gè)決策樹上的音素狀態(tài)的得分,這樣可以降低計(jì)算得分的計(jì)算量,提高計(jì)算效率。
接著,在步驟s110,使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。
最后,在步驟s115,基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
在本實(shí)施方式中,優(yōu)選使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。通用的訓(xùn)練函數(shù)準(zhǔn)則由以下的公式(1)表示:
其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。
在本實(shí)施方式中,優(yōu)選上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則由以下的公式(2)表示:
其中
下面,參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。
如圖2所示,首先,在步驟s201,基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20,例如通過向前傳播,計(jì)算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。
接著,在步驟s205中,將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出,與標(biāo)注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。
接著,在步驟s210,基于分享比例和聚集的音素狀態(tài)的得分,分享標(biāo)注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標(biāo)注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計(jì)算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標(biāo)注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。
最后,基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。
本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
另外,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。
<語音識別方法>
圖3是在同一發(fā)明構(gòu)思下的本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說明。
如圖3所示,在步驟s301,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。
接著,在步驟s305,利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。
對語音進(jìn)行識別的過程中,需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中,聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。
在本實(shí)施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型對待識別的語音進(jìn)行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。
通過上述語音識別方法,由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,由此能夠提高語音識別的精度。
<訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置>
圖4是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分,適當(dāng)省略其說明。
如圖4所示,本實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400,包括:計(jì)算單元401,其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù)10,計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;聚集單元405,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;分享單元410,其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和訓(xùn)練單元415,其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型
在本實(shí)施方式中,計(jì)算單元401,基于訓(xùn)練數(shù)據(jù)10,計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。
在本實(shí)施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。
在本實(shí)施方式中,優(yōu)選,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算距離,距離越近,得分越高。
另外,也可以基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型可以是利用本領(lǐng)域知曉的任何訓(xùn)練方法進(jìn)行訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
對于給定的訓(xùn)練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個(gè)音素狀態(tài)的得分。
在本實(shí)施方式中,聚集單元405,將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中,閾值可以基于實(shí)際需要進(jìn)行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。
另外,在本實(shí)施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進(jìn)行過濾。具體地,如果一些音素狀態(tài)與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上,則將其過濾掉。
另外,也可以在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾掉,而只計(jì)算與標(biāo)注的音素狀態(tài)在同一個(gè)決策樹上的音素狀態(tài)的得分,這樣可以降低計(jì)算得分的計(jì)算量,提高計(jì)算效率。
在本實(shí)施方式中,分享單元410,使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。
在本實(shí)施方式中,訓(xùn)練單元415,基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
在本實(shí)施方式中,優(yōu)選使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。通用的訓(xùn)練函數(shù)準(zhǔn)則由以下的公式(1)表示:
其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。
在本實(shí)施方式中,優(yōu)選上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則由以下的公式(2)表示:
其中
下面,參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置進(jìn)行訓(xùn)練的一個(gè)實(shí)例。
如圖2所示,計(jì)算單元401基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20,例如通過向前傳播,計(jì)算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。
聚類單元405將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出,與標(biāo)注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。
分享單元410基于分享比例和聚集的音素狀態(tài)的得分,分享標(biāo)注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標(biāo)注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計(jì)算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標(biāo)注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。
訓(xùn)練單元415基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。
本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
另外,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。
<語音識別裝置>
圖5是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別裝置的框圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分,適當(dāng)省略其說明。
如圖5所示,本實(shí)施方式的語音識別裝置500包括:輸入單元501,其輸入待識別的語音60;語音識別單元505,其利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句
在本實(shí)施方式中,輸入單元501,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。
語音識別單元505,利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。
對語音進(jìn)行識別的過程中,需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中,聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。
在本實(shí)施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型對待識別的語音進(jìn)行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。
通過上述語音識別裝置500,由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,由此能夠提高語音識別的精度。
以上雖然通過一些示例性的實(shí)施方式詳細(xì)地描述了本發(fā)明的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置,但是以上這些實(shí)施方式并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施方式,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。