訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置及語音識別方法和裝置與流程

文檔序號：11289114閱讀：275來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置及語音識別方法和裝置與流程

本發(fā)明涉及語音識別系統(tǒng)，具體涉及訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置。

背景技術(shù)：

語音識別系統(tǒng)一般包含聲學(xué)模型(am)和語言模型(lm)兩個(gè)部分。聲學(xué)模型是統(tǒng)計(jì)語音特征對音素單元概率分布的模型，語言模型是統(tǒng)計(jì)詞序列(詞匯上下文)出現(xiàn)概率的模型，語音識別過程是根據(jù)兩個(gè)模型的概率得分的加權(quán)和得到得分最高的結(jié)果。

近幾年，神經(jīng)網(wǎng)絡(luò)聲學(xué)模型(nnam)作為一種新方法被引入語音識別系統(tǒng)，極大地提高了識別性能。

在神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中，傳統(tǒng)的技術(shù)是使用強(qiáng)制對齊的方法得到每個(gè)語音特征樣本的輸出目標(biāo)并將其概率設(shè)置為1，然后基于交叉熵訓(xùn)練聲學(xué)模型。

后來也有通過使用所有輸出目標(biāo)的概率分布作為目標(biāo)輸出，基于kl距離(kullback-leiblerdivergence，又稱為kl散度)訓(xùn)練聲學(xué)模型，kl距離是和交叉熵等價(jià)的。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明者們發(fā)現(xiàn)，在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中，單一目標(biāo)的訓(xùn)練和所有輸出目標(biāo)的訓(xùn)練都沒有合理的使用訓(xùn)練目標(biāo)之間的相似性，缺乏對訓(xùn)練目標(biāo)的選擇和篩選。

對于單一目標(biāo)的訓(xùn)練，在給定訓(xùn)練樣本的情況下，輸出狀態(tài)目標(biāo)的概率為1，其他輸出狀態(tài)目標(biāo)為0，而這樣的訓(xùn)練忽略了輸出狀態(tài)目標(biāo)和其他狀態(tài)目標(biāo)的之間的相似性，破壞了輸出狀態(tài)目標(biāo)的真實(shí)的概率分布。例如一些和輸出狀態(tài)目標(biāo)非常相似的其他狀態(tài)也應(yīng)該有一個(gè)合理的概率分布值。

對于所有輸出目標(biāo)的訓(xùn)練，也沒有合理的使用訓(xùn)練目標(biāo)之間的相似性，缺乏對訓(xùn)練目標(biāo)的選擇和篩選。

另外，在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練中，對于具有多個(gè)輸出狀態(tài)目標(biāo)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練來說，使用交叉熵作為訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練不夠靈活，不能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

為了進(jìn)一步改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練方法，提高語音識別的精度，本發(fā)明提出了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置，并進(jìn)一步提供了語音識別方法和語音識別裝置。在本發(fā)明的一個(gè)實(shí)施方式中，將與標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集，聚集的音素狀態(tài)和標(biāo)注的音素狀態(tài)一起分享輸出概率。具體地，提供了以下技術(shù)方案。

[1]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，包括：

基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù)，計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分；

將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集；

使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率；和

基于上述訓(xùn)練語音和上述聚集的音素狀態(tài)，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

通過上述方案[1]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集，聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率，能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[2]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

計(jì)算上述音素狀態(tài)的得分的步驟包括：

基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算上述音素狀態(tài)的得分。

通過上述方案[2]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算音素狀態(tài)的得分，能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[3]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

計(jì)算上述音素狀態(tài)的得分的步驟包括：

基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算上述音素狀態(tài)的得分。

[4]根據(jù)上述方案[3]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

計(jì)算上述音素狀態(tài)的得分的步驟包括：

通過向前傳播，得到上述音素狀態(tài)的得分。

通過上述方案[3]或[4]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算音素狀態(tài)的得分，能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[5]根據(jù)上述方案[1]至[4]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集的步驟包括：

利用上述音素狀態(tài)的決策樹，對上述音素狀態(tài)進(jìn)行過濾。

[6]根據(jù)上述方案[5]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

通過上述方案[5]或[6]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[7]根據(jù)上述方案[1]至[6]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率的步驟包括：

基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分，分享上述標(biāo)注的音素狀態(tài)的概率。

[8]根據(jù)上述方案[1]至[7]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的步驟包括：

使用交叉熵訓(xùn)練準(zhǔn)則，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[9]根據(jù)上述方案[8]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。

[10]根據(jù)上述方案[9]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為：

通過上述方案[10]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子，能夠提高訓(xùn)練的靈活度，能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

[11]一種語音識別方法，包括：

輸入待識別的語音；

利用由上述方案[1]至[10]的任一方案所述的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

通過上述方案[11]的語音識別方法，能夠提高語音識別的精度。

[12]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，包括：

計(jì)算單元，其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù)，計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分；

聚集單元，其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集；

分享單元，其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率；和

訓(xùn)練單元，其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài)，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

通過上述方案[12]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集，聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率，能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[13]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述計(jì)算單元，基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算上述音素狀態(tài)的得分。

通過上述方案[13]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算音素狀態(tài)的得分，能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[14]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述計(jì)算單元，基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算上述音素狀態(tài)的得分。

[15]根據(jù)上述方案[14]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述計(jì)算單元，通過向前傳播，得到上述音素狀態(tài)的得分。

通過上述方案[14]或[15]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算音素狀態(tài)的得分，能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[16]根據(jù)上述方案[12]至[15]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述聚集單元，利用上述音素狀態(tài)的決策樹，對上述音素狀態(tài)進(jìn)行過濾。

[17]根據(jù)上述方案[16]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述聚集單元，將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

通過上述方案[16]或[17]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[18]根據(jù)上述方案[12]至[17]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述分享單元，基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分，分享上述標(biāo)注的音素狀態(tài)的概率。

[19]根據(jù)上述方案[12]至[18]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述訓(xùn)練單元，使用交叉熵訓(xùn)練準(zhǔn)則，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

[20]根據(jù)上述方案[19]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。

[21]根據(jù)上述方案[20]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，其中，

上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為：

其中是權(quán)重函數(shù)，(logti-logyi)ⁿ是距離函數(shù)，m，n分別是權(quán)重因子和距離因子。

通過上述方案[21]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子，能夠提高訓(xùn)練的靈活度，能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

[22]一種語音識別裝置，包括：

輸入單元，其輸入待識別的語音；

語音識別單元，其利用由上述方案[12]至[21]的任一方案所述的裝置訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

通過上述方案[22]的語音識別裝置，能夠提高語音識別的精度。

[23]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，其中，

在計(jì)算上述音素狀態(tài)的得分的步驟之前還包括：

將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，在計(jì)算得分之前，將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾，可以降低計(jì)算量，提高計(jì)算效率。

[24]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，還包括：

過濾單元，其在上述計(jì)算單元計(jì)算上述音素狀態(tài)的得分之前，將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，在計(jì)算單元計(jì)算得分之前，將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾，可以降低計(jì)算量，提高計(jì)算效率。

附圖說明

通過以下結(jié)合附圖對本發(fā)明具體實(shí)施方式的說明，能夠更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。

圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。

圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。

圖3是根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。

圖4是根據(jù)本發(fā)明的另一實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。

圖5是根據(jù)本發(fā)明的另一實(shí)施方式的語音識別裝置的框圖。

具體實(shí)施方式

下面就結(jié)合附圖對本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。

<訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法>

圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。

如圖1所示，首先，在步驟s101中，基于訓(xùn)練數(shù)據(jù)10，計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。

在本實(shí)施方式中，可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分，本發(fā)明對此沒有任何限制。

在本實(shí)施方式中，優(yōu)選，基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相似程度，可以利用本領(lǐng)域知曉的任何方法計(jì)算相似度，相似度越高，得分越高。距離是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相近程度，可以利用本領(lǐng)域知曉的任何方法計(jì)算距離，距離越近，得分越高。

另外，也可以基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算音素狀態(tài)的得分。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型可以是利用本領(lǐng)域知曉的任何訓(xùn)練方法進(jìn)行訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

對于給定的訓(xùn)練數(shù)據(jù)10，優(yōu)選通過向前傳播，可以得到各個(gè)音素狀態(tài)的得分。

接著，在步驟105，將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中，閾值可以基于實(shí)際需要進(jìn)行設(shè)定，通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。

另外，在本實(shí)施方式中，優(yōu)選利用音素狀態(tài)的決策樹，對得分大于預(yù)定閾值的音素狀態(tài)進(jìn)行過濾。具體地，如果一些音素狀態(tài)與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上，則將其過濾掉。

另外，也可以在計(jì)算得分之前，將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾掉，而只計(jì)算與標(biāo)注的音素狀態(tài)在同一個(gè)決策樹上的音素狀態(tài)的得分，這樣可以降低計(jì)算得分的計(jì)算量，提高計(jì)算效率。

接著，在步驟s110，使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選，基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分，分享上述標(biāo)注的音素狀態(tài)的概率。

最后，在步驟s115，基于上述訓(xùn)練語音和上述聚集的音素狀態(tài)，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

在本實(shí)施方式中，優(yōu)選使用交叉熵訓(xùn)練準(zhǔn)則，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。通用的訓(xùn)練函數(shù)準(zhǔn)則由以下的公式(1)表示：

其中i是聚集狀態(tài)的索引，w(ti)是聚集狀態(tài)的權(quán)重函數(shù)，d(ti,yi)是距離函數(shù)，用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。

在本實(shí)施方式中，優(yōu)選上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則由以下的公式(2)表示：

其中是權(quán)重函數(shù)，(logti-logyi)ⁿ是距離函數(shù)，m，n分別是權(quán)重因子和距離因子。在本實(shí)施方式中，可以通過調(diào)節(jié)權(quán)重因子和距離因子，即設(shè)定不同的m和n的值，可以靈活地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

下面，參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。

如圖2所示，首先，在步驟s201，基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20，例如通過向前傳播，計(jì)算音素狀態(tài)的得分，從而得到各音素狀態(tài)的得分30，例如ing0和in1的得分分別為0.04和0.02。

接著，在步驟s205中，將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出，與標(biāo)注的音素狀態(tài)ing1聚類，得到聚類的音素狀態(tài)40。

接著，在步驟s210，基于分享比例和聚集的音素狀態(tài)的得分，分享標(biāo)注的音素狀態(tài)ing1的概率。例如，將分享比例設(shè)為0.3，即將標(biāo)注的音素狀態(tài)ing1的概率的30％分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率，可以根據(jù)得分比例0.04/0.02計(jì)算，得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1，而標(biāo)注的音素狀態(tài)的概率為0.7，最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。

最后，基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述，例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。

本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集，聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率，能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算音素狀態(tài)的得分，能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

另外，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算音素狀態(tài)的得分，能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法，通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子，能夠提高訓(xùn)練的靈活度，能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

<語音識別方法>

圖3是在同一發(fā)明構(gòu)思下的本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。下面就結(jié)合該圖，對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施例相同的部分，適當(dāng)省略其說明。

如圖3所示，在步驟s301，輸入待識別的語音。待識別的語音可以使任何語音，本發(fā)明對此沒有任何限制。

接著，在步驟s305，利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

對語音進(jìn)行識別的過程中，需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中，聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，語言模型可以本領(lǐng)域知曉的任何語言模型，可以是神經(jīng)網(wǎng)絡(luò)語言模型，也可以是其他類型的語言模型。

在本實(shí)施方式中，利用神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型對待識別的語音進(jìn)行識別的方法，是本領(lǐng)域知曉的任何方法，在此不再贅述。

通過上述語音識別方法，由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，由此能夠提高語音識別的精度。

<訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置>

圖4是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。下面就結(jié)合該圖，對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分，適當(dāng)省略其說明。

如圖4所示，本實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400，包括：計(jì)算單元401，其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù)10，計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分；聚集單元405，其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集；分享單元410，其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率；和訓(xùn)練單元415，其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài)，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型

在本實(shí)施方式中，計(jì)算單元401，基于訓(xùn)練數(shù)據(jù)10，計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。

對于給定的訓(xùn)練數(shù)據(jù)10，優(yōu)選通過向前傳播，可以得到各個(gè)音素狀態(tài)的得分。

在本實(shí)施方式中，聚集單元405，將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中，閾值可以基于實(shí)際需要進(jìn)行設(shè)定，通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。

在本實(shí)施方式中，分享單元410，使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選，基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分，分享上述標(biāo)注的音素狀態(tài)的概率。

在本實(shí)施方式中，訓(xùn)練單元415，基于上述訓(xùn)練語音和上述聚集的音素狀態(tài)，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

下面，參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置進(jìn)行訓(xùn)練的一個(gè)實(shí)例。

如圖2所示，計(jì)算單元401基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20，例如通過向前傳播，計(jì)算音素狀態(tài)的得分，從而得到各音素狀態(tài)的得分30，例如ing0和in1的得分分別為0.04和0.02。

聚類單元405將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出，與標(biāo)注的音素狀態(tài)ing1聚類，得到聚類的音素狀態(tài)40。

分享單元410基于分享比例和聚集的音素狀態(tài)的得分，分享標(biāo)注的音素狀態(tài)ing1的概率。例如，將分享比例設(shè)為0.3，即將標(biāo)注的音素狀態(tài)ing1的概率的30％分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率，可以根據(jù)得分比例0.04/0.02計(jì)算，得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1，而標(biāo)注的音素狀態(tài)的概率為0.7，最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。

訓(xùn)練單元415基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率，訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述，例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。

本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集，聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率，能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè)，計(jì)算音素狀態(tài)的得分，能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

另外，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，計(jì)算音素狀態(tài)的得分，能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集，進(jìn)而分享標(biāo)注的音素狀態(tài)的概率，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾，能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

進(jìn)而，本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置，通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子，能夠提高訓(xùn)練的靈活度，能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

<語音識別裝置>

圖5是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別裝置的框圖。下面就結(jié)合該圖，對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分，適當(dāng)省略其說明。

如圖5所示，本實(shí)施方式的語音識別裝置500包括：輸入單元501，其輸入待識別的語音60；語音識別單元505，其利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句

在本實(shí)施方式中，輸入單元501，輸入待識別的語音。待識別的語音可以使任何語音，本發(fā)明對此沒有任何限制。

語音識別單元505，利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

對語音進(jìn)行識別的過程中，需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中，聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，語言模型可以本領(lǐng)域知曉的任何語言模型，可以是神經(jīng)網(wǎng)絡(luò)語言模型，也可以是其他類型的語言模型。

通過上述語音識別裝置500，由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，由此能夠提高語音識別的精度。

以上雖然通過一些示例性的實(shí)施方式詳細(xì)地描述了本發(fā)明的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置，但是以上這些實(shí)施方式并不是窮舉的，本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此，本發(fā)明并不限于這些實(shí)施方式，本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱會(huì)峰;鄧妍;丁沛;雍坤;郝杰
技術(shù)所有人：株式會(huì)社東芝
我是此專利的發(fā)明人

上一篇：用于處理一連串信號以進(jìn)行復(fù)調(diào)音符辨識的方法和裝置與流程
上一篇：電放大弦樂器的制造方法與工藝

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

bp神經(jīng)網(wǎng)絡(luò)語音識別相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)語音識別相關(guān)技術(shù)

語音識別模型相關(guān)技術(shù)

如何建立語音識別模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置及語音識別方法和裝置與流程