国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置及語音識別方法和裝置與流程

      文檔序號:11289114閱讀:275來源:國知局
      訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置及語音識別方法和裝置與流程

      本發(fā)明涉及語音識別系統(tǒng),具體涉及訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置。



      背景技術(shù):

      語音識別系統(tǒng)一般包含聲學(xué)模型(am)和語言模型(lm)兩個(gè)部分。聲學(xué)模型是統(tǒng)計(jì)語音特征對音素單元概率分布的模型,語言模型是統(tǒng)計(jì)詞序列(詞匯上下文)出現(xiàn)概率的模型,語音識別過程是根據(jù)兩個(gè)模型的概率得分的加權(quán)和得到得分最高的結(jié)果。

      近幾年,神經(jīng)網(wǎng)絡(luò)聲學(xué)模型(nnam)作為一種新方法被引入語音識別系統(tǒng),極大地提高了識別性能。

      在神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中,傳統(tǒng)的技術(shù)是使用強(qiáng)制對齊的方法得到每個(gè)語音特征樣本的輸出目標(biāo)并將其概率設(shè)置為1,然后基于交叉熵訓(xùn)練聲學(xué)模型。

      后來也有通過使用所有輸出目標(biāo)的概率分布作為目標(biāo)輸出,基于kl距離(kullback-leiblerdivergence,又稱為kl散度)訓(xùn)練聲學(xué)模型,kl距離是和交叉熵等價(jià)的。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明者們發(fā)現(xiàn),在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練中,單一目標(biāo)的訓(xùn)練和所有輸出目標(biāo)的訓(xùn)練都沒有合理的使用訓(xùn)練目標(biāo)之間的相似性,缺乏對訓(xùn)練目標(biāo)的選擇和篩選。

      對于單一目標(biāo)的訓(xùn)練,在給定訓(xùn)練樣本的情況下,輸出狀態(tài)目標(biāo)的概率為1,其他輸出狀態(tài)目標(biāo)為0,而這樣的訓(xùn)練忽略了輸出狀態(tài)目標(biāo)和其他狀態(tài)目標(biāo)的之間的相似性,破壞了輸出狀態(tài)目標(biāo)的真實(shí)的概率分布。例如一些和輸出狀態(tài)目標(biāo)非常相似的其他狀態(tài)也應(yīng)該有一個(gè)合理的概率分布值。

      對于所有輸出目標(biāo)的訓(xùn)練,也沒有合理的使用訓(xùn)練目標(biāo)之間的相似性,缺乏對訓(xùn)練目標(biāo)的選擇和篩選。

      另外,在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練中,對于具有多個(gè)輸出狀態(tài)目標(biāo)的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練來說,使用交叉熵作為訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練不夠靈活,不能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

      為了進(jìn)一步改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練方法,提高語音識別的精度,本發(fā)明提出了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法和裝置,并進(jìn)一步提供了語音識別方法和語音識別裝置。在本發(fā)明的一個(gè)實(shí)施方式中,將與標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,聚集的音素狀態(tài)和標(biāo)注的音素狀態(tài)一起分享輸出概率。具體地,提供了以下技術(shù)方案。

      [1]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,包括:

      基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù),計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;

      將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;

      使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和

      基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      通過上述方案[1]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [2]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      計(jì)算上述音素狀態(tài)的得分的步驟包括:

      基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算上述音素狀態(tài)的得分。

      通過上述方案[2]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [3]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      計(jì)算上述音素狀態(tài)的得分的步驟包括:

      基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算上述音素狀態(tài)的得分。

      [4]根據(jù)上述方案[3]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      計(jì)算上述音素狀態(tài)的得分的步驟包括:

      通過向前傳播,得到上述音素狀態(tài)的得分。

      通過上述方案[3]或[4]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [5]根據(jù)上述方案[1]至[4]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集的步驟包括:

      利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進(jìn)行過濾。

      [6]根據(jù)上述方案[5]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

      通過上述方案[5]或[6]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [7]根據(jù)上述方案[1]至[6]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率的步驟包括:

      基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。

      [8]根據(jù)上述方案[1]至[7]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的步驟包括:

      使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [9]根據(jù)上述方案[8]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。

      [10]根據(jù)上述方案[9]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:

      上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:

      通過上述方案[10]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

      [11]一種語音識別方法,包括:

      輸入待識別的語音;

      利用由上述方案[1]至[10]的任一方案所述的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

      通過上述方案[11]的語音識別方法,能夠提高語音識別的精度。

      [12]一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,包括:

      計(jì)算單元,其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù),計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;

      聚集單元,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;

      分享單元,其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和

      訓(xùn)練單元,其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      通過上述方案[12]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [13]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述計(jì)算單元,基于上述音素狀態(tài)與上述標(biāo)注的音素狀態(tài)之間的相似度和上述音素狀態(tài)和上述標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算上述音素狀態(tài)的得分。

      通過上述方案[13]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [14]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述計(jì)算單元,基于上述訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算上述音素狀態(tài)的得分。

      [15]根據(jù)上述方案[14]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述計(jì)算單元,通過向前傳播,得到上述音素狀態(tài)的得分。

      通過上述方案[14]或[15]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [16]根據(jù)上述方案[12]至[15]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述聚集單元,利用上述音素狀態(tài)的決策樹,對上述音素狀態(tài)進(jìn)行過濾。

      [17]根據(jù)上述方案[16]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述聚集單元,將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

      通過上述方案[16]或[17]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [18]根據(jù)上述方案[12]至[17]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述分享單元,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。

      [19]根據(jù)上述方案[12]至[18]的任一方案所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述訓(xùn)練單元,使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      [20]根據(jù)上述方案[19]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。

      [21]根據(jù)上述方案[20]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,其中,

      上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則為:

      其中是權(quán)重函數(shù),(logti-logyi)n是距離函數(shù),m,n分別是權(quán)重因子和距離因子。

      通過上述方案[21]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

      [22]一種語音識別裝置,包括:

      輸入單元,其輸入待識別的語音;

      語音識別單元,其利用由上述方案[12]至[21]的任一方案所述的裝置訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

      通過上述方案[22]的語音識別裝置,能夠提高語音識別的精度。

      [23]根據(jù)上述方案[1]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,其中,

      在計(jì)算上述音素狀態(tài)的得分的步驟之前還包括:

      將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

      通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾,可以降低計(jì)算量,提高計(jì)算效率。

      [24]根據(jù)上述方案[12]所述的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,還包括:

      過濾單元,其在上述計(jì)算單元計(jì)算上述音素狀態(tài)的得分之前,將與上述標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾。

      通過上述方案[23]的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,在計(jì)算單元計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾,可以降低計(jì)算量,提高計(jì)算效率。

      附圖說明

      通過以下結(jié)合附圖對本發(fā)明具體實(shí)施方式的說明,能夠更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。

      圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。

      圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。

      圖3是根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。

      圖4是根據(jù)本發(fā)明的另一實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。

      圖5是根據(jù)本發(fā)明的另一實(shí)施方式的語音識別裝置的框圖。

      具體實(shí)施方式

      下面就結(jié)合附圖對本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。

      <訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法>

      圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的流程圖。

      如圖1所示,首先,在步驟s101中,基于訓(xùn)練數(shù)據(jù)10,計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。

      在本實(shí)施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。

      在本實(shí)施方式中,優(yōu)選,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算距離,距離越近,得分越高。

      另外,也可以基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型可以是利用本領(lǐng)域知曉的任何訓(xùn)練方法進(jìn)行訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      對于給定的訓(xùn)練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個(gè)音素狀態(tài)的得分。

      接著,在步驟105,將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中,閾值可以基于實(shí)際需要進(jìn)行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。

      另外,在本實(shí)施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進(jìn)行過濾。具體地,如果一些音素狀態(tài)與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上,則將其過濾掉。

      另外,也可以在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾掉,而只計(jì)算與標(biāo)注的音素狀態(tài)在同一個(gè)決策樹上的音素狀態(tài)的得分,這樣可以降低計(jì)算得分的計(jì)算量,提高計(jì)算效率。

      接著,在步驟s110,使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。

      最后,在步驟s115,基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      在本實(shí)施方式中,優(yōu)選使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。通用的訓(xùn)練函數(shù)準(zhǔn)則由以下的公式(1)表示:

      其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。

      在本實(shí)施方式中,優(yōu)選上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則由以下的公式(2)表示:

      其中是權(quán)重函數(shù),(logti-logyi)n是距離函數(shù),m,n分別是權(quán)重因子和距離因子。在本實(shí)施方式中,可以通過調(diào)節(jié)權(quán)重因子和距離因子,即設(shè)定不同的m和n的值,可以靈活地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      下面,參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法的一個(gè)實(shí)例的流程圖。

      如圖2所示,首先,在步驟s201,基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20,例如通過向前傳播,計(jì)算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。

      接著,在步驟s205中,將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出,與標(biāo)注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。

      接著,在步驟s210,基于分享比例和聚集的音素狀態(tài)的得分,分享標(biāo)注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標(biāo)注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計(jì)算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標(biāo)注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。

      最后,基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。

      本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      另外,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

      <語音識別方法>

      圖3是在同一發(fā)明構(gòu)思下的本發(fā)明的另一個(gè)實(shí)施方式的語音識別方法的流程圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說明。

      如圖3所示,在步驟s301,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。

      接著,在步驟s305,利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

      對語音進(jìn)行識別的過程中,需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中,聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。

      在本實(shí)施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型對待識別的語音進(jìn)行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。

      通過上述語音識別方法,由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,由此能夠提高語音識別的精度。

      <訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置>

      圖4是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置的框圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分,適當(dāng)省略其說明。

      如圖4所示,本實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400,包括:計(jì)算單元401,其基于包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)的訓(xùn)練數(shù)據(jù)10,計(jì)算與上述標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分;聚集單元405,其將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集;分享單元410,其使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率;和訓(xùn)練單元415,其基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型

      在本實(shí)施方式中,計(jì)算單元401,基于訓(xùn)練數(shù)據(jù)10,計(jì)算與標(biāo)注的音素狀態(tài)不同的音素狀態(tài)的得分。訓(xùn)練數(shù)據(jù)10包括訓(xùn)練語音和標(biāo)注的音素狀態(tài)。

      在本實(shí)施方式中,可以利用本領(lǐng)域知曉的或未來開發(fā)的任何給音素狀態(tài)打分的模型或方法獲得音素狀態(tài)的得分,本發(fā)明對此沒有任何限制。

      在本實(shí)施方式中,優(yōu)選,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分。相似度是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相似程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算相似度,相似度越高,得分越高。距離是表示音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的相近程度,可以利用本領(lǐng)域知曉的任何方法計(jì)算距離,距離越近,得分越高。

      另外,也可以基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型可以是利用本領(lǐng)域知曉的任何訓(xùn)練方法進(jìn)行訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      對于給定的訓(xùn)練數(shù)據(jù)10,優(yōu)選通過向前傳播,可以得到各個(gè)音素狀態(tài)的得分。

      在本實(shí)施方式中,聚集單元405,將得分大于預(yù)定閾值的音素狀態(tài)和上述標(biāo)注的音素狀態(tài)聚集。在本實(shí)施方式中,閾值可以基于實(shí)際需要進(jìn)行設(shè)定,通過設(shè)定閾值來控制聚集的音素狀態(tài)的數(shù)量。

      另外,在本實(shí)施方式中,優(yōu)選利用音素狀態(tài)的決策樹,對得分大于預(yù)定閾值的音素狀態(tài)進(jìn)行過濾。具體地,如果一些音素狀態(tài)與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上,則將其過濾掉。

      另外,也可以在計(jì)算得分之前,將與標(biāo)注的音素狀態(tài)不在同一個(gè)決策樹上的音素狀態(tài)過濾掉,而只計(jì)算與標(biāo)注的音素狀態(tài)在同一個(gè)決策樹上的音素狀態(tài)的得分,這樣可以降低計(jì)算得分的計(jì)算量,提高計(jì)算效率。

      在本實(shí)施方式中,分享單元410,使上述聚集的音素狀態(tài)分享上述標(biāo)注的音素狀態(tài)的概率。優(yōu)選,基于預(yù)定的分享比例和上述聚集的音素狀態(tài)的得分,分享上述標(biāo)注的音素狀態(tài)的概率。

      在本實(shí)施方式中,訓(xùn)練單元415,基于上述訓(xùn)練語音和上述聚集的音素狀態(tài),訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      在本實(shí)施方式中,優(yōu)選使用交叉熵訓(xùn)練準(zhǔn)則,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。通用的訓(xùn)練函數(shù)準(zhǔn)則由以下的公式(1)表示:

      其中i是聚集狀態(tài)的索引,w(ti)是聚集狀態(tài)的權(quán)重函數(shù),d(ti,yi)是距離函數(shù),用來度量聚集狀態(tài)的輸出和神經(jīng)網(wǎng)絡(luò)輸出的距離。

      在本實(shí)施方式中,優(yōu)選上述交叉熵訓(xùn)練準(zhǔn)則包括帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則。上述帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則由以下的公式(2)表示:

      其中是權(quán)重函數(shù),(logti-logyi)n是距離函數(shù),m,n分別是權(quán)重因子和距離因子。在本實(shí)施方式中,可以通過調(diào)節(jié)權(quán)重因子和距離因子,即設(shè)定不同的m和n的值,可以靈活地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      下面,參考圖2詳細(xì)說明本實(shí)施方式的一個(gè)實(shí)例。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置進(jìn)行訓(xùn)練的一個(gè)實(shí)例。

      如圖2所示,計(jì)算單元401基于訓(xùn)練數(shù)據(jù)10和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型20,例如通過向前傳播,計(jì)算音素狀態(tài)的得分,從而得到各音素狀態(tài)的得分30,例如ing0和in1的得分分別為0.04和0.02。

      聚類單元405將得分大于預(yù)定閾值的音素狀態(tài)與標(biāo)注的音素狀態(tài)10b聚集。例如通過設(shè)定閾值將設(shè)為ing0和in1這兩個(gè)音素狀態(tài)選出,與標(biāo)注的音素狀態(tài)ing1聚類,得到聚類的音素狀態(tài)40。

      分享單元410基于分享比例和聚集的音素狀態(tài)的得分,分享標(biāo)注的音素狀態(tài)ing1的概率。例如,將分享比例設(shè)為0.3,即將標(biāo)注的音素狀態(tài)ing1的概率的30%分享給聚類的音素狀態(tài)中除了標(biāo)注的音素狀態(tài)的其他音素狀態(tài)。對于其他音素狀態(tài)的概率,可以根據(jù)得分比例0.04/0.02計(jì)算,得到音素狀態(tài)ing0和in1的概率分別為0.2和0.1,而標(biāo)注的音素狀態(tài)的概率為0.7,最終得到聚類的音素狀態(tài)ing0、in1和ing1的概率分別為0.2、0.1和0.7。

      訓(xùn)練單元415基于訓(xùn)練數(shù)據(jù)10中的訓(xùn)練語音10a和聚類的音素狀態(tài)40及其概率,訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型50。具體的訓(xùn)練方法如上所述,例如可以利用由上述公式(2)表示的帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。

      本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,將得分高的音素狀態(tài)與標(biāo)注的音素狀態(tài)聚集,聚集的音素狀態(tài)分享標(biāo)注的音素狀態(tài)的概率,能夠真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于音素狀態(tài)與標(biāo)注的音素狀態(tài)之間的相似度和音素狀態(tài)和標(biāo)注的音素狀態(tài)之間的距離中的至少一個(gè),計(jì)算音素狀態(tài)的得分,能夠?qū)⑴c標(biāo)注的音素狀態(tài)相似度高或距離近的音素狀態(tài)聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      另外,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,基于訓(xùn)練數(shù)據(jù)和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,計(jì)算音素狀態(tài)的得分,能夠基于訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型選擇音素狀態(tài)進(jìn)行聚集,進(jìn)而分享標(biāo)注的音素狀態(tài)的概率,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過將與標(biāo)注的音素狀態(tài)不在同一決策樹上的音素狀態(tài)過濾,能夠更加真實(shí)平滑地訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。

      進(jìn)而,本實(shí)施方式的上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置,通過調(diào)節(jié)帶權(quán)重的交叉熵訓(xùn)練準(zhǔn)則的權(quán)重因子和距離因子,能夠提高訓(xùn)練的靈活度,能夠從多角度學(xué)習(xí)輸出目標(biāo)的真實(shí)的概率分布。

      <語音識別裝置>

      圖5是在同一發(fā)明構(gòu)思下的根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的語音識別裝置的框圖。下面就結(jié)合該圖,對本實(shí)施方式進(jìn)行描述。對于那些與前面實(shí)施方式相同的部分,適當(dāng)省略其說明。

      如圖5所示,本實(shí)施方式的語音識別裝置500包括:輸入單元501,其輸入待識別的語音60;語音識別單元505,其利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句

      在本實(shí)施方式中,輸入單元501,輸入待識別的語音。待識別的語音可以使任何語音,本發(fā)明對此沒有任何限制。

      語音識別單元505,利用由上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型將上述語音識別為文本句。

      對語音進(jìn)行識別的過程中,需要使用聲學(xué)模型和語言模型。在本實(shí)施方式中,聲學(xué)模型是使用上述訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,語言模型可以本領(lǐng)域知曉的任何語言模型,可以是神經(jīng)網(wǎng)絡(luò)語言模型,也可以是其他類型的語言模型。

      在本實(shí)施方式中,利用神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和語言模型對待識別的語音進(jìn)行識別的方法,是本領(lǐng)域知曉的任何方法,在此不再贅述。

      通過上述語音識別裝置500,由于利用了使用聚集的音素狀態(tài)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置400得到的神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,由此能夠提高語音識別的精度。

      以上雖然通過一些示例性的實(shí)施方式詳細(xì)地描述了本發(fā)明的訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的方法、訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的裝置、語言識別方法以及語音識別裝置,但是以上這些實(shí)施方式并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施方式,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1