国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      集成到神經(jīng)換能器模型中的外部語言模型信息的制作方法

      文檔序號:39340741發(fā)布日期:2024-09-10 11:58閱讀:61來源:國知局
      集成到神經(jīng)換能器模型中的外部語言模型信息的制作方法

      本發(fā)明一般涉及機(jī)器學(xué)習(xí),并且更具體地,涉及用于將外部語言模型信息集成到神經(jīng)換能器模型(例如,循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)模型)中以進(jìn)行端到端語音識別的方法和系統(tǒng)。


      背景技術(shù):

      1、近年來,作為將傳統(tǒng)自動語音識別(asr)系統(tǒng)的分離組件(例如,聲學(xué)、發(fā)音和語言模型)折疊到單個神經(jīng)網(wǎng)絡(luò)中的方式,用于asr的端到端模型得到了普及。這種模型的示例包括基于連接主義時序分類(connectionist?temporal?classification,ctc)的模型、循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)模型和基于注意力的seq2seq模型。在這些模型中,rnn-t是最合適的流式端到端識別器,其與傳統(tǒng)系統(tǒng)相比表現(xiàn)出了有競爭力的性能。


      技術(shù)實現(xiàn)思路

      1、根據(jù)本發(fā)明的一個方面,提供了一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)實現(xiàn)的方法。該計算機(jī)實現(xiàn)的方法包括:通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。

      2、根據(jù)本發(fā)明的另一方面,提供了一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)程序產(chǎn)品。該計算機(jī)程序產(chǎn)品包括具有與其一起實現(xiàn)的程序指令的計算機(jī)可讀存儲介質(zhì),所述程序指令能夠由計算機(jī)執(zhí)行以使所述計算機(jī):通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。

      3、根據(jù)本發(fā)明的又一方面,提供了一種用于訓(xùn)練神經(jīng)換能器的系統(tǒng)。所述系統(tǒng)包括:存儲器以及與所述存儲器通信的一個或多個處理器,所述一個或多個處理器被配置為:通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。

      4、應(yīng)當(dāng)注意,參考不同的主題描述了示例性實施例。特別地,一些實施例是參考方法類型權(quán)利要求來描述的,而其他實施例是參考裝置類型權(quán)利要求來描述的。然而,本領(lǐng)域技術(shù)人員將從以上和以下描述中了解到,除非另外指出,除了屬于一種類型的主題的特征的任何組合之外,與不同主題相關(guān)的特征之間的任何組合,特別是方法類型權(quán)利要求的特征與裝置類型權(quán)利要求的特征之間的任何組合,也被認(rèn)為是在本文檔內(nèi)描述的。

      5、從以下結(jié)合附圖閱讀的對本發(fā)明的說明性實施例的詳細(xì)描述中,這些和其它特征和優(yōu)點將變得顯而易見。



      技術(shù)特征:

      1.一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)實現(xiàn)的方法,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的計算機(jī)實現(xiàn)的方法,其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。

      3.根據(jù)權(quán)利要求1或2所述的計算機(jī)實現(xiàn)的方法,其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。

      4.根據(jù)權(quán)利要求1或2所述的計算機(jī)實現(xiàn)的方法,其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。

      5.根據(jù)任何前述權(quán)利要求所述的計算機(jī)實現(xiàn)的方法,其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。

      6.根據(jù)權(quán)利要求5所述的計算機(jī)實現(xiàn)的方法,其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗。

      7.根據(jù)權(quán)利要求6所述的計算機(jī)實現(xiàn)的方法,其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。

      8.一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括具有與其一起實現(xiàn)的程序指令的計算機(jī)可讀存儲介質(zhì),所述程序指令能夠由計算機(jī)執(zhí)行以使所述計算機(jī):

      9.根據(jù)權(quán)利要求8所述的計算機(jī)程序產(chǎn)品,其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。

      10.根據(jù)權(quán)利要求8或9所述的計算機(jī)程序產(chǎn)品,其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。

      11.根據(jù)權(quán)利要求8或9所述的計算機(jī)程序產(chǎn)品,其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。

      12.根據(jù)權(quán)利要求8至11中任一項所述的計算機(jī)程序產(chǎn)品,其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。

      13.根據(jù)權(quán)利要求12所述的計算機(jī)程序產(chǎn)品,其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗。

      14.根據(jù)權(quán)利要求13所述的計算機(jī)程序產(chǎn)品,其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。

      15.一種用于準(zhǔn)備用于訓(xùn)練神經(jīng)換能器的訓(xùn)練數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括:

      16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。

      17.根據(jù)權(quán)利要求15或16所述的系統(tǒng),其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。

      18.根據(jù)權(quán)利要求15或16所述的系統(tǒng),其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。

      19.根據(jù)權(quán)利要求15至18中任一項所述的系統(tǒng),其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。

      20.根據(jù)權(quán)利要求19所述的系統(tǒng),其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗,并且其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。

      21.一種包括程序代碼裝置的計算機(jī)程序,當(dāng)所述程序在計算機(jī)上運(yùn)行時,所述程序代碼裝置適于執(zhí)行根據(jù)權(quán)利要求1至7中任一項所述的方法。


      技術(shù)總結(jié)
      提供了一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)實現(xiàn)的方法,包括:通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。神經(jīng)換能器可以是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(RNN?T)。

      技術(shù)研發(fā)人員:倉田岳人
      受保護(hù)的技術(shù)使用者:國際商業(yè)機(jī)器公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1