本發(fā)明一般涉及機(jī)器學(xué)習(xí),并且更具體地,涉及用于將外部語言模型信息集成到神經(jīng)換能器模型(例如,循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)模型)中以進(jìn)行端到端語音識別的方法和系統(tǒng)。
背景技術(shù):
1、近年來,作為將傳統(tǒng)自動語音識別(asr)系統(tǒng)的分離組件(例如,聲學(xué)、發(fā)音和語言模型)折疊到單個神經(jīng)網(wǎng)絡(luò)中的方式,用于asr的端到端模型得到了普及。這種模型的示例包括基于連接主義時序分類(connectionist?temporal?classification,ctc)的模型、循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)模型和基于注意力的seq2seq模型。在這些模型中,rnn-t是最合適的流式端到端識別器,其與傳統(tǒng)系統(tǒng)相比表現(xiàn)出了有競爭力的性能。
技術(shù)實現(xiàn)思路
1、根據(jù)本發(fā)明的一個方面,提供了一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)實現(xiàn)的方法。該計算機(jī)實現(xiàn)的方法包括:通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。
2、根據(jù)本發(fā)明的另一方面,提供了一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)程序產(chǎn)品。該計算機(jī)程序產(chǎn)品包括具有與其一起實現(xiàn)的程序指令的計算機(jī)可讀存儲介質(zhì),所述程序指令能夠由計算機(jī)執(zhí)行以使所述計算機(jī):通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。
3、根據(jù)本發(fā)明的又一方面,提供了一種用于訓(xùn)練神經(jīng)換能器的系統(tǒng)。所述系統(tǒng)包括:存儲器以及與所述存儲器通信的一個或多個處理器,所述一個或多個處理器被配置為:通過使用音頻數(shù)據(jù)和所述音頻數(shù)據(jù)的轉(zhuǎn)錄數(shù)據(jù)作為輸入數(shù)據(jù),分別從訓(xùn)練的語言模型和種子神經(jīng)換能器獲得輸出;組合所述輸出以獲得監(jiān)控輸出;以及更新訓(xùn)練中的另一個神經(jīng)換能器的參數(shù),使得其輸出接近所述監(jiān)控輸出。
4、應(yīng)當(dāng)注意,參考不同的主題描述了示例性實施例。特別地,一些實施例是參考方法類型權(quán)利要求來描述的,而其他實施例是參考裝置類型權(quán)利要求來描述的。然而,本領(lǐng)域技術(shù)人員將從以上和以下描述中了解到,除非另外指出,除了屬于一種類型的主題的特征的任何組合之外,與不同主題相關(guān)的特征之間的任何組合,特別是方法類型權(quán)利要求的特征與裝置類型權(quán)利要求的特征之間的任何組合,也被認(rèn)為是在本文檔內(nèi)描述的。
5、從以下結(jié)合附圖閱讀的對本發(fā)明的說明性實施例的詳細(xì)描述中,這些和其它特征和優(yōu)點將變得顯而易見。
1.一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)實現(xiàn)的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的計算機(jī)實現(xiàn)的方法,其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。
3.根據(jù)權(quán)利要求1或2所述的計算機(jī)實現(xiàn)的方法,其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。
4.根據(jù)權(quán)利要求1或2所述的計算機(jī)實現(xiàn)的方法,其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。
5.根據(jù)任何前述權(quán)利要求所述的計算機(jī)實現(xiàn)的方法,其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。
6.根據(jù)權(quán)利要求5所述的計算機(jī)實現(xiàn)的方法,其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗。
7.根據(jù)權(quán)利要求6所述的計算機(jī)實現(xiàn)的方法,其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。
8.一種用于訓(xùn)練神經(jīng)換能器的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括具有與其一起實現(xiàn)的程序指令的計算機(jī)可讀存儲介質(zhì),所述程序指令能夠由計算機(jī)執(zhí)行以使所述計算機(jī):
9.根據(jù)權(quán)利要求8所述的計算機(jī)程序產(chǎn)品,其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。
10.根據(jù)權(quán)利要求8或9所述的計算機(jī)程序產(chǎn)品,其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。
11.根據(jù)權(quán)利要求8或9所述的計算機(jī)程序產(chǎn)品,其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。
12.根據(jù)權(quán)利要求8至11中任一項所述的計算機(jī)程序產(chǎn)品,其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。
13.根據(jù)權(quán)利要求12所述的計算機(jī)程序產(chǎn)品,其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗。
14.根據(jù)權(quán)利要求13所述的計算機(jī)程序產(chǎn)品,其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。
15.一種用于準(zhǔn)備用于訓(xùn)練神經(jīng)換能器的訓(xùn)練數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括:
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述神經(jīng)換能器是循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(rnn-t)。
17.根據(jù)權(quán)利要求15或16所述的系統(tǒng),其中,通過使用線性插值來執(zhí)行所述輸出的所述組合。
18.根據(jù)權(quán)利要求15或16所述的系統(tǒng),其中,通過使用對數(shù)線性插值來執(zhí)行所述輸出的所述組合。
19.根據(jù)權(quán)利要求15至18中任一項所述的系統(tǒng),其中,所述神經(jīng)換能器的輸出是后驗網(wǎng)格。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其中,所述后驗網(wǎng)格的水平軸是時間索引t,所述后驗網(wǎng)格的垂直軸是所述轉(zhuǎn)錄數(shù)據(jù)中的符號u,并且所述后驗網(wǎng)格中的t,u處的每個節(jié)點表示具有轉(zhuǎn)錄序列中的點t的輸出序列的第一u個元素的輸出的后驗,并且其中,所述輸出的所述組合包括將所述訓(xùn)練的語言模型的相同輸出與具有相同u的所有時間索引的后驗進(jìn)行組合。
21.一種包括程序代碼裝置的計算機(jī)程序,當(dāng)所述程序在計算機(jī)上運(yùn)行時,所述程序代碼裝置適于執(zhí)行根據(jù)權(quán)利要求1至7中任一項所述的方法。