【技術(shù)領(lǐng)域】
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)。
背景技術(shù):
人工智能(artificialintelligence;ai),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。
隨著語(yǔ)音技術(shù)的發(fā)展,從語(yǔ)音到對(duì)應(yīng)文本的語(yǔ)音轉(zhuǎn)錄在日常生活中逐步的普及。然而,當(dāng)前的語(yǔ)音轉(zhuǎn)錄技術(shù)只能識(shí)別轉(zhuǎn)錄當(dāng)前語(yǔ)種的語(yǔ)音,例如一段普通話的語(yǔ)音,對(duì)應(yīng)的轉(zhuǎn)錄結(jié)果會(huì)為其對(duì)應(yīng)的漢字文本,而并不能滿足跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的需求,例如無(wú)法將輸入的一段普通話語(yǔ)音,直接輸出跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的對(duì)應(yīng)的英文翻譯文本。為了實(shí)現(xiàn)跨語(yǔ)種的語(yǔ)音轉(zhuǎn)錄,現(xiàn)有技術(shù)中多采用兩步走的方案:首先,通過(guò)語(yǔ)音識(shí)別工具對(duì)輸入的語(yǔ)音進(jìn)行轉(zhuǎn)錄生成文本;然后,通過(guò)機(jī)器翻譯的方法,對(duì)前面生成的文本進(jìn)行翻譯,最后得到跨語(yǔ)種的語(yǔ)音轉(zhuǎn)錄文本結(jié)果。
但是現(xiàn)有的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄時(shí),若第一步的語(yǔ)音識(shí)別工具識(shí)別錯(cuò)誤,那么機(jī)器翻譯得到的最終的語(yǔ)音轉(zhuǎn)錄文本便無(wú)可避免地發(fā)生錯(cuò)誤,即現(xiàn)有技術(shù)的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄不可避免地會(huì)發(fā)生錯(cuò)誤累積的問(wèn)題,導(dǎo)致現(xiàn)有技術(shù)的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄準(zhǔn)確性較差、轉(zhuǎn)錄效率較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì),用于提高跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄準(zhǔn)確性和轉(zhuǎn)錄效率。
本發(fā)明提供一種基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,所述方法包括:
將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;所述待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;
根據(jù)多個(gè)所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,所述翻譯文本采用第二語(yǔ)種表示,所述第二語(yǔ)種不同于所述第一語(yǔ)種。
進(jìn)一步可選地,如上所述的方法中,將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征,具體包括:
對(duì)所述待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn);
對(duì)所述多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;
從所述脈沖編碼調(diào)制文件中提取多個(gè)所述聲學(xué)特征。
進(jìn)一步可選地,如上所述的方法中,從所述脈沖編碼調(diào)制文件中提取多個(gè)所述聲學(xué)特征,具體包括:
從所述脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取所述預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,共得到多個(gè)所述數(shù)據(jù)幀;
分別從多個(gè)所述數(shù)據(jù)幀中提取每個(gè)所述數(shù)據(jù)幀的聲學(xué)特征,得到多個(gè)所述聲學(xué)特征。
進(jìn)一步可選地,如上所述的方法中,根據(jù)多個(gè)所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本之前,所述方法還包括:
采集數(shù)條所述第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條所述訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為所述第二語(yǔ)種表示的真實(shí)翻譯文本;
采用各條所述訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語(yǔ)種轉(zhuǎn)錄模型。
進(jìn)一步可選地,如上所述的方法中,采用各條所述訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語(yǔ)種轉(zhuǎn)錄模型,具體包括:
將當(dāng)前的所述訓(xùn)練語(yǔ)音數(shù)據(jù)代入所述跨語(yǔ)種轉(zhuǎn)錄模型,使得所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)所述訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)翻譯文本;
判斷所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與所述真實(shí)翻譯文本是否一致;
若不一致時(shí),修改所述跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),使得所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與對(duì)應(yīng)的所述真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練;
利用各條所述訓(xùn)練語(yǔ)音數(shù)據(jù),按照?qǐng)?zhí)行上述步驟,重復(fù)對(duì)所述跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與對(duì)應(yīng)的所述真實(shí)翻譯文本一致,確定所述跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定所述跨語(yǔ)種轉(zhuǎn)錄模型。
本發(fā)明提供一種基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,所述裝置包括:
獲取模塊,用于將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;所述待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;
預(yù)測(cè)模塊,用于根據(jù)多個(gè)所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,所述翻譯文本采用第二語(yǔ)種表示,所述第二語(yǔ)種不同于所述第一語(yǔ)種。
進(jìn)一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:
對(duì)所述待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn);
對(duì)所述多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;
從所述脈沖編碼調(diào)制文件中提取多個(gè)所述聲學(xué)特征。
進(jìn)一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:從所述脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取所述預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,共得到多個(gè)所述數(shù)據(jù)幀;
分別從多個(gè)所述數(shù)據(jù)幀中提取每個(gè)所述數(shù)據(jù)幀的聲學(xué)特征,得到多個(gè)所述聲學(xué)特征。
進(jìn)一步可選地,如上所述的裝置中,所述裝置還包括:
采集模塊,用于采集數(shù)條所述第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條所述訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為所述第二語(yǔ)種表示的真實(shí)翻譯文本;
訓(xùn)練模塊,用于采用各條所述訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語(yǔ)種轉(zhuǎn)錄模型。
進(jìn)一步可選地,如上所述的裝置中,所述訓(xùn)練模塊,具體用于:
將當(dāng)前的所述訓(xùn)練語(yǔ)音數(shù)據(jù)代入所述跨語(yǔ)種轉(zhuǎn)錄模型,使得所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)所述訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)翻譯文本;
判斷所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與所述真實(shí)翻譯文本是否一致;
若不一致時(shí),修改所述跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),使得所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與對(duì)應(yīng)的所述真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條所述訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練;
利用各條所述訓(xùn)練語(yǔ)音數(shù)據(jù),按照?qǐng)?zhí)行上述步驟,重復(fù)對(duì)所述跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至所述跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的所述訓(xùn)練語(yǔ)音數(shù)據(jù)的所述預(yù)測(cè)翻譯文本與對(duì)應(yīng)的所述真實(shí)翻譯文本一致,確定所述跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定所述跨語(yǔ)種轉(zhuǎn)錄模型。
本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述設(shè)備包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法。
本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法。
本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì),通過(guò)將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;根據(jù)多個(gè)聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語(yǔ)種表示,第二語(yǔ)種不同于第一語(yǔ)種。采用本發(fā)明的技術(shù)方案,跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄時(shí)不用先進(jìn)行語(yǔ)音識(shí)別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型便可以進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語(yǔ)種轉(zhuǎn)錄方式中的錯(cuò)誤累積的問(wèn)題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。
【附圖說(shuō)明】
圖1為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例一的流程圖。
圖2為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例二的流程圖。
圖3為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例三的流程圖。
圖4為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置實(shí)施例一的結(jié)構(gòu)圖。
圖5為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置實(shí)施例二的結(jié)構(gòu)圖。
圖6為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。
圖7為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。
【具體實(shí)施方式】
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
圖1為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例一的流程圖。如圖1所示,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,具體可以包括如下步驟:
100、將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;
101、根據(jù)多個(gè)聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語(yǔ)種表示,第二語(yǔ)種不同于第一語(yǔ)種。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法的執(zhí)行主體為一基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,該基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置能夠?qū)ΥD(zhuǎn)錄的語(yǔ)音數(shù)據(jù)直接進(jìn)行跨語(yǔ)種的轉(zhuǎn)錄。本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,主要用于實(shí)現(xiàn)將第一語(yǔ)種表示的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù),轉(zhuǎn)錄為第二語(yǔ)種表示的翻譯文本。其中的第一語(yǔ)種可以為中文、英文、日文、韓文、藏文、彝文等等。由于第一語(yǔ)種采用語(yǔ)音形式,因此,本實(shí)施例的第一語(yǔ)種可以為任一國(guó)家的語(yǔ)種,也可以為任一具有自己民族語(yǔ)言的少數(shù)民族的語(yǔ)種。第二語(yǔ)種采用文本形式展現(xiàn),因此第二語(yǔ)種需要具有其文本形式的語(yǔ)種。而每一個(gè)國(guó)家對(duì)應(yīng)的國(guó)家內(nèi)的標(biāo)準(zhǔn)語(yǔ)種都具有其文本形式,因此第二語(yǔ)種也可以為任一國(guó)家的語(yǔ)種。另外,有些少數(shù)民族,如藏族、彝族、傣族、壯族等等少數(shù)民族不僅具有自己獨(dú)立的語(yǔ)種,還有自己語(yǔ)種對(duì)應(yīng)的文字。因此,第二語(yǔ)種也可以為任一具有自己語(yǔ)種的文字的少數(shù)民族的語(yǔ)種。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法中,預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型可以為預(yù)先經(jīng)過(guò)深度學(xué)習(xí)訓(xùn)練得到的網(wǎng)絡(luò)模型。如,本實(shí)施例的跨語(yǔ)種轉(zhuǎn)錄模型可以是基于attention的序列到序列的深度學(xué)習(xí)模型,例如可以為一種采用encoder-decoder方式的深度學(xué)習(xí)模型。本實(shí)施例的跨語(yǔ)種轉(zhuǎn)錄模型輸入的是待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)的多個(gè)聲學(xué)特征,因此,本實(shí)施例中,首先,將第一語(yǔ)種表示的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)多個(gè)聲學(xué)特征;然后將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)多個(gè)聲學(xué)特征,輸入至預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型中。由于該跨語(yǔ)種轉(zhuǎn)錄模型預(yù)先訓(xùn)練中采用深度學(xué)習(xí)的方式進(jìn)行訓(xùn)練,此時(shí)該訓(xùn)練好的跨語(yǔ)種轉(zhuǎn)錄模型可以根據(jù)輸入的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)的多個(gè)聲學(xué)特征,預(yù)測(cè)該語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的第二語(yǔ)種表示的翻譯文本。本實(shí)施例中,雖然該跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的翻譯文本為預(yù)測(cè)的結(jié)果,但是由于該跨語(yǔ)種轉(zhuǎn)錄模型是經(jīng)過(guò)深度學(xué)習(xí)訓(xùn)練得到的,此時(shí)可以認(rèn)為該跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的翻譯文本與真實(shí)的翻譯文本一致。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,通過(guò)將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;根據(jù)多個(gè)聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語(yǔ)種表示,第二語(yǔ)種不同于第一語(yǔ)種。采用本實(shí)施例的技術(shù)方案,跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄時(shí)不用先進(jìn)行語(yǔ)音識(shí)別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型便可以進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語(yǔ)種轉(zhuǎn)錄方式中的錯(cuò)誤累積的問(wèn)題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。
圖2為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例二的流程圖。本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,在上述圖1所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。如圖2所示,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,在上述圖1所示實(shí)施例的步驟101之前,具體還可以包括如下步驟:
200、采集數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本;
本實(shí)施例中在對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練時(shí),需要采集數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本。例如,具體可以從網(wǎng)絡(luò)上,或者已經(jīng)成功轉(zhuǎn)錄的數(shù)據(jù)庫(kù)中采集數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本。其中每一條訓(xùn)練語(yǔ)音數(shù)據(jù)與對(duì)應(yīng)的真實(shí)翻譯文本作為一條訓(xùn)練數(shù)據(jù),本實(shí)施例中,為了保證訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型的準(zhǔn)確性,采集的訓(xùn)練數(shù)據(jù)的條數(shù)可以達(dá)到數(shù)以萬(wàn)條,例如可以包括20萬(wàn)條或者30萬(wàn)條甚至更多條數(shù)。其中采集的訓(xùn)練數(shù)據(jù)的條數(shù)越多,訓(xùn)練得到的跨語(yǔ)種轉(zhuǎn)錄模型越準(zhǔn)確,后續(xù)步驟101對(duì)第一語(yǔ)種表示的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄的第二語(yǔ)種表示的翻譯文本越準(zhǔn)確。
201、采用各條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語(yǔ)種轉(zhuǎn)錄模型。
本實(shí)施例中,采集到數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本之后,可以將采集的數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)中,生成訓(xùn)練數(shù)據(jù)庫(kù)。然后訓(xùn)練時(shí),采用訓(xùn)練數(shù)據(jù)庫(kù)中的每一條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練。
例如,本實(shí)施例的步驟201“采用各條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語(yǔ)種轉(zhuǎn)錄模型”,具體可以包括如下步驟:
(a1)將當(dāng)前的訓(xùn)練語(yǔ)音數(shù)據(jù)代入跨語(yǔ)種轉(zhuǎn)錄模型,使得跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)翻譯文本;
(a2)判斷訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與真實(shí)翻譯文本是否一致;若不一致時(shí),執(zhí)行步驟(a3);否則,執(zhí)行步驟(a4);
(a3)修改跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),使得跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本趨于一致;執(zhí)行步驟(a4);
(a4)繼續(xù)選擇下一條訓(xùn)練語(yǔ)音數(shù)據(jù)作為當(dāng)前的訓(xùn)練數(shù)據(jù),以準(zhǔn)備采用上述步驟(a1-(a3)進(jìn)行訓(xùn)練;
利用各條訓(xùn)練語(yǔ)音數(shù)據(jù),按照?qǐng)?zhí)行上述步驟(a1)-(a4),重復(fù)對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本一致,確定跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語(yǔ)種轉(zhuǎn)錄模型。
例如,訓(xùn)練時(shí),為了便于采用每條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,避免重復(fù)采用同一條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,重復(fù)對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,可以將各條訓(xùn)練語(yǔ)音數(shù)據(jù)排序,每次訓(xùn)練時(shí)選取一條訓(xùn)練語(yǔ)音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語(yǔ)音數(shù)據(jù),該條訓(xùn)練語(yǔ)音數(shù)據(jù)訓(xùn)練完畢,可以繼續(xù)選擇下一條訓(xùn)練語(yǔ)音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語(yǔ)音數(shù)據(jù),繼續(xù)對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練。
需要說(shuō)明的時(shí),訓(xùn)練之前,本實(shí)施例的跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù)具有初始值。若采用第一條訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練時(shí),將第一條訓(xùn)練語(yǔ)音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語(yǔ)音數(shù)據(jù),輸入至跨語(yǔ)種轉(zhuǎn)錄模型中,此時(shí),跨語(yǔ)種轉(zhuǎn)錄模型根據(jù)當(dāng)前的模型參數(shù)的初始值,輸出一個(gè)該訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)翻譯文本。然后判斷訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與真實(shí)翻譯文本是否一致;若不一致時(shí),修改跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),使得跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本趨于一致;否則若一致,繼續(xù)選擇下一條訓(xùn)練語(yǔ)音數(shù)據(jù)作為當(dāng)前的訓(xùn)練數(shù)據(jù),繼續(xù)進(jìn)行訓(xùn)練。
訓(xùn)練時(shí),至少要利用訓(xùn)練數(shù)據(jù)庫(kù)中的各條訓(xùn)練數(shù)據(jù)進(jìn)行一輪訓(xùn)練,若一輪訓(xùn)練完畢后,可以確定跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本一致,此時(shí)確定跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語(yǔ)種轉(zhuǎn)錄模型。
若一輪訓(xùn)練完畢,跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本仍然不一致,此時(shí)可以使用訓(xùn)練數(shù)據(jù)庫(kù)中的各條訓(xùn)練數(shù)據(jù)進(jìn)行再一輪、兩輪或者多輪訓(xùn)練,直至跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本一致,確定跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語(yǔ)種轉(zhuǎn)錄模型。
本實(shí)施例訓(xùn)練得到的跨語(yǔ)種轉(zhuǎn)錄模型,可以對(duì)一種第一語(yǔ)種表示的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù),跨語(yǔ)種轉(zhuǎn)錄為一種第二語(yǔ)種表示的翻譯文本。如果一個(gè)跨語(yǔ)種轉(zhuǎn)錄模型若能夠支持英語(yǔ)到中文的跨語(yǔ)種轉(zhuǎn)錄,而不能實(shí)現(xiàn)意大利語(yǔ)到中文的跨語(yǔ)種轉(zhuǎn)錄,也就是說(shuō)本實(shí)施例的跨語(yǔ)種轉(zhuǎn)錄模型為一對(duì)一的形式,不支持一對(duì)多或者多對(duì)一的形式。另外,需要說(shuō)明的是,本實(shí)施例中,若第二語(yǔ)種表示的翻譯文本為中文時(shí),為了便于與其它語(yǔ)種對(duì)應(yīng),優(yōu)選地,選擇以文字的漢語(yǔ)拼音來(lái)表示翻譯文本。而且本實(shí)施例的漢語(yǔ)拼音的表示方式可以為每個(gè)漢字的拼音作為最小的建模單元來(lái)表示,如“zhongguoren”;也可以使用聲韻母為最小的建模單元,如將“zhongguoren”切分為“zhongguoren”。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,通過(guò)采用上述技術(shù)方案訓(xùn)練得到的跨語(yǔ)種轉(zhuǎn)錄模型,可以準(zhǔn)確地對(duì)待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,與現(xiàn)有技術(shù)相比,跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄時(shí)不用先進(jìn)行語(yǔ)音識(shí)別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型便可以進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語(yǔ)種轉(zhuǎn)錄方式中的錯(cuò)誤累積的問(wèn)題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。
圖3為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法實(shí)施例三的流程圖。本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,在上述圖1或者圖2所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。如圖3所示,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,具體可以包括如下步驟:
300、對(duì)第一語(yǔ)種表示的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn);
例如,本實(shí)施例中的預(yù)設(shè)的采樣率可以為16k,即每1/16000秒選擇一個(gè)采樣點(diǎn),這樣,1秒時(shí)長(zhǎng)的語(yǔ)音有16000個(gè)采樣點(diǎn)。實(shí)際應(yīng)用中預(yù)測(cè)的采樣率也可以為8k-20k的任意采樣率。
301、對(duì)多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制(pulsecodemodulation;pcm)文件;
本實(shí)施例的預(yù)設(shè)的量化位數(shù)優(yōu)選地可以為16,位,實(shí)際應(yīng)用中也可以選擇16位。其中量化位數(shù)越多,表示質(zhì)量越高。量化處理后可以得到pcm文件。而且該pcm文件為單通道的pcm文件。
302、從pcm文件中提取多個(gè)聲學(xué)特征;
最后從pcm文件中提取多個(gè)聲學(xué)特征,例如可以提取fbank40格式的聲學(xué)特征,其中fbank40格式的聲學(xué)特征采用一個(gè)40維的向量表示。實(shí)際應(yīng)用中也可以采用其他格式的其它維度的向量來(lái)表示各聲學(xué)特征。
例如該步驟302,具體可以包括如下步驟:
(b1)從pcm文件的開頭選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,共得到多個(gè)數(shù)據(jù)幀;
(b2)分別從多個(gè)數(shù)據(jù)幀中提取每個(gè)數(shù)據(jù)幀的聲學(xué)特征,得到多個(gè)聲學(xué)特征。
本實(shí)施例在從pcm文件時(shí),由于pcm文件也采用幀表示,可以先從pcm文件的開頭選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,例如預(yù)設(shè)幀長(zhǎng)可以為25ms。然后按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,例如同一個(gè)pcm文件,開頭取了25ms的數(shù)據(jù)幀之后,幀移10ms,再取25ms的數(shù)據(jù)幀,然后再幀移10ms,再取25ms的數(shù)據(jù)幀,直到pcm文件取完,但是pcm文件的長(zhǎng)度不一定是預(yù)設(shè)幀長(zhǎng)的整數(shù)倍,此時(shí)最后剩下不足25ms長(zhǎng)的數(shù)據(jù)幀可以丟棄,或者可以通過(guò)填零補(bǔ)位至25ms的幀長(zhǎng)。這樣,得到的每個(gè)數(shù)據(jù)幀的長(zhǎng)度時(shí)一樣,這樣,從待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的每個(gè)數(shù)據(jù)幀中提取的聲學(xué)特征的方式,以及得到的聲學(xué)特征的維度也是一樣的。而實(shí)際應(yīng)用中,每段待轉(zhuǎn)錄的語(yǔ)音的長(zhǎng)度可以不相同,但根據(jù)待轉(zhuǎn)錄的語(yǔ)音獲取的每個(gè)數(shù)據(jù)幀的長(zhǎng)度是相同的。因此,在根據(jù)本實(shí)施例的跨語(yǔ)種轉(zhuǎn)錄模型跨語(yǔ)種轉(zhuǎn)錄時(shí),可跨語(yǔ)種轉(zhuǎn)錄的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)的長(zhǎng)短可以不做限制,理論上,可以對(duì)不超過(guò)可處理的最大時(shí)長(zhǎng)的任意時(shí)長(zhǎng)的待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,當(dāng)然得到的跨語(yǔ)種轉(zhuǎn)錄后的翻譯文本的長(zhǎng)度也不一。
上述步驟300-302為上述圖1所示實(shí)施例的步驟100的一種具體實(shí)現(xiàn)方式,實(shí)際應(yīng)用中,也可以采用相關(guān)現(xiàn)有技術(shù)中的從語(yǔ)音數(shù)據(jù)中提取聲學(xué)特征的方式來(lái)實(shí)現(xiàn),在此不再一一舉例贅述。
303、將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的多個(gè)聲學(xué)特征輸入至預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型中,該跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)并輸出對(duì)應(yīng)的轉(zhuǎn)錄后的第二語(yǔ)種表示的翻譯文本。
本實(shí)施例的預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型采用上述圖2所示實(shí)施例的方式獲取到,詳細(xì)可以參考上述圖2所示實(shí)施例的記載,在此不再贅述。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法,通過(guò)采用上述技術(shù)方案,跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄時(shí)不用先進(jìn)行語(yǔ)音識(shí)別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型便可以進(jìn)行跨語(yǔ)種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語(yǔ)種轉(zhuǎn)錄方式中的錯(cuò)誤累積的問(wèn)題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。
圖4為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置實(shí)施例一的結(jié)構(gòu)圖。如圖4所示,本實(shí)施例的發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,具體可以包括:獲取模塊10和預(yù)測(cè)模塊11。
其中,獲取模塊10用于將待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個(gè)聲學(xué)特征;待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用第一語(yǔ)種表示;
預(yù)測(cè)模塊11用于根據(jù)獲取模塊10獲取的多個(gè)聲學(xué)特征以及預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語(yǔ)種表示,第二語(yǔ)種不同于第一語(yǔ)種。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,通過(guò)采用上述模塊實(shí)現(xiàn)基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
圖5為本發(fā)明的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置實(shí)施例二的結(jié)構(gòu)圖。如圖5所示,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,在上述圖4所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置中,獲取模塊10具體用于:
對(duì)待轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn);
對(duì)多個(gè)語(yǔ)音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;
從脈沖編碼調(diào)制文件中提取多個(gè)聲學(xué)特征。
進(jìn)一步可選地,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置中,獲取模塊10具體用于:從脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長(zhǎng)的數(shù)據(jù)幀,共得到多個(gè)數(shù)據(jù)幀;
分別從多個(gè)數(shù)據(jù)幀中提取每個(gè)數(shù)據(jù)幀的聲學(xué)特征,得到多個(gè)聲學(xué)特征。
進(jìn)一步可選地,如圖5所示,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,還包括:
采集模塊12用于采集數(shù)條第一語(yǔ)種表示的訓(xùn)練語(yǔ)音數(shù)據(jù)以及各條訓(xùn)練語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為第二語(yǔ)種表示的真實(shí)翻譯文本;
訓(xùn)練模塊13用于采用采集模塊12采集的各條訓(xùn)練語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語(yǔ)種轉(zhuǎn)錄模型。
此時(shí)對(duì)應(yīng)地,預(yù)測(cè)模塊11用于根據(jù)獲取模塊10獲取的多個(gè)聲學(xué)特征以及訓(xùn)練模塊13預(yù)先訓(xùn)練的跨語(yǔ)種轉(zhuǎn)錄模型,預(yù)測(cè)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)錄后的翻譯文本;
進(jìn)一步可選地,本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置中,訓(xùn)練模塊13具體用于:
將當(dāng)前的訓(xùn)練語(yǔ)音數(shù)據(jù)代入跨語(yǔ)種轉(zhuǎn)錄模型,使得跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)訓(xùn)練語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)翻譯文本;
判斷訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與真實(shí)翻譯文本是否一致;
若不一致時(shí),修改跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),使得跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條訓(xùn)練語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練;
利用各條訓(xùn)練語(yǔ)音數(shù)據(jù),按照?qǐng)?zhí)行上述步驟,重復(fù)對(duì)跨語(yǔ)種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至跨語(yǔ)種轉(zhuǎn)錄模型預(yù)測(cè)的訓(xùn)練語(yǔ)音數(shù)據(jù)的預(yù)測(cè)翻譯文本與對(duì)應(yīng)的真實(shí)翻譯文本一致,確定跨語(yǔ)種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語(yǔ)種轉(zhuǎn)錄模型。
本實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄裝置,通過(guò)采用上述模塊實(shí)現(xiàn)基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
圖6為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。如圖6所示,本實(shí)施例的計(jì)算機(jī)設(shè)備,包括:一個(gè)或多個(gè)處理器30,以及存儲(chǔ)器40,存儲(chǔ)器40用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)存儲(chǔ)器40中存儲(chǔ)的一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器30執(zhí)行,使得一個(gè)或多個(gè)處理器30實(shí)現(xiàn)如上圖1-圖3所示實(shí)施例的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法。圖6所示實(shí)施例中以包括多個(gè)處理器30為例。
例如,圖7為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。圖7示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12a的框圖。圖7顯示的計(jì)算機(jī)設(shè)備12a僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來(lái)任何限制。
如圖7所示,計(jì)算機(jī)設(shè)備12a以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12a的組件可以包括但不限于:一個(gè)或者多個(gè)處理器16a,系統(tǒng)存儲(chǔ)器28a,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28a和處理器16a)的總線18a。
總線18a表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來(lái)說(shuō),這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。
計(jì)算機(jī)設(shè)備12a典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12a訪問(wèn)的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
系統(tǒng)存儲(chǔ)器28a可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30a和/或高速緩存存儲(chǔ)器32a。計(jì)算機(jī)設(shè)備12a可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34a可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖7未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖7中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過(guò)一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18a相連。系統(tǒng)存儲(chǔ)器28a可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明上述圖1-圖5各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42a的程序/實(shí)用工具40a,可以存儲(chǔ)在例如系統(tǒng)存儲(chǔ)器28a中,這樣的程序模塊42a包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42a通常執(zhí)行本發(fā)明所描述的上述圖1-圖5各實(shí)施例中的功能和/或方法。
計(jì)算機(jī)設(shè)備12a也可以與一個(gè)或多個(gè)外部設(shè)備14a(例如鍵盤、指向設(shè)備、顯示器24a等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12a交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12a能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過(guò)輸入/輸出(i/o)接口22a進(jìn)行。并且,計(jì)算機(jī)設(shè)備12a還可以通過(guò)網(wǎng)絡(luò)適配器20a與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20a通過(guò)總線18a與計(jì)算機(jī)設(shè)備12a的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理器、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
處理器16a通過(guò)運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28a中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)上述實(shí)施例所示的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法。
本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述實(shí)施例所示的基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法。
本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以包括上述圖7所示實(shí)施例中的系統(tǒng)存儲(chǔ)器28a中的ram30a、和/或高速緩存存儲(chǔ)器32a、和/或存儲(chǔ)系統(tǒng)34a。
隨著科技的發(fā)展,計(jì)算機(jī)程序的傳播途徑不再受限于有形介質(zhì),還可以直接從網(wǎng)絡(luò)下載,或者采用其他方式獲取。因此,本實(shí)施例中的計(jì)算機(jī)可讀介質(zhì)不僅可以包括有形的介質(zhì),還可以包括無(wú)形的介質(zhì)。
本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括——但不限于——電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語(yǔ)言或其組合來(lái)編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言—諸如java、smalltalk、c++,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言—諸如”c”語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng)連接)。
在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(read-onlymemory,rom)、隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。