国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲學(xué)處理模型的訓(xùn)練方法、語音處理方法及相關(guān)產(chǎn)品與流程

      文檔序號:40367824發(fā)布日期:2024-12-20 11:49閱讀:16來源:國知局
      聲學(xué)處理模型的訓(xùn)練方法、語音處理方法及相關(guān)產(chǎn)品與流程

      本申請涉及人工智能,特別是涉及一種聲學(xué)處理模型的訓(xùn)練方法、語音處理方法及相關(guān)產(chǎn)品。


      背景技術(shù):

      1、語音處理技術(shù)正受到各界越來越多的關(guān)注。常見的語音處理技術(shù)包括語音識別、語義分析、語音合成等等。

      2、以語音合成為例,語音合成能夠?qū)⑽淖只蚱匆舻刃畔⑥D(zhuǎn)化為語音輸出,提供更加便捷的人機(jī)交互方式,目標(biāo)通常采用聲學(xué)處理模型進(jìn)行頻譜生成,而聲學(xué)處理模型進(jìn)行頻譜生成的準(zhǔn)確性影響語音合成的準(zhǔn)確性。因此,如何訓(xùn)練準(zhǔn)確性較高的聲學(xué)處理模型成為研究的熱點(diǎn)話題。


      技術(shù)實(shí)現(xiàn)思路

      1、基于此,有必要針對上述技術(shù)問題,提供了一種聲學(xué)處理模型的訓(xùn)練方法、語音處理方法及相關(guān)產(chǎn)品,能夠提高聲學(xué)處理模型進(jìn)行頻譜生成的準(zhǔn)確性,從而提高語音合成的準(zhǔn)確性。

      2、第一方面,本申請?zhí)峁┝艘环N聲學(xué)處理模型的訓(xùn)練方法,包括:

      3、基于樣本對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音,確定樣本對象的第一頻譜;

      4、通過聲學(xué)處理模型對樣本對象在當(dāng)前時(shí)間段內(nèi)的樣本音素與第一頻譜進(jìn)行融合處理,得到融合特征信息;以及,對融合特征信息進(jìn)行聲學(xué)處理獲得第二頻譜,并基于第二頻譜與樣本音素的標(biāo)簽頻譜的差異,對聲學(xué)處理模型進(jìn)行訓(xùn)練。

      5、第二方面,本申請還提供了一種聲學(xué)處理模型的訓(xùn)練裝置,包括:

      6、確定模塊,用于基于樣本對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音,確定樣本對象的第一頻譜;

      7、訓(xùn)練模塊,用于通過聲學(xué)處理模型對樣本對象在當(dāng)前時(shí)間段內(nèi)的樣本音素與第一頻譜進(jìn)行融合處理,得到融合特征信息;以及,對融合特征信息進(jìn)行聲學(xué)處理獲得第二頻譜,并基于第二頻譜與樣本音素的標(biāo)簽頻譜的差異,對聲學(xué)處理模型進(jìn)行訓(xùn)練。

      8、第三方面,本申請?zhí)峁┝艘环N語音處理方法,包括:

      9、獲取待處理對象在當(dāng)前時(shí)間段內(nèi)的待處理音素與第一頻譜,第一頻譜為基于待處理對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音確定的;

      10、通過聲學(xué)處理模型對待處理音素與第一頻譜進(jìn)行頻譜轉(zhuǎn)換處理,得到待處理音素的目標(biāo)頻譜;其中,聲學(xué)處理模型基于聲學(xué)處理模型的訓(xùn)練方法得到;

      11、確定目標(biāo)頻譜對應(yīng)的語音。

      12、第四方面,本申請還提供了一種語音處理裝置,包括:

      13、獲取模塊,用于獲取待處理對象在當(dāng)前時(shí)間段內(nèi)的待處理音素與第一頻譜,第一頻譜為基于待處理對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音的頻譜確定的;

      14、處理模塊,用于通過聲學(xué)處理模型對待處理音素與第一頻譜進(jìn)行頻譜轉(zhuǎn)換處理,得到待處理音素的目標(biāo)頻譜;其中,聲學(xué)處理模型基于聲學(xué)處理模型的訓(xùn)練方法得到;

      15、確定模塊,用于確定目標(biāo)頻譜對應(yīng)的語音。

      16、第五方面,本申請還提供了一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,存儲器存儲有計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上任一實(shí)施例中的方法的步驟。

      17、第六方面,本申請還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任一實(shí)施例中的方法的步驟。

      18、第七方面,本申請還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任一實(shí)施例中的方法的步驟。

      19、上述對聲學(xué)處理模型的訓(xùn)練過程中,通過獲取樣本對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音,確定樣本對象的第一頻譜,并在對聲學(xué)處理模型進(jìn)行訓(xùn)練時(shí),通過第一頻譜與當(dāng)前時(shí)間段內(nèi)的樣本音素進(jìn)行融合,得到融合特征信息,以及對融合特征信息進(jìn)行聲學(xué)處理獲得第二頻譜,進(jìn)而基于第二頻譜和樣本對象的標(biāo)簽頻譜之間的差異對聲學(xué)處理模型進(jìn)行訓(xùn)練。可見,在對聲學(xué)處理模型的訓(xùn)練過程中,參考了基于樣本對象在不同預(yù)設(shè)時(shí)間段內(nèi)語音確定的第一頻譜,相當(dāng)于對聲學(xué)處理模型的訓(xùn)練是將當(dāng)前時(shí)間段內(nèi)的樣本音素能夠結(jié)合樣本對象在其他不同預(yù)設(shè)時(shí)間段內(nèi)各語音的第一頻譜進(jìn)行的,如此使得訓(xùn)練完成的聲學(xué)處理模型可以學(xué)習(xí)到不同時(shí)間下不同語音之間的頻譜依賴關(guān)系,從而可以生成更加準(zhǔn)確的頻譜,進(jìn)而使得采用聲學(xué)處理模型生成的頻譜合成的語音音色更加穩(wěn)定、更加真實(shí)。



      技術(shù)特征:

      1.一種聲學(xué)處理模型的訓(xùn)練方法,其特征在于,所述包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聲學(xué)處理模型包括編碼層和注意力層;所述通過所述聲學(xué)處理模型對所述樣本對象在當(dāng)前時(shí)間段內(nèi)的樣本音素與所述第一頻譜進(jìn)行融合處理,得到融合特征信息,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述聲學(xué)處理模型還包括卷積層;通過所述注意力層將所述文本特征信息與所述第一頻譜進(jìn)行融合處理,得到所述融合特征信息,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述卷積層包括m個卷積結(jié)構(gòu),m個大于1的整數(shù);每個卷積結(jié)構(gòu)中包括特征提取層;不同卷積結(jié)構(gòu)中特征提取層的卷積核大小不同,且不同卷積核大小的特征提取層用于提取不同粒度的頻譜特征信息;所述通過所述卷積層對所述第一頻譜進(jìn)行特征提取處理,獲得頻譜特征信息,包括:

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,每個卷積結(jié)構(gòu)中特征提取層包括具有相同卷積核的第一特征提取層與第二特征提取層;所述通過所述卷積結(jié)構(gòu)中的特征提取層對所述第一頻譜進(jìn)行特征提取處理,獲得候選頻譜特征信息,包括:

      6.根據(jù)權(quán)利要求1-5任意一項(xiàng)所述的方法,其特征在于,所述對所述融合特征信息進(jìn)行聲學(xué)處理獲得第二頻譜,包括:

      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述第二頻譜為所述聲學(xué)處理模型在第n輪的第二頻譜;n為大于1的整數(shù);所述基于所述語音特征信息進(jìn)行聲學(xué)處理獲得所述第二頻譜,包括:

      8.一種語音處理方法,其特征在于,所述方法包括:

      9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述確定所述目標(biāo)頻譜對應(yīng)的語音,包括:

      10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括:

      11.一種聲學(xué)處理模型的訓(xùn)練裝置,其特征在于,所述裝置包括:

      12.一種語音處理裝置,其特征在于,所述裝置包括:

      13.一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任一項(xiàng)所述的方法的步驟。

      14.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任一項(xiàng)所述的方法的步驟。

      15.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至10中任一項(xiàng)所述的方法的步驟。


      技術(shù)總結(jié)
      本申請涉及一種聲學(xué)處理模型的訓(xùn)練方法、語音處理方法及相關(guān)產(chǎn)品。方法包括:基于樣本對象在不同預(yù)設(shè)時(shí)間段內(nèi)的語音,確定樣本對象的第一頻譜;通過聲學(xué)處理模型對樣本對象在當(dāng)前時(shí)間段內(nèi)的樣本音素與第一頻譜進(jìn)行融合處理,得到融合特征信息;以及,對融合特征信息進(jìn)行聲學(xué)處理獲得第二頻譜,并基于第二頻譜與樣本音素的標(biāo)簽頻譜的差異,對聲學(xué)處理模型進(jìn)行訓(xùn)練。采用本方法能夠使得合成的語音音色穩(wěn)定、更加真實(shí)。

      技術(shù)研發(fā)人員:劉鵬飛
      受保護(hù)的技術(shù)使用者:馬上消費(fèi)金融股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1