国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程

      文檔序號:40076053發(fā)布日期:2024-11-27 11:17閱讀:12來源:國知局
      訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程

      本發(fā)明涉及信息,尤其涉及一種訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備。


      背景技術(shù):

      1、文本轉(zhuǎn)語音(text-to-speech,tts)技術(shù)廣泛應(yīng)用于各種領(lǐng)域,如語音助手、電子書、導(dǎo)航系統(tǒng)、自動客服等。tts技術(shù)關(guān)注的重點在于,由文本得到的語音的韻律要盡可能自然(接近人類發(fā)音的韻律)。其中,韻律至少包括語音的發(fā)音節(jié)奏。

      2、目前的方案是,利用韻律模型在文本中插入韻律符號,以提示文本序列中哪個位置需要進行多長時間的發(fā)音停頓。然后,利用文本轉(zhuǎn)語音模型,將已插入韻律符號的文本,轉(zhuǎn)換成具有一定韻律的語音。

      3、基于此,提供一種效果更加的技術(shù)方案,使由文本轉(zhuǎn)換的語音的韻律更加自然。


      技術(shù)實現(xiàn)思路

      1、本說明書實施例提供一種訓練文本轉(zhuǎn)語音模型的方法,包括:

      2、獲取文本樣本,以及所述文本樣本的結(jié)構(gòu)劃分信息;其中,所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分;

      3、利用韻律模型對所述文本樣本插入韻律符號,并將已插入韻律符號的所述文本樣本轉(zhuǎn)換成音素序列;

      4、根據(jù)所述音素序列與所述結(jié)構(gòu)劃分信息,得到至少一個粒度層級的結(jié)構(gòu)標注信息;其中,針對任一粒度層級,該粒度層級的結(jié)構(gòu)標注信息表示:在該粒度層級上,所述音素序列中的每個音素屬于的粒度單元;

      5、將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入,訓練所述文本轉(zhuǎn)語音模型。

      6、本說明書實施例提供一種文本轉(zhuǎn)語音的方法,包括:

      7、獲取待處理的目標文本,以及所述目標文本的目標結(jié)構(gòu)劃分信息;其中,所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分;

      8、利用韻律模型對所述目標文本插入韻律符號,并將已插入韻律符號的所述目標文本轉(zhuǎn)換成目標音素序列;

      9、根據(jù)所述目標音素序列與所述目標結(jié)構(gòu)劃分信息,得到至少一個粒度層級的目標結(jié)構(gòu)標注信息;其中,針對任一粒度層級,該粒度層級的目標結(jié)構(gòu)標注信息表示:在該粒度層級上,所述目標音素序列中的每個音素屬于的粒度單元;

      10、將所述目標音素序列與所述至少一個粒度層級的目標結(jié)構(gòu)標注信息輸入文本轉(zhuǎn)語音模型,輸出預(yù)測語音特征。

      11、本說明書實施例提供一種訓練文本轉(zhuǎn)語音模型的裝置,包括:

      12、獲取模塊,獲取文本樣本,以及所述文本樣本的結(jié)構(gòu)劃分信息;其中,所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分;

      13、轉(zhuǎn)換模塊,利用韻律模型對所述文本樣本插入韻律符號,并將已插入韻律符號的所述文本樣本轉(zhuǎn)換成音素序列;

      14、處理模塊,根據(jù)所述音素序列與所述結(jié)構(gòu)劃分信息,得到至少一個粒度層級的結(jié)構(gòu)標注信息;其中,針對任一粒度層級,該粒度層級的結(jié)構(gòu)標注信息表示:在該粒度層級上,所述音素序列中的每個音素屬于的粒度單元;

      15、訓練模塊,將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入,訓練所述文本轉(zhuǎn)語音模型。

      16、本說明書實施例提供一種文本轉(zhuǎn)語音的裝置,包括:

      17、獲取模塊,獲取待處理的目標文本,以及所述目標文本的目標結(jié)構(gòu)劃分信息;其中,所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分;

      18、轉(zhuǎn)換模塊,利用韻律模型對所述目標文本插入韻律符號,并將已插入韻律符號的所述目標文本轉(zhuǎn)換成目標音素序列;

      19、處理模塊,根據(jù)所述目標音素序列與所述目標結(jié)構(gòu)劃分信息,得到至少一個粒度層級的目標結(jié)構(gòu)標注信息;其中,針對任一粒度層級,該粒度層級的目標結(jié)構(gòu)標注信息表示:在該粒度層級上,所述目標音素序列中的每個音素屬于的粒度單元;

      20、預(yù)測模塊,將所述目標音素序列與所述至少一個粒度層級的目標結(jié)構(gòu)標注信息輸入文本轉(zhuǎn)語音模型,輸出預(yù)測語音特征。

      21、本說明書實施例還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品存儲有至少一條指令,所述至少一條指令適于由處理器加載并執(zhí)行上述的方法步驟。

      22、本說明書實施例還提供一種存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序適于由處理器加載并執(zhí)行上述的方法的步驟。

      23、本說明書實施例還提供一種電子設(shè)備,包括:處理器和存儲器;其中,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執(zhí)行上述的方法的步驟。

      24、在本說明書的技術(shù)方案中,重新定義了文本轉(zhuǎn)語音模型的輸入數(shù)據(jù)的構(gòu)成,輸入數(shù)據(jù)不僅包括已插入韻律符號的文本對應(yīng)的音素序列,也包括能夠表示文本在至少一個粒度層級上的結(jié)構(gòu)劃分的結(jié)構(gòu)標注信息,從而使得文本轉(zhuǎn)語音模型在進行語音特征預(yù)測的過程中,不僅可以參考文本在音素層面的韻律,而且還可以參考文本在單字詞、短語、語句等粒度層面上的韻律,這樣可以使得預(yù)測出的語音特征所得到的語音韻律具有文本結(jié)構(gòu)上發(fā)音的連貫性,韻律更加自然。

      25、需要說明,本公開屬于人工智能領(lǐng)域的技術(shù)方案,在方案實現(xiàn)時,所使用的隱私數(shù)據(jù)已經(jīng)得到所有方授權(quán)。



      技術(shù)特征:

      1.一種訓練文本轉(zhuǎn)語音模型的方法,包括:

      2.如權(quán)利要求1所述方法,其中,粒度層級包括單字粒度層級、短語粒度層級、語句粒度層級。

      3.如權(quán)利要求2所述方法,其中,所述短語粒度層級,具體包括:韻律短語粒度層級;

      4.如權(quán)利要求3所述方法,其中,所述韻律模型使用的韻律符號包括:第一韻律符號、第二韻律符號、第三韻律符號,第四韻律符號;

      5.如權(quán)利要求1所述方法,其中,針對任一粒度層級,該粒度層級的結(jié)構(gòu)標注信息為該粒度層級的結(jié)構(gòu)標注序列;

      6.如權(quán)利要求1-5中任一項所述方法,所述文本轉(zhuǎn)語音模型的算法框架,為非自回歸算法框架。

      7.如權(quán)利要求6所述方法,所述文本轉(zhuǎn)語音模型的算法框架,具體包括fastspeech2。

      8.如權(quán)利要求7所述方法,將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入,訓練所述文本轉(zhuǎn)語音模型,包括:

      9.一種文本轉(zhuǎn)語音的方法,包括:

      10.一種訓練文本轉(zhuǎn)語音模型的裝置,包括:

      11.一種文本轉(zhuǎn)語音的裝置,包括:

      12.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1~9中任意一項所述方法的步驟。

      13.一種電子設(shè)備,其特征在于,包括:處理器和存儲器;其中,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執(zhí)行如權(quán)利要求1~9中任意一項所述方法的步驟。

      14.一種計算機程序產(chǎn)品,其上存儲有至少一條指令,其特征在于,所述至少一條指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1~9中任意一項所述方法的步驟。


      技術(shù)總結(jié)
      本說明書實施例公開了一種訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備。重新定義了文本轉(zhuǎn)語音模型的輸入數(shù)據(jù)的構(gòu)成,輸入數(shù)據(jù)不僅包括已插入韻律符號的文本對應(yīng)的音素序列,也包括能夠表示文本在至少一個粒度層級上的結(jié)構(gòu)劃分的結(jié)構(gòu)標注信息,從而使得文本轉(zhuǎn)語音模型在進行語音特征預(yù)測的過程中,不僅可以參考文本在音素層面的韻律,而且還可以參考文本在單字詞、短語、語句等粒度層面上的韻律,這樣可以使得預(yù)測出的語音特征所得到的語音韻律具有文本結(jié)構(gòu)上發(fā)音的連貫性,韻律更加自然。需要說明,本公開屬于人工智能領(lǐng)域的技術(shù)方案,在方案實現(xiàn)時,所使用的隱私數(shù)據(jù)已經(jīng)得到所有方授權(quán)。

      技術(shù)研發(fā)人員:王濤,王志銘
      受保護的技術(shù)使用者:支付寶(杭州)信息技術(shù)有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/11/26
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1