訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程

文檔序號：40076053發(fā)布日期：2024-11-27 11:17閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程

本發(fā)明涉及信息，尤其涉及一種訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備。

背景技術(shù)：

1、文本轉(zhuǎn)語音(text-to-speech，tts)技術(shù)廣泛應(yīng)用于各種領(lǐng)域，如語音助手、電子書、導(dǎo)航系統(tǒng)、自動客服等。tts技術(shù)關(guān)注的重點在于，由文本得到的語音的韻律要盡可能自然(接近人類發(fā)音的韻律)。其中，韻律至少包括語音的發(fā)音節(jié)奏。

2、目前的方案是，利用韻律模型在文本中插入韻律符號，以提示文本序列中哪個位置需要進行多長時間的發(fā)音停頓。然后，利用文本轉(zhuǎn)語音模型，將已插入韻律符號的文本，轉(zhuǎn)換成具有一定韻律的語音。

3、基于此，提供一種效果更加的技術(shù)方案，使由文本轉(zhuǎn)換的語音的韻律更加自然。

技術(shù)實現(xiàn)思路

1、本說明書實施例提供一種訓練文本轉(zhuǎn)語音模型的方法，包括：

2、獲取文本樣本，以及所述文本樣本的結(jié)構(gòu)劃分信息；其中，所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分；

3、利用韻律模型對所述文本樣本插入韻律符號，并將已插入韻律符號的所述文本樣本轉(zhuǎn)換成音素序列；

4、根據(jù)所述音素序列與所述結(jié)構(gòu)劃分信息，得到至少一個粒度層級的結(jié)構(gòu)標注信息；其中，針對任一粒度層級，該粒度層級的結(jié)構(gòu)標注信息表示：在該粒度層級上，所述音素序列中的每個音素屬于的粒度單元；

5、將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入，訓練所述文本轉(zhuǎn)語音模型。

6、本說明書實施例提供一種文本轉(zhuǎn)語音的方法，包括：

7、獲取待處理的目標文本，以及所述目標文本的目標結(jié)構(gòu)劃分信息；其中，所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分；

8、利用韻律模型對所述目標文本插入韻律符號，并將已插入韻律符號的所述目標文本轉(zhuǎn)換成目標音素序列；

9、根據(jù)所述目標音素序列與所述目標結(jié)構(gòu)劃分信息，得到至少一個粒度層級的目標結(jié)構(gòu)標注信息；其中，針對任一粒度層級，該粒度層級的目標結(jié)構(gòu)標注信息表示：在該粒度層級上，所述目標音素序列中的每個音素屬于的粒度單元；

10、將所述目標音素序列與所述至少一個粒度層級的目標結(jié)構(gòu)標注信息輸入文本轉(zhuǎn)語音模型，輸出預(yù)測語音特征。

11、本說明書實施例提供一種訓練文本轉(zhuǎn)語音模型的裝置，包括：

12、獲取模塊，獲取文本樣本，以及所述文本樣本的結(jié)構(gòu)劃分信息；其中，所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分；

13、轉(zhuǎn)換模塊，利用韻律模型對所述文本樣本插入韻律符號，并將已插入韻律符號的所述文本樣本轉(zhuǎn)換成音素序列；

14、處理模塊，根據(jù)所述音素序列與所述結(jié)構(gòu)劃分信息，得到至少一個粒度層級的結(jié)構(gòu)標注信息；其中，針對任一粒度層級，該粒度層級的結(jié)構(gòu)標注信息表示：在該粒度層級上，所述音素序列中的每個音素屬于的粒度單元；

15、訓練模塊，將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入，訓練所述文本轉(zhuǎn)語音模型。

16、本說明書實施例提供一種文本轉(zhuǎn)語音的裝置，包括：

17、獲取模塊，獲取待處理的目標文本，以及所述目標文本的目標結(jié)構(gòu)劃分信息；其中，所述結(jié)構(gòu)劃分信息表示至少一個粒度層級上的結(jié)構(gòu)劃分；

18、轉(zhuǎn)換模塊，利用韻律模型對所述目標文本插入韻律符號，并將已插入韻律符號的所述目標文本轉(zhuǎn)換成目標音素序列；

19、處理模塊，根據(jù)所述目標音素序列與所述目標結(jié)構(gòu)劃分信息，得到至少一個粒度層級的目標結(jié)構(gòu)標注信息；其中，針對任一粒度層級，該粒度層級的目標結(jié)構(gòu)標注信息表示：在該粒度層級上，所述目標音素序列中的每個音素屬于的粒度單元；

20、預(yù)測模塊，將所述目標音素序列與所述至少一個粒度層級的目標結(jié)構(gòu)標注信息輸入文本轉(zhuǎn)語音模型，輸出預(yù)測語音特征。

21、本說明書實施例還提供一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品存儲有至少一條指令，所述至少一條指令適于由處理器加載并執(zhí)行上述的方法步驟。

22、本說明書實施例還提供一種存儲介質(zhì)，所述存儲介質(zhì)存儲有計算機程序，所述計算機程序適于由處理器加載并執(zhí)行上述的方法的步驟。

23、本說明書實施例還提供一種電子設(shè)備，包括：處理器和存儲器；其中，所述存儲器存儲有計算機程序，所述計算機程序適于由所述處理器加載并執(zhí)行上述的方法的步驟。

24、在本說明書的技術(shù)方案中，重新定義了文本轉(zhuǎn)語音模型的輸入數(shù)據(jù)的構(gòu)成，輸入數(shù)據(jù)不僅包括已插入韻律符號的文本對應(yīng)的音素序列，也包括能夠表示文本在至少一個粒度層級上的結(jié)構(gòu)劃分的結(jié)構(gòu)標注信息，從而使得文本轉(zhuǎn)語音模型在進行語音特征預(yù)測的過程中，不僅可以參考文本在音素層面的韻律，而且還可以參考文本在單字詞、短語、語句等粒度層面上的韻律，這樣可以使得預(yù)測出的語音特征所得到的語音韻律具有文本結(jié)構(gòu)上發(fā)音的連貫性，韻律更加自然。

25、需要說明，本公開屬于人工智能領(lǐng)域的技術(shù)方案，在方案實現(xiàn)時，所使用的隱私數(shù)據(jù)已經(jīng)得到所有方授權(quán)。

技術(shù)特征：

1.一種訓練文本轉(zhuǎn)語音模型的方法，包括：

2.如權(quán)利要求1所述方法，其中，粒度層級包括單字粒度層級、短語粒度層級、語句粒度層級。

3.如權(quán)利要求2所述方法，其中，所述短語粒度層級，具體包括：韻律短語粒度層級；

4.如權(quán)利要求3所述方法，其中，所述韻律模型使用的韻律符號包括：第一韻律符號、第二韻律符號、第三韻律符號，第四韻律符號；

5.如權(quán)利要求1所述方法，其中，針對任一粒度層級，該粒度層級的結(jié)構(gòu)標注信息為該粒度層級的結(jié)構(gòu)標注序列；

6.如權(quán)利要求1-5中任一項所述方法，所述文本轉(zhuǎn)語音模型的算法框架，為非自回歸算法框架。

7.如權(quán)利要求6所述方法，所述文本轉(zhuǎn)語音模型的算法框架，具體包括fastspeech2。

8.如權(quán)利要求7所述方法，將所述音素序列與所述至少一個粒度層級的結(jié)構(gòu)標注信息作為文本轉(zhuǎn)語音模型的輸入，訓練所述文本轉(zhuǎn)語音模型，包括：

9.一種文本轉(zhuǎn)語音的方法，包括：

10.一種訓練文本轉(zhuǎn)語音模型的裝置，包括：

11.一種文本轉(zhuǎn)語音的裝置，包括：

12.一種存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1～9中任意一項所述方法的步驟。

13.一種電子設(shè)備，其特征在于，包括：處理器和存儲器；其中，所述存儲器存儲有計算機程序，所述計算機程序適于由所述處理器加載并執(zhí)行如權(quán)利要求1～9中任意一項所述方法的步驟。

14.一種計算機程序產(chǎn)品，其上存儲有至少一條指令，其特征在于，所述至少一條指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1～9中任意一項所述方法的步驟。

技術(shù)總結(jié)
本說明書實施例公開了一種訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備。重新定義了文本轉(zhuǎn)語音模型的輸入數(shù)據(jù)的構(gòu)成，輸入數(shù)據(jù)不僅包括已插入韻律符號的文本對應(yīng)的音素序列，也包括能夠表示文本在至少一個粒度層級上的結(jié)構(gòu)劃分的結(jié)構(gòu)標注信息，從而使得文本轉(zhuǎn)語音模型在進行語音特征預(yù)測的過程中，不僅可以參考文本在音素層面的韻律，而且還可以參考文本在單字詞、短語、語句等粒度層面上的韻律，這樣可以使得預(yù)測出的語音特征所得到的語音韻律具有文本結(jié)構(gòu)上發(fā)音的連貫性，韻律更加自然。需要說明，本公開屬于人工智能領(lǐng)域的技術(shù)方案，在方案實現(xiàn)時，所使用的隱私數(shù)據(jù)已經(jīng)得到所有方授權(quán)。

技術(shù)研發(fā)人員：王濤,王志銘
受保護的技術(shù)使用者：支付寶（杭州）信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/11/26

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王濤,王志銘
技術(shù)所有人：支付寶（杭州）信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種緩沖型電梯轎廂架組件的制作方法
上一篇：一種粒狀硫銨尾氣洗水沉降槽的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程

訓練文本轉(zhuǎn)語音模型、文本轉(zhuǎn)語音的方法、裝置及設(shè)備與流程