音頻生成方法、裝置、設(shè)備和存儲介質(zhì)與流程

文檔序號：39339819發(fā)布日期：2024-09-10 11:57閱讀：55來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明實(shí)施例涉及音頻，尤其涉及一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì)。

背景技術(shù)：

1、在日常生活和工作中，人們經(jīng)常需要接收和發(fā)送文字信息。然而，在某些特定場景下，例如：駕駛、運(yùn)動或視覺障礙等，用戶可能無法直接查看或讀取文字消息。這時，用戶如果能夠收聽到與文字信息內(nèi)容相對應(yīng)的音頻信息，將極大地提高信息接收的便利性和安全性。

2、現(xiàn)有的文字轉(zhuǎn)語音技術(shù)雖然可以將文字轉(zhuǎn)換為語音，但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音，缺乏個性化和真實(shí)感，從而影響用戶的體驗(yàn)。

3、因此，亟需提出一種新的方法來解決上述問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì)，可以生成個性化語音，從而提高用戶體驗(yàn)。

2、第一方面，本發(fā)明實(shí)施例提供了一種音頻生成方法，包括：

3、響應(yīng)接收到的文本信息，獲取目標(biāo)用戶的歷史音頻信息，所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送；

4、從所述歷史音頻信息中提取音色特征；

5、對提取的音色特征進(jìn)行聚類，以確定聚類中心的音色特征；

6、根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征；

7、將所述目標(biāo)用戶的當(dāng)前音色特征和所述文本信息輸入語音生成模型，以生成具有所述目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。

8、本發(fā)明的技術(shù)方案，先響應(yīng)接收到的文本信息，獲取目標(biāo)用戶的歷史音頻信息，文本信息由目標(biāo)用戶通過目標(biāo)終端發(fā)送；再從歷史音頻信息中提取音色特征；之后對提取的音色特征進(jìn)行聚類，以確定聚類中心的音色特征；然后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征；最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型，以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。上述技術(shù)方案，通過獲取目標(biāo)用戶的歷史音頻信息，為之后提取音色特征提供數(shù)據(jù)基礎(chǔ)。然后從歷史音頻信息中提取音色特征，并對提取的音色特征進(jìn)行聚類，可以將相似的音色特征歸為一類，得到聚類中心的音色特征，簡化了數(shù)據(jù)，從而降低了后續(xù)處理的復(fù)雜度，提高了工作效率，同時也為之后確定目標(biāo)用戶的當(dāng)前音色特征提供了數(shù)據(jù)基礎(chǔ)。然后通過聚類的代表性特征，即聚類中心的音色特征，來確定目標(biāo)用戶的當(dāng)前音色特征，可以使最終確定的目標(biāo)用戶的當(dāng)前音色特征更具針對性和個性化，從而為用戶提供更加自然、真實(shí)的音色體驗(yàn)，提高用戶的滿意度。最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型，以生成符合目標(biāo)用戶個性化音色特征的目標(biāo)音頻，使得目標(biāo)音頻聽起來就像是由目標(biāo)用戶本人親自說出的一樣，極大地增強(qiáng)了音頻內(nèi)容的個性化和真實(shí)感，從而提高了用戶體驗(yàn)。相比于現(xiàn)有技術(shù)雖然可以將文字轉(zhuǎn)換為語音，但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音，缺乏個性化和真實(shí)感，從而影響用戶的體驗(yàn)。本發(fā)明從歷史音頻信息中提取音色特征，并對提取的音色特征進(jìn)行聚類，得到聚類中心的音色特征；之后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征；最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型，以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻，可以確保生成的音頻在音色上更加貼近目標(biāo)用戶的真實(shí)聲音，為用戶帶來更加自然、真實(shí)的音色體驗(yàn)。因此，本發(fā)明可以解決利用現(xiàn)有的文字生成語音技術(shù)所生成的音頻缺乏個性化和真實(shí)感的問題。

9、第二方面，本發(fā)明實(shí)施例還提供了一種音頻生成裝置，該裝置包括：

10、獲取模塊，用于響應(yīng)接收到的文本信息，獲取目標(biāo)用戶的歷史音頻信息，所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送；

11、提取模塊，用于從所述歷史音頻信息中提取音色特征；

12、聚類模塊，用于對提取的音色特征進(jìn)行聚類，以確定聚類中心的音色特征；

13、確定模塊，用于根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的音色特征；

14、生成模塊，用于將所述目標(biāo)用戶的音色特征和所述文本信息輸入語音生成模型，以生成具有所述目標(biāo)用戶的音色特征的目標(biāo)音頻。

15、第三方面，本發(fā)明實(shí)施例還提供了一種電子設(shè)備，該電子設(shè)備包括：

16、至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；

17、其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機(jī)程序，所述計算機(jī)程序被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠?qū)崿F(xiàn)第一方面中任一所述的音頻生成方法。

18、第四方面，本發(fā)明實(shí)施例還提供了一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì)，

19、所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)第一方面中任一所述的音頻生成方法。

20、需要說明的是，上述計算機(jī)指令可以全部或者部分存儲在計算機(jī)可讀存儲介質(zhì)上。其中，計算機(jī)可讀存儲介質(zhì)可以與音頻生成裝置的處理器封裝在一起的，也可以與音頻生成裝置的處理器單獨(dú)封裝，本申請對此不做限定。

21、本申請中第二方面、第三方面以及第四方面的描述，可以參考第一方面的詳細(xì)描述；并且，第二方面、第三方面以及第四方面的描述的有益效果，可以參考第一方面的有益效果分析，此處不再贅述。

22、在本申請中，上述音頻生成裝置的名字對設(shè)備或功能模塊本身不構(gòu)成限定，在實(shí)際實(shí)現(xiàn)中，這些設(shè)備或功能模塊可以以其他名稱出現(xiàn)。只要各個設(shè)備或功能模塊的功能和本申請類似，屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi)。

23、本申請的這些方面或其他方面在以下的描述中會更加簡明易懂。

技術(shù)特征：

1.一種音頻生成方法，其特征在于，所述方法包括以下步驟：

2.根據(jù)權(quán)利要求1所述的音頻生成方法，其特征在于，響應(yīng)接收到的文本信息，獲取目標(biāo)用戶的歷史音頻信息，包括：

3.根據(jù)權(quán)利要求1所述的音頻生成方法，其特征在于，從所述歷史音頻信息中提取音色特征，包括：

4.根據(jù)權(quán)利要求1所述的音頻生成方法，其特征在于，對提取的音色特征進(jìn)行聚類，以確定聚類中心的音色特征，包括：

5.根據(jù)權(quán)利要求1所述的音頻生成方法，其特征在于，根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征之前，還包括：

6.根據(jù)權(quán)利要求5所述的音頻生成方法，其特征在于，在判斷是否存在所述目標(biāo)用戶的歷史音色特征之后，還包括：

7.根據(jù)權(quán)利要求6所述的音頻生成方法，其特征在于，根據(jù)匹配結(jié)果確定所述目標(biāo)用戶的當(dāng)前音色特征，包括：

8.根據(jù)權(quán)利要求1所述的音頻生成方法，其特征在于，根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征，包括：

9.一種音頻生成裝置，其特征在于，包括：

10.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括：

11.一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì)，其特征在于，所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)執(zhí)行權(quán)利要求1-8中任一所述的音頻生成方法。

技術(shù)總結(jié)
本發(fā)明公開了一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì)，涉及音頻技術(shù)領(lǐng)域。該方法包括：響應(yīng)接收到的文本信息，獲取目標(biāo)用戶的歷史音頻信息，文本信息由目標(biāo)用戶通過目標(biāo)終端發(fā)送；從歷史音頻信息中提取音色特征；對提取的音色特征進(jìn)行聚類，以確定聚類中心的音色特征；根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征；將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型，以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。通過本發(fā)明實(shí)施例的技術(shù)方案可以生成個性化語音，從而提高用戶體驗(yàn)。

技術(shù)研發(fā)人員：張毅,陳博,付振,王明月,何金鑫,孫宇嘉,梁小明,王紫煙
受保護(hù)的技術(shù)使用者：中國第一汽車股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張毅,陳博,付振,王明月,何金鑫,孫宇嘉,梁小明,王紫煙
技術(shù)所有人：中國第一汽車股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音頻生成方法、裝置、設(shè)備和存儲介質(zhì)與流程

音頻生成方法、裝置、設(shè)備和存儲介質(zhì)與流程