国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      音頻生成方法、裝置、設(shè)備和存儲介質(zhì)與流程

      文檔序號:39339819發(fā)布日期:2024-09-10 11:57閱讀:55來源:國知局
      音頻生成方法、裝置、設(shè)備和存儲介質(zhì)與流程

      本發(fā)明實(shí)施例涉及音頻,尤其涉及一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì)。


      背景技術(shù):

      1、在日常生活和工作中,人們經(jīng)常需要接收和發(fā)送文字信息。然而,在某些特定場景下,例如:駕駛、運(yùn)動或視覺障礙等,用戶可能無法直接查看或讀取文字消息。這時,用戶如果能夠收聽到與文字信息內(nèi)容相對應(yīng)的音頻信息,將極大地提高信息接收的便利性和安全性。

      2、現(xiàn)有的文字轉(zhuǎn)語音技術(shù)雖然可以將文字轉(zhuǎn)換為語音,但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音,缺乏個性化和真實(shí)感,從而影響用戶的體驗(yàn)。

      3、因此,亟需提出一種新的方法來解決上述問題。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì),可以生成個性化語音,從而提高用戶體驗(yàn)。

      2、第一方面,本發(fā)明實(shí)施例提供了一種音頻生成方法,包括:

      3、響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送;

      4、從所述歷史音頻信息中提取音色特征;

      5、對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;

      6、根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征;

      7、將所述目標(biāo)用戶的當(dāng)前音色特征和所述文本信息輸入語音生成模型,以生成具有所述目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。

      8、本發(fā)明的技術(shù)方案,先響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,文本信息由目標(biāo)用戶通過目標(biāo)終端發(fā)送;再從歷史音頻信息中提取音色特征;之后對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;然后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征;最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。上述技術(shù)方案,通過獲取目標(biāo)用戶的歷史音頻信息,為之后提取音色特征提供數(shù)據(jù)基礎(chǔ)。然后從歷史音頻信息中提取音色特征,并對提取的音色特征進(jìn)行聚類,可以將相似的音色特征歸為一類,得到聚類中心的音色特征,簡化了數(shù)據(jù),從而降低了后續(xù)處理的復(fù)雜度,提高了工作效率,同時也為之后確定目標(biāo)用戶的當(dāng)前音色特征提供了數(shù)據(jù)基礎(chǔ)。然后通過聚類的代表性特征,即聚類中心的音色特征,來確定目標(biāo)用戶的當(dāng)前音色特征,可以使最終確定的目標(biāo)用戶的當(dāng)前音色特征更具針對性和個性化,從而為用戶提供更加自然、真實(shí)的音色體驗(yàn),提高用戶的滿意度。最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成符合目標(biāo)用戶個性化音色特征的目標(biāo)音頻,使得目標(biāo)音頻聽起來就像是由目標(biāo)用戶本人親自說出的一樣,極大地增強(qiáng)了音頻內(nèi)容的個性化和真實(shí)感,從而提高了用戶體驗(yàn)。相比于現(xiàn)有技術(shù)雖然可以將文字轉(zhuǎn)換為語音,但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音,缺乏個性化和真實(shí)感,從而影響用戶的體驗(yàn)。本發(fā)明從歷史音頻信息中提取音色特征,并對提取的音色特征進(jìn)行聚類,得到聚類中心的音色特征;之后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征;最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻,可以確保生成的音頻在音色上更加貼近目標(biāo)用戶的真實(shí)聲音,為用戶帶來更加自然、真實(shí)的音色體驗(yàn)。因此,本發(fā)明可以解決利用現(xiàn)有的文字生成語音技術(shù)所生成的音頻缺乏個性化和真實(shí)感的問題。

      9、第二方面,本發(fā)明實(shí)施例還提供了一種音頻生成裝置,該裝置包括:

      10、獲取模塊,用于響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送;

      11、提取模塊,用于從所述歷史音頻信息中提取音色特征;

      12、聚類模塊,用于對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;

      13、確定模塊,用于根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的音色特征;

      14、生成模塊,用于將所述目標(biāo)用戶的音色特征和所述文本信息輸入語音生成模型,以生成具有所述目標(biāo)用戶的音色特征的目標(biāo)音頻。

      15、第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:

      16、至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;

      17、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機(jī)程序,所述計算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠?qū)崿F(xiàn)第一方面中任一所述的音頻生成方法。

      18、第四方面,本發(fā)明實(shí)施例還提供了一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì),

      19、所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)第一方面中任一所述的音頻生成方法。

      20、需要說明的是,上述計算機(jī)指令可以全部或者部分存儲在計算機(jī)可讀存儲介質(zhì)上。其中,計算機(jī)可讀存儲介質(zhì)可以與音頻生成裝置的處理器封裝在一起的,也可以與音頻生成裝置的處理器單獨(dú)封裝,本申請對此不做限定。

      21、本申請中第二方面、第三方面以及第四方面的描述,可以參考第一方面的詳細(xì)描述;并且,第二方面、第三方面以及第四方面的描述的有益效果,可以參考第一方面的有益效果分析,此處不再贅述。

      22、在本申請中,上述音頻生成裝置的名字對設(shè)備或功能模塊本身不構(gòu)成限定,在實(shí)際實(shí)現(xiàn)中,這些設(shè)備或功能模塊可以以其他名稱出現(xiàn)。只要各個設(shè)備或功能模塊的功能和本申請類似,屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi)。

      23、本申請的這些方面或其他方面在以下的描述中會更加簡明易懂。



      技術(shù)特征:

      1.一種音頻生成方法,其特征在于,所述方法包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,包括:

      3.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,從所述歷史音頻信息中提取音色特征,包括:

      4.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征,包括:

      5.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征之前,還包括:

      6.根據(jù)權(quán)利要求5所述的音頻生成方法,其特征在于,在判斷是否存在所述目標(biāo)用戶的歷史音色特征之后,還包括:

      7.根據(jù)權(quán)利要求6所述的音頻生成方法,其特征在于,根據(jù)匹配結(jié)果確定所述目標(biāo)用戶的當(dāng)前音色特征,包括:

      8.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征,包括:

      9.一種音頻生成裝置,其特征在于,包括:

      10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

      11.一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì),其特征在于,所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)執(zhí)行權(quán)利要求1-8中任一所述的音頻生成方法。


      技術(shù)總結(jié)
      本發(fā)明公開了一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì),涉及音頻技術(shù)領(lǐng)域。該方法包括:響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,文本信息由目標(biāo)用戶通過目標(biāo)終端發(fā)送;從歷史音頻信息中提取音色特征;對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征;將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。通過本發(fā)明實(shí)施例的技術(shù)方案可以生成個性化語音,從而提高用戶體驗(yàn)。

      技術(shù)研發(fā)人員:張毅,陳博,付振,王明月,何金鑫,孫宇嘉,梁小明,王紫煙
      受保護(hù)的技術(shù)使用者:中國第一汽車股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1