本發(fā)明實(shí)施例涉及音頻,尤其涉及一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、在日常生活和工作中,人們經(jīng)常需要接收和發(fā)送文字信息。然而,在某些特定場景下,例如:駕駛、運(yùn)動或視覺障礙等,用戶可能無法直接查看或讀取文字消息。這時,用戶如果能夠收聽到與文字信息內(nèi)容相對應(yīng)的音頻信息,將極大地提高信息接收的便利性和安全性。
2、現(xiàn)有的文字轉(zhuǎn)語音技術(shù)雖然可以將文字轉(zhuǎn)換為語音,但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音,缺乏個性化和真實(shí)感,從而影響用戶的體驗(yàn)。
3、因此,亟需提出一種新的方法來解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種音頻生成方法、裝置、設(shè)備和存儲介質(zhì),可以生成個性化語音,從而提高用戶體驗(yàn)。
2、第一方面,本發(fā)明實(shí)施例提供了一種音頻生成方法,包括:
3、響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送;
4、從所述歷史音頻信息中提取音色特征;
5、對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;
6、根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征;
7、將所述目標(biāo)用戶的當(dāng)前音色特征和所述文本信息輸入語音生成模型,以生成具有所述目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。
8、本發(fā)明的技術(shù)方案,先響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,文本信息由目標(biāo)用戶通過目標(biāo)終端發(fā)送;再從歷史音頻信息中提取音色特征;之后對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;然后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征;最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻。上述技術(shù)方案,通過獲取目標(biāo)用戶的歷史音頻信息,為之后提取音色特征提供數(shù)據(jù)基礎(chǔ)。然后從歷史音頻信息中提取音色特征,并對提取的音色特征進(jìn)行聚類,可以將相似的音色特征歸為一類,得到聚類中心的音色特征,簡化了數(shù)據(jù),從而降低了后續(xù)處理的復(fù)雜度,提高了工作效率,同時也為之后確定目標(biāo)用戶的當(dāng)前音色特征提供了數(shù)據(jù)基礎(chǔ)。然后通過聚類的代表性特征,即聚類中心的音色特征,來確定目標(biāo)用戶的當(dāng)前音色特征,可以使最終確定的目標(biāo)用戶的當(dāng)前音色特征更具針對性和個性化,從而為用戶提供更加自然、真實(shí)的音色體驗(yàn),提高用戶的滿意度。最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成符合目標(biāo)用戶個性化音色特征的目標(biāo)音頻,使得目標(biāo)音頻聽起來就像是由目標(biāo)用戶本人親自說出的一樣,極大地增強(qiáng)了音頻內(nèi)容的個性化和真實(shí)感,從而提高了用戶體驗(yàn)。相比于現(xiàn)有技術(shù)雖然可以將文字轉(zhuǎn)換為語音,但通常只能使用預(yù)設(shè)或通用的語音庫來將文字轉(zhuǎn)換為語音,缺乏個性化和真實(shí)感,從而影響用戶的體驗(yàn)。本發(fā)明從歷史音頻信息中提取音色特征,并對提取的音色特征進(jìn)行聚類,得到聚類中心的音色特征;之后根據(jù)聚類中心的音色特征確定目標(biāo)用戶的當(dāng)前音色特征;最后將目標(biāo)用戶的當(dāng)前音色特征和文本信息輸入語音生成模型,以生成具有目標(biāo)用戶的當(dāng)前音色特征的目標(biāo)音頻,可以確保生成的音頻在音色上更加貼近目標(biāo)用戶的真實(shí)聲音,為用戶帶來更加自然、真實(shí)的音色體驗(yàn)。因此,本發(fā)明可以解決利用現(xiàn)有的文字生成語音技術(shù)所生成的音頻缺乏個性化和真實(shí)感的問題。
9、第二方面,本發(fā)明實(shí)施例還提供了一種音頻生成裝置,該裝置包括:
10、獲取模塊,用于響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,所述文本信息由所述目標(biāo)用戶通過目標(biāo)終端發(fā)送;
11、提取模塊,用于從所述歷史音頻信息中提取音色特征;
12、聚類模塊,用于對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征;
13、確定模塊,用于根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的音色特征;
14、生成模塊,用于將所述目標(biāo)用戶的音色特征和所述文本信息輸入語音生成模型,以生成具有所述目標(biāo)用戶的音色特征的目標(biāo)音頻。
15、第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:
16、至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;
17、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機(jī)程序,所述計算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠?qū)崿F(xiàn)第一方面中任一所述的音頻生成方法。
18、第四方面,本發(fā)明實(shí)施例還提供了一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì),
19、所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)第一方面中任一所述的音頻生成方法。
20、需要說明的是,上述計算機(jī)指令可以全部或者部分存儲在計算機(jī)可讀存儲介質(zhì)上。其中,計算機(jī)可讀存儲介質(zhì)可以與音頻生成裝置的處理器封裝在一起的,也可以與音頻生成裝置的處理器單獨(dú)封裝,本申請對此不做限定。
21、本申請中第二方面、第三方面以及第四方面的描述,可以參考第一方面的詳細(xì)描述;并且,第二方面、第三方面以及第四方面的描述的有益效果,可以參考第一方面的有益效果分析,此處不再贅述。
22、在本申請中,上述音頻生成裝置的名字對設(shè)備或功能模塊本身不構(gòu)成限定,在實(shí)際實(shí)現(xiàn)中,這些設(shè)備或功能模塊可以以其他名稱出現(xiàn)。只要各個設(shè)備或功能模塊的功能和本申請類似,屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi)。
23、本申請的這些方面或其他方面在以下的描述中會更加簡明易懂。
1.一種音頻生成方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,響應(yīng)接收到的文本信息,獲取目標(biāo)用戶的歷史音頻信息,包括:
3.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,從所述歷史音頻信息中提取音色特征,包括:
4.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,對提取的音色特征進(jìn)行聚類,以確定聚類中心的音色特征,包括:
5.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征之前,還包括:
6.根據(jù)權(quán)利要求5所述的音頻生成方法,其特征在于,在判斷是否存在所述目標(biāo)用戶的歷史音色特征之后,還包括:
7.根據(jù)權(quán)利要求6所述的音頻生成方法,其特征在于,根據(jù)匹配結(jié)果確定所述目標(biāo)用戶的當(dāng)前音色特征,包括:
8.根據(jù)權(quán)利要求1所述的音頻生成方法,其特征在于,根據(jù)所述聚類中心的音色特征確定所述目標(biāo)用戶的當(dāng)前音色特征,包括:
9.一種音頻生成裝置,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
11.一種包含計算機(jī)可執(zhí)行指令的存儲介質(zhì),其特征在于,所述計算機(jī)可執(zhí)行指令在由計算機(jī)處理器執(zhí)行時實(shí)現(xiàn)執(zhí)行權(quán)利要求1-8中任一所述的音頻生成方法。