本發(fā)明屬于語(yǔ)音合成溯源,尤其涉及一種可溯源的語(yǔ)音合成方法。
背景技術(shù):
1、聲音克隆、語(yǔ)音合成技術(shù)日漸發(fā)展,只需幾秒鐘的錄音就可以模仿說(shuō)話者的聲音,同時(shí)保持高水平的真實(shí)感。除了潛在的好處外,這項(xiàng)強(qiáng)大的技術(shù)還帶來(lái)了顯著的風(fēng)險(xiǎn),包括語(yǔ)音欺詐和冒充說(shuō)話人,與僅依靠被動(dòng)方法來(lái)檢測(cè)合成數(shù)據(jù)的傳統(tǒng)方法不同,水印提供了一種主動(dòng)且強(qiáng)大的防御機(jī)制,以應(yīng)對(duì)這些迫在眉睫的風(fēng)險(xiǎn)。
2、現(xiàn)有技術(shù)中,生產(chǎn)商只能檢測(cè)出自己生產(chǎn)的音頻的水印,因而對(duì)于一個(gè)未知生產(chǎn)商的音頻,無(wú)法進(jìn)行溯源,且現(xiàn)有音頻水印添加方法保密性和魯棒性不足,容易被破解,且在音頻經(jīng)過(guò)剪輯后難以再檢測(cè)出音頻原有水印。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種可溯源的語(yǔ)音合成方法,旨在解決現(xiàn)有技術(shù)中,生產(chǎn)商只能檢測(cè)出自己生產(chǎn)的音頻的水印,因而對(duì)于一個(gè)未知生產(chǎn)商的音頻,無(wú)法進(jìn)行溯源的問(wèn)題。
2、本發(fā)明是這樣實(shí)現(xiàn)的,一種可溯源的語(yǔ)音合成方法,包括以下步驟:
3、s1、聲音克?。荷a(chǎn)商首先與授權(quán)人達(dá)成協(xié)議,以獲取其聲音樣本的采集和使用權(quán)限,生產(chǎn)商將授權(quán)人的聲音音色進(jìn)行克隆,在錄音環(huán)境中,授權(quán)人朗讀一系列文本或進(jìn)行自由對(duì)話,以確保采集到多樣和全面的聲音數(shù)據(jù),ai語(yǔ)音生產(chǎn)商使用音頻分析技術(shù),對(duì)采集到的聲音樣本進(jìn)行詳細(xì)的聲學(xué)分析,生產(chǎn)商將構(gòu)建一個(gè)聲音模型,該模型能夠準(zhǔn)確地模擬和復(fù)制授權(quán)人的聲音,聲音模型建立完成,ai語(yǔ)音生產(chǎn)商使用合成技術(shù)來(lái)生成與授權(quán)人音色相似的語(yǔ)音;
4、s2、語(yǔ)音合成:合成人提供音頻文案從生產(chǎn)商處購(gòu)買聲音克隆技術(shù)生成的具有授權(quán)人音色的,且與音頻文案對(duì)應(yīng)的配音形成合成語(yǔ)音;
5、s3、監(jiān)管加密:所有的生產(chǎn)商都將合成語(yǔ)音及合成人身份信息提供給第三方監(jiān)管,然后由第三方監(jiān)管使用統(tǒng)一加密技術(shù)將合成人身份信息作為水印添加到合成語(yǔ)音,形成合成語(yǔ)音(水印版),再提供給合成人,當(dāng)出現(xiàn)詐騙語(yǔ)音音頻后,反詐部門(mén)即可使用原加密方式對(duì)應(yīng)的解密方式檢測(cè)身份水印,查看合成人的身份信息。
6、優(yōu)選的,所述s1中,提取聲音的聲學(xué)特征,如音調(diào)、音色、音強(qiáng)、語(yǔ)速等,這些特征共同構(gòu)成了授權(quán)人的獨(dú)特聲音。
7、優(yōu)選的,所述s1中,使用tts技術(shù),合成引擎會(huì)采用授權(quán)人的聲音模型來(lái)生成語(yǔ)音,而不是使用通用的語(yǔ)音庫(kù)。
8、優(yōu)選的,所述s1中,生產(chǎn)商需要確保獲得授權(quán)人的明確授權(quán),將生成的合成語(yǔ)音用于各種應(yīng)用場(chǎng)景。
9、優(yōu)選的,所述s2中,合成人與選定的聲音克隆技術(shù)提供商達(dá)成協(xié)議,并支付相應(yīng)的費(fèi)用以及身份信息以購(gòu)買聲音克隆技術(shù)生成的配音服務(wù)。
10、優(yōu)選的,所述s2中,在使用合成配音時(shí),合成人需要確保遵守相關(guān)的版權(quán)和授權(quán)規(guī)定,包括與聲音克隆技術(shù)提供商與授權(quán)人進(jìn)行溝通協(xié)商,確保有權(quán)合法使用生成的合成配音。
11、優(yōu)選的,所述s3中,生產(chǎn)商在完成合成語(yǔ)音的制作后,收集對(duì)應(yīng)的合成人身份信息,身份信息可能包括合成人的姓名與唯一標(biāo)識(shí)符的認(rèn)證信息。
12、優(yōu)選的,所述s3中,合成語(yǔ)音提交給第三方監(jiān)管過(guò)程,包括在線上傳、物理傳輸?shù)膫鬏敺绞剑⒋_保數(shù)據(jù)在傳輸過(guò)程中不被篡改或泄露。
13、優(yōu)選的,所述s3中,加密過(guò)程對(duì)身份信息進(jìn)行編碼運(yùn)算,以確保只有第三方監(jiān)管能夠解碼和驗(yàn)證水印信息。
14、優(yōu)選的,所述s3中,受害人向反詐部門(mén)報(bào)案,并提供詐騙語(yǔ)音音頻作為證據(jù),反詐部門(mén)接收證據(jù)后,聯(lián)系到第三方監(jiān)管,第三方監(jiān)管使用其自身的加密方式所對(duì)應(yīng)的解密方式對(duì)詐騙語(yǔ)音音頻進(jìn)行嘗試性解密,一旦詐騙語(yǔ)音音頻來(lái)自被監(jiān)管的生產(chǎn)商,則能夠正常解密,提取出語(yǔ)音音頻中攜帶的水印信息,水印信息將揭示合成人的身份信息,完成涉案合成人的身份溯源。
15、有益效果
16、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明的一種可溯源的語(yǔ)音合成方法,通過(guò)監(jiān)管使用統(tǒng)一的加密方式添加水印,避免不同生產(chǎn)商只能檢測(cè)自己生產(chǎn)的音頻水印的困境,第三方監(jiān)管為所有生產(chǎn)商統(tǒng)一向語(yǔ)音中添加水印,因而被詐騙人在溯源時(shí)無(wú)需確認(rèn)該語(yǔ)音來(lái)自哪個(gè)生產(chǎn)商,語(yǔ)音合成時(shí)添加了合成者的用戶實(shí)名身份信息,便于語(yǔ)音溯源,水印框架網(wǎng)絡(luò)使用音頻剪輯模擬器,模擬現(xiàn)實(shí)中的各種音頻剪輯操作干擾,從而訓(xùn)練出經(jīng)過(guò)各種音頻剪輯操作后,依舊能夠檢測(cè)出水印的神經(jīng)網(wǎng)絡(luò),溯源機(jī)制可以對(duì)任意語(yǔ)音進(jìn)行溯源,找到合成該語(yǔ)音的用戶;該語(yǔ)音水印框架在具有極強(qiáng)保密性的同時(shí),在語(yǔ)音經(jīng)過(guò)各種音頻剪輯、重采樣、添加背景音樂(lè)等操作后仍然檢測(cè)出原水印。
1.一種可溯源的語(yǔ)音合成方法,其特征在于:包括以下步驟:
2.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s1中,提取聲音的聲學(xué)特征,如音調(diào)、音色、音強(qiáng)、語(yǔ)速等,這些特征共同構(gòu)成了授權(quán)人的獨(dú)特聲音。
3.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s1中,使用tts技術(shù),合成引擎會(huì)采用授權(quán)人的聲音模型來(lái)生成語(yǔ)音,而不是使用通用的語(yǔ)音庫(kù)。
4.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s1中,生產(chǎn)商需要確保獲得授權(quán)人的明確授權(quán),將生成的合成語(yǔ)音用于各種應(yīng)用場(chǎng)景。
5.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s2中,合成人與選定的聲音克隆技術(shù)提供商達(dá)成協(xié)議,并支付相應(yīng)的費(fèi)用以及身份信息以購(gòu)買聲音克隆技術(shù)生成的配音服務(wù)。
6.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s2中,在使用合成配音時(shí),合成人需要確保遵守相關(guān)的版權(quán)和授權(quán)規(guī)定,包括與聲音克隆技術(shù)提供商與授權(quán)人進(jìn)行溝通協(xié)商,確保有權(quán)合法使用生成的合成配音。
7.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s3中,生產(chǎn)商在完成合成語(yǔ)音的制作后,收集對(duì)應(yīng)的合成人身份信息,身份信息可能包括合成人的姓名與唯一標(biāo)識(shí)符的認(rèn)證信息。
8.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s3中,合成語(yǔ)音提交給第三方監(jiān)管過(guò)程,包括在線上傳、物理傳輸?shù)膫鬏敺绞?,并確保數(shù)據(jù)在傳輸過(guò)程中不被篡改或泄露。
9.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s3中,加密過(guò)程對(duì)身份信息進(jìn)行編碼運(yùn)算,以確保只有第三方監(jiān)管能夠解碼和驗(yàn)證水印信息。
10.如權(quán)利要求1所述的一種可溯源的語(yǔ)音合成方法,其特征在于:所述s3中,受害人向反詐部門(mén)報(bào)案,并提供詐騙語(yǔ)音音頻作為證據(jù),反詐部門(mén)接收證據(jù)后,聯(lián)系到第三方監(jiān)管,第三方監(jiān)管使用其自身的加密方式所對(duì)應(yīng)的解密方式對(duì)詐騙語(yǔ)音音頻進(jìn)行嘗試性解密,一旦詐騙語(yǔ)音音頻來(lái)自被監(jiān)管的生產(chǎn)商,則能夠正常解密,提取出語(yǔ)音音頻中攜帶的水印信息,水印信息將揭示合成人的身份信息,完成涉案合成人的身份溯源。