專(zhuān)利名稱(chēng):自適應(yīng)的語(yǔ)音變換處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語(yǔ)音信號(hào)處理領(lǐng)域,具體涉及語(yǔ)音變換處理方法。
背景技術(shù):
影響語(yǔ)音感知的因素有很多,其中基頻和共振峰是最為重要的兩個(gè)因素。通過(guò)對(duì)基頻和共振峰的調(diào)整,可以得到一種完全不同的聲音,這就是所謂的語(yǔ)音變換,又叫音色變換、變音。
變音系統(tǒng)主要由三部分組成數(shù)據(jù)獲取部分、數(shù)據(jù)處理部分和結(jié)果輸出部分(如圖1所示)。數(shù)據(jù)獲取部分的功能是為數(shù)據(jù)處理部分提供原材料,也就是用戶(hù)希望進(jìn)行變換的內(nèi)容。數(shù)據(jù)處理部分的功能是對(duì)輸入數(shù)據(jù)進(jìn)行加工,來(lái)達(dá)到某種變換的效果。結(jié)果輸出部分的功能是,接收并輸出數(shù)據(jù)處理部分加工過(guò)的數(shù)據(jù)。其中,數(shù)據(jù)處理部分是整個(gè)系統(tǒng)的核心。
現(xiàn)有的變音算法,主要對(duì)利用基頻和共振峰等聲學(xué)參數(shù)的聲音變換方法做了闡述。但是,對(duì)于如何選取其參數(shù)來(lái)達(dá)到某種效果,并沒(méi)有提及。而在實(shí)際應(yīng)用中,變音效果直接受到設(shè)置參數(shù)的影響,甚至有時(shí)因?yàn)閰?shù)設(shè)置不合理,其效果會(huì)和需要的效果大相徑庭。分析其原因,主要是沒(méi)有對(duì)聲源特征和目標(biāo)特征進(jìn)行分析,未能建立聲源與目標(biāo)之間的聯(lián)系,缺乏自適應(yīng)調(diào)整的功能。
本發(fā)明所要解決的技術(shù)問(wèn)題不同聲源(說(shuō)話(huà)人)的變音效果,往往大相徑庭,目前算法不能自動(dòng)調(diào)整。
發(fā)明內(nèi)容
鑒于現(xiàn)有算法存在的問(wèn)題,本發(fā)明通過(guò)建立聲源與目標(biāo)特征之間的映射關(guān)系,使得不同說(shuō)話(huà)人的聲音可以自適應(yīng)地變換到同一類(lèi)變音效果。在原有算法的基礎(chǔ)上,通過(guò)獲取聲源特征和目標(biāo)特征的主要參數(shù)(如基頻和共振峰),利用語(yǔ)音數(shù)據(jù)庫(kù)的統(tǒng)計(jì)信息,建立源和目標(biāo)之間的映射關(guān)系,增加了自適應(yīng)處理部分,改善了聲音變換的效果。
本發(fā)明提供的一種自適應(yīng)的語(yǔ)音變換處理方法,包括步驟(a)建立多樣本語(yǔ)音數(shù)據(jù)庫(kù);(b)分析多樣本語(yǔ)音庫(kù)中的語(yǔ)音數(shù)據(jù),提取語(yǔ)音參數(shù);規(guī)劃并建立語(yǔ)音參數(shù)庫(kù),為數(shù)據(jù)處理階段提供依據(jù);(c)分析聲源特征,獲取不同個(gè)體的語(yǔ)音參數(shù),將得到的這些參數(shù)作為衡量不同聲音之間差異的依據(jù);(d)利用語(yǔ)音參數(shù)庫(kù),建立聲源特征和目標(biāo)特征的映射關(guān)系;(e)根據(jù)映射系數(shù),進(jìn)行自適應(yīng)調(diào)整。
其中所述語(yǔ)音參數(shù)包括基頻、共振峰。
其中所述映射函數(shù)可以是線(xiàn)性的,也可以是非線(xiàn)性的。
本發(fā)明與現(xiàn)有技術(shù)相比的有益效果解決了不同聲源(說(shuō)話(huà)人)的變音效果差異過(guò)大,很多變音效果與需要的效果不一致的問(wèn)題,使得變音技術(shù)更加適合應(yīng)用。
圖1為語(yǔ)音變換系統(tǒng)示意圖;圖2為本發(fā)明提供的自適應(yīng)語(yǔ)音變換處理方法流程圖。
具體實(shí)施例方式
實(shí)施中,主要有如下幾個(gè)過(guò)程首先,分析多人多樣本語(yǔ)音庫(kù)中的語(yǔ)音數(shù)據(jù),提取出基頻、共振峰等參數(shù)。利用聚類(lèi)等方法,將所有的樣本根據(jù)劃分特征的不同分為幾類(lèi),比如按照性別可以分為男性和女性;按照音色可以分為低沉的、沙啞的、普通的、靚麗的;按照年齡可以分為老年的、中年的、青年的、少年的、兒童的。按照需要,規(guī)劃并建立語(yǔ)音參數(shù)庫(kù),為數(shù)據(jù)處理階段提供依據(jù)。
分析聲源特征,獲取不同個(gè)體的基頻、共振峰等參數(shù)。不同個(gè)體的聲音往往不同,得到的這些參數(shù)將作為衡量不同聲音之間差異的依據(jù)。
利用語(yǔ)音參數(shù)庫(kù),建立聲源特征和目標(biāo)特征的映射關(guān)系,即k=f(PT,PS)(1)其中,k為一組映射系數(shù),PT為一組目標(biāo)特征參數(shù),PS為一組聲源特征參數(shù),f為映射函數(shù)。映射函數(shù)可以選擇線(xiàn)性的,也可以選擇非線(xiàn)性的。
特征參數(shù)可以是基頻,可以是共振峰,也可以?xún)烧叨加?,甚至擴(kuò)充其他參數(shù)。下面,僅對(duì)單獨(dú)利用基頻和共振峰的情況進(jìn)行說(shuō)明,其他情況與此類(lèi)似。
如果利用基頻為特征參數(shù),按照如下步驟構(gòu)造映射函數(shù)。首先,從說(shuō)話(huà)人連續(xù)語(yǔ)流中提取基頻序列,設(shè)為PT。同時(shí),利用第一步中的統(tǒng)計(jì)結(jié)果構(gòu)造相應(yīng)的基頻序列PS。如果選用線(xiàn)性映射關(guān)系,例如,可以選取映射系數(shù)為k=f(PT,PS)=PT/PS。
如果利用共振峰為特征參數(shù),按照如下步驟構(gòu)造映射函數(shù)。首先,從說(shuō)話(huà)人連續(xù)語(yǔ)流中,提取共振峰序列,選擇前n個(gè)(一般3~5個(gè))共振峰的位置,設(shè)為PT(1∶n)。同時(shí),利用第一步中的統(tǒng)計(jì)結(jié)果,構(gòu)造相應(yīng)的共振峰序列PS(1∶n)。由于兩個(gè)序列都是n維的,所以映射關(guān)系函數(shù)也需要設(shè)計(jì)為n維的。如果選用線(xiàn)性映射關(guān)系,也可以選取映射系數(shù)為簡(jiǎn)單的比例關(guān)系k(1∶n)=PT(1∶n)/PS(1∶n)。
根據(jù)映射系數(shù),進(jìn)行自適應(yīng)調(diào)整。設(shè)t時(shí)刻通過(guò)映射獲得的一組映射系數(shù)為k(t)=f[PT(t),PS],為了保障算法的穩(wěn)定性,調(diào)整系數(shù)α(t)是根據(jù)t時(shí)刻以及t時(shí)刻之前的映射系數(shù)設(shè)計(jì)的,即α(t)=g[k(t),k(t-1),...,k(0)] (2)其中,g為調(diào)整系數(shù)計(jì)算函數(shù)。調(diào)整系數(shù)也可以表示為α(t)=h[k(t),α(t-1)] (3)這樣只需要利用當(dāng)前的映射系數(shù)k(t)和前一時(shí)刻的調(diào)整系數(shù)α(t-1)。對(duì)于0時(shí)刻,可以認(rèn)為其前一時(shí)刻的調(diào)整系數(shù)沒(méi)有影響,只與0時(shí)刻的映射系數(shù)有關(guān),即α(0)=k(0) (4)例如,我們可以采用關(guān)系式(3),并定義函數(shù)h為h[k(t),α(t-1)]=βα(t-1)+(1-β)k(t)(5)其中,β為常數(shù),并滿(mǎn)足0≤β≤1。
數(shù)據(jù)流動(dòng)示意圖如圖2所示,原始數(shù)據(jù)經(jīng)過(guò)特征分析,獲得的參數(shù)與參數(shù)庫(kù)中的參數(shù)建立映射關(guān)系,獲得最優(yōu)的一組參數(shù),利用這組參數(shù)和前一時(shí)刻的調(diào)整系數(shù),計(jì)算當(dāng)前時(shí)刻的調(diào)整系數(shù),然后進(jìn)行音色變換處理,獲得的輸出數(shù)據(jù)將更好地滿(mǎn)足需要。
權(quán)利要求
1.一種自適應(yīng)的語(yǔ)音變換處理方法,包括步驟(a)建立多樣本語(yǔ)音數(shù)據(jù)庫(kù);(b)分析多樣本語(yǔ)音庫(kù)中的語(yǔ)音數(shù)據(jù),提取語(yǔ)音參數(shù);規(guī)劃并建立語(yǔ)音參數(shù)庫(kù),為數(shù)據(jù)處理階段提供依據(jù);(c)分析聲源特征,獲取不同個(gè)體的語(yǔ)音參數(shù),將得到的這些參數(shù)作為衡量不同聲音之間差異的依據(jù);(d)利用語(yǔ)音參數(shù)庫(kù),建立聲源特征和目標(biāo)特征的映射關(guān)系;(e)根據(jù)映射系數(shù),進(jìn)行自適應(yīng)調(diào)整。
2.如權(quán)利要求1所述的語(yǔ)音變換處理方法,其中所述語(yǔ)音參數(shù)包括基頻、共振峰。
3.如權(quán)利要求1所述的語(yǔ)音變換處理方法,其中所述映射函數(shù)可以是線(xiàn)性的,也可以是非線(xiàn)性的。
全文摘要
本發(fā)明提供一種自適應(yīng)的語(yǔ)音變換處理方法,包括步驟(a)建立多樣本語(yǔ)音數(shù)據(jù)庫(kù);(b)分析多樣本語(yǔ)音庫(kù)中的語(yǔ)音數(shù)據(jù),提取語(yǔ)音參數(shù);規(guī)劃并建立語(yǔ)音參數(shù)庫(kù),為數(shù)據(jù)處理階段提供依據(jù);(c)分析聲源特征,獲取不同個(gè)體的語(yǔ)音參數(shù),將得到的這些參數(shù)作為衡量不同聲音之間差異的依據(jù);(d)利用語(yǔ)音參數(shù)庫(kù),建立聲源特征和目標(biāo)特征的映射關(guān)系;(e)根據(jù)映射系數(shù),進(jìn)行自適應(yīng)調(diào)整。通過(guò)獲取聲源特征和目標(biāo)特征的主要參數(shù)(如基頻和共振峰),建立聲源與目標(biāo)特征之間的映射關(guān)系,利用語(yǔ)音數(shù)據(jù)庫(kù)的統(tǒng)計(jì)信息,使得不同說(shuō)話(huà)人的聲音可以自適應(yīng)地變換到同一類(lèi)變音效果,改善了聲音變換的效果。
文檔編號(hào)G10L13/00GK1811911SQ200510004910
公開(kāi)日2006年8月2日 申請(qǐng)日期2005年1月28日 優(yōu)先權(quán)日2005年1月28日
發(fā)明者陳明, 呂士楠, 張連毅, 武衛(wèi)東, 李秀林 申請(qǐng)人:北京捷通華聲語(yǔ)音技術(shù)有限公司