基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法

文檔序號：2833092閱讀：345來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音轉(zhuǎn)換技術(shù)，特別涉及基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，屬于語音信號處理技術(shù)領(lǐng)域。
背景技術(shù)：
語音轉(zhuǎn)換是語音信號處理領(lǐng)域近年來新興的研究分支，是在說話人識別和語音合成的研究基礎(chǔ)上進(jìn)行的，同時(shí)也是這兩個(gè)分支內(nèi)涵的豐富和延拓，但是又不完全隸屬于說話人識別和語音合成的范疇。語音轉(zhuǎn)換的目標(biāo)是在保證其中的語義信息保持不變的條件下，改變源說話人語音中的個(gè)性特征信息，使之具有目標(biāo)說話人的個(gè)性特征，從而使轉(zhuǎn)換后的語音聽起來就像是目標(biāo)說話人的聲音。語音轉(zhuǎn)換的實(shí)現(xiàn)可以分為訓(xùn)練階段和轉(zhuǎn)換階段。在訓(xùn)練階段，系統(tǒng)對源說話人和目標(biāo)說話人進(jìn)行訓(xùn)練，分析他們的參數(shù)，建立轉(zhuǎn)換規(guī)則。在轉(zhuǎn)換階段，先對源語音進(jìn)行分析并提取語音特征，再根據(jù)由訓(xùn)練階段得到的語音轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換得到目標(biāo)語首特征。語音信號的特征分為音段信息和超音段信息兩類。音段特征描述的是語音的音色特征，主要包括聲道共振峰的位置、共振峰的帶寬、頻譜傾斜、基音頻率等。超音段特征描述的是語音的韻律特征及激勵源信息，特征參數(shù)主要包括音素的時(shí)長、能量、周期的變化輪廓以及譜包絡(luò)的變化等動態(tài)特征等。語音轉(zhuǎn)換的關(guān)鍵問題在于說話人個(gè)性特征的提取以及轉(zhuǎn)換規(guī)則的建立，經(jīng)過近二十年的發(fā)展，涌現(xiàn)出大量的研究成果。目前對語音特征參數(shù)的研究主要集中與語音信號的音段特征，而對語音信號激勵源超音段特征涉及的不多。當(dāng)前對語音信號激勵源估計(jì)的主要方法有基于線性預(yù)測編碼(Linear Prediction Coding, LPC)模型的殘差預(yù)測法。但是線性預(yù)測技術(shù)得到的殘差信號(Residual signal)作為激勵時(shí)，含有的目標(biāo)說話人個(gè)性較少，并且殘差信號中能量較低，造成轉(zhuǎn)換后語音質(zhì)量較差；(I、Suendermann D,Bonafonte A, Ney H, Hoege H, “A Study on Residual Prediction Techniques forVoice Conversion，，， proceedings of IEEE International Conference on Acoustics,Speech, and Signal Processing, vol.I, pp. 13—16，2005. 2、Percybrooks ff. S, MooreE, “Voice conversion with linear prediction residual estimation，，， proceedingsof IEEE Internationa丄 Conference on Acoustics, Speech and Signa丄 Processing,pp. 4673 - 4676，March 2008.)此外，現(xiàn)有的語音轉(zhuǎn)換系統(tǒng)中也有用通過求取基音頻率的平均值來計(jì)算基音頻率的壓擴(kuò)比，或者通過時(shí)長插入、剪切等方式人為地修改激勵源信號。但是由于語音信號激勵源超音段信號特征多于說話人當(dāng)時(shí)的狀態(tài)有關(guān)，受到說話人所處的環(huán)境的影響。因此，人為的修改激勵信號必然不能準(zhǔn)確描述語音的激勵源超音段信息，并且引入失真。(3、Xuejing Sun, “Voice quality conversion in TD-PSOLA speechsynthesis，，，proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.2, pp. II953 - 11956，2000. 4、Wang Yuan-yuan,Yang Shun, “Speech synthesis based on PSOLA algorithm and modified pitchparameters，，，International Conference on Computational Problem-Solving (ICCP),pp. 296 - 299, 2010.)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供ー種結(jié)合語音信號特點(diǎn)和說話人個(gè)性特征在平行文本下的語音轉(zhuǎn)換算法，重點(diǎn)研究語音信號在激勵源超音段信息的提取與預(yù)測，通過對激勵源信號的改善及轉(zhuǎn)換后語音的補(bǔ)償，增強(qiáng)合成語音中目標(biāo)說話人的個(gè)性并且提高轉(zhuǎn)換系統(tǒng)的性倉^:。為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用了如下技術(shù)方案
ー種基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，具體步驟如下第一歩，預(yù)處理與清濁音判斷，即分別對源語音和目標(biāo)語音進(jìn)行預(yù)加重、分幀和加窗處理，計(jì)算每一幀的短時(shí)能量和平均過零率，完成清濁音的判決；
第二步，諧波參數(shù)的提取，即利用諧波加噪聲模型(Harmonic plus Noise Model7HNM)模型分別對源語音和目標(biāo)語音的濁語音幀進(jìn)行分析，首先計(jì)算濁音幀信號的基音頻率，然后HNM模型將濁音幀分解為諧波信號和寬帶隨機(jī)信號，計(jì)算諧波個(gè)數(shù)，提取諧波信號的幅值、相位和各次諧波頻率，對于清音看作隨機(jī)噪聲保留不變；
第三步，聲道譜參數(shù)的計(jì)算，即分別對源語音與目標(biāo)語音的濁音信號提取出的各階諧波的幅值進(jìn)行變換，將幅值的平方作為離散功率的采樣值，經(jīng)快速傅立葉逆變換(InverseFast Fourier Transformation, IFFT)得到自相關(guān)系數(shù)，再經(jīng) Levinson-Durbin 算法進(jìn)行LPC分析,得到源語音與目標(biāo)語音的線性譜頻率(Linear Spectral Frequency,LSF)參數(shù)和相對應(yīng)的殘差信號；
第四步，建立聲道譜轉(zhuǎn)換規(guī)則，將源語音與目標(biāo)語音的LSF參數(shù)經(jīng)過動態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)后，送入高斯混合模型(Gaussian Mixture Model, GMM)進(jìn)行概率建模；
第五步特征參數(shù)的轉(zhuǎn)換，即先對待轉(zhuǎn)換語音經(jīng)HNM分析，按照上述第二步與第三步的方法，提取待轉(zhuǎn)換的LSF參數(shù)及殘差信號，將待轉(zhuǎn)換的LSF參數(shù)送入第四步建立的GMM轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換；
第六歩，殘差激勵的預(yù)測，即首先逐幀找出與轉(zhuǎn)換后的LSF參數(shù)最接近的目標(biāo)LSF參數(shù)，然后利用該目標(biāo)LSF參數(shù)對應(yīng)的殘差信號與該幀經(jīng)HNM分析后剰余的隨機(jī)信號線性疊カロ，作為殘差激勵信號；
第七步，語音合成與殘差補(bǔ)償，即首先由上述第五步和第六步得到的轉(zhuǎn)換后的LSF參數(shù)和殘差激勵信號，基于LPC合成模型得到轉(zhuǎn)換出的每幀語音信號，然后將轉(zhuǎn)換出的每幀語音信號再次疊加上對應(yīng)的適度目標(biāo)殘差信號，經(jīng)重疊相加后最終得到合成出的語音。本發(fā)明與現(xiàn)有技術(shù)相比，其顯著優(yōu)點(diǎn)(I)建立激勵信號時(shí)，在經(jīng)HNM分析提取出的濁音幀諧波信號的殘差信號的基礎(chǔ)上，線性疊加上適度的該HNM分析同時(shí)產(chǎn)生的剰余信號(寬帶隨機(jī)信號)作為預(yù)測的激勵源信號，這樣能有效的增強(qiáng)激勵源中含有的說話人超音段特征，同時(shí)避免傳統(tǒng)方法人為修改激勵信號引入的失真；(2)合成階段，在合成出的語音中再次逐幀疊加上適度的HNM分析出的目標(biāo)濁音幀諧波信號的殘差，使得轉(zhuǎn)換出的語音更具有目標(biāo)說話人個(gè)性，改善語音質(zhì)量。下面結(jié)合附圖對本發(fā)明作進(jìn)ー步詳細(xì)描述。

圖I是本發(fā)明基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法示意圖；圖2是特征參數(shù)的提取與轉(zhuǎn)換規(guī)則建立的示意圖3是特征參數(shù)的轉(zhuǎn)換與基于HNM模型的殘差激勵信號預(yù)測的示意圖4是第幀濁語音參數(shù)轉(zhuǎn)換及語音合成的示意圖。
具體實(shí)施例方式結(jié)合圖1，基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，步驟如下第一歩，在訓(xùn)練階段先進(jìn)行預(yù)處理與清濁音判斷，即分別對源語音和目標(biāo)語音進(jìn)行預(yù)
加重、分幀和加窗處理，計(jì)算每一幀的短時(shí)能量和平均過零率，完成清濁音的判決，具體過程如下
(1)對源語音和目標(biāo)語音信號分別進(jìn)行預(yù)處理，預(yù)加重系數(shù)為O.96，按幀長20ms分幀，無重疊，之后使用漢明窗進(jìn)行加窗處理；
(2)逐幀計(jì)算短時(shí)能量
權(quán)利要求
1.基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于包含以下步驟第一步，預(yù)處理與清濁音判斷，即分別對源語音和目標(biāo)語音進(jìn)行預(yù)加重、分幀和加窗處理，計(jì)算每一幀的短時(shí)能量和平均過零率，完成清濁音的判決；第二步，諧波參數(shù)的提取，即利用HNM模型分別對源語音和目標(biāo)語音的濁語音幀進(jìn)行分析，首先計(jì)算濁音幀信號的基音頻率，然后HNM模型將濁音幀分解為諧波信號和寬帶隨機(jī)信號，計(jì)算諧波個(gè)數(shù)，提取諧波信號的幅值、相位和各次諧波頻率，對于清音看作隨機(jī)噪聲保留不變；第三步，聲道譜參數(shù)的計(jì)算，即分別對源語音與目標(biāo)語音的濁音信號提取出的各階諧波的幅值進(jìn)行變換，將幅值的平方作為離散功率的采樣值，經(jīng)IFFT變換得到自相關(guān)系數(shù)，再經(jīng)Levinson-Durbin算法進(jìn)行LPC分析，得到源語音與目標(biāo)語音的LSF參數(shù)和相對應(yīng)的殘差號；第四步，建立聲道譜轉(zhuǎn)換規(guī)則，將源語音與目標(biāo)語音的LSF參數(shù)經(jīng)過DTW規(guī)整后，送入GMM模型進(jìn)行概率建模；第五步，特征參數(shù)的轉(zhuǎn)換，即先對待轉(zhuǎn)換語音經(jīng)HNM分析，按照上述第二步與第三步的方法，提取待轉(zhuǎn)換的LSF參數(shù)及殘差信號，將待轉(zhuǎn)換的LSF參數(shù)送入第四步建立的GMM轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換；第六步，殘差激勵的預(yù)測，即首先逐幀找出與轉(zhuǎn)換后的LSF參數(shù)最接近的目標(biāo)LSF參數(shù)，然后利用該目標(biāo)LSF參數(shù)對應(yīng)的殘差信號與該幀經(jīng)HNM分析后剩余的隨機(jī)信號線性疊力口，作為殘差激勵信號；第七步，語音合成與殘差補(bǔ)償，即首先由上述第五步和第六步得到的轉(zhuǎn)換后的LSF參數(shù)和殘差激勵信號，基于LPC合成模型得到轉(zhuǎn)換出的每幀語音信號，然后將轉(zhuǎn)換出的每幀語音信號再次疊加上對應(yīng)的適度目標(biāo)殘差信號，經(jīng)重疊相加后最終得到合成出的語音。
2.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于預(yù)處理與清濁音判斷的具體過程如下第一步，對源語音和目標(biāo)語音信號分別進(jìn)行預(yù)處理，預(yù)加重系數(shù)為0. 96，按幀長20ms分幀，無重疊，之后使用漢明窗進(jìn)行加窗處理；第二步，逐幀計(jì)算短時(shí)能量4 = H <(〃)和m=0 短時(shí)過零率4 = |l]|sgn[_r,0)]-sgn[x;0-l)]|，其中Xi (m)是經(jīng)加窗后的第i幀語音信 I m=0號，并且?guī)L為N，采用雙門限法進(jìn)行清濁音的判決。
3.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于諧波參數(shù)的提取過程如下第一步，用歸一化互相關(guān)法分別計(jì)算源語音和目標(biāo)語音當(dāng)前幀的基音頻率fo ; 第二步，分別對源語音和目標(biāo)語音進(jìn)行分析，若當(dāng)前幀為濁音幀S (n)，其中I < n < N，N為幀長，將其分解為諧波成分Sh(n)及隨機(jī)成分e (n)，首先，確定最高諧波個(gè)數(shù)Z ，其中fs為采樣頻率，目標(biāo)函數(shù)為
4.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于聲道譜參數(shù)的逐幀計(jì)算過程如下第一步，計(jì)算L個(gè)離散幅度值A(chǔ)1的平方值，認(rèn)為是離散功率譜的采樣值P ( J，其中《:為第I次諧波角頻率，W1 = 2 If0; 第二步,將p O1)進(jìn)行IFFT變換得到自相關(guān)系數(shù)R(n),經(jīng)Levinson-Durbin算法求得P階LPC系數(shù){a」，j = 1,2,…，P}，并進(jìn)一步轉(zhuǎn)換為LSF參數(shù)；第三步，由LPC系數(shù)構(gòu)造線性預(yù)測逆濾波器，其Z變換表達(dá)式為
5.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于建立聲道譜轉(zhuǎn)換規(guī)則的具體過程如下第一步，將源語音信號與目標(biāo)語音濁音幀諧波提取出的LSF參數(shù)，經(jīng)過DTW時(shí)間對齊，并且記錄下DTW返回的對齊LSF的下標(biāo)；第二步，根據(jù)DTW返回的對齊LSF的下標(biāo)，將源語音與目標(biāo)語音濁音幀的諧波的殘差信號進(jìn)行對齊，同樣地源語音與目標(biāo)語音濁音幀經(jīng)HNM分析后剩余的隨機(jī)信號對齊；第三步，將對齊的源LSF參數(shù)與目標(biāo)LSF參數(shù)組成聯(lián)合參數(shù)送入GMM模型，建立聲道譜轉(zhuǎn)換函數(shù)。
6.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于特征參數(shù)的轉(zhuǎn)換的具體過程如下第一步，將待轉(zhuǎn)換語音信號進(jìn)行預(yù)處理、分幀，經(jīng)HNM分析提取諧波參數(shù)，計(jì)算聲道譜參數(shù)并轉(zhuǎn)換為LSF參數(shù)；第二步，將待轉(zhuǎn)換的每幀LSF參數(shù)利用建立好的GMM規(guī)則進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的LSF參數(shù)。
7.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于殘差激勵的預(yù)測過程如下第一步，對于轉(zhuǎn)換出的LSF參數(shù)逐幀找出與其最接近的目標(biāo)LSF參數(shù)，確定該目標(biāo)LSF參數(shù)對應(yīng)的殘差信號及HNM分析時(shí)剩余的隨機(jī)信號；第二步，將目標(biāo)殘差信號及HNM分析時(shí)剩余的隨機(jī)信號線性疊加，作為殘差激勵信號。
8.根據(jù)權(quán)利要求I所述的基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，其特征在于語音合成與殘差補(bǔ)償?shù)木唧w過程如下第一步，將得到的轉(zhuǎn)換后的LSF參數(shù)轉(zhuǎn)換為LPC系數(shù)，逐幀由LPC系數(shù)建立濾波器，再將預(yù)測出的殘差激勵信號通過該濾波器，得到轉(zhuǎn)換后的語音；第二步，將每幀轉(zhuǎn)換后的語音信號再次疊加上對應(yīng)的適度目標(biāo)殘差信號，各幀語音經(jīng)拼接后便可得到最終的合成語音。
全文摘要
本發(fā)明公開一種基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法，屬于語音信號處理領(lǐng)域，包含以下步驟預(yù)處理與清濁音判斷；諧波參數(shù)的提??；聲道譜參數(shù)的計(jì)算；建立聲道譜轉(zhuǎn)換規(guī)則；特征參數(shù)的轉(zhuǎn)換；殘差激勵的預(yù)測；語音合成與殘差補(bǔ)償。本發(fā)明在建立激勵信號時(shí)，在經(jīng)HNM分析提取出的濁音幀諧波信號的殘差信號的基礎(chǔ)上線性疊加上適度的HNM分析同時(shí)產(chǎn)生的剩余信號作為預(yù)測的激勵源信號，從而有效的增強(qiáng)激勵源中含有的說話人超音段特征，同時(shí)避免傳統(tǒng)方法人為修改激勵信號引入的失真；在合成階段，在合成出的語音中再次逐幀疊加上適度的HNM分析出的目標(biāo)濁音幀諧波信號的殘差，使轉(zhuǎn)換出的語音更具目標(biāo)說話人個(gè)性，改善語音質(zhì)量。
文檔編號G10L13/04GK102664003SQ20121012188
公開日2012年9月12日申請日期2012年4月24日優(yōu)先權(quán)日2012年4月24日
發(fā)明者吳麗芳, 張玲華, 解偉超申請人:南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：解偉超;張玲華;吳麗芳
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

殘差序列白噪聲檢驗(yàn)相關(guān)技術(shù)

諧波噪聲比相關(guān)技術(shù)

總諧波失真加噪聲相關(guān)技術(shù)

諧波噪聲相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于諧波加噪聲模型的殘差激勵信號合成及語音轉(zhuǎn)換方法