專利名稱:一種說話人聲音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信號(hào)處理技術(shù)領(lǐng)域,具體涉及在不改變語音信號(hào)中內(nèi)容信息的前提下,將一個(gè)說話人的語音信號(hào)通過轉(zhuǎn)換處理,改變?yōu)槟軌虮桓兄獮榱硪粋€(gè)說話人的語音信號(hào),特別是一種將語音信號(hào)中的說話人信息和內(nèi)容信息進(jìn)行分離的說話人聲音轉(zhuǎn)換方法。
背景技術(shù):
在如今的信息時(shí)代,人機(jī)交互一直是計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn),高效智能的人機(jī)交互環(huán)境已經(jīng)成為了當(dāng)前信息技術(shù)的應(yīng)用和發(fā)展的迫切需求。眾所周知,語音是人類交流的最重要、最便捷的途徑之一。語音交互將是人際交互中最為“友好”的?;谡Z音識(shí)別、語音合成及自然語言理解的人機(jī)語音對(duì)話技術(shù)是世界公認(rèn)的一個(gè)難度很大,極富挑戰(zhàn)性的高技術(shù)領(lǐng)域,但是其應(yīng)用前景十分光明。作為人機(jī)交互的核心技術(shù)之一,語音合成近年來在技術(shù)和應(yīng)用方面都取得了長足進(jìn)展。目前,基于大語料庫的合成系統(tǒng)合成的語音在音質(zhì)和自然度方面都取得了不錯(cuò)的效果,因此大家對(duì)語音合成系統(tǒng)提出了更多的需求——多樣化的語音合成,包括多個(gè)發(fā)音人、多種發(fā)音風(fēng)格、多種情感以及多語種等。而現(xiàn)有的語音合成系統(tǒng)大多是單一化的,一個(gè)合成系統(tǒng)一般只包括一到兩個(gè)說話人,采用朗讀或者新聞播報(bào)風(fēng)格,而且針對(duì)某個(gè)特定的語種。這種單一化的合成語音大大限制了語音合成系統(tǒng)的在實(shí)際中的應(yīng)用,包括教育、娛樂和玩具等。為此,多樣化語音合成方面的研究逐漸成為近期語音合成研究領(lǐng)域的主流方向之一。實(shí)現(xiàn)一個(gè)多說話人、多種發(fā)音風(fēng)格、多種情感的語音合成系統(tǒng),最直接的方法就是錄制多個(gè)人、多種風(fēng)格的音庫,并分別構(gòu)建各個(gè)發(fā)音人、各個(gè)風(fēng)格的個(gè)性化語音合成系統(tǒng)。由于針對(duì)每個(gè)發(fā)音人、每種風(fēng)格、每種情感制作一個(gè)特定的語音庫的工作量過大,因此這種方法在實(shí)際中并不可行。在這一背景下,說話人聲音轉(zhuǎn)換技術(shù)被提出。說話人聲音轉(zhuǎn)換技術(shù)就是試圖把一個(gè)人(源說話人)說的話(的語音)進(jìn)行轉(zhuǎn)換(對(duì)基頻、時(shí)長、譜參數(shù)等包含說話人特征信息的參數(shù)進(jìn)行調(diào)整),使它聽起來好像另一個(gè)人(目標(biāo)說話人)說出來的一樣。與此同時(shí),保持源說話人表達(dá)的意思不變。說話人聲音轉(zhuǎn)換技術(shù)通過錄制少量的說話人的語音信號(hào)進(jìn)行訓(xùn)練,調(diào)整源說話人的語音得到目標(biāo)說話人的合成語音,從而快速實(shí)現(xiàn)個(gè)性化語音合成系統(tǒng)。實(shí)現(xiàn)一個(gè)說話人聲音轉(zhuǎn)換系統(tǒng),最主要的挑戰(zhàn)在于轉(zhuǎn)換語音的相似度和音質(zhì)。作為當(dāng)前的一種主流的說話人聲音轉(zhuǎn)換方法——基于聯(lián)合空間高斯混合模型的說話人聲音轉(zhuǎn)換方法,由于使用了統(tǒng)計(jì)建模的框架,相對(duì)來說具有很好的魯棒性和推廣性,但是該方法只是一個(gè)典型的機(jī)器學(xué)習(xí)中的特征映射的方法,并沒有利用語音信號(hào)特有的一些特性(說話人信息和內(nèi)容信息共存),而且統(tǒng)計(jì)建模帶來了諸多問題,如對(duì)數(shù)據(jù)量的依賴,建模精度不夠,統(tǒng)計(jì)模型對(duì)聲學(xué)參數(shù)原有的信息的破壞,均導(dǎo)致轉(zhuǎn)換語音的效果急劇下降。而另一種主流的語音合成技術(shù),基于共振峰的頻譜彎折方法,則利用到了語音信號(hào)中的說話人共振峰結(jié)構(gòu)這一主要反映說話人信息的特征,在轉(zhuǎn)換時(shí)盡可能的保留語音信號(hào)中的細(xì)節(jié)成分,保證了轉(zhuǎn)換語音的音質(zhì),但是由于共振峰的提取和建模很難,就使得這一類方法需要很多人工的干預(yù),而且魯棒性較差。總的來說,傳統(tǒng)的說話人語音轉(zhuǎn)換方法,由于其對(duì)語音信號(hào)中特定說話人的聲音信息缺乏有效表達(dá)及有效建模,對(duì)建模數(shù)據(jù)要求高,所構(gòu)建的轉(zhuǎn)換方法往往包含了對(duì)語音信號(hào)內(nèi)容的轉(zhuǎn)換,因此轉(zhuǎn)換后的語音音質(zhì)和相似度目前不能達(dá)到令人滿意的程度。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的說話人語音轉(zhuǎn)換方法的語音音質(zhì)較差和相似度不高的問題。( 二 )技術(shù)方案本發(fā)明提出一種說話人聲音轉(zhuǎn)換方法,用于把源說話人所說的話的語音信號(hào)進(jìn)行轉(zhuǎn)換,使轉(zhuǎn)換后的語音聽起來是不同于源說話人的目標(biāo)說話人所說的,其特征在于,該方法包括訓(xùn)練階段和轉(zhuǎn)換階段,其中,所述訓(xùn)練階段包括步驟Al、從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征和頻譜特征,所述頻譜特征包括說話人特征和內(nèi)容特征;步驟A2、根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征,構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù);步驟A3、根據(jù)步驟Al提取的源說話人和目標(biāo)說話人的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù);所述轉(zhuǎn)換階段包括步驟BI、從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征,所述頻譜特征包括說話人特征和內(nèi)容特征;步驟B2、分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù),對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的基頻特征和說話人特征;步驟B3、根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征,以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征,合成目標(biāo)說話人的語音。根據(jù)本發(fā)明的一種具體實(shí)施方式
,所述步驟Al和步驟BI的提取語音信號(hào)的基頻特征和頻譜特征的方法包括步驟al、基于語音信號(hào)的源-濾波器結(jié)構(gòu),將語音信號(hào)以20 30ms進(jìn)行分段,每一段作為一幀,并對(duì)每一幀的語音信號(hào)提取基頻和頻譜參數(shù);步驟a2、使用一個(gè)神經(jīng)網(wǎng)絡(luò)來分離所述頻譜參數(shù)中的說話人特征和內(nèi)容特征,該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu),包括最下層為輸入層,從該層輸入待分離的聲學(xué)特征;最上層為輸出層,該層輸出重構(gòu)出的聲學(xué)特征;中間2K-3個(gè)隱層,每層若干個(gè)節(jié)點(diǎn),模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò),用于從輸入的語音聲學(xué)特征中提取出高層的信息;從下至上的第K個(gè)隱層為編碼層;編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分,一部分與說話人相關(guān),另一部分與內(nèi)容相關(guān),它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征;從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò),用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。根據(jù)本發(fā)明的一種具體實(shí)施方式
,步驟a2包括在一語音信號(hào)數(shù)據(jù)庫上對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以使其具備從聲學(xué)特征中提取和分離說話人特征和內(nèi)容特征的能力,所述對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的步驟包括步驟bl、通過預(yù)訓(xùn)練來初始化所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值;步驟b2、對(duì)所述神經(jīng)網(wǎng)絡(luò)的編碼層的每個(gè)節(jié)點(diǎn)的輸出特征,采用一個(gè)區(qū)分性準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性,將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn),其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn);步驟b3、設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來精細(xì)調(diào)整該神經(jīng)網(wǎng)絡(luò)的權(quán)值,使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。根據(jù)本發(fā)明的一種具體實(shí)施方式
,所述的語音信號(hào)數(shù)據(jù)庫是通過下列步驟制作的步驟Cl、建立一個(gè)語料庫,使該語料庫中包括多個(gè)句子;步驟c2、錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào),構(gòu)建語音信號(hào)數(shù)據(jù)庫,并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理,以去除語音信號(hào)中的不正常部分;步驟c3、使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分,切分后的每一段作為一個(gè)幀,由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息;步驟c4、對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合,構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。(三)有益效果本發(fā)明的說話人聲音轉(zhuǎn)換方法具有以下優(yōu)點(diǎn)I、本發(fā)明首次提出了使用深層神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)語音信號(hào)中說話人信息和內(nèi)容信息的分離,以滿足不同語音信號(hào)處理任務(wù)的需求,如語音識(shí)別、說話人識(shí)別與轉(zhuǎn)換。2、本發(fā)明在進(jìn)行說話人聲音轉(zhuǎn)換時(shí),僅考慮說話人的因素,排除了內(nèi)容因素的干擾,使得說話人聲音轉(zhuǎn)換更易于實(shí)現(xiàn),轉(zhuǎn)換后的音質(zhì)和相似度得以大幅度提高。3、本發(fā)明采用的分離器只需要訓(xùn)練一次,訓(xùn)練好后能夠?qū)θ我庹f話人語音提取說話人特征和內(nèi)容特征,一次訓(xùn)練多次使用,無需重復(fù)訓(xùn)練模型。
圖1是本發(fā)明的的說話人聲音轉(zhuǎn)換方法的流程圖;圖2是本發(fā)明的特征提取步驟的框圖;圖3是本發(fā)明的用于特征分離的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;圖4是本發(fā)明的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖;圖5是本發(fā)明中數(shù)據(jù)庫制作的流程圖;圖6是本發(fā)明中倒譜特征在不同說話人和不同內(nèi)容之間的區(qū)分性的示意圖;圖7是本發(fā)明中提取出的說話人特征和內(nèi)容特征在不同說話人和不同內(nèi)容之間的區(qū)分性的示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。從生理學(xué)的角度來講,已有學(xué)者的工作證實(shí),人腦在感知語音信號(hào)時(shí),對(duì)說話人信息的感知和對(duì)說話內(nèi)容的感知分別是在大腦皮層的不同區(qū)域完成的。這說明人腦在高層對(duì)說話人和內(nèi)容信息做了分解,語音信號(hào)中的信息是可分離的,說話人信息和內(nèi)容信息的分離對(duì)語音信號(hào)處理的意義很重大,分離出來的信息可分別用于說話人識(shí)別,語音識(shí)別以及其他的一些針對(duì)性的應(yīng)用。本發(fā)明從說話人聲音轉(zhuǎn)換的本質(zhì)出發(fā),即保持說話人所說的話的內(nèi)容不變,而僅改變說該句話的說話人的信息?;谶@一考慮,對(duì)語音信號(hào)中的信息進(jìn)行分離,得到說話人特征和內(nèi)容特征,以便對(duì)說話人的成分進(jìn)行操作。本發(fā)明中所說的“說話人特征”指的是反應(yīng)說話人特性、區(qū)別不同說話人的特征,“內(nèi)容特征”指的是反應(yīng)語音信號(hào)所要表達(dá)的意思的的特征。對(duì)此,本發(fā)明使用一種基于深層神經(jīng)網(wǎng)絡(luò)的技術(shù),在高層將語音信號(hào)的聲學(xué)特征分解為說話人特征和內(nèi)容特征,以而使說話人聲音轉(zhuǎn)換得以更完美和簡單的實(shí)現(xiàn),達(dá)到音質(zhì)和相似度大幅提升的轉(zhuǎn)換語音信號(hào)。圖1是本發(fā)明的的說話人聲音轉(zhuǎn)換方法的流程圖。如圖所示,本發(fā)明的方法總體上包含兩個(gè)階段訓(xùn)練階段和轉(zhuǎn)換階段。下面依次介紹(一 )訓(xùn)練階段訓(xùn)練階段主要包括三個(gè)步驟步驟Al:特征提取。該步驟從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取特征,所述特征包括基頻特征和頻譜特征,頻譜特征在本發(fā)明中分為說話人特征和內(nèi)容特征。步驟A2 :基頻轉(zhuǎn)換函數(shù)訓(xùn)練。該步驟根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征,構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。根據(jù)一種具體實(shí)施方式
,該步驟統(tǒng)計(jì)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征在對(duì)數(shù)域分布的均值和方差,根據(jù)所統(tǒng)計(jì)的均值和方差構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。由于每個(gè)說話人的基頻特征參數(shù)在對(duì)數(shù)域呈高斯分布,因此對(duì)于基頻轉(zhuǎn)換,本發(fā)明中優(yōu)選為僅使用對(duì)數(shù)域的簡單線性變換進(jìn)行。步驟A3 :頻譜轉(zhuǎn)換函數(shù)訓(xùn)練。該步驟根據(jù)從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中提取的頻譜特征中的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)。前述說話人轉(zhuǎn)換的要求保持說話內(nèi)容不變而只改變說話人信息。因此,本發(fā)明只需要訓(xùn)練說話人特征的轉(zhuǎn)換函數(shù)(說話人轉(zhuǎn)換函數(shù))即可。由于在錄制源說話人和目標(biāo)說話人的語音信號(hào)時(shí),無法做到不同說話人進(jìn)行同一句話的錄音時(shí)保持完全相同的時(shí)長,因此需要一些規(guī)整手段來將不同時(shí)長的句子規(guī)整到相同的時(shí)長以便進(jìn)行有監(jiān)督的特征轉(zhuǎn)換學(xué)習(xí)(特征對(duì)齊),本發(fā)明采用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping)算法來進(jìn)行時(shí)長規(guī)整,說話人特征轉(zhuǎn)換的建??梢允褂镁€性回歸模型或者聯(lián)合空間高斯混合模型等方法來實(shí)現(xiàn)。( 二)轉(zhuǎn)換階段轉(zhuǎn)換階段包括三個(gè)步驟步驟B1:特征提取。與訓(xùn)練階段相仿,該步驟從源說話人的待轉(zhuǎn)換語音信號(hào)中提取特征,所述特征包括基頻特征和頻譜特征,頻譜特征分為說話人特征和內(nèi)容特征。步驟B2:特征轉(zhuǎn)換。分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù),對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的基頻特征和說話人特征。對(duì)于基頻轉(zhuǎn)換,具體的,訓(xùn)練階段在訓(xùn)練集上統(tǒng)計(jì)出源、目標(biāo)說話人語音信號(hào)的基頻在對(duì)數(shù)域的均值μ x、Uy和方差基頻轉(zhuǎn)換時(shí)轉(zhuǎn)換函數(shù)形如下式所示log ./f ^ μυ + — (log /ξ — μχ)而對(duì)于說話人特征的轉(zhuǎn)換,假設(shè)有源和目標(biāo)說話人對(duì)應(yīng)時(shí)間對(duì)齊的說話人特征X={χι,χ2,...χτ}和Y= {yi,y2,...yT}作為訓(xùn)練數(shù)據(jù)。本發(fā)明采用兩種方案。一種方案是使用線性回歸模型F(Xt) =Axt+b作為頻譜轉(zhuǎn)換函數(shù),其中的參數(shù)可有下式計(jì)算得到[A, b] =YXt (XXt)另外一種方案,基于聯(lián)合空間高斯混合模型的方法,需要使用聯(lián)合特征Z = [Χτ,Υτ]τ來訓(xùn)練一個(gè)高斯混合模型,他以如下形式來描述聯(lián)合特征空間的分布Ρ(ζ) = Σ mwmN(z ; μ m, Σ m),其中
*ι(χ) IΓ V(B) ν(χ以)"
「ΩΩ /1- μ,ιη V - m m
LJ— (u)ip(卯)
_ Sj^rti 」L z^rti_從中,導(dǎo)出轉(zhuǎn)換函數(shù)F(Xt) = Yjm hm(xt){^ + Σ^Σ Γ)—1㈨—μ\η])\
「…一 m / 、 WmM式中—— 一;一一▽(; :)、為后驗(yàn)概率。
〉jj WjJv (Xf^ Hj , I Sm )步驟B3:語音合成。該步驟根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征,以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征,合成目標(biāo)說話人的語音。本發(fā)明使用基于源-濾波器結(jié)構(gòu)的合成器,需要輸入激勵(lì)(即基頻)和聲道響應(yīng)(頻譜參數(shù))來生成待轉(zhuǎn)換的語音。因此首先需要從轉(zhuǎn)換的說話人特征和待轉(zhuǎn)換的說話人語音信號(hào)的內(nèi)容特征中重建出轉(zhuǎn)換的說話人頻譜參數(shù)(頻譜參數(shù)重建過程見下文所述),進(jìn)而通過合成器來生成轉(zhuǎn)換的語音。本發(fā)明采用STRAIGHT分析合成器來進(jìn)行語音生成。(三)特征提取
以上對(duì)本發(fā)明的方法進(jìn)行了整體性的介紹,下面對(duì)于所述方法中采用的特征提取步驟進(jìn)行詳細(xì)的說明。如前所述,本發(fā)明所述特征提取包括基頻特征、說話人特征和內(nèi)容特征的提取。本發(fā)明中基頻特征提取采用傳統(tǒng)的基頻提取方法。說話人特征和內(nèi)容特征的特征提取方法是本發(fā)明核心所在。3.1基本步驟圖2是本發(fā)明的特征提取步驟的框圖。如圖2所示,特征提取步驟具體分為兩步驟步驟al:聲學(xué)特征提取。基于語音信號(hào)的源-濾波器結(jié)構(gòu),考慮到語音信號(hào)的短時(shí)平穩(wěn)性和長時(shí)非平穩(wěn)性,將語音信號(hào)以20-30ms進(jìn)行分段,每一段本發(fā)明稱作一幀。對(duì)每一幀語音信號(hào),使用現(xiàn)有的語音分析算法(如STRAIGHT等)從語音信號(hào)中提取基頻和頻譜參數(shù)(如線譜對(duì)、Mel倒譜等)。步驟a2 :說話人特征和內(nèi)容特征提取??紤]到說話人之間的差異主要體現(xiàn)在聲道結(jié)構(gòu)上,在聲學(xué)特征上,即主要反映在頻譜參數(shù)中。因此,本發(fā)明主要考慮從頻譜特征分離出說話人相關(guān)特征和內(nèi)容相關(guān)特征。另夕卜,本發(fā)明考慮到說話人特征是一種超音段長時(shí)的特征,為有效提取語音信號(hào)中的說話人相關(guān)特征,使其與內(nèi)容相關(guān)特征更好地分離,本發(fā)明將連續(xù)多幀的特征拼接成一個(gè)稱之為超音段特征輸入到特征分離器中。具體的特征分離方法如下3. 2特征分離算法本發(fā)明使用一個(gè)深層的神經(jīng)網(wǎng)絡(luò)來分離聲學(xué)頻譜參數(shù)中的說話人特征和內(nèi)容特征。圖3是本發(fā)明的用于特征分離的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。如圖3所示,該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu),包括最下層為輸入層,從該層輸入待分離的聲學(xué)特征;最上層為輸出層,該層輸出重構(gòu)出的聲學(xué)特征;中間2K-3個(gè)隱層,每層包括若干個(gè)節(jié)點(diǎn),模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò)(或稱編碼器),用于從輸入的語音聲學(xué)特征中提取出高層的信息,從下至上的第K個(gè)隱層為編碼層;編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分,一部分與說話人相關(guān),另一部分與內(nèi)容相關(guān),它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征。從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò)(或稱解碼器),它的功能與編碼網(wǎng)絡(luò)相反,用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。本發(fā)明采用的圖3所示的深層神經(jīng)網(wǎng)絡(luò)是對(duì)人的神經(jīng)系統(tǒng)處理語音信號(hào)的一個(gè)模擬,需要對(duì)其進(jìn)行訓(xùn)練,從而使其具有所需要的能夠從聲學(xué)特征中實(shí)現(xiàn)提取和分離說話人特征和內(nèi)容特征這一特定的能力。圖3所示深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是在本發(fā)明提出的數(shù)據(jù)庫制作方法所設(shè)計(jì)的語音信號(hào)數(shù)據(jù)庫上進(jìn)行,本發(fā)明提出的數(shù)據(jù)庫制作方法見本發(fā)明數(shù)據(jù)庫制作部分。圖4是本發(fā)明中神經(jīng)網(wǎng)絡(luò)訓(xùn)練的具體流程圖。訓(xùn)練過程分為三步驟步驟bl:預(yù)訓(xùn)練。由于深層神經(jīng)網(wǎng)絡(luò)的優(yōu)化比較困難,在訓(xùn)練之前需要通過預(yù)訓(xùn)練來初始化網(wǎng)絡(luò)權(quán)值。本發(fā)明采取一種無監(jiān)督的學(xué)習(xí)模式,使用貪婪算法來逐層訓(xùn)練網(wǎng)絡(luò),快速的得到模型的初始參數(shù)。在每一層的訓(xùn)練中,可以使用消除噪聲干擾的自動(dòng)編碼器(De-noisingauto-encoder)來初始化網(wǎng)絡(luò)權(quán)值,即在輸入特征上加上一定的噪聲掩蓋,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能夠更加魯棒,并且防止過訓(xùn)練。具體的,在輸入層,輸入特征服從高斯分布,則在輸入的各維上加入適量的高斯噪聲,并采用最小均方誤差準(zhǔn)則來訓(xùn)練。而在第一層以上各層,輸入特征服從二值分布,因此以一定的概率,將輸入特征的某些維置零,并使用最小交叉熵(cross-entropy)準(zhǔn)則來訓(xùn)練。經(jīng)過預(yù)訓(xùn)練得到一個(gè)K層疊加的自動(dòng)編碼器后,將其向上翻轉(zhuǎn),便得到了上下對(duì)稱的自動(dòng)編碼器結(jié)構(gòu)。步驟b2:編碼層調(diào)整。經(jīng)過預(yù)訓(xùn)練之后的神經(jīng)網(wǎng)絡(luò),已經(jīng)具備了一定的高層信息提取能力,在編碼層,某些節(jié)點(diǎn)能反映出較強(qiáng)的說話人區(qū)分能力,另外一些節(jié)點(diǎn)則能反映較強(qiáng)的內(nèi)容區(qū)分能力。這一步將使用一些客觀的準(zhǔn)則來將這些節(jié)點(diǎn)挑選出來,其輸出分別作為對(duì)應(yīng)的特征。這里可以使用一些區(qū)分性準(zhǔn)則,如Fisher' s ratio,來挑選。具體的,在所述語音信號(hào)數(shù)據(jù)庫的 訓(xùn)練集上,對(duì)編碼層的每個(gè)節(jié)點(diǎn)的輸出特征,均用該準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性,將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn),其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn)。步驟b3:精細(xì)調(diào)整。本發(fā)明需要從輸入的聲學(xué)頻譜參數(shù)中分離出說話人相關(guān)和內(nèi)容相關(guān)的特征,并能將其應(yīng)用到說話人聲音轉(zhuǎn)換中去。對(duì)此,要設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來訓(xùn)練該網(wǎng)絡(luò),使其具備本發(fā)明所期望的這種能力。要達(dá)到這種要求,需要在輸入訓(xùn)練樣本中引入對(duì)比競(jìng)爭的手段。在如圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)中,在輸入層,每次同時(shí)并行輸入兩個(gè)樣本X1和X2,他們分別在編碼輸出層生成說話人特征csl、Cs2和內(nèi)容特征Cc;1、Cc;2,然后通過解碼網(wǎng)絡(luò),重建出輸入的聲學(xué)特征釦和釦。因此,訓(xùn)練網(wǎng)絡(luò)的目標(biāo)函數(shù)中包含如下的三部分重建誤差一方面,由于說話人聲音轉(zhuǎn)換應(yīng)用的需要,要從高層特征中重建恢復(fù)出聲學(xué)頻譜參數(shù),解碼網(wǎng)絡(luò)需要具有很好的恢復(fù)重建的能力,該能力將會(huì)直接影響合成語音的質(zhì)量。因此,在訓(xùn)練目標(biāo)函數(shù)中需要對(duì)重建誤差加以限制。另一個(gè)方面,加入重建誤差的限制也是為了保證編碼輸出的說話人特征和內(nèi)容特征中信息的完整性。本發(fā)明中采用如下形式的誤差形式Lr = Σ 卜1—a^l說話人特征代價(jià)為了使說話人特征對(duì)說話人具有很強(qiáng)的區(qū)分性,而對(duì)內(nèi)容不具有區(qū)分性,可以設(shè)計(jì)這樣一種準(zhǔn)則,使相同說話人之間的說話人特征誤差盡量小,而不同說話人之間的誤差盡量大,這種準(zhǔn)則可以表示為下式Lsc= δ s*Es+(l_ δ s)*exp(_X sEs)其中,Es= Csl-Cs2I2, δ3是輸入的兩個(gè)樣本的說話人標(biāo)注,Ss = I表示兩個(gè)輸入它們來自同一個(gè)說話人,而Ss = O則表示來自不同的兩個(gè)說話人。內(nèi)容特征代價(jià)與說話人特征誤差類似,可以構(gòu)造內(nèi)容特征的區(qū)分性代價(jià)函數(shù)Lcc = δ c*Es+(l_ δ c)*exp(_A CEC)綜合上述三種代價(jià),可以得到最終用于的精細(xì)調(diào)整的目標(biāo)函數(shù)Lcc = CiLr+β Lsc+CLcc
α、β和ζ調(diào)整這三種代價(jià)比重的權(quán)值,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是調(diào)整網(wǎng)絡(luò)權(quán)值使得該目標(biāo)函數(shù)盡量小,訓(xùn)練時(shí)本發(fā)明使用誤差反向傳播算法,利用帶沖量的梯度下降算法來更新網(wǎng)絡(luò)權(quán)值。(四)說話人語音信號(hào)庫的制作本發(fā)明中所使用的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù)來進(jìn)行,需要包含很多的說話人,每個(gè)說話人也需要錄制充足內(nèi)容的語料。所要特別指出的是,神經(jīng)網(wǎng)絡(luò)所需要的大量訓(xùn)練數(shù)據(jù),并不是圖1中所示訓(xùn)練過程的源說話人或目標(biāo)說話人數(shù)據(jù)。實(shí)際應(yīng)用中,獲得圖1中所示訓(xùn)練過程的源說話人或目標(biāo)說話人的大量數(shù)據(jù)不切實(shí)際或要求過高,但獲得本處所述神經(jīng)網(wǎng)絡(luò)所需要的大量訓(xùn)練數(shù)據(jù)是可行的,符合實(shí)際要求。圖5是本發(fā)明中數(shù)據(jù)庫制作的流程圖。分為四個(gè)步驟步驟Cl :建立一個(gè)語料庫,使該語料庫中包括多個(gè)句子。 考慮到要設(shè)計(jì)一種魯棒的分離網(wǎng)絡(luò),需要其能處理所有的人以及所有的內(nèi)容,本發(fā)明中設(shè)計(jì)一個(gè)音素均衡的語料庫,而且句子數(shù)不能太多,通常在100句以內(nèi),以便采集大量的說話人數(shù)據(jù)。所謂音素均衡是指語料中包含所有的音素,而且各音素的數(shù)量相對(duì)均衡。步驟c2 :錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào),構(gòu)建語音信號(hào)數(shù)據(jù)庫,并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理,以去除語音信號(hào)中的不正常部分??紤]到要使網(wǎng)絡(luò)具有區(qū)分說話人的能力,需要錄制大量說話人的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。在錄音階段,由于成本等方面的原因,無法找到如此多的播音員來錄制音庫,只能采集業(yè)余人員的錄音,這就使得錄制的語音質(zhì)量參差不齊,因此,錄制完成后,需要對(duì)錄制的語音做一些預(yù)處理,如能量規(guī)整、信道均衡、噴麥現(xiàn)象的處理等等,保證訓(xùn)練語料的質(zhì)量。步驟c3 :使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分,切分后的每一段作為一個(gè)幀,由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息。從上文可知,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的精細(xì)調(diào)整階段,是有監(jiān)督的學(xué)習(xí)過程,需要知道輸入每幀訓(xùn)練數(shù)據(jù)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息。因此,需要對(duì)語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)做幀一級(jí)的標(biāo)注,即進(jìn)行音段的切分。具體的,可以采用一個(gè)現(xiàn)有的用作語音合成的上下文相關(guān)的隱馬爾可夫模型來實(shí)現(xiàn)音段切分。在切分之前,先用每個(gè)說話人的錄音數(shù)據(jù)使用最大似然線性回歸算法將該模型自適應(yīng)到該說話人的聲學(xué)空間,再使用自適應(yīng)得到的模型對(duì)該說話人的錄音數(shù)據(jù)利用維特比算法進(jìn)行解碼,得到模型各狀態(tài)的邊界信息。步驟c4 :對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合,構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。根據(jù)上文描述,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)有四類相同說話人相同內(nèi)容、相同說話人不同內(nèi)容、不同說話人相同內(nèi)容和不同說話人不同內(nèi)容。由于有很多的說話人特征和內(nèi)容特征屬性,在訓(xùn)練階段,本發(fā)明在訓(xùn)練數(shù)據(jù)中隨機(jī)挑選組合,輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。(五)具體實(shí)施例根據(jù)上文所述方法,作為本發(fā)明實(shí)施方式舉例,本發(fā)明搭建了一個(gè)說話人聲音轉(zhuǎn)換系統(tǒng)。首先,本發(fā)明設(shè)計(jì)了包含100句話的音素平衡的語料,募集了 81個(gè)說話人(其中包含40個(gè)男性和41個(gè)女性說話人)來錄音,經(jīng)過處理后形成最終的訓(xùn)練語料庫。錄音的語音文件是單聲道、16kHz采樣率的。在這81個(gè)說話人的數(shù)據(jù)中,我們隨機(jī)挑選60人(30個(gè)男性、30個(gè)女性)的數(shù)據(jù)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,另外10人(5個(gè)男性和5個(gè)女性)的數(shù)據(jù)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)訓(xùn)練的驗(yàn)證集,余下的11人的數(shù)據(jù)作為測(cè)試集,測(cè)試說話人聲音轉(zhuǎn)換的效果。在提取聲學(xué)特征時(shí),我們采用25ms的漢明窗對(duì)波形信號(hào)進(jìn)行分幀處理,并以5ms的幀移來移動(dòng)短時(shí)窗,每幀提取一個(gè)基頻和一組24維的Mel倒譜參數(shù)作為聲學(xué)特征。在訓(xùn)練用于特征分離的神經(jīng)網(wǎng)絡(luò)階段,網(wǎng)絡(luò)的輸入向量為當(dāng)前幀與其前后各5幀共11幀拼成的超音段特征,共264維,由于輸出只需要重建出輸入的當(dāng)前幀,因此,輸出層為24維。另外,網(wǎng)絡(luò)包含7個(gè)隱層,其中節(jié)點(diǎn)數(shù)分別為500、400、300、200、300、400、500,在中間的那一層,我們使前100個(gè)節(jié)點(diǎn)的輸出為說話人特征,剩下的100個(gè)節(jié)點(diǎn)的輸出為內(nèi)容特征。在預(yù)訓(xùn)練階段,我們采用4個(gè)層疊的自動(dòng)編碼器的形式來初始化網(wǎng)絡(luò)權(quán)值,節(jié)點(diǎn)數(shù)分別為264-500、500-400、400-300和300-200,自底向上,每一個(gè)自動(dòng)編碼器的輸出作為下一個(gè)自動(dòng)編碼器的輸入,通過無監(jiān)督學(xué)習(xí)的形式初始化網(wǎng)絡(luò)權(quán)值,最后將網(wǎng)絡(luò)權(quán)值翻轉(zhuǎn),得到整個(gè)網(wǎng)絡(luò)的初始化權(quán)值,需要注意的是,第一層翻轉(zhuǎn)到整個(gè)網(wǎng)絡(luò)的最上面一層的時(shí)候,由于輸出只有24維,只需要將輸入層當(dāng)前幀對(duì)應(yīng)的權(quán)值翻轉(zhuǎn)上去即可。另外,在中間層翻轉(zhuǎn)之前,需要計(jì)算每個(gè)節(jié)點(diǎn)輸出在不同說話人之間和不同內(nèi)容之間的區(qū)分性(上文中提到的Fisher’s ratio),并以此來對(duì)節(jié)點(diǎn)和網(wǎng)絡(luò)權(quán)值進(jìn)行重排。預(yù)訓(xùn)練之后,按照上文所述的方法進(jìn)行精細(xì)調(diào)整,在這個(gè)過程中,需要在驗(yàn)證集上對(duì)目標(biāo)函數(shù)的權(quán)值進(jìn)行調(diào)整,得到最優(yōu)值。訓(xùn)練好特征分離器之后,便可以進(jìn)行搭建說話人聲音轉(zhuǎn)換系統(tǒng)了,我們?cè)跍y(cè)試集上任意挑選兩個(gè)說話人來,選擇其中50句話作為訓(xùn)練數(shù)據(jù),按上文提取需要的特征,訓(xùn)練基頻、說話人特征的轉(zhuǎn)換函數(shù)(本實(shí)施方式舉例中使用直接的線性回歸模型),剩下的50句話作為測(cè)試數(shù)據(jù)來驗(yàn)證說話人聲音轉(zhuǎn)換的效果。我們使用Fisher’ s ratio來度量提取出的不同特征在不同說話人之間和不同內(nèi)容之間的區(qū)分性。Fisher’s ratio度量的是特征類內(nèi)距離和類間距離的比值,該比值越大,說明特征在此種分類方法下更加具有區(qū)分性。圖6和圖7分別是Mel倒譜系數(shù)和分離出的特征在不同說話人(實(shí)線)和不同內(nèi)容(虛線)之間的區(qū)分性。可見,輸入的聲學(xué)特征中,除了低維在內(nèi)容上顯示較強(qiáng)的區(qū)分性外,其余維并沒有很強(qiáng)的區(qū)分性。而提取出的特征(前100維為說話人特征,剩下100維為內(nèi)容特征)經(jīng)過訓(xùn)練,對(duì)不同的分類體現(xiàn)出所期望的區(qū)分性。而在說話人轉(zhuǎn)換實(shí)驗(yàn)上,直接用目標(biāo)說話人的說話人特征加上源說話人的內(nèi)容特征合成出的語音,倒譜誤差為4. 39dB,而用線性變換過的源說話人的說話人特征和其內(nèi)容特征合成的語音倒譜誤差為5. 64dB,從主觀聽感上已經(jīng)逼近目標(biāo)說話人的語音。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種說話人聲音轉(zhuǎn)換方法,用于把源說話人所說的話的語音信號(hào)進(jìn)行轉(zhuǎn)換,使轉(zhuǎn)換后的語音聽起來是不同于源說話人的目標(biāo)說話人所說的,其特征在于,該方法包括訓(xùn)練階段和轉(zhuǎn)換階段,其中, 所述訓(xùn)練階段包括 步驟Al、從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征和頻譜特征,所述頻譜特征包括說話人特征和內(nèi)容特征; 步驟A2、根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征,構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù); 步驟A3、根據(jù)步驟Al提取的源說話人和目標(biāo)說話人的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù); 所述轉(zhuǎn)換階段包括 步驟BI、從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征,所述頻譜特征包括說話人特征和內(nèi)容特征; 步驟B2、分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù),對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的基頻特征和說話人特征; 步驟B3、根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征,以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征,合成目標(biāo)說話人的語音。
2.如權(quán)利要求I所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟A2統(tǒng)計(jì)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征在對(duì)數(shù)域分布的均值和方差,根據(jù)所統(tǒng)計(jì)的均值和方差構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。
3.如權(quán)利要求2所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述基頻轉(zhuǎn)換函數(shù)為線性變換函數(shù)。
4.如權(quán)利要求I所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟Al和步驟BI的提取語音信號(hào)的基頻特征和頻譜特征的方法包括 步驟al、基于語音信號(hào)的源-濾波器結(jié)構(gòu),將語音信號(hào)以20 30ms進(jìn)行分段,每一段作為一幀,并對(duì)每一幀的語音信號(hào)提取基頻和頻譜參數(shù); 步驟a2、使用一個(gè)神經(jīng)網(wǎng)絡(luò)來分離所述頻譜參數(shù)中的說話人特征和內(nèi)容特征,該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu),包括最下層為輸入層,從該層輸入待分離的聲學(xué)特征;最上層為輸出層,該層輸出重構(gòu)出的聲學(xué)特征;中間2K-3個(gè)隱層,每層若干個(gè)節(jié)點(diǎn),模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò),用于從輸入的語音聲學(xué)特征中提取出高層的信息;從下至上的第K個(gè)隱層為編碼層;編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分,一部分與說話人相關(guān),另一部分與內(nèi)容相關(guān),它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征;從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò),用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。
5.如權(quán)利要求4所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟a2包括在一語音信號(hào)數(shù)據(jù)庫上對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以使其具備從聲學(xué)特征中提取和分離說話人特征和內(nèi)容特征的能力。
6.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的步驟包括步驟bl、通過預(yù)訓(xùn)練來初始化所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值;步驟b2、對(duì)所述神經(jīng)網(wǎng)絡(luò)的編碼層的每個(gè)節(jié)點(diǎn)的輸出特征,采用一個(gè)區(qū)分性準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性,將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn),其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn);步驟b3、設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來精細(xì)調(diào)整該神經(jīng)網(wǎng)絡(luò)的權(quán)值,使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。
7.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟bl采取無監(jiān)督的學(xué)習(xí)模式,使用貪婪算法來逐層訓(xùn)練該神經(jīng)網(wǎng)絡(luò);
8.如權(quán)利要求7所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟bl包括在輸入層,輸入特征服從高斯分布,則在輸入的各維上加入適量的高斯噪聲,并采用最小均方誤差準(zhǔn)則來訓(xùn)練;在第一層以上各層,輸入特征服從二值分布,因此以一定的概率, 將輸入特征的某些維置零,并使用最小交叉熵準(zhǔn)則來訓(xùn)練;經(jīng)過預(yù)訓(xùn)練得到一個(gè)K層疊加的自動(dòng)編碼器后,將其向上翻轉(zhuǎn),便得到了上下對(duì)稱的自動(dòng)編碼器結(jié)構(gòu)。
9.如權(quán)利要求6所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟b2采用 Fisher' s ratio準(zhǔn)則作為區(qū)分性準(zhǔn)則。
10.如權(quán)利要求9所述的說話人聲音轉(zhuǎn)換方法,其特征在于,所述步驟b3包括設(shè)計(jì)具有對(duì)比競(jìng)爭機(jī)制的區(qū)分性目標(biāo)函數(shù),使用誤差后向傳播算法來精細(xì)調(diào)整所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值,使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。
11.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法,其特征在于,其中所述的語音信號(hào)數(shù)據(jù)庫是通過下列步驟制作的步驟Cl、建立一個(gè)語料庫,使該語料庫中包括多個(gè)句子;步驟c2、錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào),構(gòu)建語音信號(hào)數(shù)據(jù)庫, 并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理,以去除語音信號(hào)中的不正常部分;步驟c3、使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分,切分后的每一段作為一個(gè)幀,由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息;步驟c4、對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合,構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種說話人聲音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,訓(xùn)練階段包括從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征、說話人特征和內(nèi)容特征;根據(jù)所述基頻特征構(gòu)建基頻轉(zhuǎn)換函數(shù);根據(jù)所述說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)。轉(zhuǎn)換階段包括從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征;使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù)對(duì)從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的基頻特征和說話人特征;根據(jù)所得到的轉(zhuǎn)換后的基頻特征、說話人特征和待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征合成目標(biāo)說話人的語音。本發(fā)明易于實(shí)現(xiàn)且轉(zhuǎn)換后的音質(zhì)和相似度較高。
文檔編號(hào)G10L25/30GK102982809SQ201210528629
公開日2013年3月20日 申請(qǐng)日期2012年12月11日 優(yōu)先權(quán)日2012年12月11日
發(fā)明者陳凌輝, 戴禮榮, 凌震華 申請(qǐng)人:中國科學(xué)技術(shù)大學(xué)