一種說話人聲音轉(zhuǎn)換方法

文檔序號(hào)：2833691閱讀：1039來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種說話人聲音轉(zhuǎn)換方法
技術(shù)領(lǐng)域：
本發(fā)明屬于信號(hào)處理技術(shù)領(lǐng)域，具體涉及在不改變語音信號(hào)中內(nèi)容信息的前提下，將一個(gè)說話人的語音信號(hào)通過轉(zhuǎn)換處理，改變?yōu)槟軌虮桓兄獮榱硪粋€(gè)說話人的語音信號(hào)，特別是一種將語音信號(hào)中的說話人信息和內(nèi)容信息進(jìn)行分離的說話人聲音轉(zhuǎn)換方法。
背景技術(shù)：
在如今的信息時(shí)代，人機(jī)交互一直是計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)，高效智能的人機(jī)交互環(huán)境已經(jīng)成為了當(dāng)前信息技術(shù)的應(yīng)用和發(fā)展的迫切需求。眾所周知，語音是人類交流的最重要、最便捷的途徑之一。語音交互將是人際交互中最為“友好”的?；谡Z音識(shí)別、語音合成及自然語言理解的人機(jī)語音對(duì)話技術(shù)是世界公認(rèn)的一個(gè)難度很大，極富挑戰(zhàn)性的高技術(shù)領(lǐng)域，但是其應(yīng)用前景十分光明。作為人機(jī)交互的核心技術(shù)之一，語音合成近年來在技術(shù)和應(yīng)用方面都取得了長足進(jìn)展。目前，基于大語料庫的合成系統(tǒng)合成的語音在音質(zhì)和自然度方面都取得了不錯(cuò)的效果，因此大家對(duì)語音合成系統(tǒng)提出了更多的需求——多樣化的語音合成，包括多個(gè)發(fā)音人、多種發(fā)音風(fēng)格、多種情感以及多語種等。而現(xiàn)有的語音合成系統(tǒng)大多是單一化的，一個(gè)合成系統(tǒng)一般只包括一到兩個(gè)說話人，采用朗讀或者新聞播報(bào)風(fēng)格，而且針對(duì)某個(gè)特定的語種。這種單一化的合成語音大大限制了語音合成系統(tǒng)的在實(shí)際中的應(yīng)用，包括教育、娛樂和玩具等。為此，多樣化語音合成方面的研究逐漸成為近期語音合成研究領(lǐng)域的主流方向之一。實(shí)現(xiàn)一個(gè)多說話人、多種發(fā)音風(fēng)格、多種情感的語音合成系統(tǒng)，最直接的方法就是錄制多個(gè)人、多種風(fēng)格的音庫，并分別構(gòu)建各個(gè)發(fā)音人、各個(gè)風(fēng)格的個(gè)性化語音合成系統(tǒng)。由于針對(duì)每個(gè)發(fā)音人、每種風(fēng)格、每種情感制作一個(gè)特定的語音庫的工作量過大，因此這種方法在實(shí)際中并不可行。在這一背景下，說話人聲音轉(zhuǎn)換技術(shù)被提出。說話人聲音轉(zhuǎn)換技術(shù)就是試圖把一個(gè)人(源說話人)說的話(的語音)進(jìn)行轉(zhuǎn)換(對(duì)基頻、時(shí)長、譜參數(shù)等包含說話人特征信息的參數(shù)進(jìn)行調(diào)整)，使它聽起來好像另一個(gè)人(目標(biāo)說話人)說出來的一樣。與此同時(shí)，保持源說話人表達(dá)的意思不變。說話人聲音轉(zhuǎn)換技術(shù)通過錄制少量的說話人的語音信號(hào)進(jìn)行訓(xùn)練，調(diào)整源說話人的語音得到目標(biāo)說話人的合成語音，從而快速實(shí)現(xiàn)個(gè)性化語音合成系統(tǒng)。實(shí)現(xiàn)一個(gè)說話人聲音轉(zhuǎn)換系統(tǒng)，最主要的挑戰(zhàn)在于轉(zhuǎn)換語音的相似度和音質(zhì)。作為當(dāng)前的一種主流的說話人聲音轉(zhuǎn)換方法——基于聯(lián)合空間高斯混合模型的說話人聲音轉(zhuǎn)換方法，由于使用了統(tǒng)計(jì)建模的框架，相對(duì)來說具有很好的魯棒性和推廣性，但是該方法只是一個(gè)典型的機(jī)器學(xué)習(xí)中的特征映射的方法，并沒有利用語音信號(hào)特有的一些特性(說話人信息和內(nèi)容信息共存)，而且統(tǒng)計(jì)建模帶來了諸多問題，如對(duì)數(shù)據(jù)量的依賴，建模精度不夠，統(tǒng)計(jì)模型對(duì)聲學(xué)參數(shù)原有的信息的破壞，均導(dǎo)致轉(zhuǎn)換語音的效果急劇下降。而另一種主流的語音合成技術(shù)，基于共振峰的頻譜彎折方法，則利用到了語音信號(hào)中的說話人共振峰結(jié)構(gòu)這一主要反映說話人信息的特征，在轉(zhuǎn)換時(shí)盡可能的保留語音信號(hào)中的細(xì)節(jié)成分，保證了轉(zhuǎn)換語音的音質(zhì)，但是由于共振峰的提取和建模很難，就使得這一類方法需要很多人工的干預(yù)，而且魯棒性較差。總的來說，傳統(tǒng)的說話人語音轉(zhuǎn)換方法，由于其對(duì)語音信號(hào)中特定說話人的聲音信息缺乏有效表達(dá)及有效建模，對(duì)建模數(shù)據(jù)要求高，所構(gòu)建的轉(zhuǎn)換方法往往包含了對(duì)語音信號(hào)內(nèi)容的轉(zhuǎn)換，因此轉(zhuǎn)換后的語音音質(zhì)和相似度目前不能達(dá)到令人滿意的程度。

發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的說話人語音轉(zhuǎn)換方法的語音音質(zhì)較差和相似度不高的問題。( 二 )技術(shù)方案本發(fā)明提出一種說話人聲音轉(zhuǎn)換方法，用于把源說話人所說的話的語音信號(hào)進(jìn)行轉(zhuǎn)換，使轉(zhuǎn)換后的語音聽起來是不同于源說話人的目標(biāo)說話人所說的，其特征在于，該方法包括訓(xùn)練階段和轉(zhuǎn)換階段，其中，所述訓(xùn)練階段包括步驟Al、從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征和頻譜特征，所述頻譜特征包括說話人特征和內(nèi)容特征；步驟A2、根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征，構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)；步驟A3、根據(jù)步驟Al提取的源說話人和目標(biāo)說話人的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)；所述轉(zhuǎn)換階段包括步驟BI、從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征，所述頻譜特征包括說話人特征和內(nèi)容特征；步驟B2、分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù)，對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的基頻特征和說話人特征；步驟B3、根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征，以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征，合成目標(biāo)說話人的語音。根據(jù)本發(fā)明的一種具體實(shí)施方式
，所述步驟Al和步驟BI的提取語音信號(hào)的基頻特征和頻譜特征的方法包括步驟al、基于語音信號(hào)的源-濾波器結(jié)構(gòu)，將語音信號(hào)以20 30ms進(jìn)行分段，每一段作為一幀，并對(duì)每一幀的語音信號(hào)提取基頻和頻譜參數(shù)；步驟a2、使用一個(gè)神經(jīng)網(wǎng)絡(luò)來分離所述頻譜參數(shù)中的說話人特征和內(nèi)容特征，該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu)，包括最下層為輸入層，從該層輸入待分離的聲學(xué)特征；最上層為輸出層，該層輸出重構(gòu)出的聲學(xué)特征；中間2K-3個(gè)隱層，每層若干個(gè)節(jié)點(diǎn)，模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò)，用于從輸入的語音聲學(xué)特征中提取出高層的信息；從下至上的第K個(gè)隱層為編碼層；編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分，一部分與說話人相關(guān)，另一部分與內(nèi)容相關(guān)，它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征；從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò)，用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。根據(jù)本發(fā)明的一種具體實(shí)施方式
，步驟a2包括在一語音信號(hào)數(shù)據(jù)庫上對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以使其具備從聲學(xué)特征中提取和分離說話人特征和內(nèi)容特征的能力，所述對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的步驟包括步驟bl、通過預(yù)訓(xùn)練來初始化所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值；步驟b2、對(duì)所述神經(jīng)網(wǎng)絡(luò)的編碼層的每個(gè)節(jié)點(diǎn)的輸出特征，采用一個(gè)區(qū)分性準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性，將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn)，其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn)；步驟b3、設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來精細(xì)調(diào)整該神經(jīng)網(wǎng)絡(luò)的權(quán)值，使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。根據(jù)本發(fā)明的一種具體實(shí)施方式
，所述的語音信號(hào)數(shù)據(jù)庫是通過下列步驟制作的步驟Cl、建立一個(gè)語料庫，使該語料庫中包括多個(gè)句子；步驟c2、錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào)，構(gòu)建語音信號(hào)數(shù)據(jù)庫，并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理，以去除語音信號(hào)中的不正常部分；步驟c3、使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分，切分后的每一段作為一個(gè)幀，由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息；步驟c4、對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合，構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。(三)有益效果本發(fā)明的說話人聲音轉(zhuǎn)換方法具有以下優(yōu)點(diǎn)I、本發(fā)明首次提出了使用深層神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)語音信號(hào)中說話人信息和內(nèi)容信息的分離，以滿足不同語音信號(hào)處理任務(wù)的需求，如語音識(shí)別、說話人識(shí)別與轉(zhuǎn)換。2、本發(fā)明在進(jìn)行說話人聲音轉(zhuǎn)換時(shí)，僅考慮說話人的因素，排除了內(nèi)容因素的干擾，使得說話人聲音轉(zhuǎn)換更易于實(shí)現(xiàn)，轉(zhuǎn)換后的音質(zhì)和相似度得以大幅度提高。3、本發(fā)明采用的分離器只需要訓(xùn)練一次，訓(xùn)練好后能夠?qū)θ我庹f話人語音提取說話人特征和內(nèi)容特征，一次訓(xùn)練多次使用，無需重復(fù)訓(xùn)練模型。

圖1是本發(fā)明的的說話人聲音轉(zhuǎn)換方法的流程圖；圖2是本發(fā)明的特征提取步驟的框圖；圖3是本發(fā)明的用于特征分離的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖；圖4是本發(fā)明的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖；圖5是本發(fā)明中數(shù)據(jù)庫制作的流程圖；圖6是本發(fā)明中倒譜特征在不同說話人和不同內(nèi)容之間的區(qū)分性的示意圖；圖7是本發(fā)明中提取出的說話人特征和內(nèi)容特征在不同說話人和不同內(nèi)容之間的區(qū)分性的示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。從生理學(xué)的角度來講，已有學(xué)者的工作證實(shí)，人腦在感知語音信號(hào)時(shí)，對(duì)說話人信息的感知和對(duì)說話內(nèi)容的感知分別是在大腦皮層的不同區(qū)域完成的。這說明人腦在高層對(duì)說話人和內(nèi)容信息做了分解，語音信號(hào)中的信息是可分離的，說話人信息和內(nèi)容信息的分離對(duì)語音信號(hào)處理的意義很重大，分離出來的信息可分別用于說話人識(shí)別，語音識(shí)別以及其他的一些針對(duì)性的應(yīng)用。本發(fā)明從說話人聲音轉(zhuǎn)換的本質(zhì)出發(fā)，即保持說話人所說的話的內(nèi)容不變，而僅改變說該句話的說話人的信息?；谶@一考慮，對(duì)語音信號(hào)中的信息進(jìn)行分離，得到說話人特征和內(nèi)容特征，以便對(duì)說話人的成分進(jìn)行操作。本發(fā)明中所說的“說話人特征”指的是反應(yīng)說話人特性、區(qū)別不同說話人的特征，“內(nèi)容特征”指的是反應(yīng)語音信號(hào)所要表達(dá)的意思的的特征。對(duì)此，本發(fā)明使用一種基于深層神經(jīng)網(wǎng)絡(luò)的技術(shù)，在高層將語音信號(hào)的聲學(xué)特征分解為說話人特征和內(nèi)容特征，以而使說話人聲音轉(zhuǎn)換得以更完美和簡單的實(shí)現(xiàn)，達(dá)到音質(zhì)和相似度大幅提升的轉(zhuǎn)換語音信號(hào)。圖1是本發(fā)明的的說話人聲音轉(zhuǎn)換方法的流程圖。如圖所示，本發(fā)明的方法總體上包含兩個(gè)階段訓(xùn)練階段和轉(zhuǎn)換階段。下面依次介紹(一 )訓(xùn)練階段訓(xùn)練階段主要包括三個(gè)步驟步驟Al:特征提取。該步驟從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取特征，所述特征包括基頻特征和頻譜特征，頻譜特征在本發(fā)明中分為說話人特征和內(nèi)容特征。步驟A2 :基頻轉(zhuǎn)換函數(shù)訓(xùn)練。該步驟根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征，構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。根據(jù)一種具體實(shí)施方式
，該步驟統(tǒng)計(jì)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征在對(duì)數(shù)域分布的均值和方差，根據(jù)所統(tǒng)計(jì)的均值和方差構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。由于每個(gè)說話人的基頻特征參數(shù)在對(duì)數(shù)域呈高斯分布，因此對(duì)于基頻轉(zhuǎn)換，本發(fā)明中優(yōu)選為僅使用對(duì)數(shù)域的簡單線性變換進(jìn)行。步驟A3 :頻譜轉(zhuǎn)換函數(shù)訓(xùn)練。該步驟根據(jù)從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中提取的頻譜特征中的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)。前述說話人轉(zhuǎn)換的要求保持說話內(nèi)容不變而只改變說話人信息。因此，本發(fā)明只需要訓(xùn)練說話人特征的轉(zhuǎn)換函數(shù)(說話人轉(zhuǎn)換函數(shù))即可。由于在錄制源說話人和目標(biāo)說話人的語音信號(hào)時(shí)，無法做到不同說話人進(jìn)行同一句話的錄音時(shí)保持完全相同的時(shí)長，因此需要一些規(guī)整手段來將不同時(shí)長的句子規(guī)整到相同的時(shí)長以便進(jìn)行有監(jiān)督的特征轉(zhuǎn)換學(xué)習(xí)(特征對(duì)齊)，本發(fā)明采用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping)算法來進(jìn)行時(shí)長規(guī)整,說話人特征轉(zhuǎn)換的建?？梢允褂镁€性回歸模型或者聯(lián)合空間高斯混合模型等方法來實(shí)現(xiàn)。( 二)轉(zhuǎn)換階段轉(zhuǎn)換階段包括三個(gè)步驟步驟B1:特征提取。與訓(xùn)練階段相仿，該步驟從源說話人的待轉(zhuǎn)換語音信號(hào)中提取特征，所述特征包括基頻特征和頻譜特征，頻譜特征分為說話人特征和內(nèi)容特征。步驟B2:特征轉(zhuǎn)換。分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù)，對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的基頻特征和說話人特征。對(duì)于基頻轉(zhuǎn)換，具體的，訓(xùn)練階段在訓(xùn)練集上統(tǒng)計(jì)出源、目標(biāo)說話人語音信號(hào)的基頻在對(duì)數(shù)域的均值μ x、Uy和方差基頻轉(zhuǎn)換時(shí)轉(zhuǎn)換函數(shù)形如下式所示log ./f ^ μυ + — (log /ξ — μχ)而對(duì)于說話人特征的轉(zhuǎn)換，假設(shè)有源和目標(biāo)說話人對(duì)應(yīng)時(shí)間對(duì)齊的說話人特征X={χι，χ2，...χτ}和Y= {yi，y2，...yT}作為訓(xùn)練數(shù)據(jù)。本發(fā)明采用兩種方案。一種方案是使用線性回歸模型F(Xt) =Axt+b作為頻譜轉(zhuǎn)換函數(shù)，其中的參數(shù)可有下式計(jì)算得到[A, b] =YXt (XXt)另外一種方案，基于聯(lián)合空間高斯混合模型的方法，需要使用聯(lián)合特征Z = [Χτ,Υτ]τ來訓(xùn)練一個(gè)高斯混合模型，他以如下形式來描述聯(lián)合特征空間的分布Ρ(ζ) = Σ mwmN(z ； μ m, Σ m),其中
*ι(χ) IΓ V(B) ν(χ以)"
「ΩΩ /1- μ,ιη V - m m
LJ— (u)ip(卯)
_ Sj^rti 」L z^rti_從中，導(dǎo)出轉(zhuǎn)換函數(shù)F(Xt) = Yjm hm(xt){^ + Σ^Σ Γ)—1㈨—μ\η])\
「…一 m / 、 WmM式中—— 一；一一▽(； :)、為后驗(yàn)概率。
〉jj WjJv (Xf^ Hj , I Sm )步驟B3:語音合成。該步驟根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征，以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征，合成目標(biāo)說話人的語音。本發(fā)明使用基于源-濾波器結(jié)構(gòu)的合成器，需要輸入激勵(lì)(即基頻)和聲道響應(yīng)(頻譜參數(shù))來生成待轉(zhuǎn)換的語音。因此首先需要從轉(zhuǎn)換的說話人特征和待轉(zhuǎn)換的說話人語音信號(hào)的內(nèi)容特征中重建出轉(zhuǎn)換的說話人頻譜參數(shù)(頻譜參數(shù)重建過程見下文所述)，進(jìn)而通過合成器來生成轉(zhuǎn)換的語音。本發(fā)明采用STRAIGHT分析合成器來進(jìn)行語音生成。(三)特征提取
以上對(duì)本發(fā)明的方法進(jìn)行了整體性的介紹，下面對(duì)于所述方法中采用的特征提取步驟進(jìn)行詳細(xì)的說明。如前所述，本發(fā)明所述特征提取包括基頻特征、說話人特征和內(nèi)容特征的提取。本發(fā)明中基頻特征提取采用傳統(tǒng)的基頻提取方法。說話人特征和內(nèi)容特征的特征提取方法是本發(fā)明核心所在。3.1基本步驟圖2是本發(fā)明的特征提取步驟的框圖。如圖2所示，特征提取步驟具體分為兩步驟步驟al:聲學(xué)特征提取。基于語音信號(hào)的源-濾波器結(jié)構(gòu)，考慮到語音信號(hào)的短時(shí)平穩(wěn)性和長時(shí)非平穩(wěn)性，將語音信號(hào)以20-30ms進(jìn)行分段，每一段本發(fā)明稱作一幀。對(duì)每一幀語音信號(hào)，使用現(xiàn)有的語音分析算法(如STRAIGHT等)從語音信號(hào)中提取基頻和頻譜參數(shù)(如線譜對(duì)、Mel倒譜等)。步驟a2 :說話人特征和內(nèi)容特征提取?？紤]到說話人之間的差異主要體現(xiàn)在聲道結(jié)構(gòu)上，在聲學(xué)特征上，即主要反映在頻譜參數(shù)中。因此，本發(fā)明主要考慮從頻譜特征分離出說話人相關(guān)特征和內(nèi)容相關(guān)特征。另夕卜，本發(fā)明考慮到說話人特征是一種超音段長時(shí)的特征，為有效提取語音信號(hào)中的說話人相關(guān)特征，使其與內(nèi)容相關(guān)特征更好地分離，本發(fā)明將連續(xù)多幀的特征拼接成一個(gè)稱之為超音段特征輸入到特征分離器中。具體的特征分離方法如下3. 2特征分離算法本發(fā)明使用一個(gè)深層的神經(jīng)網(wǎng)絡(luò)來分離聲學(xué)頻譜參數(shù)中的說話人特征和內(nèi)容特征。圖3是本發(fā)明的用于特征分離的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。如圖3所示，該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu)，包括最下層為輸入層，從該層輸入待分離的聲學(xué)特征；最上層為輸出層，該層輸出重構(gòu)出的聲學(xué)特征；中間2K-3個(gè)隱層,每層包括若干個(gè)節(jié)點(diǎn)，模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò)(或稱編碼器)，用于從輸入的語音聲學(xué)特征中提取出高層的信息，從下至上的第K個(gè)隱層為編碼層；編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分，一部分與說話人相關(guān)，另一部分與內(nèi)容相關(guān)，它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征。從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò)(或稱解碼器)，它的功能與編碼網(wǎng)絡(luò)相反，用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。本發(fā)明采用的圖3所示的深層神經(jīng)網(wǎng)絡(luò)是對(duì)人的神經(jīng)系統(tǒng)處理語音信號(hào)的一個(gè)模擬，需要對(duì)其進(jìn)行訓(xùn)練，從而使其具有所需要的能夠從聲學(xué)特征中實(shí)現(xiàn)提取和分離說話人特征和內(nèi)容特征這一特定的能力。圖3所示深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是在本發(fā)明提出的數(shù)據(jù)庫制作方法所設(shè)計(jì)的語音信號(hào)數(shù)據(jù)庫上進(jìn)行，本發(fā)明提出的數(shù)據(jù)庫制作方法見本發(fā)明數(shù)據(jù)庫制作部分。圖4是本發(fā)明中神經(jīng)網(wǎng)絡(luò)訓(xùn)練的具體流程圖。訓(xùn)練過程分為三步驟步驟bl:預(yù)訓(xùn)練。由于深層神經(jīng)網(wǎng)絡(luò)的優(yōu)化比較困難，在訓(xùn)練之前需要通過預(yù)訓(xùn)練來初始化網(wǎng)絡(luò)權(quán)值。本發(fā)明采取一種無監(jiān)督的學(xué)習(xí)模式，使用貪婪算法來逐層訓(xùn)練網(wǎng)絡(luò)，快速的得到模型的初始參數(shù)。在每一層的訓(xùn)練中，可以使用消除噪聲干擾的自動(dòng)編碼器(De-noisingauto-encoder)來初始化網(wǎng)絡(luò)權(quán)值，即在輸入特征上加上一定的噪聲掩蓋，使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能夠更加魯棒，并且防止過訓(xùn)練。具體的，在輸入層，輸入特征服從高斯分布，則在輸入的各維上加入適量的高斯噪聲，并采用最小均方誤差準(zhǔn)則來訓(xùn)練。而在第一層以上各層，輸入特征服從二值分布，因此以一定的概率，將輸入特征的某些維置零，并使用最小交叉熵(cross-entropy)準(zhǔn)則來訓(xùn)練。經(jīng)過預(yù)訓(xùn)練得到一個(gè)K層疊加的自動(dòng)編碼器后，將其向上翻轉(zhuǎn)，便得到了上下對(duì)稱的自動(dòng)編碼器結(jié)構(gòu)。步驟b2:編碼層調(diào)整。經(jīng)過預(yù)訓(xùn)練之后的神經(jīng)網(wǎng)絡(luò)，已經(jīng)具備了一定的高層信息提取能力，在編碼層，某些節(jié)點(diǎn)能反映出較強(qiáng)的說話人區(qū)分能力，另外一些節(jié)點(diǎn)則能反映較強(qiáng)的內(nèi)容區(qū)分能力。這一步將使用一些客觀的準(zhǔn)則來將這些節(jié)點(diǎn)挑選出來，其輸出分別作為對(duì)應(yīng)的特征。這里可以使用一些區(qū)分性準(zhǔn)則，如Fisher' s ratio，來挑選。具體的，在所述語音信號(hào)數(shù)據(jù)庫的訓(xùn)練集上，對(duì)編碼層的每個(gè)節(jié)點(diǎn)的輸出特征，均用該準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性，將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn)，其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn)。步驟b3:精細(xì)調(diào)整。本發(fā)明需要從輸入的聲學(xué)頻譜參數(shù)中分離出說話人相關(guān)和內(nèi)容相關(guān)的特征，并能將其應(yīng)用到說話人聲音轉(zhuǎn)換中去。對(duì)此，要設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來訓(xùn)練該網(wǎng)絡(luò)，使其具備本發(fā)明所期望的這種能力。要達(dá)到這種要求，需要在輸入訓(xùn)練樣本中引入對(duì)比競(jìng)爭的手段。在如圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)中，在輸入層，每次同時(shí)并行輸入兩個(gè)樣本X1和X2，他們分別在編碼輸出層生成說話人特征csl、Cs2和內(nèi)容特征Cc;1、Cc;2，然后通過解碼網(wǎng)絡(luò)，重建出輸入的聲學(xué)特征釦和釦。因此，訓(xùn)練網(wǎng)絡(luò)的目標(biāo)函數(shù)中包含如下的三部分重建誤差一方面，由于說話人聲音轉(zhuǎn)換應(yīng)用的需要，要從高層特征中重建恢復(fù)出聲學(xué)頻譜參數(shù)，解碼網(wǎng)絡(luò)需要具有很好的恢復(fù)重建的能力，該能力將會(huì)直接影響合成語音的質(zhì)量。因此，在訓(xùn)練目標(biāo)函數(shù)中需要對(duì)重建誤差加以限制。另一個(gè)方面，加入重建誤差的限制也是為了保證編碼輸出的說話人特征和內(nèi)容特征中信息的完整性。本發(fā)明中采用如下形式的誤差形式Lr = Σ 卜1—a^l說話人特征代價(jià)為了使說話人特征對(duì)說話人具有很強(qiáng)的區(qū)分性，而對(duì)內(nèi)容不具有區(qū)分性，可以設(shè)計(jì)這樣一種準(zhǔn)則，使相同說話人之間的說話人特征誤差盡量小，而不同說話人之間的誤差盡量大，這種準(zhǔn)則可以表示為下式Lsc= δ s*Es+(l_ δ s)*exp(_X sEs)其中，Es= Csl-Cs2I2, δ3是輸入的兩個(gè)樣本的說話人標(biāo)注，Ss = I表示兩個(gè)輸入它們來自同一個(gè)說話人，而Ss = O則表示來自不同的兩個(gè)說話人。內(nèi)容特征代價(jià)與說話人特征誤差類似，可以構(gòu)造內(nèi)容特征的區(qū)分性代價(jià)函數(shù)Lcc = δ c*Es+(l_ δ c)*exp(_A CEC)綜合上述三種代價(jià)，可以得到最終用于的精細(xì)調(diào)整的目標(biāo)函數(shù)Lcc = CiLr+β Lsc+CLcc
α、β和ζ調(diào)整這三種代價(jià)比重的權(quán)值，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是調(diào)整網(wǎng)絡(luò)權(quán)值使得該目標(biāo)函數(shù)盡量小，訓(xùn)練時(shí)本發(fā)明使用誤差反向傳播算法，利用帶沖量的梯度下降算法來更新網(wǎng)絡(luò)權(quán)值。(四)說話人語音信號(hào)庫的制作本發(fā)明中所使用的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù)來進(jìn)行，需要包含很多的說話人，每個(gè)說話人也需要錄制充足內(nèi)容的語料。所要特別指出的是，神經(jīng)網(wǎng)絡(luò)所需要的大量訓(xùn)練數(shù)據(jù)，并不是圖1中所示訓(xùn)練過程的源說話人或目標(biāo)說話人數(shù)據(jù)。實(shí)際應(yīng)用中，獲得圖1中所示訓(xùn)練過程的源說話人或目標(biāo)說話人的大量數(shù)據(jù)不切實(shí)際或要求過高，但獲得本處所述神經(jīng)網(wǎng)絡(luò)所需要的大量訓(xùn)練數(shù)據(jù)是可行的，符合實(shí)際要求。圖5是本發(fā)明中數(shù)據(jù)庫制作的流程圖。分為四個(gè)步驟步驟Cl :建立一個(gè)語料庫，使該語料庫中包括多個(gè)句子。考慮到要設(shè)計(jì)一種魯棒的分離網(wǎng)絡(luò)，需要其能處理所有的人以及所有的內(nèi)容，本發(fā)明中設(shè)計(jì)一個(gè)音素均衡的語料庫，而且句子數(shù)不能太多，通常在100句以內(nèi)，以便采集大量的說話人數(shù)據(jù)。所謂音素均衡是指語料中包含所有的音素，而且各音素的數(shù)量相對(duì)均衡。步驟c2 :錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào)，構(gòu)建語音信號(hào)數(shù)據(jù)庫，并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理，以去除語音信號(hào)中的不正常部分?？紤]到要使網(wǎng)絡(luò)具有區(qū)分說話人的能力，需要錄制大量說話人的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。在錄音階段，由于成本等方面的原因，無法找到如此多的播音員來錄制音庫，只能采集業(yè)余人員的錄音，這就使得錄制的語音質(zhì)量參差不齊，因此，錄制完成后，需要對(duì)錄制的語音做一些預(yù)處理，如能量規(guī)整、信道均衡、噴麥現(xiàn)象的處理等等，保證訓(xùn)練語料的質(zhì)量。步驟c3 :使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分，切分后的每一段作為一個(gè)幀，由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息。從上文可知，在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的精細(xì)調(diào)整階段，是有監(jiān)督的學(xué)習(xí)過程，需要知道輸入每幀訓(xùn)練數(shù)據(jù)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息。因此，需要對(duì)語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)做幀一級(jí)的標(biāo)注，即進(jìn)行音段的切分。具體的，可以采用一個(gè)現(xiàn)有的用作語音合成的上下文相關(guān)的隱馬爾可夫模型來實(shí)現(xiàn)音段切分。在切分之前，先用每個(gè)說話人的錄音數(shù)據(jù)使用最大似然線性回歸算法將該模型自適應(yīng)到該說話人的聲學(xué)空間，再使用自適應(yīng)得到的模型對(duì)該說話人的錄音數(shù)據(jù)利用維特比算法進(jìn)行解碼，得到模型各狀態(tài)的邊界信息。步驟c4 :對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合，構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。根據(jù)上文描述，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)有四類相同說話人相同內(nèi)容、相同說話人不同內(nèi)容、不同說話人相同內(nèi)容和不同說話人不同內(nèi)容。由于有很多的說話人特征和內(nèi)容特征屬性，在訓(xùn)練階段，本發(fā)明在訓(xùn)練數(shù)據(jù)中隨機(jī)挑選組合，輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。(五)具體實(shí)施例根據(jù)上文所述方法，作為本發(fā)明實(shí)施方式舉例，本發(fā)明搭建了一個(gè)說話人聲音轉(zhuǎn)換系統(tǒng)。首先，本發(fā)明設(shè)計(jì)了包含100句話的音素平衡的語料，募集了 81個(gè)說話人(其中包含40個(gè)男性和41個(gè)女性說話人)來錄音，經(jīng)過處理后形成最終的訓(xùn)練語料庫。錄音的語音文件是單聲道、16kHz采樣率的。在這81個(gè)說話人的數(shù)據(jù)中，我們隨機(jī)挑選60人(30個(gè)男性、30個(gè)女性)的數(shù)據(jù)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集，另外10人(5個(gè)男性和5個(gè)女性)的數(shù)據(jù)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)訓(xùn)練的驗(yàn)證集，余下的11人的數(shù)據(jù)作為測(cè)試集，測(cè)試說話人聲音轉(zhuǎn)換的效果。在提取聲學(xué)特征時(shí)，我們采用25ms的漢明窗對(duì)波形信號(hào)進(jìn)行分幀處理，并以5ms的幀移來移動(dòng)短時(shí)窗，每幀提取一個(gè)基頻和一組24維的Mel倒譜參數(shù)作為聲學(xué)特征。在訓(xùn)練用于特征分離的神經(jīng)網(wǎng)絡(luò)階段，網(wǎng)絡(luò)的輸入向量為當(dāng)前幀與其前后各5幀共11幀拼成的超音段特征，共264維，由于輸出只需要重建出輸入的當(dāng)前幀，因此，輸出層為24維。另外，網(wǎng)絡(luò)包含7個(gè)隱層，其中節(jié)點(diǎn)數(shù)分別為500、400、300、200、300、400、500，在中間的那一層，我們使前100個(gè)節(jié)點(diǎn)的輸出為說話人特征，剩下的100個(gè)節(jié)點(diǎn)的輸出為內(nèi)容特征。在預(yù)訓(xùn)練階段，我們采用4個(gè)層疊的自動(dòng)編碼器的形式來初始化網(wǎng)絡(luò)權(quán)值，節(jié)點(diǎn)數(shù)分別為264-500、500-400、400-300和300-200，自底向上，每一個(gè)自動(dòng)編碼器的輸出作為下一個(gè)自動(dòng)編碼器的輸入，通過無監(jiān)督學(xué)習(xí)的形式初始化網(wǎng)絡(luò)權(quán)值，最后將網(wǎng)絡(luò)權(quán)值翻轉(zhuǎn)，得到整個(gè)網(wǎng)絡(luò)的初始化權(quán)值，需要注意的是，第一層翻轉(zhuǎn)到整個(gè)網(wǎng)絡(luò)的最上面一層的時(shí)候，由于輸出只有24維，只需要將輸入層當(dāng)前幀對(duì)應(yīng)的權(quán)值翻轉(zhuǎn)上去即可。另外，在中間層翻轉(zhuǎn)之前，需要計(jì)算每個(gè)節(jié)點(diǎn)輸出在不同說話人之間和不同內(nèi)容之間的區(qū)分性(上文中提到的Fisher’s ratio)，并以此來對(duì)節(jié)點(diǎn)和網(wǎng)絡(luò)權(quán)值進(jìn)行重排。預(yù)訓(xùn)練之后，按照上文所述的方法進(jìn)行精細(xì)調(diào)整，在這個(gè)過程中，需要在驗(yàn)證集上對(duì)目標(biāo)函數(shù)的權(quán)值進(jìn)行調(diào)整，得到最優(yōu)值。訓(xùn)練好特征分離器之后，便可以進(jìn)行搭建說話人聲音轉(zhuǎn)換系統(tǒng)了，我們?cè)跍y(cè)試集上任意挑選兩個(gè)說話人來，選擇其中50句話作為訓(xùn)練數(shù)據(jù)，按上文提取需要的特征，訓(xùn)練基頻、說話人特征的轉(zhuǎn)換函數(shù)(本實(shí)施方式舉例中使用直接的線性回歸模型)，剩下的50句話作為測(cè)試數(shù)據(jù)來驗(yàn)證說話人聲音轉(zhuǎn)換的效果。我們使用Fisher’ s ratio來度量提取出的不同特征在不同說話人之間和不同內(nèi)容之間的區(qū)分性。Fisher’s ratio度量的是特征類內(nèi)距離和類間距離的比值,該比值越大，說明特征在此種分類方法下更加具有區(qū)分性。圖6和圖7分別是Mel倒譜系數(shù)和分離出的特征在不同說話人(實(shí)線)和不同內(nèi)容(虛線)之間的區(qū)分性。可見，輸入的聲學(xué)特征中，除了低維在內(nèi)容上顯示較強(qiáng)的區(qū)分性外，其余維并沒有很強(qiáng)的區(qū)分性。而提取出的特征(前100維為說話人特征，剩下100維為內(nèi)容特征)經(jīng)過訓(xùn)練，對(duì)不同的分類體現(xiàn)出所期望的區(qū)分性。而在說話人轉(zhuǎn)換實(shí)驗(yàn)上，直接用目標(biāo)說話人的說話人特征加上源說話人的內(nèi)容特征合成出的語音，倒譜誤差為4. 39dB，而用線性變換過的源說話人的說話人特征和其內(nèi)容特征合成的語音倒譜誤差為5. 64dB，從主觀聽感上已經(jīng)逼近目標(biāo)說話人的語音。以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明，應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種說話人聲音轉(zhuǎn)換方法，用于把源說話人所說的話的語音信號(hào)進(jìn)行轉(zhuǎn)換，使轉(zhuǎn)換后的語音聽起來是不同于源說話人的目標(biāo)說話人所說的，其特征在于，該方法包括訓(xùn)練階段和轉(zhuǎn)換階段，其中，所述訓(xùn)練階段包括步驟Al、從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征和頻譜特征，所述頻譜特征包括說話人特征和內(nèi)容特征；步驟A2、根據(jù)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征，構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)；步驟A3、根據(jù)步驟Al提取的源說話人和目標(biāo)說話人的說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)；所述轉(zhuǎn)換階段包括步驟BI、從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征，所述頻譜特征包括說話人特征和內(nèi)容特征；步驟B2、分別使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù)，對(duì)從步驟BI中從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的基頻特征和說話人特征；步驟B3、根據(jù)步驟B2得到的轉(zhuǎn)換后的基頻特征和說話人特征，以及步驟BI提取的待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征，合成目標(biāo)說話人的語音。
2.如權(quán)利要求I所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟A2統(tǒng)計(jì)源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)的基頻特征在對(duì)數(shù)域分布的均值和方差，根據(jù)所統(tǒng)計(jì)的均值和方差構(gòu)建從源說話人的語音到目標(biāo)說話人的語音的基頻轉(zhuǎn)換函數(shù)。
3.如權(quán)利要求2所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述基頻轉(zhuǎn)換函數(shù)為線性變換函數(shù)。
4.如權(quán)利要求I所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟Al和步驟BI的提取語音信號(hào)的基頻特征和頻譜特征的方法包括步驟al、基于語音信號(hào)的源-濾波器結(jié)構(gòu)，將語音信號(hào)以20 30ms進(jìn)行分段，每一段作為一幀，并對(duì)每一幀的語音信號(hào)提取基頻和頻譜參數(shù)；步驟a2、使用一個(gè)神經(jīng)網(wǎng)絡(luò)來分離所述頻譜參數(shù)中的說話人特征和內(nèi)容特征，該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用上下對(duì)稱的共2K-1層多層(K為自然數(shù))網(wǎng)絡(luò)結(jié)構(gòu)，包括最下層為輸入層，從該層輸入待分離的聲學(xué)特征；最上層為輸出層，該層輸出重構(gòu)出的聲學(xué)特征；中間2K-3個(gè)隱層，每層若干個(gè)節(jié)點(diǎn)，模擬神經(jīng)單元的處理過程。從輸入層到從下至上的第K個(gè)隱層為編碼網(wǎng)絡(luò)，用于從輸入的語音聲學(xué)特征中提取出高層的信息；從下至上的第K個(gè)隱層為編碼層；編碼層的網(wǎng)絡(luò)節(jié)點(diǎn)分為兩部分，一部分與說話人相關(guān)，另一部分與內(nèi)容相關(guān)，它們的輸出分別對(duì)應(yīng)說話人特征和內(nèi)容特征；從下至上的第K個(gè)隱層以上的隱層為解碼網(wǎng)絡(luò)，用于從高層的說話人特征和內(nèi)容特征中重建出聲學(xué)頻譜參數(shù)。
5.如權(quán)利要求4所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟a2包括在一語音信號(hào)數(shù)據(jù)庫上對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以使其具備從聲學(xué)特征中提取和分離說話人特征和內(nèi)容特征的能力。
6.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的步驟包括步驟bl、通過預(yù)訓(xùn)練來初始化所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值；步驟b2、對(duì)所述神經(jīng)網(wǎng)絡(luò)的編碼層的每個(gè)節(jié)點(diǎn)的輸出特征，采用一個(gè)區(qū)分性準(zhǔn)則來統(tǒng)計(jì)其在不同說話人之間和不同內(nèi)容之間的區(qū)分性，將不同說話人間區(qū)分性大而不同內(nèi)容之間區(qū)分性小的節(jié)點(diǎn)作為說話人相關(guān)節(jié)點(diǎn)，其余的節(jié)點(diǎn)作為內(nèi)容相關(guān)節(jié)點(diǎn)；步驟b3、設(shè)計(jì)特定的區(qū)分性目標(biāo)函數(shù)來精細(xì)調(diào)整該神經(jīng)網(wǎng)絡(luò)的權(quán)值，使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。
7.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟bl采取無監(jiān)督的學(xué)習(xí)模式，使用貪婪算法來逐層訓(xùn)練該神經(jīng)網(wǎng)絡(luò)；
8.如權(quán)利要求7所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟bl包括在輸入層，輸入特征服從高斯分布，則在輸入的各維上加入適量的高斯噪聲，并采用最小均方誤差準(zhǔn)則來訓(xùn)練；在第一層以上各層，輸入特征服從二值分布，因此以一定的概率，將輸入特征的某些維置零，并使用最小交叉熵準(zhǔn)則來訓(xùn)練；經(jīng)過預(yù)訓(xùn)練得到一個(gè)K層疊加的自動(dòng)編碼器后，將其向上翻轉(zhuǎn)，便得到了上下對(duì)稱的自動(dòng)編碼器結(jié)構(gòu)。
9.如權(quán)利要求6所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟b2采用 Fisher' s ratio準(zhǔn)則作為區(qū)分性準(zhǔn)則。
10.如權(quán)利要求9所述的說話人聲音轉(zhuǎn)換方法，其特征在于，所述步驟b3包括設(shè)計(jì)具有對(duì)比競(jìng)爭機(jī)制的區(qū)分性目標(biāo)函數(shù)，使用誤差后向傳播算法來精細(xì)調(diào)整所述神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值，使該神經(jīng)網(wǎng)絡(luò)具備從聲學(xué)特征中分離說話人信息和內(nèi)容信息的能力。
11.如權(quán)利要求5所述的說話人聲音轉(zhuǎn)換方法，其特征在于，其中所述的語音信號(hào)數(shù)據(jù)庫是通過下列步驟制作的步驟Cl、建立一個(gè)語料庫，使該語料庫中包括多個(gè)句子；步驟c2、錄制多個(gè)說話人朗讀所述語料庫中的句子的語音信號(hào)，構(gòu)建語音信號(hào)數(shù)據(jù)庫，并對(duì)該語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)進(jìn)行預(yù)處理，以去除語音信號(hào)中的不正常部分；步驟c3、使用隱馬爾科夫模型來對(duì)進(jìn)行預(yù)處理的楊這語音信號(hào)數(shù)據(jù)庫中的語音信號(hào)行切分，切分后的每一段作為一個(gè)幀，由得到各語音信號(hào)的幀一級(jí)的說話人標(biāo)注信息和內(nèi)容標(biāo)注信息；步驟c4、對(duì)所述語音數(shù)據(jù)庫的各語音信號(hào)進(jìn)行隨機(jī)組合，構(gòu)造神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種說話人聲音轉(zhuǎn)換方法，包括訓(xùn)練階段和轉(zhuǎn)換階段，訓(xùn)練階段包括從源說話人和目標(biāo)說話人的訓(xùn)練語音信號(hào)中分別提取基頻特征、說話人特征和內(nèi)容特征；根據(jù)所述基頻特征構(gòu)建基頻轉(zhuǎn)換函數(shù)；根據(jù)所述說話人特征構(gòu)建說話人轉(zhuǎn)換函數(shù)。轉(zhuǎn)換階段包括從源說話人的待轉(zhuǎn)換語音信號(hào)中提取基頻特征和頻譜特征；使用訓(xùn)練階段得到的基頻轉(zhuǎn)換函數(shù)和說話人轉(zhuǎn)換函數(shù)對(duì)從所述待轉(zhuǎn)換語音信號(hào)中提取出的基頻特征和說話人特征進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的基頻特征和說話人特征；根據(jù)所得到的轉(zhuǎn)換后的基頻特征、說話人特征和待轉(zhuǎn)換語音信號(hào)中的內(nèi)容特征合成目標(biāo)說話人的語音。本發(fā)明易于實(shí)現(xiàn)且轉(zhuǎn)換后的音質(zhì)和相似度較高。
文檔編號(hào)G10L25/30GK102982809SQ201210528629
公開日2013年3月20日申請(qǐng)日期2012年12月11日優(yōu)先權(quán)日2012年12月11日
發(fā)明者陳凌輝, 戴禮榮, 凌震華申請(qǐng)人:中國科學(xué)技術(shù)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳凌輝;戴禮榮;凌震華
技術(shù)所有人：中國科學(xué)技術(shù)大學(xué)
我是此專利的發(fā)明人

上一篇：聲音數(shù)據(jù)處理裝置及方法
上一篇：用于處理口述信息的方法和系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種說話人聲音轉(zhuǎn)換方法