語音合成模型的訓(xùn)練方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及語音合成技術(shù)領(lǐng)域,尤其涉及一種語音合成模型的訓(xùn)練方法及
目.0
【背景技術(shù)】
[0002]隨著多媒體通信技術(shù)的不斷發(fā)展,作為人機(jī)通信重要方式之一的語音合成技術(shù)以其方便、快捷的優(yōu)點(diǎn)收到了研究者的廣泛關(guān)注。語音合成的目標(biāo)是使合成的語音可懂、清晰、自然而富有表現(xiàn)力。為了使合成的語音更加清晰、自然、富有表現(xiàn)力,現(xiàn)有的語音合成系統(tǒng)一般都會(huì)選擇一個(gè)目標(biāo)發(fā)音人,錄制這個(gè)目標(biāo)發(fā)音人的大量的發(fā)音數(shù)據(jù),并將這些發(fā)音數(shù)據(jù)作為語音合成的基礎(chǔ)數(shù)據(jù)。這種方式的優(yōu)點(diǎn)在于,合成語音的音質(zhì)、音色會(huì)與發(fā)音人本身發(fā)出的語音更為相似,其清晰度和自然度會(huì)大大提高,但缺點(diǎn)在于,用于語音合成的基礎(chǔ)語料的規(guī)模太大,這些基礎(chǔ)數(shù)據(jù)的采集工作也需要耗費(fèi)大量的物力、財(cái)力。
[0003]現(xiàn)有的使用少量錄音數(shù)據(jù)的語音合成方法可以大致分為直接建模方法和自適應(yīng)建模方法兩類。直接建模的處理方法和大數(shù)據(jù)的一致,即直接使用常規(guī)大數(shù)據(jù)的建模方法對文本特征和聲學(xué)特征進(jìn)行映射建模,其方法包括隱馬爾科夫模型(Hidden markovmodel, HMM)和深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)等。這種建模方法本身不考慮所處理的數(shù)據(jù)規(guī)模。其結(jié)果是,因?yàn)樯倭繑?shù)據(jù)在語境信息上的覆蓋有限,學(xué)習(xí)得到的模型合成與訓(xùn)練數(shù)據(jù)相差較大的文本時(shí)合成效果會(huì)下降很多。
[0004]自適應(yīng)建模方法主要基于HMM模型,其方案是首先收集多名基礎(chǔ)發(fā)音人的大量發(fā)音數(shù)據(jù)訓(xùn)練基礎(chǔ)模型,然后使用受限最大似然線性回歸(Constrained maximumlikelihood linear regress1n,CMLLR)等技術(shù)將基礎(chǔ)模型自適應(yīng)到個(gè)性化語音的少量數(shù)據(jù)上。依照這種方法訓(xùn)練出來的個(gè)性化模型合成效果不穩(wěn)定,音質(zhì)較差,和個(gè)性化發(fā)音人本身的音色相差較遠(yuǎn)。綜上所述,現(xiàn)有的使用少量錄音數(shù)據(jù)的語音合成方法普遍存在著合成語音質(zhì)量較差的問題。
【發(fā)明內(nèi)容】
[0005]針對上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種語音合成模型的訓(xùn)練方法及裝置,以提高使用少量樣本語料數(shù)據(jù)的語音合成系統(tǒng)的合成語音質(zhì)量。
[0006]第一方面,本發(fā)明實(shí)施例提供了一種語音合成模型的訓(xùn)練方法,所述方法包括:
[0007]初始化將用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型;
[0008]利用從至少一個(gè)發(fā)音人的大規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練經(jīng)過初始化的深層神經(jīng)網(wǎng)絡(luò)模型,以得到初步的深層神經(jīng)網(wǎng)絡(luò)模型;
[0009]利用從目標(biāo)發(fā)音人的小規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練所述初步的深層神經(jīng)網(wǎng)絡(luò)模型,以得到最終應(yīng)用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型。
[0010]第二方面,本發(fā)明實(shí)施例還提供了一種語音合成模型的訓(xùn)練裝置,所述裝置包括:
[0011]初始化模塊,用于初始化將用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型;
[0012]初步訓(xùn)練模塊,用于利用從至少一個(gè)發(fā)音人的大規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練經(jīng)過初始化的深層神經(jīng)網(wǎng)絡(luò)模型,以得到初步的深層神經(jīng)網(wǎng)絡(luò)模型;
[0013]個(gè)性化訓(xùn)練模塊,用于利用從目標(biāo)發(fā)音人的小規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練所述初步的深層神經(jīng)網(wǎng)絡(luò)模型,以得到最終應(yīng)用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型。
[0014]本發(fā)明實(shí)施例提供的語音合成模型的訓(xùn)練方法和裝置,通過初始化將用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型,利用從至少一個(gè)發(fā)音人的大規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練經(jīng)過初始化的深層神經(jīng)網(wǎng)絡(luò)模型,以及利用從目標(biāo)發(fā)音人的小規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練所述初步的深層神經(jīng)網(wǎng)絡(luò)模型,得到了最終應(yīng)用于語音合成的深層神經(jīng)網(wǎng)絡(luò)模型,從而提高了使用少量樣本語料數(shù)據(jù)的語音合成系統(tǒng)的合成語音質(zhì)量。
【附圖說明】
[0015]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0016]圖1是本發(fā)明第一實(shí)施例提供的語音合成模型的訓(xùn)練方法的流程圖;
[0017]圖2是本發(fā)明第一實(shí)施例提供的深層神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖;
[0018]圖3是本發(fā)明第二實(shí)施例提供的語音合成模型的訓(xùn)練方法中初步訓(xùn)練的流程圖;
[0019]圖4是本發(fā)明第三實(shí)施例提供的語音合成模型的訓(xùn)練方法中個(gè)性化訓(xùn)練的流程圖;
[0020]圖5是本發(fā)明第四實(shí)施例提供的語音合成模型的訓(xùn)練方法的流程示意圖;
[0021]圖6是本發(fā)明第五實(shí)施例提供的語音合成模型的訓(xùn)練裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0023]第一實(shí)施例
[0024]本實(shí)施例提供了語音合成模型的訓(xùn)練方法的一種技術(shù)方案。所述語音合成模型的訓(xùn)練方法由語音合成模型的訓(xùn)練裝置執(zhí)行。
[0025]參見圖1,所述語音合成模型的訓(xùn)練方法包括:
[0026]S11,初始化將用于語音合成的深層神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)模型。
[0027]在本發(fā)明中,使用一個(gè)深層神經(jīng)網(wǎng)絡(luò)作為用來預(yù)測合成語音的聲學(xué)參數(shù)的預(yù)測模型,也就是語音合成模型。從本質(zhì)上來講,深層神經(jīng)網(wǎng)絡(luò)是一個(gè)多層感知器(Multilayerperceptron,MLP)。圖2示出了本發(fā)明所采用的深層神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。參見圖2,所述深層神經(jīng)網(wǎng)絡(luò)至少包括一個(gè)輸入層21,用于獲取輸入?yún)?shù)。所述深層神經(jīng)網(wǎng)絡(luò)還至少包括一個(gè)輸出層23,用于對外輸出作為預(yù)測結(jié)果的輸出參數(shù)。另外,所述深層神經(jīng)網(wǎng)絡(luò)還包括至少兩個(gè)隱藏層22。每個(gè)隱藏層接收前一層的運(yùn)算結(jié)果,經(jīng)過自身的運(yùn)算,對下一層輸出本層的運(yùn)算結(jié)果。
[0028]在聲學(xué)參數(shù)預(yù)測的場景下,所述深層神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)是對輸入文本進(jìn)行文本分析而得到的各種文本特征。所述文本分析可以是詞法分析,或者句法分析。所述文本特征包括:音子序列、詞性、詞長以及韻律停頓。
[0029]所述輸出參數(shù)是預(yù)測得到的聲學(xué)參數(shù)。所述聲學(xué)參數(shù)包括:譜參數(shù)、時(shí)長以及基頻。
[0030]可以理解的是,期望所述深層神經(jīng)網(wǎng)絡(luò)模型能夠針對不同的輸入文本給出自然、準(zhǔn)確的輸出語音,需要利用包括大量語音數(shù)據(jù)的訓(xùn)練語料對其進(jìn)行訓(xùn)練。而期望所述深層神經(jīng)網(wǎng)絡(luò)模型給出與目標(biāo)發(fā)音人的自然語音相類似的合成語音,需要利用發(fā)音人的語音樣本對所述深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
[0031]而在具體執(zhí)行上述訓(xùn)練操作之前,需要對所述深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行初始化。具體的,上述初始化的操作可以包括對所述深層神經(jīng)網(wǎng)絡(luò)中不同神經(jīng)元的初始化,所述深層神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)的搭建,以及所述深層神經(jīng)網(wǎng)絡(luò)上各種參數(shù)的初始化。
[0032]S12,利用從至少一個(gè)發(fā)音人的大規(guī)模語料數(shù)據(jù)中提取的文本特征及聲學(xué)特征,訓(xùn)練經(jīng)過初始化的深層神經(jīng)網(wǎng)絡(luò)模型,以得到初步的深層神經(jīng)網(wǎng)絡(luò)模型。
[0033]經(jīng)過初始化操作之后,利用大規(guī)模語料數(shù)據(jù)對經(jīng)過初始化的所述深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。所述大規(guī)模語料數(shù)據(jù)不僅包括語音數(shù)據(jù),還包括語音數(shù)據(jù)對應(yīng)的輸入文本。而且,所述語音數(shù)據(jù)通常情況下并不來源與同一個(gè)發(fā)音人。
[0034]所述大規(guī)模語料數(shù)據(jù)的數(shù)據(jù)規(guī)模是相對較大的。具體來說,所述大規(guī)模語料數(shù)據(jù)中包含的語音數(shù)