聲音轉(zhuǎn)換方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及語音信號技術領域,尤其涉及一種聲音轉(zhuǎn)換方法和裝置。
【背景技術】
[0002] 聲音轉(zhuǎn)換的目標是將源說話人的語音轉(zhuǎn)換為目標說話人的語音。近年來,由于其 廣泛的應用前景,聲音轉(zhuǎn)換技術得到了廣泛的研究與關注。同樣,聲音轉(zhuǎn)換技術在娛樂方面 也有很大的應用前景,例如,可以將用戶的聲音轉(zhuǎn)換為想要的明星的聲音,或者轉(zhuǎn)換為用戶 所熟悉的人的聲音。此外,聲音轉(zhuǎn)換技術還可以幫助因發(fā)音器官受損而植入電子喉的病人 發(fā)出高質(zhì)量的語音,將說話語音變換為歌唱語音等等。另外,聲音轉(zhuǎn)換技術也可以作為語音 合成技術的個性化音色構(gòu)建的一種方法。
[0003] 現(xiàn)有的聲音轉(zhuǎn)換方法都是一對一的轉(zhuǎn)換方法,即轉(zhuǎn)換方法是與源說話人和目標說 話人相關的,例如,如果構(gòu)建源發(fā)音人到目標發(fā)音人的聲音轉(zhuǎn)換模型,需要獲得源發(fā)音人和 目標發(fā)音人足夠的訓練語料,用以學習他們之間的轉(zhuǎn)換關系,但是該轉(zhuǎn)換模型對于其他源 發(fā)音人或目標發(fā)音人并不適用,這樣,轉(zhuǎn)換模型的靈活性差,在實際產(chǎn)品應用中,技術門檻 尚。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005] 為此,本發(fā)明的一個目的在于提出一種聲音轉(zhuǎn)換方法,該聲音轉(zhuǎn)換方法能夠有效 提尚聲首轉(zhuǎn)換的靈活性。
[0006] 本發(fā)明的另一個目的在于提出一種聲音轉(zhuǎn)換裝置。
[0007] 為達到上述目的,本發(fā)明第一方面實施例提出的聲音轉(zhuǎn)換方法,包括:預先構(gòu)建聲 音轉(zhuǎn)換模型;接收源發(fā)音人的語音信號,并提取所述語音信號的頻譜特征;確定所述源發(fā) 音人對應的聲音轉(zhuǎn)換模型;根據(jù)所述頻譜特征和所述源發(fā)音人對應的聲音轉(zhuǎn)換模型,進行 聲音轉(zhuǎn)換,以得到目標發(fā)音人的語音信息。
[0008] 本發(fā)明第一方面實施例提出的聲音轉(zhuǎn)換方法,通過預先構(gòu)建聲音轉(zhuǎn)換模型,接收 源發(fā)音人的語音信號并提取頻譜特征,確定源發(fā)音人對應的聲音轉(zhuǎn)換模型,根據(jù)頻譜特征 和源發(fā)音人對應的聲音轉(zhuǎn)換模型,進行聲音轉(zhuǎn)換,以得到目標發(fā)音人的語音信息,有效提高 聲音轉(zhuǎn)換的靈活性。
[0009] 為達到上述目的,本發(fā)明第二方面實施例提出的聲音轉(zhuǎn)換裝置,包括:構(gòu)建模塊, 用于預先構(gòu)建聲音轉(zhuǎn)換模型;接收模塊,用于接收源發(fā)音人的語音信號,并提取所述語音信 號的頻譜特征;確定模塊,用于確定所述源發(fā)音人對應的聲音轉(zhuǎn)換模型;轉(zhuǎn)換模塊,用于根 據(jù)所述頻譜特征和所述源發(fā)音人對應的聲音轉(zhuǎn)換模型,進行聲音轉(zhuǎn)換,以得到目標發(fā)音人 的語音信息。
[0010] 本發(fā)明第二方面實施例提出的聲音轉(zhuǎn)換裝置,通過預先構(gòu)建聲音轉(zhuǎn)換模型,接收 源發(fā)音人的語音信號并提取頻譜特征,確定源發(fā)音人對應的聲音轉(zhuǎn)換模型,根據(jù)頻譜特征 和源發(fā)音人對應的聲音轉(zhuǎn)換模型,進行聲音轉(zhuǎn)換,以得到目標發(fā)音人的語音信息,有效提高 聲音轉(zhuǎn)換的靈活性。
[0011] 本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012] 本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變 得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實施例提出的聲音轉(zhuǎn)換方法的流程示意圖;
[0014]圖2是本發(fā)明實施例中聲音轉(zhuǎn)換模型的結(jié)構(gòu)示意圖;
[0015]圖3是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換方法的流程示意圖;
[0016]圖4是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖;
[0017]圖5是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖;
[0018]圖6是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖;
[0019]圖7是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考 附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反, 本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0021] 圖1是本發(fā)明一實施例提出的聲音轉(zhuǎn)換方法的流程示意圖,該方法包括:
[0022] S11 :預先構(gòu)建聲音轉(zhuǎn)換模型。
[0023] 其中,聲音轉(zhuǎn)換模型可以是神經(jīng)網(wǎng)絡模型,參見圖2,包括輸入編碼層21、中間轉(zhuǎn) 換層22、輸出解碼層23。
[0024] 神經(jīng)網(wǎng)絡模型可以是深度神經(jīng)網(wǎng)絡(DeepNeuralNetworks,DNN)模型、遞歸神 經(jīng)網(wǎng)絡(RecurrentNeuralNetworks,RNN)模型、卷積神經(jīng)網(wǎng)絡(ConvolutionalNeural Networks,CNN)模型等,本申請以DNN模型為例構(gòu)建聲音轉(zhuǎn)換模型。
[0025] 可選的,預先構(gòu)建聲音轉(zhuǎn)換模型,可以包括:獲取訓練數(shù)據(jù),并對訓練數(shù)據(jù)進行預 處理;提取訓練數(shù)據(jù)的頻譜特征;確定聲音轉(zhuǎn)換模型的拓撲結(jié)構(gòu);初始化聲音轉(zhuǎn)換模型的 參數(shù);根據(jù)訓練數(shù)據(jù)的頻譜特征,以及初始化后的聲音轉(zhuǎn)換模型的參數(shù),訓練聲音轉(zhuǎn)換模 型。
[0026]S12:接收源發(fā)音人的語音信號,并提取語音信號的頻譜特征。
[0027] 其中,頻譜特征例如能量譜特征,或者梅爾域倒譜系數(shù)(MCEP)。
[0028] 本實施例中,提取語音信息的24維梅爾域倒譜系數(shù)MCEP和1維能量譜特征,共25 維的頻譜特征。
[0029]S13:確定源發(fā)音人對應的聲音轉(zhuǎn)換模型。
[0030] 可選的,確定源發(fā)音人對應的聲音轉(zhuǎn)換模型,可以包括:確定目標發(fā)音人,并提取 目標發(fā)音人的語音信號的頻譜特征;根據(jù)目標發(fā)音人的語音信號的頻譜特征,調(diào)整聲音轉(zhuǎn) 換模型的輸出解碼層融合權(quán)值,以及,根據(jù)源發(fā)音人的語音信號的頻譜特征,調(diào)整聲音轉(zhuǎn)換 模型的輸入編碼層融合權(quán)值,以得到所述源發(fā)音人對應的聲音轉(zhuǎn)換模型。
[0031]S14:根據(jù)頻譜特征和源發(fā)音人對應的聲音轉(zhuǎn)換模型,進行聲音轉(zhuǎn)換,以得到目標 發(fā)音人的語音信息。
[0032] 具體地,將提取出的源發(fā)音人語音信號的25維的頻譜特征,作為源發(fā)音人對應的 聲音轉(zhuǎn)換模型的輸入,進行聲音轉(zhuǎn)換,以得到目標發(fā)音人的語音信息。
[0033] 本實施例中,通過預先構(gòu)建聲音轉(zhuǎn)換模型,接收源發(fā)音人的語音信號并提取頻譜 特征,確定源發(fā)音人對應的聲音轉(zhuǎn)換模型,根據(jù)頻譜特征和源發(fā)音人對應的聲音轉(zhuǎn)換模型, 進行聲音轉(zhuǎn)換,以得到目標發(fā)音人的語音信息,有效提高聲音轉(zhuǎn)換的靈活性。
[0034]圖3是本發(fā)明另一實施例提出的聲音轉(zhuǎn)換方法的流程示意圖,該方法包括:
[0035]S301:獲取訓練數(shù)據(jù),并對訓練數(shù)據(jù)進行預處理。
[0036] 其中,訓練數(shù)據(jù)為平行語料。
[0037] 平行語料指針對同一文本內(nèi)容,不同源發(fā)音人的語音信息。
[0038] 可選的,獲取訓練數(shù)據(jù),并對訓練數(shù)據(jù)進行預處理,可以包括:
[0039] 將平行語料進行配對,以構(gòu)造聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù);將輸入數(shù)據(jù) 和輸出數(shù)據(jù)做時長對齊,以訓練聲音轉(zhuǎn)換模型。
[0040] 例如,可以根據(jù)動態(tài)時間規(guī)整(DynamicTimeWarping,DTW)算法將輸入數(shù)據(jù)和輸 出數(shù)據(jù)做時長對齊。
[0041] 具體地,可以收集至少一位的源發(fā)音人的語音信號,本實施例以收集100位不同 的源發(fā)音人的每人10分鐘的語音信號為例,構(gòu)造訓練數(shù)據(jù),并對訓練數(shù)據(jù)集內(nèi)的100位發(fā) 音人進行兩兩配對,得到9900對不同源發(fā)音人的語音信號,將每對不同源發(fā)音人的語音信 號,分別構(gòu)造聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)。
[0042] 進一步,對同一文本內(nèi)容,不同的源發(fā)音人錄音,由于源發(fā)音人的個體差異性,100 位源發(fā)音人對同一文本內(nèi)容的發(fā)音,不可能控制在完全相同的時長內(nèi),因此,需要使用時長 對齊算法自動的做時長對齊,其中,時長對齊算法例如為DTW算法,將兩兩配對后,將每對 不同源發(fā)音人的語音信號進行時長對齊,得到時長對齊后的9900對源-目標發(fā)音人的訓練 樣本,作為聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)用以訓練模型。
[0043] 例如,將第一位源發(fā)音人和第二位的源發(fā)音人的針對同一文本內(nèi)容的語音信號進 行配對,其中,第一位源發(fā)音人的語音信號時長為l〇s,第二位的源發(fā)音人的語音信號時長 為12s,進而,采用DTW算法自動的做這兩段語音信號時長對齊,得到時長對齊后的一對訓 練樣本,將第一位源發(fā)音人的語音信號作為聲音轉(zhuǎn)換模型的輸入數(shù)據(jù),將第二位源發(fā)音人 的語音信號作為聲音轉(zhuǎn)換模型的輸出數(shù)據(jù)用以訓練模型,并可以采用同樣的方法構(gòu)造出另 外若干對訓練數(shù)據(jù)。
[0044]S302:提取訓練數(shù)據(jù)的頻譜特征。
[0045] 本實施例中,提取語音信息的24維梅爾域倒譜系數(shù)MCEP和1維能量譜特征,共25 維的頻譜特征。