1.一種面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述s1中,預(yù)處理及特征提取通過(guò)如下子步驟實(shí)現(xiàn):
3.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述生成網(wǎng)絡(luò)包括:音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù);
4.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述多周期判別器包括:頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù);所述頻譜轉(zhuǎn)換模塊用于通過(guò)短時(shí)傅里葉變換將時(shí)間域信號(hào)轉(zhuǎn)換為頻域信號(hào);所述卷積層包括5個(gè)3×3卷積層,并在每個(gè)卷積層后使用leakyrelu激活函數(shù),其中初始卷積層用于將輸入的頻譜圖從單通道擴(kuò)展到32通道,保持特征圖的空間維度;中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)保持在32,以逐步減小特征圖的高度,逐層提取更深層次的特征;最后一個(gè)卷積層將輸出的通道數(shù)減少到1,以整合特征;
5.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述s4中,以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò),具體通過(guò)如下子步驟實(shí)現(xiàn):
6.根據(jù)權(quán)利要求4所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述s4中,使用判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的生成信號(hào)進(jìn)行判斷,具體如下:
7.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法,其特征在于,所述s4中,使用損失函數(shù),對(duì)生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進(jìn)行優(yōu)化,判斷損失函數(shù)是否小于設(shè)定閾值,若是,則結(jié)束訓(xùn)練,執(zhí)行s5;反之則重復(fù)訓(xùn)練;
8.一種面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊、預(yù)處理和特征提取模塊、生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、訓(xùn)練模塊、轉(zhuǎn)換模塊;
9.根據(jù)權(quán)利要求8所述的面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng),其特征在于,所述下采樣模塊包括三個(gè)7×7下采樣卷積層,按順序其膨脹率分別為1、3、5;每個(gè)下采樣卷積層后使用leakyrelu激活函數(shù);所述梅爾頻譜卷積模塊包括一個(gè)帶權(quán)重歸一化的一維7×7卷積層,填充為3,其輸入的梅爾頻譜特征圖的長(zhǎng)度與輸出的卷積后的梅爾頻譜特征圖的長(zhǎng)度一致;