本發(fā)明涉及音頻合成和分析、分布式光纖聲學(xué)傳感領(lǐng)域,尤其涉及一種面向das系統(tǒng)的高質(zhì)量音頻生成方法。
背景技術(shù):
1、分布式聲學(xué)傳感(distributed?acoustic?sensing,以下簡稱das)系統(tǒng)在近年來得到了廣泛應(yīng)用,通過在不同位置分布多個聲學(xué)傳感器,das系統(tǒng)能夠?qū)Νh(huán)境聲音進行全面監(jiān)測。然而,das系統(tǒng)采集到的音頻數(shù)據(jù)質(zhì)量參差不齊,通常受到環(huán)境噪聲、傳感器質(zhì)量和安裝位置等因素的影響,導(dǎo)致音頻信號存在大量噪聲和失真。這種低質(zhì)量的音頻數(shù)據(jù)在后續(xù)處理和應(yīng)用中面臨諸多挑戰(zhàn),尤其是在需要高質(zhì)量音頻輸入的場景中,其表現(xiàn)尤為不理想。高質(zhì)量音頻意味著音頻中的信號強度大于噪聲強度且失真度較低,聽覺上感受良好。
2、傳統(tǒng)的音頻處理方法依賴于大量的人工干預(yù)和復(fù)雜的預(yù)處理步驟,包括降噪、信號增強和特征提取等,這些方法不僅耗時費力,而且難以保證處理效果的一致性。尤其是在面對低質(zhì)量音頻數(shù)據(jù)時,這些傳統(tǒng)方法的局限性更加明顯,無法有效提升音頻的整體質(zhì)量。另一方面,現(xiàn)有的一些機器學(xué)習(xí)和深度學(xué)習(xí)方法在音頻處理領(lǐng)域取得了一定進展,但這些方法通常需要大量高質(zhì)量的音頻數(shù)據(jù)進行訓(xùn)練,從數(shù)據(jù)中學(xué)習(xí)到清晰和準確的音頻特征,在音頻處理領(lǐng)域,收集大量高質(zhì)量的音頻數(shù)據(jù)是一個耗時且成本高昂的過程,且這些方法對于低質(zhì)量音頻數(shù)據(jù)的處理效果仍有待提高。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種面向das系統(tǒng)的高質(zhì)量音頻生成方法。
2、具體技術(shù)方案如下:
3、一種面向das系統(tǒng)的高質(zhì)量音頻生成方法,包括以下步驟:
4、s1:針對das系統(tǒng)的多個光纖點進行數(shù)據(jù)采集和處理得到低質(zhì)量音頻數(shù)據(jù),對其進行預(yù)處理及特征提取,得到多個短時間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對,集合得到數(shù)據(jù)集d1;
5、s2:獲取高質(zhì)量音頻數(shù)據(jù),采用s1的方法對其進行預(yù)處理及特征提取,得到數(shù)據(jù)集d2;
6、s3:根據(jù)d2提取出的聲音特征,構(gòu)建高質(zhì)量音頻生成模型,高質(zhì)量音頻生成模型包括多通道輸入的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò);所述生成網(wǎng)絡(luò)根據(jù)線性插值函數(shù)和音高特征-梅爾頻譜特征數(shù)據(jù)對得到與梅爾頻譜特征長度匹配的音高特征,基于此生成多通道的信號模板后,進行下采樣和上采樣,其中第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果,后續(xù)上采樣卷積層的輸入為上一層下采樣卷積層的輸出和上采樣卷積層的輸出的拼接結(jié)果;所述判別網(wǎng)絡(luò)包括用于捕捉音頻信號的周期性特征的多周期判別器,以及用于在不同頻率上分析音頻信號細節(jié)的多分辨率判別器;
7、s4:以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò),學(xué)習(xí)高質(zhì)量音頻的先驗分布;判別網(wǎng)絡(luò)對生成網(wǎng)絡(luò)的生成信號進行判斷,并根據(jù)判斷結(jié)果計算損失函數(shù),對生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進行優(yōu)化;判斷損失函數(shù)是否小于設(shè)定閾值,若否,則重復(fù)訓(xùn)練過程;反之,則執(zhí)行s5;
8、s5:以數(shù)據(jù)集d1和d2為訓(xùn)練集,采用s4的方法對生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)進行聯(lián)合訓(xùn)練,最終得到訓(xùn)練好的高質(zhì)量音頻生成模型;
9、s6:將待處理的低質(zhì)量音頻進行預(yù)處理和特征提取后,輸入訓(xùn)練好的高質(zhì)量音頻生成模型,得到高質(zhì)量音頻。
10、進一步地,所述s1中,預(yù)處理及特征提取通過如下子步驟實現(xiàn):
11、s1.1:對音頻信號進行幅度標準化,使其具有統(tǒng)一的音量水平;對音頻信號進行均值歸一化,得到歸一化后的音頻信號xnorm(n);
12、使用滑動窗口法將xnorm(n)分割成多個短時間幀,其中,第m個短時間幀信號以xn(m)表示;
13、s1.2:采用改進的音高提取算法提取各短時間幀中音頻信號的音高特征f0;改進的音高提取算法包括語音端點檢測和高頻信號增強,具體如下:
14、s1.2.1、語音端點檢測:計算輸入的短時間幀信號的短時能量和零交叉率,再根據(jù)設(shè)定的閾值判斷該短時間幀信號是否為音頻信號;
15、第m個短時間幀信號的短時能量e(m)的表達式如下:
16、;
17、式中,r表示重疊率,表示第m個短時間幀的樣本點,n表示第m個短時間幀的幀長度;
18、短時能量的閾值表達式為:
19、;
20、式中,ρ是小于1的比例系數(shù),由人為設(shè)定;
21、第m個短時間幀信號的零交叉率z(m)的表達式如下:
22、;
23、式中,sgn(?)表示符號函數(shù),如果輸入值為正,則輸出sgn(?)為1;如果輸入值為零或負,則輸出sgn(?)為0;
24、零交叉率的閾值zthreshold由人為設(shè)定;
25、短時能量的閾值和零交叉率的閾值進行端點檢測,若vad(m)為1,則判定第m幀短時間幀信號為音頻信號,若vad(m)為0,則判定第m幀短時間幀信號為非音頻信號,并將該短時間幀信號舍去;端點檢測的判斷表達式如下:
26、;
27、s1.2.2、高頻信號增強:對于通過語音端點檢測的音頻信號,使用預(yù)加重濾波器強調(diào)高頻部分,再進行自相關(guān)計算,檢測信號中的周期性;根據(jù)自相關(guān)函數(shù)的最大值對應(yīng)的最佳周期,計算音高特征f0,表達式如下:
28、;
29、;
30、;
31、式中,xpe表示預(yù)加重后的音頻信號,α表示預(yù)加重系數(shù);r(τ)表示自相關(guān)函數(shù),τ表示時間延遲,τbest表示自相關(guān)函數(shù)最大時對應(yīng)的最佳周期;
32、s1.3、使用梅爾頻譜表示音高特征f0:對s1.2.2處理后的音頻信號進行短時傅里葉變換,并將頻譜映射到梅爾尺度上,得到梅爾頻譜特征,表達式如下:
33、;
34、;
35、式中,x(f,t)表示在頻率f和時間t下的短時傅里葉變換結(jié)果,w[?]表示窗函數(shù),n0表示窗函數(shù)起始位置,表示短時傅里葉變換的復(fù)指數(shù)項;fmel表示梅爾頻譜特征;
36、每個短時間幀得到一組f0和梅爾頻譜特征fmel,所有短時間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對的集合為數(shù)據(jù)集d1。
37、進一步地,所述生成網(wǎng)絡(luò)包括:音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù);
38、所述音高插值模塊的輸入為音高特征-梅爾頻譜特征數(shù)據(jù)對,通過線性插值函數(shù),基于音高特征f0的時間索引和f0特征值,在梅爾頻譜圖的時間索引上進行插值,得到與梅爾頻譜特征長度匹配的音高特征,表達式如下:
39、;
40、式中,ti為原始音高特征的時間索引,f0(ti)為時間索引ti處的f0特征值,tmel為梅爾頻譜圖的時間索引;
41、所述模板生成模塊用于根據(jù)與梅爾頻譜特征長度匹配的音高特征生成一個多通道的信號模板,表達式如下:
42、;
43、;
44、式中,ta(t)表示第a通道的信號模板,a(t)表示振幅,表示第a通道的相位;表示多通道信號模板的集合,c為通道數(shù),a=1,2,…,c;
45、所述下采樣模塊包括三個7×7下采樣卷積層,按順序其膨脹率分別為1、3、5;每個下采樣卷積層后使用leakyrelu激活函數(shù);
46、所述梅爾頻譜卷積模塊包括一個帶權(quán)重歸一化的一維7×7卷積層,填充為3,其輸入的梅爾頻譜特征的長度與輸出的卷積后的梅爾頻譜特征的長度一致;
47、所述上采樣模塊包括一個膨脹率為1的3×3上采樣卷積層,一個膨脹率為3的7×7上采樣卷積層,一個膨脹率為5的11×11上采樣卷積層,并在每個上采樣卷積層后使用leakyrelu激活函數(shù);第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果;
48、相同層的下采樣卷積層和上采樣卷積層通過拼接層跳越連接,所述拼接層用于將兩個輸入在通道維度上拼接;拼接層的兩個輸入分別為對應(yīng)層數(shù)的下采樣卷積層的輸出、對應(yīng)層數(shù)的上采樣卷積層的輸出,本層拼接層的輸出作為下一層上采樣卷積層的輸入。
49、進一步地,所述多周期判別器包括:頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù);所述頻譜轉(zhuǎn)換模塊用于通過短時傅里葉變換將時間域信號轉(zhuǎn)換為頻域信號;所述卷積層包括5個3×3卷積層,并在每個卷積層后使用leakyrelu激活函數(shù),其中初始卷積層用于將輸入的頻譜圖從單通道擴展到32通道,保持特征圖的空間維度;中間三個卷積層用于逐層將特征圖的通道數(shù)保持在32,以逐步減小特征圖的高度,逐層提取更深層次的特征;最后一個卷積層將輸出的通道數(shù)減少到1,以整合特征;
50、所述多分辨率判別器包括:周期處理模塊、卷積層、leakyrelu激活函數(shù);所述周期處理模塊用于根據(jù)周期列表中的周期,使時間長度能被設(shè)定的周期整除,以避免信息丟失;此過程包括反射填充以調(diào)整長度,并將一維信號轉(zhuǎn)換為二維格式;卷積層包括5個5×5卷積層,并在每個卷積層后使用leakyrelu激活函數(shù),其中初始卷積層,將輸入信號從單通道擴展到64通道,保持特征圖的空間維度;中間三個卷積層用于逐層將特征圖的通道數(shù)提升到128、256和512,以提取深層次的特征信息;最后一個卷積層將輸出通道數(shù)減少到1,以整合特征。
51、進一步地,所述s4中,以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò),具體通過如下子步驟實現(xiàn):
52、s4.1.1:根據(jù)d2中的音高特征f0,確定f0的時間索引,并得到與梅爾頻譜特征長度匹配的音高特征;使用模板生成模塊,根據(jù)梅爾頻譜特征長度匹配的音高特征生成一個多通道的信號模板;
53、s4.1.2:將多通道的信號模板進行下采樣,每次下采樣后,信號的長度減半;
54、s4.1.3:對梅爾頻譜特征進行卷積,將s4.1.2、得到的下采樣后的特征與卷積后的梅爾頻譜特征進行拼接,得到拼接后的特征c;
55、s4.1.4:對特征c進行上采樣,在第一層上采樣時,將特征c與第一層上采樣的特征進行拼接,作為下一層上采樣的輸入;之后的上采樣階段,將本層上采樣的特征與對應(yīng)層數(shù)的下采樣的特征進行拼接,作為下一層上采樣的輸入;在最后一次上采樣并完成拼接后,使用tanh作為非線性激活函數(shù),將輸出值限制在(-1,1)范圍內(nèi)。
56、進一步地,所述s4中,使用判別網(wǎng)絡(luò)對生成網(wǎng)絡(luò)的生成信號進行判斷,具體如下:
57、多通道的判別網(wǎng)絡(luò)用于同時處理多個光纖點的音頻數(shù)據(jù),其輸入原始信號為:
58、;
59、式中,表示第c個通道經(jīng)過生成網(wǎng)絡(luò)的輸出;
60、將生成的音頻信號和真實的高質(zhì)量音頻信號分別輸入到多分辨率判別器中,進行判別和特征提取,首先將兩種多通道輸入數(shù)據(jù)分別轉(zhuǎn)換為頻譜圖,然后通過三個卷積層和leakyrelu激活函數(shù),最后通過一個卷積層并展平輸出;并且根據(jù)設(shè)定的分辨率數(shù)組進行重復(fù),針對不同的分辨率重復(fù)執(zhí)行;表達式如下:
61、;
62、;
63、;
64、式中,dγ表示多分辨率判別器的第γ個卷積層,cin_3表示多分辨率判別器的第γ個卷積層的輸入通道數(shù),cout_3表示多分辨率判別器的第γ個卷積層的輸出通道數(shù),kγ_3表示多分辨率判別器的第γ個卷積層卷積核的大小,sγ_3表示多分辨率判別器的第γ個卷積層的卷積步長;ymrd為多分辨率判別器最后的輸出,根據(jù)ymrd中的第二維度判斷信號的真實性,若第二維度中的值為0,則信號為假,為1,則信號為真;
65、同時,將生成的音頻信號和真實的高質(zhì)量音頻信號分別輸入到多周期判別器中,進行判別和特征提取,輸入數(shù)據(jù)首先根據(jù)判別器的周期性進行處理,其中包括對輸入數(shù)據(jù)進行填充以確保其長度符合周期性;若輸入長度不是周期peroid的整數(shù)倍,則通過反射填充計算所需的填充量npad,表達式如下:
66、;
67、填充后,輸入數(shù)據(jù)重新排列為二維形式,表達式如下:
68、;
69、式中,view為調(diào)整維度的函數(shù),x表示填充后的輸入數(shù)據(jù);
70、接著,輸入數(shù)據(jù)通過三個卷積層和leakyrelu激活函數(shù)進行處理,其表達式如下:
71、;
72、;
73、式中,dp表示多周期判別器的第p個卷積層,cin表示多周期判別器的輸入通道數(shù),cout表示多周期判別器的輸出通道數(shù),kp表示多周期判別器的第p個卷積層卷積核的大小,sp表示多周期判別器的第p個卷積層的卷積步長;根據(jù)ympd中的第二維度判斷信號的真實性,若第二維度中的值為0,則信號為假,為1,則信號為真;
74、此過程由設(shè)定的周期數(shù)組進行控制,該過程重復(fù)執(zhí)行m次,m為周期數(shù)組中的元素個數(shù);每個周期的多周期判別器用于捕獲與該周期相對應(yīng)的時間序列特征,從而允許網(wǎng)絡(luò)在多個時間尺度上分析輸入信號。
75、進一步地,所述s4中,使用損失函數(shù),對生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進行優(yōu)化,判斷損失函數(shù)是否小于設(shè)定閾值,若是,則結(jié)束訓(xùn)練,執(zhí)行s5;反之則重復(fù)訓(xùn)練;
76、生成網(wǎng)絡(luò)的損失函數(shù)表達式如下:
77、;
78、式中,w為梅爾頻譜圖損失的權(quán)重,w大于1;lmel為基于梅爾頻譜圖的損失,lenv為基于包絡(luò)的損失;
79、基于梅爾頻譜圖的損失lmel為:
80、;
81、;
82、式中,表示高質(zhì)量音頻信號的梅爾頻譜圖的第個尺度的梅爾變換,表示生成網(wǎng)絡(luò)輸出的梅爾頻譜圖的第個尺度的梅爾變換;為第個尺度的梅爾頻譜損失,表示平滑l1損失函數(shù);
83、基于包絡(luò)的損失lenv為:
84、;
85、;
86、;
87、式中,y為高質(zhì)量音頻信號,為生成網(wǎng)絡(luò)輸出的信號,e(y)為y的包絡(luò),為的包絡(luò),e(-y)為y的負信號的包絡(luò),e(-)為的負信號的包絡(luò);表示最大池化函數(shù),表示l1損失函數(shù),計算兩個信號包絡(luò)之間的絕對差值之和;
88、判別網(wǎng)絡(luò)的損失函數(shù)ldiscriminator將基于多周期判別器的損失lmpd和基于多分辨率判別器lmrd的損失相結(jié)合,表達式如下:
89、;
90、;
91、;
92、式中,為多周期判別器對高質(zhì)量音頻信號的評分,為多周期判別器對生成信號的評分,為多分辨率判別器對高質(zhì)量音頻信號的評分,為多分辨率判別器對生成信號的評分;m為高質(zhì)量音頻信號的樣本數(shù)量,yj為第j個高質(zhì)量音頻信號的樣本,為第j個生成信號。
93、一種面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng),包括:數(shù)據(jù)采集模塊、預(yù)處理和特征提取模塊、生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、訓(xùn)練模塊、轉(zhuǎn)換模塊;
94、所述數(shù)據(jù)采集模塊用于針對das系統(tǒng)的多個光纖點數(shù)據(jù)進行數(shù)據(jù)采集和處理得到低質(zhì)量音頻數(shù)據(jù),以及獲取高質(zhì)量音頻數(shù)據(jù);
95、所述預(yù)處理和特征提取模塊用于對低質(zhì)量音頻數(shù)據(jù)進行幅度標準化、歸一化、分割為多個短時間幀后,再根據(jù)音高提取算法得到每個短時間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對,集合得到數(shù)據(jù)集d1;以及對高質(zhì)量音頻數(shù)據(jù)進行相同的操作,得到數(shù)據(jù)集d2;
96、所述生成網(wǎng)絡(luò)包括:音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù);所述音高插值模塊的輸入為音高特征-梅爾頻譜特征數(shù)據(jù)對,通過線性插值函數(shù),基于音高特征f0的時間索引和f0特征值,在梅爾頻譜圖的時間索引上進行插值,得到與梅爾頻譜特征長度匹配的音高特征;所述模板生成模塊用于根據(jù)與梅爾頻譜特征長度匹配的音高特征生成一個多通道的信號模板;所述梅爾頻譜卷積模塊用于對梅爾頻譜特征進行卷積;
97、所述下采樣模塊和上采樣模塊遵循u-net網(wǎng)絡(luò)架構(gòu),下采樣模塊包括多層下采樣卷積層,上采樣模塊包括多層上采樣卷積層;第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果,后續(xù)上采樣卷積層的輸入為上一層下采樣卷積層的輸出和上采樣卷積層的輸出的拼接結(jié)果;
98、所述判別網(wǎng)絡(luò)包括用于捕捉音頻信號的周期性特征的多周期判別器,以及用于在不同頻率上分析音頻信號細節(jié)的多分辨率判別器;所述多周期判別器包括:頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù);所述頻譜轉(zhuǎn)換模塊用于通過短時傅里葉變換將時間域信號轉(zhuǎn)換為頻域信號;所述卷積層包括5個3×3卷積層,并在每個卷積層后使用leakyrelu激活函數(shù),其中初始卷積層用于將輸入的頻譜圖從單通道擴展到32通道,保持特征圖的空間維度;中間三個卷積層用于逐層將特征圖的通道數(shù)保持在32,以逐步減小特征圖的高度,逐層提取更深層次的特征;最后一個卷積層將輸出的通道數(shù)減少到1,以整合特征;
99、所述多分辨率判別器包括:周期處理模塊、卷積層、leakyrelu激活函數(shù);所述周期處理模塊用于根據(jù)周期列表中的周期,使時間長度能被設(shè)定的周期整除,以避免信息丟失;此過程包括反射填充以調(diào)整長度,并將一維信號轉(zhuǎn)換為二維格式;卷積層包括5個5×5卷積層,并在每個卷積層后使用leakyrelu激活函數(shù),其中初始卷積層,將輸入信號從單通道擴展到64通道,保持特征圖的空間維度;中間三個卷積層用于逐層將特征圖的通道數(shù)提升到128、256和512,以提取深層次的特征信息;最后一個卷積層將輸出通道數(shù)減少到1,以整合特征;
100、所述訓(xùn)練模塊用于分階段訓(xùn)練生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),第一階段以d2為訓(xùn)練集進行訓(xùn)練,第二階段以d1和d2為訓(xùn)練集進行聯(lián)合訓(xùn)練,輸出訓(xùn)練好的高質(zhì)量音頻生成模型至轉(zhuǎn)換模塊;
101、所述轉(zhuǎn)換模塊中訓(xùn)練好的高質(zhì)量音頻生成模型的輸入為由數(shù)據(jù)采集模塊采集、預(yù)處理和特征提取模塊處理后的低質(zhì)量音頻數(shù)據(jù),輸出為高質(zhì)量音頻數(shù)據(jù)。
102、進一步地,所述下采樣模塊包括三個7×7下采樣卷積層,按順序其膨脹率分別為1、3、5;每個下采樣卷積層后使用leakyrelu激活函數(shù);所述梅爾頻譜卷積模塊包括一個帶權(quán)重歸一化的一維7×7卷積層,填充為3,其輸入的梅爾頻譜特征圖的長度與輸出的卷積后的梅爾頻譜特征圖的長度一致;
103、所述上采樣模塊包括一個膨脹率為1的3×3上采樣卷積層,一個膨脹率為3的7×7上采樣卷積層,一個膨脹率為5的11×11上采樣卷積層,并在每個上采樣卷積層后使用leakyrelu激活函數(shù);第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果;相同層的下采樣卷積層和上采樣卷積層通過拼接層跳越連接,所述拼接層用于將兩個輸入在通道維度上拼接;拼接層的兩個輸入分別為對應(yīng)層數(shù)的下采樣卷積層的輸出、對應(yīng)層數(shù)的上采樣卷積層的輸出,本層拼接層的輸出作為下一層上采樣卷積層的輸入。
104、本發(fā)明的有益效果是:
105、(1)本發(fā)明提出的面向das的高質(zhì)量音頻生成方法,可以將das輸出的包含嘈雜聲、悶音、炸音的低質(zhì)量音頻轉(zhuǎn)換為音質(zhì)更高的高質(zhì)量音頻,這一過程顯著提升了音頻的清晰度和細節(jié)表現(xiàn),使得處理后的音頻適用于高要求的應(yīng)用場景。
106、(2)本發(fā)明提出的多通道輸入和多通道判別方法,通過同時處理多個光纖點的音頻數(shù)據(jù),充分利用空間信息,提高了音頻信號的空間分辨率和一致性。多通道的判別網(wǎng)絡(luò)能夠更好地捕捉不同光纖點的音頻特征,增強音頻生成的準確性和真實感。
107、(3)本發(fā)明提出的音高提取方法,可以更有效地獲得音頻信號的關(guān)鍵特征。這些特征輸入網(wǎng)絡(luò)后,能夠更精確地進行高質(zhì)量音頻的生成,確保音頻信號的真實感和清晰度。
108、(4)本發(fā)明采用多周期判別器和多分辨率判別器相結(jié)合,從不同的時間尺度和頻率分辨率上對音頻信號進行判別和優(yōu)化。多周期判別器專注于捕捉音頻信號的周期性特征,而多分辨率判別器則能夠在不同頻率上分析音頻信號的細節(jié)。這種多層次的判別方法顯著增強了音頻生成的質(zhì)量和細節(jié),使得生成的高質(zhì)量音頻在各種應(yīng)用場景中都能表現(xiàn)出色。