本發(fā)明涉及語音事件分類領(lǐng)域,具體涉及一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法及裝置。
背景技術(shù):
1、語音事件分類是根據(jù)收集來的音頻數(shù)據(jù)處理其中的聲音信號,分析其聲學(xué)特征并識別得到相應(yīng)的事件類別,同時將其轉(zhuǎn)換為聲學(xué)環(huán)境中事件所對應(yīng)的符號描述,進(jìn)而感知和理解周邊環(huán)境中存在的信息,是語音處理研究領(lǐng)域的一個重要分支,廣泛應(yīng)用于不同領(lǐng)域的音頻分析任務(wù)。
2、現(xiàn)有技術(shù)中,關(guān)于語音事件分類框架通常是運(yùn)用端到端模型結(jié)合交叉熵?fù)p失進(jìn)行訓(xùn)練。然而,交叉熵?fù)p失很容易受到語音中其他信息干擾,導(dǎo)致模型對部分事件類別誤判,進(jìn)而影響模型整體分類準(zhǔn)確率,并且交叉熵?fù)p失關(guān)注點(diǎn)集中在分類邊界,往往會忽略全局的表示結(jié)構(gòu),難以得到魯棒表示,極大程度降低模型泛化性,除此以外,在處理類別不平衡問題上容易受到預(yù)測頻率更高的類別影響,導(dǎo)致樣本較少的類別識別準(zhǔn)確度偏低。
3、因此,相關(guān)技術(shù)中,亟需一種能夠提高語音事件分類準(zhǔn)確性以及魯棒性的方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)存在的問題提供一種基于特征解耦和對比學(xué)習(xí)的音頻事件分類方法及裝置。
2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術(shù)方案:
3、s1:采集音頻文件以及其所屬種類,并將預(yù)處理后得到音頻波形數(shù)據(jù)作為模型輸入數(shù)據(jù)的同時生成對應(yīng)分類標(biāo)簽,構(gòu)建音頻分類數(shù)據(jù)集;
4、s2:構(gòu)建音頻分類模型acm(audio?classification?module),并通過交替訓(xùn)練的方式對模型acm參數(shù)進(jìn)行優(yōu)化;
5、音頻分類模型acm主要包括特征提取模塊afem(audio?feature?extractionmodule)、重構(gòu)解耦模塊rfdm(reconstruction&feature?disentanglement?module)和對比分類模塊clcm(contrastive?learning&classification?module):
6、特征提取模塊afem根據(jù)步驟1模型輸入數(shù)據(jù)分別得到音頻表征中的目標(biāo)粗粒度信息和非目標(biāo)粗粒度信息;
7、重構(gòu)解耦模塊rfdm根據(jù)目標(biāo)粗粒度信息與非目標(biāo)粗粒度信息的互信息上界結(jié)合重構(gòu),實(shí)現(xiàn)粗粒度信息間的無漏解耦,使其在語義空間中完全分離,完成信息解耦粒度精細(xì)化的轉(zhuǎn)變;
8、對比分類模塊clcm根據(jù)帶有mask機(jī)制的監(jiān)督式對比學(xué)習(xí)結(jié)合交叉熵,在學(xué)習(xí)解耦后的目標(biāo)細(xì)粒度信息魯棒表示的基礎(chǔ)上完成高精度分類;
9、s3、構(gòu)建音頻變分?jǐn)M合模塊vdfm(variational?distribution?fitting?module),根據(jù)目標(biāo)粗粒度信息與非目標(biāo)粗粒度信息擬合變分概率分布并得到準(zhǔn)確的互信息上界;
10、s4、將所需分類音頻輸入訓(xùn)練后的音頻分類模型acm,即可得到音頻對應(yīng)類別。
11、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述步驟1中包括以下過程:
12、s11:將音頻信號按照16khz采樣率轉(zhuǎn)換為不定長時序波形數(shù)據(jù),并根據(jù)音頻集確定對應(yīng)固定時長,保證其可覆蓋90%長度音頻;此外,過濾時長小于10%固定時長的音頻,保證音頻具有充足語義信息;
13、s12:時長不足的音頻通過增加靜音的方式補(bǔ)足時長;時長過長的音頻作為訓(xùn)練集時通過隨機(jī)采樣的方式固定音頻時長,作為測試集時通過從頭截取的方式固定音頻時長。
14、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述步驟2中特征提取模塊afem包括wav2vec?2.0模塊、目標(biāo)信息提取模塊tiem(target?information?extraction?module)和非目標(biāo)信息提取模塊ntiem(non-targetinformation?extraction?module);
15、音頻經(jīng)預(yù)處理得到音頻波形數(shù)據(jù)a={a1,a2,a3,…,at},通過加載librispeech數(shù)據(jù)集960小時預(yù)訓(xùn)練模型的wav2vec?2.0提取得到音頻表征it=wav2vec2(at),并對其在時序維度進(jìn)行全局平均池化得到壓縮音頻表征i=globalaveragepooling(it,dim=1);在此基礎(chǔ)上,分別通過目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem對壓縮音頻表征初步提取得到目標(biāo)信息粗粒度表征t=tiem(i)以及非目標(biāo)信息粗粒度表征n=ntiem(i)。
16、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述步驟3中變分?jǐn)M合模塊vdfm包括變分分布平均模塊am(average?module)和變分分布標(biāo)準(zhǔn)差模塊sdm(standard?deviation?module),主要由全連接層、relu和tanh激活函數(shù)組成;
17、本模塊假定變分分布q滿足高斯分布,通過變分分布平均值模塊am和變分分布標(biāo)準(zhǔn)差模塊sdm對變分分布進(jìn)行迭代更新,保證使用變分分布取代條件分布后,依然能通過club算法對互信息上界進(jìn)行無偏估計(jì);
18、首先目標(biāo)信息粗粒度表征通過平均模塊am和標(biāo)準(zhǔn)差模塊sdm分別得到變分分布q的均值qm=am(t)和標(biāo)準(zhǔn)差qd=sdm(t),其中d為特征維度;
19、通過變分分布均值qm、標(biāo)準(zhǔn)差qd以及非目標(biāo)信息粗粒度表征得到相應(yīng)變分分布為其中θ為網(wǎng)絡(luò)參數(shù);
20、在變分分布的基礎(chǔ)上最大化其對數(shù)似然即最小化loss=-lh達(dá)到kl(p(t,n)||qθ(t,n))≤kl(p(t)p(n)||qθ(t,n))的條件,進(jìn)而保證當(dāng)使用變分?jǐn)M合模塊輸出變分分布q代替條件分布p時,club算法所計(jì)算的目標(biāo)信息粗粒度表征t與非目標(biāo)信息粗粒度表征n之間的互信息上界ivclub(t,n)依舊有效,其中p(t,n)為t,n之間的聯(lián)合分布,p(t)為t的真實(shí)分布,p(n)為n的真實(shí)分布。
21、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述步驟2中重構(gòu)解耦模塊rfdm由解耦函數(shù)fdf(feature?disentanglementfunction)和重構(gòu)模塊rm(reconstruction?module)組成;
22、解耦函數(shù)fdf在變分分布q的均值qm、標(biāo)準(zhǔn)差qd以及非目標(biāo)信息粗粒度表征的基礎(chǔ)上,通過構(gòu)建并以此作為loss函數(shù)對目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem進(jìn)行優(yōu)化,使其能從壓縮音頻表征i精細(xì)化解耦出目標(biāo)信息細(xì)粒度表征tfine-turn=tiem(i)和非目標(biāo)信息細(xì)粒度表征nfine-turn=ntiem(i);
23、重構(gòu)模塊rm主要通過全連接層、batchnorm層以及relu激活函數(shù)組成,其輸入為拼接信息iconcat=concat([tfine-turn,nfine-turn],dim=-1),通過rm得到重構(gòu)后的壓縮音頻表征irec=rm(iconcat),旨在保留音頻信息最大化,解耦過程丟失信息最小化,實(shí)現(xiàn)整個過程無漏解耦。
24、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,變分?jǐn)M合模塊vdfm和重構(gòu)解耦模塊rfdm采用交替訓(xùn)練的方式進(jìn)行參數(shù)學(xué)習(xí),具體如下:
25、首先壓縮音頻表征i通過目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem初步提取特征得到目標(biāo)信息粗粒度表征t=tiem(i)以及非目標(biāo)信息粗粒度表征n=ntiem(i);
26、設(shè)定循環(huán)訓(xùn)練輪次超參step,在凍結(jié)目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem參數(shù)的前提下,通過損失函數(shù)逐次循環(huán)優(yōu)化變分?jǐn)M合模塊vdfm;
27、經(jīng)過step次優(yōu)化的變分?jǐn)M合模塊vdfm后,凍結(jié)變分?jǐn)M合模塊vdfm作為互信息上界提取器,并解凍目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem,根據(jù)變分?jǐn)M合模塊vdfm提取出的互信息上界ivclub(t,n)結(jié)合將拼接信息iconcat=concat([t,n],dim=-1)輸入重構(gòu)模塊rm所得到的重構(gòu)損失共同優(yōu)化目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem,以此得到目標(biāo)信息細(xì)粒度表征tfine-turn和非目標(biāo)信息細(xì)粒度表征nfine-turn。
28、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述步驟2中對比分類模塊clcm包含對比映射模塊cmm(contrastive?mappingmodule)以及類別分類模塊ccm(class?classification?module);
29、對比映射模塊cmm由全連接層以及relu激活函數(shù)組成,經(jīng)過特征解耦得到目標(biāo)信息細(xì)粒度表征tfine-turn的基礎(chǔ)上,特征映射模塊cmm將目標(biāo)信息細(xì)粒度表征tfine-turn映射至適合監(jiān)督式對比學(xué)習(xí)訓(xùn)練的隱空間,并得到對應(yīng)隱空間張量s=cmm(tfine-turn);在此基礎(chǔ)上,對s進(jìn)行歸一化操作,得到歸一化張量以此保證損失函數(shù)計(jì)算穩(wěn)定性,其中n為隱空間張量s的維度;完成上述操作后通過歸一化張量z以及其對用label構(gòu)成帶mask機(jī)制的監(jiān)督式對比學(xué)習(xí)損失函數(shù)進(jìn)行訓(xùn)練,具體公式如下:
30、
31、式中l(wèi)osssup為監(jiān)督式對比學(xué)習(xí)損失函數(shù)、i為batchsize、p(i)為正樣本集合,即標(biāo)簽相同的樣本、z為隱空間張量、τ代表溫度值、α為mask機(jī)制,mask機(jī)制對同一batch中不成對同類數(shù)據(jù)設(shè)置掩碼,確保在沒有數(shù)據(jù)增強(qiáng)情況下,利用監(jiān)督式對比學(xué)習(xí)在隱空間聚類。
32、類別分類模塊ccm的輸入為tfine-turn,并根據(jù)此輸出預(yù)測音頻類別的概率分布并由此構(gòu)建交叉熵?fù)p失函數(shù)其中c代表分類類別數(shù),yi為one-hot標(biāo)簽,模型預(yù)測的概率;
33、作為本發(fā)明的優(yōu)選方案,一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法,其特征在于,所述中對比分類模塊clcm通過uncertainty?loss算法平衡交叉熵?fù)p失和監(jiān)督式對比學(xué)習(xí)損失函數(shù)之間的權(quán)重;
34、首先構(gòu)建方差預(yù)測模塊vpm(variance?prediction?module)用于分別預(yù)測分類任務(wù)和聚類任務(wù)所對應(yīng)的方差值σce,σsupcon=vpm(),并通過方差值融合交叉熵和監(jiān)督式對比學(xué)習(xí)損失函數(shù)構(gòu)建多任務(wù)損失函數(shù)優(yōu)化分類模型的同時,實(shí)現(xiàn)任務(wù)權(quán)重自適應(yīng)。
35、一種基于特征解耦和對比學(xué)習(xí)的音頻分類裝置,其特征在于,所述裝置包括:輸入設(shè)備、輸出設(shè)備、電源、至少一個處理器、以及與所述處理器通信連接的存儲器;所屬存儲器可能同時對應(yīng)至少一個處理器指定的指令,所述指令被所述至少一個執(zhí)行器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1至8中任一項(xiàng)所述方法。
36、本發(fā)明的有益效果是:
37、(1)本發(fā)明利用wav2vec?2.0模型提取音頻中所含豐富信息,相較于傳統(tǒng)聲學(xué)特征極大程度上減少信息丟失的同時,顯著提升了模型分類準(zhǔn)確率;
38、(2)本發(fā)明提出的重構(gòu)解耦模塊(rfdm)通過重構(gòu)互信息的思想實(shí)現(xiàn)了只存在單一標(biāo)簽的前提下在特征空間解耦目標(biāo)信息和非目標(biāo)信息,減少分類過程中非目標(biāo)信息的干擾,有效提升模型分類識別精度;
39、(3)本發(fā)明提出的對比分類模塊(clcm)在進(jìn)行分類的同時,通過帶掩碼機(jī)制的監(jiān)督式對比學(xué)習(xí)損失函數(shù)使音頻特征在隱空間聚類,同類特征相互靠近、異類特征相互分離,極大增強(qiáng)了模型的泛化性;
40、(4)本發(fā)明通過uncertainty?loss算法動態(tài)平衡交叉熵?fù)p失函數(shù)和監(jiān)督式對比學(xué)習(xí)損失函數(shù)之間權(quán)重分布,讓模型在不同訓(xùn)練階段重點(diǎn)關(guān)注相應(yīng)損失函數(shù),使得損失函數(shù)優(yōu)化效果最大化。