一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法及裝置

文檔序號：40327487發(fā)布日期：2024-12-18 13:04閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音事件分類領(lǐng)域，具體涉及一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法及裝置。

背景技術(shù)：

1、語音事件分類是根據(jù)收集來的音頻數(shù)據(jù)處理其中的聲音信號，分析其聲學(xué)特征并識別得到相應(yīng)的事件類別，同時將其轉(zhuǎn)換為聲學(xué)環(huán)境中事件所對應(yīng)的符號描述，進(jìn)而感知和理解周邊環(huán)境中存在的信息，是語音處理研究領(lǐng)域的一個重要分支，廣泛應(yīng)用于不同領(lǐng)域的音頻分析任務(wù)。

2、現(xiàn)有技術(shù)中，關(guān)于語音事件分類框架通常是運(yùn)用端到端模型結(jié)合交叉熵?fù)p失進(jìn)行訓(xùn)練。然而，交叉熵?fù)p失很容易受到語音中其他信息干擾，導(dǎo)致模型對部分事件類別誤判，進(jìn)而影響模型整體分類準(zhǔn)確率，并且交叉熵?fù)p失關(guān)注點(diǎn)集中在分類邊界，往往會忽略全局的表示結(jié)構(gòu)，難以得到魯棒表示，極大程度降低模型泛化性，除此以外，在處理類別不平衡問題上容易受到預(yù)測頻率更高的類別影響，導(dǎo)致樣本較少的類別識別準(zhǔn)確度偏低。

3、因此，相關(guān)技術(shù)中，亟需一種能夠提高語音事件分類準(zhǔn)確性以及魯棒性的方法。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明針對現(xiàn)有技術(shù)存在的問題提供一種基于特征解耦和對比學(xué)習(xí)的音頻事件分類方法及裝置。

2、為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明提供以下技術(shù)方案：

3、s1：采集音頻文件以及其所屬種類，并將預(yù)處理后得到音頻波形數(shù)據(jù)作為模型輸入數(shù)據(jù)的同時生成對應(yīng)分類標(biāo)簽，構(gòu)建音頻分類數(shù)據(jù)集；

4、s2：構(gòu)建音頻分類模型acm(audio?classification?module)，并通過交替訓(xùn)練的方式對模型acm參數(shù)進(jìn)行優(yōu)化；

5、音頻分類模型acm主要包括特征提取模塊afem(audio?feature?extractionmodule)、重構(gòu)解耦模塊rfdm(reconstruction&feature?disentanglement?module)和對比分類模塊clcm(contrastive?learning&classification?module)：

6、特征提取模塊afem根據(jù)步驟1模型輸入數(shù)據(jù)分別得到音頻表征中的目標(biāo)粗粒度信息和非目標(biāo)粗粒度信息；

7、重構(gòu)解耦模塊rfdm根據(jù)目標(biāo)粗粒度信息與非目標(biāo)粗粒度信息的互信息上界結(jié)合重構(gòu)，實(shí)現(xiàn)粗粒度信息間的無漏解耦，使其在語義空間中完全分離，完成信息解耦粒度精細(xì)化的轉(zhuǎn)變；

8、對比分類模塊clcm根據(jù)帶有mask機(jī)制的監(jiān)督式對比學(xué)習(xí)結(jié)合交叉熵，在學(xué)習(xí)解耦后的目標(biāo)細(xì)粒度信息魯棒表示的基礎(chǔ)上完成高精度分類；

9、s3、構(gòu)建音頻變分?jǐn)M合模塊vdfm(variational?distribution?fitting?module)，根據(jù)目標(biāo)粗粒度信息與非目標(biāo)粗粒度信息擬合變分概率分布并得到準(zhǔn)確的互信息上界；

10、s4、將所需分類音頻輸入訓(xùn)練后的音頻分類模型acm，即可得到音頻對應(yīng)類別。

11、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述步驟1中包括以下過程：

12、s11：將音頻信號按照16khz采樣率轉(zhuǎn)換為不定長時序波形數(shù)據(jù)，并根據(jù)音頻集確定對應(yīng)固定時長，保證其可覆蓋90％長度音頻；此外，過濾時長小于10％固定時長的音頻，保證音頻具有充足語義信息；

13、s12：時長不足的音頻通過增加靜音的方式補(bǔ)足時長；時長過長的音頻作為訓(xùn)練集時通過隨機(jī)采樣的方式固定音頻時長，作為測試集時通過從頭截取的方式固定音頻時長。

14、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述步驟2中特征提取模塊afem包括wav2vec?2.0模塊、目標(biāo)信息提取模塊tiem(target?information?extraction?module)和非目標(biāo)信息提取模塊ntiem(non-targetinformation?extraction?module)；

15、音頻經(jīng)預(yù)處理得到音頻波形數(shù)據(jù)a＝{a1,a2,a3,…,at}，通過加載librispeech數(shù)據(jù)集960小時預(yù)訓(xùn)練模型的wav2vec?2.0提取得到音頻表征it＝wav2vec2(at)，并對其在時序維度進(jìn)行全局平均池化得到壓縮音頻表征i＝globalaveragepooling(it,dim＝1)；在此基礎(chǔ)上，分別通過目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem對壓縮音頻表征初步提取得到目標(biāo)信息粗粒度表征t＝tiem(i)以及非目標(biāo)信息粗粒度表征n＝ntiem(i)。

16、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述步驟3中變分?jǐn)M合模塊vdfm包括變分分布平均模塊am(average?module)和變分分布標(biāo)準(zhǔn)差模塊sdm(standard?deviation?module)，主要由全連接層、relu和tanh激活函數(shù)組成；

17、本模塊假定變分分布q滿足高斯分布，通過變分分布平均值模塊am和變分分布標(biāo)準(zhǔn)差模塊sdm對變分分布進(jìn)行迭代更新，保證使用變分分布取代條件分布后，依然能通過club算法對互信息上界進(jìn)行無偏估計(jì)；

18、首先目標(biāo)信息粗粒度表征通過平均模塊am和標(biāo)準(zhǔn)差模塊sdm分別得到變分分布q的均值qm＝am(t)和標(biāo)準(zhǔn)差qd＝sdm(t)，其中d為特征維度；

19、通過變分分布均值qm、標(biāo)準(zhǔn)差qd以及非目標(biāo)信息粗粒度表征得到相應(yīng)變分分布為其中θ為網(wǎng)絡(luò)參數(shù)；

20、在變分分布的基礎(chǔ)上最大化其對數(shù)似然即最小化loss＝-lh達(dá)到kl(p(t,n)||qθ(t,n))≤kl(p(t)p(n)||qθ(t,n))的條件，進(jìn)而保證當(dāng)使用變分?jǐn)M合模塊輸出變分分布q代替條件分布p時，club算法所計(jì)算的目標(biāo)信息粗粒度表征t與非目標(biāo)信息粗粒度表征n之間的互信息上界ivclub(t,n)依舊有效，其中p(t,n)為t,n之間的聯(lián)合分布，p(t)為t的真實(shí)分布，p(n)為n的真實(shí)分布。

21、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述步驟2中重構(gòu)解耦模塊rfdm由解耦函數(shù)fdf(feature?disentanglementfunction)和重構(gòu)模塊rm(reconstruction?module)組成；

22、解耦函數(shù)fdf在變分分布q的均值qm、標(biāo)準(zhǔn)差qd以及非目標(biāo)信息粗粒度表征的基礎(chǔ)上，通過構(gòu)建并以此作為loss函數(shù)對目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem進(jìn)行優(yōu)化，使其能從壓縮音頻表征i精細(xì)化解耦出目標(biāo)信息細(xì)粒度表征tfine-turn＝tiem(i)和非目標(biāo)信息細(xì)粒度表征nfine-turn＝ntiem(i)；

23、重構(gòu)模塊rm主要通過全連接層、batchnorm層以及relu激活函數(shù)組成，其輸入為拼接信息iconcat＝concat([tfine-turn,nfine-turn],dim＝-1)，通過rm得到重構(gòu)后的壓縮音頻表征irec＝rm(iconcat)，旨在保留音頻信息最大化，解耦過程丟失信息最小化，實(shí)現(xiàn)整個過程無漏解耦。

24、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，變分?jǐn)M合模塊vdfm和重構(gòu)解耦模塊rfdm采用交替訓(xùn)練的方式進(jìn)行參數(shù)學(xué)習(xí)，具體如下：

25、首先壓縮音頻表征i通過目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem初步提取特征得到目標(biāo)信息粗粒度表征t＝tiem(i)以及非目標(biāo)信息粗粒度表征n＝ntiem(i)；

26、設(shè)定循環(huán)訓(xùn)練輪次超參step，在凍結(jié)目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem參數(shù)的前提下，通過損失函數(shù)逐次循環(huán)優(yōu)化變分?jǐn)M合模塊vdfm；

27、經(jīng)過step次優(yōu)化的變分?jǐn)M合模塊vdfm后，凍結(jié)變分?jǐn)M合模塊vdfm作為互信息上界提取器，并解凍目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem，根據(jù)變分?jǐn)M合模塊vdfm提取出的互信息上界ivclub(t,n)結(jié)合將拼接信息iconcat＝concat([t,n],dim＝-1)輸入重構(gòu)模塊rm所得到的重構(gòu)損失共同優(yōu)化目標(biāo)信息提取模塊tiem和非目標(biāo)信息提取模塊ntiem，以此得到目標(biāo)信息細(xì)粒度表征tfine-turn和非目標(biāo)信息細(xì)粒度表征nfine-turn。

28、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述步驟2中對比分類模塊clcm包含對比映射模塊cmm(contrastive?mappingmodule)以及類別分類模塊ccm(class?classification?module)；

29、對比映射模塊cmm由全連接層以及relu激活函數(shù)組成，經(jīng)過特征解耦得到目標(biāo)信息細(xì)粒度表征tfine-turn的基礎(chǔ)上，特征映射模塊cmm將目標(biāo)信息細(xì)粒度表征tfine-turn映射至適合監(jiān)督式對比學(xué)習(xí)訓(xùn)練的隱空間，并得到對應(yīng)隱空間張量s＝cmm(tfine-turn)；在此基礎(chǔ)上，對s進(jìn)行歸一化操作，得到歸一化張量以此保證損失函數(shù)計(jì)算穩(wěn)定性，其中n為隱空間張量s的維度；完成上述操作后通過歸一化張量z以及其對用label構(gòu)成帶mask機(jī)制的監(jiān)督式對比學(xué)習(xí)損失函數(shù)進(jìn)行訓(xùn)練，具體公式如下：

30、

31、式中l(wèi)osssup為監(jiān)督式對比學(xué)習(xí)損失函數(shù)、i為batchsize、p(i)為正樣本集合，即標(biāo)簽相同的樣本、z為隱空間張量、τ代表溫度值、α為mask機(jī)制，mask機(jī)制對同一batch中不成對同類數(shù)據(jù)設(shè)置掩碼，確保在沒有數(shù)據(jù)增強(qiáng)情況下，利用監(jiān)督式對比學(xué)習(xí)在隱空間聚類。

32、類別分類模塊ccm的輸入為tfine-turn，并根據(jù)此輸出預(yù)測音頻類別的概率分布并由此構(gòu)建交叉熵?fù)p失函數(shù)其中c代表分類類別數(shù)，yi為one-hot標(biāo)簽，模型預(yù)測的概率；

33、作為本發(fā)明的優(yōu)選方案，一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法，其特征在于，所述中對比分類模塊clcm通過uncertainty?loss算法平衡交叉熵?fù)p失和監(jiān)督式對比學(xué)習(xí)損失函數(shù)之間的權(quán)重；

34、首先構(gòu)建方差預(yù)測模塊vpm(variance?prediction?module)用于分別預(yù)測分類任務(wù)和聚類任務(wù)所對應(yīng)的方差值σce,σsupcon＝vpm()，并通過方差值融合交叉熵和監(jiān)督式對比學(xué)習(xí)損失函數(shù)構(gòu)建多任務(wù)損失函數(shù)優(yōu)化分類模型的同時，實(shí)現(xiàn)任務(wù)權(quán)重自適應(yīng)。

35、一種基于特征解耦和對比學(xué)習(xí)的音頻分類裝置，其特征在于，所述裝置包括：輸入設(shè)備、輸出設(shè)備、電源、至少一個處理器、以及與所述處理器通信連接的存儲器；所屬存儲器可能同時對應(yīng)至少一個處理器指定的指令，所述指令被所述至少一個執(zhí)行器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1至8中任一項(xiàng)所述方法。

36、本發(fā)明的有益效果是：

37、(1)本發(fā)明利用wav2vec?2.0模型提取音頻中所含豐富信息，相較于傳統(tǒng)聲學(xué)特征極大程度上減少信息丟失的同時，顯著提升了模型分類準(zhǔn)確率；

38、(2)本發(fā)明提出的重構(gòu)解耦模塊(rfdm)通過重構(gòu)互信息的思想實(shí)現(xiàn)了只存在單一標(biāo)簽的前提下在特征空間解耦目標(biāo)信息和非目標(biāo)信息，減少分類過程中非目標(biāo)信息的干擾，有效提升模型分類識別精度；

39、(3)本發(fā)明提出的對比分類模塊(clcm)在進(jìn)行分類的同時，通過帶掩碼機(jī)制的監(jiān)督式對比學(xué)習(xí)損失函數(shù)使音頻特征在隱空間聚類，同類特征相互靠近、異類特征相互分離，極大增強(qiáng)了模型的泛化性；

40、(4)本發(fā)明通過uncertainty?loss算法動態(tài)平衡交叉熵?fù)p失函數(shù)和監(jiān)督式對比學(xué)習(xí)損失函數(shù)之間權(quán)重分布，讓模型在不同訓(xùn)練階段重點(diǎn)關(guān)注相應(yīng)損失函數(shù)，使得損失函數(shù)優(yōu)化效果最大化。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林毅,熊一璠,郭東岳,楊慧
技術(shù)所有人：四川大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于特征解耦和對比學(xué)習(xí)的音頻分類方法及裝置