本發(fā)明屬于多模態(tài)情感分析,尤其涉及基于混合對比學(xué)習(xí)及多任務(wù)學(xué)習(xí)的多模態(tài)情感分析方法
背景技術(shù):
1、多模態(tài)情感分析(multimodal?sentiment?analysis,msa)是一種基于多種模態(tài)數(shù)據(jù)(如文本、圖像、語音等)進行情感分析的方法,它旨在幫助人們更全面地理解人類情感表達,精確判斷情感狀態(tài)。
2、多模態(tài)情感分析在近年來受到了廣泛的關(guān)注,相較于傳統(tǒng)的單模態(tài)情感分析方法,msa在穩(wěn)健性方面展現(xiàn)出了顯著的優(yōu)勢,尤其是在社交媒體數(shù)據(jù)的處理上取得了突破性的進展。隨著用戶生成內(nèi)容的爆炸性增長,msa已經(jīng)被廣泛應(yīng)用于多個領(lǐng)域,包括但不限于社交媒體監(jiān)控、客戶服務(wù)以及視頻內(nèi)容的轉(zhuǎn)錄工作。這種分析方法通過整合來自不同模態(tài)的信息,如文本、音頻和視覺數(shù)據(jù),能夠更全面地捕捉和解析用戶的情感狀態(tài),從而提高了情感識別的準(zhǔn)確性和可靠性。
3、如今,多模態(tài)情感分析的研究重點在于如何有效地學(xué)習(xí)聯(lián)合表征。研究者們從基于張量的方法發(fā)展到基于注意力機制的方法,不斷致力于設(shè)計能夠捕捉跨模態(tài)信息交互的模塊,并利用多模態(tài)表示來訓(xùn)練模型。然而,僅僅依賴多模態(tài)表示來訓(xùn)練模型往往會導(dǎo)致次優(yōu)性能。這主要是因為msa基準(zhǔn)數(shù)據(jù)集中缺乏單峰注釋(即單模態(tài)注釋),使得模型難以捕捉到特定于單模態(tài)的信息。統(tǒng)一的多模態(tài)標(biāo)簽并不總是適合單模態(tài)學(xué)習(xí),這限制了模型對每個單模態(tài)深入理解的能力。一些研究者為了解決這個問題,也進行了許多嘗試。yu等人提出了self-mm,這個方法的核心是計算模態(tài)表示與類別質(zhì)心的距離,而這個度量與模型輸出呈正相關(guān)性。與此同時,han等人提出了mmim方法,通過增加單模態(tài)表示間的互信息以及融合嵌入與單模態(tài)表示間的共享信息,從而增強了多模態(tài)融合的效果。此外,yewon等人提出了sugrm,使用重新校準(zhǔn)信息生成具有動態(tài)調(diào)整特征的單峰注釋。盡管上述方法在一定程度上取得了效果,但在缺乏單模態(tài)注釋的情境下,單模態(tài)特征的學(xué)習(xí)以及多模態(tài)特征的優(yōu)化的效果仍不夠理想,導(dǎo)致多模態(tài)情感分析結(jié)果的有效性仍有待提升。
4、因此,怎樣才能更好的學(xué)習(xí)單模態(tài)特征表示、優(yōu)化多模態(tài)特征表示,從而提升多模態(tài)情感分析結(jié)果的有效性,成為目前亟待解決的問題。
技術(shù)實現(xiàn)思路
1、針對上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于混合對比學(xué)習(xí)及多任務(wù)學(xué)習(xí)的多模態(tài)情感分析方法,可以更好的學(xué)習(xí)單模態(tài)特征表示、優(yōu)化多模態(tài)特征表示,從而提升多模態(tài)情感分析結(jié)果的有效性。
2、為了解決上述技術(shù)問題,本發(fā)明采用了如下的技術(shù)方案:
3、基于混合對比學(xué)習(xí)及多任務(wù)學(xué)習(xí)的多模態(tài)情感分析方法,包括以下步驟:
4、s1、構(gòu)建多模態(tài)情感分析模型,用于生成多模態(tài)預(yù)測標(biāo)簽
5、多模態(tài)情感分析模型包括單峰特征提取模塊、單峰特征增強模塊ufem、稀疏相控變壓器spt、特征融合模塊、多模態(tài)標(biāo)簽預(yù)測模塊、以及單模態(tài)標(biāo)簽生成模塊ulgm;
6、單峰特征提取模塊用于基于輸入的多模態(tài)信息is提取各類模態(tài)特征其中,s∈{t,a,v},t表示文本模態(tài)、a表示音頻模態(tài)、v表示視覺模態(tài);
7、單峰特征增強模塊ufem用于對各類模態(tài)特征進行增強,得到對應(yīng)的模態(tài)增強特征稀疏相控變壓器spt用于從各模態(tài)增強特征中提煉出各自的最終特征表示,得到各模態(tài)最終特征特征融合模塊用于對各模態(tài)最終特征進行融合,得到多模態(tài)特征多模態(tài)標(biāo)簽預(yù)測模塊用于基于多模態(tài)特征得到多模態(tài)預(yù)測標(biāo)簽
8、單模態(tài)標(biāo)簽生成模塊ulgm用于基于多模態(tài)特征各單模態(tài)特征以及人工設(shè)置的多模態(tài)標(biāo)簽ym生成各單模態(tài)標(biāo)簽ys;其中,各單模態(tài)特征由各類模態(tài)特征映射到公共語義特征空間中得到;
9、s2、基于多任務(wù)學(xué)習(xí)及混合對比學(xué)習(xí),對s1構(gòu)建的多模態(tài)情感分析模型進行訓(xùn)練;
10、其中,多任務(wù)學(xué)習(xí)包括,基于人工標(biāo)注的多模態(tài)標(biāo)簽ym和多模態(tài)預(yù)測標(biāo)簽的多模態(tài)學(xué)習(xí),以及基于ulgm生成的各單模態(tài)標(biāo)簽ys和對應(yīng)的單模態(tài)預(yù)測標(biāo)簽的單模態(tài)學(xué)習(xí);
11、混合對比學(xué)習(xí)包括,通過無監(jiān)督對比學(xué)習(xí)增強多模態(tài)融合的表示能力,并通過有監(jiān)督對比學(xué)習(xí)提升模型在缺乏單模態(tài)注釋時的性能;
12、s3、實際工作時,將包括文本信息、聲音信息和視覺信息的多源信息輸入s2訓(xùn)練后的多模態(tài)情感分析模型中,得到對應(yīng)的多模態(tài)預(yù)測標(biāo)簽,用于對應(yīng)的多模態(tài)情感分析工作。
13、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下有益效果:
14、1、本方法構(gòu)建的多模態(tài)情感分析模型,在單模態(tài)標(biāo)注缺失的情況下,通過ufem,增強了對顯著特征的識別,并通過稀疏相控變壓器spt從各模態(tài)增強特征中提煉出各自的最終特征表示,得到各模態(tài)最終特征這樣的設(shè)置,有效地提高了單模態(tài)特征的表示學(xué)習(xí)。
15、2、本方法對多模態(tài)情感分析模型進行訓(xùn)練時,使用了一種混合對比學(xué)習(xí)策略,可以深入探索融合的多模態(tài)特征以及各單模態(tài)特征與情感標(biāo)簽之間的內(nèi)在聯(lián)系。
16、3、本方法對多模態(tài)情感分析模型進行訓(xùn)練時,使用混合對比學(xué)習(xí)策略來促進多模態(tài)數(shù)據(jù)的學(xué)習(xí)表示,通過無監(jiān)督對比學(xué)習(xí)增強多模態(tài)融合的表示能力,并通過有監(jiān)督對比學(xué)習(xí)提升模型在缺乏單模態(tài)注釋時的性能。
17、4、本方法提出了一種單模態(tài)標(biāo)簽生成模塊ulgm,該模塊可以在較短的訓(xùn)練周期內(nèi)實現(xiàn)了單模態(tài)標(biāo)簽的穩(wěn)定生成,從而保證對多模態(tài)情感分析模型進行訓(xùn)練的有效性。
18、綜上,本方法可以更好的學(xué)習(xí)單模態(tài)特征表示、優(yōu)化多模態(tài)特征表示,從而提升多模態(tài)情感分析結(jié)果的有效性。
19、優(yōu)選地,單峰特征增強模塊ufem的工作過程包括:
20、首先,對各類模態(tài)特征進行全局平均池化操作,以獲得通道級別的統(tǒng)計信息,作為壓縮特征ss:
21、
22、其中,ls是序列長度,ds是模態(tài)性的特征維度;d=1,2,..,ds;
23、然后,將壓縮特征ss連接并饋送到一系列完全連接的網(wǎng)絡(luò)和relu中,以得到全局多模態(tài)嵌入sg:
24、sg=relu(wz[st;sa;sv]+bz);
25、其中,wz表示全連接網(wǎng)絡(luò)的權(quán)重矩陣;bz為全連接網(wǎng)絡(luò)的偏置項;
26、再然后,將全局多模態(tài)嵌入sg輸入通過注意力機制模塊cbam進行處理,得到增強特征
27、然后,通過一個全連接層恢復(fù)至各原始模態(tài)特征的維度:
28、
29、其中,ws和bs分別表示全連接網(wǎng)絡(luò)的權(quán)重矩陣和偏置項;
30、最后,結(jié)合門控機制對各類模態(tài)特征進行重新校準(zhǔn),得到對應(yīng)的模態(tài)增強特征
31、其中,σ表示sigmoid函數(shù),表示元素乘法。
32、這樣的設(shè)置,可以確保在特征重要性調(diào)整過程中,重要特征能夠得到更多的關(guān)注。ufem將注意力機制模塊cbam引入到多模態(tài)特征的處理過程中,可以有效的增強特征表達。
33、優(yōu)選地,注意力機制模塊cbam包括通道注意力模塊和空間注意力模塊;注意力機制模塊cbam對全局多模態(tài)嵌入sg的處理過程包括:
34、首先,在通過注意力模塊中,通過平均池化和最大池化,將sg壓縮為兩個一維向量,然后通過一個共享的多層感知機mlp,最后通過sigmoid函數(shù)歸一化到[0,1]區(qū)間內(nèi),得到mcam:
35、mcam=σ(mlp(avgpool(sg))+mlp(maxpool(sg)));
36、其中,σ表示sigmoid函數(shù);avgpool表示平均池化;maxpool表示最大池化;
37、之后,在空間注意力模塊中,再次進行平均池化和最大池化聚合特征信息,并通過一個7×7大小的卷積層生成二維空間注意力圖msam:
38、msam=σ(f7×7([avgpool(mcam);maxpool(mcam)]));
39、其中,f7×7代表7×7大小的卷積層;
40、然后,得到加權(quán)調(diào)整后的增強特征
41、
42、其中,表示元素乘法。
43、這樣,通過cbam的通道注意力模塊、空間注意力模塊的處理后,可以有效的加強對關(guān)鍵特征的關(guān)注,從而保證后續(xù)得到的的有效性。
44、優(yōu)選地,稀疏相控變壓器spt處理得到各模態(tài)最終特征的表達式為:
45、
46、其中,θspt為spt的可學(xué)習(xí)參數(shù);
47、特征融合模塊對各模態(tài)最終特征進行融合得到多模態(tài)特征的表達式為:
48、
49、其中,分別表示文本、音頻和視覺模態(tài)的最終特征向量,和為對應(yīng)的融合權(quán)重矩陣和偏置項;
50、多模態(tài)標(biāo)簽預(yù)測模塊基于多模態(tài)特征得到多模態(tài)預(yù)測標(biāo)簽的表達式為:
51、
52、其中,和分別表示對應(yīng)的權(quán)重矩陣和偏置項。
53、這樣,在多模態(tài)任務(wù)中,通過spt從不同模態(tài)的數(shù)據(jù)中提煉出各自的最終特征表示,再將各個模態(tài)的最終特征向量連接起來,并通過線性變換將其映射至較低維度的空間,可以保證得到的多模態(tài)特征的有效性,進而保證多模態(tài)學(xué)習(xí)的有效性。
54、優(yōu)選地,s2的多任務(wù)學(xué)習(xí)中,單模態(tài)學(xué)習(xí)中的單模態(tài)預(yù)測標(biāo)簽的生成過程包括:
55、首先,將各類模態(tài)特征映射到公共語義特征空間得到各單模態(tài)特征
56、其中,為公共語義特征空間的權(quán)重矩陣;為公共語義特征空間的偏置項;
57、之后,針對各單模態(tài)特征通過各自獨立的全連接層網(wǎng)絡(luò)進一步處理,得到每個模態(tài)對應(yīng)的情感預(yù)測輸出
58、
59、其中,為全連接層網(wǎng)絡(luò)的權(quán)重矩陣;為全連接層網(wǎng)絡(luò)的偏置項。
60、這個,可以保證單模態(tài)學(xué)習(xí)的有效性。
61、優(yōu)選地,s2的混合對比學(xué)習(xí)中,無監(jiān)督對比學(xué)習(xí)的損失函數(shù)為:
62、
63、式中,分別表示文本模態(tài)特征音頻模態(tài)特征和視覺模態(tài)特征與多模態(tài)特征間的對比學(xué)習(xí)損失;
64、單個模態(tài)特征與多模態(tài)特征間的對比學(xué)習(xí)損失的計算式為:
65、
66、式中,n是批次中的樣本數(shù)量;表示整個數(shù)據(jù)集求平均的交叉熵;j代表批次中第j個樣本。
67、
68、其中,
69、式中,表示一個具有參數(shù)的神經(jīng)網(wǎng)絡(luò),用于從生成的預(yù)測;||·||2表示l2歸一化。
70、這樣,利用帶有歸一化預(yù)測向量和真實向量的函數(shù)corr來衡量與之間的相關(guān)性,可以有效的建立從融合特征回溯至各個單模態(tài)輸入的有效映射。
71、優(yōu)選地,s2的混合對比學(xué)習(xí)中,有監(jiān)督對比學(xué)習(xí)的損失函數(shù)的計算式為:
72、
73、其中,
74、
75、式中,表示一批樣本的指數(shù);τ∈r+表示用于控制樣本之間距離的溫度系數(shù);p(i)=ij=i-{i}表示與i具有相同情感類別但不包括i本身的樣本的數(shù)量;a(i)=i-{i}表示一批樣本中除其本身以外的樣本;zi是融合特征表示,zp是單個模態(tài)的特征表示。
76、這樣,多模態(tài)情感分析模型可以捕獲不同模態(tài)間與特定情感類別相關(guān)的潛在語義關(guān)聯(lián),并在缺乏單模態(tài)細粒度標(biāo)注的情況下,仍然能結(jié)合多個模態(tài)信息完成有效的情感識別任務(wù)。
77、優(yōu)選地,s2中對多模態(tài)情感分析模型進行訓(xùn)練時,整體損失函數(shù)的表達式為:
78、
79、式中,λ0、λ1和λ2分別為對應(yīng)的權(quán)重;
80、
81、式中,n是訓(xùn)練樣本的數(shù)量;為輔助任務(wù)s的第i個樣本的權(quán)重;tanh表示正切函數(shù);輔助任務(wù)s為三個獨立的單模態(tài)任務(wù),分別對應(yīng)文本、音頻和視覺模態(tài)任務(wù)。
82、這樣,可以平衡不同損失項對模型優(yōu)化的貢獻,以保證模型訓(xùn)練的有效性。
83、優(yōu)選地,單模態(tài)標(biāo)簽生成模塊ulgm生成單模態(tài)標(biāo)簽ys的表達式為:
84、
85、式中,表示與在標(biāo)簽空間所對應(yīng)的標(biāo)簽之間的距離;
86、direction表示相對于的偏移方向;
87、
88、為預(yù)設(shè)的無監(jiān)督對比學(xué)習(xí)空間內(nèi)的最大距離;
89、為無監(jiān)督對比學(xué)習(xí)空間中與之間的距離;
90、α為標(biāo)簽空間權(quán)重系數(shù);β為無監(jiān)督對比學(xué)習(xí)空間權(quán)重系數(shù)。
91、優(yōu)選地,direction的計算式為:
92、
93、其中,
94、式中,||·||為l2歸一化;表示公共語義特征空間中帶有正標(biāo)記的多模態(tài)特征的平均值;表示公共語義特征空間中帶有負標(biāo)記的多模態(tài)特征的平均值;
95、的計算式為:
96、
97、式中,為與在公共語義特征空間中的距離;為預(yù)設(shè)的公共語義特征空間內(nèi)的最大距離;為標(biāo)簽空間中正向標(biāo)簽值域與負向標(biāo)簽值域的距離。
98、的計算式為:
99、
100、為預(yù)設(shè)的公共語義特征空間內(nèi)的最大距離。
101、這樣,結(jié)合多模態(tài)標(biāo)簽信息和不同模態(tài)的內(nèi)在表征特性,以生成每個獨立模態(tài)的精確標(biāo)簽。首先,在公共語義特征空間中,兩個特征之間的距離與標(biāo)簽空間中相應(yīng)標(biāo)簽之間的距離成比例。在其基礎(chǔ)上,本方法提出了無監(jiān)督對比學(xué)習(xí)空間(unsupervisedcontrastivelearning?space,ucl?space),在ucl?space中,不同模態(tài)的數(shù)據(jù)將會被映射到一個共享的表征空間內(nèi),相同的模態(tài)數(shù)據(jù)會靠得更近,而不同的數(shù)據(jù)則相隔更遠。通過衡量從多模態(tài)特征到各個單模態(tài)特征之間的距離,來確定單模態(tài)標(biāo)簽ys相對多模態(tài)標(biāo)簽ym的偏差量(重點在與偏差的幅度與方向)。
102、優(yōu)選地,單峰特征提取模塊包括文本特征子模態(tài)、音頻特征子模塊和視覺特征子模塊;文本特征子模態(tài)用于從文本模態(tài)信息中提取文本模態(tài)特征;音頻特征子模塊用于從音頻模態(tài)信息中提取音頻模態(tài)特征;視覺特征子模塊用于從視覺模態(tài)信息中提取視覺模態(tài)特征。
103、這樣,可以保證單峰特征提取模塊從多模態(tài)信息is提取各類模態(tài)特征的有效性。