本發(fā)明涉及情感識別,具體涉及一種基于深度學(xué)習的多模態(tài)情感識別方法。
背景技術(shù):
1、情感是人大腦的高級活動,是人類的一種復(fù)雜的心理和生理狀態(tài)。隨著深度學(xué)習理論的蓬勃發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)等經(jīng)典網(wǎng)絡(luò)及其變種的模型在單模態(tài)情感識別任務(wù)中大放異彩;然而社交網(wǎng)絡(luò)的持續(xù)發(fā)展,使得人們表達情感的形式也愈發(fā)多元,并且不同個體情感表達的方式存在差異,傳統(tǒng)單一的情感識別模型,如僅僅使用語音信號的時域、頻域以及相關(guān)聯(lián)特性,已經(jīng)不足以鑒別復(fù)雜的情感信息;并且,特別是語音這類依賴于單模態(tài)數(shù)據(jù)統(tǒng)計學(xué)特征的情感識別方法倚靠人類對聲音信號的提取技術(shù)的發(fā)展,這一方法不僅需要分階段單獨處理,繁瑣復(fù)雜;且不具有情感識別任務(wù)相關(guān)的特性,容易成為后續(xù)模型學(xué)習的瓶頸。為此多模態(tài)情感識別應(yīng)運而生,多模態(tài)情感識別是一種打破模態(tài)間數(shù)據(jù)壁壘,融合多種數(shù)據(jù)特征來進行情感識別的方式。一般多模態(tài)情感識別方法會在語音信號中,加入文本信息、面部表情,從而傳達出更加豐富的情感,捕獲更多可能蘊含在語音之中的信息。但現(xiàn)有的一些多模態(tài)情感識別方法,過分重視不同模態(tài)特征的融合,忽略對單一模態(tài)所蘊含的豐富情感信息的學(xué)習,導(dǎo)致模型的底層網(wǎng)絡(luò)對單模態(tài)情感信息的學(xué)習不夠充分;在特征處理階段采取拼接,權(quán)重相加等方式進行融合,過于簡單粗暴,存在信息丟失的問題,此外將情感特征和非情感特征(說話人、性別等信息)混雜在一起,輸入至上層融合模塊以及分類器,造成模型分類的困難。另外,一些多模態(tài)情感識別方法會采用多個分類器對不同的模態(tài)進行預(yù)測打分,通過投票的方法得到最終的情感預(yù)測結(jié)果;該方案容易造成模型參數(shù)量過大,帶來巨大的性能開銷。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于深度學(xué)習的多模態(tài)情感識別方法,構(gòu)建并訓(xùn)練多模態(tài)情感識別模型,將待識別數(shù)據(jù)輸入訓(xùn)練好的多模態(tài)情感識別模型輸出識別結(jié)果;所述多模態(tài)情感識別模型包括自注意力編碼器、第一交叉注意力編碼器、第二注意力編碼器、門控單元和mlp分類器;
2、所述多模態(tài)情感識別模型的訓(xùn)練過程包括以下步驟:
3、s1.獲取模態(tài)數(shù)據(jù),所述模態(tài)數(shù)據(jù)包括語音模態(tài)數(shù)據(jù)及其對應(yīng)的文本模態(tài)數(shù)據(jù);采用預(yù)訓(xùn)練模型對模態(tài)數(shù)據(jù)進行特征嵌入得到嵌入特征,所述嵌入特征包括語音嵌入特征和文本嵌入特征;
4、s2.將嵌入特征輸入自注意力編碼器得到模態(tài)內(nèi)表征,所述模態(tài)內(nèi)表征包括語音模態(tài)內(nèi)表征和文本模態(tài)內(nèi)表征;
5、s3.將模態(tài)內(nèi)表征和嵌入特征輸入第一交叉注意力編碼器得到增強表征,所述增強表征包括語音增強表征和文本增強表征;
6、s4.對增強表征進行降維操作得到情感約束表征,所述情感約束表征包括語音情感約束表征和文本情感約束表征;根據(jù)情感約束表征計算情感約束損失;
7、s5.采用第二注意力編碼器處理增強表征得到交互表征,所述交互表征包括語音交互表征和文本交互表征;
8、s6.采用門控單元融合增強表征和交互表征得到融合表征,所述融合表征包括語音融合表征和文本融合表征;將語音融合表征和文本融合表征拼接得到融合情感表征;
9、s7.對融合情感表征進行最大池化得到全局特征,將全局特征輸入mlp分類器得到每一情感類別得分;然后計算情感分類損失和監(jiān)督對比損失;
10、s8.將情感約束損失、情感分類損失和監(jiān)督對比損失進行加權(quán)求和得到總損失,根據(jù)總損失對模型參數(shù)進行優(yōu)化,直至模型參數(shù)收斂。
11、本發(fā)明的有益效果:
12、相比現(xiàn)階段使用的特征提取和模型訓(xùn)練兩階段方法而言,本發(fā)明使用預(yù)訓(xùn)練模型生成語音和文本模態(tài)的嵌入表示進行端到端模型訓(xùn)練的方法,簡化了模型前端模塊的設(shè)計復(fù)雜度。另外通過凍結(jié)預(yù)訓(xùn)練模型的參數(shù)的方法能夠避免“災(zāi)難性遺忘”問題同時減少模型的訓(xùn)練開銷。
13、相較于基于單一的語音模態(tài)數(shù)據(jù)進行情感的預(yù)測方法相比,本發(fā)明結(jié)合了語音和文本兩種模態(tài)數(shù)據(jù)進行全面的學(xué)習和交互,情感信息更全面,彌補了單一特征的固有缺陷,使得模型的魯棒性更強,準確率更高。
14、現(xiàn)有的一些多模態(tài)情感識別方法,過分強調(diào)多模態(tài)特征的融合,忽視對單一模態(tài)所蘊含的豐富情感信息的學(xué)習,導(dǎo)致模型的底層網(wǎng)絡(luò)對模態(tài)的學(xué)習不夠充分,未能充分挖掘單模態(tài)的潛力。本發(fā)明強調(diào)通過設(shè)計合理網(wǎng)絡(luò)模塊結(jié)構(gòu)和交互方式進行有效的模態(tài)內(nèi)特征學(xué)習,設(shè)計了一個模態(tài)內(nèi)學(xué)習模塊(由兩路并行的自注意力編碼器和交叉注意力編碼器組成)將通用的語音和文本表示轉(zhuǎn)換到與情感分類任務(wù)強相關(guān)的表示;其中,本發(fā)明為了確保底層模塊充分學(xué)習語音和文本中的情感信息,以情感標簽為約束,使該模塊學(xué)得與情感強相關(guān)的表示,避免了模態(tài)學(xué)習丟失和語義不一致性問題。同時設(shè)計多模態(tài)特征融合模塊(由兩路并行的交叉注意力編碼器和門控單元組成)進行多模態(tài)特征對齊和交互,得到相互補充的情感融合表示,最終通過設(shè)計多個訓(xùn)練目標(loss)對模型進行聯(lián)合訓(xùn)練,使得模型能夠?qū)W習到在特征空間中高度可分的情感表示,其中,本發(fā)明采用標簽平滑技術(shù)和監(jiān)督對比學(xué)習進行多目標聯(lián)合訓(xùn)練,通過引入多個訓(xùn)練目標有效地約束了模型,提升了類別的區(qū)分度,并同時提高了模型的泛化能力。
1.一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,構(gòu)建并訓(xùn)練多模態(tài)情感識別模型,將待識別數(shù)據(jù)輸入訓(xùn)練好的多模態(tài)情感識別模型輸出識別結(jié)果;所述多模態(tài)情感識別模型包括自注意力編碼器、第一交叉注意力編碼器、第二交叉注意力編碼器、門控單元和mlp分類器;
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,步驟s1具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,所述自注意力編碼器采用transformer編碼器;將語音嵌入特征和文本嵌入特征分布輸入自注意力編碼器,得到語音模態(tài)內(nèi)表征和文本模態(tài)內(nèi)表征。
4.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,所述第一交叉注意力編碼器包括一個多頭交叉注意力層和一個前饋層,其中在多頭交叉注意力層中以模態(tài)內(nèi)表征作為queries,以嵌入特征作為keys和values,通過多頭交叉注意力機制進行學(xué)習;步驟s3具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,步驟s4具體包括:
6.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,步驟s5采用第二交叉注意力編碼器處理增強表征得到交互表征具體包括:
7.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,步驟s6具體包括:
8.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習的多模態(tài)情感識別方法,其特征在于,情感分類損失的計算公式為: