本發(fā)明屬于微表情識別領域,特別是涉及一種基于雙特征融合的微表情識別方法及系統(tǒng)。
背景技術:
1、微表情識別在情感計算中扮演著不可或缺的角色,其目標是通過計算機技術識別低強度、短時間的自發(fā)表情。盡管經(jīng)過數(shù)十年的發(fā)展,由于微表情的天然特性,特征學習的難度和數(shù)據(jù)稀缺性仍然限制了它的進展。傳統(tǒng)的手工設計特征(如光流(liong?s?t,?seej,?wong?k?s,?et?al.?less?is?more:?micro-expression?recognition?from?videousing?apex?frame[j].?signal?processing:?image?communication,?2018,?62:?82-92.)和局部二值模式(pfister?t,?li?x,?zhao?g,?et?al.?recognising?spontaneousfacial?micro-expressions[c]//2011?international?conference?on?computervision.?ieee,?2011:?1449-1456.))在微表情識別中廣泛應用,但這些通用特征并非專門為微表情設計的,因此容易受到噪聲信息的干擾,缺乏足夠的魯棒性來表達微表情的運動變化。近期研究嘗試使用深度學習方法,從關鍵幀(發(fā)生幀和峰值幀)中獲取微表情的運動表示。
2、由于微表情的特性,真實情感表現(xiàn)得極為隱蔽,通常伴隨較小幅度的變化。大多數(shù)研究強調(diào)局部信息的重要性,但過度關注顯著的變化可能導致模型忽視其他重要信息。例如,模型可能會更關注嘴角的大幅運動,而忽略眼部區(qū)域的微小變化。此外,由于微表情數(shù)據(jù)的采集難度大,標注數(shù)據(jù)不足,難以訓練完全監(jiān)督的深度模型。雖然自監(jiān)督學習方法能夠利用未標注數(shù)據(jù),但當前的方法也多集中于局部區(qū)域,缺乏對微表情的完整表示。
技術實現(xiàn)思路
1、針對以上問題,本發(fā)明提出一種基于雙特征融合的微表情識別方法及系統(tǒng),通過微表情圖像特征提取器提取發(fā)生幀和峰值幀特征。本發(fā)明考慮了兩種互補的特征,使用梯度特征學習模塊計算微表情梯度特征,使用運動特征學習模塊計算微表情運動特征,結合可學習的融合系數(shù)獲得完整的特征,最后將特征輸入分類器進行情感識別。
2、本發(fā)明至少通過如下技術方案之一實現(xiàn)。
3、一種基于雙特征融合的微表情識別方法,包括以下步驟:
4、s1、獲取用于訓練的微表情數(shù)據(jù);
5、s2、使用微表情圖像特征提取器獲取微表情單幀特征;
6、s3、獲取表情發(fā)生幀特征與峰值幀特征之間的梯度特征;
7、s4、獲取表情發(fā)生幀與峰值幀之間的運動特征;
8、s5、獲取加權融合后的梯度特征和運動特征作為完整的微表情特征,并定義聯(lián)合目標損失函數(shù)以提升梯度特征和運動特征的互補性;
9、s6、將完整的微表情特征輸入微表情分類器中以預測所屬類別。
10、進一步地,所述微表情數(shù)據(jù)包括表情發(fā)生幀和峰值幀。
11、進一步地,步驟s1中,用于訓練的微表情數(shù)據(jù)包括一段完整的包含 n-1幀的微表情視頻,定義為,有效的微表情數(shù)據(jù)為:,其中為視頻的第一幀,為表情的發(fā)生幀,為表情峰值幀,為視頻的最后一幀。
12、進一步地,步驟s2中,所述微表情圖像特征提取器包含多個單層殘差卷積操作,將有效的微表情數(shù)據(jù)作為特征提取器的輸入獲取單幀特征用于后續(xù)的特征學習;其中為表情的發(fā)生幀、為表情峰值幀;
13、所述單層殘差卷積操作包括跳躍連接組合的卷積層和聚合層;
14、利用多層殘差卷積操作學習單幀特征:,計算公式為,其中為有效微表情數(shù)據(jù)的特征合集、為表情發(fā)生幀特征,為表情峰值幀特征。
15、進一步地,步驟s3中,獲取表情發(fā)生幀特征與峰值幀特征之間的梯度特征,具體為:
16、s31、分別用嵌入函數(shù)、、獲得統(tǒng)一空間的發(fā)生幀特征、峰值幀特征以及融合幀特征:
17、
18、其中,為表情發(fā)生幀特征,為表情峰值幀特征,為融合幀特征,三個嵌入函數(shù)、、均以線性整流單元作為激活函數(shù),分別設置、、為學習參數(shù);
19、s32、基于索貝爾算子的卷積操作,通過卷積運算從融合幀特征獲取水平方向的梯度特征和垂直方向的梯度特征:
20、
21、其中表示第個通道的融合幀特征, n表示該特征的通道數(shù),基于融合幀特征學習水平和垂直梯度;
22、s33、對位相減后除以時間差,獲取時間方向的梯度特征:
23、,
24、其中是逐元素相減得到的特征差值, i是時間差值;
25、s34、通道拼接操作結合水平、垂直和時間方向的梯度特征,保存完整的梯度信息:
26、;
27、s35、融合層由多頭自注意力函數(shù)、多層感知器函數(shù)和層歸一化函數(shù)結合殘差跳躍連接組成,利用梯度信息學習梯度特征:
28、,
29、其中,為多頭自注意力函數(shù),為多層感知器函數(shù),為層歸一化函數(shù);
30、融合層中的多頭自注意力函數(shù)包含多個頭注意力,每個頭注意力是計算關于查詢、鍵和值的自注意力;計算自注意力的函數(shù)是通過歸一化指數(shù)函數(shù)得到查詢和鍵的關系后與值的乘積;拼接所有頭自注意力后進一步學習能獲得多頭自注意力,計算公式為:
31、,
32、,
33、其中,是自注意力的函數(shù),是歸一化指數(shù)函數(shù),為可學習參數(shù),是梯度特征,為第 j個頭注意力, h是頭注意力的數(shù)目, j∈ h, d是每個頭注意力的特征維數(shù),是拼接操作,為多頭自注意力。
34、進一步地,步驟s4中,獲取表情發(fā)生幀與峰值幀之間的運動特征,具體為:
35、s41、分別用嵌入函數(shù)、、獲得統(tǒng)一空間的發(fā)生幀特征、峰值幀特征以及融合幀特征,計算公式為:
36、
37、其中,為表情發(fā)生幀特征,為表情峰值幀特征,為融合幀特征,三個嵌入函數(shù)、、均以線性整流單元relu作為激活函數(shù),分別設置、、為學習參數(shù);
38、s42、對位相減操作獲取時間特征,計算公式為:
39、;
40、s43、運動層包括多頭跨注意函數(shù)、多層感知器函數(shù)和層歸一化函數(shù),輸入空間特征和時間特征學習運動特征,計算公式為:
41、;
42、s44、使用時間特征作為值或鍵,空間特征作為查詢。
43、進一步地,步驟s41中,利用特征提取器獲得的圖像原始特征從不同的角度補充整體特征。
44、進一步地,步驟s5中,獲取以可學習參數(shù)加權融合后的梯度特征和運動特征,作為完整的微表情特征,計算公式為:
45、,
46、其中,為完整的微表情特征,為梯度特征,為運動特征。
47、進一步地,步驟s5中,聯(lián)合目標損失函數(shù)包括梯度特征的標準交叉熵損失、運動特征的標準交叉熵損失和正交性約束損失,其中梯度特征的標準交叉熵損失、運動特征的標準交叉熵損失分別對應兩個結構相同但不共享權重的分類器的分類;
48、所述梯度特征的標準交叉熵損失和運動特征的標準交叉熵損失如下:
49、,
50、,
51、其中為梯度特征、為運動特征,為數(shù)學期望,為總類別數(shù),為遍歷值,為所屬類別,表示指示函數(shù),當時為1,為0;
52、正交性約束損失用于促進梯度特征和運動特征的正交性:
53、,
54、其中,表示范數(shù)。
55、實現(xiàn)所述的一種基于雙特征融合的微表情識別方法的系統(tǒng),包括:
56、微表情圖像特征提取器,用于獲取微表情單幀特征;
57、梯度特征學習模塊,用于獲取表情發(fā)生幀特征與峰值幀特征之間的梯度特征;
58、運動特征學習模塊,用于獲取表情發(fā)生幀與峰值幀之間的運動特征;
59、融合系數(shù)學習模塊,用于獲取加權融合后的梯度特征和運動特征,作為完整的微表情特征;
60、分類器,用于將完整的微表情特征輸入微表情分類器中以預測所屬類別。
61、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
62、1、使用梯度特征和運動特征作為互補特征,能夠更全面地捕捉微表情的動態(tài)信息。梯度特征強調(diào)局部細微變化,而運動特征關注幀間的運動變化,兩者結合能夠提供更準確的微表情表征。本方法不僅適用于微表情的準確識別,還能夠廣泛應用于情感計算、心理健康監(jiān)測以及高壓環(huán)境下的情感分析等多個領域,具有較強的實際應用價值。
63、2、提出構建一個多層殘差卷積的特征提取網(wǎng)絡來逐幀提取微表情的單幀特征。通過單幀的殘差卷積操作提取的特征,不僅保留了微表情的局部細節(jié),還顯著提高了特征提取的精度和效率。
64、3、提出了梯度特征學習模塊和運動特征學習模塊,獲得相互補充的特征,設計兩種特征模塊獲得兩種互補的特征共同表征微表情。梯度特征可以獲得包含變化的區(qū)域,忽略人臉無關區(qū)域。運動特征可以識別表達信息豐富的區(qū)域。通過結合梯度特征與運動特征,模型對不同場景下的微表情識別更加魯棒,能夠在多種復雜條件下保持穩(wěn)定的識別性能。
65、4、提出了融合系數(shù)學習模塊,對梯度特征和運動特征進行加權融合,使用可學習的系數(shù)優(yōu)化了特征組合的效果,從而提高了微表情的整體特征表達能力,確保了更精確的情感分類。