本發(fā)明涉及到特征提取方法和分類判別,屬于模式識別領(lǐng)域,具體地說是一種基于多特征描述及D-S證據(jù)融合的情感識別方法。
背景技術(shù):
現(xiàn)如今,計(jì)算機(jī)視覺和人工智能發(fā)展相當(dāng)迅速,人機(jī)交互應(yīng)運(yùn)而生,人類迫切希望計(jì)算機(jī)具有同人類一樣的感情,可以理解人類的情感,這就要求將情感維度引入人機(jī)交互,使計(jì)算機(jī)具有情感感知和識別能力。
情感的表達(dá)可以通過多種方式實(shí)現(xiàn),主要包括面部表情、姿勢動(dòng)作、言語等。其中,面部表情是通過采集人臉面部圖像獲得,姿勢動(dòng)作是通過手部、頭部等運(yùn)動(dòng)產(chǎn)生,言語也是情感表達(dá)的一個(gè)重要渠道。人類通過多種模態(tài)與外界進(jìn)行情感交流,與此同時(shí),外界也通過不同方式獲知人類的情感狀態(tài)。
既然人類的情感狀態(tài)是通過多種方式表達(dá)的,那么僅通過單模態(tài)進(jìn)行情感識別就會存在一定的局限性,雙模態(tài)或者多種模態(tài)的情感識別正逐漸成為目前研究的主流趨勢。
體積局部二值模式(Volume Local Binary Pattern,VLBP)是一種被廣泛應(yīng)用于視頻紋理提取的描述算法,具有對光照及情感變化的魯棒性。但是VLBP特征是由二進(jìn)制序列的十進(jìn)制編碼得到的,這樣會使得語義上相似的特征經(jīng)十進(jìn)制編碼后相差很大,導(dǎo)致相似的特征無法落入直方圖鄰近的區(qū)域,最終導(dǎo)致直方圖分布過于稀疏。同時(shí),VLBP特征的維數(shù)也比較大,特征維數(shù)隨鄰域個(gè)數(shù)呈指數(shù)增長。這些因素都會使得VLBP特征的性能大大降低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為避免上述現(xiàn)有技術(shù)存在的不足之處,提出一種復(fù)合時(shí)空特征的雙模態(tài)視頻情感識別方法,以期利用復(fù)合時(shí)空特征對情感視頻進(jìn)行充分描述,降低時(shí)間復(fù)雜度,提高情感識別的準(zhǔn)確率。
本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
本發(fā)明一種復(fù)合時(shí)空特征的雙模態(tài)視頻情感識別方法的特點(diǎn)是按如下步驟進(jìn)行:
步驟1、對人臉表情與上身姿態(tài)數(shù)據(jù)庫中已知情感類別的Q個(gè)情感視頻進(jìn)行預(yù)處理
步驟1.1、獲得任意第q個(gè)情感視頻的每一幀圖像,并進(jìn)行歸一化處理和直方圖均衡化處理,從而得到像素為L1×W1的第i個(gè)上身姿態(tài)圖像集,從而獲得包含Q個(gè)上身姿態(tài)圖像集的集合;1≤q≤Q;
步驟1.2、利用Haar-like小波特征和積分圖方法對所述第q個(gè)上身姿態(tài)圖像集中的每一幅圖像進(jìn)行人臉區(qū)域檢測,并對檢測到的人臉區(qū)域采用雙向灰度積分投影法進(jìn)行眼睛定位,再對定位后的人臉區(qū)域進(jìn)行歸一化處理和直方圖均衡化處理,從而獲得像素為L2×W2的第q個(gè)人臉表情圖像集;從而獲得包含Q個(gè)人臉表情圖像集的集合;
步驟1.3、利用k-means聚類算法將所述第q個(gè)上身姿態(tài)圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個(gè)上身姿態(tài)圖像序列,從而獲得包含Q個(gè)上身姿態(tài)圖像序列的集合;k≥3;
利用k-means聚類算法將所述第q個(gè)人臉表情圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個(gè)人臉表情圖像序列,從而獲得包含Q個(gè)人臉表情圖像序列的集合;
步驟1.4、以所述第q個(gè)上身姿態(tài)圖像序列作為第q個(gè)上身姿態(tài)樣本,以包含Q個(gè)上身姿態(tài)圖像序列的集合作為上身姿態(tài)樣本集;
以所述第q個(gè)人臉表情圖像序列作為第q個(gè)人臉表情樣本,以包含Q個(gè)人臉表情圖像序列的集合作為人臉表情樣本集;
從所述上身姿態(tài)樣本集中選取N個(gè)上身姿態(tài)樣本作為上身姿態(tài)訓(xùn)練集;剩余Q-N作為上身姿態(tài)測試集;1<N<Q;
從所述人臉表情樣本集中選取N個(gè)上身姿態(tài)樣本作為人臉表情訓(xùn)練集;剩余Q-N作為人臉表情測試集;
步驟2、時(shí)空局部三值模式矩的特征提取
步驟2.1、以所述上身姿態(tài)測試集和所述人臉表情測試集中的任意一個(gè)包含k幅中心圖像的樣本作為一個(gè)時(shí)空體;
將所述時(shí)空體中的每一幅中心圖像進(jìn)行相同大小的均勻分塊,得到W個(gè)分塊;并將每一幅中心圖像的相同位置上的分塊組成包含k個(gè)分塊的子時(shí)空體,從而W個(gè)子時(shí)空體;
步驟2.2、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素值gt(i,j)的能量值EASM,從而獲得任意一個(gè)子時(shí)空體的第t個(gè)分塊的所有中心像素值的能量值;進(jìn)而獲得所有子時(shí)空體的所有分塊的所有中心像素值的能量值,i=1,2,…,L1或i=1,2,…,L2;j=1,2,…,W1或j=1,2,…,W2;t=2,3,…,k-1;
步驟2.2.1、以中心像素值gt(i,j)為中心的p鄰域窗口及第t-1個(gè)和第t+1個(gè)分塊的像素窗口構(gòu)成p鄰域像素值向量0≤p≤7;
步驟2.2.2、利用式(1)計(jì)算第m個(gè)分塊上的p鄰域窗口中第n個(gè)鄰域的像素值與中心像素值gt(i,j)之間的對比度值
式(1)中,表示第m個(gè)分塊上的p鄰域窗口的第n個(gè)鄰域的像素值;n=0,1,…,p-1;
m=t-1,t,t+1;
步驟2.2.3、統(tǒng)計(jì)中心像素值gt(i,j)的對比度值,并利用式(2)求取均值
步驟2.2.4、利用式(3)計(jì)算方差S:
步驟2.2.5、利用式(4)近似估計(jì)閾值ε:
步驟2.2.6、利用式(5)將所述p鄰域像素值向量T進(jìn)行二值化處理,獲得像素二值向量:
式(5)中,s(x)表示自變量為x的三值化函數(shù),并有:
步驟2.2.7、利用式(7)將所述像素二值向量V表示成一個(gè)3×p矩陣M:
步驟2.2.8、對所述矩陣M縱向統(tǒng)計(jì)字符的跳變次數(shù),得到矩陣M的灰度共生矩陣其中,au,v表示從u跳變到v的次數(shù);u,v={-1,0,1};
步驟2.2.9、利用式(8)計(jì)算能量表達(dá)式EASM:
步驟2.3、獲得所述時(shí)空體的TSLTPM直方圖特征;
步驟2.3.1、定義內(nèi)循環(huán)變量w,初始化t=2;
步驟2.3.2、初始化w=1;
步驟2.3.3、對第w個(gè)子時(shí)空體的第t分塊的中心像素值的能量值按升序進(jìn)行排序,并對排序后的每一種能量值的個(gè)數(shù)進(jìn)行統(tǒng)計(jì),從而獲得第w個(gè)子時(shí)空體中第t個(gè)分塊的TSLTPM直方圖特征;
步驟2.3.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟2.3.3執(zhí)行,否則,將第w個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征與第w-1個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟2.3.5;
步驟2.3.5、將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟2.3.6;否則,返回步驟2.3.3;
步驟2.3.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟2.3.7;否則,返回步驟2.3.2;
步驟2.3.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟2.3.2執(zhí)行,否則,將W個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征與W個(gè)子時(shí)空體的第t-1個(gè)分塊的TSLTPM直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟2.3.8;
步驟2.3.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟2.4;否則,返回步驟2.3.2;
步驟2.4、重復(fù)步驟2.1~步驟2.3,從而獲得所述上身姿態(tài)樣本集和所述人臉表情樣本集中所有樣本的TSLTPM直方圖特征;
步驟3、三維梯度方向直方圖的特征提??;
步驟3.1、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素點(diǎn)的灰度值g(i,j,t)的HOG特征值,從而獲得任意一個(gè)子時(shí)空體的第t個(gè)分塊的所有中心像素點(diǎn)的灰度值的HOG特征值;進(jìn)而獲得所有子時(shí)空體的所有分塊的所有中心像素點(diǎn)的灰度值的HOG特征值;
步驟3.1.1、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素點(diǎn)的灰度值g(i,j,t)g(i,j,t)的梯度值;
步驟3.1.2、計(jì)算中心像素點(diǎn)的灰度值g(i,j,t)的梯度幅值;
步驟3.1.3、計(jì)算中心像素點(diǎn)的灰度值g(i,j,t)的梯度方向;
步驟3.2、獲得所述時(shí)空體的3DHOG直方圖特征;
步驟3.2.1、將[0,360°]平均劃分為N個(gè)方向,并初始化t=2;
步驟3.2.2、初始化w=1;
步驟3.2.3、按照N×3個(gè)方向量化區(qū)間對第w個(gè)子時(shí)空體的第t分塊的中心像素點(diǎn)的灰度值g(i,j,t)的梯度幅值進(jìn)行投票統(tǒng)計(jì),從而得到第w個(gè)子時(shí)空體中第t個(gè)分塊的3DHOG直方圖特征;
步驟3.2.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟3.2.3執(zhí)行,否則,將第w個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征與第w-1個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟3.2.5;
步驟3.2.5;將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟3.2.6;否則,返回步驟3.2.3;
步驟3.2.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟3.2.7;否則,返回步驟3.2.2;
步驟3.2.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟3.2.2執(zhí)行,否則,將W個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征與W個(gè)子時(shí)空體的第t-1個(gè)分塊的3DHOG直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟3.2.8;
步驟3.2.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟3.3;否則,返回步驟3.2.2;
步驟3.3、重復(fù)步驟3.1和步驟3.2,從而獲得所述上身姿態(tài)樣本集和所述人臉表情樣本集中所有樣本的3DHOG直方圖特征;
步驟4、上身姿態(tài)復(fù)合時(shí)空特征集和人臉表情復(fù)合時(shí)空特征集的構(gòu)造;
步驟4.1、將所述上身姿態(tài)樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進(jìn)行級聯(lián),從而構(gòu)成相應(yīng)樣本的上身姿態(tài)復(fù)合時(shí)空特征;進(jìn)而獲得上身姿態(tài)復(fù)合時(shí)空特征集;
步驟4.2、將所述人臉表情樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進(jìn)行級聯(lián),從而構(gòu)成相應(yīng)樣本的人臉表情復(fù)合時(shí)空特征;進(jìn)而獲得人臉表情復(fù)合時(shí)空特征集;
步驟5、使用D-S證據(jù)理論判決規(guī)則對復(fù)合時(shí)空特征測試集進(jìn)行分類;
步驟5.1、計(jì)算所述上身姿態(tài)復(fù)合時(shí)空特征測試集中任意一個(gè)測試樣本的上身姿態(tài)復(fù)合時(shí)空特征與所述上身姿態(tài)復(fù)合時(shí)空特征訓(xùn)練集中每一個(gè)訓(xùn)練樣本的上身姿態(tài)復(fù)合時(shí)空特征的歐式距離;從而獲得每一類情感類別的上身姿態(tài)最小歐式距離;
步驟5.2、對每一類情感類別的上身姿態(tài)最小歐式距離進(jìn)行歸一化處理,得到歸一化后的上身姿態(tài)最小歐式距離;
步驟5.3、將每一類情感類別的歸一化后的上身姿態(tài)最小歐式距離作為每一類情感類別的上身姿態(tài)基本概率分配值;
步驟5.4、重復(fù)步驟5.1~步驟5.3,同樣獲得每一類情感類別的人臉表情基本概率分配值;
步驟5.5、將所有情感類別的上身姿態(tài)基本概率分配值和人臉表情基本概率分配值用D-S證據(jù)理論進(jìn)行融合,得到融合后的每一類情感類別的基本概率分配函數(shù)值;
步驟5.6、選取最大基本概率分配函數(shù)值所對應(yīng)的情感類別作為測試樣本的情感類別。
與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
1、本發(fā)明從時(shí)間和空間角度進(jìn)行考慮,將視頻中的人臉表情和上身姿態(tài)看成由每幀圖像沿時(shí)間軸堆疊而成的三維時(shí)空體;提出人臉表情結(jié)合上身姿態(tài)的雙模態(tài)情感識別方法,克服了單一模態(tài)情感識別的局限性,從而得到更加可靠的情感識別結(jié)果。
2、本發(fā)明從視頻幀的原始圖像中提取出表情序列和姿態(tài)序列,可以不用對其進(jìn)行目標(biāo)追蹤、分割等一系列常規(guī)視頻圖像處理的環(huán)節(jié),就可以達(dá)到較好的實(shí)驗(yàn)效果,從而極大地降低了時(shí)間復(fù)雜度和計(jì)算復(fù)雜度。
3、本發(fā)明從視頻幀序列中直接提取時(shí)空特征,不需要對視頻幀時(shí)間對齊,避免了視頻幀序列持續(xù)時(shí)間不同所造成的后果,同時(shí)特征維數(shù)小,極大地減少了計(jì)算量,對光照表現(xiàn)一定的魯棒性等特性。
4、本發(fā)明針對視頻情感識別中存在運(yùn)算復(fù)雜度高的缺點(diǎn),提出一種基于時(shí)空局部二值模式矩的視頻特征提取方法;該方法可以快速提取視頻圖像的時(shí)空特征,維數(shù)低,且能有效識別情感狀態(tài)。同時(shí),與三維方向梯度直方圖特征組合成復(fù)合時(shí)空特征來描述情感視頻,可以有效提取圖像邊緣和方向信息,彌補(bǔ)了單一特征的局限性,形成很好的互補(bǔ)模式。
5、本發(fā)明利用D-S證據(jù)理論對來自人臉表情和上身姿態(tài)兩種模態(tài)的數(shù)據(jù)信息進(jìn)行融合,并使用曲線擬合來構(gòu)造基本概率分配函數(shù)(BPA),能夠有效弱化信息的不完整性及錯(cuò)誤數(shù)據(jù)對識別的不良影響,克服了單一模態(tài)的局限性,使得系統(tǒng)最終獲得了較高的識別率和可靠性。
附圖說明
圖1為本發(fā)明系統(tǒng)流程圖;
圖2為現(xiàn)有技術(shù)中人臉檢測示意圖;
圖3為現(xiàn)有技術(shù)直方圖均衡化示意圖;
圖4a為本發(fā)明面部表情TSLTPM特征計(jì)算過程示意圖;
圖4b為本發(fā)明面部表情3DHOG特征計(jì)算過程示意圖。
圖5為現(xiàn)有技術(shù)中FABO雙模態(tài)情感數(shù)據(jù)庫的部分樣本圖;
圖6為本發(fā)明幀集合大小與平均識別率關(guān)系圖;
圖7為本發(fā)明分塊大小與平均識別率關(guān)系圖。
具體實(shí)施方式
本實(shí)施例中,如圖1所示,一種復(fù)合時(shí)空特征的雙模態(tài)視頻情感識別方法,包括如下步驟:1對現(xiàn)有體積局部二值模式算法擴(kuò)展成時(shí)空三值模式,獲取人臉表情和上身姿態(tài)的時(shí)空局部三值模式矩紋理特征;2為彌補(bǔ)紋理特征缺乏圖像邊緣和方向信息的表達(dá),本發(fā)明進(jìn)一步融合三維梯度方向直方圖特征來增強(qiáng)對情感視頻的描述,將兩種特征組合成復(fù)合時(shí)空特征;3使用D-S證據(jù)聯(lián)合規(guī)則將兩種模態(tài)的信息進(jìn)行融合,獲得情感識別結(jié)果。具體的說是按如下步驟進(jìn)行:
步驟1、對人臉表情與上身姿態(tài)數(shù)據(jù)庫中已知情感類別的Q個(gè)情感視頻進(jìn)行預(yù)處理
步驟1.1、獲得任意第q個(gè)情感視頻的每一幀圖像,并進(jìn)行歸一化處理和直方圖均衡化處理,從而得到像素為L1×W1的第i個(gè)上身姿態(tài)圖像集,從而獲得包含Q個(gè)上身姿態(tài)圖像集的集合;1≤q≤Q;
步驟1.2、利用Haar-like小波特征和積分圖方法對第q個(gè)上身姿態(tài)圖像集中的每一幅圖像進(jìn)行人臉區(qū)域檢測,并對檢測到的人臉區(qū)域采用雙向灰度積分投影法進(jìn)行眼睛定位,再對定位后的人臉區(qū)域進(jìn)行歸一化處理和直方圖均衡化處理,從而獲得像素為L2×W2的第q個(gè)人臉表情圖像集;從而獲得包含Q個(gè)人臉表情圖像集的集合如圖2和圖3所示;
步驟1.3、利用k-means聚類算法將第q個(gè)上身姿態(tài)圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個(gè)上身姿態(tài)圖像序列,從而獲得包含Q個(gè)上身姿態(tài)圖像序列的集合;k≥3;
利用k-means聚類算法將第q個(gè)人臉表情圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個(gè)人臉表情圖像序列,從而獲得包含Q個(gè)人臉表情圖像序列的集合;
步驟1.4、以第q個(gè)上身姿態(tài)圖像序列作為第q個(gè)上身姿態(tài)樣本,以包含Q個(gè)上身姿態(tài)圖像序列的集合作為上身姿態(tài)樣本集;
以第q個(gè)人臉表情圖像序列作為第q個(gè)人臉表情樣本,以包含Q個(gè)人臉表情圖像序列的集合作為人臉表情樣本集;
從上身姿態(tài)樣本集中選取N個(gè)上身姿態(tài)樣本作為上身姿態(tài)訓(xùn)練集;剩余Q-N作為上身姿態(tài)測試集;1<N<Q;
從人臉表情樣本集中選取N個(gè)上身姿態(tài)樣本作為人臉表情訓(xùn)練集;剩余Q-N作為人臉表情測試集;
步驟2、時(shí)空局部三值模式矩的特征提取
現(xiàn)有技術(shù)體積局部二值模式應(yīng)用到視頻幀特征提取上,特征維數(shù)大,對光照及噪聲魯棒性差等問題,本發(fā)明提出一種新的特征描述算法-時(shí)空局部三值模式矩(temporal-spatial local ternary pattern moment,TSLTPM);
步驟2.1、以上身姿態(tài)測試集和人臉表情測試集中的任意一個(gè)包含k幅中心圖像的樣本作為一個(gè)時(shí)空體;
將時(shí)空體中的每一幅中心圖像進(jìn)行相同大小的均勻分塊,得到W個(gè)分塊;并將每一幅中心圖像的相同位置上的分塊組成包含k個(gè)分塊的子時(shí)空體,從而W個(gè)子時(shí)空體;
步驟2.2、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素值gt(i,j)的能量值EASM,從而獲得任意一個(gè)子時(shí)空體的第t個(gè)分塊的所有中心像素值的能量值;進(jìn)而獲得所有子時(shí)空體的所有分塊的所有中心像素值的能量值,i=1,2,…,L1或i=1,2,…,L2;j=1,2,…,W1或j=1,2,…,W2;t=2,3,…,k-1;
步驟2.2.1、以中心像素值gt(i,j)為中心的p鄰域窗口及第t-1個(gè)和第t+1個(gè)分塊的像素窗口構(gòu)成p鄰域像素值向量0≤p≤7;
步驟2.2.2、利用式(1)計(jì)算第m個(gè)分塊上的p鄰域窗口中第n個(gè)鄰域的像素值與中心像素值gt(i,j)之間的對比度值
式(1)中,表示第m個(gè)分塊上的p鄰域窗口的第n個(gè)鄰域的像素值;n=0,1,…,p-1;
m=t-1,t,t+1;
步驟2.2.3、統(tǒng)計(jì)中心像素值gt(i,j)的對比度值,并利用式(2)求取均值
步驟2.2.4、利用式(3)計(jì)算方差S:
步驟2.2.5、利用式(4)近似估計(jì)閾值ε:
步驟2.2.6、利用式(5)將p鄰域像素值向量T進(jìn)行二值化處理,獲得像素二值向量:
式(5)中,s(x)表示自變量為x的三值化函數(shù),并有:
步驟2.2.7、利用式(7)將像素二值向量V表示成一個(gè)3×p矩陣M:
步驟2.2.8、對矩陣M縱向統(tǒng)計(jì)字符的跳變次數(shù),得到矩陣M的灰度共生矩陣其中,au,v表示從u跳變到v的次數(shù);u,v={-1,0,1};
步驟2.2.9、利用式(8)計(jì)算能量表達(dá)式EASM:
步驟2.3、獲得時(shí)空體的TSLTPM直方圖特征;
步驟2.3.1、定義內(nèi)循環(huán)變量w,初始化t=2;
步驟2.3.2、初始化w=1;
步驟2.3.3、對第w個(gè)子時(shí)空體的第t分塊的中心像素值的能量值按升序進(jìn)行排序,并對排序后的每一種能量值的個(gè)數(shù)進(jìn)行統(tǒng)計(jì),從而獲得第w個(gè)子時(shí)空體中第t個(gè)分塊的TSLTPM直方圖特征,如圖4a和圖4b所示;
步驟2.3.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟2.3.3執(zhí)行,否則,將第w個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征與第w-1個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟2.3.5;
步驟2.3.5、將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟2.3.6;否則,返回步驟2.3.3;
步驟2.3.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟2.3.7;否則,返回步驟2.3.2;
步驟2.3.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟2.3.2執(zhí)行,否則,將W個(gè)子時(shí)空體的第t個(gè)分塊的TSLTPM直方圖特征與W個(gè)子時(shí)空體的第t-1個(gè)分塊的TSLTPM直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟2.3.8;
步驟2.3.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟2.4;否則,返回步驟2.3.2;
步驟2.4、重復(fù)步驟2.1~步驟2.3,從而獲得上身姿態(tài)樣本集和人臉表情樣本集中所有樣本的TSLTPM直方圖特征;包括:
由上身姿態(tài)訓(xùn)練集中所有樣本的TSLTPM直方圖特征構(gòu)成上身姿態(tài)TSLTPM訓(xùn)練特征集;由人臉表情訓(xùn)練集中所有樣本的TSLTPM直方圖特征構(gòu)成人臉表情TSLTPM訓(xùn)練特征集;
由上身姿態(tài)測試集中所有樣本的TSLTPM直方圖特征構(gòu)成上身姿態(tài)TSLTPM測試特征集;由人臉表情測試集中所有樣本的TSLTPM直方圖特征構(gòu)成人臉表情TSLTPM測試特征集;
步驟3、三維梯度方向直方圖的特征提??;
考慮到TSLTPM特征缺乏對圖像邊緣和方向信息的表達(dá),三維方向梯度直方圖用來描述時(shí)空域局部像素的分布,可以有效提取圖像邊緣和方向信息;
步驟3.1、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素點(diǎn)的灰度值g(i,j,t)的HOG特征值,從而獲得任意一個(gè)子時(shí)空體的第t個(gè)分塊的所有中心像素點(diǎn)的灰度值的HOG特征值;進(jìn)而獲得所有子時(shí)空體的所有分塊的所有中心像素點(diǎn)的灰度值的HOG特征值;
步驟3.1.1、計(jì)算任意一個(gè)子時(shí)空體中第t個(gè)分塊的中心像素點(diǎn)的灰度值g(i,j,t)的梯度:
步驟3.1.2、計(jì)算中心像素點(diǎn)的灰度值g(i,j,t)在三個(gè)平面上的梯度幅值mxy(i,j,t)、mxt(i,j,t)、myt(i,j,t):
步驟3.1.3、計(jì)算中心像素點(diǎn)的灰度值g(i,j,t)在三個(gè)平面上的梯度方向θxy(i,j,t)、θxt(i,j,t)、θyt(i,j,t):
步驟3.2、獲得時(shí)空體的3DHOG直方圖特征將[0,360°]平均劃分為N個(gè)方向,按照N×3
個(gè)方向量化區(qū)間對梯度幅值mxy(i,j,t)、mxt(i,j,t)、myt(i,j,t)進(jìn)行投票統(tǒng)計(jì);這樣使得子
時(shí)空體可以得到3個(gè)一維方向梯度向量h=[hxy,hxt,hyt],其中
hxy=[k1,k2,…,kn],hxt=[kn+1,kn+2,…,k2n],hyt=[k2n+1,k2n+2,…,k3n];ki為任一方向下梯度幅
值的和值;1≤i≤3n;具體計(jì)算步驟如下:
步驟3.2.1、初始化t=2;
步驟3.2.2、初始化w=1;
步驟3.2.3、按照N×3個(gè)方向量化區(qū)間對第w個(gè)子時(shí)空體的第t分塊的中心像素點(diǎn)的灰度值g(i,j,t)的梯度幅值進(jìn)行投票統(tǒng)計(jì),從而得到第w個(gè)子時(shí)空體中第t個(gè)分塊的3DHOG直方圖特征,如圖5所示;
步驟3.2.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟3.2.3執(zhí)行,否則,將第w個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征與第w-1個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟3.2.5;
步驟3.2.5;將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟3.2.6;否則,返回步驟3.2.3;
步驟3.2.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟3.2.7;否則,返回步驟3.2.2;
步驟3.2.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟3.2.2執(zhí)行,否則,將W個(gè)子時(shí)空體的第t個(gè)分塊的3DHOG直方圖特征與W個(gè)子時(shí)空體的第t-1個(gè)分塊的3DHOG直方圖特征進(jìn)行級聯(lián)后,再執(zhí)行步驟3.2.8;
步驟3.2.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟3.3;否則,返回步驟3.2.2;
步驟3.3、重復(fù)步驟3.1和步驟3.2,從而獲得上身姿態(tài)樣本集和人臉表情樣本集中所有樣本的3DHOG直方圖特征;包括:
由上身姿態(tài)訓(xùn)練集中所有樣本的3DHOG直方圖特征構(gòu)成上身姿態(tài)3DHOG訓(xùn)練特征集;由人臉表情訓(xùn)練集中所有樣本的3DHOG直方圖特征構(gòu)成人臉表情3DHOG訓(xùn)練特征集;
由上身姿態(tài)測試集中所有樣本的3DHOG直方圖特征構(gòu)成上身姿態(tài)3DHOG測試特征集;由人臉表情測試集中所有樣本的3DHOG直方圖特征構(gòu)成人臉表情3DHOG測試特征集;
步驟4、上身姿態(tài)復(fù)合時(shí)空特征集和人臉表情復(fù)合時(shí)空特征集的構(gòu)造;
步驟4.1、將上身姿態(tài)樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進(jìn)行級聯(lián),從而構(gòu)成相應(yīng)樣本的上身姿態(tài)復(fù)合時(shí)空特征;進(jìn)而獲得上身姿態(tài)復(fù)合時(shí)空特征集;包括:
由上身姿態(tài)測試集中所有樣本的上身姿態(tài)復(fù)合時(shí)空特征構(gòu)成上身姿態(tài)復(fù)合時(shí)空特征測試集;由上身姿態(tài)訓(xùn)練集中所有樣本的上身姿態(tài)復(fù)合時(shí)空特征構(gòu)成上身姿態(tài)復(fù)合時(shí)空特征訓(xùn)練集;
步驟4.2、將人臉表情樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進(jìn)行級聯(lián),從而構(gòu)成相應(yīng)樣本的人臉表情復(fù)合時(shí)空特征;進(jìn)而獲得人臉表情復(fù)合時(shí)空特征集;包括:
由人臉表情測試集中所有樣本人臉表情復(fù)合時(shí)空特征構(gòu)成人臉表情復(fù)合時(shí)空特征測試集;由人臉表情訓(xùn)練集中所有樣本的人臉表情復(fù)合時(shí)空特征構(gòu)成人臉表情復(fù)合時(shí)空特征訓(xùn)練集;
步驟5、使用D-S證據(jù)理論判決規(guī)則對復(fù)合時(shí)空特征測試集進(jìn)行分類;
步驟5.1、計(jì)算上身姿態(tài)復(fù)合時(shí)空特征測試集中任意一個(gè)測試樣本的上身姿態(tài)復(fù)合時(shí)空特征與上身姿態(tài)復(fù)合時(shí)空特征訓(xùn)練集中每一個(gè)訓(xùn)練樣本的上身姿態(tài)復(fù)合時(shí)空特征的歐式距離;從而獲得每一類情感類別的上身姿態(tài)最小歐式距離,計(jì)算公式如下:
步驟5.2、對每一類情感類別的上身姿態(tài)最小歐式距離進(jìn)行歸一化處理,得到歸一化后的上身姿態(tài)最小歐式距離,歸一化公式如下:
式(13)中:α={人臉表情,上身姿態(tài)},β表情情感的類別,Z表情情感的類別總數(shù);
步驟5.3、構(gòu)造指數(shù)函數(shù)y=exp(-13(x+0.06)2)+0.074,將每一類情感類別的歸一化后的上身姿態(tài)最小歐式距離作為x帶入指數(shù)函數(shù),完成歸一化后的最終歐式距離d‘α,β到基本概率分配值的映射,即如下式:
mα(μβ)=exp(-13(dα,β+0.06)2)+0.074 (14)
由上述(14)式基本概率分配函數(shù)構(gòu)造的不確定性分配函數(shù)mi(θ)如下:
步驟5.4、重復(fù)步驟5.1~步驟5.3,同樣獲得每一類情感類別的人臉表情基本概率分配值;
步驟5.5、將所有情感類別的上身姿態(tài)基本概率分配值和人臉表情基本概率分配值用D-S證據(jù)理論進(jìn)行融合,得到融合后的每一類情感類別的基本概率分配函數(shù)值,公式如下計(jì)算;
式(16)中,m1(Aα)和m2(Bβ)分別表示上身姿態(tài)模態(tài)和人臉表情的基本概率分配值,
K稱為矛盾因子,反映了每個(gè)證據(jù)之間的沖突程度;
步驟5.6、選取融合后的最大基本概率分配函數(shù)值所對應(yīng)的情感類別作為測試樣本的情感類別。
實(shí)施例:
為了驗(yàn)證本發(fā)明的有效性,實(shí)驗(yàn)采用目前唯一公開的雙模態(tài)數(shù)據(jù)庫:FABO表情和姿態(tài)雙模態(tài)數(shù)據(jù)庫。由于該數(shù)據(jù)庫本身未完全進(jìn)行標(biāo)注,所以本發(fā)明在實(shí)驗(yàn)過程中選擇樣本數(shù)較多且情感類別相對均勻的12個(gè)人進(jìn)行相關(guān)實(shí)驗(yàn)。所選樣本共包括高興、害怕、生氣、厭煩和不確定5類情感,全部已進(jìn)行標(biāo)注,其中姿態(tài)和表情各有238個(gè)樣本。本文實(shí)驗(yàn)是在Windows XP系統(tǒng)下(雙核CPU2.53GHz內(nèi)存2G),使用VC6.0+OpenCV1.0實(shí)現(xiàn)的。實(shí)驗(yàn)中將人臉表情圖片幀和上身姿態(tài)圖片幀分別統(tǒng)一大小為96×96像素和128×96像素。表情圖片和姿態(tài)圖片統(tǒng)一大小后的部分圖像如圖6所示。
實(shí)驗(yàn)1視頻幀集合大小測試
在情感判別的預(yù)處理過程中,k均值聚類視頻幀集合的大小直接影響后續(xù)的特征提取和判別。視頻幀選擇較少,會造成表情和姿態(tài)特征提取不充分;若選擇較多,則會增加時(shí)間復(fù)雜度,同時(shí)產(chǎn)生過多的冗余信息,直接影響后續(xù)的情感識別。當(dāng)幀集合大小為3~7時(shí),本發(fā)明的識別性能如圖7所示。
實(shí)驗(yàn)2分塊大小測試
對表情和姿態(tài)提取復(fù)合特征時(shí),圖像的分塊數(shù)會對識別性能產(chǎn)生一定的影響。圖3給出了分塊大小與平均識別率的大小關(guān)系。從圖7可以看出,表情取6×6分塊,姿態(tài)取4×4分塊時(shí),識別效果最優(yōu)。
實(shí)驗(yàn)3單模態(tài)情感識別實(shí)驗(yàn)
在將表情和姿態(tài)兩種模態(tài)進(jìn)行融合判別前,首先對其進(jìn)行單獨(dú)的情感識別實(shí)驗(yàn)。由于FABO數(shù)據(jù)庫中不同情感類別數(shù)大小不均勻,本發(fā)明在實(shí)驗(yàn)中保證測試每種樣本類別個(gè)數(shù)的情況下隨機(jī)選取測試樣本,訓(xùn)練樣本庫和測試樣本數(shù)庫中5種情感(高興,害怕,生氣,厭煩,不確定)的樣本數(shù)分別為(26,13,46,6,44)和(20,15,30,8,30),表情序列和姿態(tài)序列相對應(yīng)。為了增加實(shí)驗(yàn)結(jié)果的可信度,每組實(shí)驗(yàn)進(jìn)行3次,最終結(jié)果取平均值。表1和表2分別給出表情和姿態(tài)兩種單模態(tài)在3次實(shí)驗(yàn)下對5種不同情感的識別性能對比。
表1表情單模態(tài)情感識別的實(shí)驗(yàn)結(jié)果
表2姿態(tài)單模態(tài)情感識別的實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證復(fù)合特征的有效性,將其分別與融合之前的特征算法和其他論文中的方法進(jìn)行對比,比較結(jié)果如表3所示。
表3基于單模態(tài)的不同特征提取方法的平均識別率比較
實(shí)驗(yàn)4雙模態(tài)情感識別實(shí)驗(yàn)
表4給出表情和姿態(tài)兩種單模態(tài)利用D-S證據(jù)理論進(jìn)行融合之后的識別率為96.86%,高于表情單模態(tài)的83.06%和姿態(tài)單模態(tài)的94.78%(來自表3數(shù)據(jù)),說明了融合表情和姿態(tài)進(jìn)行情感識別的有效性。在情感識別中,表情和姿態(tài)對情感識別具有不同的貢獻(xiàn),表情主要表現(xiàn)為人臉面部的情感,而姿態(tài)主要表現(xiàn)為人體動(dòng)作的情感,兩種情感表達(dá)方式具有相互輔助相互補(bǔ)充的作用,將兩種模態(tài)相融合,準(zhǔn)確率和穩(wěn)定性得到明顯提高。另外,本發(fā)明利用D-S證據(jù)理論,以歐氏距離構(gòu)造BPA,根據(jù)組合規(guī)則,融合來自表情和姿態(tài)兩種模態(tài)的識別信息,能夠?qū)崿F(xiàn)較弱分類(單模態(tài))決策對較強(qiáng)分類(雙模態(tài))決策的有效支持,從而可以進(jìn)一步提高識別準(zhǔn)確率和可靠性。
表4不同融合方法的平均識別率對比
綜上,本方法從人臉表情和上身姿態(tài)兩個(gè)角度進(jìn)行情感識別,對人臉表情和上身姿態(tài)提取復(fù)合時(shí)空特征,首先然后利用D-S證據(jù)理論融合兩種模態(tài)的情感信息,彌補(bǔ)了單一模態(tài)進(jìn)行情感識別的局限性,將視頻中的面部表情和上身姿態(tài)看成由每幀圖像沿時(shí)間軸堆疊而成的三維時(shí)空體,從而得到更為可靠、準(zhǔn)確的結(jié)果。