一種基于多模態(tài)序列融合的動作識別方法
【專利摘要】本發(fā)明公開了一種基于多模態(tài)序列融合的動作識別方法,包括以下步驟:獲得原始視頻多種模態(tài)下的信息,并進行預處理獲取初始RGB圖像序列及初始深度圖像序列,以及獲取骨架特征序列;對初始RGB圖像序列進行背景建模,通過得到的背景建模結果來提取第一人體區(qū)域外接矩形,同時提取初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形;在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征,得到RGB模態(tài)和深度模態(tài)下的特征向量;根據(jù)得到的RGB-LBP、D-LBP特征向量序列,以及骨架特征序列,通過多視角判別模型來進行動作識別。本發(fā)明能夠將多種模態(tài)的序列信息進行互補融合,能夠有效提高動作識別準確率。
【專利說明】一種基于多模態(tài)序列融合的動作識別方法
【技術領域】
[0001] 本發(fā)明涉及計算機視覺、人體動作識別領域,尤其涉及一種基于多模態(tài)序列融合 的動作識別方法。
【背景技術】
[0002] 人體動作識別在智能視頻監(jiān)控、人機交互、視頻檢索等領域中具有廣闊的應用前 景,已逐漸成為計算機視覺領域的研究熱點?,F(xiàn)有技術中的很多研究工作主要是利用普通 RGB攝像機獲得的圖像序列來進行動作識別,并在一些經(jīng)典的數(shù)據(jù)庫上驗證了其有效性。然 而,由于光照變化、人體外形的多樣性、遮擋等因素的干擾,人體動作識別仍然是一項具有 挑戰(zhàn)性的工作。
[0003] 近年來,將深度圖像序列引入人體動作識別領域成為了一個新興的熱點問題。這 主要是由于深度攝像機的成本大大降低,尤其是微軟推出的3D體感攝影機Kinect,其成本 低廉、所攝取的圖像分辨率高。與彩色圖像相比,深度圖像能直接反映物體表面的三維特 征,且不受光照變化、陰影、環(huán)境變化等因素的干擾。此外,深度圖像表示物體在3D空間中 的坐標,可以很好的克服遮擋或重疊問題。人體骨架可以用來有效地表征人體區(qū)域及輪廓 信息,它能反映出人體運動的軌跡,包含很多運動信息,骨架信息能夠直接反映人體的位置 信息,且不會受到光照、陰影、遮擋等因素的干擾。
[0004] RGB信息、深度信息、骨架信息、熱傳感信息等分別代表著同一個場景的不同形式, 通過將這些不同模態(tài)的信息融合進行序列建模,可以提升動作識別的準確率。但是由于不 同模態(tài)的信息于不同的流形空間且值域不同,直接將其融合并不能得到最佳效果。所以,如 何進一步多模態(tài)序列進行互補融合,是人體動作識別中亟待解決的問題。
【發(fā)明內容】
[0005] 本發(fā)明提供了一種基于多模態(tài)序列融合的動作識別方法,本發(fā)明實現(xiàn)了 RGB信息 與深度信息的互補,顯著地提高了動作識別的準確率,詳見下文描述:
[0006] -種基于多模態(tài)序列融合的動作識別方法,所述方法包括以下步驟:獲得原始視 頻多種模態(tài)下的信息,并進行預處理。包括對原始視頻的RGB圖像序列和深度圖像序列進 行預處理,獲取初始RGB圖像序列及初始深度圖像序列,以及獲取骨架特征序列;
[0007] 對初始RGB圖像序列進行背景建模,通過得到的背景建模結果來提取第一人體區(qū) 域外接矩形,同時提取初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形;
[0008] 在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征,得到RGB模態(tài)和深度 模態(tài)下的特征向量;
[0009] 根據(jù)步驟103中得到的RGB-LBP、D-LBP特征向量序列,以及步驟101中得到的骨 架特征序列,通過多視角判別模型來進行動作識別。。
[0010] 所述根據(jù)RGB-LBP、D-LBP特征向量,以及骨架特征序列,通過多視角判別模型來 進行動作識別的步驟具體為: toon] (1)多視角判別模型的表示:
[0012] 多視角判別模型的條件概率模型可以表示為:
[0013]
【權利要求】
1. 一種基于多模態(tài)序列融合的動作識別方法,其特征在于,所述方法包括以下步驟: 獲得原始視頻多種模態(tài)下的信息,并進行預處理,獲取初始RGB圖像序列、初始深度圖 像序列,以及獲取骨架特征序列; 對所述初始RGB圖像序列進行背景建模,通過得到的背景建模結果來提取第一人體區(qū) 域外接矩形,同時提取所述初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形; 在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征,得到RGB模態(tài)和深度模態(tài) 下的RGB-LBP、D-LBP特征向量序列; 根據(jù)所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通過多視角判別模 型來進行動作識別。
2. 根據(jù)權利要求1所述的一種基于多模態(tài)序列融合的動作識別方法,其特征在于,所 述根據(jù)所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通過多視角判別模型 來進行動作識別的步驟具體為: (1) 所述多視角判別模型的表示: 多視角判別模型的條件概率模型可以表示為:
其中,X是觀測序列,Y是序列標記,Η是隱狀態(tài)變量,Θ是權重向量,且θ = {θ1; θ2}, 91和θ2表示權重,Τ表示轉置,Φ(Υ,Χ,Η)是特征函數(shù),表示由圖模型中節(jié)點位置以及節(jié) 點之間的關聯(lián)而決定的序列特征,Ζ是歸一化的分配函數(shù),用來進行概率歸一化; (2) 所述多視角判別模型的學習: 目標函數(shù)為:
其中,Xi表示觀測樣例,Yi表示觀測樣例真實的標注,使得上式取得最小值的Θ值,即 是最優(yōu)參數(shù)Θ ; (3) 所述多視角判別模型的判斷:在所述多視角判別模型參數(shù)已經(jīng)確定之后,判斷觀 測序列X的分類最優(yōu)標記Y%確定動作類別,
。
【文檔編號】G06K9/66GK104156693SQ201410337744
【公開日】2014年11月19日 申請日期:2014年7月15日 優(yōu)先權日:2014年7月15日
【發(fā)明者】劉安安, 蘇育挺, 馬莉 申請人:天津大學