一種基于多模態(tài)序列融合的動作識別方法

文檔序號：6620226閱讀：425來源：國知局

一種基于多模態(tài)序列融合的動作識別方法
【專利摘要】本發(fā)明公開了一種基于多模態(tài)序列融合的動作識別方法，包括以下步驟：獲得原始視頻多種模態(tài)下的信息，并進行預處理獲取初始RGB圖像序列及初始深度圖像序列，以及獲取骨架特征序列；對初始RGB圖像序列進行背景建模，通過得到的背景建模結果來提取第一人體區(qū)域外接矩形，同時提取初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形；在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征，得到RGB模態(tài)和深度模態(tài)下的特征向量；根據(jù)得到的RGB-LBP、D-LBP特征向量序列，以及骨架特征序列，通過多視角判別模型來進行動作識別。本發(fā)明能夠將多種模態(tài)的序列信息進行互補融合，能夠有效提高動作識別準確率。
【專利說明】一種基于多模態(tài)序列融合的動作識別方法

【技術領域】
[0001] 本發(fā)明涉及計算機視覺、人體動作識別領域，尤其涉及一種基于多模態(tài)序列融合的動作識別方法。

【背景技術】
[0002] 人體動作識別在智能視頻監(jiān)控、人機交互、視頻檢索等領域中具有廣闊的應用前景，已逐漸成為計算機視覺領域的研究熱點?，F(xiàn)有技術中的很多研究工作主要是利用普通 RGB攝像機獲得的圖像序列來進行動作識別，并在一些經(jīng)典的數(shù)據(jù)庫上驗證了其有效性。然而，由于光照變化、人體外形的多樣性、遮擋等因素的干擾，人體動作識別仍然是一項具有挑戰(zhàn)性的工作。
[0003] 近年來，將深度圖像序列引入人體動作識別領域成為了一個新興的熱點問題。這主要是由于深度攝像機的成本大大降低，尤其是微軟推出的3D體感攝影機Kinect，其成本低廉、所攝取的圖像分辨率高。與彩色圖像相比，深度圖像能直接反映物體表面的三維特征，且不受光照變化、陰影、環(huán)境變化等因素的干擾。此外，深度圖像表示物體在3D空間中的坐標，可以很好的克服遮擋或重疊問題。人體骨架可以用來有效地表征人體區(qū)域及輪廓信息，它能反映出人體運動的軌跡，包含很多運動信息，骨架信息能夠直接反映人體的位置信息，且不會受到光照、陰影、遮擋等因素的干擾。
[0004] RGB信息、深度信息、骨架信息、熱傳感信息等分別代表著同一個場景的不同形式，通過將這些不同模態(tài)的信息融合進行序列建模，可以提升動作識別的準確率。但是由于不同模態(tài)的信息于不同的流形空間且值域不同，直接將其融合并不能得到最佳效果。所以，如何進一步多模態(tài)序列進行互補融合，是人體動作識別中亟待解決的問題。

【發(fā)明內容】

[0005] 本發(fā)明提供了一種基于多模態(tài)序列融合的動作識別方法，本發(fā)明實現(xiàn)了 RGB信息與深度信息的互補，顯著地提高了動作識別的準確率，詳見下文描述：
[0006] -種基于多模態(tài)序列融合的動作識別方法，所述方法包括以下步驟：獲得原始視頻多種模態(tài)下的信息，并進行預處理。包括對原始視頻的RGB圖像序列和深度圖像序列進行預處理，獲取初始RGB圖像序列及初始深度圖像序列，以及獲取骨架特征序列；
[0007] 對初始RGB圖像序列進行背景建模，通過得到的背景建模結果來提取第一人體區(qū) 域外接矩形，同時提取初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形；
[0008] 在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征，得到RGB模態(tài)和深度模態(tài)下的特征向量；
[0009] 根據(jù)步驟103中得到的RGB-LBP、D-LBP特征向量序列，以及步驟101中得到的骨架特征序列，通過多視角判別模型來進行動作識別。。
[0010] 所述根據(jù)RGB-LBP、D-LBP特征向量，以及骨架特征序列，通過多視角判別模型來進行動作識別的步驟具體為： toon] (1)多視角判別模型的表示：
[0012] 多視角判別模型的條件概率模型可以表示為：
[0013]

【權利要求】
1. 一種基于多模態(tài)序列融合的動作識別方法，其特征在于，所述方法包括以下步驟：獲得原始視頻多種模態(tài)下的信息，并進行預處理，獲取初始RGB圖像序列、初始深度圖像序列，以及獲取骨架特征序列；對所述初始RGB圖像序列進行背景建模，通過得到的背景建模結果來提取第一人體區(qū) 域外接矩形，同時提取所述初始深度圖像序列上相應位置的第二人體區(qū)域外接矩形；在第一、第二人體區(qū)域外接矩形上分別提取人體動作特征，得到RGB模態(tài)和深度模態(tài) 下的RGB-LBP、D-LBP特征向量序列；根據(jù)所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通過多視角判別模型來進行動作識別。
2. 根據(jù)權利要求1所述的一種基于多模態(tài)序列融合的動作識別方法，其特征在于，所述根據(jù)所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通過多視角判別模型來進行動作識別的步驟具體為： (1) 所述多視角判別模型的表示：多視角判別模型的條件概率模型可以表示為：
其中，X是觀測序列，Y是序列標記，Η是隱狀態(tài)變量，Θ是權重向量，且θ = {θ1; θ2}， 91和θ2表示權重，Τ表示轉置，Φ(Υ，Χ，Η)是特征函數(shù)，表示由圖模型中節(jié)點位置以及節(jié) 點之間的關聯(lián)而決定的序列特征，Ζ是歸一化的分配函數(shù)，用來進行概率歸一化； (2) 所述多視角判別模型的學習：目標函數(shù)為：
其中，Xi表示觀測樣例，Yi表示觀測樣例真實的標注，使得上式取得最小值的Θ值，即是最優(yōu)參數(shù)Θ ; (3) 所述多視角判別模型的判斷：在所述多視角判別模型參數(shù)已經(jīng)確定之后，判斷觀測序列X的分類最優(yōu)標記Y%確定動作類別，
。
【文檔編號】G06K9/66GK104156693SQ201410337744
【公開日】2014年11月19日申請日期:2014年7月15日優(yōu)先權日:2014年7月15日
【發(fā)明者】劉安安, 蘇育挺, 馬莉申請人:天津大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉安安;蘇育挺;馬莉
技術所有人：天津大學
我是此專利的發(fā)明人

上一篇：一種基于MySQL數(shù)據(jù)庫的查詢優(yōu)化方法
上一篇：基于xml的網(wǎng)絡數(shù)據(jù)傳輸方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多模態(tài)數(shù)據(jù)融合相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于多模態(tài)序列融合的動作識別方法