專利名稱:基于變結構多模型的人體運動跟蹤方法
技術領域:
本發(fā)明屬于計算機視覺技術領域,涉及一種人體運動跟蹤方法,可用于人體運動 跟蹤和姿態(tài)估計。
背景技術:
人體運動跟蹤是計算機視覺領域的一個重要的分支,由于其在醫(yī)學治療、運動捕 捉、動畫制作、智能監(jiān)控系統(tǒng)等各個方面都有潛在的應用,所以受到了很多學者的關注。雖 然在現(xiàn)實中能夠獲得大量的無標記單目視頻序列,但是此類數(shù)據(jù)只是三維場景在圖像或者 圖像序列上的2D投影,缺失了深度信息,再加上自遮擋、前景檢測噪聲等等,從這樣的視頻 序列中恢復人體運動姿態(tài)困難重重。從單目圖像中估計和跟蹤復雜鏈接物體的3D結構有兩種重要的方法基于模型 的方法和基于學習的方法。Ankur Agarwal指出,基于模型的方法一般都要預先明確一個參 數(shù)化的人體模型,然后根據(jù)運動學原理恢復人體姿態(tài),或者設計一個模型到圖像的似然度 量,依據(jù)當前時刻預測狀態(tài)在圖像上的投影與圖像特征的似然程度,使用最優(yōu)化的方法得 到最優(yōu)的人體姿態(tài),但是使用優(yōu)化方法恢復人體運動姿態(tài)的時間復雜度非常高,它需要良 好的初始化,并且需要解決最優(yōu)搜索過程中的局部極小值問題,隨著誤差的不斷積累,最優(yōu) 化方法無法保證正確的人體姿態(tài)估計。考慮到一組典型的人體姿態(tài)要比一組運動學上可能 的姿態(tài)相似的多,通過訓練一個模型,直接從觀測圖像測量中恢復姿態(tài)估計,基于學習的方 法避免3D建模問題,它使用回歸或者降維的方法學習運動捕捉數(shù)據(jù)和圖像特征之間的映 射關系或者流行,依據(jù)圖像特征或者其他形式的輸入恢復三維姿態(tài),取得了不錯的效果。在前人的工作中,Deutscher et al.使用邊界和側影作為圖像特征構建加權函 數(shù),應用退火粒子濾波框架實現(xiàn)人體運動跟蹤。Mikic et al.從多個同步視頻流中自動的 獲得人體模型,應用擴展卡爾曼濾波框架,依據(jù)已標記的voxel數(shù)據(jù)上的量測信息估計人 體運動參數(shù)。Urtasim et al.使用平衡高斯過程動態(tài)模型指導在單目視頻序列中跟蹤3D 人體運動,該動態(tài)模型是從較少的包含多種模式的訓練運動數(shù)據(jù)中學習得到。XinyuXu et al.使用HumanEva數(shù)據(jù)庫中較少的訓練數(shù)據(jù),采用偏最小二乘回歸方法訓練特殊人體運動 的左側和右側身體運動的確定關系,最后使用Rao-Blackwel 1 ised粒子濾波RBPF跟蹤框架 執(zhí)行人體運動跟蹤。Sigal et al.提出一個貝葉斯框架,包含序貫重要性采樣和退火粒子 濾波,跟蹤時使用了多種運動模型和似然函數(shù);為了使三維恢復更加符合解剖關節(jié)限制和 降低搜索空間,從訓練數(shù)據(jù)中學習運動模型,使用虛擬標記的歐式距離差作為誤差量測。M et al.提出了一種結合了交互式多模型和卡爾曼粒子濾波的隨機跟蹤框架,使用視覺外殼 重構的3D人體作為輸入,模擬的物理力/力矩降低了所需的粒子數(shù)量,結合包含多個運動 學模型的交互式多模型算法獲得良好的三維跟蹤效果。Farmer et al.把交互式多模型卡 爾曼濾波框架應用在了實時的低成本的監(jiān)控系統(tǒng)中,不僅能夠準確跟蹤人體的運動,也能 很好的跟蹤人體的形狀。基于模型的跟蹤方法使用優(yōu)化的方法在搜索最優(yōu)結果時,時間復雜度高,并且無
5法從根本上解決人體運動的二義性,遮擋發(fā)生的情況下,由于沒有良好的指導,人體運動精 確恢復無法得到保證;基于學習的方法,雖然使用了訓練得到的運動模型,增加了跟蹤的準 確性和穩(wěn)定性,但是單個的運動模型只能擬合一個運動模式,另外,為提高跟蹤效果,良好 描述子的應用也要花費大量的時間。前人已經(jīng)嘗試使用交互式多模型算法IMM完成人體運 動跟蹤,對特定的人體運動模式使用精心挑選的運動模型集獲得較好的跟蹤效果,但在實 際的應用中,較小的運動模型集合無法解決人體運動模式的復雜性和多變性,例如,當前運 動模式為已經(jīng)跳轉(zhuǎn)為行走時,而運動模型集合中只包含了跳躍的運動模型,無法保證跟蹤 效果。簡單的增加運動模型的數(shù)量是不可行的,不僅會增加運算的時間復雜度,而且還會因 為運動模型之間的不必要的競爭導致跟蹤效果的降低。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有方法不足,提出了一種基于變結構多模型VSMM的人 體運動跟蹤方法,以減小人體運動姿態(tài)恢復的歧義性,提高人體運動跟蹤的精確性,同時降 低單幀跟蹤的時間。實現(xiàn)本發(fā)明目的的技術方案是在檢測人體關節(jié)點位置的基礎上,通過使用運動 捕捉數(shù)據(jù)訓練的運動模型,結合VSMM算法框架來解決人體運動跟蹤問題。一 .本發(fā)明基于VSMM的人體跟蹤方法,包括預處理步驟輸入人體視頻圖像,通過背景差獲得人體側影,提取人體側影外輪 廓,并對人體側影進行細化處理;關節(jié)點檢測步驟對預處理后的人體視頻圖像,進行如下關節(jié)點檢測1)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的輪廓點最多時的圓心作為頭節(jié)占.
^ \\\ 2)選取人體側影重心部位為根節(jié)點;3)使用3D人體骨架模型在圖像上投影,得到人體軀干上其他關節(jié)點位置;4)選取骨架線頂點位置作為手節(jié)點和腳節(jié)點;5)通過下半身側影的質(zhì)心作兩腳連線的平行線,其與骨架線的兩個交點作為膝關 節(jié);6)將骨架線上與手和肩部距離相等的點作為肘關節(jié);7)對因遮擋或因分割噪聲無法檢測到的部分關節(jié)點,則采用Kalman濾波方法,一 步預測得到;運動模型訓練步驟從卡耐基梅隆大學CMU運動捕捉數(shù)據(jù)庫中選取多種運動模式 的捕捉數(shù)據(jù),采用嶺回歸方法對運動模型方程的狀態(tài)轉(zhuǎn)移矩陣Fi進行訓練,并計算該運動 模型的噪聲Wk協(xié)方差,獲得的運動模型集合稱為總運動模型集M ;運動模型集覆蓋設計步驟在總運動模型集M中,若兩個運動模型所匹配的人體 運動模式相似,則將這兩種運動模型分在同一模型群中,否則,將其分入不同的模型群;每 個模型群包含3個運動模型;初始化模型群步驟將總運動模型集中的運動模型方程作為交互式多模型濾波器 的狀態(tài)方程,將交互式多模型運行十個周期,計算各模型群的模型群概率,選擇概率最大的 模型群作為初始當前模型群M1 ;
交互式多模型混合估計步驟以k時刻人體關節(jié)點作為輸入,執(zhí)行交互式多模型 算法,獲得人體運動姿態(tài)估計,更新運動模型概率和人體運動姿態(tài)估計誤差協(xié)方差;運動模型群激活步驟根據(jù)人體關節(jié)點位置,計算四肢關節(jié)點骨架線在圖像上投 影的角度變化值,若變化值大小滿足模型群激活規(guī)則,記此時刻為h,執(zhí)行以下新激活模型 群模型初始化步驟,否則,輸出人體運動姿態(tài)估計,執(zhí)行上述交互式多模型混合估計步驟;新激活模型群模型初始化步驟將新激活模型的概率初始化為當前模型群中模型 概率最大值,并歸一化模型概率;將預測誤差協(xié)方差初始化為運動模型自身的噪聲協(xié)方差; 選取運動捕捉數(shù)據(jù)中與當前模式匹配程度最高的狀態(tài)作為初始狀態(tài);將原模型群M。和新激 活的候選模型群Mn合并為新的當前模型群;模型群終止步驟根據(jù)新的當前模型群,重新執(zhí)行上述交互式多模型一個周期,若
模型群Mn和模型群M。的模型群概率比Ml M或者模型群似然比^!(^"/《“)小于0.9,
^k" / f^k0 k=k0
則終止模型群Mn,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計步驟;若 M / μ和均大于1,則終止模型群M。,輸出人體運動姿態(tài)估計,并返回執(zhí)行上
述交互式多模型混合估計步驟;否則,輸出人體運動姿態(tài)估計,并繼續(xù)執(zhí)行該步驟。二 . 一種基于VSMM的人體跟蹤系統(tǒng),包括預處理裝置用于輸入人體視頻圖像,通過背景差獲得人體側影,提取人體側影外 輪廓,并對人體側影進行細化處理;關節(jié)點檢測裝置用于對預處理后的人體視頻圖像,進行如下關節(jié)點檢測1)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的輪廓點最多時的圓心作為頭節(jié)占.
^ \\\ 2)選取人體側影重心部位為根節(jié)點;3)使用3D人體骨架模型在圖像上投影,得到人體軀干上其他關節(jié)點位置;4)選取骨架線頂點位置作為手節(jié)點和腳節(jié)點;5)通過下半身側影的質(zhì)心作兩腳連線的平行線,其與骨架線的兩個交點作為膝關 節(jié);6)將骨架線上與手和肩部距離相等的點作為肘關節(jié);7)對因遮擋或因分割噪聲無法檢測到的部分關節(jié)點,則采用Kalman濾波方法,一 步預測得到;運動模型訓練裝置用于從卡耐基梅隆大學CMU運動捕捉數(shù)據(jù)庫中選取多種運動 模式的捕捉數(shù)據(jù),采用嶺回歸方法對運動模型方程的狀態(tài)轉(zhuǎn)移矩陣Fi進行訓練,并計算該 運動模型的噪聲Wk協(xié)方差,獲得的運動模型集合稱為總運動模型集M ;運動模型集覆蓋設計裝置用于在總運動模型集M中,若兩個運動模型所匹配的 人體運動模式相似,則將這兩種運動模型分在同一模型群中,否則,將其分入不同的模型 群;每個模型群包含3個運動模型;初始化模型群裝置用于將總運動模型集中的運動模型方程作為交互式多模型濾 波器的狀態(tài)方程,將交互式多模型運行十個周期,計算各模型群的模型群概率,選擇概率最 大的模型群作為初始當前模型群M1 ;
交互式多模型混合估計裝置用于以k時刻人體關節(jié)點作為輸入,執(zhí)行交互式多 模型算法,獲得人體運動姿態(tài)估計,更新運動模型概率和人體運動姿態(tài)估計誤差協(xié)方差;運動模型群激活裝置用于根據(jù)人體關節(jié)點位置,計算四肢關節(jié)點骨架線在圖像上 投影的角度變化值,若變化值大小滿足模型群激活規(guī)則,記此時刻為&,執(zhí)行以下新激活模型 群模型初始化裝置,否則,輸出人體運動姿態(tài)估計,執(zhí)行上述交互式多模型混合估計裝置;新激活模型群模型初始化裝置用于將新激活模型的概率初始化為當前模型群中 模型概率最大值,并歸一化模型概率;將預測誤差協(xié)方差初始化為運動模型自身的噪聲協(xié) 方差;選取運動捕捉數(shù)據(jù)中與當前模式匹配程度最高的狀態(tài)作為初始狀態(tài);將原模型群M。 和新激活的候選模型群Mn合并為新的當前模型群;模型群終止裝置用于根據(jù)新的當前模型群,重新執(zhí)行上述交互式多模型一個周
期,若模型群Mn和模型群M。的模型群概率比Μ ι M或者模型群似然比
0. 9,則終止模型群Mn,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計裝
置;若M / M和 (片"/C)均大于1,則終止模型群M。,輸出人體運動姿態(tài)估計,并返回
執(zhí)行上述交互式多模型混合估計裝置;否則,輸出人體運動姿態(tài)估計,并繼續(xù)執(zhí)行該裝置。本發(fā)明與現(xiàn)有的技術相比具有以下優(yōu)點1、直接使用運動捕捉數(shù)據(jù)訓練運動模型,而不是學習運動捕捉視頻的圖像特征和 運動捕捉數(shù)據(jù)之間的關系,消除了圖像噪聲的影響,提高了運動模型的精確性和穩(wěn)定性;2、在執(zhí)行過程中,只有與當前運動模式相匹配的運動模型群起作用,而不是總運 動模型集的每個運動模型都在起作用,減少不相關的運動模型的個數(shù),不僅縮短了運行時 間,而且減輕了不相關運動模型的惡意競爭,提高了人體運動跟蹤的精確度;3、使用人體關節(jié)點作為輸入,算法簡單,時間復雜度低。
圖1是本發(fā)明基于VSMM的人體運動跟蹤系統(tǒng)框圖2是本發(fā)明基于VSMM的人體運動跟蹤方法總流程圖3是本發(fā)明的人體運動圖像預處理子流程圖4是本發(fā)明的人體關節(jié)點檢測子流程圖5是本發(fā)明仿真實驗的人體關節(jié)點檢測結果圖6是本發(fā)明實驗使用的3D人體骨架模型圖7是本發(fā)明仿真實驗的總運動模型集拓撲圖8是本發(fā)明肢節(jié)投影角度變化示例圖9是本發(fā)明仿真實驗檢測結果、正面投影結果和三維結果圖10是本發(fā)明仿真實驗的模型概率結果圖11是本發(fā)明仿真實驗人體右肘和右手3D結果投影與檢測關節(jié)點的誤差圖。
具體實施例方式
參照圖1,本發(fā)明基于VSMM的人體運動跟蹤系統(tǒng)包括預處理裝置、關節(jié)點檢測裝置、運動模型訓練裝置、運動模型集覆蓋設計裝置、初始化模型群裝置、交互式多模型混 合估計裝置、運動模型群激活裝置、新激活模型群模型初始化裝置、模型群終止裝置,其中 預處理裝置,獲取人體運動圖像,然后與背景圖像做差,獲得背景差圖像,用形態(tài)學方法處 理背景差圖像,得到清晰的人體側影,采用邊緣跟蹤算法獲得人體側影外輪廓,細化人體側 影,得到人體側影的骨架線;關節(jié)點檢測裝置,根據(jù)預處理后的圖像,根據(jù)經(jīng)驗分別檢測各 肢節(jié)的人體關節(jié)點;運動模型訓練裝置,從運動捕捉數(shù)據(jù)中提取訓練數(shù)據(jù)對,采用嶺回歸方 法訓練運動模型方程狀態(tài)矩陣,獲得總運動模型集;運動模型集覆蓋設計裝置,根據(jù)運動模 型之間的轉(zhuǎn)移概率和拓撲結構,對總運動模型集進行分組,獲得若干運動模型群;初始化模 型群裝置,使用交互式多模型算法獲得變結構多模型算法的初始模型群;交互式多模型混 合估計裝置,以人體關節(jié)點為輸入,當前模型群的運動模型方程組委狀態(tài)方程,獲得人體運 動姿態(tài)估計,更新運動模型概率和人體運動姿態(tài)估計誤差協(xié)方差;運動模型群激活裝置,若 四肢的投影角度變化滿足模型群激活規(guī)則,則激活相應的候選模型群;新激活模型群模型 初始化裝置,對運動模型群激活裝置獲得的候選模型群進行初始化;模型群終止裝置,若新 激活模型群和原當前模型群的模型群概率比或模型群似然比小于0. 9,則終止新激活的模 型群,若模型群概率比和模型群似然比均大于1,則終止原當前模型群。參照圖2,本發(fā)明基于VSMM的人體運動跟蹤方法,具體實現(xiàn)過程如下步驟1,對輸入圖像作預處理,獲得人體側影及其外輪廓、骨架線。參照圖3,本步驟具體實現(xiàn)如下1. 1)在人體未進入攝像機視角之前,空拍背景區(qū)域3-5秒,對空拍視頻圖像中的 每個像素點位置求算術平均值,記最終的平均值圖像為背景圖像;1. 2)獲取人體運動圖像,與背景圖像做像素差,獲得背景差圖像;1. 3)采用形態(tài)學方法清除背景差圖像中的分割噪聲,得到清晰的人體側影;1. 4)采用邊緣跟蹤算法獲得人體側影外輪廓;細化人體側影,得到人體側影的骨 架線。步驟2 對預處理后的人體視頻圖像,進行關節(jié)點檢測。參照圖4,本步驟具體實現(xiàn)如下2. 1)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的人體側影輪廓點最多時的圓 心作為頭節(jié)點;2. 2)選取人體側影重心部位為根節(jié)點,所有人體側影點χ坐標值的算術平均值作 為根節(jié)點的X坐標,y坐標值的算術平均值作為根節(jié)點的y坐標;2. 3)將3D人體骨架模型以根節(jié)點為基準在視頻圖像上投影,得到人體軀干中心 點、鎖骨關節(jié)點、左右肩膀點和左右臀部關節(jié)點;2. 4)檢測獲得人體側影骨架線的端點,根據(jù)最近鄰原則確定手節(jié)點和腳節(jié)點;2. 5)通過下半身側影的質(zhì)心作兩腳連線的平行線,其與骨架線的兩個交點作為膝 關節(jié);2. 6)將骨架線上與手和肩部距離相等的點作為肘關節(jié);2. 7)對因遮擋或因分割噪聲無法檢測到的部分關節(jié)點,則采用Kalman濾波方法, 一步預測得到。按本步驟對人體關節(jié)點檢測的結果如圖5所示。
9
步驟3 對運動模型進行訓練,獲得總運動模型集合M。實驗中可應用到多種運動模型,對運動模型進行訓練,如僵硬的行走模型Hi1,行走 模型m2,手臂伸展保持平衡行走模型m3,Jack跳模型m4,跳躍模型m5和下蹲模型m6,本發(fā)明 采用行走模型m2,但不局限于該運動模型,其訓練步驟如下3. 1)從卡耐基梅隆大學CMU運動捕捉數(shù)據(jù)庫中選取行走模式的捕捉數(shù)據(jù),提取需 要的關節(jié)角度,轉(zhuǎn)化為四元數(shù)表示,組成訓練數(shù)據(jù)對丨眾=U,--,114};3. 2)設= F2X2k + "^2表示行走模型m2的運動模型方程,g表示行走模型的人
體運動參數(shù),F(xiàn)2表示運動模型方程的狀態(tài)轉(zhuǎn)移矩陣,<表示運動模型的噪聲;3. 3) F2根據(jù)下式計算 其中,
為規(guī)則化因子,在本發(fā)明的實驗中λ =0.15;所有運動模型都按上述步驟訓練,最終獲得總運動模型集M = Im1, m2,m3, m4, m5,
m6}。步驟4 對總運動模型集進行分組。在總運動模型集M中,根據(jù)運動模型之間的轉(zhuǎn)移概率和拓撲結構,分析兩個運動 模型之間的連通性和跳轉(zhuǎn)可能性,若兩個運動模型不僅是連通的,而且模型概率又能在兩 者之間跳轉(zhuǎn),則稱兩個運動模型匹配的人體運動模式相似,并將這兩種運動模型分在同一 模型群中,否則,將這兩個運動模型分入不同的模型群,每個運動模型群包含3個運動模 型;如仿真實驗中,僵硬的行走模型Hi1,行走模型m2,手臂伸展保持平衡行走模型m3都與行 走模式匹配,所以這三個運動模型分入同一運動模型群;總運動模型集運動模型之間的拓 撲結構如圖7所示,總運動模型集運動模型之間的轉(zhuǎn)移概率如表1所示,總運動模型集分組 結果如表2所示。步驟5 初始化當前模型群Miq將總運動模型集中的運動模型方程作為交互式多模型濾波器的狀態(tài)方程,將交互 式多模型運行十個周期,計算各模型群的模型群概率,選擇概率最大的模型群作為初始當 前模型群M1。步驟6 使用交互式多模型算法計算人體運動姿態(tài)估計。首先設計交互式多模型算法中模型的狀態(tài)方程和量測方程,然后以k時刻人體關 節(jié)點作為輸入,經(jīng)過模型條件初始化、模型條件濾波、模型概率更新和狀態(tài)估計融合四步, 最終獲得人體運動姿態(tài)估計,具體實施步驟如下6. 1)選擇包含3個模型的交互式多模型算法,設模型i的系統(tǒng)狀態(tài)方程和量測方 程如下 式中,X丨二坑,込召總總總總總總總總廣為模型i的狀態(tài)向量,F(xiàn)i為狀態(tài)轉(zhuǎn)移
矩陣,與步驟4中所訓練的運動模型狀態(tài)轉(zhuǎn)移方程相同,<為狀態(tài)噪聲,Q1,…,09為用四元 數(shù)表示的人體關節(jié)點的旋轉(zhuǎn)角度,T0, Q0,…,Q9所對應的關節(jié)點位置如圖6所示,其中,T0表示人體在全局坐標系的整體位移,Qtl表示全局坐標系的旋轉(zhuǎn)角度,Q1表示左臀關節(jié)點的 旋轉(zhuǎn)角度,Q2表示左膝關節(jié)點的旋轉(zhuǎn)角度,Q3表示右臀關節(jié)點的旋轉(zhuǎn)角度,Q4表示右膝關節(jié) 點的旋轉(zhuǎn)角度,Q5表示左肩關節(jié)點的旋轉(zhuǎn)角度,Q6表示左肘關節(jié)點的旋轉(zhuǎn)角度,Q7表示右肩 關節(jié)點的旋轉(zhuǎn)角度,Q8表示右肘關節(jié)點的旋轉(zhuǎn)角度,Q9表示頸部關節(jié)點的旋轉(zhuǎn)角度;Zk是k 時刻人體關節(jié)點圖像位置,共34維;H(Xk)為量測轉(zhuǎn)移矩陣,vk為量測噪聲;6. 2)模型條件初始化考慮每個模型的濾波器都有可能成為當前有效的系統(tǒng)模型濾波器,每個模型濾波 器的初始條件都是前一時刻各模型濾波結果的加權和,權值為相應的模型概率,分別計算 混合概率和混合估計,實施步驟如下6. 2a)計算混合概率記k-Ι時刻的匹配模型是/^1,而k時刻的匹配模型是,以k-Ι時刻的信息Ζ" 為條件的混合概率是 其中
為歸一化常數(shù),,_為k-Ι時刻匹配模型t的概率,Jiij為匹配
模型"C1到匹配模型"C1的轉(zhuǎn)移概率,Zk-1 = Iz1, z2,-,ZkJ ;6. 2b)計算混合估計對k時刻的匹配模型,重初始化狀態(tài)及其誤差協(xié)方差矩陣戶二“的混合估 計分別為 其中,表示匹配模型對人體運動姿態(tài)的估計,M^lL1表示混合概率;6. 3)計算人體姿態(tài)估計及其誤差協(xié)方差^t,殘差5/及其協(xié)方差匁,量測Zk與匹 配模型m/匹配的似然函數(shù)Λ丨,濾波增益和人體運動姿態(tài)估計更新衫+及其誤差協(xié)方差陣6. 3a)將重初始化的狀態(tài)與協(xié)方差陣按混合估計即名“㈣和^㈣代入匹配模型< 的濾波器,獲得狀態(tài)估計衫w及其誤差協(xié)方差Pi Xjk^1 =Fj7)h=FHf+Q“8)其中,表示匹配模型W/的噪聲協(xié)方差。6. 3b)將重初始化的狀態(tài):^lW代入量測轉(zhuǎn)移矩陣H( ·),計算量測殘差茍及其協(xié)方 差陣匁
10)其中,Zk表示k時刻的量測,對表示匹配模型m/的量測噪聲協(xié)方差,hk表示量測矩 陣H的Jacobian矩陣。6. 3c)在高斯假設下,將殘差茍及其協(xié)方差陣匆代入下式,計算量測Zk與匹配模型 匹配的似然函數(shù)八{ 其中,表示匹配模型m/的量測預測殘差。6. 3d)將狀態(tài)估計^w及其誤差協(xié)方差巧口,殘差與及其協(xié)方差陣匁代入下式,計 算濾波增益火/,人體運動姿態(tài)估計更新衫及其誤差協(xié)方差陣Pi
0122]6. 4)模型概率更新
0123]根據(jù)步驟6. 3c)得到的似然函數(shù)Λ〖,計算k時刻匹配模型m/的概率
0124]
15)其中
為歸一化常數(shù),而 6. 5)狀態(tài)估計融合根據(jù)步驟6. 3d)計算得到的匹配模型m/狀態(tài)估計衫和步驟6. 4)得到的匹配模型 概率<,計算k時刻的人體運動姿態(tài)估計和人體運動姿態(tài)估計誤差協(xié)方差陣6. 5a)利用下式對k時刻的人體運動姿態(tài)毛|lt進行估計
16)其中,對4為k時刻匹配模型w/的人體運動姿態(tài)估計,<為k時刻匹配模型w/的概率。6. 5b)利用下式計算k時刻的人體運動姿態(tài)估計誤差協(xié)方差陣Pklk
17)其中,Pi為k時刻匹配模型的人體運動姿態(tài)估計誤差協(xié)方差,表示k時刻人 體運動姿態(tài)估計。步驟7 運動模型群激活。根據(jù)人體關節(jié)點位置,計算四肢關節(jié)點在圖像上的投影角度變化值,以下肢為例 肢節(jié)投影角度變化如圖8所示,若投影角度值滿足如下激活模型群規(guī)則,則記Ictl = k,執(zhí)行以下新激活模型群模型初始化步驟,否則,輸出人體運動姿態(tài)估計,執(zhí)行上述步驟6。a)若臀部的投影角度變化值是前一時間的2倍,則將運動模型群3激活;b)若大部分下肢的投影角度變化值是前一時間的2倍,則將運動模型群2激活;c)若大部分下肢的投影角度變化值是前一時間的1/2,則將運動模型群1激活。步驟8 新激活候選模型群初始化。記當前模型群為Mk,原當前模型群為M。和新激活的候選模型群為Mn,使Μ。= Mk,Mk =Mn U M0 ;8. 1)新激活運動模型Hii的概率初始化為
18)歸一化當前模型群Mk中模型概率IMi5Zi),從巧丨Mfl,Zi)表示原當前模型群 M。中模型Ii^的概率估計;8. 2)將預測誤差協(xié)方差初始化為運動模型的噪聲協(xié)方差;8. 3)選取運動捕捉數(shù)據(jù)中與當前模式匹配程度最高的狀態(tài)作為初始狀態(tài);8.4)將原模型群M。和新激活的候選模型群Mn合并為新的當前模型群。步驟9:模型群終止。根據(jù)新的當前模型群,對模型群M1 = Mn, M0,分別計算々=Σ ^ ;
唭中,,表示k時刻,第i個運動模型的模型概率,
/if'表示k時刻,模型群M1的模型群概率和,Zi表示k時刻,第i個運動模型的模型似然,Zf' 表示k時刻,模型群M1的模型群似然和;/表示k時刻,第i個運動模型的模型概率估計, K“表示k時刻,模型群M1的模型群概率估計和,模型群終止按如下步驟執(zhí)行9. 1)若模型群Mn和模型群M。的模型群概率比/μ廣或者模型群似然比
)小于0. 9,則終止模型群Mn,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述步驟6 ;9. 2)若模型群概率比M /財和模型群似然比fKC/C)均大于1,則終止模型
群M。,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述步驟6 ;9. 3)若步驟9. 1)和步驟9. 2)均未被執(zhí)行,則輸出人體運動姿態(tài)估計,并繼續(xù)執(zhí)行
該步驟。本發(fā)明的效果可以通過以下仿真實驗進一步說明1)仿真實驗所用數(shù)據(jù)仿真實驗中,訓練運動模型所使用的數(shù)據(jù)從CMU運動捕捉數(shù)據(jù)庫中獲得,數(shù)據(jù)的 格式是ASF+AMC,數(shù)據(jù)內(nèi)容是歐拉角表示的關節(jié)旋轉(zhuǎn)角度,從中提取實驗中所需要的人體關 節(jié)點旋轉(zhuǎn)角度,然后轉(zhuǎn)換為四元數(shù)表示。實驗中使用的人體運動視頻是自拍視頻,視頻圖像大小為320X240,前100幀 空拍圖像用來重建背景,后450幀用來做人體運動跟蹤,視頻序列中包含的人體運動有 1-120幀的踏步,121-250幀的手揮舞和跨步,251-390幀的Jack跳,391-450幀下蹲。
2)仿真內(nèi)容采用變結構多模型方法對人體運動序列進行跟蹤。從CMU運動捕捉數(shù)據(jù)庫中獲得 運動捕捉數(shù)據(jù),訓練的人體運動模型分別為僵硬的行走模型Hi1,行走模型m2,手臂伸展保 持平衡行走模型m3,Jack跳模型m4,跳躍模型m5和下蹲模型m6,如表1所示;運動模型之間 的拓撲關系如圖7所示,根據(jù)表1和圖7,分析運動模型之間的連通性和跳轉(zhuǎn)可能性,若兩個 運動模型不僅是連通的,而且模型概率又能在兩者之間跳轉(zhuǎn),則稱兩個運動模型匹配的人 體運動模式相似,并將這兩種運動模型分在同一模型群中,否則,將這兩個運動模型分入不 同的模型群,對總運動模型集M= {m1,m2,m3,m4,m5,m6}分組,分組結果如表2所示;人體運 動姿態(tài)融合估計采用變結構多模型算法獲得。表1運動模型轉(zhuǎn)移概率 表2總運動模型群分組結果 3)仿真結果及分析采用變結構多模型算法對自拍視頻中的人體運動進行跟蹤,最終的人體關節(jié)點 檢測結果、3D人體運動跟蹤結果及其2D投影如圖9所示,其中,人體關節(jié)點檢測結果如圖 9(a)所示,人體運動跟蹤二維投影結果如圖9(b)所示,人體運動跟蹤三維姿態(tài)估計結果如 圖9(c)所示;從圖9(b)中可以看出人體運動姿態(tài)估計結果的在圖像上的2D投影基本上 與人體骨架線重合;從圖9(c)中可以看出人體運動姿態(tài)估計結果的3D效果與真實的人 體運動姿態(tài)相同,本發(fā)明有效的解決了人體運動的歧義性問題,提高了人體運動跟蹤的精 確性和穩(wěn)定性。跟蹤實驗中,每個運動模型的模型概率變化如圖10所示,其中,僵硬的行走模型Hi1 的模型概率變化如圖10(a)所示,行走模型m2的模型概率變化如圖10(b)所示,手臂伸展 保持平衡行走模型%的模型概率變化如圖10(c)所示,Jack跳模型m4的模型概率變化如 圖10(d)所示,跳躍模型m5的模型概率變化如圖10(e)所示,下蹲模型m6的模型概率變化 如圖10(f)所示;從圖10中可以看出每個時刻都只有一個運動模型起到主要作用,當運動模型和人體運動模式相似時,運動模型的模型概率較大,當人體運動模式發(fā)生變化時,起 主要作用的運動模型隨之發(fā)生變化,本發(fā)明的運動模型群激活規(guī)則很好的完成了運動模型 群激活任務。3D關節(jié)點投影與關節(jié)點實際位置的誤差如圖11所示,其中,3D右肘點投影與右肘 實際位置的誤差如圖11(a)所示,3D右手點投影與右手實際位置的誤差如圖11(b)所示,從 圖11中可知,平均誤差在2. 7cm-5. 2cm之間,可見使用變結構多模型方法跟結果的投影誤
差較小。本發(fā)明的仿真實驗在Matlab上編譯完成,執(zhí)行環(huán)境為windows框架下的HP工作 站,人體關節(jié)點檢測速度為1秒/幀,人體運動跟蹤為10幀/秒,時間復雜度低。本發(fā)明使用變結構多模型方法進行人體運動跟蹤,采用運動捕捉數(shù)據(jù)訓練得到的 運動模型作為濾波器的狀態(tài)方程,使得運動跟蹤更加符合人體運動規(guī)律,減少了人體運動 歧義性的影響;總運動模型集覆蓋的使用不僅解決了小運動模型集合無法準確跟蹤復雜人 體運動的問題,而且避免了同時使用大量運動模型帶來的不必要的競爭,該競爭不僅會提 高時間復雜度,同時也會降低跟蹤的準確性;提取的圖像特征簡單,降低了單幀運行時間; 跟蹤每幀時,只使用與當前運動模式相容的運動模型,而不是總運動模型集,降低了時間復 雜度。仿真結果表明,該跟蹤方法,準確的得到了二維投影和三維的姿態(tài)恢復,減少了人體 運動歧義性,時間復雜度低。
權利要求
一種基于VSMM的人體運動跟蹤方法,包括預處理步驟輸入人體視頻圖像,通過背景差獲得人體側影,提取人體側影外輪廓,并對人體側影進行細化處理;關節(jié)點檢測步驟對預處理后的人體視頻圖像,進行如下關節(jié)點檢測1)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的輪廓點最多時的圓心作為頭節(jié)點;2)選取人體側影重心部位為根節(jié)點;3)使用3D人體骨架模型在圖像上投影,得到人體軀干上其他關節(jié)點位置;4)選取骨架線頂點位置作為手節(jié)點和腳節(jié)點;5)通過下半身側影的質(zhì)心作兩腳連線的平行線,其與骨架線的兩個交點作為膝關節(jié);6)將骨架線上與手和肩部距離相等的點作為肘關節(jié);7)對因遮擋或因分割噪聲無法檢測到的部分關節(jié)點,則采用Kalman濾波方法,一步預測得到;運動模型訓練步驟從卡耐基梅隆大學CMU運動捕捉數(shù)據(jù)庫中選取多種運動模式的捕捉數(shù)據(jù),采用嶺回歸方法對運動模型方程的狀態(tài)轉(zhuǎn)移矩陣Fi進行訓練,并計算該運動模型的噪聲wk協(xié)方差,獲得的運動模型集合稱為總運動模型集M;運動模型集覆蓋設計步驟在總運動模型集M中,若兩個運動模型所匹配的人體運動模式相似,則將這兩種運動模型分在同一模型群中,否則,將其分入不同的模型群;每個模型群包含3個運動模型;初始化模型群步驟將總運動模型集中的運動模型方程作為交互式多模型濾波器的狀態(tài)方程,將交互式多模型運行十個周期,計算各模型群的模型群概率,選擇概率最大的模型群作為初始當前模型群M1;交互式多模型混合估計步驟以k時刻人體關節(jié)點作為輸入,執(zhí)行交互式多模型算法,獲得人體運動姿態(tài)估計,更新運動模型概率和人體運動姿態(tài)估計誤差協(xié)方差;運動模型群激活步驟根據(jù)人體關節(jié)點位置,計算四肢關節(jié)點骨架線在圖像上投影的角度變化值,若變化值大小滿足模型群激活規(guī)則,記此時刻為k0,執(zhí)行以下新激活模型群模型初始化步驟,否則,輸出人體運動姿態(tài)估計,執(zhí)行上述交互式多模型混合估計步驟;新激活模型群模型初始化步驟將新激活模型的概率初始化為當前模型群中模型概率最大值,并歸一化模型概率;將預測誤差協(xié)方差初始化為運動模型自身的噪聲協(xié)方差;選取運動捕捉數(shù)據(jù)中與當前模式匹配程度最高的狀態(tài)作為初始狀態(tài);將原模型群Mo和新激活的候選模型群Mn合并為新的當前模型群;模型群終止步驟根據(jù)新的當前模型群,重新執(zhí)行上述交互式多模型一個周期,若模型群Mn和模型群Mo的模型群概率比或者模型群似然比小于0.9,則終止模型群Mn,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計步驟;若和均大于1,則終止模型群Mo,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計步驟;否則,輸出人體運動姿態(tài)估計,并繼續(xù)執(zhí)行該步驟。FSA00000196294600021.tif,FSA00000196294600022.tif,FSA00000196294600023.tif,FSA00000196294600024.tif
2.根據(jù)權利要求1所述的人體運動跟蹤方法,其中運動模型訓練步驟中所述的采用嶺回歸方法對運動模型方程的狀態(tài)轉(zhuǎn)移矩陣Fi進行訓練,是通過如下步驟進行2a)設= FiXik + %表示第i個要訓練的運動模型方程,其中Fi表示狀態(tài)轉(zhuǎn)移矩陣;2b)從運動捕捉數(shù)據(jù)中獲取數(shù)據(jù)對{ ,x'k)\k = \,2,-,n-\},其中4是用四元數(shù)表示的人體運動參數(shù);2c) Fi根據(jù)下式求出 —1 2 F'=argmin{X||FX-4+1|| +及(廠)}其中,R(Fi) = λ I IFiI I2, λ為規(guī)則化因子,在本發(fā)明的實驗中λ =0.15。 實驗中可應用到多種運動模型,對運動模型進行訓練,如僵硬的行走模型Hl1,行走模型 m2,手臂伸展保持平衡行走模型m3,Jack跳模型m4,跳躍模型m5和下蹲模型m6,所有運動模 型都按上述步驟訓練,最終獲得總運動模型集M = Im1, m2,m3, m4, m5, m6}。
3.根據(jù)權利要求1所述的人體運動跟蹤方法,其中運動模型群激活步驟中所述的模型 群激活規(guī)則,包括3a)若臀部的投影角度變化值是前一時間的2倍,則將運動模型群3激活; 3b)若大部分下肢的投影角度變化值是前一時間的2倍,則將運動模型群2激活; 3c)若大部分下肢的投影角度變化值是前一時間的1/2,則將運動模型群1激活。
4.一種基于VSMM的人體運動跟蹤系統(tǒng),包括預處理裝置用于輸入人體視頻圖像,通過背景差獲得人體側影,提取人體側影外輪 廓,并對人體側影進行細化處理;關節(jié)點檢測裝置用于對預處理后的人體視頻圖像,進行如下關節(jié)點檢測1)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的輪廓點最多時的圓心作為頭節(jié)點;2)選取人體側影重心部位為根節(jié)點;3)使用3D人體骨架模型在圖像上投影,得到人體軀干上其他關節(jié)點位置;4)選取骨架線頂點位置作為手節(jié)點和腳節(jié)點;5)通過下半身側影的質(zhì)心作兩腳連線的平行線,其與骨架線的兩個交點作為膝關節(jié);6)將骨架線上與手和肩部距離相等的點作為肘關節(jié);7)對因遮擋或因分割噪聲無法檢測到的部分關節(jié)點,則采用Kalman濾波方法,一步預 測得到;運動模型訓練裝置用于從卡耐基梅隆大學CMU運動捕捉數(shù)據(jù)庫中選取多種運動模式 的捕捉數(shù)據(jù),采用嶺回歸方法對運動模型方程的狀態(tài)轉(zhuǎn)移矩陣Fi進行訓練,并計算該運動 模型的噪聲Wk協(xié)方差,獲得的運動模型集合稱為總運動模型集M ;運動模型集覆蓋設計裝置用于在總運動模型集M中,若兩個運動模型所匹配的人體 運動模式相似,則將這兩種運動模型分在同一模型群中,否則,將其分入不同的模型群;每 個模型群包含3個運動模型;初始化模型群裝置用于將總運動模型集中的運動模型方程作為交互式多模型濾波器 的狀態(tài)方程,將交互式多模型運行十個周期,計算各模型群的模型群概率,選擇概率最大的 模型群作為初始當前模型群M1 ;交互式多模型混合估計裝置用于以k時刻人體關節(jié)點作為輸入,執(zhí)行交互式多模型 算法,獲得人體運動姿態(tài)估計,更新運動模型概率和人體運動姿態(tài)估計誤差協(xié)方差;運動模型群激活裝置用于根據(jù)人體關節(jié)點位置,計算四肢關節(jié)點骨架線在圖像上投 影的角度變化值,若變化值大小滿足模型群激活規(guī)則,記此時刻為&,執(zhí)行以下新激活模型 群模型初始化裝置,否則,輸出人體運動姿態(tài)估計,執(zhí)行上述交互式多模型混合估計裝置;新激活模型群模型初始化裝置用于將新激活模型的概率初始化為當前模型群中模型 概率最大值,并歸一化模型概率;將預測誤差協(xié)方差初始化為運動模型自身的噪聲協(xié)方差; 選取運動捕捉數(shù)據(jù)中與當前模式匹配程度最高的狀態(tài)作為初始狀態(tài);將原模型群M。和新激 活的候選模型群Mn合并為新的當前模型群;模型群終止裝置用于根據(jù)新的當前模型群,重新執(zhí)行上述交互式多模型一個周期,若模型群Mn和模型群M。的模型群概率比M或者模型群似然比;小于0.9,則終止模型群Mn,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計裝置;若M / M和 (《”/C)均大于1,則終止模型群M。,輸出人體運動姿態(tài)估計,并返回執(zhí)行上述交互式多模型混合估計裝置;否則,輸出人體運動姿態(tài)估計,并繼續(xù)執(zhí)行該裝置。
全文摘要
本發(fā)明公開了一種基于VSMM的人體運動跟蹤方法,它涉及計算機視覺領域。其主要解決現(xiàn)有方法無法很好解決人體運動歧義性、時間復雜度高和單純增加運動模型無法獲得良好三維人體姿態(tài)估計的問題。其步驟為(1)輸入人體運動視頻圖像,獲得人體側影及其外輪廓、骨架線;(2)檢測人體關節(jié)點位置;(3)使用嶺回歸方法訓練運動模型,并對總運動模型集分組;(4)初始化模型群M1;(5)運行交互式多模型算法,獲得人體運動姿態(tài);(6)激活并初始化滿足激活條件的運動模型群,若無運動模型群滿足激活條件,則執(zhí)行步驟(5);(7)終止?jié)M足終止條件的模型群,執(zhí)行步驟(5),否則,繼續(xù)執(zhí)行該步驟。本發(fā)明具有時間復雜度低,跟蹤效果好的優(yōu)點,可應用于人體運動跟蹤和姿態(tài)估計。
文檔編號G06T7/20GK101894278SQ20101023097
公開日2010年11月24日 申請日期2010年7月16日 優(yōu)先權日2010年7月16日
發(fā)明者吳建設, 尚榮華, 李陽陽, 焦李成, 王爽, 范友健, 陳志超, 韓紅 申請人:西安電子科技大學