一種基于運(yùn)動(dòng)歷史圖與r變換的人體行為識(shí)別方法
【專利摘要】本發(fā)明公開(kāi)一種基于運(yùn)動(dòng)歷史圖與R變換的人體行為識(shí)別方法。該方法使用深度視頻作為識(shí)別依據(jù),首先通過(guò)前景分割技術(shù)計(jì)算出人體運(yùn)動(dòng)的最小包圍矩,之后在最小包圍矩所限定的深度視頻區(qū)域提取運(yùn)動(dòng)歷史圖,隨后在提取的運(yùn)動(dòng)歷史圖上施加運(yùn)動(dòng)強(qiáng)度約束,得到運(yùn)動(dòng)能量圖,最后在得到的運(yùn)動(dòng)能量圖上計(jì)算R變換,從而得到可以用于行為識(shí)別的特征向量。訓(xùn)練和識(shí)別過(guò)程采用了支持向量機(jī)的方法。本發(fā)明采用人體行為運(yùn)動(dòng)的最小包圍矩預(yù)處理,加速行為特征提??;采用運(yùn)動(dòng)歷史圖序列的方法,減小了深度圖中噪聲的影響;在能量圖上進(jìn)行R變換提取特征,使得計(jì)算速度快。
【專利說(shuō)明】—種基于運(yùn)動(dòng)歷史圖與R變換的人體行為識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域,尤其涉及一種基于運(yùn)動(dòng)歷史圖與R變換的人體行為識(shí)別方法。
【背景技術(shù)】
[0002]視頻監(jiān)控是當(dāng)今視覺(jué)領(lǐng)域研究的熱點(diǎn)與重點(diǎn)問(wèn)題,在安防領(lǐng)域和人機(jī)交互等領(lǐng)域,源源不斷地產(chǎn)生著數(shù)量眾多的視頻數(shù)據(jù),這些數(shù)據(jù)動(dòng)輒以G的單位來(lái)衡量,僅憑人工判別無(wú)疑會(huì)耗費(fèi)巨大的人力.視頻內(nèi)容豐富,大部分時(shí)候我們僅關(guān)注視頻中的某些部分,比如說(shuō)人體行為,如果能夠自動(dòng)高效地進(jìn)行識(shí)別,將解放大量的人力。當(dāng)前的行為識(shí)別研究成果主要集中于RGB視頻的行為識(shí)別研究上。
[0003]RGB視頻是視頻最常見(jiàn)的一種形式,來(lái)源廣泛,多年來(lái)有較多研究成果,目前基于RGB視頻的行為識(shí)別方法主要分為時(shí)空分析方法(Space-timeapproach )、序列分析方法(Sequential approach)及層次化分析方法(Hierarchical approach)三大類。經(jīng)過(guò)多年的發(fā)展,基于RGB視頻的人體行為識(shí)別方面的研究瓶頸日益凸顯,原因是RGB視頻作為人體行為識(shí)別的數(shù)據(jù)源時(shí)背景干擾難以去除。更重要的事,RGB視頻僅利用了二維平面信息,用二維信息來(lái)描述三維人體行為顯然損失了很多關(guān)鍵信息。
[0004]隨著技術(shù)的進(jìn)步,近年來(lái)出現(xiàn)了一種廉價(jià)的配有深度傳感器的攝像頭一 Kinect。微軟的這款Kinect攝像頭能在獲取正常的RGB圖像的同時(shí),獲取質(zhì)量可以接受的深度信息。攝像頭中已經(jīng)集成了骨骼學(xué)習(xí)的算法,能夠獲取三維場(chǎng)景中正常人體的骨骼信息。目前深度圖的特征提取主要還是在借鑒以往在RGB上提取特征的經(jīng)驗(yàn)。與此同時(shí),不少公共數(shù)據(jù)集已經(jīng)提出,極大地方便了深度圖上特征提取的研究。Zicheng Liu等人提出了基于三維數(shù)據(jù)輪廓(A bag of3D words)的方法,他將深度圖看作為三維數(shù)據(jù),然后在笛卡爾空間內(nèi)從上、左和前三個(gè)方向投影并得到投影輪廓,這之后在投影輪廓上下采樣出固定個(gè)數(shù)的點(diǎn)作為特征,得出的特征置入Action Graph模型中進(jìn)行識(shí)別。Bingbing Ni獨(dú)立采集了一個(gè)稱之為RGBD-HuDaAct的深度數(shù)據(jù)集,并首次將3D_MHIs的思想用在了深度圖序列特征提取上。這些方法都有各自的局限性:A bag of3D words的方法識(shí)別準(zhǔn)確率較高,但由于需要在人體輪廓上均勻采樣,要求得到的深度數(shù)據(jù)十分純凈,無(wú)法在實(shí)際場(chǎng)景的人體行為識(shí)別中運(yùn)用;直接應(yīng)用3D-MHIS的方法速度夠快,但是識(shí)別準(zhǔn)確率不夠;DMM-H0G在保證識(shí)別準(zhǔn)確率的同時(shí)對(duì)復(fù)雜背景的行為識(shí)別也比較有效,但是該方法太過(guò)耗時(shí),無(wú)法實(shí)現(xiàn)實(shí)時(shí)人體行為識(shí)別。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提出了一種基于運(yùn)動(dòng)歷史圖與R變換的人體行為識(shí)別方法。該方法使用深度視頻作為識(shí)別依據(jù),將運(yùn)動(dòng)歷史圖和R變換的概念應(yīng)用到了行為特征提取過(guò)程之中,并利用支持向量機(jī)的方法進(jìn)行行為識(shí)別的訓(xùn)練和識(shí)別過(guò)程。
[0006]該方法包括離線訓(xùn)練階段和在線識(shí)別階段,具體步驟如下:[0007]步驟(1).離線訓(xùn)練階段
[0008]所述的離線訓(xùn)練階段目的是獲得一個(gè)人體行為識(shí)別模型,其步驟如下:
[0009]步驟1-1.將待訓(xùn)練的深度視頻S切割為時(shí)間長(zhǎng)度相同的多個(gè)深度視頻片段,然后按照各個(gè)深度視頻片段的不同行為類別打上不同的行為標(biāo)記,由此獲得了人體行為識(shí)別的
訓(xùn)練集T。
[0010]所述的訓(xùn)練集T為不同的行為標(biāo)記的各深度視頻片段的集合;
[0011]所述的時(shí)間長(zhǎng)度為在線識(shí)別階段定義的待識(shí)別視頻片段的時(shí)間長(zhǎng)度;
[0012]步驟1-2.運(yùn)用“前景分割技術(shù)”獲得各個(gè)深度視頻片段中人體行為運(yùn)動(dòng)的最小包圍矩,并將深度視頻片段中最小包圍矩限定的視頻內(nèi)容縮放到統(tǒng)一大小。
[0013]所述的“前景分割技術(shù)”操作如下:
[0014]a)對(duì)于訓(xùn)練集T給定的一個(gè)深度視頻片段V,它由若干幀深度圖的,P2, , PJ構(gòu)成,其中i表示第i幀深度圖;對(duì)于其中任意一張深度圖Pi,將Pi中像素點(diǎn)根據(jù)像素點(diǎn)位置的深度值進(jìn)行k-means 二值聚類,得到前景像素集合與背景像素集合;所述的前景像素比背景像素的平均深度值小。
[0015]b)在深度圖Pi上找出一個(gè)矩形框Ri,使得步驟a)得到的所有前景像素均包括在這個(gè)矩形框Ri內(nèi),Ri由
【權(quán)利要求】
1.一種基于運(yùn)動(dòng)歷史圖與R變換的人體行為識(shí)別方法,其特征在于該方法包括離線訓(xùn)練階段和在線識(shí)別階段,具體步驟如下: 步驟(1).離線訓(xùn)練階段: 步驟1-1.將待訓(xùn)練的深度視頻S切割為時(shí)間長(zhǎng)度相同的多個(gè)深度視頻片段,然后按照各個(gè)深度視頻片段的不同行為類別打上不同的行為標(biāo)記,由此獲得了人體行為識(shí)別的訓(xùn)練集T; 所述的訓(xùn)練集T為不同的行為標(biāo)記的各深度視頻片段的集合; 步驟1-2.運(yùn)用“前景分割技術(shù)”獲得各個(gè)深度視頻片段中人體行為運(yùn)動(dòng)的最小包圍矩,并將深度視頻片段中最小包圍矩限定的視頻內(nèi)容縮放到統(tǒng)一大小; 所述的“前景分割技術(shù)”操作如下: a)對(duì)于訓(xùn)練集T給定的一個(gè)深度視頻片段V,它由若干幀深度圖(P1,P2,, PJ構(gòu)成,其中i表示第i幀深度圖;對(duì)于其中任意一張深度圖Pi,將?1中像素點(diǎn)根據(jù)像素點(diǎn)位置的深度值進(jìn)行k-means 二值聚類,得到前景像素集合與背景像素集合;所述的前景像素比背景像素的平均深度值小; b)在深度圖Pi上找出一個(gè)矩形框Ri,使得步驟a)得到的所有前景像素均包括在這個(gè)矩形框Ri內(nèi),Ri由Rf、Kght、Kp和Rf構(gòu)成,其中Rf、Kght、R和分別表示Ri的左邊界、右邊界、上邊界和下邊界的像素坐標(biāo);然后將矩形框Ri按照橫向分為等寬的兩部分,若矩形框Ri的左半部分像素點(diǎn)個(gè)數(shù)比右半部分多,且若if#向左移動(dòng)K個(gè)像素后新的矩形框內(nèi)的像素點(diǎn)個(gè)數(shù)大于最原始矩形框Ri內(nèi)個(gè)數(shù)的Π %,其中K為常數(shù),50〈 η〈100,則將i?產(chǎn)"向左調(diào) 整K個(gè)像素,若移動(dòng)邊界之后新矩形框內(nèi)的像素點(diǎn)個(gè)數(shù)小于最原始矩形框Ri內(nèi)像素點(diǎn)個(gè)數(shù)的H %,則右邊界調(diào)整完成;若矩形框Ri的右半部分的像素點(diǎn)比左半部分多,且將i?廣向右移動(dòng)K個(gè)像素后矩形框內(nèi)的像素點(diǎn)個(gè)數(shù)大于最原始矩形框Ri內(nèi)個(gè)數(shù)的η%,則將向右調(diào)整K個(gè)像素,若移動(dòng)邊界之后新矩形框內(nèi)的像素點(diǎn)個(gè)數(shù)小于最原始矩形框Ri中像素點(diǎn)個(gè)數(shù)的η %,則左邊界調(diào)整完成;若矩形框Ri的左右兩半部分像素點(diǎn)中像素個(gè)數(shù)相差不超過(guò)ε,ε為閾值參數(shù),則判斷將左右邊界同時(shí)向中心靠攏Κ/2個(gè)像素時(shí)新矩形框內(nèi)剩余的像素點(diǎn)個(gè)數(shù)是否大于原始矩形框Ri內(nèi)全部像素的Π %,如果成立,則將矩形框Ri按照左右邊界各收攏Κ/2個(gè)像素進(jìn)行調(diào)整,之后重復(fù)步驟(b),直至新矩形框內(nèi)剩余的像素點(diǎn)個(gè)數(shù)小于原始矩形框Ri內(nèi)全部像素的H % ;采用上述同樣的方法對(duì)矩形框Ri的上下邊界進(jìn)行調(diào)整; c)深度視頻片段V是由橫坐標(biāo)X,縱坐標(biāo)y和時(shí)間坐標(biāo)t三個(gè)維度描述的三維空間體,此三維空間體經(jīng)過(guò)步驟b)調(diào)整后,深度視頻片段V中任意一幀Pi的前景像素被分割出來(lái),該前景像素范圍由Ri進(jìn)行描述;設(shè)深度視頻S中人體行為的最小包圍矩R的四個(gè)上邊界Rup、下邊界RdOTn、左邊界Rleft和右邊界Lght分別可以用按照公式(I)計(jì)算:
Rup = min R1;'', RM'wn = max R:hwn,Rleft = min R1:'丨1,Rright = max 公式(I); 步驟1-3.深度視頻片段V中從時(shí)刻j開(kāi)始任意時(shí)間窗口長(zhǎng)度為τ的一段子序列Sj,可以求出一張運(yùn)動(dòng)歷史圖〃丨,其計(jì)算方式如下:
【文檔編號(hào)】G06K9/46GK103886293SQ201410106957
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2014年3月21日 優(yōu)先權(quán)日:2014年3月21日
【發(fā)明者】肖俊, 李潘, 莊越挺 申請(qǐng)人:浙江大學(xué)