技術(shù)背景:
人體行為識(shí)別是近幾年來計(jì)算機(jī)視覺領(lǐng)域的重大熱點(diǎn)之一,其在運(yùn)動(dòng)捕獲視頻監(jiān)控等多領(lǐng)域獲得了初步的應(yīng)用,并具重大的應(yīng)用前景。由于人體運(yùn)動(dòng)的多變性和多樣性,背景的嘈雜以及背景運(yùn)動(dòng)等多方面的因素嚴(yán)重影響人體運(yùn)動(dòng)的識(shí)別效果,實(shí)現(xiàn)人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域長期存在的問題。
在人體行為識(shí)別問題中,研究者常對圖像強(qiáng)度值在局部范圍內(nèi)有顯著變化的像素點(diǎn)感興趣,這些“興趣點(diǎn)”通常被稱為時(shí)空興趣點(diǎn)(Space-Time Interest Points,STIP)。Harris角點(diǎn)就是一種常用的興趣點(diǎn),2003年,Laptev等人最先將空間域的Harris角點(diǎn)檢測推廣到時(shí)空域,得到3D-Harris角點(diǎn)。該方法較好的克服了尺度、速度、視角等變化,但檢測到的時(shí)空角點(diǎn)過于稀疏。2005年,Dollar等人提出了Cuboids檢測算法,在空間2D高斯濾波器的基礎(chǔ)上引入時(shí)間Gabor濾波器,將相應(yīng)函數(shù)高于某一閾值的區(qū)域定義為時(shí)空興趣點(diǎn),使提取的興趣點(diǎn)更為稠密。然而Dollar方法不具有尺度不變性,2008年,Willems等人提出了基于三維Hessian矩陣的興趣點(diǎn)檢測方法,在保證興趣點(diǎn)稠密性的同時(shí)具有尺度不變性。在以上時(shí)空興趣點(diǎn)的檢測方法中,一旦背景中有其他微小運(yùn)動(dòng)目標(biāo),時(shí)空興趣點(diǎn)同樣會(huì)記錄這些微小運(yùn)動(dòng)。
檢測出興趣點(diǎn)后,需要選擇合適的局部特征描述子對興趣點(diǎn)進(jìn)行特征表示。Laptev等人采用基于HOG和HOF的特征描述子對3D-Harris角點(diǎn)表示,Dollar等人采用Cuboid描述子表示興趣點(diǎn)。Klaser等人將HOG推廣到時(shí)空維,得到3D-HOG描述子,其考慮了是將方向的梯度信息。同樣的,Willems等人將SURF描述子推廣到三維空間,得到ESURF描述子。以上描述例子中,有的只考慮梯度信息,有的只考慮光流信息,當(dāng)聯(lián)合考慮時(shí)有只在空間域與時(shí)間域內(nèi)單獨(dú)考慮。Wang等人比較了各種局部描述算子,并發(fā)現(xiàn)在大多數(shù)情況下整合了梯度和光流信息的描述算子其效果最好。
在分類器的選擇方面,Laptev和Dollar等人都采用K均值聚類對描述子聚類,后采用SVM對行為分類。檢測結(jié)果較優(yōu),但是該方法忽略了動(dòng)作之間的關(guān)聯(lián)性以及時(shí)空上下文特征。2005年Li FeiFei首次將Bag of word模型應(yīng)用于場景圖像的表示,并通過主題模型實(shí)現(xiàn)對多種場景的分類李,使得主題模型進(jìn)行人體行為分類被廣泛接受。其應(yīng)用Cuboid檢測子從視頻序列中提取興趣點(diǎn),利用HOG描述子描述提取到的興趣點(diǎn),生成視覺單詞,應(yīng)用pLSA(Probabilistic Latent Semantic Analysis)學(xué)習(xí)和分類人體行為,該方法不僅可以識(shí)別多個(gè)單動(dòng)作視頻序列,而且可以識(shí)別一個(gè)長視頻中的多個(gè)動(dòng)作。但這些早期的研究還只是局限于受限場景下的人體動(dòng)作識(shí)別,比如特定的視角、動(dòng)作人、背景和光照,在自然場景下,取消上述種種限制的情況下,該方法的性能急劇下降甚至不再適用。
技術(shù)實(shí)現(xiàn)要素:
:
本發(fā)明針對現(xiàn)有基于視頻的人體行為識(shí)別方法存在的不足,提出一種基于概率潛在語義分析的行人異常識(shí)別方法,以提高特征的表征能力和行為識(shí)別率。
為實(shí)現(xiàn)上述目的,該發(fā)明具體包括以下步驟:
步驟A、取一個(gè)視頻樣本,采用混合高斯背景建模算法提取前景目標(biāo),對該視頻每一幀生成僅含人體目標(biāo)的二值掩碼圖片,通過掩碼圖片生成僅含人體目標(biāo)的視頻;
讀取視頻前n幀,建立背景模型,對新讀取的每一幀,分割出包含人體的二值圖片。將該二值圖像與原圖像做掩膜操作,生成僅含人體目標(biāo)的灰度圖像,通過一系列灰度圖像生成僅含前景人體的視頻。
步驟B、采用基于三維Hessian矩陣檢測生成視頻的時(shí)空興趣點(diǎn);
該步驟的具體實(shí)現(xiàn)方法是:
三維Hessian矩陣定義為
其中,σ、τ分別為空間和時(shí)間尺度,ξ、η分別表示x、y或t,g(.;σ2,τ2)為高斯平滑函數(shù),
在該尺度下,對每一個(gè)像素計(jì)算Hessian矩陣行列式,得到興趣點(diǎn)響應(yīng)函數(shù)S=|det(H)|,
在時(shí)間、空間和尺度(x,y,t,σ,τ)上采用非最大值抑制選擇局部最大值作為興趣點(diǎn)的位置。
在計(jì)算中,對極值點(diǎn)尺度歸一化,并采用積分視頻和盒濾波器加速計(jì)算。
步驟C、采用HOG3D/HOF描述子計(jì)算步驟B中檢測到的時(shí)空興趣點(diǎn),獲得相應(yīng)的特征向量;
將興趣點(diǎn)周圍的視頻塊劃分為不同子塊,每一子塊又劃分為不同的元胞。每個(gè)元胞的直方圖qj由元胞的平均梯度經(jīng)正多面體量化得到,每個(gè)子塊分別用直方圖hi表示,則子塊直方圖hi由元胞直方圖qj累加得到,再將所有子塊直方圖hi連接得到視頻塊直方圖ds,進(jìn)行二范數(shù)歸一化最終生成HOG3D特征向量。
以人體活動(dòng)時(shí)空興趣點(diǎn)p為中心,將局部時(shí)空小塊按x,y,t方向均分成nx×ny×nt個(gè)小格,將0度至360度的光流方向劃分5個(gè)方向;采用LK光流法計(jì)算每個(gè)像素位置的光流,之后在這5個(gè)方向做量化和直方圖統(tǒng)計(jì),得到每個(gè)小格的統(tǒng)計(jì)結(jié)果為一個(gè)五維向量,將每個(gè)小格按x,y,t的順序順次連接可得到一個(gè)5×nx×ny×nt維的光流直方圖HOF特征。
將HOG3D與HOF特征級(jí)聯(lián)生成該時(shí)空興趣點(diǎn)的HOG3D/HOF特征向量。
步驟D、采用K-means對訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類,建立所有時(shí)空單詞組成的集合W={w1,ww,…,wm}。對于不同的動(dòng)作視頻,視頻中的每個(gè)興趣點(diǎn)被劃分為不同類別的單詞,這樣,一段視頻可以看成是由這些單詞(興趣點(diǎn)特征)構(gòu)成的一篇文檔,而動(dòng)作可以類比成主題。
步驟E、采用概率潛在語義分析模型訓(xùn)練視頻集,進(jìn)行行人異常識(shí)別;
概率潛在語義分析模型用D={d1,d2,…,dn}表示文檔,W={w1,w2,…,wm}表示單詞,Z={z1,z2,…,zk}表示潛在的主題集合,N={nij|nij=n(di,wj),i≤N,j≤M}表示文檔和單詞的共生矩陣,其中n(di,wj)表示單詞wj在文檔di中出現(xiàn)的頻率,W×D的聯(lián)合概率可表示為p(di,wj)=p(di)p(wj|di),其中,p(di)表示文檔di出現(xiàn)的概率,p(wj|di)表示單詞在文檔上的分布概率,p(zk|di)表示隱含主題在文檔上的分布概率。PLSA模型待求參數(shù)為p(wj|di)和p(zk|di)。通過極大似然估計(jì)進(jìn)行求解:
利用EM算法求解該模型,可得p(zk)、p(zk|di)和p(wj|zk)。
對于待識(shí)別視頻,同樣采用EM算法,保持p(wj|zk),對p(zk|di)和p(zk)進(jìn)行迭代,可得
即為測試視頻中的主題分布,最終動(dòng)作類別取決于arg max kp(zk|dtest)。
本發(fā)明的有益效果:
1.本發(fā)明在提取時(shí)空興趣點(diǎn)之前采用混合高斯背景建模的方法提取前景目標(biāo),生成了只具有前景目標(biāo)的動(dòng)作視頻,剔除了與人體運(yùn)動(dòng)無關(guān)、位于運(yùn)動(dòng)背景上的時(shí)空興趣點(diǎn),克服了現(xiàn)有技術(shù)中行為特征的提取受背景環(huán)境影響的問題,使本發(fā)明對復(fù)雜背景具有更強(qiáng)的適應(yīng)性。
2.本發(fā)明采用HOG3D/HOF特征描述子,克服了現(xiàn)有技術(shù)中提取行為特征不夠全面的問題。傳統(tǒng)的行為特征只包含三維梯度信息或只包含二維梯度與光流信息,本發(fā)明能更有效地表征運(yùn)動(dòng)特征,提升行為識(shí)別的準(zhǔn)確率。
3.本發(fā)明采用詞袋模型與概率潛在語義分析的方法對行為進(jìn)行分類。該方法可離線訓(xùn)練,訓(xùn)練完成后就可以完成識(shí)別,該模型比傳統(tǒng)分類方法更加準(zhǔn)確,很大程度提高的識(shí)別的正確率。
附圖說明:
圖1為本發(fā)明流程圖。
具體實(shí)施方式:
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖與實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
為了提高動(dòng)作識(shí)別的準(zhǔn)確率,本發(fā)明實(shí)例提供了一種基于概率潛在語義分析的行人異常識(shí)別方法,詳見下文描述:
步驟A,建立數(shù)據(jù)庫。
本方法所用測試數(shù)據(jù)庫為CASIA(中國科學(xué)院自動(dòng)化研究所)行為分析數(shù)據(jù)庫,由由室外環(huán)境下分布在三個(gè)不同視角的攝像機(jī)拍攝而成,為行為分析提供實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)分為單人行為和多人交互行為,單人行為包括走、跑、彎腰走、跳、下蹲、暈倒、徘徊和砸車,每類行為有24人參與拍攝,每人4次左右。多人交互行為有搶劫、打斗、尾隨、趕上、碰頭、會(huì)合和超越,每兩人1次或2次。數(shù)據(jù)庫中共用1446條視頻數(shù)據(jù),所有視頻都是由分布在水平視角、斜視角和俯視角的三個(gè)未標(biāo)定的靜止的攝像機(jī)同時(shí)拍攝的,幀率為25fps,采用huffyuv編碼壓縮,分辨率為320*240,以avi文件形式存在,每段視頻持續(xù)時(shí)間因行為類別而異,5秒到30秒不等。本方法將數(shù)據(jù)庫按照5∶1分成兩個(gè)數(shù)據(jù)集:訓(xùn)練樣本集X和測試樣本集T,其中訓(xùn)練集包括1205段,測試樣本集包括241段。
步驟B,對訓(xùn)練樣本集X中視頻,采用混合高斯背景建模算法提取前景目標(biāo),對該視頻每一幀生成僅含人體目標(biāo)的二值掩碼圖片,通過掩碼圖片生成只有人體目標(biāo)的視頻;
B1、讀取視頻前n幀,用混合高斯模型建立背景模型,對每一幀不斷更新背景模型;
B2、每讀取新的一幀,通過步驟B1所得背景分割出僅含人體的二值圖像;
B3、將二值圖像與原圖像做掩膜操作,生成只包含人體目標(biāo)的灰度圖像;
B4、將這一系列的灰度圖像合并成只有前景人體的視頻;
步驟C,對訓(xùn)練樣本集X中視頻,采用基于三維Hessian矩陣檢測生成視頻的時(shí)空興趣點(diǎn);;
C1、三維Hessian矩陣定義為
其中,σ、τ分別為空間和時(shí)間尺度,ξ、η分別表示x、y或t,g(.;σ2,τ2)為高斯平滑函數(shù),在該尺度下,對每一個(gè)像素計(jì)算Hessian矩陣行列式,得到興趣點(diǎn)響應(yīng)函數(shù)S=|det(H)|,在時(shí)間、空間和尺度(x,y,t,σ,τ)上采用非最大值抑制選擇局部最大值作為興趣點(diǎn)的位置。
C2、時(shí)空興趣點(diǎn)局部極值所在尺度和真實(shí)尺度(σ0,τ0)之間的關(guān)系為:也就是說在5維空間(x,y,t,σ,τ)中,將極值點(diǎn)處的尺度乘以得到興趣點(diǎn)尺度。計(jì)算過程采用積分視頻和盒濾波器進(jìn)行加速。
步驟D、采用HOG3D/HOF描述子計(jì)算檢測到的時(shí)空興趣點(diǎn),獲得相應(yīng)的特征向量;
D1、將興趣點(diǎn)周圍的視頻塊劃分為不同子塊,每一子塊又劃分為不同的元胞。每個(gè)元胞的直方圖qj由元胞的平均梯度經(jīng)正多面體量化得到,每個(gè)子塊分別用直方圖hi表示,則子塊直方圖hi由元胞直方圖qj累加得到,再將所有子塊直方圖hi連接得到視頻塊直方圖ds,進(jìn)行二范數(shù)歸一化最終生成HOG3D特征向量。
D2、平均梯度的計(jì)算過程:元胞的平均梯度由積分視頻計(jì)算得到,給定一個(gè)視頻v(x,y,t),它沿不同的方向的偏導(dǎo)分別為對的積分視頻定義為對于一個(gè)邊長分別為w,h,l視頻塊j=(x,y,t,w,h,l)T,,平均梯度則為其中定義為
對以此類推。
D3、平均梯度的量化過程:通常使用正多面體進(jìn)行量化,本專利中使用正二十面體。設(shè)P為所有n個(gè)面的中心p1,…,pn組成的矩陣P=(p1,…,pn)T,其中pi=(xi,yi,ti)T,的在P下的映射為元胞中的直方圖由各方向的幅值決定,可得元胞梯度直方圖通過元胞梯度直方圖的累加與子塊直方圖級(jí)聯(lián)生成HOG3D特征。
D4、所述計(jì)算彩色圖像序列中光流直方圖HOF特征的方法為:以人體活動(dòng)時(shí)空興趣點(diǎn)p為中心,將局部時(shí)空小塊按x,y,t方向均分成nx×ny×nt個(gè)小格,將0度至360度的光流方向劃分成0度至90度、90度至180度、180度至270度和270度至360度這四個(gè)主方向,外加一個(gè)光流量為零的方向;采用LK光流法計(jì)算每個(gè)像素位置的光流向量之后在這五個(gè)方向做量化和直方圖統(tǒng)計(jì),得到每個(gè)小格的統(tǒng)計(jì)結(jié)果為一個(gè)五維向量,將每個(gè)小格按x,y,t的順序順次連接可得到一個(gè)5×nx×ny×nt維的光流直方圖HOF特征。
D5、將HOF與HOG3D特征級(jí)聯(lián)形成該時(shí)空興趣點(diǎn)的特征向量。以nx=ny=3,nt=2為例,即局部時(shí)空小塊按x,y,t方向均分成3×3×2個(gè)小格,HOG3D特征的維數(shù)為3×3×2×9=162維,HOF特征的維數(shù)為3×3×2×5=90,即HOG3D/HOF特征為252維。
步驟E、采用K-mean聚類算法對視頻的特征向量集合建立視頻圖像的詞袋模型;
引入文本分類中“詞袋”的思想,即在得到時(shí)空興趣點(diǎn)特征向量的基礎(chǔ)上,采用K-means對訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類,生成碼本。所有時(shí)空單詞組成的集合W={w1,w2,…,wm}稱為時(shí)空詞典,其中m為聚類中心的個(gè)數(shù)。對于不同的動(dòng)作視頻,視頻中的每個(gè)興趣點(diǎn)通過聚類被劃分為不同類別的單詞,這樣,一段視頻可以看成是由這些單詞(興趣點(diǎn)特征)構(gòu)成的一篇文檔,而動(dòng)作可以類比成主題。
步驟F、采用概率潛在語義分析模型訓(xùn)練視頻集,進(jìn)行人體行為識(shí)別;
F1、概率潛在語義分析模型用D={d1,d2,…,dn}表示文檔,W={w1,w2,…,wm}表示單詞,Z={z1,z2,…,zk}表示潛在的主題集合,N={nij|nij=n(di,wj),i≤N,j≤M}表示文檔和單詞的共生矩陣,其中n(di,wj)表示單詞wj在文檔di中出現(xiàn)的頻率,W×D的聯(lián)合概率可表示為p(di,wj)=p(di)p(wj|di),其中,p(di)表示文檔di出現(xiàn)的概率,p(wj|di)表示單詞在文檔上的分布概率,p(zk|di)表示隱含主題在文檔上的分布概率。PLSA模型待求參數(shù)為p(wj|di)和p(zk|di)。通過極大似然估計(jì)進(jìn)行求解:
利用EM算法求解該模型,可得p(zk)、p(zk|di)和p(wj|zk)。
F2、運(yùn)用上述模型,判斷測試集T人體運(yùn)動(dòng)行為。
按照上述步驟B到步驟D處理測試集T,同樣采用EM算法,保持p(wj|zk),最對p(zk|di)和p(zk)進(jìn)行迭代,可得
即測試視頻中主題分布。最終動(dòng)作類別取決于arg max kp(zk|dtest)。
步驟G、實(shí)驗(yàn)評價(jià)
G1、本發(fā)明采用留一法進(jìn)行交叉驗(yàn)證從而評價(jià)分類結(jié)果。所謂留一法就是從N個(gè)樣本中選取出N-1個(gè)樣本作為訓(xùn)練樣本訓(xùn)練分類器,留一個(gè)樣本作為測試樣本檢驗(yàn)分類器的性能。這樣重復(fù)N次,檢驗(yàn)N次,統(tǒng)計(jì)錯(cuò)誤分類的樣本總數(shù)K,用K/N作為錯(cuò)誤率的估計(jì)值,則正確率的估計(jì)值為1-K/N。其優(yōu)點(diǎn)是有效地利用了N個(gè)樣本,比較適用于樣本數(shù)N較小的情況。選取交叉驗(yàn)證實(shí)驗(yàn)中分類準(zhǔn)確率最高的樣本作為最優(yōu)測試樣本X′;
G2、將X′用于步驟F1中用于概率潛在語義分析模型中訓(xùn)練參數(shù);
G3、將剩余的視頻集作為測試集T′,得到各類運(yùn)動(dòng)的預(yù)測結(jié)果。