一種基于深度圖像的手勢(shì)識(shí)別方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺技術(shù)領(lǐng)域,更具體地,涉及一種基于深度圖像的手勢(shì)識(shí)別 方法與系統(tǒng)。
【背景技術(shù)】
[0002] 手勢(shì)識(shí)別由于其廣泛應(yīng)用于虛擬現(xiàn)實(shí),手語(yǔ)識(shí)別和電腦游戲等人機(jī)交互(HCI, human-computer interaction)中而受到重視。盡管有大量的前期工作,傳統(tǒng)基于視覺的手 勢(shì)識(shí)別方法在現(xiàn)實(shí)生活中的應(yīng)用仍然遠(yuǎn)遠(yuǎn)不能令人滿意?;诠鈱W(xué)傳感器的方法因?yàn)楣鈱W(xué) 感測(cè)的性質(zhì),所捕獲圖像的質(zhì)量是敏感于光線條件和雜亂背景,因而通常無(wú)法魯棒地檢測(cè) 和跟蹤手,這在很大程度上影響了手勢(shì)識(shí)別的性能。為了提供更穩(wěn)健的手勢(shì)識(shí)別,有效途徑 之一是使用其他傳感器捕獲手勢(shì)和運(yùn)動(dòng),例如通過數(shù)據(jù)手套。不同于光學(xué)傳感器,這種傳感 器通常更可靠且不受照明條件或雜亂背景影響。然而,因?yàn)樗枰脩襞宕鲾?shù)據(jù)手套,使用 不方便,并且通常比光學(xué)傳感器更昂貴。因此,它也不是一個(gè)非常受歡迎的手勢(shì)識(shí)別方法。
[0003] 由于深度相機(jī)的最新發(fā)展,如Kinect傳感器,手勢(shì)識(shí)別出現(xiàn)了新的機(jī)會(huì)。由于 Kinect可以利用它的景深攝像頭提供深度圖像,其中的像素記錄了場(chǎng)景中各點(diǎn)的校準(zhǔn)深 度,可以很好的消除背景噪音,提取出人的信息。Kinect已被用來實(shí)現(xiàn)實(shí)時(shí)人體跟蹤,這引 發(fā)了基于自然界面應(yīng)用的新時(shí)代。J. Shotton、A. Fitzgibbon、M. Cook、A. Blake所著,2011 年發(fā)表在會(huì)議"In Proceedings of IEEE conference on Computer Vision and Pattern Recognition"的文章"Real-time human pose recognition in parts from single depth images"使用了基于對(duì)象識(shí)別的方法找到適合人體的骨架。這個(gè)想法也適用于手姿勢(shì)估 計(jì)問題,但人體和手之間也有一些明顯的差異:(1) 一只手的投影深度圖像比人體小得多; (2)人體可以被假定為是直立的,但用手可以是任意方向;(3)在手的情況下,可能有意義 的結(jié)構(gòu)數(shù)目要大得多,而且自遮擋問題是嚴(yán)重的。也就是說,相對(duì)于人體來說,需要更充分 地利用Kinect傳感器捕獲到的深度信息來檢測(cè)和識(shí)別手勢(shì)。Z. Ren、J. Yuan、Z. Zhang所著, 2011 年發(fā)表在會(huì)議"In Proceedings of ACM International Conference on Multimedia" 的文章 "Robust hand gesture recognition based on finger-earth mover? s distance with a commodity depth camera"最先提出了一個(gè)完整的基于Kinect的手勢(shì)識(shí)別系統(tǒng),采 用基于手指-陸地移動(dòng)器的距離(FEMD,F(xiàn)inger-Earth Mover' s Distance)的模板匹配方 法來識(shí)別手勢(shì)。它使用近凸分解檢測(cè)出匹配過程中所需要的手指特征,在穩(wěn)定性和精度上 的表現(xiàn)都不錯(cuò)。然而,該方法的高計(jì)算復(fù)雜度對(duì)識(shí)別的效率有一定的影響,且對(duì)于復(fù)雜手勢(shì) 的識(shí)別存在很大程度的限制,例如手語(yǔ)識(shí)別。
[0004] 如上所述,大多數(shù)早期的基于深度信息的手勢(shì)識(shí)別方法只考慮單個(gè)視圖的二維輪 廓,并沒有充分利用由深度圖所傳送的三維形狀和拓?fù)湫畔???紤]到手的高度靈活性和現(xiàn) 實(shí)場(chǎng)景中待識(shí)別手勢(shì)類型的復(fù)雜性,一些研宄人員已經(jīng)意識(shí)到,有必要去探索使用Kinect 傳感器的基于三維信息視覺手勢(shì)識(shí)別。為了從深度圖中捕捉和編碼3D(3DemiSSion)形狀 信息,C. Zhang、X. Yang、Y. Tian所著,2011 年發(fā)表在會(huì)議"IEEE International Conference and Workshops on Automatic Face and Gesture Recognition" 的文章 "Histogram of 3D facets: a characteristic descriptor for hand gesture recognition" 提出一種名 為3D小平面直方圖(H3DF,Histogram of 3D Facets)的新的特征描述符。在3D深度圖中 定義了一個(gè)三維點(diǎn)云的局部支持表面,用以捕捉每一個(gè)點(diǎn)云的局部表面特性。然而,有效地 獲取局部支持表面是非常具有難度的。此外,基于H3DF的手勢(shì)識(shí)別方法在復(fù)雜的大手勢(shì)數(shù) 據(jù)集上的分類準(zhǔn)確率也有待進(jìn)一步的提高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種基于深度圖像的手勢(shì)識(shí)別方法,該方法可以有效地捕 捉和描述深度圖像傳達(dá)的豐富三維形狀和拓?fù)湫畔?,并且識(shí)別準(zhǔn)確率高。
[0006] 為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種基于深度圖像的手勢(shì)識(shí)別 方法,包括下述步驟:
[0007] (1)分割出訓(xùn)練圖像中的手勢(shì)區(qū)域:
[0008] (1. 1)對(duì)每張訓(xùn)練圖像,找到人體區(qū)域離傳感器的最短距離,亦即訓(xùn)練圖像中人體 區(qū)域離傳感器最近的點(diǎn)到傳感器的距離;其中所述訓(xùn)練圖像攜帶有人體區(qū)域的深度信息;
[0009] (1. 2)設(shè)置深度閾值,根據(jù)所述深度閾值和步驟(I. 1)中得到的最短距離,并結(jié)合 人手是離傳感器最近物體的預(yù)設(shè)條件,確定深度圖像中的感興趣范圍,選取落在該感興趣 范圍內(nèi)的點(diǎn)的集合,即為手勢(shì)區(qū)域;
[0010] (2)獲取手勢(shì)在三個(gè)正交平面上的投影:
[0011] (2. 1)確定深度手勢(shì)投影的坐標(biāo)系統(tǒng),即確定三個(gè)正交平面;
[0012] (2. 2)獲取手勢(shì)深度圖中的任意點(diǎn)在三個(gè)正交平面上的正視投影、側(cè)視投影和頂 視投影,其中手勢(shì)深度圖為與原始訓(xùn)練圖像相同大小的圖像,手勢(shì)深度圖中包括原始訓(xùn)練 圖像中的手勢(shì)區(qū)域,而其他非感興趣范圍全部被剔除;
[0013] 具體地,對(duì)手勢(shì)深度圖D中任意點(diǎn)A(x, y, z) e D,它的正視(front view)投影、側(cè) 視(side view)投影和頂視(top view)投影分別為 /-:,M) = /-;'((x,y,z)) = iXy)
[0014] /·;?/1) = /·;((χ,ν,ζ)) = (ζ,_ι) 1=|1 ; F1(A) = !·]((χ^7.)) = (.\\ζ) ^ll
[0015] (2. 3)對(duì)手勢(shì)深度圖的正視投影圖、側(cè)視投影圖和頂視投影圖進(jìn)行初始化;
[0016] 具體地,對(duì)三個(gè)投影圖進(jìn)行初始化,即mapfe {〇} MXN,m?/;、e丨()丨ζ "'ν和 mop, MOfxU分別為初始正視投影圖、側(cè)視投影圖和頂視投影圖,其中Zmax是手勢(shì)的最大深 度值,訓(xùn)練圖像的分辨率為MXN ;
[0017] (2. 4)在初始化投影圖的基礎(chǔ)上,按照預(yù)設(shè)判定規(guī)則獲取二值的正視投影圖、側(cè)視 投影圖和頂視投影圖;
[0018] 具體地,對(duì)于任意的點(diǎn) b(xf, yf) e mapf,若有 Ff((x, y, z)) = (xf, yf)且 z 乒 0,那 么13(%,化)=1,從而得到二值的正視投影圖1^巧£{〇,1}? 1>^,同理可以得到二值的側(cè)視投 影圖和頂視投影圖,即
【主權(quán)項(xiàng)】
1. 一種基于深度圖像的手勢(shì)識(shí)別方法,其特征在于,所述方法包括下述步驟: (1) 分割出訓(xùn)練圖像中的手勢(shì)區(qū)域: (1. 1)對(duì)每張訓(xùn)練圖像,找到人體區(qū)域離傳感器的最短距離,亦即訓(xùn)練圖像中人體區(qū)域 離傳感器最近的點(diǎn)到傳感器的距離;其中所述訓(xùn)練圖像攜帶有人體區(qū)域的深度信息; (1.2)設(shè)置深度閾值,根據(jù)所述深度閾值和步驟(I. 1)中得到的最短距離,并結(jié)合人手 是離傳感器最近物體的預(yù)設(shè)條件,確定深度圖像中的感興趣范圍,選取落在該感興趣范圍 內(nèi)的點(diǎn)的集合,即為手勢(shì)區(qū)域; (2) 獲取手勢(shì)在三個(gè)正交平面上的投影: (2. 1)確定深度手勢(shì)投影的坐標(biāo)系統(tǒng),即確定三個(gè)正交平面; (2. 2)獲取手勢(shì)深度圖中的任意點(diǎn)在三個(gè)正交平面上的正視投影、側(cè)視投影和頂視投 影,其中手勢(shì)深度圖為與原始訓(xùn)練圖像相同大小的圖像,手勢(shì)深度圖中包括原始訓(xùn)練圖像 中的手勢(shì)區(qū)域,而其他非感興趣范圍全部被剔除; (2. 3)對(duì)手勢(shì)深度圖的正視投影圖、側(cè)視投影圖和頂視投影圖進(jìn)行初始化; (2. 4)在初始化投影圖的基礎(chǔ)上,按照預(yù)設(shè)判定規(guī)則獲取二值的正視投影圖、側(cè)視投影 圖和頂視投影圖; (2. 5)從步驟(2. 4)獲取的三個(gè)投影圖中切割出包含手勢(shì)的區(qū)域; (2.6)移除每個(gè)投影圖中的內(nèi)部空隙和噪聲,獲取最終的三個(gè)手勢(shì)深度投影圖; (3) 計(jì)算三個(gè)手勢(shì)深度投影圖的輪廓片段包特征: (3. 1)獲取每個(gè)手勢(shì)深度投影圖外輪廓的簡(jiǎn)化多邊形,并將其分解成有意義的輪廓片 段; (3. 2)使用形狀上下文描述符來表述每一個(gè)輪廓片段,獲取輪廓片段特征,從而得到手 勢(shì)深度投影圖的基本描述子作為特征向量; (3. 3)將輪廓片段的特征向量映射到一個(gè)高維空間中,在這個(gè)高維空間中將輪廓片段 特征描述為形狀碼; (3. 4)在形狀碼的基礎(chǔ)上,融合輪廓片段特征之間的空間關(guān)系,建立一個(gè)緊湊的形狀表 達(dá),得到各個(gè)投影圖輪廓片段包特征向量; (4) 訓(xùn)練手勢(shì)分類器: (4. 1)將步驟(3)中獲取的正視投影圖、側(cè)視投影圖和頂視投影圖的輪廓片段包特征 向量級(jí)聯(lián)成原始深度手勢(shì)的特征向量; (4. 2)利用所有訓(xùn)練圖像的深度手勢(shì)的特征向量訓(xùn)練支持向量機(jī)分類器; (5) 識(shí)別待識(shí)別的手勢(shì)圖像: (5. 1)按照步驟(1)檢測(cè)出待識(shí)別深度圖像中的手勢(shì)區(qū)域; (5. 2)按照步驟(2)獲取待識(shí)別手勢(shì)在三個(gè)正交平面上的投影; (5. 3)利用步驟⑶和(4. 1)獲取待識(shí)別手勢(shì)的特征向量; (5.4)利用步驟(4)中訓(xùn)練好的支持向量機(jī)分類器,對(duì)待識(shí)別手勢(shì)的特征向量進(jìn)行分 類,并得到