一種基于Hu矩的手語視頻幀序列分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機視覺的視頻處理領(lǐng)域,特別是設(shè)及一種基于化矩的手語視頻 帖序列分類方法
【背景技術(shù)】
[0002] 隨著計算機對現(xiàn)代社會的影響日益擴大,人機交互正成為人們?nèi)粘I钪性絹碓?重要的一部分。如今的人機交互方式大多數(shù)是通過鍵盤和鼠標等比較單一的輸入工具,使 用人體語言的輸入方式與它們相比則要快捷方便的多。手語識別作為智能人機交互領(lǐng)域中 的一個重要組成部分,其目的是通過計算機提供一種有效且準確的機制,將手語翻譯成文 本或語音。該一技術(shù)不僅使聾人和聽力正常人之間的交流變得更加方便,而且在人機互動 領(lǐng)域也有積極的意義和應(yīng)用價值。
[0003] 傳統(tǒng)的手語識別包括基于數(shù)據(jù)手套的手語識別和基于視覺的手語識別。其中,基 于數(shù)據(jù)手套的手語識別,用戶需要佩戴數(shù)據(jù)手套,計算機通過數(shù)據(jù)手套獲取人手部的運動 信息并實時的處理,并將結(jié)果實時顯示出來從而實現(xiàn)人機交互。而基于視覺的手語識別則 通過數(shù)字攝像設(shè)備獲取人的手部圖像,對獲取的圖像進一步的處理,進而識別出相應(yīng)的手 語信息。總的來說,基于數(shù)據(jù)手套的方法的優(yōu)點是輸入數(shù)據(jù)少和識別度高,但是數(shù)據(jù)手套設(shè) 備昂貴及佩帶厚重,不利于自然的人機交互。而基于計算機視覺的方法則可W實現(xiàn)更為自 然的人機交互,同時價格較低、投入成本小,但是該方法主要存在著如下兩大問題:
[0004] (1)在單目視覺的情況下復(fù)雜背景下的手勢分割是非常困難的,由于背景各種各 樣,環(huán)境因素不可預(yù)測,不僅沒有成熟的理論作為指導(dǎo),而且現(xiàn)有的方法實現(xiàn)困難,計算復(fù) 雜度高,效果也不是很理想。目前常見的解決方法是增加限制,如使用黑色或白色的墻壁、 深色的服裝等簡化背景,或要求人手戴特殊顏色的手套等強調(diào)前景,來簡化手區(qū)域與背景 區(qū)域的劃分。
[0005] (2)在手語的進行過程中,手作為非剛性物體在手語實現(xiàn)過程中會無規(guī)律的發(fā)生 形變,因此,動態(tài)手語視頻的識別中一個關(guān)鍵問題就就是如何進行視頻帖序列的分類,識別 出該動態(tài)手語序列的語義。常規(guī)的跟蹤算法在跟蹤記錄手的運動軌跡中將極容易丟失跟蹤 目標,而又難W重新找回。
[0006] 幾何矩是由Hu(Visualpatternrecognitionbymomentinvariants)在 1962 年 提出的,具有平移、旋轉(zhuǎn)和尺度不變性?;枚A和S階中屯、矩構(gòu)造了走個不變矩Ml~ M7,它們在連續(xù)圖形條件下可保持平移、縮放和旋轉(zhuǎn)不變,其相關(guān)定義也被本發(fā)明采用。實 際上,在對圖片中物體的識別過程中,只有Ml和M2不變性保持的比較好,其他的幾個不變 矩帶來的誤差比較大。
【發(fā)明內(nèi)容】
[0007] 鑒于W上內(nèi)容,有必要提供一種能夠提高手語視頻的正確識別率,具有較好的魯 椿性,有效改善手語視頻識別效果的手語視頻帖序列的分類方法。
[000引為實現(xiàn)上述目的,本發(fā)明提供一種基于化矩的手語視頻帖序列分類方法,包括w下步驟:
[0009] 步驟1 ;獲取待識別的彩色手語視頻;
[0010] 步驟2 ;對該彩色手語視頻進行帖采樣,獲得帖序列;
[001U 步驟3 ;將彩色圖像的帖序列轉(zhuǎn)換為二值圖像的帖序列;
[0012] 步驟4 ;將手部與背景分割;
[0013] 步驟5 ;提取分割后的手部圖像序列的化矩中的Ml和M2矩得到手部圖像的特征 向量;
[0014] 進一步地,不變矩Ml和M2定義如下;
【主權(quán)項】
1. 一種基于Hu矩的手語視頻幀序列分類方法,其特征在于,包括以下步驟: 步驟1 :獲取待識別的彩色手語視頻; 步驟2 :對該彩色手語視頻進行幀采樣,獲得幀序列; 步驟3 :將彩色圖像的幀序列轉(zhuǎn)換為二值圖像的幀序列; 步驟4 :將手部與背景分割; 步驟5 :提取分割后的手部圖像序列的Hu矩中的Ml和M2矩得到手部圖像的特征向 量; 不變矩Ml和M2定義如下:
步驟6:計算每一幀手部圖像與前一幀手部圖像的特征向量之間的歐式距離,并進行 自適應(yīng)閾值判決,貼數(shù)字標簽,進行初步分類; 步驟7 :根據(jù)標簽進行幀序列精分類,去除過渡幀,順序輸出分類后的標簽序列。
2. 如權(quán)利要求1所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,所述步驟 5中用Ml和M2矩將圖像從像素空間映射到特征向量空間,即:
其中,fi(x,y)為第i幀的圖像函數(shù),.月為對應(yīng)的特征向量。
3. 如權(quán)利要求1所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,所述步驟 6中用自適應(yīng)閾值thre判決兩個幀圖像特征向量的歐幾里得度量,進行初步分類: P函數(shù)的定義如下:
./:為第i幀圖像的特征向量,Li為第i幀圖像的數(shù)字標簽,設(shè)L1= 1 ; 在采樣率滿足前兩幀的采樣間隔足夠小的前提下,能近似地認為前兩幀內(nèi)做的手語都 是同一類的手語,因此可以設(shè)定= 實現(xiàn)魯棒性更強的自適應(yīng)閾值判定。
4. 如權(quán)利要求1所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,所述步驟 7中包括:步驟71,取得新的幀采樣圖像的標簽;步驟72,通過步驟71的標簽判斷該幀是否 為過渡手勢動作;若是,將該幀圖像去除;若否,將該幀與同一標簽的幀歸為一類;步驟73, 按照幀序列順序輸出分類結(jié)果,分類結(jié)果用數(shù)字標簽表示,同一數(shù)字標簽的幀序列表示它 們?yōu)橥皇终Z動作的視頻片段采樣幀集合。
5. 如權(quán)利要求4所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,步驟7利 用數(shù)字標簽去除過渡手語幀,具體包括: 假設(shè)目標視頻序列總共有N幀圖像,I < i < N,若對第i幀圖像的數(shù)字標簽Li滿足:L i =Ι^η+Ι&Μ^= L i+1-l,則該幀為過渡手勢動作,需要移除該幀,即:對于任意的第k幀圖像, 當k彡i時,令L k= Lk-I ;其中,Lk為第k幀圖像的數(shù)字標簽。
6. 如權(quán)利要求1所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,所述步驟 3進一步包括以下步驟:步驟31,取得步驟2得到的幀采樣圖像;步驟32,遍歷該圖像所有 的像素點,判斷其是否可能為手部區(qū)域的像素點,若是,將其設(shè)為白色,若否,將其設(shè)為黑 色;步驟33,輸出二值圖像。
7. 如權(quán)利要求1所述的基于Hu矩的手語視頻幀序列分類方法,其特征在于,步驟4進 一步包括以下步驟:步驟41,取得步驟3得到的幀二值圖像;步驟42,遍歷該圖像所有的輪 廓,判斷其是否為手部區(qū)域的輪廓,若是,繼續(xù)步驟43,若否,重復(fù)步驟42直到遍歷結(jié)束退 出;步驟43,將該手部區(qū)域與背景分割;步驟44,輸出該手部區(qū)域圖像。
【專利摘要】本發(fā)明公開一種基于Hu矩的手語視頻幀序列分類方法,包括以下步驟:步驟1:獲取待識別的手語視頻;步驟2:對該手語視頻進行幀采樣,獲得幀序列;步驟3:將彩色圖像的幀序列轉(zhuǎn)換為二值圖像的幀序列;步驟4:將手部與背景分割;步驟5:提取分割后的手部圖像的Hu矩得到手部圖像的特征向量;步驟6:計算每一幀與前一幀的特征向量之間的歐式距離,判決,貼數(shù)字標簽,進行初步分類。步驟7:根據(jù)標簽進行幀序列進一步分類,去除過渡動作幀,順序輸出分類后的標簽序列。本發(fā)明計算復(fù)雜度較低,且對于手語圖像的旋轉(zhuǎn)、縮放和平移具有很好的魯棒性,可直接應(yīng)用于手語視頻識別系統(tǒng)。
【IPC分類】G06K9-00
【公開號】CN104866825
【申請?zhí)枴緾N201510254121
【發(fā)明人】倪浩淼, 徐向民, 裘索, 黃愛發(fā), 李兆海
【申請人】華南理工大學(xué)
【公開日】2015年8月26日
【申請日】2015年5月17日