動(dòng)態(tài)手勢(shì)識(shí)別方法和編輯系統(tǒng)的制作方法
【專利摘要】一種在媒體內(nèi)執(zhí)行手勢(shì)識(shí)別的方法,該方法包括以下步驟:接收來(lái)自至少一個(gè)攝像機(jī)的至少一個(gè)第一原始幀;在所述第一原始幀內(nèi)繪制至少一個(gè)涂寫,該涂寫指明一個(gè)元素;通過(guò)在該媒體剩余部分的至少一部分中傳播所述涂寫,來(lái)在該媒體中跟蹤所述涂寫。
【專利說(shuō)明】動(dòng)態(tài)手勢(shì)識(shí)別方法和編輯系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明主要涉及手勢(shì)識(shí)別的【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]人的手勢(shì)是人與人之間的互動(dòng)和溝通的一種自然的手段。手勢(shì)使用手,四肢以及肢體動(dòng)作來(lái)非口頭地表達(dá)思想或交流信息。人們對(duì)試圖將人的手勢(shì)整合到人-機(jī)交互界面越來(lái)越感興趣。手勢(shì)識(shí)別在自動(dòng)化監(jiān)測(cè)以及人工監(jiān)控的應(yīng)用中也是重要的,在這些應(yīng)用中人們可以從人類的的活動(dòng)和意圖中得到有價(jià)值的線索。
[0003]一般來(lái)說(shuō),手勢(shì)被捕獲并被嵌入到連續(xù)的視頻流中,并且,手勢(shì)識(shí)別系統(tǒng)必須有能力提取有用的信息以及自動(dòng)識(shí)別不同的運(yùn)動(dòng)。眾所周知,兩個(gè)問(wèn)題對(duì)于手勢(shì)分割及識(shí)別是有高度挑戰(zhàn)性的:時(shí)空變化(spatio-temporal variation),以及端點(diǎn)定位(endpointlocalization)。
[0004]時(shí)空變化來(lái)自不僅不同的人以不同的方式移動(dòng),甚至同一主體的重復(fù)動(dòng)作都可能會(huì)變化這一事實(shí)。在促成這種變化所有的因素中,運(yùn)動(dòng)速度是最有影響力的,其使得手勢(shì)信號(hào)表現(xiàn)出多個(gè)時(shí)間的尺度。
[0005]端點(diǎn)定位問(wèn)題是要在連續(xù)的數(shù)據(jù)流中確定一個(gè)手勢(shì)的開(kāi)始及結(jié)束的時(shí)間。正如在語(yǔ)音信號(hào)中的說(shuō)出的每個(gè)單詞之間沒(méi)有中斷,在最自然的出現(xiàn)的情景中,手勢(shì)是不間斷地連在一起的,在單個(gè)手勢(shì)之間沒(méi)有任何明顯的停頓。因此,通過(guò)在不同的手勢(shì)之間尋找明顯的停頓來(lái)確定各個(gè)手勢(shì)的端點(diǎn)是不可行的。在所有可能的點(diǎn)中詳盡地搜索也明顯過(guò)分昂貴。許多現(xiàn)有的方法假定輸入的數(shù)據(jù)或是在捕獲之后被手動(dòng)地或是在捕獲時(shí)被分割為多個(gè)動(dòng)作單元。此種方法通常被稱為孤立的手勢(shì)識(shí)別(Isolated Gesture Recognition, IGR)而且在要求連續(xù)手勢(shì)識(shí)別的現(xiàn)實(shí)生活的應(yīng)用中不易被擴(kuò)展。
[0006]在現(xiàn)有技術(shù)中,已經(jīng)對(duì)連續(xù)的手勢(shì)分割和識(shí)別提出了幾種方法?;趫D像分割與識(shí)別是如何相互交織在一起,這些方法可以被分為兩個(gè)主要類別:獨(dú)立的分割和識(shí)別,同時(shí)分割和識(shí)別。第一類方法通過(guò)觀察突然的特征變化來(lái)檢測(cè)手勢(shì)的邊界并且分割通常在識(shí)別之前進(jìn)行,后者則將分割和識(shí)別看作是同一問(wèn)題的多個(gè)方面并同時(shí)執(zhí)行。這兩類中的大多數(shù)方法都是基于各種形式的隱馬爾可夫模型(Hidden Markov Model, HMM),或是以動(dòng)態(tài)規(guī)劃(Dynamic Programming, DP)為基礎(chǔ)的方法,例如,動(dòng)態(tài)時(shí)間規(guī)整(Dynamic TimeWarping, DTW)和連續(xù)動(dòng)態(tài)規(guī)劃(Continuous Dynamic Programming, CDP)。
[0007]手勢(shì)識(shí)別系統(tǒng)的目的是在與若干預(yù)定義的手勢(shì)相關(guān)的特定環(huán)境中工作。這些之前的預(yù)先定義是處理語(yǔ)義鴻溝(semantic gaps)所必需的。手勢(shì)識(shí)別系統(tǒng)通常是基于匹配機(jī)制的。這些手勢(shì)識(shí)別系統(tǒng)嘗試將從場(chǎng)景中提取的信息,比如一個(gè)骨架(skeleton),與已存儲(chǔ)的最相近的模型進(jìn)行匹配。因此,要識(shí)別出一個(gè)手勢(shì),我們需要有一個(gè)預(yù)先存儲(chǔ)的與該手勢(shì)相關(guān)的1?型。
[0008]在文獻(xiàn)中,有兩種主要的方法用于手勢(shì)識(shí)別:通過(guò)對(duì)動(dòng)態(tài)建模的識(shí)別以及通過(guò)對(duì)狀態(tài)建模的識(shí)別。手勢(shì)泰克(Gesture Tek) (http://www.gesturetek.com/)提出maestro3dSDK,其包括單手和雙手的手勢(shì)和姿勢(shì)的函數(shù)庫(kù)。此系統(tǒng)提供了易于對(duì)新手勢(shì)建模的能力。在HTTP://www.eyesight-tech, com/技術(shù)/中可以看到有限的手勢(shì)的函數(shù)庫(kù)。微軟的Kinect中,手勢(shì)函數(shù)庫(kù)總是有限的并且用戶無(wú)法容易地自定義或定義新的手勢(shì)模型。因?yàn)橐呀?jīng)認(rèn)定有多于5000個(gè)手勢(shì)存在,取決于不同的(文化,國(guó)家,等等),提供有限的函數(shù)庫(kù)是不夠的。
[0009]專利號(hào)W02010/135617的文獻(xiàn)公開(kāi)了一種用于執(zhí)行手勢(shì)識(shí)別的方法和裝置。
[0010]本發(fā)明的一個(gè)目的是提供用于手勢(shì)識(shí)別的方法和系統(tǒng),使得用戶能夠容易地定制手勢(shì)識(shí)別,重定義手勢(shì)模型,無(wú)需任何特殊技能。
[0011]本發(fā)明的另一目的是提供一種用于動(dòng)態(tài)識(shí)別的能夠使用常規(guī)的二維攝像機(jī)的方法和系統(tǒng)。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的目的是解決上文提出的一個(gè)或更多問(wèn)題的影響。
[0013]為了提供對(duì)本發(fā)明的一些方面的基本認(rèn)識(shí),下文介紹了本發(fā)明的簡(jiǎn)化的內(nèi)容。
[0014]該內(nèi)容不是對(duì)本發(fā)明的詳盡的概述。它的目的不是要確定本發(fā)明的關(guān)鍵的或重要的元素或是劃定本發(fā)明的范圍。它的唯一目的是提出一些簡(jiǎn)化形式的概念,作為后文中討論的更詳細(xì)的描述的前序。
[0015]本發(fā)明容易受到各種改進(jìn)及替代形式的影響,因此在附圖中以舉例的方式展示具體的實(shí)施例。然而,應(yīng)該被理解的是,對(duì)具體實(shí)施例的描述在此并不意在將本發(fā)明限制于所公開(kāi)的特定形式。
[0016]一定能夠被理解的是,在任何這樣的實(shí)際的實(shí)施例的開(kāi)發(fā)中,應(yīng)該做出具體的實(shí)施決策,以實(shí)現(xiàn)開(kāi)發(fā)者的特定目標(biāo),比如遵守與系統(tǒng)相關(guān)的以及與企業(yè)相關(guān)的約束條件。應(yīng)該被理解的是,這樣的開(kāi)發(fā)努力可能耗費(fèi)時(shí)間,不過(guò)對(duì)受益于本申請(qǐng)公開(kāi)的本領(lǐng)域技術(shù)人員或普通技術(shù)人員來(lái)說(shuō)則可能是一種常規(guī)性的認(rèn)知。
[0017]根據(jù)第一方面,本發(fā)明涉及一種在媒體內(nèi)執(zhí)行手勢(shì)識(shí)別的方法,該方法包括以下步驟:
[0018]-接收來(lái)自至少一個(gè)攝像機(jī)的至少一個(gè)第一原始幀;
[0019]-在所述第一原始幀內(nèi)繪制至少一個(gè)涂寫,該涂寫指明一個(gè)元素;
[0020]-通過(guò)在該媒體剩余部分的至少一部分中傳播所述涂寫,來(lái)在該媒體中跟蹤所述涂與;
[0021]這里的“媒體” 一詞指的是視頻媒體,例如,一個(gè)人使用包含攝像頭的便攜式電子設(shè)備,例如移動(dòng)電話,制作的視頻。這里的“手勢(shì)”用來(lái)指明身體的一部分的運(yùn)動(dòng),例如手臂或手的運(yùn)動(dòng)?!巴繉憽币辉~用來(lái)指明由用戶制作的一條線,例如在手臂上的一條線。用于在有背景圖像中提取停止的對(duì)象的涂寫的使用是已知的(參見(jiàn)US2009 / 0278859,在YssumResearch Development的名下)。用于圖像著色的傳播涂寫的使用是已知的(參見(jiàn)US2006 /0245645,在Yatziv的名下)。Tao et al圖案識(shí)別的第3208-3218頁(yè)闡述了由圖像分割系統(tǒng)的用戶提供的粗糙涂寫的使用。
[0022]有利地,根據(jù)本發(fā)明,傳播所述述涂寫包括基于從前一幀提取的在先信息,來(lái)估計(jì)所述涂寫在下一巾貞的未來(lái)位置,從前一巾貞提取的信息包括色彩信息和空間信息。[0023]有利地,按如下公式在圖像中的每一點(diǎn)計(jì)算顏色距離變換:
[0024]
【權(quán)利要求】
1.一種在媒體內(nèi)執(zhí)行手勢(shì)識(shí)別的方法,該方法包括以下步驟: -接收來(lái)自至少一個(gè)攝像機(jī)的至少一個(gè)第一原始幀; -在所述第一原始幀內(nèi)繪制至少一個(gè)涂寫,該涂寫指明一個(gè)元素; -通過(guò)在該媒體剩余部分的至少一部分中傳播所述涂寫,來(lái)在該媒體中跟蹤所述涂寫。
2.根據(jù)權(quán)利要求1所述的方法,其中,傳播所述涂寫包括基于從前一幀提取的在先信息來(lái)估計(jì)所述涂寫在下一幀的未來(lái)位置。
3.根據(jù)權(quán)利要求2所述的方法,其中,從前一幀提取的信息包括色彩信息和空間信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,顏色距離變換在圖像中的每一點(diǎn)處被計(jì)算。
5.根據(jù)權(quán)利要求4所述的方法,其中,該顏色距離變換被參照該圖像的兩個(gè)維度以及出自時(shí)間的第三維度來(lái)計(jì)算。
6.根據(jù)權(quán)利要求4所述的方法,其中,骨架從該顏色距離變換中被提取。
7.根據(jù)權(quán)利要求6所述的方法,其中,在提取該骨架之前,首先在水平和垂直方向使用二維的高斯掩膜對(duì)該幀進(jìn)行卷積,隨后通過(guò)提取該卷積過(guò)的圖像在在兩個(gè)所述方向的最大值來(lái)提取該骨架。
8.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其中,通過(guò)跟蹤所述涂寫而確定的多個(gè)相關(guān)涂寫被聚合,為所述聚合的相關(guān)的涂寫附加上語(yǔ)義標(biāo)簽,以形成手勢(shì)模型。
9.根據(jù)權(quán)利要求8所述的方法,還包括比較當(dāng)前的涂寫與一個(gè)已存儲(chǔ)的手勢(shì)模型。
10.根據(jù)權(quán)利要求9所述的方法,還包括查詢一個(gè)規(guī)則數(shù)據(jù)庫(kù),并且從而觸發(fā)與一個(gè)手勢(shì)標(biāo)簽相關(guān)聯(lián)的至少一個(gè)動(dòng)作。
11.一種用于在媒體內(nèi)執(zhí)行手勢(shì)識(shí)別的系統(tǒng),該系統(tǒng)至少包括: 涂寫繪制器,該涂寫繪制器用于在所述第一原始幀內(nèi)繪制至少一個(gè)指明一個(gè)元素的涂與;和 涂寫傳播器,該涂寫傳播器用于通過(guò)在該媒體剩余部分的至少一部分中傳播所述涂寫來(lái)在該媒體中跟蹤所述涂寫,以確定多個(gè)相關(guān)的涂寫。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),該系統(tǒng)包括用于聚合相關(guān)涂寫從而形成手勢(shì)模型的手勢(shì)模型制作器。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),該系統(tǒng)包括用于存儲(chǔ)所述手勢(shì)模型連同至少一個(gè)語(yǔ)義標(biāo)簽的手勢(shì)模型庫(kù)。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),該系統(tǒng)包括手勢(shì)生成器,該手勢(shì)生成器包括所述涂寫繪制器,所述涂寫傳播器以及所述手勢(shì)模型制作器。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),該系統(tǒng)包括手勢(shì)管理器,該手勢(shì)管理器包括所述手勢(shì)生成器以及包含動(dòng)作和手勢(shì)標(biāo)簽之間的鏈接的規(guī)則數(shù)據(jù)庫(kù)。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),該系統(tǒng)包括識(shí)別模塊,該識(shí)別模塊包括模型匹配器,該模型匹配器用于比較當(dāng)前幀的涂寫與手勢(shì)模型庫(kù)中包含的已存儲(chǔ)的手勢(shì)模型。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,該模型匹配器向該規(guī)則數(shù)據(jù)庫(kù)發(fā)送用于觸發(fā)與手勢(shì)標(biāo)簽關(guān)聯(lián)的動(dòng)作的查詢。
18.一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括存儲(chǔ)于計(jì)算機(jī)的存儲(chǔ)器和/或?qū)S孟到y(tǒng)的存儲(chǔ)器中的指令,其中,所述計(jì)算機(jī)程序適合來(lái)執(zhí)行前述權(quán)利要求1至10中任一項(xiàng)所要求的方法。
【文檔編號(hào)】G06K9/44GK103649967SQ201280031023
【公開(kāi)日】2014年3月19日 申請(qǐng)日期:2012年6月18日 優(yōu)先權(quán)日:2011年6月23日
【發(fā)明者】納溫·努里, 伊曼紐爾·瑪里琳, 奧利維爾·馬丁諾德, 尼科爾·文森特 申請(qǐng)人:阿爾卡特朗訊