專利名稱::改進型用戶接口的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種用于將姿勢(gesture)映射到通信終端的特定功能的方法。具體地,本發(fā)明涉及一種響應(yīng)于登記和解釋對象的預(yù)定動作或模式而調(diào)用通信終端的:^作的方法。此外,本發(fā)明還涉及被安排來實現(xiàn)所述方法的計算枳4呈序。背景絲在與電子設(shè)備(例如計算機終端、照相機、移動電話和電視機)進行交互時,人們已經(jīng)習(xí)慣通過鍵盤、觸敏顯示器等來輸入信息和操縱這些電子設(shè)備。隨著手持設(shè)備的逐漸普及以及這些設(shè)備的小型化,由于這些設(shè)備的輸入裝置的尺寸的縮小而引起的使用性問題變得明顯。因此,正在尋找一種向電子設(shè)備(特別是手持電子設(shè)備)提供輸入的可選方案。此外,另一目標(biāo)是找到在人類和計算設(shè)備之間更加自然的交互。經(jīng)過試驗的各種輸入技術(shù)包括與計算設(shè)備連接的輔助傳感器模態(tài)(modality),例如用于獲取特定姿勢的動作傳感器、表面肌肉或神經(jīng)傳感器等。然而,由于使用這樣的傳感器需要大量的計算能力這一缺陷,因而與此相關(guān)的是相當(dāng)大的成本。因此,期望開發(fā)出一種輸入技術(shù),其能夠解決由于輸入設(shè)備的小型化而帶來的使用性問題。
發(fā)明內(nèi)容在下文中,提供了一種基于從一個或多個照相機捕獲的手勢的自然UI交互系統(tǒng)。利用在移動設(shè)備中集成的系統(tǒng),其將有效地解決小型化硬件和最大化軟件輸入的沖突,同時,通過手勢的交互將大大增強移動設(shè)備的使用性。本發(fā)明的一個目的在于提供一種通信終端,其能夠通過檢測和識別用于控制所述通信終端的預(yù)定動作來建立與外部對象的交互。本發(fā)明的目的還在于提供一種具有接近度檢測(proximitydetection)的通信終端,其針對對于預(yù)定動作的檢測和識別,用于激活與外部對象的交互。根據(jù)本發(fā)明的第一方面通過一種方法來實現(xiàn)以上目的之一,所述方法用于響應(yīng)于登記和解釋對象的預(yù)定動作或模式而調(diào)用通信終端的操作。因此,實現(xiàn)了一種用于對通信終端(例如移動電話)實現(xiàn)命令輸入的方便的解決方案。作為其它優(yōu)點,提供了一種針對設(shè)備小型化和使用性的沖突的直接解決方案。交互更加自然,并且輸入不受到設(shè)備硬件的小型化的限制。術(shù)語"調(diào)用"還可解釋為關(guān)聯(lián)。有利地,例如可以通過捕獲對象的圖像來在視覺上登記和解釋動作或模式。有利地,通過例如在通信終端中集成的照相機,容易提供圖像輸入。根據(jù)一個實施例,所述對象包括手,并且所述預(yù)定動作或模式包括手勢。作為優(yōu)點,可以通過使用對于設(shè)備的用戶接口進行命令輸入和導(dǎo)航的手勢,實現(xiàn)在人類與計算設(shè)備之間的自然交互。此外,用戶可以根據(jù)預(yù)定模式來移動手,所述預(yù)定模式可以在先前時刻已經(jīng)由用戶設(shè)置,由此調(diào)用移動電話的不同操作,例如呼叫消息的發(fā)送方,到達下一消息,等等。根據(jù)各個實施例,措辭"登記"可理解為捕獲圖像數(shù)據(jù),并且措辭"解釋"可理解為將對象識別為手,以及識別手的姿勢并將其與參考姿勢關(guān)聯(lián)。根據(jù)本發(fā)明的一個實施例,措辭"解釋"可理解為包括以下步驟標(biāo)識對象,識別所述對象,確定其定向,識別對象并將其與手勢關(guān)聯(lián)??梢酝ㄟ^終端的軟件來進行解釋。此外,根據(jù)本發(fā)明的方法的另一實施例,所述操作涉及使用手勢向通信終端提供命令輸入,并且所述方法包括-捕獲手勢的圖^象數(shù)據(jù)201;-在所述圖像數(shù)據(jù)中標(biāo)識對象202;-將對象識別為手203;-識別所述手的所述對象的特征,并將其與來自一組預(yù)定參考姿勢中的第一參考姿勢關(guān)聯(lián)205;-提供與所述參考姿勢關(guān)聯(lián)的命令輸入206。措辭"捕獲圖像數(shù)據(jù)"可理解為利用圖像捕獲設(shè)備(例如像移動電話的照相機)簡單地拍照。通過措辭"在所述圖像數(shù)據(jù)中標(biāo)識對象,,,其可理解為在圖片中找到對象。根據(jù)一個實施例,所述標(biāo)識涉及對膚色分類。作為優(yōu)點,可以從圖像識別出諸如手這樣的類似人類的對象。根據(jù)另一實施例,膚色分類包括實現(xiàn)高斯混合建模(Gaussianmixturemodelling)。因此,模擬5雖度語(intensityspectra)和人類膚色的混合特性,并且作為優(yōu)點,增加在圖像中識別包括人類皮膚的對象的精確度。有利地,可以采取各種技術(shù)來改進從姿勢的期望區(qū)域分離噪聲區(qū)域的過程。例如,根據(jù)一個實施例,顏色分類可以涉及顏色空間分析和/或概率分析。此外,根據(jù)另一實施例,所述顏色空間分析可以涉及將圖像數(shù)據(jù)轉(zhuǎn)換成色度平面(CbCr)顏色空間圖像數(shù)據(jù)。根據(jù)又一實施例,所述對象識別可以涉及使用連通分量(connectedcomponent)提取來消除視覺噪聲。根據(jù)一個實施例,所述連通分量提取可以包括以下內(nèi)容中的任何一個畫確定對象的縱橫比(aspectratio);-確定與圖像大小相比的對象大小;-確定與輸入圖像的邊界相連的區(qū)域;并且其中,在滿足以下要求的情況下消除所迷噪聲-所述縱橫比在10以內(nèi);-所述對象大小大于關(guān)于輸入圖像大小所設(shè)置的預(yù)定值;以及7-存在與所述輸入圖像的邊界相連的僅一個區(qū)域,或者存在不滿足其它要求的多個區(qū)域。根據(jù)一個實施例,所述關(guān)聯(lián)可以涉及確定所述手的定向的步驟,以及涉及-確定所述對象的Karhunen-Loe6(KL)軸定向;-確定所述對象的第一幾何中心點;以及-確定所述對象的凸多邊形的第二幾何中心點,并且其中,使用所述KL軸的定向來確定所述第一和第二中心點的位置關(guān)系。因此,第一幾何中心點表示被分割的手區(qū)域的幾何中心,即手區(qū)域的重心。第二幾何中心點表示(優(yōu)選地通過凸多邊形來表示的)手區(qū)域輪廓的幾何中心。通常,第一幾何中心點不包括手形的信息。然而,第二幾何中心點的位置反映了區(qū)域的凸度。因此,通過確定手區(qū)域的KL軸,可以確定第一和第二幾何中心點相對于彼此的位置關(guān)系。已知在兩個中心點(或中心)之間的相對位置,可以確定手的位置并識別姿勢。根據(jù)另一實施例,所述定向的確定得出以下之一-如果所述KL軸沿第一方向延伸,并且所述第一和第二中心點在基本沿所述第一方向的第一移置(displacement)方向上相對于彼此被移置,則進行笫一操作,即,例如UP(向上);-如果所述KL軸沿所述第一方向延伸,并且所述第一和第二中心點在基本沿所述第一方向的所述移置方向上相對于彼此,H向移置,則進行第二操作,即,例如DOWN(向下);-如果所述KL軸沿基本垂直于所述第一方向的第二方向延伸,并且所述第一和第二中心點在基本沿所述第二方向的第二移置方向上相對于彼此被移置,則進行第三操作,即,例如RIGHT(向右);畫如果所述KL軸沿所述第二方向延伸,并且所述第一和第二中心點在基本沿所述第二方向的所述移置方向上相對于彼此被反向移置,則進4亍第四操作,即,例如LEFT(向左);畫如果所述中心點基本重合,并且所述姿勢的所迷對象的第一面積小于先前所識別姿勢的先前所確定對象的第二面積的至少一半,則進行第五操作,即,例如OPEN(打開);-如果所述中心點基本重合,并且所述姿勢的所述對象的第一面積大于先前所識別姿勢的先前所確定對象的第二面積的至少兩倍,并且所述姿勢對應(yīng)于所述先前所識別姿勢,則進行第六操作,即,例如CLOSE(關(guān)閉);-如果所述中心點基本重合,并且所述姿勢的所述對象的第一面積大于先前所識別姿勢的先前所確定對象的第二面積的至少兩倍,并且所述姿勢不對應(yīng)于所述先前所識別姿勢,則進行第七操作,即,例如STOP(停止)。根據(jù)優(yōu)選實施例,在共同、一般的參考幀中,所述第一、第二、第三、和第四操作分別對應(yīng)于向上、向下、向左和向右移動焦點,并且所述第五、第六和第七操作分別對應(yīng)于打開項目(例如文件、文件夾或圖像)、關(guān)閉文件夾或圖像,以及停止焦點動作。措辭"焦點"涉及項目(例如圖像、文件、聯(lián)系人、細節(jié)條目、電話號碼等)的焦點。此外,根據(jù)本發(fā)明的一個優(yōu)選實施例,第一KL軸方向垂直向上,并且第二KL軸方向水平向左。在基本重合的情況下,可以理解為兩個中心點彼此鄰近并且不必要完全重合。根據(jù)本發(fā)明的一個實施例,可以使用所述通信終端所包括的照相機來實現(xiàn)所述登記。根據(jù)本發(fā)明的另一實施例,所述通信終端可以包括移動電話。在該上下文中,措辭"姿勢"應(yīng)當(dāng)理解為利用手所產(chǎn)生的姿勢的單個形式或形狀,例如閉合的拳頭、張開的手、閉合的手而拇指伸開并且指著一方向。措辭"姿勢"還可理解為一組包括一連串在彼此之后的單個姿勢,此外還可理解為包括移動的手的姿勢,例如用手指在空中打勾(ticking-in-the-air)。措辭"圖像數(shù)據(jù)"可理解為靜態(tài)圖像或一系列靜態(tài)圖像,例如視頻序列。根據(jù)本發(fā)明的又一實施例,所述方法還包括步驟通過接近度檢測來進行激活。因此,通過配備有接近度傳感器(其檢測達到附近對象的范圍),可以通過接近度檢測來激活用于登記動作的裝置,導(dǎo)致其足夠使終端接近對象,而不需要令它們進行機械接觸。可用的接近度開關(guān)可以包括電感類型、電容類型、電磁輻射或超聲波類型。檢測電磁輻射包括根據(jù)從例如用戶的手發(fā)出的熱來檢測的光學(xué)傳感和紅外輻射。根據(jù)本發(fā)明的第二方面,通過一種具有計算機可執(zhí)行組件的計算機可讀介質(zhì)來獲得上述目的、優(yōu)點和特征以及將從以下詳細描述中變得明顯的各種其他目的、優(yōu)點和特征,所述計算機可讀介質(zhì)適于響應(yīng)于登記和解釋對象的預(yù)定動作或模式,調(diào)用通信終端的操作。特別地,根據(jù)一個實施例,所述計算機可讀介質(zhì)還可適于-接收輸入;-捕獲所述對象的圖像數(shù)據(jù);-在所述圖像數(shù)據(jù)中標(biāo)識所述對象;-將所述對象識別為手;-將所述對象的特征識別為所迷手的姿勢,并將其與來自一組預(yù)定參考姿勢中的笫一參考姿勢關(guān)聯(lián);-提供與所述參考對象關(guān)聯(lián)的命令輸入。因此,作為優(yōu)點,本發(fā)明的這些特征可在具有下栽和運行這樣的計算機程序的能力的任何移動通信裝置中實現(xiàn)。換句話說,本發(fā)明提供了一種方法,用于通過識別對象的預(yù)定動作來控制通信終端的不同操作。在將例如用戶的手用作對象的情況下,預(yù)定動作可以包括將手閉合成拳頭、抓握、揮手、用一個或多個手指進行指點,或者就像沖莫式(例如包括一系列動作)。因此,預(yù)定動作可以與通信終端執(zhí)行的行為、命令或任務(wù)相結(jié)合或成對。在該上下文中,措辭"控制,,還可理解為調(diào)用或執(zhí)行移動通信終端的不同操作。預(yù)定動作可以被識別以便控制打開和/或關(guān)閉媒體內(nèi)容的項目、訪問10在項目列表或堆棧中的媒體內(nèi)容的上一項目或下一項目、刪,體內(nèi)容的項目、滾動通過媒體內(nèi)容的項目的內(nèi)容、應(yīng)答輸入語音呼叫;在從項目列表中選擇的項目上采取措施,呼叫SMS的發(fā)送方或結(jié)束投影。輸入通信可以包括消息,例如SMS或MMS。而媒體內(nèi)容或消息可以包括文本、圖像、視頻或其任意組合。盡管這些消息傳遞服務(wù)是如今最常用的,然而本發(fā)明還旨在與其它類型的文本或多媒體消息一起使用。所述方法還包括步驟沿著投影光錐(projectedconeoflight)將對象從投影儀移開,直到獲得圖像的優(yōu)選大小。通過實際上將信息保持在手中,用戶感覺到在控制呈遞(presentation),且僅對他或她自身顯露數(shù)據(jù)。姿勢的特性對于用戶來說是直觀上獲得這樣的印象和感覺,即,在通信終端外部用手取得圖像,并且在已經(jīng)回顧了信息之后,將其再次放回終端。所述方法還可以包括以下步驟將對象移回到設(shè)備和/或檢測笫二錐(secondtap)以便結(jié)束對所述圖像的投影。因此,以直觀的方式,用戶將僅以相反的順序來實現(xiàn)與當(dāng)啟動該過程時相同的步驟。所提及的對象可以是例如通信終端的用戶的手。使用手的優(yōu)點尤其是直接有可能略微將手合攏便將圖像從環(huán)境中擋住(shieldoff)??梢允褂玫钠渌麑ο蟀ú鹏藜?、鉛筆或者甚至是傘。預(yù)定動作可以通過使用圖像獲取裝置來檢測和識別。圖像獲取裝置可以是例如任何類型的數(shù)字照相機,例如CMOS照相機。措辭"解釋,,還可解釋為識別??梢酝ㄟ^使用對于設(shè)備的用戶接口進行導(dǎo)航和命令輸入的手勢來實現(xiàn)在人類與計算設(shè)備之間的自然交互。特別地,利用移動照相機設(shè)備的可用性,并且通過照相機輸入經(jīng)由手勢來實現(xiàn)命令輸入的模式識別技術(shù)以及強大的圖像/視頻內(nèi)容分析是一種便捷的解決方案,期望得到終端用戶的高度贊許。換句話說,通過文中所公開的本發(fā)明,輸入技術(shù)能夠提供一種針對設(shè)備小型化和使用性的沖突的直接解決方案。交互更加自然。輸入不受到設(shè)備硬件的小型化的限制。因此,通過本發(fā)明所提供的交互方式,提供了一種具有諸多優(yōu)點的有利的、手部自由的(handsfree)解決方案,特別用于手持式通信i殳備。參照附圖,通過以下說明性和非限制性的對本發(fā)明優(yōu)選實施例的具體描述,本發(fā)明的上述以及其他目的、特征和優(yōu)點將被更好地理解,其中圖1示意性地示出了根據(jù)本發(fā)明的姿勢識別過程的流程圖;圖2示意性地示出了根據(jù)本發(fā)明的方法的框圖;圖3示出了多個手勢的示意性例子(從a)至f)部分);以及圖4示意性地示出了根據(jù)本發(fā)明用于手勢識別的幾何方法的各個定向(從a)至f)部分)。蔣實施方式在對各個實施例的以下描述中,參照形成各個實施例的一部分的附圖,解,在不背離本發(fā)明的范圍的情況下,可以利用其它實施例并且可以進行結(jié)構(gòu)和功能的^"改。圖1示意性地示出了在其中實現(xiàn)本發(fā)明的通信終端101。終端101能夠經(jīng)由空中接口103與無線電通信網(wǎng)絡(luò)105(例如/>知的系統(tǒng)CDMA2000、D-AMPS、GSM、UMTS、EDGE等)進行通信。該終端包括處理器107、存儲器109,以及作為擴音器lll、揚聲器113、顯示器115和鍵盤117的形式的輸入/輸出單元。通過無線電電路119和天線121實現(xiàn)無線電通信。連接至無線電通信網(wǎng)絡(luò)105的是控制器123。關(guān)于這些單元如何通信的細節(jié)對于本領(lǐng)域的技術(shù)人員來說是已知的,并且因此不再進一步討論。終端101還包括用于捕獲圖像數(shù)據(jù)的成像單元124。在圖2中,描繪了用于使用手勢來向通信終端提供命令輸入的方法的流程圖。特別地,其示出了根據(jù)本發(fā)明的姿勢識別過程。在所示方法的第一步201,利用圖像獲取裝置(優(yōu)選地,利用移動電話的數(shù)字照相機)來捕獲手勢的圖像數(shù)據(jù)。圖像獲取裝置可以是例如任何類型的數(shù)字照相機,如用于圖像記錄的基于CCD(電荷耦合器件)或CMOS(互補金屬氧化物半導(dǎo)體)的照相機。在該方法的第二步202中,從圖像數(shù)據(jù)中標(biāo)識一個或多個對象。關(guān)于如何實現(xiàn)對象標(biāo)識的其它細節(jié)分別在以下用于膚色劃分以及連通分量標(biāo)記和合并(mergence)208的步驟207和208中進行了概括。在該方法的第三步203中,檢查是否有任何對象對應(yīng)于手。為此,必須滿足多個手勢要求,下面結(jié)合用于噪聲區(qū)域消除的步驟209給出了其中的細節(jié)。在該方法的第四步204中,確定手的定向。這是在使用Karhunen-LoW定向的基于定向的幾何方法中實現(xiàn)的,將在下面結(jié)合步驟210對其進行進一步詳細描述。在該方法的第五步205中,識別手的姿勢,并將其與一組預(yù)定姿勢中的一個相關(guān)聯(lián)。下面結(jié)合步驟211至217進一步詳細描述了該步驟的過程。在該方法的第六步206中,提供與所識別的姿勢對應(yīng)的輸入。下面結(jié)合步驟218至224較為詳細地描述了各種輸入備選方案。關(guān)于圖2中所示的方法的步驟202,對象標(biāo)識的過程涉及膚色劃分步驟207,用于標(biāo)識圖像中具有膚色的區(qū)域。膚色劃分或膚色分類的技術(shù)可以凈皮描述為將各個圖像像素分成皮膚種類和非皮膚種類。為此,使用顏色空間分析。在皮膚劃分中已使用了各種各樣的顏色空間,例如RGB、HSV和YCbCr等。RGB顏色空間是用于處理和存儲彩色圖像數(shù)據(jù)的最廣泛使用的顏色空間之一,但是由于在色度和亮度數(shù)據(jù)的混合與通道之間的高度相關(guān)性,因此其通常不適合用于顏色分析和基于顏色的識別?;谏{(diào)-飽和度(Hue-saturation)的顏色空間(如HSV、HSI、HSL)是這樣的模型,即該模型符合人類的直觀感知并且類似于藝術(shù)家實際如何混合顏色。特別地,色調(diào)具有對白光源和環(huán)境光以;M^面定向的不變特性。YCbCr是面向硬件的模型。在該顏色空間中,亮度從色度數(shù)據(jù)中分離。通過從RGB的紅和藍分量減去亮度來形成Cb和Cr值。亮度和色度分量的轉(zhuǎn)換簡單性和明顯的分離使得這種顏色空間適合于膚色建模[Hsu等人,2002]。為了選擇基于色調(diào)的顏色空間或YCbCr空間來使得膚色檢測對于亮度不變,利用一組膚色訓(xùn)練數(shù)據(jù)來分別評估YCbCr和HSV,所述數(shù)據(jù)包括從各個靜態(tài)圖像和視頻幀中提取的550個膚色樣本,覆蓋大范圍的膚色外觀(在皮膚樣本數(shù)據(jù)中總共超過2000萬個膚色像素)。在圖5中,分別在YCbCr空間a)部分和HSV空間b)部分中繪制了膚色樣本500。清楚可見的是,在YCbCr和HSV兩個顏色空間中,膚色樣本形成單個且緊密的群集501和502。在YCbCr顏色空間中,觀察到強度值Y對于CbCr平面上的分布具有很小的影響,并且在CbCr平面中,樣本膚色形成更小的和更緊密的群集。因此,在本發(fā)明中,將色度平面(CbCr)直接用于膚色分類,而不考慮強度值。因而,圖5的比較"i兌明了為何可優(yōu)選地選棒YCrCb空間用于膚色區(qū)域劃分。此外,還可以采用該數(shù)據(jù)來訓(xùn)練用于手區(qū)域劃分的膚色模型。為了對膚色劃分建模,使用高斯混合模型和期望值最大化(EM)估計。高斯密度函數(shù)以及高斯混合常被用于對膚色進行建模Yang等人,20021。通常使用最大似然來估計在單峰高斯分布中的參數(shù)。使用高斯混合的動機是基于以下觀察對于具有不同種族背景的人類皮膚的顏色柱狀圖沒有形成單峰分布,但卻形成多峰分布。利用單峰高斯,通過參數(shù)化的函數(shù)形式來近似計算膚色的類條件(class-conditional)概率分布函數(shù)(PDF)[Yang,Waiblel996j。P(xIW")=,C,)=(2;rmC」—'"exp{—"-m》rC;'-)}(工)其中,^是特征向量的維度,附,是均值向量,c;是皮膚類別的協(xié)方差矩陣。在多峰分布的情況下,通過GMM(高斯混合模型)來近似計算膚色分布。14'=1(2)通常,使用期望值最大化(EM)算法[Bilmes1998得到高斯混合的參數(shù)(即,權(quán)重o,均值附,協(xié)方差C)。當(dāng)數(shù)據(jù)不完整或具有遺漏的值時,EM算法是從給定數(shù)據(jù)集得到基本分布的參數(shù)的最大似然估計的通用方法。混合密度參數(shù)估計問題是EM算法的最廣泛4吏用的應(yīng)用之一[Xu,Jordan1996。在本發(fā)明中,使用YCbCr顏色空間和GMM來實現(xiàn)膚色分類。為了構(gòu)建GMM模型,使用K-均值[Duda,Hart2001算法來設(shè)置群集中心,并且然后利用EM算法來估計每個高斯分量的參數(shù)。在這種情況下,用于膚色分類的GMM模型包括20個高斯分量。每個分量是2-元素(Cb和Cr元素)高斯分布。20個高斯分量的參數(shù)列出如下。編號權(quán)重中心協(xié)方差10.0702(109.8462,151.5873)(5.2380,6.2722)20.0657(99.9267,159.2890)(2.6080,6.9135)30.0861(112.8403,144.3406)(9.1854,16.0524)40.0737(107.4903,157.2522)(6.6948,5.4418)0.0393(96.5935,152,4062)(31,4322,44.6357)60.0128(82.6950,157.0569)(25.4192,25.2871)70.0351(94.6656,170.6002)(4.7205,16.8803)80.0626(116.0954,146.3582)(8.8988,15.1916)90.0645(95.1594,160.7084)(3.7062,15.6597)100.0203(79.6508,170.3406)(31.2517,39.3632)110.0552(120.2977,138.1978)(9.4732,15.4720)120.0623(102.9900,157.9256)(0,8807,4.7835)130.0184(84.0346,181.6167)(100.3211,52.0002)15<table>tableseeoriginaldocumentpage16</column></row><table>在膚色分類之后,需要后處理一連通分量提取Gonzalez,Woods2002],用于噪聲區(qū)域移除。在"連通分量標(biāo)記和合并"的步驟208中,合并應(yīng)當(dāng)屬于一個對象的相鄰區(qū)域或分量,并計算區(qū)域的大小?;跇?biāo)記對象的大小信息,實現(xiàn)"噪聲區(qū)域消除,,的步驟209,以便移除那些類似噪聲的小區(qū)域以及具有規(guī)則形狀(人為對象)的那些區(qū)域。因此,在劃分之后,原始圖像變成黑/白圖像,其中白色區(qū)域代表對象,而黑色區(qū)域4戈表背景。然而,此時白色區(qū)域的大小和形狀未知。利用連通分量標(biāo)記,計算對象區(qū)域的大小和形狀,并且根據(jù)一些給定的先驗準則,合并屬于相同對象的相鄰對象區(qū)域。在標(biāo)記和合并的步驟之后,實現(xiàn)噪聲區(qū)域移除的步驟,以便移除那些小區(qū)域以及具有規(guī)則形狀(人為對象)的那些區(qū)域。根據(jù)本發(fā)明,在任何的輸入姿勢圖像中應(yīng)當(dāng)存在唯一的手區(qū)域。在基于顏色皮膚的劃分之后,有時候,不僅可以劃分手區(qū)域,還可以劃分其它噪聲區(qū)域。因而,其中將對象識別為手的步驟203涉及噪聲消除的步驟209。因此,如果存在被提取的任何噪聲區(qū)域,則根據(jù)以下規(guī)則對其進行移除-手區(qū),當(dāng)具有IO以內(nèi)的縱橫比(步驟210);-與輸入圖像大小相比,手區(qū)域應(yīng)當(dāng)具有足夠的大小(步驟211)??梢?吏用形態(tài)上開方文的操作(morphologicalopenoperation)來移除那些小的孤立區(qū)域。-與輸入圖像的邊界相連的所有區(qū)域都可以看作噪聲區(qū)域,除非僅存在一個滿足以上兩個規(guī)則的被分割的區(qū)域(步驟212)。在噪聲區(qū)域移除之后,剩余的區(qū)域是手區(qū)域。姿勢定向分析作為將對象與預(yù)定對象關(guān)聯(lián)的步驟204的一部分,在步驟210中確定手的定向,以便確定Karhunen-Loe^(KL)定向。這種用于手勢識別的基于定向的幾何方法包括確定Karhunen-Loe^(KL)定向,以及確定手區(qū)域及其凸包(convexhull)的質(zhì)心(centroid)。KL定向圖4示出了如a)至f)部分中所示的KL定向[Pratt2001]以及在各個定向上手區(qū)域的質(zhì)心。下面進一步給出圖4的詳細描述。如下導(dǎo)出KL定向假設(shè)在輸入姿勢圖像的膚色像素集A中每個像素坐標(biāo)是(&,,那么《=[;^凡,=(義、.,,乂,)7"'=1...^狄色像素的坐標(biāo)。尸,的均值是s二[^j;]7,其中5=1:乇/^,K-Zx/w。對應(yīng)的協(xié)方差矩陣定義為從協(xié)方差矩陣Cs可容易地計算出特征值£,=[ej和對應(yīng)的特征向f^t=[ev9l,2]。因此,與較大的特征值e、,相對應(yīng)的特征向量,,確定了在圖像坐標(biāo)平面中的KL定向,參見圖4中的短劃線407至412。手區(qū)域及其凸包的質(zhì)心在圖4的d)部分中所示的被分割的手區(qū)域的情況下,可以分別計算手區(qū)域及其凸多邊形的質(zhì)心-6;"乂)和(:2(^義)。<formula>formulaseeoriginaldocumentpage17</formula>=1...W是手區(qū)域中的第《個膚色像素。導(dǎo)出C2(X2,^)為<formula>formulaseeoriginaldocumentpage18</formula>(S-皮膚面積,A-皮膚面積元素)基于格林定理,工油=-1辦,={x*辦,丄-/er!Vw"e/"o//o(ygow(£-多邊形的周長)對于作為一系列線段的多邊形,這正好可以;故簡化成求和,x=_-_■:''—--------■■■'■■■'十力"l十凡,義,十l)(Xw—^,)j少232(O,,+工,,+1)O,w-y"))通過"簡化(shortcutting)"連接手區(qū)域的邊緣來創(chuàng)建第二質(zhì)心C2的形狀。因而,效果是涂抹(smear)手區(qū)域的輪廓(conture),以便使得拇指與手的主體接合(coalesce),并且圖像對象的"重心"被移置(displace)。關(guān)于圖2中所示的方法的第五步205,以下概括了用于識別以及將手勢與一組預(yù)定姿勢之一進行關(guān)聯(lián)的過程。還包括在以下概括內(nèi)容中的是如何將姿勢映射到各個輸入備選方案,如以上步驟206所示,以便提供與所識別的姿勢對應(yīng)的輸入。如果已經(jīng)計算了手區(qū)域的KL定向以及該區(qū)域及其凸包的質(zhì)心,那么可以參照手區(qū)域的KL定向,通過這兩個質(zhì)心的位置關(guān)系來估計手形狀的定向。根據(jù)這里概括的本發(fā)明實施例,可用的輸入備選方案是UP(向上)、DOWN(向下)、RIGHT(向右)、LEFT(向左)、OPEN(打開)、CLOSE(關(guān)閉)和STOP(停止)。然而,可以采用其它的輸入備選方案。此外,還可以具有能夠與所提供的姿勢匹配的其它預(yù)定姿勢。用戶可以例如向系統(tǒng)所識別的一組預(yù)定姿勢提供各個姿勢。因此,提供了一種學(xué)習(xí)系統(tǒng),能夠根據(jù)每個用戶的選擇和偏好對其進行個性化。下面可以描述將輸入姿勢與參考姿勢對象進行匹配的原理通過消除不太可能的備選方案,從預(yù)定數(shù)目的可用參考對象中選擇參考姿勢對象,從而選擇剩余的最后一個。也就是,例如,已知存在六個不同的備選方案來從中進行選擇,那么選擇具有最佳對應(yīng)性的一個。參照圖2,對于步驟211中分離的質(zhì)心和中心點以及步驟212中接近垂直的KL定向的情況,如果在步驟213中質(zhì)心第一中心點在質(zhì)心第二中心點以上,則姿勢對應(yīng)于操作DOWN218,而如果在步驟213中質(zhì)心第一中心點在質(zhì)心第二中心點以下,則姿勢對應(yīng)于操作UP219。此外,對于步驟211中分離的質(zhì)心和中心點而在步驟212中卻具有接近水平的KL定向的情況,如果在步驟214中質(zhì)心第一中心點在質(zhì)心第二中心點的左邊,則姿勢對應(yīng)于操作RIGHT220,而如果在步驟214中質(zhì)心第一中心點在質(zhì)心第二中心點的右邊,則姿勢對應(yīng)于操作LEFT221。為了優(yōu)化有限數(shù)目的姿勢的使用,可以將各種輸入與單個姿勢關(guān)聯(lián)。因此,根據(jù)該例,操作CLOSE和STOP都可以與閉合的拳頭關(guān)聯(lián)。取決于先前的行為或操作,在步驟217中閉合的拳頭的姿勢導(dǎo)致不同的操作,例如,如果上一輸入是STOP并且上一姿勢是張開的手,則導(dǎo)致CLOSE,如步驟223中所示。否則,得到的操作是步驟224所示的STOP.在姿勢的凸包的面積是先前姿勢的面積的至少兩倍(如步驟215所示)并且先前操作是STOP(如步驟216所示)的情況下,那么當(dāng)前操作是步驟222所示的OPEN。在前一例子中,當(dāng)最后的操作不是OPEN的情況下,當(dāng)前操作完全是NO(否)操作,如步驟216所示。5S^隞不同地,如果手區(qū)域的KL定向接近水平并且兩個質(zhì)心彼此分離,則姿勢意味著LEFT或RIGHT。而在接近垂直的KL定向的情況下,姿勢意味著UP或DOWN。然后使用兩個質(zhì)心的位置關(guān)系來確定姿勢含義。容易理解,兩個質(zhì)心的差別受到伸開的拇指的影響。如果拇指向左伸開,則凸包的質(zhì)心位于手區(qū)域的質(zhì)心的左邊。對于姿勢RIGHT、UP和DOWN,19兩個質(zhì)心的位置關(guān)系類似于LEFT。另一方面,如果存在手的突出拇指,則凸包的質(zhì)心將會處于與手區(qū)域的質(zhì)心不同的位置。根據(jù)本發(fā)明的另一實施例,應(yīng)用以下規(guī)范-使用與UP、DOWN、LEFT和RIGHT相關(guān)的姿勢來將焦點從一個項目移至另一項目。隱使用OPEN姿勢來打開項目,而使用CLOSE姿勢來關(guān)閉打開的項目。-從姿勢順序的觀點來看,CLOSE姿勢應(yīng)當(dāng)在OPEN姿勢之后。然而,如果存在一個或多個其它姿勢,例如在UP/DOWN/LEFT/RIGHT之間,則這些姿勢被禁用,并且系統(tǒng)將僅接受OPEN/CLOSE姿勢。畫使用STOP姿勢來使得焦點停止在項目上。-STOP姿勢和CLOSE姿勢具有相同的手勢。-如果系統(tǒng)檢測到OPEN姿勢,則會登記姿勢信息,例如手區(qū)域大小、手勢(OPEN)。直到系統(tǒng)檢測到CLOSE姿勢,將不接受其它姿勢。-對于STOP/CLOSE姿勢和OPEN姿勢,手區(qū)域及其凸包的中心點不必完全地重合,但卻幾乎重合。-對于CLOSE姿勢,手的大小近似小于OPEN姿勢的手的大小的兩倍。-如果不存在被登記的OPEN姿勢,并且如果系統(tǒng)檢測到拳頭狀姿勢,則系統(tǒng)將認為它是STOP姿勢,而不是CLOSE姿勢。項目可以包括文檔、文件夾、聯(lián)系人、收件人、多媒體內(nèi)容(例如圖像、音頻或視頻序列)、提醒、多媒體消息等。圖4將用作說明性例子400,其在a)至f)部分中描述了各個KL定向以及手區(qū)域及其凸包的質(zhì)心。例如,如果手區(qū)域的KL定向接近水平407,如圖4的a)部分中所示,其中拇指401指向左,并且凸包的質(zhì)心C2413位于手區(qū)域的質(zhì)心C,414的左邊時,那么姿勢對應(yīng)于LEFT符號。在b)部分中,在拇指指向右的情況下,其兩個質(zhì)心4"和416的位置顛倒。如果手區(qū)域的KL定向接近垂直409,如圖4的c)部分中所示,其中拇指訓(xùn)S指向上,而C2"位于C"18之上時,那么姿勢對應(yīng)于UP符號。在d)部分中,在拇指指向下的情況下,其兩個質(zhì)心419和420的位置顛倒。如果手區(qū)域的兩個質(zhì)心d和C2(421和422)幾乎重疊,如e)部分中以張開的手405并且基本垂直的KL軸411所描繪的,以及如圖4的f)部分中以閉合的拳頭406并且基本水平的KL軸412所描繪的,將姿勢分別識別為OPEN和STOP。為了區(qū)分是將姿勢識別為OPEN還是STOP,頭的姿勢的面積的兩倍大小。用于進行區(qū)分的;它啟發(fā)式方^包括在STOP之后應(yīng)當(dāng)實現(xiàn)OPEN,而CLOSE應(yīng)當(dāng)在OPEN之后,等等。圖3描繪了一組預(yù)定的固定參考手勢300。圖3的a)至d)部分示出了拇指指向以下方向的閉合的手a)指向右301,用于指示向右運動;b)指向左302,用于指示向左運動;c)指向上303,用于指示向上運動;d)指向下304,用于指示向下運動。圖3的e)部分示出了閉合的手305,用于指示停止或關(guān)閉。圖3的f)部分示出了張開的手306,用于指示打開或接受。對于運動的指示可以指的是菜單中的操縱、在項目(例如消息、圖像、聯(lián)系人細節(jié)、Web頁面、文件等)之間的切換,或者滾動通過項目。其它手勢(未示出)包括移動手勢,例如用食指在空中畫勾,用于指示選擇;用食指在空中畫叉,用于指示對活動對象(例如消息、圖像、高亮區(qū)域等)的刪除??梢詫⒔K端分發(fā)給終端用戶(包括一組預(yù)定手勢)用戶還可以根據(jù)需要和個人選擇來定義個人手勢,或者配置手勢與關(guān)聯(lián)行為之間的映射。換句話說,通過提供某些被定義的手勢,能夠?qū)崿F(xiàn)用戶接口交互。因此,可以將手勢用于命令輸入以及對字母和數(shù)字的錄入等。根據(jù)一個應(yīng)用,即媒體庫導(dǎo)航,其中使用"Up"來向上移動焦點,使用"Down"來向下移動焦點,使用"Left"來向左移動焦點,使用"Right"來向右移動焦點,"Stop"意味著停止焦點移動,使用"Open"來打開焦點所在的圖片,以及^f吏用"Close"來關(guān)閉在庫中打開的圖片。手勢還可以用于在圖形用戶接口上控制對象的移動,例如,在已知的貪吃蟲游戲中控制蟲子的移動。根據(jù)本發(fā)明的一個實施方案,通信終端凈皮配置以便登記和解釋對象的動作(優(yōu)選地,利用內(nèi)置式照相機并結(jié)合用于登記和分析在其前面的動作/模式的軟件)。然后,該終端被配置以便響應(yīng)于用戶的手的預(yù)定動作或模式,例如選擇和執(zhí)行一些行為(例如打開和/或關(guān)閉媒體內(nèi)容的項目,訪問在項目列表或堆棧中的媒體內(nèi)容的上一項目或下一項目,刪,體內(nèi)容的項目,滾動通過媒體內(nèi)容的項目的內(nèi)容,應(yīng)答輸入語音呼叫),在從項目列表中選擇的項目上采取措施,呼叫SMS的發(fā)送方,或者結(jié)合輸入通信(例如SMS(短消息服務(wù))或MMS(多媒體消息傳遞服務(wù)))來采取一些措施。在最后兩種所討論的情況下,先前所提及的動作或模式可以包括可由通信終端解釋成刪除消息的閉合的拳頭,可使用手的斜置(tilting)來到達消息文件夾或列表中的下一消息,向上斜置可指示在列表中前進,并且向下斜置可指示在列表中后退。通過使得手旋轉(zhuǎn)、斜置、繞圏或者來回或上下簡單移動,可以將多個行為與不同模式關(guān)聯(lián)。模式還可以包括一系列或一連串的動作。通信終端可^t配置以使z汰別多個預(yù)i殳動作。然而,對于用戶來說,也可以配置各個動作,或者調(diào)節(jié)動作以便更好地匹配現(xiàn)有模式。因此,使用接近度檢測,利用對象的靠近終端的姿勢可以觸發(fā)終端激活投影儀來呈遞輸入通信的信息。接近度傳感器檢測何時有物體接近。在檢測到有物體接近時給予開關(guān)輸出的這樣的傳感器稱為接近度開關(guān)。最后,上述發(fā)明提供了一種向通信終端提供輸入的方便和直觀的方式。其很好地適用于結(jié)合縮小尺寸的設(shè)備來進行提供。特別地,在人的手暴露于液體或其它物質(zhì)的情形和環(huán)境中,其也是方〗更的,從而不需要與終端的直接物理接觸。2權(quán)利要求1.一種方法,用于響應(yīng)于登記和解釋對象的預(yù)定動作或模式,調(diào)用通信終端的操作。2.根據(jù)權(quán)利要求1的方法,其中所述對象包括手,并且所述預(yù)定動作或模式包括手勢。3.根據(jù)權(quán)利要求1的方法,其中通過所述終端的軟件來實現(xiàn)對動作或模式的所述解釋。4.根據(jù)權(quán)利要求1的方法,其中所述操作涉及使用手勢來向所述通信終端提供命令輸入,并且所迷方法包括-捕獲所述手勢的圖像數(shù)據(jù)201;-在所述圖像數(shù)據(jù)中標(biāo)識對象202;-將對象識別為手203;-將所述對象的特征識別為所述手的姿勢,并將其與來自一組預(yù)定參考姿勢中的第一參考姿勢關(guān)聯(lián)205;-提供與所述參考姿勢關(guān)聯(lián)的命令輸入206。5.根據(jù)權(quán)利要求4的方法,其中所述標(biāo)識涉及對膚色進行分類。6.根據(jù)權(quán)利要求5的方法,其中所述膚色的分類包括進行高斯混合建模。7.根據(jù)權(quán)利要求5的方法,其中所述膚色的分類涉及顏色空間分析和/或概率分析。8.根據(jù)權(quán)利要求7的方法,其中所述顏色空間分析涉及將圖像數(shù)據(jù)轉(zhuǎn)換成色度平面(CbCr)顏色空間圖像數(shù)據(jù)。9.根據(jù)權(quán)利要求4的方法,其中所述對象識別涉及使用連通分量提取來消除視覺噪聲。10.根據(jù)權(quán)利要求9的方法,其中所述連通分量提取包括以下中的任何一個-確定所述對象的縱橫比;-確定與圖像大小相比的對象大小;-確定與輸入圖像的邊界相連的區(qū)域;并且其中,在滿足以下要求的情況下消除所述噪聲-所述縱橫比在10以內(nèi);-所述對象大小大于關(guān)于輸入圖像大小所設(shè)置的預(yù)定值;以及-存在與所述輸入圖像的邊界相連的僅一個區(qū)域,或者存在不滿足其它要求的多個區(qū)域。11.根據(jù)權(quán)利要求4的方法,其進一步包括確定所迷手的定向204,以及涉及-確定所iW象的Karhunen-Lo"(KL)軸定向;一確定所i^j"象的第一幾何中心點;以及-確定所述對象的凸多邊形的第二幾何中心點,并且其中,使用所述KL軸的定向來確定所述第一和第二中心點的位置關(guān)系。12.根據(jù)權(quán)利要求11的方法,其中所述定向的確定得出以下之一-如果所述KL軸沿第一方向延伸,并且所述第一和第二中心點在基本沿所述第一方向的第一移置方向上相對于彼此被移置,則進行第一操作;-如果所迷KL軸沿所述第一方向延伸,并且所述第一和笫二中心點在基本沿所述第一方向的所述移置方向上相對于彼此亂良向移置,則進行第二操作;-如果所述KL軸沿基本垂直于所述第一方向的笫二方向延伸,并且所迷第一和第二中心點在基本沿所述第二方向的第二移置方向上相對于彼此被移置,則進行第三操作;-如果所述KL軸沿所述第二方向延伸,并且所述第一和第二中心點在基本沿所述第二方向的所述移置方向上相對于彼此凈it良向移置,則進行第四操作;-如果所述中心點基本重合,并且所述姿勢的所述對象的第一面積小于先前所識別姿勢的先前所確定對象的第二面積的至少一半,則進行第五搮作;-如果所述中心點基本重合,所述姿勢的所迷對象的笫一面積大于先前所識別姿勢的先前所確定對象的第二面積的至少兩倍,并且所述姿勢對應(yīng)于所述先前所識別姿勢,則進行第六操作;-如果所述中心點基本重合,所述姿勢的所述對象的笫一面積大于先前所識別姿勢的先前所確定對象的第二面積的至少兩倍,并且所述姿勢不對應(yīng)于所述先前的姿勢,則進行第七操作。13.根據(jù)權(quán)利要求12的方法,其中所述第一、第二、第三和第四操作分別對應(yīng)于向上、向下、向左和向右移動焦點,所述第五、第六和第七操作分別對應(yīng)于打開項目、關(guān)閉項目和停止焦點動作。14.根據(jù)權(quán)利要求1的方法,其中使用所述通信終端的照相機來實現(xiàn)所述登記。15.根據(jù)4又利要求1的方法,其中所述通信終端是移動電話。16.根據(jù)權(quán)利要求l的方法,其進一步包括步驟通過接近度檢測來進行激活。17.—種具有計算機可執(zhí)行組件的計算機可讀介質(zhì),其包括所述計算機可讀介質(zhì)適于響應(yīng)于登記和解釋對象的預(yù)定動作或模式,調(diào)用通信終端的操作。18.根據(jù)權(quán)利要求17的計算機可讀介質(zhì),其進一步適于-接收輸入;-捕獲所述對象的圖像數(shù)據(jù);-在所述圖像數(shù)據(jù)中標(biāo)識所述對象;-將所迷對象識別為手;-將所述對象的特征識別為所述手的姿勢,并將其與來自一組預(yù)定參考姿勢中的第一參考姿勢關(guān)聯(lián);-提供與所述參考對象關(guān)聯(lián)的命令輸入。全文摘要本發(fā)明涉及一種方法,其用于響應(yīng)于登記和解釋對象的預(yù)定動作或模式,調(diào)用通信終端的操作。其進一步涉及在其中實現(xiàn)本發(fā)明的計算機可讀介質(zhì)。文檔編號G06F3/01GK101517515SQ200780035358公開日2009年8月26日申請日期2007年9月24日優(yōu)先權(quán)日2006年9月28日發(fā)明者H·魯,Q·劉,R·塔卡拉,Y·方,汪孔橋申請人:諾基亞公司