專利名稱:利用臉部檢測和熱點運動控制媒體的方法
技術領域:
本發(fā)明涉及控制多媒體輸出設備的方法,尤其,本發(fā)明涉及利用臉部檢測和熱點運動控制多媒體輸出設備的方法。
背景技術:
操作電子設備越來越依賴于允許用戶從遠處發(fā)出命令的電子遙控器。一般說來, 遙控器是自供電的,經(jīng)由紅外(IR)和無線電信號發(fā)出命令。在一個典型家庭中,像電視或視頻投影系統(tǒng)、衛(wèi)星或有線電視(TV)接收器、CD(激光唱盤)播放器、錄像機、DVD (多功能視頻盤)播放器、音頻調(diào)諧器、計算機系統(tǒng)、和甚至照明設備那樣的一個或多個電子設備都可以用遙控器來控制。盡管這些遙控器已經(jīng)變得非常復雜,但遙控器的使用始終受大眾歡迎。許多電子消費者強烈希望提高與所有形式的多媒體,尤其電視的互動性。電子消費者早就希望拋開電子遙控器,特別是通過人體的姿勢提高與媒體的交互性和參與性。就命令媒體輸出端和與媒體輸出端交互來說,手部動作被證明是有價值的。姿勢識別技術使用戶可以無需使用像電子遙控器那樣的其它機械設備地與電子設備交互。這種技術通常包括拍攝人體運動的攝像機,并且將從攝像機中收集的數(shù)據(jù)傳送到計算機。然后,計算機將所選姿勢識別成電子設備的有意命令。例如,在實際中,用戶可以將手指點在電視機或計算機屏幕上,以便移動光標或激活應用命令。在美國專利第7,觀3,983中公開了一種交互式媒體系統(tǒng),其中講述了將計算機與攝像機耦合以便提供利用成像和識別技術的方法,與像書籍、教材、雜志、海報、圖表、地圖、 個人網(wǎng)頁、包裝材料、游戲卡等那樣的印刷媒體的使用結合為使用人員提供放大了的交互性。該計算機系統(tǒng)使用基于視覺的傳感器來識別印刷媒體和檢索與那種觀看相對應的信息。然后,傳感器至少針對媒體的一部分識別第一用戶姿勢。然后,計算機系統(tǒng)將該姿勢翻譯成命令,并且至少部分根據(jù)第一姿勢和所檢索信息,該系統(tǒng)以電子方式大聲說出所檢索信息的至少一部分。人體姿勢可以來源于任何身體運動或狀態(tài),包括上述的手部動作。臉部識別通過區(qū)分那些姿勢來自何處,并過濾掉不相關運動,可以進一步幫助運動檢測系統(tǒng)。盡管人類具有識別和區(qū)分臉部的與生俱來能力,但將那種天生能力應用于計算機軟件卻相當困難。然而,在過去幾年里,已經(jīng)開發(fā)出了較好的系統(tǒng)。與計算機系統(tǒng)一起使用的臉部識別使得可以從數(shù)字圖像或視頻源中識別和核實個人。由于人臉具有許多可區(qū)分特點,所以對這些特點的比較可以用于識別個人。通過使用某些算法,計算機軟件可以比較像眼睛之間的距離、眼窩的深度、顴骨的形狀那樣的特點, 以及許多其它臉部特征,然后將每種特征與現(xiàn)有臉部數(shù)據(jù)相比較。授予Agraham等人的美國專利6,377,995提供了使用臉部和語音識別索引多媒體通信信息,以便可以有效地檢索和重放多媒體通信信息的所選部分的方法和裝置。該方法和裝置結合臉部和語音識別來識別可以包括數(shù)據(jù)或元數(shù)據(jù)的多播、多媒體電話會議的參與者。當音頻和視頻臉部模式兩者都與特定參與者的講話和臉部模型匹配時,服務器就確定那個特定參與者的身份,然后根據(jù)參與者的講話和臉部模式的識別創(chuàng)建參與者的索引,從而將該索引用于劃分多媒體通信信息。深度意識攝像機已經(jīng)用得很普遍,并且也用于控制媒體。像Sony Eyetoy和 Playstation Eye那樣的視頻模式識別軟件利用專門攝像機生成通過攝像機短距離觀看的深度圖,使用戶可以使用運動、顏色檢測和甚至聲音(使用內(nèi)置麥克風)與媒體交互。授予McCarty等人的美國專利6,904,408講述了用于定制用戶網(wǎng)頁瀏覽經(jīng)驗的網(wǎng)頁內(nèi)容管理器。該管理器按照如收集在遺留數(shù)據(jù)庫中的用戶心理喜好和響應至少一個實時可觀察行為信號來選擇合適在線媒體。皮膚溫度、脈搏、心率、呼吸率、EMG(肌電圖)、 EEG(腦電圖)、聲壓和姿勢識別是一些行為響應,并且對心理指標加以測量和分析。姿勢識別通過視頻輸入的計算機分析來完成。臉部的位置可以指示樂觀或悲觀態(tài)度,其中每分鐘眨眼數(shù)可以用于指示焦慮性。對于許多應用都已經(jīng)證明姿勢識別是有長處的。但是,姿勢識別也存在許多挑戰(zhàn), 包括姿勢識別軟件的健壯性和準確性。對于基于圖像的姿勢識別,存在與裝備和存在于視場中的噪聲量有關的局限性。無意的姿勢和背景運動阻礙了發(fā)出命令的全面識別。
發(fā)明內(nèi)容
本發(fā)明提供了使用姿勢控制交互媒體的健壯方法。利用臉部檢測和熱點運動控制媒體的方法提供了使發(fā)出命令不易受影響的準確性,其中所述方法涉及如下步驟使用當前捕獲圖像(Ci)提取運動區(qū);計算和分析當前捕獲圖像(Ci)與以前捕獲圖像(Cp1)之間的差值,得出Di ;對Di應用腐蝕運算以消除小區(qū)域;將提取的熱點區(qū)用作屏蔽區(qū)以過濾掉非運動區(qū);加入Di以構建運動歷史圖像;求出所有檢測到運動相連組元的最大χ,y和最小χ,y 坐標;將每一個表示成lx,Iy,sx和sy ;以及執(zhí)行一種算法來確定手勢是否是控制媒體的命令。本發(fā)明進一步涉及一種媒體控制裝置,讓該媒體控制裝置包含具有圖像傳感器的攝像機和通過所述圖像傳感器接收畫面圖像的輸入圖像模塊。所述輸入圖像模塊進一步通過存儲器與臉部檢測模塊和姿勢識別模塊連接。媒體控制界面接收來自所述輸入圖像模塊的命令,并且將電信號發(fā)送給多媒體輸出設備。
下文將參照附圖以及參考實施例對本發(fā)明作更詳細說明,在附圖中圖1是多媒體控制系統(tǒng)使用的代表性裝備的方塊圖;圖2是多媒體控制系統(tǒng)的透視圖;圖3是臉部檢測模塊的流程圖;圖4是使用臉部檢測算法處理當前捕獲圖像的臉部檢測模塊的例示性表示;圖5是姿勢識別模塊的流程圖;圖6是使用姿勢識別算法處理當前捕獲圖像的姿勢識別模塊的例示性表示。
具體實施方式
現(xiàn)在對本發(fā)明作更詳細描述,其中本發(fā)明的實施例例示在附圖中。現(xiàn)在參照圖1,例示了按照本發(fā)明的多媒體控制系統(tǒng)1。該多媒體控制系統(tǒng)1包含圖像傳感器2、與存儲器5連接的輸入圖像模塊4、媒體控制界面6、與存儲器5連接的臉部檢測模塊10和姿勢識別模塊20、和多媒體輸出設備8。尤其,圖像傳感器2是將光圖像轉(zhuǎn)換成電信號的器件。在處理之前將電信號輸入圖像模塊4中并存儲到存儲器5中?;旧?,如圖2進一步例示,圖像傳感器2與數(shù)字攝像機30結合在一起使用。攝像機30用于將光線聚焦在圖像傳感器2上并捕獲光線。圖像傳感器2從多媒體用戶3中捕獲多個靜止圖像,多媒體用戶3可以向多媒體輸出設備8發(fā)出命令也可以不向多媒體輸出設備8發(fā)出命令。圖像傳感器2完成將捕獲光線轉(zhuǎn)換成通過輸入圖像模塊4來處理的電輸出信號的任務。臉部檢測和姿勢識別模塊10、20通過存儲器5與輸入圖像模塊4連接, 與確定用戶3是否執(zhí)行了發(fā)出命令結合在一起處理電信號。攝像機30可以含有變焦透鏡(未示出),該變焦透鏡可以通過角度θ調(diào)整攝像機的視場。這是限制潛在噪聲的首要和最基本方式。多媒體用戶3可以調(diào)整攝像機30,以便攝像機可以聚焦在多媒體用戶3上。在一個實施例中,輸入圖像模塊4是像微處理器那樣的可編程器件。盡管可以集成地將輸入圖像模塊4制造到數(shù)字攝像機30中,但進一步的實施例也可以允許輸入圖像模塊4單獨構成,與攝像機30和圖像傳感器2分開,和通過電線連接。輸入圖像模塊4含有存儲部件5,存儲部件5存儲攝像機30捕獲的和圖像傳感器2 傳信的輸入圖像幀。將存儲圖像收集和存儲起來用于臉部檢測模塊10與姿勢識別模塊20 之間的處理。媒體控制界面6也是最好配備在單一結構中的輸入圖像模塊的另一個部件。 但是,可以將媒體控制界面6配備成輸入圖像模塊4的外部部件。輸入圖像模塊4包含按照與臉部檢測和姿勢識別相聯(lián)系的算法預編程邏輯功能和連通性的模塊10、20。在本發(fā)明的一個實施例中,臉部檢測和姿勢識別模塊10、20兩者集成地與輸入圖像模塊4 一起構成。取決于臉部檢測和姿勢識別模塊10、20的算法所確定的結果,輸入圖像模塊4將如圖1所例示,通過媒體控制界面6將命令提供給多媒體輸出設備 8。在一個實施例中,通過預先指定的姿勢指示預編程命令。姿勢識別模塊20將許多特定姿勢指示識別成要由多媒體輸出設備8執(zhí)行的特定命令。例如,如果用戶將他的右手揮到他臉部的右側(cè),姿勢識別模塊就將那種姿勢識別成關閉多媒體輸出設備8的命令。但是,在其它實施例中,系統(tǒng)1將能夠使用戶3可以將他們自己的特定姿勢編程成發(fā)出命令。 例如,作為關閉命令,用戶可以將系統(tǒng)1編程成通過用戶將他的左手揮到他臉部的左側(cè)觸發(fā)關閉命令。按照本發(fā)明的和例示在圖1中的多媒體控制系統(tǒng)1向用戶3提供了利用臉部檢測和熱點運動檢測控制媒體的方法。本發(fā)明的目的是使用戶3可以以健壯方式唯一使用人體姿勢來控制多媒體輸出設備8。這些姿勢通過攝像機30和圖像傳感器2來捕獲。但是,只有當在通過臉部檢測模塊10執(zhí)行的算法限定和提取的預先指定運動區(qū)(熱點)中完成姿勢時才識別該姿勢。姿勢識別模塊20執(zhí)行一些算法,以便健壯地確定用戶所做的動作是否是實際發(fā)出命令。如果姿勢識別模塊20確定該動作是有意命令,則根據(jù)存儲器5中預先指定的姿勢的字典進一步確定是哪一種命令。如上所述,每個圖像熱點區(qū)lh、12b通過臉部區(qū)域11來定義,其中將第一圖像 (熱點)運動區(qū)1 指定成剛好在臉部區(qū)域11左側(cè)的區(qū)域,而將第二圖像(熱點)運動區(qū) 12b指定成剛好在臉部區(qū)域11右側(cè)的區(qū)域。在所示的實施例中,圖像運動區(qū)12a、12b任一個的尺度取決于臉部區(qū)域的尺寸。臉部區(qū)域通過大致在頭頂上面的區(qū)域、和大致在所檢測臉部下面的區(qū)域定義。在所示的實施例中,可以將臉部區(qū)域&和圖像運動(熱點)區(qū) 12a、12b的尺寸校準成更好地完善人體姿勢指示14的識別的更小或更大尺度。如圖2所例示,攝像機30捕獲視場31中的圖像。使用圖像傳感器2以電子方式將當前捕獲圖像Ci傳信到輸入圖像模塊4,以便由臉部檢測模塊10來處理。臉部檢測模塊 10通過從開始指定臉部區(qū)域,確定視場31中的臉部。根據(jù)這個臉部區(qū)域,臉部檢測模塊進一步提取和指定熱點區(qū)12a、12b,以便完善姿勢指示14的識別。也可以讓臉部檢測模塊只提取和指定一個(熱點)運動區(qū)12a。在這樣的狀況下,甚至健壯性提高得更多地將單個(熱點)運動區(qū)1 用于過濾掉不想要運動。在所示的實施例中,每個熱點區(qū)lh、12b通過臉部區(qū)域11來定義,其中將第一 (熱點)運動區(qū)1 指定成剛好在臉部區(qū)域&左側(cè)的區(qū)域,而將第二(熱點)運動區(qū)12b 指定成剛好在臉部區(qū)域右側(cè)的區(qū)域。在所示的實施例中,(熱點)運動區(qū)lh、12b任一個的尺度取決于臉部區(qū)域的尺寸。臉部區(qū)域通過大致在頭頂上面的區(qū)域、和大致在所檢測臉部下面的區(qū)域定義。在所示的實施例中,可以將臉部區(qū)域&和(熱點)運動區(qū)12a、 12b的尺寸校準成更好地完善人體姿勢指示14的識別的更小或更大尺度。所指定(熱點)運動區(qū)12a、12b的位置可以是靈活的,只要它們與所檢測臉部區(qū)域&接近,并且可以容易地識別(熱點)運動區(qū)12a、12b中的捕獲圖像Q。例如,正好在頭部下面的指定(熱點)運動區(qū)1加、12b不是好的候選者,因為身體圖像將干擾那個區(qū)域中的人手圖像。圖3是使用臉部檢測的圖像熱點提取方法的流程圖,而圖4例示了臉部檢測方法的直觀表示。首先,攝像機30捕獲由圖像傳感器2轉(zhuǎn)換成電信號的當前捕獲圖像C”在存儲器5中將信號存儲成文件,以便臉部檢測模塊10可以首先處理它。臉部檢測模塊10使用當前圖像Ci來執(zhí)行臉部檢測算法13。臉部檢測算法13處理當前捕獲圖像文件Ci,檢測視場31中的任何臉部。如上所述,臉部檢測算法13能夠檢測許多臉部,并且指定臉部區(qū)域(f1; f2,. . .,fn)。最初,臉部檢測算法13從存儲器5中取出當前圖像Ci作為輸入文件。將檢測的第一臉部指定成臉部區(qū)域f\。取決于視場31內(nèi)臉部的數(shù)量,該算法將識別其它臉部區(qū)域, 將第二臉部區(qū)域指定成f2,. . .,fn,其中η代表視場31中臉部的數(shù)量。如果該算法沒有檢測到臉部,則臉部檢測模塊10將返回到存儲器5,并利用新的捕獲圖像Cn重復臉部檢測算法13的運算。在識別了一個臉部之后,臉部檢測模塊10分別將臉部的左區(qū)和右區(qū)識別和指定成(熱點)運動區(qū)12a、12b。將(熱點)運動區(qū)1加、12b用作屏蔽區(qū),以便過濾掉非熱點區(qū)中的無意姿勢指示。一定指定了(熱點)運動區(qū)12a、12b,該模塊就生成輸出文件。該輸出文件由長方形的陣列組成,它對應于臉部區(qū)域和按檢測的臉部區(qū)域的尺度成比例縮放的(熱點)運動區(qū)12a、12b。現(xiàn)在將輸出文件存回到存儲器5中,以便姿勢識別模塊20可以進一步處理它。圖5是表示使用姿勢識別控制媒體的媒體指示的流程圖,而圖6例示了姿勢識別和媒體控制指示的直觀表示。在將當前捕獲圖像Ci的文件從臉部檢測模塊10讀回到存儲器5中之后,姿勢識別模塊20接著執(zhí)行姿勢識別算法21。使用也存儲在存儲器5中的以前捕獲圖像文件C^1,姿勢識別算法21首先計算當前捕獲圖像Ci與以前捕獲圖像C^1之間的差值Di的絕對值。姿勢識別算法21也將腐蝕運算應用于差值Di,以便首先消除小區(qū)域,有助于人體姿勢指示14得到更完善識別。在所示的實施例中,使用函數(shù) 沾1~0如對01進行腐蝕。cvErode函數(shù)使用決定呈現(xiàn)最小的像素點附近的形狀的特定結構元素。盡管在所示的實施例中腐蝕函數(shù)只應用一次, 但在其它實施例中也可以對Di多次應用腐蝕函數(shù)。由于捕獲圖像Ci和Ch以前被臉部檢測模塊10處理過,并且存儲在存儲器5中, 所以每個捕獲圖像Ci和C^1都包含指定的、提取的(熱點)運動區(qū)12a、12b。姿勢識別算法21使用提取的熱點區(qū)12a、12b來屏蔽和過濾非熱點區(qū)中的運動。其結果是,姿勢識別算法21針對未指定熱點區(qū)中的運動修改Di,構建運動歷史圖像(MHI)。運動歷史圖像(MHI) 用于檢測運動斑點,和姿勢識別算法21的進一步運算確定這些姿勢斑點是否是實際人體姿勢指示14。運動歷史圖像(MHI)量化和限定隨時間的運動,表示在圖像序列當中運動是如何發(fā)生的。在本發(fā)明中,由姿勢識別模塊20在特定區(qū)域中,尤其在(熱點)運動區(qū)lh、12b 中審查和識別運動斑點。每個運動歷史圖像(MHI)具有通過時標的特定坐標x,y標識和定義的像素。這些坐標與那個像素中的最近運動有關。隨著在(熱點)運動區(qū)12a、12b中檢測運動,姿勢識別算法21修正運動歷史圖像(MHI),以創(chuàng)建所得運動斑點的分層歷史。對于在(熱點)運動區(qū)12a、12b中檢測到的所有運動斑點,姿勢識別算法21定位最大和最小X,y像素坐標,并且將最大值表示成lx,Iy和將最小值表示成sx, Sy。使用運動歷史圖像(MHI)的最大和最小x,y像素坐標,姿勢識別算法21首先確定 Iy與Sy之間的差值是否大于第一試探值T1 (Iy-Sy > T1)。如果對那個問題的回答是肯定的, 那么,姿勢識別算法21將不把當前捕獲圖像Ci識別成含有所識別姿勢指示14。第一試探值T1可以在安裝多媒體控制系統(tǒng)1之前通過統(tǒng)計或通過實驗確定,并且補充到算法中。如果沒有所識別姿勢指示14,那么,姿勢識別算法21將停止處理Ci,并且開始處理臉部檢測模塊10首先處理過的新捕獲圖像Cn。如果Iy與民之間的差值未大于第一試探值T1,那么,姿勢識別算法21將轉(zhuǎn)移到下一個步驟,并且確定Ix與民之間的差值是否大于第二試探值T2 (Ix-Sx > T2)。如果是,那么, 姿勢識別算法21將不把當前捕獲圖像Ci識別成含有所識別人體姿勢指示14,開始處理新捕獲圖像Cn。否則,姿勢識別算法21確定χ運動(Ix-Sx)是否小于y運動(Iy-Sy)。如果χ 運動小于y運動,那么,姿勢識別算法21將不識別當前捕獲圖像Ci中的姿勢指示14,該算法21將再次開始處理新捕獲圖像Cn。作為默認,如果姿勢識別算法21有待于標識和識別當前捕獲圖像Ci中的姿勢指示14,但在運動歷史圖像(MHI)中存在一些“足夠大”組元時,那么,姿勢識別算法21將確定存在“有手部動作”?!白銐虼蟆笔窃趯崿F(xiàn)系統(tǒng)1之前通過統(tǒng)計或通過實驗確定的試探閾值。如果存在識別出“有手部動作”的三個連接捕獲圖像,那么,姿勢識別模塊10將通過媒體控制界面6向多媒體輸出設備發(fā)出特定命令。“有手部動作”應該是控制發(fā)給多媒體輸出設備的特定命令的姿勢指示14。根據(jù)識別“有手部動作”的地方,即,左側(cè)(熱點)運動區(qū)1 或右側(cè)(熱點)運動區(qū)12b確定與 “有手部動作”有關的特定控制命令。如上所述,特定控制命令被預先指定給特定(熱點) 運動區(qū)12a、12b,或可以由用戶3編程。如果在三個連續(xù)捕獲圖像上識別出“有手部動作”,姿勢識別模塊20就發(fā)送特定命令。然后,將那個特定命令發(fā)送給媒體控制界面6,媒體控制界面6又將相應電命令信號轉(zhuǎn)發(fā)給多媒體輸出設備8。輸出(deferent)姿勢的所有姿勢指示都是存儲在多媒體控制系統(tǒng)1中的明確定義、預先指定命令。但是,用戶3也可以在使用之前定義他自己的命令。因此,如果右側(cè)(熱點)運動區(qū)12b中的揮手是打開多媒體輸出設備8的定義姿勢,和姿勢識別算法21將右側(cè) (熱點)運動區(qū)12b中的揮手識別成姿勢指示14,那么,向多媒體輸出設備8發(fā)出打開信號。 相反,如果左側(cè)(熱點)運動區(qū)1 中的揮手是關閉多媒體輸出設備8的定義姿勢,和姿勢識別算法21將左側(cè)(熱點)運動區(qū)12a中的揮手識別成姿勢指示14,那么,向多媒體輸出設備8發(fā)出關閉信號。當構建運動歷史圖像(MHI),以便進行運動檢測時,存在兩種實現(xiàn)。在一種實現(xiàn)中, 使用整個捕獲圖像Ci構建運動歷史圖像(MHI)。但是,在另一種實現(xiàn)中,只使用(熱點)運動區(qū)12a、12b圖像構建運動歷史圖像(MHI)。當用戶3靜態(tài),S卩,緩慢或沒有頭部運動時,兩種實現(xiàn)得出相同結果。但是,如果用戶3在運動,那么這些實現(xiàn)是不同的。在所示的實施例中,指定(熱點)運動區(qū)12a、12b是相對于臉部的,并且臉部 f可以緩慢運動。盡管在這些情況下運動檢測可能是精確的,但頭部的運動可能引起運動檢測的誤差。如果使用整個圖像構建運動歷史圖像(MHI),則在指定(熱點)運動區(qū)12a、 12b中可能存在運動。但是,如果只使用指定(熱點)運動區(qū)lh、12b構建運動歷史圖像 (MHI),那么,由于過濾掉外部運動,可能使檢測更完善。另外,在只指定一個(熱點)運動區(qū)12a的一個實施例中,需要更強有力的姿勢識別算法來識別熱點中的姿勢,以達到更高的精度,包括只從指定(熱點)運動區(qū)12a、12b中構建的運動歷史圖像(MHI)。上面所述的裝置和方法可以用于控制任何交互式多媒體輸出設備8,使臉部檢測技術有助于定義和提取使運動的識別局限于(熱點)運動區(qū)12a、12b的那些(熱點)運動區(qū)12a、12b,以非常健壯的方式通過人體姿勢向輸出設備發(fā)出控制命令。上文例示了實踐本發(fā)明的一些可能性。許多其它實施例也可以在本發(fā)明的范圍和精神之內(nèi)。因此,應該將上文的描述當作例示性的,而不是限制性的,本發(fā)明的范圍由所附權利要求書以及與它們等范圍的等效物來限定。
權利要求
1.一種控制多媒體設備的方法,其中,所述方法包含如下步驟 使用臉部檢測確定圖像中的運動區(qū);檢測至少一個運動區(qū)中的運動;確定所述運動是否與預先指定命令匹配;將與預先指定命令相對應的信號提供給所述多媒體設備。
2.如權利要求1所述的方法,其中,所述運動檢測和命令確定進一步包含使用當前捕獲圖像(Ci)提取圖像運動區(qū)的步驟。
3.如權利要求2所述的方法,進一步包含使用當前捕獲圖像(Ci)計算和分析當前捕獲圖像(Ci)與以前捕獲圖像(Ch)之間的差值(Di)的步驟。
4.如權利要求3所述的方法,進一步包含對差值(Di)應用腐蝕運算以消除小區(qū)域的步馬聚ο
5.如權利要求4所述的方法,進一步包含將圖像運動區(qū)用作屏蔽區(qū)以過濾掉非運動區(qū)的步驟。
6.如權利要求5所述的方法,進一步包含加入差值(Di)以構建運動圖像的步驟。
7.如權利要求6所述的方法,其中從捕獲圖像中構建運動圖像。
8.如權利要求6所述的方法,其中從運動區(qū)中構建運動圖像。
9.如權利要求6所述的方法,進一步包含求出每個檢測到運動區(qū)的最大X,y和最小X, y坐標,并且將每一個表示成lx,ly, sx和sy的步驟。
10.如權利要求2所述的方法,進一步包含使用攝像機拍攝當前捕獲圖像(Ci)的步驟。
11.如權利要求10所述的方法,進一步包含檢測當前捕獲圖像(Ci)中的臉部,并且將每個臉部表示成Fl,F(xiàn)2,F(xiàn)3,. . .,1 的步驟。
12.如權利要求11所述的方法,其中所述運動區(qū)通過最接近每個臉部的左區(qū)和右區(qū)來定義。
13.如權利要求12所述的方法,進一步包含定義左運動區(qū)上的姿勢的命令和右運動區(qū)上的姿勢的命令的步驟。
14.一種媒體控制裝置,包含 具有圖像傳感器的攝像機;通過所述圖像傳感器接收畫面圖像的輸入圖像模塊; 與所述輸入圖像模塊連接的存儲器; 與所述輸入圖像模塊連接的臉部檢測模塊; 與所述輸入圖像模塊連接的命令識別模塊;以及接收來自所述輸入圖像模塊的命令,并且將所述命令轉(zhuǎn)換成控制多媒體輸出設備的電信號的媒體控制界面。
15.如權利要求14所述的媒體控制裝置,其中所述圖像傳感器與所述攝像機集成在一起。
16.如權利要求14所述的媒體控制裝置,其中所述輸入圖像模塊與所述攝像機集成在一起。
17.如權利要求14所述的媒體控制裝置,其中所述輸入圖像模塊是微處理器。
18.如權利要求14所述的媒體控制裝置,其中所述存儲器、所述臉部檢測模塊、和所述姿勢識別模塊與所述輸入圖像模塊集成在一起。
19.如權利要求14所述的媒體控制裝置,其中媒體控制界面與所述輸入圖像模塊集成在一起。
20.如權利要求14所述的媒體控制裝置,其中所述攝像機、圖像傳感器、輸入圖像模塊、存儲器、臉部檢測模塊、姿勢識別模塊、 和媒體控制界面集成地構成一個部件;以及所述媒體控制裝置是與所述多媒體輸出設備連接的外部部件。
全文摘要
本發(fā)明涉及使用姿勢控制交互媒體的健壯方法。利用臉部檢測和(熱點)運動控制多媒體設備的方法提供了使發(fā)出命令不易受影響的準確性,其中所述方法涉及如下步驟使用當前捕獲圖像(Ci)提取熱點區(qū);計算和分析當前捕獲圖像(Ci)與以前捕獲圖像(Ci-1)之間的差值,得出Di;對Di應用腐蝕運算以消除小區(qū)域;將提取的(熱點)運動區(qū)用作屏蔽區(qū)以過濾掉非熱點運動區(qū);加入Di以構建運動圖像;求出所有檢測到運動相連組元的最大x,y和最小x,y坐標,將每一個表示成lx,ly,sx和sy;以及執(zhí)行一種算法來確定手勢是否代表控制多媒體設備的命令。
文檔編號G06K9/00GK102292689SQ200980155057
公開日2011年12月21日 申請日期2009年1月21日 優(yōu)先權日2009年1月21日
發(fā)明者張濤, 楊瑞多, 羅英 申請人:湯姆森特許公司