專利名稱:用于設備控制的手勢和語音識別的制作方法
技術(shù)領域:
本發(fā)明涉及一種被配置為提供用于基于手勢或音頻輸入來操作電子設備的用戶界面的信息處理裝置和方法以及程序。
背景技術(shù):
電子設備(包括電視機)已被使用位于設備上的、與預置功能相關聯(lián)的按鈕來控制。另外,遙控器被開發(fā)以允許用戶在其位置超出他們夠得著單元上按鈕的物理范圍時操作該設備。但是,遙控器的使用經(jīng)常是繁瑣的并且往往不是特別的直觀。此外,遙控器很容易放錯地方,需要更換電池,并且提供了病菌在用戶之間傳播的手段。最近,已經(jīng)提出在電子設備顯示器中使用手勢來控制虛擬光標和其他對象。但這些方法的使用遇到了困難。
發(fā)明內(nèi)容
廣義地說,本發(fā)明的某些實施例涉及用戶界面,其中,一個或多個手勢由用戶設計并且被映射為或者關聯(lián)于諸如以TV為例的計算設備的一個或多個命令或操作。用戶可以選擇與他/她設計或創(chuàng)建的每個手勢相關聯(lián)的命令/操作。用戶并不被限制為使用被制造商或第三方預先編程到系統(tǒng)中的預置的手勢,也不被限制為使用預先與預置的手勢相關聯(lián)的預置的命令/操作。在可替代的實施例中,語音命令或其他音頻信號被用于代替手勢。在一個方面,諸如TV的計算設備通過與所述設備通信的攝像機來接收用戶的第一手勢。用于所述設備的操作的選擇被輸入到設備中,其中,所述操作是可供所述用戶選擇的多個不同的操作中的一個。所述設備將所述操作與所述第一手勢相關聯(lián)。所述設備通過所述攝像機接收第二手勢,其中,所述第二手勢與第一手勢基本相同。所述設備響應于所述第二手勢的接收來執(zhí)行所述操作。在另一個方面,用戶將用于設備的第二操作的第二選擇輸入到所述設備。第二操作是可供用戶進行第二選擇的多個不同操作中的第二個。接下來,用戶將預定時間段輸入到所述設備,所述預定時間段是可供用戶選擇的多個時間段中的一個。將第一操作與第一手勢相關聯(lián)包括將所述第一手勢與所述第一操作和所述第二操作二者相關聯(lián)。響應于接收所述第二手勢(與所述第一手勢基本相同),所述設備執(zhí)行第一操作,并在等待了所述預定時間段后,自動執(zhí)行所述第二操作。在可替代的實施例中,第一計算設備通過與所述第一設備通信的第一攝像機接收第一用戶的第一手勢。所述用戶將用于第二設備的操作的選擇輸入到所述第一設備中,其中所述操作是可供所述用戶選擇的多個不同的操作中的一個。所述第一設備將所述該操作與所述第一手勢相關聯(lián)。所述第一設備將對應于所述第一手勢和對應于所述第二計算設備的所述操作的所述選擇的數(shù)據(jù)發(fā)送到第二設備。所述第二設備通過與所述第二設備通信的第二攝像機接收第二手勢(與所述第一手勢基本相同)。所述第二設備響應于所述第二手勢的接收來執(zhí)行所述操作。在可替代的實施例中,計算設備通過與所述設備通信的攝像機接收第一手勢。所述設備通過所述攝像機接收第一個人的面部圖像。所述設備還通過所述攝像機接收第二個人的面部圖像。所述設備通過所述攝像機接收基本上與所述第一手勢相同的第二手勢。所述設備確定所述第二手勢是否由所述第一個人做出并且在確定所述第二手勢已經(jīng)由所述第一個人做出的情況下響應于所述第二手勢的接收來執(zhí)行所述操作。在另一個方面,如果確定所述第二手勢已經(jīng)由所述第一個人之外的某個人做出,則所述設備響應于所述第二手勢的接收而避免執(zhí)行所述操作。在另一個方面中,所述第一個人將用于所述設備的操作的選擇輸入到所述設備,其中,所述操作是可供第一個人選擇的多個不同的操作中的一個。然后所述設備將所述操作與所述第一手勢相關聯(lián)。在可替代的實施例中,計算設備通過與所述設備通信的麥克風接收由用戶生成的第一音頻信號。用戶將用于所述設備的操作的選擇輸入到所述設備,其中所述操作是可供所述用戶選擇的多個不同的操作中的一個。所述設備將所述操作與所述第一音頻信號相關聯(lián)。所述設備通過麥克風接收與所述第一音頻信號基本相同的第二音頻信號。所述設備響應于所述第二音頻信號的接收來執(zhí)行所述操作。在另一個方面中,所述第一音頻信號是說出的詞語、打響指、鼓掌或吹口哨。在又一方面中,用戶將用于所述設備的第二操作的第二選擇輸入到所述設備中,其中,所述第二操作是可供所述用戶進行第二選擇的多個不同的操作中的第二個。所述設備將所述第一音頻信號與第一操作相關聯(lián)進一步包括將所述第一音頻信號與所述第一操作和所述第二操作二者相關聯(lián)。所述設備響應于所述第二音頻信號的接收來執(zhí)行所述第一操作進一步包括響應于所述第二音頻信號的接收來自動執(zhí)行所述第一操作和所述第二操作。在一個可替代的實施例中,計算設備通過與所述設備通信的麥克風接收由第一個人生成的第一語音命令。所述設備將所述第一語音命令與第一個人相關聯(lián)。所述第一個人將用于所述設備的操作的選擇輸入到所述設備中,其中所述操作是可供第一個人選擇的多個不同的操作中的一個。然后所述設備將所述設備與所述第一語音命令相關聯(lián)。所述設備通過所述麥克風接收基本上與所述第一語音命令相同的第二語音命令,由此所述設備確定所述第二語音命令是否由所述第一個人生成。如果確定所述第二語音命令是由所述第一個人生成,則所述設備響應于所述第二語音命令的接收來執(zhí)行所述操作。另一方面,如果確定所述第二語音命令是由不同于所述第一個人的另一個人生成,則所述設備避免執(zhí)行所述操作。在又一實施例中,一種設備包括存儲器、以及耦合到所述存儲器的處理器。所述設備進一步包括耦合到所述處理器的攝像機或麥克風(或兩者)。所述處理器可操作以執(zhí)行任何上述實施例的步驟。在又一實施例中,提供了一種非臨時性的計算機可讀存儲介質(zhì)。所述存儲介質(zhì)包含指令,當由耦合到攝像機或麥克風(或兩者)的處理器執(zhí)行時,所述指令使所述處理器執(zhí)行任何上述實施例的步驟。存在本發(fā)明的其它方面。因此,應當了解,在前的描述僅僅是本發(fā)明的一些實施例和一些方面的概要。以下將提及其它實施例和方面。還應當了解,在不脫離本發(fā)明的精神或范圍的情況下可以對所公開的實施例進行許多改變。因此,之前的概要并不意味著限制本發(fā)明的范圍。相反,本發(fā)明的范圍由所附權(quán)利要求和其等同物來確定。
結(jié)合附圖,從以下特定實施例的詳細描述中,本發(fā)明的上述和/或其他方面以及優(yōu)點將變得顯而易見,并且更容易理解,其中:圖1是本發(fā)明的實施例可被實施的示例性操作環(huán)境的簡化的框圖;圖2是根據(jù)本發(fā)明的實施例的圖1中的TV的簡化框圖;圖3是根據(jù)本發(fā)明的實施例的提供包含了手勢使用的用戶界面的方法的簡化流程;圖4是根據(jù)本發(fā)明的可替代的實施例的提供包含了手勢的使用的用戶界面的另一個方法的簡化流程;圖5是根據(jù)本發(fā)明的另一個可替代的實施例的提供包含了手勢使用的用戶界面的另一個方法的簡化流程;以及圖6是根據(jù)本發(fā)明的又一個可替代的實施例的提供包含了手勢使用的用戶界面的另一個方法的簡化流程。
具體實施例方式以下是對當前被構(gòu)思為實現(xiàn)本發(fā)明的最佳方式的描述。將詳細提及本發(fā)明的實施方式,其示例在附圖中示出,其中在全部附圖中相同的參考標號表示相同的元件。應當理解,可以使用其他實施方式,并且可以在不偏離本發(fā)明范圍的情況下進行結(jié)構(gòu)和操作的改變。本發(fā)明的實施例涉及到用戶界面,其中,一個或多個手勢由用戶設計并且被映射為或者關聯(lián)于電視或其它設備的一個或多個命令或操作。用戶可以選擇與他/她設計或創(chuàng)建的每個手勢相關聯(lián)的命令/操作。用戶不需要采用被預先編程到系統(tǒng)中的預置的手勢,也不需要采用預先與預置的手勢相關聯(lián)的預置的命令/操作。在可替代的實施例中,語音命令或其他音頻信號由用戶設計,并且被映射為或關聯(lián)于設備的命令/操作。圖1是本發(fā)明的實施例可被實施的示例性操作環(huán)境的簡化的框圖。諸如以視頻、音頻、數(shù)據(jù)提供者和TV服務提供者為例的內(nèi)容和服務提供者為用戶提供了通常被提供給接收設備的節(jié)目和/或數(shù)據(jù),所述接收設備例如是與電視(TV) 104通信的機頂盒102,或其他具有顯示屏并被配置為接收和顯示節(jié)目的設備。機頂盒102進而與被配置為從通信衛(wèi)星108接收信號的衛(wèi)星天線106通信。在可替代的實施例中,機頂盒102與提供了節(jié)目或數(shù)據(jù)的其他數(shù)據(jù)源或節(jié)目源通信,例如,以太網(wǎng)門戶網(wǎng)站、電話公司網(wǎng)絡、電纜頭端、地面天線等。機頂盒102處理和傳送所選擇的節(jié)目到TV 104和/或一個或多個其他TV、演示設備或存儲設備。
雖然示出的實施例中示出了機頂盒102,但是可替代的實施例包括任何合適的可用于接收節(jié)目的轉(zhuǎn)換器設備或電子設備。這種替代設備的示例包括電視錄像設備、電視調(diào)諧器、電視轉(zhuǎn)換器、接收器、衛(wèi)星接收器、有線機頂盒、有線接收器、媒體播放器、和/或電視接收設備。在一些實施例中,遙控器110可操作以控制所述TV 104和其他用戶設備。雖然示出的實施例中示出了 TV 104,但是替代的實施例包括用于呈現(xiàn)內(nèi)容或數(shù)據(jù)的其他設備,諸如,數(shù)字視頻錄像機(DVR)、游戲系統(tǒng)、個人計算機、音響系統(tǒng)接收器、致密盤(CD)設備等。這些設備中的一些設備有一個或多個揚聲器、顯示器、或其它輸出組件以向用戶呈現(xiàn)視頻或音頻內(nèi)容。在一些實施例中,用于呈現(xiàn)內(nèi)容/數(shù)據(jù)的多個TV或相關設備被設置在用戶住所112或靠近用戶住所112,并且直接或間接地與機頂盒102通信。另外,機頂盒102和TV 104可以被集成到除了具有其它功能之外,還具有上述的機頂盒102和TV 104的功能的單一設備中。除了節(jié)目內(nèi)容,電子節(jié)目指南(“EPG”)數(shù)據(jù)或類似這樣的數(shù)據(jù)從節(jié)目數(shù)據(jù)源通過互聯(lián)網(wǎng)116被提供到用戶住所112。接收機天線106被設置在用戶住所112或靠近于用戶住所112,用戶住所包括例如住宅、企業(yè)、或任何可用于接收衛(wèi)星信號的其他位置。所接收到的衛(wèi)星信號被傳送到該機頂盒102,機頂盒102將所接收的信號放大和轉(zhuǎn)換成適合于傳送到TV 104或另一用戶設備(例如DVR 114)的信號。在可替代的實施例中,不是DVR 114而是(或除了 DVR 114之外還有)其他設備可操作以從該機頂盒102、另一個終端設備、或從住所112外部的其他設備接收信號。這樣的設備的示例包括致密盤(CD)記錄器、數(shù)字視頻盤(DVD)錄像機、其他光學媒體錄像機、個人視頻錄像機(PVR)、游戲設備、磁帶記錄機、RF收發(fā)器、以及個人計算機(PC)。遙控器110作為用戶和機頂盒102之間的一類接口。遙控器110使用諸如紅外線(IR)、RF、藍牙等無線介質(zhì)與機頂盒102通信。(在可替代的實施例中,遙控器110直接地并且無線地與TV 104和DVR 114以及該機頂盒102通信)。除了與機頂盒102通信的DVR114之外,其他設備(未示出)也可以與機頂盒102通信,例如指點設備、游戲設備控制器、鍵盤等。在可替代的實施例中,機頂盒102可從天線106之外的、例如從本地廣播RF信號、通過使用本地網(wǎng)絡118 (通過直播流或其他方式)從互聯(lián)網(wǎng)116、或從其他通信系統(tǒng)的其他源接收內(nèi)容、視頻流和數(shù)據(jù)。用戶住所112包括與互聯(lián)網(wǎng)116通信的其它設備。它們包括本地網(wǎng)絡118,其中本地PC 120和TV 104可通信地耦合到本地網(wǎng)絡118。在可替代的實施例中,諸如以數(shù)據(jù)存儲設備、機頂盒102、游戲系統(tǒng)、聲音系統(tǒng)接收器、互聯(lián)網(wǎng)連接設備、數(shù)字訂戶環(huán)路(DSL)設備、無線局域網(wǎng)、WiF1、全球微波接入互操作性(WiMax)等為例的其他設備可通信地耦合到本地網(wǎng)絡118,這樣所有這些設備可以彼此通信并且與互聯(lián)網(wǎng)116通信。此外,被設置在住所112外部的遠程PC 122通過互聯(lián)網(wǎng)116和本地網(wǎng)絡118來與本地PC 120和TV 104通信。因此,本地網(wǎng)絡118允許這些相互連通的設備以及機頂盒102相互通信。包括用戶住所112和其中布置的各種設備在內(nèi)的操作環(huán)境的以上描述旨在作為本發(fā)明實施例可被實施的操作環(huán)境的多個實施例之一的非限制性的概述。用戶住所112中的設備以及內(nèi)部和外部的通信系統(tǒng)可以含有此處沒有具體描述的其它設備、系統(tǒng)和媒體。
圖2是根據(jù)本發(fā)明的實施例的圖1中的TV 104的簡化框圖。TV 104能夠通過外部接口 204連接到攝像機202。然而,在可替代的實施例中,攝像機202是集成或嵌入在TV104中的組件。另外,TV 104通過無線接口 206無線連接到遙控器110。中央處理單元(CPU)或處理器208執(zhí)行各單元的中央控制,并通過系統(tǒng)總線210與它們通信。所述處理器208執(zhí)行暫時存儲在隨機存取存儲器(RAM) 212中的一個或多個程序。所述程序在其傳送到RAM 212以供使用之前,被進一步存儲在非易失性存儲器214中。所述非易失性存儲器(或存儲單元)包括非臨時性的、計算機可讀的存儲介質(zhì),并且用于存儲相對大量的數(shù)據(jù)、應用等。所述非易失性存儲器可以是一個或多個硬盤驅(qū)動器、閃存設備、光盤驅(qū)動器等。所述處理器208讀取程序,并根據(jù)所述程序執(zhí)行各種處理和控制各種單元。作為另一種類型的用戶界面,TV 104檢測一個或多個用戶的手(或其他身體部分)的運動,并且將該運動或手勢識別為用于執(zhí)行操作的命令。特別地,處理器208從攝像機202接收與放置在攝像機202之前(例如,在TV 104之前)的物體或人的圖像相對應的數(shù)據(jù)。用戶的一只或兩只手(或其他身體部分)的運動也被檢測。然后,處理器208從所檢測的例如他或她的(一只或兩只)手的運動中識別用戶執(zhí)行的手勢,并根據(jù)這些操作執(zhí)行處理。作為另一個用戶界面,處理器208還根據(jù)從遙控器110發(fā)送的命令識別由用戶通過遙控器110發(fā)起的命令,并根據(jù)該操作執(zhí)行處理。此外,TV 104具有廣播處理功能。當用戶命令指示TV 104輸出廣播信號時,所述TV 104將外部天線218接收的地面廣播信號輸入到調(diào)諧器216中。處理器208使調(diào)諧器216通過由用戶執(zhí)行的操作來獲得所選擇的信道的廣播信號,并發(fā)送該信號到廣播信號處理單元220。處理器208使廣播信號處理單元220通過對廣播信號執(zhí)行處理來從該廣播信號獲得節(jié)目的視頻數(shù)據(jù)和音頻數(shù)據(jù)。在這些數(shù)據(jù)中,視頻數(shù)據(jù)被從廣播信號處理單元220發(fā)送到顯示處理單元222,并且音頻數(shù)據(jù)被從所述廣播信號處理單元220發(fā)送到音頻處理單元224。處理器208進一步使顯示處理單元222通過對視頻數(shù)據(jù)執(zhí)行顯示處理來獲得視頻信號,并發(fā)送該視頻信號到顯示器226。結(jié)果,節(jié)目的視頻被顯示給用戶。處理器208還使得音頻處理單元224通過對音頻數(shù)據(jù)執(zhí)行音頻處理來獲得音頻信號,并發(fā)送該音頻信號到揚聲器228。結(jié)果,節(jié)目的音頻被從揚聲器228輸出。除了通過天線218接收地面廣播信號外,TV 104進一步通過機頂盒102從衛(wèi)星天線106接收信號(圖1)。這些信號被發(fā)送到機頂盒接口 236,所述機頂盒接口 236進而處理這些信號并且將它們發(fā)送到總線210,以便以大致類似于上面所描述的方式進一步處理。網(wǎng)絡接口卡(NIC) 230被連接到總線210,并通過本地網(wǎng)絡118用作與互聯(lián)網(wǎng)116的接口,這樣處理器208可以向互聯(lián)網(wǎng)和與本地網(wǎng)絡118通信的其他組件發(fā)送數(shù)據(jù)以及從互聯(lián)網(wǎng)和與本地網(wǎng)絡118通信的其他組件接收數(shù)據(jù)。此外,麥克風232通過麥克風接口 234連接到總線210,從而允許處理器208接收和處理音頻數(shù)據(jù)。攝像機202通過TV 104的外部接口 204連接到TV 104,這樣由攝像機202生成的圖像數(shù)據(jù)可以被發(fā)送到處理器208。根據(jù)一個實施例,TV104根據(jù)從攝像機202發(fā)送的圖像數(shù)據(jù)來識別在TV 104前面的一個或多個用戶。具體地,TV 104的處理器208執(zhí)行面部檢測和識別處理,以及對由攝像機202生成的圖像數(shù)據(jù)執(zhí)行用戶的動態(tài)手勢運動的手勢識另IJ。處理器208通過執(zhí)行該檢測處理檢測一個或多個用戶的手的運動以及面部。存在有多種已知的面部檢測和面部識別的算法。例如根據(jù)一種算法,從攝像機圖像中提取皮膚顏色區(qū)域以及該皮膚顏色區(qū)域內(nèi)的特征值(假定為眼睛和嘴巴的部分),并且根據(jù)這些特征值之間的位置關系確定皮膚顏色的區(qū)域是否是面部。通過使用這樣的算法,處理器208從攝像機圖像中檢測每一個被確定為面部的區(qū)域,并且獲得每一個檢測到的面部區(qū)域的坐標。此外,人類手勢被檢測、處理并且與命令或功能相關聯(lián)。根據(jù)一個實施例,由TV104從用戶接收她/他希望創(chuàng)建手勢并將其分配給一個或多個命令或功能的指示。用于發(fā)起創(chuàng)建分配的處理的指示通過使用一個或多個不同類型的輸入(例如,遙控器按鍵、運動、其他手勢、觸摸屏等)而被接收。根據(jù)特定的用戶創(chuàng)建的手勢,用戶移動一只或兩只手(或其他身體部分),這樣攝像機202捕捉圖像運動并且為手勢生成進而由TV 104接收的原始運動數(shù)據(jù)。所記錄的原始運動數(shù)據(jù)被處理以確定與原始運動數(shù)據(jù)相關聯(lián)的一個或多個運動或手勢。在一些實施例中,所述運動在數(shù)據(jù)庫中被存儲為手勢。在用戶根據(jù)用戶創(chuàng)建的手勢移動他/她的(一只或兩只)手之后,用于手勢創(chuàng)建和分配的指示可被接收。例如,用戶可根據(jù)當前不能被TV 104識別的由用戶創(chuàng)建的手勢來移動他/她的(一只或兩只)手。TV104詢問用戶以確定用戶是否希望存儲未識別的手勢并將它與特定的命令或功能相關聯(lián)。如果有肯定的響應,手勢可被用作運動輸入或命令以備將來使用。用于手勢的功能映射信息被從用戶接收,并且例如可以包括用戶希望映射為或關聯(lián)于用戶創(chuàng)建的手勢的功能、操作、命令、輸入指令和/或任務。在一些實施例中,這樣的功能映射信息可包括與特定手勢相關聯(lián)的一系列功能(例如,宏或批命令)。功能映射信息被存儲在另一個數(shù)據(jù)庫中。圖1中的本地PC 120和遠程PC 122的每一個也可包含大致相似的組件,所述組件被布置為與圖2中的TV 104大致相似的配置。在一些實施例中,本地PC 120、遠程PC122和TV 104之間的連接可以是無線的、或通過一個或多個線纜、或通過它們的任意組合。在所示的示例中,只有兩個PC和一個TV被示出,但本領域中的技術(shù)人員應當理解,任何數(shù)量的設備和TV可被連接到本地網(wǎng)絡118、互聯(lián)網(wǎng)116或其它類型的網(wǎng)絡。PC120、122提供從一個設備傳輸電子消息和其他數(shù)據(jù)到另一個設備或者到TV 104的功能,有時途徑其他消息服務器或電子設備。以類似于TV 104的方式,遠程PC 122包括處理器、只讀存儲器(ROM)、RAM和存儲單元,所有這些都通過總線耦合或相互連接。處理器被配置為執(zhí)行由存儲在ROM中的、或者從存儲單元加載到RAM中的程序和應用所指示的各種處理操作。存儲單元或非易失性存儲器包括非臨時性的計算機可讀存儲介質(zhì),并且用于存儲相對大量的數(shù)據(jù)、應用等。存儲單元可以是一個或多個硬盤驅(qū)動器、閃存設備、光學驅(qū)動器等。RAM還按需要存儲處理器執(zhí)行各種應用和處理操作所必要的數(shù)據(jù)等。R0M、RAM和/或存儲單元存儲與處理器一起使用的操作軟件和應用以使能遠程PC 122的操作。遠程PC 122還包括至少一個輸入設備,例如鍵盤和鼠標、用于接收語音或其他聲音輸入的麥克風、用于接收圖像的攝像機、指點設備、觸摸屏顯示器或遙控無線輸入單元(如電視遙控型單元)。可替代的實施例可以包括前述類型的輸入設備的任何組合,以及其它輸入設備。因此,遠程PC 122允許經(jīng)由用戶動作的用戶輸入,所述用戶動作包括當光標位于輸出設備(如基于LCD的顯示單元)的預先定義的區(qū)域上時點擊鼠標按鈕。(輸出設備可以進一步包括用于提供語音提示和說出的詞語、音樂和系統(tǒng)音調(diào)的揚聲器。)其他用于輸入的用戶動作可以包括:由用戶生成聲音或手勢、使用電視型遙控單元進行選擇、按壓鍵盤上的鍵、移動指點設備、用指點設備或用戶的手指在指點設備顯示器上觸摸、或選擇所顯示的指令。遠程PC 122的總線進一步耦合或連接到輸入設備、輸出設備、存儲單元和通信設備。通信設備可以是例如調(diào)制解調(diào)器、網(wǎng)絡接口卡(NIC)、無線接入卡或適配器、或其他終端適配器。通信設備經(jīng)由網(wǎng)絡執(zhí)行通信處理,發(fā)送從所述處理器提供的數(shù)據(jù),并將從網(wǎng)絡接收到的數(shù)據(jù)輸出到處理器、RAM、以及存儲單元中。通信設備還與其它電子設備傳遞模擬信號或數(shù)字信號。遠程PC 122的總線也根據(jù)需要被連接或耦合到驅(qū)動器,所述驅(qū)動器上加載了具有包含指令的計算機應用或從任何這些存儲介質(zhì)讀取的其他數(shù)據(jù)的非臨時性計算機可讀存儲介質(zhì),如例如磁盤,光盤,磁光盤,或半導體存儲器。當這些指令和數(shù)據(jù)被處理器執(zhí)行時,使處理器執(zhí)行多個方法或功能。本地PC 120包括以與遠程PC 122大致類似的方式操作的大致類似的組件。此外,圖1的機頂盒102和DVR 114每一個都包含了如上所述用于遠程PC 122和TV 104中的一些組件,這些組件以大致類似的方式操作。雖然圖1和2示出了電視104、遠程PC 122、本地PC 120和其他設備的一個配置,但是可替代的實施例包括蜂窩電話、所謂的“智能”電話、便攜式數(shù)字助理、平板計算機和任何其他類型的計算機或處理器驅(qū)動的設備。此外,可替代的實施例中不需要包含TV,而是包括PC之間相互的直接通信。正如前面所提到的,本發(fā)明的實施例提供了用戶界面,其中,一個或多個手勢由用戶設計并且被映射為或關聯(lián)于TV或其它設備的一個或多個命令或操作。用戶可以選擇與他/她設計或創(chuàng)建的每個手勢相關聯(lián)的命令/操作。用戶不需要采用被預先編程到系統(tǒng)中的預置的手勢,也不需要采用預先與預置的手勢相關聯(lián)的預置的命令/操作。圖3示出了一個這樣的實施例的簡化處理流程。該處理開始于由TV(或其他計算設備)通過與TV通信的攝像機接收用戶的第一手勢(步驟302)。用戶將用于操作的選擇輸入到TV,所述操作是可供選擇的多個不同操作中的一個(步驟304)。TV響應于選擇的輸入將操作與第一手勢相關聯(lián)(步驟306)。TV通過攝像機接收第二手勢,第二手勢與第一手勢基本相同(步驟308)。可以由創(chuàng)建手勢的用戶或由另一個用戶執(zhí)行第二手勢。響應于所述第二手勢的接收,TV執(zhí)行所述操作(步驟310)。由TV執(zhí)行操作可以包括例如啟動應用,所述應用例如是視頻游戲,或指向例如預選網(wǎng)站(諸如例如Facebook 、YouTube 、或Skype )的互聯(lián)網(wǎng)瀏覽器。其他的操作可以包括顯示用戶可獲得的內(nèi)容的預選頻道。另外的操作可以包括暫停內(nèi)容的呈現(xiàn)、快進所述內(nèi)容的呈現(xiàn)、記錄內(nèi)容和修改所述內(nèi)容的音頻的音量級別。雖然圖3示出了涉及一個手勢及相關的操作的實施例,但應當理解,可替代的實施例涉及多個手勢和操作。例如,根據(jù)一個實施例,計算設備接收用戶的第一組多個手勢。用戶將用于計算設備的多個操作或命令的多個選擇輸入到所述計算設備。所述計算設備將多個操作與所述第一組多個手勢相關聯(lián),這樣所述多個操作的每一個與多個選擇中的不同的一個相關聯(lián)。然后,計算設備接收第二組多個手勢,其中所述第二組多個手勢中的每一個與第一組多個手勢中的相應那個基本相同。所述計算設備響應于第二組多個手勢中的每一相應手勢的接收來執(zhí)行多個操作的每一個,一次執(zhí)行一個操作。上述的實施例一般涉及創(chuàng)建用戶定義的手勢和將它們分配給TV或其他計算設備的操作或命令。圖4示出了替代實施例的簡化流程,其中單個手勢被定義用于執(zhí)行一系列操作,例如,一種宏或批命令操作。因此,基于手勢的快捷方式類型被創(chuàng)建。該處理開始于由TV (或其他計算設備)通過與TV通信的攝像機接收用戶的第一手勢(步驟402)。用戶將用于第一操作的第一選擇輸入到TV,所述第一操作是可供選擇的多個不同操作中的一個(步驟404)。然后,用戶輸入用于TV的第二操作的第二選擇(步驟406)。所述TV將第一操作和第二操作二者與第一手勢相關聯(lián)(步驟408)。TV通過攝像機接收第二手勢,第二手勢與第一手勢基本上相同(步驟410)。響應于第二手勢的接收,TV自動執(zhí)行第一操作,然后執(zhí)行第二操作,而不需要任何進一步的用戶輸入或命令(步驟412)。多個操作例如可以包括在TV上顯示預選第一頻道的節(jié)目的第一操作,以及在第一頻道被顯示了預定時間段后,顯示預選第二頻道的節(jié)目的第二操作。因此,例如,用戶可能希望創(chuàng)建被TV識別為自動調(diào)到并顯示第一頻道的命令的特殊手勢,其中第一頻道是例如專用于新聞內(nèi)容的頻道。所述新聞內(nèi)容頻道被顯示了預定時間量(如5分鐘)后,所述TV(無需接收任何進一步的用戶輸入或命令)自動改變頻道并顯示第二頻道,所述第二頻道是另一個用戶喜愛的頻道。此外,根據(jù)可替代實施例,用戶可以為在發(fā)起第二 TV操作之前將經(jīng)過的時間量選擇并向TV輸入用戶選擇的任何預定時間段(并且因此不會被限制為任何固定的、系統(tǒng)決定的時間段)。使用多個操作的另一個示例包括顯示內(nèi)容項的第一操作,以及當它被顯示時記錄內(nèi)容項的第二操作。因此,例如,響應于由用戶創(chuàng)建和定義的特殊手勢的接收,TV將自動調(diào)到和顯示用戶選擇的第一頻道(無需接收任何進一步的用戶輸入或命令),并當被顯示時開始記錄該頻道的內(nèi)容。圖5示出了可替代的實施例的簡化流程,其中,手勢在計算機或其他設備處被定義用于由單獨的設備(如TV)執(zhí)行操作動作。這樣的實施例例如在這些情況下是很有用的:本地用戶缺乏創(chuàng)建和定義用于控制他/她的本地設備的手勢的技能或期望,但另一個人可以使用遠程設備并且通過在遠程設備處創(chuàng)建和定義手勢遠程地協(xié)助本地用戶。該手勢有關的信息被發(fā)送到本地設備以由本地用戶使用。所述處理開始于由第一計算設備(例如PC)通過與第一設備通信的第一攝像機接收用戶的第一手勢(步驟502)。接下來,用戶將用于由第二計算設備(例如TV)執(zhí)行的操作或命令的選擇輸入到所述第一設備,其中,所述操作是可供用戶選擇的多個不同的操作中的一個(步驟504)。然后,第一設備響應于所述選擇的輸入來將所述操作與第一手勢相關聯(lián)(步驟506)。接著,與所述第一手勢相對應且與將由第二計算設備執(zhí)行的所分配的操作的選擇相對應的數(shù)據(jù)被從第一設備發(fā)送到第二設備(步驟508)。根據(jù)某些實施例,該數(shù)據(jù)通過本地網(wǎng)絡或者經(jīng)由互聯(lián)網(wǎng)或者二者來發(fā)送。所述第二設備通過第二攝像機接收第二手勢,第二手勢與第一手勢基本相同(步驟510)。第二手勢可以在所述第二設備處由在第一設備處創(chuàng)建了第一手勢和分配的用戶或由另一個用戶執(zhí)行。響應于所述第二手勢的接收,第二設備自動執(zhí)行所分配的操作(步驟512)。根據(jù)各種實施例,第一設備可以是膝上型計算機、臺式計算機、平板計算機、手持式設備、或者TV,并且第二設備可以是另一臺膝上型計算機、臺式計算機、平板計算機、手持式設備、或者TV。圖6示出了實施例的簡化流程,其中,面部識別被使用,使得只有一個或多個特定用戶的手勢被計算設備接受,忽略其他可能存在的人的手勢。該處理開始于TV(或其他計算設備)通過與TV通信的攝像機接收第一手勢(步驟602)。第一個人的面部圖像也由TV通過攝像機接收(步驟604)。第二個人的面部圖像也由TV通過攝像機接收(步驟606)。與第一手勢基本相同的第二手勢隨后由TV通過攝像機接收(步驟608)。使用面部識別確定第二手勢是否由第一個人做出(步驟610)。響應于接收到所述第二手勢,如果確定第二手勢由第一個人做出,則所述TV執(zhí)行操作(步驟612)。在另一方面,如果確定第二手勢是由所述第二個人做出的(或由第一個人以外的任何人做出的),則TV避免執(zhí)行操作(步驟614)。所有的上述實施例均涉及被計算設備接收和識別為執(zhí)行各種操作或功能的命令的手勢。然而,在可替代的實施例中,由用戶生成的語音命令或其他音頻信號以與上述相類似的方式被用于手勢。例如,在一個實施例中,由用戶生成的第一音頻信號被計算設備通過與所述計算設備通信的麥克風接收。用戶將用于所述設備的操作的選擇輸入到該設備。響應于該選擇的輸入,所述設備將操作與第一音頻信號相關聯(lián)。響應于用戶生成的與第一音頻信號基本相同的第二音頻信號的接收,所述設備執(zhí)行操作。所述音頻信號可以是各種可聽見的信號或噪聲中的任何一個或組合,包括但不限于,一個或多個說出的詞語、打響指、鼓掌或吹口哨。在又一個實施例中,語音識別被用來僅對一個或多個特定用戶的音頻命令做出響應,并忽略其他人的音頻命令。例如,在一個實施例中,計算設備通過與所述設備通信的麥克風接收由第一個人生成的第一語音命令。所述設備將第一語音命令與第一個人相關聯(lián)。所述設備通過麥克風接收與第一語音命令基本相同的第二語音命令。確定第二語音命令是否由第一個人生成。如果確定第二語音命令由第一個人生成,則所述設備執(zhí)行操作。另一方面,如果確定第二話音命令時由另一人所生成,則所述設備避免執(zhí)行操作??商娲膶嵤├⒉幌抻谥唤邮帐謩莼蛑唤邮找纛l信號。而是,某些實施例包括接收手勢和音頻信號的組合,所述手勢和音頻信號被計算設備識別為執(zhí)行如這里之前所描述的各種操作或功能的命令。鑒于上述情況,將理解的是,本發(fā)明的實施例通過提供以下用戶界面克服了本領域中許多長期存在的問題,所述用戶界面中,一個或多個手勢可由用戶設計并被映射為或關聯(lián)于TV或其它電子設備的一個或多個命令或操作。用戶可以選擇與他/她設計或創(chuàng)建的每個手勢相關聯(lián)的命令/操作。用戶不需要采用被預先編程到系統(tǒng)中的預置的手勢,也不需要采用預先與預置的手勢相關聯(lián)的預置的命令/操作。在可替代的實施例中,語音命令或其他可聽見的信號由用戶設計并且被映射為或關聯(lián)于電子設備的命令/操作。雖然以上描述參考了本發(fā)明的特定實施例,但是將了解,在不脫離本發(fā)明的精神的情況下可以進行許多修改。權(quán)利要求旨在覆蓋這樣的修改,只要這些修改落在本發(fā)明的真實范圍和精神內(nèi)。因此,當前公開的實施例在各個方面都應當被視為是說明性的而非限制性的,本發(fā)明的范圍由權(quán)利要求而不是由之前的描述來指示,因此,在權(quán)利要求的等同物的含義和范圍內(nèi)的所有改變都旨在被包含于此。
權(quán)利要求
1.一種用于提供界面的方法,包括: 由計算設備通過與所述計算設備通信的攝像機接收用戶的第一手勢; 將用于所述計算設備的操作的選擇輸入到所述計算設備中,其中,所述操作是可供所述用戶選擇的多個不同的操作中的一個; 由所述計算設備將所述操作與所述第一手勢相關聯(lián); 由所述計算設備通過所述攝像機接收第二手勢,其中,所述第二手勢與所述第一手勢基本相同;以及 由所述計算設備響應于所述第二手勢的接收來執(zhí)行所述操作。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述操作是由所述計算設備開始應用,所述計算設備是電視機并且其中所述攝像機被嵌入在所述電視中。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述計算設備具有顯示器并且其中所述操作是顯示可提供給所述用戶的內(nèi)容的多個頻道中的預選的一個頻道。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述計算設備在顯示器上呈現(xiàn)內(nèi)容,并且其中所述操作是暫停所述內(nèi)容的呈現(xiàn)、快進所述內(nèi)容的呈現(xiàn)、記錄所述內(nèi)容和修改所述內(nèi)容的音頻的音量級別中的一個。
5.根據(jù)權(quán)利要求1所述的方法,其中,用于所述計算設備的所述操作的所述選擇是第一操作的第一選擇 ,所述方法進一步包括: 由所述用戶將用于所述計算設備的第二操作的第二選擇輸入到所述計算設備中,其中,所述第二操作是可供所述用戶進行第二選擇的多個不同的操作中的第二個, 其中,將所述第一手勢與所述第一操作相關聯(lián)包括將所述第一操作和所述第二操作二者與所述第一手勢相關聯(lián),并且 其中,執(zhí)行所述第一操作包括由所述計算設備響應于所述第二手勢的接收來自動執(zhí)行所述第一操作和所述第二操作。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述計算設備具有顯示器,其中,所述第一操作是在所述顯示器上顯示預選的第頻道,其中所述第二操作是在所述預選的第一頻道已被顯示了預定時間段之后在所述顯示器上顯示預選的第二頻道,并且其中所述第一頻道和所述第二頻道的每一個是可提供給所述用戶的內(nèi)容的多個頻道中的頻道。
7.根據(jù)權(quán)利要求6所述的方法,進一步包括:由所述用戶將所述預定時間段輸入到所述計算設備,所述預定時間段是多個可供用戶選擇的時間段中的一個。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述計算設備具有顯示器,其中所述第一操作是在所述顯示器上顯示內(nèi)容項,并且其中所述第二操作是當所述內(nèi)容項被顯示時記錄所述內(nèi)容項。
9.一種用于提供界面的方法,包括: 由第一計算設備通過與所述第一計算設備通信的第一攝像機接收用戶的第一手勢;由所述用戶將用于第二計算設備的操作的選擇輸入到所述第一計算設備中,其中所述操作是可供所述用戶選擇的多個不同的操作中的一個; 由所述第一計算設備將所述操作與所述第一手勢相關聯(lián); 從所述第一計算設備向所述第二計算設備發(fā)送對應于所述第一手勢且對應于所述第二計算設備的所述操作的所述選擇的數(shù)據(jù);由所述第二計算設備通過與所述第二計算設備通信的第二攝像機接收第二手勢,其中所述第二手勢與所述第一手勢基本相同;以及 由所述第二計算設備響應于所述第二手勢的接收來執(zhí)行所述操作。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述第一計算設備是膝上型計算機、臺式計算機、平板計算機、手持式設備中的一個,并且其中所述第二計算設備是電視機。
11.一種用于提供界面的方法,包括: 由計算設備通過與所述計算設備通信的攝像機接收第一手勢; 由所述計算設備通過所述攝像機接收第一個人的面部圖像; 由所述計算設備通過所述攝像機接收第二個人的面部圖像; 由所述計算設備通過所述攝像機接收與所述第一手勢基本相同的第二手勢; 確定所述第二手勢是否由所述第一個人做出; 如果確定所述第二手勢是由所述第一個人做出的,則由所述計算設備響應于所述第二手勢的接收來執(zhí)行所述操作;以及 如果確定所述第二手勢是由所述第一個人之外的人做出的,則避免由所述計算設備響應于所述第二手勢的接收來執(zhí)行所述操作。
12.根據(jù)權(quán)利要求11所述的方法,進一步包括: 由所述第一個人將用于所述計算設備的所述操作的選擇輸入到所述計算設備,其中,所述操作是可供所述第一個人選擇的多個不同的操作中的一個;以及由所述計算設備將所述操作與所述第一手勢相關聯(lián)。
13.一種用于提供界面的方法,包括: 由計算設備通過與所述計算設備通信的麥克風接收由用戶生成的第一音頻信號;由所述用戶將用于所述計算設備的操作的選擇輸入到所述計算設備中,其中所述操作式是可供所述用戶選擇的多個不同的操作中的一個; 由所述計算設備將所述操作與所述第一音頻信號相關聯(lián); 由所述計算設備通過所述麥克風接收第二音頻信號,其中所述第二音頻信號與所述第一音頻信號基本相同;以及 由所述計算設備響應于所述第二音頻信號的接收來執(zhí)行所述操作。
14.根據(jù)權(quán)利要求13所述的方法,其中,所述第一音頻信號是說出的詞語、打響指、鼓掌和吹口哨中的一個。
15.根據(jù)權(quán)利要求13所述的方法,其中,所述操作是由所述計算設備開始應用,所述計算設備是電視機并且其中所述麥克風被嵌入在所述電視中。
16.根據(jù)權(quán)利要求13所述的方法,其中,所述計算設備具有顯示器并且其中所述操作是顯示可提供給所述用戶的內(nèi)容的多個頻道中的預選的一個頻道。
17.根據(jù)權(quán)利要求13所述的方法,其中,所述計算設備在顯示器上呈現(xiàn)內(nèi)容,并且其中所述操作是暫停所述內(nèi)容的呈現(xiàn)、倒回所述內(nèi)容的呈現(xiàn)、快進所述內(nèi)容的呈現(xiàn)、記錄所述內(nèi)容和修改所述內(nèi)容的音頻的音量級別中的一個。
18.根據(jù)權(quán)利要求13所述的方法,其中,所述用于計算設備的操作的選擇是第一操作的第一選擇,所述方法進一步包括: 由所述用戶將用于所述計算設備的第二操作的第二選擇輸入到所述計算設備中,其中,所述第二操作是可供所述用戶進行第二選擇的多個不同的操作中的第二個, 其中,將所述第一音頻信號與所述第一操作相關聯(lián)包括將所述第一音頻信號與所述第一操作和所述第二操作二者相關聯(lián),并且 其中,執(zhí)行所述第一操作包括由所述計算設備響應于所述第二音頻信號的接收來自動執(zhí)行所述第一操作和所述第二操作。
19.根據(jù)權(quán)利要求18所述的方法,其中,所述計算設備具有顯示器,其中,所述第一操作是在所述顯示器上顯示預選的第一頻道,其中所述第二操作是在所述預選的第一頻道已被顯示了預定時間段之后在所述顯示器上顯示預選的第二頻道,并且其中所述第一頻道和所述第二頻道的每一個是可提供給所述用戶的內(nèi)容的多個頻道中的頻道。
20.根據(jù)權(quán)利要求19所述的方法,進一步包括:由所述用戶將所述預定時間段輸入到所述計算設備,所述預定時間段是多個可供用戶選擇的時間段中的一個。
21.一種用于提供界面的方法,包括: 由計算設備通過與所述計算設備通信的麥克風接收由第一個人生成的第一語音命令; 由所述計算設備將所述第一語音命令與所述第一個人相關聯(lián); 由所述計算設備通過所述麥克風接收與所述第一語音命令基本相同的第二語音命令; 確定所述第二語音命令是否由所述第一個人生成; 如果確定所述第二語音命令是由所述第一個人生成,則由所述計算設備響應于所述第二語音命令的接收來執(zhí)行所述操作; 如果確定所述第二語音命令是由不同于所述第一個人的另一個人生成,則避免由所述計算設備響應于所述第二語音命令的接收來執(zhí)行所述操作。
22.根據(jù)權(quán)利要求21所述的方法,進一步包括: 由所述第一個人將用于所述計算設備的所述操作的選擇輸入到所述計算設備中,其中,所述操作是可供所述第一個人選擇的多個不同的操作中的一個;以及由所述計算設備將所述操作與所述第一語音命令相關聯(lián)。
23.一種由用戶使用的設備,包括: 存儲器; 攝像機;以及 處理器,被耦合到所述存儲器和所述攝像機并且用于執(zhí)行以下步驟,包括: 通過所述攝像機接收所述用戶的第一手勢; 接收所述用戶做出的對要由所述處理器執(zhí)行的操作的選擇,其中,所述操作是可供所述用戶選擇的多個不同的操作中的一個; 將所述操作與所述第一手勢相關聯(lián); 通過所述攝像機接收第二手勢,其中,所述第二手勢與所述第一手勢基本相同;并且 響應于所述第二手勢的接收來執(zhí)行所述操作。
24.根據(jù)權(quán)利要求23所述的設備,其中,所述操作是由所述處理器開始應用,所述設備具有顯示器并且其中所述操作是顯示可提供給所述用戶的內(nèi)容的多個頻道中的預選的一個頻道。
25.根據(jù)權(quán)利要求23所述的設備,其中,所述設備具有顯示器并且被配置為在所述顯示器上呈現(xiàn)內(nèi)容,并且其中所述操作是暫停所述內(nèi)容的呈現(xiàn)、快進所述內(nèi)容的呈現(xiàn)、記錄所述內(nèi)容和修改所述內(nèi)容的音頻的音量級別中的一個。
26.根據(jù)權(quán)利要求23所述的設備,其中,用于所述對要由處理器執(zhí)行的操作的選擇是第一操作的第一選擇,并且其中所述處理器進一步用于執(zhí)行以下步驟,包括: 從所述用戶接收對要由所述處理器執(zhí)行的第二操作的第二選擇,其中,所述第二操作是可供所述用戶進行所述第二選擇的多個不同的操作中的第二個, 其中,將所述第一手勢與所述第一操作相關聯(lián)包括將所述第一手勢與所述第一操作和所述第二操作二者相關聯(lián),并且 其中,執(zhí)行所述第一操作包括響應于所述第二手勢的接收來自動執(zhí)行所述第一操作和所述第二操作。
27.根據(jù)權(quán)利要求26所述的設備,其中,所述設備具有顯示器,其中,所述第一操作是在所述顯示器上顯示預選的第一頻道,其中所述第二操作是在所述預選的第一頻道已被顯示了預定時間段之后在所述顯示器上顯示預選的第二頻道,并且其中所述第一頻道和所述第二頻道的每一個是可提供給所述用戶的內(nèi)容的多個頻道中的頻道。
28.根據(jù)權(quán)利要求27所述的設備,其中,所述處理器進一步用于執(zhí)行以下步驟,包括:接收來自所述用戶的所述預定時間段,所述預定時間段是可供所述用戶選擇的多個時間段中的一個。
29.根據(jù)權(quán)利要 求26所述的設備,其中,所述設備具有顯示器,其中所述第一操作是在所述顯示器上顯示內(nèi)容項,并且其中所述第二操作是當所述內(nèi)容項被顯示時記錄所述內(nèi)容項。
全文摘要
本公開涉及用于設備控制的手勢和語音識別。一種用戶界面允許一個或多個手勢由用戶設計并且被映射為或者關聯(lián)于電視或其它設備的一個或多個命令或操作。用戶可以選擇與他/她設計或創(chuàng)建的每個手勢相關聯(lián)的命令/操作。用戶不被限制為使用被預先編程到系統(tǒng)中的預置的手勢,也不被限制為使用預先與預置的手勢相關聯(lián)的預置的命令/操作。在可替代的實施例中,語音命令或其他可聽見的信號是由用戶設計,并且被映射為或關聯(lián)于設備的命令/操作。
文檔編號H04N21/422GK103137128SQ201210442180
公開日2013年6月5日 申請日期2012年11月7日 優(yōu)先權(quán)日2011年11月18日
發(fā)明者松林浩司 申請人:索尼公司