專利名稱:一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于通信技術(shù)領(lǐng)域,尤其涉及一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法及裝置。
背景技術(shù):
視頻業(yè)務(wù)系統(tǒng)是利用通信網(wǎng)技術(shù)和智能網(wǎng)技術(shù)建立的一種智能業(yè)務(wù)服務(wù)系統(tǒng)。視頻業(yè)務(wù)系統(tǒng)中的關(guān)鍵控制設(shè)備是交互式語音和視頻應(yīng)答(Interactive Voice and Video Response, IVVR)設(shè)備。當用戶通過用戶視頻電話終端撥打智能業(yè)務(wù)的統(tǒng)一接入號碼并觸發(fā)業(yè)務(wù)后,IVVR通過視頻語音方式為用戶提供視頻語音導(dǎo)航服務(wù)。用戶根據(jù)在用戶視頻電話終端例如手機視頻終端上播放的視頻菜單圖像及語言音提示,通過按鍵方式選擇自己需要的服務(wù)內(nèi)容,然后IVVR將服務(wù)內(nèi)容信息通過圖像和語音的方式播放給用戶。如果自動播放的視頻和語音服務(wù)不能滿足用戶需求,視頻業(yè)務(wù)系統(tǒng)中可提供菜單選擇轉(zhuǎn)人工方式。用戶選擇轉(zhuǎn)人工后,系統(tǒng)根據(jù)用戶需要的服務(wù)類型轉(zhuǎn)接到對應(yīng)的人工臺。在語音或視頻業(yè)務(wù)服務(wù)系統(tǒng)中及轉(zhuǎn)人工后的視頻通話中,除了給用戶終端播放語音視頻內(nèi)容外,通常都需要接收用戶的菜單選擇或者查詢條件的輸入,如電話號碼,時間等信息。目前基于電路域的智能業(yè)務(wù)系統(tǒng)中,終端的輸入有兩種方式一種是DTMF(Dual Tone Multi Frequency)即按鍵輸入方式,另一種是ASR(Automatic Speech Recognition),S口語音識別方式。對于視頻業(yè)務(wù)系統(tǒng)而言,采用DTMF方式,存在如下不足對于終端尺寸小的手機,按鍵輸入不方便;對于沒有硬鍵盤的視頻手機,當要輸入時,需要在屏幕上使用軟鍵盤,軟鍵盤占用了屏幕的顯示窗口,使得視頻通話圖像的顯示窗口變小;在視頻服務(wù)和視頻通話中,為了顯示效果,終端距離用戶有一定距離,此時輸入按鍵不方便;采用DTMF方式,只能輸入字符0-9,*,#。采用ASR方式,可以避免DTMF方式一些不足之處,但ASR方式對發(fā)音要求較高,如果口音較重,則ASR識別困難。并且在聲音嘈雜的環(huán)境中,ASR識別會受到影響。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)中存在的不足,提出一種新的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法及裝置,以及一種新的視頻業(yè)務(wù)系統(tǒng),以改善用戶的視頻業(yè)務(wù)使用體驗。本發(fā)明采用的技術(shù)方案包括一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法,包括如下步驟設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;用戶采用手勢/姿勢的方式在用戶終端輸入信息;將用戶輸入的信息轉(zhuǎn)為視頻媒體流,發(fā)送到視頻業(yè)務(wù)系統(tǒng),視頻業(yè)務(wù)系統(tǒng)調(diào)取保存的所述對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息。
進一步地,所述用戶采用手勢/姿勢的方式在用戶終端輸入信息包括,視頻業(yè)務(wù)系統(tǒng)向用戶播放輸入提示信息,用戶根據(jù)所述提示信息,來選擇相應(yīng)的手勢/姿勢在用戶終端輸入信息。采用該方案能夠提高視頻業(yè)務(wù)系統(tǒng)對用戶輸入信息的識別成功幾率。進一步地,所述將用戶輸入的信息轉(zhuǎn)為視頻媒體流,指利用用戶終端攝像頭記錄用戶作出的手勢/姿勢,并轉(zhuǎn)為視頻媒體流。一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置,包括用戶終端和視頻業(yè)務(wù)系統(tǒng);其中,所述用戶終端用于,記錄用戶作出的手勢/姿勢,將其轉(zhuǎn)為視頻媒體流,并發(fā)送到所述視頻業(yè)務(wù)系統(tǒng);所述視頻業(yè)務(wù)系統(tǒng)用于,設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;當收到所述用戶終端發(fā)送來的所述視頻媒體流時,調(diào)取保存的所述對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息。進一步地,所述用戶終端利用攝像頭記錄用戶作出的手勢/姿勢。進一步地,所述用戶終端還用于接收視頻業(yè)務(wù)系統(tǒng)的輸入提示信息,并播放給用戶,使用戶根據(jù)所述提示信息選擇相應(yīng)的手勢/姿勢來輸入信息,從而提高視頻業(yè)務(wù)系統(tǒng)對用戶輸入信息的識別成功幾率。一種視頻業(yè)務(wù)系統(tǒng),包括媒體服務(wù)器、手勢/姿勢識別模塊和數(shù)據(jù)庫;其中,所述媒體服務(wù)器用于,接收用戶終端傳送來的以視頻媒體流的形式存在的用戶輸入信息,并請求所述手勢/姿勢識別模塊識別,所述用戶輸入信息為用戶通過手勢/ 姿勢的方式輸入的信息;所述手勢/姿勢識別模塊用于,根據(jù)預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,對所述用戶輸入信息進行識別,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息;所述數(shù)據(jù)庫用于,保存所述預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系。進一步地,所述媒體服務(wù)器還用于向用戶播放輸入提示信息,使用戶根據(jù)所述提示信息,選擇相應(yīng)的手勢/姿勢在用戶終端輸入信息。采用該方案能夠提高視頻業(yè)務(wù)系統(tǒng)對用戶輸入信息的識別成功幾率。進一步地,所述用戶輸入信息為用戶通過手勢/姿勢的方式,并利用所述用戶終端的攝像頭輸入的信息。進一步地,所述手勢/姿勢識別模塊包括信令處理單元、媒體處理單元和圖像識別單元;其中,所述信令處理單元用于接受所述媒體服務(wù)器的識別信令請求,通知所述媒體處理單元接收所述媒體服務(wù)器發(fā)送來的所述用戶輸入信息;所述媒體處理單元處理所述用戶輸入信息,提取圖像幀,發(fā)送給所述圖像識別單元進行識別;所述圖像識別單元根據(jù)預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,對所述圖像幀進行識別,獲取具體的用戶輸入信息。本發(fā)明通過采用手勢/姿勢的方式在用戶終端實現(xiàn)信息輸入,相對于現(xiàn)有的按鍵輸入和語音輸入方式,具有如下優(yōu)點(1)降低了使用難度,用戶能夠通過簡單的手勢或姿勢實現(xiàn)信息輸入;
(2)對于視頻業(yè)務(wù)來說,能夠充分利用窗口顯示視頻內(nèi)容,利用終端攝像頭直接輸入,對于視頻業(yè)務(wù)和視頻交流更方便;(3)除了可以輸入按鍵輸入方式支持的0-9,*,#外,還可以輸入其他的字母信息或其他特定信息,輸入的內(nèi)容更廣泛;(4)相對語音輸入方式來說,不受口音的影響,受環(huán)境影響也較小。用戶根據(jù)視頻業(yè)務(wù)系統(tǒng)的提示,選用手勢/姿勢提高視頻業(yè)務(wù)系統(tǒng)識別用戶嘻嘻你成功的幾率,
圖1為本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法流程示意圖;圖2為本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置結(jié)構(gòu)示意圖;圖3為本發(fā)明視頻業(yè)務(wù)系統(tǒng)結(jié)構(gòu)示意圖;圖4為手勢/姿勢識別模塊結(jié)構(gòu)示意圖;圖5為一個具體實施例的本發(fā)明視頻業(yè)務(wù)系統(tǒng)工作流程圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細說明。圖1為本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法流程示意圖,如圖所示,本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法具體包括如下步驟1、設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;其中, 輸入信息包括0-9,*,#,還可以包括字母或其他特定信息,例如可以為“是”或“否”,則相應(yīng)地,可以采用點頭來表示“是”,以搖頭表示“否”。2、在用戶視頻電話終端(簡稱用戶終端)提示用戶輸入信息,用戶采用手勢和/ 或姿勢的方式在用戶終端輸入信息。用戶采用手勢/姿勢的方式在用戶終端輸入信息具體包括,視頻業(yè)務(wù)系統(tǒng)向用戶播放輸入提示信息,用戶根據(jù)提示信息,選擇相應(yīng)的手勢/姿勢在用戶終端輸入信息。3、利用用戶終端攝像頭記錄用戶作出的手勢/姿勢,并轉(zhuǎn)為視頻媒體流,發(fā)送到視頻業(yè)務(wù)系統(tǒng)。4、視頻業(yè)務(wù)系統(tǒng)調(diào)取保存的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息。圖2為本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置結(jié)構(gòu)示意圖,如圖所示,本發(fā)明在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置包括用戶終端和視頻業(yè)務(wù)系統(tǒng)。其中,用戶終端用于,接收視頻業(yè)務(wù)系統(tǒng)的輸入提示信息,并播放給用戶,使用戶根據(jù)所述提示信息選擇相應(yīng)的手勢/姿勢來輸入信息,也可以接受用戶主動輸入信息,然后利用用戶終端的攝像頭記錄用戶作出的手勢/姿勢,將其轉(zhuǎn)為視頻媒體流,并發(fā)送到視頻業(yè)務(wù)系統(tǒng)。視頻業(yè)務(wù)系統(tǒng)用于,設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;當收到用戶終端發(fā)送來的視頻媒體流時,調(diào)取保存的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息。其中,輸入信息包括0-9,*,#,還可以包括字母或其他特定信息,例如可以為“是”或 “否”,則相應(yīng)地,可以采用點頭來表示“是”,以搖頭表示“否”。除本發(fā)明提供的上述信息輸入模式之外,用戶終端還用于提供按鍵輸入方式和語音輸入方式,用戶可以根據(jù)實際需要在三種輸入模式之間選擇一種使用。圖3為本發(fā)明視頻業(yè)務(wù)系統(tǒng)結(jié)構(gòu)示意圖,如圖所示,本發(fā)明視頻業(yè)務(wù)系統(tǒng)具體包括通信交換機用于實現(xiàn)電信網(wǎng)信令交換和電話接入,完成電信網(wǎng)中電話的起呼、 接續(xù)、接通、收號、掛機、號碼路由等話路控制功能和語音視頻傳輸、編碼轉(zhuǎn)換等語音/視頻和媒體流傳輸功能。通信交換機在視頻業(yè)務(wù)應(yīng)用中一般采用寬帶網(wǎng)的軟交換機,支持3G、 NGN(Next Generation Network,下一代網(wǎng)絡(luò))、IMS等核心網(wǎng)來話的接入。外部的用戶電話終端通過電話網(wǎng),采用呼叫智能網(wǎng)接入號的方式路由到通信交換機。通信交換機將來話的信令部分經(jīng)過VIG (Video (Gateway,視頻接入網(wǎng)關(guān))送到IVVR,以觸發(fā)業(yè)務(wù)。而來話的話路時隙,經(jīng)過通信交換機處理為H. 324M媒體流送到VIG進行解碼。VIG模塊3G核心網(wǎng)絡(luò)的視頻網(wǎng)關(guān)設(shè)備。在NGN,IMS核心網(wǎng)可以不使用該設(shè)備。 由于在3G核心網(wǎng)絡(luò)中,對于視頻呼叫,通信交換機輸出的媒體流是H. 324M媒體流,H. 324M 不能直接用于一般的媒體設(shè)備和視頻終端,需要通過VIG模塊解碼為視頻媒體流(通常為 H. 263)和音頻媒體流(通常為G. 711),并產(chǎn)生相應(yīng)的視頻媒體流通道端口和音頻媒體流通
道端口。IVVR(交互式語音和視頻應(yīng)答)模塊視頻業(yè)務(wù)服務(wù)系統(tǒng)的核心控制模塊。IVVR 模塊完成多種視頻業(yè)務(wù)的加載和運行。當用戶接入通信交換機后,呼叫信令經(jīng)過VI G路由至IJIVVR模塊,IVVR提取來話呼叫信令中的接入號,不同的接入號觸發(fā)IVVR上不同的智能業(yè)務(wù)。智能業(yè)務(wù)觸發(fā)后,智能業(yè)務(wù)流程控制媒體服務(wù)器為來話分配媒體資源端口,并通過信令交互,將VIG上用戶來話的視頻媒體通道端口和媒體服務(wù)器的視頻媒體資源端口接續(xù),將 VIG和音頻媒體通道端口和媒體服務(wù)器的音頻媒體資源端口接續(xù)。智能業(yè)務(wù)中,可以給用戶播放視頻菜單文件。在IVVR控制下,通過媒體服務(wù)器給用戶播放視頻文件。同時,通過媒體服務(wù)器可以接收用戶的輸入信息,媒體服務(wù)器通過SIP (kssion Initiation Protocol) 或MGCP (Media Gateway Control Protocol,媒體網(wǎng)關(guān)控制協(xié)議)協(xié)議將收到的用戶輸入的信息反饋給IVVR。IVVR根據(jù)收到的反饋信息,播放下個層次的視頻菜單,或者根據(jù)輸入進行內(nèi)容查詢,并生成新的視頻內(nèi)容播放給用戶。媒體服務(wù)器提供媒體服務(wù)資源的模塊。完成視頻文件、音頻文件播放,將視頻文件和音頻文件轉(zhuǎn)為RTP媒體流(Real-Time Transport I^rotocol),并通過媒體流資源端口播放給用戶;完成接收用戶的媒體流,錄音、錄像到文件;完成音頻會議、視頻會議;完成傳真、TTSCText To Speech)功能;對于輸入的音頻媒體流完成用戶輸入信息的DTMF收號或完成語音識別ASR。媒體服務(wù)器接收用戶終端傳送來的以視頻媒體流的形式存在的用戶輸入信息,并請求手勢/姿勢識別模塊識別,該用戶輸入信息為用戶通過手勢/姿勢的方式輸入的信息。媒體服務(wù)器還用于向用戶播放輸入提示信息,使用戶根據(jù)提示信息,選擇相應(yīng)的手勢/姿勢在用戶終端輸入信息,并通過IVVR下發(fā)給媒體服務(wù)器的輸入信息接收規(guī)則,對手勢/姿勢識別模塊返回的用戶輸入的字符串進行接收范圍、長度等規(guī)則校驗和控制。一旦滿足條件,將輸入信息接收結(jié)果返回給IVVR模塊。
手勢/姿勢識別模塊根據(jù)預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,對以視頻媒體流的形式存在的用戶輸入信息進行識別,解讀出用戶作出的手勢/姿勢的含義,即獲取用戶的具體輸入信息。如圖4所示,手勢/姿勢識別模塊包括信令處理單元、媒體處理單元和圖像識別單元。信令處理單元接受來自媒體服務(wù)器的信令請求,請求識別媒體。收到請求后,信令處理單元通知媒體處理單元開始接收對端的媒體流。媒體處理單元處理來自于媒體服務(wù)器的視頻媒體流,提取圖像幀,發(fā)送給圖像識別單元進行識別,圖像識別單元通過識別視頻媒體流的圖像信息,根據(jù)圖像中的手勢,結(jié)合預(yù)先建立起的特定的手勢/姿勢與輸入的字符信息之間的對應(yīng)關(guān)系,得到對應(yīng)的字符信息或其他類型的用戶輸入信息。圖像識別單元進行識別和字符信息個數(shù)判斷,輸出包括但不限于0-9,*,#的字符串信息。也可以通過識別圖像中的點頭/搖頭的姿勢,識別為是/否,用于二元判斷。每個手勢/姿勢識別為單個的字符,通過對媒體流中多個圖像中多個手勢/姿勢的識別,就能夠識別出多個字符。輸出的字符通過信令處理單元返回給媒體服務(wù)器。數(shù)據(jù)庫用于保存預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系。并存儲用戶信息、服務(wù)信息和系統(tǒng)信息。圖5為一個具體實施例的本發(fā)明視頻業(yè)務(wù)系統(tǒng)工作流程圖,如圖所示,該實施例中,用戶撥號觸發(fā)視頻業(yè)務(wù),在視頻菜單的引導(dǎo)下,完成某月話費查詢的過程,具體包括以下步驟步驟501 用戶在視頻終端上撥打視頻業(yè)務(wù)接入號,用戶的呼叫通過通信網(wǎng)路由到通信交換機。步驟502 通信交換機對核心網(wǎng)的信令和話路處理后,將信令和話路路由到VIG。步驟503 =VIG將話路進行H. 324M協(xié)商和解碼,生成視頻和音頻通道端口。步驟504 =VIG將信令路由到IVVR。步驟505 :IVVR根據(jù)呼入的呼叫的被叫號碼(接入碼),觸發(fā)對應(yīng)的視頻業(yè)務(wù)。 IVVR播放視頻菜單,提示用戶選擇1 咨詢,2 話費查詢3 投訴,0 轉(zhuǎn)人工;IVVR指示媒體服務(wù)器播放視頻菜單文件給用戶并接受用戶的一位選擇,輸入方式采用手勢/姿勢輸入。步驟506 媒體服務(wù)器播放播放視頻菜單文件給用戶。步驟507 用戶在視頻終端前作出2對應(yīng)的手勢。視頻圖像通過媒體流通道,傳送到媒體服務(wù)器。步驟508 媒體服務(wù)器調(diào)用手勢/姿勢識別模塊識別圖像。步驟509:手勢/姿勢識別模塊識別圖像,得到選擇結(jié)果為2,并將結(jié)果返回給媒體服務(wù)器。步驟510 媒體服務(wù)器返回用戶的選擇結(jié)果信息給IVVR。步驟511 :IVVR根據(jù)用戶的選擇,進入話費查詢流程;給用戶播放話費查詢界面, 提示用戶輸入需要查詢的6位年月。步驟512 媒體服務(wù)器播放話費查詢界面給用戶。步驟513 用戶根據(jù)視頻提示,在視頻終端前作出2的手勢,0的手勢,1的手勢,0 的手勢,0的手勢,9的手勢。視頻圖像通過媒體流通道,傳送到媒體服務(wù)器。步驟514 媒體服務(wù)器調(diào)用手勢/姿勢識別模塊識別圖像。步驟515 手勢/姿勢識別模塊識別圖像,得到6位字符200109并將結(jié)果返回給媒體服務(wù)器。步驟516 媒體服務(wù)器根據(jù)用戶輸入信息接收規(guī)則,校驗200109合法;返回6位字符 200109 給 IVVR0步驟517 :IVVR根據(jù)用戶主叫號碼和要查詢的年月到數(shù)據(jù)庫中查詢用戶的話費信息,并生成話費結(jié)果視頻。步驟518 =IVVR指示媒體服務(wù)器給用戶播放查詢結(jié)果視頻。步驟519:媒體服務(wù)器給用戶播放查詢結(jié)果視頻,用戶能夠在終端上看到2010年9 月的話費的費用情況。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法,其特征在于,包括如下步驟 設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系; 用戶采用手勢/姿勢的方式在用戶終端輸入信息;將用戶輸入的信息轉(zhuǎn)為視頻媒體流,發(fā)送到視頻業(yè)務(wù)系統(tǒng),視頻業(yè)務(wù)系統(tǒng)調(diào)取保存的所述對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,從而獲取用戶的具體輸入信息。
2.根據(jù)權(quán)利要求1所述的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法,其特征在于, 所述用戶采用手勢/姿勢的方式在用戶終端輸入信息包括,視頻業(yè)務(wù)系統(tǒng)向用戶播放輸入提示信息,用戶根據(jù)所述提示信息,來選擇相應(yīng)的手勢/姿勢在用戶終端輸入信息。
3.根據(jù)權(quán)利要求1或2所述的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法,其特征在于,所述將用戶輸入的信息轉(zhuǎn)為視頻媒體流,指利用用戶終端攝像頭記錄用戶作出的手勢/ 姿勢,并轉(zhuǎn)為視頻媒體流。
4.一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置,其特征在于,包括用戶終端和視頻業(yè)務(wù)系統(tǒng);其中,所述用戶終端用于,記錄用戶作出的手勢/姿勢,將其轉(zhuǎn)為視頻媒體流,并發(fā)送到所述視頻業(yè)務(wù)系統(tǒng);所述視頻業(yè)務(wù)系統(tǒng)用于,設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;當收到所述用戶終端發(fā)送來的所述視頻媒體流時,調(diào)取保存的所述對應(yīng)關(guān)系, 解讀出用戶作出的手勢/姿勢的含義,從而獲取用戶的具體輸入信息。
5.根據(jù)權(quán)利要求4所述的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置,其特征在于, 所述用戶終端利用攝像頭記錄用戶作出的手勢/姿勢。
6.根據(jù)權(quán)利要求4或5所述的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置,其特征在于,所述用戶終端還用于接收視頻業(yè)務(wù)系統(tǒng)的輸入提示信息,并播放給用戶,使用戶根據(jù)所述提示信息選擇相應(yīng)的手勢/姿勢來輸入信息。
7.一種視頻業(yè)務(wù)系統(tǒng),其特征在于,包括媒體服務(wù)器、手勢/姿勢識別模塊和數(shù)據(jù)庫; 其中,所述媒體服務(wù)器用于,接收用戶終端傳送來的以視頻媒體流的形式存在的用戶輸入信息,并請求所述手勢/姿勢識別模塊識別,所述用戶輸入信息為用戶通過手勢/姿勢的方式輸入的信息;所述手勢/姿勢識別模塊用于,根據(jù)預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,對所述用戶輸入信息進行識別,解讀出用戶作出的手勢/姿勢的含義,從而獲取用戶的具體輸入信息;所述數(shù)據(jù)庫用于,保存所述預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系。
8.根據(jù)權(quán)利要求7所述的視頻業(yè)務(wù)系統(tǒng),其特征在于,所述媒體服務(wù)器還用于向用戶播放輸入提示信息,使用戶根據(jù)所述提示信息,選擇相應(yīng)的手勢/姿勢在用戶終端輸入信肩、ο
9.根據(jù)權(quán)利要求7所述的視頻業(yè)務(wù)系統(tǒng),其特征在于,所述用戶輸入信息為用戶通過手勢/姿勢的方式,并利用所述用戶終端的攝像頭輸入的信息。
10.根據(jù)權(quán)利要求7或8或9所述的視頻業(yè)務(wù)系統(tǒng),其特征在于,所述手勢/姿勢識別模塊包括信令處理單元、媒體處理單元和圖像識別單元;其中,所述信令處理單元用于接受所述媒體服務(wù)器的識別信令請求,通知所述媒體處理單元接收所述媒體服務(wù)器發(fā)送來的所述用戶輸入信息;所述媒體處理單元處理所述用戶輸入信息,提取圖像幀,發(fā)送給所述圖像識別單元進行識別;所述圖像識別單元根據(jù)預(yù)先設(shè)置的特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,對所述圖像幀進行識別,獲取具體的用戶輸入信息。
全文摘要
本發(fā)明公開了一種在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)方法,包括如下步驟1、設(shè)置特定的手勢/姿勢與輸入信息之間的對應(yīng)關(guān)系,并保存該對應(yīng)關(guān)系;2、用戶采用手勢/姿勢的方式在用戶終端輸入信息,將用戶輸入的信息轉(zhuǎn)為視頻媒體流,發(fā)送到視頻業(yè)務(wù)系統(tǒng);3、視頻業(yè)務(wù)系統(tǒng)調(diào)取保存的所述對應(yīng)關(guān)系,解讀出用戶作出的手勢/姿勢的含義,從而獲取用戶的具體輸入信息。采用該方法能夠顯著改善用戶的視頻業(yè)務(wù)使用體驗。同時本發(fā)明還提供了一種相應(yīng)的在視頻業(yè)務(wù)中獲取用戶輸入信息的實現(xiàn)裝置,以及一種視頻業(yè)務(wù)系統(tǒng),該視頻業(yè)務(wù)系統(tǒng)包括媒體服務(wù)器、手勢/姿勢識別模塊和數(shù)據(jù)庫。
文檔編號H04L29/06GK102469293SQ20101054729
公開日2012年5月23日 申請日期2010年11月17日 優(yōu)先權(quán)日2010年11月17日
發(fā)明者劉斌, 游波 申請人:中興通訊股份有限公司