專利名稱:一種基于語音和手勢的多通道人機(jī)交互方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人機(jī)交互領(lǐng)域,尤其涉及一種基于語音和手勢的多通道人機(jī)交互方法。
背景技術(shù):
多通道人機(jī)交互能夠有效地?cái)U(kuò)大人與計(jì)算機(jī)之間信息交換的帶寬,從而達(dá)到提高交互效率的目的;并可發(fā)揮人機(jī)之間彼此不同的認(rèn)知潛力,降低用戶的認(rèn)知負(fù)荷。用戶可以通過各種不同的交互通道以及它們之間的相互組合、協(xié)作來完成交互任務(wù),這正好彌補(bǔ)了單一交互模式給用戶帶來的限制和負(fù)擔(dān)。多通道人機(jī)交互中,指稱歸結(jié)定義為求出多個(gè)通道輸入信息的共同所指對象。其中,指稱主要包括自然語言中的代詞、定位副詞、指示詞和限定名詞,例如“它”、“這兒”、“這個(gè)”、“那間房屋”等;指稱對象是用戶所指稱的客觀實(shí)體, 例如三維空間中的模型等。在傳統(tǒng)的單通道用戶界面中,指稱技術(shù)是單一的,并且通常是精確的,目標(biāo)與目標(biāo)之間的邊界是清晰的。而在多通道用戶界面中,指稱技術(shù)是復(fù)合的并且通常是模糊的,邊界是不清晰的。目前多通道的研究已不局限于整合語音和傳統(tǒng)鼠標(biāo)鍵盤,基于語音和筆,語音和唇動(dòng),語音和三維手勢的多通道系統(tǒng)得到了較大的關(guān)注。其中的典型代表包括基于Agent 結(jié)構(gòu)、支持語音和筆的多通道協(xié)作系統(tǒng)QuickSet,整合了 “魔術(shù)棒”(一種新的六自由度設(shè)備)和語音的XWand系統(tǒng)等。W3C國際組織已經(jīng)成立了“多通道交互”工作小組,開發(fā)W3C 新的一類支持移動(dòng)設(shè)備的多通道協(xié)議標(biāo)準(zhǔn),包括多通道交互框架、多通道交互需求、多通道交互用例、可擴(kuò)展多通道注釋語言需求、數(shù)字墨水需求、可擴(kuò)展多通道注釋標(biāo)記語言等。這些標(biāo)準(zhǔn)的制定反映了多通道技術(shù)已開始成熟。關(guān)于多通道人機(jī)交互中指稱歸結(jié)問題的研究,Kehler運(yùn)用認(rèn)知科學(xué)和計(jì)算語言學(xué)的相關(guān)原理,研究并驗(yàn)證了多通道環(huán)境下指稱與認(rèn)知狀態(tài)的對應(yīng)關(guān)系,提出一種對認(rèn)知狀態(tài)編碼并結(jié)合一組簡單判斷規(guī)則獲取指稱對象的方法,并在一個(gè)基于筆和語音的二維旅游地圖應(yīng)用中達(dá)到了很高的準(zhǔn)確率。Kehler方法在處理單一指稱結(jié)合精確指點(diǎn)手勢時(shí)很有效,但這些規(guī)則假設(shè)所有對象都能被確定地選中,不能支持模糊的手勢。哥倫比亞大學(xué)、俄勒R科學(xué)和健康大學(xué)等合作研究增強(qiáng)現(xiàn)實(shí)與虛擬現(xiàn)實(shí)環(huán)境下三維多通道交互,提出用感知形狀的方法解決指稱歸結(jié)的問題。感知形狀是由用戶控制的幾何體,用戶通過它與增強(qiáng)現(xiàn)實(shí)或虛擬現(xiàn)實(shí)環(huán)境交互,在交互過程中感知形狀產(chǎn)生各種統(tǒng)計(jì)信息輔助目標(biāo)選擇。該方法主要解決了指稱歸結(jié)中指點(diǎn)模糊性問題,但并沒有關(guān)注未指明信息的推斷和多通道對齊。德國比勒費(fèi)爾德大學(xué)的Pfeiffer等提出多通道指稱歸結(jié)應(yīng)該注意指稱類型、語句的復(fù)雜性、一致背景、不確定性等方面,并設(shè)計(jì)了一種面向沉浸式虛擬環(huán)境的指稱歸結(jié)引擎。該引擎是一個(gè)三層結(jié)構(gòu)的專家系統(tǒng)核心層、領(lǐng)域?qū)?、?yīng)用層。核心層是一個(gè)約束滿足管理器;領(lǐng)域?qū)犹峁χR(shí)庫的訪問;應(yīng)用層是外界程序與指稱歸結(jié)引擎的接口,負(fù)責(zé)將語音輸入中的指稱轉(zhuǎn)化為對指稱歸結(jié)引擎的查詢。該指稱歸結(jié)引擎將指稱歸結(jié)問題看作約束滿足問題,主要關(guān)注從復(fù)雜的自然語言中提取有效的約束。但該方法
4對欠約束的情況以及指點(diǎn)模糊性還缺乏相應(yīng)的處理。
發(fā)明內(nèi)容
本發(fā)明設(shè)計(jì)開發(fā)了一種基于語音和手勢的多通道人機(jī)交互方法。本發(fā)明的一個(gè)目的在于,解決基于語音和手勢的多通道人機(jī)交互方法中的指點(diǎn)模糊性問題。虛擬環(huán)境中進(jìn)行三維交互時(shí),手勢(從識(shí)別指點(diǎn)開始到指點(diǎn)結(jié)束)不僅表達(dá)了空間信息,也承載了時(shí)間方面的信息。對象在指點(diǎn)區(qū)域內(nèi)停留時(shí)間越長,可以認(rèn)為被選中的可能性越大。因此,在進(jìn)行手勢指稱對象約束信息的分析時(shí),不僅要獲取距離統(tǒng)計(jì)量,而且要獲取時(shí)間統(tǒng)計(jì)量,從而降低三維交互中的指點(diǎn)模糊性。并且,在對指稱對象進(jìn)行確定的過程中,是將虛擬環(huán)境中的模型對象劃分為四類,并將指稱對象與某一類型模型對象進(jìn)行對比, 這種方法也有助于縮小指稱對象的尋找范圍,降低指點(diǎn)模糊性的影響。本發(fā)明的另一個(gè)目的在于,解決基于語音和手勢的多通道人機(jī)交互方法中的未指明信息推斷的問題。虛擬環(huán)境中的模型對象被劃分為四類,其中,聚焦對象為在上一次人機(jī)交互過程中所被確定的指稱對象,也就是說,如果此次人機(jī)交互中語音輸入的語句中出現(xiàn)了指示性代詞“它”,則可認(rèn)為此次人機(jī)交互的指稱對象就是聚焦對象,從而解決了未指明信息推斷的問題。本發(fā)明的又一個(gè)目的在于,提供一種基于語音和手勢的多通道人機(jī)交互方法。通過構(gòu)建多通道分層整合模型,在多通道分層整合模型中建立四層物理層、詞法層、語法層和語義層,并最終將人機(jī)交互所需的命令信息及指稱對象填充入任務(wù)槽,上述整合過程的目標(biāo)以及整合成功與否的判據(jù)都是以人機(jī)交互的任務(wù)結(jié)構(gòu)的完整性為基礎(chǔ),最終目的就是生成可提交系統(tǒng)執(zhí)行的任務(wù)結(jié)構(gòu),保證人機(jī)交互的有效進(jìn)行。本發(fā)明提供的技術(shù)方案為一種基于語音和手勢的多通道人機(jī)交互方法,其特征在于,包括以下步驟步驟一、構(gòu)建語音通道和手勢通道,并分別通過語音通道和手勢通道對人機(jī)交互的指稱對象進(jìn)行語音信息和手勢信息的輸入;步驟二、從上述語音信息中提取語音指稱對象約束信息,從上述手勢信息中提取手勢指稱對象約束信息,其中,所述手勢指稱對象約束信息包括當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的任一點(diǎn)到達(dá)指點(diǎn)手勢的指點(diǎn)中心的距離統(tǒng)計(jì)量以及上述指點(diǎn)手勢所維持的時(shí)間統(tǒng)計(jì)量;步驟三、將上述語音指稱對象約束信息及手勢指稱對象約束信息與虛擬環(huán)境中模型對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象,從上述語音指稱對象約束信息中提取對指稱對象的命令信息,將命令信息作用于指稱對象,完成一次人機(jī)交互。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述虛擬環(huán)境中的模型對象被劃分為指點(diǎn)對象、聚焦對象、激活對象以及沉寂對象四類,所述指點(diǎn)對象為位于當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的對象,所述聚焦對象為在上一次人機(jī)交互過程中所被確定的指稱對象,所述激活對象為位于可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象,所述沉寂對象為位于不可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象,在步驟三中,將上述語音指稱對象約束信息及手勢指稱對象約束信息按順序逐一與上述指點(diǎn)對象、聚焦對象、激活對象、沉寂對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象。
優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,在所述步驟二中,從上述語音信息中提取語音指稱對象約束信息和從上述手勢信息中提取手勢指稱對象約束信息是通過以下方式實(shí)現(xiàn)的構(gòu)建多通道分層整合模型,所述多通道分層整合模型包括有四層,分別為物理層、 詞法層、語法層和語義層,其中,所述物理層接收分別由語音通道和手勢通道輸入的語音信息和手勢信息,所述詞法層包括有語音識(shí)別解析模塊和手勢識(shí)別解析模塊,所述語音識(shí)別解析模塊將物理層的語音信息解析為語音指稱對象約束信息,所述手勢識(shí)別解析模塊將物理層的手勢信息解析為手勢指稱對象約束信息。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述步驟三中,將上述語音指稱對象約束信息及手勢指稱對象約束信息與虛擬環(huán)境中模型對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象,所述指稱對象的確定是在所述語法層上實(shí)現(xiàn)的,從上述語音指稱對象約束信息中提取對指稱對象的命令信息是通過以下方式實(shí)現(xiàn)的所述語法層從語音指稱對象約束信息中提取命令信息,將命令信息作用于指稱對象是通過以下方式實(shí)現(xiàn)的所述語義層將語法層所提取的命令信息作用于指稱對象。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述多通道分層整合模型還包括有任務(wù)槽,所述任務(wù)槽包括命令表項(xiàng)以及指稱對象表項(xiàng),其中所述語義層將語法層所提取的命令信息作用于指稱對象是通過以下方式進(jìn)行的所述語義層將語法層所提取的命令信息填入命令表項(xiàng),將指稱對象填入指稱對象表項(xiàng),所述任務(wù)槽被填充完整,所述多通道分層整合模型生產(chǎn)系統(tǒng)可執(zhí)行命令。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,在所述任務(wù)槽未填充完整的情況下,設(shè)置等待時(shí)間,所述任務(wù)槽在等待時(shí)間內(nèi)被填充完整,則繼續(xù)此次人機(jī)交互,所述任務(wù)槽在等待時(shí)間內(nèi)未被填充完整,則放棄此次人機(jī)交互。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述命令表項(xiàng)包括有動(dòng)作表項(xiàng)和參數(shù)表項(xiàng),所述語音指稱對象約束信息中提取對指稱對象的命令信息時(shí),所述命令信息包括動(dòng)作信息和參數(shù)信息。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述步驟一中,在語音通道接收到第一個(gè)語句時(shí),開始一次人機(jī)交互過程。優(yōu)選的是,所述的基于語音和手勢的多通道人機(jī)交互方法中,所述步驟一中,在語音通道接收到一個(gè)語句時(shí),設(shè)置超時(shí)時(shí)間以接收手勢通道的手勢信息的輸入,如手勢信息的輸入超出所設(shè)超時(shí)時(shí)間,則放棄此次人機(jī)交互過程。本發(fā)明所述的基于語音和手勢的多通道人機(jī)交互方法,具有以下有益效果(1)解決基于語音和手勢的多通道人機(jī)交互方法中的指點(diǎn)模糊性問題。虛擬環(huán)境中進(jìn)行三維交互時(shí),手勢(從識(shí)別指點(diǎn)開始到指點(diǎn)結(jié)束)不僅表達(dá)了空間信息,也承載了時(shí)間方面的信息。對象在指點(diǎn)區(qū)域內(nèi)停留時(shí)間越長,可以認(rèn)為被選中的可能性越大。因此,在進(jìn)行手勢指稱對象約束信息的分析時(shí),不僅要獲取距離統(tǒng)計(jì)量,而且要獲取時(shí)間統(tǒng)計(jì)量,從
6而降低三維交互中的指點(diǎn)模糊性。并且,在對指稱對象進(jìn)行確定的過程中,是將虛擬環(huán)境中的模型對象劃分為四類,并將指稱對象與某一類型模型對象進(jìn)行對比,這種方法也有助于縮小指稱對象的尋找范圍,降低指點(diǎn)模糊性的影響。(2)解決基于語音和手勢的多通道人機(jī)交互方法中的未指明信息推斷的問題。虛擬環(huán)境中的模型對象被劃分為四類,其中,聚焦對象為在上一次人機(jī)交互過程中所被確定的指稱對象,也就是說,如果此次人機(jī)交互中語音輸入的語句中出現(xiàn)了指示性代詞“它”,則可認(rèn)為此次人機(jī)交互的指稱對象就是聚焦對象,從而解決了未指明信息推斷的問題。(3)提供一種基于語音和手勢的多通道人機(jī)交互方法。通過構(gòu)建多通道分層整合模型,在多通道分層整合模型中建立四層物理層、詞法層、語法層和語義層,并最終將人機(jī)交互所需的命令信息及指稱對象填充入任務(wù)槽,上述整合過程的目標(biāo)以及整合成功與否的判據(jù)都是以人機(jī)交互的任務(wù)結(jié)構(gòu)的完整性為基礎(chǔ),最終目的就是生成可提交系統(tǒng)執(zhí)行的任務(wù)結(jié)構(gòu),保證人機(jī)交互的有效進(jìn)行,提高了人機(jī)交互的可靠性。
圖1為本發(fā)明所述的基于語音和手勢的多通道人機(jī)交互方法的人機(jī)交互過程的示意圖。圖2為本發(fā)明所述的基于語音和手勢的多通道人機(jī)交互方法的指稱歸結(jié)的總體架構(gòu)圖。圖3為本發(fā)明所述的基于語音和手勢的多通道人機(jī)交互方法的總體流程圖。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。如圖1、圖2和圖3所示,本發(fā)明提供一種基于語音和手勢的多通道人機(jī)交互方法, 包括以下步驟步驟一、構(gòu)建語音通道和手勢通道,并分別通過語音通道和手勢通道對人機(jī)交互的指稱對象進(jìn)行語音信息和手勢信息的輸入;步驟二、從上述語音信息中提取語音指稱對象約束信息,從上述手勢信息中提取手勢指稱對象約束信息,其中,所述手勢指稱對象約束信息包括當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的任一點(diǎn)到達(dá)指點(diǎn)手勢的指點(diǎn)中心的距離統(tǒng)計(jì)量以及上述指點(diǎn)手勢所維持的時(shí)間統(tǒng)計(jì)量;步驟三、將上述語音指稱對象約束信息及手勢指稱對象約束信息與虛擬環(huán)境中模型對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象,從上述語音指稱對象約束信息中提取對指稱對象的命令信息,將命令信息作用于指稱對象,完成一次人機(jī)交互。如圖1所示,上述基于語音和手勢的多通道人機(jī)交互方法,首先支持語音和手勢兩個(gè)交互通道。其中語音識(shí)別模塊采用微軟語音識(shí)別引擎,將用戶的語音命令映射為帶時(shí)間戳的文本信息,由語音解析模塊從中提取出語音指稱對象約束信息。手勢通道使用數(shù)據(jù)手套獲取關(guān)節(jié)及位置信息以供手勢識(shí)別,手勢解析模塊接受指點(diǎn)手勢,并產(chǎn)生指點(diǎn)對象向量。多通道整合模塊整合來自語音和手勢通道的信息,在整合過程中實(shí)現(xiàn)對指稱的歸結(jié),最后產(chǎn)生系統(tǒng)可執(zhí)行命令或相應(yīng)提示。本發(fā)明采用多通道分層整合模型實(shí)現(xiàn)多通道整合。整合過程是任務(wù)引導(dǎo)的,整合的目標(biāo)以及整合成功與否的判據(jù)都是以交互任務(wù)結(jié)構(gòu)的完整性為基礎(chǔ),最終目的就是生成可提交系統(tǒng)執(zhí)行的任務(wù)結(jié)構(gòu),其中包括任務(wù)的動(dòng)作、任務(wù)作用的對象以及相應(yīng)參數(shù)等信息。 因此,本發(fā)明中定義了任務(wù)槽,任務(wù)槽屬于多通道分層整合模型的一部分。任務(wù)槽的結(jié)構(gòu)分為三個(gè)部分,分別是動(dòng)作表項(xiàng)、指稱對象表項(xiàng)和參數(shù)表項(xiàng),也可以稱之為動(dòng)作槽、指稱對象槽和參數(shù)槽。實(shí)際上,動(dòng)作表項(xiàng)和參數(shù)表項(xiàng)都屬于命令表項(xiàng)。其中指稱對象槽中的指稱對象可以不止一個(gè),目前參數(shù)槽只能填充位置信息。不同的命令會(huì)對應(yīng)有具有不同結(jié)構(gòu)的任務(wù)槽,例如選擇命令的任務(wù)槽只有動(dòng)作和指稱對象兩個(gè)表項(xiàng)。整合的過程就變成了對任務(wù)槽的填充過程,一旦任務(wù)槽填滿,就形成了系統(tǒng)可執(zhí)行的完整任務(wù)。舉例來說,如僅進(jìn)行了語音輸入“旋轉(zhuǎn)它”,而未作出指點(diǎn)手勢,也就是無法確定指稱對象。則任務(wù)槽在填充時(shí),將在動(dòng)作槽內(nèi)填入“旋轉(zhuǎn)”,而指稱對象槽為空。此時(shí),由于設(shè)置有等待時(shí)間,如果任務(wù)槽在等待時(shí)間內(nèi)被填充完整,也就是在等待時(shí)間內(nèi)作出了指點(diǎn)手勢,從而確定了指稱對象,則繼續(xù)進(jìn)行此次人機(jī)交互。多通道分層整合模型會(huì)生成系統(tǒng)可執(zhí)行命令,如果任務(wù)槽在等待時(shí)間內(nèi)未被填充完整,則放棄此次人機(jī)交互。本發(fā)明定義的多通道分層整合模型,顧名思義,是基于分層的思想,將通道信息從具體的設(shè)備信息到最終要填充至任務(wù)槽的語義抽象成物理層、詞法層、語法層和語義層等四層。物理層信息是從交互設(shè)備輸入的原始信息,它的形式具有多樣性,與具體的交互設(shè)備直接相關(guān)。比如從語音輸入的是字符串信息,而從數(shù)據(jù)手套輸入的是傳感器信息。詞法層是關(guān)鍵的一層,它對來自設(shè)備層的原始信息進(jìn)行統(tǒng)一化處理,把意義相同而形式不同的輸入統(tǒng)一為相同的信息表示,從而向語法層提供與設(shè)備無關(guān)的信息。在詞法層中,語音通道的語音信息經(jīng)過語音識(shí)別模塊和語音解析模塊進(jìn)行抽象,生成語音指稱對象約束信息;同時(shí), 手勢通道的手勢信息經(jīng)過手勢識(shí)別模塊和手勢解析模塊的抽象后,生成手勢指稱對象約束信息。語法層主要將來自詞法層的信息按照人機(jī)交互的語法規(guī)范進(jìn)行分解,分解為符合任務(wù)槽各個(gè)表項(xiàng)的形式,為后續(xù)的語義融合做準(zhǔn)備。指稱歸結(jié)主要在語法層進(jìn)行。并且,語法層還從語音指稱對象約束信息中提取命令信息。在語義層,就是利用任務(wù)引導(dǎo)機(jī)制,進(jìn)行任務(wù)槽的填充和完善,雖然任務(wù)與具體的應(yīng)用有關(guān),但任務(wù)槽的填充和完善卻獨(dú)立于應(yīng)用。實(shí)際上,人機(jī)交互過程可以分為兩種策略,“急性子”和“慢性子”兩種。急性子整合只要多通道輸入支持一定程度的整合就開始處理,此過程可以看作是事件驅(qū)動(dòng)的。而慢性子的整合則要到具有了全部輸入或者比較完整的輸入之后才開始處理。舉例而言,在進(jìn)行人機(jī)交互時(shí),急性子的策略是,語音輸入“旋轉(zhuǎn)它”,多通道分層整合模型就開始工作,開始進(jìn)行信息的處理。而慢性子的策略是,語音輸入“旋轉(zhuǎn)它”,同時(shí)指點(diǎn)手勢做出指點(diǎn)某個(gè)物體,以使得模型可以確定指稱對象,此時(shí)模型才啟動(dòng)。也就是,慢性子是在一次性提供一次人機(jī)交互的全部信息。由于用戶的語音輸入經(jīng)常出現(xiàn)不連續(xù)的情況,一個(gè)完整的移動(dòng)物體的命令中間出現(xiàn)較大的時(shí)間間隔。同時(shí)受到語音識(shí)別引擎的限制,本發(fā)明使用“急性子”策略,采用語音驅(qū)動(dòng),在語音通道接收到第一語句時(shí),就開始一次人機(jī)交互過程。指稱對象確認(rèn)的過程也就是指稱歸結(jié)的過程。在本發(fā)明中,指稱歸結(jié)要同時(shí)以語音指稱對象約束信息和手勢指稱對象約束信息為依據(jù)。本發(fā)明基于以下兩條假設(shè)(1)語音輸入中的語義是清晰的,本發(fā)明主要關(guān)注于解決多通道指稱歸結(jié)中的指點(diǎn)模糊性,因此假設(shè)語音輸入中的語義是清晰的,不存在“左上角”、“中間”、“以前”等模糊詞匯;(2)以“自我為中心”的指稱,指稱可以劃分為三種類型以自我為中心、以參照物為中心、以他人為中心。本發(fā)明中的所有指稱均是以自我為中心,不存在“選擇他左邊的物體”這種以其他視點(diǎn)為中心的情況。本發(fā)明采用語音驅(qū)動(dòng)的整合策略,一個(gè)語句被識(shí)別后,觸發(fā)多通道整合過程。多通道分層整合模型中,首先,語音指稱對象約束信息被填充入語音約束集。根據(jù)手勢指稱對象約束信息則可以為虛擬環(huán)境中的所有模型對象分配身份,將所有模型對象劃分為指點(diǎn)對象、聚焦對象、激活對象以及沉寂對象四類。所述指點(diǎn)對象為位于當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的對象,所述聚焦對象為在上一次人機(jī)交互過程中所被確定的指稱對象,所述激活對象為位于可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象,所述沉寂對象為位于不可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象。每一類型模型對象對應(yīng)一個(gè)初始化匹配矩陣,分別為指點(diǎn)矩陣、聚焦矩陣、激活矩陣和沉寂矩陣。本發(fā)明在指稱歸結(jié)過程中采用感知形狀的方法,感知形狀是由用戶控制并能提供交互對象有關(guān)信息的幾何體。當(dāng)系統(tǒng)識(shí)別當(dāng)前手勢為指點(diǎn)手勢時(shí),生成附著在虛擬手食指指尖上的圓錐體(也就是由指點(diǎn)手勢所限定的指點(diǎn)區(qū)域),通過碰撞檢測記錄模型對象和圓錐體交互過程,生成各種統(tǒng)計(jì)量數(shù)據(jù)。然后對統(tǒng)計(jì)量加權(quán)平均生成指點(diǎn)優(yōu)先級(jí)。一次指點(diǎn)交互完成以后,得到與該指點(diǎn)手勢對應(yīng)的二元組向量,該二元組的第一個(gè)元素為指點(diǎn)對象向量,第二個(gè)元素為指點(diǎn)優(yōu)先級(jí)。本發(fā)明定義了時(shí)間序列Trank和距離序列Drank兩種統(tǒng)計(jì)量。在感知形狀內(nèi)的時(shí)間越長,距離指點(diǎn)中心(虛擬手食指指尖)越近,則該模型對象的優(yōu)先級(jí)越高。Trank的計(jì)算過程如下式所示,其中!^^表示某模型對象在圓錐體中的時(shí)間,TpCTi。d 表示某次交互過程中圓錐體的存在時(shí)間(即為指點(diǎn)手勢的持續(xù)時(shí)間)。
Γ π TTobjectTrank = --, 0 < Trank ( 1
1 periodDrank的計(jì)算過程如下式所示,其中D。We。t表示某模型對象中心到指點(diǎn)中心的距離, Dfflax是在圓錐體中的模型對象到指點(diǎn)中心的最遠(yuǎn)距離。
「,τ~λUobject^Drank = 1--, 0 < Drank ( 1
D max指點(diǎn)優(yōu)先級(jí)Prank由上述兩種統(tǒng)計(jì)量加權(quán)平均得到,其計(jì)算方法如下Prank = Trank* λ +Drank* (1- λ ),0 彡 λ 彡 1由于交互設(shè)備并沒有被設(shè)計(jì)來以協(xié)作的方式工作,進(jìn)行跨通道的整合就必須依靠時(shí)間相關(guān)性。因此通過感知形狀計(jì)算得到指點(diǎn)優(yōu)先級(jí)Prank后,應(yīng)該記錄當(dāng)前時(shí)間以供后階段的多通道整合使用。由于任務(wù)槽對于進(jìn)一步的信息輸入具有等待時(shí)間的設(shè)置,這個(gè)等待時(shí)間的數(shù)值則要考慮到,進(jìn)一步的手勢信息輸入并與語音信息一起完成指稱歸結(jié)過程所需要的時(shí)間。上述得到指點(diǎn)優(yōu)先級(jí)和指點(diǎn)對象向量后,將在指點(diǎn)矩陣、聚焦矩陣、激活矩陣、沉寂矩陣中逐一進(jìn)行比對尋找,處于四個(gè)矩陣中的模型對象具有對應(yīng)的狀態(tài)。在每一階段,對于位于同一矩陣中的模型對象進(jìn)行指稱歸結(jié)時(shí),則是通過匹配函數(shù)Match(o,e)量化模型對象所處狀態(tài)。
9
匹配函數(shù)的構(gòu)造如下
權(quán)利要求
1.一種基于語音和手勢的多通道人機(jī)交互方法,其特征在于,包括以下步驟 步驟一、構(gòu)建語音通道和手勢通道,并分別通過語音通道和手勢通道對人機(jī)交互的指稱對象進(jìn)行語音信息和手勢信息的輸入;步驟二、從上述語音信息中提取語音指稱對象約束信息,從上述手勢信息中提取手勢指稱對象約束信息,其中,所述手勢指稱對象約束信息包括當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的任一點(diǎn)到達(dá)指點(diǎn)手勢的指點(diǎn)中心的距離統(tǒng)計(jì)量以及上述指點(diǎn)手勢所維持的時(shí)間統(tǒng)計(jì)量;步驟三、將上述語音指稱對象約束信息及手勢指稱對象約束信息與虛擬環(huán)境中模型對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象,從上述語音指稱對象約束信息中提取對指稱對象的命令信息,將命令信息作用于指稱對象,完成一次人機(jī)交互。
2.如權(quán)利要求1所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述虛擬環(huán)境中的模型對象被劃分為指點(diǎn)對象、聚焦對象、激活對象以及沉寂對象四類,所述指點(diǎn)對象為位于當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的對象,所述聚焦對象為在上一次人機(jī)交互過程中所被確定的指稱對象,所述激活對象為位于可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象,所述沉寂對象為位于不可視范圍內(nèi)的除指點(diǎn)對象和激活對象以外的模型對象,在步驟三中,將上述語音指稱對象約束信息及手勢指稱對象約束信息按順序逐一與上述指點(diǎn)對象、聚焦對象、激活對象、沉寂對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象。
3.如權(quán)利要求1所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,在所述步驟二中,從上述語音信息中提取語音指稱對象約束信息和從上述手勢信息中提取手勢指稱對象約束信息是通過以下方式實(shí)現(xiàn)的構(gòu)建多通道分層整合模型,所述多通道分層整合模型包括有四層,分別為物理層、詞法層、語法層和語義層,其中,所述物理層接收分別由語音通道和手勢通道輸入的語音信息和手勢信息,所述詞法層包括有語音識(shí)別解析模塊和手勢識(shí)別解析模塊,所述語音識(shí)別解析模塊將物理層的語音信息解析為語音指稱對象約束信息,所述手勢識(shí)別解析模塊將物理層的手勢信息解析為手勢指稱對象約束信息。
4.如權(quán)利要求3所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述步驟三中,將上述語音指稱對象約束信息及手勢指稱對象約束信息與虛擬環(huán)境中模型對象的特征信息進(jìn)行對比,確定出人機(jī)交互的指稱對象,所述指稱對象的確定是在所述語法層上實(shí)現(xiàn)的,從上述語音指稱對象約束信息中提取對指稱對象的命令信息是通過以下方式實(shí)現(xiàn)的所述語法層從語音指稱對象約束信息中提取命令信息, 將命令信息作用于指稱對象是通過以下方式實(shí)現(xiàn)的 所述語義層將語法層所提取的命令信息作用于指稱對象。
5.如權(quán)利要求4所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述多通道分層整合模型還包括有任務(wù)槽,所述任務(wù)槽包括命令表項(xiàng)以及指稱對象表項(xiàng),其中所述語義層將語法層所提取的命令信息作用于指稱對象是通過以下方式進(jìn)行的所述語義層將語法層所提取的命令信息填入命令表項(xiàng),將指稱對象填入指稱對象表項(xiàng),所述任務(wù)槽被填充完整,所述多通道分層整合模型生產(chǎn)系統(tǒng)可執(zhí)行命令。
6.如權(quán)利要求5所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,在所述任務(wù)槽未填充完整的情況下,設(shè)置等待時(shí)間,所述任務(wù)槽在等待時(shí)間內(nèi)被填充完整,則繼續(xù)此次人機(jī)交互,所述任務(wù)槽在等待時(shí)間內(nèi)未被填充完整,則放棄此次人機(jī)交互。
7.如權(quán)利要求5所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述命令表項(xiàng)包括有動(dòng)作表項(xiàng)和參數(shù)表項(xiàng),所述語音指稱對象約束信息中提取對指稱對象的命令信息時(shí),所述命令信息包括動(dòng)作信息和參數(shù)信息。
8.如權(quán)利要求1所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述步驟一中,在語音通道接收到第一個(gè)語句時(shí),開始一次人機(jī)交互過程。
9.如權(quán)利要求1所述的基于語音和手勢的多通道人機(jī)交互方法,其特征在于,所述步驟一中,在語音通道接收到一個(gè)語句時(shí),設(shè)置超時(shí)時(shí)間以接收手勢通道的手勢信息的輸入, 如手勢信息的輸入超出所設(shè)超時(shí)時(shí)間,則放棄此次人機(jī)交互過程。
全文摘要
本發(fā)明公開了一種基于語音和手勢的多通道人機(jī)交互方法,從語音信息中提取語音指稱對象約束信息,從手勢信息中提取手勢指稱對象約束信息,其中,手勢指稱對象約束信息包括當(dāng)前指點(diǎn)手勢所限定的指點(diǎn)區(qū)域內(nèi)的任一點(diǎn)到達(dá)指點(diǎn)手勢的指點(diǎn)中心的距離統(tǒng)計(jì)量以及指點(diǎn)手勢所維持的時(shí)間統(tǒng)計(jì)量。在進(jìn)行手勢指稱對象約束信息的分析時(shí),獲取距離統(tǒng)計(jì)量和時(shí)間統(tǒng)計(jì)量,降低三維交互中的指點(diǎn)模糊性。在對指稱對象進(jìn)行確定的過程中,是將虛擬環(huán)境中的模型對象劃分為四類,并依據(jù)指稱對象所出現(xiàn)在某一類型中的可能性來將指稱對象與某一類型模型對象進(jìn)行對比,也有助于縮小指稱對象的尋找范圍,降低指點(diǎn)模糊性的影響。
文檔編號(hào)G06F3/01GK102339129SQ201110278390
公開日2012年2月1日 申請日期2011年9月19日 優(yōu)先權(quán)日2011年9月19日
發(fā)明者蔣愷, 許楠, 趙沁平, 陳小武 申請人:北京航空航天大學(xué)