專(zhuān)利名稱:聲控用戶界面的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲控用戶界面。
背景技術(shù):
當(dāng)前許多商用程序采用綜合(complex)圖形用戶界面(graphical userinterfaces,GUIs)的形式。綜合GUIs允許用戶在同時(shí)執(zhí)行許多任務(wù)的同時(shí)保持它們其余工作的上下文(context);但是,這些系統(tǒng)通常是需要鼠標(biāo)和鍵盤(pán),這可能會(huì)對(duì)很多人,包括身體上有缺陷的人,引起使用上的問(wèn)題或甚至造成無(wú)法使用。如果采取措施去處理固有的使用性問(wèn)題,聲音界面能夠?qū)ι眢w上有缺陷的用戶提供易于訪問(wèn)的解決辦法,比如用戶效率和不明確的操作。此外,聲音界面能提高執(zhí)行某些任務(wù)的效率。
大量的資源被花費(fèi)以發(fā)展基于網(wǎng)絡(luò)的應(yīng)用程序以對(duì)復(fù)雜的商業(yè)應(yīng)用程序提供可移植的,獨(dú)立于平臺(tái)的前端,其用到,諸如HTML和/或JavaScript等語(yǔ)言。
由于應(yīng)用程序典型地僅是以視覺(jué)表達(dá)在頭腦中而發(fā)展起來(lái),因此很少注意到可能便于發(fā)展聲音界面的細(xì)節(jié)。
在大多數(shù)的計(jì)算機(jī)或數(shù)據(jù)處理系統(tǒng)中,用戶交互僅利用視頻顯示器、鍵盤(pán)和鼠標(biāo)來(lái)提供。附加的輸入和輸出外圍設(shè)備有時(shí)會(huì)用到,諸如打印機(jī)、繪圖儀、光筆、觸摸屏、條形碼掃描儀;但是,絕大多數(shù)計(jì)算機(jī)交互僅利用視頻顯示器、鍵盤(pán)和鼠標(biāo)。因此,基本的人機(jī)交互通過(guò)視頻顯示和機(jī)械的刺激來(lái)提供。相反,相當(dāng)大的比例的人與人之間的交互是通過(guò)口頭進(jìn)行的。因此希望方便口頭的人機(jī)交互以為有缺陷的用戶增加訪問(wèn)并且提高用戶界面的效率。
各種技術(shù)被發(fā)展起來(lái)以提供一些形式的口頭人機(jī)交互,范圍從簡(jiǎn)單的文本-語(yǔ)音轉(zhuǎn)換聲音合成應(yīng)用程序到更復(fù)雜的口述和命令與控制應(yīng)用程序。不同類(lèi)型的口頭人機(jī)交互應(yīng)用程序可以被兩個(gè)要素所描述(1)視覺(jué)組件的存在或缺失;和(2)當(dāng)增加聲音界面時(shí)加下劃線的應(yīng)用程序和交互所改變的范圍。
許多研究機(jī)構(gòu)構(gòu)建口頭人機(jī)交互系統(tǒng)集中于第二個(gè)要素創(chuàng)造新的交互風(fēng)格其可能與視頻顯示器共同作用或取而代之。例如,不同機(jī)構(gòu)已創(chuàng)建下列的系統(tǒng)CommandTalk;ATIS;TOOT,和ELVIS。這些系統(tǒng)的每一個(gè)都集中于為口頭人機(jī)交互提供改進(jìn)的模式,從根本上改變了交互的風(fēng)格。例如,CommandTalk保持了傳統(tǒng)的GUI,同時(shí)從根本上改變了交互的風(fēng)格以改善使用性。ATIS,一種空氣傳播的(air travel)信息系統(tǒng),通過(guò)對(duì)用戶的查詢以可視化圖表的形式呈現(xiàn)結(jié)果來(lái)保持傳統(tǒng)的視覺(jué)組件;但是,ATIS修改傳統(tǒng)的交互風(fēng)格,從數(shù)據(jù)庫(kù)查詢界面變到自然語(yǔ)言查詢界面。相似的,TOOT,一種列車(chē)時(shí)間表(train schedule)信息系統(tǒng),試圖為用戶展示圖表數(shù)據(jù);但是,TOOT通過(guò)聲音提供圖表數(shù)據(jù),消除了對(duì)視覺(jué)組件的需要。最后,ELVIS系統(tǒng),用于通過(guò)聲音訪問(wèn)電子信函(email)消息,已嘗試了幾種交互風(fēng)格,其與視覺(jué)交互的差異有不同的程度。系統(tǒng)-主動(dòng)風(fēng)格利用了許多在視覺(jué)界面中含有的同樣的命令名稱,同時(shí)混合-主動(dòng)風(fēng)格的提供重大地改變了傳統(tǒng)交互。
許多商業(yè)系統(tǒng)試圖以含有不同程度的視覺(jué)組件來(lái)保持常規(guī)的交互風(fēng)格。Windows訪問(wèn)工具諸如ViaVoice和SUITEKeys鏡像(mirror)了鍵盤(pán)/鼠標(biāo)的交互,其程度比任意的上述對(duì)話系統(tǒng)的程度都要大。SUITEKeys甚至達(dá)到了直接模仿用手移動(dòng)鼠標(biāo)并按下各個(gè)鍵的交互方式。同樣的,許多電話應(yīng)用程序直接采用“按下或說(shuō)1”的方式來(lái)交互以模仿數(shù)字按鍵鍵盤(pán)的交互方式。
巨大的資源已被用于開(kāi)發(fā)商業(yè)應(yīng)用程序,其需要綜合GUIs以展示大量的信息,顯示這些信息內(nèi)復(fù)雜的交互,并且管理最大化用戶性能、配置和控制的復(fù)雜度(complexity)?,F(xiàn)有的應(yīng)用程序?yàn)槔寐曇艨刂茟?yīng)用程序僅提供有限的支持。一些現(xiàn)有的系統(tǒng)允許口述或有限的訪問(wèn)命令;但是,存在著對(duì)系統(tǒng)和技術(shù)的需求,以在傳統(tǒng)的和舊版本的應(yīng)用程序中增大口頭的人機(jī)交互的程度以為有缺陷的用戶提高訪問(wèn)能力并提高所有用戶的交互效率。
發(fā)明內(nèi)容
一方面,提供了利用聲音擴(kuò)展模塊以聲音啟動(dòng)用戶界面的方法。該方法包括接收用戶界面信息,解析用戶界面信息以確定用戶界面單元,并且處理用戶界面單元以啟動(dòng)聲音控制。用戶界面信息可能是HTML文件并可能包括JavaScript代碼。用戶界面數(shù)據(jù)單元可能包括,例如,文本域,選擇列表,滾動(dòng)條,滑塊,單選鈕,復(fù)選框,圖標(biāo)或按鈕。在一些實(shí)現(xiàn)中,處理用戶界面單元包括用語(yǔ)音識(shí)別引擎注冊(cè)每個(gè)用戶界面單元的名稱和/或類(lèi)型。
另一方面,提供了用于聲音啟動(dòng)用戶界面的聲音擴(kuò)展模塊。聲音擴(kuò)展模塊包括語(yǔ)音識(shí)別引擎,預(yù)處理器其接收用戶界面信息并用語(yǔ)音識(shí)別引擎注冊(cè)相應(yīng)的聲音命令,輸入句柄接收和處理用戶交互。預(yù)處理器可能包括解析器以標(biāo)識(shí)用戶界面單元,及翻譯器以通過(guò)語(yǔ)音識(shí)別注冊(cè)正確的詞匯表和保留對(duì)用戶界面單元的參考(reference)。
另一方面,用于聲音啟動(dòng)用戶界面的系統(tǒng)包括瀏覽器,其相應(yīng)于用戶界面信息生成用戶界面,和聲音擴(kuò)展模塊。聲音擴(kuò)展模塊包括語(yǔ)音識(shí)別引擎,預(yù)處理器其接收用戶界面信息并用語(yǔ)音識(shí)別引擎注冊(cè)相應(yīng)的聲音命令,輸入句柄其接收和處理用戶交互。聲音擴(kuò)展模塊可能實(shí)現(xiàn)為瀏覽器的一個(gè)組件。
一個(gè)或多個(gè)實(shí)現(xiàn)的細(xì)節(jié)將在附圖和下面的描述中闡明。其它的特征和優(yōu)點(diǎn)根據(jù)描述和附圖、及權(quán)利要求將是顯而易見(jiàn)的。
圖1是利用聲音擴(kuò)展模塊聲音啟動(dòng)計(jì)算機(jī)應(yīng)用程序的方塊圖。
圖2是含有預(yù)處理器、語(yǔ)音識(shí)別引擎、和輸入句柄的聲音擴(kuò)展模塊的方塊圖。
圖3是展示在聲音擴(kuò)展模塊中處理用戶界面信息的方法的流程圖。
圖4是展示假期申請(qǐng)應(yīng)用程序的屏幕鏡頭。
圖5是展示說(shuō)明列表選擇的假期申請(qǐng)應(yīng)用程序的屏幕鏡頭。
具體實(shí)施例方式
在最近的幾年中,許多計(jì)算機(jī)和數(shù)據(jù)處理應(yīng)用程序都用基于網(wǎng)絡(luò)的GUIs來(lái)創(chuàng)建。下面描述的系統(tǒng)允許常規(guī)的基于網(wǎng)絡(luò)的GUIs的應(yīng)用程序成為聲音啟動(dòng)的,通過(guò)利用聲音擴(kuò)展模塊而無(wú)需對(duì)程序進(jìn)行重大修改。
參考圖1,聲音啟動(dòng)的計(jì)算機(jī)界面100包括聲音擴(kuò)展模塊102和瀏覽器104。瀏覽器從機(jī)能上實(shí)現(xiàn)用戶輸入和輸出,例如,利用下面的設(shè)備視頻顯示監(jiān)視器106;鼠標(biāo)107;鍵盤(pán)108;揚(yáng)聲器109;和麥克風(fēng)110。聲音擴(kuò)展模塊102通過(guò)網(wǎng)絡(luò)120(例如internet)從應(yīng)用程序服務(wù)器130接收用戶界面數(shù)據(jù)。
在圖1所示的實(shí)現(xiàn)中,應(yīng)用程序服務(wù)器130提供了網(wǎng)絡(luò)啟動(dòng)的用戶界面,其利用HTML代碼構(gòu)建瀏覽器104以顯示信息和接受用戶輸入和命令。瀏覽器104可通過(guò)利用傳統(tǒng)的網(wǎng)絡(luò)瀏覽器實(shí)現(xiàn),例如微軟的Internet Explorer。應(yīng)用程序服務(wù)器130發(fā)送描述不同的文本,圖象和要顯示給用戶的用戶界面的窗口小部件(widget)的HTML代碼。但是HTML代碼,首先通過(guò)聲音擴(kuò)展模塊102接收和預(yù)處理以使應(yīng)用程序變?yōu)槁曇魡?dòng)的,正如下面參照?qǐng)D3所描述的那樣。
聲音擴(kuò)展模塊102可能實(shí)現(xiàn)為微軟的Internet Explorer Browser HelperObject(BHO)。BHO作為瀏覽器功能的擴(kuò)展并在操作之前將BHO用于攔截頁(yè)面和瀏覽器事件。這允許聲音擴(kuò)展模塊102來(lái)定義和控制瀏覽器104環(huán)境的行為及事件(例如鼠標(biāo)點(diǎn)擊,鍵按下)處理的方式。此外,通過(guò)在BHO中嵌入語(yǔ)音識(shí)別引擎,BHO允許聲音擴(kuò)展模塊102響應(yīng)外部事件,比如當(dāng)一個(gè)詞被說(shuō)出來(lái)的時(shí)候。在此實(shí)現(xiàn)中,任意SAPI-服從語(yǔ)音識(shí)別引擎可被用于產(chǎn)生語(yǔ)音識(shí)別事件。
如圖2所示,聲音擴(kuò)展模塊102的一種實(shí)現(xiàn)包括預(yù)處理器200,其從應(yīng)用程序服務(wù)器130接收用戶界面信息,例如HTML或JavaScript代碼,并且預(yù)處理用戶界面信息以在頁(yè)面顯示給用戶之前啟動(dòng)聲音交互。預(yù)處理器200包括解析器202和翻譯器204。解析器202利用任意通常的解析技術(shù),比如有限狀態(tài)機(jī),來(lái)標(biāo)識(shí)代碼中的用戶界面單元。
例如,按HTML網(wǎng)頁(yè)形式的用戶界面信息可能包括各種窗口小部件,其形式有文本域,密碼域,復(fù)選框,單選鈕,和控制按鈕(比如標(biāo)識(shí)和重設(shè))。解析器202接收用戶界面信息并將其傳遞到翻譯器204,從利用語(yǔ)音識(shí)別引擎210和輸入句柄220正確地注冊(cè)相關(guān)的詞匯。
翻譯器204確定哪些所標(biāo)識(shí)的用戶界面單元是“可以交談的”。可以交談的項(xiàng)目(item)用語(yǔ)音識(shí)別引擎210注冊(cè)以使當(dāng)這些項(xiàng)目被說(shuō)出時(shí)引發(fā)適當(dāng)?shù)氖录?。為使?yè)面更加“聲音友好”,對(duì)在瀏覽器104內(nèi)運(yùn)行的HTML或JavaScript在將其呈現(xiàn)給用戶之前需要附加額外的改變。例如,翻譯器204可能將標(biāo)識(shí)符附加給單元。一些單元可能包括XML數(shù)據(jù)或?yàn)閱卧甘具m當(dāng)?shù)穆曇魳?biāo)識(shí)符的其它元數(shù)據(jù)。這些元數(shù)據(jù)可以確定適當(dāng)?shù)臉?biāo)識(shí)符,其能夠被附加給單元以使其更加聲音友好。此外,一些標(biāo)識(shí)符可能被簡(jiǎn)化。對(duì)于含有簡(jiǎn)化的標(biāo)識(shí)符的單元,翻譯器204可以用語(yǔ)音識(shí)別引擎210注冊(cè)簡(jiǎn)化的標(biāo)識(shí)符,標(biāo)識(shí)符的長(zhǎng)形式,或同時(shí)注冊(cè)這兩種形式。最后,翻譯器204可能試圖縮短長(zhǎng)的標(biāo)識(shí)符??s短長(zhǎng)的標(biāo)識(shí)符的一種途徑是只注冊(cè)長(zhǎng)的標(biāo)識(shí)符的某些部分。例如,如果標(biāo)識(shí)符是“Submit Changes for Processing”,它能縮短為“Submit”或“Submit Changes”。
一旦注冊(cè)的詞匯條目被說(shuō)出和識(shí)別,該短語(yǔ)傳送到輸入句柄220,其采取適當(dāng)?shù)牟襟E完成此操作,保存任意所需的狀態(tài),并履行由聲音用戶界面的行為或整個(gè)聲音界面策略中使用的視覺(jué)聚焦所定義的額外任務(wù)。輸入句柄220有助于保證同一操作被執(zhí)行,而不管輸入源是鼠標(biāo)或鍵盤(pán),或等價(jià)的聲音命令。
參照?qǐng)D3,聲音擴(kuò)展模塊102通過(guò)首先接收描述可由用戶操縱的界面組件的用戶界面信息3010(步驟3015)使得用戶界面成為聲音啟動(dòng)的。在此實(shí)現(xiàn)中,用戶界面信息3010被表示為HTML文件,其可能包含被用戶控制的不同用戶界面單元或窗口小部件。用戶界面信息3010也可能包含JavaScript代碼或通常被網(wǎng)絡(luò)瀏覽器使用的任意其它的傳統(tǒng)的控制機(jī)制。
用戶界面信息3010被聲音擴(kuò)展模塊102所接收,然后被預(yù)處理器200處理。預(yù)處理器200利用解析器202解析所收到的用戶界面信息3010(步驟3020)。對(duì)于每個(gè)被解析器202所標(biāo)識(shí)的用戶界面單元,翻譯器204處理該單元以使其聲音啟動(dòng)。只要有用戶界面單元剩余(步驟3030),系統(tǒng)就處理下一個(gè)單元(步驟3050)。一旦每個(gè)用戶界面單元被處理過(guò),用戶界面被瀏覽器104所顯示。翻譯器204通過(guò)用語(yǔ)音識(shí)別引擎210注冊(cè)適當(dāng)?shù)脑~匯和通過(guò)用輸入句柄220注冊(cè)用戶界面單元來(lái)處理每個(gè)用戶界面單元。
例如,下面的用戶界面單元可能被聲音擴(kuò)展模塊102接收到“<INPUTTYPE=’button’NAME=’but_xyz’VALUE=’save changes’>”。此用戶界面單元顯示用于允許用戶開(kāi)始(initiate)保存改變的按鈕。翻譯器204通過(guò)用語(yǔ)音識(shí)別引擎210注冊(cè)“SAVE CHANGES”處理該單元。它也可能與輸入句柄220一同被注冊(cè)為按鈕域以使用戶通過(guò)說(shuō)“BUTTON”而能夠訪問(wèn)此域。輸入句柄,通過(guò)接收按鈕的請(qǐng)求,標(biāo)識(shí)所有激活的按鈕,允許用戶通過(guò)數(shù)字選擇所需的按鈕。這允許采用另外的技術(shù)訪問(wèn)命名的按鈕單元;但是,此技術(shù)可能是訪問(wèn)未命名按鈕單元的唯一途徑。
數(shù)據(jù)輸入任務(wù)需要許多需要用戶控制的單元(或窗口小部件)合作。數(shù)據(jù)輸入通常使用鼠標(biāo)和/或鍵盤(pán)處理,并且通過(guò)定點(diǎn)設(shè)備的物理交互組件一般易于確定預(yù)期的目標(biāo)。在聲音界面中,其它的聚焦和選擇技術(shù)必須典型地用于確定潛在目標(biāo)。
許多應(yīng)用程序中的窗口小部件,諸如滾動(dòng)條,按鈕,及文本域或者沒(méi)有名字(例如,由于它們關(guān)聯(lián)與特定的未命名的表或行),或者具有不明確的名字(例如,由于存在多個(gè)域標(biāo)為“ID number(身份證號(hào))”),或者在視頻顯示中看來(lái)有名字,但是不容易通過(guò)代碼關(guān)聯(lián)其名字,其原因?yàn)槲谋究雌饋?lái)處于完全不同于窗口小部件的模塊中。
一項(xiàng)技術(shù)是使用隱式導(dǎo)航協(xié)同通用的方法來(lái)處理數(shù)據(jù)輸入窗口小部件。隱式導(dǎo)航在下列的公開(kāi)文獻(xiàn)(publication)中加以描述James,F(xiàn).和Roelands,J.,Voice over Workplace(VoWP)Voice Navigation in a Complex Business GUI。ASSETS 2002,(Edinburgh,Scotland,2002)。簡(jiǎn)要的說(shuō),隱式導(dǎo)航是區(qū)分屏幕區(qū)域的優(yōu)先次序以最小化潛在的不明確性(ambiguity)。用戶界面屏幕可能被劃分為幾塊區(qū)分了優(yōu)先次序的區(qū)域。用戶交互和屏幕更新修改優(yōu)先次序以使用戶界面更加聲音友好。
對(duì)界面單元的通用訪問(wèn)依類(lèi)型通過(guò)對(duì)單元尋址來(lái)提供。例如,為到達(dá)所給應(yīng)用程序的文本域,用戶簡(jiǎn)單的說(shuō)出“文本域”。如果在當(dāng)前聚焦區(qū)域有多于一處的文本域,則看作任意其它不確定性;覆蓋的標(biāo)簽被呈現(xiàn)以允許用戶選擇期望的目標(biāo)。盡管該方法使得多數(shù)單元選擇進(jìn)入兩-步驟過(guò)程,但它確實(shí)允許用戶有效地導(dǎo)航到屏幕上的任意單元。能夠通過(guò)名稱訪問(wèn)到的項(xiàng)目(例如按鈕)也能用這種通用的方法訪問(wèn)到,以確保界面的一致性和在識(shí)別性能降級(jí)時(shí)顧及替換方法。
一旦一個(gè)項(xiàng)目被選定,如果它是一個(gè)圖標(biāo)、按鈕、單選鈕或復(fù)選框,界面就如同該項(xiàng)目被用鼠標(biāo)點(diǎn)擊一樣表現(xiàn)。對(duì)于組合框,列表中的選項(xiàng)被顯示出來(lái)以使得用戶能夠做出選擇。文本域用有色的邊框突出顯示并且激活的光標(biāo)置入其間,以這種信號(hào)表示用戶進(jìn)入到該區(qū)域的口述模式。
另外一種解決未命名單元的問(wèn)題的替代方法是當(dāng)頁(yè)面首次呈現(xiàn)給用戶時(shí),對(duì)所有的單元增加獨(dú)特的名稱,而無(wú)需用戶首先說(shuō)出單元類(lèi)型從而導(dǎo)致編號(hào)的被覆蓋標(biāo)簽產(chǎn)生。
與聲音界面相關(guān)的一個(gè)問(wèn)題是從命令中區(qū)分?jǐn)?shù)據(jù)輸入。例如,當(dāng)用戶選擇多行文本域,其可假定為用戶希望進(jìn)入口述模式并輸入一些文本。但是,需要確定何時(shí)該輸入完成和何時(shí)用戶準(zhǔn)備重新開(kāi)始導(dǎo)航的技術(shù)。這可以從多種途徑來(lái)完成。
例如,一種選擇是利用明確的命令來(lái)結(jié)束數(shù)據(jù)輸入。這需要使用密碼詞或短語(yǔ),比如,“end dictation(結(jié)束口述)”對(duì)于用戶希望完整的編輯控制的多行文本域,這可能是最好的解決辦法,其原因?yàn)檫@種類(lèi)型的大的口述任務(wù)將被作為需要手動(dòng)退出的單獨(dú)的模式對(duì)待。
這種思想的一個(gè)變體是使系統(tǒng)傾聽(tīng)多個(gè)關(guān)鍵詞,例如界面中的其它目標(biāo)的名稱。完成此任務(wù)的一種途徑是使用多個(gè)并行識(shí)別器,每個(gè)識(shí)別器傾聽(tīng)不同的關(guān)鍵詞。但是,這項(xiàng)技術(shù),增加了誤解口述為命令并過(guò)早地退出口述模式的可能。
相似的,停頓或超時(shí)可以用來(lái)結(jié)束口述。不幸的是這項(xiàng)技術(shù)對(duì)用戶常常是困難的,因?yàn)閮H是思考接著說(shuō)什么的停頓就可能引發(fā)口述的結(jié)束。該技術(shù)可以通過(guò)對(duì)用戶提供視頻暗示而使其更實(shí)用。
另外一種選擇是對(duì)域分配適當(dāng)?shù)恼Z(yǔ)法,以消除隨時(shí)可能的口述的需求。該技術(shù)在域期望一些特定的輸入的情況下有用,比如日期。但是,它需要途徑去潛在地從通常語(yǔ)法資源集合中確定域的期望數(shù)據(jù)類(lèi)型,分配合適的語(yǔ)法。然后,一旦域被選定,系統(tǒng)能夠自動(dòng)地設(shè)定界面來(lái)期望聽(tīng)到特定類(lèi)型的輸入。并且一旦輸入完成返回標(biāo)準(zhǔn)的控制模式。對(duì)特定文本域的識(shí)別語(yǔ)法也在運(yùn)行時(shí)刻被用戶通過(guò)使用“不變默認(rèn)(sticky defaults)”的方法選擇。例如,第一次用戶遇到一個(gè)域,他能夠指定應(yīng)使用的日期語(yǔ)法。然后,在隨后對(duì)那處域的訪問(wèn)中(甚至是在不同的會(huì)話中),系統(tǒng)能夠默認(rèn)使用該日期語(yǔ)法。
不管用于確定輸入結(jié)束時(shí)刻的方法,視覺(jué)暗示可能被用于指示用戶他或她所處的模式。例如,一旦其被選定以指示用戶系統(tǒng)期望該域的輸入,藍(lán)色的邊框?qū)⒅糜谖谋居虻闹車(chē)_@不僅標(biāo)識(shí)用戶對(duì)特定域的選定,而且也提醒用戶他或她必需為該域提供數(shù)據(jù)以作為下一步的行動(dòng)。
圖4說(shuō)明了利用上述技術(shù)對(duì)于請(qǐng)假申請(qǐng)應(yīng)用程序的范例的商業(yè)應(yīng)用程序用戶界面。屏幕400上的按鈕(幫助按鈕402,假期剩余按鈕404,替換按鈕406,和發(fā)送按鈕408)可以通過(guò)說(shuō)出它們的名稱被激活。理想的情況下,剩下的用戶界面單元也能通過(guò)說(shuō)它們的名稱來(lái)訪問(wèn);但是,將適當(dāng)?shù)奈谋九c界面單元相關(guān)聯(lián)常常是困難或不可能的。例如,剩下的域(缺席類(lèi)型(absence type)域410,缺席開(kāi)始時(shí)間(absence from)域412,缺席結(jié)束時(shí)間(absence to)域414,和注記域416)可能包含內(nèi)嵌的標(biāo)簽或名稱,其不同于靠近這些域的文本。例如,注記域416,可以定義為使用如下的HTML代碼“<TEXTAREANAME=’ABNOTE’ROWS=4 COLS=20>”。有時(shí)將域與屏幕上僅通過(guò)解析HTML代碼得到的標(biāo)簽相關(guān)聯(lián)是不可能的。例如,對(duì)系統(tǒng)而言將“注記(Note)”文本與注記域416相關(guān)聯(lián)是困難的。在這些情形下,網(wǎng)頁(yè)的創(chuàng)建者能夠包括XML或其它元數(shù)據(jù)以便系統(tǒng)能夠?yàn)橛虼_定適當(dāng)?shù)穆曇魳?biāo)識(shí)符。
缺席類(lèi)型域410為數(shù)據(jù)輸入使用下拉(選擇)列表。為聚焦于此特定的項(xiàng)目,用戶說(shuō)“選擇列表”。這通常會(huì)對(duì)所有的選擇列表用透明的覆蓋來(lái)編號(hào)以允許用戶選擇。由于此屏幕中只有一個(gè)選擇列表,焦點(diǎn)自動(dòng)轉(zhuǎn)移到它。列表被高亮顯示并且可供選擇的選項(xiàng)被顯示出。系統(tǒng)的默認(rèn)是將下個(gè)命令解釋為列表中的一個(gè)選項(xiàng)。
缺席開(kāi)始時(shí)間域412和缺席結(jié)束時(shí)間域414都是基本的自由-文本輸入域其關(guān)聯(lián)于允許從另外的窗口小部件中選擇的信息按鈕,在此情形下,是日歷。如果用戶想輸入文本到這些域中,他說(shuō)“文本輸入”。這將導(dǎo)致對(duì)所有三處文本輸入域的透明的覆蓋(其包含可以標(biāo)識(shí)的字符或數(shù)字)的顯示兩處關(guān)于日期的文本輸入域和用于注記的文本輸入域。用戶選擇數(shù)字以選定希望的域。此時(shí),文本輸入域?qū)⒊蔀榻裹c(diǎn)并且用戶能夠口述正確的日期。
注記域416也可以相似地通過(guò)使用聲音命令激活;但是,文本域也包含滾動(dòng)條。因此,當(dāng)注記域416被激活,滾動(dòng)條聲音命令也可用以允許用戶在用戶界面單元中上下滾動(dòng)。
圖5說(shuō)明了在用戶說(shuō)“選擇列表”后,屏幕400的情況。該域借助視頻暗示(在此情形下,是包含該域的藍(lán)色方框)被激活,并且將可用的選項(xiàng)展示給用戶。然后用戶可以通過(guò)讀顯示的文本選擇選項(xiàng)。例如。用戶可以說(shuō)出“結(jié)婚日”或“生病日”以選擇相應(yīng)的選項(xiàng)。
用戶然后可能通過(guò)說(shuō)“文本域”在缺席開(kāi)始時(shí)間域412和缺席結(jié)束時(shí)間域414中輸入數(shù)據(jù)。這將導(dǎo)致三個(gè)文本輸入域在屏幕上被高亮顯示以便用戶可選擇希望的文本輸入域。例如,系統(tǒng)可以在三個(gè)文本輸入域放置透明的覆蓋,每個(gè)覆蓋指示一個(gè)數(shù)字。然后用戶可以讀數(shù)字以選擇希望的域。
用戶可以與系統(tǒng)交互,以便通過(guò)說(shuō)“文本盒(box)”和“1”將焦點(diǎn)轉(zhuǎn)移到“缺席開(kāi)始時(shí)間”域412來(lái)輸入日期。然后,用戶可以通過(guò)說(shuō)“10 04 2001”指定日期。語(yǔ)音識(shí)別引擎210可以使用被翻譯器204注冊(cè)的日期識(shí)別語(yǔ)法來(lái)識(shí)別聲音輸入。然后翻譯器204為了程序的使用,將識(shí)別的數(shù)字安排為正確的日期形式。
許多的實(shí)現(xiàn)已被描述。但是,應(yīng)當(dāng)理解,在不脫離本發(fā)明的精神和范圍情況下,可以對(duì)本發(fā)明做出各種修改。因此,其它的實(shí)現(xiàn)也在由下列權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種使用聲音擴(kuò)展模塊來(lái)聲音啟動(dòng)用戶界面的方法,包括接收用戶界面信息;解析用戶界面信息以確定用戶界面單元;和處理用戶界面單元以啟動(dòng)聲音控制。
2.如權(quán)利要求1中的方法,其中的用戶界面信息是超文本標(biāo)簽語(yǔ)言(HTML)文件。
3.如權(quán)利要求2中的方法,其中的HTML文件包含JavaScript代碼。
4.如權(quán)利要求1中的方法,其中的用戶界面數(shù)據(jù)單元包括下面組中的一個(gè)或多個(gè)文本域;選擇列表;滾動(dòng)條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
5.如權(quán)利要求1中的方法,其中處理用戶界面單元包括對(duì)每個(gè)用戶界面單元,用語(yǔ)音識(shí)別引擎注冊(cè)用戶界面單元。
6.如權(quán)利要求5中的方法,其中用語(yǔ)音識(shí)別引擎注冊(cè)用戶界面單元包括注冊(cè)用戶界面單元的名稱。
7.如權(quán)利要求5中的方法,其中用語(yǔ)音識(shí)別引擎注冊(cè)用戶界面單元包括注冊(cè)用戶界面單元的類(lèi)型。
8.如權(quán)利要求1中的方法,進(jìn)一步包括接收相應(yīng)于用戶界面單元的輸入。
9.如權(quán)利要求8中的方法,其中用戶輸入是被語(yǔ)音識(shí)別引擎識(shí)別的聲音輸入。
10.如權(quán)利要求8中的方法,其中輸入包括從一個(gè)或多個(gè)下述設(shè)備中得到數(shù)據(jù)鍵盤(pán);鼠標(biāo);和麥克風(fēng)。
11.一種用于聲音啟動(dòng)用戶界面的聲音擴(kuò)展模塊包括語(yǔ)音識(shí)別引擎;預(yù)處理器,其接收用戶界面信息并用語(yǔ)音識(shí)別引擎注冊(cè)相應(yīng)的聲音命令;和輸入句柄,其接收和處理用戶交互。
12.如權(quán)利要求11的聲音擴(kuò)展模塊,其中預(yù)處理器包括解析器,標(biāo)識(shí)用戶界面單元;和翻譯器,聲音啟動(dòng)用戶界面單元。
13.如權(quán)利要求12的聲音擴(kuò)展模塊,其中用戶界面單元包括下面組中的一個(gè)或多個(gè)文本域;選擇列表;滾動(dòng)條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
14.一種用于聲音啟動(dòng)用戶界面的系統(tǒng)包括瀏覽器,其生成相應(yīng)于用戶界面信息的用戶界面;和聲音擴(kuò)展模塊,關(guān)聯(lián)于瀏覽器并可操作用于聲音啟動(dòng)由瀏覽器生成的用戶界面,聲音擴(kuò)展模塊包括語(yǔ)音識(shí)別引擎;預(yù)處理器,其接收用戶界面信息并用語(yǔ)音識(shí)別引擎注冊(cè)相應(yīng)的聲音命令;和輸入句柄,其接收和處理用戶交互。
15.如權(quán)利要求14的系統(tǒng),其中瀏覽器是Internet EXplorer。
16.如權(quán)利要求14的系統(tǒng),進(jìn)一步包括輸出設(shè)備以呈現(xiàn)用戶界面,該輸出設(shè)備包括下面組中的一個(gè)或多個(gè)監(jiān)視器;揚(yáng)聲器;和液晶面板(LCD)。
17.如權(quán)利要求14的系統(tǒng),其中用戶界面信息是超文本標(biāo)簽語(yǔ)言(HTML)文件。
18.如權(quán)利要求17的系統(tǒng),其中預(yù)處理器包括解析器,標(biāo)識(shí)用戶界面單元;和翻譯器,聲音啟動(dòng)用戶界面單元。
19.如權(quán)利要求18的系統(tǒng),其中用戶界面單元包括下面組中的一個(gè)或多個(gè)文本域;選擇列表;滾動(dòng)條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
20.如權(quán)利要求14的系統(tǒng),其中聲音擴(kuò)展模塊是瀏覽器的一個(gè)組件。
全文摘要
提供了一種利用聲音擴(kuò)展模塊來(lái)聲音啟動(dòng)用戶界面的方法和系統(tǒng)。聲音擴(kuò)展模塊包括預(yù)處理器、語(yǔ)音識(shí)別引擎和輸入句柄。聲音擴(kuò)展模塊接收用戶界面信息,比如超文本標(biāo)簽語(yǔ)言(hypertext markup language,HTML,超文本標(biāo)簽語(yǔ)言)文件,并且聲音啟動(dòng)該文件以使用戶通過(guò)使用聲音命令同任意界面單元交互。
文檔編號(hào)G10L11/00GK1643491SQ03807004
公開(kāi)日2005年7月20日 申請(qǐng)日期2003年2月14日 優(yōu)先權(quán)日2002年2月15日
發(fā)明者杰夫·羅蘭斯, 理查德·J·斯旺, 拉馬·古拉姆, 弗蘭基·詹姆斯 申請(qǐng)人:Sap股份公司