分為兩部分的語音識別的制作方法
【專利說明】分為兩部分的語音識別
[0001] 相關申請
[0002] 本申請要求2013年1月4日提交的美國臨時申請?zhí)?1/749, 243的權益。下文具 有與2008年1月8日提交的美國申請?zhí)?2/008, 114、2008年1月8日提交的美國申請?zhí)?12/008, 104,和2012年5月10日提交的美國申請?zhí)?3/468, 207相關的主題。上述申請以 其全部內容并入本文。
【背景技術】
[0003] 語音識別(ASR)系統(tǒng)用于控制裝置。對于多數情況,ASR系統(tǒng)工作良好并允許用 戶以高精確度操縱并控制系統(tǒng)。
[0004] 然而,存在高精確度不足的且只有100%的精度是可接受的一些情景,或者存在這 樣一些情景,即,我們完全不能讓ASR由于噪音而意外地觸發(fā),或將說出的對話誤解譯為真 實的命令。
【發(fā)明內容】
[0005] 本發(fā)明解決現有技術中的上述問題和缺點。為應對上述情況,申請人設計了兩級 確認處理。
[0006] 具體地,本發(fā)明的ASR實施例提供如下特征:
[0007] 兩級確認;
[0008] 兩級受限語音識別模式,和/或
[0009] 針對語音驅動系統(tǒng)的兩級喚醒。
[0010] 在一個優(yōu)選實施例中,本發(fā)明涉及計算機應用中語音控制的方法,其中,提供了具 有麥克風和顯示器的頭戴式計算機,其經由麥克風接收聲音輸入,使用耦合到頭戴式計算 機的語音識別引擎來處理聲音輸入。作為該處理的部分,語音識別引擎用于解譯聲音輸入, 以確定其是否為針對具有關鍵性水平的動作的命令,該關鍵性水平滿足或超過閾值關鍵性 水平,即,所謂的關鍵性命令。如果確定命令是關鍵性命令,則第一對話框被顯示在顯示器 上并且在用戶處,并使與命令相關聯的動作表現取決于用戶做出對應于所述第一對話框中 的提示的第一確定性表述。在另一個實施例中,在本段上文中描述的方法進一步涉及具有 自動超時能力的第一對話框,或關鍵性命令是頭戴式計算機從低功耗睡眠模式或受限語音 識別模式中解除的命令。
[0011] 在另一個優(yōu)選實施例中,方法進一步涉及經由麥克風接收對應于第一對話框中的 提示的第一確定性表述;以及響應于對第一確定性表述的接收,在顯示器上顯示第二對話 框,頭戴式計算機使所述動作的表現取決于所述用戶做出對應于所述第二對話框中的提示 的第二確定性表述。在其他實施例中,本段上文中描述的方法發(fā)進一步涉及具有自動超時 能力的第二對話框,或關鍵性命令是令頭戴式計算機從低功耗睡眠模式或受限語音識別模 式中解除的命令。在又另一個實施例中,第一確定性表述和第二確定性表述彼此不同。
[0012] 計算機系統(tǒng)、頭戴式計算機、裝置和設備可以實施上述方法。實現上述方法的另外 其它實施例包括計算機程序產品。
[0013] 在一個優(yōu)選實施例中,本發(fā)明涉及語音控制裝置,其提供了具有顯示器和麥克風 頭戴式計算機,麥克風配置為接收聲音輸入;包括語音識別引擎,配置為解譯聲音輸入,并 作為解譯的部分,確定聲音輸入是否為具有關鍵性水平的動作的命令,該關鍵性水平滿足 或超過閾值關鍵性水平,所述命令為關鍵性命令;以及處理器,其通信地耦合到語音識別引 擎。響應于語音識別引擎對聲音輸入是關鍵性命令的確定,處理器配置為在顯示器上顯示 第一對話框,使動作的頭戴式計算機表現取決于用戶做出對應于所述第一對話框中的提示 的第一確定性表述。在另一實施例中,本段上文描述的語音控制裝置進一步涉及具有自動 超時能力的第一對話框或關鍵性命令是令頭戴式計算機從低功耗睡眠模式或受限語音識 別模式中解除的命令。
[0014] 在另一個優(yōu)選實施例中,裝置進一步涉及經由麥克風接收第一確定性表述,其對 應于第一對話框中的提示;并響應于對第一確定性表述的接收,在顯示器上顯示第二對話 框,頭戴式計算機使所述動作的表現取決于所述用戶做出對應于所述第二對話框中的提示 的第二確定性表述。在又另一個實施例中,本段上文描述的裝置進一步包括具有自動超時 能力的第二對話框或關鍵性命令是令頭戴式計算機從低功耗睡眠模式或受限語音識別模 式中解除的命令。在又另一個實施例中,第一確定性表述和第二確定性表述彼此不同。
[0015] 在又另一個優(yōu)選實施例中,本發(fā)明涉及頭戴式計算機,其包括顯示器;接收聲音輸 入的麥克風;語音識別引擎,其被配置為解譯聲音輸入,并作為解譯的部分,確定聲音輸入 是否為具有關鍵性水平的動作的命令,該關鍵性水平滿足或超過閾值關鍵性水平,所述命 令為關鍵性命令;以及處理器,其通信地耦合到語音識別引擎。響應于語音識別引擎對聲音 輸入是關鍵性命令的確定,處理器被配置為在顯示器上顯示第一對話框,并使所述動作的 頭戴式計算機表現取決于用戶做出對應于所述第一對話框中的提示的第一確定性表述。
【附圖說明】
[0016] 通過下面對如附圖中所描述的本發(fā)明的示例實施例的更為具體描述,上述內容將 更清楚,其中貫穿不同視圖的相同參考標記指代相同部件。附圖不一定按比例,而是為了說 明本發(fā)明的實施例而進行了強調。
[0017] 圖1是體現本發(fā)明的計算機網絡的示意圖。
[0018] 圖2是圖1的實施例中的計算機節(jié)點的框圖。
[0019] 圖3是實施根據本發(fā)明的ASR中兩級確認的頭戴式計算機的示意圖。
[0020] 圖4是具有兩級受限語音識別的語音驅動系統(tǒng)用戶界面的示意性圖示。
[0021] 圖5是根據本發(fā)明的具有兩級確認的用戶界面的不意圖性圖不。
[0022] 圖6是語音驅動系統(tǒng)中兩級喚醒的示意性圖示。
[0023] 圖7是實施根據本發(fā)明的ASR中兩級確認的頭戴式計算機的框圖。
【具體實施方式】
[0024] 下文是對本發(fā)明示例實施例的描述。
[0025] 圖1圖示了本發(fā)明可被實施的多種計算機網絡或類似的數字處理環(huán)境中的一種。 圖1描繪了客戶端計算機/裝置50和服務器計算機60,其可提供與執(zhí)行應用程序等相關聯 的處理、存儲和輸入/輸出裝置。這些裝置經由鏈路(例如,鏈路107)被連接到網絡70。 網絡70可以是遠程訪問網絡、全球網絡(例如,互聯網)、全球范圍的計算機集合、局域網或 廣域網、或網關,或者其一部分,其當前采用各自的協議(TCP/IP、藍牙等)相互通信。其它 電子裝置/計算機網絡架構是適合的。網絡70可相應地經由鏈路111連接到一個或多個 額外的網絡,諸如互聯網210。鏈路107和111可采用多種物理形式,例如,有線的和無線 的,并可采用多種信號和協議執(zhí)行通信。
[0026] 在實施例中,客戶端計算機/裝置50被佩戴在頭上并使用運動和語音命令來控 制信息的顯示,以及遠程裝置等,如由申請人申請的申請?zhí)枮?2/008, 114、12/008, 104和 13/468,207的美國專利申請中所詳細說明的,并且將其作為參考并入本文。這些頭戴計算 裝置可采用多種形式,如頭部配戴計算機、頭部固定顯示器裝置和頭戴式計算機。這些頭 部配戴計算裝置在此被稱為"頭戴式計算裝置"或HSC 100,并且將在下文進一步描述HSC 100的實施例。
[0027] HSC 100可以多種方式被配置并使用。在一些實施例中,HSC 100可直接連接到計 算機網絡70。在其它實施例中,如圖1中描繪的,HSC 100經由遠程主機計算裝置200連 接到計算機網絡70, HSC 100經由鏈路150與遠程主機計算裝置200通信。在操作中,HSC 100可以被用作例如從遠程主機計算裝置200接收的流視頻信號的遠程顯示器。
[0028] 多種裝置可用作遠程主機計算裝置200,包括例如筆記本PC、智能電話、平板裝置 或具有比無線計算頭戴式裝置100更小和更大計算復雜性的其它計算裝置,如基于云的網 絡資源。主機200可進一步直接或由網絡70連接到額外網絡,諸如互聯網210、有線電視網 絡、第三方數據網絡等。
[0029] 多種鏈路150可被用于使能頭戴式HSC 100和主機200之間的通信。在實施例中, 鏈路150是無線鏈路,并且通信經由一個或多個無線協議,諸如Bluetooth?、WiFi、WiMAX 或 4G LTE (Bluetooth 是 5209Lake Washington Boulevard,Kirkland,Washington 98033 的Bluetooth Sig, Inc.的注冊商標)。在示例實施例中,如圖1中描述,主機200經由連接 109連接到網絡70,連接109可以是無線連接,且網絡70也可以連接到互聯網210或其它 基于云的網絡資源,以使得主機200可以作為無線中繼。在其它實施例中,主機200被直接 連接到互聯網210或其它基于云的資源。此外,HSC 100的一些示例實施例可以無線連接 到互聯網和基于云的網絡資源而不使用主機無線中繼。
[0030] 客戶端計算機/裝置50、HSC 100和主機200可以通過通信網絡70鏈接到其它計 算裝置,包括其它客戶