專利名稱:組合唇讀與語音識別的多模式界面系統(tǒng)的制作方法
組合唇讀與語音識別的多模式界面系統(tǒng)技術(shù)領(lǐng)域
本發(fā)明總體涉及一種組合唇讀與語音識別的多模式界面系統(tǒng)。更具體地,在優(yōu) 選實施例中,本發(fā)明涉及一種組合唇讀與語音識別的多模式界面系統(tǒng),其能夠主要通過 且優(yōu)選地僅通過語音和嘴唇運動適當?shù)匕l(fā)布導航操作指令,因此,優(yōu)選地使得駕駛員在 導航操作過程中向前看,并且適當?shù)販p少在行駛過程中與導航操作相關(guān)的車輛事故。
背景技術(shù):
目前,隨著汽車技術(shù)的發(fā)展和日常生活中車輛使用的增加,對安全的關(guān)注與需 求也已經(jīng)在增加。并且,隨著電子技術(shù)的發(fā)展,各種類型的裝置常規(guī)地安裝于車輛上, 例如,但并不限于,音頻設備、電話以及導航系統(tǒng)。
常規(guī)地,導航系統(tǒng)優(yōu)選地通過經(jīng)由觸摸屏輸入指令來進行操作。雖然使用觸摸 屏可以使輸入錯誤最小化,但是使用者必須同時使用他/她的手和眼睛,這使得在行駛 過程中操作導航系統(tǒng)變得困難,并且還分散使用者的注意力,因此增加了事故的風險。 作為這種方式的替換,已經(jīng)使用了使用語音識別的指令輸入方法。然而,這種方法對音 頻噪聲敏感,因此在噪聲環(huán)境下可能發(fā)生識別故障。
基于嘴唇圖像數(shù)據(jù)使用唇讀的語音識別技術(shù)的研究仍處于算法研究的初始階 段。為了實現(xiàn)實時操作的唇讀系統(tǒng),必須穩(wěn)定地檢測使用者的嘴唇,適當?shù)卣业阶齑降?特征點,并且適當?shù)匮杆俑櫵鼈?。因此,一系列步驟,包括但不限于面部檢測、嘴唇 檢測、嘴唇跟蹤、特征定義、數(shù)據(jù)歸一化、語音片段檢測、識別等,優(yōu)選地一起工作。 然而,目前,還不存在對所有步驟的一致性研究。
常規(guī)地,已經(jīng)提出了基于主動外觀模型(AAM)或主動形狀模型(ASM)的嘴唇 擬合算法。其性能對初始位置敏感,并且不能魯棒地跟蹤嘴唇在說話中的快速運動,從 而使得在視頻跟蹤時難以獲得穩(wěn)定的特征值。雖然為了在視頻獲得嘴唇特征的變化作為 特征值之后識別該特征值,需要用于一致性地檢測語音片段并將其分割為幀的自動語音 檢測算法,但對該算法尚無研究。此外,雖然已經(jīng)對使用隱馬爾可夫模型(HMM)或神 經(jīng)網(wǎng)絡的識別器算法開展了研究,但是這些算法需要一定量的用于學習的學習數(shù)據(jù),并 且進一步需要大量的數(shù)據(jù)進行學習,以實現(xiàn)精細的識別器。已知,學習現(xiàn)有的基于音頻 的說話者無關(guān)(speaker-independent)的語音識別器需要每個單詞來自多于2000人的學習 數(shù)據(jù)。因此,當旨在實現(xiàn)說話者無關(guān)的唇讀識別器時,不容易確保HM學習所需的足夠 的學習數(shù)據(jù)。而且,因為HMM學習涉及復雜的數(shù)學計算過程,所以需要許多系統(tǒng)資源 和時間,因此使得難以在例如導航系統(tǒng)的低規(guī)格系統(tǒng)中執(zhí)行在線學習。
目前,唇讀系統(tǒng)的獨立識別率為40%至60%,其遠低于語音識別器的獨立識別 率。這是因為從嘴唇圖像可識別的發(fā)音的基本單位(視位)的數(shù)目(1 比基于音頻的語 音識別中的發(fā)音的基本單位(音位)的數(shù)目G4)少70%,從而顯著地降低了區(qū)別口型看 似相似的單詞的能力。因此,實際應用服務系統(tǒng)難以單獨通過唇讀實現(xiàn)指令識別系統(tǒng)。
在此背景技術(shù)部分中公開的以上信息僅用于增強對本發(fā)明的背景技術(shù)的理解,因此其可能包含不構(gòu)成在本國對于本領(lǐng)域技術(shù)人員而言已公知的現(xiàn)有技術(shù)的信息。 發(fā)明內(nèi)容
本發(fā)明在優(yōu)選方面提供了一種組合唇讀與語音識別的多模式界面系統(tǒng),其實現(xiàn) 了通過攝像機從面部圖像有效地檢測嘴唇的唇讀系統(tǒng),適當?shù)馗欁齑竭\動,并且基于 嘴唇的特征值適當?shù)刈R別語音指令,隨后適當?shù)亟M合唇讀系統(tǒng)與基于音頻的語音識別系 統(tǒng),使得使用攝像機圖像的唇讀能夠在語音識別器由于噪聲而無法工作的環(huán)境中適當?shù)?接收指令。
在一些優(yōu)選實施例中,本發(fā)明優(yōu)選地提供了一種組合唇讀與語音識別的多模式 界面系統(tǒng),其基于適合的情景適當?shù)嘏渲米鳛榻换ハ到y(tǒng)的導航系統(tǒng)的應用服務屏幕,并 且限制將要識別的指令,使得可根據(jù)各服務屏幕狀態(tài)僅識別必要的指令,由此提高單個 指令的識別率。
在另外的優(yōu)選實施例中,本發(fā)明提供了一種組合唇讀與語音識別的多模式界面 系統(tǒng),其適當?shù)貞媚軌驅(qū)崟r在線學習的識別器算法,以便當駕駛者長時間使用該系統(tǒng) 時,使識別器適當?shù)剡m應駕駛者的語音特征,由此逐漸提高識別率。
優(yōu)選地,根據(jù)本發(fā)明的優(yōu)選實施例的組合唇讀與語音識別的多模式界面系統(tǒng)包 括,但可不僅限于,音頻語音輸入單元、語音識別單元、語音識別指令和估計概率輸出 單元、嘴唇視頻圖像輸入單元、唇讀單元、唇讀識別指令輸出單元、以及語音識別與唇 讀識別結(jié)果組合單元,其中音頻語音輸入單元適當?shù)孬@得通過音頻輸入傳感器輸入的聲 音信號或者通過有線或無線連接從外部傳送的輸入音頻信號;語音識別單元從輸入音頻 信號適當?shù)刈R別語音并且計算估計的識別準確度;語音識別指令和估計概率輸出單元適 當?shù)剌敵雠c語音識別單元識別的語音相應的指令和估計的識別概率值;嘴唇視頻圖像輸 入單元適當?shù)孬@得通過圖像輸入傳感器輸入的輸入圖像或者通過有線或無線連接從外部 傳送的輸入圖像;唇讀單元通過處理輸入圖像適當?shù)刈R別說話者的唇讀指令;唇讀識別 指令輸出單元適當?shù)剌敵鲇纱阶x單元識別的唇讀指令;如果估計的概率高于閾值,則語 音識別與唇讀識別結(jié)果組合單元適當?shù)剌敵稣Z音識別指令,如果估計的概率低于閾值, 則其適當?shù)剌敵龃阶x指令。
根據(jù)本發(fā)明的一些優(yōu)選實施例,唇讀單元可優(yōu)選地包括,但可不僅限于,嘴唇 檢測器、嘴唇模型生成器、嘴唇跟蹤器、語音片段檢測器、系統(tǒng)模式確定器、唇讀識別 學習單元、指令識別單元以及嘴唇特征數(shù)據(jù)庫,其中嘴唇檢測器使用來自嘴唇視頻圖像 輸入單元的輸入圖像適當?shù)貦z測嘴唇特征;嘴唇模型生成器使用主動外觀模型(AAM)嘴 唇模型適當?shù)厣尚螤钅P秃屯庥^模型;嘴唇跟蹤器使用由嘴唇模型生成器生成的形狀 模型和Lucas-Kanade (LK)算法,適當?shù)馗欁鳛樵谧齑綑z測后AAM擬合的結(jié)果而獲得 的嘴唇特征點;語音片段檢測器將預定周期的幀數(shù)據(jù)適當?shù)剌斎氲缴窠?jīng)網(wǎng)絡識別器中, 以便基于作為對連續(xù)的輸入圖像進行嘴唇跟蹤的結(jié)果而獲得的一系列嘴唇模型參數(shù),確 定片段是語音片段還是靜音片段;系統(tǒng)模式確定器適當?shù)卮_定系統(tǒng)是處于嘴唇特征數(shù)據(jù) 的標簽已知的學習模式,還是處于嘴唇特征數(shù)據(jù)的標簽未知的識別模式;如果系統(tǒng)處于 學習模式,則唇讀識別學習單元使用特征數(shù)據(jù)和輸入標簽適當?shù)貙W習K最近鄰(K-NN) 學習器;如果系統(tǒng)處于識別模式,則指令識別單元通過習得的K-NN識別器適當?shù)卣业脚c特征數(shù)據(jù)最相似的學習模式,并且輸出作為特征值的結(jié)果指令;嘴唇特征數(shù)據(jù)庫適當 地存儲離線或在線習得的每個指令的模式。
根據(jù)本發(fā)明另外的優(yōu)選實施例,組合唇讀與語音識別的多模式界面系統(tǒng)還可包 括,但可不僅限于,唇讀特征檢測單元、語音識別單詞估計概率確定單元、嘴唇特征檢 測確定單元和實時唇讀學習單元,其中唇讀特征檢測單元從來自語音片段檢測器的輸入 圖像適當?shù)貦z測唇讀特征;如果由語音識別模塊識別的指令的估計概率高于閾值,則語 音識別單詞估計概率確定單元確定使用唇讀特征檢測單元檢測的嘴唇圖像作為嘴唇特征 的學習標簽執(zhí)行學習;嘴唇特征檢測確定單元適當?shù)卮_定是否正確地檢測到圖像特征數(shù) 據(jù);實時唇讀學習單元通過使用從基于的語音識別模塊提供的指令作為標簽,對從唇讀 特征檢測單元提供的嘴唇特征值適當?shù)貓?zhí)行k-NN學習,來更新嘴唇特征數(shù)據(jù)庫,由此實 現(xiàn)說話者自適應實時學習系統(tǒng)。
優(yōu)選地,組合唇讀與語音識別的多模式界面系統(tǒng)還可包括交互服務單元,其根 據(jù)服務情景以有限的方式適當?shù)刈R別必要的指令,由此實現(xiàn)能夠?qū)崟r學習的在線學習識 別算法。
根據(jù)本發(fā)明的一些優(yōu)選實施例,交互服務單元可優(yōu)選地包括服務情景數(shù)據(jù)庫, 其優(yōu)選地預先定義可對各屏幕適當輸入的一序列指令,并且在執(zhí)行唇讀或語音識別時提 供可對各服務屏幕或者在各階段適當輸入的該序列指令;服務屏幕;屏幕轉(zhuǎn)換單元,其 根據(jù)在服務情景數(shù)據(jù)庫中定義的功能,響應于輸入指令執(zhí)行屏幕轉(zhuǎn)換,并且向服務屏幕 提供當前服務狀態(tài)的信息;識別目標單詞序列設置單元,其適當?shù)卦O置在根據(jù)服務情景 數(shù)據(jù)庫發(fā)生狀態(tài)改變的情況下各服務狀態(tài)或屏幕所需要的一序列單詞。
在本發(fā)明的其它進一步的實施例中,多模式界面系統(tǒng)通過參照由識別目標單詞 序列設置單元設置的識別目標單詞序列適當?shù)亟M合唇讀與語音識別,來執(zhí)行抗噪語音識 別;服務執(zhí)行單元,其響應于輸入指令適當?shù)貓?zhí)行屏幕轉(zhuǎn)換、語音引導、信息注冊和其 它注冊的應用服務;以及識別結(jié)果確定單元,其適當?shù)卮_定語音識別或者唇讀識別是否 失敗,以決定是否對輸入音頻和視頻信號執(zhí)行服務,從而限制在實際服務中要識別的單 詞的數(shù)目,由此顯著提高識別率。
應該理解的是,這里使用的術(shù)語“車輛”或“車輛的”或其它類似術(shù)語包括通 常的機動車輛,例如包括運動型多用途車6UV)、公共汽車、卡車、各種商用車在內(nèi)的 客運車輛,包括各種艇和船只在內(nèi)的水運工具,以及航空器等,并且包括混合動力車、 電動車、插電式混合動力電動車、氫動力車和其它替代燃料車(例如,從石油以外的資 源所得到的燃料)。
如文中所提到的,混合動力車是具有兩種或更多種動力源的車輛,例如既有汽 油動力又有電動力的車輛。
本發(fā)明的上述特征和優(yōu)點,從附圖和以下具體實施方式
中將是顯而易見的或者 在其中被更加詳細地闡明,其中附圖并入且形成此說明書的一部分,并與具體實施方式
共同用于通過舉例的方式說明本發(fā)明的原理。
現(xiàn)在將參照附圖所示出的某些示例性實施例詳細說明本發(fā)明的上述及其它特征,這些實施方式在下文中僅以例示的方式給出,因此不對本發(fā)明構(gòu)成限制,并且其 中
圖1是示出根據(jù)本發(fā)明的示例性實施例的組合唇讀與語音識別的多模式界面系 統(tǒng)的框圖2是示出圖1中的唇讀模塊的詳細框圖3是示出作為交互服務系統(tǒng)實施的根據(jù)本發(fā)明的優(yōu)選實施例的組合唇讀與語 音識別的多模式界面系統(tǒng)的詳細框圖;并且
圖4是示出說話者自適應實時唇讀學習系統(tǒng)的詳細框圖。
應該理解的是,附圖不一定成比例,而是示出了說明本發(fā)明的基本原理的各種 優(yōu)選特征的某種程度的簡化表示。這里所公開的、包括例如具體尺寸、方向、位置和形 狀的本發(fā)明的具體設計特征,將由具體期望的應用和使用環(huán)境部分地確定。
具體實施方式
在第一方面,本發(fā)明的特征在于一種組合唇讀與語音識別的多模式界面系統(tǒng), 包括音頻語音輸入單元、語音識別單元、語音識別指令和估計概率輸出單元、嘴唇視頻 圖像輸入單元、唇讀單元、唇讀識別指令輸出單元、語音識別與唇讀識別結(jié)果組合單 元,該單元輸出語音識別指令。
在一個實施例中,音頻語音輸入單元獲得通過音頻輸入傳感器輸入的聲音信號 或者通過有線或無線連接從外部傳送的輸入音頻信號。
在另一實施例中,語音識別單元從輸入音頻信號識別語音并且計算估計的識別 準確度。
在又一實施例中,語音識別指令和估計概率輸出單元輸出與語音識別單元識別 的語音相應的指令和估計的識別概率值。
在再一實施例中,嘴唇視頻圖像輸入單元獲得通過圖像輸入傳感器輸入的輸入 圖像或者通過有線或無線連接從外部傳送的輸入圖像。
在另一實施例中,唇讀單元通過處理輸入圖像識別說話者的唇讀指令。
在又一實施例中,唇讀識別指令輸出單元輸出由唇讀單元識別的唇讀指令。
在再一實施例中,如果估計的概率高于閾值,則語音識別與唇讀識別結(jié)果組合 單元輸出語音識別指令,如果估計的概率低于閾值,則輸出唇讀指令。
本發(fā)明的優(yōu)點和特征以及實現(xiàn)這些優(yōu)點和特征的方法通過參考以下示例性實施 例的詳細說明和附圖將更容易理解。然而,本發(fā)明可以多種不同的形式實現(xiàn),并且不應 解釋為局限于本文給出的實施例。相反,這些實施例的給出使得本公開將是詳盡和完整 的,并且將充分地將本發(fā)明的構(gòu)思傳達給本領(lǐng)域技術(shù)人員,而且本發(fā)明將僅通過所附權(quán) 利要求進行限定。
以下,將參照用以示出根據(jù)本發(fā)明的優(yōu)選實施例的、組合唇讀與語音識別的多 模式界面系統(tǒng)的框圖,說明本發(fā)明的示例性實施例。根據(jù)本發(fā)明的一些優(yōu)選實施例,應 當理解各框圖可通過計算機程序指令適當?shù)貙崿F(xiàn)。優(yōu)選地,這些計算機程序指令可以適 當?shù)靥峁┙o通用計算機、專用計算機、或者其它可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生一 種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置的處理器適當?shù)貓?zhí)行的指令產(chǎn)生實現(xiàn)流程圖框中指定的功能的裝置。
根據(jù)本發(fā)明的一些優(yōu)選實施例,這些計算機程序指令還可存儲在計算機可用或 計算機可讀的存儲器中,這樣的存儲器可適當?shù)刂敢嬎銠C或其它可編程數(shù)據(jù)處理裝置 以特定的方式工作,使得存儲在計算機可用或計算機可讀的存儲器中的指令產(chǎn)生制造的 產(chǎn)品,優(yōu)選地包括適當?shù)貙崿F(xiàn)流程圖框中指定的功能的指令裝置。
根據(jù)一些優(yōu)選實施例,計算機程序指令還可適當?shù)剌d入到計算機或其它可編程 數(shù)據(jù)處理裝置上,使得在計算機或其它可編程裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算 機實現(xiàn)的過程,使得在計算機或其它可編程裝置上適當?shù)貓?zhí)行的指令優(yōu)選地提供用以實 現(xiàn)流程圖框中指定的功能的步驟。
優(yōu)選地,流程圖示例中的每個方框可代表代碼的模塊、分段或部分,其適當?shù)?包括用于實現(xiàn)指定的邏輯功能的一個或多個可執(zhí)行指令。根據(jù)本發(fā)明另外的示例性實施 例,在方框中注釋的功能可優(yōu)選地不按順序執(zhí)行。例如,取決于所涉及的功能性,連續(xù) 示出的兩個方框可優(yōu)選地基本上同時執(zhí)行,或者有時方框可以相反的順序執(zhí)行。
在一些優(yōu)選實施例中,如其中所使用的,術(shù)語“模塊”包括但不局限于執(zhí)行一 定任務的軟件或硬件組件,諸如現(xiàn)場可編程門陣列(FPGA)或者專用集成電路(A^tC)。 優(yōu)選地,模塊可被優(yōu)選地配置為駐留在可尋址存儲介質(zhì)上并且優(yōu)選地配置為在一個或多 個處理器上執(zhí)行。因此,在另外的優(yōu)選實施例中,示例性模塊可優(yōu)選地包括,但可不僅 限于組件,諸如,軟件組件,面向?qū)ο蟮能浖M件,類組件和任務組件,進程,函數(shù), 屬性,過程,子程序,程序代碼段,驅(qū)動程序,固件,微碼,電路,數(shù)據(jù),數(shù)據(jù)庫,數(shù) 據(jù)結(jié)構(gòu),表,數(shù)組和變量。優(yōu)選地,在組件和模塊中提供的功能可適當?shù)亟M合到更少的 組件和模塊中或者進一步分割到附加的組件和模塊中。
下面將參照附圖詳細說明本發(fā)明的示例性實施例。
在一些優(yōu)選實施例中,本發(fā)明提出了一種組合唇讀與語音識別的多模式界面系 統(tǒng),其實現(xiàn)了一種從通過攝像機獲得的面部圖像有效地檢測嘴唇,適當?shù)馗欁齑竭\ 動,并且基于嘴唇的特征值適當?shù)刈R別語音指令的唇讀系統(tǒng),然后適當?shù)亟M合唇讀系統(tǒng) 與基于音頻的語音識別系統(tǒng)。因此,因為本發(fā)明不受音頻噪聲的影響,所以本發(fā)明適當 地允許使用攝像機圖像的唇讀技術(shù)在某一環(huán)境中通過接收指令而提供服務,在該環(huán)境中 由于在室內(nèi)收聽廣播時或者在車窗落下而駕駛車輛時所產(chǎn)生的噪聲,語音識別器不能工 作。
在另外的優(yōu)選實施例中,在根據(jù)本發(fā)明的導航系統(tǒng)中,使用嘴唇圖像的唇讀系 統(tǒng)從輸入圖像適當?shù)貦z測駕駛者的面部,從檢測到的面部區(qū)域適當?shù)貦z測相對于嘴唇候 選區(qū)的嘴唇的位置,然后使用嘴唇形狀模型相對于檢測到的嘴唇適當?shù)卮_定用于跟蹤的 嘴唇特征點的精確位置。因此,提出了一系列過程,其中通過圖像匹配算法適當?shù)馗?圖像特征點,從特征的時間變化的數(shù)據(jù)適當?shù)貦z測語音片斷,并且識別器基于按單詞排 序的一系列嘴唇特征值識別指令。
根據(jù)本發(fā)明的另外的優(yōu)選實施例,為了彌補唇讀技術(shù)的識別性能較低的問題, 本發(fā)明作為一個示例性實施例提出了一種方法,在減少要識別的單詞的數(shù)量導致更好的 識別,而當同時識別所有注冊在識別器中的指令時準確度降低的情況下,通過基于情景 配置作為交互系統(tǒng)的導航系統(tǒng)的應用服務屏幕,然后適當?shù)叵拗浦噶?,使得可根?jù)服務的屏幕狀態(tài)僅識別必需的指令,能夠適當?shù)靥岣邌蝹€指令的識別率。
另外,在使用嘴唇特征的語音識別的一些實例中,通常特征是因人而異的,因 此識別器需要適當大量的學習數(shù)據(jù)。因此,本發(fā)明提出了一種自適應學習系統(tǒng),其應用 能夠?qū)崟r在線學習的識別器,以便如果駕駛者長時間使用此系統(tǒng),則使識別器適當?shù)剡m 應駕駛者的語音特征,由此逐漸提高識別率。在一些示例性實施例中,在學習數(shù)據(jù)采集 受到限制的情況下,說話者無關(guān)的識別器的識別率較低。根據(jù)一些優(yōu)選實施例,導航 系統(tǒng)包括說話者自適應實時唇讀學習算法,該算法在服務的實際操作中并沒有很多使用 者,因而作為固定駕駛者的少數(shù)幾個經(jīng)常的使用者頻繁使用一些特定指令的情況下,通 過實時地學習并向識別器添加數(shù)據(jù)而實時地學習當前說話者的唇讀特征數(shù)據(jù),從而能夠 隨著使用者使用該系統(tǒng)而逐漸提高識別率。
根據(jù)如本文所述的本發(fā)明的優(yōu)選實施例,語音識別和唇讀技術(shù)是一種機器與人 之間的基本交互技術(shù),例如基本人機交互(HCI)技術(shù),其可廣泛地用于諸如但不限于電 視、空調(diào)等的電子產(chǎn)品,機械人控制,以及車輛。
根據(jù)一些示例性實施例,并且如圖1中所示,圖1是示出組合唇讀與語音識別的 多模式界面系統(tǒng)的框圖。
在一些優(yōu)選實施例中,組合唇讀與語音識別的多模式界面系統(tǒng)100包括音頻語 音輸入單元110,語音識別模塊120,語音識別指令和估計概率輸出單元130,嘴唇視頻 圖像輸入單元140,唇讀模塊150,唇讀識別指令輸出單元160,語音識別與唇讀識別結(jié) 果組合單元170,最終識別指令輸出單元180。優(yōu)選地,語音識別與唇讀識別結(jié)果組合單 元170包括語音識別結(jié)果確定單元171,唇讀語音識別結(jié)果確定單元172,組合識別指令 (語音)輸出單元173,和組合識別指令(唇讀)輸出單元174。
優(yōu)選地,音頻語音輸入單元110可適當?shù)孬@得通過音頻輸入傳感器輸入的聲音 信號或者通過有線或無線連接從外部傳送的輸入音頻信號。例如,在一些優(yōu)選實施例 中,例如在通過音頻輸入傳感器獲得輸入音頻信號的情況下,可通過將經(jīng)由給定的擴音 器輸入的聲信號轉(zhuǎn)換為電信號而適當?shù)孬@得輸入聲音信號。因此,可通過用于將獲得的 電信號轉(zhuǎn)換為數(shù)字信號的模/數(shù)轉(zhuǎn)換器和用于處理通過模/數(shù)轉(zhuǎn)換器獲得的語音信號的數(shù) 字信號處理器(DSP)適當?shù)孬@得預定的輸入聲音信號。在另外的優(yōu)選實施例中,輸入聲 音可適當?shù)卮鎯υ诖鎯橘|(zhì)中或者以有線或無線的方式傳送,由此獲得預定的輸入聲音 信號。
在另外的優(yōu)選實施例中,語音識別模塊120是商用的語音識別模塊,其能夠適 當?shù)卦O置用于孤立單詞識別的識別單詞,具有說話者無關(guān)的識別功能,并且能夠輸出具 有關(guān)于注冊的識別單詞和相應的單詞的以百分率(%)表示的估計的識別準確度的識別結(jié)果。
優(yōu)選地,語音識別指令和估計概率輸出單元130輸出孤立指令和由語音識別器 識別的相應的輸入語音信號為識別的單詞的概率值。
在另外的優(yōu)選實施例中,嘴唇視頻圖像輸入單元140可適當?shù)孬@得通過圖像輸 入傳感器輸入的輸入圖像或者通過有線或無線連接從外部傳送的輸入圖像。例如,在一 些優(yōu)選實施例中,在通過圖像輸入傳感器獲得輸入圖像的情況下,可通過將通過給定的 透鏡入射的目標的圖像信號轉(zhuǎn)換為電信號而適當?shù)孬@得輸入圖像。例如,在一些優(yōu)選實施例中,圖像輸入傳感器可包括電荷耦合裝置(CCD),CMOS,和其它商用的圖像采集 裝置。另外,可通過用于將由圖像輸入傳感器獲得的電信號轉(zhuǎn)換為數(shù)字信號的模/數(shù)轉(zhuǎn) 換器和用于處理由模/數(shù)轉(zhuǎn)換器轉(zhuǎn)換為圖像信號的數(shù)字信號的數(shù)字信號處理器(DSP)適 當?shù)孬@得預定的輸入圖像。在另外的優(yōu)選實施例中,輸入圖像可適當?shù)卮鎯υ诖鎯橘|(zhì) 中或者以有線或無線的方式傳送,由此獲得預定的輸入圖像。優(yōu)選地,嘴唇視頻圖像輸 入單元140可適當?shù)貙@得的輸入圖像轉(zhuǎn)換為單通道圖像。例如,在一些示例性實施例 中,輸入圖像可被改變?yōu)榛叶?。替代性地,在其它的示例性實施例中,如果輸入圖像是 “RGB”通道的多通道圖像,則輸入圖像可被適當?shù)馗淖優(yōu)閱瓮ǖ乐?。因此,輸入圖像 的亮度分布可通過將輸入圖像轉(zhuǎn)換為單通道的強度值而容易地表示。
優(yōu)選地,唇讀模塊150通過處理輸入圖像數(shù)據(jù)而識別來自說話者的語音指令。
優(yōu)選地,唇讀識別指令輸出單元160輸出由唇讀模塊150識別的指令。
根據(jù)本發(fā)明的另外的優(yōu)選實施例,語音識別與唇讀識別結(jié)果組合單元170以這 樣的方式適當?shù)亟M合基于音頻的語音識別結(jié)果與基于圖像的唇讀結(jié)果,以便適當?shù)貓?zhí)行 各個模式特征數(shù)據(jù)的組合或者組合由各個系統(tǒng)識別的結(jié)果。優(yōu)選地,在一些優(yōu)選實施例 中,本發(fā)明的目的是通過自由地使用現(xiàn)有的獨立的語音識別器將結(jié)果與唇讀組合。優(yōu)選 地,語音識別結(jié)果確定單元171和172接收獨立的音頻語音輸入單元110的語音識別指令 和估計概率輸出單元130的結(jié)果,確定單詞識別的可靠性的概率是高于還是低于適當?shù)?特定的閾值,并且輸出確定結(jié)果。優(yōu)選地,可以根據(jù)系統(tǒng)調(diào)整和調(diào)節(jié)閾值,并且可以證 實試驗結(jié)果典型地示出關(guān)于50%的可靠性的最高組合識別率。優(yōu)選地,當從語音識別結(jié) 果確定單元171和172的結(jié)果確定可靠性的概率高于閾值時,組合識別指令輸出單元173 和174向最終識別指令輸出單元180輸出語音識別器的識別結(jié)果指令,否則,輸出唇讀識 別結(jié)果指令作為識別結(jié)果。
如本文所述,可如下面的實例中所述擴展這樣的組合語音識別與唇讀結(jié)果的方 法。在一定的示例性實施例中,如果語音識別結(jié)果確定單元171和172的語音識別的可 靠性適當?shù)氐陀陂撝挡⑶掖阶x模塊沒有檢測到任何指令,則適當?shù)夭划a(chǎn)生輸出,以便防 止語音識別器由于噪聲而發(fā)生故障。如本文所述,當識別模塊中只有一個適當?shù)貦z測到 特定的單詞而其它識別器沒有檢測到任何單詞時,可以通過限定各自的操作而適當?shù)匦?改組合算法。
根據(jù)一定的示例性實施例,并且如圖2中所示,圖2是詳細示出圖1中的唇讀模 塊150的框圖。
優(yōu)選地,唇讀模塊150包括嘴唇檢測器210,用于檢測和跟蹤的嘴唇模型生成器 220,嘴唇跟蹤器230,語音片段檢測器M0,系統(tǒng)模式確定器250,唇讀識別學習單元 260,指令識別單元270和嘴唇特征數(shù)據(jù)庫觀0。
根據(jù)一些示例性實施例,如果來自嘴唇視頻圖像輸入單元140的輸入圖像是彩 色圖像,則嘴唇檢測器210適當?shù)貙⑤斎雸D像轉(zhuǎn)換為黑/白圖像。對使用彩色圖像的嘴 唇檢測算法已有研究,然而,已經(jīng)發(fā)現(xiàn)該算法可受照明影響并且在夜間在紅外圖像中可 能不能正確工作。因此,在上述示例性實施例中,將關(guān)于僅使用黑/白圖像檢測并跟蹤 嘴唇的情況給出說明。因此,可以在白天和夜間以魯棒的方式檢測并跟蹤嘴唇。根據(jù) 一些示例性實施例,在嘴唇檢測步驟中,首先通過自適應增強(Adaboost)算法基于局部二進制模式(LBP)檢測面部,并且關(guān)于嘴唇在面部的大致位置以同樣的方式適當?shù)貦z測 嘴唇。因此,在另外的相關(guān)實施例中,適當?shù)卦试S檢測器使用規(guī)一化面部和嘴唇圖像學 習。優(yōu)選地,Adaboost方法不能確定用于唇讀的嘴唇特征點的精確位置。因此,本發(fā)明 的目的在于使用主動外觀模型(AAM)嘴唇模型產(chǎn)生形狀和外觀模型,并使用該模型適當 地獲得精確的嘴唇特征點。
根據(jù)另外的優(yōu)選實施例,嘴唇模型生成器220在學習圖像上關(guān)于嘴唇圖像適當 地指出通過手而手工獲得的特征點的位置,收集這樣的數(shù)據(jù)以通過主成分分析(PCA)適 當?shù)厣尚螤钅P秃屯庥^模型,并且在AAM擬合和嘴唇特征跟蹤中使用這些模型。
優(yōu)選地,嘴唇跟蹤器230使用由嘴唇模型生成器220生成的形狀模型和 Lucas-kanade(LK)算法,跟蹤作為在嘴唇檢測后AAM擬合的結(jié)果而獲得的嘴唇特征 點。優(yōu)選地,使用作為特征值的形狀參數(shù),將對于各輸入圖像的嘴唇跟蹤結(jié)果適當?shù)靥?供給唇讀模塊150。
在又一個實施例中,語音片段檢測器240將預定周期的幀數(shù)據(jù)適當?shù)剌斎氲缴?經(jīng)網(wǎng)絡識別器中,以便基于作為對連續(xù)的輸入圖像進行嘴唇跟蹤的結(jié)果而適當?shù)孬@得的 一系列嘴唇模型參數(shù),確定片段是語音片段還是靜音片段。因此,作為確定結(jié)果,如果 語音片段延續(xù)然后改變?yōu)殪o音片段,則適當?shù)靥崛〔⑤敵稣Z音片段的特征數(shù)據(jù)。
根據(jù)一些優(yōu)選實施例,系統(tǒng)模式確定器250適當?shù)卮_定系統(tǒng)是處于嘴唇特征數(shù) 據(jù)的標簽已知的學習模式,還是處于嘴唇特征數(shù)據(jù)的標簽未知的識別模式。優(yōu)選地,在 學習模式中,使唇讀識別學習單元260使用特征數(shù)據(jù)和輸入標簽學習K最近鄰(K-NN)學 習器。優(yōu)選地,與HMM不同,可以通過少量的學習數(shù)據(jù)實現(xiàn)有效的學習,并且識別器 因為其結(jié)構(gòu)簡單可通過實時學習而逐漸更新。優(yōu)選地,在其中輸入特征值沒有標簽的識 別模式中,指令識別單元270通過在唇讀識別學習單元260中習得的K-NN識別器找到與 特征數(shù)據(jù)最相似的適當?shù)膶W習模式,并將作為特征值的結(jié)果指令適當?shù)剌敵鲋链阶x識別 指令輸出單元160。
優(yōu)選地,嘴唇特征數(shù)據(jù)庫280存儲離線或在線習得的每個指令的模式。
以下將更詳細地說明根據(jù)優(yōu)選的示例性實施例的唇讀模塊150的操作。
根據(jù)本發(fā)明的一些優(yōu)選實施例,嘴唇檢測器210通過使用LBP圖像轉(zhuǎn)換和 Adaboost算法在白天和夜間以魯棒的方式提供關(guān)于單色圖像(mono image)的嘴唇的大致 位置,使用整體嘴唇模型適當?shù)卮_定嘴唇的整體位置,使用唇角模型適當?shù)貦z測嘴唇的 角落,使用AAM嘴唇模型通過將嘴唇的角落位置設定為初始位置而適當?shù)貓?zhí)行精確擬 合,并且適當?shù)靥峁┨卣鼽c的坐標作為嘴唇跟蹤器230的初始位置值。
在一些示例性實施例中,嘴唇跟蹤器230使用基于LK的圖像配準算法和嘴唇形 狀模型,通過將各個AAM嘴唇探測結(jié)果設定為初始特征點,而跟蹤隨后的輸入圖像上的 特征點周圍的mXm個像素區(qū)域。另外,雖然可優(yōu)選地調(diào)整像素的數(shù)目,但是從下一幀 適當?shù)貦z測到并且關(guān)于每個特征點11X11個像素區(qū)域地匹配最相似的區(qū)域,并且將匹配 結(jié)果適當?shù)剌斎胫列螤钅P?,以便得到形狀模型參?shù)并將其提供給語音片段檢測器對0。
優(yōu)選地,語音片段檢測器240適當?shù)亟邮兆鳛橐幌盗袝r間流(temporal stream)的 嘴唇的形狀模型參數(shù),通過神經(jīng)網(wǎng)絡識別器適當?shù)卮_定每一幀的預定片段是否為語音, 當語音片段在持續(xù)預定的時間之后變化為非語音片段時適當?shù)靥崛≌Z音片段的特征數(shù)據(jù),并將數(shù)據(jù)適當?shù)靥峁┙o唇讀識別學習單元260。
根據(jù)本發(fā)明的另外的優(yōu)選實施例,唇讀識別學習單元260適當?shù)厥褂冒磫卧~和 標簽信息分組的準備好的嘴唇特征數(shù)據(jù)離線地學習K-NN唇讀識別器,并且作為結(jié)果優(yōu) 選地向唇讀模塊150提供初始識別器。
優(yōu)選地,指令識別單元270基于唇讀識別學習單元260的結(jié)果,關(guān)于新的輸入數(shù) 據(jù),通過k-NN識別算法適當?shù)刈R別單詞,并且適當?shù)叵虼阶x模塊150返回結(jié)果指令。
根據(jù)本發(fā)明的一些優(yōu)選實施例,并且如圖3中所示,圖3是適當?shù)貙崿F(xiàn)組合唇讀 與語音識別的多模式界面系統(tǒng)的詳細框圖。
優(yōu)選地,交互服務系統(tǒng)300包括服務情景數(shù)據(jù)庫310,服務屏幕320,屏幕轉(zhuǎn)換 單元330,識別目標單詞序列設置單元340,服務執(zhí)行單元350,多模式界面系統(tǒng)100和識 別結(jié)果確定單元360。
在另外的優(yōu)選實施例中,交互服務系統(tǒng)300通過交互系統(tǒng)或者情景庫系統(tǒng)適當 地限制在實際服務中要識別的單詞的數(shù)目,以便彌補唇讀系統(tǒng)200的識別率降低的基本 問題,從而達到識別率的顯著改善。
根據(jù)本發(fā)明的一些示例性實施例,服務情景數(shù)據(jù)庫310可優(yōu)選地假定配有導航 服務。優(yōu)選地,服務的屏幕可以適當?shù)卦O計為必要的服務屏幕,例如啟動屏幕、主菜單 屏幕、定位屏幕、路徑選擇屏幕、實際道路引導屏幕等。優(yōu)選地,服務情景數(shù)據(jù)庫310 預先定義可對各屏幕輸入的一序列指令,并且在執(zhí)行唇讀或語音識別時適當?shù)靥峁┛蓪?各服務屏幕或者在各階段輸入的該序列指令。
優(yōu)選地,服務屏幕320表示各個服務屏幕,諸如但不限于,初始屏幕,主菜單屏眷等ο
優(yōu)選地,屏幕轉(zhuǎn)換單元330根據(jù)在服務情景數(shù)據(jù)庫310中定義的功能,響應于輸 入指令執(zhí)行屏幕轉(zhuǎn)換,并且向服務屏幕320提供當前服務狀態(tài)的信息。
在另外的優(yōu)選實施例中,識別目標單詞序列設置單元340適當?shù)卦O置在根據(jù)服 務情景數(shù)據(jù)庫310發(fā)生狀態(tài)改變的情況下,各服務狀態(tài)或屏幕所需要的一序列單詞。
優(yōu)選地,服務執(zhí)行單元350響應于輸入指令適當?shù)貓?zhí)行屏幕轉(zhuǎn)換、語音引導、 信息注冊和其它注冊的應用服務。
在另外的優(yōu)選實施例中,多模式界面系統(tǒng)100通過參照由識別目標單詞序列設 置單元340設置的識別目標單詞序列組合唇讀與語音識別,而適當?shù)貓?zhí)行抗噪語音識 別。
優(yōu)選地,識別結(jié)果確定單元360適當?shù)卮_定語音識別或者唇讀識別是否失敗, 以決定是否對輸入音頻和視頻信號執(zhí)行服務。根據(jù)一些優(yōu)選實施例,這是通過使用其本 身的指令識別的估計可靠性來確定的。在另外的優(yōu)選實施例中,如果識別成功,則服務 執(zhí)行單元350適當?shù)貓?zhí)行相應于指令的服務,否則,在服務等待模式中等待指令輸入。
根據(jù)本發(fā)明的一些優(yōu)選實施例并且如圖4中所示,圖4是示出說話者自適應實時 唇讀學習系統(tǒng)的詳細框圖。
在一些優(yōu)選實施例中,說話者自適應實時唇讀學習系統(tǒng)400適當?shù)匕ù阶x特 征檢測單元410、語音識別單詞估計概率確定單元420,嘴唇特征檢測確定單元430,和 實時唇讀學習單元440。在一些優(yōu)選實施例中,要求實時學習的原因在于,盡管唇讀適當?shù)匾蟠罅康膶W習數(shù)據(jù)以學習具有大的個人特征數(shù)據(jù)偏差的說話者無關(guān)的識別器,然而 收集學習數(shù)據(jù)并不容易,因此實時唇讀學習單元440需要學習k-NN識別器,以便在實際 情況下適應于個體的服務使用者。
在本發(fā)明的一些優(yōu)選實施例中,唇讀特征檢測單元410從來自唇讀模塊150的語 音片段檢測器MO的輸入圖像適當?shù)貦z測唇讀特征。
根據(jù)本發(fā)明的一些優(yōu)選實施例,語音識別單詞估計概率確定單元420適當?shù)卦u 價由語音識別模塊120識別的指令的可靠性,以確定該指令是否可以用作由唇讀特征檢 測單元410檢測到的嘴唇圖像特征的學習標簽。優(yōu)選地,如果由語音識別模塊120識別 的指令的可靠性的估計值高于特定的閾值,則執(zhí)行學習,否則,不執(zhí)行學習。
優(yōu)選地,嘴唇特征檢測確定單元430適當?shù)卮_定是否正確地檢測到圖像特征數(shù) 據(jù),從而為即使語音識別模塊120已適當?shù)刈R別指令也沒有檢測到圖像特征數(shù)據(jù)的情況 作準備。
優(yōu)選地,在一些實施例中,實時唇讀學習單元440通過使用從語音識別模塊120 提供的指令作為標簽,以與離線同樣的方式,對在實際服務系統(tǒng)中從唇讀特征檢測單元 410提供的嘴唇特征值適當?shù)貓?zhí)行k-NN學習,來更新圖2中的嘴唇特征數(shù)據(jù)庫觀0。優(yōu) 選地,在服務期間對于每個輸入,這樣的一系列學習持續(xù),以學習基于在無噪聲環(huán)境下 的語音識別模塊120的高識別性能的唇讀模塊150,從而即使在噪聲環(huán)境下語音識別模塊 120不能再工作,也使唇讀模塊150能夠適當?shù)刈R別指令并繼續(xù)服務。
本發(fā)明優(yōu)選地提供了一種對于在現(xiàn)有語音識別方法中觀察到的識別率降低的問 題的解決方案。因此,本發(fā)明優(yōu)選地允許使用者在噪聲持續(xù)存在的環(huán)境中,諸如行駛 的車輛的內(nèi)部,取代基于音頻的語音識別器而適當?shù)夭僮鲗Ш降幕局噶?。本發(fā)明進一 步提供了在駕駛過程中通過經(jīng)由觸摸屏操作導航系統(tǒng)而不分散使用者注意力的方法和系 統(tǒng),因此防止了事故的風險。另外,本發(fā)明提供了一種使用語音識別器操作諸如總是產(chǎn) 生噪聲的音頻設備的裝置的方法。
優(yōu)選地,本發(fā)明并不局限于特定的服務,而是可應用于幾乎所有目前應用語音 識別器的服務,例如但不限于,車輛、機械手、家用電器等。因此,這克服了適當?shù)貞?用在暴露于日常噪聲的實際環(huán)境中可能不能正確工作的現(xiàn)有的語音識別器的難題。
根據(jù)本發(fā)明的優(yōu)選實施例,組合唇讀與語音識別的多模式界面系統(tǒng)實現(xiàn)了一種 從通過攝像機獲得的面部圖像適當?shù)貦z測嘴唇,跟蹤嘴唇運動,并且基于嘴唇的特征值 適當?shù)刈R別語音指令的唇讀系統(tǒng),然后適當?shù)亟M合唇讀系統(tǒng)與基于音頻的語音識別系 統(tǒng),由此提供了一種多模式語音識別系統(tǒng)。優(yōu)選地,因為組合唇讀與語音識別的多模式 界面系統(tǒng)適當?shù)夭皇芤纛l噪聲的影響,所以組合唇讀與語音識別的多模式界面系統(tǒng)優(yōu)選 地允許使用攝像機圖像的唇讀技術(shù)在一定的環(huán)境中通過接收指令而提供服務,在該環(huán)境 中由于在室內(nèi)收聽廣播時或者在車窗落下而駕駛車輛時所產(chǎn)生的噪聲,語音識別器無法 工作。
在另一優(yōu)選實施例中,組合唇讀與語音識別的多模式界面系統(tǒng)可基于情景適當 地配置作為交互系統(tǒng)的導航系統(tǒng)的應用服務屏幕,并且適當?shù)叵拗埔R別的指令,使得 可根據(jù)各服務屏幕狀態(tài)適當?shù)貎H識別必要的指令,由此提高單個指令的識別率。
在本發(fā)明的另外的優(yōu)選實施例中,組合唇讀與語音識別的多模式界面系統(tǒng)應用能夠?qū)崟r在線學習的識別器算法,以便如果駕駛者長時間使用該系統(tǒng),則使識別器適當 地適應駕駛者的語音特征,由此逐漸提高識別率。
本發(fā)明的以上實施例是示例性的而非限制性的。各種替代方案和等同方案都是 可能的。本發(fā)明不受本文所述實施例的限制。本發(fā)明也不局限于任何特定形式的半導體 裝置。鑒于本公開,其它的增加、減少或改型都是顯而易見的,并且意在屬于所附權(quán)利 要求的范圍。0092]附圖中各元件的標記0093]100組合唇讀與語音識別的多模式界面系統(tǒng)0094]110音頻語音輸入單元0095]120語音識別模塊0096]130語音識別指令和估計概率輸出單元0097]140嘴唇視頻圖像輸入單元0098]150唇讀模塊0099]160唇讀識別指令輸出單元0100]170語音識別與唇讀識別結(jié)果組合單元0101]171語音識別結(jié)果確定單元0102]172唇讀識別結(jié)果確定單元0103]173組合識別指令(語音)輸出單元0104]174組合識別指令(唇讀)輸出單元0105]180最終識別指令輸出單元0106]210嘴唇檢測器0107]220嘴唇模型生成器0108]230嘴唇跟蹤器0109]240語音片段檢測器0110]250系統(tǒng)模式確定器0111]260唇讀識別學習單元0112]270指令識別單元0113]280嘴唇特征數(shù)據(jù)庫0114]300交互服務系統(tǒng)0115]310服務情景數(shù)據(jù)庫0116]320服務屏幕0117]330屏幕轉(zhuǎn)換單元0118]350服務執(zhí)行單元0119]360識別結(jié)果確定單元0120]400說話者自適應實時唇讀學習系統(tǒng)0121]410唇讀特征檢測單元0122]420語音識別單詞估計概率確定單元0123]430嘴唇特征檢測確定單元0124]440實時唇讀學習單元
權(quán)利要求
1.一種組合唇讀與語音識別的多模式界面系統(tǒng),包括音頻語音輸入單元,其獲得通過音頻輸入傳感器輸入的聲音信號或者通過有線或無 線連接從外部傳送的輸入音頻信號;語音識別單元,其從輸入音頻信號識別語音并且計算估計的識別準確度; 語音識別指令和估計概率輸出單元,其輸出與語音識別單元識別的語音相對應的指 令和估計的識別概率值;嘴唇視頻圖像輸入單元,其獲得通過圖像輸入傳感器輸入的輸入圖像或者通過有線 或無線連接從外部傳送的輸入圖像;唇讀單元,其通過處理輸入圖像識別說話者的唇讀指令; 唇讀識別指令輸出單元,其輸出由唇讀單元識別的唇讀指令;以及 語音識別與唇讀識別結(jié)果組合單元,如果估計的概率高于閾值,則其輸出語音識別 指令,如果估計的概率低于閾值,則其輸出唇讀指令。
2.如權(quán)利要求1所述的系統(tǒng),其中唇讀單元包括嘴唇檢測器,其使用來自嘴唇視頻圖像輸入單元的輸入圖像檢測嘴唇特征; 嘴唇模型生成器,其使用主動外觀模型(AAM)嘴唇模型生成形狀模型和外觀模型;嘴唇跟蹤器,其使用由嘴唇模型生成器生成的形狀模型和Lucas-KanadeCLK)算法, 跟蹤作為在嘴唇檢測后AAM擬合的結(jié)果而獲得的嘴唇特征點;語音片段檢測器,其將預定周期的幀數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡識別器中,以便基于作為 對連續(xù)的輸入圖像進行嘴唇跟蹤的結(jié)果而獲得的一系列嘴唇模型參數(shù),確定片段是語音 片段還是靜音片段;系統(tǒng)模式確定器,其確定系統(tǒng)是處于嘴唇特征數(shù)據(jù)的標簽已知的學習模式,還是處 于嘴唇特征數(shù)據(jù)的標簽未知的識別模式;唇讀識別學習單元,如果系統(tǒng)處于學習模式,則其使用特征數(shù)據(jù)和輸入標簽學習K 最近鄰域(K-NN)學習器;指令識別單元,如果系統(tǒng)處于識別模式,則其通過習得的K-NN識別器找到與特征 數(shù)據(jù)最相似的學習模式,并且輸出作為特征值的結(jié)果指令;以及 嘴唇特征數(shù)據(jù)庫,其存儲離線或在線習得的每個指令的模式。
3.如權(quán)利要求2所述的系統(tǒng),還包括唇讀特征檢測單元,其從來自語音片段檢測器的輸入圖像檢測唇讀特征; 語音識別單詞估計概率確定單元,如果由語音識別模塊識別的指令的估計概率高于 閾值,則確定使用由唇讀特征檢測單元檢測的嘴唇圖像作為嘴唇特征的學習標簽執(zhí)行學 習;嘴唇特征檢測確定單元,其確定是否正確地檢測到圖像特征數(shù)據(jù);以及 實時唇讀學習單元,其通過使用從基于的語音識別模塊提供的指令作為標簽,對從 唇讀特征檢測單元提供的嘴唇特征值執(zhí)行k-NN學習,來更新嘴唇特征數(shù)據(jù)庫,由此實現(xiàn) 說話者自適應實時學習系統(tǒng)。
4.如權(quán)利要求1所述的系統(tǒng),還包括交互服務單元,其根據(jù)服務情景以有限的方式識 別必要的指令,由此實現(xiàn)能夠?qū)崟r學習的在線學習識別算法。
5.如權(quán)利要求4所述的系統(tǒng),其中交互服務單元包括服務情景數(shù)據(jù)庫,其預先定義可對各屏幕輸入的一序列指令,并且在執(zhí)行唇讀或者 語音識別時提供可對各服務屏幕或者在各階段輸入的該序列指令; 服務屏幕;屏幕轉(zhuǎn)換單元,其根據(jù)在服務情景數(shù)據(jù)庫中定義的功能響應于輸入指令執(zhí)行屏幕轉(zhuǎn) 換,并且向服務屏幕提供當前服務狀態(tài)的信息;識別目標單詞序列設置單元,其設置在基于服務情景數(shù)據(jù)庫發(fā)生狀態(tài)改變的情況 下,各服務狀態(tài)或者屏幕所要求的一序列單詞;如權(quán)利要求1所述的多模式界面系統(tǒng),其通過參照由識別目標單詞序列設置單元設 置的識別目標單詞序列組合唇讀與語音識別,來執(zhí)行抗噪語音識別;服務執(zhí)行單元,其響應于輸入指令執(zhí)行屏幕轉(zhuǎn)換、語音引導、信息注冊和其它注冊 的應用服務;以及識別結(jié)果確定單元,其確定語音識別或者唇讀識別是否失敗,以決定是否對輸入音 頻和視頻信號執(zhí)行服務,從而限制在實際服務中要識別的單詞的數(shù)目,由此顯著提高識 別率。
6.一種組合唇讀與語音識別的多模式界面系統(tǒng),包括 音頻語音輸入單元;語音識別單元;語音識別指令和估計概率輸出單元; 嘴唇視頻圖像輸入單元; 唇讀單元;唇讀識別指令輸出單元;以及語音識別與唇讀識別結(jié)果組合單元,其輸出語音識別指令。
7.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中音頻語音輸入單 元獲得通過音頻輸入傳感器輸入的聲音信號或者通過有線或無線連接從外部傳送的輸入音頻信號。
8.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中語音識別單元從 輸入音頻信號識別語音并且計算估計的識別準確度。
9.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中語音識別指令和 估計概率輸出單元輸出與語音識別單元識別的語音相對應的指令和估計的識別概率值。
10.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中嘴唇視頻圖像 輸入單元獲得通過圖像輸入傳感器輸入的輸入圖像或者通過有線或無線連接從外部傳送 的輸入圖像。
11.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中唇讀單元通過 處理輸入圖像識別說話者的唇讀指令。
12.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中唇讀識別指令 輸出單元輸出由唇讀單元識別的唇讀指令。
13.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中如果估計的概 率高于閾值,則語音識別與唇讀識別結(jié)果組合單元輸出語音識別指令。
14.如權(quán)利要求6所述的組合唇讀與語音識別的多模式界面系統(tǒng),其中如果估計的概 率低于閾值,則語音識別與唇讀識別結(jié)果組合單元輸出唇讀指令。
全文摘要
本發(fā)明提供了一種組合唇讀與語音識別的多模式界面系統(tǒng),可僅通過語音和嘴唇運動發(fā)布導航操作指令,因此使得駕駛員在導航操作過程中向前看,并且減少在行駛過程中與導航操作相關(guān)的車輛事故。根據(jù)本發(fā)明的組合唇讀與語音識別的多模式界面系統(tǒng)包括音頻語音輸入單元;語音識別單元;語音識別指令和估計概率輸出單元;嘴唇視頻圖像輸入單元;唇讀單元;唇讀識別指令輸出單元;和語音識別與唇讀識別結(jié)果組合單元,其輸出語音識別指令。
文檔編號G06F3/01GK102023703SQ20091024688
公開日2011年4月20日 申請日期2009年12月3日 優(yōu)先權(quán)日2009年9月22日
發(fā)明者李振碩, 李珍, 申鐘柱, 金大熙, 金大鎮(zhèn) 申請人:現(xiàn)代自動車株式會社, 起亞自動車株式會社