專利名稱:話音控制式無線通信裝置系統(tǒng)的控制中心的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用基于無線服務(wù)器的話音識別工具以通過話音命令控制各種無線 通信裝置。
背景技術(shù):
話音控制式系統(tǒng)己存在并使用了許多年。所述系統(tǒng)(通常并入有駐存在受控裝置 上的計算機(jī)硬件和軟件的組合)允許最終用戶通過敘述口頭命令來控制裝置。所述口 頭命令隨后被轉(zhuǎn)換成可控制電子裝置的可執(zhí)行命令。當(dāng)今,可在分布在從計算機(jī)接口、 汽車、蜂窩式電話到其它手持式裝置范圍內(nèi)的各種類型的技術(shù)中找到驅(qū)動話音控制式 裝置的話音識別系統(tǒng)。
無線通信裝置本身特別適合于話音控制。所述無線裝置通常將蜂窩式電話、電子 郵件、聯(lián)系人列表、日歷、互聯(lián)網(wǎng)web瀏覽、多媒體播放器和許多其它類似的電子應(yīng) 用程序組合成單個電子包裝,所述電子包裝小得足以裝入口袋或錢包中。與無線裝置 的互相作用通常是通過附接到所述無線裝置的小鍵盤來進(jìn)行。由于所述鍵盤比標(biāo)準(zhǔn)鍵 盤小得多,因此經(jīng)常發(fā)生可能是破壞性的錯誤。此外,所述裝置(例如)通常是在駕 駛時使用,因此監(jiān)視所述裝置并手動輸入命令不切合實(shí)際。最后,所述問題阻礙了將 裝置用于其計劃的用途。因此,需要能夠使用話音控制而非鍵盤來控制無線裝置。
現(xiàn)有無線通信裝置相依于完全駐存在所述裝置上的程序設(shè)計。所述系統(tǒng)的能力受 到通??捎糜谝苿釉捯艨刂剖窖b置上的減小的存儲器和計算功率的極大限制。然而, 語音識別準(zhǔn)確度的質(zhì)量不良,這在很大程度上是因為面對移動用戶的環(huán)境挑戰(zhàn),例如, 背景噪聲、用戶口音和成本效率硬件,例如,不能提供高質(zhì)量音頻的麥克風(fēng)。
美國專利第7,027,987("the '987專利)揭示一種將話音介接到搜索引擎的方法。然 而,如同所述'987專利的發(fā)明人在其論文中報告的那樣,在試驗中僅有60%的時間能 夠達(dá)到對口語單詞的正確識別。參見,Alex Franz和Brian Milch.Searching the Web by Voice, Proc.l9th International Conference on Computational Linguistics, 1213-1217 (2002),。
因此,需要一種可執(zhí)行各種應(yīng)用程序同時維持對口語單詞的極高識別準(zhǔn)確度的話 音控制式無線通信裝置。
發(fā)明內(nèi)容
無線通信裝置接受來自最終用戶的所記錄音頻數(shù)據(jù)。所述音頻數(shù)據(jù)可呈請求動作 的命令的形式,所述動作通常在所述裝置上手動地執(zhí)行,例如,發(fā)送電子郵件、安排 約會時間、起始電話呼叫、搜索互聯(lián)網(wǎng)、播放多媒體文件(例如,MP3歌曲)或請求 與新聞有關(guān)的信息(例如,體育比分或股票行情)。同樣地,所述音頻數(shù)據(jù)可為將被轉(zhuǎn) 換成文本文件且保存為附注、信件或其它文本數(shù)據(jù)的文本。所述音頻數(shù)據(jù)還原為呈裝 置硬件支持的格式的數(shù)字話音文件,例如,wav、 mp3、 vnf文件或類似文件。所述數(shù) 字話音文件通過受保護(hù)或不受保護(hù)的無線通信發(fā)送到一個或一個以上服務(wù)器計算機(jī)以 供進(jìn)一步處理。所述服務(wù)器計算機(jī)通常由為所述通信裝置提供電話和電子郵件接入的 相同電信服務(wù)來管理。 一旦所述音頻數(shù)據(jù)通過辨識,所述服務(wù)器便通過建造應(yīng)用程序 命令或文本文件來處理所述數(shù)據(jù)并將所得信息發(fā)送到所述無線裝置供正確地執(zhí)行。
將所述音頻數(shù)據(jù)運(yùn)送到服務(wù)器供語音識別允許由更強(qiáng)大的語音引擎來處理請求。 然而,這樣做并不能改善被解譯數(shù)據(jù)的質(zhì)量。如由許多研究和失敗的系統(tǒng)所證明 (http:〃www.cs.berkeley.edu/免7Emilch/p叩ers/gvs.pdf),如果音頻的質(zhì)量不良,那么最好 的語音識別也不能產(chǎn)生準(zhǔn)確的結(jié)果。這致使用戶停止使用所述系統(tǒng)。
因此,本發(fā)明通過以下方式來克服單詞識別準(zhǔn)確度的問題不僅利用所述服務(wù)器 計算機(jī)的功率來執(zhí)行語音識別,而且本發(fā)明還評估所述語音識別過程的置信度。如果 所述置信度高,那么所述系統(tǒng)自動地建造應(yīng)用程序命令或創(chuàng)建文本文件供傳輸?shù)剿?通信裝置。另一選擇為,如果所述語音識別的置信低,那么將所記錄的音頻數(shù)據(jù)文件 路由到電信服務(wù)雇用的人類抄錄員,所述抄錄員手動地審閱數(shù)字話音文件且建造所述 應(yīng)用程序命令或文本文件。 一旦創(chuàng)建了所述應(yīng)用程序命令,其便被傳輸?shù)剿鐾ㄐ叛b 置。作為本發(fā)明的結(jié)果,已顯示通信裝置背景中的語音識別在90%以上的時間內(nèi)是準(zhǔn) 確的。
具體實(shí)施例方式
圖1中顯示一種用于無線通信裝置的話音控制式系統(tǒng)。所述系統(tǒng)包括與一個或一 個以上服務(wù)器計算機(jī)20無線通信的手持式通信裝置10。在最低程度上,通信裝置IO 具有運(yùn)行程序(也稱為應(yīng)用程序)的能力。通信裝置10還具有音頻記錄能力,例如, 麥克風(fēng),以便可記錄來自用戶呈話音命令形式的音頻數(shù)據(jù)并將所述命令保存為記錄的
話音命令文件30。
通信裝置10的用戶存取駐存在裝置IO上的話音命令應(yīng)用程序,并向裝置的麥克 風(fēng)口述控制裝置10的命令。裝置10記錄話音命令并創(chuàng)建記錄的話音命令文件30。裝 置10可視情況將記錄的話音命令文件30存儲在內(nèi)部以供將來使用。然后,通信裝置 10將記錄的話音命令文件30以無線方式發(fā)送到服務(wù)器計算機(jī)20并等待服務(wù)器的響 應(yīng)。
在接收到記錄的話音命令文件30后,服務(wù)器計算機(jī)20執(zhí)行一系列編程模塊以處 理記錄的話音命令文件30。最初,服務(wù)器計算機(jī)20對記錄的話音命令文件30執(zhí)行語 音識別40,從而產(chǎn)生解譯的話音命令50。在其中多個服務(wù)器正運(yùn)行并行語音識別過程 的情況下,所述系統(tǒng)將基于各種參數(shù)(包含但不限于個別服務(wù)器的活動)確定哪一服 務(wù)器計算機(jī)20引導(dǎo)記錄的話音命令文件30來進(jìn)行語音識別。服務(wù)器計算機(jī)20可視情 況將記錄的話音命令文件30存儲在內(nèi)部以供將來使用。服務(wù)器計算機(jī)20評估語音識 別過程60的置信度以確定所述語音識別的準(zhǔn)確度。如果所述置信度處在預(yù)定水平或在 所述預(yù)定水平以上,那么服務(wù)器20將調(diào)用機(jī)器可讀命令70的自動創(chuàng)建以創(chuàng)建應(yīng)用程 序命令80。
另一方面,如果語音識別過程40的置信度低于預(yù)定水平,那么服務(wù)器20將記錄 的話音命令文件30路由到人類抄錄員以供手動審閱并創(chuàng)建機(jī)器可讀命令90。
一旦創(chuàng)建了機(jī)器可讀命令80,服務(wù)器計算機(jī)20便將應(yīng)用程序命令80傳輸?shù)酵ㄐ?裝置10。通信裝置IO將接收的應(yīng)用程序命令80引導(dǎo)到合適的應(yīng)用程序供執(zhí)行。
通信裝置IO可為當(dāng)今可得到的許多類似類型裝置中的一者。典型的通信裝置10 將能夠運(yùn)行各種應(yīng)用程序,包含但不限于無線電話通信、無線電子郵件、日歷、聯(lián)系 人列表、無線互聯(lián)網(wǎng)web瀏覽和多媒體呈現(xiàn)。所述應(yīng)用程序是以本機(jī)裝置硬件可支持 的語言寫入,例如C+十、Symbian、 Java、 Linux和類似語言。另外,裝置10還可能能 夠運(yùn)行除裝置廠家提供的應(yīng)用程序以外的應(yīng)用程序。
圖2顯示在通信挺置上運(yùn)行的話音命令應(yīng)用程序。用戶以各種方式,優(yōu)選地通過 按下裝置上的按鈕(其起始應(yīng)用程序100)來啟動應(yīng)用程序。所述應(yīng)用程序提示用戶 進(jìn)行音頻記錄,例如,語言命令,其接收iio并以裝置支持的格式保存為記錄的話音 命令文件130,例如,wav、 mp3或vnf文件??蓛?yōu)選地基于硬件使用其它文件格式。 如果用戶正記錄話音命令,那么應(yīng)用程序可視情況呈現(xiàn)可能命令105列表。
所述裝置隨后與服務(wù)器計算機(jī)建立無線數(shù)據(jù)連接并將記錄的話音命令文件130傳 輸?shù)剿龇?wù)器。所述連接可基于用戶以及系統(tǒng)管理員的偏好而為受保護(hù)或不受保護(hù) 的通信。優(yōu)選地,所述裝置維持與服務(wù)器計算機(jī)的連接直到服務(wù)器響應(yīng)140為止。偶 爾地,所述響應(yīng)可花費(fèi)太長時間且所述數(shù)據(jù)連接在接收到所述響應(yīng)之前便終止。在所 述情況下,所述裝置或服務(wù)器可在稍后重新建立通信以傳輸(或接收)呈應(yīng)用程序命 令180形式的服務(wù)器響應(yīng)并終止所述連接。
所述通信裝置接收應(yīng)用程序命令文件180并詢問應(yīng)用程序命令以確定通信裝置必
須采取的動作150。基于應(yīng)用程序命令文件180,將所述命令引導(dǎo)到適當(dāng)?shù)膽?yīng)用程序供 執(zhí)行160。
此外,基于話音命令,可將對應(yīng)用程序的執(zhí)行引導(dǎo)到特殊內(nèi)容提供者。舉例來說, 對互聯(lián)網(wǎng)內(nèi)容的請求可來自互聯(lián)網(wǎng)上的若干個源。運(yùn)行所述系統(tǒng)的電信服務(wù)可與互聯(lián) 網(wǎng)內(nèi)容提供者達(dá)成協(xié)定以將所有此類請求僅引導(dǎo)到所述互聯(lián)網(wǎng)內(nèi)容提供者。所述協(xié)定 可在財務(wù)上有益于電信服務(wù)。同樣地,用戶可選擇將使用哪一互聯(lián)網(wǎng)內(nèi)容提供者且可 將所述提供者預(yù)定為此類請求的源。
當(dāng)音頻記錄為話音命令時,所述話音命令優(yōu)選地將具有為所有命令遵循的標(biāo)準(zhǔn)格 式。話音命令的標(biāo)準(zhǔn)化格式允許更容易地執(zhí)行額外的命令。所述話音命令應(yīng)以關(guān)鍵字 短語開始以識別命令的類型。關(guān)鍵字短語的實(shí)例包含但不限于"呼叫聯(lián)系人"、"電子 郵件"、"搜索web"、"尋找電影"或"播放歌曲"。所述關(guān)鍵字短語基于話音命令的類 型而后跟額外的參數(shù)。舉例來說,如果關(guān)鍵字短語為"呼叫聯(lián)系人",那么額外的參數(shù) 應(yīng)為所述聯(lián)系人的姓名。更詳盡的實(shí)例可包含電子郵件命令,所述電子郵件命令將包 含多個額外的參數(shù),例如,聯(lián)系人姓名或電子郵件地址、主題和文本。某些參數(shù)可以 參數(shù)短語(例如,電子郵件話音命令的"主題")為開始或在沒有參數(shù)短語的情況下簡 單地附加到關(guān)鍵字短語。如在關(guān)鍵字短語"呼叫聯(lián)系人"之后的聯(lián)系人姓名中那樣。
一旦用戶向通信裝置敘述了話音命令,所述裝置便以適當(dāng)?shù)臄?shù)字文件格式保存記 錄的話音命令以供傳輸?shù)椒?wù)器計算機(jī)。視情況,所述系統(tǒng)還可附加指示從其接收記 錄的話音命令的通信裝置的唯一裝置識別符。基于所述唯一裝置識別符,所述系統(tǒng)可 識別以下描述的額外有用信息。
如果通信裝置上維持聯(lián)系人列表,那么所述列表可與記錄的視頻文件一起周期性 地傳輸且維持在服務(wù)器計算機(jī)上。所保存的聯(lián)系人列表用于增加語音轉(zhuǎn)譯的準(zhǔn)確度。 語音識別過程使用所述列表來幫助需要來自聯(lián)系人列表的輸入的自動話音命令轉(zhuǎn)譯。 另外,如果將話音命令發(fā)送到人類抄錄員供審閱,那么所述抄錄員可存取特殊用戶的 聯(lián)系人列表,或可將所述聯(lián)系人列表自動地呈現(xiàn)給所述人類抄錄員。
當(dāng)將所述聯(lián)系人列表發(fā)送到服務(wù)器計算機(jī)時,便可視需要操縱所述列表。舉例來 說,所述服務(wù)器計算機(jī)可管理具有中間名字的首字母和不具有中間名字的首字母兩者 的聯(lián)系人姓名,以使不具有中間名字的首字母的記錄向后解析為具有中間名字的首字 母的記錄。舉例來說,如果用戶在其聯(lián)系人列表中請求其所具有的針對Robert Smith 的聯(lián)系人,但在其數(shù)據(jù)庫中所具有的唯一記錄為Robert T. Smith,那么所述系統(tǒng)可找 出Robert T. Smith并將結(jié)果返回到所述用戶。
圖3顯示對從通信裝置傳輸?shù)乃涗浽捯裘钗募姆?wù)器計算機(jī)處理。所述服 務(wù)器計算機(jī)以及對話音命令的所有處理通常由為所述通信裝置提供無線通信的電信服 務(wù)來控制。所述通信裝置建立與服務(wù)器計算機(jī)的無線數(shù)據(jù)連接并將記錄的話音命令文 件傳輸?shù)椒?wù)器計算機(jī)200。所述服務(wù)器計算機(jī)對記錄的話音命令文件230執(zhí)行語音 識別210??墒褂每稍谑袌錾腺彽玫恼Z音識別程序,例如,可從Nuance, Inc.,公司購得
的Dragon Naturally Speaking,或者可使用定制的語音識別程序。語音識別過程導(dǎo)致創(chuàng) 建解譯的話音命令文件250。所述語音識別軟件還應(yīng)能夠提供測量軟件對話音命令準(zhǔn) 確識別的確信程度的置信度。所述置信測量通常被并入識別過程中。
臨界置信度(即,如果識別過程的置信不充足,那么必須執(zhí)行的額外處理的置信 度水平)可由系統(tǒng)管理員或者系統(tǒng)自身來調(diào)節(jié)。如果由語音識別產(chǎn)生的置信度處在臨 界置信度或在所述臨界置信度以上,那么使用來自語音識別過程210的所解譯話音命 令250自動地創(chuàng)建240應(yīng)用程序命令280。相反,如果由語音識別產(chǎn)生的置信度低于 所述臨界置信度,那么將記錄的話音命令文件230路由到人類抄錄員供手動創(chuàng)建機(jī)器 可讀命令文件280。
機(jī)器可讀命令文件80應(yīng)呈標(biāo)準(zhǔn)格式的形式,例如,Xml。標(biāo)準(zhǔn)格式允許容易地包 含新的命令。舉例來說,如果話音命令為"呼叫聯(lián)系人Bob Jones",那么所述系統(tǒng)便 將"呼叫聯(lián)系人"識別為關(guān)鍵字短語并針對電話呼叫類型建造Xml代碼(例如, <commandtype>call)。在知道命令類型后,所述系統(tǒng)接下來分析出姓名并創(chuàng)建Xml代 碼(例如,<contact>Bob Jones)。因此,應(yīng)用程序命令文件280將為 <commandtype>call<contact>Bob Jones。其它格式已為所屬技術(shù)領(lǐng)域的技術(shù)人員熟知且 可容易地替代Xml格式。
一旦創(chuàng)建了應(yīng)用程序命令文件280,不管用來創(chuàng)建所述應(yīng)用程序命令文件的過程 如何,所述服務(wù)器計算機(jī)都會通過建立的無線數(shù)據(jù)連接將文件280返回到通信裝置。 如上所述,如果數(shù)據(jù)連接已終止,那么所述服務(wù)器計算機(jī)可重新建立連接以將文件280 傳輸?shù)酵ㄐ叛b置。
圖4顯示使用不同的并行語音識別過程而非單個語音識別過程的本發(fā)明的另一實(shí) 施例。所述方法的優(yōu)點(diǎn)是不同語音識別系統(tǒng)的差異,從而可獲得最準(zhǔn)確的語音識別。 在完成所有語音識別過程310時,所述系統(tǒng)評估每一過程的置信度320。如果所述語 音識別過程310的置信度中的至少一者處在臨界置信度或在臨界置信度以上,那么所 述系統(tǒng)選擇具有最高置信度的所解譯話音命令文件340并基于解譯的話音命令文件 395自動地創(chuàng)建應(yīng)用程序命令390。如果沒有一個過程產(chǎn)生處在臨界置信度或者在臨界 置信度以上的置信度,那么將記錄的話音命令路由到人類抄錄員供審閱并手動創(chuàng)建應(yīng) 用程序命令360。
視情況,可能需要額外的面向內(nèi)容的語音識別過程335。面向內(nèi)容的語音識別過 程335是使用特殊詞典(例如,法律詞典)或特殊語言(例如,西班牙語詞典)的過 程?;诔跏颊Z音識別過程310的結(jié)果,且假定所述語音識別過程在臨界置信度320 以上,便可確定記錄的話音命令需要由面向內(nèi)容的語音識別過程335進(jìn)行額外的處理。 同樣地,可基于用戶已挑選額外的面向內(nèi)容的語音識別過程而調(diào)用額外的面向內(nèi)容的 語音識別過程335。所述系統(tǒng)將能夠確定特殊用戶己基于經(jīng)編碼唯一識別符請求的額 外的面向內(nèi)容的語音識別過程。
在本發(fā)明的一個實(shí)施例中,如果將記錄的話音命令文件路由到人類抄錄員,那么
所述系統(tǒng)將試圖將所述記錄的話音命令文件引導(dǎo)到最適當(dāng)?shù)某泦T。可基于用戶界定 準(zhǔn)則的數(shù)目來選擇適當(dāng)?shù)某泦T。舉例來說,所述系統(tǒng)可存取任一特殊抄錄員的工作 負(fù)荷并將文件指派給最不忙碌的抄錄員。另一選項是確定命令類型并將記錄的話音命 令文件指派給最適合于特殊命令類型的抄錄員。這在所述命令可需要大量鍵入的情況 下尤其有用,例如,通常將需要鍵入額外信息(例如,電子郵件的文本)的電子郵件 命令。因此,將具有大量鍵入要求的命令引導(dǎo)到已被識別為最好打字員的抄錄員。
還可將記錄的話音命令文件引導(dǎo)到己經(jīng)歷過創(chuàng)建所述話音命令的用戶的抄錄員。 由于唯一識別符是視情況附加到每一記錄的話音命令文件,因此所述系統(tǒng)可確定哪一 抄錄員先前己審閱過來自記錄所述話音命令的用戶的話音命令。由于地區(qū)性方言和口 音的原因,因此可能需要讓同一抄錄員審閱來自同一用戶的話音命令。即,所述抄錄 員熟悉用戶的口音且將來的抄錄對于所述抄錄員更容易一些。
還可基于命令的時間性優(yōu)先化所述命令。舉例來說,與通常不需要立即響應(yīng)的命 令(例如,用于發(fā)送電子郵件的命令)相比,需要立即響應(yīng)的命令(例如,起始呼叫 的命令)將具有較高的優(yōu)先權(quán),且因此被指派給較快的抄錄員。
一旦己將記錄的話音命令文件路由到人類抄錄員,便可向所述抄錄員呈現(xiàn)包含針 對抄錄員的視覺線索的自動屏幕,所述視覺線索包含用戶的過去歷史以及設(shè)計用以加 速由人類抄錄員所做處理的其它速度技術(shù)。在抄錄員已手動創(chuàng)建應(yīng)用程序命令文件之 后,所述系統(tǒng)可提示抄錄員更新用戶的語音識別語法文件,這將在以下更詳細(xì)描述的 辨識話音命令中幫助語音識別過程。
圖5中顯示另一實(shí)施例。在所述實(shí)施例中,用戶記錄將保存為(舉例來說)附注、 信件、備忘錄或提示項的文本信息,且將所得文本文件存儲在通信裝置410上。類似 于先前實(shí)施例,所述音頻數(shù)據(jù)存儲在記錄的音頻文件430中并被傳輸?shù)椒?wù)器計算機(jī) 420。通過可創(chuàng)建文本文件450的語音識別服務(wù)器模塊440處理記錄的音頻文件430。 服務(wù)器計算機(jī)420評估語音識別過程460的置信度以確定所述語音識別的準(zhǔn)確度。如 果所述置信度處在預(yù)定水平或在所述預(yù)定水平以上,那么便將自動創(chuàng)建的文本文件 450輸送到服務(wù)器模塊480供傳輸?shù)酵ㄐ叛b置410。相反,如果語音識別過程440的置 信度低于預(yù)定水平,那么服務(wù)器420便將記錄的音頻文件430路由到人類抄錄員470 供手動審閱并創(chuàng)建文本文件455。
不管用于創(chuàng)建文本文件450或455的方法如何,所述文本文件均沿著已經(jīng)建立的 無線數(shù)據(jù)連接傳輸480。 一旦返回到通信裝置410,便可將所述文本文件保存在通信裝 置上,并使用適合于顯示文本數(shù)據(jù)的應(yīng)用程序來顯示,例如,筆記本計算機(jī)或詞處理器。
在另一實(shí)施例中,所述系統(tǒng)具有一個或一個以上應(yīng)用程序接口,其可確定話音命 令的類型并將應(yīng)用程序命令的創(chuàng)建引導(dǎo)到另一組織。以此方式, 一個組織可構(gòu)造對在 通信裝置上運(yùn)行的應(yīng)用程序是唯一的其自己的話音命令集。這在一個組織具有可容易 存取的信息但不想或不能使所述信息用于運(yùn)行所述系統(tǒng)的電信服務(wù)的情況下是有利
的。舉例來說,銷售組織可能想通過通信裝置使其銷售團(tuán)隊存取公司的機(jī)密信息,但 又不想所述信息被電信服務(wù)存取。當(dāng)所述系統(tǒng)確定話音命令是所述特定類型命令中的 一者時,便將記錄的話音命令文件輸送到所述組織以創(chuàng)建應(yīng)用程序命令文件。將優(yōu)選 地使用所屬技術(shù)領(lǐng)域的技術(shù)人員已知的任一眾所周知的加密方法來加密所得的應(yīng)用程 序命令文件。將經(jīng)加密的應(yīng)用程序命令文件輸送回到電信服務(wù)供傳輸?shù)剿鐾ㄐ叛b置。 一旦在所述通信裝置上接收到經(jīng)加密的應(yīng)用程序命令,便將其引導(dǎo)到由所述組織提供 的通信裝置上的唯一應(yīng)用程序。
在又一實(shí)施例中,使用附加到記錄的話音命令的通信裝置的唯一識別符來識別敘 述所述話音命令的用戶。因此,當(dāng)服務(wù)器計算機(jī)接收來自通信裝置的所記錄話音命令 時,所述系統(tǒng)可確定用戶是誰以及所述用戶是否適合于由電信服務(wù)提供的話音命令服 務(wù)。另外,所述語音識別過程可存取創(chuàng)建用于特殊用戶的用戶語法文件。所述語法文 件含有用戶的語音樣式的實(shí)例且可用于幫助語音識別過程。特殊用戶的語法文件在此 項技術(shù)以及最易在市場上購得的語音識別系統(tǒng)的標(biāo)準(zhǔn)組件中眾所周知。語法文件的構(gòu) 造可由用戶來執(zhí)行,或者人類抄錄員可如上所述創(chuàng)建語法文件。
權(quán)利要求
1、一種用于從無線通信裝置接收話音控制命令的控制中心,其包括接收從無線通信裝置傳送的且響應(yīng)于置信度從基于服務(wù)器的語音識別程序獲得的一個或一個以上所記錄的話音命令;將所述話音命令引導(dǎo)到一個或一個以上人類抄錄員;及所述人類抄錄員審閱所述話音命令,并創(chuàng)建將要傳送回所述通信裝置的一個或一個以上應(yīng)用程序命令。
2、 如權(quán)利要求1所述的控制中心,其中所述話音命令基于人類抄錄員準(zhǔn)則被引 導(dǎo)到特殊人類抄錄員。
3、 如權(quán)利要求1所述的控制中心,其中所述話音命令基于特定人類抄錄員已接 收到的呼叫的音量被引導(dǎo)到特殊人類抄錄員。
4、 如權(quán)利要求1所述的控制中心,其中所述話音命令基于創(chuàng)建所述話音命令的 用戶被引導(dǎo)到特殊人類抄錄員。
5、 如權(quán)利要求1所述的控制中心,其中所述話音命令基于命令的類型被引導(dǎo)到 特殊人類抄錄員。
6、 如權(quán)利要求1所述的控制中心,其中所述人類抄錄員使用所述裝置用戶對未 被所述基于服務(wù)器的語音識別程序正確轉(zhuǎn)譯的單詞的發(fā)音來更新所述語音識別程序。
7、 一種用于從無線通信裝置接收音頻數(shù)據(jù)的控制中心,其包括-接收來自無線通信裝置且響應(yīng)于置信度的經(jīng)記錄的音頻數(shù)據(jù),其從基于服務(wù)器的語音識別程序而獲得,將所述音頻數(shù)據(jù)引導(dǎo)到一個或一個以上人類抄錄員;及所述人類抄錄員審閱所述音頻數(shù)據(jù),并創(chuàng)建所述音頻數(shù)據(jù)的將要傳送回所述通信 裝置的本文版本。
全文摘要
本發(fā)明揭示一種可接受來自最終用戶的所記錄音頻數(shù)據(jù)的無線通信裝置。所述音頻數(shù)據(jù)可呈請求用戶動作的命令的形式。同樣地,所述音頻數(shù)據(jù)可為將被轉(zhuǎn)換成文本文件的文本。將所述音頻數(shù)據(jù)還原為呈裝置硬件支持的格式的數(shù)字話音文件,例如,wav、mp3、vnf文件或類似文件。將所述數(shù)字話音文件通過受保護(hù)或不受保護(hù)的無線通信發(fā)送到一個或一個以上服務(wù)器計算機(jī)以供進(jìn)一步處理。根據(jù)本發(fā)明的重要方面,所述系統(tǒng)評估語音識別過程的置信度。如果所述置信度較高,那么所述系統(tǒng)自動地構(gòu)建應(yīng)用程序命令或創(chuàng)建文本文件供傳輸?shù)剿鐾ㄐ叛b置。另一選擇為,如果所述語音識別的置信度較低,那么將所記錄的音頻數(shù)據(jù)文件路由到電信服務(wù)所雇用的人類抄錄員,所述人類抄錄員手動地審閱所述數(shù)字話音文件并構(gòu)建應(yīng)用程序命令或文本文件。一旦創(chuàng)建了所述應(yīng)用程序命令,便將其傳輸?shù)剿鐾ㄐ叛b置。作為本發(fā)明的結(jié)果,已顯示通信裝置背景中的語音識別在90%以上的時間內(nèi)是準(zhǔn)確的。
文檔編號G10L15/00GK101366075SQ200680034987
公開日2009年2月11日 申請日期2006年8月9日 優(yōu)先權(quán)日2005年8月9日
發(fā)明者斯蒂芬·S·伯恩斯, 米基·W·科維茨 申請人:移動聲控有限公司