語音系統(tǒng)的適應(yīng)方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]技術(shù)領(lǐng)域總體涉及語音系統(tǒng),并更具體地說,涉及使語音系統(tǒng)適應(yīng)的方法和系統(tǒng),并且更具體地,涉及基于對話語速使語音系統(tǒng)適應(yīng)的方法和系統(tǒng)。
【背景技術(shù)】
[0002]車輛語音系統(tǒng)執(zhí)行對該車輛的占用者所說的語音進行語音識別。該語音言辭通常包括命令,這些命令控制該車輛或者可由該車輛訪問的其它系統(tǒng)的一個或多個特征。語音系統(tǒng)基于所述命令管理與該車輛的使用者的對話。該對話對全部使用者來說通常是通用的。不是所有的使用者都以相同的方式與語音系統(tǒng)交流。而且,同一使用者可能每次都不是以同樣的方式與該語音系統(tǒng)交流。例如,某些上下文條件會影響使用者講出該命令的能力。
[0003]因此,期望提供用于使車輛的語音系統(tǒng)適應(yīng)的方法和系統(tǒng)。另外,本發(fā)明的其它令人滿意的特征和特點將從下面的具體描述和所附的權(quán)利要求并結(jié)合附圖以及前面的技術(shù)領(lǐng)域和【背景技術(shù)】而變得易于理解。
【發(fā)明內(nèi)容】
[0004]提供了用于車輛的語音系統(tǒng)的適應(yīng)方法和系統(tǒng)。在一個實施例中,方法包括:接收語音數(shù)據(jù);基于該語音數(shù)據(jù)確定語音語速;基于所述語音語速確定使用者模型;以及基于所述使用者模型生成用于語音識別系統(tǒng)和對話管理器中至少一者的適應(yīng)參數(shù)。
[0005]在一個實施例中,系統(tǒng)包括第一模塊,該第一模塊接收語音數(shù)據(jù)并且基于該語音數(shù)據(jù)確定語音語速。該系統(tǒng)還包括第二模塊,該第二模塊基于該語音語速確定使用者模型。該系統(tǒng)還包括第三模塊,該第三模塊基于所述使用者模型產(chǎn)生用于所述語音識別系統(tǒng)和對話管理器中至少一者的適應(yīng)參數(shù)。
[0006]本申請?zhí)岢隽巳缦路桨?
方案1.一種車輛的語音系統(tǒng)的適應(yīng)方法,包括:
接收語音數(shù)據(jù);
基于所述語音數(shù)據(jù)確定語音語速;
基于所述語音語速確定使用者模型;以及基于所述使用者模型生成用于語音識別系統(tǒng)和對話管理器中的至少一個的適應(yīng)參數(shù)。
[0007]方案2.如方案I所述的方法,其中語音數(shù)據(jù)包括在定義的記錄窗口之前和該定義的記錄窗口之后記錄的數(shù)據(jù)中的至少一個和在語音窗口期間記錄的數(shù)據(jù)。
[0008]方案3.如方案I所述的方法,其中所述確定所述語音語速包括將所述語音數(shù)據(jù)劃分成語音部分和非語音部分,并且其中所述確定所述語音語速是基于所述語音部分和所述非語音部分的時間。
[0009]方案4.如方案I所述的方法,其中所述確定所述使用者模型包括將所述語音語速與使用者標(biāo)識符相關(guān)聯(lián)。
[0010]方案5.如方案I所述的方法,其中所述確定所述使用者模型還包括將上下文數(shù)據(jù)與所述語音語速相關(guān)聯(lián)。
[0011]方案6.如方案5所述的方法,其中所述上下文數(shù)據(jù)包括使用者注意力數(shù)據(jù)、車輛環(huán)境數(shù)據(jù)、車輛操縱數(shù)據(jù)、導(dǎo)航數(shù)據(jù)和天氣數(shù)據(jù)中的至少一個。
[0012]方案7.如方案I所述的方法,其中所述生成所述適應(yīng)參數(shù)包括生成使所述對話管理器的對話語速適應(yīng)的適應(yīng)參數(shù)。
[0013]方案8.如方案I所述的方法,其中所述生成所述適應(yīng)參數(shù)包括生成使所述對話管理器的對話提示適應(yīng)的適應(yīng)參數(shù)。
[0014]方案9.如方案I所述的方法,其中所述生成所述適應(yīng)參數(shù)包括生成使所述語音識別系統(tǒng)的記錄窗口適應(yīng)的適應(yīng)參數(shù)。
[0015]方案10.如方案I所述的方法,其中所述生成所述適應(yīng)參數(shù)包括生成使所述語音識別系統(tǒng)的語音識別適應(yīng)的適應(yīng)參數(shù)。
[0016]方案11.一種車輛的語音系統(tǒng)的適應(yīng)系統(tǒng),包括:
第一模塊,其接收語音數(shù)據(jù)并且基于所述語音數(shù)據(jù)確定語音語速;
第二模塊,其基于所述語音語速確定使用者模型;以及
第三模塊,其基于所述使用者模型生成用于語音識別系統(tǒng)和對話管理器中的至少一個的適應(yīng)參數(shù)。
[0017]方案12.如方案11所述的系統(tǒng),其中語音數(shù)據(jù)包括在定義的記錄窗口之前和該定義的記錄窗口之后記錄的數(shù)據(jù)中的至少一個和在語音窗口期間記錄的數(shù)據(jù)。
[0018]方案13.如方案11所述的系統(tǒng),其中所述第一模塊通過將所述語音數(shù)據(jù)劃分成語音部分和非語音部分確定所述語音語速,并且基于所述語音部分和所述非語音部分的時間確定所述語音語速。
[0019]方案14.如方案11所述的系統(tǒng),其中所述第二模塊通過將所述語音語速與使用者標(biāo)識符相關(guān)聯(lián)確定所述使用者模型。
[0020]方案15.如方案11所述的系統(tǒng),其中所述第二模塊通過將上下文數(shù)據(jù)與所述語音語速相關(guān)聯(lián)確定所述使用者模型。
[0021]方案16.如方案15所述的系統(tǒng),其中所述上下文數(shù)據(jù)包括使用者注意力數(shù)據(jù)、車輛環(huán)境數(shù)據(jù)、車輛操縱數(shù)據(jù)、導(dǎo)航數(shù)據(jù)和天氣數(shù)據(jù)中的至少一個。
[0022]方案17.如方案11所述的系統(tǒng),其中所述第三模塊通過生成使所述對話管理器的對話語速適應(yīng)的適應(yīng)參數(shù)生成所述適應(yīng)參數(shù)。
[0023]方案18.如方案11所述的系統(tǒng),其中所述第三模塊通過生成使所述對話管理器的對話提示適應(yīng)的適應(yīng)參數(shù)生成所述適應(yīng)參數(shù)。
[0024]方案19.如方案11所述的系統(tǒng),其中所述第三模塊通過生成使所述語音識別系統(tǒng)的記錄窗口適應(yīng)的適應(yīng)參數(shù)生成所述適應(yīng)參數(shù)。
[0025]方案20.如方案11所述的系統(tǒng),其中所述第三模塊通過生成使所述語音識別系統(tǒng)的語音識別適應(yīng)的適應(yīng)參數(shù)生成所述適應(yīng)參數(shù)。
【附圖說明】
[0026]此后將結(jié)合下面的附圖描述示例性實施例,其中相同的附圖標(biāo)記表示相同的元件;并且附圖中:
圖1是包括根據(jù)各種示例性實施例的語音系統(tǒng)的車輛的功能框圖;
圖2A和2B是根據(jù)示例性實施例的語音系統(tǒng)的記錄語音數(shù)據(jù)的圖示;
圖3是數(shù)據(jù)流圖,其說明了根據(jù)各種示例性實施例的語音系統(tǒng)的適應(yīng)模塊;以及圖4是流程圖,其說明了可由根據(jù)各種示例性實施例的語音系統(tǒng)執(zhí)行的適應(yīng)方法。
【具體實施方式】
[0027]下面的具體描述本質(zhì)上僅僅是示例性的,并非用于限定應(yīng)用和使用。而且,并不意在受在前面的技術(shù)領(lǐng)域、【背景技術(shù)】、
【發(fā)明內(nèi)容】
或者后面的【具體實施方式】中出現(xiàn)的任何明示或暗示的理論的約束。當(dāng)在本文被使用時,術(shù)語模塊指的是專用集成電路(ASIC)、電子電路、執(zhí)行一個或多個軟件或固件程序的處理器(共享的、專用的、或群組)和內(nèi)存、組合邏輯電路;和/或提供所描述功能的其它合適的部件。
[0028]首先參照圖1,根據(jù)本公開的示例性實施例,語音系統(tǒng)10被示出為包括在車輛12內(nèi)。語音系統(tǒng)10通過人機界面(HMI)模塊14為一個或多個車輛系統(tǒng)提供語音識別和對話。這些車輛系統(tǒng)可包括,例如,但不限于,電話系統(tǒng)16、導(dǎo)航系統(tǒng)18、媒體系統(tǒng)20、遠(yuǎn)程信息處理系統(tǒng)22、網(wǎng)絡(luò)系統(tǒng)24、或者可包括依賴語音應(yīng)用程序的任何其它車輛系統(tǒng)。如能理解的,語音系統(tǒng)10的一個或多個實施例可被應(yīng)用于具有依賴語音應(yīng)用程序的其它非車輛系統(tǒng),并且因此,這些實施例不限于目前的車輛示例。出于示例性目的,仍在車輛示例的背景下討論語音系統(tǒng)10。
[0029]語音系統(tǒng)10通過HMI模塊14和通信總線和/或其它通信裝置28 (例如,有線的、短程無線、或長距離無線)與多個車輛系統(tǒng)16 — 24和/或其它車輛系統(tǒng)26通信。該通信總線可例如是,但不限于,CAN總線。
[0030]總的來說,語音系統(tǒng)10包括自動語音識別(ASR)模塊30、對話管理器模塊32、和適應(yīng)模塊34。如能理解的,ASR模塊30、對話管理器模塊32和適應(yīng)模塊34可被實施為單獨的系統(tǒng)和/或被實施為如所示的組合式系統(tǒng)。如還能被理解的,語音系統(tǒng)10的模塊可全都被實施在車輛12上,或者部分實施在車輛12上且部分實施在遠(yuǎn)程系統(tǒng)上,例如遠(yuǎn)程服務(wù)器(未示出)。
[0031]總的來說,ASR模塊30接收和處理數(shù)據(jù),該數(shù)據(jù)包括由HMI模塊14記錄的語音言辭。來自該語音言辭的一些被識別出的命令(例如,基于置信閾值)被發(fā)送給對話管理器模塊32。對話管理器模塊32基于該命令管理交互順序和提示。
[0032]根據(jù)本公開的各種實施例,ASR模塊30接收第二組數(shù)據(jù),該組數(shù)據(jù)包括由HMI模塊14記錄的語音言辭。該第二組數(shù)據(jù)包括已經(jīng)被記錄的時間長度比第一組數(shù)據(jù)更長的數(shù)據(jù)。例如,如在圖2A中所示,第一組數(shù)據(jù)40包括在記錄窗口 42期間記錄的數(shù)據(jù)41,該記錄窗口 42在提示完成之后就立即在44開始并且在記錄開始后的預(yù)定時間在46結(jié)束。如在圖2B中所示,第二組數(shù)據(jù)48包括在第二記錄窗口 50期間記錄的數(shù)據(jù),該第二記錄窗口大于第一記錄窗口 42 (圖2A),第二組數(shù)據(jù)包括在記錄窗口 42 (圖2A)之前(例如,在記錄窗口 42 (圖2A)之前的預(yù)定時間,例如,在語音提示期間)被記錄的數(shù)據(jù)52、在記錄窗口 42(圖2A)期間被記錄的數(shù)據(jù)54、和在記錄窗口 42 (圖2A)之后(例如,在記錄窗口 42之后的預(yù)定時間,例如,在語音處理期間或者在后來的語音提示期間)被記錄的數(shù)據(jù)56。
[0033]回看圖1,ASR模塊30將該第二組數(shù)據(jù)48提供給適應(yīng)模塊34。適應(yīng)模塊34處理該數(shù)據(jù)48,以及來自各種車輛系統(tǒng)16-24的數(shù)據(jù)、和/或來自各種其它車輛系統(tǒng)26 (例如,不包括語音應(yīng)用程序)的數(shù)據(jù)。適應(yīng)模塊34處理所述數(shù)據(jù)以確定語速并學(xué)習(xí)講出該語速時的上下文?;谠撜Z速和上下文,適應(yīng)模塊34確定用于使由ASR模塊30和/或?qū)υ捁芾砥髂K32執(zhí)行的對話和語音識別中的至少一個適應(yīng)的適應(yīng)參數(shù)。
[0034]如能理解的,適應(yīng)模塊34所進行的處理的全部或部分可被實時地執(zhí)行、可被部分實時地且部分脫機地執(zhí)行、或者可被完全地脫機執(zhí)行。如還能被理解的,適應(yīng)模塊34可被實施為位于車輛12上、部分地位于車輛12上且部分地位于遠(yuǎn)程服務(wù)器上、或者完全位于遠(yuǎn)程服務(wù)器上。
[0035]現(xiàn)在參照圖3并繼續(xù)參照圖1、2A和2B,數(shù)據(jù)流圖說明了根據(jù)各種實施例的適應(yīng)模塊34。如所能理解的,根據(jù)本公開的適應(yīng)模塊34的各種實施例可包括任何數(shù)量的子模塊。例如,圖3中示出的子模塊可被組合和/或進一步劃分以類似地確定使用者的語速并且確定適應(yīng)參數(shù)。在各種示例性實施例中,適應(yīng)模塊34包括語速確定模塊60、使用者模型確定模塊62、適應(yīng)參數(shù)確定模塊64、和使用者模型數(shù)據(jù)庫65。
[0036]語速確定模塊60接收作為輸入的第二組語音數(shù)據(jù)48。語速確定模塊60處理該第二組數(shù)據(jù)48以定義該語音的語速。例如,如在圖2B中所述,語速確定模塊將該語音數(shù)據(jù)劃分成語音部分67、68和非語音部分69 — 71。語速確定模塊60通過探測語音的開始和結(jié)束來劃分該語音數(shù)據(jù)。
[0037]再參照圖3,基于部分67 - 71,語速確定模塊60確定該語音的語速72。語速確定模塊60基于在提示結(jié)束之后且使用者語音開始之前的時間幀、在該語