一種語音命令識別方法和裝置制造方法
【專利摘要】本發(fā)明實施方式提出一種語音命令識別方法和裝置。方法包括:獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當確定所述語音源自所述用戶時,識別所述語音中的命令詞。本發(fā)明實施方式可以基于注冊用戶的聲紋模型確定語音是否源自注冊用戶,從而提高安全性。
【專利說明】一種語音命令識別方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施方式涉及自動語音識別(ASR,Automatic Speech Recognition)技術(shù) 領(lǐng)域,更具體地,涉及一種語音命令識別方法和裝置。
【背景技術(shù)】
[0002] 自動語音識別技術(shù)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入字符 的一項技術(shù)。語音識別具有復(fù)雜的處理流程,主要包括模型訓(xùn)練、解碼網(wǎng)絡(luò)構(gòu)建以及解碼等 過程。
[0003] 語音命令識別技術(shù)是自動語音識別技術(shù)的一項具體應(yīng)用,其主要功能是用戶不必 利用鍵盤、鼠標、觸摸屏等輸入設(shè)備,只要說出命令詞的語音,則語音命令識別系統(tǒng)會自動 識別出該語音對應(yīng)的字符串,如果該字符串為命令詞對應(yīng)的字符串,則觸發(fā)對應(yīng)的操作。然 而,目前語音命令識別系統(tǒng)通常并不對用戶進行區(qū)分,這會帶來顯著的安全性問題。
[0004] 例如目前的語音喚醒系統(tǒng)就是一種典型的語音命令識別系統(tǒng),用戶可以說出喚醒 命令,系統(tǒng)識別用戶說出的語音,如果識別出是喚醒命令則喚醒(即啟動)對應(yīng)的設(shè)備,否則 不喚醒對應(yīng)的設(shè)備。語音命令識別系統(tǒng)的評測標準通常包括誤識率和拒認率兩個部分。誤 識率指用戶未發(fā)出語音命令,但系統(tǒng)卻錯誤的觸發(fā)了該命令對應(yīng)的操作。拒認率指用戶發(fā) 出了語音命令,但系統(tǒng)卻沒有反應(yīng),即沒有觸發(fā)該命令對應(yīng)的操作。誤識率和拒認率越低, 證明語音命令識別系統(tǒng)越穩(wěn)定。
[0005] 當前已公開的這些技術(shù)中,存在這樣的問題,當其他人發(fā)出相應(yīng)的命令時,由于喚 醒系統(tǒng)本身不具有識別用戶身份的能力,所以用戶自己的系統(tǒng)也會被喚醒,這就大大增加 了用戶使用時的風(fēng)險。由于每個人的聲音都具有唯一性,通過聲紋識別來確認用戶身份具 有其獨特的優(yōu)越性,也只有這種方式才能真正實現(xiàn)喚醒者的不可替代性,即使其他人故意 要喚醒系統(tǒng),系統(tǒng)也可以判斷不是用戶本人而拒絕被喚醒。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施方式提出一種語音命令識別方法,以提高安全性。
[0007] 本發(fā)明實施方式提出一種語音命令識別裝置,以提高安全性。
[0008] 本發(fā)明實施方式的技術(shù)方案如下:
[0009] -種語音命令識別方法,該方法包括:
[0010] 獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋模型;
[0011] 接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景 模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0012] 當確定所述語音源自所述用戶時,識別所述語音中的命令詞。
[0013] 一種語音命令識別裝置,其特征在于,包括模型獲取單元、用戶識別單元和命令詞 識別單元,其中 :
[0014] 模型獲取單元,用于獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋 模型;
[0015] 用戶識別單元,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋 特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0016] 命令詞識別單元,用于當確定所述語音源自所述用戶時,識別所述語音中的命令 。
[0017] 從上述技術(shù)方案可以看出,在本發(fā)明實施方式中,獲取廣義背景模型,并基于用戶 的注冊語音獲取用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的 聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當確定 所述語音源自所述用戶時,識別所述語音中的命令詞。應(yīng)用本發(fā)明實施方式之后,可以基于 注冊用戶的聲紋模型確定語音是否源自注冊用戶,從而提高了安全性。
[0018] 而且,在語音喚醒應(yīng)用中,本發(fā)明實施方式可以將使用聲紋識別的方式來確認用 戶的身份,可保證系統(tǒng)只能由用戶本身喚醒。
【專利附圖】
【附圖說明】
[0019] 圖1為根據(jù)本發(fā)明實施方式語音命令識別方法流程圖;
[0020] 圖2為根據(jù)本發(fā)明實施方式的用戶聲紋注冊流程圖;
[0021] 圖3為根據(jù)本發(fā)明實施方式的基于用戶語音的語音喚醒流程圖;
[0022] 圖4為根據(jù)本發(fā)明實施方式的語音命令識別裝置結(jié)構(gòu)圖。
【具體實施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進一步 的詳細描述。
[0024] 由于每個人的聲音都具有唯一性,通過聲紋識別來確認用戶身份具有其獨特的優(yōu) 越性。比如,聲紋識別來確認用戶身份可以真正實現(xiàn)喚醒者的不可替代性,即使其他人故意 要喚醒系統(tǒng),系統(tǒng)也可以判斷不是用戶本人而拒絕被喚醒。
[0025] 聲紋識別也稱為說話人識別。聲紋識別包括文本相關(guān)(Text-D印endent)和文本 無關(guān)(Text-Independent)兩種。與文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā) 音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達 到較好的識別效果。文本無關(guān)的說話人識別由于不需要存儲特定的文本密碼,而直接使用 說話人的語音作為密碼,可以廣泛的應(yīng)用在互聯(lián)網(wǎng)用戶身份認證等安全領(lǐng)域。
[0026] 本發(fā)明實施方式可以適用于針對文本有關(guān)以及文本無關(guān)的應(yīng)用,尤其適用于針對 文本有關(guān)的應(yīng)用,比如語音喚醒應(yīng)用。
[0027] 圖1為根據(jù)本發(fā)明實施方式語音命令識別方法流程圖。
[0028] 如圖1所示,該方法包括:
[0029] 步驟101 :獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋模型。
[0030] 可以利用包含大量說話人的語音數(shù)據(jù)訓(xùn)練一個說話人無關(guān)的廣義背景模型 (Universal Background Model, UBM),然后利用可以獲得的少量當前說話人的語音數(shù) 據(jù),通過最大后驗概率(Maximum A Posteriori, MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)等準則,訓(xùn)練得到說話人的模型,以作為用戶的聲 紋模型。
[0031] 在一個實施方式中:
[0032] 可以使用大量語音數(shù)據(jù)訓(xùn)練出一個基于混合高斯模型(GMM)的廣義背景模型 (UBM)。另外,還可以通過麥克風(fēng)等語音采集設(shè)備采集用戶口述命令詞的注冊語音;再從注 冊語音中提取用戶語音特征;并利用所述用戶語音特征通過最大后驗自適應(yīng)方式在所述廣 義背景模型上自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0033] 通過注冊用戶的聲音(聲紋),可以便于后續(xù)過程中對語音進行鑒定,以確定所檢 測的語音是否由注冊用戶所發(fā)出。
[0034] 步驟102 :接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所 述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶。
[0035] 在做說話人身份判決的時候,分別針對待測試語音數(shù)據(jù)計算說話人對應(yīng)的GMM模 型和UBM模型似然度,并通過對數(shù)似然比(Logistic Likelihood Ratio, LLR)這個度量來 計算最終的得分。對于說話人確認任務(wù)來說,通過比較與預(yù)先設(shè)定的一個門限(Threshold) 的關(guān)系,來進行判決,而對于說話人識別來說,模型得分高的則為說話人識別結(jié)果。
[0036] 在用戶完成語音注冊后,就具有了識別該用戶的能力。在實際應(yīng)用中,用戶說出其 對應(yīng)的文字密碼的語音,使用該語音與用戶之前注冊的聲紋模型進行比對,即可判定是否 是之前注冊的用戶所發(fā)出的命令。
[0037] 在一個實施方式中:
[0038] 在這里,可以確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與廣 義背景模型的相似度;當所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義背 景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時,確定該語音源自所述用戶。
[0039] 具體流程如下:首先對輸入的語音進行聲紋特征的提取,然后使用該特征序列與 目標人的聲紋模型和廣義背景模型(UBM)進行相似度得分的計算,一般采用log似然比得 分,即目標人模型上的似然值與UBM上的似然值的差值Score :
[0040] 似肝=+(k)g M A' -丨廠(義1.其中底數(shù)示范性為e ;
[0041] 其中:
[0042] X為測試的語音特征,T為語音特征的幀數(shù),λ spk為目標說話人模型,λ ubm為UBM 模型;Ρ(χΓ)是特征序列X與模型'的相似度,由計算混合高斯模型的似然度函數(shù)得出。
[0043] 當Score得分大于設(shè)定的閾值的時候,可以判定用戶為注冊時的用戶,即合法用 戶。當Score得分小于設(shè)定的閾值的時候,判定為非法用戶,拒絕進一步的處理,返回錄音 階段。
[0044] 步驟103 :當確定所述語音源自所述用戶時,識別所述語音中的命令詞。
[0045] 在這里,當確定所述語音源自所述用戶時,可以基于多種實施方式來識別所述語 音中的命令詞。
[0046] 比如:
[0047] 第一步驟,對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué)模型,該 背景聲學(xué)模型是音素精度較低的聲學(xué)模型。
[0048] 第二步驟,對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型,該 前景聲學(xué)模型是音素精度很高的聲學(xué)模型,目的是為了提高對命令詞語音的識別精度。
[0049] 當然,上述第一步驟和第二步驟并不一定嚴格按照先后順序,也可以同時進行,或 者第二步驟先執(zhí)行。
[0050] 第三步驟,依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所 述前景聲學(xué)模型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對應(yīng)的解碼路 徑,依據(jù)所述背景聲學(xué)模型的音素構(gòu)建對應(yīng)的解碼路徑。
[0051 ] 第四步驟,依據(jù)所述解碼網(wǎng)絡(luò)對輸入的語音進行解碼。
[0052] 第五步驟,在語音結(jié)束后判斷解碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果 為指定命令詞的字符串時觸發(fā)該命令詞對應(yīng)的操作。
[0053] 例如,本發(fā)明可以應(yīng)用在語音喚醒系統(tǒng)中,假設(shè)喚醒命令為"微信秘書",當用戶說 出"微信秘書"的語音時,系統(tǒng)會自動識別出該語音的字符串"微信秘書",從而喚醒"微信秘 書"這個功能。
[0054] 所述聲學(xué)模型是語音識別系統(tǒng)中最為重要的部分之一,目前的主流語音識別系統(tǒng) 多采用隱馬爾科夫模型(HMM,Hidden Markov Model)進行建模,隱馬爾可夫模型是統(tǒng)計模 型,它用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。在隱馬爾可夫模型中,狀態(tài)并不是 直接可見的,但受狀態(tài)影響的某些變量則是可見的。在聲學(xué)模型中描述了語音與音素的對 應(yīng)概率。所述音素是根據(jù)語音的自然屬性劃分出來的最小語音單位。從聲學(xué)性質(zhì)來看,音 素是從音質(zhì)角度劃分出來的最小語音單位;從生理性質(zhì)來看,一個發(fā)音動作形成一個音素。
[0055] 本發(fā)明中所述聲學(xué)模型訓(xùn)練計算的具體計算方法可以采用現(xiàn)有的成熟的訓(xùn)練計 算方法,例如可以使用HTK的工具和流程,對語音進行聲學(xué)模型訓(xùn)練計算得到對應(yīng)的聲學(xué) 模型。其中:
[0056] 第一步驟中,所述對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,需要 使用盡可能多的語音數(shù)據(jù),為了能夠低于指定的精度,其中具體包括:用于描述音素的混合 高斯模型(GMM,Gaussian mixture model)中的高斯數(shù)量B需要低于指定值,例如在本發(fā)明 的優(yōu)選實施例中,所述B可以為4或8。所述高斯混合模型可以有效地提取語音信號中的說 話人特征、剔除語義等冗余信息,從而較充分地反映說話人個性特征的統(tǒng)計分布,是目前語 音識別的主流技術(shù)。
[0057] 第二步驟中,所述對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,需要 使用盡可能多的語音數(shù)據(jù),為了能夠高于指定的精度,其中具體包括:用于描述音素的混合 高斯模型中的高斯數(shù)量Q高于指定值,且所述Q需要大于B,例如在本發(fā)明的優(yōu)選實施中,所 述Q需要遠大于B,例如所述Q為16或32或32以上的值。
[0058] 在一種具體實施例中,第一步驟中所述對語音進行低于指定精度的聲學(xué)模型訓(xùn)練 計算,得到背景聲學(xué)模型,可以用精度較低的單音素(monophone)進行訓(xùn)練計算,也可以用 精度較高的三音素(triphone)進行訓(xùn)練計算,但是需要對三音素進行聚類處理。
[0059] 例如第一步驟具體可以為:對語音進行單音素的聲學(xué)模型訓(xùn)練計算,將得到的單 音素聲學(xué)模型作為背景聲學(xué)模型。其中,用于描述所述單音素的GMM中的高斯數(shù)量B需要 低于指定值,例如在本發(fā)明的優(yōu)選實施例中,所述B可以為4或8。
[0060] 或者第一步驟具體可以為:對語音進行三音素的聲學(xué)模型訓(xùn)練計算,得到三音素 聲學(xué)模型,對該三音素聲學(xué)模型中的三音素進行聚類,將聚類后的三音素聲學(xué)模型作為背 景聲學(xué)模型。其中,用于描述所述三音素的GMM中的高斯數(shù)量B需要低于指定值,例如在本 發(fā)明的優(yōu)選實施例中,所述B可以為4或8。
[0061] 在一種具體實施例中,第二步驟中所述對語音進行高于指定精度的聲學(xué)模型訓(xùn) 練計算,得到前景聲學(xué)模型,可以用精度較高的三音素進行訓(xùn)練計算;也可以用精度較低 的單音素進行訓(xùn)練計算,但是這些單音素序列需要是增強的隱馬爾可夫模型(HMM,Hidden Markov Model)序列,例如用于描述這些單音素的GMM中的高斯數(shù)量要為很高的值,通常為 32或更高的值。
[0062] 例如第二步驟具體可以為:對語音進行三音素的聲學(xué)模型訓(xùn)練,得到三音素聲學(xué) 模型,其中用于描述該三音素的GMM的高斯數(shù)量Q需要高于指定值,例如在本發(fā)明的優(yōu)選實 施例中,所述Q為16或32或32以上的值。之后利用命令詞對應(yīng)的語音對得到的三音素聲 學(xué)模型進行自適應(yīng)計算,將經(jīng)過自適應(yīng)計算后的三音素聲學(xué)模型作為前景聲學(xué)模型。
[0063] 或者第二步驟具體也可以為:對語音進行單音素的聲學(xué)模型訓(xùn)練計算,得到單音 素聲學(xué)模型,其中用于描述單音素的GMM中的高斯數(shù)量Q高于指定高值,例如Q為32或更 高的值,之后利用命令詞對應(yīng)的語音對得到的單音素聲學(xué)模型進行自適應(yīng)計算,將經(jīng)過自 適應(yīng)計算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0064] 在這里,當確定所述語音源自所述用戶時,可以基于多種方式來識別語音中的命 令詞。
[0065] 在一個實施方式中:
[0066] 對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué)模型;
[0067] 對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型;
[0068] 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲 學(xué)模型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對應(yīng)的解碼路徑,依據(jù) 所述背景聲學(xué)模型的音素構(gòu)建對應(yīng)的解碼路徑;
[0069] 依據(jù)所述解碼網(wǎng)絡(luò)對輸入的語音進行解碼,在語音結(jié)束后判斷解碼結(jié)果是否為指 定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時觸發(fā)該命令詞對應(yīng)的操作。
[0070] 在一個實施方式中:
[0071] 所述對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量B低于指定值;
[0072] 所述對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
[0073] 在一個實施方式中:
[0074] 對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué)模型,具體為:
[0075] 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,將得到的單音素聲學(xué)模型作為背景聲學(xué) 模型;
[0076] 或者,對語音進行三音素的聲學(xué)模型訓(xùn)練計算,得到三音素聲學(xué)模型,對該三音素 聲學(xué)模型中的三音素進行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
[0077] 在一個實施方式中:
[0078] 對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型,具體為:
[0079] 對語音進行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對應(yīng)的語音對得到的三音素聲學(xué) 模型進行自適應(yīng)計算,將經(jīng)過自適應(yīng)計算后的三音素聲學(xué)模型作為前景聲學(xué)模型;
[0080] 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,其中用于描述單音素的混合高斯模型中 的高斯數(shù)量高于指定高值,利用命令詞對應(yīng)的語音對得到的單音素聲學(xué)模型進行自適應(yīng)計 算,將經(jīng)過自適應(yīng)計算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0081] 在一個實施方式中:
[0082] 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),具體包括:
[0083] 從所述前景聲學(xué)模型中選擇各個命令詞包含的音素;針對每一命令詞,利用選出 的該命令詞包含的音素構(gòu)建該命令詞對應(yīng)的一條解碼路徑;
[0084] 依據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對應(yīng)的解碼路徑。
[0085] 優(yōu)選地,在接收語音與提取所述語音的聲紋特征之間,對所述語音執(zhí)行語音活動 檢測,而且當確定所述語音中包含人類語音后,才提取所述語音的聲紋特征。
[0086] 圖2為根據(jù)本發(fā)明實施方式的用戶聲紋注冊流程圖。
[0087] 如圖2所示,該流程包括:
[0088] 步驟201 :采集用戶口述命令詞的注冊語音。
[0089] 步驟202 :從注冊語音中提取用戶語音特征。
[0090] 步驟203 :利用所述用戶語音特征通過最大后驗自適應(yīng)方式在所述廣義背景模型 上自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0091] 具體地,在用戶進行聲紋注冊的時候,用戶首先在設(shè)備上說出命令詞。比如,在喚 醒應(yīng)用中,文字密碼就是命令詞本身。設(shè)備通過麥克風(fēng)采集該用戶說出喚醒命令詞時的語 音,然后本地或通過后臺服務(wù)器進行與命令詞相關(guān)的聲紋模型訓(xùn)練。比如,首先將設(shè)備麥克 風(fēng)采集的語音數(shù)據(jù)壓縮后通過網(wǎng)絡(luò)傳遞給后臺服務(wù)器,后臺服務(wù)器獲得設(shè)備所傳的語音數(shù) 據(jù)后,提取說話人以及命令詞相關(guān)的信息特征(如mfcc,lpcc等語音特征),然后使用語音特 征序列進行聲紋模型的訓(xùn)練,包括:首先使用大量語音數(shù)據(jù)訓(xùn)練一個基于GMM模型的廣義 背景模型,隨后使用用戶的語音特征通過最大后驗自適應(yīng)的方式在UBM模型上自適應(yīng)得到 該用戶的GMM模型。
[0092] 在得到廣義背景模型和該用戶的GMM模型后,將這兩個模型通過網(wǎng)絡(luò)等傳輸方式 發(fā)到設(shè)備中,即完成了聲紋的注冊。這里,聲紋模型的訓(xùn)練可以是在云端的服務(wù)器上,也可 以在設(shè)備本地進行。
[0093] 可以將本發(fā)明應(yīng)用到多種應(yīng)用環(huán)境中,比如系統(tǒng)喚醒應(yīng)用。通過使用聲紋識別的 方式來代替確認用戶的身份,可保證系統(tǒng)只能由用戶本身喚醒,從而提高了系統(tǒng)的安全性。
[0094] 圖3為根據(jù)本發(fā)明實施方式的基于用戶語音的語音喚醒流程圖。
[0095] 在系統(tǒng)喚醒應(yīng)用中,可以首先提示用戶注冊語音,注冊語音包含喚醒命令詞,再基 于注冊語音獲取用戶的聲紋模型。注冊完成后,當用戶在使用時,由語音活動檢測(VAD)模 塊負責(zé)檢測從話筒中輸入的語音是否包含人說話的部分。如果包含,那么就將語音信號送 入說話人識別模塊,由說話人識別模塊檢測是否是用戶本人發(fā)出的命令。如果是用戶本人 發(fā)出的命令,那么再將語音信號送入命令識別模塊,判斷用戶是否要喚醒系統(tǒng)。
[0096] 基于本發(fā)明實施方式可以識別多個命令詞,并可以將這些命令詞做進一步的應(yīng) 用,比如去打電話、發(fā)短信等等,而不僅僅是喚醒系統(tǒng)這一種功能。
[0097] 基于上述分析,本發(fā)明實施方式還提出了一種語音命令識別裝置。
[0098] 圖4為根據(jù)本發(fā)明實施方式的語音命令識別裝置結(jié)構(gòu)圖。
[0099] 如圖4所示,該裝置包括模型獲取單元401、用戶識別單元402和命令詞識別單元 403,其中:
[0100] 模型獲取單元401,用于獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲 紋模型;
[0101] 用戶識別單元402,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的 聲紋特征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;
[0102] 命令詞識別單元403,用于當確定所述語音源自所述用戶時,識別所述語音中的命 令詞。
[0103] 在一個實施方式中:
[0104] 用戶識別單元402,用于確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲 紋特征與廣義背景模型的相似度;當所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特 征與廣義背景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時,確定該語音源自注冊用 戶。
[0105] 在一個實施方式中:
[0106] 模型獲取單元401,用于采集用戶口述命令詞的注冊語音;從所述注冊語音中提 取用戶語音特征;利用所述用戶語音特征通過最大后驗自適應(yīng)方式在所述廣義背景模型上 自適應(yīng)獲取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
[0107] 在一個實施方式中:
[0108] 命令詞識別單元403,用于對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背 景聲學(xué)模型;對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型;依據(jù)所 述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模型中選擇命 令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對應(yīng)的解碼路徑,依據(jù)所述背景聲學(xué)模 型的音素構(gòu)建對應(yīng)的解碼路徑;依據(jù)所述解碼網(wǎng)絡(luò)對輸入的語音進行解碼,在語音結(jié)束后 判斷解碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時觸發(fā)該命 令詞對應(yīng)的操作。
[0109] 在一個實施方式中:
[0110] 所述對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量B低于指定值;
[0111] 所述對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描 述音素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
[0112] 在一個實施方式中:
[0113] 命令詞識別單元403,用于:
[0114] 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,將得到的單音素聲學(xué)模型作為背景聲學(xué) 模型;
[0115] 或者,對語音進行三音素的聲學(xué)模型訓(xùn)練計算,得到三音素聲學(xué)模型,對該三音素 聲學(xué)模型中的三音素進行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
[0116] 在一個實施方式中:
[0117] 命令詞識別單元403,用于:
[0118] 對語音進行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對應(yīng)的語音對得到的三音素聲學(xué) 模型進行自適應(yīng)計算,將經(jīng)過自適應(yīng)計算后的三音素聲學(xué)模型作為前景聲學(xué)模型;
[0119] 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,其中用于描述單音素的混合高斯模型中 的高斯數(shù)量高于指定高值,利用命令詞對應(yīng)的語音對得到的單音素聲學(xué)模型進行自適應(yīng)計 算,將經(jīng)過自適應(yīng)計算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
[0120] 在一個實施方式中:
[0121] 命令詞識別單元403,用于從所述前景聲學(xué)模型中選擇各個命令詞包含的音素; 針對每一命令詞,利用選出的該命令詞包含的音素構(gòu)建該命令詞對應(yīng)的一條解碼路徑;依 據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對應(yīng)的解碼路徑。
[0122] 在一個實施方式中:
[0123] 進一步包括語音活動檢測單元(未示出);
[0124] 所述語音活動檢測單元,用于對所述語音執(zhí)行語音活動檢測,而且只有當確定所 述語音中包含人類語音后,所述用戶識別單元才提取所述語音的聲紋特征。
[0125] 可以將圖1所示方法集成到各種網(wǎng)絡(luò)的硬件實體當中。比如,可以將語音命令識 別方法集成到:功能手機、智能手機、掌上電腦、個人電腦(PC)、平板電腦或個人數(shù)字助理 (PDA),等等設(shè)備之中。
[0126] 實際上,可以通過多種形式來具體實施本發(fā)明實施方式所提出的語音命令識別方 法。比如,可以遵循一定規(guī)范的應(yīng)用程序接口,將語音命令識別方法編寫為安裝到自然語 言處理服務(wù)器中的插件程序,也可以將其封裝為應(yīng)用程序以供用戶自行下載使用。當編寫 為插件程序時,可以將其實施為OCX、dll、cab等多種插件形式。也可以通過Flash插件、 RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術(shù)來實施本發(fā)明實施方 式所提出的語音命令識別方法。
[0127] 可以通過指令或指令集存儲的儲存方式將本發(fā)明實施方式所提出的語音命令識 別方法存儲在各種存儲介質(zhì)上。這些存儲介質(zhì)包括但是不局限于:軟盤、光盤、DVD、硬盤、閃 存、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
[0128] 另外,還可以將本發(fā)明實施方式所提出的語音命令識別方法應(yīng)用到基于閃存 (Nand flash)的存儲介質(zhì)中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡 等。
[0129] 綜上所述,在本發(fā)明實施方式中,獲取廣義背景模型,并基于用戶的注冊語音獲取 用戶的聲紋模型;接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述 廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶;當確定所述語音源自所 述用戶時,識別所述語音中的命令詞。應(yīng)用本發(fā)明實施方式之后,可以基于注冊用戶的聲紋 模型確定語音是否源自注冊用戶,從而提高了安全性。
[0130] 而且,在語音喚醒應(yīng)用中,本發(fā)明實施方式可以將使用聲紋識別的方式來確認用 戶的身份,可保證系統(tǒng)只能由用戶本身喚醒。
[0131] 以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護 范圍之內(nèi)。
【權(quán)利要求】
1. 一種語音命令識別方法,其特征在于,該方法包括: 獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋模型; 接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特征、所述廣義背景模型 和所述用戶聲紋模型確定該語音是否源自所述用戶; 當確定所述語音源自所述用戶時,識別所述語音中的命令詞。
2. 根據(jù)權(quán)利要求1所述的語音命令識別方法,其特征在于,所述基于語音的聲紋特征、 廣義背景模型和用戶聲紋模型確定該語音是否源自所述用戶包括: 確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與廣義背景模型的相 似度; 當所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義背景模型的相似度 之間的差值大于預(yù)先設(shè)定的門限值時,確定該語音源自所述用戶。
3. 根據(jù)權(quán)利要求1所述的語音命令識別方法,其特征在于,所述基于用戶的注冊語音 獲取用戶的聲紋模型包括: 采集用戶口述命令詞的注冊語音; 從所述注冊語音中提取用戶語音特征; 利用所述用戶語音特征通過最大后驗自適應(yīng)方式在所述廣義背景模型上自適應(yīng)獲取 該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
4. 根據(jù)權(quán)利要求1所述的語音命令識別方法,其特征在于,所述識別所述語音中的命 令詞包括: 對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué)模型; 對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型; 依據(jù)所述前景聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模 型中選擇命令詞包含的音素,利用選出的音素構(gòu)建所述命令詞對應(yīng)的解碼路徑,依據(jù)所述 背景聲學(xué)模型的音素構(gòu)建對應(yīng)的解碼路徑; 依據(jù)所述解碼網(wǎng)絡(luò)對輸入的語音進行解碼,在語音結(jié)束后判斷解碼結(jié)果是否為指定命 令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時觸發(fā)該命令詞對應(yīng)的操作。
5. 根據(jù)權(quán)利要求4所述的語音命令識別方法,其特征在于,所述對語音進行低于指定 精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描述音素的混合高斯模型中的高斯數(shù) 量B低于指定值; 所述對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
6. 根據(jù)權(quán)利要求4所述的語音命令識別方法,其特征在于,所述對語音進行低于指定 精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué)模型,具體為: 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,將得到的單音素聲學(xué)模型作為背景聲學(xué)模 型; 或者,對語音進行三音素的聲學(xué)模型訓(xùn)練計算,得到三音素聲學(xué)模型,對該三音素聲學(xué) 模型中的三音素進行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
7. 根據(jù)權(quán)利要求4所述的語音命令識別方法,其特征在于,所述對語音進行高于指定 精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型,具體為: 對語音進行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對應(yīng)的語音對得到的三音素聲學(xué)模型 進行自適應(yīng)計算,將經(jīng)過自適應(yīng)計算后的三音素聲學(xué)模型作為前景聲學(xué)模型; 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,其中用于描述單音素的混合高斯模型中的高 斯數(shù)量高于指定高值,利用命令詞對應(yīng)的語音對得到的單音素聲學(xué)模型進行自適應(yīng)計算, 將經(jīng)過自適應(yīng)計算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
8. 根據(jù)權(quán)利要求4所述的語音命令識別方法,其特征在于,所述依據(jù)所述前景聲學(xué)模 型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),具體包括: 從所述前景聲學(xué)模型中選擇各個命令詞包含的音素;針對每一命令詞,利用選出的該 命令詞包含的音素構(gòu)建該命令詞對應(yīng)的一條解碼路徑; 依據(jù)所述背景聲學(xué)模型的所有音素構(gòu)建對應(yīng)的解碼路徑。
9. 根據(jù)權(quán)利要求1-8中任一項所述的語音命令識別方法,其特征在于,該方法進一步 包括: 在接收語音與提取所述語音的聲紋特征之間,對所述語音執(zhí)行語音活動檢測,而且當 確定所述語音中包含人類語音后,才提取所述語音的聲紋特征。
10. -種語音命令識別裝置,其特征在于,包括模型獲取單元、用戶識別單元和命令詞 識別單元,其中 : 模型獲取單元,用于獲取廣義背景模型,并基于用戶的注冊語音獲取用戶的聲紋模 型; 用戶識別單元,用于接收語音,提取所述語音的聲紋特征,并基于所述語音的聲紋特 征、所述廣義背景模型和所述用戶聲紋模型確定該語音是否源自所述用戶; 命令詞識別單元,用于當確定所述語音源自所述用戶時,識別所述語音中的命令詞。
11. 根據(jù)權(quán)利要求10所述的語音命令識別裝置,其特征在于, 用戶識別單元,用于確定所述聲紋特征與用戶聲紋模型的相似度以及所述聲紋特征與 廣義背景模型的相似度;當所述聲紋特征與用戶聲紋模型的相似度和所述聲紋特征與廣義 背景模型的相似度之間的差值大于預(yù)先設(shè)定的門限值時,確定該語音源自注冊用戶。
12. 根據(jù)權(quán)利要求10所述的語音命令識別裝置,其特征在于, 模型獲取單元,用于采集用戶口述命令詞的注冊語音;從所述注冊語音中提取用戶語 音特征;利用所述用戶語音特征通過最大后驗自適應(yīng)方式在所述廣義背景模型上自適應(yīng)獲 取該用戶的混合高斯模型,以作為所述用戶的聲紋模型。
13. 根據(jù)權(quán)利要求10所述的語音命令識別裝置,其特征在于, 命令詞識別單元,用于對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算,得到背景聲學(xué) 模型;對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算,得到前景聲學(xué)模型;依據(jù)所述前景 聲學(xué)模型和背景聲學(xué)模型構(gòu)建解碼網(wǎng)絡(luò),其中包括:從所述前景聲學(xué)模型中選擇命令詞包 含的音素,利用選出的音素構(gòu)建所述命令詞對應(yīng)的解碼路徑,依據(jù)所述背景聲學(xué)模型的音 素構(gòu)建對應(yīng)的解碼路徑;依據(jù)所述解碼網(wǎng)絡(luò)對輸入的語音進行解碼,在語音結(jié)束后判斷解 碼結(jié)果是否為指定命令詞的字符串,在解碼結(jié)果為指定命令詞的字符串時觸發(fā)該命令詞對 應(yīng)的操作。
14. 根據(jù)權(quán)利要求13所述的語音命令識別裝置,其特征在于, 所述對語音進行低于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量B低于指定值; 所述對語音進行高于指定精度的聲學(xué)模型訓(xùn)練計算的過程中,具體包括:用于描述音 素的混合高斯模型中的高斯數(shù)量Q高于指定值,且所述Q大于B。
15. 根據(jù)權(quán)利要求13所述的語音命令識別裝置,其特征在于, 命令詞識別單元,用于: 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,將得到的單音素聲學(xué)模型作為背景聲學(xué)模 型; 或者,對語音進行三音素的聲學(xué)模型訓(xùn)練計算,得到三音素聲學(xué)模型,對該三音素聲學(xué) 模型中的三音素進行聚類,將聚類后的三音素聲學(xué)模型作為背景聲學(xué)模型。
16. 根據(jù)權(quán)利要求13所述的語音命令識別裝置,其特征在于, 命令詞識別單元,用于: 對語音進行三音素的聲學(xué)模型訓(xùn)練,利用命令詞對應(yīng)的語音對得到的三音素聲學(xué)模型 進行自適應(yīng)計算,將經(jīng)過自適應(yīng)計算后的三音素聲學(xué)模型作為前景聲學(xué)模型; 對語音進行單音素的聲學(xué)模型訓(xùn)練計算,其中用于描述單音素的混合高斯模型中的高 斯數(shù)量高于指定高值,利用命令詞對應(yīng)的語音對得到的單音素聲學(xué)模型進行自適應(yīng)計算, 將經(jīng)過自適應(yīng)計算后的單音素聲學(xué)模型作為背景聲學(xué)模型。
17. 根據(jù)權(quán)利要求13所述的語音命令識別裝置,其特征在于, 命令詞識別單元,用于從所述前景聲學(xué)模型中選擇各個命令詞包含的音素;針對每一 命令詞,利用選出的該命令詞包含的音素構(gòu)建該命令詞對應(yīng)的一條解碼路徑;依據(jù)所述背 景聲學(xué)模型的所有音素構(gòu)建對應(yīng)的解碼路徑。
18. 根據(jù)權(quán)利要求10-17中任一項所述的語音命令識別裝置,其特征在于,進一步包括 語音活動檢測單元; 所述語音活動檢測單元,用于對所述語音執(zhí)行語音活動檢測,而且只有當確定所述語 音中包含人類語音后,所述用戶識別單元才提取所述語音的聲紋特征。
【文檔編號】G10L15/02GK104143326SQ201310645815
【公開日】2014年11月12日 申請日期:2013年12月3日 優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】岳帥, 張翔, 盧鯉, 饒豐, 王爾玉, 劉海波, 陳波, 劉薦, 李露 申請人:騰訊科技(深圳)有限公司