專利名稱:具有巨大詞匯量的語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及根據(jù)聲音塊識別單詞的語音識別系統(tǒng),尤其涉及連續(xù)語音 識別器。此外,本發(fā)明還涉及根據(jù)聲音塊識別單詞的裝置和方法,以及實(shí) 現(xiàn)所述方法的計(jì)算機(jī)可讀代碼。
背景技術(shù):
在語音識別系統(tǒng)中,輸入聲音塊是由計(jì)算機(jī)系統(tǒng)將聲音塊的口頭內(nèi)容 的聲音特征轉(zhuǎn)換成所識別出的單詞來處理的。語音識別是一項(xiàng)復(fù)雜的工作, 涉及許多步驟。第一步驟通常包括某種聲學(xué)特征的提取,其中,根據(jù)聲學(xué) 資源從聲音塊中提取表示單詞或單詞部分的聲音特征。隨后對聲音特征進(jìn) 行評分,聲學(xué)分值描述了特定單詞或單詞部分在聲音塊中的給定位置產(chǎn)生 某一特征的概率。圖形匹配技術(shù)用于根據(jù)聲音特征的序列確定單詞或單詞 部分的可能序列。以圖形結(jié)構(gòu)將單詞或單詞部分和所分配的分值進(jìn)行排序, 在下一步驟中,通過此圖導(dǎo)出最可能的單詞序列。將最可能的單詞序列記 為識別出的單詞。美國專利6,542,866 Bl公開了針對一段輸入信號生成多個(gè)特征向量的 方法和裝置。解碼器生成路徑分值,此路徑分值指明了此段輸入信號表示 某一單詞的概率。路徑分值是通過選擇用于每一段的最佳特征向量而生成的。路徑分值基于該段的不同特征向量?,F(xiàn)有技術(shù)的系統(tǒng)被視為僅能夠識別有限量單詞的大詞匯量連續(xù)語音識 別器(LVCSR)。除了上述聲學(xué)處理和圖形匹配之外,這樣的系統(tǒng)基于用戶 詞典(XJLX)和標(biāo)準(zhǔn)單詞語言模型(LM)。 ULX根據(jù)單詞部分的序列(音 素)識別系統(tǒng)知道的單詞。單詞LM用于對單詞的序列進(jìn)行評分,由此對 高于聲學(xué)水平的語言水平實(shí)現(xiàn)建模。對于每個(gè)已知單詞而言,標(biāo)準(zhǔn)單詞LM基于單詞歷史統(tǒng)計(jì)量,單詞歷史共由n個(gè)單詞組成。這樣的LM在大規(guī)模 詞庫上進(jìn)行訓(xùn)練,從而觀測到足夠大量的單詞歷史,從而獲得重要的統(tǒng)計(jì)量。通常,對于具有約64000個(gè)建模單詞的三元文法LM (n=3)而言,所 需要的詞庫具有百萬量級的單詞規(guī)模。因此,通過最新水平的LVCSR來提 高可識別單詞的數(shù)量的主要困難是,需要收集足夠大的詞庫。雖然用戶詞 典和計(jì)算機(jī)能力在穩(wěn)步提高,從而可以處理更多的單詞,但是,可以識別 出的單詞量仍然有限。本發(fā)明的發(fā)明人已經(jīng)認(rèn)識到,能夠識別原理上無限量單詞的改進(jìn)的語 音識別系統(tǒng)是大有裨益的,因此設(shè)計(jì)出了本發(fā)明。優(yōu)選情況下,本發(fā)明單 獨(dú)或以組合方式減少、削減或消除了現(xiàn)有技術(shù)的一個(gè)或多個(gè)以上或其它缺 點(diǎn)。發(fā)明內(nèi)容根據(jù)本發(fā)明的一方面,提供了一種語音識別系統(tǒng),其根據(jù)聲音塊識別單詞,所述語音識別系統(tǒng)包括-單詞識別器,其通過單詞圖導(dǎo)出最佳路徑,其中,每個(gè)單詞都分配了 一個(gè)單詞分值和一個(gè)音標(biāo),并且,基于最佳路徑把單詞分配給聲音塊,其中,單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型(LM)應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值。語音識別系統(tǒng)通常是計(jì)算機(jī)化的系統(tǒng),其中,把語音作為聲音塊輸入, 例如,由用戶通過麥克風(fēng)作為語音直接輸入,由計(jì)算機(jī)系統(tǒng)作為語音文件 輸入,由能夠輸出語音的模擬設(shè)備作為聲音塊輸入,等等。語音識別系統(tǒng) 可以用作連續(xù)語音的在線或離線識別器,以及用作"指令&控制命令"識別器。在這種情況下,(文法)句法信息可以取代音素LM,或與音素LM 組合起來使用。語音識別系統(tǒng)可以例如用作用戶和計(jì)算機(jī)系統(tǒng)之間的接口 系統(tǒng)。語音識別系統(tǒng)可以產(chǎn)生單詞圖,其中,給每個(gè)單詞都分配了一個(gè)單詞 分值和一個(gè)音標(biāo),或者,這種單詞圖可由另一源端產(chǎn)生或提供,并可由單 詞識別器使用。單詞圖使得每個(gè)單詞的單詞分值包括通過將音素語言模型 (LM)應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值??梢园褑卧~分值取為 聲學(xué)音素分值和音素LM分值之和。通常,分值是所發(fā)現(xiàn)的概率的負(fù)對數(shù)。本發(fā)明的優(yōu)點(diǎn)是有很多原因的。由于單詞圖基于音標(biāo)和音素LM,所以不再需要單詞LM,并且,可識別單詞量不受限于識別系統(tǒng)的單詞LM中的 單詞量??勺R別單詞量只受限于在容許單詞詞典中儲存的單詞量,從而, 可以獲得巨大量甚至無限量的單詞。巨大量的單詞可以得到處理,因?yàn)橐?素語言模型把音素用作基本單元。因此,系統(tǒng)只需要在音素級而非單詞級 上進(jìn)行語言建模。巨大詞匯量處理的一個(gè)有益結(jié)果是,僅有極少量的詞匯 表外單詞(OOV),甚至幾乎沒有,因此不需要專門處理這些情況和由OOV 單詞引起的主要錯(cuò)誤。此外,與傳統(tǒng)的單詞LM相比,使用音素LM模型 能更加高效地處理未見過的單詞,因?yàn)橐羲豅M知道未見過的單詞的概率, 其通過回退(backing-off)而非使用傳統(tǒng)的單詞LM所用的恒定懲罰因數(shù)(penalty)。此外,由于單詞圖基于把音素語言模型應(yīng)用于單詞圖的每個(gè)單 詞,故而不需要LM自適應(yīng),即使可以進(jìn)行LM自適應(yīng),也可以擴(kuò)展語音 識別系統(tǒng),使其包括任何音素LM自適應(yīng)技術(shù)。這可以用于例如單詞序列 在形態(tài)上不正確的自由風(fēng)格文本。此外,因?yàn)檎Z音識別基于音素LM,所以, 系統(tǒng)可以設(shè)置用來處理自由風(fēng)格語言、非預(yù)期的單詞序列或者甚至隨機(jī)的 單詞序列,其優(yōu)于傳統(tǒng)的基于單詞的統(tǒng)計(jì)LM。傳統(tǒng)的識別系統(tǒng)在這種情況 下將執(zhí)行得很差,而本發(fā)明的識別系統(tǒng)的執(zhí)行情況則是可以接受的。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求2中進(jìn)行了限定, 其中,語音識別系統(tǒng)基于包括多于200.000個(gè)單詞的允許單詞詞典,例如多 于一百萬個(gè)單詞,例如多于十億個(gè)單詞,或者更多個(gè)單詞,例如實(shí)際上無 限量的單詞。除了單詞的字形表示和音標(biāo)之外,詞典的每個(gè)單詞項(xiàng)還可以 包括單詞的詞干。允許單詞詞典還被稱為大量單詞詞典(HwLex)。由于巨 大數(shù)量的單詞可由系統(tǒng)處理,所以不需要HwLex自適應(yīng),但是,可以進(jìn)行 HwLex自適應(yīng),其中,添加新的單詞并生成相應(yīng)的數(shù)據(jù)??梢栽跓o任何音 素LM自適應(yīng)的情況下使HwLex達(dá)到適應(yīng)。根據(jù)本發(fā)明的系統(tǒng)的優(yōu)選實(shí)施例在從屬權(quán)利要求3和4中進(jìn)行了限定, 其中,語音識別系統(tǒng)還包括音素識別器,其從聲音塊中提取音素圖,音素 圖用于給每個(gè)邊界分配一個(gè)音素,其中,單詞圖中的單詞的音標(biāo)基于音素 圖,并且其中,給每個(gè)音素分配一個(gè)聲學(xué)音素分值。音素識別器可以通過 應(yīng)用諸如Md頻率倒譜系數(shù)(MFCC)、線性預(yù)測編碼(LPC)、相對譜系數(shù)(RASTA)、感知線性預(yù)測(PLP)等任何標(biāo)準(zhǔn)聲學(xué)特征提取技術(shù)而自動(dòng)處理聲音塊。聲學(xué)建??梢曰谌魏位谝羲氐穆晫W(xué)建模,例如隱性馬爾可夫模型(HMM)、帶有(任何)狀態(tài)模型的音素模型(拉普拉斯或高斯分 布的混合)。音素識別核心可以是任何基于圖形匹配的核心。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求5中進(jìn)行了限定, 其中,語音識別系統(tǒng)還包括單詞音素圖生成器,其把音素圖轉(zhuǎn)換成單詞音 素圖,單詞音素圖用于給每個(gè)邊界分配一個(gè)單詞和相關(guān)的音標(biāo)。根據(jù)音素圖提供單詞音素圖是有益的,因?yàn)檫@樣在單詞音素圖和相應(yīng)音素之間建立 起了直接關(guān)聯(lián),從而可將音素序列解碼成單詞序列。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求6中進(jìn)行了限定, 其中,確定音素序列假設(shè),并將其添加到音素圖中,其中,單詞音素圖基 于擴(kuò)展的音素圖。音素序列假設(shè)由音素序列假設(shè)生成器添加到音素圖中。 用音素序列假設(shè)擴(kuò)展音素圖是有益的,因?yàn)檫@樣音素序列假設(shè)可以至少在 一定程度上補(bǔ)償音素識別器的聲學(xué)誤差(如果出現(xiàn)這些誤差的話)。此外, 由于假設(shè)產(chǎn)生,所以,還可以至少在一定程度上識別出不清楚的語音。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求7中進(jìn)行了限定, 其中,通過應(yīng)用允許單詞詞典(HwLex),對擴(kuò)展音素圖進(jìn)行過濾,從而把 包括不在詞典中存在的單詞的擴(kuò)展音素圖的音素序列剔除掉。這樣確保只 處理允許的單詞。此外,將過濾步驟整合到音素序列假設(shè)生成器中是有益 的,因?yàn)檫@樣可以確保不考慮不相關(guān)的音素序列,即,與任何允許單詞 都不匹配的那些音素序列;因此,可以更高效地處理擴(kuò)展音素圖。根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求8中進(jìn)行了限定,其中,提供時(shí)間同步的單詞音素圖,其中,從單詞音素圖中把時(shí)間前后均無關(guān)聯(lián) 的單詞剔除掉。這樣確保把單詞音素圖的死路徑剔除掉,從而更高效地處理單詞語音序列。優(yōu)選情況下,從屬權(quán)利要求6至8的實(shí)施例可以組合起來,從而確保 在單詞音素圖中只考慮相關(guān)的音素序列。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求9中進(jìn)行了限定, 其中,語音識別系統(tǒng)還包括單詞圖生成器,其將單詞音素圖轉(zhuǎn)換成單詞圖, 單詞圖用于給每個(gè)邊界分配一個(gè)單詞。根據(jù)音素分析而非直接單詞解碼來 分配聲音塊的可能單詞是有益的,因?yàn)橛靡羲刈鳛榛締卧扔脝卧~作為基本單元更加高效。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求10中進(jìn)行了限 定,其中,音素語言模型是m元文法語言模型或緊湊的變元文法模型 (variagram)。這些類型的語言模型是眾所周知的,因而確保了具有魯棒性 的語言模型。根據(jù)本發(fā)明的第二方面,提供了根據(jù)聲音塊識別單詞的方法,其中, 通過單詞圖導(dǎo)出最佳路徑,其中給每個(gè)單詞都分配了一個(gè)單詞分值,并且, 基于最佳路徑把單詞分配給聲音塊,單詞圖中的每個(gè)單詞的分值包括通過 將音素語言模型應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值。根據(jù)本發(fā)明的第三方面,提供了根據(jù)聲音塊識別單詞的裝置,所述裝 置包括-語音傳感器,其根據(jù)聲音塊捕獲語音, -語音識別系統(tǒng),-輸出模塊,其輸出所識別出的單詞, 其中,所述語音識別系統(tǒng)包括-單詞識別器,其通過單詞圖導(dǎo)出最佳路徑,其中,給每個(gè)單詞都分配 了一個(gè)單詞分值,并且,基于最佳路徑把單詞分配給聲音塊,以及其中,單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型應(yīng)用 于單詞圖的每個(gè)單詞而獲得的單詞分值。語音傳感器可以是麥克風(fēng)或其它裝置,只要把捕獲到的語音轉(zhuǎn)換成數(shù) 字表示形式從而能在語音識別系統(tǒng)中進(jìn)行處理即可。輸出模塊可以是以數(shù) 字形式或非數(shù)字形式(例如,以文本形式)輸出單詞的任何類型的模塊。 所述裝置可以如錄音機(jī)、任何形式的語音控制裝置等等之類的裝置。根據(jù)本發(fā)明的第三方面,提供了計(jì)算機(jī)可讀代碼,其用于實(shí)現(xiàn)本發(fā)明 第二方面的方法。通常,在本發(fā)明的保護(hù)范圍內(nèi),本發(fā)明的各方面可以以任何可能的方 式進(jìn)行組合和結(jié)合。參照下面描述的實(shí)施例,本發(fā)明的這些和其它方面、 特征和/或優(yōu)點(diǎn)將是顯而易見的。
9下面將參照附圖僅通過舉例方式描述本發(fā)明的實(shí)施例,其中-圖1示出了單詞識別器的實(shí)施例,圖2示出了創(chuàng)建HwLex的實(shí)施例, 圖3示出了執(zhí)行聲學(xué)訓(xùn)練的實(shí)施例, 圖4示出了創(chuàng)建音素LM的實(shí)施例, 圖5示出了音素識別器的實(shí)施例, 圖6示出了單詞音素圖生成器的實(shí)施例, 圖7示出了單詞圖生成器的實(shí)施例。
具體實(shí)施方式
在標(biāo)準(zhǔn)大詞匯量連續(xù)語音識別器(LVCSR)等結(jié)構(gòu)中,用戶詞典(ULX) 和語言模型(LM)是基本部件。它們一起限制了可識別單詞的量。本文介紹的語音識別系統(tǒng)克服了此限制,我們把本文介紹的語音識別 系統(tǒng)稱為巨大連續(xù)語音識別器(HVCSR),因?yàn)樗軌蜃R別巨大量的單詞, 在原理上能夠識別無限量的單詞。HVCSR不具有傳統(tǒng)的LM,它運(yùn)用所謂 的大量單詞詞典(HwLex)而非傳統(tǒng)的ULX來確定實(shí)際使用的語言的允許 單詞。HwLex將實(shí)際語言單詞及其音標(biāo)存儲起來。下面將進(jìn)一步詳細(xì)描述 HwLex。與LVCSR相比,在HVCSR中,信息源組合不同,從而能夠處理 大量的可識別單詞。通常,HwLex太大,以至于不能像在整合的LVCSR 中那樣將其作為音素樹整合到識別處理過程中。圖1示出了根據(jù)本發(fā)明的巨大詞匯量連續(xù)語音識別器(HVCSR)的實(shí) 施例。該識別器利用三個(gè)源端HwLexl2、聲學(xué)資源29和音素LM36,下 面將結(jié)合圖2-4進(jìn)一步對其進(jìn)行論述。在第一步驟中,將音素識別器41應(yīng)用于聲音塊40。音素識別器通過使 用聲學(xué)資源29對來臨的聲音塊進(jìn)行處理,從而產(chǎn)生音素圖42并將其輸出。 音素圖是可能音素的表示形式,其中,每個(gè)音素具有一個(gè)聲學(xué)分值,此聲 學(xué)分值表示在特定音頻位置發(fā)出給定音素的概率。在下一步驟中,把單詞音素圖生成器43應(yīng)用于所產(chǎn)生的音素圖。單詞 音素圖生成器的輸出是單詞音素圖44。還可以獲得每個(gè)單詞邊界的音標(biāo)。 單詞音素生成器具有兩項(xiàng)任務(wù)生成音素序列假設(shè),并用其擴(kuò)展音素圖, 將擴(kuò)展的音素圖轉(zhuǎn)換成單詞音素圖。生成器生成與可在音素圖中找到的音素序列假設(shè)相類似的音素序列假設(shè),并用該假設(shè)擴(kuò)展音素圖。然后,通過運(yùn)用HwLexl2來解析擴(kuò)展的音素 圖,從而對那些僅包括允許單詞序列的圖路徑進(jìn)行過濾。HwLex對于每個(gè) 單詞而言可以具有多個(gè)允許音標(biāo),它們也可以被視為主要的音素序列假設(shè)。 HwLex解析的結(jié)果是,建立起了在圖路徑上識別單詞的單詞音素圖44。在下一個(gè)處理步驟中,單詞圖生成器45將單詞音素圖轉(zhuǎn)換成單詞圖。 這里,將音素LM36應(yīng)用于單詞音素圖,從而對不同的單詞序列假設(shè)進(jìn)行 評分。它用平均歷史長度m去對音素歷史進(jìn)行建模一一如果需要的話還跳 過單詞邊界,m通常為8-10。因此,音素LM還捕獲到用單詞LM (二元文 法、三元文法)表示的信息。音素LM分值有助于確定在當(dāng)前音頻位置發(fā) 出實(shí)際單詞序列的概率。由于假設(shè)重新組合,單詞音素圖發(fā)生改變,以及, 不再需要此音素內(nèi)容信息,所以生成了單詞圖46。在最后的處理步驟中,最佳路徑計(jì)算器47根據(jù)單詞圖選擇最可能的單 詞序列,如識別出的單詞48所示。如上所述,HwLex將實(shí)際語言單詞及其音標(biāo)存儲起來。這使得它可以 識別語言的允許單詞,并檢索描述它們發(fā)音的音素序列。在一些非理想的 情況下,單詞發(fā)音較標(biāo)準(zhǔn)發(fā)音有所不同。例如,這樣的情況是語音太快、 語音不清楚等等。為了在這些情況下也能識別,HwLex可以含有單詞的"降 級的"發(fā)音。形式上,這些可以根據(jù)標(biāo)準(zhǔn)發(fā)音通過插入、刪除或替代音素 而導(dǎo)出來。這些有偏差的發(fā)音的生成可以基于仿真方法或更自然的方法。 例如,仿真方法借助于某種語音距離衡量指標(biāo)通過應(yīng)用正確標(biāo)準(zhǔn)而從標(biāo)準(zhǔn) 發(fā)音導(dǎo)出這些發(fā)音變體。例如,語音距離衡量指標(biāo)可以是待比較的發(fā)音間 的音素差別數(shù)。距離衡量指標(biāo)標(biāo)準(zhǔn)可以依靠發(fā)音變體的音素長度。詞干在 一定程度上可以用于識別不清楚的語音,因?yàn)樗粫捎诒磉_(dá)不清楚而發(fā) 生改變或者而僅發(fā)生很小的變化。在這些情況下,使用詞干的發(fā)音或者統(tǒng) 計(jì)地收集時(shí)常出現(xiàn)的發(fā)音是更加自然的構(gòu)想??傊@些發(fā)音變體的生成 可以依靠它們所屬的單詞。此外,它們具有的懲罰因數(shù)可以表示根據(jù)具體 發(fā)音變體而不是根據(jù)原始發(fā)音形式發(fā)出單詞的概率。不管使用何種構(gòu)建方法,將這些發(fā)音變體也視為允許的發(fā)音。圖2示出了創(chuàng)建允許單詞詞典(HwLex)的處理流程圖。HwLex可以 基于詞庫l,其包括巨大量單詞的書面文本單元(例如,數(shù)據(jù)文件)以及實(shí) 際語言的相應(yīng)文法形式。在預(yù)處理步驟2中,可以將像標(biāo)點(diǎn)、數(shù)字等一些 非單詞形式剔除掉,或?qū)⑺鼈冝D(zhuǎn)換成單詞形式(字形序列)。單詞迭代器3 依次對預(yù)處理過的詞庫中的每個(gè)單詞進(jìn)行以下處理根據(jù)每個(gè)單詞生成其 '標(biāo)準(zhǔn)'音標(biāo)9及其詞干7,它們和單詞的字形序列形式8—起用作輸入, 以產(chǎn)生初始HwLex中的項(xiàng)。生成音標(biāo)的語音轉(zhuǎn)錄器5可以統(tǒng)計(jì)地或確定性 地依靠實(shí)際設(shè)置和語言。詞干識別器4例如通過運(yùn)用自動(dòng)語言特定前綴和 后綴過濾器而工作。由此產(chǎn)生初始的HwLex 10。隨后,初始的HwLex由 允許音標(biāo)生成器11進(jìn)行處理,允許音標(biāo)生成器11可以進(jìn)一步為初始HwLex 的每一項(xiàng)分配允許的音標(biāo)和懲罰因數(shù)。允許音標(biāo)生成器可以使用先前存儲 的時(shí)常出現(xiàn)的發(fā)音變體列表或某種語音距離衡量指標(biāo)或語言學(xué)考慮,例如 在不清楚的語音中只發(fā)出單詞的中間部分。最后,經(jīng)過了修改的項(xiàng)進(jìn)入到 創(chuàng)建的HwLex 12中。圖3示出了訓(xùn)練聲學(xué)資源的流程圖。聲學(xué)資源表示用于識別的音素的聲學(xué)特征。它包括實(shí)際語言的音素的 聲學(xué)模型。聲學(xué)資源基于輸入的訓(xùn)練材料20。訓(xùn)練材料包括可以由錄音和相應(yīng)參 考文本組成的材料項(xiàng)列表(例如,材料文件列表)。材料迭代器21從頭到尾重述整個(gè)訓(xùn)練材料,從而將其分解成多個(gè)材料 項(xiàng)。對于每個(gè)材料項(xiàng)而言,它將語音和文本單元對(例如,文件)等返回。 將文本22提供給音素序列生成器25。音素序列生成器通過從HwLex 12讀 取必要的音標(biāo),將進(jìn)來的文本變換成基于單詞形式的音素序列。將語音和 文本單元的語音23提供給聲學(xué)處理器26。聲學(xué)處理器從此語音中提取必要 的信息。所產(chǎn)生的聲學(xué)表示24是壓縮形式的信息,不能再將其轉(zhuǎn)換回到準(zhǔn) 確的原始語音,因?yàn)槟承┬畔⒁呀?jīng)丟失。聲學(xué)資源訓(xùn)練器27針對音素序列 和相應(yīng)語音部分的聲學(xué)表示,運(yùn)用一些聲學(xué)模型相關(guān)技術(shù)(例如三音素模 型、音素狀態(tài)捆綁或跨詞模型),從而生成新的聲學(xué)資源29。聲學(xué)處理器 26和聲學(xué)資源訓(xùn)練器27可選擇地咨詢實(shí)際聲學(xué)資源28。聲學(xué)資源訓(xùn)練器27重復(fù)更新先前訓(xùn)練過的聲學(xué)資源28。但是在缺少合適的初始聲學(xué)資源28 的情況下,它就從頭開始。如上所述,音素LM是用音素作為基本單元的m元文法LM,其中, m是音素?cái)?shù)的歷史長度。通常,m大于n(n是一個(gè)單詞中的音素的平均數(shù)), 所以,模型跳過單詞。因此,還將單詞間的間隔建模成具體的音素。音素LM還具有關(guān)于未見過的單詞的信息,由于已見過的單詞部分。 這意味著,它通過回退到一個(gè)單詞部分而非通過恒定懲罰來對未見過的單 詞進(jìn)行建模。例如,在LM訓(xùn)練詞庫中未出現(xiàn)單詞"pro-fiise",但出現(xiàn)了 "pro-found"和"con-fuse"。運(yùn)用音素LM,通過將已經(jīng)在例如"pro-found" 中見過的"pro"的概率和已經(jīng)在例如"con-flise"中見過的"fiise"的概率 進(jìn)行組合來估計(jì)"pro-fose"的概率。把通過組合語言單元序列的各部分的 概率來對其概率進(jìn)行建模稱為回退。通常,音素LM整合單詞內(nèi)和單詞間 的形態(tài)信息,因此,當(dāng)運(yùn)用音素LM進(jìn)行假設(shè)選擇時(shí),音素LM傾向于形 態(tài)正確的單詞序列。假設(shè)h表示單詞歷史長度,則它遵循111 = 11*11。為了加入二連詞或三 連詞信息,h可以取為2-3.5,因此111>8。另外,m必須大于大單詞詞典里 的最長單詞,從而對于HwLex里的所有單詞而言具有至少二連詞歷史。也 可以將音素LM組織成更加緊湊的變元文法(varigram),同樣可以用于單 詞LM。在圖4中示出了生成音素LM的處理次序的流程圖。 音素LM與基于由書面文本單元組成的詞庫1的HwLex類似,下面結(jié)合HwLex創(chuàng)建對其加以描述,為了避免非單詞形式,對詞庫進(jìn)行了預(yù)處理31。語音轉(zhuǎn)錄器32將字形序列轉(zhuǎn)換成音素序列,并輸出詞庫的音素表示。 語音轉(zhuǎn)錄器32使用音標(biāo)資源33。把詞庫的音素表示輸入到音素序列迭代器 34中,音素序列迭代器34從頭到尾重復(fù)每個(gè)音素序列,并將其傳送給統(tǒng)計(jì) 計(jì)算塊35,其中執(zhí)行音素序列統(tǒng)計(jì)計(jì)算、LM文法估計(jì)。最后,創(chuàng)建了音 素LM 36。圖2示出了如何創(chuàng)建大單詞詞典的實(shí)施例,圖3示出了建立聲學(xué)資源 的實(shí)施例,圖4示出了提供音素LM的實(shí)施例。但應(yīng)當(dāng)理解的是,所描述何提供資源,還可以預(yù)想到提供大單詞詞典、聲學(xué)資源和音素LM的其它方法。下面結(jié)合圖5-7進(jìn)一步詳細(xì)描述圖1所示的巨大詞匯量連續(xù)語音識別器。在圖5中更加詳細(xì)地示出了在圖1中用41表示的音素識別器。 聲音塊40首先經(jīng)過聲學(xué)處理50。聲學(xué)處理50從此語音中提取主要信 息,并輸出向圖形匹配塊52輸入的聲學(xué)表示51。模式匹配塊搜索語音的來 臨的聲學(xué)表示51的最可能的音素序列。結(jié)果為音素圖序列42。在音素圖中, 每個(gè)音素都具有一個(gè)分值,此分值表示曾在該時(shí)間位置發(fā)出此音素的概率。 每個(gè)音素圖對應(yīng)一個(gè)時(shí)間間隔。這意味著所有具有相同時(shí)間間隔的路徑(和 它們的分值)是可比較的。在圖6中更加詳細(xì)地示出了在圖1中用43表示的單詞音素圖生成器43。 在第一步驟中,由音素序列假設(shè)生成器60生成新的音素序列假設(shè),并 將其插入到音素圖中,從而生成擴(kuò)展的音素圖61。每個(gè)新的音素序列假設(shè) 繼承了原音素序列假設(shè)的累積分值。另外,每個(gè)新的音素序列假設(shè)都可以 有附加分值,其稱為懲罰因數(shù)并表示用新的音素序列假設(shè)取代原音素序列 假設(shè)的概率。如果在新的和原來的音素序列假設(shè)中音素?cái)?shù)不同,則可以運(yùn) 用適當(dāng)?shù)姆种灯交夹g(shù)來計(jì)算新的音素序列假設(shè)的音素分值。一種創(chuàng)建新的音素序列假設(shè)的典型方法是,根據(jù)混淆矩陣中音素的識 別誤差插入音素。這么做是為了補(bǔ)償音素識別器的聲學(xué)誤差。這是一種獨(dú) 立于HwLex的方法,實(shí)際上,只有最可能的識別誤差必須在新的音素序列 假設(shè)中示出,從而保持圖的易處理性。這可以由修剪技術(shù)來實(shí)現(xiàn)。另一種創(chuàng)建新的音素序列假設(shè)的方法是,運(yùn)用來自HwLex的單詞的允 許音標(biāo)。在本文中,允許音標(biāo)充當(dāng)新音素序列假設(shè)的角色。它們不是從 HwLex直接插入到音素圖中,但是,在單詞假設(shè)解析器62中對其進(jìn)行檢測, 并且,如果合適的話,將它們插入到初始的單詞音素圖63中。在這種情況 下,新的音素序列假設(shè)的懲罰因數(shù)來自HwLex。音素序列假設(shè)創(chuàng)建方法可 以是或可以包括以下方法,如混淆矩陣、允許詞干、收集的發(fā)音列表、基 于音素距離等等。在隨后 的處理步驟中,單詞假設(shè)解析器62對擴(kuò)展的音素圖進(jìn)行處理。它運(yùn)用HwLex12,通過查閱單詞的允許發(fā)音,對擴(kuò)展的音素圖中的有效音 素序列假設(shè)進(jìn)行過濾。在此處理過程中,創(chuàng)建了初始的單詞音素圖63。例 如,這可以通過運(yùn)用時(shí)間同步的單詞插入來實(shí)現(xiàn)。對于每個(gè)時(shí)間點(diǎn),將發(fā) 現(xiàn)的所有允許單詞插入到初始的單詞音素圖中,該單詞音素圖準(zhǔn)確地在該 時(shí)間點(diǎn)結(jié)束。可以把具有相同開始和結(jié)朿時(shí)間的相同單詞的僅僅一個(gè)副本 插入到圖中。所有插入的單詞還包括其音素內(nèi)容。這樣,還有一些死路徑 出現(xiàn)在初始的單詞音素圖中,它們既不向前連接到圖的結(jié)束點(diǎn),也不向后 連接到圖的開始點(diǎn)。在另一設(shè)置中,把單詞假設(shè)解析器直接整合到音素序 列假設(shè)生成處理中,從而在有效音素序列假設(shè)過濾期間僅處理那些密切相 關(guān)的因此也是較少的音素序列假設(shè)。在路徑后處理64中刪除死路徑,并可選地剪掉單詞假設(shè)。所生成的單 詞音素圖44還提供了對單詞音素序列內(nèi)容的訪問,其在下一步中需要。請 注意,單詞繼承了組成音素的累積分值和懲罰因數(shù)。在圖7中更加詳細(xì)地示出了在圖1中用45表示的單詞圖生成器。把單詞音素圖插入到初始單詞圖生成器71中,單詞圖生成器71運(yùn)用 音素LM 36,對單詞音素圖的單詞的每個(gè)音素進(jìn)行評分。這里,實(shí)際語言 單元是當(dāng)前單詞的第一個(gè)音素,歷史組成先前語言單元是剩余的m-l個(gè)音 素。讓m大于詞典里的最長單詞,確定的m-l長的音素序列總是覆蓋實(shí)際 單詞??偟囊羲胤种悼梢杂陕晫W(xué)分值和音素LM分值的組合產(chǎn)生。單詞繼 承了它們的音素的累積分值。評分之后,將單詞進(jìn)行重新組合。由于重新 組合,會產(chǎn)生新的單詞圖,其中,不再需要音素序列信息。此外,可能會 出現(xiàn)死路徑,路徑后處理73用于刪除死路徑,并且還可選地進(jìn)行剪除。在 后處理73之后,輸出最終的單詞圖46。本發(fā)明可以用任何適當(dāng)形式來實(shí)現(xiàn),包括硬件、軟件、固件或其組合。 本發(fā)明或本發(fā)明的一些特征可以實(shí)現(xiàn)成在一個(gè)或多個(gè)數(shù)據(jù)處理器和/或數(shù)字 信號處理器上運(yùn)行的計(jì)算機(jī)軟件。本發(fā)明的實(shí)施例的元件和部件可以用任 何適當(dāng)?shù)姆椒ㄎ锢硇缘亍⒐δ苄缘睾瓦壿嬓缘貋韺?shí)現(xiàn)。實(shí)際上,功能可以 在單個(gè)單元、多個(gè)單元中實(shí)現(xiàn),或者,實(shí)現(xiàn)成其它功能單元的一部分。同 樣,本發(fā)明可以在單個(gè)單元中實(shí)現(xiàn),或者,可以在不同單元和處理器之間 物理性地和功能性地分布。雖然上面圍繞著特定實(shí)施例描述了本發(fā)明,但本發(fā)明并不限于這里列 明的特定形式。而且,本發(fā)明僅由所附的權(quán)利要求書加以界定。為了清楚和透徹地理解本發(fā)明,上面給出的公開實(shí)施例的特定具體細(xì) 節(jié)是說明性的,而非限制性的。但本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解,在不明 顯偏離本發(fā)明的精神和保護(hù)范圍的情況下,本發(fā)明可以用其它實(shí)施例來實(shí) 現(xiàn),而不嚴(yán)格限于本文列出的細(xì)節(jié)。此外,在本文中,為了簡明和清楚起 見,略去了眾所周知的裝置、電路和方法的詳細(xì)描述,以避免主次不分、 重點(diǎn)不明。權(quán)利要求書中包含附圖標(biāo)記,但包含附圖標(biāo)記僅僅是出于清楚起見, 而不應(yīng)將其解釋為對權(quán)利要求的保護(hù)范圍構(gòu)成限制。
權(quán)利要求
1、一種語音識別系統(tǒng),其根據(jù)聲音塊(40)識別單詞,所述語音識別系統(tǒng)包括單詞識別器(49),其通過單詞圖(46)導(dǎo)出最佳路徑(47),其中,給每個(gè)單詞都分配了一個(gè)單詞分值和一個(gè)音標(biāo),單詞是基于所述最佳路徑分配給所述聲音塊的,其中,所述單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型(36)應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
2、 根據(jù)權(quán)利要求1所述的語音識別系統(tǒng),所述語音識別系統(tǒng)基于包括 多于200.000個(gè)單詞的允許單詞詞典(12)。
3、 根據(jù)權(quán)利要求1所述的語音識別系統(tǒng),還包括音素識別器(41),其從所述聲音塊(40)中提取音素圖(42, 61), 所述音素圖用于給每個(gè)邊界分配一個(gè)音素,其中,所述單詞圖中的單詞的音標(biāo)基于所述音素圖。
4、 根據(jù)權(quán)利要求3所述的語音識別系統(tǒng),其中,給每個(gè)音素分配一個(gè) 聲學(xué)音素分值。
5、 根據(jù)權(quán)利要求3所述的語音識別系統(tǒng),還包括 單詞音素圖生成器(43),其用于把所述音素圖(42, 61)轉(zhuǎn)換成單詞音素圖(44),所述單詞音素圖用于給每個(gè)邊界分配一個(gè)單詞和相關(guān)的音標(biāo)。
6、 根據(jù)權(quán)利要求5所述的語音識別系統(tǒng),其中,確定音素序列假設(shè)(60), 并將其添加到所述音素圖中,從而提供擴(kuò)展音素圖(42, 61),其中,所述 單詞音素圖(44)基于所述擴(kuò)展音素圖。
7、 根據(jù)權(quán)利要求5所述的語音識別系統(tǒng),其中,通過應(yīng)用允許單詞詞典(12),對所述擴(kuò)展音素圖(42, 61)進(jìn)行過濾,從而把含有在所述詞典 中不存在的單詞的擴(kuò)展音素圖的音素序列剔除掉。
8、 根據(jù)權(quán)利要求5所述的語音識別系統(tǒng),其中,提供時(shí)間同步的單詞 音素圖(46),其中,從所述單詞音素圖(44)中剔除在時(shí)間上前后均無接 連的單詞。
9、 根據(jù)權(quán)利要求5所述的語音識別系統(tǒng),還包括 單詞圖生成器(45),其將所述單詞音素圖(44)轉(zhuǎn)換成單詞圖(46),所述單詞圖用于給每個(gè)邊界分配一個(gè)單詞。
10、 根據(jù)權(quán)利要求1所述的語音識別系統(tǒng),其中,所述音素語言模型 (36)是m元文法語言模型或緊湊的變元文法(variagram)。
11、 一種根據(jù)聲音塊識別單詞的方法,其中,通過單詞圖導(dǎo)出最佳路 徑,其中給每個(gè)單詞都分配了一個(gè)單詞分值,并且,基于所述最佳路徑把 單詞分配給所述聲音塊,所述單詞圖中的每個(gè)單詞的分值包括通過將音素 語言模型應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
12、 一種根據(jù)聲音塊識別單詞的裝置,所述裝置包括 -語音傳感器,其根據(jù)聲音塊(40)捕獲語音,_語音識別系統(tǒng),-輸出模塊,其把識別出的單詞輸出, 其中,所述語音識別系統(tǒng)包括-單詞識別器(49),其通過單詞圖(46)導(dǎo)出最佳路徑(47),其中, 給每個(gè)單詞都分配了一個(gè)單詞分值,并且,基于所述最佳路徑把單詞分配 給所述聲音塊(40),以及其中,所述單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型 (36)應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
13、計(jì)算機(jī)可讀代碼,用于實(shí)現(xiàn)權(quán)利要求ll的方法。
全文摘要
本發(fā)明涉及語音識別,例如用于識別連續(xù)語音中的單詞的系統(tǒng)。所公開的語音識別系統(tǒng)能夠識別大量的單詞,在原理上甚至能夠識別無限量的單詞。所述語音識別系統(tǒng)包括單詞識別器,其通過單詞圖導(dǎo)出最佳路徑,其中,基于最佳路徑把單詞分配給語音。單詞分值是通過將音素語言模型應(yīng)用于單詞圖的每個(gè)單詞而獲得的。此外,本發(fā)明涉及根據(jù)聲音塊識別單詞的裝置和方法,還涉及用于實(shí)現(xiàn)所述方法的計(jì)算機(jī)可讀代碼。
文檔編號G10L15/187GK101326572SQ200680046025
公開日2008年12月17日 申請日期2006年12月6日 優(yōu)先權(quán)日2005年12月8日
發(fā)明者Z·薩費(fèi) 申請人:皇家飛利浦電子股份有限公司