具有巨大詞匯量的語音識別系統(tǒng)的制作方法

文檔序號：2836981閱讀：268來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：具有巨大詞匯量的語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及根據(jù)聲音塊識別單詞的語音識別系統(tǒng)，尤其涉及連續(xù)語音識別器。此外，本發(fā)明還涉及根據(jù)聲音塊識別單詞的裝置和方法，以及實(shí) 現(xiàn)所述方法的計(jì)算機(jī)可讀代碼。
背景技術(shù)：
在語音識別系統(tǒng)中，輸入聲音塊是由計(jì)算機(jī)系統(tǒng)將聲音塊的口頭內(nèi)容的聲音特征轉(zhuǎn)換成所識別出的單詞來處理的。語音識別是一項(xiàng)復(fù)雜的工作，涉及許多步驟。第一步驟通常包括某種聲學(xué)特征的提取，其中，根據(jù)聲學(xué) 資源從聲音塊中提取表示單詞或單詞部分的聲音特征。隨后對聲音特征進(jìn) 行評分，聲學(xué)分值描述了特定單詞或單詞部分在聲音塊中的給定位置產(chǎn)生某一特征的概率。圖形匹配技術(shù)用于根據(jù)聲音特征的序列確定單詞或單詞部分的可能序列。以圖形結(jié)構(gòu)將單詞或單詞部分和所分配的分值進(jìn)行排序，在下一步驟中，通過此圖導(dǎo)出最可能的單詞序列。將最可能的單詞序列記為識別出的單詞。美國專利6,542,866 Bl公開了針對一段輸入信號生成多個(gè)特征向量的方法和裝置。解碼器生成路徑分值，此路徑分值指明了此段輸入信號表示某一單詞的概率。路徑分值是通過選擇用于每一段的最佳特征向量而生成的。路徑分值基于該段的不同特征向量?，F(xiàn)有技術(shù)的系統(tǒng)被視為僅能夠識別有限量單詞的大詞匯量連續(xù)語音識別器(LVCSR)。除了上述聲學(xué)處理和圖形匹配之外，這樣的系統(tǒng)基于用戶詞典(XJLX)和標(biāo)準(zhǔn)單詞語言模型(LM)。 ULX根據(jù)單詞部分的序列(音素)識別系統(tǒng)知道的單詞。單詞LM用于對單詞的序列進(jìn)行評分，由此對高于聲學(xué)水平的語言水平實(shí)現(xiàn)建模。對于每個(gè)已知單詞而言，標(biāo)準(zhǔn)單詞LM基于單詞歷史統(tǒng)計(jì)量，單詞歷史共由n個(gè)單詞組成。這樣的LM在大規(guī)模詞庫上進(jìn)行訓(xùn)練，從而觀測到足夠大量的單詞歷史，從而獲得重要的統(tǒng)計(jì)量。通常，對于具有約64000個(gè)建模單詞的三元文法LM (n=3)而言，所需要的詞庫具有百萬量級的單詞規(guī)模。因此，通過最新水平的LVCSR來提高可識別單詞的數(shù)量的主要困難是，需要收集足夠大的詞庫。雖然用戶詞典和計(jì)算機(jī)能力在穩(wěn)步提高，從而可以處理更多的單詞，但是，可以識別出的單詞量仍然有限。本發(fā)明的發(fā)明人已經(jīng)認(rèn)識到，能夠識別原理上無限量單詞的改進(jìn)的語音識別系統(tǒng)是大有裨益的，因此設(shè)計(jì)出了本發(fā)明。優(yōu)選情況下，本發(fā)明單獨(dú)或以組合方式減少、削減或消除了現(xiàn)有技術(shù)的一個(gè)或多個(gè)以上或其它缺點(diǎn)。發(fā)明內(nèi)容根據(jù)本發(fā)明的一方面，提供了一種語音識別系統(tǒng)，其根據(jù)聲音塊識別單詞，所述語音識別系統(tǒng)包括-單詞識別器，其通過單詞圖導(dǎo)出最佳路徑，其中，每個(gè)單詞都分配了一個(gè)單詞分值和一個(gè)音標(biāo)，并且，基于最佳路徑把單詞分配給聲音塊，其中，單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型(LM)應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值。語音識別系統(tǒng)通常是計(jì)算機(jī)化的系統(tǒng)，其中，把語音作為聲音塊輸入，例如，由用戶通過麥克風(fēng)作為語音直接輸入，由計(jì)算機(jī)系統(tǒng)作為語音文件輸入，由能夠輸出語音的模擬設(shè)備作為聲音塊輸入，等等。語音識別系統(tǒng) 可以用作連續(xù)語音的在線或離線識別器，以及用作"指令&控制命令"識別器。在這種情況下，(文法)句法信息可以取代音素LM，或與音素LM 組合起來使用。語音識別系統(tǒng)可以例如用作用戶和計(jì)算機(jī)系統(tǒng)之間的接口系統(tǒng)。語音識別系統(tǒng)可以產(chǎn)生單詞圖，其中，給每個(gè)單詞都分配了一個(gè)單詞分值和一個(gè)音標(biāo)，或者，這種單詞圖可由另一源端產(chǎn)生或提供，并可由單詞識別器使用。單詞圖使得每個(gè)單詞的單詞分值包括通過將音素語言模型 (LM)應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值?？梢园褑卧~分值取為聲學(xué)音素分值和音素LM分值之和。通常，分值是所發(fā)現(xiàn)的概率的負(fù)對數(shù)。本發(fā)明的優(yōu)點(diǎn)是有很多原因的。由于單詞圖基于音標(biāo)和音素LM,所以不再需要單詞LM,并且，可識別單詞量不受限于識別系統(tǒng)的單詞LM中的單詞量?？勺R別單詞量只受限于在容許單詞詞典中儲存的單詞量，從而，可以獲得巨大量甚至無限量的單詞。巨大量的單詞可以得到處理，因?yàn)橐?素語言模型把音素用作基本單元。因此，系統(tǒng)只需要在音素級而非單詞級上進(jìn)行語言建模。巨大詞匯量處理的一個(gè)有益結(jié)果是，僅有極少量的詞匯表外單詞(OOV)，甚至幾乎沒有，因此不需要專門處理這些情況和由OOV 單詞引起的主要錯(cuò)誤。此外，與傳統(tǒng)的單詞LM相比，使用音素LM模型能更加高效地處理未見過的單詞，因?yàn)橐羲豅M知道未見過的單詞的概率，其通過回退(backing-off)而非使用傳統(tǒng)的單詞LM所用的恒定懲罰因數(shù)(penalty)。此外，由于單詞圖基于把音素語言模型應(yīng)用于單詞圖的每個(gè)單詞，故而不需要LM自適應(yīng)，即使可以進(jìn)行LM自適應(yīng)，也可以擴(kuò)展語音識別系統(tǒng)，使其包括任何音素LM自適應(yīng)技術(shù)。這可以用于例如單詞序列在形態(tài)上不正確的自由風(fēng)格文本。此外，因?yàn)檎Z音識別基于音素LM，所以，系統(tǒng)可以設(shè)置用來處理自由風(fēng)格語言、非預(yù)期的單詞序列或者甚至隨機(jī)的單詞序列，其優(yōu)于傳統(tǒng)的基于單詞的統(tǒng)計(jì)LM。傳統(tǒng)的識別系統(tǒng)在這種情況下將執(zhí)行得很差，而本發(fā)明的識別系統(tǒng)的執(zhí)行情況則是可以接受的。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求2中進(jìn)行了限定，其中，語音識別系統(tǒng)基于包括多于200.000個(gè)單詞的允許單詞詞典，例如多于一百萬個(gè)單詞，例如多于十億個(gè)單詞，或者更多個(gè)單詞，例如實(shí)際上無限量的單詞。除了單詞的字形表示和音標(biāo)之外，詞典的每個(gè)單詞項(xiàng)還可以包括單詞的詞干。允許單詞詞典還被稱為大量單詞詞典(HwLex)。由于巨大數(shù)量的單詞可由系統(tǒng)處理，所以不需要HwLex自適應(yīng)，但是，可以進(jìn)行 HwLex自適應(yīng)，其中，添加新的單詞并生成相應(yīng)的數(shù)據(jù)?？梢栽跓o任何音素LM自適應(yīng)的情況下使HwLex達(dá)到適應(yīng)。根據(jù)本發(fā)明的系統(tǒng)的優(yōu)選實(shí)施例在從屬權(quán)利要求3和4中進(jìn)行了限定，其中，語音識別系統(tǒng)還包括音素識別器，其從聲音塊中提取音素圖，音素圖用于給每個(gè)邊界分配一個(gè)音素，其中，單詞圖中的單詞的音標(biāo)基于音素圖，并且其中，給每個(gè)音素分配一個(gè)聲學(xué)音素分值。音素識別器可以通過應(yīng)用諸如Md頻率倒譜系數(shù)(MFCC)、線性預(yù)測編碼(LPC)、相對譜系數(shù)(RASTA)、感知線性預(yù)測(PLP)等任何標(biāo)準(zhǔn)聲學(xué)特征提取技術(shù)而自動(dòng)處理聲音塊。聲學(xué)建?？梢曰谌魏位谝羲氐穆晫W(xué)建模，例如隱性馬爾可夫模型(HMM)、帶有(任何)狀態(tài)模型的音素模型(拉普拉斯或高斯分布的混合)。音素識別核心可以是任何基于圖形匹配的核心。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求5中進(jìn)行了限定，其中，語音識別系統(tǒng)還包括單詞音素圖生成器，其把音素圖轉(zhuǎn)換成單詞音素圖，單詞音素圖用于給每個(gè)邊界分配一個(gè)單詞和相關(guān)的音標(biāo)。根據(jù)音素圖提供單詞音素圖是有益的，因?yàn)檫@樣在單詞音素圖和相應(yīng)音素之間建立起了直接關(guān)聯(lián)，從而可將音素序列解碼成單詞序列。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求6中進(jìn)行了限定，其中，確定音素序列假設(shè)，并將其添加到音素圖中，其中，單詞音素圖基于擴(kuò)展的音素圖。音素序列假設(shè)由音素序列假設(shè)生成器添加到音素圖中。用音素序列假設(shè)擴(kuò)展音素圖是有益的，因?yàn)檫@樣音素序列假設(shè)可以至少在一定程度上補(bǔ)償音素識別器的聲學(xué)誤差(如果出現(xiàn)這些誤差的話)。此外，由于假設(shè)產(chǎn)生，所以，還可以至少在一定程度上識別出不清楚的語音。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求7中進(jìn)行了限定，其中，通過應(yīng)用允許單詞詞典(HwLex)，對擴(kuò)展音素圖進(jìn)行過濾，從而把包括不在詞典中存在的單詞的擴(kuò)展音素圖的音素序列剔除掉。這樣確保只處理允許的單詞。此外，將過濾步驟整合到音素序列假設(shè)生成器中是有益的，因?yàn)檫@樣可以確保不考慮不相關(guān)的音素序列，即，與任何允許單詞都不匹配的那些音素序列；因此，可以更高效地處理擴(kuò)展音素圖。根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求8中進(jìn)行了限定，其中，提供時(shí)間同步的單詞音素圖，其中，從單詞音素圖中把時(shí)間前后均無關(guān)聯(lián) 的單詞剔除掉。這樣確保把單詞音素圖的死路徑剔除掉，從而更高效地處理單詞語音序列。優(yōu)選情況下，從屬權(quán)利要求6至8的實(shí)施例可以組合起來，從而確保在單詞音素圖中只考慮相關(guān)的音素序列。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求9中進(jìn)行了限定，其中，語音識別系統(tǒng)還包括單詞圖生成器，其將單詞音素圖轉(zhuǎn)換成單詞圖，單詞圖用于給每個(gè)邊界分配一個(gè)單詞。根據(jù)音素分析而非直接單詞解碼來分配聲音塊的可能單詞是有益的，因?yàn)橛靡羲刈鳛榛締卧扔脝卧~作為基本單元更加高效。根據(jù)本發(fā)明的系統(tǒng)的一個(gè)優(yōu)選實(shí)施例在從屬權(quán)利要求10中進(jìn)行了限定，其中，音素語言模型是m元文法語言模型或緊湊的變元文法模型 (variagram)。這些類型的語言模型是眾所周知的，因而確保了具有魯棒性的語言模型。根據(jù)本發(fā)明的第二方面，提供了根據(jù)聲音塊識別單詞的方法，其中，通過單詞圖導(dǎo)出最佳路徑，其中給每個(gè)單詞都分配了一個(gè)單詞分值，并且，基于最佳路徑把單詞分配給聲音塊，單詞圖中的每個(gè)單詞的分值包括通過將音素語言模型應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值。根據(jù)本發(fā)明的第三方面，提供了根據(jù)聲音塊識別單詞的裝置，所述裝置包括-語音傳感器，其根據(jù)聲音塊捕獲語音， -語音識別系統(tǒng)，-輸出模塊，其輸出所識別出的單詞，其中，所述語音識別系統(tǒng)包括-單詞識別器，其通過單詞圖導(dǎo)出最佳路徑，其中，給每個(gè)單詞都分配了一個(gè)單詞分值，并且，基于最佳路徑把單詞分配給聲音塊，以及其中，單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型應(yīng)用于單詞圖的每個(gè)單詞而獲得的單詞分值。語音傳感器可以是麥克風(fēng)或其它裝置，只要把捕獲到的語音轉(zhuǎn)換成數(shù) 字表示形式從而能在語音識別系統(tǒng)中進(jìn)行處理即可。輸出模塊可以是以數(shù) 字形式或非數(shù)字形式(例如，以文本形式)輸出單詞的任何類型的模塊。所述裝置可以如錄音機(jī)、任何形式的語音控制裝置等等之類的裝置。根據(jù)本發(fā)明的第三方面，提供了計(jì)算機(jī)可讀代碼，其用于實(shí)現(xiàn)本發(fā)明第二方面的方法。通常，在本發(fā)明的保護(hù)范圍內(nèi)，本發(fā)明的各方面可以以任何可能的方式進(jìn)行組合和結(jié)合。參照下面描述的實(shí)施例，本發(fā)明的這些和其它方面、特征和/或優(yōu)點(diǎn)將是顯而易見的。

9下面將參照附圖僅通過舉例方式描述本發(fā)明的實(shí)施例，其中-圖1示出了單詞識別器的實(shí)施例，圖2示出了創(chuàng)建HwLex的實(shí)施例，圖3示出了執(zhí)行聲學(xué)訓(xùn)練的實(shí)施例，圖4示出了創(chuàng)建音素LM的實(shí)施例，圖5示出了音素識別器的實(shí)施例，圖6示出了單詞音素圖生成器的實(shí)施例，圖7示出了單詞圖生成器的實(shí)施例。
具體實(shí)施方式
在標(biāo)準(zhǔn)大詞匯量連續(xù)語音識別器(LVCSR)等結(jié)構(gòu)中，用戶詞典(ULX) 和語言模型(LM)是基本部件。它們一起限制了可識別單詞的量。本文介紹的語音識別系統(tǒng)克服了此限制，我們把本文介紹的語音識別系統(tǒng)稱為巨大連續(xù)語音識別器(HVCSR)，因?yàn)樗軌蜃R別巨大量的單詞，在原理上能夠識別無限量的單詞。HVCSR不具有傳統(tǒng)的LM，它運(yùn)用所謂的大量單詞詞典(HwLex)而非傳統(tǒng)的ULX來確定實(shí)際使用的語言的允許單詞。HwLex將實(shí)際語言單詞及其音標(biāo)存儲起來。下面將進(jìn)一步詳細(xì)描述 HwLex。與LVCSR相比，在HVCSR中，信息源組合不同，從而能夠處理大量的可識別單詞。通常，HwLex太大，以至于不能像在整合的LVCSR 中那樣將其作為音素樹整合到識別處理過程中。圖1示出了根據(jù)本發(fā)明的巨大詞匯量連續(xù)語音識別器(HVCSR)的實(shí) 施例。該識別器利用三個(gè)源端HwLexl2、聲學(xué)資源29和音素LM36，下面將結(jié)合圖2-4進(jìn)一步對其進(jìn)行論述。在第一步驟中，將音素識別器41應(yīng)用于聲音塊40。音素識別器通過使用聲學(xué)資源29對來臨的聲音塊進(jìn)行處理，從而產(chǎn)生音素圖42并將其輸出。音素圖是可能音素的表示形式，其中，每個(gè)音素具有一個(gè)聲學(xué)分值，此聲學(xué)分值表示在特定音頻位置發(fā)出給定音素的概率。在下一步驟中，把單詞音素圖生成器43應(yīng)用于所產(chǎn)生的音素圖。單詞音素圖生成器的輸出是單詞音素圖44。還可以獲得每個(gè)單詞邊界的音標(biāo)。單詞音素生成器具有兩項(xiàng)任務(wù)生成音素序列假設(shè)，并用其擴(kuò)展音素圖，將擴(kuò)展的音素圖轉(zhuǎn)換成單詞音素圖。生成器生成與可在音素圖中找到的音素序列假設(shè)相類似的音素序列假設(shè)，并用該假設(shè)擴(kuò)展音素圖。然后，通過運(yùn)用HwLexl2來解析擴(kuò)展的音素圖，從而對那些僅包括允許單詞序列的圖路徑進(jìn)行過濾。HwLex對于每個(gè) 單詞而言可以具有多個(gè)允許音標(biāo)，它們也可以被視為主要的音素序列假設(shè)。 HwLex解析的結(jié)果是，建立起了在圖路徑上識別單詞的單詞音素圖44。在下一個(gè)處理步驟中，單詞圖生成器45將單詞音素圖轉(zhuǎn)換成單詞圖。這里，將音素LM36應(yīng)用于單詞音素圖，從而對不同的單詞序列假設(shè)進(jìn)行評分。它用平均歷史長度m去對音素歷史進(jìn)行建模一一如果需要的話還跳過單詞邊界，m通常為8-10。因此，音素LM還捕獲到用單詞LM (二元文法、三元文法)表示的信息。音素LM分值有助于確定在當(dāng)前音頻位置發(fā) 出實(shí)際單詞序列的概率。由于假設(shè)重新組合，單詞音素圖發(fā)生改變，以及，不再需要此音素內(nèi)容信息，所以生成了單詞圖46。在最后的處理步驟中，最佳路徑計(jì)算器47根據(jù)單詞圖選擇最可能的單詞序列，如識別出的單詞48所示。如上所述，HwLex將實(shí)際語言單詞及其音標(biāo)存儲起來。這使得它可以識別語言的允許單詞，并檢索描述它們發(fā)音的音素序列。在一些非理想的情況下，單詞發(fā)音較標(biāo)準(zhǔn)發(fā)音有所不同。例如，這樣的情況是語音太快、語音不清楚等等。為了在這些情況下也能識別，HwLex可以含有單詞的"降級的"發(fā)音。形式上，這些可以根據(jù)標(biāo)準(zhǔn)發(fā)音通過插入、刪除或替代音素而導(dǎo)出來。這些有偏差的發(fā)音的生成可以基于仿真方法或更自然的方法。例如，仿真方法借助于某種語音距離衡量指標(biāo)通過應(yīng)用正確標(biāo)準(zhǔn)而從標(biāo)準(zhǔn) 發(fā)音導(dǎo)出這些發(fā)音變體。例如，語音距離衡量指標(biāo)可以是待比較的發(fā)音間的音素差別數(shù)。距離衡量指標(biāo)標(biāo)準(zhǔn)可以依靠發(fā)音變體的音素長度。詞干在一定程度上可以用于識別不清楚的語音，因?yàn)樗粫捎诒磉_(dá)不清楚而發(fā) 生改變或者而僅發(fā)生很小的變化。在這些情況下，使用詞干的發(fā)音或者統(tǒng) 計(jì)地收集時(shí)常出現(xiàn)的發(fā)音是更加自然的構(gòu)想?？傊@些發(fā)音變體的生成可以依靠它們所屬的單詞。此外，它們具有的懲罰因數(shù)可以表示根據(jù)具體發(fā)音變體而不是根據(jù)原始發(fā)音形式發(fā)出單詞的概率。不管使用何種構(gòu)建方法，將這些發(fā)音變體也視為允許的發(fā)音。圖2示出了創(chuàng)建允許單詞詞典(HwLex)的處理流程圖。HwLex可以基于詞庫l，其包括巨大量單詞的書面文本單元(例如，數(shù)據(jù)文件)以及實(shí) 際語言的相應(yīng)文法形式。在預(yù)處理步驟2中，可以將像標(biāo)點(diǎn)、數(shù)字等一些非單詞形式剔除掉，或?qū)⑺鼈冝D(zhuǎn)換成單詞形式(字形序列)。單詞迭代器3 依次對預(yù)處理過的詞庫中的每個(gè)單詞進(jìn)行以下處理根據(jù)每個(gè)單詞生成其 '標(biāo)準(zhǔn)'音標(biāo)9及其詞干7，它們和單詞的字形序列形式8—起用作輸入，以產(chǎn)生初始HwLex中的項(xiàng)。生成音標(biāo)的語音轉(zhuǎn)錄器5可以統(tǒng)計(jì)地或確定性地依靠實(shí)際設(shè)置和語言。詞干識別器4例如通過運(yùn)用自動(dòng)語言特定前綴和后綴過濾器而工作。由此產(chǎn)生初始的HwLex 10。隨后，初始的HwLex由允許音標(biāo)生成器11進(jìn)行處理，允許音標(biāo)生成器11可以進(jìn)一步為初始HwLex 的每一項(xiàng)分配允許的音標(biāo)和懲罰因數(shù)。允許音標(biāo)生成器可以使用先前存儲的時(shí)常出現(xiàn)的發(fā)音變體列表或某種語音距離衡量指標(biāo)或語言學(xué)考慮，例如在不清楚的語音中只發(fā)出單詞的中間部分。最后，經(jīng)過了修改的項(xiàng)進(jìn)入到創(chuàng)建的HwLex 12中。圖3示出了訓(xùn)練聲學(xué)資源的流程圖。聲學(xué)資源表示用于識別的音素的聲學(xué)特征。它包括實(shí)際語言的音素的聲學(xué)模型。聲學(xué)資源基于輸入的訓(xùn)練材料20。訓(xùn)練材料包括可以由錄音和相應(yīng)參考文本組成的材料項(xiàng)列表(例如，材料文件列表)。材料迭代器21從頭到尾重述整個(gè)訓(xùn)練材料，從而將其分解成多個(gè)材料項(xiàng)。對于每個(gè)材料項(xiàng)而言，它將語音和文本單元對(例如，文件)等返回。將文本22提供給音素序列生成器25。音素序列生成器通過從HwLex 12讀取必要的音標(biāo)，將進(jìn)來的文本變換成基于單詞形式的音素序列。將語音和文本單元的語音23提供給聲學(xué)處理器26。聲學(xué)處理器從此語音中提取必要的信息。所產(chǎn)生的聲學(xué)表示24是壓縮形式的信息，不能再將其轉(zhuǎn)換回到準(zhǔn) 確的原始語音，因?yàn)槟承┬畔⒁呀?jīng)丟失。聲學(xué)資源訓(xùn)練器27針對音素序列和相應(yīng)語音部分的聲學(xué)表示，運(yùn)用一些聲學(xué)模型相關(guān)技術(shù)(例如三音素模型、音素狀態(tài)捆綁或跨詞模型)，從而生成新的聲學(xué)資源29。聲學(xué)處理器 26和聲學(xué)資源訓(xùn)練器27可選擇地咨詢實(shí)際聲學(xué)資源28。聲學(xué)資源訓(xùn)練器27重復(fù)更新先前訓(xùn)練過的聲學(xué)資源28。但是在缺少合適的初始聲學(xué)資源28 的情況下，它就從頭開始。如上所述，音素LM是用音素作為基本單元的m元文法LM，其中， m是音素?cái)?shù)的歷史長度。通常，m大于n(n是一個(gè)單詞中的音素的平均數(shù))，所以，模型跳過單詞。因此，還將單詞間的間隔建模成具體的音素。音素LM還具有關(guān)于未見過的單詞的信息，由于已見過的單詞部分。這意味著，它通過回退到一個(gè)單詞部分而非通過恒定懲罰來對未見過的單詞進(jìn)行建模。例如，在LM訓(xùn)練詞庫中未出現(xiàn)單詞"pro-fiise"，但出現(xiàn)了 "pro-found"和"con-fuse"。運(yùn)用音素LM，通過將已經(jīng)在例如"pro-found" 中見過的"pro"的概率和已經(jīng)在例如"con-flise"中見過的"fiise"的概率進(jìn)行組合來估計(jì)"pro-fose"的概率。把通過組合語言單元序列的各部分的概率來對其概率進(jìn)行建模稱為回退。通常，音素LM整合單詞內(nèi)和單詞間的形態(tài)信息，因此，當(dāng)運(yùn)用音素LM進(jìn)行假設(shè)選擇時(shí)，音素LM傾向于形態(tài)正確的單詞序列。假設(shè)h表示單詞歷史長度，則它遵循111 = 11*11。為了加入二連詞或三連詞信息，h可以取為2-3.5，因此111>8。另外，m必須大于大單詞詞典里的最長單詞，從而對于HwLex里的所有單詞而言具有至少二連詞歷史。也可以將音素LM組織成更加緊湊的變元文法(varigram)，同樣可以用于單詞LM。在圖4中示出了生成音素LM的處理次序的流程圖。音素LM與基于由書面文本單元組成的詞庫1的HwLex類似，下面結(jié)合HwLex創(chuàng)建對其加以描述，為了避免非單詞形式，對詞庫進(jìn)行了預(yù)處理31。語音轉(zhuǎn)錄器32將字形序列轉(zhuǎn)換成音素序列，并輸出詞庫的音素表示。語音轉(zhuǎn)錄器32使用音標(biāo)資源33。把詞庫的音素表示輸入到音素序列迭代器 34中，音素序列迭代器34從頭到尾重復(fù)每個(gè)音素序列，并將其傳送給統(tǒng)計(jì) 計(jì)算塊35，其中執(zhí)行音素序列統(tǒng)計(jì)計(jì)算、LM文法估計(jì)。最后，創(chuàng)建了音素LM 36。圖2示出了如何創(chuàng)建大單詞詞典的實(shí)施例，圖3示出了建立聲學(xué)資源的實(shí)施例，圖4示出了提供音素LM的實(shí)施例。但應(yīng)當(dāng)理解的是，所描述何提供資源，還可以預(yù)想到提供大單詞詞典、聲學(xué)資源和音素LM的其它方法。下面結(jié)合圖5-7進(jìn)一步詳細(xì)描述圖1所示的巨大詞匯量連續(xù)語音識別器。在圖5中更加詳細(xì)地示出了在圖1中用41表示的音素識別器。聲音塊40首先經(jīng)過聲學(xué)處理50。聲學(xué)處理50從此語音中提取主要信息，并輸出向圖形匹配塊52輸入的聲學(xué)表示51。模式匹配塊搜索語音的來臨的聲學(xué)表示51的最可能的音素序列。結(jié)果為音素圖序列42。在音素圖中，每個(gè)音素都具有一個(gè)分值，此分值表示曾在該時(shí)間位置發(fā)出此音素的概率。每個(gè)音素圖對應(yīng)一個(gè)時(shí)間間隔。這意味著所有具有相同時(shí)間間隔的路徑(和它們的分值)是可比較的。在圖6中更加詳細(xì)地示出了在圖1中用43表示的單詞音素圖生成器43。在第一步驟中，由音素序列假設(shè)生成器60生成新的音素序列假設(shè)，并將其插入到音素圖中，從而生成擴(kuò)展的音素圖61。每個(gè)新的音素序列假設(shè) 繼承了原音素序列假設(shè)的累積分值。另外，每個(gè)新的音素序列假設(shè)都可以有附加分值，其稱為懲罰因數(shù)并表示用新的音素序列假設(shè)取代原音素序列假設(shè)的概率。如果在新的和原來的音素序列假設(shè)中音素?cái)?shù)不同，則可以運(yùn) 用適當(dāng)?shù)姆种灯交夹g(shù)來計(jì)算新的音素序列假設(shè)的音素分值。一種創(chuàng)建新的音素序列假設(shè)的典型方法是，根據(jù)混淆矩陣中音素的識別誤差插入音素。這么做是為了補(bǔ)償音素識別器的聲學(xué)誤差。這是一種獨(dú) 立于HwLex的方法，實(shí)際上，只有最可能的識別誤差必須在新的音素序列假設(shè)中示出，從而保持圖的易處理性。這可以由修剪技術(shù)來實(shí)現(xiàn)。另一種創(chuàng)建新的音素序列假設(shè)的方法是，運(yùn)用來自HwLex的單詞的允許音標(biāo)。在本文中，允許音標(biāo)充當(dāng)新音素序列假設(shè)的角色。它們不是從 HwLex直接插入到音素圖中，但是，在單詞假設(shè)解析器62中對其進(jìn)行檢測，并且，如果合適的話，將它們插入到初始的單詞音素圖63中。在這種情況下，新的音素序列假設(shè)的懲罰因數(shù)來自HwLex。音素序列假設(shè)創(chuàng)建方法可以是或可以包括以下方法，如混淆矩陣、允許詞干、收集的發(fā)音列表、基于音素距離等等。在隨后的處理步驟中，單詞假設(shè)解析器62對擴(kuò)展的音素圖進(jìn)行處理。它運(yùn)用HwLex12，通過查閱單詞的允許發(fā)音，對擴(kuò)展的音素圖中的有效音素序列假設(shè)進(jìn)行過濾。在此處理過程中，創(chuàng)建了初始的單詞音素圖63。例如，這可以通過運(yùn)用時(shí)間同步的單詞插入來實(shí)現(xiàn)。對于每個(gè)時(shí)間點(diǎn)，將發(fā) 現(xiàn)的所有允許單詞插入到初始的單詞音素圖中，該單詞音素圖準(zhǔn)確地在該時(shí)間點(diǎn)結(jié)束。可以把具有相同開始和結(jié)朿時(shí)間的相同單詞的僅僅一個(gè)副本插入到圖中。所有插入的單詞還包括其音素內(nèi)容。這樣，還有一些死路徑出現(xiàn)在初始的單詞音素圖中，它們既不向前連接到圖的結(jié)束點(diǎn)，也不向后連接到圖的開始點(diǎn)。在另一設(shè)置中，把單詞假設(shè)解析器直接整合到音素序列假設(shè)生成處理中，從而在有效音素序列假設(shè)過濾期間僅處理那些密切相關(guān)的因此也是較少的音素序列假設(shè)。在路徑后處理64中刪除死路徑，并可選地剪掉單詞假設(shè)。所生成的單詞音素圖44還提供了對單詞音素序列內(nèi)容的訪問，其在下一步中需要。請注意，單詞繼承了組成音素的累積分值和懲罰因數(shù)。在圖7中更加詳細(xì)地示出了在圖1中用45表示的單詞圖生成器。把單詞音素圖插入到初始單詞圖生成器71中，單詞圖生成器71運(yùn)用音素LM 36，對單詞音素圖的單詞的每個(gè)音素進(jìn)行評分。這里，實(shí)際語言單元是當(dāng)前單詞的第一個(gè)音素，歷史組成先前語言單元是剩余的m-l個(gè)音素。讓m大于詞典里的最長單詞，確定的m-l長的音素序列總是覆蓋實(shí)際單詞?？偟囊羲胤种悼梢杂陕晫W(xué)分值和音素LM分值的組合產(chǎn)生。單詞繼承了它們的音素的累積分值。評分之后，將單詞進(jìn)行重新組合。由于重新組合，會產(chǎn)生新的單詞圖，其中，不再需要音素序列信息。此外，可能會出現(xiàn)死路徑，路徑后處理73用于刪除死路徑，并且還可選地進(jìn)行剪除。在后處理73之后，輸出最終的單詞圖46。本發(fā)明可以用任何適當(dāng)形式來實(shí)現(xiàn)，包括硬件、軟件、固件或其組合。本發(fā)明或本發(fā)明的一些特征可以實(shí)現(xiàn)成在一個(gè)或多個(gè)數(shù)據(jù)處理器和/或數(shù)字信號處理器上運(yùn)行的計(jì)算機(jī)軟件。本發(fā)明的實(shí)施例的元件和部件可以用任何適當(dāng)?shù)姆椒ㄎ锢硇缘亍⒐δ苄缘睾瓦壿嬓缘貋韺?shí)現(xiàn)。實(shí)際上，功能可以在單個(gè)單元、多個(gè)單元中實(shí)現(xiàn)，或者，實(shí)現(xiàn)成其它功能單元的一部分。同樣，本發(fā)明可以在單個(gè)單元中實(shí)現(xiàn)，或者，可以在不同單元和處理器之間物理性地和功能性地分布。雖然上面圍繞著特定實(shí)施例描述了本發(fā)明，但本發(fā)明并不限于這里列明的特定形式。而且，本發(fā)明僅由所附的權(quán)利要求書加以界定。為了清楚和透徹地理解本發(fā)明，上面給出的公開實(shí)施例的特定具體細(xì) 節(jié)是說明性的，而非限制性的。但本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解，在不明顯偏離本發(fā)明的精神和保護(hù)范圍的情況下，本發(fā)明可以用其它實(shí)施例來實(shí) 現(xiàn)，而不嚴(yán)格限于本文列出的細(xì)節(jié)。此外，在本文中，為了簡明和清楚起見，略去了眾所周知的裝置、電路和方法的詳細(xì)描述，以避免主次不分、重點(diǎn)不明。權(quán)利要求書中包含附圖標(biāo)記，但包含附圖標(biāo)記僅僅是出于清楚起見，而不應(yīng)將其解釋為對權(quán)利要求的保護(hù)范圍構(gòu)成限制。
權(quán)利要求
1、一種語音識別系統(tǒng)，其根據(jù)聲音塊(40)識別單詞，所述語音識別系統(tǒng)包括單詞識別器(49)，其通過單詞圖(46)導(dǎo)出最佳路徑(47)，其中，給每個(gè)單詞都分配了一個(gè)單詞分值和一個(gè)音標(biāo)，單詞是基于所述最佳路徑分配給所述聲音塊的，其中，所述單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型(36)應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
2、根據(jù)權(quán)利要求1所述的語音識別系統(tǒng)，所述語音識別系統(tǒng)基于包括多于200.000個(gè)單詞的允許單詞詞典(12)。
3、根據(jù)權(quán)利要求1所述的語音識別系統(tǒng)，還包括音素識別器(41)，其從所述聲音塊(40)中提取音素圖(42， 61)，所述音素圖用于給每個(gè)邊界分配一個(gè)音素，其中，所述單詞圖中的單詞的音標(biāo)基于所述音素圖。
4、根據(jù)權(quán)利要求3所述的語音識別系統(tǒng)，其中，給每個(gè)音素分配一個(gè) 聲學(xué)音素分值。
5、根據(jù)權(quán)利要求3所述的語音識別系統(tǒng)，還包括單詞音素圖生成器(43)，其用于把所述音素圖(42， 61)轉(zhuǎn)換成單詞音素圖(44)，所述單詞音素圖用于給每個(gè)邊界分配一個(gè)單詞和相關(guān)的音標(biāo)。
6、根據(jù)權(quán)利要求5所述的語音識別系統(tǒng)，其中，確定音素序列假設(shè)(60)，并將其添加到所述音素圖中，從而提供擴(kuò)展音素圖(42， 61)，其中，所述單詞音素圖(44)基于所述擴(kuò)展音素圖。
7、根據(jù)權(quán)利要求5所述的語音識別系統(tǒng)，其中，通過應(yīng)用允許單詞詞典(12)，對所述擴(kuò)展音素圖(42， 61)進(jìn)行過濾，從而把含有在所述詞典中不存在的單詞的擴(kuò)展音素圖的音素序列剔除掉。
8、根據(jù)權(quán)利要求5所述的語音識別系統(tǒng)，其中，提供時(shí)間同步的單詞音素圖(46)，其中，從所述單詞音素圖(44)中剔除在時(shí)間上前后均無接連的單詞。
9、根據(jù)權(quán)利要求5所述的語音識別系統(tǒng)，還包括單詞圖生成器(45)，其將所述單詞音素圖(44)轉(zhuǎn)換成單詞圖(46)，所述單詞圖用于給每個(gè)邊界分配一個(gè)單詞。
10、根據(jù)權(quán)利要求1所述的語音識別系統(tǒng)，其中，所述音素語言模型 (36)是m元文法語言模型或緊湊的變元文法(variagram)。
11、一種根據(jù)聲音塊識別單詞的方法，其中，通過單詞圖導(dǎo)出最佳路徑，其中給每個(gè)單詞都分配了一個(gè)單詞分值，并且，基于所述最佳路徑把單詞分配給所述聲音塊，所述單詞圖中的每個(gè)單詞的分值包括通過將音素語言模型應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
12、一種根據(jù)聲音塊識別單詞的裝置，所述裝置包括 -語音傳感器，其根據(jù)聲音塊(40)捕獲語音，_語音識別系統(tǒng)，-輸出模塊，其把識別出的單詞輸出，其中，所述語音識別系統(tǒng)包括-單詞識別器(49),其通過單詞圖(46)導(dǎo)出最佳路徑(47),其中，給每個(gè)單詞都分配了一個(gè)單詞分值，并且，基于所述最佳路徑把單詞分配給所述聲音塊(40)，以及其中，所述單詞圖中的每個(gè)單詞的單詞分值包括通過將音素語言模型 (36)應(yīng)用于所述單詞圖的每個(gè)單詞而獲得的單詞分值。
13、計(jì)算機(jī)可讀代碼，用于實(shí)現(xiàn)權(quán)利要求ll的方法。
全文摘要
本發(fā)明涉及語音識別，例如用于識別連續(xù)語音中的單詞的系統(tǒng)。所公開的語音識別系統(tǒng)能夠識別大量的單詞，在原理上甚至能夠識別無限量的單詞。所述語音識別系統(tǒng)包括單詞識別器，其通過單詞圖導(dǎo)出最佳路徑，其中，基于最佳路徑把單詞分配給語音。單詞分值是通過將音素語言模型應(yīng)用于單詞圖的每個(gè)單詞而獲得的。此外，本發(fā)明涉及根據(jù)聲音塊識別單詞的裝置和方法，還涉及用于實(shí)現(xiàn)所述方法的計(jì)算機(jī)可讀代碼。
文檔編號G10L15/187GK101326572SQ200680046025
公開日2008年12月17日申請日期2006年12月6日優(yōu)先權(quán)日2005年12月8日
發(fā)明者Z·薩費(fèi) 申請人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｚ.薩費(fèi)
技術(shù)所有人：紐昂斯奧地利通訊有限公司
我是此專利的發(fā)明人

上一篇：音樂琴弦和包括所述琴弦的樂器的制作方法
上一篇：音樂種類判別裝置和裝備它的游戲機(jī)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

具有巨大詞匯量的語音識別系統(tǒng)的制作方法