專利名稱:用于語音識別的深度結構的全序列訓練的制作方法
技術領域:
本發(fā)明涉及語言識別技術,尤其涉及深度結構化模型中的學習技術。
背景技術:
語音識別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如,語音識別系統(tǒng)已經(jīng)并入到移動電話、臺式計算機、汽車等等中以便提供對用戶所提供的語音輸入的具體響應。例如,在配備有語音識別技術的移動電話中,用戶可以講出移動電話中所列出的聯(lián)系人的姓名,并且移動電話可以發(fā)起對該聯(lián)系人的呼叫。此外,許多公司當前正在使用語音識別技術來在標識公司雇員以及標識產(chǎn)品或服務的問題等等方面幫助顧客。部分地被利用人類語音生成和感知系統(tǒng)中某些類似屬性的要求所激勵,對ASR的研究已經(jīng)探究了分層的體系結構來執(zhí)行語音識別。在這些研究中,對模型參數(shù)的學習已經(jīng)是最顯著且最困難的問題之一。與ASR研究中的發(fā)展并行,從神經(jīng)網(wǎng)絡研究中學習各方法所取得的當前進展已經(jīng)點燃了對探查深度結構化模型的興趣。一個具體的進步是深度信任網(wǎng)絡(DBN)的有效學習技術的開發(fā),該深度信任網(wǎng)絡是具有許多隱藏層的密集連接的、直接的信任網(wǎng)絡。一般而言,DBN可被認為是具有多層隱藏單元和至少一層可見單元的高度復雜的非線性特征提取器,其中隱藏單元的每一層學習表示在原始輸入數(shù)據(jù)中捕捉更高階的相關的特征。盡管DBN通常比其較淺的對應物有更高的建模能力,但在DBN中學習是困難的,部分地因為反向傳播算法常常由于顯著增加了的陷入局部最優(yōu)的機會而不有效地執(zhí)行。因此,針對DBN的改進的學習技術是期望的。
發(fā)明內(nèi)容
以下是在本文詳細描述的主題的簡要概述。本發(fā)明內(nèi)容不旨在是關于權利要求的范圍的限制。在此描述了與自動語音識別(ASR)有關的各種技術。更具體地,本文描述了與利用深度結構化模型來執(zhí)行ASR有關的各種技術。更具體地,本文描述了與執(zhí)行對用于語音識別的深度結構化模型的全序列訓練有關的各種技術。可結合ASR來使用的示例性深度結構化模型是深度信任網(wǎng)絡(DBN)??蓪BN采取預訓練過程,其中這一預訓練過程可與學習DBN中的變量(可見的和隱藏的)的各層之間的初始權重有關。在一個示例中,這一預訓練過程可通過將DBN中每一對層作為受限玻爾茲曼機(RBM)來對待,來貪婪地學習DBN的每一層的初始權重。在DBN經(jīng)受預訓練之后,可通過利用在序列級別處為DBN所設計的區(qū)別訓練準則來對DBN權重、轉(zhuǎn)移參數(shù)、以及語言模型(LM)分數(shù)聯(lián)合地進行基本上優(yōu)化。更具體地,語音識別可被稱為順序的或全序列學習問題,并且已知在序列級別處的區(qū)別信息對改進識別的準確性有貢獻。在先前方法中,僅利用幀級信息來訓練DBN權重,并且轉(zhuǎn)移參數(shù)和LM分數(shù)是分開獲得的。在閱讀并理解了附圖和描述后,可以明白其他方面。
圖1是通過利用深度信任網(wǎng)絡(DBN)來促進執(zhí)行自動語音識別(ASR)的示例性系統(tǒng)的功能框圖。圖2是促進初始化DBN的權重的示例系統(tǒng)的功能框圖。圖3是促進聯(lián)合地基本上優(yōu)化DBN權重、轉(zhuǎn)移參數(shù)和語言模型(LM)分數(shù)的示例性系統(tǒng)的功能框圖。圖4是示例性DBN。圖5是示出用于聯(lián)合地學習DBN權重、轉(zhuǎn)移參數(shù)和LM分析的示例性方法的流程圖。圖6是示出用于聯(lián)合地學習DBN權重、轉(zhuǎn)移參數(shù)和LM分析的示例性方法的流程圖。圖7示出了示例性的深度隱藏條件隨機場。圖8是示例性計算系統(tǒng)。
具體實施例方式現(xiàn)在將參考附圖來描述關于自動語音識別(ASR)系統(tǒng)的各種技術,其中貫穿全文,相同的附圖標記表示相同的元素。另外,本文出于解釋的目的示出并描述了各示例系統(tǒng)的若干功能框圖;然而可以理解,被描述為由特定系統(tǒng)組件執(zhí)行的功能可以由多個組件來執(zhí)行。類似地,例如可以將一組件配置為執(zhí)行被描述為由多個組件執(zhí)行的功能,并且在此所述的方法中的一些步驟可以被省略、重排序、或者組合。參考圖1,示出了促進執(zhí)行ASR的示例性系統(tǒng)100。系統(tǒng)100包括接收樣本104的語音識別系統(tǒng)102。該樣本可以是來自個體的在特定時間量內(nèi)所講出的詞語(例如其通過利用麥克風被捕捉)。樣本104可以通過利用模數(shù)轉(zhuǎn)換器來被數(shù)字化,并且可以在期望時受到某種形式的歸一化。盡管在此所提供的示例指示樣本104是講出的發(fā)言(utterance), 但是應當理解,系統(tǒng)100可以被配置為執(zhí)行在線手寫識別和/或?qū)崟r姿勢識別。因此,樣本 104可以是在線手寫樣本或者描述諸如人類之類的對象的運動的視頻信號。語音識別系統(tǒng)102包括深度結構化模型106。在一個示例中,深度結構化模型106 可以是深度信任網(wǎng)絡(DBN),其中該DBN是臨時地參數(shù)綁定的。DBN是一種概率生成性模型,其具有處于表示數(shù)據(jù)矢量的所觀察到的變量的單個底層之上的多層隨機隱藏單元。更具體地,DBN是具有許多隱藏層的、密集連接且直接的信任網(wǎng)絡,對其而言學習是困難的問題。深度結構化模型106可接收樣本104,并且可輸出關于輸出單元的狀態(tài)后驗概率,該輸出單元可以是音素、音素的聚類(senone)、或某種其他合適的輸出單元。如下面將更詳細地描述的,深度結構化模型106可通過預訓練過程來生成,并且之后,可通過順序的或全序列學習來對深度結構化模型106的權重、深度結構化模型106中的轉(zhuǎn)移參數(shù)以及語言模型分數(shù)聯(lián)合地進行充分優(yōu)化。語音識別系統(tǒng)102附加地包括解碼器108,該解碼器可解碼深度結構化模型的輸出以生成輸出110。根據(jù)一示例,輸出110可包括被接收作為樣本104的詞語或詞語序列的指示。在另一示例中,輸出110可以是與視頻樣本中所捕捉的姿勢有關的姿勢。在又一示例中,輸出110可以是在壓敏屏幕上寫的詞語或詞語序列的指示。根據(jù)一示例,語音識別系統(tǒng)102可以部署在多種上下文中。例如,語音識別系統(tǒng) 102可以部署在移動電話中,使得移動電話可以響應于用戶所講出的命令作出行動。在另一示例中,語音識別系統(tǒng)102可以部署在汽車中,使得汽車可以響應于用戶所講出的命令作出行動??稍谄渲胁捎谜Z音識別系統(tǒng)102的其他系統(tǒng)包括自動轉(zhuǎn)錄系統(tǒng)、工業(yè)自動化系統(tǒng)、 銀行系統(tǒng)、以及采用ASR技術的其他合適系統(tǒng)?,F(xiàn)在參考圖2,示出了促進初始化DBN的權重的示例性系統(tǒng)200。系統(tǒng)200包括接收DBN 204的初始化器組件202。如前所述,DBN是具有許多隱藏層的、密集連接且直接的信任網(wǎng)絡,對其而言學習是困難的問題。初始化器組件202可以行動以便通過將每一對層作為受限玻爾茲曼機(RBM)來對待,來貪婪地學習DBN 204的每一層。初始化器組件202 可訪問數(shù)據(jù)儲存庫206中的訓練數(shù)據(jù)以執(zhí)行上述訓練。更具體地,RBM是具有一層(通常為柏努利)隨機隱藏單元和一層(通常為柏努利或高斯)隨機可見單元的特定類型的馬爾可夫隨機場(MRF)。RBM可被表示為二分圖,因為全部可見單元都被連接到全部隱藏單元, 但不存在可見-可見或隱藏-隱藏的連接。在RBM中,給定模型參數(shù)θ,可見單元ν和隱藏單元h上的聯(lián)合分布ρ (v,h ; Θ) 可按照以下算法的能量函數(shù)E (v,h ; θ )來定義
權利要求
1.一種方法,包括以下計算機可執(zhí)行動作使處理器訪問保留在計算機可讀介質(zhì)中的深度結構化模型,其中所述深度結構化模型包括帶有所分配的權重的多個層、狀態(tài)之間的轉(zhuǎn)移概率、和語言模型分數(shù);以及對所述深度結構化模型的所述權重、所述轉(zhuǎn)移概率、所述語言模型分數(shù)進行聯(lián)合地優(yōu)化。
2.如權利要求1所述的方法,其特征在于,所述深度結構化模型是深度信任網(wǎng)絡 (DBN)。
3.如權利要求2所述的方法,其特征在于,所述DBN被配置成執(zhí)行以下各項之一自動語音識別、自動姿勢識別、自動人體動作識別、或自動在線手寫識別。
4.如權利要求2所述的方法,其特征在于,所述DBN是概率生成性模型,所述概率生成性模型包括處于表示數(shù)據(jù)矢量的所觀察到的變量的單個底層之上的多層隨機隱藏單元。
5.如權利要求1所述的方法,其特征在于,所述深度結構化模型包括多個隱藏隨機層, 并且還包括預訓練所述深度結構化模型,其中預訓練包括利用不受監(jiān)督的算法來初始化所述隱藏隨機層之間的連接的權重。
6.如權利要求5所述的方法,其特征在于,還包括利用反向傳播來對所述深度結構化模型的所述權重、所述轉(zhuǎn)移概率、和所述語音模型分數(shù)進行聯(lián)合地充分優(yōu)化。
7.如權利要求5的方法,其特征在于,所述預訓練包括將所述深度結構化模型中各對層作為受限玻爾茲曼機來對待。
8.如權利要求1所述的方法,其特征在于,所述深度結構化模型是深度隱藏條件隨機場(DHCRF)。
9.一種計算機實現(xiàn)的系統(tǒng),包括處理器(802);以及包括能由所述處理器執(zhí)行的多個組件的存儲器(804),所述組件包括接收經(jīng)預訓練的深度結構化模型的接收器組件,其中所述深度結構化模型包括多個層、所述層之間的權重、轉(zhuǎn)移參數(shù)、和語音模型分數(shù);以及對經(jīng)預訓練的深度結構化模型的權重、經(jīng)預訓練的深度結構化模型的狀態(tài)轉(zhuǎn)移參數(shù)、 和經(jīng)預訓練的深度結構化模型的語言模型分數(shù)進行聯(lián)合地基本上優(yōu)化的訓練器組件。
10.如權利要求9所述的系統(tǒng),其特征在于,所述經(jīng)預訓練的深度結構化模型被訓練以供語言識別。
11.如權利要求9所述的系統(tǒng),其特征在于,所述經(jīng)預訓練的深度結構化模型是深度信任網(wǎng)絡(DBN)。
12.如權利要求11所述的系統(tǒng),其特征在于,所述DBN是概率生成性模型,所述概率生成性模型包括處于表示數(shù)據(jù)矢量的所觀察到的變量的單個底層之上的多層隨機隱藏單元。
13.如權利要求11所述的系統(tǒng),其特征在于,所述DBN的最頂層是線性鏈條條件隨機場 (CRF)。
14.如權利要求9所述的系統(tǒng),其特征在于,所述組件還包括初始化器組件,所述初始化器組件對深度結構化模型的權重進行初始化以生成所述經(jīng)預訓練的深度結構化模型。
15.如權利要求9所述的系統(tǒng),其特征在于,所述訓練器組件結合對所述權重、轉(zhuǎn)移參數(shù)和語言模型分數(shù)進行充分優(yōu)化來確定所述深度結構化模型的標簽的全序列的條件概率。
全文摘要
本發(fā)明公開了用于語音識別的深度結構的全序列訓練。本文公開了一種方法,該方法包括使處理器訪問保留在計算機可讀介質(zhì)中的深度結構化模型的動作,其中該深度結構化模型包括帶有所分配的權重的多個層、狀態(tài)之間的轉(zhuǎn)移概率、和語言模型分數(shù)。該方法還可包括使用基于序列而非一組不相關幀的優(yōu)化準則來對該深度結構化模型的權重、轉(zhuǎn)移概率和語言模型分數(shù)進行聯(lián)合地充分優(yōu)化的動作。
文檔編號G10L15/14GK102436811SQ201110299678
公開日2012年5月2日 申請日期2011年9月20日 優(yōu)先權日2010年9月21日
發(fā)明者A·S·A·穆罕默德, D·俞, L·鄧 申請人:微軟公司