指令執(zhí)行系統(tǒng)、裝置或設 備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳 輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝 置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電 連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器 (ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存 儲器(CDR0M)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的 介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其 他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
[0075] 應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述 實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件 或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下 列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路 的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場 可編程門陣列(FPGA)等。
[0076] 本技術領域的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步 驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介 質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0077] 此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以 是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模 塊既可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。所述集成的模塊如 果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,也可以存儲在一個計算機 可讀取存儲介質中。
[0078] 上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。盡管上面已經示出和描 述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限 制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變 型。
【主權項】
1. 一種利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的方法,其特征在于,包 括W下步驟: 接收第t時刻的語音輸入數據; 根據預設規(guī)則選擇第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài),其中,n為正整數; 根據所述選擇的至少一個LSTM隱含層狀態(tài)、所述第t時刻的語音輸入數據、W及所述 LSTM循環(huán)神經網絡模型生成第t時刻的LSTM結果。2. 如權利要求1所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的方法, 其特征在于,所述預設規(guī)則包括: 從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出至少一個最大不同的LSTM 隱含層狀態(tài)作為選擇結果;和/或 采用LO-范數的稀疏性,從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出所 述至少一個LSTM隱含層狀態(tài);和/或 根據人工經驗從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出所述至少一 個LSTM隱含層狀態(tài)。3. 如權利要求1所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的方法, 其特征在于,其中,所述n為預先配置的。4. 如權利要求1所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的方法, 其特征在于,其中,所述LSTM循環(huán)神經網絡模型包括輸入口、遺忘口、輸出口、狀態(tài)單元和 LSTM結果,分別通過W下公式計算獲得: it _ O (WixXt+Wimlllt-l+WicCt-l+bi ) ft _ O ( WfxXt+Wfmlllt-l+Wf cCt-l+bf ) A 二 乂G嗎_, + z; O + ITc戸,-1 + &c) Ot _ O ( WoxXt+Womlllt-l+WocCt-l+bo ) 其中,Xt為所述第t時刻的語音輸入數據,W為權重矩陣,b為偏置向量,i、f、o、c、m分別為 所述輸入口、遺忘口、輸出口、狀態(tài)單元和LSTM結果,0為向量按元素的乘積,〇為3igmoid函 數,所述S i gmo id函數的計算公式為:;:g、h分別為所述狀態(tài)單元的輸入和輸出 激活函數,所述激活函數為化nh函數,所述化nh函數的計算公式為,5. 如權利要求1所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的方法, 其特征在于,其中,所述n通過自學習獲得。6. -種利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的裝置,其特征在于,包 括: 接收模塊,用于接收第t時刻的語音輸入數據; 選擇模塊,用于根據預設規(guī)則選擇第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài),其中,n 為正整數; 生成模塊,用于根據所述選擇的至少一個LSTM隱含層狀態(tài)、所述第t時刻的語音輸入數 據、W及所述LSTM循環(huán)神經網絡模型生成第t時刻的LSTM結果。7. 如權利要求6所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的裝置, 其特征在于,所述預設規(guī)則包括: 從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出至少一個最大不同的LSTM 隱含層狀態(tài)作為選擇結果;和/或 采用LO-范數的稀疏性,從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出所 述至少一個LSTM隱含層狀態(tài);和/或 根據人工經驗從所述第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài)中選擇出所述至少一 個LSTM隱含層狀態(tài)。8. 如權利要求6所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的裝置, 其特征在于,其中,所述n為預先配置的。9. 如權利要求6所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的裝置, 其特征在于,其中,所述LSTM循環(huán)神經網絡模型包括輸入口、遺忘口、輸出口、狀態(tài)單元和 LSTM結果,分別通過W下公式計算獲得: it = O (WixXt+Wimint-l+WicCt-l+bi ) ft = O (WfxXt+Wfmint-i+WfcCt-i+bf) c, = fi OCf-I + i, O g(WcA 一 + b,,) Ot _ O ( WoxXt+Womlllt-l+WocCt-l+bo ) 前,=.o, 'CD & 知.) 其中,Xt為所述第t時刻的語音輸入數據,W為權重矩陣,b為偏置向量,i、f、o、c、m分別為 所述輸入口、遺忘口、輸出口、狀態(tài)單元和LSTM結果,?為向量按元素的乘積,〇為31邑111〇1(1函 數,所述sigmoid函數的計算公式為:,;:g、h分別為所述狀態(tài)單元的輸入和輸出 激活函數,所述激活函數為化nh函數,所述化nh函數的計算公式為,10. 如權利要求6所述的利用長短時記憶LSTM循環(huán)神經網絡模型進行語音識別的裝置, 其特征在于,其中,所述n通過自學習獲得。
【專利摘要】本發(fā)明公開了一種利用長短時記憶(LSTM)循環(huán)神經網絡模型進行語音識別的方法和裝置,其中方法包括:接收第t時刻的語音輸入數據;根據預設規(guī)則選擇第t-1時刻至第t-n時刻的LSTM隱含層狀態(tài),其中,n為正整數;根據選擇的至少一個LSTM隱含層狀態(tài)、第t時刻的輸入數據、以及LSTM循環(huán)神經網絡模型生成第t時刻的LSTM結果。該方法和裝置可以很好地解決深度循環(huán)神經網絡的“余尾效應”,提高了語音識別的準確性。
【IPC分類】G10L15/26, G10L15/16
【公開號】CN105513591
【申請?zhí)枴緾N201510967532
【發(fā)明人】白錦峰, 蘇丹, 胡娜, 賈磊
【申請人】百度在線網絡技術(北京)有限公司
【公開日】2016年4月20日
【申請日】2015年12月21日