語音識別方法和裝置的制造方法_4

文檔序號：9752199閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語音識別方法和裝置的制造方法

[0096]圖6所示，計算機(jī)系統(tǒng)600包括中央處理單元(CPU)601，其可以根據(jù)存儲在只讀存儲器(R0M)602中的程序或者從存儲部分608加載到隨機(jī)訪問存儲器(RAM)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼Ｔ赗AM 603中，還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。CPU60UR0M 602以及RAM 603通過總線604彼此相連。輸入/輸出(I/O)接口605也連接至總線 604。
[0097]以下部件連接至I/O接口605:包括鍵盤、鼠標(biāo)等的輸入部分606 ；包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚(yáng)聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口 605?？刹鹦督橘|(zhì)611，諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等，根據(jù)需要安裝在驅(qū)動器610上，以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分608。
[0098]特別地，根據(jù)本公開的實施例，上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如，本公開的實施例包括一種計算機(jī)程序產(chǎn)品，其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序，所述計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中，該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝，和/或從可拆卸介質(zhì)611被安裝。
[0099]特別地，根據(jù)本公開的實施例，上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如，本公開的實施例包括一種計算附圖中的流程圖和框圖，圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上，流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分，所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意，在有些作為替換的實現(xiàn)中，方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如，兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行，它們有時也可以按相反的順序執(zhí)行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合，可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn)，或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
[0100]描述于本申請實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn)，也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理器中，例如，可以描述為:一種處理器包括切分模塊、查分模塊和識別模塊。其中，這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定，例如，切分模塊還可以被描述為“用于將待識別的語音信息切分多幀語音片段的模塊”。
[0101]作為另一方面，本申請還提供了一種非易失性計算機(jī)存儲介質(zhì)，該非易失性計算機(jī)存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機(jī)存儲介質(zhì);也可以是單獨存在，未裝配入終端中的非易失性計算機(jī)存儲介質(zhì)。上述非易失性計算機(jī)存儲介質(zhì)存儲有一個或者多個程序，當(dāng)所述一個或者多個程序被一個設(shè)備執(zhí)行時，使得所述設(shè)備:將待識別的語音信息切分多幀語音片段;通過預(yù)設(shè)的解碼網(wǎng)絡(luò)，對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分;基于得分結(jié)果，將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列，確定為語音識別結(jié)果;其中，在對一幀語音片段進(jìn)行語言模型查分時，依次進(jìn)行第一語言模型查分和第二語言模型查分。
[0102]以上描述僅為本申請的較佳實施例以及對所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，本申請中所涉及的發(fā)明范圍，并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案，同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下，由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。
【主權(quán)項】
1.一種語音識別方法，其特征在于，包括: 將待識別的語音信息切分多幀語音片段；通過預(yù)設(shè)的解碼網(wǎng)絡(luò)，對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分；基于得分結(jié)果，將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列，確定為語音識別結(jié)果；其中，在對一幀語音片段進(jìn)行語言模型查分時，依次進(jìn)行第一語言模型查分和第二語言模型查分。2.根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述第一語言模型是通過對所述第二語言模型進(jìn)行裁剪得到的。3.根據(jù)權(quán)利要求2所述的語音識別方法，其特征在于，通過預(yù)設(shè)的解碼網(wǎng)絡(luò)，對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分，包括: 基于所述解碼網(wǎng)絡(luò)，針對當(dāng)前輸入的一幀語音片段執(zhí)行如下解碼步驟: 確定第一激活節(jié)點集合，所述第一激活節(jié)點集合中包括所述解碼網(wǎng)絡(luò)中的至少一個節(jié)占.V，遍歷所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點，并在所述遍歷過程中對當(dāng)前語音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語言模型查分；基于所述當(dāng)前語音片段的得分，計算每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù)；根據(jù)每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù)，確定第二激活節(jié)點集合，所述第二激活節(jié)點集合中包括所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點中的至少一個節(jié)占.V，若第二激活節(jié)點集合中存在出詞節(jié)點，則遍歷所述出詞節(jié)點，并在該遍歷過程中進(jìn)行第二語言模型查分；根據(jù)所述第二語言模型查分的結(jié)果，重新計算所述出詞節(jié)點的分?jǐn)?shù)；基于所述出詞節(jié)點的分?jǐn)?shù)，對所述第二激活節(jié)點集合中的節(jié)點進(jìn)行裁剪；將裁剪后的所述第二激活節(jié)點集合作為下一幀語音片段的第一激活節(jié)點集合，對所述下一幀語音片段再次執(zhí)行所述解碼步驟。4.根據(jù)權(quán)利要求3所述的語音識別方法，其特征在于，若當(dāng)前輸入的一幀語音片段為所述語音信息的第一幀語音片段，則所述第一激活節(jié)點集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點。5.根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述基于得分結(jié)果，將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列，確定為語音識別結(jié)果，包括: 基于所述解碼網(wǎng)絡(luò)中終止節(jié)點的得分，獲取至少一條解碼路徑；將所述解碼路徑對應(yīng)的詞序列確定為語音識別結(jié)果。6.根據(jù)權(quán)利要求1至5任一項所述的語音識別方法，其特征在于，所述第二語言模型存儲于具有預(yù)定讀寫速度的硬件上。7.一種語音識別裝置，其特征在于，包括: 切分模塊，用于將待識別的語音信息切分多幀語音片段；查分模塊，用于通過預(yù)設(shè)的解碼網(wǎng)絡(luò)，對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分；識別模塊，用于基于得分結(jié)果，將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列，確定為語音識別結(jié)果；其中，所述查分模塊在對一幀語音片段進(jìn)行語言模型查分時，依次進(jìn)行第一語言模型查分和第二語言模型查分。8.根據(jù)權(quán)利要求7所述的語音識別裝置，其特征在于，所述第一語言模型是通過對所述第二語言模型進(jìn)行裁剪得到的。9.根據(jù)權(quán)利要求8所述的語音識別裝置，其特征在于，所述查分模塊進(jìn)一步用于: 基于所述解碼網(wǎng)絡(luò)，針對當(dāng)前輸入的一幀語音片段執(zhí)行如下解碼步驟: 確定第一激活節(jié)點集合，所述第一激活節(jié)點集合中包括所述解碼網(wǎng)絡(luò)中的至少一個節(jié)占.V，遍歷所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點，并在所述遍歷過程中對當(dāng)前語音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語言模型查分；基于所述當(dāng)前語音片段的得分，計算每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù)；根據(jù)每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù)，確定第二激活節(jié)點集合，所述第二激活節(jié)點集合中包括所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點中的至少一個節(jié)占.V，若第二激活節(jié)點集合中存在出詞節(jié)點，則遍歷所述出詞節(jié)點，并在該遍歷過程中進(jìn)行第二語言模型查分；根據(jù)所述第二語言模型查分的結(jié)果，重新計算所述出詞節(jié)點的分?jǐn)?shù)；基于所述出詞節(jié)點的分?jǐn)?shù)，對所述第二激活節(jié)點集合中的節(jié)點進(jìn)行裁剪；將裁剪后的所述第二激活節(jié)點集合作為下一幀語音片段的第一激活節(jié)點集合，對所述下一幀語音片段再次執(zhí)行所述解碼步驟。10.根據(jù)權(quán)利要求9所述的語音識別裝置，其特征在于，若當(dāng)前輸入的一幀語音片段為所述語音信息的第一幀語音片段，則所述第一激活節(jié)點集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點。11.根據(jù)權(quán)利要求7所述的語音識別裝置，其特征在于，所述識別模塊進(jìn)一步用于: 基于所述解碼網(wǎng)絡(luò)中終止節(jié)點的得分，獲取至少一條解碼路徑；將所述解碼路徑對應(yīng)的詞序列確定為語音識別結(jié)果。12.根據(jù)權(quán)利要求7至11任一項所述的語音識別裝置，其特征在于，所述第二語言模型存儲于具有預(yù)定讀寫速度的硬件上。
【專利摘要】本申請公開了語音識別方法和裝置。所述方法的一【具體實施方式】包括：將待識別的語音信息切分多幀語音片段；通過預(yù)設(shè)的解碼網(wǎng)絡(luò)，對語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分；基于得分結(jié)果，將解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列，確定為語音識別結(jié)果；其中，在對一幀語音片段進(jìn)行語言模型查分時，依次進(jìn)行第一語言模型查分和第二語言模型查分。該實施方式實現(xiàn)了準(zhǔn)確、高效的語音識別。
【IPC分類】G10L15/04, G10L15/183
【公開號】CN105513589
【申請?zhí)枴緾N201510958150
【發(fā)明人】黃辰, 錢勝
【申請人】百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
【公開日】2016年4月20日
【申請日】2015年12月18日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第4頁1 2 3 4

相關(guān)技術(shù)