[0096]圖6所示,計算機(jī)系統(tǒng)600包括中央處理單元(CPU)601,其可以根據(jù)存儲在只讀存儲器(R0M)602中的程序或者從存儲部分608加載到隨機(jī)訪問存儲器(RAM)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T赗AM 603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。CPU60UR0M 602以及RAM 603通過總線604彼此相連。輸入/輸出(I/O)接口605也連接至總線 604。
[0097]以下部件連接至I/O接口605:包括鍵盤、鼠標(biāo)等的輸入部分606 ;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚(yáng)聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口 605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分608。
[0098]特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序,所述計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。
[0099]特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本公開的實施例包括一種計算附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
[0100]描述于本申請實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括切分模塊、查分模塊和識別模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,切分模塊還可以被描述為“用于將待識別的語音信息切分多幀語音片段的模塊”。
[0101]作為另一方面,本申請還提供了一種非易失性計算機(jī)存儲介質(zhì),該非易失性計算機(jī)存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機(jī)存儲介質(zhì);也可以是單獨存在,未裝配入終端中的非易失性計算機(jī)存儲介質(zhì)。上述非易失性計算機(jī)存儲介質(zhì)存儲有一個或者多個程序,當(dāng)所述一個或者多個程序被一個設(shè)備執(zhí)行時,使得所述設(shè)備:將待識別的語音信息切分多幀語音片段;通過預(yù)設(shè)的解碼網(wǎng)絡(luò),對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分;基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列,確定為語音識別結(jié)果;其中,在對一幀語音片段進(jìn)行語言模型查分時,依次進(jìn)行第一語言模型查分和第二語言模型查分。
[0102]以上描述僅為本申請的較佳實施例以及對所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。
【主權(quán)項】
1.一種語音識別方法,其特征在于,包括: 將待識別的語音信息切分多幀語音片段; 通過預(yù)設(shè)的解碼網(wǎng)絡(luò),對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分; 基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列,確定為語音識別結(jié)果; 其中,在對一幀語音片段進(jìn)行語言模型查分時,依次進(jìn)行第一語言模型查分和第二語言模型查分。2.根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,所述第一語言模型是通過對所述第二語言模型進(jìn)行裁剪得到的。3.根據(jù)權(quán)利要求2所述的語音識別方法,其特征在于,通過預(yù)設(shè)的解碼網(wǎng)絡(luò),對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分,包括: 基于所述解碼網(wǎng)絡(luò),針對當(dāng)前輸入的一幀語音片段執(zhí)行如下解碼步驟: 確定第一激活節(jié)點集合,所述第一激活節(jié)點集合中包括所述解碼網(wǎng)絡(luò)中的至少一個節(jié)占.V, 遍歷所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點,并在所述遍歷過程中對當(dāng)前語音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語言模型查分; 基于所述當(dāng)前語音片段的得分,計算每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù); 根據(jù)每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù),確定第二激活節(jié)點集合,所述第二激活節(jié)點集合中包括所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點中的至少一個節(jié)占.V, 若第二激活節(jié)點集合中存在出詞節(jié)點,則遍歷所述出詞節(jié)點,并在該遍歷過程中進(jìn)行第二語言模型查分; 根據(jù)所述第二語言模型查分的結(jié)果,重新計算所述出詞節(jié)點的分?jǐn)?shù); 基于所述出詞節(jié)點的分?jǐn)?shù),對所述第二激活節(jié)點集合中的節(jié)點進(jìn)行裁剪; 將裁剪后的所述第二激活節(jié)點集合作為下一幀語音片段的第一激活節(jié)點集合,對所述下一幀語音片段再次執(zhí)行所述解碼步驟。4.根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,若當(dāng)前輸入的一幀語音片段為所述語音信息的第一幀語音片段,則所述第一激活節(jié)點集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點。5.根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,所述基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列,確定為語音識別結(jié)果,包括: 基于所述解碼網(wǎng)絡(luò)中終止節(jié)點的得分,獲取至少一條解碼路徑; 將所述解碼路徑對應(yīng)的詞序列確定為語音識別結(jié)果。6.根據(jù)權(quán)利要求1至5任一項所述的語音識別方法,其特征在于,所述第二語言模型存儲于具有預(yù)定讀寫速度的硬件上。7.一種語音識別裝置,其特征在于,包括: 切分模塊,用于將待識別的語音信息切分多幀語音片段; 查分模塊,用于通過預(yù)設(shè)的解碼網(wǎng)絡(luò),對所述語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分; 識別模塊,用于基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列,確定為語音識別結(jié)果; 其中,所述查分模塊在對一幀語音片段進(jìn)行語言模型查分時,依次進(jìn)行第一語言模型查分和第二語言模型查分。8.根據(jù)權(quán)利要求7所述的語音識別裝置,其特征在于,所述第一語言模型是通過對所述第二語言模型進(jìn)行裁剪得到的。9.根據(jù)權(quán)利要求8所述的語音識別裝置,其特征在于,所述查分模塊進(jìn)一步用于: 基于所述解碼網(wǎng)絡(luò),針對當(dāng)前輸入的一幀語音片段執(zhí)行如下解碼步驟: 確定第一激活節(jié)點集合,所述第一激活節(jié)點集合中包括所述解碼網(wǎng)絡(luò)中的至少一個節(jié)占.V, 遍歷所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點,并在所述遍歷過程中對當(dāng)前語音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語言模型查分; 基于所述當(dāng)前語音片段的得分,計算每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù); 根據(jù)每個所述節(jié)點及對應(yīng)的后驅(qū)節(jié)點的分?jǐn)?shù),確定第二激活節(jié)點集合,所述第二激活節(jié)點集合中包括所述第一激活節(jié)點集合中的各個節(jié)點及對應(yīng)的后驅(qū)節(jié)點中的至少一個節(jié)占.V, 若第二激活節(jié)點集合中存在出詞節(jié)點,則遍歷所述出詞節(jié)點,并在該遍歷過程中進(jìn)行第二語言模型查分; 根據(jù)所述第二語言模型查分的結(jié)果,重新計算所述出詞節(jié)點的分?jǐn)?shù); 基于所述出詞節(jié)點的分?jǐn)?shù),對所述第二激活節(jié)點集合中的節(jié)點進(jìn)行裁剪; 將裁剪后的所述第二激活節(jié)點集合作為下一幀語音片段的第一激活節(jié)點集合,對所述下一幀語音片段再次執(zhí)行所述解碼步驟。10.根據(jù)權(quán)利要求9所述的語音識別裝置,其特征在于,若當(dāng)前輸入的一幀語音片段為所述語音信息的第一幀語音片段,則所述第一激活節(jié)點集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點。11.根據(jù)權(quán)利要求7所述的語音識別裝置,其特征在于,所述識別模塊進(jìn)一步用于: 基于所述解碼網(wǎng)絡(luò)中終止節(jié)點的得分,獲取至少一條解碼路徑; 將所述解碼路徑對應(yīng)的詞序列確定為語音識別結(jié)果。12.根據(jù)權(quán)利要求7至11任一項所述的語音識別裝置,其特征在于,所述第二語言模型存儲于具有預(yù)定讀寫速度的硬件上。
【專利摘要】本申請公開了語音識別方法和裝置。所述方法的一【具體實施方式】包括:將待識別的語音信息切分多幀語音片段;通過預(yù)設(shè)的解碼網(wǎng)絡(luò),對語音片段逐幀進(jìn)行聲學(xué)模型打分和語言模型查分;基于得分結(jié)果,將解碼網(wǎng)絡(luò)中的至少一條解碼路徑對應(yīng)的詞序列,確定為語音識別結(jié)果;其中,在對一幀語音片段進(jìn)行語言模型查分時,依次進(jìn)行第一語言模型查分和第二語言模型查分。該實施方式實現(xiàn)了準(zhǔn)確、高效的語音識別。
【IPC分類】G10L15/04, G10L15/183
【公開號】CN105513589
【申請?zhí)枴緾N201510958150
【發(fā)明人】黃辰, 錢勝
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2016年4月20日
【申請日】2015年12月18日