語(yǔ)音識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及人工智能技術(shù)領(lǐng)域,尤其涉及語(yǔ)音識(shí)別方法和裝置。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別技術(shù)是一種將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入(例如按鍵、二進(jìn)制編碼或者字符序列)的技術(shù)。在語(yǔ)音識(shí)別系統(tǒng)中,解碼器是一個(gè)相當(dāng)重要的組成部分。解碼器可以通過(guò)加載訓(xùn)練好的聲學(xué)模型以及語(yǔ)言模型,在解碼網(wǎng)絡(luò)中尋找最優(yōu)的路徑,將其對(duì)應(yīng)的文本信息作為識(shí)別結(jié)果。
[0003]在目前的語(yǔ)音識(shí)別系統(tǒng)中,為了取得更高的識(shí)別率,都會(huì)盡可能使用較大的語(yǔ)言模型進(jìn)行查分。但是,如果直接使用超大語(yǔ)言模型進(jìn)行查分,會(huì)對(duì)存儲(chǔ)該語(yǔ)言模型的磁盤(pán)造成較大損耗,并且識(shí)別效率會(huì)明顯降低。因此,現(xiàn)有技術(shù)中普遍采用兩遍解碼策略進(jìn)行解碼。第一遍可以在小語(yǔ)言模型上完成解碼,生成詞圖(lattice)。第二遍則可以在詞圖上再使用大語(yǔ)言模型重新打分。此時(shí),由于詞圖較小,因此需要查詢(xún)大語(yǔ)言模型的次數(shù)也較少,從而能夠明顯提高語(yǔ)音識(shí)別的效率。
[0004]但是,由于這種方法在第一遍解碼時(shí)使用了準(zhǔn)確度較低的小語(yǔ)言模型,通過(guò)其進(jìn)行多次查分所累積的誤差會(huì)導(dǎo)致詞圖中損失部分語(yǔ)音信息。這樣,即使后續(xù)再?gòu)脑~圖上使用大語(yǔ)言模型重新打分,也挽回不了之前損失的信息,因此導(dǎo)致語(yǔ)音識(shí)別的準(zhǔn)確率不夠高的問(wèn)題。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)的目的在于提出一種語(yǔ)音識(shí)別方法和裝置,來(lái)解決以上【背景技術(shù)】部分提到的技術(shù)問(wèn)題。
[0006]第一方面,本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音識(shí)別方法,所述方法包括:將待識(shí)別的語(yǔ)音信息切分多幀語(yǔ)音片段;通過(guò)預(yù)設(shè)的解碼網(wǎng)絡(luò),對(duì)所述語(yǔ)音片段逐幀進(jìn)行聲學(xué)模型打分和語(yǔ)言模型查分;基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對(duì)應(yīng)的詞序列,確定為語(yǔ)音識(shí)別結(jié)果;其中,在對(duì)一幀語(yǔ)音片段進(jìn)行語(yǔ)言模型查分時(shí),依次進(jìn)行第一語(yǔ)言模型查分和第二語(yǔ)言模型查分。
[0007]在一些實(shí)施例中,所述第一語(yǔ)言模型是通過(guò)對(duì)所述第二語(yǔ)言模型進(jìn)行裁剪得到的。
[0008]在一些實(shí)施例中,通過(guò)預(yù)設(shè)的解碼網(wǎng)絡(luò),對(duì)所述語(yǔ)音片段逐幀進(jìn)行聲學(xué)模型打分和語(yǔ)言模型查分,包括:基于所述解碼網(wǎng)絡(luò),針對(duì)當(dāng)前輸入的一幀語(yǔ)音片段執(zhí)行如下解碼步驟:確定第一激活節(jié)點(diǎn)集合,所述第一激活節(jié)點(diǎn)集合中包括所述解碼網(wǎng)絡(luò)中的至少一個(gè)節(jié)點(diǎn);遍歷所述第一激活節(jié)點(diǎn)集合中的各個(gè)節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn),并在所述遍歷過(guò)程中對(duì)當(dāng)前語(yǔ)音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語(yǔ)言模型查分;基于所述當(dāng)前語(yǔ)音片段的得分,計(jì)算每個(gè)所述節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)的分?jǐn)?shù);根據(jù)每個(gè)所述節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)的分?jǐn)?shù),確定第二激活節(jié)點(diǎn)集合,所述第二激活節(jié)點(diǎn)集合中包括所述第一激活節(jié)點(diǎn)集合中的各個(gè)節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)中的至少一個(gè)節(jié)點(diǎn);若第二激活節(jié)點(diǎn)集合中存在出詞節(jié)點(diǎn),則遍歷所述出詞節(jié)點(diǎn),并在該遍歷過(guò)程中進(jìn)行第二語(yǔ)言模型查分;根據(jù)所述第二語(yǔ)言模型查分的結(jié)果,重新計(jì)算所述出詞節(jié)點(diǎn)的分?jǐn)?shù);基于所述出詞節(jié)點(diǎn)的分?jǐn)?shù),對(duì)所述第二激活節(jié)點(diǎn)集合中的節(jié)點(diǎn)進(jìn)行裁剪;將裁剪后的所述第二激活節(jié)點(diǎn)集合作為下一幀語(yǔ)音片段的第一激活節(jié)點(diǎn)集合,對(duì)所述下一幀語(yǔ)音片段再次執(zhí)行所述解碼步驟。
[0009]在一些實(shí)施例中,若當(dāng)前輸入的一幀語(yǔ)音片段為所述語(yǔ)音信息的第一幀語(yǔ)音片段,則所述第一激活節(jié)點(diǎn)集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點(diǎn)。
[0010]在一些實(shí)施例中,所述基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對(duì)應(yīng)的詞序列,確定為語(yǔ)音識(shí)別結(jié)果,包括:基于所述解碼網(wǎng)絡(luò)中終止節(jié)點(diǎn)的得分,獲取至少一條解碼路徑;將所述解碼路徑對(duì)應(yīng)的詞序列確定為語(yǔ)音識(shí)別結(jié)果。
[0011]在一些實(shí)施例中,所述第二語(yǔ)言模型存儲(chǔ)于具有預(yù)定讀寫(xiě)速度的硬件上。
[0012]第二方面,本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音識(shí)別裝置,所述裝置包括:切分模塊,用于將待識(shí)別的語(yǔ)音信息切分多幀語(yǔ)音片段;查分模塊,用于通過(guò)預(yù)設(shè)的解碼網(wǎng)絡(luò),對(duì)所述語(yǔ)音片段逐幀進(jìn)行聲學(xué)模型打分和語(yǔ)言模型查分;識(shí)別模塊,用于基于得分結(jié)果,將所述解碼網(wǎng)絡(luò)中的至少一條解碼路徑對(duì)應(yīng)的詞序列,確定為語(yǔ)音識(shí)別結(jié)果;其中,所述查分模塊在對(duì)一幀語(yǔ)音片段進(jìn)行語(yǔ)言模型查分時(shí),依次進(jìn)行第一語(yǔ)言模型查分和第二語(yǔ)言模型查分。
[0013]在一些實(shí)施例中,所述第一語(yǔ)言模型是通過(guò)對(duì)所述第二語(yǔ)言模型進(jìn)行裁剪得到的。
[0014]在一些實(shí)施例中,所述查分模塊進(jìn)一步用于:基于所述解碼網(wǎng)絡(luò),針對(duì)當(dāng)前輸入的一幀語(yǔ)音片段執(zhí)行如下解碼步驟:確定第一激活節(jié)點(diǎn)集合,所述第一激活節(jié)點(diǎn)集合中包括所述解碼網(wǎng)絡(luò)中的至少一個(gè)節(jié)點(diǎn);遍歷所述第一激活節(jié)點(diǎn)集合中的各個(gè)節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn),并在所述遍歷過(guò)程中對(duì)當(dāng)前語(yǔ)音片段進(jìn)行聲學(xué)模型打分或聲學(xué)模型打分和第一語(yǔ)言模型查分;基于所述當(dāng)前語(yǔ)音片段的得分,計(jì)算每個(gè)所述節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)的分?jǐn)?shù);根據(jù)每個(gè)所述節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)的分?jǐn)?shù),確定第二激活節(jié)點(diǎn)集合,所述第二激活節(jié)點(diǎn)集合中包括所述第一激活節(jié)點(diǎn)集合中的各個(gè)節(jié)點(diǎn)及對(duì)應(yīng)的后驅(qū)節(jié)點(diǎn)中的至少一個(gè)節(jié)點(diǎn);若第二激活節(jié)點(diǎn)集合中存在出詞節(jié)點(diǎn),貝Ij遍歷所述出詞節(jié)點(diǎn),并在該遍歷過(guò)程中進(jìn)行第二語(yǔ)言模型查分;根據(jù)所述第二語(yǔ)言模型查分的結(jié)果,重新計(jì)算所述出詞節(jié)點(diǎn)的分?jǐn)?shù);基于所述出詞節(jié)點(diǎn)的分?jǐn)?shù),對(duì)所述第二激活節(jié)點(diǎn)集合中的節(jié)點(diǎn)進(jìn)行裁剪;將裁剪后的所述第二激活節(jié)點(diǎn)集合作為下一幀語(yǔ)音片段的第一激活節(jié)點(diǎn)集合,對(duì)所述下一幀語(yǔ)音片段再次執(zhí)行所述解碼步驟。
[0015]在一些實(shí)施例中,若當(dāng)前輸入的一幀語(yǔ)音片段為所述語(yǔ)音信息的第一幀語(yǔ)音片段,則所述第一激活節(jié)點(diǎn)集合包括所述解碼網(wǎng)絡(luò)的起始節(jié)點(diǎn)。
[0016]在一些實(shí)施例中,所述識(shí)別模塊進(jìn)一步用于:基于所述解碼網(wǎng)絡(luò)中終止節(jié)點(diǎn)的得分,獲取至少一條解碼路徑;將所述解碼路徑對(duì)應(yīng)的詞序列確定為語(yǔ)音識(shí)別結(jié)果。
[0017]在一些實(shí)施例中,所述第二語(yǔ)言模型存儲(chǔ)于具有預(yù)定讀寫(xiě)速度的硬件上。
[0018]本申請(qǐng)?zhí)峁┑恼Z(yǔ)音識(shí)別方法和裝置,可以首先將待識(shí)別的語(yǔ)音信息切分多幀語(yǔ)音片段,然后通過(guò)預(yù)設(shè)的解碼網(wǎng)絡(luò),對(duì)每個(gè)語(yǔ)音片段逐幀進(jìn)行聲學(xué)模型打分和語(yǔ)言模型查分,并且在進(jìn)行語(yǔ)言模型查分時(shí),先后進(jìn)行第一語(yǔ)言模型查分和第二語(yǔ)言模型查分,最后基于得分結(jié)果確定為語(yǔ)音識(shí)別結(jié)果。通過(guò)對(duì)每一幀語(yǔ)音片段進(jìn)行兩個(gè)語(yǔ)言模型查分,能夠避免連續(xù)進(jìn)行第一語(yǔ)言模型查分所產(chǎn)生的累積誤差,提高語(yǔ)音識(shí)別精度,同時(shí)也能夠大量減少查詢(xún)第二語(yǔ)言模型的次數(shù),從而優(yōu)化了語(yǔ)音識(shí)別速度。
【附圖說(shuō)明】
[0019]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0020]圖1是本申請(qǐng)可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0021 ]圖2是根據(jù)本申請(qǐng)的語(yǔ)音識(shí)別方法的一個(gè)實(shí)施例的流程圖;
[0022]圖3是根據(jù)本申請(qǐng)的語(yǔ)音識(shí)別方法的又一個(gè)實(shí)施例的流程圖;
[0023]圖4是用于本申請(qǐng)的語(yǔ)音識(shí)別方法的一個(gè)解碼網(wǎng)絡(luò)的示意圖;
[0024]圖5是根據(jù)本申請(qǐng)的語(yǔ)音識(shí)別裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0025]圖6是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026]下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0027]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0028]圖1示出了可以應(yīng)用本申請(qǐng)的語(yǔ)音識(shí)別方法或語(yǔ)音識(shí)別裝置的實(shí)施例的示例性系統(tǒng)架構(gòu)100。
[0029]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類(lèi)型,例如有線、無(wú)線通信鏈路或者光纖電纜等等。
[0030]用戶可以使用終端設(shè)備101、102、103通過(guò)網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如語(yǔ)音助手應(yīng)用、網(wǎng)頁(yè)瀏覽器應(yīng)用、搜索類(lèi)應(yīng)用、購(gòu)物類(lèi)應(yīng)用、即時(shí)通信工具、郵箱客戶端、社交平臺(tái)軟件等。
[0031]終端設(shè)備101、102、103可以是各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、電子書(shū)閱讀器、MP3播放器(Moving Picture Experts Group Aud1 Layer III,動(dòng)態(tài)影像專(zhuān)家壓縮標(biāo)準(zhǔn)音頻層面3)、MP4(Moving Picture Experts Group Aud1 Layer IV,動(dòng)態(tài)影像專(zhuān)家壓縮標(biāo)準(zhǔn)音頻層面4)播放器、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。
[0032]服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對(duì)終端設(shè)備101、102、103上運(yùn)行的應(yīng)用提供支持的后臺(tái)服務(wù)器。
[0033]需要說(shuō)明的是,本申請(qǐng)實(shí)施例所提供的語(yǔ)音識(shí)別方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,語(yǔ)音識(shí)別裝置一般設(shè)置于服務(wù)器105中。
[0034]應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目?jī)H僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目