本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)科學(xué)和信息技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)日漸成為人與機(jī)器交互的主要工具。經(jīng)過幾十年的研究和發(fā)展,語(yǔ)音識(shí)別技術(shù)已日漸成熟并逐步走向?qū)嵱茫跐u漸地改變著人們的生活方式。計(jì)算機(jī)已經(jīng)滲透到人類生活的每個(gè)角落。在現(xiàn)代社會(huì)中,人類正逐漸借助計(jì)算機(jī)來完成各項(xiàng)任務(wù)。在這種形勢(shì)下,如何實(shí)現(xiàn)人與計(jì)算機(jī)的智能化交互,成了人工智能領(lǐng)域的一個(gè)重要研究課題。語(yǔ)音是人際交流最習(xí)慣、最自然的方式,因此,語(yǔ)音識(shí)別成為人機(jī)交互的理想選擇。
目前,語(yǔ)音識(shí)別已經(jīng)取得了一定的發(fā)展,然而距離真正的人機(jī)自由交流還有很大的差距,主要表現(xiàn)在:存在協(xié)同發(fā)音現(xiàn)象;語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差;端點(diǎn)檢測(cè)困難;如何將語(yǔ)言學(xué)、生理學(xué)、心里學(xué)方面的研究成果有效地應(yīng)用于語(yǔ)音識(shí)別,還需深入研究;對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面還知之甚少,如何把這方面現(xiàn)有的成果用于語(yǔ)音識(shí)別,也是一個(gè)難題。語(yǔ)音識(shí)別技術(shù)走向?qū)嵱眯枰C合應(yīng)用語(yǔ)言學(xué)、心理學(xué)、生理學(xué)以及信號(hào)處理等各門學(xué)科的有關(guān)知識(shí)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng),通過該系統(tǒng)的應(yīng)用,解決了現(xiàn)有的問題。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明為一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng),包括依次連接的語(yǔ)音輸入模塊、特征提取模塊、聲學(xué)模型層搜索模塊、詞法層搜索模塊、句法層搜索模塊;所述聲學(xué)模型層輸入端連接有聲學(xué)模型;所述詞法層搜索模塊的輸入端連接有詞法信息庫(kù);所述句法層搜索模塊的輸入端連接有句法信息庫(kù)。
進(jìn)一步地,所述語(yǔ)音輸入模塊用于輸入語(yǔ)音信號(hào)并將該語(yǔ)音信號(hào)傳至特征提取模塊;所述特征提取模塊對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征的提取,其中語(yǔ)音特征包括LPC參數(shù)、MFCC參數(shù);所述聲學(xué)模型層搜索模塊通過聲學(xué)模型采用模式匹配的方法查找與語(yǔ)音特征相對(duì)應(yīng)的發(fā)音,繼而將相關(guān)的發(fā)音發(fā)送至詞法層搜索模塊;所述詞法層搜索模塊根據(jù)收到的發(fā)音,在詞法信息庫(kù)搜索相應(yīng)的詞條,繼而將搜索到的詞條發(fā)至句法層搜索模塊;所述句法層搜索模塊根據(jù)收到的詞條,在句法信息庫(kù)中搜索相應(yīng)的句法,繼而將句法以語(yǔ)句的形式發(fā)送至識(shí)別結(jié)果輸出模塊;所述識(shí)別結(jié)果輸出模塊用于輸出語(yǔ)句。
進(jìn)一步地,所述語(yǔ)音輸入模塊為話筒和音頻解碼器。
本發(fā)明具有以下有益效果:
本發(fā)明通過將語(yǔ)音識(shí)別的過程處理分為聲學(xué)模型層、詞法層和句法層,通過聲學(xué)模型層對(duì)所要子詞進(jìn)行搜索,從而得到候選子詞序列,然后在詞法層上根據(jù)詞法信息及詞的語(yǔ)言模型進(jìn)行詞條的搜索,從而得到候選詞條序列,最后根據(jù)語(yǔ)法、詞義信息等句子的語(yǔ)言模型進(jìn)行句法層的搜索,從而得到最終的識(shí)別結(jié)果,通過這種方式對(duì)語(yǔ)音信號(hào)逐步處理,有利于提高對(duì)語(yǔ)音信號(hào)識(shí)別的精準(zhǔn)度和識(shí)別效率。
當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的組成框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1所示,本發(fā)明為一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng),包括依次連接的語(yǔ)音輸入模塊、特征提取模塊、聲學(xué)模型層搜索模塊、詞法層搜索模塊、句法層搜索模塊,其中聲學(xué)模型層輸入端連接有聲學(xué)模型,詞法層搜索模塊的輸入端連接有詞法信息庫(kù),句法層搜索模塊的輸入端連接有句法信息庫(kù)。
其中,語(yǔ)音輸入模塊用于輸入語(yǔ)音信號(hào)并將該語(yǔ)音信號(hào)傳至特征提取模塊;特征提取模塊對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征的提取,其中語(yǔ)音特征包括LPC參數(shù)、MFCC參數(shù);聲學(xué)模型層搜索模塊通過聲學(xué)模型采用模式匹配的方法查找與語(yǔ)音特征相對(duì)應(yīng)的發(fā)音,繼而將相關(guān)的發(fā)音發(fā)送至詞法層搜索模塊;詞法層搜索模塊根據(jù)收到的發(fā)音,在詞法信息庫(kù)搜索相應(yīng)的詞條,繼而將搜索到的詞條發(fā)至句法層搜索模塊;句法層搜索模塊根據(jù)收到的詞條,在句法信息庫(kù)中搜索相應(yīng)的句法,繼而將句法以語(yǔ)句的形式發(fā)送至識(shí)別結(jié)果輸出模塊;識(shí)別結(jié)果輸出模塊用于輸出語(yǔ)句。
其中,語(yǔ)音輸入模塊為話筒和音頻解碼器。
在本說明書的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“示例”、“具體示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
最后需要說明的是,以上公開的本發(fā)明優(yōu)選實(shí)施例只是用于幫助闡述本發(fā)明。優(yōu)選實(shí)施例并沒有詳盡敘述所有的細(xì)節(jié),也不限制該發(fā)明僅為所述的具體實(shí)施方式。顯然,根據(jù)本說明書的內(nèi)容,可作很多的修改和變化。本說明書選取并具體描述這些實(shí)施例,是為了更好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書及其全部范圍和等效物的限制。