本發(fā)明涉及語音識別技術領域,尤其涉及一種基于中英文混合詞典的語音識別方法及裝置。
背景技術:
目前,隨著生活的全球化,使用混合語言交流的現(xiàn)象已經成為一種普遍現(xiàn)象。據(jù)統(tǒng)計,講多語言的人要多于講單語言的人?;旌险Z言之間的聲學和語言之間的復雜性給語音識別帶來挑戰(zhàn)。因此,混合語言聲學模型的研究是一個重要的研究方向。
混合語音識別技術是指利用中英文混合詞典,對混合語言聲學模型進行訓練,得到語音識別模型。目前,中英文混合詞典的獲取方式是,獲取包括聲韻母標注的音素集的中文詞典,將一些英文按照聲韻母標注的方式加入到中文詞典中,形成中英文混合詞典。其中,英文單詞標注覆蓋不全面,采用人工標注,費時費力。混合語言聲學模型為深度神經網絡(deepneuralnetworks,dnn)dnn,卷積神經網絡(deepconvolutionalneuralnetworks,cnn),時間遞歸神經網絡(longshort-termmemory,lstm)聲學模型等,準確度不夠高。
技術實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于中英文混合詞典的語音識別方法,用于解決現(xiàn)有技術中語音識別準確度低的問題。
本發(fā)明的第二個目的在于提出一種基于中英文混合詞典的語音識別裝置。
本發(fā)明的第三個目的在于提出另一種基于中英文混合詞典的語音識別裝置。
本發(fā)明的第四個目的在于提出一種非臨時性計算機可讀存儲介質。
本發(fā)明的第五個目的在于提出一種計算機程序產品。
為達上述目的,本發(fā)明第一方面實施例提出了一種基于中英文混合詞典的語音識別方法,包括:
獲取國際音標ipa標注的中英文混合詞典,所述中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
將所述中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本發(fā)明實施例的基于中英文混合詞典的語音識別方法,通過獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。
為達上述目的,本發(fā)明第二方面實施例提出了一種基于中英文混合詞典的語音識別裝置,包括:
獲取模塊,用于獲取國際音標ipa標注的中英文混合詞典,所述中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
訓練模塊,用于將所述中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
語音識別模塊,用于結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本發(fā)明實施例的基于中英文混合詞典的語音識別裝置,通過獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。
為達上述目的,本發(fā)明第三方面實施例提出了另一種基于中英文混合詞典的語音識別裝置,包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:
獲取國際音標ipa標注的中英文混合詞典,所述中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
將所述中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
為了實現(xiàn)上述目的,本發(fā)明第四方面實施例提出了一種非臨時性計算機可讀存儲介質,當所述存儲介質中的指令由服務器端的處理器被執(zhí)行時,使得服務器端能夠執(zhí)行一種基于中英文混合詞典的語音識別方法,所述方法包括:
獲取國際音標ipa標注的中英文混合詞典,所述中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
將所述中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
為了實現(xiàn)上述目的,本發(fā)明第五方面實施例提出了一種計算機程序產品,當所述計算機程序產品中的指令處理器執(zhí)行時,執(zhí)行一種基于中英文混合詞典的語音識別方法,所述方法包括:
獲取國際音標ipa標注的中英文混合詞典,所述中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
將所述中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明實施例提供的一種基于中英文混合詞典的語音識別方法的流程示意圖;
圖2為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別方法的流程示意圖;
圖3為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別方法的流程示意圖;
圖4為本發(fā)明實施例提供的一種基于中英文混合詞典的語音識別裝置的結構示意圖;
圖5為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖;
圖6為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖;
圖7為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參考附圖描述本發(fā)明實施例的基于中英文混合詞典的語音識別方法及裝置。
圖1為本發(fā)明實施例提供的一種基于中英文混合詞典的語音識別方法的流程示意圖。如圖1所示,該基于中英文混合詞典的語音識別方法包括以下步驟:
s101、獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典。
本實施例中,中文詞典可以為常用的新華詞典等等詞典,上述詞典中包括各個漢字以及各個漢字對應的國際音標。經過中式英語修正前的英文詞典可以為卡內基梅隆大學cmu發(fā)音詞典。其中,部分中文和英文的音素可以是共享的。
s102、將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型。
具體地,在s102中,基于中英文混合詞典的語音識別裝置具體可以先采用濾波器組(filterbank,fbank)提取中式英語句子中的特征點,以一層卷積神經網絡(convolutionalneuralnetwork,cnn)加上五層時間遞歸神經網絡(longshort-termmemory,lstm)為模型,以中式英語句子對應的對齊文件為目標,以交叉熵(crossentropy,ce)為訓練準則,對模型進行訓練,得到初始模型;然后將中英文混合詞典作為訓練詞典,以初始模型為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器(connectionisttemporalclassification,ctc)為訓練準則對初始模型進行訓練,得到訓練后的ctc聲學模型。
本實施例中,對一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm形成的模型進行預訓練,是為了使該模型更快更好的收斂,從而進一步提高中英文混合語言識別的準確度。
具體地,中式英語句子對應的對齊文件的獲取方式為,采用39維梅爾頻率倒譜系數(shù)(melfrequencycepstrumcoefficient,mfcc)提取中式英語句子中的特征點,訓練基于純中文和中式英文數(shù)據(jù)的高斯混合模型(gaussianmixturemodel,gmm),得到中式英語句子對應的對齊文件。39維mfcc特征是通過13維mfcc特征加上二階差分得到的。
s103、結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
其中,基于中英文混合詞典的語音識別裝置結合訓練后的ctc聲學模型對中英文混合語言進行語音識別的過程具體可以為,獲取待識別的音頻數(shù)據(jù),將待識別的音頻數(shù)據(jù)輸入ctc聲學模型,則得到待識別的音頻數(shù)據(jù)對應的包括漢字和/或英文單詞的句子。
本實施例提供的基于中英文混合詞典的語音識別方法,通過獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。
圖2為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別方法的流程示意圖。如圖2所示,該基于中英文混合詞典的語音識別方法包括以下步驟:
s201、獲取國際音標ipa標注的中文詞典以及ipa標注的英文詞典。
s202、獲取音頻訓練數(shù)據(jù),音頻訓練數(shù)據(jù)中包括:多個中式英語句子。
本實施例中,中式英語句子指的是既包括漢字又包括英文單詞的句子,例如“google一下這個關鍵詞”、“這種食物相當good”、“你很nice”等等。
s203、獲取中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音。
其中,基于中英文混合詞典的語音識別裝置可以獲取到與音頻訓練數(shù)據(jù)對應的文字數(shù)據(jù),將音頻訓練數(shù)據(jù)以及與音頻訓練數(shù)據(jù)對應的文字數(shù)據(jù)提供給用戶或者其他設備等進行分析,得到中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音。
s204、將英文單詞以及英文單詞對應的中式發(fā)音添加到英文詞典中,得到經過中式英語修正的英文詞典。
本實施例中,經過中式英語修正的英文詞典中,每個英文單詞可以對應多個發(fā)音,例如,英文單詞可以對應一個標準發(fā)音、對應一個美式發(fā)音、對應一個或者多個中式發(fā)音等。
s205、將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型。
其中,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典。
本實施例中模型的具體訓練過程可以參考圖1所示實施例中模型的訓練過程,此處不再進行詳細描述。
s206、結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本實施例提供的基于中英文混合詞典的語音識別方法,通過獲取國際音標ipa標注的中文詞典以及ipa標注的英文詞典;獲取音頻訓練數(shù)據(jù),音頻訓練數(shù)據(jù)中包括:多個中式英語句子;獲取中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音;將英文單詞以及英文單詞對應的中式發(fā)音添加到英文詞典中,得到經過中式英語修正的英文詞典;將中文詞典和經過中式英語修正的英文詞典進行合并,得到國際音標ipa標注的中英文混合詞典;將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。
圖3為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別方法的流程示意圖。該基于中英文混合詞典的語音識別方法包括以下步驟:
s301、獲取國際音標ipa標注的中文詞典以及ipa標注的英文詞典。
s302、獲取音頻訓練數(shù)據(jù),音頻訓練數(shù)據(jù)中包括:多個中式英語句子。
s303、結合ipa標注的英文詞典對中式英語句子進行音素解碼以及對齊文件切分,得到中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音。
其中,基于中英文混合詞典的語音識別裝置執(zhí)行步驟303的過程可以為,結合ipa標注的英文詞典對中式英語句子進行音素解碼,找到解碼中的最優(yōu)路徑,獲取中式英語句子中音素對應的幀位置;獲取中式英語句子對應的對齊文件,對齊文件中包括:中式英語句子中每個音素的位置,以及英文單詞所對應的音素;結合對齊文件以及中式英語句子中音素對應的幀位置,確定中式英語句子中每個英文單詞的位置,進行切分,得到中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音。
s304、結合所述中式英語句子中的英文單詞、英文單詞對應的中式發(fā)音以及ipa標注的英文詞典,生成經過中式英語修正的英文詞典。
進一步地,為了保證添加到英文詞典中的英文單詞及其中式發(fā)音的準確度,s304之前,所述的基于中英文混合詞典的語音識別方法還可以包括:針對中式英語句子中的每個英文單詞,獲取英文單詞中每個音素的詞頻;獲取對應的詞頻大于預設詞頻的高頻音素以及包括高頻音素的高頻英文單詞。
對應的,s304具體可以為,結合中式英語句子中的高頻英文單詞、高頻英文單詞對應的中式發(fā)音以及ipa標注的英文詞典,生成經過中式英語修正的英文詞典。
進一步地,為了保證音頻訓練數(shù)據(jù)中的英文單詞及其中式發(fā)音盡可能多的添加到英文詞典中,在s304之后,所述的基于中英文混合詞典的語音識別方法還可以包括:結合經過中式英語修正的英文詞典對中式英語句子進行音素解碼以及對齊文件切分,得到中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音;結合中式英語句子中的英文單詞、英文單詞對應的中式發(fā)音以及經過中式英語修正的英文詞典,更新經過中式英語修正的英文詞典。另外,為了進一步保證音頻訓練數(shù)據(jù)中的英文單詞及其中式發(fā)音盡可能多的添加到英文詞典中,可以重復執(zhí)行上述過程。
s305、將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型。
本實施例中模型的具體訓練過程可以參考圖1所示實施例中模型的訓練過程,此處不再進行詳細描述。
s306、結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。同時,對中式英語句子的解碼以及切分,能夠盡可能多的將中式英語句子中的英文單詞及其中式發(fā)音提取出來添加到英文詞典中,從而更進一步地提高了中英文混合語言識別的準確度。
圖4為本發(fā)明實施例提供的一種基于中英文混合詞典的語音識別裝置的結構示意圖。如圖4所示,該基于中英文混合詞典的語音識別裝置包括:獲取模塊41、訓練模塊42和語音識別模塊43。
其中,獲取模塊41,用于獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;
訓練模塊42,用于將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;
語音識別模塊43,用于結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。
本實施例中,中文詞典可以為常用的新華詞典等等詞典,上述詞典中包括各個漢字以及各個漢字對應的國際音標。經過中式英語修正前的英文詞典可以為卡內基梅隆大學cmu發(fā)音詞典。其中,部分中文和英文的音素可以是共享的。
進一步地,所述訓練模塊42包括:第一訓練單元和第二訓練單元。
其中,第一訓練單元,用于采用濾波器組fbank提取中式英語句子中的特征點,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以中式英語句子對應的對齊文件為目標,以交叉熵ce為訓練準則,對所述模型進行訓練,得到初始模型;
第二訓練單元,用于將所述中英文混合詞典作為訓練詞典,以所述初始模型為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述初始模型進行訓練,得到訓練后的ctc聲學模型。
本實施例中,對一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm形成的模型進行預訓練,是為了使該模型更快更好的收斂,從而進一步提高中英文混合語言識別的準確度。
具體地,中式英語句子對應的對齊文件的獲取方式為,采用39維梅爾頻率倒譜系數(shù)(melfrequencycepstrumcoefficient,mfcc)提取中式英語句子中的特征點,訓練基于純中文和中式英文數(shù)據(jù)的高斯混合模型(gaussianmixturemodel,gmm),得到中式英語句子對應的對齊文件。39維mfcc特征是通過13維mfcc特征加上二階差分得到的。
本實施例提供的基于中英文混合詞典的語音識別裝置,通過獲取國際音標ipa標注的中英文混合詞典,中英文混合詞典包括:中文詞典和經過中式英語修正的英文詞典;將中英文混合詞典作為訓練詞典,以一層卷積神經網絡cnn加上五層時間遞歸神經網絡lstm為模型,以音節(jié)或詞為目標,以聯(lián)結主義時間分類器ctc為訓練準則對所述模型進行訓練,得到訓練后的ctc聲學模型;結合訓練后的ctc聲學模型對中英文混合語言進行語音識別。本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。
圖5為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖,如圖5所示,在圖4所示實施例的基礎上,所述獲取模塊41包括:第一獲取單元411、第二獲取單元412、第三獲取單元413和添加單元414;
其中,第一獲取單元411,用于獲取國際音標ipa標注的中文詞典以及ipa標注的英文詞典;
第二獲取單元412,用于獲取音頻訓練數(shù)據(jù),所述音頻訓練數(shù)據(jù)中包括:多個中式英語句子;
第三獲取單元413,用于獲取所述中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音;
添加單元414,用于將所述英文單詞以及英文單詞對應的中式發(fā)音添加到所述英文詞典中,得到經過中式英語修正的英文詞典。
本實施例中,經過中式英語修正的英文詞典中,每個英文單詞可以對應多個發(fā)音,例如,英文單詞可以對應一個標準發(fā)音、對應一個美式發(fā)音、對應一個或者多個中式發(fā)音等。
圖6為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖,如圖6所示,在圖4所示實施例的基礎上,所述獲取模塊41包括:第四獲取單元415、第五獲取單元416、解碼以及切分單元417和生成單元418。
其中,第四獲取單元415,用于獲取國際音標ipa標注的中文詞典以及ipa標注的英文詞典;
第五獲取單元416,用于獲取音頻訓練數(shù)據(jù),所述音頻訓練數(shù)據(jù)中包括:多個中式英語句子;
解碼以及切分單元417,用于結合ipa標注的英文詞典對所述中式英語句子進行音素解碼以及對齊文件切分,得到所述中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音;
生成單元418,用于結合所述中式英語句子中的英文單詞、英文單詞對應的中式發(fā)音以及ipa標注的英文詞典,生成經過中式英語修正的英文詞典。
具體地,所述解碼以及切分單元417可以包括:解碼子單元、第一獲取子單元和切分子單元。
其中,解碼子單元,用于結合ipa標注的英文詞典對所述中式英語句子進行音素解碼,找到解碼中的最優(yōu)路徑,獲取所述中式英語句子中音素對應的幀位置;
第一獲取子單元,用于獲取所述中式英語句子對應的對齊文件,所述對齊文件中包括:中式英語句子中每個音素的位置,以及英文單詞所對應的音素;
切分子單元,用于結合所述對齊文件以及所述中式英語句子中音素對應的幀位置,確定所述中式英語句子中每個英文單詞的位置,進行切分,得到所述中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音。
進一步地,為了保證添加到英文詞典中的英文單詞及其中式發(fā)音的準確度,所述解碼以及切分單元417,還包括:第二獲取子單元和第三獲取子單元。
其中,第二獲取子單元,用于針對所述中式英語句子中的每個英文單詞,獲取所述英文單詞中每個音素的詞頻;
第三獲取子單元,用于獲取對應的詞頻大于預設詞頻的高頻音素以及包括所述高頻音素的高頻英文單詞;
對應的,生成單元418具體用于,結合所述中式英語句子中的高頻英文單詞、高頻英文單詞對應的中式發(fā)音以及ipa標注的英文詞典,生成經過中式英語修正的英文詞典。
更進一步地,為了保證音頻訓練數(shù)據(jù)中的英文單詞及其中式發(fā)音盡可能多的添加到英文詞典中,所述獲取模塊41還包括:重新解碼以及切分單元和更新單元。
其中,重新解碼以及切分單元,用于結合經過中式英語修正的英文詞典對所述中式英語句子進行音素解碼以及對齊文件切分,得到所述中式英語句子中的英文單詞以及英文單詞對應的中式發(fā)音;
更新單元,用于結合所述中式英語句子中的英文單詞、英文單詞對應的中式發(fā)音以及經過中式英語修正的英文詞典,更新所述經過中式英語修正的英文詞典。
另外,為了進一步保證音頻訓練數(shù)據(jù)中的英文單詞及其中式發(fā)音盡可能多的添加到英文詞典中,可以重復執(zhí)行重新解碼以及切分單元以及更新單元。
本實施例中,采用包括中文詞典和經過中式英語修正的英文詞典的中英文混合詞典進行訓練,其中英文單詞覆蓋全面且能識別中式英文,結合ctc聲學模型的使用進一步提高了中英文混合語言識別的準確度。同時,對中式英語句子的解碼以及切分,能夠盡可能多的將中式英語句子中的英文單詞及其中式發(fā)音提取出來添加到英文詞典中,從而更進一步地提高了中英文混合語言識別的準確度。
圖7為本發(fā)明實施例提供的另一種基于中英文混合詞典的語音識別裝置的結構示意圖。該基于中英文混合詞典的語音識別裝置包括:
存儲器71、處理器72及存儲在存儲器71上并可在處理器72上運行的計算機程序。
處理器72執(zhí)行所述程序時實現(xiàn)上述實施例中提供的基于中英文混合詞典的語音識別方法。
進一步地,基于中英文混合詞典的語音識別裝置還包括:
通信接口73,用于存儲器71和處理器72之間的通信。
存儲器71,用于存放可在處理器72上運行的計算機程序。
存儲器71可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。
處理器72,用于執(zhí)行所述程序時實現(xiàn)上述實施例所述的視頻播放時的互動方法。
如果存儲器71、處理器72和通信接口73獨立實現(xiàn),則通信接口73、存儲器71和處理器72可以通過總線相互連接并完成相互間的通信。所述總線可以是工業(yè)標準體系結構(industrystandardarchitecture,簡稱為isa)總線、外部設備互連(peripheralcomponent,簡稱為pci)總線或擴展工業(yè)標準體系結構(extendedindustrystandardarchitecture,簡稱為eisa)總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖7中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
可選的,在具體實現(xiàn)上,如果存儲器71、處理器72及通信接口73,集成在一塊芯片上實現(xiàn),則存儲器71、處理器72及通信接口73可以通過內部接口完成相互間的通信。
處理器72可能是一個中央處理器(centralprocessingunit,簡稱為cpu),或者是特定集成電路(applicationspecificintegratedcircuit,簡稱為asic),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。
此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(ram),只讀存儲器(rom),可擦除可編輯只讀存儲器(eprom或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(cdrom)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。如,如果用硬件來實現(xiàn)和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。
本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。盡管上面已經示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。