一種連續(xù)語音聲調(diào)識別方法

文檔序號：2823805閱讀：296來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種連續(xù)語音聲調(diào)識別方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語音識別技術(shù)領(lǐng)域，具體的說，本發(fā)明涉及對有調(diào)語言(如漢語)中的連續(xù)語音的聲調(diào)識別方法。
背景技術(shù)：
在有調(diào)語言中，比如漢語普通話，粵語等，對同樣的發(fā)音，不同的聲調(diào)表示不同的含義。在語音識別，以及計算機(jī)輔助語言學(xué)習(xí)領(lǐng)域，聲調(diào)識別都是一個非常重要部分。在計算機(jī)輔助語言學(xué)習(xí)中，聲調(diào)識別可以給予學(xué)習(xí)者有效的反饋，幫助他們更快更好的學(xué)習(xí)聲調(diào)。目前，對孤立音節(jié)的聲調(diào)識別可以達(dá)到較好的性能，但對連續(xù)語音的聲調(diào)識別效果還不是很理想。孤立音節(jié)的聲調(diào)不受上下文的影響，其識別相對比較簡單；而連續(xù)語音的聲調(diào)受上下文的影響很大，甚至還有情感等更高層次的因素的影響，變化豐富，識別起來相對比較困難。目前已有的聲調(diào)識別方法大致可以分為兩類，顯式建模的方法和嵌入式建模的方法。顯式建模方法，也稱為兩步式建模，它一般是首先通過強(qiáng)制對齊技術(shù)將連續(xù)的語音切分成音節(jié)片段，然后針對每一個音節(jié)片段，將其當(dāng)作孤立音節(jié)來處理，采用孤立音節(jié)聲調(diào)識別中的方法來處理。典型的方法如 TRUES (Tone Recognition UsingExtended Segments)方法。這種方法對強(qiáng)制對齊切分的準(zhǔn)確性要求很高，如果切分準(zhǔn)確性不高，就很難獲得令人滿意的性能。然而在很多情況下，切分的準(zhǔn)確性難以保證。現(xiàn)有技術(shù)中還有一種嵌入式建模方法，也稱為一步式建模，這種方法基于隱馬爾可夫模型語音識別方法，在語音識別的譜特征矢量中，嵌入若干能表征聲調(diào)的基頻特征。目前，嵌入式聲調(diào)建模方法的應(yīng)用大多作為語音識別的輔助技術(shù)，幫助提高語音識別的準(zhǔn)確性，尚未單獨(dú)應(yīng)用于聲調(diào)識別。將嵌入式聲調(diào) 建模應(yīng)用于聲調(diào)識別時，需要從識別網(wǎng)絡(luò)構(gòu)建，模型選擇等多個方面進(jìn)行優(yōu)化，以達(dá)到較好的效果。因此，當(dāng)前迫切需要一種基于嵌入式聲調(diào)建模的能夠有效提高了聲調(diào)識別正確率的聲調(diào)識別方法。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種聲調(diào)能夠提高連續(xù)語音聲調(diào)識別的準(zhǔn)確率的聲調(diào)識別的方法。為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明提供了一種連續(xù)語音聲調(diào)識別方法，包括訓(xùn)練步驟和識別步驟，其特征在于，所述訓(xùn)練步驟包括1)提取已知語音段中每一個語音幀的頻譜特征和基頻特征，對于每一個語音幀，所述基頻特征至少包括當(dāng)前語音幀的基頻值，當(dāng)前連續(xù)基頻段的長度，以及當(dāng)前幀基頻值與前一個連續(xù)基頻段的后N幀基頻平均值的差值；所述頻譜特征是MFCC特征或者M(jìn)F-PLP 特征，或者是二者的組合；2)對所提取出的多個語音幀的基頻特征所組成的基頻特征流，采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模，對所提取出的多個語音幀的頻譜特征所組成的頻譜特征流，采用普通隱馬爾可夫模型建模；其中，組成識別單元的元素包括當(dāng)前音節(jié)，當(dāng)前聲調(diào)以及前一個字的聲調(diào)；3)采用特征流相關(guān)的決策樹聚類方法，根據(jù)所述識別單元中的當(dāng)前音節(jié)和前一個字聲調(diào)來建立決策樹；其中，對頻譜特征流和基頻特征流分別建立不同的決策樹，分別得到聚類后的基頻特征模型和頻譜特征模型；所述識別步驟包括4)對每一句待識別語音，進(jìn)行語音識別得出其音節(jié)內(nèi)容；5)根據(jù)已得出的音節(jié)內(nèi)容，基于訓(xùn)練步驟所得出的聚類后的基頻特征模型和頻譜特征模型，建立聲調(diào)識別網(wǎng)絡(luò)，并在所述聲調(diào)識別上進(jìn)行Viterbi搜索，得其最優(yōu)路徑，并從最優(yōu)路徑中提取聲調(diào)序列，作為最終的聲調(diào)識別結(jié)果。其中，所述步驟1)中，所述基頻特征還包括當(dāng)前幀與相鄰幀的基頻一階差分值；和/或當(dāng)前幀與相鄰幀的基頻二階差分值。其中，所述步驟2)中，所述識別單元由當(dāng)前音節(jié)，當(dāng)前聲調(diào)，前一個字的聲調(diào)，以及后一個字的聲調(diào)組成。其中，所述步驟2)中，采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模時，0維子空間描述清音部分的基頻，多維連續(xù)子空間描述濁音部分的基頻，此處的基頻是實(shí)際意義的基頻，并非基頻特征。其中，所述步驟3)中，決策樹根據(jù)當(dāng)前音節(jié)，前字聲調(diào)和后字聲調(diào)來建立，對所識別的有調(diào)語言中每一類聲調(diào)各建立一個決策樹。其中，所述步驟5)還包括在建立所述聲調(diào)識別網(wǎng)絡(luò)時，所述聲調(diào)識別網(wǎng)絡(luò)中每一個音節(jié)含有N個聲調(diào)候選，聲調(diào)識別網(wǎng)絡(luò)有一個開始節(jié)點(diǎn)和一個結(jié)束節(jié)點(diǎn)，聲調(diào)識別網(wǎng) 絡(luò)經(jīng)過聲調(diào)上下文擴(kuò)展轉(zhuǎn)換為識別單元網(wǎng)絡(luò)，識別單元網(wǎng)絡(luò)最終再轉(zhuǎn)換為隱馬爾可夫模型狀態(tài)網(wǎng)絡(luò)，供識別時使用。相對于現(xiàn)有技術(shù)，本發(fā)明能夠有效地提高了聲調(diào)識別正確率。

圖1是本發(fā)明一個實(shí)施例中提出的聲調(diào)識別方法的流程圖；圖2是本發(fā)明一個實(shí)施例中提出的聲調(diào)識別方法中聲調(diào)識別模型訓(xùn)練時的特征流相關(guān)的決策樹聚類示例；圖3是本發(fā)明一個實(shí)施例中提出的聲調(diào)識別方法中所用到的聲調(diào)網(wǎng)絡(luò)；圖4是本發(fā)明一個實(shí)施例中提出的聲調(diào)識別方法中所用到的聲調(diào)網(wǎng)絡(luò)的上下文擴(kuò)展及模型轉(zhuǎn)換示意圖。
具體實(shí)施例方式本發(fā)明所提到的連續(xù)語音聲調(diào)識別方法的流程框圖如圖1所示。本流程包含兩個過程，訓(xùn)練過程和識別過程。在訓(xùn)練過程中，采用大規(guī)模語料訓(xùn)練得到基于多空間概率分布的HMM模型；在識別過程中，基于已訓(xùn)練好的MSD-HMM模型和一個專門為聲調(diào)識別所設(shè)計的聲調(diào)識別網(wǎng)絡(luò)，采用Viterbi搜索算法得到最佳的聲調(diào)序列。在本方法中，所選用的語音特征包含頻譜特征和基頻特征，頻譜特征為
4語音識別中常用的特征，包含 MFCC(Mel-frequency cepstral coefficient)、 MF-PLP(Mel-frequency perceptual linear prediction)等等；基頻特征用于表征聲調(diào)特性，本發(fā)明選用了 5維的基頻特征，這五個基頻特征分別是1)語音幀的基頻值； 2)相鄰幀的基頻一階差分值；3)相鄰幀的基頻二階差分值；4)當(dāng)前連續(xù)基頻段的長度；5)當(dāng)前幀基頻值與前一個連續(xù)基頻段的后N幀基頻平均值的差值，N通常選為10。這五維的基頻特征是在實(shí)踐中證明能夠取得較好的特征組合，但本發(fā)明所涉及的方法并不限于此五維特征組合，增加或減少特征數(shù)量并不影響本發(fā)明的應(yīng)用，但可能不能得到最好的結(jié)果。比如可選擇上述五個基頻特征中的第1、4、5特征構(gòu)成三維的特征，等等。在語音信號中，基頻值只存在于濁音段，在清音段上不存在基頻。實(shí)際語音中的濁音段和清音段是交替存在的，因此，基頻序列并非一個完全連續(xù)的序列。傳統(tǒng)的 HMM只能處理完全連續(xù)的矢量序列，因此，在對基頻進(jìn)行建模的時候，本發(fā)明采用了多空間概率分布的HMM模型。關(guān)于多空間概率分布的HMM的技術(shù)細(xì)節(jié)可參照Mu 11 i - s ρ a c e probability distribution HMM(K. Tokuda, Τ. Masuko, N. Miyazaki, and Τ. Kobayashi, IEICE TRANSACTIONS on Information and Systems，vol. 85，no. 3，pp. 455-464，2002)。多空間概率分布將整個特征分布空間分為不同的子空間，每個子空間可以有不同的維數(shù)?；?于多空間概率分布的基頻建模認(rèn)為濁音段和清音段的基頻特征來源于不同的子空間，濁音段基頻特征來源于一個連續(xù)的子空間，清音段基頻特征來源于一個0維的子空間(清音段基頻值無實(shí)際意義)。當(dāng)頻譜特征和基頻特征聯(lián)合建模時，采用了特征流相關(guān)的建模方法，頻譜特征和基頻特征分屬于不同的流，并且采用不同的建模方式。對頻譜特征流采用傳統(tǒng) 的HMM建模方式，對基頻特征流則采用MSD-HMM建模方式。在建模單元的選取上，考慮到此處無需識別出具體的音素，而且當(dāng)前音節(jié)的聲調(diào) 主要受其聲調(diào)上下文的影響，因此選取當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個字的聲調(diào)、后一個字的聲調(diào)共同構(gòu)成一個建模單元。一個建模單元示例如下所示3"bail = 2其中ba表示當(dāng)前的音節(jié)，01表示當(dāng)前聲調(diào)為一聲，3~表示前一個字的聲調(diào)為三聲，=2表示后一個字的聲調(diào)為二聲。每一個建模單元由一個含有四個狀態(tài)的隱馬爾可夫模型來建模。此處包含四個部分的建模單元是在實(shí)踐中發(fā)現(xiàn)效果較好的方式，但本發(fā)明中所采用的方法并不限于此種建模單元，比如建模單元可只選取當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個字的聲調(diào)三部分，構(gòu)成如3~ba@l的方式，等等。為了解決數(shù)據(jù)稀疏問題，在建模中采用了基于決策樹的聚類方式，決策樹的建立根據(jù)前一個音節(jié)的聲調(diào)，后一個音節(jié)的聲調(diào)，當(dāng)前的音節(jié)來建立。針對這三個部分，設(shè)計了不同的問題，問題的示例如下1.前一個音節(jié)聲調(diào)是一聲？2.后一個音節(jié)聲調(diào)是一聲？3.當(dāng)前音節(jié)的韻母是單元音？
......對每一個聲調(diào)建立一個決策樹，最后的結(jié)果中共包含N個決策樹，N為聲調(diào)的總數(shù)。以漢語為例，N = 5(—聲，二聲，三聲，四聲，輕聲)。在聚類中，針對特征中的頻譜參數(shù)流和基頻參數(shù)流，還采用了特征流相關(guān)的決策樹聚類方法。即針對不同的特征流，建立不同的決策樹。因?yàn)椴煌奶卣髁魉从吵龅氖?語音的不同的特征，比如頻譜特征流更多的跟當(dāng)前音節(jié)的發(fā)音有關(guān)，而基頻參數(shù)流更多的受前后聲調(diào)的影響。采用特征流相關(guān)的聚類方法可以建立更準(zhǔn)確的模型。特征流相關(guān)的決策樹聚類示例如圖2所示。頻譜流決策樹的建立過程更多的和發(fā)音有關(guān)的問題有關(guān)，而基頻流決策樹的建立過程更多的和聲調(diào)有關(guān)的問題有關(guān)。在識別過程中，因?yàn)楸景l(fā)明專注于聲調(diào)識別，因此假設(shè)音節(jié)內(nèi)容是已知的?；谝?知的音節(jié)內(nèi)容，構(gòu)建了如圖3所示的聲調(diào)識別網(wǎng)絡(luò)。每個音節(jié)有五個候選聲調(diào)，分別用1，2， 3，4，5來表示。從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的整個網(wǎng)絡(luò)構(gòu)成完整的一句話。在實(shí)際解碼之前，這個網(wǎng)絡(luò)經(jīng)過上下文擴(kuò)展，模型轉(zhuǎn)換，最終轉(zhuǎn)化成為一個由隱馬爾可夫模型狀態(tài)構(gòu)成的狀態(tài) 圖。圖4展示了網(wǎng)絡(luò)中某條邊的一條擴(kuò)展路徑及轉(zhuǎn)換過程。在這個狀態(tài)圖上，采用Viterbi 搜索算法搜索得到累積概率最高的路徑，從這條路徑中，可以得到聲調(diào)序列，即為聲調(diào)識別結(jié)果序列。下面結(jié)合附圖及具體實(shí)施例對本發(fā)明做進(jìn)一步描述實(shí)施例本實(shí)施例以漢語連續(xù)語音聲調(diào)識別為例，描述本發(fā)明的具體實(shí)施步驟，包括訓(xùn)練步驟和識別步驟。訓(xùn)練步驟包含如下子步驟1)語音數(shù)據(jù)特征提取對語料庫中的語音數(shù)據(jù)進(jìn)行分幀，加窗，預(yù)加重等預(yù)處理，提取所需頻譜特征和基頻特征；在本實(shí)施例中，語音數(shù)據(jù)以16K，16bit，單聲道數(shù)字化格式存放，所提取的頻譜特征為MFCC(mel-frequency cepstral coefficient)特征矢量及其一階和兩階差分矢量；基頻特征包括5維，5維基頻特征分別是a)語音幀的基頻值；b)相鄰幀的基頻一階差分值；c)相鄰幀的基頻二階差分值；d)當(dāng)前連續(xù)基頻段的長度；e)當(dāng)前幀基頻值與前一個連續(xù)基頻段的后N幀基頻平均值的差值，N通常選為10。2)準(zhǔn)備語音數(shù)據(jù)的標(biāo)注文本準(zhǔn)備訓(xùn)練隱馬爾可夫模型所需的語音數(shù)據(jù)標(biāo)注文本；隱馬爾科夫模型訓(xùn)練需要與語音相對應(yīng)的內(nèi)容文本，這些文本需要人工標(biāo)注得到。在本實(shí)施例中，標(biāo)注文本采用音節(jié)拼音標(biāo)注，比如某句語音的標(biāo)注如下所示chuangl wai4 xia4 qi3 le5 piaol yang2 de5 xue3 hual(窗外下起了飄揚(yáng)的雪花)拼音后的數(shù)字表示當(dāng)前字的聲調(diào)。在實(shí)際模型訓(xùn)練過程中，拼音標(biāo)注需要進(jìn)行上下文擴(kuò)展，以得到包含當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個字的聲調(diào)、后一個字的聲調(diào)的建模單元。
6對上述標(biāo)注示例進(jìn)行上下文擴(kuò)展后，得到的建模單元序列為O'chuangil = 1 l"waii4 = 4 4"xiai4 = 3 4"qii3 = 5 3"lei5 = 1 5"piaoil =21"yangi2 = 5 2"dei5 = 3 5"xuei3 = 1 3"huail = O
3)模型訓(xùn)練根據(jù)以上準(zhǔn)備的語音特征數(shù)據(jù)以及相應(yīng)的標(biāo)注數(shù)據(jù)訓(xùn)練MSD-HMM模型；模型訓(xùn)練采用最大似然訓(xùn)練準(zhǔn)則，訓(xùn)練算法采用Baum-Welch算法。為了避免數(shù)據(jù) 稀疏問題，所有的識別單元采用特征流相關(guān)的決策樹聚類方法聚類。對頻譜參數(shù)流和基頻參數(shù)流，分別建立不同的決策樹。決策樹的建立根據(jù)前一個音節(jié)的聲調(diào)，后一個音節(jié)的聲調(diào)，當(dāng)前的音節(jié)來建立。漢語總共有五個聲調(diào)(包含了輕聲)，對每一個聲調(diào)建立一個決策樹。識別步驟包含如下子步驟1)語音數(shù)據(jù)特征提取對待識別的語音數(shù)據(jù)進(jìn)行分幀，加窗，預(yù)加重等預(yù)處理，提取所需頻譜特征和基頻特征；所述頻譜特征和基頻特征與訓(xùn)練步驟中的步驟1)完全一致，不再贅述。2)準(zhǔn)備聲調(diào)識別網(wǎng)絡(luò)對每一句待識別的語音，根據(jù)已知的音節(jié)內(nèi)容構(gòu)建識別網(wǎng) 絡(luò)；識別網(wǎng)絡(luò)如圖3所示。圖中表示的是“我愛地球”的聲調(diào)識別網(wǎng)絡(luò)，句中的每個音節(jié)(wo ai di qiu)，包含5個可選的聲調(diào)1，2，3，4，5，分別表示漢語中的一聲，二聲，三聲，
四聲，輕聲。此聲調(diào)識別網(wǎng)絡(luò)經(jīng)過上下文擴(kuò)展，模型轉(zhuǎn)換過程，最終轉(zhuǎn)化成包含隱馬爾可夫模型狀態(tài)的狀態(tài)網(wǎng)絡(luò)。此過程如圖4所示，對圖3中的每一條邊，根據(jù)其前面音節(jié)和后面音節(jié) 的聲調(diào)進(jìn)行上下文擴(kuò)展，得到建模單元網(wǎng)絡(luò)。比如對“ai5”這條邊，擴(kuò)展為“rai@5 = 1”， "2"aii5 = l","3"aii5 = lVTai@5 = 2”等邊。然后，每個建模單元用相應(yīng)的隱馬爾科夫模型來替換，就得到了最終的聲調(diào)識別網(wǎng)絡(luò)。3)聲調(diào)序列搜索通過有效的搜索算法得到最終的聲調(diào)識別序列；在本實(shí)施例中，采用Viterbi搜索算法根據(jù)已得到的隱馬爾可夫模型和聲調(diào)識別狀態(tài)網(wǎng)絡(luò)搜索得到最優(yōu)的識別單元路徑。從這個識別單元路徑中，提取出聲調(diào)序列，即為聲調(diào)識別結(jié)果。檢測試驗(yàn)使用中華人民共和國國家863漢語普通話大詞匯量連續(xù)語音識別評測數(shù)據(jù)庫對本發(fā)明所提出的連續(xù)語音聲調(diào)識別方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)中選用大約80個小時的數(shù)據(jù)作為訓(xùn)練集，包含84個男性和84個女性的錄音；另有大約5個小時的數(shù)據(jù)作為測試集，包含 7個男性和7個女性的錄音，大約8000句話。最終訓(xùn)練的得到的模型總共包含約5000個狀態(tài)得，每個狀態(tài)由含16個高斯的高斯混合模型描述。實(shí)驗(yàn)結(jié)果如表1所示，包含5個聲調(diào) 分別的實(shí)驗(yàn)正確率和總的識別正確率。與顯式聲調(diào)建模方法相比，本發(fā)明中的方法在大部分聲調(diào)上都取得了更好的識別結(jié)果，最終的聲調(diào)識別正確率比TRUES方法提高了約3. 7個百分點(diǎn)。表1
聲調(diào)TRUES識別正確率—聲92.02%90.63%二聲85.94%88.3%一 ^zt=- 二尸60.97%91.03%四聲88.79%89.4%五聲59.26%75.39%全部85.07%88.8% 最后，需要說明的是，雖然上述實(shí)施例以漢語為例進(jìn)行說明，但本領(lǐng)域技術(shù)人員易于理解，本發(fā)明可以用于對其它有調(diào)語言進(jìn)行聲調(diào)識別。
權(quán)利要求
一種連續(xù)語音聲調(diào)識別方法，包括訓(xùn)練步驟和識別步驟，其特征在于，所述訓(xùn)練步驟包括1)提取已知語音段中每一個語音幀的頻譜特征和基頻特征，對于每一個語音幀，所述基頻特征至少包括當(dāng)前語音幀的基頻值，當(dāng)前連續(xù)基頻段的長度，以及當(dāng)前幀基頻值與前一個連續(xù)基頻段的后N幀基頻平均值的差值；所述頻譜特征是MFCC特征或者M(jìn)F PLP特征，或者是二者的組合；2)對所提取出的多個語音幀的基頻特征所組成的基頻特征流，采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模，對所提取出的多個語音幀的頻譜特征所組成的頻譜特征流，采用普通隱馬爾可夫模型建模；其中，組成識別單元的元素包括當(dāng)前音節(jié)，當(dāng)前聲調(diào)以及前一個字的聲調(diào)；3)采用特征流相關(guān)的決策樹聚類方法，根據(jù)所述識別單元中的當(dāng)前音節(jié)和前一個字聲調(diào)來建立決策樹；其中，對頻譜特征流和基頻特征流分別建立不同的決策樹，分別得到聚類后的基頻特征模型和頻譜特征模型；所述識別步驟包括4)對每一句待識別語音，進(jìn)行語音識別得出其音節(jié)內(nèi)容；5)根據(jù)已得出的音節(jié)內(nèi)容，基于訓(xùn)練步驟所得出的聚類后的基頻特征模型和頻譜特征模型，建立聲調(diào)識別網(wǎng)絡(luò)，并在所述聲調(diào)識別上進(jìn)行Viterbi搜索，得其最優(yōu)路徑，并從最優(yōu)路徑中提取聲調(diào)序列，作為最終的聲調(diào)識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法，其特征在于，所述步驟1)中，所述基頻特征還包括當(dāng)前幀與相鄰幀的基頻一階差分值；和/或當(dāng)前幀與相鄰幀的基頻二階差分值。
3.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法，其特征在于，所述步驟2)中，所述識別單元由當(dāng)前音節(jié)，當(dāng)前聲調(diào)，前一個字的聲調(diào)，以及后一個字的聲調(diào)組成。
4.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法，其特征在于，所述步驟2)中，采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模時，0維子空間描述清音部分的基頻，多維連續(xù)子空間描述濁音部分的基頻。
5.根據(jù)權(quán)利要求3所述的連續(xù)語音聲調(diào)識別方法，其特征在于，所述步驟3)中，決策樹根據(jù)當(dāng)前音節(jié)，前字聲調(diào)和后字聲調(diào)來建立，對所識別的有調(diào)語言中每一類聲調(diào)各建立一個決策樹。
6.根據(jù)權(quán)利要求3所述的連續(xù)語音聲調(diào)識別方法，其特征在于，所述步驟5)還包括在建立所述聲調(diào)識別網(wǎng)絡(luò)時，所述聲調(diào)識別網(wǎng)絡(luò)中每一個音節(jié)含有N個聲調(diào)候選，聲調(diào)識別網(wǎng)絡(luò)有一個開始節(jié)點(diǎn)和一個結(jié)束節(jié)點(diǎn)，聲調(diào)識別網(wǎng)絡(luò)經(jīng)過聲調(diào)上下文擴(kuò)展轉(zhuǎn)換為識別單元網(wǎng)絡(luò)，識別單元網(wǎng)絡(luò)最終再轉(zhuǎn)換為隱馬爾可夫模型狀態(tài)網(wǎng)絡(luò)，供識別時使用。
全文摘要
本發(fā)明涉及一種連續(xù)語音聲調(diào)識別方法，1)提取已知語音段中每一個語音幀的頻譜特征和基頻特征，所述基頻特征至少包括當(dāng)前語音幀的基頻值，當(dāng)前連續(xù)基頻段的長度，以及當(dāng)前幀基頻值與前一個連續(xù)基頻段的后N幀基頻平均值的差值；2)對所提取出的基頻特征流和頻譜特征流，分別采用多空間概率分布和普通的隱馬爾可夫模型來進(jìn)行建模；3)采用特征流相關(guān)的決策樹聚類方法建立決策樹，分別得到聚類后的基頻特征模型和頻譜特征模型；4)對每一句待識別語音進(jìn)行語音識別；5)根據(jù)已得出的音節(jié)內(nèi)容，基于步驟3)所得出模型和建立聲調(diào)識別網(wǎng)絡(luò)，并在所述聲調(diào)識別上進(jìn)行Viterbi搜索，得其最優(yōu)路徑，并從最優(yōu)路徑中提取聲調(diào)序列，作為最終的聲調(diào)識別結(jié)果。
文檔編號G10L15/06GK101950560SQ201010279090
公開日2011年1月19日申請日期2010年9月10日優(yōu)先權(quán)日2010年9月10日
發(fā)明者劉常亮, 潘復(fù)平, 董濱, 顏永紅申請人:中國科學(xué)院聲學(xué)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉常亮;潘復(fù)平;董濱;顏永紅
技術(shù)所有人：中國科學(xué)院聲學(xué)研究所
我是此專利的發(fā)明人

上一篇：語音命令的多維消歧的制作方法
上一篇：基于語音輸入激活多種功能的系統(tǒng)和方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

連續(xù)語音識別相關(guān)技術(shù)

htk連續(xù)語音識別相關(guān)技術(shù)

大詞匯量連續(xù)語音識別相關(guān)技術(shù)

語音識別測試方法相關(guān)技術(shù)

語音識別方法相關(guān)技術(shù)

語音識別的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種連續(xù)語音聲調(diào)識別方法