語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置,該方法包括:接收輸入的語音信號;對所述語音信號進行分幀處理,獲取語音幀序列;提取所述語音幀序列中各語音幀的底層聲學(xué)特征;基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征。利用本發(fā)明,可以有效提高語種識別性能。
【專利說明】語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語種識別【技術(shù)領(lǐng)域】,具體涉及一種語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置。
【背景技術(shù)】
[0002]語種識別是指判斷給定語音信號所對應(yīng)的語種類別。語種識別在機器自動翻譯、國際旅游信息服務(wù)、電話轉(zhuǎn)接、購物股票交易等服務(wù)導(dǎo)航,國防安全等領(lǐng)域具有重要的應(yīng)用價值。特別是近年來隨著通信技術(shù)的發(fā)展,軍事監(jiān)控數(shù)據(jù)呈爆發(fā)式增長,如何從海量數(shù)據(jù)中篩選對象國的語音數(shù)據(jù)是實際中面臨的一項難題。
[0003]目前主流語種識別系統(tǒng)主要基于語音識別技術(shù)。具體的系統(tǒng)接收輸入的連續(xù)語音信號,并提取相應(yīng)聲學(xué)特征序列;隨后計算所述聲學(xué)特征序列相應(yīng)于各語種模型的相似度并選擇具有最大似然度的語種模型為期望語種。顯然語音信號的聲學(xué)特征語種區(qū)分性直接影響到語種識別結(jié)果。目前語種識別系統(tǒng)主要提取語音信號的底層聲學(xué)信息,即對連續(xù)語音信號分巾貞處理后提取各語音巾貞的聲學(xué)特征,如MFCC (Mel Frequency CepstrumCoefficient, Mel 頻率倒譜系數(shù))特征、PLP (Perceptual Linear Predictive,感知線性預(yù)測系數(shù))特征等。
[0004]底層聲學(xué)特征如語音幀的MFCC特征、PLP特征等主要用于描述語音信號的發(fā)音特點,并不能很好地體現(xiàn)語種的差異。這些特征不僅包含了音素區(qū)分性信息,也混疊了說話人、信道、噪聲等各種干擾信息,使得能夠區(qū)分語種的音素信息淹沒其中,從而影響語種識別效果。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置,以提高語種識別性倉泛。
[0006]為此,本發(fā)明提供如下技術(shù)方案:
[0007]—種語種識別系統(tǒng)中聲學(xué)特征提取方法,包括:
[0008]接收輸入的語音信號;
[0009]對所述語音信號進行分幀處理,獲取語音幀序列;
[0010]提取所述語音幀序列中各語音幀的底層聲學(xué)特征;
[0011]基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征。
[0012]優(yōu)選地,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FilterBank特征、MFCC特征、PLP特征。
[0013]優(yōu)選地,所述方法還包括:
[0014]在基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化之前,對所述底層聲學(xué)特征提取一階差分和二階差分;[0015]將所述一階差分和二階差分與所述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多維聲學(xué)特征作為新的底層聲學(xué)特征。
[0016]優(yōu)選地,所述基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征包括:
[0017]獲取各語音幀的前、后幀擴展聲學(xué)特征;
[0018]將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征;
[0019]根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征。
[0020]優(yōu)選地,所述將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征包括:
[0021]將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,將所述深度置信網(wǎng)絡(luò)模型中間隱含層或特征輸出層的輸出作為優(yōu)化的擴展聲學(xué)特征。
[0022]優(yōu)選地,所述根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征包括:
[0023]對所述優(yōu)化的擴展聲學(xué)特征基于前后相鄰語音幀進行差分?jǐn)U展,得到各語音幀上下文相關(guān)的擴展聲學(xué)特征。
[0024]一種語種識別系統(tǒng)中聲學(xué)特征提取裝置,包括:
[0025]接收模塊,用于接收輸入的語音信號;
[0026]分幀處理模塊,用于對所述語音信號進行分幀處理,獲取語音幀序列;
[0027]特征提取模塊,用于提取所述語音幀序列中各語音幀的底層聲學(xué)特征;
[0028]優(yōu)化模塊,用于基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征。
[0029]優(yōu)選地,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FilterBank特征、MFCC特征、PLP特征。
[0030]優(yōu)選地,所述裝置還包括:
[0031]差分提取模塊,用于在所述優(yōu)化模塊基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化之前,對所述底層聲學(xué)特征提取一階差分和二階差分;將所述一階差分和二階差分與所述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多維聲學(xué)特征作為新的底層聲學(xué)特征。
[0032]優(yōu)選地,所述優(yōu)化模塊包括:
[0033]擴展單元,用于獲取各語音幀的前、后幀擴展聲學(xué)特征;
[0034]優(yōu)化單元,用于將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征;
[0035]提取單元,用于根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征。
[0036]優(yōu)選地,所述優(yōu)化單元,用于將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,將所述深度置信網(wǎng)絡(luò)模型中間隱含層或特征輸出層的輸出作為優(yōu)化的擴展聲學(xué)特征。
[0037]優(yōu)選地,所述提取單元,具體用于對所述優(yōu)化的擴展聲學(xué)特征基于前后相鄰語音幀進行差分?jǐn)U展,得到各語音幀上下文相關(guān)的擴展聲學(xué)特征。[0038]本發(fā)明實施例提供的語種識別系統(tǒng)中聲學(xué)特征提取方法及裝置,針對提取的語音幀序列中各語音幀的底層聲學(xué)特征,基于高層發(fā)音單元對其進行優(yōu)化,提取更高層面的語音信息,突出聲學(xué)特征中的音素信息而抑制其它干擾信息,有效提升了語種識別性能。
【專利附圖】
【附圖說明】
[0039]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0040]圖1是本發(fā)明實施例語種識別系統(tǒng)中聲學(xué)特征提取方法的流程圖;
[0041]圖2是本發(fā)明實施例中基于深度置信網(wǎng)絡(luò)模型對底層聲學(xué)特征進行優(yōu)化的流程圖;
[0042]圖3是本發(fā)明實施例中深度置信網(wǎng)絡(luò)拓撲結(jié)構(gòu)示意圖;
[0043]圖4是本發(fā)明實施例中深度置信網(wǎng)絡(luò)模型的訓(xùn)練流程圖;
[0044]圖5是本發(fā)明實施例語種識別系統(tǒng)中聲學(xué)特征提取裝置的一種結(jié)構(gòu)示意圖;
[0045]圖6是本發(fā)明實施例語種識別系統(tǒng)中聲學(xué)特征提取裝置的另一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0046]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。
[0047]針對現(xiàn)有的語種識別系統(tǒng)主要提取語音信號的底層聲學(xué)信息,不能很好地體現(xiàn)語種的差異,進而影響語種識別效果的問題,本發(fā)明實施例提供一種新的聲學(xué)特征提取方法,通過提取高層面如音素層的語音信息,提高語音信號的語種信息區(qū)分性。
[0048]從語言學(xué)的角度,語種差異性主要體現(xiàn)各個語種之間發(fā)音音素的不同,音素的上下文搭配不同,以及不同音素出現(xiàn)的頻度不同等方面。為此,在本發(fā)明實施例的方法及裝置中,基于更高層面發(fā)音單元對語音幀聲學(xué)特征優(yōu)化,提取更高層面的語音信息,突出聲學(xué)特征中的音素信息而抑制其它干擾信息,有效提升了語種識別性能。
[0049]如圖1所示,是本發(fā)明實施例語種識別系統(tǒng)中聲學(xué)特征提取方法的流程圖,包括以下步驟:
[0050]步驟101,接收輸入的語音信號。
[0051]步驟102,對所述語音信號進行分幀處理,獲取語音幀序列。
[0052]具體地,可以通過加漢明窗的方式對所述語音信號進行分幀處理,得到每幀數(shù)據(jù)。
[0053]在實際應(yīng)用中,漢明窗的窗長可以選擇為25ms,前后兩幀窗移為10ms,疊加部分為 15ms ο
[0054]進一步地,還可以預(yù)先對所述語音信號進行預(yù)加重處理,以減少尖銳噪聲影響,提
升高頻信號。
[0055]步驟103,提取所述語音幀序列中各語音幀的底層聲學(xué)特征。
[0056]在實際應(yīng)用中,所述底層聲學(xué)特征可以采用LPCC (Linear Predictive CepstralCoding,線性預(yù)測倒譜系數(shù))特征、濾波器FilterBank特征、MFCC特征或PLP特征中的任意一種。[0057]為了描述方便,下面以MFCC特征為例進行說明。
[0058]在提取各語音幀的MFCC特征時,可以首先通過傅立葉變換和取模得到頻域信號,并經(jīng)過三角濾波函數(shù)得到梅爾域的輸出,取對數(shù)經(jīng)過離散余弦變化進行去相關(guān)處理,得到N階MFCC參數(shù)。
[0059]進一步地,在實際應(yīng)用中,還可以對所述底層聲學(xué)特征提取一階差分和二階差分,然后將所述一階差分和二階差分與所述底層聲學(xué)特征組成3N維聲學(xué)特征。
[0060]差分運算的公式如下:
[0061 ]
【權(quán)利要求】
1.一種語種識別系統(tǒng)中聲學(xué)特征提取方法,其特征在于,包括: 接收輸入的語音信號; 對所述語音信號進行分幀處理,獲取語音幀序列; 提取所述語音幀序列中各語音幀的底層聲學(xué)特征; 基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FilterBank特征、MFCC特征、PLP特征。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化之前,對所述底層聲學(xué)特征提取一階差分和二階差分; 將所述一階差分和二階差分與所述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多維聲學(xué)特征作為新的底層聲學(xué)特征。
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到 所述高層發(fā)音單元的聲學(xué)特征包括: 獲取各語音幀的前、后幀擴展聲學(xué)特征; 將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征; 根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征包括: 將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,將所述深度置信網(wǎng)絡(luò)模型中間隱含層或特征輸出層的輸出作為優(yōu)化的擴展聲學(xué)特征。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征包括: 對所述優(yōu)化的擴展聲學(xué)特征基于前后相鄰語音幀進行差分?jǐn)U展,得到各語音幀上下文相關(guān)的擴展聲學(xué)特征。
7.一種語種識別系統(tǒng)中聲學(xué)特征提取裝置,其特征在于,包括: 接收模塊,用于接收輸入的語音信號; 分幀處理模塊,用于對所述語音信號進行分幀處理,獲取語音幀序列; 特征提取模塊,用于提取所述語音幀序列中各語音幀的底層聲學(xué)特征; 優(yōu)化模塊,用于基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化,得到所述高層發(fā)音單元的聲學(xué)特征。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述底層聲學(xué)特征為以下任意一種:LPCC特征、濾波器FilterBank特征、MFCC特征、PLP特征。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 差分提取模塊,用于在所述優(yōu)化模炔基于高層發(fā)音單元對所述底層聲學(xué)特征進行優(yōu)化之前,對所述底層聲學(xué)特征提取一階差分和二階差分;將所述一階差分和二階差分與所述底層聲學(xué)特征組成多維聲學(xué)特征,并將所述多維聲學(xué)特征作為新的底層聲學(xué)特征。
10.根據(jù)權(quán)利要求7至9任一項所述的裝置,其特征在于,所述優(yōu)化模塊包括: 擴展單元,用于獲取各語音幀的前、后幀擴展聲學(xué)特征; 優(yōu)化單元,用于將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,得到優(yōu)化的擴展聲學(xué)特征; 提取單元,用于根據(jù)所述優(yōu)化的擴展聲學(xué)特征提取各語音幀上下文相關(guān)的擴展聲學(xué)特征。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于: 所述優(yōu)化單元,用于將所述擴展聲學(xué)特征輸入預(yù)先訓(xùn)練得到的深度置信網(wǎng)絡(luò)模型,將所述深度置信網(wǎng)絡(luò)模型中間隱含層或特征輸出層的輸出作為優(yōu)化的擴展聲學(xué)特征。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于: 所述提取單元,具體用于對所述優(yōu)化的擴展聲學(xué)特征基于前后相鄰語音幀進行差分?jǐn)U展,得到各語音幀上下文相關(guān)的擴展聲學(xué)特征。
【文檔編號】G10L15/02GK103559879SQ201310553080
【公開日】2014年2月5日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】劉俊華, 魏思, 胡國平, 方磊, 胡郁 申請人:安徽科大訊飛信息科技股份有限公司