一種基于核半監(jiān)督判別分析的語音情感識別方法
【專利摘要】本發(fā)明公開了一種基于核半監(jiān)督判別分析的語音情感識別方法,對經(jīng)預處理的語音樣本中語音情感特征提取后,進行特征篩選、KSDA維數(shù)約簡和分類。在訓練階段,對全監(jiān)督訓練樣本集使用KSDA進行維數(shù)約簡,將表示訓練樣本不同關系信息的嵌入圖結合起來,并使用核化數(shù)據(jù)映射,實現(xiàn)對語音情感特征維數(shù)約簡的優(yōu)化,再用低維樣本訓練多類SVM分類器;在測試階段,依次使用訓練階段特征篩選得到的特征及維數(shù)約簡得到的數(shù)據(jù)映射方式,對各測試樣本獲取其低維特征,再使用訓練得到的分類器進行分類判決,得到測試樣本的類別。與現(xiàn)有方法相比,本發(fā)明的方法在語音情感特征維數(shù)約簡中增加了降維的有效性,使語音情感識別系統(tǒng)的識別率性能得到了提升。
【專利說明】—種基于核半監(jiān)督判別分析的語音情感識別方法
【技術領域】
[0001]本發(fā)明屬于語音情感識別領域,特別是涉及一種基于核半監(jiān)督判別分析的語音情感識別方法。
【背景技術】
[0002]語音情感識別(Speech Emotion Recognition,簡稱SER,)涉及到語音信號處理、模式識別、機器學習以及心理學等交叉學科,目前已成為了一個得到了較多關注的領域。大量算法被提出用于語音情感識別,并經(jīng)過實驗驗證了其有效性。常用的標準數(shù)據(jù)庫包括柏林(Berlin)語音情感庫、AIBO數(shù)據(jù)庫、SUSAS語料庫等,所涉及到的基本情感類型包括平靜、恐懼、生氣、愉悅、煩躁、驚訝等。
[0003]在人機交互(HMI)中,機器需要根據(jù)交流對象的語音信號,經(jīng)過處理之后提取出信號樣本的情感特征,進行語音情感類型的識別,根據(jù)識別的結果給出相應的反應策略;同樣,機器也可以根據(jù)各類樣本特征分析的結果,自動生成帶某種情感成分的語音信號,從而提高人機交互系統(tǒng)的性能。在航天員培訓訓練過程中及航天器在軌階段,語音情感識別也具有重要的意義,可以及時檢測出負面情感,從而盡早進行干預和情緒疏導,排除由負面情緒所帶來的安全隱患。此外,在呼叫中心、兒童的心理疾病診療等方面語音情感識別方法同樣能夠為相關人員提供一定的初步診斷篩選依據(jù)。
[0004]目前很多語音情感識別算法都是基于原始特征直接通過分類器進行分類識別,常用的分類器如高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支持向量機(SVM)等,雖然能取得一些效果,但由于語音情感原始特征的維數(shù)一般較高,而且原始特征中一般會含有一些對情感分類無用的特征,所以對普通的語音情感樣本的準確分類存在著較大的局限性。
[0005]傳統(tǒng)的語音情感識別方法還采用了一些特征篩選的措施,但由于缺乏對原始特征的線性或非線性變換,語音情感的維數(shù)仍然太高,所以仍無法提供較為準確的語音情感特征。當前的研究成果中,流形學習算法已經(jīng)成為模式識別與機器學習中的維數(shù)約簡常用方法。常見的基本流形學習算法包括局部線性嵌入(Locally Linear Embedding,簡稱LLE)、等距線性映射(Isomap)、局部保持投影(Locally Preserve Pro jection,簡稱LPP)和隨機近鄰嵌入(Stochastic Neighbor Embedding,簡稱SNE)等。其中很多流形學習算法都與判別分析、瑞利(Rayleigh)商、譜圖學習等相關算法具有密切聯(lián)系。
[0006]較多的心理學研究表明,語音情感空間具有較低的維度,目前以三維及多維情緒空間理論為主,這為流形學習算法在語音情感識別中應用提供了依據(jù),即語音情感空間在利用流行學習算法將其降到較低維度時仍然能保持并加強對于樣本情緒的表達。
[0007]但是,在當前的研究成果中還存在下列問題:大部分方法都是直接基于基本的流形學習算法如 LLE、Isomap、LPP、邊界 Fisher 分析(Marginal Fisher Analysis,簡稱 MFA)等,或是主成分分析(Principal Component Analysis,簡稱PCA)、線性判別分析(LinerDiscriminant Analysis,簡稱LDA)等簡單的維數(shù)約簡算法及其不同的數(shù)據(jù)映射形式,無論是基本的流行學習算法還是簡單的維數(shù)約減算法都僅僅使用單一的嵌入圖及其相似模型的學習,而忽略了對于嵌入圖的優(yōu)化。由于一個嵌入圖反映了訓練樣本的某種方面的關系,就必然會忽略其他方面的特性,所以單一的嵌入圖并不能完全反映訓練樣本的特征空間結構,造成語音情感的識別效果不佳。
【發(fā)明內容】
[0008]要解決的技術問題:針對現(xiàn)有技術的不足,本發(fā)明提供一種基于核半監(jiān)督判別分析的語音情感識別方法,解決現(xiàn)有技術中語音情感的維數(shù)較高,無法提供較為準確的語音情感特征;基本的流行學習算法中僅利用單一嵌入圖及其相似模型進行學習時不能完全反應訓練樣本的特征空間結構導致語音情感識別率低的技術問題。
[0009]技術方案:為解決上述技術問題,本發(fā)明采用以下技術方案:
[0010]一種基于核半監(jiān)督判別分析的語音情感識別方法,將語音情感數(shù)據(jù)庫中若干個語音樣本任意劃分為訓練樣本集和測試樣本集,包括順序執(zhí)行的以下步驟:
[0011]步驟一,語音樣本預處理:對語音樣本進行預加重,然后對預加重后的語音樣本的時域信號進行分幀;
[0012]步驟二,語音情感特征提取:提取經(jīng)步驟一處理后的每個語音樣本中的語音情感特征,按照提取方式的不同分為能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)(MelFrequency Cepstrum Coefficient,簡稱MFCC)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量,其中統(tǒng)計特征包括一個語段的各幀中相應特征的最大值、最小值、均值、中值、標準差和范圍;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量;
[0013]步驟三,特征篩選:對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量;
[0014]步驟四,基于核半監(jiān)督判別分析KSDA的特征維數(shù)約簡:對經(jīng)步驟三特征篩選后得到的訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, χΝ]使用KSDA對X進行維數(shù)約簡訓練,生成核方法的降維映射陣A,同時求解得到X的低維樣本集ATK,Gram陣K選用Gauss核函數(shù);
[0015]步驟五,訓練兩類SVM分類器:對訓練樣本中的N個分屬于N。個種類的語音樣本,取每兩類組合訓練得到I個兩類SVM分類器,共得到N。(Nc-1) /2個兩類SVM分類器;
[0016]步驟六,測試:利用經(jīng)步驟五訓練完成的SVM分類器每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟:
[0017](I)對經(jīng)步驟三得到的每個測試樣本的特征篩選后語音情感特征向量使用核方法的降維映射陣A進行維數(shù)約簡,得到Χ'1經(jīng)過維數(shù)約簡后的低維樣本為ΑτΚρ對于一個
測試樣本
【權利要求】
1.一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:將語音情感數(shù)據(jù)庫中若干個語音樣本任意劃分為訓練樣本集和測試樣本集,包括順序執(zhí)行的以下步驟: 步驟一,語音樣本預處理:對語音樣本進行預加重,然后對預加重后的語音樣本的時域信號進行分幀; 步驟二,語音情感特征提取:提取經(jīng)步驟一處理后的每個語音樣本中的語音情感特征,按照提取方式的不同分為能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量; 步驟三,特征篩選:對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量; 步驟四,基于KSDA的特征維數(shù)約簡:對經(jīng)步驟三特征篩選后得到的訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, xN]使用KSDA對X進行維數(shù)約簡訓練,生成核方法的降維映射陣A,同時求解得到X的低維樣本集ATK, Gram陣K選用Gauss核函數(shù); 步驟五,訓練兩類SVM分類器:假設訓練樣本集中有N個分屬于N。個種類的語音樣本,在訓練樣本集中任取兩個種類的語音樣本,進行組合訓練得到I個兩類SVM分類器,共得到Nc (Nc-1) /2個兩類SVM分類器; 步驟六,測試:利用經(jīng)步驟五訓練完成的SVM分類器每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟: (1)對經(jīng)步驟三得到的每個測試樣本Xfif的特征篩選后語音情感特征向量使用核方法的降維映射陣A進行維數(shù)約簡,得到xitest經(jīng)過維數(shù)約簡后的低維樣本為ATKi對于一個測試樣本
2.根據(jù)權利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟二中原始語音情感特征向量中的語音情感特征分布如下: 1-80維:能量序列的統(tǒng)計特征和一階、二階抖動;能量一階、二階差分序列的統(tǒng)計特征;三個不同頻帶內的能量序列及其一階、二階差分序列分別的統(tǒng)計特征;三個不同頻帶內能量序列的一階、二階抖動; 81-101維:基音序列的統(tǒng)計特征和一階、二階抖動;基音一階、二階差分序列的統(tǒng)計特征;基首序列斜率;102-121維:過零率序列及其一階、二階差分序列的統(tǒng)計特征; 122-130維:濁音幀數(shù)與清音幀數(shù)的比;濁音段數(shù)與清音段數(shù)的比;濁、清音最長段的幀數(shù);濁、清音幀數(shù)和段數(shù);語速; 131-250維:共振峰頻率序列、帶寬序列及其一階、二階差分序列的統(tǒng)計特征;共振峰頻率序列的一階、二階抖動; 251-406維:MFCC及其一階差分序列的統(tǒng)計特征; 其中統(tǒng)計特征包括一個語段的各幀中相應特征的最大值、最小值、均值、中值、標準差和范圍。
3.根據(jù)權利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟二中的規(guī)整化處理的方法如下: 規(guī)整化前的所有語音樣本中的任一樣本為x(°),其中N個訓練樣本組成的訓練樣本集為 Xw ?'xf》,,.,,#)],設為jf)的第 j 個特征元素(i = I, 2,..., N); 對于任一語音樣本x(°),特征j對應元素Λ:的規(guī)整化處理的計算公式為:
4.根據(jù)權利要求3所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟三中所述特征篩選的方法如下: 任一語音樣本規(guī)整化語音情感特征向量yl] =中屬于特征j的FDR值的計算公式為: 其中,Mv/、分別為訓練樣本的規(guī)整化語音情感特征向量集χα)中特征j分屬于C1, Ck類樣本的均值,S;s1、《丨分別為訓練樣本的規(guī)整化語音情感特征向量集Χω中特征j分屬于Cl、Ck類樣本的方差,Nc為情感的類數(shù);去除100~150個較小J(j)值對應的特征j,得到訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, xN]和每個測試樣本的特征篩選后語音情感特征向量D
5.根據(jù)權利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:維數(shù)約簡訓練時,KSDA的圖嵌入的優(yōu)化形式為:
6.根據(jù)權利要求5所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:所述5折交叉驗證的方法為: 將訓練樣本集平均分為五份子集,每次交叉驗證時將訓練樣本集中的四份子集合并劃分為驗證訓練樣本集,取剩下的一份子集作為驗證測試樣本集,用于對驗證訓練樣本集進行測試,依次經(jīng)過步驟四、步驟五和步驟六對于5折交叉驗證中所有5種分割情況進行訓練和測試,得到所取的每個權重參數(shù)τ值對應的驗證測試樣 本集中的語音樣本的平均識別率,反向驗證得到較優(yōu)識別率對應的權重參數(shù)τ。
【文檔編號】G10L25/63GK103544963SQ201310549224
【公開日】2014年1月29日 申請日期:2013年11月7日 優(yōu)先權日:2013年11月7日
【發(fā)明者】鄭文明, 徐新洲, 趙力, 魏昕, 余華, 黃程韋, 劉健剛 申請人:東南大學