国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng)的制作方法

      文檔序號(hào):2833361閱讀:556來(lái)源:國(guó)知局
      專(zhuān)利名稱:非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng)。
      背景技術(shù)
      語(yǔ)音情感識(shí)別技術(shù)的發(fā)展對(duì)推動(dòng)智能化、人性化的新型人機(jī)交互技術(shù)的發(fā)展和應(yīng)用具有重要的作用,如何使用計(jì)算機(jī)技術(shù)從語(yǔ)音中自動(dòng)識(shí)別說(shuō)話人的情感狀態(tài)近年來(lái)受到各領(lǐng)域研究者的廣泛關(guān)注。現(xiàn)有的語(yǔ)音情感識(shí)別研究,還存在較多局限性,尤其 是語(yǔ)音情感特征參數(shù)在情感空間的分布會(huì)隨著說(shuō)話人的變化而變化,情感識(shí)別的準(zhǔn)確率受說(shuō)話人變化的影響較大,從而導(dǎo)致當(dāng)待識(shí)別語(yǔ)音的說(shuō)話人不在訓(xùn)練庫(kù)中時(shí),情感識(shí)別率會(huì)急劇下降,限制了語(yǔ)音情感識(shí)別在自然環(huán)境下的實(shí)際應(yīng)用。目前,消除聲學(xué)情感特征中說(shuō)話人個(gè)性化因素最常用的方法是采用說(shuō)話人的中性情感語(yǔ)音特征對(duì)情感特征參數(shù)進(jìn)行歸一化,如東南大學(xué)的趙力教授和浙江大學(xué)的謝波博士均采用將情感特征與說(shuō)話人處于平靜時(shí)的相應(yīng)情感特征作差值運(yùn)算的方法對(duì)情感特征進(jìn)行歸一化。這種采用中性情感語(yǔ)音特征對(duì)情感特征參數(shù)進(jìn)行歸一化的方法雖然能夠在一定程度上消除說(shuō)話人個(gè)性化說(shuō)話特征的影響,但是必須要求待識(shí)別語(yǔ)音的說(shuō)話人在識(shí)別前至少錄制一句中性情感語(yǔ)句,這種要求在一定程度上限制了語(yǔ)音情感識(shí)別的實(shí)際應(yīng)用。Vidhyasaharan Sethu等人提出了將所有的情感特征映射到同一種概率分布(正態(tài)分布)上,以此消除說(shuō)話人個(gè)人說(shuō)話特征對(duì)情感特征的分布帶來(lái)的干擾,但將所有說(shuō)話人的情感特征映射到正態(tài)分布是否能夠有效地消除說(shuō)話人個(gè)人說(shuō)話特點(diǎn)的干擾且不丟失其中的情感信息,還缺乏理論的分析。有鑒于此,有必要提供一種非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng)以解決上述問(wèn)題。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于克服現(xiàn)有語(yǔ)音情感識(shí)別方法的語(yǔ)音情感識(shí)別率容易受說(shuō)話人變化影響的缺點(diǎn),充分利用情感副語(yǔ)言受說(shuō)話人變化干擾較小的特點(diǎn),提供一種情感副語(yǔ)言輔助的非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng)。實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是—種非特定人語(yǔ)音情感識(shí)別方法,包括SI.提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征,輸入情感副語(yǔ)言識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感副語(yǔ)言,并根據(jù)情感副語(yǔ)言與情感類(lèi)別之間的對(duì)應(yīng)關(guān)系,推測(cè)出基于情感副語(yǔ)言的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S2.提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征,輸入基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型,得出基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;S3.對(duì)所述基于情感副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的語(yǔ)言情感識(shí)別通道的識(shí)別結(jié)果進(jìn)行融合,得出待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟SI之前還包括下列步驟S01.建立基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道,包括S011.建立情感語(yǔ)料庫(kù),使其中語(yǔ)音信號(hào)樣本涉及的情感中的每種情感至少有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料包含所述情感副語(yǔ)言;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; S012.對(duì)所述語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè);S013.在所述語(yǔ)音信號(hào)中提取所述識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征;S014.訓(xùn)練情感副語(yǔ)言識(shí)別模型;S015.建立基于情感副語(yǔ)言的語(yǔ)音情感狀態(tài)識(shí)別模型,基于情感副語(yǔ)言的語(yǔ)音情感狀態(tài)識(shí)別模型中包括情感副語(yǔ)言識(shí)別模型集和情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,用于識(shí)別情感副語(yǔ)言,以及情感副語(yǔ)言所對(duì)應(yīng)的情感類(lèi)別和該情感類(lèi)別的置信度,并得到所述基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,所述情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系具體為“笑聲”對(duì)應(yīng)“高興”情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怒”情感類(lèi)別;S02.建立基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別通道,包括S021.采用SOll所錄制的情感語(yǔ)料庫(kù);S022.對(duì)所述語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè);S023.在所述語(yǔ)音信號(hào)中提取聲學(xué)語(yǔ)音情感特征;S024.訓(xùn)練基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型;S025.建立基于聲學(xué)語(yǔ)音情感特征的的情感狀態(tài)識(shí)別模型,用于根據(jù)聲學(xué)語(yǔ)音情感特征識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別和該情感類(lèi)別的置信度,并得到所述基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。作為本發(fā)明的進(jìn)一步改進(jìn),所述識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征包括語(yǔ)音的短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些特征的最大值、最小值以及變化范圍;所述聲學(xué)語(yǔ)音情感特征包括,包括短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及所述聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍;作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟SI具體包括Sll.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè);S12.從所述待識(shí)別語(yǔ)音信號(hào)樣本中提取識(shí)別情感副語(yǔ)音所用的語(yǔ)音特征,包括提取短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語(yǔ)音特征的最大值、最小值以及變化范圍;S13.將提取的所述語(yǔ)音特征輸入所述基于情感副語(yǔ)言的情感狀態(tài)模型,通過(guò)情感副語(yǔ)言識(shí)別模型集識(shí)別,得到待識(shí)別語(yǔ)音信號(hào)樣本中包含的情感副語(yǔ)言及其置信度;通過(guò)所述情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,得到所述情感副語(yǔ)言對(duì)應(yīng)的情感類(lèi)別及該情感類(lèi)別的置信度,并進(jìn)一步得到所述基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道的識(shí)別結(jié)果O作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟S2具體包括S21.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè);
      S22.從所述的待識(shí)別語(yǔ)音信號(hào)樣本中的提取聲學(xué)語(yǔ)音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍;S23.將提取的所述聲學(xué)語(yǔ)音情感特征輸入所述基于聲學(xué)語(yǔ)音情感特征的情感狀態(tài)識(shí)別模型,得到所述語(yǔ)音信號(hào)所包含的情感類(lèi)別及該情感類(lèi)別的置信度,即得到所述基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別通道的識(shí)別結(jié)果。作為本發(fā)明的進(jìn)一步改進(jìn),所述情感副語(yǔ)言識(shí)別模型采用支持向量機(jī)、高斯混合模型或隱馬爾科夫模型;所述基于聲學(xué)語(yǔ)音情感特征的情感語(yǔ)言識(shí)別模型采用支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。相應(yīng)地,一種非特定人語(yǔ)音情感識(shí)別系統(tǒng),包括識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征提取單元用于提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征,輸入情感副語(yǔ)言識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感副語(yǔ)言,并根據(jù)情感副語(yǔ)言與情感類(lèi)別之間的對(duì)應(yīng)關(guān)系,推測(cè)出基于情感副語(yǔ)言的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;所述識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征包括語(yǔ)音的短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語(yǔ)音特征的最大值、最小值以及變化范圍;聲學(xué)語(yǔ)音情感特征提取單元用于提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征,輸入基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感狀態(tài),即得出基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;融合單元用于對(duì)所述基于情感副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果進(jìn)行融合,得出待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述非特定人語(yǔ)音情感識(shí)別系統(tǒng)還包括基于情感副語(yǔ)言的情感識(shí)別通道,其中包括情感語(yǔ)料庫(kù),語(yǔ)音信號(hào)樣本涉及的情感中的每種情感至少有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料包含至少一種所述情感副語(yǔ)言;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征提取單元,用于在所述語(yǔ)音信號(hào)中提取所述識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征;情感副語(yǔ)言識(shí)別模型訓(xùn)練單元,用于訓(xùn)練情感副語(yǔ)言識(shí)別模型;基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型,包括情感副語(yǔ)言識(shí)別模型集和情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,所述情感類(lèi)別包括高興、悲傷、害怕、厭惡、驚訝和憤怒六類(lèi)情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怕、驚訝、厭惡、憤怒,所述副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系具體為“笑聲”對(duì)應(yīng)“高興”情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆 息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怒”情感類(lèi)別;基于聲學(xué)情感特征的情感狀態(tài)識(shí)別通道,包括情感語(yǔ)料庫(kù),采用基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道的情感語(yǔ)料庫(kù);聲學(xué)語(yǔ)音情感特征提取單元,用于在所述語(yǔ)音信號(hào)中提取聲學(xué)語(yǔ)音情感特征;基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型訓(xùn)練單元,用于訓(xùn)練基于聲學(xué)情感特征的情感識(shí)別模型;基于聲學(xué)語(yǔ)音情感特征的情感狀態(tài)識(shí)別模型,用于根據(jù)聲學(xué)語(yǔ)音情感特征識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別和該情感類(lèi)別的置信度,即得到所述基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡和憤怒;融合單元,用于融合所述基于情感副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別的識(shí)別結(jié)果,得出情感語(yǔ)音信號(hào)樣本所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述基于情感副語(yǔ)言的情感識(shí)別通道訓(xùn)練單元中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型;所述基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別訓(xùn)練單元中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征提取單元和聲學(xué)語(yǔ)音情感特征提取單元之前設(shè)有預(yù)處理單元,預(yù)處理單元用于對(duì)情感語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè);作為本發(fā)明的進(jìn)一步改進(jìn),所述識(shí)別情感副語(yǔ)言的語(yǔ)音特征包括提取短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語(yǔ)音特征的最大值、最小值以及變化范圍;所述聲學(xué)語(yǔ)音情感特征包括提取美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)、共振峰,以及所述聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍。本發(fā)明的有益效果是克服了傳統(tǒng)語(yǔ)音情感特征易受說(shuō)話人變化干擾的不足,充分利用情感副語(yǔ)言受說(shuō)話人變化的影響比較小的特點(diǎn),從情感語(yǔ)音信號(hào)中提取反應(yīng)情感信息的情感副語(yǔ)言,用情感副語(yǔ)言包含的情感信息來(lái)輔助傳統(tǒng)的聲學(xué)語(yǔ)音情感特征進(jìn)行情感識(shí)別,從而達(dá)到提高語(yǔ)音情感識(shí)別魯棒性和識(shí)別率的目的。


      圖I為本發(fā)明一實(shí)施例中非特定人語(yǔ)音情感識(shí)別方法的流程圖。圖2為圖I中步驟SI的具體流程圖。圖3為圖I中步驟S2的具體流程圖。圖4為本發(fā)明非特定人語(yǔ)音情感識(shí)別方法的框架圖。圖5為本發(fā)明非特定人語(yǔ)音情感識(shí)別系統(tǒng)的示意圖。
      具體實(shí)施方式
      為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。參圖I所示為本發(fā)明非特定人語(yǔ)音情感識(shí)別方法的流程圖。該方法包括SI.提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征,輸入情感副語(yǔ)言識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感副語(yǔ)言,并根據(jù)情感副語(yǔ)言與情感類(lèi)別之間的對(duì)應(yīng)關(guān)系,推測(cè)出基于情感副語(yǔ)言的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S2.提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征,輸入基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型,得出基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;S3.對(duì)基于情感副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果進(jìn)行融合,得出待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。優(yōu)選地,在步驟SI之前還包括下列步驟S01.建立基于情感副語(yǔ)言的情感識(shí)別通道,包括S011.建立情感語(yǔ)料庫(kù),使其中語(yǔ)音信號(hào)樣本涉及的情感中的每種情感至少有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料至少包含一種情感副語(yǔ)言;情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S012.對(duì)語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè);S013在預(yù)處理后的語(yǔ)音信號(hào)中提取識(shí)別情感副語(yǔ)言的語(yǔ)音特征;S014.訓(xùn)練情感副語(yǔ)言識(shí)別模型;S015.建立基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型,基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型中包括情感副語(yǔ)言識(shí)別模型集和情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,用于識(shí)別情感副語(yǔ)言,以及情感副語(yǔ)言所對(duì)應(yīng)的情感類(lèi)別和該情感類(lèi)別的置信度,并得到基于情感副語(yǔ)言煩人情感識(shí)別通道識(shí)別結(jié)果;情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系具體為“笑聲”對(duì)應(yīng)“高興”情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怒”情感類(lèi)別;
      S02.建立基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道,包括S021.采用SOll中所建立的情感語(yǔ)料庫(kù);S022.對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè);S023.在經(jīng)過(guò)預(yù)處理后的語(yǔ)音信號(hào)中提取聲學(xué)語(yǔ)音情感特征;S024.訓(xùn)練基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型;S025.建立基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別模型,用于根據(jù)聲學(xué)情感特征,識(shí)別語(yǔ)音信號(hào)中所包含的情感類(lèi)別和該情感類(lèi)別的置信度,即得到基于聲學(xué)語(yǔ)音情感特 征的情感識(shí)別通道識(shí)別結(jié)果;情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。本發(fā)明中的識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征包括語(yǔ)音的短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語(yǔ)音特征的最大值、最小值以及變化范圍;聲學(xué)語(yǔ)音情感特征包括,包括短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及這些聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍;其中,參圖2所示,步驟SI具體包括Sll.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè);S12.從待識(shí)別語(yǔ)音信號(hào)樣本中提取識(shí)別情感副語(yǔ)音所采用的語(yǔ)音特征,包括提取短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語(yǔ)音特征的最大值、最小值以及變化范圍;S13.將提取的語(yǔ)音特征輸入基于情感副語(yǔ)言的情感狀態(tài)模型,通過(guò)情感副語(yǔ)言識(shí)別模型集識(shí)別,得到待識(shí)別語(yǔ)音信號(hào)樣本中包含的情感副語(yǔ)言及其置信度;通過(guò)情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型識(shí)別,得到情感副語(yǔ)言對(duì)應(yīng)的情感類(lèi)別及該情感類(lèi)別的置信度,即得到基于情感副語(yǔ)言的情感識(shí)別通道的識(shí)別結(jié)果。參圖3所示,步驟S2具體包括S21.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè);S22.從的待識(shí)別語(yǔ)音信號(hào)樣本中的提取聲學(xué)語(yǔ)音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍;S23.將提取的聲學(xué)語(yǔ)音情感特征輸入基于聲學(xué)語(yǔ)音情感特征的情感狀態(tài)識(shí)別模型,得到待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別及該情感類(lèi)別的置信度,即得到基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果。本發(fā)明通過(guò)提取情感語(yǔ)料中的情感副語(yǔ)言來(lái)輔助傳統(tǒng)聲學(xué)語(yǔ)音情感特征進(jìn)行情感語(yǔ)料中情感狀態(tài)的識(shí)別,為語(yǔ)音情感識(shí)別提供更多的說(shuō)話人魯棒的語(yǔ)音情感信息,最終提高語(yǔ)音情感識(shí)別方法對(duì)說(shuō)話人變化的魯棒性。本發(fā)明中的情感副語(yǔ)言屬于狹義副語(yǔ)言范疇,內(nèi)容包括伴隨語(yǔ)音的某些聲音現(xiàn)象,如哭聲、笑聲、嘆息聲等。情感語(yǔ)料庫(kù)中錄制了涵蓋日常生活中常用的情感副語(yǔ)音,如哭聲、笑聲、嘆息聲、喘息聲、質(zhì)疑聲以及叫喊聲等。語(yǔ)料庫(kù)包含六類(lèi)情感,分別為高興、傷心、驚奇、生氣、害怕、厭惡。根據(jù)語(yǔ)境自然的嵌入情感副預(yù)言,如高興常伴有笑聲,傷心常伴有哭聲等。每種情感有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料都易于加入相應(yīng)的情感,使得錄制者較易進(jìn)入情感狀態(tài)。所有腳本內(nèi)容不同,且包含較豐富的情感副語(yǔ)言如哭聲、笑聲、嘆息聲等。優(yōu)選地,情感語(yǔ)料庫(kù)由五個(gè)男生六個(gè)女生在專(zhuān)業(yè)的錄音室錄制而成,采樣率為11025Hz,樣本均保存為wav格式。采集好情感語(yǔ)料后,本發(fā)明的具體實(shí)施分為訓(xùn)練、識(shí)別和融合三個(gè)階段,結(jié)合圖4所示,分別從訓(xùn)練、識(shí)別和融合三個(gè)階段作進(jìn)一步說(shuō)明。一、訓(xùn)練階段I、對(duì)情感語(yǔ)音信號(hào)進(jìn)行預(yù)處理這一步是采用傳統(tǒng)的語(yǔ)音信號(hào)預(yù)處理方法對(duì)情感語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè)。2、識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征的提取和情感副語(yǔ)言識(shí)別模型的訓(xùn)練 2. I提取識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征,包括短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)(前12個(gè)系數(shù))、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些特征的最大值、最小值以及變化范圍等統(tǒng)計(jì)特征。2. 2對(duì)情感副語(yǔ)言識(shí)別模型進(jìn)行訓(xùn)練,這里的識(shí)別模型可采用諸如SVM(SupportVector Machine 支持向量機(jī))、GMM(Gaussian Mixture Model 高斯混合模型)以及HMM(Hidden Markov Model隱馬爾科夫模型)之類(lèi)的各種統(tǒng)計(jì)模型。3、傳統(tǒng)的聲學(xué)語(yǔ)音情感特征的提取和基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型的訓(xùn)練3. I提取包括美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)以及共振峰等語(yǔ)音的聲學(xué)語(yǔ)音情感特征,并在情感語(yǔ)段上分別提取這些特征的最大值、最小值以及變化范圍等統(tǒng)計(jì)特征。3. 2對(duì)基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型進(jìn)行訓(xùn)練,這里的識(shí)別模型可采用諸如SVM、GMM以及HMM之類(lèi)的各種統(tǒng)計(jì)模型,方法與本階段第2. 2步相同。二、識(shí)別階段識(shí)別階段是將待識(shí)別的情感語(yǔ)音信號(hào)輸入第一階段訓(xùn)練好的模型,計(jì)算得出該情感語(yǔ)音信號(hào)在每個(gè)通道的情感狀態(tài)識(shí)別結(jié)果,分三步實(shí)施。I、對(duì)情感語(yǔ)音信號(hào)進(jìn)行預(yù)處理,所采用的方法同訓(xùn)練階段的第I步。2、待識(shí)別情感語(yǔ)音信號(hào)中識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征的提取和基于情感副語(yǔ)目的語(yǔ)首情感識(shí)別。2. I提取待識(shí)別情感語(yǔ)料中識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征,所采用的方法同訓(xùn)練階段的2. I步。2. 2識(shí)別待識(shí)別情感語(yǔ)料中所包含的情感副語(yǔ)言。將本階段2. I步所提取的待識(shí)別語(yǔ)料中識(shí)別情感副語(yǔ)言所采用的語(yǔ)音特征輸入第一階段2. 2步已經(jīng)訓(xùn)練好的情感副語(yǔ)言識(shí)別模型,計(jì)算得出該待識(shí)別情感語(yǔ)音信號(hào)所包含的情感副語(yǔ)目。2. 3建立情感副語(yǔ)言的語(yǔ)音情感狀態(tài)之間的映射關(guān)系,并將此時(shí)情感副語(yǔ)言識(shí)別的置信度作為相應(yīng)的情感狀態(tài)的置信度。建立情感副語(yǔ)言與情感狀態(tài)之間的映射關(guān)系如下若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“笑聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“高興”情感狀態(tài);
      若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“傷心的哭聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“悲傷”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“害怕的哭聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“害怕”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“質(zhì)疑聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“驚訝”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“急促的喘息聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“害怕”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“無(wú)奈的嘆息聲”,則推斷該情感 語(yǔ)音信號(hào)所反映的是“厭惡”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“哀怨的嘆息聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“悲傷”情感狀態(tài);若識(shí)別出待識(shí)別情感語(yǔ)音信號(hào)中的情感副語(yǔ)言為“叫喊聲”,則推斷該情感語(yǔ)音信號(hào)所反映的是“憤怒”情感狀態(tài)。3、提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征并采用所提取的聲學(xué)語(yǔ)音情感特征識(shí)別待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。3. I待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征的提取,所采用的提取方法同訓(xùn)練階段的3. I步。3. 2將本階段3. I步所提取的待識(shí)別語(yǔ)料的聲學(xué)語(yǔ)音情感特征輸入第一階段3. 2步已經(jīng)訓(xùn)練好的基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型,得出該待識(shí)別情感語(yǔ)音信號(hào)所屬的情感狀態(tài)。其中,在步驟2. 2和3. 2中的基于SVM模型概率置信度計(jì)算方法如下優(yōu)選地,本發(fā)明使用‘一對(duì)一’ SVM模型進(jìn)行分類(lèi)識(shí)別,SVM決策是采用投票機(jī)制的,對(duì)于N個(gè)模型,相當(dāng)于有N* (N-1)個(gè)專(zhuān)家進(jìn)行投票,每個(gè)情感類(lèi)別均有一個(gè)概率,概率最高者被選為最終識(shí)別結(jié)果。算法所用的基于SVM的置信度由兩部分組成I、計(jì)算待測(cè)樣本到分類(lèi)決策面距離,距離大于一定閾值時(shí),即決策函數(shù)值大于一定的閾值時(shí),取這N*(N-I)個(gè)決策距離的平均值。我們接受投票即認(rèn)為專(zhuān)家投票是有效的,否則認(rèn)為無(wú)效不計(jì)入總票數(shù)。對(duì)于類(lèi)別i,其得到的有效票數(shù)為V,而其可信投票數(shù)為V,則類(lèi)別i對(duì)應(yīng)的概率置信度為conf (i)=v/V。2、計(jì)算情感概率之間的分辨率,對(duì)N個(gè)情感類(lèi)別,每個(gè)待識(shí)別樣本經(jīng)模型識(shí)別后得出對(duì)應(yīng)的該樣本屬于N個(gè)情感概率,記為P1, P2,. . . Pn,則輸出概率Pi的分辨率為該輸出概率與其余所有輸出概率的平均值之差,其計(jì)算方法如公式(I)所示
      權(quán)利要求
      1.一種非特定人語(yǔ)音情感識(shí)別方法,其特征在于,所述方法包括 51.提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征,輸入情感副語(yǔ)言識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感副語(yǔ)言,并根據(jù)情感副語(yǔ)言與情感類(lèi)別之間的對(duì)應(yīng)關(guān)系,推測(cè)出副語(yǔ)言情感識(shí)別通道的情感識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 52.提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)情感特征,輸入基于聲學(xué)情感特征的語(yǔ)音情感識(shí)別模型,得出基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別以及相應(yīng)的概率; 53.對(duì)所述基于副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果進(jìn)行融合,得出待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。
      2.據(jù)根權(quán)利要求I所述的非特定人語(yǔ)音情感識(shí)別方法,其特征在于,所述步驟SI之前還包括下列步驟 501.建立基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道,包括 5011.建立情感語(yǔ)料庫(kù),使其中語(yǔ)音信號(hào)樣本涉及的情感中的每種情感至少有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料包含至少一種或多種所述情感副語(yǔ)言;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 5012.對(duì)所述語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè); 5013.在所述語(yǔ)音信號(hào)樣本中提取用于識(shí)別所述情感副語(yǔ)言的語(yǔ)音特征; 5014.訓(xùn)練情感副語(yǔ)言識(shí)別模型; 5015.建立基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型,基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型中包括情感副語(yǔ)言識(shí)別模型集和情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,用于識(shí)別情感副語(yǔ)言,以及情感副語(yǔ)言所對(duì)應(yīng)的情感類(lèi)別和該情感類(lèi)別的置信度,并得到所述基于副語(yǔ)言的語(yǔ)音情感識(shí)別通道的識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,所述情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系具體為“笑聲”對(duì)應(yīng)“高興”情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怒”情感類(lèi)別; 502.建立基于聲學(xué)情感特征的語(yǔ)音情感識(shí)別通道,包括 5021.采用SOll所建立的情感語(yǔ)料庫(kù); 5022.對(duì)所述語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測(cè); 5023.對(duì)預(yù)處理后的語(yǔ)音信號(hào)提取聲學(xué)語(yǔ)音情感特征; 5024.訓(xùn)練基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型; 5025.建立基于聲學(xué)語(yǔ)音情感特征的情感狀態(tài)識(shí)別模型,當(dāng)待識(shí)別語(yǔ)音信號(hào)經(jīng)過(guò)訓(xùn)練好的基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型,得到所述基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。
      3.根據(jù)權(quán)利要求I或2所述的非特定人語(yǔ)音情感識(shí)別方法,其特征在于, 所述識(shí)別情感副語(yǔ)言所用的語(yǔ)音特征包括語(yǔ)音的短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語(yǔ)音特征的最大值、最小值以及變化范圍; 所述聲學(xué)語(yǔ)音情感特征包括,包括短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及所述傳統(tǒng)語(yǔ)言語(yǔ)音特征的最大值、最小值以及變化范圍。
      4.根據(jù)權(quán)利要求2所述的非特定人語(yǔ)音情感識(shí)別方法,其特征在于, 所述步驟SI具體包括 511.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè); 512.從所述待識(shí)別語(yǔ)音信號(hào)樣本中提取識(shí)別情感副語(yǔ)音所用的語(yǔ)音特征,包括提取短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語(yǔ)音特征的最大值、最小值以及變化范圍; 513.將提取的所述語(yǔ)音特征輸入所述基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型,通過(guò)副語(yǔ)言識(shí)別模型集識(shí)別,得到待識(shí)別語(yǔ)音信號(hào)樣本中包含的情感副語(yǔ)言及其置信度;通過(guò)所述情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型識(shí)別,得到待識(shí)別語(yǔ)音信號(hào)所包含的情感類(lèi)別及該情感類(lèi)別的置信度,即得到待識(shí)別語(yǔ)音信號(hào)在所述的基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道的識(shí)別結(jié)果。
      5.根據(jù)權(quán)利要求2所述的非特定人語(yǔ)音情感識(shí)別方法,其特征在于, 所述步驟S2具體包括 521.對(duì)待識(shí)別語(yǔ)音信號(hào)樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測(cè); 522.從所述的待識(shí)別語(yǔ)音信號(hào)樣本中的提取聲學(xué)語(yǔ)音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)情感特征的最大值、最小值以及變化范圍; 523.將提取的所述聲學(xué)語(yǔ)音情感特征輸入所述基于聲學(xué)情感特征的語(yǔ)音情感狀態(tài)識(shí)別模型,得到語(yǔ)音信號(hào)所包含的情感類(lèi)別及該情感類(lèi)別的置信度,即得到所述基于聲學(xué)情感特征的語(yǔ)音情感識(shí)別通道的識(shí)別結(jié)果。
      6.根據(jù)權(quán)利要求2所述的非特定人語(yǔ)音情感識(shí)別方法,其特征在于, 所述訓(xùn)練情感副語(yǔ)言識(shí)別模型中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型等統(tǒng)計(jì)模型; 所述訓(xùn)練基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別模型中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型等統(tǒng)計(jì)模型。
      7.一種非特定人語(yǔ)音情感識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括 基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道,其中包括 情感語(yǔ)料庫(kù),語(yǔ)音信號(hào)樣本涉及的情感中的每種情感至少有15個(gè)語(yǔ)料,每個(gè)語(yǔ)料包含至少一種所述情感副語(yǔ)言;所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征提取單元用于提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征,再輸入情感副語(yǔ)言識(shí)別模型,得出待識(shí)別語(yǔ)音信號(hào)所包含的情感副語(yǔ)言及其概率。所述情感副語(yǔ)言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無(wú)奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;所述的用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征包括語(yǔ)音的短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語(yǔ)音特征的最大值、最小值以及變化范圍; 情感副語(yǔ)言識(shí)別模型訓(xùn)練單元,用于訓(xùn)練情感副語(yǔ)言識(shí)別模型; 基于情感副語(yǔ)言的情感狀態(tài)識(shí)別模型,包括情感副語(yǔ)言識(shí)別模型集和情感副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系模型,所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、憤怒、厭惡六類(lèi)情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怕、驚訝、厭惡、憤怒,所述副語(yǔ)言與情感類(lèi)別之間的映射關(guān)系具體為“笑聲”對(duì)應(yīng)“高興”情感類(lèi)別,“傷心的哭聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“害怕的哭聲”對(duì)應(yīng)“害怕”情感類(lèi)別,“質(zhì)疑聲”對(duì)應(yīng)“驚訝”情感類(lèi)別,“急促的喘息聲”,對(duì)應(yīng)“害怕”情感類(lèi)別,“無(wú)奈的嘆息聲”對(duì)應(yīng)“厭惡”情感類(lèi)別,“哀怨的嘆息聲”對(duì)應(yīng)“悲傷”情感類(lèi)別,“叫喊聲”對(duì)應(yīng)“憤怒”情感類(lèi)別; 基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別通道,包括 情感語(yǔ)料庫(kù)采用基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道中所錄制的情感語(yǔ)料庫(kù); 聲學(xué)語(yǔ)音情感特征提取單元用于提取待識(shí)別情感語(yǔ)音信號(hào)中的聲學(xué)語(yǔ)音情感特征,所述的聲學(xué)語(yǔ)音情感特征包括短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述聲學(xué)語(yǔ)音特征的最大值、最小值以及變化范圍; 傳統(tǒng)語(yǔ)言識(shí)別模型訓(xùn)練單元,用于訓(xùn)練傳統(tǒng)語(yǔ)言識(shí)別模型; 基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感狀態(tài)識(shí)別模型,該模型根據(jù)聲學(xué)語(yǔ)音情感特征,識(shí)別情感語(yǔ)料中所包含的情感類(lèi)別,并得到該情感類(lèi)別的置信度,即得到所述基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別通道識(shí)別結(jié)果;所述情感類(lèi)別包括高興、悲傷、害怕、驚訝、厭惡和憤怒; 融合單元,用于融合所述基于情感副語(yǔ)言的語(yǔ)音情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的語(yǔ)音情感識(shí)別通道的情感識(shí)別結(jié)果,得出情感語(yǔ)音信號(hào)樣本所包含的情感狀態(tài)。
      8.根據(jù)權(quán)利要求6所述的非特定人語(yǔ)音情感識(shí)別系統(tǒng),其特征在于, 所述副語(yǔ)言通道中,采用的統(tǒng)計(jì)模型為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型; 所述聲學(xué)語(yǔ)音情感特征通道中,采用的統(tǒng)計(jì)模型為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。
      9.根據(jù)權(quán)利要求6所述的非特定人語(yǔ)音情感識(shí)別系統(tǒng),其特征在于, 所述識(shí)別情感副語(yǔ)言的語(yǔ)音特征提取單元和聲學(xué)語(yǔ)音情感特征提取單元之前設(shè)有預(yù)處理單元,包括分巾貞、加窗和端點(diǎn)檢測(cè)。
      10.根據(jù)權(quán)利要求6所述的非特定人語(yǔ)音情感識(shí)別系統(tǒng),其特征在于,所述提取識(shí)別情感副語(yǔ)言的語(yǔ)音特征包括提取短時(shí)能量、過(guò)零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語(yǔ)音特征的最大值、最小值以及變化范圍; 所述提取聲學(xué)語(yǔ)音情感特征包括提取美爾倒譜系數(shù)、基頻、時(shí)長(zhǎng)、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)語(yǔ)音情感特征的最大值、最小值以及變化范圍。
      全文摘要
      本發(fā)明提供了一種非特定人語(yǔ)音情感識(shí)別方法及系統(tǒng),其中該方法包括提取待識(shí)別語(yǔ)音信號(hào)中用于識(shí)別情感副語(yǔ)言的語(yǔ)音特征;提取待識(shí)別情感語(yǔ)音信號(hào)的聲學(xué)語(yǔ)音情感特征;對(duì)所述基于情感副語(yǔ)言的情感識(shí)別通道和基于聲學(xué)語(yǔ)音情感特征的情感識(shí)別通道的識(shí)別結(jié)果進(jìn)行融合,得出待識(shí)別情感語(yǔ)音信號(hào)所包含的情感狀態(tài)。本發(fā)明利用情感副語(yǔ)言特征受說(shuō)話人變化的影響比較小的特點(diǎn),從情感語(yǔ)音信號(hào)中提取反應(yīng)情感信息的情感副語(yǔ)言,用情感副語(yǔ)言包含的情感信息來(lái)輔助傳統(tǒng)的聲學(xué)語(yǔ)音情感特征進(jìn)行情感識(shí)別,從而達(dá)到提高語(yǔ)音情感識(shí)別魯棒性和識(shí)別率的目的。
      文檔編號(hào)G10L15/02GK102881284SQ20121032178
      公開(kāi)日2013年1月16日 申請(qǐng)日期2012年9月3日 優(yōu)先權(quán)日2012年9月3日
      發(fā)明者毛啟容, 趙小蕾, 詹永照, 白李娟, 王治鋒, 楊華宇 申請(qǐng)人:江蘇大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1