動物聲音情緒識別系統(tǒng)及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別技術(shù),尤其涉及一種動物聲音情緒識別系統(tǒng)及其方法。
【背景技術(shù)】
[0002]隨著動物行為學(xué)研究的發(fā)展,人類對動物的情緒表達越發(fā)重視。動物通過聲音和動作等特定行為表達情緒;其中,動物聲音與人類語言類似,可實現(xiàn)同種物種之間的交流。長期以來,人們對動物情緒的感知僅局限于長期的經(jīng)驗總結(jié)和直覺判斷上;如何實時有效地感知動物情緒成為新興的研究方向。隨著機器學(xué)習(xí)與人工智能的發(fā)展,人們可通過機器翻譯技術(shù)進行不同語言的交流,因此,該項技術(shù)使動物聲音情緒識別成為可能。動物聲音情緒識別在動物行為學(xué)研究、寵物叫聲翻譯、動物園應(yīng)急報警等領(lǐng)域具有重要的應(yīng)用價值。1997年MIT媒體實驗室的Rosalind Picard教授提出“情感計算(AffectiveComputing)”的概念,目的是研究和開發(fā)出能夠識別、翻譯、處理和模仿人類情感反應(yīng)的設(shè)備。該領(lǐng)域的一個分支-情感語音(Emot1nal Speech)得到快速發(fā)展,提升了人機交互的情感真實度。但針對動物聲音情緒的研究甚少,英國格拉斯哥大學(xué)的Pascal Belin團隊對貓和猴子叫聲進行分析,并分成積極和消極兩種情緒,情緒維度過少;匈牙利羅蘭大學(xué)的Csaba Molnar等人應(yīng)用機器學(xué)習(xí)的方法對狗的六種不同行為對應(yīng)的叫聲進行分析,識別率偏低;國內(nèi)主要研究基于動物叫聲的物種識別與個體辨認技術(shù),動物聲音情緒資源匱乏,研究進展相對緩慢。
[0003]總體來看,國外對于野外動物聲音識別技術(shù)的研究已取得階段性成果,但相關(guān)技術(shù)細節(jié)均未公開;國內(nèi)尚處于實驗室研究階段,研究對象大多數(shù)仍為常見的家畜,尚未出現(xiàn)一款成型的可以直接使用的動物情緒類聲音識別系統(tǒng)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是針對動物聲音情緒的動物聲音采集與特征參數(shù)的提取、動物聲音特性與人類語音的差異性分析以及聲音的衰減、變異加大識別難度等一系列問題,提供一種動物聲音情緒識別系統(tǒng)及其方法,從而實現(xiàn):
1、基于高斯模型的動物聲音情緒識別技術(shù),掌握動物生活習(xí)性,提出切實有效的動物保護措施;
2、特征組合和模型自增強,提高識別概率。
[0005]本發(fā)明的設(shè)計思路是:
由于存在噪音的干擾,動物聲音信號的采集可能存在誤差,為了提高動物情緒的聲音識別率,設(shè)置Mel帶通濾波器組,進行聲音降噪處理。類比現(xiàn)代語音識別的非特定人語音識別和聲紋識別技術(shù),結(jié)合野生動物聲音特性,設(shè)計基于混合高斯模型的動物聲音識別技術(shù)。同時,考慮到聲音的衰減、變異加大識別難度,將采用高保真音頻采集器,增強聲音信號。
[0006]針對聲音識別的需要,首先建立動物情緒聲音標準數(shù)據(jù)庫,設(shè)定聲音識別基準。針對特定動物,提取相應(yīng)聲音文件,提取梅爾-頻率倒譜系數(shù)、共振峰以及過零率等特征參數(shù),搭建動物聲音的高斯混合模型,進行特征組合;其次,設(shè)計聲音信號采集和處理系統(tǒng),實現(xiàn)動物聲音采集、A/D轉(zhuǎn)換、預(yù)處理和特征參數(shù)提取以及聲音信號的識別;針對聲音識別復(fù)雜的浮點運算需求,選用DSP,對聲音信號進行預(yù)處理、端點檢測、特征參數(shù)提取等操作;預(yù)處理包括抗混疊濾波、模數(shù)變換、分幀和預(yù)加重;端點檢測采用了短時能量和短時平均過零率的VUS算法;另外,由于梅爾-頻率倒譜系數(shù)(Mel-Frequeney Cepstrum- Coeffieient,MFCC)有較好的聲學(xué)特性,故選用作特征提取的參數(shù);最后,設(shè)計無線傳感器網(wǎng)絡(luò),實現(xiàn)模型的自增強,提高識別率;搭建無線傳感器網(wǎng)絡(luò),當(dāng)聲音數(shù)據(jù)與模板庫匹配后得到的匹配概率大于某一閾值時,將聲音數(shù)據(jù)遠程傳輸至服務(wù)器端加入至訓(xùn)練集,實現(xiàn)模型自增強。
[0007]本發(fā)明的技術(shù)方案是:
一、動物聲音情緒識別系統(tǒng)
本系統(tǒng)包括音頻處理裝置、數(shù)據(jù)處理裝置、無線傳輸裝置和電源;
其連接關(guān)系是:
音頻處理裝置、數(shù)據(jù)處理裝置和無線傳輸裝置依次連接;
電源分別與音頻處理裝置和數(shù)據(jù)處理裝置連接。
[0008]二、動物聲音情緒識別方法
本方法包括模型建立、情感識別和模型自增強三個部分。
[0009]①聲音數(shù)據(jù)模板庫和模型的建立
對收集到的國內(nèi)外開放的動物情緒聲音數(shù)據(jù),進行端點檢測提取出梅爾-頻率倒譜系數(shù)、共振峰和過零率三個特征參數(shù),對提取的特征參數(shù)建立高斯混合模型,訓(xùn)練出動物情感聲音的高斯混合模型,建立動物情感聲音數(shù)據(jù)模板庫;
②情緒識別
將采集到的聲音信號通過抗混疊濾波、模數(shù)變換、分幀和預(yù)加重預(yù)處理以及端點檢測,提取出梅爾-頻率倒譜系數(shù)、共振峰和過零率三個特征參數(shù)后,對其進行特征組合,與搭建好的動物情緒聲音的聲學(xué)模型進行匹配得出后驗概率,最后經(jīng)過概率比較得到識別結(jié)果并輸出;
③模型自增強
當(dāng)所采集的情緒聲音信號與某種情緒聲音模型匹配所得到的后驗概率大于設(shè)定的閾值,將該聲音數(shù)據(jù)和匹配結(jié)果更新到已建好的動物情緒聲音數(shù)據(jù)模板庫,不斷訓(xùn)練聲學(xué)模型,實現(xiàn)1?型的自增強,提聞動物聲首情緒的識別率。
[0010]本發(fā)明具有以下優(yōu)點和積極效果:
①提供了一種對聲音信號提取特征參數(shù)并進行建模的技術(shù)方案
對采集到的聲音信號進行一系列的預(yù)處理、端點檢測和特征參數(shù)的提取,針對特定的動物所提取該動物聲音數(shù)據(jù)的MFCC特征參數(shù),建立動物聲音情緒的高斯混合模型,將處理后的聲音數(shù)據(jù)樣本進行模式匹配和分析;
②提供了一種特征組合提高動物聲音情緒識別概率的技術(shù)方案
對所提取的聲音信號的MFCC參數(shù)、共振峰以及過零率等三個特征參數(shù),提出三特征加權(quán)法,將三種情感特征按照相應(yīng)的權(quán)重組合,通過采集的模板聲音數(shù)據(jù)庫進行訓(xùn)練,確定最優(yōu)加權(quán)參數(shù);
③提供了一種應(yīng)用無線傳輸網(wǎng)絡(luò)傳送聲音數(shù)據(jù)實現(xiàn)模型自增強提高識別率的技術(shù)方案應(yīng)用移動無線傳輸網(wǎng)絡(luò),當(dāng)聲音情緒識別所得到的后驗概率大于某一預(yù)設(shè)閾值時,判定該聲音符合模型訓(xùn)練條件,并將聲音數(shù)據(jù)傳送到服務(wù)器端加入到模板聲音數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)庫和動物情緒聲首I旲型的更新和增強,提聞識別率;
④適用于動物園、農(nóng)林部門和野生動物保護部門對動物生活習(xí)性的及時掌控以及保護策略的制訂;還適用于日常家居方便人與寵物之間的互動交流。
【附圖說明】
[0011]圖1是本系統(tǒng)的結(jié)構(gòu)方框圖;
圖2是模型建立和情緒識別的原理說明圖;
圖3是數(shù)據(jù)處理芯片22的工作流程圖;
圖4是模型自增強的流程圖。
[0012]圖中:
10—音頻處理裝置,
11一音頻采集器,12—音頻輸出器,
13—音頻解碼器;
20—數(shù)據(jù)處理裝置,
21—通信接口,22—數(shù)據(jù)處理芯片,
23—閃存存儲器(FLASH ROM),24—隨機存儲器(SDRAM RAM),
25—JTAG仿真接口,26 — HPI主機接口,
27—外部擴展接口 ;
30—無線傳輸裝置;
40 一電源。
【具體實施方式】
[0013]下面結(jié)合附圖和實施詳細說明:
一、系統(tǒng)
1、總體
如圖1,本系統(tǒng)包括音頻處理裝置10、數(shù)據(jù)處理裝置20、無線傳輸裝置30和電源40 ; 其連接關(guān)系是:
音頻處理裝置10、數(shù)據(jù)處理裝置20和無線傳輸裝置30依次連接;
電源40分別與音頻處理裝置10和數(shù)據(jù)處理裝置20連接。
[0014]其工作機理是:
音頻處理裝置10受數(shù)據(jù)處理裝置20的管理和控制,為數(shù)據(jù)處理裝置20提供基礎(chǔ)數(shù)據(jù)資料;
數(shù)據(jù)處理裝置20對音頻處理裝置10和無線傳輸裝置30進行管理和控制;
無線傳輸裝置30的傳輸對象來自于數(shù)據(jù)處理裝置20處理后的數(shù)據(jù),無線傳輸裝置30的傳輸過程受到數(shù)據(jù)處理裝置20的管理和控制;
音頻處理裝置10、數(shù)據(jù)處理裝置20以及無線傳輸裝置30都由電源40供電。
[0015]2、功能部件 I)音頻處理裝置10
音頻處理裝置10包括依次連接的音頻采集器11、音頻解碼器12和音頻輸出器13 ;
(I)音頻采集器11
音頻采集器11采用高保真型音頻采集器;
對動物聲音進行采集,再將采集到的動物聲音數(shù)據(jù)經(jīng)過音頻解碼器11解碼。
[0016](2)音頻解碼器12
音頻解碼器13采用TI公司生產(chǎn)的音頻處理芯片TLV320AIC34,對音頻信號進行解碼調(diào)制;
將采集的信號傳送至數(shù)據(jù)處理裝置20,或?qū)⒔?jīng)由數(shù)據(jù)處理裝置20處理后的數(shù)據(jù)通過音頻輸出器12輸出。
[0017](3)音頻輸出器13
音頻輸出器13采用市場上普通揚聲器即可;
用于語音輸出動物聲音的情緒識別結(jié)果。
[0018]2)數(shù)據(jù)處理裝置20
數(shù)據(jù)處理裝置20包括通信接口 21、數(shù)據(jù)處理芯片22、閃存存儲器23、隨機存儲器24、JTAG仿真接口 25、HPI主機接口 26和外部擴展接口 27 ;
其連接關(guān)系是:
數(shù)據(jù)處理芯片22分別設(shè)置有通信接口 21、JTAG仿真接口 25、HPI主機接口 26和外部擴展接口 27 ;
數(shù)據(jù)處理芯片22分別連接有閃存存儲器23和隨機存儲器24。
[0019](I)通信接口 21
通信接口 21是一種多功能的同