本發(fā)明涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音情感識(shí)別方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、情感是人們面對(duì)某些外部刺激或事情表現(xiàn)出來(lái)的強(qiáng)烈心理或生理反應(yīng),語(yǔ)音是人類之間最直接的交流方式,語(yǔ)音中不僅僅包括語(yǔ)義信息同時(shí)還包含了說(shuō)話者的情感狀態(tài)。當(dāng)人們的情緒變化時(shí),他們的聲帶狀態(tài)和呼吸模式會(huì)發(fā)生相應(yīng)的改變,這導(dǎo)致語(yǔ)音的聲學(xué)屬性發(fā)生相應(yīng)的改變。與情感較為相關(guān)的聲學(xué)屬性有:音高、音量、語(yǔ)速、音色和節(jié)奏。當(dāng)人們憤怒、恐懼或興奮時(shí)語(yǔ)音的音高、音量和語(yǔ)速都有明顯的提高,而當(dāng)情緒較為平靜時(shí)這些屬性會(huì)相對(duì)較低。通過(guò)分析情緒和聲學(xué)屬性之間聯(lián)系,便可以得到說(shuō)話人的情感狀態(tài)。
2、現(xiàn)有的語(yǔ)音情感識(shí)別方法通常使用梅爾倒譜系數(shù)(mel-scale?frequencycepstral?coefficients,mfcc)或語(yǔ)譜圖(spectrogram)作為模型的輸入特征。mfcc特征基于人耳的聽覺(jué)原理提取,其能夠反映語(yǔ)音的本質(zhì)特征;spectrogram特征是語(yǔ)音信號(hào)的時(shí)間-頻率的二維表示,其能反映語(yǔ)音的音高、音強(qiáng)和音色等屬性的變化。傳統(tǒng)的語(yǔ)音情感識(shí)別通常使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?networks,cnn)或循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent?neural?networks,rnn)提取語(yǔ)音的情感特征。隨著人工智能技術(shù)的發(fā)展,現(xiàn)有的語(yǔ)音情感識(shí)別方法通常使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-long?short-term?memory,bi-lstm)或注意力機(jī)制(attention)作為網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu),通過(guò)這些結(jié)構(gòu)模型能更好地理解上下文信息,能更好地理解人們的情感狀態(tài)。但是現(xiàn)有的語(yǔ)音情感識(shí)別技術(shù)仍存有以下不足:1)沒(méi)有考慮到語(yǔ)音信號(hào)中的音素和音節(jié)等基礎(chǔ)特征,即沒(méi)有充分地利用這些特征。2)現(xiàn)有的語(yǔ)音情感識(shí)別技術(shù)忽略了語(yǔ)音的時(shí)頻特性,導(dǎo)致模型不能完全利用語(yǔ)音信號(hào)中的有效信息。
技術(shù)實(shí)現(xiàn)思路
1、為至少一定程度上解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一,本發(fā)明的目的在于提供一種基于多粒度時(shí)頻網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。
2、本發(fā)明所采用的第一技術(shù)方案是:
3、一種語(yǔ)音情感識(shí)別方法,包括以下步驟:
4、獲取語(yǔ)音信號(hào),根據(jù)語(yǔ)音信號(hào)獲取mfcc特征;
5、對(duì)mfcc特征進(jìn)行特征分割處理,獲得音素表征、音節(jié)表征和句子表征;
6、根據(jù)音素表征、音節(jié)表征和句子表征獲取不同粒度的情感時(shí)頻特征,將不同粒度的情感時(shí)頻特征進(jìn)行融合,獲得最終的多粒度時(shí)頻特征;
7、根據(jù)多粒度時(shí)頻特征進(jìn)行情感分類,獲得識(shí)別結(jié)果。
8、進(jìn)一步地,所述根據(jù)語(yǔ)音信號(hào)獲取mfcc特征,包括:
9、使用opensmile工具箱提取語(yǔ)音信號(hào)的mfcc特征。
10、進(jìn)一步地,所述對(duì)mfcc特征進(jìn)行特征分割處理,獲得音素表征、音節(jié)表征和句子表征,包括:
11、分別使用不同長(zhǎng)度的窗口對(duì)mfcc特征進(jìn)行分割處理,得到音素表征、音節(jié)表征和句子表征。
12、進(jìn)一步地,所述根據(jù)音素表征、音節(jié)表征和句子表征獲取不同粒度的情感時(shí)頻特征,將不同粒度的情感時(shí)頻特征進(jìn)行融合,獲得最終的多粒度時(shí)頻特征,包括:
13、所述音素表征、音節(jié)表征和句子表征分別代表時(shí)域上不同粒度的特征,通過(guò)堆疊多個(gè)情緒感知單元的方法獲取不同粒度的情感時(shí)頻特征,再通過(guò)動(dòng)態(tài)特征融合方法將不同時(shí)頻粒度的特征進(jìn)行融合,獲得最終的多粒度時(shí)頻特征。
14、進(jìn)一步地,所述情緒感知單元包括兩個(gè)空洞卷積層和一個(gè)殘差連接操作;其中,空洞卷積層用于讓深層的情緒感知單元能夠由足夠大的感受野獲取時(shí)頻上的情感信息;殘差連接操作能夠讓模型更快地收斂;
15、最終使用一個(gè)可訓(xùn)練的權(quán)重參數(shù),將每一層情緒感知單元的輸出進(jìn)行融合,以在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整不同粒度特征的重要性,最終得到具有情感信息的多粒度時(shí)頻特征。
16、進(jìn)一步地,所述根據(jù)多粒度時(shí)頻特征進(jìn)行情感分類,獲得識(shí)別結(jié)果,包括:
17、將多粒度時(shí)頻特征通過(guò)特征節(jié)點(diǎn)映射到更適合進(jìn)行情緒分類的特征空間中;
18、使用增強(qiáng)節(jié)點(diǎn)對(duì)特征節(jié)點(diǎn)進(jìn)行非線性變換,以增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力,同時(shí)使網(wǎng)絡(luò)能夠捕捉到更復(fù)雜的數(shù)據(jù)模式;
19、將得到的特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)的數(shù)據(jù)共同轉(zhuǎn)換為增強(qiáng)特征矩陣,通過(guò)嶺回歸的方式求解偽逆得到網(wǎng)絡(luò)的參數(shù),最終通過(guò)求解得到的網(wǎng)絡(luò)參數(shù)計(jì)算出情感標(biāo)簽,獲得識(shí)別結(jié)果。
20、進(jìn)一步地,在語(yǔ)音情感識(shí)別過(guò)程中使用寬度學(xué)習(xí)系統(tǒng)作為情感分類器。
21、本發(fā)明所采用的第二技術(shù)方案是:
22、一種語(yǔ)音情感識(shí)別系統(tǒng),包括:
23、特征處理模塊,用于根據(jù)語(yǔ)音信號(hào)獲取mfcc特征,以及對(duì)mfcc特征進(jìn)行特征分割處理,獲得音素表征、音節(jié)表征和句子表征;
24、多粒度時(shí)頻特征提取模塊,用于根據(jù)音素表征、音節(jié)表征和句子表征獲取不同粒度的情感時(shí)頻特征,將不同粒度的情感時(shí)頻特征進(jìn)行融合,獲得最終的多粒度時(shí)頻特征;
25、情感分類模塊,用于根據(jù)多粒度時(shí)頻特征進(jìn)行情感分類,獲得識(shí)別結(jié)果。
26、進(jìn)一步地,所述多粒度時(shí)頻特征提取模塊由多個(gè)情緒感知單元堆疊組成;
27、所述情感分類模塊包括寬度學(xué)習(xí)系統(tǒng),所述寬度學(xué)習(xí)系統(tǒng)用于作為語(yǔ)音情感識(shí)別網(wǎng)絡(luò)分類器。
28、本發(fā)明所采用的第三技術(shù)方案是:
29、一種語(yǔ)音情感識(shí)別裝置,包括:
30、至少一個(gè)處理器;
31、至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)至少一個(gè)程序;
32、當(dāng)所述至少一個(gè)程序被所述至少一個(gè)處理器執(zhí)行,使得所述至少一個(gè)處理器實(shí)現(xiàn)上所述方法。
33、本發(fā)明所采用的第四技術(shù)方案是:
34、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有處理器可執(zhí)行的程序,所述處理器可執(zhí)行的程序在由處理器執(zhí)行時(shí)用于執(zhí)行如上所述方法。
35、本發(fā)明的有益效果是:本發(fā)明同時(shí)使用音素、音節(jié)和句子特征作為模型的輸入特征,通過(guò)利用這些語(yǔ)音中固有的不同粒度的特征,給后續(xù)模型提供更豐富的情感信息,提高語(yǔ)音情感識(shí)別精準(zhǔn)度。同時(shí)考慮到了語(yǔ)音信號(hào)的時(shí)域和頻域信息,此外還堆疊多個(gè)情緒感知單元提取不同粒度的情感信息,可以獲取信息量大且有效的情感表征。
1.一種語(yǔ)音情感識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,所述根據(jù)語(yǔ)音信號(hào)獲取mfcc特征,包括:
3.根據(jù)權(quán)利要求1所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,所述對(duì)mfcc特征進(jìn)行特征分割處理,獲得音素表征、音節(jié)表征和句子表征,包括:
4.根據(jù)權(quán)利要求1所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,所述根據(jù)音素表征、音節(jié)表征和句子表征獲取不同粒度的情感時(shí)頻特征,將不同粒度的情感時(shí)頻特征進(jìn)行融合,獲得最終的多粒度時(shí)頻特征,包括:
5.根據(jù)權(quán)利要求4所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,所述情緒感知單元包括兩個(gè)空洞卷積層和一個(gè)殘差連接操作;其中,空洞卷積層用于讓深層的情緒感知單元能夠由足夠大的感受野獲取時(shí)頻上的情感信息;殘差連接操作能夠讓模型更快地收斂;
6.根據(jù)權(quán)利要求1所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,所述根據(jù)多粒度時(shí)頻特征進(jìn)行情感分類,獲得識(shí)別結(jié)果,包括:
7.根據(jù)權(quán)利要求1所述的一種語(yǔ)音情感識(shí)別方法,其特征在于,在語(yǔ)音情感識(shí)別過(guò)程中使用寬度學(xué)習(xí)系統(tǒng)作為情感分類器。
8.一種語(yǔ)音情感識(shí)別系統(tǒng),其特征在于,包括:
9.一種語(yǔ)音情感識(shí)別裝置,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有處理器可執(zhí)行的程序,其特征在于,所述處理器可執(zhí)行的程序在由處理器執(zhí)行時(shí)用于執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述方法。