本發(fā)明涉及一種虛擬現(xiàn)實環(huán)境的技術(shù)領(lǐng)域,尤其是一種基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互系統(tǒng)及方法。
背景技術(shù):
虛擬現(xiàn)實(Virtual Reality,簡稱“VR”)是近年來出現(xiàn)的高新技術(shù),其原理是利用電腦模擬產(chǎn)生一個三維空間的虛擬世界,向使用者提供關(guān)于視覺、聽覺、觸覺等感官的模擬,讓使用者如同身臨其境一般,可以及時、沒有限制地觀察三維空間內(nèi)的事物。而交互控制領(lǐng)域是虛擬現(xiàn)實技術(shù)的重要應(yīng)用方向之一,也為虛擬現(xiàn)實技術(shù)的快速發(fā)展起了巨大的需求牽引作用。
目前,一些科技企業(yè)已經(jīng)推出了相應(yīng)的虛擬現(xiàn)實控制設(shè)備,例如,美國Oculus公司推出的Oculus Rift、韓國三星公司推出的Gear、HTC公司推出的HTC Vive等。然而,這些虛擬現(xiàn)實設(shè)備的控制系統(tǒng)仍停留在手柄的控制方法。
中國專利201610869534.7的一種用于虛擬現(xiàn)實控制的交互手柄,公開一種用于虛擬現(xiàn)實環(huán)境的操作手柄,實現(xiàn)方法復(fù)雜、控制不精準、控制指令數(shù)量受限于按鍵個數(shù)。而且這些控制方式對于手部行動不便的人來說卻無法操控;對于普通用戶來說手柄控制流程也是比較復(fù)雜的,需要了解每個按鍵的功能才能操作。
中國專利為201610270381.4的一種基于虛擬現(xiàn)實VR場景的多用戶語音交互方法以及裝置;只是簡單實現(xiàn)在虛擬環(huán)境的多人游戲中的語音通話交流的功能,但并不能在虛擬環(huán)境的游戲中看到游戲人物角色的表情、情態(tài)、動作等;看到游戲中的人物只是單純固定的表情、嘴型動作在說話,在語音交流中毫無情感。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互系統(tǒng)及方法,從而避免了虛擬環(huán)境中依賴于按鍵、傳感設(shè)備而導(dǎo)致的操作復(fù)雜,功能受按鍵數(shù)量限制等問題。
本發(fā)明的技術(shù)方案為:一種基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互系統(tǒng),其特征在于:包括語音移動終端、虛擬環(huán)境終端、外部服務(wù)器,所述外部服務(wù)器分別與語音移動終端、虛擬環(huán)境終端通訊連接,所述語音移動終端與虛擬環(huán)境終端通訊連接;
所述語音移動終端包括
語音采集模塊,用于采集用戶的語音信號,并對采的集語音信號進行預(yù)處理;
語音識別模塊,用于將預(yù)處理的語音信號轉(zhuǎn)化為文本信息,并將文本信息生成相應(yīng)的控制命令和參數(shù);
語音情感特征參數(shù)提取模塊,用于提取預(yù)處理后的語音信號中具有情感特征的參數(shù);
存儲模塊,用于存儲從外部服務(wù)器加載更新的語音識別數(shù)據(jù)、語音控制命令數(shù)據(jù)庫和語音情感數(shù)據(jù)庫;
無線通信模塊,用于將識別出的控制命令和參數(shù)或者語音文本信息和對應(yīng)的語音情感發(fā)送至虛擬環(huán)境終端,以及用于與外部服務(wù)器通訊連接,從而將外部服務(wù)器中相應(yīng)的數(shù)據(jù)包加載更新到存儲模塊中;
處理器,用于處理采集的用戶語音信息、或者發(fā)送更新命令至外部服務(wù)器加載更新存儲模塊儲存的數(shù)據(jù)庫;
所述處理器分別與語音采集模塊、語音識別模塊、語音情感特征參數(shù)提取模塊、存儲模塊、無線通信模塊連接;
所述語音采集模塊與語音識別模塊連接,所述語音采集模塊還與語音情感特征參數(shù)提取模塊連接,語音情感特征參數(shù)提取模塊提取出來的情感特征分別與對應(yīng)的語音識別模塊識別出來的語音文本信息相映射;
所述存儲模塊分別與語音識別模塊和語音情感特征參數(shù)提取模塊連接;
所述虛擬環(huán)境終端包括
存儲單元,用于存儲從外部服務(wù)器加載更新的虛擬人物情感表情和動作的模型庫、語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫;
語音播放模塊,用于播放接收到的語音文本信息;
顯示模塊,用于展示虛擬人物語音表達的情感表情和動作;
通信模塊,用來與語音移動終端通信,以及與外部服務(wù)器通訊連接,從而將外部服務(wù)器中相應(yīng)的數(shù)據(jù)包加載更新到存儲單元中;
所述存儲單元分別與語音播放模塊、顯示模塊連接。
所述的語音采集模塊主要為麥克風。
所述的處理器為STM32F407芯片
所述的語音識別模塊包括語音特征提取單元、語音特征比較單元、比較結(jié)果輸出單元,所述語音特征提取單元與語音特征比較單元連接,所述語音特征比較單元與比較結(jié)果輸出單元連接。
所述語音情感特征參數(shù)提取模塊包括情感特征提取單元、情感特征比較單元、情感特征輸出單元,所述情感特征提取單元與情感特征比較單元連接,所述情感特征比較單元與情感特征輸出單元連接。
所述語音播放模塊包括語調(diào)匹配單元、語音播放單元,所述語調(diào)匹配單元與語音播放單元連接。
所述顯示模塊包括動作匹配單元、顯示單元,所述動作匹配單元與顯示單元連接。
一種基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互方法,包括以下步驟:
語音移動終端與虛擬環(huán)境終端進行連接,連接成功后,語音移動終端的處理器、虛擬環(huán)境終端分別發(fā)送數(shù)據(jù)庫版本查詢命令至外部服務(wù)器,查詢語音移動終端的存儲模塊中存儲的語音識別數(shù)據(jù)、語音控制命令數(shù)據(jù)庫和語音情感數(shù)據(jù)庫的版本、以及虛擬環(huán)境終端的存儲單元中存儲的虛擬人物情感表情和動作的模型庫、語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫的版本是否與外部服務(wù)器中的一致,若不一致則從外部服務(wù)器加載更新相應(yīng)最新版本的數(shù)據(jù)到相應(yīng)的存儲模塊、存儲單元中,從而使存儲模塊與存儲單元中的數(shù)據(jù)為最新狀態(tài);
語音采集模塊采集用戶的語音信號,并將采集的語音信號進行濾波、量化等預(yù)處理后發(fā)送至語音識別模塊與語音情感特征參數(shù)提取模塊;
語音識別模塊結(jié)合存儲模塊中存儲的語音識別數(shù)據(jù)將語音信號轉(zhuǎn)換為文本信息形式,將文本信息與語音控制命令數(shù)據(jù)庫中的命令數(shù)據(jù)進行匹配是否為控制命令;如果是控制命令則生成相應(yīng)的控制命令和參數(shù),并輸出至虛擬環(huán)境終端進行相應(yīng)的控制操作;
如果不是控制命令,則為語音交流信息,則通過語音情感特征參數(shù)提取模塊分析預(yù)處理后的語音信號的波形,并提取具有情感特征的參數(shù),將提取出來的具有情感特征的參數(shù)與語音情感數(shù)據(jù)庫的情緒數(shù)據(jù)進行匹配,從而得出相應(yīng)的情感特征,然后將該情感特征信息映射對應(yīng)詞語或語句,并將情感特征、以及該情感特征信息映射對應(yīng)詞語或語句輸送至虛擬環(huán)境終端,
虛擬環(huán)境終端的動作匹配單元將接收到的情感特征與存儲單元中的虛擬人物情感表情和動作的模型庫進行匹配,得到該情感特征所對應(yīng)的情感表情和動作,通過顯示單元顯示相應(yīng)的情感表情和動作;語調(diào)匹配單元將情感特征對應(yīng)的詞語或語句與語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫中的數(shù)據(jù)進行匹配,從而得到該詞語或語句對應(yīng)的語調(diào)和語速,通過語音播放單元播放相對應(yīng)的具有語調(diào)和語速的語音交流信息,通過語音播放模塊與顯示模塊同步播放,從而虛擬用戶的在現(xiàn)實環(huán)境中的多人交流。
本發(fā)明的有益效果為:系統(tǒng)功能脫離了對手柄的依賴,而且數(shù)量不受按鍵影響,操作簡單,并且通過用戶語音控制系統(tǒng)的操作,另外,通過從用戶語音信息中提取用戶出用戶的情緒、動作信息,并通過相應(yīng)的通過語音播放模塊與顯示模塊同步播放,從而虛擬用戶在現(xiàn)實環(huán)境中多人游戲或應(yīng)用中相互交流和表達自己情感,真正實現(xiàn)情感交流,進一步提高了用戶在虛擬環(huán)境中的體驗效果。
附圖說明
圖1為本發(fā)明系統(tǒng)框架圖;
圖2為本發(fā)明的流程圖;
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式作進一步說明:
如圖1和圖2所示,一種基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互系統(tǒng),其特征在于:包括語音移動終端、虛擬環(huán)境終端、外部服務(wù)器,所述外部服務(wù)器分別與語音移動終端、虛擬環(huán)境終端通訊連接,所述語音移動終端與虛擬環(huán)境終端通訊連接;
所述語音移動終端包括
語音采集模塊,用于采集用戶的語音信號,并對采集語音信號進行預(yù)處理;
語音識別模塊,用于將預(yù)處理的語音信號轉(zhuǎn)化為文本信息,并將文本信息生成相應(yīng)的控制命令和參數(shù);
語音情感特征參數(shù)提取模塊,用于提取預(yù)處理后的語音信號中具有情感特征的參數(shù);
存儲模塊,用于存儲從外部服務(wù)器加載更新的語音識別數(shù)據(jù)、語音控制命令數(shù)據(jù)庫和語音情感數(shù)據(jù)庫;
無線通信模塊,用于將識別出的控制命令和參數(shù)或者語音文本信息和對應(yīng)的語音情感發(fā)送至虛擬環(huán)境終端,以及用于與外部服務(wù)器通訊連接,從而將外部服務(wù)器中相應(yīng)的數(shù)據(jù)包加載更新到存儲模塊中;
處理器,用于處理采集的用戶語音信息、或者發(fā)送更新命令至外部服務(wù)器加載更新存儲模塊儲存的數(shù)據(jù)庫;
所述處理器分別與語音采集模塊、語音識別模塊、語音情感特征參數(shù)提取模塊、存儲模塊、無線通信模塊連接;
所述語音采集模塊與語音識別模塊連接,所述語音采集模塊還與語音情感特征參數(shù)提取模塊連接,語音情感特征參數(shù)提取模塊提取出來的情感特征分別與對應(yīng)的語音識別模塊識別出來的語音文本信息相映射;
所述存儲模塊分別與語音識別模塊和語音情感特征參數(shù)提取模塊連接;
所述虛擬環(huán)境終端包括
存儲單元,用于存儲從外部服務(wù)器加載更新的虛擬人物情感表情和動作的模型庫、語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫;
語音播放模塊,用于播放接收到的語音文本信息;
顯示模塊,用于展示虛擬人物語音表達的情感表情和動作;
通信模塊,用來與語音移動終端通信,以及與外部服務(wù)器通訊連接,從而將外部服務(wù)器中相應(yīng)的數(shù)據(jù)包加載更新到存儲單元中;
所述存儲單元分別與語音播放模塊、顯示模塊連接。
所述的語音采集模塊主要為麥克風。
所述的處理器為STM32F407芯片。
所述的語音識別模塊包括語音特征提取單元、語音特征比較單元、比較結(jié)果輸出單元,所述語音特征提取單元與語音特征比較單元連接,所述語音特征比較單元與比較結(jié)果輸出單元連接。
所述語音情感特征參數(shù)提取模塊包括情感特征提取單元、情感特征比較單元、情感特征輸出單元,所述情感特征提取單元與情感特征比較單元連接,所述情感特征比較單元與情感特征輸出單元連接。
所述語音播放模塊包括語調(diào)匹配單元、語音播放單元,所述語調(diào)匹配單元與語音播放單元連接。
所述顯示模塊包括動作匹配單元、顯示單元,所述動作匹配單元與顯示單元連接。
一種基于虛擬現(xiàn)實環(huán)境的具有情感功能的語音交互方法,包括以下步驟:
語音移動終端與虛擬環(huán)境終端進行連接,連接成功后,語音移動終端的處理器、虛擬環(huán)境終端分別發(fā)送數(shù)據(jù)庫版本查詢命令至外部服務(wù)器,查詢語音移動終端的存儲模塊中存儲的語音識別數(shù)據(jù)、語音控制命令數(shù)據(jù)庫和語音情感數(shù)據(jù)庫的版本、以及虛擬環(huán)境終端的存儲單元中存儲的虛擬人物情感表情和動作的模型庫、語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫的版本是否與外部服務(wù)器中的一致,若不一致則從外部服務(wù)器加載更新相應(yīng)最新版本的數(shù)據(jù)到相應(yīng)的存儲模塊、存儲單元中,從而使存儲模塊與存儲單元中的數(shù)據(jù)為最新狀態(tài);
語音采集模塊采集用戶的語音信號,并將采集的語音信號進行濾波、量化等預(yù)處理后發(fā)送至語音識別模塊、語音情感特征參數(shù)提取模塊;
語音識別模塊結(jié)合存儲模塊中存儲的語音識別數(shù)據(jù)將語音信號轉(zhuǎn)換為文本信息形式,將文本信息與語音控制命令數(shù)據(jù)庫中的命令數(shù)據(jù)進行匹配是否為控制命令;如果是控制命令則生成相應(yīng)的控制命令和參數(shù),并輸出至虛擬環(huán)境終端進行相應(yīng)的控制操作,具體的控制操作可以為系統(tǒng)菜單相關(guān)操作,例如“菜單”,“返回”,“退出”,“開始”,“確定”,“取消”等等;還可以為人機交互操作,例如在游戲中的相關(guān)操空,“前進50米”,“向左轉(zhuǎn)60度”,“以10米每秒的速度向右移動30秒”等操作;
如果不是控制命令,則為語音交流信息,則通過語音情感特征參數(shù)提取模塊分析預(yù)處理后的語音信號的波形,并提取具有情感特征的參數(shù),將提取出來的具有情感特征的參數(shù)與語音情感數(shù)據(jù)庫的情緒數(shù)據(jù)進行匹配,從而得出相應(yīng)的情感特征,然后將該情感特征信息映射對應(yīng)詞語或語句,并將情感特征、以及該情感特征信息映射對應(yīng)詞語或語句輸送至虛擬環(huán)境終端,
虛擬環(huán)境終端的動作匹配單元將接收到的情感特征與存儲單元中的虛擬人物情感表情和動作的模型庫進行匹配,得到該情感特征所對應(yīng)的情感表情和動作,通過顯示單元顯示相應(yīng)的情感表情和動作;語調(diào)匹配單元將情感特征對應(yīng)的詞語或語句與語音情感對應(yīng)的語調(diào)和語速數(shù)據(jù)庫中的數(shù)據(jù)進行匹配,從而得到該詞語或語句對應(yīng)的語調(diào)和語速,通過語音播放單元播放相對應(yīng)的具有語調(diào)和語速的語音交流信息,通過語音播放模塊與顯示模塊同步播放,從而虛擬用戶的在現(xiàn)實環(huán)境中的多人交流。
所述語音情感數(shù)據(jù)庫中的語音情感數(shù)據(jù)主要是利用現(xiàn)有技術(shù)中的分類器訓練輸出的,通過先收集情感聲音數(shù)據(jù)作為訓練樣本;然后對其提取MFCC參數(shù)、共振峰以及過零率三個特征參數(shù)并進行特征組合,建立高斯混合模型;對高斯混合模型按情感類別分類,形成各個情感類別的聲學模型數(shù)據(jù)庫;當收到具有情感化的語音數(shù)據(jù)時,對其提取特征參數(shù),然后與各個情緒類別下的聲學模型相匹配,最后得到該語音的情感信息。
所述虛擬人物情感表情、動作模型庫主要是通過3D建模軟件建立各類情感對應(yīng)的表情和一些夸張的情緒習慣性作出的動作的3D人物模型。
所述語音情感數(shù)據(jù)庫中的語音情感數(shù)據(jù)主要是利用現(xiàn)有技術(shù)中的分類器訓練輸出的,通過先收集情感聲音數(shù)據(jù)作為訓練樣本;然后對其提取MFCC參數(shù)、共振峰以及過零率三個特征參數(shù)并進行特征組合,建立高斯混合模型;對高斯混合模型按情感類別分類,形成各個情感類別的聲學模型數(shù)據(jù)庫;當收到具有情感化的語音數(shù)據(jù)時,對其提取特征參數(shù),然后與各個情緒類別下的聲學模型相匹配,最后得到該語音的情感信息。
所述虛擬人物情感表情、動作模型庫主要是通過3D建模軟件建立各類情感對應(yīng)的表情和一些夸張的情緒習慣性作出的動作的3D人物模型。
上述實施例和說明書中描述的只是說明本發(fā)明的原理和最佳實施例,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。