本發(fā)明涉及腦電信號,尤其涉及一種基于多聲源場景下的聽覺注意力解碼方法、裝置、設(shè)備以及介質(zhì)。
背景技術(shù):
1、在多聲源環(huán)境中,人類大腦能夠相對輕松地將注意力集中于某一個說話人,同時有效地抑制其他聲音的干擾。然而,對于佩戴助聽器或人工耳蝸的人群而言,盡管這些設(shè)備具備一定的背景噪音降噪功能,但在復(fù)雜的多人對話場景中,它們無法準(zhǔn)確識別佩戴者所關(guān)注的聽覺對象,導(dǎo)致用戶難以聚焦于特定的語音內(nèi)容,從而容易出現(xiàn)社交隔離和生活質(zhì)量下降的問題。針對上述問題,相關(guān)技術(shù)中可以通過腦電數(shù)據(jù)來解碼聽覺注意力,從而準(zhǔn)確識別佩戴者所關(guān)注的聽覺對象,但是當(dāng)前的技術(shù)在解碼聽覺注意力時,通常需要使用較長的時間窗,時間范圍從數(shù)秒到數(shù)十秒不等,這導(dǎo)致實時性較差,無法及時反饋用戶的注意力狀態(tài)。此外,現(xiàn)有的算法對于用戶頻繁切換注意力對象的場景支持不佳,特別是在嘈雜環(huán)境或多人對話情境中,難以快速響應(yīng)用戶的注意力轉(zhuǎn)移。更為關(guān)鍵的是,現(xiàn)有的解碼聽覺注意力算法未能有效融合語音信息,導(dǎo)致算法在面對不同音頻刺激時的魯棒性不足,從而進(jìn)一步降低了在嘈雜環(huán)境中的注意力解碼準(zhǔn)確性。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例的主要目的在于提供一種基于多聲源場景下的聽覺注意力解碼方法、裝置、設(shè)備以及介質(zhì),旨在解決現(xiàn)有的解碼聽覺注意力算法未能有效融合語音信息導(dǎo)致算法在面對不同音頻刺激時的魯棒性不足,進(jìn)而降低了在嘈雜環(huán)境中的注意力解碼準(zhǔn)確性的問題。
2、第一方面,本發(fā)明實施例提供一種基于多聲源場景下的聽覺注意力解碼方法,包括:
3、獲得多個初始用戶在多聲源場景下對應(yīng)的目標(biāo)對象數(shù)據(jù),所述目標(biāo)對象數(shù)據(jù)包括所述初始用戶在第一聲音刺激下響應(yīng)的初始腦電信號、所述第一聲音刺激對應(yīng)的多聲源語音信號和所述多聲源語音信號對應(yīng)的聲音來源標(biāo)簽,所述聲音來源標(biāo)簽用于表征所述初始用戶需要關(guān)注的說話對象的位置信息;
4、對所述初始腦電信號和所述多聲源語音信號分別進(jìn)行預(yù)處理獲得所述初始腦電信號對應(yīng)的待處理腦電信號和所述多聲源語音信號對應(yīng)的待處理語音信號;
5、根據(jù)所述待處理腦電信號、所述待處理語音信號和所述聲音來源標(biāo)簽對初始聽覺注意力解碼模型進(jìn)行模型訓(xùn)練,獲得目標(biāo)聽覺注意力解碼模型;
6、獲得目標(biāo)用戶在多聲源場景下對應(yīng)的用戶數(shù)據(jù),所述用戶數(shù)據(jù)包括所述目標(biāo)用戶在第二聲音刺激下響應(yīng)的目標(biāo)腦電信號和所述第二聲音刺激對應(yīng)的目標(biāo)語音信號;
7、利用所述目標(biāo)聽覺注意力解碼模型對所述目標(biāo)腦電信號和所述目標(biāo)語音信號進(jìn)行聽覺注意力解碼獲得所述目標(biāo)用戶對應(yīng)的注意力目標(biāo)。
8、第二方面,本發(fā)明實施例提供一種基于多聲源場景下的聽覺注意力解碼裝置,包括:
9、數(shù)據(jù)獲取模塊,用于獲得多個初始用戶在多聲源場景下對應(yīng)的目標(biāo)對象數(shù)據(jù),所述目標(biāo)對象數(shù)據(jù)包括所述初始用戶在第一聲音刺激下響應(yīng)的初始腦電信號、所述第一聲音刺激對應(yīng)的多聲源語音信號和所述多聲源語音信號對應(yīng)的聲音來源標(biāo)簽,所述聲音來源標(biāo)簽用于表征所述初始用戶需要關(guān)注的說話對象的位置信息;
10、數(shù)據(jù)處理模塊,用于對所述初始腦電信號和所述多聲源語音信號分別進(jìn)行預(yù)處理獲得所述初始腦電信號對應(yīng)的待處理腦電信號和所述多聲源語音信號對應(yīng)的待處理語音信號;
11、模型訓(xùn)練模塊,用于根據(jù)所述待處理腦電信號、所述待處理語音信號和所述聲音來源標(biāo)簽對初始聽覺注意力解碼模型進(jìn)行模型訓(xùn)練,獲得目標(biāo)聽覺注意力解碼模型;
12、數(shù)據(jù)采集模塊,用于獲得目標(biāo)用戶在多聲源場景下對應(yīng)的用戶數(shù)據(jù),所述用戶數(shù)據(jù)包括所述目標(biāo)用戶在第二聲音刺激下響應(yīng)的目標(biāo)腦電信號和所述第二聲音刺激對應(yīng)的目標(biāo)語音信號;
13、目標(biāo)識別模塊,用于利用所述目標(biāo)聽覺注意力解碼模型對所述目標(biāo)腦電信號和所述目標(biāo)語音信號進(jìn)行聽覺注意力解碼獲得所述目標(biāo)用戶對應(yīng)的注意力目標(biāo)。
14、第三方面,本發(fā)明實施例還提供一種終端設(shè)備,所述終端設(shè)備包括處理器、存儲器、存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機(jī)程序以及用于實現(xiàn)所述處理器和所述存儲器之間的連接通信的數(shù)據(jù)總線,其中所述計算機(jī)程序被所述處理器執(zhí)行時,實現(xiàn)如本發(fā)明說明書提供的任一項基于多聲源場景下的聽覺注意力解碼方法的步驟。
15、第四方面,本發(fā)明實施例還提供一種存儲介質(zhì),用于計算機(jī)可讀存儲,其特征在于,所述存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)如本發(fā)明說明書提供的任一項基于多聲源場景下的聽覺注意力解碼方法的步驟。
16、本發(fā)明實施例提供一種基于多聲源場景下的聽覺注意力解碼方法、裝置、設(shè)備以及介質(zhì),該方法包括:獲得多個初始用戶在多聲源場景下對應(yīng)的目標(biāo)對象數(shù)據(jù),目標(biāo)對象數(shù)據(jù)包括初始用戶在第一聲音刺激下響應(yīng)的初始腦電信號、第一聲音刺激對應(yīng)的多聲源語音信號和多聲源語音信號對應(yīng)的聲音來源標(biāo)簽,聲音來源標(biāo)簽用于表征初始用戶需要關(guān)注的說話對象的位置信息;對初始腦電信號和多聲源語音信號分別進(jìn)行預(yù)處理獲得初始腦電信號對應(yīng)的待處理腦電信號和多聲源語音信號對應(yīng)的待處理語音信號;根據(jù)待處理腦電信號、待處理語音信號和聲音來源標(biāo)簽對初始聽覺注意力解碼模型進(jìn)行模型訓(xùn)練,獲得目標(biāo)聽覺注意力解碼模型;獲得目標(biāo)用戶在多聲源場景下對應(yīng)的用戶數(shù)據(jù),用戶數(shù)據(jù)包括目標(biāo)用戶在第二聲音刺激下響應(yīng)的目標(biāo)腦電信號和第二聲音刺激對應(yīng)的目標(biāo)語音信號;?利用目標(biāo)聽覺注意力解碼模型對目標(biāo)腦電信號和目標(biāo)語音信號進(jìn)行聽覺注意力解碼獲得目標(biāo)用戶對應(yīng)的注意力目標(biāo)。該方法在多聲源場景中,通過訓(xùn)練目標(biāo)聽覺注意力解碼模型來識別和區(qū)分不同聲源,能夠更好地適應(yīng)真實的聽覺環(huán)境,提高了在復(fù)雜場景下在面對不同音頻刺激時的魯棒性,并通過訓(xùn)練目標(biāo)聽覺注意力解碼模型能夠根據(jù)更準(zhǔn)確地解碼目標(biāo)用戶的注意力目標(biāo),進(jìn)而能夠提供提高聽覺注意力分析的準(zhǔn)確性和可靠性,進(jìn)一步提高用戶滿意度。該方法也解決了現(xiàn)有的解碼聽覺注意力算法未能有效融合語音信息導(dǎo)致算法在面對不同音頻刺激時的魯棒性不足,進(jìn)而降低了在嘈雜環(huán)境中的注意力解碼準(zhǔn)確性的問題。
1.一種基于多聲源場景下的聽覺注意力解碼方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述初始腦電信號和所述多聲源語音信號分別進(jìn)行預(yù)處理,獲得所述初始腦電信號對應(yīng)的待處理腦電信號和所述多聲源語音信號對應(yīng)的待處理語音信號,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待處理腦電信號、所述待處理語音信號和所述聲音來源標(biāo)簽對初始聽覺注意力解碼模型進(jìn)行模型訓(xùn)練,獲得目標(biāo)聽覺注意力解碼模型,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述時域特征提取層包括多個卷積分支和特征融合網(wǎng)絡(luò),每個所述卷積分支至少包括輸入卷積塊、基本卷積塊和輸出卷積塊,所述利用所述初始聽覺注意力解碼模型的時域特征提取層對所述待處理腦電信號進(jìn)行時域特征提取獲得對應(yīng)的目標(biāo)時域特征信息,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述頻域特征提取層包括快速傅里葉變換、長短期記憶網(wǎng)絡(luò)、全連接層、激活函數(shù)層,所述利用所述初始聽覺注意力解碼模型的頻域特征提取層對所述待處理腦電信號進(jìn)行頻域特征提取獲得對應(yīng)的目標(biāo)頻域特征信息,包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述音頻特征提取層至少包括第一音頻卷積塊、第二音頻卷積塊和第三音頻卷積塊,所述第一音頻卷積塊包括第二輸入卷積層、第四批歸一化層、第四激活層,所述第二音頻卷積塊包括第三輸入卷積層、第五批歸一化層、第六激活層,所述第三音頻卷積塊包括第四輸入卷積層、第六批歸一化層、第七激活層;所述利用所述初始聽覺注意力解碼模型的音頻特征提取層對所述待處理語音信號進(jìn)行音頻特征提取獲得對應(yīng)的目標(biāo)音頻特征信息,包括:
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述特征融合映射層包括特征級別網(wǎng)絡(luò)、分類網(wǎng)絡(luò);所述利用所述初始聽覺注意力解碼模型的特征融合映射層根據(jù)所述目標(biāo)時域特征信息、所述目標(biāo)頻域特征信息、所述目標(biāo)音頻特征信息和所述聲音來源標(biāo)簽進(jìn)行模型訓(xùn)練,獲得目標(biāo)聽覺注意力解碼模型,包括:
8.一種基于多聲源場景下的聽覺注意力解碼裝置,其特征在于,包括:
9.一種終端設(shè)備,其特征在于,所述終端設(shè)備包括處理器、存儲器;
10.一種計算機(jī)存儲介質(zhì),用于計算機(jī)存儲,其特征在于,所述計算機(jī)存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)權(quán)利要求1至7中任一項所述的基于多聲源場景下的聽覺注意力解碼方法的步驟。