本公開涉及音頻處理,具體而言,涉及一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計算機可讀存儲介質和電子設備。
背景技術:
1、隨著終端技術的發(fā)展,用戶對相冊的需求不再局限于回顧照片和視頻,對于多模態(tài)智能編創(chuàng)的需求也日益提高。在此背景下,活動語音檢測(voice?activity?detection,vad)技術扮演著重要的角色,其作為音頻智能處理的預處理技術,可以自動將音頻信號的幀分為語音和非語音。此外,語音識別、人聲檢測、人聲分離等技術的效果也依賴于活動語音檢測的處理結果。
2、目前,活動語音檢測可能存在檢測準確度低、語音識別效果差的問題。
技術實現(xiàn)思路
1、本公開提供一種音頻處理方法、視頻處理方法、音頻處理裝置、視頻處理裝置、計算機可讀存儲介質和電子設備,進而至少在一定程度上克服活動語音檢測準確度低的問題。
2、根據(jù)本公開的第一方面,提供了一種音頻處理方法,包括:對音頻數(shù)據(jù)進行初始特征提取操作,以得到第一音頻特征;對第一音頻特征執(zhí)行基于時域上特征拆分的處理過程,以得到第二音頻特征;基于注意力機制增強第二音頻特征中語音特征與非語音特征的差異,以得到第三音頻特征;對第三音頻特征進行全連接映射操作,以得到音頻數(shù)據(jù)的語音檢測結果。
3、根據(jù)本公開的第二方面,提供了一種視頻處理方法,包括:獲取視頻,提取視頻中的音頻數(shù)據(jù);利用上述音頻處理方法對音頻數(shù)據(jù)進行語音檢測,以確定視頻中的語音片段。
4、根據(jù)本公開的第三方面,提供了一種音頻處理裝置,包括:第一特征確定模塊,用于對音頻數(shù)據(jù)進行初始特征提取操作,以得到第一音頻特征;第二特征確定模塊,用于對第一音頻特征執(zhí)行基于時域上特征拆分的處理過程,以得到第二音頻特征;第三特征確定模塊,用于基于注意力機制增強第二音頻特征中語音特征與非語音特征的差異,以得到第三音頻特征;語音檢測模塊,用于對第三音頻特征進行全連接映射操作,以得到音頻數(shù)據(jù)的語音檢測結果。
5、根據(jù)本公開的第四方面,提供了一種視頻處理裝置,包括:音頻提取模塊,用于獲取視頻,提取視頻中的音頻數(shù)據(jù);片段確定模塊,用于利用上述音頻處理方法對音頻數(shù)據(jù)進行語音檢測,以確定視頻中的語音片段。
6、根據(jù)本公開的第五方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述的音頻處理方法或視頻處理方法。
7、根據(jù)本公開的第六方面,提供了一種電子設備,包括處理器;存儲器,用于存儲一個或多個程序,當一個或多個程序被處理器執(zhí)行時,使得所述處理器實現(xiàn)上述的音頻處理方法或視頻處理方法。
8、在本公開的一些實施例所提供的技術方案中,對從音頻數(shù)據(jù)中提取的第一音頻特征執(zhí)行基于時域上特征拆分的處理過程,以得到第二音頻特征,基于注意力機制增強語音與非語音的差異,以得到第三音頻特征,并對第三音頻特征進行全連接映射操作,以得到音頻數(shù)據(jù)的語音檢測結果。一方面,通過基于時域上特征差分的處理過程,可以有效確定時域上多層次的特征,有助于提高語音檢測的準確度;另一方面,本公開方案結合了注意力機制,可以增強語音特征與非語音特征的差異,為之后的分類操作提供良好的數(shù)據(jù)基礎,可以進一步提高語音檢測的準確度。
9、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種音頻處理方法,其特征在于,包括:
2.根據(jù)權利要求1所述的音頻處理方法,其特征在于,所述基于時域上特征拆分的處理過程包括至少一級時域特征拆分子處理過程;其中,對所述第一音頻特征執(zhí)行基于時域上特征拆分的處理過程,以得到第二音頻特征,包括:
3.根據(jù)權利要求2所述的音頻處理方法,其特征在于,在對所述第一音頻特征執(zhí)行兩級以上時域特征拆分子處理過程的情況下,每一級時域特征拆分子處理過程的輸出是下一級時域特征拆分子處理過程的輸入;其中,基于所述兩級以上時域特征拆分子處理過程的輸出結果生成所述第二音頻特征包括:
4.根據(jù)權利要求2所述的音頻處理方法,其特征在于,所述時域特征拆分子處理過程包括:
5.根據(jù)權利要求4所述的音頻處理方法,其特征在于,對輸入所述時域特征拆分子處理過程的音頻特征進行時域上的特征拆分操作,以得到多個第一中間特征,包括:
6.根據(jù)權利要求4所述的音頻處理方法,其特征在于,對所述多個第一中間特征進行卷積處理,以得到多個第二中間特征,包括:
7.根據(jù)權利要求4所述的音頻處理方法,其特征在于,對所述第三中間特征進行特征增強,以得到所述時域特征拆分子處理過程輸出的音頻特征,包括:
8.根據(jù)權利要求7所述的音頻處理方法,其特征在于,對所述第三中間特征進行特征增強,以得到第四中間特征,包括:
9.根據(jù)權利要求4所述的音頻處理方法,其特征在于,對所述第三中間特征進行特征增強包括:
10.根據(jù)權利要求1所述的音頻處理方法,其特征在于,對所述第三音頻特征進行全連接映射操作,以得到所述音頻數(shù)據(jù)的語音檢測結果,包括:
11.根據(jù)權利要求10所述的音頻處理方法,其特征在于,對所述第三音頻特征進行全連接映射操作,以確定所述音頻數(shù)據(jù)中每一音頻幀的語音檢測結果,包括:
12.根據(jù)權利要求1所述的音頻處理方法,其特征在于,對音頻數(shù)據(jù)進行初始特征提取操作,以得到第一音頻特征,包括:
13.根據(jù)權利要求1至12中任一項所述的音頻處理方法,其特征在于,通過音頻處理模型實現(xiàn)所述音頻處理方法;
14.根據(jù)權利要求13所述的音頻處理方法,其特征在于,所述音頻處理方法還包括:
15.根據(jù)權利要求14所述的音頻處理方法,其特征在于,利用所述第一訓練音頻特征對所述音頻處理模型進行訓練包括:
16.一種視頻處理方法,其特征在于,包括:
17.根據(jù)權利要求16所述的視頻處理方法,其特征在于,所述視頻處理方法還包括:
18.一種音頻處理裝置,其特征在于,包括:
19.一種視頻處理裝置,其特征在于,包括:
20.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權利要求1至15中任一項所述的音頻處理方法或者權利要求16或17所述的視頻處理方法。
21.一種電子設備,其特征在于,包括: