本發(fā)明涉及人工智能的,更具體地,涉及一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著科技的不斷進(jìn)步,越來越多的教學(xué)通過遠(yuǎn)程的形式進(jìn)行進(jìn)行,遠(yuǎn)程教學(xué)具有不受地域限制、與會靈活性高等優(yōu)點(diǎn)。
2、在遠(yuǎn)程教學(xué)的場景中,為了能夠保證老師的授課或者學(xué)生的發(fā)言能被清晰地采集到,音量保持在合理的范圍內(nèi),一般都會采用語音自動增益控制(agc)技術(shù)對語音的音頻數(shù)據(jù)進(jìn)行調(diào)整,以改善用戶體驗(yàn),減少用戶手動調(diào)節(jié)音量,
3、然而,實(shí)際教學(xué)的環(huán)境下,有各種各樣不同的環(huán)節(jié)、不同的場景,不同的場景對于語音自動增益的需求也不同。例如,在課間場景中,學(xué)生比較吵鬧,這時就沒有必要開啟語音自動增益控制。
4、因此,急需一種能夠自適應(yīng)不同場景的語音增強(qiáng)方法,以適應(yīng)實(shí)際的教學(xué)場景要求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷,提供一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì),本發(fā)明采用的技術(shù)方案如下。
2、第一方面,本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的方法,包括:
3、獲取音頻信號;
4、對所述音頻信號進(jìn)行處理,提取所述音頻信號分幀后的每幀音頻幀的音頻特征;
5、將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型,得出各音頻幀的所屬場景;其中,所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型;
6、接收第一音頻信號和第二音頻信號,根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例,其中,所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。
7、在一種實(shí)施方式中,所述音頻特征包括:時域特征和頻域特征。
8、在一種實(shí)施方式中,所述音頻特征包括:梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。
9、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;
10、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:
11、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度;
12、根據(jù)各音頻幀的所屬場景的置信度,求得各音頻幀的課堂場景的置信度和課間場景的置信度;
13、在各音頻幀對應(yīng)的時間內(nèi),根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小,根據(jù)各音頻幀的課間場景的置信度調(diào)整第一音頻信號的輸出大小。
14、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;
15、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:
16、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度;
17、根據(jù)各音頻幀的所屬場景的置信度,求得各音頻幀的課堂場景的置信度和課間場景的置信度;
18、降低所述第一音頻信號的輸出音量,形成新的第一音頻信號;
19、在各音頻幀對應(yīng)的時間內(nèi),根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小,根據(jù)各音頻幀的課間場景的置信度調(diào)整所述新的第一音頻信號的輸出大小。
20、在一種實(shí)施方式中,所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:
21、根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景;
22、根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例。
23、在一種實(shí)施方式中,所述根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景的過程,包括:
24、根據(jù)各音頻幀的所屬場景,統(tǒng)計(jì)連續(xù)n個幀的時間內(nèi),被判定為各個場景下的音頻幀數(shù)量;
25、在有場景的音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值時,將所述音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值的場景確定為當(dāng)前所處的場景。
26、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;
27、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,包括:
28、在當(dāng)前所處的場景為課堂場景時,輸出第二音頻信號;
29、在當(dāng)前所處的場景為課間場景時,輸出第一音頻信號。
30、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;
31、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,包括:
32、在當(dāng)前所處的場景為課堂場景時,輸出第二音頻信號;
33、在當(dāng)前所處的場景為課間場景時,降低所述第一音頻信號的輸出音量,形成新的第一音頻信號,輸出所述新的第一音頻信號。
34、在一種實(shí)施方式中,所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,還包括:
35、在由課間場景切換至課堂場景時,逐漸降低所述第一音頻信號的比重,逐漸提高所述第二音頻信號的比重;
36、在由課堂場景切換至課間場景時,逐漸降低所述第二音頻信號的比重,逐漸提高所述第一音頻信號的比重。
37、第二方面,本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的裝置,包括:
38、獲取模塊,用于獲取音頻信號;
39、提取模塊,用于對所述音頻信號進(jìn)行處理,提取所述音頻信號分幀后的每幀音頻幀的音頻特征;
40、識別模塊,用于將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型,得出各音頻幀的所屬場景;其中,所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型;
41、輸出模塊,用于接收第一音頻信號和第二音頻信號,根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例,其中,所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。
42、第三方面,本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)上述任一實(shí)施方式的方法。
43、第四方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一實(shí)施方式的方法。
44、本發(fā)明中,提取音頻信號中音頻特征,然后根據(jù)音頻特征,利用預(yù)先訓(xùn)練得到的機(jī)器學(xué)習(xí)模型,確定音頻信號所處的場景,最后根據(jù)所處的場景調(diào)整原始的輸入音頻和經(jīng)過agc處理的增益后的音頻之間的輸出比例。本發(fā)明充分考慮實(shí)際教學(xué)的環(huán)境下不同場景的語音增強(qiáng)需要,能夠自適應(yīng)不同場景的語音增強(qiáng),適應(yīng)實(shí)際的教學(xué)場景對于自動增益控制的要求。
1.一種自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述音頻特征包括:時域特征和頻域特征。
3.根據(jù)權(quán)利要求2所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述音頻特征包括:梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。
4.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;
5.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;
6.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:
7.根據(jù)權(quán)利要求6所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景的過程,包括:
8.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;
9.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;
10.根據(jù)權(quán)利要求8或9所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,還包括:
11.一種自適應(yīng)場景語音增強(qiáng)的裝置,其特征在于,包括:
12.一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如權(quán)利要求1-10中任一所述的方法。
13.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1_10中任一所述的方法。