自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號：40229216發(fā)布日期：2024-12-06 16:50閱讀：35來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程

本發(fā)明涉及人工智能的，更具體地，涉及一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、隨著科技的不斷進(jìn)步，越來越多的教學(xué)通過遠(yuǎn)程的形式進(jìn)行進(jìn)行，遠(yuǎn)程教學(xué)具有不受地域限制、與會靈活性高等優(yōu)點(diǎn)。

2、在遠(yuǎn)程教學(xué)的場景中，為了能夠保證老師的授課或者學(xué)生的發(fā)言能被清晰地采集到，音量保持在合理的范圍內(nèi)，一般都會采用語音自動增益控制(agc)技術(shù)對語音的音頻數(shù)據(jù)進(jìn)行調(diào)整，以改善用戶體驗(yàn)，減少用戶手動調(diào)節(jié)音量，

3、然而，實(shí)際教學(xué)的環(huán)境下，有各種各樣不同的環(huán)節(jié)、不同的場景，不同的場景對于語音自動增益的需求也不同。例如，在課間場景中，學(xué)生比較吵鬧，這時就沒有必要開啟語音自動增益控制。

4、因此，急需一種能夠自適應(yīng)不同場景的語音增強(qiáng)方法，以適應(yīng)實(shí)際的教學(xué)場景要求。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷，提供一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)，本發(fā)明采用的技術(shù)方案如下。

2、第一方面，本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的方法，包括：

3、獲取音頻信號；

4、對所述音頻信號進(jìn)行處理，提取所述音頻信號分幀后的每幀音頻幀的音頻特征；

5、將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型，得出各音頻幀的所屬場景；其中，所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型；

6、接收第一音頻信號和第二音頻信號，根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例，其中，所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。

7、在一種實(shí)施方式中，所述音頻特征包括：時域特征和頻域特征。

8、在一種實(shí)施方式中，所述音頻特征包括：梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。

9、在一種實(shí)施方式中，音頻幀的所屬場景包括：課堂場景和課間場景；

10、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程，包括：

11、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度；

12、根據(jù)各音頻幀的所屬場景的置信度，求得各音頻幀的課堂場景的置信度和課間場景的置信度；

13、在各音頻幀對應(yīng)的時間內(nèi)，根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小，根據(jù)各音頻幀的課間場景的置信度調(diào)整第一音頻信號的輸出大小。

14、在一種實(shí)施方式中，音頻幀的所屬場景包括：課堂場景和課間場景；

15、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程，包括：

16、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度；

17、根據(jù)各音頻幀的所屬場景的置信度，求得各音頻幀的課堂場景的置信度和課間場景的置信度；

18、降低所述第一音頻信號的輸出音量，形成新的第一音頻信號；

19、在各音頻幀對應(yīng)的時間內(nèi)，根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小，根據(jù)各音頻幀的課間場景的置信度調(diào)整所述新的第一音頻信號的輸出大小。

20、在一種實(shí)施方式中，所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程，包括：

21、根據(jù)各音頻幀的所屬場景，得出當(dāng)前所處的場景；

22、根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例。

23、在一種實(shí)施方式中，所述根據(jù)各音頻幀的所屬場景，得出當(dāng)前所處的場景的過程，包括：

24、根據(jù)各音頻幀的所屬場景，統(tǒng)計(jì)連續(xù)n個幀的時間內(nèi)，被判定為各個場景下的音頻幀數(shù)量；

25、在有場景的音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值時，將所述音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值的場景確定為當(dāng)前所處的場景。

26、在一種實(shí)施方式中，音頻幀的所屬場景包括：課堂場景和課間場景；

27、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程，包括：

28、在當(dāng)前所處的場景為課堂場景時，輸出第二音頻信號；

29、在當(dāng)前所處的場景為課間場景時，輸出第一音頻信號。

30、在一種實(shí)施方式中，音頻幀的所屬場景包括：課堂場景和課間場景；

31、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程，包括：

32、在當(dāng)前所處的場景為課堂場景時，輸出第二音頻信號；

33、在當(dāng)前所處的場景為課間場景時，降低所述第一音頻信號的輸出音量，形成新的第一音頻信號，輸出所述新的第一音頻信號。

34、在一種實(shí)施方式中，所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程，還包括：

35、在由課間場景切換至課堂場景時，逐漸降低所述第一音頻信號的比重，逐漸提高所述第二音頻信號的比重；

36、在由課堂場景切換至課間場景時，逐漸降低所述第二音頻信號的比重，逐漸提高所述第一音頻信號的比重。

37、第二方面，本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的裝置，包括：

38、獲取模塊，用于獲取音頻信號；

39、提取模塊，用于對所述音頻信號進(jìn)行處理，提取所述音頻信號分幀后的每幀音頻幀的音頻特征；

40、識別模塊，用于將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型，得出各音頻幀的所屬場景；其中，所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型；

41、輸出模塊，用于接收第一音頻信號和第二音頻信號，根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例，其中，所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。

42、第三方面，本發(fā)明提供一種計(jì)算機(jī)設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時實(shí)現(xiàn)上述任一實(shí)施方式的方法。

43、第四方面，本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，其特征在于，該程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一實(shí)施方式的方法。

44、本發(fā)明中，提取音頻信號中音頻特征，然后根據(jù)音頻特征，利用預(yù)先訓(xùn)練得到的機(jī)器學(xué)習(xí)模型，確定音頻信號所處的場景，最后根據(jù)所處的場景調(diào)整原始的輸入音頻和經(jīng)過agc處理的增益后的音頻之間的輸出比例。本發(fā)明充分考慮實(shí)際教學(xué)的環(huán)境下不同場景的語音增強(qiáng)需要，能夠自適應(yīng)不同場景的語音增強(qiáng)，適應(yīng)實(shí)際的教學(xué)場景對于自動增益控制的要求。

技術(shù)特征：

1.一種自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，所述音頻特征包括：時域特征和頻域特征。

3.根據(jù)權(quán)利要求2所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，所述音頻特征包括：梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。

4.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，音頻幀的所屬場景包括：課堂場景和課間場景；

5.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，音頻幀的所屬場景包括：課堂場景和課間場景；

6.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程，包括：

7.根據(jù)權(quán)利要求6所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，所述根據(jù)各音頻幀的所屬場景，得出當(dāng)前所處的場景的過程，包括：

8.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，音頻幀的所屬場景包括：課堂場景和課間場景；

9.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，音頻幀的所屬場景包括：課堂場景和課間場景；

10.根據(jù)權(quán)利要求8或9所述的自適應(yīng)場景語音增強(qiáng)的方法，其特征在于，所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程，還包括：

11.一種自適應(yīng)場景語音增強(qiáng)的裝置，其特征在于，包括：

12.一種計(jì)算機(jī)設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如權(quán)利要求1-10中任一所述的方法。

13.一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，其特征在于，該程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1_10中任一所述的方法。

技術(shù)總結(jié)
本發(fā)明公開一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)。其中，該方法包括：獲取音頻信號；對所述音頻信號進(jìn)行處理，提取所述音頻信號分幀后的每幀音頻幀的音頻特征；將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型，得出各音頻幀的所屬場景；接收第一音頻信號和第一音頻信號增益處理后的第二音頻信號，根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例。本發(fā)明充分考慮實(shí)際教學(xué)的環(huán)境下不同場景的語音增強(qiáng)需要，能夠自適應(yīng)不同場景的語音增強(qiáng)，適應(yīng)實(shí)際的教學(xué)場景對于自動增益控制的要求。

技術(shù)研發(fā)人員：林浩志
受保護(hù)的技術(shù)使用者：廣州市奧威亞電子科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/5

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林浩志
技術(shù)所有人：廣州市奧威亞電子科技有限公司
我是此專利的發(fā)明人

上一篇：一種玉米加工浸泡裝置的制作方法
上一篇：一種展柜控制板分切設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程

自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程