国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程

      文檔序號:40229216發(fā)布日期:2024-12-06 16:50閱讀:35來源:國知局
      自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)與流程

      本發(fā)明涉及人工智能的,更具體地,涉及一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)。


      背景技術(shù):

      1、隨著科技的不斷進(jìn)步,越來越多的教學(xué)通過遠(yuǎn)程的形式進(jìn)行進(jìn)行,遠(yuǎn)程教學(xué)具有不受地域限制、與會靈活性高等優(yōu)點(diǎn)。

      2、在遠(yuǎn)程教學(xué)的場景中,為了能夠保證老師的授課或者學(xué)生的發(fā)言能被清晰地采集到,音量保持在合理的范圍內(nèi),一般都會采用語音自動增益控制(agc)技術(shù)對語音的音頻數(shù)據(jù)進(jìn)行調(diào)整,以改善用戶體驗(yàn),減少用戶手動調(diào)節(jié)音量,

      3、然而,實(shí)際教學(xué)的環(huán)境下,有各種各樣不同的環(huán)節(jié)、不同的場景,不同的場景對于語音自動增益的需求也不同。例如,在課間場景中,學(xué)生比較吵鬧,這時就沒有必要開啟語音自動增益控制。

      4、因此,急需一種能夠自適應(yīng)不同場景的語音增強(qiáng)方法,以適應(yīng)實(shí)際的教學(xué)場景要求。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷,提供一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì),本發(fā)明采用的技術(shù)方案如下。

      2、第一方面,本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的方法,包括:

      3、獲取音頻信號;

      4、對所述音頻信號進(jìn)行處理,提取所述音頻信號分幀后的每幀音頻幀的音頻特征;

      5、將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型,得出各音頻幀的所屬場景;其中,所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型;

      6、接收第一音頻信號和第二音頻信號,根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例,其中,所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。

      7、在一種實(shí)施方式中,所述音頻特征包括:時域特征和頻域特征。

      8、在一種實(shí)施方式中,所述音頻特征包括:梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。

      9、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;

      10、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:

      11、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度;

      12、根據(jù)各音頻幀的所屬場景的置信度,求得各音頻幀的課堂場景的置信度和課間場景的置信度;

      13、在各音頻幀對應(yīng)的時間內(nèi),根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小,根據(jù)各音頻幀的課間場景的置信度調(diào)整第一音頻信號的輸出大小。

      14、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;

      15、所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:

      16、獲取將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型后得到的各音頻幀的所屬場景的置信度;

      17、根據(jù)各音頻幀的所屬場景的置信度,求得各音頻幀的課堂場景的置信度和課間場景的置信度;

      18、降低所述第一音頻信號的輸出音量,形成新的第一音頻信號;

      19、在各音頻幀對應(yīng)的時間內(nèi),根據(jù)各音頻幀的課堂場景的置信度調(diào)整第二音頻信號的輸出大小,根據(jù)各音頻幀的課間場景的置信度調(diào)整所述新的第一音頻信號的輸出大小。

      20、在一種實(shí)施方式中,所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:

      21、根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景;

      22、根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例。

      23、在一種實(shí)施方式中,所述根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景的過程,包括:

      24、根據(jù)各音頻幀的所屬場景,統(tǒng)計(jì)連續(xù)n個幀的時間內(nèi),被判定為各個場景下的音頻幀數(shù)量;

      25、在有場景的音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值時,將所述音頻幀數(shù)量大于預(yù)設(shè)的數(shù)量閾值的場景確定為當(dāng)前所處的場景。

      26、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;

      27、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,包括:

      28、在當(dāng)前所處的場景為課堂場景時,輸出第二音頻信號;

      29、在當(dāng)前所處的場景為課間場景時,輸出第一音頻信號。

      30、在一種實(shí)施方式中,音頻幀的所屬場景包括:課堂場景和課間場景;

      31、所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,包括:

      32、在當(dāng)前所處的場景為課堂場景時,輸出第二音頻信號;

      33、在當(dāng)前所處的場景為課間場景時,降低所述第一音頻信號的輸出音量,形成新的第一音頻信號,輸出所述新的第一音頻信號。

      34、在一種實(shí)施方式中,所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,還包括:

      35、在由課間場景切換至課堂場景時,逐漸降低所述第一音頻信號的比重,逐漸提高所述第二音頻信號的比重;

      36、在由課堂場景切換至課間場景時,逐漸降低所述第二音頻信號的比重,逐漸提高所述第一音頻信號的比重。

      37、第二方面,本發(fā)明提供一種自適應(yīng)場景語音增強(qiáng)的裝置,包括:

      38、獲取模塊,用于獲取音頻信號;

      39、提取模塊,用于對所述音頻信號進(jìn)行處理,提取所述音頻信號分幀后的每幀音頻幀的音頻特征;

      40、識別模塊,用于將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型,得出各音頻幀的所屬場景;其中,所述場景識別模型是基于訓(xùn)練數(shù)據(jù)對預(yù)先建立的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的能夠基于音頻特征得出對應(yīng)場景的場景識別模型;

      41、輸出模塊,用于接收第一音頻信號和第二音頻信號,根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例,其中,所述第二音頻信號為第一音頻信號被增益處理后的音頻信號。

      42、第三方面,本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)上述任一實(shí)施方式的方法。

      43、第四方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一實(shí)施方式的方法。

      44、本發(fā)明中,提取音頻信號中音頻特征,然后根據(jù)音頻特征,利用預(yù)先訓(xùn)練得到的機(jī)器學(xué)習(xí)模型,確定音頻信號所處的場景,最后根據(jù)所處的場景調(diào)整原始的輸入音頻和經(jīng)過agc處理的增益后的音頻之間的輸出比例。本發(fā)明充分考慮實(shí)際教學(xué)的環(huán)境下不同場景的語音增強(qiáng)需要,能夠自適應(yīng)不同場景的語音增強(qiáng),適應(yīng)實(shí)際的教學(xué)場景對于自動增益控制的要求。



      技術(shù)特征:

      1.一種自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述音頻特征包括:時域特征和頻域特征。

      3.根據(jù)權(quán)利要求2所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述音頻特征包括:梅爾頻率倒譜系數(shù)、梅爾特征差分系數(shù)、短時能量、零交叉率、短時能量均值和基音周期。

      4.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;

      5.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;

      6.根據(jù)權(quán)利要求1所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例過程,包括:

      7.根據(jù)權(quán)利要求6所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)各音頻幀的所屬場景,得出當(dāng)前所處的場景的過程,包括:

      8.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;

      9.根據(jù)權(quán)利要求7所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,音頻幀的所屬場景包括:課堂場景和課間場景;

      10.根據(jù)權(quán)利要求8或9所述的自適應(yīng)場景語音增強(qiáng)的方法,其特征在于,所述根據(jù)當(dāng)前所處的場景選擇對應(yīng)的語音增強(qiáng)方式控制第一音頻信號和第二音頻信號的輸出比例的過程,還包括:

      11.一種自適應(yīng)場景語音增強(qiáng)的裝置,其特征在于,包括:

      12.一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如權(quán)利要求1-10中任一所述的方法。

      13.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1_10中任一所述的方法。


      技術(shù)總結(jié)
      本發(fā)明公開一種自適應(yīng)場景語音增強(qiáng)的方法、裝置、設(shè)備及存儲介質(zhì)。其中,該方法包括:獲取音頻信號;對所述音頻信號進(jìn)行處理,提取所述音頻信號分幀后的每幀音頻幀的音頻特征;將音頻幀的音頻特征輸入到預(yù)先訓(xùn)練得到的場景識別模型,得出各音頻幀的所屬場景;接收第一音頻信號和第一音頻信號增益處理后的第二音頻信號,根據(jù)各音頻幀的所屬場景選擇對應(yīng)的方式控制第一音頻信號和第二音頻信號的輸出比例。本發(fā)明充分考慮實(shí)際教學(xué)的環(huán)境下不同場景的語音增強(qiáng)需要,能夠自適應(yīng)不同場景的語音增強(qiáng),適應(yīng)實(shí)際的教學(xué)場景對于自動增益控制的要求。

      技術(shù)研發(fā)人員:林浩志
      受保護(hù)的技術(shù)使用者:廣州市奧威亞電子科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/5
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1