国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)字助聽器中深度和廣度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音增強算法_2

      文檔序號:9847375閱讀:來源:國知局
      [0037]式中,η為樣點數(shù),y(n)是分幀、加窗后的信號,χ3(η)是預(yù)加重之后的信號,w(n)是 哈明窗函數(shù)。
      [0038]步驟二,提取含噪語音信號的自相關(guān)函數(shù)最大值和頻帶方差兩個特征,由于噪聲 和語音的這兩個特征有明顯差異,因此,在VAD中,可以提取這兩個特征來判斷語音段和噪 聲段;
      [0039]步驟三,利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建一個二值判決器,將步驟二中提取的兩個特征作為 一個二維矢量,輸入到BP神經(jīng)網(wǎng)絡(luò)中。BP神經(jīng)網(wǎng)絡(luò)的輸出是一個一維矢量,用于判斷當前信 號的類型。求出這個一維矢量的眾數(shù),將其設(shè)定為判決閾值。大于等于此閾值,為語音段;小 于此閾值,為噪聲段;
      [0040]由于輸入的是二維矢量,輸出的是一維矢量,而隱含層的神經(jīng)元個數(shù)為輸入層神 經(jīng)元個數(shù)的2倍再加1,所以BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為2-5-1,如圖2所示。輸入層兩個神經(jīng)元,隱 含層5個神經(jīng)元,輸出層1個神經(jīng)元,隱含層的傳遞函數(shù)為sigmoicK)函數(shù),輸出層的傳遞函 數(shù)為purelinO函數(shù)。i代表輸入層,j代表隱含層,k代表輸出層。W lj是輸入層與隱含層的連 接權(quán)值,wjk是隱含層與輸出層的連接權(quán)值,a通隱含層的閾值,b k是輸出層的閾值。BP神經(jīng) 網(wǎng)絡(luò)的訓練采用的是線下訓練。VAD的檢測結(jié)果如圖3所示。
      [0041 ]步驟四,針對步驟三中判斷出的噪聲段提取噪聲的梅爾倒譜頻率(MFCC)和一階梅 爾倒譜頻率,對于不同種類的噪聲來說,它們的MFCC和一階MFCC存在明顯差異,因此,可以 提取它們來判別噪聲的類型;
      [0042] 步驟五,根據(jù)深度神經(jīng)網(wǎng)絡(luò)的理論知識,利用一個LVQ神經(jīng)網(wǎng)絡(luò)后面級聯(lián)三個BP神 經(jīng)網(wǎng)絡(luò),三個BP神經(jīng)網(wǎng)絡(luò)之間采用并聯(lián)形式,構(gòu)建成一個深度神經(jīng)網(wǎng)絡(luò);
      [0043] 本發(fā)明采用學習向量量化(Learning Vector Quantization,LVQ)神經(jīng)網(wǎng)絡(luò)與BP 神經(jīng)網(wǎng)絡(luò)級聯(lián)構(gòu)成的深度神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
      [0044] 將15種噪聲信號先通過LVQ神經(jīng)網(wǎng)絡(luò)粗分為3大類,再通過BP神經(jīng)網(wǎng)絡(luò)細分為15 類。在圖4中,對于LVQ神經(jīng)網(wǎng)絡(luò),X =( X1,X2,…,XR) tS輸入層的輸入向量,R取24J1為競爭層 神經(jīng)元個數(shù),取SLIW1' 1為輸入層與競爭層之間的連接權(quán)系數(shù)矩陣,為24*24維;η1為輸入向 量X與競爭層中24個神經(jīng)元的每一個神經(jīng)元的距離,并作為競爭層神經(jīng)元的輸入;a 1為競爭 層神經(jīng)元的輸出;S2為線性輸出層神經(jīng)元個數(shù),取為競爭層與線性輸出層之間的連 接權(quán)系數(shù)矩陣,為3*24維;η 2為線性輸出層神經(jīng)元的輸入;a2為線性輸出層神經(jīng)元的輸出。對 于BP神經(jīng)網(wǎng)絡(luò),首先根據(jù)LVQ網(wǎng)絡(luò)的輸出值y的取值,決定細分時使用哪一個BP網(wǎng)絡(luò)。i代表 輸入層,j代表隱含層,k代表輸出層。在BP網(wǎng)絡(luò)中,輸入層有24個神經(jīng)元,依然選取X作為輸 入向量;隱含層有25個神經(jīng)元,W lj是輸入層與隱含層之間的連接權(quán)系數(shù)矩陣,為24*25維;aj 是隱含層的閾值,為25*1維;輸出層有5個神經(jīng)元,是隱含層與輸出層之間的連接權(quán)系數(shù) 矩陣,為25*5維;bk是輸出層的閾值,為5*1維;隱含層使用的激勵函數(shù)為sigmoid()函數(shù),輸 出層使用的激勵函數(shù)為PurelinO函數(shù)。深度神經(jīng)網(wǎng)絡(luò)的訓練采用的是線下訓練。
      [0045] 步驟六,根據(jù)步驟四提取的MFCC和一階MFCC,MFCC有16個參數(shù),一階MFCC有8個參 數(shù),將它們組成一個24維的矢量,輸入到步驟五中構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)中。深度神經(jīng)網(wǎng)絡(luò)的 輸出則表示當前噪聲信號的種類;
      [0046] 本發(fā)明中所包含的15種類型的噪聲為:Pink噪聲、Factoryl噪聲、F16噪聲、 Destroyerengine噪聲、Buccaneerl 噪聲、Babble噪聲、White噪聲、Hf channel 噪聲、 Factory 2噪聲、Buccaneer 2噪聲、Vo I vo噪聲、Machinegun噪聲、Ml 09噪聲、Leopard 噪聲、 Destroyerops 噪聲,它們分別用NI、N2、N3、N4、N5、N6、N7、N8、N9、N10、N11、N12、N13、N14、N15 表示,利用本發(fā)明設(shè)計的深度神經(jīng)網(wǎng)絡(luò)對這15種噪聲進行分類,分類的準確率如表1所示。 Nl到Nl表示深度神經(jīng)網(wǎng)絡(luò)將Pink噪聲判斷為Pink噪聲,準確率為99.92% ;N1到N4表示深度 神經(jīng)網(wǎng)絡(luò)將Pink噪聲誤判為Destroyerengine噪聲,錯誤率為0.05%,依此類推。
      [0047] 步驟七,利用RBF神經(jīng)網(wǎng)絡(luò)、SOM神經(jīng)網(wǎng)絡(luò)、Hopf i e I d神經(jīng)網(wǎng)絡(luò)、E Iman神經(jīng)網(wǎng)絡(luò)、LVQ 神經(jīng)網(wǎng)絡(luò)、Kohonen神經(jīng)網(wǎng)絡(luò)、GRNN神經(jīng)網(wǎng)絡(luò)、灰色神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)和NARX神經(jīng)網(wǎng)絡(luò) 中的多個神經(jīng)網(wǎng)絡(luò)構(gòu)建一個廣度神經(jīng)網(wǎng)絡(luò),各個神經(jīng)網(wǎng)絡(luò)之間采用并聯(lián)形式;
      [0048] 用于語音增強的廣度神經(jīng)網(wǎng)絡(luò)框圖如圖5所示。
      [0049] 步驟八,根據(jù)步驟六中判別出的噪聲種類,步驟七中構(gòu)建好的廣度神經(jīng)網(wǎng)絡(luò)自動 選擇某一相對應(yīng)的神經(jīng)網(wǎng)絡(luò),對步驟三中的語音段進行語音增強。而對于步驟三中的噪聲 段,直接將數(shù)據(jù)置零即可。這樣,就完成了最終的語音增強,再經(jīng)過終放大和受話器兩個模 塊,得到數(shù)字助聽器的輸出信號。
      [0050] 廣度神經(jīng)網(wǎng)絡(luò)自動選擇相應(yīng)神經(jīng)網(wǎng)絡(luò)的規(guī)則:從15中噪聲中選取一種噪聲(比如: Pink噪聲)加入到純凈語音中,得到含噪語音。然后將這段含噪語音分別用RBF神經(jīng)網(wǎng)絡(luò)、 SOM神經(jīng)網(wǎng)絡(luò)、Hopf i e I d神經(jīng)網(wǎng)絡(luò)、E Iman神經(jīng)網(wǎng)絡(luò)、LVQ神經(jīng)網(wǎng)絡(luò)、Kohonen神經(jīng)網(wǎng)絡(luò)、GRNN神 經(jīng)網(wǎng)絡(luò)、灰色神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)和NARX神經(jīng)網(wǎng)絡(luò)進行語音增強。對比增強后的不同效 果,將增強效果最好的神經(jīng)網(wǎng)絡(luò)(比如:RBF神經(jīng)網(wǎng)絡(luò))與該噪聲(Pink噪聲)建立聯(lián)系。剩下 的14種噪聲依此類推,分別與相應(yīng)的神經(jīng)網(wǎng)絡(luò)建立聯(lián)系。這屬于神經(jīng)網(wǎng)絡(luò)的訓練階段,整個 過程在線下進行。
      [0051] 而在測試的時候,廣度神經(jīng)網(wǎng)絡(luò)會根據(jù)步驟六中判斷出的噪聲種類,自動選擇相 應(yīng)的神經(jīng)網(wǎng)絡(luò)對含噪語音進行語音增強。比如:如果步驟六中判斷出噪聲種類為Pink噪聲, 那么廣度神經(jīng)網(wǎng)絡(luò)就會自動選擇RBF神經(jīng)網(wǎng)絡(luò)對含噪語音進行語音增強。
      [0052] 表1基于深度神經(jīng)網(wǎng)絡(luò)的噪聲分類準確率
      【主權(quán)項】
      1.數(shù)字助聽器中深度和廣度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音增強算法,其特征在于,具體步驟 如下: 步驟一,對數(shù)字助聽器的輸入信號進行預(yù)處理,即去均值、歸一化、預(yù)加重、分幀和加 窗; 步驟二,提取含噪語音信號的自相關(guān)函數(shù)最大值和頻帶方差兩個特征,通過提取這兩 個特征來判斷語音段和噪聲段; 步驟三,利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建一個二值判決器,將步驟二中提取的兩個特征作為一個 二維矢量,輸入到BP神經(jīng)網(wǎng)絡(luò)中;BP神經(jīng)網(wǎng)絡(luò)的輸出是一個一維矢量,求出這個一維矢量的 眾數(shù),將其設(shè)定為判決閾值;大于等于此閾值,為語音段;小于此閾值,為噪聲段; 步驟四,針對步驟三中判斷出的噪聲段提取MFCC和一階MFCC; 步驟五,利用一個LVQ神經(jīng)網(wǎng)絡(luò)后面級聯(lián)三個BP神經(jīng)網(wǎng)絡(luò),三個BP神經(jīng)網(wǎng)絡(luò)之間采用并 聯(lián)形式,構(gòu)建成一個深度神經(jīng)網(wǎng)絡(luò); 步驟六,根據(jù)步驟四提取的MFCC和一階MFCC,MFCC有16個參數(shù),一階MFCC有8個參數(shù),將 它們組成一個24維的矢量,輸入到步驟五中構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)中;深度神經(jīng)網(wǎng)絡(luò)的輸出 則表示當前噪聲信號的種類; 步驟七,利用RBF神經(jīng)網(wǎng)絡(luò)、SOM神經(jīng)網(wǎng)絡(luò)、Hopf i e 1 d神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)、LVQ神經(jīng) 網(wǎng)絡(luò)、Kohonen神經(jīng)網(wǎng)絡(luò)、GRNN神經(jīng)網(wǎng)絡(luò)、灰色神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)和NARX神經(jīng)網(wǎng)絡(luò)構(gòu)建 一個廣度神經(jīng)網(wǎng)絡(luò),各個神經(jīng)網(wǎng)絡(luò)之間采用并聯(lián)形式; 步驟八,根據(jù)步驟六中判別出的噪聲信號的種類,步驟七中構(gòu)建好的廣度神經(jīng)網(wǎng)絡(luò)自 動選擇某一相對應(yīng)的神經(jīng)網(wǎng)絡(luò),對步驟三中得到的語音段進行語音增強;而對于步驟三中 的噪聲段,直接將數(shù)據(jù)置零;這樣,就完成了最終的語音增強,再經(jīng)過終放大和受話器兩個 模塊,得到數(shù)字助聽器的輸出信號。
      【專利摘要】數(shù)字助聽器中深度和廣度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音增強算法,屬于語音信號處理技術(shù)領(lǐng)域。該方法首先對含噪語音信號進行語音活動性檢測,提取含噪語音信號的自相關(guān)函數(shù)最大值和頻帶方差等特征,再利用BP神經(jīng)網(wǎng)絡(luò)建立一個二值判決器,判斷出語音段和噪聲段。其次,提取MFCC和一階MFCC特征,采用學習向量量化神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)級聯(lián)構(gòu)成的深度神經(jīng)網(wǎng)絡(luò),檢測出噪聲的類型。最后,建立多種網(wǎng)絡(luò)并聯(lián)構(gòu)成的廣度神經(jīng)網(wǎng)絡(luò),根據(jù)噪聲的類型,廣度神經(jīng)網(wǎng)絡(luò)自動選取相應(yīng)的神經(jīng)網(wǎng)絡(luò),去除噪聲,得到增強后的語音,提高助聽器輸出語音的可懂度。該算法中神經(jīng)網(wǎng)絡(luò)的訓練過程都是在線下完成,而訓練好的網(wǎng)絡(luò)的測試算法復雜度低,因此,滿足實時性。
      【IPC分類】H04R25/00
      【公開號】CN105611477
      【申請?zhí)枴緾N201510999943
      【發(fā)明人】李如瑋, 時勇強
      【申請人】北京工業(yè)大學
      【公開日】2016年5月25日
      【申請日】2015年12月27日
      當前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1