国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)字助聽器中深度和廣度神經網絡相結合的語音增強算法

      文檔序號:9847375閱讀:720來源:國知局
      數(shù)字助聽器中深度和廣度神經網絡相結合的語音增強算法
      【技術領域】
      [0001] 本發(fā)明屬于語音信號處理技術領域,涉及到數(shù)字助聽器中噪聲分類和語音增強兩 個關鍵的語音信號處理技術。
      【背景技術】
      [0002] 通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息的形式。然 而,對于耳聾耳障患者來說,不能進行正常的語音信息交流將嚴重影響他們的日常生活。隨 著全球社會人口老齡化的日趨明顯,耳聾耳障患者的人數(shù)也在與日倶增,聽障問題也越來 越突出。然而,對于大多數(shù)患者來說,佩戴合適的數(shù)字助聽器可有效地改善聽力現(xiàn)狀,大大 提高聽力水平。目前,市場上助聽器種類繁多,按外部結構可分為:盒式、耳背式、普通耳內 式、耳道式、深耳道式;按電子原理可分為:模擬助聽器、數(shù)字助聽器;按傳導方式可分為:氣 導助聽器、骨導助聽器。
      [0003] 數(shù)字助聽器是目前市場上最先進的助聽器,可根據(jù)患者的聽力情況利用數(shù)字處理 技術靈活地補償他們需要的聲音,過濾掉不需要的聲音,同時還可根據(jù)聽力需求的改變而 改變。它具有以下優(yōu)點:1.自動適應環(huán)境,有效降低噪聲,提高語言的清晰度;2.再現(xiàn)自然聲 音,優(yōu)化患者對自己聲音的感受,提高聲音的自然性、真實性和舒適性;3.自動消除反饋聲, 應用數(shù)字反饋抑制技術,使助聽器不會出現(xiàn)令人煩惱的反饋聲(嘯叫),這對提高患者的語 言分辨能力有重要的作用。數(shù)字助聽器的工作原理如下:首先,外界的聲學信號進入麥克 風,麥克風將聲能轉化為電能,輸出對應的電信號。緊接著,電信號通過放大器進行預防大, 然后通過模/數(shù)轉換器,將模擬信號轉換為數(shù)字信號。在DSP上,利用數(shù)字處理技術,對含噪 語音信號進行處理,得到處理后的數(shù)字信號。然后再通過數(shù)/模轉換器,將處理后的數(shù)字信 號轉換為模擬信號,并通過放大器,進行最終放大。最后,由受話器輸出處理后的語音。 [0004]在數(shù)字助聽器的整個工作過程中,DSP上的算法是核心部分。對于佩戴助聽器的耳 聾耳障患者來說,在噪聲環(huán)境下,助聽器的性能將大大下降,與周圍的人進行交流將受到嚴 重影響。所以,必須采用語音增強算法消除背景噪聲,從而提高數(shù)字助聽器的言語可懂度。 另外,當噪聲環(huán)境發(fā)生改變時,要自動識別并切換到對應的噪聲環(huán)境模式下進行消噪,這就 需要加入噪聲分類算法,并針對不同的噪聲采取不同的消噪算法,從而提高數(shù)字助聽器的 適用性。除此之外,針對數(shù)字助聽器可能產生的"嘯叫"現(xiàn)象,還需要加入反饋消除算法,從 而提高數(shù)字助聽器的穩(wěn)定性。由此可知,噪聲分類和語音增強是數(shù)字助聽器中十分重要和 關鍵的技術,它們直接決定著數(shù)字助聽器性能的優(yōu)劣。
      [0005]在復雜的噪聲環(huán)境中,一些語音增強算法對言語的可懂度提高十分有限,并且還 會破壞言語的舒適度(比如,引入"音樂噪聲")。因此,如何有效地消除噪聲是設計數(shù)字助聽 器的關鍵所在。目前,譜減法被大多數(shù)數(shù)字助聽器所采用,雖然該語音增強算法簡單,但在 去除噪聲的同時引進了"音樂噪聲",在經過后面的終放大模塊后,"音樂噪聲"也會被同時 放大,嚴重影響了數(shù)字助聽器的言語可懂度和舒適度。此外,在現(xiàn)實生活中,噪聲環(huán)境會隨 時發(fā)生變化,由室內到戶外,由辦公室到工廠,等等。顯然,沒有一種語音增強算法可以適應 所有的噪聲環(huán)境,這就需要對噪聲進行分類,針對不同的噪聲采用不同的語音增強算法或 模型,從而提高算法的適應性,但算法復雜度會大大增加。
      [0006] 數(shù)字助聽器作為一種便攜式醫(yī)療器械,它需要很高的實時性,這就需要算法具有 低復雜度、低功耗等等。為了讓佩戴助聽器的耳聾耳障患者享受到較高的言語可懂度和舒 適度,噪聲分類和語音增強兩項技術是數(shù)字助聽器技術的關鍵。
      [0007] 本發(fā)明提出了一種深度和廣度神經網絡相結合的語音增強算法,首先利用BP神經 網絡對含噪語音進行VAD檢測,判斷出語音段和噪聲段。然后,利用LVQ神經網絡和BP神經網 絡級聯(lián)而成的深度神經網絡判斷出含噪語音中噪聲的種類。最后,再利用多種神經網絡并 聯(lián)而成的廣度神經網絡針對不同噪聲進行不同的語音增強。雖然神經網絡的訓練非常耗 時,但這里采用線下訓練,這使得訓練好的網絡可以滿足數(shù)字助聽器的實時性。

      【發(fā)明內容】

      [0008] 本發(fā)明采用的技術方案是:利用神經網絡、深度和廣度神經網絡的工作原理,結合 不同噪聲之間的特征差異以及語音與噪聲之間的特征差異,對含噪語音提取合適的特征, 構建合理的深度和廣度神經網絡,最終實現(xiàn)噪聲分類和語音增強。過程的具體步驟如下:
      [0009] 步驟一,對數(shù)字助聽器的輸入信號進行預處理,即去均值、歸一化、預加重、分幀、 加窗;
      [0010]步驟二,提取含噪語音信號的自相關函數(shù)最大值和頻帶方差兩個特征,由于噪聲 和語音的這兩個特征有明顯差異,因此,在VAD中,可以提取這兩個特征來判斷語音段和噪 聲段;
      [0011]步驟三,利用BP神經網絡構建一個二值判決器,將步驟二中提取的兩個特征作為 一個二維矢量,輸入到BP神經網絡中。BP神經網絡的輸出是一個一維矢量,用于判斷當前信 號的類型。求出這個一維矢量的眾數(shù),將其設定為判決閾值。大于等于此閾值,為語音段;小 于此閾值,為噪聲段。
      [0012] 步驟四,針對步驟三中判斷出的噪聲段提取MFCC和一階MFCC,對于不同種類的噪 聲來說,它們的MFCC和一階MFCC存在明顯差異,因此,可以提取它們來判別噪聲的類型;
      [0013]步驟五,根據(jù)深度神經網絡的理論知識,利用一個LVQ神經網絡后面級聯(lián)三個BP神 經網絡,三個BP神經網絡之間采用并聯(lián)形式,構建成一個深度神經網絡;
      [0014] 步驟六,根據(jù)步驟四提取的MFCC和一階MFCC,MFCC有16個參數(shù),一階MFCC有8個參 數(shù),將它們組成一個24維的矢量,輸入到步驟五中構建的深度神經網絡中。深度神經網絡的 輸出則表示當前噪聲信號的種類;
      [0015] 步驟七,利用RBF神經網絡、SOM神經網絡、Hopfield神經網絡、Elman神經網絡、LVQ 神經網絡、Kohonen神經網絡、GRNN神經網絡、灰色神經網絡、小波神經網絡和NARX神經網絡 構建一個廣度神經網絡,各個神經網絡之間采用并聯(lián)形式;
      [0016] 步驟八,根據(jù)步驟六中判別出的噪聲種類,步驟七中構建好的廣度神經網絡自動 選擇某一相對應的神經網絡,對步驟三中的語音段進行語音增強。而對于步驟三中的噪聲 段,直接將數(shù)據(jù)置零即可。這樣,就完成了最終的語音增強,再經過終放大和受話器兩個模 塊,得到數(shù)字助聽器的輸出信號。
      [0017] 有益效果
      [0018] 本發(fā)明針對現(xiàn)有的數(shù)字助聽器語音增強算法在復雜噪聲環(huán)境下,噪聲突變而帶來 的適應性差,同時由譜減法所引入的"音樂噪聲"使得數(shù)字助聽器的言語可懂度和舒適度不 想理等問題,提出了一種深度和廣度神經網絡相結合的語音增強算法。本發(fā)明的優(yōu)點在于: 充分利用深度和廣度神經網絡的非線性處理能力、自適應及自學習能力、強魯棒性,能夠適 應多種噪聲環(huán)境,同時避免了使用譜減法所引入的"音樂噪聲",達到既改善語音質量,又大 大提高了言語的可懂度。
      【附圖說明】
      [0019] 圖1本發(fā)明的實現(xiàn)流程圖
      [0020] 圖2 BP神經網絡結構圖
      [0021 ]圖3基于BP神經網絡的VAD檢測結果 [0022]圖4深度神經網絡框圖 [0023]圖5廣度神經網絡框圖
      【具體實施方式】
      [0024] 步驟一,對數(shù)字助聽器的輸入信號進行預處理,即去均值、歸一化、預加重、分幀、 加窗;
      [0025] (1)數(shù)字助聽器的模擬輸入信號x(t),在模/數(shù)轉換過程中,采樣率為16kHz,轉換 后的數(shù)字信號為X(H);
      [0026] (2)為了消除直流分量,采用去均值;為了取消各維數(shù)據(jù)間數(shù)量級差別,避免因為 輸入輸出數(shù)據(jù)數(shù)量級差別較大而造成誤差較大,對數(shù)據(jù)進行歸一化;由于語音信號的高頻 段能量小,造成高頻傳輸衰弱,預加重針對高頻部分進行加重,提高信號傳輸質量。去均值 公式如式(1),歸一化公式如式(2),預加重公式如式(3)所示。
      [0027] xi(n) = x(n)-mean(x(n)) (I)
      [0028] 式中,η為樣點數(shù),mean(X(n))是x(n)序列的平均值,X1(n)是去均值后的信號。
      (2)
      [0030] 式中,η為樣點數(shù),Xmax是x(n)序列的最大值,Xmin是x(n)序列的最小值,X2(n)是歸 一化后的信號。
      [0031] X3(n) =X2(n)_a X X2(n_l) (3)
      [0032]式中,η為樣點數(shù),a是系數(shù),這里取0.9375,χ3(η)是預加重之后的信號。
      [0033] (3)利用哈明窗對X3(n)進行分幀、加窗,根據(jù)語音信號的短時平穩(wěn)特性,取20ms (320點)為一幀的長度,幀移長度為10ms(160點),哈明窗函數(shù)定義如式(4),分幀、加窗定義 如式(5)所示。
      [0035]式中,w(n)是哈明窗函數(shù),η為樣點數(shù),L為窗長。
      [0036] y(n) =X3(n) Xw(n) 0<n<L-l (5)
      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1