国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      增強語音識別系統(tǒng)穩(wěn)健性的方法

      文檔序號:2831953閱讀:245來源:國知局
      專利名稱:增強語音識別系統(tǒng)穩(wěn)健性的方法
      技術領域
      本發(fā)明涉及自動語音識別技術,具體地,涉及用于在嘈雜環(huán)境中增強語音識別系統(tǒng)穩(wěn)健性能的方法。
      背景技術
      如今,語音識別技術被廣泛使用。例如,呼叫中心使用大規(guī)模的語音識別系統(tǒng)來識 別用戶的語音內(nèi)容并通過語音分析技術來自動回答用戶的問題。另外,可在語音識別引擎 的幫助下通過語音訪問互聯(lián)網(wǎng)服務。例如,一些網(wǎng)絡搜索服務提供商同時也推出了基于手 機平臺的語音搜索服務,很大程度上解決了用戶在使用手機瀏覽網(wǎng)頁時,不方便輸入文字 的問題,提高了用戶的滿意程度。又例如,大量的電子玩具都裝備有嵌入式語音識別引擎, 從而使得它們能夠通過語音與玩家進行互動。通過語音識別引擎掃描語音內(nèi)容并簡要概括 內(nèi)容或為了安全搜索敏感詞。通過語音識別引擎處理多媒體內(nèi)容的音軌以給出索引,從而 方便搜索或瀏覽。隨著語音識別技術的進步,其使用范圍將越來越廣泛。然而,為了增強語音識別引擎的成功應用,還需要解決一些復雜的問題。如何在噪 聲環(huán)境中提高語音識別引擎的穩(wěn)健性能是一個重要的問題。如果語音識別引擎暴露于嘈雜 的環(huán)境,則很難像在干凈或接近于干凈的環(huán)境下工作的一樣。目前,提出了各種技術和方法來提高語音識別系統(tǒng)的穩(wěn)健性??蓮恼Z音識別系統(tǒng) 的框架來研究如何提高語音識別系統(tǒng)的穩(wěn)健性能?,F(xiàn)在,大部分成功的語音識別系統(tǒng)采用 如圖1所示的框架。圖1示出了語音識別系統(tǒng)的主要構(gòu)成框架,其中,一般可包括5個部 分前端處理模塊、頻譜處理模塊、倒譜處理模塊、高斯處理模塊、解碼模塊。首先,接收待分 析信號的前端處理模塊接收語音輸入信號,并將其轉(zhuǎn)換為能夠被二進制機器處理的數(shù)字格 式。通常,前端處理模塊包括麥克風、模擬/數(shù)字(A/D)轉(zhuǎn)換器和編解碼器。接下來,對數(shù) 字化的采樣進行時間-頻率分析以提取能夠代表語音的特征的頻域特征。在多數(shù)情況下, 通過快速傅立葉變換(FTT)來實現(xiàn)該處理。然后,從頻率代表變換更好的代表特征。所述 的特征應該是更具有代表性和/或區(qū)分度的,并組成精簡的特征集。現(xiàn)在最普遍的特征集 是梅爾頻率倒譜系數(shù)(Mel-FrequencyC印strum Coefficient),或者倒譜。接下來,通過一 些距離測量將倒譜與之前已知并存儲在機器中的一些統(tǒng)計信息進行比較,搜索最有可能的 能夠產(chǎn)生提取的倒譜的語音單元。在多數(shù)情況下,該比較過程非常復雜且包括負責處理語 音信息的時間排列問題的耗時的解碼處理。在順序地搜索出每個倒譜的語音單元之后,可 輸出語音系列,并通過模擬語音信號給出語音內(nèi)容的猜測。通過猜測,機器可“識別”用戶 所說的語音。但是在噪聲存在的情況下,圖1的每個模塊的輸入與干凈情況下相比有很大失 真。例如,輸入模擬語音信號混雜有噪聲信號。這樣形成了噪聲頻譜,從噪聲頻譜提取的是 噪聲倒譜。當將噪聲倒譜與已知的倒譜進行比較時,由于不能從噪聲倒譜得到與干凈環(huán)境 中的對應部分最近的距離測量,難以搜索出正確的語音單元。因此,搜索出錯誤的語音單 元。最后,順序輸出了偏離正確語音的錯誤的語音單元。通常,噪聲越多,識別的效果越差。例如,在車站、餐廳等公共場合,傳統(tǒng)的語音識別系統(tǒng)的識別效果很差。目前,為了解決該問題,如圖1所示,已經(jīng)公開了用于圖1中的各個模塊的增強方 法。例如,在前端處理過程中,可使用前端增強技術來從嘈雜的語音中估計干凈的語音???體說來,維納(Wiener)濾波方法是最常用的。可采用多麥克風技術來提高干凈信號估計的 精確度。但是該技術方案需要多個麥克風輸入信道,否則難以僅通過單信道的混合輸入估 計干凈的語音信號。但是在許多實際應用中,硬件設計限制了多信道的使用,而改變硬件設 計是很困難的。
      除了維納濾波外,還有其它很多方法嘗試從噪聲頻譜中估計干凈的語音頻譜。比 如,在估計了噪聲頻譜之后,從嘈雜的頻譜中減去噪聲頻譜。這一類的方法被命名為噪聲頻 譜減法。這類方法在語音增強技術中起到了長久和成功的效應。已經(jīng)開發(fā)了多種良好的算 法從混合的頻譜中估計干凈的頻譜。此外,如果允許采用多信道,則可更大程度地提高性 能。但是該方法也具有天然的缺陷。首先,從單信道輸入的混合的嘈雜頻譜中估計干凈的 頻譜仍是難題;其次,噪聲頻譜減法方法不能給出正確的語音頻譜估計,而只是給出計算的 可行近似度。因此,噪聲頻譜減法產(chǎn)生了錯誤因素,將降低語音識別引擎的性能。另外,多數(shù)補償方法都作用于倒譜域。提出了多種方法從嘈雜的噪聲倒譜估計干 凈的語音信號倒譜。例如,利用從嘈雜語音庫訓練得到的預測參數(shù),從現(xiàn)場提取的嘈雜倒譜 估計干凈的語音倒譜,取得了較好性能。但是,由于該方法涉及大量的嘈雜語音庫來訓練相 關參數(shù),因此難以復制其成功模式。噪聲語音庫的使用對于其他使用者,尤其是預算不足的 使用者來說是一個沉重的負擔。即使采用相同的方法,但是如果不使用代表性的噪聲語音 庫,也難以得到理想的性能。雖然已經(jīng)提出了多種方法來提高語音識別系統(tǒng)的穩(wěn)健性能,然而目前在強噪聲和 一般應用場合下提高語音識別系統(tǒng)的穩(wěn)健性能仍是難題。某些特定的應用可以很好地處理 在某些背景環(huán)境下的問題,例如,設計用于室內(nèi)環(huán)境的語音識別系統(tǒng)可處理在室內(nèi)的語音 環(huán)境下的識別穩(wěn)健性能。然而,一般性的解決方案仍有待開發(fā)。另一個問題是,目前的語音 識別方案都具有不同的缺點,例如,一些方案需要承載巨大的計算量,而另一些方案需要大 量的噪聲訓練庫。因此,尤其對于嵌入式語音識別系統(tǒng)來說,低成本、沒有訓練需求、幀同步 處理和在不同情況下良好的底線的高效語音識別設備仍是亟待解決的問題。

      發(fā)明內(nèi)容
      本發(fā)明提出了一種增強語音識別系統(tǒng)穩(wěn)健性能的方法,以支持實時幀同步處理, 并可以在不需要噪聲訓練庫的訓練的情況下高效的工作,以此更加適合于在考慮嵌入式系 統(tǒng)平臺的計算資源的限制的情況下使用。根據(jù)本發(fā)明的一方面,提出了一種增強語音識別系統(tǒng)穩(wěn)健性的噪聲估計方法,包 括步驟對輸入的語音信號進行分段處理;根據(jù)當前信號段的瞬時功率譜更新語音信號功 率譜的長時平均值和語音信號功率譜的長時平均值的最小值;將更新后的功率譜長時平均 值的最小值作為對噪聲功率譜的估計,計算語音信號的第一頻域信噪比;根據(jù)第一頻域信 噪比來判決不同頻率分布區(qū)域是否存在有效語音的判決,基于所述判決估計瞬時的第一噪 聲功率譜;根據(jù)估計的第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長 時平均值的最小值;將更新的噪聲的功率譜長時平均值的最小值作為對噪聲功率譜的第二次估計再次估計語音信號的第二頻域信噪比;基于第二次估計得到的第二頻域信噪比估計 頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。根據(jù)本發(fā)明的另一方面,還提出了一種用于增強語音識別系統(tǒng)的穩(wěn)健性的噪聲補 償方法,包括從語音信號功率譜減去估計的噪聲功率譜;在梅爾頻域上對減去噪聲功率 譜的語音信號進行指數(shù)運算處理;提取指數(shù)運算處理的語音信號的梅爾頻率倒譜系數(shù)作為 噪聲補償后的語音信號的特征系數(shù)。


      通過下面結(jié)合附圖對實施例的詳細描述,本發(fā)明的上述和/或其他方 面將會變得 清楚和更容易理解,其中圖1是示出傳統(tǒng)的語音識別系統(tǒng)的主要構(gòu)成框架的框圖;圖2示出的是傳統(tǒng)的嵌入移動終端的語音識別引擎的結(jié)構(gòu);圖3是示出根據(jù)本發(fā)明實施例的用于增強語音識別系統(tǒng)的穩(wěn)健性能的設備的總 體框圖;圖4是示出根據(jù)本發(fā)明實施例的語音識別系統(tǒng)的噪聲估計模塊的工作過程的流 程圖;圖5A至圖5C是示出采用根據(jù)本發(fā)明實施例的噪聲估計和特征提取方法所得到的 語音識別率與傳統(tǒng)語音識別系統(tǒng)以及采用傳統(tǒng)噪聲譜減方法的語音識別系統(tǒng)的識別率的 比較的圖。
      具體實施例方式下面將參照附圖詳細描述根據(jù)本發(fā)明的用于增強語音識別系統(tǒng)的穩(wěn)健性的方法 的實施例。在附圖中,相同的標號表示相同的部件。通常,具有語音識別功能的移動終端具有語音用戶接口(UI),所述語音UI可用于 檢索存儲在移動終端中的本地數(shù)據(jù)、查詢移動web、訪問移動web服務等。多數(shù)語音識別系 統(tǒng)(語音識別引擎)具有如圖2所示的結(jié)構(gòu)。圖2示出的是傳統(tǒng)的嵌入移動終端的語音識 別引擎的結(jié)構(gòu),包括前端處理模塊、特征提取模塊、解碼模塊和模型庫。首先,由前端處理模 塊接收語音信號并對語音信號進行數(shù)模(A/D)轉(zhuǎn)換。然后,特征提取模塊從數(shù)字化的語音 信號中提取語音特征。最后,解碼模塊執(zhí)行解碼以搜索識別的腳本。解碼處理由模型庫支 持。通常使用隱藏馬爾科夫模型HMM作為模型庫。識別的腳本被輸入到移動終端的相關軟 件來支持語音識別應用。根據(jù)本發(fā)明實施例的增強語音識別系統(tǒng)的穩(wěn)健性能的方法通過對輸入語音信號 進行噪聲估計來對嘈雜環(huán)境下輸入的語音信號進行處理,使其更接近于在干凈環(huán)境下的語
      音信號。圖3是示出根據(jù)本發(fā)明實施例的用于增強語音識別系統(tǒng)的穩(wěn)健性能的設備的總 體框圖。與如圖2所示的語音識別引擎相同,該設備包括前端處理模塊100、特征提取模塊 200、解碼模塊300和模型庫400。其中,前端處理模塊100包括前端模塊110和噪聲估計模 塊120,特征提取模塊200包括噪聲譜減模塊210、濾波器220、指數(shù)調(diào)整模塊230和離散余弦變換模塊240。首先將詳細描述前端處理模塊100的工作方式。前端模塊110負責接收語音信號 并將其轉(zhuǎn)換為數(shù)字信號。通常,前端模塊110包括麥克風、A/D轉(zhuǎn)換器和編解碼器。到達噪 聲估計模塊120的信號是經(jīng)過數(shù)字化處理的輸入信號流。圖4是示出根據(jù)本發(fā)明實施例的語音識別系統(tǒng)的噪聲估計模塊120的工作過程的 流程圖。圖4詳細描述了噪聲估計模塊120處理輸入的語音信號以得到更接近于干凈環(huán)境 的語音信號的過程。首先,由于后續(xù)的噪聲總是對部分時間段內(nèi)的信號進行處理,因此,噪聲估計模塊 120首先對輸入的語音信號進行分段處理。將信號流按照一定的時長分割為定長的信號段, 同時,前后信號段之間保持一定的交疊段。在得到當前信號段之后,噪聲估計模塊120根據(jù)當前信號段的瞬時功率譜更新語 音信號功率譜的長時平均值(long term smoothed power) (SlO)。具體地說,噪聲估計模塊
      120將保存在存儲裝置里的語音信號的功率譜長時平均值;與瞬時功率譜值?3進行線性整
      合,得到一個更新的功率譜長時平均值;^new,并將更新的功率譜長時平均值;保存在移
      動終端的存儲裝置中作為保存的功率譜長時平均值;^。另外,除了保存語音信號的功率譜長時平均值;^,噪聲估計模塊120還將語音信
      號的功率譜長時平均值中的最小值保存在存儲裝置中以更新功率譜長時平均值的最 小值(Sll)。具體地,在完成對功率譜的長時平均值更新之后,噪聲估計模塊120將更新的 功率譜長時平均值;^與保存在存儲裝置中的功率譜長時平均值的最小值進行比較。
      如果;,則保持存儲在存儲裝置中不變,如果;,則將當前的叉保存
      到存儲裝置中作為更新的。接下來,噪聲估計模塊120將更新后的功率譜最小值i”·作為對噪聲功率譜的估
      計,從而基于功率譜長時平均值的最小值^imm來估計當前的頻域信噪比(S12),為了區(qū)分, 將其稱為第一信噪比。然后,基于在S12得到的第一信噪比,噪聲估計模塊120設置語音有效指示符I。 如果某頻率區(qū)間的信噪比小于預設的閾值,則判定該頻率區(qū)間不存在有效語音,將I設置 為1,否則認為該頻率區(qū)間包含有效語音,將I設置為0。在得到關于不同頻率分布區(qū)域是否存在有效語音的判決之后,根據(jù)以下的等式 (1)得到瞬時的噪聲功率譜估計<formula>formula see original document page 7</formula>其中,SN是估計的瞬時噪聲功率譜,1代表時間指標,k代表頻率指標。Y表示當 前信號段的瞬時功率譜,可以通過對當前信號段的傅里葉分析得到Y(jié)。這里,I是判定當前頻率區(qū)間(k-w,k+w)是否包含有效語音的指示函數(shù),當判定無有效語音時,I的數(shù)值為1,否 則為O。b為設定的平滑窗函數(shù)。這里,可以使用漢明、漢寧等常用窗函數(shù)作為平滑窗函數(shù)。 通過以上過程,就利用判定不存在有效語音成分的頻率段內(nèi)的瞬時功率譜初步得到了有關 噪聲的瞬時功率譜估計Pn。得到噪聲的瞬時頻率譜估計數(shù)據(jù)后,就可以對噪聲的功率譜長時平均值進行更新 (S13)。噪聲估計模塊120將保存在存儲設備里的噪聲功率譜長時平均值;與噪聲的瞬時 功率譜估計數(shù)據(jù)Pn進行線性整合,得到新的噪聲功率譜長時平均值,并保存在存儲設備中 作為更新的噪聲功率譜長時平均值;^。然后,噪聲估計模塊120更新噪聲的長時功率譜估計的最小值數(shù)據(jù),并將其 保存在存儲設備中(S14)。具體地,當彡>n .時,保持不變;當孓<—p .時,將當前
      <formula>formula see original document page 8</formula>接下來,噪聲估計模塊120利用噪聲的長時功率譜估計的最小值,再次得到 更精確的頻域信噪比(S15),這里,為了與在S12第一次估計的信噪比進行區(qū)分,將第二次 得到的頻域信噪比稱為第二信噪比。根據(jù)第二次更新得到的第二信噪比,噪聲估計模塊120根據(jù)等式(2)估計語音存 在的概率 probability (S16)
      <formula>formula see original document page 8</formula>
      其中,ξ和υ表示先驗和后驗信噪比系數(shù),1代表時間指標,k代表頻率指標。這 兩個信噪比系數(shù)表達了信噪比在時間-頻率空間上的分布情況。Q是根據(jù)第二次更新得到 的頻域信噪比判定的語音因子。如果該信噪比非常小,低于一個事先設定的閾值,則Q= 1, 表示不存在語音成分;如果該信噪比較小,處于一個模糊范圍內(nèi),則Q計算為一個信噪比相 關系數(shù),在(0,1)之間,存在語音的可能性越大,則Q越小,當明確有語音成分存在時,Q接 近0 ;當Q計算為0時,表示為明確的語音成分。按照該公式計算出的probability就是在 時間_頻率空間上分布的一個關于語音存在可能度的估計。最后,噪聲估計模塊120根據(jù)probability (k,1)的數(shù)值計算更精確的噪聲功率譜 (S17)。具體地,根據(jù)等式(3)確定得到一個時間-頻率空間上分布的平滑系數(shù)5(、/),計算 如下a{k,l) -a + {\- a)probability{k,I)(3)其中,α是通過實驗測定的系數(shù)。然后,根據(jù)等式(4)得到估計的噪聲功率譜N(k,/ +1) = a(k,l)N(k.l) + (1 - oc{k,/)) | Y{k,I) |2(4)這里,及表示估計的噪聲功率譜,Y是輸入的原始語音信號的幅度譜。通過對語音信號的信噪比進行兩次估計得到了更精確的噪聲功率譜,可以在后續(xù) 的處理中通過噪聲譜減法得到更接近于干凈環(huán)境的語音信號,這樣,提高了語音識別系統(tǒng)的穩(wěn)健性能。通常,在傳統(tǒng)設備中,梅爾頻率倒譜系數(shù)(MFCC)是要從待識別的語音信號中提取 的特征。假設x(n)是當前正處理的信號段,已經(jīng)對χ (η)經(jīng)過分段、預加重、平滑窗處理等 通常的語音識別設備前端處理。在傳統(tǒng)設備中,要從該信號段提取MFCC特征(即,MFCC系 數(shù)),如下
      <formula>formula see original document page 9</formula>這里,Cj是MFCC系數(shù),log (Ei)是信號的梅爾頻率i上的對數(shù)能量數(shù)據(jù),計算如下
      <formula>formula see original document page 9</formula>
      |X|即信號段x(n)的幅度譜,Vi表示梅爾頻率i上的三角窗帶通濾波器。下面參照回到圖3詳細描述根據(jù)本發(fā)明實施例的語音識別系統(tǒng)的特征提取模塊 200的工作過程。在從前端處理模塊100得到噪聲功率譜估計之后,噪聲譜減模塊210從原始的語 音信號功率譜中減去估計的噪聲功率譜譜。E1 = E1 - Ni(7)其中,Ei代表在梅爾頻率i處的能量數(shù)據(jù),Ni代表在梅爾頻率i處估計的噪聲能
      量數(shù)據(jù)。隨后,梅爾濾波器220對從噪聲譜減模塊210輸出的信號進行濾波。接下來,指數(shù)調(diào)整模塊230在梅爾頻域的能量數(shù)據(jù)上對濾波平滑后的梅爾能量數(shù) 據(jù)進行指數(shù)運算,然后對指數(shù)運算的梅爾頻域的能量數(shù)據(jù)進行DCT變換以得到新的MFCC
      系數(shù)?ζ。如以下等式所示?, - Y cos[J * {2ι~1)π] * Ef(8)其中,α表示指數(shù)運算的指數(shù)系數(shù),例如α = 1/10。通過以上過程,重新計算的 MFCC系數(shù)就是對噪聲補償后的新的特征數(shù)據(jù)。后端的語音識別設備將對該特征進行解碼過 程,代替?zhèn)鹘y(tǒng)的特征解碼過程。另外,在解碼過程中,還可以設計噪聲編碼來與噪聲估計模塊所估計的不同類型 的噪聲對應?;诓煌脑肼暰幋a,可訓練不同的HMM模型來覆蓋由不同的噪聲類型引起 的聲音現(xiàn)象。在解碼處理中,首先基于估計的噪聲估計噪聲編碼。然后,根據(jù)噪聲編碼對噪 聲分類,從而可根據(jù)噪聲的類型僅將與噪聲相應的模型加載到解碼處理中,從而提高了語 音識別系統(tǒng)的處理能力。圖5Α至圖5C是示出采用根據(jù)本發(fā)明實施例的噪聲估計和特征提取方法所得到的 語音識別率與傳統(tǒng)語音識別系統(tǒng)以及采用傳統(tǒng)噪聲譜減方法的語音識別系統(tǒng)的識別率的 比較的圖。其中,圖5Α是示出在多人環(huán)境中的識別率,圖5Β示出在工廠環(huán)境中的識別率, 圖5C示出在汽車環(huán)境中的識別率。在圖5Α至圖5C中,最上方的直線1表示了在沒有噪聲的情況下語音識別設備的 識別率數(shù)據(jù)。曲線2表示傳統(tǒng)系統(tǒng)的識別率數(shù)據(jù),隨著信噪比的不斷下降,識別率也不斷下降。曲線3是采用噪聲功率譜減法得到的識別率數(shù)據(jù)。可以看到,該方法可以有效提高設 備在不同噪聲類型、不同噪聲強度下的識別率精度。曲線4表示的是采用本發(fā)明的噪聲估 計補償方法后得到的新特征的識別設備的識別率數(shù)據(jù)。曲線5表示的是采用本發(fā)明的噪聲 估計和補償方法后同時針對不同的噪聲類型分別建立噪聲標記的聲學模型進行解碼的識 別設備的識別率數(shù)據(jù)。和曲線3代表的傳統(tǒng)方法的效果相比,可以看到,采用了曲線4和曲 線5的兩種方案的識別設備的識別率數(shù)據(jù)都有更好的提高。并且改善效果非常明顯。 雖然已經(jīng)示出和描述了本發(fā)明的若干實施例,但是本領域的技術人員將理解,在 不脫離權(quán)利要求限定的本發(fā)明的原理和精神的情況下,可以做出各種改變,本發(fā)明的范圍 在權(quán)利要求及其等同物中限定。
      權(quán)利要求
      一種用于增強語音識別系統(tǒng)穩(wěn)健性的噪聲估計方法,其特征在于包括步驟根據(jù)當前信號段的瞬時功率譜更新語音信號功率譜的長時平均值和語音信號功率譜的長時平均值的最小值;將更新后的所述功率譜長時平均值的最小值作為對噪聲功率譜的估計,計算語音信號的第一頻域信噪比;根據(jù)所述第一頻域信噪比來判決不同頻率分布區(qū)域是否存在有效語音,并基于該判決估計瞬時的第一噪聲功率譜;根據(jù)所述第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長時平均值的最小值;將更新的噪聲的功率譜長時平均值的最小值作為對噪聲功率譜的第二次估計計算語音信號的第二頻域信噪比;基于所述第二次估計得到的第二頻域信噪比估計頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。
      2.如權(quán)利要求1所述的噪聲估計方法,其特征在于所述基于判決估計瞬時的第一噪聲 功率譜步驟中,按以下等式來估計瞬時的第一噪聲功率譜<formula>formula see original document page 2</formula>式中,SN表示瞬時的第一噪聲功率譜,1代表時間指標,k代表頻率指標,Y表示當前信 號段的瞬時功率譜,I是判定當前頻率區(qū)間(k-w,k+w)是否包含有效語音的指示函數(shù),當判 定無有效語音時,I的數(shù)值為1,否則為0,b為設定的平滑窗函數(shù)。
      3.如權(quán)利要求1所述的噪聲估計方法,其特征在于所述基于第二次估計得到的第二頻 域信噪比估計頻域中存在語音的概率步驟中,基于以下等式來估計頻域中存在語音的概率 P <formula>formula see original document page 2</formula>式中,ξ和U表示先驗和后驗信噪比系數(shù),1代表時間指標,k代表頻率指標,Q是表 示第二次更新得到的頻域信噪比判定的語音因子。
      4.如權(quán)利要求1所述的噪聲估計方法,其特征在于所述基于語音存在的概率估計第二 噪聲功率譜的步驟中,根據(jù)以下等式來估計第二噪聲功率譜<formula>formula see original document page 2</formula>式中,茂(々,/)表示時間-頻率空間上分布的平滑系數(shù),α表示通過實驗測定的概率系 數(shù),及表示估計的第二噪聲功率譜,Y表示輸入的原始語音信號的幅度譜。
      5.一種用于增強語音識別系統(tǒng)的穩(wěn)健性的噪聲補償方法,其特征在于包括以下步驟 從語音信號功率譜減去的估計的噪聲功率譜;在梅爾頻域上對減去噪聲功率譜的語音信號進行指數(shù)運算;對指數(shù)運算后的語音信號進行離散余弦變換以提取梅爾頻率倒譜系數(shù)作為語音信號的特征系數(shù)。
      全文摘要
      提出了用于增強語音識別系統(tǒng)的穩(wěn)健性噪聲估計方法,所述方法包括根據(jù)當前信號段的瞬時功率譜更新語音信號功率譜的長時平均值和語音信號功率譜的長時平均值的最小值;根據(jù)功率譜長時平均值的最小值計算語音信號的第一頻域信噪比;根據(jù)第一頻域信噪比來判決不同頻率分布區(qū)域是否存在有效語音的判決,基于所述判決估計瞬時的第一噪聲功率譜;根據(jù)估計的第一噪聲功率譜來更新噪聲的功率譜長時平均值和噪聲的功率譜長時平均值的最小值;根據(jù)更新的噪聲的功率譜長時平均值的最小值再次估計語音信號的第二頻域信噪比;基于第二次估計得到的第二頻域信噪比估計頻域中存在語音的概率;基于語音存在的概率估計第二噪聲功率譜。
      文檔編號G10L21/02GK101814290SQ200910004798
      公開日2010年8月25日 申請日期2009年2月25日 優(yōu)先權(quán)日2009年2月25日
      發(fā)明者史媛媛, 朱璇, 鄧菁 申請人:三星電子株式會社;北京三星通信技術研究有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1