国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識(shí)別的健壯特征提取方法和裝置的制作方法

      文檔序號(hào):2829329閱讀:494來源:國(guó)知局
      專利名稱:語音識(shí)別的健壯特征提取方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及到在噪聲環(huán)境中對(duì)語音識(shí)別執(zhí)行健壯(robust)特征提取的方法和裝置。
      語音識(shí)別領(lǐng)域中的一個(gè)主要問題是如何準(zhǔn)確地識(shí)別在噪聲環(huán)境中出現(xiàn)的語音。不同類型的所有可能的噪聲都會(huì)影響到語音識(shí)別,并可能造成識(shí)別精度急劇惡化。
      特別是在移動(dòng)電話或是在識(shí)別出話音口令之后允許訪問的訪問系統(tǒng)等領(lǐng)域中,語音識(shí)別變得更為重要。特別是在上述這些領(lǐng)域中,在可能的不同類型噪聲當(dāng)中,最成問題的是附加的穩(wěn)定或不穩(wěn)定背景噪聲。造成識(shí)別精度惡化的另一種噪聲是通過傳輸信道發(fā)送待識(shí)別語音時(shí)會(huì)受到傳輸信道頻率特性的影響。附加噪聲往往是由背景噪聲組合了傳輸線上產(chǎn)生的噪聲構(gòu)成的。
      按照現(xiàn)有技術(shù)所知是提供一種所謂的線性或非線性頻譜減法。頻譜減法是一種噪聲抑制技術(shù),可以減少附加噪聲對(duì)語音的影響。它是通過從有噪聲量值或功率頻譜中直接減去噪聲量值或功率頻譜來估算清晰語音的量值或功率頻譜。這種技術(shù)是為了在各種通信狀況下增強(qiáng)語音而開發(fā)的。
      頻譜減法需要在停頓期間估算噪聲,并且還假定噪聲特性變化緩慢,以保證對(duì)噪聲的估算仍然有效。這種方法的成功與否要求健壯端點(diǎn)的有效性或者是聲音活動(dòng)檢測(cè)器能夠區(qū)分語音和噪聲。然而,良好的語音和噪聲區(qū)分是一個(gè)必要條件,但是在低信噪比(SNR)條件下難以實(shí)現(xiàn)。
      另外,即使頻譜減法的計(jì)算由于是在語音停頓期間估算噪聲而有效的,再者即使是這種技術(shù)能夠在保留其他處理步驟不變的條件下作為一種預(yù)處理技術(shù),頻譜減法方法的性能仍對(duì)噪聲和提取噪聲的方法有很強(qiáng)的依賴性。與此有關(guān)的問題在于,即使能降低寬帶噪聲,還會(huì)剩下一些殘余噪聲(Junqua等人的“Robustness in automatic speechrecognition”;Kluwer Academic Publisher;1996;Section 9.2Speech Enhancement,page 277 ff.)。
      無論如何,即使用上述方法能夠改善語音識(shí)別,噪聲特性的估算對(duì)這些方案也是至關(guān)緊要的。如上所述,為了標(biāo)出語音信號(hào)中僅僅包含噪聲的那些片段,就需要區(qū)別語音和噪聲。但是這種區(qū)別不可能是沒有誤差的,并且難以實(shí)現(xiàn)。除此之外,在檢查包含疊加的語音和穩(wěn)定噪聲的語音信號(hào)的片段時(shí),這些片段可能被解釋成對(duì)應(yīng)著一個(gè)頻譜噪聲分量和一個(gè)頻譜語音分量的分布函數(shù)的重疊。這些分布函數(shù)重疊取決于SNR。重疊越高,SNR就越低。因此,在這種情況下,在語音的頻譜量值等于或小于噪聲值的那些頻譜區(qū)內(nèi),就無法確定是否有包含語音的短期頻譜。
      本發(fā)明的目的是提供一種解決上述問題的方法和裝置,在有噪聲環(huán)境下實(shí)現(xiàn)一種更健壯的語音識(shí)別。
      這是由權(quán)利要求1,3和20的技術(shù)方案來實(shí)現(xiàn)的。
      本發(fā)明的優(yōu)點(diǎn)是濾除僅僅包含噪聲的短期頻譜,并且對(duì)有噪聲的語音片段額外用可靠的分量?jī)?nèi)插不可靠的頻譜分量,這樣就能改善語音識(shí)別,或者是更直接地提取健壯特征,支持一種改進(jìn)的語音識(shí)別。
      進(jìn)一步的最佳實(shí)施例可以參見權(quán)利要求2-1 2和14-17以及21。
      按照權(quán)利要求2的優(yōu)點(diǎn)是根據(jù)與短期頻譜相鄰的至少一個(gè)頻譜分量和/或至少一個(gè)時(shí)間上在前的頻譜分量執(zhí)行內(nèi)插,按照預(yù)料濾除包含語音的概率比較低的那一個(gè)所謂的不可靠語音分量。
      按照權(quán)利要求3,可以用兩個(gè)相鄰的頻譜分量和一個(gè)時(shí)間上在前的分量改善語音識(shí)別。
      權(quán)利要求4進(jìn)一步的優(yōu)點(diǎn)是將計(jì)算的概率與一個(gè)閾值相比較,以確定必須對(duì)哪一個(gè)頻譜分量執(zhí)行內(nèi)插。
      權(quán)利要求6進(jìn)一步的優(yōu)點(diǎn)是根據(jù)無噪聲語音對(duì)頻譜分量執(zhí)行內(nèi)插。
      按照權(quán)利要求9是執(zhí)行兩個(gè)內(nèi)插,可以獲得更好的語音識(shí)別。
      按照權(quán)利要求12的優(yōu)點(diǎn)是在MEL頻率范圍的基礎(chǔ)上劃分短期頻譜的YYY,因?yàn)镸EL頻率范圍是在人的聽覺范圍。
      進(jìn)一步的優(yōu)點(diǎn)是采用這種語音識(shí)別方法用語音來控制諸如移動(dòng)電話,電話機(jī)或者是訪問系統(tǒng)等電子設(shè)備,用于接入或撥號(hào)等等。
      以下要借助于實(shí)施例和附圖進(jìn)一步解釋本發(fā)明。以下的附圖有

      圖1按照權(quán)利要求1在特征提取中集中的內(nèi)插,圖2按照權(quán)利要求6在特征提取中集中的內(nèi)插,
      圖3按照權(quán)利要求9在特征提取中集中的內(nèi)插,圖4存在語音的概率函數(shù)的一個(gè)示意圖。
      為了使語音識(shí)別相對(duì)于噪聲更加健壯,可以采用一種健壯特征提取方案。這一方案嘗試從語音信號(hào)中提取對(duì)噪聲不敏感或者是不受噪聲影響的那些特征。進(jìn)而,這種特征提取方案主要是基于短期頻譜分析。另外,大多數(shù)語音識(shí)別系統(tǒng)都是基于MEL頻率范圍內(nèi)的短期分析。MEL頻率范圍是基于人的聽覺范圍,并且在現(xiàn)有技術(shù)中是公知的,因此在本文中不必深入描述。
      術(shù)語健壯應(yīng)該包括在上述現(xiàn)有技術(shù)中對(duì)穩(wěn)定和不穩(wěn)定背景噪聲的健壯性。在本申請(qǐng)中,除了上述的健壯性之外還應(yīng)該包括對(duì)任何類型的電子設(shè)備產(chǎn)生的未知頻率特性的健壯性,例如是采用本發(fā)明的移動(dòng)電話或任何其它電話中的麥克風(fēng)和/或數(shù)字或者是模擬濾波器的頻率特性。
      以下要借助于圖1進(jìn)一步解釋本發(fā)明。在經(jīng)過與本發(fā)明無關(guān)并且是現(xiàn)有技術(shù)所公知的裝幀和變換之后,將一個(gè)語音信號(hào)分離成L次能帶中的許多短期頻譜分量,其中的L=1,2,...,L,最好是在10到30MEL的范圍內(nèi)??梢愿鶕?jù)MEL頻率范圍內(nèi)的短期頻譜分析來劃分短期頻譜分量。這種濾波器組在MEL頻率范圍內(nèi)的輸出是在若干個(gè)L次能帶中的一種短期量值或功率頻譜,其中的L=1,2,...。
      下一步執(zhí)行的ES是根據(jù)僅僅包含噪聲的那些片段估算一個(gè)噪聲頻譜??梢圆捎靡粋€(gè)話音活動(dòng)檢測(cè)器來完成。根據(jù)被話音活動(dòng)檢測(cè)器標(biāo)記為噪聲的那一片段中的所有頻譜計(jì)算出平均頻譜。將這一平均頻譜作為估算的噪聲頻譜。
      然后執(zhí)行頻譜減法,從有噪聲短期頻譜Ssub中減去估算的噪聲頻譜,并且產(chǎn)生一個(gè)估算結(jié)果。一種辦法是在量值域內(nèi)對(duì)頻譜分量執(zhí)行減法計(jì)算如下|Sl(ti)|=|Xl(ti)|-|Nl(ti)| (1)其中|Sl|=頻譜語音分量的估算結(jié)果,|Xl|=實(shí)際的有噪聲輸入分量|Nl|=估算的噪聲分量在時(shí)間=t并且次能帶l=1,…,L。
      應(yīng)該注意到諸如Sl,t等數(shù)值在所有公式中的意思都應(yīng)該是一樣的。下一步是計(jì)算各短期頻譜分量包含噪聲的概率。以下要詳細(xì)說明這種概率的計(jì)算。
      如果對(duì)短期頻譜分量計(jì)算出的概率是包含語音的概率很低,就在下一步IP內(nèi)插這一頻譜分量。
      由于當(dāng)今使用的大多數(shù)語音識(shí)別系統(tǒng)都采用了cepstral系數(shù),可以按以下方式進(jìn)一步處理需要平滑和內(nèi)插的上述短期頻譜。一種算法是對(duì)各個(gè)短期頻譜分量取對(duì)數(shù),并且最終通過離散余弦變換DCT將其變換成許多cepstral系數(shù)。
      以下要詳細(xì)說明對(duì)各短期頻譜的頻譜分量的內(nèi)插。
      如上所述計(jì)算出一個(gè)頻譜分量包含語音的概率。如果概率計(jì)算結(jié)果是包含語音的概率很低,就認(rèn)為該頻譜分量是不可靠的。然后內(nèi)插這些不可靠的頻譜分量。例如是根據(jù)查看與這一短期頻譜相鄰的次能帶的至少一個(gè)頻譜分量和/或至少一個(gè)時(shí)間上在前或后續(xù)的頻譜分量來執(zhí)行內(nèi)插。
      在一個(gè)最佳實(shí)施例中是對(duì)兩個(gè)相鄰的次能帶和一個(gè)時(shí)間上在前的頻譜分量執(zhí)行內(nèi)插。
      例如,內(nèi)插是通過計(jì)算以下的加權(quán)和來執(zhí)行的|Sl(ti)|=[probl(ti)×|Sl(ti)|+probl-1(ti)×|Sl-1(ti)|+probl+1(ti)×|Sl+1(ti)|+probl(ti-1)|Sl(ti-1)|]/(∑prob) (2)其中的prob=次能帶l的概率。
      其次相鄰的任何其他次能帶也可以作為內(nèi)插的基礎(chǔ),受到篇幅所限無需進(jìn)一步描述。
      如上所述計(jì)算出各頻譜分量包含噪聲的概率。算出|Sl(ti)|/|Xl(ti)|之間的比例。該比例間接地包括短期頻譜在時(shí)間ti處的信噪比。如圖4所示,該比例取負(fù)無窮大到1之間的值,圖中的X-軸表示比例,而Y-軸代表概率prob。在噪聲分量|Nl(ti)|大于實(shí)際頻譜分量Sl(ti)的情況下出現(xiàn)負(fù)值。它代表噪聲也就是不可靠分量。與此相比,如果估算出沒有噪聲并且存在純語音,就取1值。圖4表示用來定義頻譜分量包含語音的概率的一個(gè)例子。
      如上所述,在對(duì)短期頻譜計(jì)算的概率表明頻譜中包含語音的概率很低的情況下就執(zhí)行內(nèi)插。由于計(jì)算的概率不一定總是0或1,最好是確定一個(gè)閾值來限定頻譜分量,如果其對(duì)應(yīng)的比例低于這一閾值就認(rèn)為是包含語音的概率很低。
      該閾值最好是0.6,也可以是0到1之間的任意值。該閾值可以預(yù)定,或者是根據(jù)環(huán)境而改變。
      以下參照?qǐng)D2來解釋另一個(gè)實(shí)施例。
      應(yīng)該注意到,在所有附圖中具有相同標(biāo)記的那些框是為了表達(dá)相同的意思。
      除了上述步驟之外,還要為各個(gè)短期頻譜確定數(shù)目為M的頻譜距離。上述頻譜距離是在相減之后的短期頻譜與數(shù)目為M的包含無噪聲語音的頻譜之間確定的,M=1,2,...。進(jìn)而要為各個(gè)短期頻譜確定至少一個(gè)包含無噪聲語音的頻譜,它與上述短期頻譜具有最小的頻譜距離。
      頻譜距離可以這樣來計(jì)算Error(|S(ti)|,|V(m)|)=∑probl(ti)×(|Sl(ti)|-|Vl(m)|)2/∑probl(ti)(3)其中V(m)=包含無噪聲語音的頻譜,而m是電碼本入口之一。
      將計(jì)算出的具有最小誤差的那一個(gè)認(rèn)為是具有最小頻譜距離。
      然后從具有最小頻譜距離的上述無噪聲語音頻譜中提取頻譜信息用來執(zhí)行內(nèi)插。無論如何也能獲得所有具有最小頻譜距離的那些無噪聲語音頻譜。
      執(zhí)行內(nèi)插的一種可能性是計(jì)算實(shí)際估算的頻譜分量|Sl(ti)|的一個(gè)加權(quán)和以及最接近矢量的對(duì)應(yīng)分量。可以按以下方式執(zhí)行|Sl(ti)|=probl(ti)|Sl(ti)|+(1-probl(ti))×Vl(mclosest) (4)這一公式的基礎(chǔ)是基于語音僅僅出現(xiàn)在一個(gè)L維頻譜特征空間中的某些區(qū)域中的常識(shí)。按照這一常識(shí),包含語音的概率低的那些頻譜分量的內(nèi)插是基于從電碼本CB中最接近的那個(gè)入口或者是一個(gè)以上接近的入口中提取頻譜信息。
      以下要借助于圖3說明本發(fā)明的另一個(gè)最佳實(shí)施例。
      如圖3所示,除了第一內(nèi)插IP1還執(zhí)行另一個(gè)內(nèi)插IP2。在圖示的例子中,第一內(nèi)插是基于至少一個(gè)相鄰次能帶的頻譜分量,和/或該短期頻譜的至少一個(gè)時(shí)間上在前或后續(xù)的頻譜分量,就象權(quán)利要求2和圖1所表示的那樣。
      按照權(quán)利要求7和圖2,第二內(nèi)插IP2是基于從具有最小頻譜距離的上述無噪聲語音頻譜提取頻譜信息。
      無論如何這并不是為了限制本發(fā)明,例如可以首先執(zhí)行按照權(quán)利要求7的內(nèi)插,然后再執(zhí)行權(quán)利要求2的內(nèi)插??傊畱?yīng)該特別注意到,兩次內(nèi)插的基本方式都是對(duì)不可靠的短期頻譜分量或者最好是含語音的概率較低的上述短期頻譜分量執(zhí)行內(nèi)插。一般來說,含噪聲的頻譜分量的內(nèi)插是基于可以從近旁找到的可用于兩次內(nèi)插的可靠的頻譜語音分量。
      以下要參照?qǐng)D1來說明在有噪聲環(huán)境中用于語音識(shí)別的健壯特征提取的一種裝置。該裝置包括一個(gè)濾波器組MEL,用于將語音信號(hào)劃分成L次能帶中的許多頻譜分量,其中的L=1,2,...。
      用于估算僅含噪聲的噪聲頻譜片段的其他估算裝置ES是可以預(yù)見的。
      該裝置還可以進(jìn)一步包括用來從對(duì)應(yīng)的短期頻譜中執(zhí)行對(duì)估算噪聲頻譜的頻譜減法的一個(gè)減法器SSub,以及用來估算各短期頻譜包含噪聲的概率的一個(gè)計(jì)算器。
      如果對(duì)短期頻譜分量包含語音的計(jì)算的概率是可以預(yù)見的,在這種裝置中同樣可以包括用于內(nèi)插各短期頻譜的頻譜分量的內(nèi)插裝置IP。
      在本發(fā)明的另一個(gè)最佳實(shí)施例中提供了一個(gè)比較器,用于將計(jì)算的概率和限定了包含語音的最低概率的一個(gè)閾值相比較。
      最后,為了獲得cepstral系數(shù),可以采用對(duì)各個(gè)頻譜分量采取對(duì)數(shù)算法的裝置和用來執(zhí)行離散余弦變換DCT的裝置,并且其輸出是被用于語音識(shí)別的許多cepstral系數(shù)。
      以下要參照?qǐng)D2解釋另一個(gè)最佳實(shí)施例。應(yīng)該注意到對(duì)同樣的框仍然采用同樣的縮寫。
      除了圖1中所示的裝置以外,包含無噪聲語音頻譜的電碼本CB是可以預(yù)見的,并且有一個(gè)用來為各個(gè)短期頻譜分量確定M個(gè)頻譜距離的確定裝置,在相減之后確定短期頻譜之間的上述頻譜距離,并且提供M個(gè)包含無噪聲語音頻譜的頻譜。
      進(jìn)而,用于為各個(gè)短期頻譜確定與上述短期頻譜具有最小距離的包含無噪聲語音的至少一個(gè)頻譜的確定裝置MATCH是可以預(yù)見的,其結(jié)果是用內(nèi)插裝置Ipto的一個(gè)輸入來執(zhí)行內(nèi)插。
      最后要說明一種可以加載到電子設(shè)備的存儲(chǔ)器中的一種計(jì)算機(jī)程序產(chǎn)品(沒有附圖)??杉虞d到諸如移動(dòng)電話等等的存儲(chǔ)器中的一種計(jì)算機(jī)程序產(chǎn)品包括用來執(zhí)行權(quán)利要求1到12的任何步驟的軟件代碼部分或模塊。
      最好將這種計(jì)算機(jī)程序存儲(chǔ)在一種計(jì)算機(jī)可讀介質(zhì)上。
      最后還可以將這種方法和裝置以及計(jì)算機(jī)程序產(chǎn)品用于語音識(shí)別,用來控制電子設(shè)備。這種電子設(shè)備例如是電話或移動(dòng)電話,或是一種存取裝置。
      權(quán)利要求
      1.一種在有噪聲環(huán)境下用于語音識(shí)別的健壯特征提取方法,在其中按頻譜分量對(duì)一個(gè)語音信號(hào)分段,它包括以下步驟-將語音信號(hào)劃分成L次能帶中的許多短期頻譜分量,其中的L=1,2,...-根據(jù)僅含噪聲的片段估算一個(gè)噪聲頻譜,-根據(jù)對(duì)應(yīng)的短期頻譜執(zhí)行對(duì)估算的噪聲頻譜的頻譜減法,-為各個(gè)短期頻譜分量計(jì)算出含噪聲的概率,以及-如果為短期頻譜分量計(jì)算出的含語音概率很低,就內(nèi)插各個(gè)短期頻譜的頻譜分量。
      2.按照權(quán)利要求1的方法,其特征是根據(jù)至少一個(gè)次能帶和/或該短期頻譜中在時(shí)間上在前或后續(xù)的頻譜分量執(zhí)行內(nèi)插。
      3.按照權(quán)利要求2的方法,其特征是根據(jù)兩個(gè)相鄰的次能帶和一個(gè)時(shí)間上提前的頻譜分量來執(zhí)行內(nèi)插。
      4.按照權(quán)利要求1到3之一的方法,其特征是將計(jì)算出的概率和限定了包含語音的最低概率的一個(gè)閾值相比較。
      5.按照權(quán)利要求1到4之一的方法,其特征是對(duì)每個(gè)頻譜分量采取一種算法,并且執(zhí)行離散余弦變換(DCT)。
      6.按照權(quán)利要求1的方法,其特征是還有以下步驟-為各個(gè)短期頻譜分量確定M個(gè)頻譜距離,在相減之后確定短期頻譜之間的上述頻譜距離,并且提供M個(gè)包含無噪聲語音的頻譜,-為各個(gè)短期頻譜確定與上述短期頻譜具有最小頻譜距離的包含無噪聲語音的至少一個(gè)頻譜。
      7.按照權(quán)利要求6的方法,其特征是-通過從具有最小頻譜距離的上述無噪聲語音頻譜中提取頻譜信息來執(zhí)行內(nèi)插。
      8.按照權(quán)利要求6或7的方法,其特征是通過計(jì)算一個(gè)加權(quán)均方差(MSE)來確定頻譜距離。
      9.按照權(quán)利要求2和7的方法,其特征是按照權(quán)利要求2執(zhí)行第一內(nèi)插,并按照權(quán)利要求7執(zhí)行第二內(nèi)插。
      10.按照權(quán)利要求6-8之一的方法,其特征是包含無噪聲語音的頻譜被包含在用無噪聲語音訓(xùn)練的一個(gè)電碼本中。
      11.按照權(quán)利要求9的方法,其特征是存儲(chǔ)在電碼本中的頻譜信息是cepstral參數(shù)。
      12.按照前述任何一項(xiàng)權(quán)利要求的方法,其特征是基于MEL頻率范圍將語音劃分成多個(gè)次能帶。
      13.在有噪聲環(huán)境下用于語音識(shí)別的一種健壯特征提取裝置,在其中以頻譜分量為特征對(duì)一個(gè)語音信號(hào)分段,它包括-一個(gè)濾波器組(MEL),用于將語音信號(hào)劃分成L次能帶中的許多頻譜分量,其中的L=1,2,...,-一個(gè)估算裝置(ES),語音估算僅含噪聲的噪聲頻譜片段,-一個(gè)減法器(SSub),根據(jù)對(duì)應(yīng)的短期頻譜對(duì)估算的噪聲頻譜執(zhí)行頻譜減法,-一個(gè)計(jì)算器,用于為各個(gè)短期頻譜計(jì)算其含噪聲的概率,以及-內(nèi)插裝置(IP),如果為短期頻譜分量計(jì)算的概率是包含語音,就內(nèi)插各短期頻譜的頻譜分量。
      14.按照權(quán)利要求13的裝置,其特征是有一個(gè)比較器,用于將計(jì)算的概率和限定了包含語音的最低概率的一個(gè)閾值相比較。
      15.按照權(quán)利要求13或14的裝置,其特征是有一個(gè)對(duì)各個(gè)頻譜分量采取一種算法的裝置(log),以及用來執(zhí)行變換的一個(gè)離散余弦變換(DCT)裝置。
      16.按照權(quán)利要求13到15之一的裝置,其特征在于-包含無噪聲語音頻譜的一個(gè)電碼本(CB),-為各個(gè)短期頻譜分量確定M個(gè)頻譜距離的確定裝置,在相減之后確定短期頻譜之間的上述頻譜距離,并且提供M個(gè)包含無噪聲語音頻譜的頻譜,以及-為各個(gè)短期頻譜確定與上述短期頻譜具有最小距離的包含無噪聲語音的至少一個(gè)頻譜的確定裝置(MATCH)。
      17.按照權(quán)利要求13到16之一的裝置,其特征在于濾波器組是一個(gè)MEL濾波器組。
      18.使用權(quán)利要求13到17之一的語音識(shí)別裝置來控制電子設(shè)備。
      19.權(quán)利要求18的用途,其特征在于電子設(shè)備是一臺(tái)電話或移動(dòng)電話或者是一個(gè)接入系統(tǒng)。
      20.一種可裝載到電子設(shè)備的存儲(chǔ)器中的計(jì)算機(jī)程序產(chǎn)品,其特征是包括用來執(zhí)行權(quán)利要求1到12之一的步驟的軟件代碼部分。
      21.按照權(quán)利要求20的計(jì)算機(jī)程序產(chǎn)品,其特征是計(jì)算機(jī)程序被存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀介質(zhì)上。
      全文摘要
      本發(fā)明涉及一種在有噪聲環(huán)境下用于語音識(shí)別的健壯(robust)特征提取方法和裝置,在其中按頻譜分量的特征對(duì)一個(gè)語音信號(hào)分段。將語音信號(hào)劃分成L次能帶中的許多短期頻譜分量,其中的L=1,2,...,并且根據(jù)僅含噪聲的片段估算一個(gè)噪聲頻譜。然后根據(jù)對(duì)應(yīng)的短期頻譜執(zhí)行對(duì)估算的噪聲頻譜的頻譜減法,并且為各個(gè)短期頻譜分量計(jì)算出含噪聲的概率。最后為含語音的概率很低的各短期頻譜的這些頻譜分量執(zhí)行內(nèi)插,以便平滑那些僅含噪聲的短期頻譜。通過對(duì)含噪聲的頻譜分量執(zhí)行內(nèi)插就能從近旁找到可靠的頻譜語音分量。
      文檔編號(hào)G10L21/0208GK1384960SQ00815076
      公開日2002年12月11日 申請(qǐng)日期2000年9月30日 優(yōu)先權(quán)日1999年10月29日
      發(fā)明者R·布呂克納, H·G·希爾施, R·克利施, V·斯普林格 申請(qǐng)人:艾利森電話股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1