專利名稱::具有后端聲音活動(dòng)檢測的分布式語音識別設(shè)備和方法
技術(shù)領(lǐng)域:
:本發(fā)明通常涉及語音識別,且尤其涉及分布式語音識別。
背景技術(shù):
:在本領(lǐng)域語音識別是眾所周知的。通常,先語音音頻輸入數(shù)字化,然后進(jìn)行處理,幫助鑒別包含在語音輸入中的特定的口語單詞。依照一種方法,從數(shù)字化后的語音中抽取所謂的特征,然后與預(yù)先存儲的模式進(jìn)行對比實(shí)現(xiàn)語音內(nèi)容的識別。同樣眾所周知的是通過兩個(gè)不同的處理單元解析或分布特征抽取和模式匹配行為。例如,歐洲技術(shù)標(biāo)準(zhǔn)組織(ETSI)已經(jīng)于2000年4月在標(biāo)準(zhǔn)ES201108Ver.1.12中提出了一種分布式語音識別系統(tǒng),其中諸如蜂窩手持設(shè)備的便攜式設(shè)備執(zhí)行特征抽取功能,并將得到的特征傳輸給便于完成模式匹配功能的固定端平臺。同樣眾所周知的是,通常情況下當(dāng)輸入可以準(zhǔn)確地區(qū)分為語音或非語音音頻輸入的時(shí)候,模式匹配可以更加成功地完成。例如,當(dāng)有足夠的信息確定一段給定的音頻輸入為非語音信號時(shí),該信息可以通過諸如減少對于特定的非語音信號段進(jìn)行模式匹配行為的方式有效地影響模式匹配行為的功能。不幸的是,聲音活動(dòng)檢測的優(yōu)點(diǎn)在諸如上面提及的ETSI標(biāo)準(zhǔn)中的分布式語音識別系統(tǒng)中并未得到體現(xiàn)。相反,在沒有任何聲音信號檢測信息的情況下將語音內(nèi)容特征傳輸給遠(yuǎn)程的模式匹配平臺。通過下面詳細(xì)實(shí)施方式描述的具有后端聲音活動(dòng)檢測的分布式語音識別設(shè)備和方法,可以部分地滿足上面的需求,尤其是在結(jié)合附圖進(jìn)行研究的時(shí)候,其中圖1包含現(xiàn)有技術(shù)中分布式語音識別系統(tǒng)的前端特征抽取器的描述。圖2包含具有依照本發(fā)明不同實(shí)施例配置的聲音活動(dòng)檢測的后端模式匹配平臺的結(jié)構(gòu)圖描述;圖3包含依照本發(fā)明實(shí)施例配置的聲音活動(dòng)檢測器的結(jié)構(gòu)圖。本領(lǐng)域技術(shù)人員將意識到,附圖中的元素是為了闡述得更加簡單和清楚,并不需要按照比例繪制。例如,為了更加全面地展現(xiàn)本發(fā)明這些不同實(shí)施例,商業(yè)上可行的實(shí)施例中有用或必要的一些普通但公知的組件通常未被圖示。具體實(shí)施例方式一般而言,依照這些不同的實(shí)施例,對多個(gè)語音識別的特征進(jìn)行處理,提供至少一份產(chǎn)生這些語音識別特征的原始信息的近似。隨后對這些原始信息進(jìn)行處理,檢測可能對應(yīng)于語音的部分,從而提供相應(yīng)的鑒定。然后使用這些語音檢測信息幫助語音識別特征的識別過程。在一種實(shí)施例中,語音識別特征包括Mel頻率倒譜系數(shù)。在一種實(shí)施例中,通過反離散余弦變換對語音識別特征進(jìn)行處理,產(chǎn)生用于提供原始信息近似的結(jié)果值。如果需要,這些結(jié)果值本身可以通過求冪運(yùn)算進(jìn)行處理,提供原始信息。在另一種實(shí)施例中,對語音識別特征進(jìn)行處理確定信噪比信息,此信息可以單獨(dú)或者與其他聲音活動(dòng)信息一起幫助語音識別特征的識別過程。如此配置下,盡管初始時(shí)前端特征抽取部分并沒有傳送聲音活動(dòng)檢測信息,分布式語音識別系統(tǒng)中的模式匹配行為可以得益于聲音活動(dòng)檢測信息。這樣可以提高識別和/或減少功率和/或處理的需求。在說明依照本發(fā)明的不同實(shí)施例之前,首先說明分布式語音識別系統(tǒng)的前端特征抽取器的解說示例。這個(gè)示例將為說明一些特定的實(shí)施例提供有益的上下文?,F(xiàn)在參考圖1,諸如語音的音頻輸入在模數(shù)轉(zhuǎn)換器11進(jìn)行數(shù)字化(可選,如本領(lǐng)域所公知的那樣,數(shù)字化后的語音隨后通過直流偏置移除濾波器(未圖示))。分幀單元12隨后將數(shù)字化后的語音解析成對應(yīng)的幀。幀的大小通常取決于采樣頻率。例如,早期參考的ETSI分布式語音識別標(biāo)準(zhǔn)采用三種不同的采樣頻率,即8、11和16KHz。對應(yīng)這三種采樣頻率的合適的幀的大小分別為200,256和400個(gè)采樣點(diǎn)。隨后對數(shù)(log)能量單元13計(jì)算每一幀全部能量的自然對數(shù),提供Log-E參數(shù),該參數(shù)包括一個(gè)最終提供給分布式語音識別系統(tǒng)后端的語音識別特征。分幀后的信息提供給濾波器和快速傅立葉變換(FFT)單元14。特別地,一個(gè)預(yù)加重過濾器對語音內(nèi)容的高頻分量進(jìn)行加強(qiáng)。隨后采用同樣大小的海明窗(Hammingwindow)對這些經(jīng)過預(yù)加重的幀進(jìn)行加窗處理。加窗后的幀在頻域上進(jìn)行快速傅立葉變換。FFT的大小取決于采樣頻率,即對應(yīng)于8和11KHz的256點(diǎn)以及對應(yīng)于16KHz的512點(diǎn)。FFT頻率幅值在64Hz和Fs/2之間,其中Fs是采樣頻率,隨后進(jìn)行Mel濾波15。Mel濾波可以按照如下方式完成。首先采用下面的表達(dá)式將上述范圍內(nèi)的頻率轉(zhuǎn)換到Mel頻率標(biāo)度Mel(f)=2595.0*log10(1+f700.0).]]>隨后將轉(zhuǎn)換后的頻率劃分為23個(gè)相同大小的,半交迭的頻帶(也叫做通道或柵格)。例如,如果Fs為8000Hz,在64Hz到4000HZ之間的頻率范圍轉(zhuǎn)換為98.6到2146.1之間的Mel頻率標(biāo)度,并將其劃分為23個(gè)頻帶,每個(gè)頻帶寬170.6,頻帶中心距離為85.3。第一個(gè)頻帶的中心頻率位于98.6+85.3=183.9,而最后一個(gè)頻帶的中心頻率位于2146.1-85.3=2060.8。這些中心隨后進(jìn)行反變換并取舍到最近的FFT柵格頻率。在線性頻域中,這23個(gè)頻帶的大小不再一致,且通常每個(gè)頻帶的大小隨著頻率的增加而增加。然后采用三角加權(quán)窗(中心權(quán)重為1.0而每端權(quán)重接近0.0)將每個(gè)頻帶內(nèi)的FFT幅值混合在一起。隨后Mel濾波器組的輸出經(jīng)過(自然)對數(shù)功能單元16。對這23個(gè)對數(shù)值采用離散余弦變換(DCT)17進(jìn)行變換,獲得13個(gè)Mel頻率倒譜系數(shù)C0到C12。在這個(gè)實(shí)施例中,舍去了C13到C22的值,也就是說并沒有對其進(jìn)行計(jì)算,這是因?yàn)樗鼈儾⒉粋鬏敾蛱峁┙o后端模式匹配行為。隨后對Mel頻率倒譜系數(shù)參數(shù)和log-E參數(shù)進(jìn)行量化,并在編碼器18進(jìn)行適當(dāng)編碼,提供給作為傳輸選擇的無線發(fā)送裝置發(fā)送給遠(yuǎn)程后端模式識別平臺。上述特征抽取的功能可以很容易地集成在諸如蜂窩手持設(shè)備地?zé)o線收發(fā)平臺中。在這樣的配置下,提供給手持設(shè)備的可聽語音能在其中為后續(xù)的遠(yuǎn)程處理過程提取語音識別特征。在上面提及的示例中,語音識別特征包括Mel頻率倒譜系數(shù)和log-E參數(shù)。需要理解的是,這個(gè)示例僅僅是為了說明,但是是實(shí)現(xiàn)本發(fā)明的一些實(shí)施例的詳細(xì)實(shí)施方式的有益的基礎(chǔ)。有多個(gè)其他的可供提取的語音識別特征,既可以作為補(bǔ)充,也可以替代上面的特征。本發(fā)明的范圍同樣適用于這些可選的實(shí)施例。圖2提供了適合使用上述前端特征提取平臺的后端模式識別平臺的結(jié)構(gòu)圖的概述。合適的無線接收裝置21接收從上述前端平臺傳輸?shù)恼Z音識別特征信息。解碼器22對所接收的信息進(jìn)行解碼,恢復(fù)出上述的語音識別特征信息。這些信息隨后提供給反離散余弦變換單元23,如下面等式描述Di=C023+223Σj=112Cjcos((2i+1)jπ2*23);i=0,1,...,22.]]>(注意上面的等式中倒譜系數(shù)C13到C22假定為0)。得到的Di值隨后在加冪單元24進(jìn)行加冪,獲得如下的濾波器組輸出Fi=exp(Di);i=0,1,...,22。當(dāng)然,由于前面的切除操作(即舍棄值C13到C22)和Mel頻率倒譜值C0到C12的量化,上面獲得的濾波器頻帶輸出F0到F22僅僅是在前端計(jì)算的原始濾波器組輸出的近似值。這些濾波器的輸出表示了可用于獲取語音識別特征的原始信息的近似。將該原始信息提供給聲音活動(dòng)檢測器25,檢測器用于檢測原始信息是否可能包括至少一定的語音。分割單元26隨后使用這個(gè)信息,向模式匹配單元27提供一個(gè)或多個(gè)信號,確定由解碼器22向模式匹配單元27提供的片斷中哪一個(gè)可能包括語音內(nèi)容。如此配置,模式匹配單元27由此可以處理語音識別特征,從而可能提高識別質(zhì)量和準(zhǔn)確性和/或減少獲得類似結(jié)果的功率/處理需求。如果需要,聲音活動(dòng)檢測器25可以對所恢復(fù)的原始信息進(jìn)行處理,獲得對應(yīng)于原始音頻輸入的表示信噪比(SNR)的信號。對于模式匹配單元27,該信息在上面提及的類似的目的方面潛在地是有用的。現(xiàn)在參考圖3,提供了對示例性的聲音活動(dòng)檢測器25更加詳細(xì)的描述。上面提及的濾波器組輸出F0到F22可以認(rèn)為是當(dāng)前輸入幀的不同頻帶或通道的平均頻譜幅值的估計(jì)值。我們將用F(m,i)表示第m幀和第i通道的濾波器組輸出,并且在沒有特定的通道特別重要的時(shí)候,采用F(m)表示第m幀的所有濾波器組輸出。采用這些值作為輸入,通道能量估計(jì)單元30提供了如下的通道能量的平滑后的估計(jì)值Ech(m,i)=max{Emin,αch(m)Ech(m-1,i)+(1-αch(m))(λiF(m,i))2};i=1,...,22其中Ech(m,i)是第m幀和第i通道平滑后的通道能量的估計(jì)值,Emin是允許的最小通道能量,{i,i=0,1,...,22}是補(bǔ)償預(yù)加重濾波器和在Mel濾波中三角加權(quán)窗不同窗寬的修正系數(shù),而ch(m)是如下定義的通道能量平滑系數(shù)αch(m)=0;m≤10.45;m>]]>它表示對于第1幀(m=1)設(shè)定為0的值,而對所有后續(xù)的幀設(shè)定0.45。這保證了第一幀未濾波通道能量的通道能量估計(jì)值的初始化。在優(yōu)選的實(shí)施例中,Emin=5000,修正系數(shù)i的值(對應(yīng)于8kHz采樣頻率)由23個(gè)元素的表格中第i個(gè)值給出{3.2811,2.2510,1.4051,1.1038,0.8867,0.6487,0.5482,0.4163,0.3234,0.2820,0.2505,0.2036,0.1680,0.1397,0.1179,0.1080,0.0931,0.0763,0.0674,0.0636,0.0546,0.0478,0.0046}。根據(jù)通道能量估計(jì)值,峰值均值比率估算單元31按照如下方式估算當(dāng)前幀m的峰值均值比,用P2A(m)表示P2A(m)10log10(max(Ech(m,i)|i=422)(1/23)Σi=022Ech(m,i)).]]>與通道能量估計(jì)類似,在優(yōu)選的實(shí)施例中,通道噪音能量估計(jì)(如下定義)可以按照如下方式進(jìn)行初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){if(P2A(m)<PEAK_TO_AVE_THLD){En(m,i)=Ech(m,i);m=1,0≤i≤22;0.7En(m-1,i)+0.3Ech(m,i);2≤m≤INIT_FRAMES,0≤i≤22;]]>}else{En(m,i)=Emin;0≤i≤22;}}其中En(m,i)是第m幀和第i通道的平滑后的噪音能量估計(jì)值,INIT_FRAMES是假定為只是噪音幀的初始幀的數(shù)量,而fupdate_flag是如下定義的強(qiáng)制更新標(biāo)志位。在優(yōu)選的實(shí)施例中,INIT_FRAMES=10,而PEAK_TO_AVE_THLD=10。分別用Ech(m)和En(m)表示所有23個(gè)通道的當(dāng)前幀m的通道能量估計(jì)值和通道噪音估計(jì)值。通道能量估計(jì)值Ech(m)和通道噪音估計(jì)值En(m)用于在通道SNR估算單元32估算量化后的信噪比(SNR)指數(shù)σq(m,i)=max(0,min(89,round(10log10(Ech(m,i)En(m,i))/0.375)));0≤i≤22]]>其中值{q(m,i),i=0,1,...,22}限制在0到89之間,并包含這兩個(gè)數(shù)。根據(jù)當(dāng)前幀的通道SNR估計(jì)值q(m)可以在聲音衡量指標(biāo)計(jì)算單元33以求和的形式計(jì)算當(dāng)前幀的聲音衡量指標(biāo)V(m)V(m)=Σi=022v(σq(i))]]>其中v(k)是如下定義的90個(gè)元素的聲音衡量指標(biāo)表v中第k個(gè)值v={1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,5,5,5,6,6,7,7,7,8,8,9,9,10,10,11,12,12,13,13,14,15,15,16,17,17,18,19,20,20,21,22,23,24,24,25,26,27,28,28,29,30,31,32,33,34,35,36,37,37,38,39,40,41,42,43,44,45,46,47,48,49,50,50,50,50,50,50,50,50,50,50}當(dāng)前幀的通道能量估計(jì)值Ech(m)也用作為頻譜偏差估算單元34的輸入,該估算單元按照如下方式估計(jì)當(dāng)前幀的頻譜偏差E(m)。首先,按照如下公式估計(jì)對數(shù)能量頻譜EdB(m,i)=10log10(Ech(m,i));i=0,1,...,22。然后,用當(dāng)前對數(shù)能量頻譜和用EdB(m)表示的平均長期對數(shù)能量頻譜的絕對值差的總和估計(jì)頻譜偏差E(m),即ΔE(m)=Σi=022|EdB(m,i)-E‾dB(m,i)|.]]>平均長期對數(shù)能量頻譜按照如下方式進(jìn)行初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){EdB(m,i)=EdB(m,i);0≤i≤22;}平均長期對數(shù)能量頻譜按照如下方式更新E‾dB(m+1,i)=0.9E‾dB(m,i)+0.1EdB(m,i);V(m)>SIG_THLD(m)0.7E‾dB(m,i)+0.3EdB(m,i);V(m)≤SIG_THLD(m)]]>其中參數(shù)SIG_THLD(m)取決于下面描述的量化后的信號信噪比。信號信噪比估算單元35按照如下方式估算語音信號的信噪比。首先,用通道噪音能量的總和計(jì)算當(dāng)前幀的全部噪音能量Etn(m),即Etn(m)=Σi=022En(m,i).]]>然后,按照如下方式計(jì)算瞬時(shí)全部信號能量Ets,inst(m)if(V(m)>SIG_THLD(m)){Ets,inst(m)=Σi=022max(Ech(m,i),En(m,i))]]>}瞬時(shí)全部信號能量Ets,inst(m)僅在當(dāng)前幀通過核對V(m)是否大于SIG_THLD(m)確定為信號幀的時(shí)候才按照如上方式更新。同樣需要指明的是,上述估算的信號能量在嚴(yán)格意義下實(shí)際是(信號+噪音)能量。Ets,inst(m)按照如下方式完成初始化if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)){Ets,inst(m)=INIT_SIG_ENRG;}其中在優(yōu)選的實(shí)施例中INIT_SIG_ENRG的值為1.0E+09。一旦計(jì)算了全部瞬時(shí)信號能量和全部噪音能量,表示為SNRinst(m)的當(dāng)前幀的瞬時(shí)信噪比可以計(jì)算如下SNRinst=max(0.0,10log10(Ets,inst(m)/Etn(m)))。從瞬時(shí)SNR可以按照如下方式估算平滑后的SNR<prelisting-type="program-listing"><![CDATA[ if((m≤INIT_FRAMES)OR(fupdate_flag==TRUE)) { SNR(m)=SNRinst(m); } else { if(V(m)>SIG_THLD(m)) { SNR(m)=βSNR(m-1)+(1-β)SNRinst(m); β=min(β+0.003,HI_BETA); } else { β=max(β-0.003,LO_BETA); } }]]></pre>在優(yōu)選的實(shí)施例中,平滑系數(shù)β的上下限分別為LO_BETA=0.950和HI_BETA=0.998。因?yàn)槲覀冇?信號+噪音)能量與信號能量的比率估算信噪比,所以估算的SNR的最低值為0。估算值在SNR較高時(shí)比較準(zhǔn)確,而隨著SNR值減少,估算值也越來越不精確。信號的SNR隨后量化成如下20個(gè)不同的值SNRq(m)=max(0,min(round(SNR(m)/1.5),19))。量化后的信號SNR用于確定不同的閾值。例如,在優(yōu)選的實(shí)施例中,采用SNRq(m)的值作為索引在20個(gè)元素的表格{36,43,52,62,73,86,101,117,134,153,173,194,217,242,268,295,295,295,295,295}中確定下一幀SIG_THLD(m+1)的信號閾值。此時(shí),聲音衡量指標(biāo)V(m)、頻譜偏差E(m)、峰值均值比P2A(m)和量化后的信號信噪比SNRq(m)作為更新決策判定單元36的輸入。下面?zhèn)未a表示的邏輯說明了如何決定更新噪音估計(jì)。此外,還說明了如何決定進(jìn)行強(qiáng)制更新(強(qiáng)制更新策略通過突然增加背景噪聲的等級使得聲音活動(dòng)檢測器從將背景噪聲劃分為語音的錯(cuò)誤中恢復(fù))。首先,在優(yōu)選的實(shí)施例中,采用SNRq(m)作為索引在20個(gè)元素的表格{31,32,33,34,35,36,37,37,37,37,37,37,37,37,37,38,38,38,38,38}中確定當(dāng)前幀的更新閾值UPDATE_THLD(m)。通過清空更新標(biāo)志位(update_flag)和強(qiáng)制更新標(biāo)志位(fupdate_flag)開始更新決定判定過程。如果滿足如下偽碼描述的一定條件,則設(shè)置這些標(biāo)志位<prelisting-type="program-listing"><![CDATA[ update_flag=FALSE; fupdate_flag=FALSE; if((m>INIT_FRAMES)AND(V(m)<UPDATE_THLD(m))AND (P2A(m)<PEAK_TO_AVE_THLD) { update_flag=TRUE; update_cnt=0; } else { if((P2A(m)<PEAK_TO_AVE_THLD)AND(E(m)<DEV_THLD)) { update_cnt=update_cnt+1; if(update_cnt≥UPDATE_CNT_THLD) { update_flag=TRUE; fupdate_flag=TRUE; } }}]]></pre>為了避免在上面的偽碼中更新計(jì)數(shù)器(update_cnt)長期“爬行”對強(qiáng)制更新標(biāo)志位(fupdate_flag)錯(cuò)誤地設(shè)置,采用如下描述實(shí)現(xiàn)的滯后邏輯方法<prelisting-type="program-listing"><![CDATA[ if(update_cnt==last_update_cnt) { hyster_cnt=hyster_cnt+1; } else { hyster_cnt=0; last_update_cnt=update_cnt; } if(hyster_cnt>HYSTER_CNT_THLD) { update_cnt=0; }]]></pre>在優(yōu)選的實(shí)施例中,上面使用的常數(shù)(先前未定義)的數(shù)值如下DEV_THLD=70UPDATE_CNT_THLD=500HYSTER_CNT_THLD=9只要對于給定的幀設(shè)置了上面提及的更新標(biāo)志位,下一幀的通道噪音估計(jì)值在噪音能量平滑單元37使用如下公式進(jìn)行更新En(m+1,i)=0.9En(m,i)+0.1Ech(m,i));i=0,1,...,22。更新后的通道噪音估計(jì)值存儲在噪音能量估計(jì)存儲單元38以備所有后來的幀所用,直到下一次更新發(fā)生。噪音能量估計(jì)存儲單元38的輸出En(m)用作前面描述的通道SNR估算單元32的輸入。現(xiàn)在說明聲音活動(dòng)判定單元39的操作。聲音衡量指標(biāo)V(m)和量化后信號SNR值SNRq(m)作為聲音活動(dòng)判定單元39的輸入。對于最初的INIT_FRAMES幀,由于這些幀只作為噪音幀,所以用VAD_FLAG表示的聲音活動(dòng)判定單元的輸出設(shè)置為FALSE(否)。對于后續(xù)的幀,聲音活動(dòng)判決單元按照如下方式進(jìn)行操作。首先,利用量化后的SNR值確定當(dāng)前幀的聲音衡量指標(biāo)閾值Vth、時(shí)滯數(shù)閾值Hcnt和突發(fā)數(shù)閾值Bcnt,如下Vth(m)=Vtable[SNRq(m)],Hcnt(m)=Htable[SNRq(m)],Bcnt(m)=Btable[SNRq(m)],其中SNRq(m)用于在各自的表格中進(jìn)行索引。在優(yōu)選的實(shí)施例中,這些表格定義如下Vtable={33,35,36,37,38,40,42,44,46,48,50,52,54,56,58,58,58,58,58,58},Htable={54,52,50,48,46,44,42,40,38,36,34,32,30,28,26,24,22,20,18,16},andBtable={3,3,3,4,4,4,4,4,5,5,5,5,5,5,6,6,6,6,6,6}。隨后,當(dāng)前幀的聲音活動(dòng)通過測試聲音衡量指標(biāo)是否超過聲音活動(dòng)衡量指標(biāo)閾值進(jìn)行判定。如果測試的輸出是TRUE(是),則聲明當(dāng)前幀為“具有聲音活動(dòng)”。否則,對時(shí)滯數(shù)變量(hangover_count)進(jìn)行測試,判定其是大于還是等于0。如果該測試的輸出是TRUE(是),則同樣聲明當(dāng)前幀為“具有聲音活動(dòng)”。如果兩個(gè)測試的輸出都是FALSE(否),則聲明當(dāng)前幀為“無聲音活動(dòng)”。“時(shí)滯”機(jī)制通常用于包括慢衰變的語音,否則這些語音可能會被劃分為噪音,并且在主動(dòng)的聲音活動(dòng)檢測削弱的語音中橋接一些小的間隙或暫停。如果連續(xù)的“具有聲音活動(dòng)”的幀的數(shù)量(用burst_count計(jì)數(shù))至少等于突發(fā)數(shù)閾值Bcnt,則激活時(shí)滯機(jī)制。為了激活該機(jī)制,時(shí)滯幀的數(shù)量設(shè)置為時(shí)滯數(shù)閾值Hcnt,。下面描述了聲音活動(dòng)判定單元的偽碼<prelisting-type="program-listing"><![CDATA[ if(V(m)>Vth(m)) { VAD_LOCAL=TRUE; burst_count=burst_count+1; if(burst_count>=Bcnt(m)) { hangover_count=Hcnt(m); } } else { VAD_LOCAL=FALSE burst_count=0; if(hangover_count>=0) { hangover_count=hangover_count-1; } } if((VAD_LOCAL==TRUE)OR(hangover_count>=0)) { VAD_FLAG=TRUE; } else { VAD_FLAG=FALSE; }]]></pre>來自310的變量VAD_FLAG作為每一幀語音活動(dòng)信息的輸出??蛇x地,也可以將來自于306的SNR值SNR(m)作為輸出。如此配置下,由分布式語音識別系統(tǒng)中遠(yuǎn)程前端提供的語音識別特征得到的原始信息的近似可以用于幫助鑒定其對應(yīng)于語音和非語音的語音識別特征信息的部分。依照本
技術(shù)領(lǐng)域:
公知的方法,該信息易于依次用于向后端模式匹配過程傳遞行為和功能,有助于提高識別和/或提高邏輯操作。簡言之,聲音活動(dòng)檢測的優(yōu)點(diǎn)是體現(xiàn)在分布式語音識別系統(tǒng)的后端,盡管該信息并不是在前端初始時(shí)就得到然后提供給后端。相反,至少部分地對前端提供的信息進(jìn)行反向處理,獲得與初始時(shí)前端顯現(xiàn)的信息至少近似的信息,從而幫助聲音活動(dòng)檢測行為。本領(lǐng)域技術(shù)人員將意識到,在不違背本發(fā)明精神和范圍的基礎(chǔ)上可以參照上面描述的實(shí)施例進(jìn)行各種修改、替代和組合,而且這些修改、替代和組合均在本發(fā)明概念的范圍內(nèi)。特別地,需要再次重申,這里提出的特定的實(shí)施例只是為了進(jìn)行示例性的說明;本發(fā)明本質(zhì)的概念適用于非常廣泛的分布式語音識別系統(tǒng)和環(huán)境,且不應(yīng)當(dāng)視為局限于這里為了說明而提出的實(shí)施例中。權(quán)利要求1.一種有助于識別語音的方法,包括-接收多個(gè)語音識別特征;-處理多個(gè)語音識別特征中的至少一些特征,至少提供對產(chǎn)生多個(gè)語音識別特征的原始信息的近似;-對原始信息的至少近似進(jìn)行處理,檢測可能對應(yīng)于語音的部分并提供語音部分的相應(yīng)鑒定;-處理多個(gè)語音特識別特征,至少部分地作為鑒定語音部分的功能,用于幫助識別由至少一些語音識別特征表示的語音內(nèi)容。2.如權(quán)利要求1所述的方法,其中,接收多個(gè)語音識別特征包括通過無線通道接收多個(gè)語音識別特征。3.如權(quán)利要求1所述的設(shè)備,其中,接收多個(gè)語音識別特征包括接收包括至少一個(gè)Mel頻率倒譜系數(shù)的多個(gè)語音識別特征。4.如權(quán)利要求3所述的方法,其中,接收包括至少一個(gè)Mel頻率倒譜系數(shù)的多個(gè)語音識別特征包括接收多個(gè)Mel頻率倒譜系數(shù)。5.如權(quán)利要求4所述的方法,其中,接收多個(gè)Mel頻率倒譜系數(shù)包括接收對應(yīng)原始信息的每個(gè)采樣的至少13個(gè)Mel頻率倒譜系數(shù)。6.如權(quán)利要求1所述的方法,其中,處理多個(gè)語音識別特征中的至少一些特征,至少提供對來自于多個(gè)語音識別特征的原始信息的近似包括采用反離散余弦變換的方式處理多個(gè)語音識別特征的至少一些特征,用以提供多個(gè)結(jié)果值。7.如權(quán)利要求6所述的方法,其中,采用反離散余弦變化的方法處理多個(gè)語音識別特征中的至少一些特征進(jìn)一步包括采用加冪的方式處理至少一個(gè)結(jié)果值。8.如權(quán)利要求1所述的方法,進(jìn)一步包括對原始信息的至少近似進(jìn)行處理,確定可能對應(yīng)于產(chǎn)生多個(gè)語音識別特征的語音的信噪比值。9.如權(quán)利要求1所述的方法,其中,處理多個(gè)語音特識別特征,至少部分地作為鑒定語音部分的功能,用于幫助識別由至少一些語音識別特征表示的語音內(nèi)容的步驟進(jìn)一步包括處理多個(gè)語音識別特征,至少部分地作為鑒定語音部分和信噪比值的功能,用于幫助識別由至少一些語音識別特征表示的語音內(nèi)容。10.一種用于幫助分布式語音識別的設(shè)備,該設(shè)備包括-聲音活動(dòng)檢測器,該檢測器具有輸入,連接以接收源自原始信息的語音識別特征,檢測器還具有至少第一個(gè)輸出,提供語音檢測信號來鑒定可能對應(yīng)語音的原始信息的至少近似的每個(gè)采樣;-分割單元,該分割單元具有輸入,連接到聲音活動(dòng)檢測器第一個(gè)輸出,該分割單元還具有輸出,提供語音檢測信號來鑒定可能對應(yīng)于語音的原始信息的至少近似的部分;和-模式匹配單元,具有輸入,連接以接收語音識別特征和語音檢測信號,還具有輸出,提供對應(yīng)語音識別特征的已識別的語音。11.如權(quán)利要求10所述的設(shè)備,其中,聲音活動(dòng)檢測器進(jìn)一步包括第二個(gè)輸出,該輸出提供對應(yīng)于產(chǎn)生多個(gè)語音識別特征的語音的信噪比信號。12.如權(quán)利要求11所述的設(shè)備,其中,模式識別單元進(jìn)一步具有連接以接收信噪比信號的輸入。13.如權(quán)利要求10所述的設(shè)備,其中,語音識別特征包括多個(gè)Mel頻率倒譜系數(shù)。14.如權(quán)利要求13所述的設(shè)備,其中,聲音活動(dòng)檢測器包括反離散余弦變換裝置,該裝置幫助使用多個(gè)Mel頻率倒譜系數(shù)提供原始信息的至少近似。15.如權(quán)利要求14所述的設(shè)備,其中,聲音活動(dòng)檢測器進(jìn)一步包括加冪裝置,該裝置進(jìn)一步幫助使用多個(gè)Mel頻率倒譜系數(shù)提供原始信息的至少近似。16.如權(quán)利要求10所述的設(shè)備,進(jìn)一步包括解碼器,該解碼器具有連接以接收已編碼碼流的輸入以及提供語音識別特征的輸出。17.如權(quán)利要求16所述的設(shè)備,進(jìn)一步包括連接到解碼器的無線接收裝置。18.一種方法,包括-從無線信道接收信號,該信號包括包含源自多個(gè)輸入采樣的信息的碼流;-對此碼流進(jìn)行解碼,恢復(fù)13個(gè)Mel頻率倒譜系數(shù)以及對應(yīng)輸入采樣每一幀的能量的對數(shù)值;-采用反離散余弦變換和加冪單元將Mel頻率倒譜系數(shù)轉(zhuǎn)換為對應(yīng)的頻譜表示;-利用這些頻譜表示鑒定可能包括語音的部分;-采用Mel頻率倒譜系數(shù)、輸入采樣每一幀的對數(shù)值和鑒定可能包括語音部分的信息,幫助模式匹配過程識別輸入中的語音內(nèi)容。19.如權(quán)利要求18所述的方法,進(jìn)一步包括采用輸入的頻譜表示來判定信噪比值。20.如權(quán)利要求19所述的方法,其中,采用Mel頻率倒譜系數(shù)、輸入采用每一幀的對數(shù)值和鑒定可能包括語音部分的信息,幫助模式匹配過程識別輸入中的語音內(nèi)容的步驟包括采用Mel頻率倒譜系數(shù)、輸入采樣每一幀的對數(shù)值,鑒定輸入中可能包括語音的部分的信息和信噪比值,幫助模式匹配過程識別輸入中的語音內(nèi)容。全文摘要在分布式語音識別系統(tǒng)中,可以向后端模式匹配單元(27)傳遞用后端聲音活動(dòng)檢測器(25)得到的聲音活動(dòng)檢測信息。雖然系統(tǒng)的前端并沒有得到或傳遞任何特定的聲音活動(dòng)檢測信息,但是聲音活動(dòng)檢測器可以使用后端得到的原始信息相對準(zhǔn)確地確定是否存在由系統(tǒng)前端抽取的對應(yīng)的聲音識別特征中的聲音。文檔編號G10L15/02GK1675684SQ03819414公開日2005年9月28日申請日期2003年8月1日優(yōu)先權(quán)日2002年8月9日發(fā)明者滕卡西·拉馬巴德蘭申請人:摩托羅拉公司(特拉華州注冊)