應(yīng)用于語音識別前端的音頻增益調(diào)整方法和裝置的制造方法
【專利摘要】本申請?zhí)岢鲆环N應(yīng)用于語音識別前端的音頻增益調(diào)整方法和裝置,該應(yīng)用于語音識別前端的音頻增益調(diào)整方法包括:接收音頻數(shù)據(jù);對所述音頻數(shù)據(jù)進行AGC處理;對AGC處理后的音頻數(shù)據(jù)進行DRC處理。該方法能夠提高音頻增益的調(diào)整效果。
【專利說明】
應(yīng)用于語音識別前端的音頻増益調(diào)整方法和裝置
技術(shù)領(lǐng)域
[0001]本申請涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種應(yīng)用于語音識別前端的音頻增益調(diào)整方法和裝置。
【背景技術(shù)】
[0002]語音識別技術(shù)是指讓機器通過識別和理解過程把音頻轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在一些實際應(yīng)用場景下,用戶輸入的語音信號的強度可能很弱,低于系統(tǒng)識別門限,因此,會造成語音信號不清楚,影響語音識別效果。為了提高語音識別效果,通常會在語音識別之前先進行音頻增益調(diào)整。
[0003]相關(guān)技術(shù)中,通常采用自動增益控制技術(shù)(Automatic Gain Control,AGC)進行音頻增益調(diào)整。
[0004]但是,AGC不能有效放大幅值較小的語音信號,影響音頻增益效果。
【發(fā)明內(nèi)容】
[0005]本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0006]為此,本申請的一個目的在于提出一種應(yīng)用于語音識別前端的音頻增益調(diào)整方法,該方法可以提高音頻增益的調(diào)整效果。
[0007]本申請的另一個目的在于提出一種應(yīng)用于語音識別前端的音頻增益調(diào)整裝置。
[0008]為達到上述目的,本申請第一方面實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整方法,包括:接收音頻數(shù)據(jù);對所述音頻數(shù)據(jù)進行AGC處理;對AGC處理后的音頻數(shù)據(jù)進行DRC處理。
[0009]為達到上述目的,本申請第二方面實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整裝置,包括:接收模塊,用于接收音頻數(shù)據(jù);AGC處理模塊,用于對所述音頻數(shù)據(jù)進行AGC處理;DRC處理模塊,用于對AGC處理后的音頻數(shù)據(jù)進行DRC處理。
[0010]本申請實施例至少在一定程度上具有如下技術(shù)效果之一:
[0011]通過將AGC技術(shù)與DRC技術(shù)結(jié)合用于語音識別前端的音頻增益調(diào)整,可以在AGC放大信號強度后,再采用DRC放大小信號的強度,從而可以提高音頻增益調(diào)整效果。
[0012]通過對DRC技術(shù)進行改進,可以更適合當(dāng)前場景,從而可以進一步提高音頻增益調(diào)整效果。
[0013]本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。
【附圖說明】
[0014]本申請上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0015]圖1是本申請一個實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整方法的流程示意圖;
[0016]圖2是本申請實施例中AGC處理前后的音頻數(shù)據(jù)的波形圖;
[0017]圖3是相關(guān)技術(shù)中的DRC曲線的不意圖;
[0018]圖4是本申請實施例中一種DRC曲線的示意圖;
[0019]圖5是本申請實施例中另一種DRC曲線的示意圖;
[0020]圖6是本申請實施例中經(jīng)過AGC和DRC處理后的音頻數(shù)據(jù)的波形圖;
[0021]圖7是本申請一個實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整裝置的結(jié)構(gòu)示意圖;
[0022]圖8是本申請另一個實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023]下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本申請,而不能理解為對本申請的限制。相反,本申請的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0024]如上所示,相關(guān)技術(shù)中在語音識別前端的音頻增益調(diào)整時通常采用AGC技術(shù),但是效果并不理想。本申請將基于如下思路解決提高音頻增益調(diào)整效果的技術(shù)問題。
[0025](I)應(yīng)用于語音識別前端的音頻增益調(diào)整時,不僅采用AGC技術(shù),還在AGC技術(shù)之后再采用動態(tài)范圍控制(Dynamic Range Control,DRC)技術(shù)。
[0026]DRC技術(shù)用于縮小語音信號的動態(tài)范圍,例如,將較小幅值的信號的幅值增大,將較大幅值的信號的幅值減小。
[0027]因此,當(dāng)在AGC之后再采用DRC,可以有效放大較小幅值的信號,以提升音頻增益調(diào)整效果。
[0028]需要說明的是,即使在其他領(lǐng)域中應(yīng)用了 DRC,但是,通常都是AGC和DRC單獨應(yīng)用的,本申請將AGC與DRC進行結(jié)合,以及具體應(yīng)用在語音識別前端的音頻增益調(diào)整中,屬于本申請的倉1J新點之一。
[0029](2)本申請不僅將DRC與AGC結(jié)合,還可以進一步對DRC曲線進行改進。以進一步提高音頻增益調(diào)整效果。
[0030]需要說明的是,雖然上述對主要思路進行了說明,但是,為了解決技術(shù)問題,具體的技術(shù)方案不限于上述的主要思路,還可以與其他特征相互結(jié)合,這些不同技術(shù)特征之間的結(jié)合依然屬于本申請的保護范圍。
[0031]需要說明的是,雖然上述給出了要解決的技術(shù)問題,但是,本申請并不限于僅能解決上述技術(shù)問題,應(yīng)用本申請給出的技術(shù)方案還可以解決的其他技術(shù)問題依然屬于本申請的保護范圍。
[0032]需要說明的是,本申請的每個實施例不限于能夠全部完美解決所有的技術(shù)問題,而是至少在一定程度上解決至少一個技術(shù)問題。
[0033]需要說明的是,雖然上述給出了本申請的主要思路,以及后續(xù)實施例會對一些特別點進行說明。但是,本申請的創(chuàng)新點并不限于上述的主要思路及特別點所涉及的內(nèi)容,并不排除本申請中一些并未特殊說明的內(nèi)容依然可能會包含本申請的創(chuàng)新點。
[0034]可以理解的是,雖然上述進行了一些說明,但依然不排除其他可能方案,因此,與后續(xù)本申請給出的實施例相同、相似、等同等情況的技術(shù)方案依然屬于本申請的保護范圍。
[0035]下面將結(jié)合具體實施例對本申請的技術(shù)方案進行說明。
[0036]圖1是本申請一個實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整方法的流程示意圖。
[0037]本實施例主要體現(xiàn)將AGC與DRC進行結(jié)合。
[0038]如圖1所示,本實施例的流程包括:
[0039]Sll:接收音頻數(shù)據(jù)。
[0040]例如,該音頻數(shù)據(jù)是由用戶發(fā)出的聲音數(shù)據(jù)。
[0041 ] SI 2:對所述音頻數(shù)據(jù)進行AGC處理。
[0042]本實施例中,采用AGC技術(shù)時,不限于AGC技術(shù)的具體實現(xiàn)。
[0043]例如,可以使用普通的AGC技術(shù),或者,使用對普通的AGC技術(shù)進行改進后的AGC技術(shù)。
[0044]下面將對普通的AGC技術(shù)和一種改進的AGC技術(shù)進行主要流程的說明??梢岳斫獾氖?,這些AGC技術(shù)的詳細內(nèi)容可以參見相關(guān)的已有技術(shù)。
[0045]普通的AGC技術(shù)的大致流程包括:
[0046]對接收的音頻數(shù)據(jù)按照10ms進行分幀處理,并計算10ms的峰值;
[0047]利用EM(Expectat1n-Maximizat1n)算法,根據(jù)峰值估計得到高斯分布的參數(shù);
[0048]利用估計得到的高斯分布模型參數(shù),根據(jù)最大似然準(zhǔn)則判斷當(dāng)前10ms音頻段是否為語音;
[0049]如果是語音,根據(jù)估計得到的模型參數(shù),計算當(dāng)前10ms音頻的增益。
[0050]—種改進的AGC技術(shù)可以稱為流式AGC技術(shù),大致流程包括:
[0051 ]對接收的音頻數(shù)據(jù)按照1ms進行分幀處理;
[0052]根據(jù)語音活動檢測技術(shù)(voice activity detect,VAD)判斷當(dāng)前1ms音頻段是否是語音;
[0053]如果是語音,根據(jù)歷史音頻與當(dāng)前1ms音頻段更新增益G,否則,如果不是語音,保持增益G不變。
[0054]根據(jù)更新后的增益G或保持不變的增益G,對當(dāng)前1ms音頻段進行增益調(diào)整;
[0055]緩存當(dāng)前1ms音頻段及增益G。
[0056]經(jīng)過AGC處理,語音信號的強度可以被放大。
[0057]例如,參見圖2,給出了AGC處理前的音頻數(shù)據(jù)的波形圖21以及AGC處理后的音頻數(shù)據(jù)的波形圖22。
[0058]S13:對AGC處理后的音頻數(shù)據(jù)進行DRC處理。
[0059]本實施例中,在音頻增益調(diào)整時,不僅采用了AGC技術(shù),還在AGC技術(shù)之后采用了DRC技術(shù),以結(jié)合這兩個技術(shù),提高音頻增益調(diào)整效果。經(jīng)過AGC和DRC處理后的音頻數(shù)據(jù)可以用于語音識別。
[0060]其中,DRC技術(shù)在實現(xiàn)時,可以采用普通的DRC技術(shù)?;蛘撸?br>[0061]本申請還可以對DRC技術(shù)進行改進,以進一步提高音頻增益調(diào)整效果。具體的對DRC技術(shù)進行改進的內(nèi)容可以參見后續(xù)描述。
[0062]本實施例中,通過將AGC技術(shù)與DRC技術(shù)結(jié)合用于語音識別前端的音頻增益調(diào)整,可以在AGC放大信號強度后,再采用DRC放大小信號的強度,從而可以提高音頻增益調(diào)整效果O
[0063]如上所示,本申請不僅可以采用DRC技術(shù)。進一步的,還可以對DRC技術(shù)進行改進。具體的,本申請中,可以設(shè)計兩種新的DRC曲線。
[0064]DRC曲線用于表明信號的輸入能量值與輸出能量值之間的關(guān)系。
[0065]一種通常的DRC曲線如圖3所示。圖3中的細虛線是斜率為I的直線,粗實線是DRC曲線,DRC曲線上會包括B、C、M、D四個點。相關(guān)技術(shù)中,上述四個點都是根據(jù)經(jīng)驗值設(shè)置的,都是固定的點。
[0066]而本申請改進的DRC曲線可以有兩種,分別如圖4和圖5所示。
[0067]其中,參見圖4或圖5,本申請改進的DRC曲線中,也可以包含類似的四個點B、C、M、D,但是,其中的B點和M點都是根據(jù)實際信號情況確定的,不是人為固定設(shè)置的。
[0068]—些實施例中,BA對應(yīng)的閾值(可稱為第一閾值)是根據(jù)檢測的噪聲能量值確定的。
[0069]例如,在AGC處理時,可以通過VAD檢測當(dāng)前1ms音頻段是語音或噪聲,當(dāng)其是噪聲時,可以檢測該噪聲的能量值,以確定第一閾值。
[0070]進一步的,第一閾值是實時更新的,更新公式如下:
[0071 ] noise = a*noise_pre+( l-a)*noise_cur
[0072]其中,noise是更新后的第一閾值,noise_pre是更新前的第一閾值,noise_cur是當(dāng)前1ms音頻段是噪聲時檢測到的當(dāng)前的噪聲能量值,a是設(shè)置的權(quán)重系數(shù),如選為0.9。第一閾值的初始值也是設(shè)置的,如設(shè)置為O。
[0073]—些實施例中,M點對應(yīng)的閾值(可稱為第二閾值)是根據(jù)預(yù)設(shè)的AGC輸出音頻期望幅值確定的。例如,假設(shè)期望輸入信號經(jīng)過AGC處理之后信號的最大幅值為T,再根據(jù)最大幅值T計算對應(yīng)的能量值,將該能量值確定為第二閾值。
[0074]進一步的,本申請改進的DRC曲線中,除了上述的B、C、M、D點之外,還可以設(shè)置另外兩個點,分別用A點和A’點表不。
[0075]A點對應(yīng)的閾值(可稱為第三閾值)是設(shè)置的,通常選為很小的值,如_90db。
[0076]A’點對應(yīng)的閾值(可稱為第五閾值)可以根據(jù)線段A’B的斜率和長度確定,該斜率和長度是經(jīng)驗值。
[0077]另外,類似對A’點的選擇,本申請DRC曲線中的C點和D點,也可以根據(jù)經(jīng)驗值的線段BC的斜率和長度確定,以及,根據(jù)經(jīng)驗值的線段MD的斜率和長度確定。其中,C點對應(yīng)的閾值可稱為第四閾值。
[0078]需要說明的是,上述的經(jīng)驗值確定的不同線段的斜率可以相同或不同,例如,線段A’B的斜率與線段BC的斜率在圖4中以相同為例,但是這只是一種示例,線段A’B的斜率與線段BC的斜率也可以不同。類似的,線段CM的斜率與線段MD的斜率也可以相同或不同。
[0079]在確定出上述的A、A’、B、C、M、D點后,可以生成本申請?zhí)岢龅男碌腄RC曲線。如圖4的粗實線或圖5的粗實線所示。
[0080]進一步的,本申請的DRC曲線在大于M點時,可以如圖4或5所示的對應(yīng)MD這部分?;蛘撸部梢允潜3州斎胫蹬c輸出值不變,即大于M點時,對應(yīng)細虛線所示的部分。
[0081 ]因此,基于圖4或圖5的DRC曲線,在DRC處理時可以具體執(zhí)行:
[0082]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值大于所述第二閾值時(即大于M點對應(yīng)的閾值),保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變,或者,減小所述AGC處理后的音頻數(shù)據(jù)的幅值;
[0083]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值和所述第二閾值之間時(即位于B點對應(yīng)的閾值和M點對應(yīng)的閾值之間),增大所述AGC處理后的音頻數(shù)據(jù)的幅值;
[0084]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值小于所述第三閾值時(即小于A點對應(yīng)的閾值),保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變。
[0085]進一步的,在增大所述幅值時,第一增大變化量大于第二增大變化量;
[0086]所述第一增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值與所述第四閾值之間時的增大變化量,所述第二增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第四閾值與所述第二閾值之間時的增大變化量。
[0087]也就是說,BC段的增大變化量大于CM段的增大變化量,從而可以有效提升強度小的信號的幅值。
[0088]上述對圖4和圖5的共同點進行了說明。
[0089]進一步的,參見圖4和圖5,兩者存在一定的區(qū)別,主要是AB段的處理。
[0090]參見圖4,AB段的DRC處理具體是:
[0091]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第一閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值,且,第一減小幅度小于第二減小幅度;
[0092]其中,所述第一減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時的減小變化量,所述第二減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時的減小變化量。
[0093]也就是說,參見圖4,AB段對應(yīng)的DRC處理是減小幅值,由于B點是根據(jù)噪聲能量值確定的,因此,當(dāng)信號的能量值小于B點對應(yīng)的閾值時,可以認為該信號屬于噪聲,通過對噪聲進行減小,可以提高音頻增益效果。
[0094]進一步的,在減小時,越靠近B點部分減小幅值的變化量越大,也就是說,AA’段的減小變化量小于A’B段的減小變化量。
[0095]參見圖5,AB段的DRC處理具體是:
[0096]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變;
[0097]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值。
[0098]也就是說,A’B段保持幅值不變,AA’段進行減小幅值處理。這樣處理是因為:B點是根據(jù)噪聲能量值確定的,但是可能會存在不準(zhǔn)確的問題,因此,保持AA’段不變,可以避免語音信號被誤減小,提高穩(wěn)健性。
[0099]經(jīng)過上述的AGC和DRC處理,參見圖6所示的兩者結(jié)合處理后的波形圖61,可以使得小信號也被有效放大。
[0100]本實施例中,通過對DRC技術(shù)進行改進,可以更適合當(dāng)前場景,從而可以進一步提高音頻增益調(diào)整效果。
[0101]圖7是本申請一個實施例提出的應(yīng)用于語音識別前端的音頻增益調(diào)整裝置的結(jié)構(gòu)示意圖。
[0102]參見圖7,本實施例的裝置70包括:接收模塊71、AGC處理模塊72和DRC處理模塊73。
[0103]接收模塊71,用于接收音頻數(shù)據(jù);
[0104]AGC處理模塊72,用于對所述音頻數(shù)據(jù)進行AGC處理;
[0105]DRC處理模塊73,用于對AGC處理后的音頻數(shù)據(jù)進行DRC處理。
[0106]—些實施例中,參見圖8,該裝置70還包括:
[0107]第一確定模塊74,用于檢測噪聲能量值,并根據(jù)所述噪聲能量值確定第一閾值;
[0108]第二確定模塊75,用于根據(jù)預(yù)設(shè)的AGC輸出音頻期望幅值確定第二閾值;
[0109]第三確定模塊76,用于設(shè)置第三閾值;
[0110]—些實施例中,所述第一確定模塊74具體用于:
[0111]對更新前的第一閾值和當(dāng)前的噪聲能量值進行加權(quán)相加,得到更新后的第一閾值,作為確定出的第一閾值。
[0112]一些實施例中,所述DRC處理模塊73具體用于:
[0113]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值大于所述第二閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變,或者,減小所述AGC處理后的音頻數(shù)據(jù)的幅值;
[0114]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值和所述第二閾值之間時,增大所述AGC處理后的音頻數(shù)據(jù)的幅值;
[0115]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值小于所述第三閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變。
[0116]—些實施例中,參見圖8,該裝置70還包括:
[0117]第四確定模塊77,用于確定第四閾值,所述第四閾值大于所述第一閾值,且小于所述第二閾值;
[0118]所述DRC處理模塊73用于在增大所述幅值時,第一增大變化量大于第二增大變化量;
[0119]所述第一增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值與所述第四閾值之間時的增大變化量,所述第二增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第四閾值與所述第二閾值之間時的增大變化量。
[0120]—些實施例中,參見圖8,該裝置70還包括:
[0121]第五確定模塊78,用于確定第五閾值,所述第五閾值大于所述第三閾值且小于所述第一閾值。
[0122]一些實施例中,所述DRC處理模塊73具體用于:
[0123]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第一閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值,且,第一減小變化量小于第二減小變化量;
[0124]其中,所述第一減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時的減小變化量,所述第二減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時的減小變化量。
[0125]一些實施例中,所述DRC處理模塊73具體用于:
[0126]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變;
[0127]當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值。
[0128]可以理解的是,本實施例的裝置與上述方法實施例對應(yīng),具體內(nèi)容可以參見方法實施例的相關(guān)描述,在此不再詳細說明。
[0129]本實施例中,通過將AGC技術(shù)與DRC技術(shù)結(jié)合用于語音識別前端的音頻增益調(diào)整,可以在AGC放大信號強度后,再采用DRC放大小信號的強度,從而可以提高音頻增益調(diào)整效果。通過對DRC技術(shù)進行改進,可以更適合當(dāng)前場景,從而可以進一步提高音頻增益調(diào)整效果O
[0130]可以理解的是,上述各實施例中相同或相似部分可以相互參考,在一些實施例中未詳細說明的內(nèi)容可以參見其他實施例中相同或相似的內(nèi)容。
[0131]需要說明的是,在本申請的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是指至少兩個。
[0132]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本申請的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0133]應(yīng)當(dāng)理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0134]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0135]此外,在本申請各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
[0136]上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0137]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0138]盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領(lǐng)域的普通技術(shù)人員在本申請的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。
【主權(quán)項】
1.一種應(yīng)用于語音識別前端的音頻增益調(diào)整方法,其特征在于,包括: 接收音頻數(shù)據(jù); 對所述音頻數(shù)據(jù)進行AGC處理; 對AGC處理后的音頻數(shù)據(jù)進行DRC處理。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 檢測噪聲能量值,并根據(jù)所述噪聲能量值確定第一閾值; 根據(jù)預(yù)設(shè)的AGC輸出音頻期望幅值確定第二閾值; 設(shè)置第三閾值; 其中,所述第三閾值小于所述第一閾值,所述第一閾值小于所述第二閾值。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述噪聲能量值確定第一閾值,包括: 對更新前的第一閾值和當(dāng)前的噪聲能量值進行加權(quán)相加,得到更新后的第一閾值,作為確定出的第一閾值。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對AGC處理后的音頻數(shù)據(jù)進行DRC處理,包括: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值大于所述第二閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變,或者,減小所述AGC處理后的音頻數(shù)據(jù)的幅值; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值和所述第二閾值之間時,增大所述AGC處理后的音頻數(shù)據(jù)的幅值; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值小于所述第三閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括: 確定第四閾值,所述第四閾值大于所述第一閾值,且小于所述第二閾值; 其中,在增大所述幅值時,第一增大變化量大于第二增大變化量; 所述第一增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值與所述第四閾值之間時的增大變化量,所述第二增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第四閾值與所述第二閾值之間時的增大變化量。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 確定第五閾值,所述第五閾值大于所述第三閾值且小于所述第一閾值。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對AGC處理后的音頻數(shù)據(jù)進行DRC處理,包括: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第一閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值,且,第一減小變化量小于第二減小變化量; 其中,所述第一減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時的減小變化量,所述第二減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時的減小變化量。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對AGC處理后的音頻數(shù)據(jù)進行DRC處理,包括: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值。9.一種應(yīng)用于語音識別前端的音頻增益調(diào)整裝置,其特征在于,包括: 接收模塊,用于接收音頻數(shù)據(jù); AGC處理模塊,用于對所述音頻數(shù)據(jù)進行AGC處理; DRC處理模塊,用于對AGC處理后的音頻數(shù)據(jù)進行DRC處理。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 第一確定模塊,用于檢測噪聲能量值,并根據(jù)所述噪聲能量值確定第一閾值; 第二確定模塊,用于根據(jù)預(yù)設(shè)的AGC輸出音頻期望幅值確定第二閾值; 第三確定模塊,用于設(shè)置第三閾值。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一確定模塊具體用于: 對更新前的第一閾值和當(dāng)前的噪聲能量值進行加權(quán)相加,得到更新后的第一閾值,作為確定出的第一閾值。12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述DRC處理模塊具體用于: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值大于所述第二閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變,或者,減小所述AGC處理后的音頻數(shù)據(jù)的幅值; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值和所述第二閾值之間時,增大所述AGC處理后的音頻數(shù)據(jù)的幅值; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值小于所述第三閾值時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括: 第四確定模塊,用于確定第四閾值,所述第四閾值大于所述第一閾值,且小于所述第二閾值; 所述DRC處理模塊用于在增大所述幅值時,第一增大變化量大于第二增大變化量;所述第一增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第一閾值與所述第四閾值之間時的增大變化量,所述第二增大變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第四閾值與所述第二閾值之間時的增大變化量。14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括: 第五確定模塊,用于確定第五閾值,所述第五閾值大于所述第三閾值且小于所述第一閾值。15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述DRC處理模塊具體用于: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第一閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值,且,第一減小變化量小于第二減小變化量; 其中,所述第一減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時的減小變化量,所述第二減小變化量是所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時的減小變化量。16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述DRC處理模塊具體用于: 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第五閾值與所述第一閾值之間時,保持所述AGC處理后的音頻數(shù)據(jù)的幅值不變; 當(dāng)所述AGC處理后的音頻數(shù)據(jù)的能量值位于所述第三閾值與所述第五閾值之間時,減小所述AGC處理后的音頻數(shù)據(jù)的幅值。
【文檔編號】G10L21/0316GK105845151SQ201610371874
【公開日】2016年8月10日
【申請日】2016年5月30日
【發(fā)明人】徐楊飛, 魏建強, 崔瑋瑋
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司