本發(fā)明涉及一種處理音頻信號的方法與裝置,且特別涉及一種音頻信號的噪聲檢測方法與裝置。
背景技術:
一般在進行語音或音樂等音頻信號的處理程序時,首先會檢測音頻信號中的背景噪聲。此背景噪聲又可稱為雜亂噪聲或白噪聲,其為不必要的噪聲而必須從音頻信號中移除。目前有三種方案可用來估計白噪聲。
第一種方案是藉由計算移動平均來追蹤音頻信號的信號強度,然后利用能量大小的改變來估計出音頻信號中的噪聲。然而,此種方式無法即時估計噪聲能量,且若噪聲變動劇烈時,甚至可能導致估計結果失準。第二種方案是使用亂度統(tǒng)計,但此方法的計算量龐大,且統(tǒng)計的時間長短會影響噪聲估計的準確度而難以決定。第三種方案則使用模型比對,但估計結果的準確度將與聲音訓練數據呈現強相關性,導致噪聲的估計結果難以控制。
技術實現要素:
本發(fā)明提供一種音頻信號的噪聲檢測方法與裝置,能夠準確檢測出音頻信號中的噪聲,并可適用于噪聲劇烈改變的情況。
本發(fā)明的音頻信號的噪聲檢測方法包括以下步驟:轉換一音頻信號為多個音頻幀,其中上述多個音頻幀以一目標音頻幀為中心依時間順序排列;計算每一上述音頻幀的多個頻譜分量分別對應的多個幅度;計算在時間頻率域中相鄰的上述多個幅度之間的差異,以獲得在時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量,其中時間頻率域根據上述多個音頻幀定義;根據上述多個差異量決定上述多個幅度在時間頻率域中的最大差異程度;以及根據最大差異程度判斷音頻信號對應目標音頻幀的部分是否為噪聲。
本發(fā)明的音頻信號的噪聲檢測裝置包括存儲裝置與處理器。處理器耦接存儲裝置,將上述多個幅度存入存儲裝置,并執(zhí)行上述的音頻信號的噪聲檢 測方法。
基于上述,本發(fā)明實施例所提出的音頻信號的噪聲檢測方法與裝置,能夠經由簡單的運算便可快速檢測出音頻信號中的噪聲,且即使在噪聲劇烈改變的情況也能夠有效且準確地進行檢測。
附圖說明
圖1是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測裝置的示意圖。
圖2是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測方法的流程圖。
圖3與圖4是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測方法的示意圖。
圖5、圖6與圖7是依照本發(fā)明一實施例所繪示的計算在時間頻率域中相鄰的多個幅度之間的差異的示意圖。
【符號說明】
100:噪聲檢測裝置
120:存儲裝置
140:處理器
300:音頻信號
500:時間頻率域
510、SI_1、SI_2:頻譜信息
610、620、630、640:方向
Diff_LR、Diff_LR1、Diff_LR2、Diff_UD1、Diff_UD2、Diff_LuRd1、Diff_LuRd2、Diff_LdRu1、Diff_LdRu2:差異量
F1、F2、F3、Fc-1、Fc、Fc+1、Fc+2、Fm:音頻幀
Gradient_LR、Gradient_LR1、Gradient_LR2、Gradient_LRc-1、Gradient_LRc、Gradient_LRc+1、Gradient_LRm-1、Gradient_UD、Gradient_LuRd、Gradient_LdRu:梯度分量
GR0~GRk-1:運算結果
I0~Ik-1:頻譜分量
MRD:最大差異程度
RD1、RD2:差異程度
R1、R2:最大比例
S210~S250、S310~S350、S362~S366、S370~S380、S382~S384、S410~S430、S422~S424、S432~S438:方法步驟
THR:閾值
具體實施方式
本發(fā)明實施例在音頻信號的處理程序上,提出一種快速且精確的檢測背景噪聲的方法,其將音頻信號轉換至頻域以取得頻譜信息,并將頻譜上的多個幅度根據時段及頻段而展開成一時間頻率域。在此時間頻率域中,根據正交方向統(tǒng)計上述多個幅度之間的變化并據以獲得最大差異程度。利用背景噪聲的能量在短時間內幾乎為相同的特性,故當上述的最大差異程度仍小于設定閾值時,便可將此最大差異程度所對應的目標音頻幀判定為音頻信號中的噪聲區(qū)段。相對于現有技術是統(tǒng)計目前音頻幀之前的能量改變,本發(fā)明實施例藉由統(tǒng)計在目標音頻幀的前后一段時間之內的頻譜信息,可使噪聲檢測更加準確。此外,由于僅需使用簡單的運算指令,有助于降低計算量并實現快速檢測。再者,考慮低信噪比的情況,則還可對上述多個幅度所展開的時間頻率域執(zhí)行二維低通濾波動作,以藉由多重頻率解析度來進一步提升噪聲檢測的準確度。
圖1是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測裝置100的示意圖。噪聲檢測裝置100包括存儲裝置120與處理器140。處理器140耦接存儲裝置120。處理器140可執(zhí)行圖2至圖7所示的音頻信號的噪聲檢測方法,以快速且準確地檢測出音頻信號中的噪聲。此音頻信號例如是將模擬信號格式的原始音頻信號經由模擬數字轉換后所產生的數字信號。上述的原始音頻信號可以是通過麥克風所接收的使用者的語音指令,或是由電視、CD播放器等電子裝置所發(fā)出的聲音信號。所述噪聲則例如是背景白噪聲或是在特定頻率區(qū)段具有較強幅度的有色噪聲(例如紅噪聲等)。另外,處理器140例如是運用脈沖編碼調制(Pulse-Code Modulation,PCM)以進行模擬數字轉換動作。存儲裝置120可存儲上述音頻信號以及上述方法所需的或所產生的各種數值與數據。
圖2是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測方法的流 程圖。處理器140對音頻信號中的每一音頻幀執(zhí)行圖2所示的流程。以下若將處理器140正在執(zhí)行噪聲檢測的音頻幀稱為目前音頻幀,則處理器140便是取得目前音頻幀及其鄰近數個時段內的音頻幀所對應的頻譜信息,從而判斷目前音頻幀是否為音頻信號中的噪聲區(qū)段(Segment)。
在此說明圖2的流程。首先,在步驟S210中,處理器140轉換一音頻信號為多個音頻幀(Frame),其中上述多個音頻幀以目標音頻幀為中心依時間順序排列。這些音頻幀包括目標音頻幀以及以目標音頻幀為中心的前后一段時間內的其他數個音頻幀,用以在后續(xù)步驟中提供對于檢測目標音頻幀是否為噪聲所需的相關頻譜信息。
在步驟S220中,處理器140計算每一音頻幀的多個頻譜分量分別對應的多個幅度。詳言之,處理器140例如是使用快速傅立葉變換(Fast Fourier Transform,FFT),藉此獲得每一音頻幀的頻譜以進行分析。其中,所述頻譜可以包括多個頻譜分量,且各頻譜分量包括實部與虛部。處理器140可藉由計算每一頻譜分量的實部的平方與虛部的平方的總和后再開方根,即可得出每一頻譜分量的絕對值,并且以此絕對值作為每一頻譜分量的幅度。
因此,經由步驟S210~S220的流程,處理器140可將音頻信號變換至頻域,并且取得每一音頻幀的頻譜信息以及每一頻譜分量的幅度。處理器140可根據音頻幀及上述頻譜分量所分別決定的時段及頻段,而將這些幅度展開為一平面以形成二維的時間頻率域。換句話說,此時間頻率域可根據上述多個音頻幀所定義。其中,時間頻率域的時間軸可根據采樣上述多個音頻幀的時間順序決定,且時間頻率域的頻率軸可根據采樣上述多個音頻幀的上述多個頻譜分量決定。處理器140可將此時間頻率域中的上述多個幅度存入存儲裝置120。
在步驟S230中,處理器140計算在時間頻率域中相鄰的上述多個幅度之間的差異,以獲得在時間頻率域中互為正交的至少兩個方向上分別對應的多個差異量。之后,在步驟S240中,處理器140根據上述多個差異量決定上述多個幅度在時間頻率域中的最大差異程度。
進一步而言,處理器140例如是對時間頻率域中的相鄰幅度進行梯度(Gradient)運算或是一階微分運算,藉此得到幅度之間的變化情形。處理器140并可統(tǒng)計上述梯度在時間頻率域中互為正交的方向上的分量,以利用在正交方向上的梯度分量之間的比例關系來表示上述多個幅度在此時間頻率域 中的最大差異程度。簡單來說,利用正交方向能夠有效提取出對于時間頻率域的整體幅度的指標性信息,因此處理器140便可利用統(tǒng)計正交方向上的幅度變化來表示在時間頻率域中的所有幅度之間的差異。
需說明的是,利用背景噪聲的能量在短時間內幾乎為相同的特性,本領域技術人員應可輕易明了,噪聲在上述時間頻率域中互為正交的兩個方向上所統(tǒng)計出的相鄰幅度的變化情形也應幾乎為相同?;谏鲜?,若處理器140根據互為正交的兩個方向來統(tǒng)計上述多個幅度的變化,則所取得的最大差異程度將會大于1并且接近于1。因此,在步驟S250中,處理器140可根據前述步驟所計算出的最大差異程度來判斷音頻信號對應目標音頻幀的部分是否為噪聲。例如,處理器140可設定用來辨識對應有效信號的最低能量幅度的一閾值,當上述最大差異程度低于此閾值時,處理器140便可判定音頻信號對應目標音頻幀的部分為噪聲。
藉此,本實施例僅需在時間頻率域中互為正交的兩個方向上進行簡單運算,即可找出目標音頻幀的幅度在上述兩個正交方向上的最大差異程度并據以判斷噪聲。特別是,由于上述的計算流程考慮了數據之間的相關性,故可避免現有技術中利用機率計算亂度而容易發(fā)生遺失信息的情況。再加上,本實施例是利用統(tǒng)計來對頻譜信息進行分析,故檢測結果不易受到其他因素影響而產生波動,可直接與選定的閾值進行比較,如此一來,能夠更快速且有效地檢測出音頻信號中的噪聲。
以下再舉實施例以進一步說明。圖3是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測方法的示意圖。在步驟S310中,噪聲檢測裝置100接收模擬信號格式的音頻信號300,并對音頻信號300進行脈沖編碼調制(PCM),以獲得數字信號格式的音頻信號300。在其他實施例中,噪聲檢測裝置100可直接接收數字信號格式的音頻信號300,因此上述步驟S310可以省略。
在步驟S320中,處理器140將數字信號格式的音頻信號300轉換成多個音頻幀,并對每一音頻幀進行快速傅立葉變換(FFT),以將時域的音頻信號300變換至頻域。在步驟S330中,處理器140例如對每一音頻幀計算每一頻譜分量的實部的平方與虛部的平方的總和后再開方根,即可得出每一頻譜分量的絕對值,并且以此絕對值以作為每一頻譜分量的幅度。此幅度可用以表示每一頻譜分量對應的能量強度。
之后,在步驟S340中,處理器140將上述多個幅度存入存儲裝置120。值得一提的是,存儲裝置120例如包括環(huán)形緩沖區(qū)(Ring Buffer),用以存儲當處理器140正對目標音頻幀Fc進行噪聲檢測時所需的相關頻譜信息。上述的相關頻譜信息可包括目標音頻幀Fc及其鄰近音頻幀的頻譜信息,例如目標音頻幀Fc的每一頻譜分量的幅度、在目標音頻幀Fc的前一段時間內的多個音頻幀F1、F2…Fc-1分別在每一頻譜分量的幅度,以及在目標音頻幀Fc之后一段時間內的多個音頻幀Fc+1、Fc+2…Fm分別在每一頻譜分量的幅度。在本實施例中,上述m個音頻幀F1、F2、F3…Fc、…Fm以目標音頻幀Fc為中心并依照時間順序排列,且處理器140可依據上述音頻幀分別對應的時段而將各音頻幀的頻譜信息(例如圖3中所標示的音頻幀F1對應的頻譜信息SI_1)依序存入存儲裝置120的環(huán)形緩沖區(qū)。此外,隨著目標音頻幀Fc的改變,存儲裝置120的環(huán)形緩沖區(qū)所存儲的上述頻譜信息也隨之更新。
接下來,在步驟S350中,處理器140便可藉由在存儲裝置120的環(huán)形緩沖區(qū)中所存儲的頻譜信息,以檢測音頻信號300對應目標音頻幀Fc的部分是否為噪聲。
圖4是依照本發(fā)明一實施例所繪示的一種音頻信號的噪聲檢測方法的示意圖,其用以說明在上述步驟S350中,處理器140檢測音頻信號300對應目標音頻幀Fc的部分是否為噪聲的詳細流程。
首先,在步驟S410中,處理器140取得與目標音頻幀Fc相關的頻譜信息。在本實施例中,處理器140例如是取得以目標音頻幀Fc為中心的m個音頻幀F1、F2、F3…Fc、…Fm在快速傅立葉變換的頻譜上的多個幅度。處理器140將這些幅度根據時段以及頻段而展開為一平面,以形成二維的時間頻率域。例如圖5所示,處理器140可根據m個音頻幀F1、F2、F3…Fc、…Fm以及k個頻譜分量I0、I1、I2…Ik-1而展開成m×k的時間頻率域500。其中,上述m×k的維度可視為是對音頻信號300進行噪聲檢測的解析度。在一范例中,m例如為9且k例如為128。圖5中所標示的頻譜信息510例如包括目標音頻幀Fc的每一頻譜分量的幅度。
接著,在步驟S420中,處理器140決定在時間頻率域500中互為正交的至少兩個方向,并且計算在時間頻率域500中相鄰的多個幅度之間的差異,以及在上述互為正交的至少兩個方向上分別對應的多個差異量。
例如圖6所示,在時間頻率域500中,處理器140可使用互為正交的方 向610(即水平方向)及方向620(即垂直方向)來計算在時間頻率域500中相鄰的多個幅度之間的差異程度。此外,處理器140也可使用互為正交的方向630及方向640來計算在時間頻率域500中相鄰的多個幅度之間的差異程度。在本實施例中,方向610可由時段增加的方向所決定,方向620可由頻段增加的方向所決定,方向630可由頻段增加且時段增加的方向所決定,方向640則可由時段增加且頻段減少的方向所決定。其中,方向630和方向610之間的夾角為45度角。
在本實施例中,對于互為正交的方向610及方向620而言,處理器140可兩兩計算在方向610上相鄰的幅度以獲得在方向610上的多個梯度分量Gradient_LR,并將這些梯度分量Gradient_LR累加以獲得時間頻率域500中的多個幅度在方向610上的差異量。并且,處理器140可兩兩計算在方向620上相鄰的幅度以獲得在方向620上的多個梯度分量Gradient_UD,并將梯度分量Gradient_UD累加以獲得時間頻率域500中的多個幅度在方向620上的差異量。
另外,對于互為正交的方向630及方向640而言,處理器140也可兩兩計算在方向630上相鄰的幅度以獲得在方向630上的多個梯度分量Gradient_LuRd,并將這些梯度分量Gradient_LuRd累加以獲得時間頻率域500中的多個幅度在方向630上的差異量。并且,處理器140兩兩計算在方向640上相鄰的幅度以獲得在方向640上的多個梯度分量Gradient_LdRu,并將這些梯度分量Gradient_LdRu累加以獲得時間頻率域500中的多個幅度在方向640上的差異量。
在本實施例中,上述累加梯度分量以獲得多個幅度在各方向上的差異量的動作可再細分成S422、S424兩個步驟,在此以方向610為例,并搭配圖7的示意圖進行說明。在步驟S422中,處理器140先沿時段增加的方向累加在方向610上的多個梯度分量,例如,對應于頻譜分量I0,處理器140累加梯度分量Gradient_LR1~Gradient_LRm-1以獲得運算結果GR0。此外,對于其他頻譜分量(例如頻譜分量I1、I2...),處理器140也以類似的運算方式以獲得上述頻譜分量分別對應的運算結果(例如運算結果GR1、GR2...)。以m×k的時間頻率域500包括k個頻譜分量為例,則在完成步驟S422后,處理器140可對應獲得k個運算結果GR0~GRk-1。接著,在步驟S424中,處理器沿頻段增加的方向將上述k個運算結果GR0~GRk-1再一次累加,如此一來,便 獲得時間頻率域500中的多個幅度在方向610上的差異量Diff_LR。類似地,處理器140可根據上述流程而分別計算出時間頻率域500中的多個幅度在方向620、630、640上的差異量。
接著,在步驟S430中,處理器140根據上述多個差異量決定上述多個幅度在時間頻率域500中的最大差異程度。步驟S430也可細分為步驟S432、S434、S436、S438來進行。其中,處理器140可將上述至少兩個方向中互為正交的上述兩個方向視為一個方向組合,例如將方向610、620視為第一方向組合,以及將方向630、640視為第二方向組合。在每一方向組合中,處理器140可根據比較分別在互為正交的上述兩個方向上的上述多個差異量,以獲得每一上述方向組合對應的最大比例(步驟S436),以及根據上述多個方向組合分別對應的上述多個最大比例,以設定上述多個最大比例的總和為最大差異程度(步驟S438)。
特別的是,處理器140在步驟S420中計算在時間頻率域500中的差異程度時,還可根據采樣時間順序并以目標音頻幀Fc對應的采樣時間為界而將音頻幀F1~Fm分成兩個集合,以分別對在時間頻率域500的多個幅度中對應每一上述集合的部分,計算在上述部分中相鄰的上述多個幅度之間的差異,并藉此找出在每一方向組合中的各集合所對應的比例,以比較出其中的最大比例。
進一步而言,處理器140例如是將音頻幀F1~Fc視為第一集合,據以計算第一集合在互為正交的方向610、620上的差異量,以及計算第一集合在互為正交的方向630、640上的差異量。此外,處理器140并例如是將音頻幀Fc~Fm視為第二集合,并計算第二集合在互為正交的方向610、620上的差異量,以及計算第二集合在互為正交的方向630、640上的差異量。換句話說,對于在上述多個幅度中對應每一上述集合的部分,處理器140可計算在上述部分中相鄰的上述多個幅度之間的差異,以獲得每一上述集合在每一上述方向組合中互為正交的上述兩個方向上分別對應的上述多個差異量。
再以圖7為例,處理器140可累加梯度分量Gradient_LR1~Gradient_LRc-1以獲得第一集合在方向610上對應的運算結果,并據以計算出差異量Diff_LR1。此外,處理器140并可累加梯度分量Gradient_LRc~Gradient_LRm-1以獲得第二集合在方向610上對應的運算結果,并據以計算出差異量Diff_LR2。類似地,處理器140可根據上述流程而分別計算出第一集合分別 在方向620、630、640上的差異量Diff_UD1、Diff_LuRd1、Diff_LdRu1,以及第二集合分別在方向620、630、640上的差異量Diff_UD2、Diff_LuRd2、Diff_LdRu2。至于運算細節(jié)則與前述實施例類似,此處不再贅述。
之后,處理器140便可比較每一上述集合的每一上述方向組合所對應的上述多個差異量以獲得最大值及最小值(步驟S432),計算最大值及最小值以獲得每一上述集合的每一上述方向組合所對應的比例(步驟S434);以及比較每一上述方向組合在每一上述集合分別對應的上述多個比例,以設定上述多個比例中的最大者為該方向組合對應的最大比例(步驟S436)。
因此,在步驟S436之后,處理器140可獲得第一方向組合對應的最大比例R1以及第二方向組合對應的最大比例R2,并在步驟S438中計算最大比例R1、R2的總和R1+R2以作為輸出。上述的總和R1+R2可視為是在時間頻率域500中的多個幅度之間的最大差異程度,并可對應于處理器140執(zhí)行完圖3的步驟S350之后所獲得的第一差異程度RD1。
值得一提的是,考慮不同信噪比的狀況下,故若取得音頻信號300在較低頻域解析度的頻譜信息來與時間頻率域500中的頻譜信息進行比對分析,可以改善低信噪比時信號被噪聲破壞的情況,有助于提升噪聲檢測的準確度。因此,回到圖3的流程,在步驟S362中,處理器140還可對時間頻率域的上述多個幅度執(zhí)行二維低通濾波動作,以獲得第二時間頻率域,并在步驟S364中,處理器140將此第二時間頻率域的多個幅度存入存儲裝置120(圖3標示出其中一個音頻幀對應的頻譜信息SI_2用以示意)。類似地,上述第二時間頻率域的多個幅度可存入存儲裝置120中的另一環(huán)形緩沖區(qū)。接下來,在步驟S366中,處理器140便可根據在第二時間頻率域中相鄰的多個幅度之間的差異,決定第二時間頻率域中的最大差異程度。換句話說,處理器140藉由步驟S366而以另一解析度來對目標音頻幀Fc進行頻譜上的差異分析。步驟S366的詳細流程與步驟S350及圖4的流程類似,故不再說明。
基于上述,若處理器140在執(zhí)行步驟S350后獲得時間頻率域的最大差異程度為第一差異程度RD1,且在執(zhí)行步驟S366后獲得第二時間頻率域的最大差異程度為第二差異程度RD2,接著進入步驟S370,處理器140可比較第一差異程度RD1及第二差異程度RD2,以設定第一差異程度RD1及第二差異程度RD2中較大的一個為最大差異程度MRD。
之后,在步驟S380中,處理器140可判斷最大差異程度MRD是否低于 一閾值THR。當最大差異程度MRD低于閾值THR時,進入步驟S382,處理器140判定音頻信號300對應目標音頻幀Fc的部分為噪聲。另一方面,若最大差異程度MRD未低于閾值THR,則進入步驟S384,處理器140判定音頻信號300對應目標音頻幀Fc的部分為有效信號。之后,處理器140可更新目標音頻幀Fc,并且重復執(zhí)行圖3的步驟流程,以檢測音頻信號300中對應其他音頻幀的部分是否為噪聲。
需說明的是,在一實施例中,處理器140可僅藉由在步驟S340中存入存儲裝置120的時間頻率域的多個幅度來檢測目標音頻幀Fc是否為噪聲。因此,處理器140可直接將步驟S350所獲得的第一差異程度RD1設定為目標音頻幀Fc的頻譜信息的最大差異程度MRD,并據以執(zhí)行后續(xù)的判斷步驟S380。
此外,在另一實施例中,處理器140也可省略步驟S350,而僅以經過二維低通濾波動作所獲得的第二時間頻率域的多個幅度來進行噪聲檢測。類似地,在此實施例中,步驟S370可以省略,且處理器140可將步驟S366所獲得的第二差異程度RD2直接設定為目標音頻幀Fc的頻譜信息的最大差異程度MRD,并據以執(zhí)行后續(xù)的判斷步驟S380。
又值得一提的是,在一實施例中,處理器140可只針對單一個方向組合,并且根據在此方向組合中互為正交的兩個方向,來進行相鄰幅度之間的差異量計算。若以方向組合包括互為正交的方向610及方向620為例,則在圖4的步驟S422、S424、S432、S434、S436中關于第二方向組合的方向630及方向640的差異量以及最大比例的計算可以省略,且步驟S438用以比較各方向組合的最大比例的步驟也可省略。
因此,若以第一方向及第二方向來表示上述單一個方向組合中互為正交的兩個方向,則在此實施例中,處理器140可兩兩計算在第一方向上相鄰的上述多個幅度以獲得在第一方向上的多個梯度分量,并累加在第一方向上的上述多個梯度分量以獲得在第一方向上的差異量,以及兩兩計算在第二方向上相鄰的上述多個幅度以獲得在第二方向上的多個梯度分量,并累加在第二方向上的上述多個梯度分量以獲得在第二方向上的差異量。之后,處理器140可比較上述多個差異量以獲得上述多個差異量中的最大值及最小值,并且計算最大值及最小值的比例,便可直接獲得此時間頻率域的多個幅度之間的最大差異程度。
對于上述實施例,處理器140也可根據采樣時間順序并以目標音頻幀對 應的采樣時間為界而分成兩個集合,以分別對在時間頻率域500的多個幅度中對應每一上述集合的部分,計算在上述部分中相鄰的上述多個幅度之間的差異,并藉此找出在每一方向組合中的各集合所對應的比例,以比較出其中的最大比例。此部分與前述實施例類似,故不再贅述。
另一方面,在一實施例中,處理器140在步驟S420中也根據其他的分組規(guī)則以將音頻幀F1~Fm分成與前述實施例不同的兩個或兩個以上的集合,藉以計算在時間頻率域500的多個幅度中對應每一上述集合的部分中,相鄰的上述多個幅度之間的差異。上述的分組規(guī)則例如可由音頻幀數量、音頻幀采樣時間或是采樣每一音頻幀的頻譜分量所決定,應用本實施例者可視其設計需求或考慮整體運算量而適應性地調整。
在其他實施例中,步驟S420的步驟可視情況而調整。在一實施例中,步驟S422、S424的順序可以互換。亦即,此實施例的處理器140可先沿頻段增加的方向累加在一方向上的多個梯度分量,之后再沿時段增加的方向將上述的運算結果再一次累加,以獲得時間頻率域中的多個幅度在此方向上的差異量。上述頻段增加的方向或是時段增加的方向僅為范例說明,本發(fā)明并不限制上述累加運算的實施方式,只要能夠將時間頻率域中相鄰的多個幅度之間的變化情形進行統(tǒng)計,并據以作為噪聲的判斷依據,便可適用于本發(fā)明。
綜上所述,本發(fā)明實施例可僅使用簡單的運算指令,將音頻信號變換至頻域,并根據在時間頻率域中的頻譜信息,統(tǒng)計在正交方向上的幅度變化以找出最大差異程度,接著便可利用背景噪聲的能量在頻譜中的各個頻段上幾乎為相同的特性,快速檢測出目標音頻幀對應的音頻信號的部分是否為噪聲。因此,本發(fā)明實施例能夠有效找出音頻信號中的噪聲區(qū)段,并且降低計算量,特別是對于背景噪聲變化劇烈的情況,本發(fā)明實施例仍可有效地進行噪聲檢測。此外,利用多重頻率解析度的檢測方式,可有助于提升檢測準確度。
雖然本發(fā)明已以實施例公開如上,然其并非用以限定本發(fā)明,本領域技術人員在不脫離本發(fā)明的精神和范圍內,當可作些許的更動與潤飾,故本發(fā)明的保護范圍當視所附權利要求書界定范圍為準。