專利名稱:用于確定音頻信號的頻譜的重力頻率的多個局部中心的設(shè)備和方法
用于確定音頻信號的頻譜的重力頻率的多個局部中心的設(shè)備和方法技術(shù)領(lǐng)域
根據(jù)本發(fā)明的實施例涉及音頻信號處理系統(tǒng),更具體地,涉及用于確定音頻信 號的頻譜的重力頻率的多個局部中心的設(shè)備和方法。
背景技術(shù):
對于解決極端信號處理需求的數(shù)字信號處理技術(shù)的要求正在增加,以便將例如 取自數(shù)據(jù)庫的預(yù)先記錄的音頻信號適用到新的音樂背景環(huán)境。為此目的,需要對高級語 義信號屬性進(jìn)行適配,例如音高、音調(diào)和音階模式。所有這些處理的共同點(diǎn)在于它們的 目的在于實質(zhì)地改變原始音頻資料的音樂屬性,同時盡可能好地保留主觀聲音質(zhì)量。換 句話說,這些編輯極大地改變了音頻資料音樂背景環(huán)境,但是需要保留所處理的音頻采 樣的本質(zhì)屬性,從而維持可信度。這理想地要求可廣泛地應(yīng)用于包括多音混合音樂內(nèi)容 的不同種類信號的信號處理方法。
因此,最近已經(jīng)提出了基于多頻帶調(diào)制分量的音頻信號分析、處理和合成方法 (參見2008年數(shù)字音效(DAFx)國際會議論文集的S.Disch和B.Edler的“An amplitude-and frequency modulation vocoder for audio signal processing” , 2009 年 IEEE-ICASSP 會議 論文集的 S.Disch 禾口 B.Edler 的"Multiband perceptualmodulaion analysis, processing and synthesis of audio signals” )。該方法的基本思想是將多音混合體分解成視為聲音體的 分量,并進(jìn)一步處理以聯(lián)合方式包含在一個分量內(nèi)的全部信號單元。此外,已經(jīng)介紹 了合成方法,其提供平滑和感覺令人愉快、并(依據(jù)所使用的處理類型)大大修改的輸 出信號。如果未將處理應(yīng)用于分量,該方法已經(jīng)表現(xiàn)為提供透明或接近透明的主觀音 頻質(zhì)量(參見2008年數(shù)字音效(DAFx)國際會議論文集的S.Disch和B.Edler的“An amplitude-and frequency modulation vocoder for audio signal processing” )。
基于塊的多音音樂處理(例如多頻帶調(diào)制分解)的一個重要步驟是估計隨時間 變化的連續(xù)頻譜中的重力局部中心(COG)(參見“J.Anantharaman,A.Krishnamurthy 禾口 L.Feth, ‘Intensity—weighted average of instantaneous frequencyas a model for frequency discrimination,, J.Acoust.Soc.Am., vol.94, pp.723-729, 1993” , "Q.Xu, L.L.Feth, J.N.Anantharaman 禾口 A.K.Krishnamurthy, iBandwidthof spectral resolution for the 'c-o-g' effect in vow el-like complex sounds ’ ,Acoustical Society ofAmerica Journal, Vol.101, pp.3149-+, 1997年5月”)。該文獻(xiàn)示出了迭代算法,該算法可以用于確定與 信號的局域COG對準(zhǔn)的信號自適應(yīng)頻譜分解。
COG方法可以類似于傳統(tǒng)的時間頻率重新分配(t-f重新分配)方法。關(guān)于 該技術(shù)的大量情況,讀者參見(A.Fulop 和 K.Fitz, “ Algorithms for computingthe time corrected instantaneous frequency (reassigned) spectrogram, withapplications ",Journal of the Acoustical Society ofAmerica, vol.119, pp.360-371, 2006)。基本上,t_f 重新分配將傳 統(tǒng)短時傅立葉變換6TFT)的常規(guī)時間頻率格柵改變成時間校準(zhǔn)的瞬時頻率譜,從而展現(xiàn)與在STFT譜內(nèi)固有的t_f分解危害所包含的相比更佳局部化的能量的時間和頻譜累積。 通常,重新分配被用作后續(xù)部分跟蹤的增強(qiáng)前端(參見“K.Fitz和L.Haken, iOntheuse oftime-frequency reassignment in additive sound modeling' , Journal of the AudioEngineering Society, vol.50 (11), pp.879-893, 2002”)。
其它的相關(guān)出版物目的在于通過將展現(xiàn)某些諧波關(guān)系的頻譜峰值分組成分離 的來源,來估計多個基礎(chǔ)頻率(參見“ A Klapuri,Signal Processing MethodsFor the Automatic Transcription of Music, Ph.D.thesis, Tampere University ofTechnology, 2004” ,“Chunghsin Yeh, Multiple fundamental frequency estimationof polyphonic recordings, Ph.D.thesis, Ecole doctorale edite, Universitede Paris, 2008”)。然而,對于包括許多來 源的復(fù)雜音樂(例如管弦樂),該方法不適用。
在一些應(yīng)用中,將聲碼器用于信號處理。一類聲碼器是相位聲碼器。關(guān)于相 位聲碼器的指南是出版物 “ ‘The Phase Vocoder A tutorial,,Mark Dolson, Computer Music Journal, Volume 10,No.4,第 14 至 27 頁,1986”。其它出版物是 “ ‘New phase vocoder technique for pitch-shifting, harmonizing and otherexotic effects’ , L.Laroche 禾口 M.Dolson, proceedings 1999, IEEE workshop onapplications ot signal processing to audio and acoustics, New Paltz, New York, 1999 年 10 月 17 日至 20 日,第 91 至 94 頁”。
圖17和18圖示相位聲碼器的不同實施方式和應(yīng)用。圖17圖示相位聲碼器1700 的濾波器組實施方式,其中在輸入500處提供音頻信號,和在輸出510處獲得合成音頻信 號。具體而言,圖17圖示的濾波器組的每個通道包括帶通濾波器501和后續(xù)連接的振蕩 器502。通過組合器503組合來自全部通道的全部振蕩器502的輸出信號,圖中該組合器 503圖示為加法器。在組合器503的輸出處,獲得輸出信號510。
實現(xiàn)每個濾波器501以在一方面提供幅度信號A(t),另一方面,提供頻率信號 f(t)。幅度信號和頻率信號是時間信號。幅度信號圖示在濾波器組內(nèi)幅度隨著時間的變 化,頻率信號圖示濾波器輸出信號的頻率展開隨著時間的變化。
作為示意圖,在圖18中圖示了濾波器501的實施方式。將輸入信號擇路傳輸至 兩個平行路徑。在一條路徑內(nèi),將信號乘以幅度為1.0和頻率等于帶通濾波器的中心頻率 的正弦波,如551處所示。在另一條路徑內(nèi),將信號乘以在551處圖示的相同幅度和頻 率的余弦波。因而,除了相乘波形的相位之外,兩個平行路徑是相同的。隨后,在每條 路徑內(nèi),將相乘結(jié)果饋送給低通濾波器陽3。相乘操作本身也稱作單環(huán)調(diào)制。將任何信 號乘以恒定頻率的正弦(或余弦)波的效果是將原始信號內(nèi)的全部頻率分量,按照該正弦 波的頻率量進(jìn)行正和負(fù)偏移。如果現(xiàn)在使該結(jié)果經(jīng)過適當(dāng)?shù)牡屯V波器,將僅保留低頻 部分。該操作序列也稱作外差法。在兩條平行路徑內(nèi)的每一條內(nèi)執(zhí)行該外差法,但是因 為一條路徑以正弦波進(jìn)行外差,而另一條路徑使用余弦波,因此在兩條路徑內(nèi)的結(jié)果外 差信號相差90°的相位。因此,上低通濾波器553提供正交信號554,下濾波器553提 供同相信號。將也稱作I和Q信號的這兩個信號轉(zhuǎn)發(fā)給坐標(biāo)變換器陽6,該坐標(biāo)變換器 556根據(jù)直角坐標(biāo)表示生成幅度/相位表示。
幅度信號在557處輸出,并對應(yīng)于圖17的A(t)。將相位信號輸入給相位解纏器 558。在單元558的輸出處,并不存在在0和360°之間的相位值,而是以線性方式增加 的相位值。將該“解纏”的相位值輸入給相位/頻率轉(zhuǎn)換器陽9,該相位/頻率轉(zhuǎn)換器559例如可以作為相位差設(shè)備來實現(xiàn),這種相位差設(shè)備自當(dāng)前時刻的相位減去前一時刻上 的相位,從而獲得當(dāng)前時刻的頻率值。
將該頻率值與濾波器通道i的恒定頻率值 ;相加,從而獲得在輸出560處的隨著 時間改變的頻率值。
在輸出560處的頻率值具有直流部分F1和也稱作“頻率波動”的改變部分,濾 波器通道內(nèi)的信號當(dāng)前頻率按照該改變部分而偏離平均頻率巧。
因而,圖5和圖6所示的相位聲碼器提供頻譜信息和時間信息的分離。該頻譜 信息被包括在特定濾波器組通道內(nèi)和頻率 內(nèi),該時間信息被包括在隨時間變化的頻率波 動和幅度內(nèi)。
相位聲碼器的另一描述是傅立葉變換解析。它由在有限持續(xù)時間窗口之上進(jìn)行 的連續(xù)重疊傅立葉變換構(gòu)成。在傅立葉變換解析中,關(guān)注點(diǎn)集中在單個時間點(diǎn)處的所有 不同濾波器組或頻率區(qū)的幅度和相位值。雖然在濾波器組解析中,可以將重新合成視為 對于每個振蕩器的具有時間變化幅度和頻率控制的相加合成的傳統(tǒng)實例,但是在傅立葉 實施方式中,合成是通過轉(zhuǎn)換回到實部和虛部形式、并對連續(xù)的反傅立葉變換進(jìn)行重疊 相加而實現(xiàn)的。在傅立葉變換解析中,相位聲碼器中的濾波器組的數(shù)量是在傅立葉變換 內(nèi)的點(diǎn)數(shù)。類似地,可以將單個濾波器的頻率內(nèi)的相同間隔識別為傅立葉變換的基本特 征。另一方面,通過在計算變換之前使用的窗口函數(shù)的形狀,確定濾波器通帶的形狀, 即通帶邊緣的截止陡度。對于特定的特征形狀,例如漢明窗,濾波器截止的陡度是與窗 口持續(xù)時間直接正比地增加的。
有用的是,要認(rèn)識到相位聲碼器分析的兩種不同解析僅應(yīng)用于帶通濾波器組的 實施方式。對于兩種實施方式而言,用來將這些濾波器輸出表示為隨著時間變化的幅度 和頻率的操作是相同的。相位聲碼器的基本目標(biāo)是將時間信息與頻譜信息分離開。操作 策略是將信號劃分成多個頻帶,并在每個頻帶內(nèi)表征隨著時間改變的信號。
兩個基本操作是非常重要的。這些操作是時間標(biāo)度和音高轉(zhuǎn)換的。始終可以通 過簡單地以較低采樣速率回放來減慢所記錄的聲音。這類似于播放以較低回放速度記錄 的磁帶。但是,這種簡單化的時間擴(kuò)展同時將音高降低了與時間擴(kuò)展相同的因數(shù)。放慢 聲音的時間進(jìn)展而不改變其音高需要時間和頻率信息的明確分離。如上所述,這正是相 位聲碼器試圖執(zhí)行的操作。將隨著時間變化的幅度和頻率信號A⑴和f(t)展寬至圖5a 完全不會改變各個振蕩器的頻率,但確實減慢了合成聲音的時間進(jìn)展。結(jié)果得到具有原 始音高的時間擴(kuò)展的聲音。這種時間標(biāo)度的傅立葉變換觀點(diǎn)在于,為了對聲音進(jìn)行時間 擴(kuò)展,可以簡單地使反傅立葉與分析FFT進(jìn)一步分隔開。因此,與在該應(yīng)用中的原始情 況相比,頻譜改變在合成聲音中出現(xiàn)的更慢,并按照對聲音進(jìn)行時間擴(kuò)展的完全相同因 數(shù)來對相位重新定標(biāo)。
其它應(yīng)用是音高轉(zhuǎn)換。因為可以使用相位聲碼器改變聲音的時間進(jìn)展,而不改 變其音高,應(yīng)當(dāng)還可以執(zhí)行反向的,即改變音高而不改變持續(xù)時間。這可以通過使用期 望的音高改變因數(shù)進(jìn)行時間定標(biāo)、隨后以通過相同因數(shù)修正后的采樣速率回放結(jié)果聲音 來實現(xiàn)。例如,為了將音高提高八度音階,首先以因數(shù)2對聲音進(jìn)行時間擴(kuò)展,隨后以 原始采樣速率的兩倍來播放該時間擴(kuò)展。
用于處理音頻信號的聲碼器的應(yīng)用例如在“Sascha Disch,Bemd Edler 7AnAmplitude-and Frequency-Modulation Vocoder for Audio Signal Processing” , Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08), Espoo,芬蘭,2008年9月1至4日”中說明。在該文獻(xiàn)中,通過在重力位置函數(shù)的中心內(nèi)搜索從正到負(fù)的 轉(zhuǎn)換,來估計重力候選的局部中心。為此,對于音頻信號的每個時間塊,為頻譜的每個 值(例如每個頻譜幅度值或每個功率密度值)計算重力位置函數(shù)的中心。在該文中,描 述了在48kHz采樣頻率上的具有N = 214個值的塊大小。因此,用于估計重力候選的局 部中心的計算強(qiáng)度非常高。
此外,對于確保重力位置的最終估計中心在感性標(biāo)度上近似等距來說,后選擇 (post-selection)過程是很必要的。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定音頻信號的頻譜的重力頻率的多個局部中心 的改進(jìn)概念,其允許降低計算強(qiáng)度。
通過根據(jù)權(quán)利要求1的設(shè)備和根據(jù)權(quán)利要求20的方法來實現(xiàn)該目的。
本發(fā)明的實施例提供一種用于確定音頻信號頻譜的重力頻率的多個局部中心的 設(shè)備。該設(shè)備包括偏移確定器、頻率確定器和迭代控制器。配置偏移確定器以根據(jù)音頻 信號頻譜確定多個迭代開始頻率的每個迭代開始頻率的偏移頻率,其中該頻譜的離散采 樣值的數(shù)量大于迭代開始頻率的數(shù)量。配置頻率確定器以通過將多個迭代開始頻率的每 個迭代開始頻率增加或降低相應(yīng)的所確定的偏移頻率來確定新的多個迭代開始頻率。此 外,配置迭代控制器以將新的多個迭代開始頻率提供給偏移確定器進(jìn)行進(jìn)一步迭代,或 者如果符合預(yù)先定義的結(jié)束條件,便提供重力頻率的多個局部中心,其中將重力頻率的 多個局部中心設(shè)置等于新的多個迭代開始頻率。
根據(jù)本發(fā)明的實施例基于為多個迭代開始頻率確定偏移頻率和隨后用它們的確 定偏移頻率更新迭代開始頻率的中心思想。迭代地執(zhí)行該操作,直到符合預(yù)先定義的結(jié) 束條件。因為迭代開始頻率的數(shù)量低于頻譜離散采樣值的數(shù)量,所以與已知概念相比, 顯著地降低了計算復(fù)雜性。
例如,迭代開始頻率的數(shù)量可以在10和100之間。也就是,例如,顯著地低于 上述N= 214的離散采樣值的數(shù)量。在該例子中,可以將計算強(qiáng)度降低大于100的因數(shù)。
此外,通過改變迭代開始頻率數(shù)量和/或適配偏移頻率計算參數(shù),可以容易地 適配頻譜解析度。
根據(jù)本發(fā)明的一些實施例包括頻率合并器。如果在兩個相鄰迭代開始頻率之間 的頻率距離小于最小頻率距離,頻率合并器合并多個迭代開始頻率的兩個相鄰迭代開始頻率。
根據(jù)本發(fā)明的一些其它實施例包括頻率添加器。如果在多個迭代開始頻率的兩 個相鄰迭代開始頻率之間的頻率距離大于最大頻率距離,該頻率添加器將一迭代開始頻 率添加到多個迭代開始頻率中。例如,如果通過前一(時間)塊的估計值來執(zhí)行初始化, 這可以是有用的。
根據(jù)本發(fā)明的一些實施例涉及根據(jù)本發(fā)明實施例的用于確定音頻信號頻譜的重 力頻率的多個局部中心的方法。該方法包括確定多個迭代開始頻率的每個迭代開始頻8率的偏移頻率;確定新的多個迭代開始頻率和提供用于進(jìn)一步迭代的新的多個迭代開始 頻率,或者提供重力頻率的多個局部中心。根據(jù)音頻信號頻譜,確定多個迭代開始頻率 的每個迭代開始頻率的偏移頻率,其中該頻譜的離散采樣值的數(shù)量大于迭代開始頻率的 數(shù)量。通過將多個迭代開始頻率的每個迭代開始頻率提高或降低相應(yīng)的所確定的偏移頻 率,確定該新的多個迭代開始頻率。如果滿足預(yù)先定義的確定條件,提供重力頻率的多 個局部中心以供存儲、傳輸或進(jìn)一步處理。為此,重力頻率的多個局部中心等于新的多 個迭代開始頻率。
在根據(jù)本發(fā)明的一些實施例中,為音頻信號的前一時間塊確定的重力頻率的多 個局部中心被用作該音頻信號的下一時間塊的第一次迭代的迭代開始頻率。在這種情況 下,通過頻率添加器可以填充在迭代開始頻率之間的大間隙。
隨后將參考附圖詳細(xì)描述根據(jù)本發(fā)明的實施例,在附圖中
圖1是用于確定重力頻率的多個局部中心的設(shè)備的方框圖2是用于確定重力頻率的多個局部中心的設(shè)備的方框圖3是用于使用預(yù)先處理確定重力頻率的多個局部中心的設(shè)備的方框圖3a是映射頻譜與平滑頻譜的對照圖4是兩個分離音調(diào)的重力估計值的局部中心和映射頻譜(摘錄)的示意圖5是兩個差拍音調(diào)的重力估計值的局部中心和映射頻率(摘錄)的示意圖6是不同粗細(xì)弦的重力估計值的局部中心和映射頻率(摘錄)的示意圖7是管弦樂的重力估計值的局部中心和映射頻率(摘錄)的示意圖8是信號自適應(yīng)濾波器組的方框圖9是不同粗細(xì)弦的與重力局部中心對準(zhǔn)的帶通片段和功率譜(摘錄)的示意 圖10是管弦樂的與重力局部中心對準(zhǔn)的帶通片段和功率譜(摘錄)的示意圖11是用于將音頻信號轉(zhuǎn)換成參數(shù)化表示的設(shè)備的方框圖12是用于將音頻信號轉(zhuǎn)換成參數(shù)化表示的設(shè)備的方框圖1 是用于將音頻信號轉(zhuǎn)換成參數(shù)化表示的設(shè)備的方框圖13a是合成模塊的方框圖13b是用于多音音調(diào)模式改變的應(yīng)用的示意圖1 是五線譜圓圈的示意圖14是用于確定重力頻率的多個局部中心的方法的流程圖15是用于確定重力頻率的多個局部中心的方法的流程圖15a是迭代COG估計的示意圖16是用于添加迭代開始頻率的方法的流程圖17是現(xiàn)有技術(shù)的分析-合成-聲碼器結(jié)構(gòu)的示意圖;和
圖18是圖17所示的現(xiàn)有技術(shù)的濾波器實施方式的示意圖。
具體實施方式
在附圖中,相同的參考標(biāo)記部分地用于具有相同或類似功能屬性的對象和功能 單元,參考附圖對其的描述應(yīng)當(dāng)也適用于其它附圖,從而簡化實施例的描述。
圖1圖示根據(jù)本發(fā)明實施例的用于確定音頻信號的頻譜102的重力頻率132的多 個局部中心的設(shè)備100的方框圖。該設(shè)備100包括偏移確定器110、頻率確定器120和 迭代控制器130。偏移確定器110連接至頻率確定器120,頻率確定器120連接至迭代控 制器130,迭代控制器130連接至偏移確定器110。偏移確定器110根據(jù)音頻信號的頻 譜102,確定多個迭代開始頻率的每個迭代開始頻率的偏移頻率112。該頻譜102是用離 散采樣值表示的,其中頻譜102的采樣值的數(shù)量大于迭代開始頻率的數(shù)量。通過將多個 迭代開始頻率的每個迭代開始頻率提高或降低相應(yīng)的所確定的偏移頻率112,頻率確定器 120確定新的多個迭代開始頻率122。隨后,迭代控制器130將該新的多個迭代開始頻率 122提供給偏移確定器110以進(jìn)一步迭代??商娲鼗蛘吒郊拥?,如果符合預(yù)先定義的結(jié) 束條件,便提供重力頻率132的該多個局部中心,其中重力頻率132的該多個局部中心等 于或者被設(shè)置為等于該新的多個迭代開始頻率122。
因為迭代開始頻率的數(shù)量低于頻譜的離散采樣值的數(shù)量,所以與根據(jù)函數(shù)確定 重力頻率的局部中心(其必需為頻譜的每個離散采樣值進(jìn)行計算)的概念相比,降低了用 于確定重力頻率132的多個局部中心的計算強(qiáng)度。
通過改變迭代開始頻率的數(shù)量和/或偏移頻率計算參數(shù),可以將重力頻率局部 中心確定的解析度和/或精確度適配用于特定應(yīng)用。這樣,計算強(qiáng)度也改變,但是因為 迭代開始頻率數(shù)量通常明顯低于頻譜離散采樣值數(shù)量,可以確保較低的計算復(fù)雜性。
例如,頻譜102的離散采樣值可以是通過音頻信號的傅立葉變換獲得的頻譜幅 度、功率譜密度值或其它數(shù)值。用于音頻信號時間塊的頻譜102的離散采樣值的數(shù)量例 如可以在1000和100000之間或者在四和220之間。相反地,迭代開始頻率數(shù)量例如可 以在5和500之間。在頻譜102的離散采樣值數(shù)量和迭代開始頻率數(shù)量之間的這種巨大 差別實現(xiàn)了與已知方法相比顯著降低的計算復(fù)雜性。
重力頻率132的局部中心可以是音頻信號的頻譜102包括例如通過音頻信號傅立葉 變換而獲得的頻譜幅度或功率譜密度或其他數(shù)值的局部最大值或局部聚集時所處的頻率。
例如,對于第一次迭代,多個迭代開始頻率在頻譜102上可以是相等地、或者 根據(jù)分布函數(shù)或給定分布地彼此間隔開。根據(jù)該迭代開始頻率和頻譜102,偏移確定器 110確定偏移頻率112,該偏移頻率112可以是迭代開始頻率與重力的局部中心相距多遠(yuǎn) 的指示。因此,頻率確定器120試圖通過將迭代開始頻率提高或降低(根據(jù)偏移頻率的 正值或負(fù)值)相應(yīng)的所確定的偏移頻率,來補(bǔ)償在重力局部中心和迭代開始頻率之間的 該距離。隨后,將該新的多個迭代開始頻率122提供給偏移確定器110以用于進(jìn)一步迭 代,或者如果符合預(yù)先定義的結(jié)束條件,提供該新的多個迭代開始頻率122作為所要確 定的重力頻率132的多個局部中心。
設(shè)備100可以為音頻信號的多個時間塊的每個時間塊確定重力頻率132的多個局 部中心。換句話說,可以在時間塊內(nèi)處理音頻信號。對于每個時間塊,通過傅立葉變換 可以生成頻譜102,并可以確定重力頻率132的多個局部中心。
可預(yù)先定義的結(jié)束條件例如可以是每個偏移頻率低于最大偏移頻率,全部偏移頻率之和低于最大偏移頻率之和,或者為當(dāng)前時間塊確定的偏移頻率與為前一時間塊確 定的偏移頻率之和低于閾值偏移。
提供給偏移確定器110的頻譜102例如可以包括線性或?qū)?shù)標(biāo)度。例如,對于 第一次迭代,多個迭代開始頻率可以相等間隔地分布在對數(shù)頻譜102上,以設(shè)置用于確 定重力頻率132的多個局部中心的趨勢,從而可以在感性標(biāo)度上分布重力頻率132的所確 定的多個中心。
偏移確定器110、頻率確定器120和迭代控制器130可以是獨(dú)立的硬件單元,數(shù) 字信號處理器的一部分,微控制器或計算機(jī),或者可以將它們實施為配置以在微控制器 或計算機(jī)上運(yùn)行的計算機(jī)程序或計算機(jī)程序產(chǎn)品。
圖2圖示根據(jù)本發(fā)明實施例的用于確定音頻信號的頻譜102的重力頻率132的多 個局部中心的設(shè)備200的方框圖。該設(shè)備200類似于圖1所示的設(shè)備,但是還包括頻率 添加器210、頻率合并器220和頻率刪除器230。在該例子中,頻率確定器120連接至頻 率刪除器230,頻率刪除器230連接至迭代控制器130,迭代控制器130連接至頻率添加 器210,頻率添加器210連接至頻率合并器220,頻率合并器220連接至偏移確定器110。 可替代地,可以改變頻率添加器210和頻率合并器220的位置,和/或可以將頻率刪除器 230設(shè)置在迭代控制器130和頻率添加器210之間,在頻率添加器210和頻率合并器220 之間,或者在頻率合并器220和偏移確定器110之間。
如果在新的多個迭代開始頻率122的兩個相鄰迭代開始頻率之間的頻率距離大 于最大頻率距離,頻率添加器210可以將迭代開始頻率添加到所述新的多個迭代開始頻 率122中。為此,可以在線性或?qū)?shù)標(biāo)度上測量所述頻率距離和最大頻率距離。
換句話說,如果在兩個相鄰迭代開始頻率之間的間隙過大,則頻率添加器210 添加迭代開始頻率。例如,如果將為當(dāng)前時間塊確定的重力頻率132的多個局部中心提 供給偏移確定器110以用作用于下一時間塊的第一次迭代的多個迭代開始頻率,這可能 尤其重要。但是在相同時間塊的迭代過程中,同樣可以添加迭代開始頻率。
可以將重力頻率的多個局部中心用作用于生成新的多個迭代開始頻率的基礎(chǔ)。
如前所述,用于時間塊的第一次迭代的多個迭代開始頻率例如可以相等地彼此 間隔開,或者可以將為音頻信號的先前時間塊確定的重力頻率132的所確定的多個局部 中心用作當(dāng)前時間塊的第一次迭代的迭代開始頻率。
如果在兩個相鄰迭代開始頻率之間的頻率距離小于最小頻率距離,則頻率合并 器220合并該新的多個迭代開始頻率122的兩個相鄰迭代開始頻率。再次,可以在線性 或?qū)?shù)標(biāo)度上測量頻率距離和最小頻率距離。
換句話說,如果在兩個相鄰迭代開始頻率之間的距離低于限值,頻率合并器220 可以用一個迭代開始頻率替換兩個相鄰的迭代開始頻率。
如果迭代開始頻率高于音頻信號頻譜102的預(yù)定義最大頻率、或者如果迭代開 始頻率低于音頻信號頻譜102的預(yù)定義最小頻率,則頻率刪除器230自該新的多個迭代開 始頻率132中刪除迭代開始頻率。例如,預(yù)定義最大頻率可以是頻譜102所包括的最高 頻率,預(yù)定義最小頻率可以是頻譜102所包括的最低頻率。
換句話說,如果迭代開始頻率處于音頻信號頻譜102的頻率范圍之外,頻率刪 除器230自新的多個迭代開始頻率122中刪除它們。11
頻率添加器210和頻率刪除器230是設(shè)備200的可選單元。
如上針對偏移確定器110、頻率確定器120和改變控制器130所描述的,頻率添 加器210、頻率合并器220和頻率刪除器230可以是獨(dú)立的硬件單元或者被集成。
圖3圖示根據(jù)本發(fā)明實施例的用于確定音頻信號302的頻譜102的重力頻率132 的多個局部中心的設(shè)備300的方框圖。設(shè)備300類似于圖1所示的設(shè)備,但是還包括預(yù) 處理器310。預(yù)處理器310連接至偏移確定器110。預(yù)處理器310生成用于音頻信號302 的時間塊的傅立葉變換頻譜,并根據(jù)時間塊的傅立葉變換頻譜生成平滑頻譜。此外,通 過將傅立葉變換頻譜除以平滑頻譜,預(yù)處理器310生成將要提供給偏移確定器110的音頻 信號302的頻譜102。隨后,預(yù)處理器310將該頻譜映射至對數(shù)標(biāo)度,并將該對數(shù)頻譜 102提供給偏移確定器110??商娲兀谏善交l譜之前和在將傅立葉變換頻譜除以 平滑頻譜之前,預(yù)處理器310可以將傅立葉變換頻譜映射至對數(shù)標(biāo)度。
在一些實施例中,對于每個信號塊(時間塊),通過計算DFT頻譜能量,獲得 功率譜密度(psd)估計值。隨后,為了去除全局趨勢,在所計算的平滑psd上標(biāo)準(zhǔn)化該 psd,例如通過擬合低階多項式,執(zhí)行對數(shù)倒頻譜平滑,或者通過沿著頻率方向濾波。在 相除之前,還可以例如通過具有例如200ms的時間常數(shù)的一階IIR濾波器來時間平滑這兩 個量值。接著,在COG計算和分段之前,執(zhí)行到感性標(biāo)度(對數(shù)標(biāo)度)上的psd映射,例 如為了幫助將頻譜分段成感性適合的非均勻的、同時COG中心化的頻帶的任務(wù)。因而, 該問題可以簡化為使一組大致均勻的分段與所估計的信號局部COG位置對準(zhǔn)的任務(wù)。作 為感性標(biāo)度,可以應(yīng)用ERB標(biāo)度(參見“B.C.J.Moore和B.R.Glasberg, ‘A revisionof Zwicker' s loundness model,,Acta Acustica, Vol.82,第 335-345 頁,1996”),與例如 BARK標(biāo)度相比,這種ERB標(biāo)度提供了在較低頻率上更好的頻譜解析度。然而,也可以 使用BARK標(biāo)度。通過對按照ERB標(biāo)度(參見等式2、間隔的頻譜采樣內(nèi)插均勻采樣的 頻譜,可以計算所映射的頻譜。
ERB(f) = 21.41og10(0.00437f+l)(2)
可替代地,對于每個信號塊,通過計算DFT頻譜能量,獲得功率譜密度(psd) 估計值。接著,在COG計算和分段之前,執(zhí)行到感性標(biāo)度上的psd映射,以便幫助將頻 譜分段成感性適合的非均勻的、同時COG中心化的頻帶的任務(wù)。因而,該問題簡化為使 一組大致均勻的分段與所估計的信號局部COG位置對準(zhǔn)的任務(wù)。作為感性標(biāo)度,應(yīng)用 ERB標(biāo)度,與例如BARK標(biāo)度相比,這種ERB標(biāo)度提供了在較低頻率上更好的頻譜解析 度。通過對按照ERB標(biāo)度(參見等式幻間隔的頻譜采樣內(nèi)插均勻采樣的頻譜,計算所 映射的頻譜。
隨后,為了去除在現(xiàn)實音頻信號頻譜內(nèi)固有的全局趨勢,在其趨勢上標(biāo)準(zhǔn)化所 映射的psd,該趨勢是通過使最小平方標(biāo)準(zhǔn)最小化的線性回歸來計算的。在相除之前,通 過應(yīng)用例如一階IIR_濾波器H(Z)來時間平滑這兩個量值,所述濾波器均具有由等式& 定義的例如τ = 200ms的時間常數(shù),其中T是通過輸入采樣周期乘以DFT的時間跨距給 出的DFT子頻帶采樣周期。
H (z) = --~f1 — αιζ~ι1權(quán)利要求
1.用于確定音頻信號的頻譜(102)的重力頻率(132)的多個局部中心的設(shè)備(100), 該設(shè)備包括偏移確定器(110),其被配置以根據(jù)所述音頻信號的頻譜(102),為多個迭代開始頻 率的每個迭代開始頻率確定偏移頻率(112),其中所述頻譜(102)的離散采樣值的數(shù)量大 于迭代開始頻率的數(shù)量;頻率確定器(120),其被配置以通過將所述多個迭代開始頻率的每個迭代開始頻率提 高或降低相應(yīng)的所確定的偏移頻率(112),來確定新的多個迭代開始頻率(122);和迭代控制器(130),其被配置以將所述新的多個迭代開始頻率(122)提供給偏移確定 器(110)以供進(jìn)一步迭代,或者如果符合預(yù)定義的結(jié)束條件,便提供重力頻率(132)的多 個局部中心,其中所述重力頻率(132)的多個局部中心等于所述新的多個迭代開始頻率 (122)。
2.根據(jù)權(quán)利要求1的設(shè)備,其中所述偏移確定器(110)被配置以根據(jù)所述頻譜(102) 的多個離散采樣值、加權(quán)參數(shù)的相應(yīng)值和距離參數(shù)的相應(yīng)值,來確定迭代開始頻率的偏 移頻率(112)。
3.根據(jù)權(quán)利要求2的設(shè)備,其中所述距離參數(shù)值在對數(shù)標(biāo)度上彼此相等地間隔開,其 中所述距離參數(shù)值全部小于最大距離值。
4.根據(jù)權(quán)利要求2或3的設(shè)備,其中所述加權(quán)參數(shù)值全部相等,或者對于相應(yīng)距離參 數(shù)的增加的絕對值,所述加權(quán)參數(shù)值減少。
5.根據(jù)權(quán)利要求1至4之一的設(shè)備,其中所述偏移確定器(110)被配置以根據(jù)所述頻 譜(102)確定每個迭代開始頻率的偏移頻率(112),其中該頻譜(102)包括對數(shù)標(biāo)度。
6.根據(jù)權(quán)利要求1至5之一的設(shè)備,其中該設(shè)備被配置用于為音頻信號的多個時間塊 的每個時間塊確定重力頻率(132)的多個局部中心。
7.根據(jù)權(quán)利要求6的設(shè)備,其中對于所述多個時間塊的一個時間塊的第一次迭代,在 對數(shù)標(biāo)度上彼此相等間隔開地初始化所述多個迭代開始頻率。
8.根據(jù)權(quán)利要求6的設(shè)備,其中所述對于時間塊的第一次迭代的多個迭代開始頻率是 基于為前一時間塊確定的重力頻率(132)的多個局部中心。
9.根據(jù)權(quán)利要求1至8之一的設(shè)備,包括頻譜添加器(210),其被配置以如果在新的 多個迭代開始頻率(122)的兩個相鄰迭代開始頻率之間的頻率距離大于最大頻率距離, 將一迭代開始頻率添加至所述新的多個迭代開始頻率(122)中。
10.根據(jù)權(quán)利要求1至9之一的設(shè)備,包括頻率合并器(220),其被配置以如果在兩個 相鄰迭代開始頻率之間的頻率距離小于最小頻率距離,合并所述多個迭代開始頻率(122) 的兩個相鄰迭代開始頻率。
11.根據(jù)權(quán)利要求10的設(shè)備,其中所述頻率合并器(220)被配置以通過用位于兩個相 鄰迭代開始頻率之間的新的迭代開始頻率替換這兩個相鄰的迭代開始頻率,合并兩個相 鄰的迭代開始頻率。
12.根據(jù)權(quán)利要求1至11之一的設(shè)備,包括頻率刪除器(230),其被配置以如果一迭 代開始頻率高于所述音頻信號的頻譜(102)的預(yù)定義最大頻率或者如果一迭代開始頻率 低于所述音頻信號頻譜(102)的預(yù)定義最小頻率,則從所述新的多個迭代開始頻率(122) 中刪除該迭代開始頻率。
13.根據(jù)權(quán)利要求6至12之一的設(shè)備,其中如果對于每個迭代開始頻率,為當(dāng)前時間 塊確定的頻率偏移與為前一時間塊確定的頻率偏移之和的絕對值小于預(yù)定義閾值偏移, 則符合所述預(yù)定義結(jié)束條件。
14.根據(jù)權(quán)利要求1至13之一的設(shè)備,包括預(yù)處理器(310),其被配置以生成用于音 頻信號的時間塊的傅立葉變換頻譜,生成基于該時間塊的傅立葉變換頻譜的平滑頻譜, 通過將該傅立葉變換頻譜除以該平滑頻譜生成將要提供給偏移確定器(110)的音頻信號 (302)的頻譜(102),將該頻譜(102)映射至對數(shù)標(biāo)度并將該對數(shù)頻譜(102)提供給偏移 確定器(110),或者配置以生成用于音頻信號的時間塊的傅立葉變換頻譜,將該傅立葉變 換頻譜(102)映射至對數(shù)標(biāo)度,根據(jù)該時間塊的對數(shù)傅立葉變換頻譜生成平滑頻譜,通 過將該對數(shù)傅立葉變換頻譜除以該平滑頻譜生成將要提供給偏移確定器(110)的音頻信 號(302)的頻譜(102),并將該頻譜(102)提供給偏移確定器(110)。
15.根據(jù)權(quán)利要求14的設(shè)備,其中所述預(yù)處理器(310)包括濾波器,該濾波器被配置 以在將所述傅立葉變換頻譜或?qū)?shù)傅立葉變換頻譜除以所述平滑頻譜之前,對所述傅立 葉變換頻譜、對數(shù)傅立葉變換頻譜和/或平滑頻譜進(jìn)行時間平滑。
16.用于過濾音頻信號(802)的信號自適應(yīng)濾波器組(800),包括用于根據(jù)權(quán)利要求1至15之一確定音頻信號(802)的頻譜的重力頻率的多個局部中 心的設(shè)備;和多個帶通濾波器(810),其被配置以對所述音頻信號(802)進(jìn)行濾波以獲得濾波后音 頻信號(812),并提供該濾波后音頻信號(812),其中該多個帶通濾波器(810)的每個帶 通濾波器的中心頻率和帶寬是基于所述重力頻率(132)的多個局部中心。
17.根據(jù)權(quán)利要求16的信號自適應(yīng)濾波器組,其中所述多個帶通濾波器(810)的每個 帶通濾波器對應(yīng)于重力頻率的局部中心,其中該帶通濾波器的局部中心和帶寬取決于重 力頻率的相應(yīng)局部中心、以及重力頻率的相關(guān)中心的重力頻率的相鄰局部中心。
18.根據(jù)權(quán)利要求16或17的信號自適應(yīng)濾波器組,其中確定所述多個帶通濾波器 (810)的帶寬,以便無孔地覆蓋全部頻譜。
19.相位聲碼器,包括根據(jù)權(quán)利要求15至18之一的信號自適應(yīng)濾波器組。
20.用于將音頻信號(1102)轉(zhuǎn)換成參數(shù)化表示(1132)的設(shè)備(1100),該設(shè)備包括用于根據(jù)權(quán)利要求1至15之一確定音頻信號(1102)的頻譜的重力頻率的多個局部中心(132)的設(shè)備;帶通估計器(1110),用于根據(jù)所述重力頻率(132)的多個局部中心估計多個帶通濾 波器(810)的信息(1112),其中與該多個帶通濾波器(810)有關(guān)的信息包括與用于音頻信 號部分的濾波器形狀有關(guān)的信息,其中帶通濾波器的帶寬在音頻頻譜上不同;調(diào)制估計器(1120),用于使用所述與多個帶通濾波器(810)有關(guān)的信息(1112),為 所述音頻信號部分的多個帶通濾波器(810)的每個頻帶,估計幅度調(diào)制(1122)、頻率調(diào) 制(1124)或相位調(diào)制(1124);和輸出接口(1130),用于傳輸、存儲或修正用于該音頻信號部分的與幅度調(diào)制有關(guān)的 信息、與頻率調(diào)制或相位調(diào)制有關(guān)的信息、或與多個帶通濾波器(810)有關(guān)的信息。
21.用于確定音頻信號的頻譜的重力頻率的多個局部中心的方法(1400),該方法包括根據(jù)所述音頻信號的頻譜,確定(1410)多個迭代開始頻率的每個迭代開始頻率的偏 移頻率,其中所述頻譜的離散采樣值的數(shù)量大于迭代開始頻率的數(shù)量;通過將所述多個迭代開始頻率的每個迭代開始頻率提高或降低相應(yīng)的所確定的偏移 頻率,確定(1420)新的多個迭代開始頻率;和提供(1430)所述新的多個迭代開始頻率以進(jìn)行進(jìn)一步迭代,或者如果滿足預(yù)定義結(jié) 束條件,便提供(1440)重力頻率的多個局部中心,其中所述重力頻率的多個局部中心等 于所述新的多個迭代開始頻率。
22.具有程序代碼的計算機(jī)程序,該程序代碼用于當(dāng)該計算機(jī)程序在計算機(jī)或微控制 器上運(yùn)行時,執(zhí)行根據(jù)權(quán)利要求21的方法。
全文摘要
一種用于確定音頻信號頻譜的重力頻率的多個局部中心的設(shè)備包括偏移確定器、頻率確定器和迭代控制器。偏移確定器根據(jù)音頻信號頻譜確定多個迭代開始頻率的每個迭代開始頻率的偏移頻率,其中該頻譜的離散采樣值的數(shù)量大于迭代開始頻率的數(shù)量。頻率確定器通過將多個迭代開始頻率的每個迭代開始頻率增加或降低相應(yīng)的所確定的偏移頻率來確定新的多個迭代開始頻率。迭代控制器將新的多個迭代開始頻率提供給偏移確定器以進(jìn)行進(jìn)一步迭代,或者如果符合預(yù)先定義的結(jié)束條件,便提供多個重力頻率的局部中心。可以將該重力頻率的多個局部中心用作用于生成新的多個迭代開始頻率的基礎(chǔ)。
文檔編號G10L11/04GK102027533SQ201080001523
公開日2011年4月20日 申請日期2010年3月18日 優(yōu)先權(quán)日2009年4月3日
發(fā)明者哈拉爾德·波普, 薩斯卡·迪希 申請人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會