專利名稱:對(duì)數(shù)字音頻信號(hào)編碼的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于對(duì)數(shù)字化的音頻信號(hào)進(jìn)行編碼的方法和裝置。
在音頻編碼器中,例如在MPEG1或MPEG2音頻系統(tǒng)中,音質(zhì)模型計(jì)算用作數(shù)據(jù)整理的屏蔽閾值。對(duì)于音頻信號(hào)的每個(gè)子帶屏蔽閾值可改變。歸因于所確定的屏蔽閾值對(duì)每個(gè)子帶定義所謂的位分配過(guò)程,子帶抽樣應(yīng)以該分辨率被量化。這將隨著時(shí)間的推移隨每塊間頻信號(hào)樣本而變。因此,對(duì)于不同的塊最佳音質(zhì)所需的位率也應(yīng)改變。實(shí)際上在MPEG1音頻系統(tǒng)中,可利用的所需位率對(duì)于每個(gè)音頻通道而言通常是固定的。因?yàn)椋瑢?duì)于所需位率,各種參數(shù)的準(zhǔn)確位數(shù)和傳輸所需要的數(shù)據(jù)不可能事先精確地估計(jì)到,一些位被剩下或者一些位被丟失。習(xí)慣上用一種簡(jiǎn)單的分配策略克服該問(wèn)題,例如,為每個(gè)子帶分配幾乎相等數(shù)目的這種位。
上述分配策略未考慮在編碼器中所使用的音質(zhì)模型。目前,對(duì)于小范圍的位率編碼器被加以優(yōu)化。雖然這種音頻編碼器也被用于在大范圍位率下操作,但是它們沒(méi)有為這樣做而被優(yōu)化。不同位率可能出現(xiàn)在左和右通道之間和/或附加通道(左環(huán)繞、右環(huán)繞、中央)和/或在所需位率可能從幀到幀改變的MPEG層III中。
本發(fā)明的目的是公開(kāi)一種根據(jù)這種分配策略獲得較好音頻編碼質(zhì)量的方法。本發(fā)明的目的是用一種對(duì)數(shù)字音頻信號(hào)編碼的方法實(shí)現(xiàn)的,其中通過(guò)分析歸因于音質(zhì)效果的音頻信號(hào)實(shí)現(xiàn)數(shù)據(jù)整理,其特征在于根據(jù)已編碼位流的可利用數(shù)據(jù)速率采用不同音質(zhì)模型確定用于數(shù)據(jù)整理過(guò)程的屏蔽閾值。
本發(fā)明的另一目的是公開(kāi)一種采用本發(fā)明方法的裝置。這一目的是用一種用于對(duì)數(shù)字音頻信號(hào)編碼的裝置實(shí)現(xiàn)的,該裝置包括用于整理音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的數(shù)據(jù)整理裝置,該音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)是在考慮音質(zhì)效果的情況下確定屏蔽閾值所造成的,其特征在于提供兩個(gè)或多個(gè)音質(zhì)模型裝置來(lái)計(jì)算各屏蔽閾值,每個(gè)音質(zhì)模型裝置適用于已編碼位流的特定數(shù)據(jù)速率,選擇裝置用于根據(jù)已編碼位流的可利用數(shù)據(jù)速率選擇各屏蔽閾值。
在本發(fā)明的第一實(shí)施例中,用至少三個(gè)音質(zhì)模型代替一個(gè),其中每一個(gè)音質(zhì)模型相對(duì)一定位率或位率范圍被優(yōu)化。根據(jù)所需通道或幀位率該編碼器選擇適當(dāng)?shù)囊粋€(gè)音質(zhì)模型。該音質(zhì)模型之一的輸出可以認(rèn)為是某一所需位率的一個(gè)標(biāo)準(zhǔn)屏蔽閾值。
當(dāng)當(dāng)前位數(shù)高時(shí),采用總體上具有較高屏蔽閾值的第二音質(zhì)模型。這一較高閾值不是象現(xiàn)在技術(shù)中一樣在頻譜上等量上升的標(biāo)準(zhǔn)閾值,而是相對(duì)于仍適用本輸入頻譜的音質(zhì)模型上升。
當(dāng)當(dāng)前位數(shù)低時(shí),采用總體上具有較低屏蔽閾值的第三音質(zhì)模型。這一較低閾值也不是象現(xiàn)在技術(shù)中一樣在頻譜上等量下降的標(biāo)準(zhǔn)閾值,而是相對(duì)于仍適用本輸入頻譜的音質(zhì)模型下降。
本發(fā)明的第二實(shí)施例解決了在不同音質(zhì)模型之間的硬轉(zhuǎn)換問(wèn)題,例如在左和右通道之間和/或在所需數(shù)據(jù)率可從幀到幀改變的MPEG層I到層III中。代替采用二進(jìn)制邏輯轉(zhuǎn)換,執(zhí)行一種模糊邏輯。
原理上,本發(fā)明方法適用于在MPEG2層I到層III和/或MPEG2 NBC系統(tǒng)中的音頻編碼。
下面參照附圖描述本發(fā)明的優(yōu)選實(shí)施例,附圖中
圖1是表示三個(gè)屏蔽閾值之間的硬轉(zhuǎn)換’方法的示圖;圖2是采用‘硬轉(zhuǎn)換’方法的音頻編碼裝置的程序結(jié)構(gòu);圖3是表示三個(gè)屏蔽閾值之間的‘軟轉(zhuǎn)換’方法的示圖;圖4是采用‘硬轉(zhuǎn)換’方法的音頻編碼裝置的程序結(jié)構(gòu);圖5是表示音頻編碼裝置原理結(jié)構(gòu)的方框圖。
關(guān)于音頻編碼技術(shù)的有價(jià)值信息包括在國(guó)際標(biāo)準(zhǔn)ISO/IEC 11172-3,1993年8月1日第一版‘信息技術(shù)—數(shù)字存儲(chǔ)介質(zhì)運(yùn)動(dòng)圖像和相關(guān)音頻以高達(dá)大約1.5M位/秒的編碼’,第三部分音頻中。
本發(fā)明的方法采用一個(gè)以上的音質(zhì)模型。作為一個(gè)實(shí)例三個(gè)不同的音質(zhì)模型被使用。每一個(gè)音質(zhì)模型適合于音頻位流的特定預(yù)定數(shù)據(jù)率。例如具有三個(gè)不同的數(shù)據(jù)率32千比特/秒、56千比特/秒和80千比特/秒。不同的音質(zhì)模型簡(jiǎn)寫(xiě)為PAM_Low,PAM_Mid,PAM_High。PAM_Low適合于32千比特/秒的低數(shù)據(jù)率,PAM_Mid適合于56千比特/秒的中數(shù)據(jù)率和PAM_High適合于80千比特/秒的高數(shù)據(jù)率。
現(xiàn)在參見(jiàn)圖1,它示出了在哪些區(qū)域中音質(zhì)模型被采用。在圖1中的X軸上規(guī)定了能夠?yàn)橐纛l編碼器所采用的可能數(shù)據(jù)率的范圍。在Y軸上對(duì)于每一可能的數(shù)據(jù)率給出了每一音質(zhì)模型的份額。當(dāng)可利用數(shù)據(jù)率在范圍DRR1內(nèi)時(shí)。音質(zhì)模型PAM_Low被用于計(jì)算屏蔽閾值。因此分配因子是1,即PAM_Low為100%,而PAM_Mid和PAM_High為0%。當(dāng)可利用數(shù)據(jù)率在范圍DRR2內(nèi)時(shí),音質(zhì)模型PAM_Mid被用于計(jì)算屏蔽閾值。因此,此時(shí)分配因子是1,即PAM_Mid為100%,而PSM_Low和PAM_High為0%。當(dāng)可利用數(shù)據(jù)率在范圍DRR3內(nèi)時(shí),音質(zhì)模型PAM_High被用于計(jì)算屏蔽閾值。因此分配因子再次為1,即PAM_High為100%,而PAM_Low和PAM_Mid為0%。在不同音質(zhì)模型之間的這種轉(zhuǎn)換從現(xiàn)在開(kāi)始將稱之為‘硬轉(zhuǎn)換’。
在圖2中示出了按照該方法工作的一種合適的簡(jiǎn)單計(jì)算機(jī)程序,現(xiàn)在對(duì)其進(jìn)行說(shuō)明。
標(biāo)號(hào)10表明該程序的起始點(diǎn)。標(biāo)號(hào)20表明一判定步驟,在其中確定可利用數(shù)據(jù)率ADR是否小于圖1所示的數(shù)據(jù)率值DR1。如果是這樣,該程序進(jìn)行到步驟30。在其中利用音質(zhì)模型PAM Low確定屏蔽閾值。在這一步驟之后,該程序?qū)⒃诓襟E40結(jié)束。如果在判定步驟20判定可利用數(shù)據(jù)率ADR大于數(shù)據(jù)率值DR1,則在判定步驟50進(jìn)行分析,可利用數(shù)據(jù)率ADR是否小于數(shù)據(jù)率值DR2。在正判定的情況下,該程序執(zhí)行步驟60并用音質(zhì)模型PAM_Mid計(jì)算屏蔽閾值。在步驟50作負(fù)判定的情況下,該程序執(zhí)行判定步驟70。在此分析可利用數(shù)據(jù)率是小于還是等于數(shù)據(jù)率值DR3。如果是這樣,該程序執(zhí)行步驟80,其中用音質(zhì)模型PAM_High計(jì)算屏蔽閾值。在判定步驟70中回答為負(fù)的情況下,該程序執(zhí)行步驟90,該步驟包括適當(dāng)?shù)腻e(cuò)誤檢測(cè)算法。在程序步驟60、80、90之后該程序?qū)⒃诓襟E40結(jié)束。
下面將說(shuō)明一種改進(jìn)的稱為‘軟轉(zhuǎn)換’的不同音質(zhì)模型之間的轉(zhuǎn)換方法。在圖3中,示出了三種可利用數(shù)據(jù)率的不同的范圍,表示為DRR4、DRR5、DRR6。如果可利用數(shù)據(jù)率在范圍DRR4內(nèi),則將僅采用音質(zhì)模型PAM_Low,即以100%的份額計(jì)算屏蔽閾值。如果可利用數(shù)據(jù)率在范圍DRR7內(nèi),則僅采用音質(zhì)模型PAM_High。如果可利用數(shù)據(jù)率在范圍DRR5內(nèi),則采用兩個(gè)音質(zhì)模型PAM_Low和PAM_Mid來(lái)計(jì)算相應(yīng)的屏蔽閾值。在可利用數(shù)據(jù)率在范圍DRR6內(nèi)的情況下,采用兩個(gè)音質(zhì)模型PAM_Midt和PAM_High來(lái)計(jì)算屏蔽閾值。例如在圖3中示出了可利用數(shù)據(jù)率ADR在范圍DRR5中。這意味著兩個(gè)屏蔽閾值被計(jì)算,即第一個(gè)稱為Mask_Low的對(duì)應(yīng)于PAM_Low模型,第二個(gè)稱為Mask_Mid的對(duì)應(yīng)于PAM_Mid模型。將兩個(gè)屏蔽閾值組合得到屏蔽閾值Mask。用按照下列公式的平均算法計(jì)算該新屏蔽閾值
Mask=α*Mask_Mid+β*Mask_Low公式1平均算法的實(shí)例其中α是音質(zhì)模型PAM Mid的分配因子,β是音質(zhì)模型PAM_Low的分配因子。在圖3中示出了這兩個(gè)分配因子。通過(guò)查表來(lái)確定它們,該表中包含代表在可利用數(shù)據(jù)率ADR的位置處相應(yīng)曲線L和M的數(shù)值。利用這些技術(shù)有可能設(shè)計(jì)一種能夠以寬的數(shù)據(jù)率范圍產(chǎn)生位流的音頻編碼器。
現(xiàn)在參照?qǐng)D4說(shuō)明執(zhí)行所述軟轉(zhuǎn)換方法的一種合適的計(jì)算機(jī)程序。標(biāo)號(hào)100表明該計(jì)算機(jī)程序的開(kāi)始步驟。在下一步驟110分析可利用數(shù)據(jù)率ADR是否小于數(shù)據(jù)率DR4。正的結(jié)果導(dǎo)致步驟120作為下一程序步驟。在此,僅根據(jù)音質(zhì)模型PAM_Low計(jì)算屏蔽閾值。在這一步驟之后該程序?qū)⒃诓襟E130結(jié)束。在步驟110中為負(fù)的結(jié)果的情況下,該程序繼續(xù)進(jìn)行步驟140。在此確定可利用數(shù)據(jù)率是否小于數(shù)據(jù)率值DR5。如果情況是這樣,則在步驟150計(jì)算兩個(gè)屏蔽閾值。一個(gè)是與音質(zhì)模型PAM_Low一致,另一個(gè)是與音質(zhì)模型PAM_Mid一致。然后將兩個(gè)屏蔽閾值組合得到一個(gè)最終屏蔽閾值。為此,兩個(gè)屏蔽閾值如圖3中所示用它們的相應(yīng)加權(quán)因子α和β加權(quán)。如上所述該組合運(yùn)算利用上述公式1。在步驟140中負(fù)的結(jié)果的情況下,下一步驟是判定步驟160。在此確定可利用數(shù)據(jù)率是否小于數(shù)據(jù)率值DR6。當(dāng)確實(shí)如此時(shí),下一步驟是步驟170。在此根據(jù)相應(yīng)音質(zhì)模型PAM_Mid和PAM_High計(jì)算兩個(gè)屏蔽閾值Mask_Mid和Mask_High。同樣它們也如同對(duì)步驟150所描述的那樣被加權(quán)并組合。判定步驟160中的負(fù)的判定結(jié)果導(dǎo)致判定步驟180。在此分析可利用數(shù)據(jù)率ADR是小于還是等于數(shù)據(jù)率值DR7,如圖3所示。在正的判定之后將執(zhí)行程序步驟190。在此根據(jù)音質(zhì)模型PAM_High計(jì)算屏蔽閾值。步驟180中負(fù)的判定導(dǎo)致步驟200,其中執(zhí)行錯(cuò)誤檢測(cè)算法。在執(zhí)行了步驟150、170、190和200之一以后該程序在步驟130結(jié)束。
下面參照?qǐng)D5描述利用‘軟轉(zhuǎn)換’方法對(duì)音頻信號(hào)編碼的裝置。
該裝置是基于眾所周知的子帶編碼技術(shù)。數(shù)字化的音頻信號(hào)經(jīng)由數(shù)據(jù)總線300饋送到濾波器組310。為簡(jiǎn)單起見(jiàn)假定僅傳輸一個(gè)音頻通道(單)到編碼裝置。當(dāng)然音頻信號(hào)是按塊饋送到編碼裝置的。在濾波器組310中,音頻信號(hào)被劃分為32個(gè)子帶。子帶樣本被饋送到塊320。在此,計(jì)算比例因子。它們被用于數(shù)據(jù)整理即用于壓縮子帶樣本的引導(dǎo)位‘0’和‘1’。每一子帶塊的比例因子被饋送到比例因子量化裝置330。在此它們被以例如6比特的分辯率量化。該量化比例因子被傳送到多路復(fù)用器350。它的功能將在后面描述。子帶樣本經(jīng)過(guò)塊320后被輸入歸一化電路360。在此用根據(jù)量化比例因子確定的適當(dāng)因子1/Us乘以該樣本,量化比例因子是經(jīng)由總線340輸入的。歸一化的子帶樣本被饋送到量化電路370。在此執(zhí)行基于音質(zhì)效果的數(shù)據(jù)整理。為量化目的的位分辨率根據(jù)音質(zhì)模型而確定,這將在后面描述,因此量化噪聲不會(huì)被人耳感覺(jué)到。在經(jīng)過(guò)量化電路370之后,子帶樣本被傳送到多路復(fù)用器350。多路復(fù)用器350建立包括所有同步和輔助數(shù)據(jù)的編碼裝置的輸出位流。該位流經(jīng)由總線380輸出。
經(jīng)數(shù)據(jù)總線300輸入的位流被饋送到塊390。其中在塊400中通過(guò)FFT算法(快速富里葉變換)計(jì)算信號(hào)的頻譜。此外在塊390中有三個(gè)不同的音質(zhì)模型410至430。對(duì)于低位率例如32千比特/秒的特定輸出位流采用并優(yōu)化第一個(gè)音質(zhì)模型PAM_Low。對(duì)于中等位率例如56千比特/秒的輸出位流采用并優(yōu)化第二個(gè)音質(zhì)模型。對(duì)于高位率例如80千比特/秒的輸出位流采用并優(yōu)化第三個(gè)音質(zhì)模型。每個(gè)音質(zhì)模型能夠確定一個(gè)屏蔽閾值Mask_Low,Mask_Mid,Mask_High。
在MPEG1和MPEG2標(biāo)準(zhǔn)中,存在在一個(gè)寬的位率范圍內(nèi)(任意格式)預(yù)先規(guī)定位率的可能性。根據(jù)預(yù)先規(guī)定的位率值,在‘硬轉(zhuǎn)換’模式下,用一個(gè)音質(zhì)模型計(jì)算屏蔽閾值。這已經(jīng)參照?qǐng)D1和2進(jìn)行了描述。在‘軟轉(zhuǎn)換’模式下,可采用兩個(gè)不同的音質(zhì)模型。如參照?qǐng)D3和4所描述的這取決于預(yù)先規(guī)定的位率值。這兩個(gè)屏蔽閾值被傳送到組合裝置440,在此它們被組合。所得到數(shù)據(jù)被饋送到位分配單元450。在‘硬轉(zhuǎn)換’模式下,組合裝置450用于作為選擇裝置來(lái)選擇適當(dāng)?shù)钠帘伍撝禂?shù)據(jù)并將其傳送到位分配單元450。該位分配單元計(jì)算位分配并控制量化電路370。位分配數(shù)據(jù)被傳送到多路復(fù)用器350??刂齐娐?60預(yù)先規(guī)定可利用的數(shù)據(jù)率,例如與一個(gè)用戶的輸入相一致,并據(jù)此控制組合裝置440和位分配單元450。它也輸入輔助數(shù)據(jù)到多路復(fù)用器350。
本發(fā)明能夠應(yīng)用在幾乎所有的音頻系統(tǒng)中,象MPEG、DAB、DCC、MD。
當(dāng)用一種視覺(jué)模型代替音質(zhì)模型時(shí),本發(fā)明也可用于象MPEG1或MPEG2這樣的視頻編碼。
所述實(shí)施例的各種改型是可能的,例如圖3中所示的曲線L、M和H可以是不同的形狀。音質(zhì)模型的數(shù)量也可以不是三個(gè)。圖5中所示的某些塊可以用適當(dāng)?shù)挠?jì)算機(jī)程序?qū)崿F(xiàn),該計(jì)算機(jī)程序可以由標(biāo)準(zhǔn)的或特殊的微處理器來(lái)執(zhí)行。為了組合‘軟轉(zhuǎn)換’模式下的屏蔽閾值,可以用稍微改進(jìn)的公式來(lái)代替公式1。也可以組合兩個(gè)以上的屏蔽閾值。
權(quán)利要求
1.一種用于對(duì)數(shù)字音頻信號(hào)編碼的方法,其中通過(guò)分析歸因于音質(zhì)效果的音頻信號(hào)實(shí)現(xiàn)數(shù)據(jù)整理,其特征在于根據(jù)已編碼位流的可利用數(shù)據(jù)速率(ADR)采用不同音質(zhì)模型(410,420,430)確定用于數(shù)據(jù)整理過(guò)程的屏蔽閾值。
2.一種用于對(duì)數(shù)字音頻信號(hào)編碼的方法,其中通過(guò)分析歸因于音質(zhì)效果的音頻信號(hào)實(shí)現(xiàn)數(shù)據(jù)整理,其特征在于兩個(gè)或多個(gè)不同音質(zhì)模型(410,420,430)被用于數(shù)據(jù)整理過(guò)程,兩個(gè)或多個(gè)不同音質(zhì)模型(410,420,430)中的每一個(gè)得出確定的屏蔽閾值,并且其中確定的屏蔽閾值被組合從而得出最終屏蔽閾值。
3.如權(quán)利要求2所述的方法,其中屏蔽閾值的組合是一種加權(quán)組合,并且加權(quán)因子(α,β)根據(jù)已編碼位流的可利用數(shù)據(jù)速率(ADR)確定。
4.如權(quán)利要求2或3之一所述的方法,其中加權(quán)組合是按照下列公式的線性組合Mask=α*Mask1+β*Mask2其中Mask是最終的屏蔽閾值,Mask1是從第一音質(zhì)模型(PAM Low)得出的屏蔽閾值,Mask2是從第二音質(zhì)模型(PAM Mid)得出的屏蔽閾值,α是Mask1的加權(quán)因子以及,β是Mask2的加權(quán)因子。
5.如權(quán)利要求2到4之一所述的方法,其中對(duì)于兩個(gè)或多個(gè)音質(zhì)模型(410,420,430)中的每一個(gè),提供適當(dāng)?shù)那€(L,M,H),該曲線具有獨(dú)立變量可利用數(shù)據(jù)速率(ADR)并作為數(shù)值在‘0’與‘1’之間的函數(shù)值,用于根據(jù)可利用數(shù)據(jù)速率確定加權(quán)因子(α,β)。
6.一種用于對(duì)數(shù)字音頻信號(hào)編碼的裝置,包括用于整理音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的數(shù)據(jù)整理裝置(450,370),該音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)是在考慮音質(zhì)效果的情況下確定屏蔽閾值所造成的,其特征在于提供兩個(gè)或多個(gè)音質(zhì)模型裝置(410,420,430)來(lái)計(jì)算各屏蔽閾值,每個(gè)音質(zhì)模型裝置(410,420,430)適用于已編碼位流的特定數(shù)據(jù)速率,選擇裝置(440)用于根據(jù)已編碼位流的可利用數(shù)據(jù)速率選擇各屏蔽閾值。
7.一種用于對(duì)數(shù)字音頻信號(hào)編碼的裝置,包括用于整理音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的數(shù)據(jù)整理裝置(450,370),該音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)是在考慮音質(zhì)效果的情況下確定屏蔽閾值所造成的,其特征在于提供兩個(gè)或多個(gè)音質(zhì)模型裝置(410,420,430)來(lái)計(jì)算各屏蔽閾值,每個(gè)音質(zhì)模型裝置(410,420,430)適用于已編碼位流的特定數(shù)據(jù)速率,組合裝置(440)用于組合兩個(gè)或多個(gè)音質(zhì)模型裝置(410,420,430)的產(chǎn)生的屏蔽閾值,由此得出由數(shù)據(jù)整理裝置(450,350)使用的最終屏蔽閾值。
8.如權(quán)利要求7所述的裝置,其中提供加權(quán)裝置(440)用于在將兩個(gè)或多個(gè)屏蔽閾值組合前對(duì)它們進(jìn)行加權(quán)。
9.如權(quán)利要求7或8所述的裝置,其中加權(quán)裝置(440)根據(jù)已編碼位流的可利用數(shù)據(jù)速率(ADR)確定加權(quán)因子(α,β)。
全文摘要
一種對(duì)數(shù)字音頻信號(hào)編碼的方法,該方法包括選擇兩個(gè)或多個(gè)音質(zhì)模型(410,420,430)中之一的步驟,該音質(zhì)模型是用于產(chǎn)生在數(shù)據(jù)整理過(guò)程中所用的屏蔽閾值。選擇準(zhǔn)則是已編碼位流的可利用數(shù)據(jù)速率(ADR)。兩個(gè)或多個(gè)音質(zhì)模型中的每一個(gè)適用于已編碼位流的特定數(shù)據(jù)速率。在本發(fā)明方法第二實(shí)施例中,包括將從不同音質(zhì)模型(410,420,430)得出的兩個(gè)或多個(gè)屏蔽閾值組合的步驟,從而產(chǎn)生對(duì)數(shù)據(jù)整理過(guò)程屏蔽閾值的更精確計(jì)算。此外提出了對(duì)數(shù)字音頻信號(hào)編碼的適當(dāng)裝置。
文檔編號(hào)H04B1/66GK1168034SQ9710457
公開(kāi)日1997年12月17日 申請(qǐng)日期1997年3月28日 優(yōu)先權(quán)日1996年4月26日
發(fā)明者詹斯·斯皮爾 申請(qǐng)人:德國(guó)湯姆遜-布朗特公司