頻譜包絡(luò)的樣本值的基于上下文的熵編碼的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及頻譜包絡(luò)的樣本值的基于上下文的熵編碼及其在音頻編碼/壓縮中的 使用。
【背景技術(shù)】
[0002] 如在[1 ]和[2 ]中所述的許多現(xiàn)有技術(shù)的有損(lossy)音頻編碼器,基于MDCT變換, 并使用不相關(guān)性減小和冗余度減小,以對于給定的感知品質(zhì)最小化所需的比特率。為了減 小表示精確度或移除非感知相關(guān)的頻率信息,不相關(guān)性減小通常利用人類聽覺系統(tǒng)的感知 限制。為了實(shí)現(xiàn)剩余數(shù)據(jù)的最簡潔的表示,通常使用結(jié)合熵編碼的統(tǒng)計(jì)建模,應(yīng)用冗余度減 少以利用統(tǒng)計(jì)結(jié)構(gòu)或相關(guān)性。
[0003] 除了別的之外,參數(shù)化編碼概念用于高效地對音頻內(nèi)容進(jìn)行編碼。使用參數(shù)化編 碼,使用參數(shù)而非使用實(shí)際時(shí)域音頻樣本或類似來描述音頻信號的部分,如其頻譜圖的部 分。例如,音頻信號的頻譜圖的部分可在解碼器側(cè)與僅包括參數(shù)(如頻譜包絡(luò)和可選的其他 控制合成的參數(shù))的數(shù)據(jù)流合成,以使合成的頻譜圖部分適于所傳輸?shù)念l譜包絡(luò)。此種的新 技術(shù)為頻譜頻帶復(fù)制(SBR),根據(jù)此,核心編解碼器用于編碼并傳輸音頻信號的低頻分量, 然而所傳輸?shù)念l譜包絡(luò)用在解碼側(cè),以頻譜地成形/形成音頻信號的低頻帶分量的重建的 頻譜復(fù)制,從而在解碼側(cè)合成音頻信號的高頻帶分量。
[0004] 以上所述的編碼技術(shù)的架構(gòu)內(nèi)的頻譜包絡(luò),在數(shù)據(jù)流內(nèi)以某種合適的頻譜時(shí)間分 辨率傳輸。在某種程度上類似于頻譜包絡(luò)樣本值的傳輸,用于縮放頻譜線系數(shù)或頻域系數(shù) (如MDCT系數(shù))的比例因子,同樣地以合適的頻譜時(shí)間分辨率傳輸,該合適的頻譜時(shí)間分辨 率比原始的頻譜線分辨率更粗糙,例如在頻譜意義上。
[0005] 為了傳遞描述頻譜包絡(luò)或比例因子或頻域系數(shù)的樣本的信息,可使用固定的哈夫 曼(Huffman)編碼表。改進(jìn)的方法使用上下文編碼,如在[2]和[3]中所述,其中用于選擇概 率分布以用于對值進(jìn)行編碼的上下文跨時(shí)間與頻率延伸。個(gè)別的頻譜線(如MDCT系數(shù)值)為 復(fù)頻譜線的實(shí)數(shù)投射,且其可能在本質(zhì)上顯現(xiàn)某些隨機(jī)性,即便復(fù)頻譜線的振幅為跨時(shí)間 恒定的,但相位因幀而異。為了有如[3]所描述的良好結(jié)果,這需要上下文選擇、量化以及映 射的相當(dāng)復(fù)雜的機(jī)制。
[0006] 在圖像編碼中,所使用的上下文通常為圖像的跨X軸和y軸的二維的,如在[4]中所 述。在圖像編碼中,例如利用伽馬(gamma)調(diào)節(jié),值處于線性域或冪律域。此外,在每個(gè)上下 文中,單個(gè)固定的線性預(yù)測可被用作平面擬合及基本的邊緣檢測機(jī)制,而且預(yù)測誤差可被 編碼。參數(shù)化Golomb或Golomb-Rice編碼可用于對預(yù)測誤差進(jìn)行編碼。此外,例如使用基于 比特的編碼器,運(yùn)行長度編碼(run length coding)用于補(bǔ)償對非常低的熵信號(每樣本低 于1比特)進(jìn)行直接編碼的困難度。
[0007] 然而,盡管有關(guān)于比例因子和/或頻譜包絡(luò)的編碼的改進(jìn),仍需要用于對頻譜包絡(luò) 的樣本值進(jìn)行編碼的改進(jìn)概念。因此,本發(fā)明的目的在于提供用于對頻譜包絡(luò)的頻譜值進(jìn) 行編碼的概念。
【發(fā)明內(nèi)容】
[0008] 通過待決的獨(dú)立權(quán)利要求的主旨實(shí)現(xiàn)本發(fā)明的目的。
[0009] 本文中所描述的實(shí)施例基于此發(fā)現(xiàn):通過結(jié)合一方面的頻譜時(shí)間預(yù)測與另一方面 的對殘差進(jìn)行基于上下文的熵編碼,而特別地根據(jù)對當(dāng)前樣本值的頻譜時(shí)間鄰近區(qū)域中的 頻譜包絡(luò)的成對的已編碼/解碼的樣本值之間的偏差的測量,確定用于當(dāng)前樣本值的上下 文,可以獲得對頻譜包絡(luò)的樣本值進(jìn)行編碼的改進(jìn)概念。一方面的頻譜時(shí)間預(yù)測與另一方 面的隨著根據(jù)偏差測量的上下文的選擇來對預(yù)測殘差進(jìn)行基于上下文的熵編碼的結(jié)合與 頻譜包絡(luò)的本質(zhì)相協(xié)調(diào):頻譜包絡(luò)的平滑度導(dǎo)致簡潔的預(yù)測殘差分布,以使得關(guān)于預(yù)測結(jié) 果的熵編碼,頻譜時(shí)間的交互相關(guān)在預(yù)測之后幾乎被完全地移除,且在上下文選擇中可被 無視。這反過來降低了用于管理上下文的開銷。然而,當(dāng)前樣本值的頻譜時(shí)間鄰近區(qū)域中的 已編碼/解碼的樣本值之間的偏差測量的使用,仍使得上下文自適應(yīng)性的規(guī)定可行,其以由 此造成的額外開銷是合理的方式改進(jìn)熵編碼效率。
[0010]根據(jù)以下描述的實(shí)施例,線性預(yù)測與使用差值作為偏差測量相結(jié)合,借此保持用 于編碼的開銷低下。
[0011] 根據(jù)實(shí)施例,選擇(用于確定差值最終用于選擇/確定上下文的)已編碼/解碼的樣 本值的位置,以使得它們以與當(dāng)前樣本值相對準(zhǔn)的方式在頻譜上或時(shí)間上彼此鄰近,即它 們沿著與時(shí)間軸或頻譜軸相平行的線分布,而當(dāng)確定/選擇上下文時(shí),額外地考慮差值的符 號(Sign)。通過此測量,當(dāng)確定/選擇用于當(dāng)前樣本值的上下文時(shí),可考慮預(yù)測殘差中的一 種"趨勢",而僅合理地增加上下文開銷。
【附圖說明】
[0012] 以下,關(guān)于附圖描述本申請的優(yōu)選實(shí)施例,其中:
[0013] 圖1顯示頻譜包絡(luò)的示意圖并示出源于樣本值的其組成,和其中定義的可能解碼 順序及用于頻譜包絡(luò)的當(dāng)前編碼/解碼的樣本值的可能頻譜時(shí)間鄰近區(qū)域。
[0014] 圖2顯示根據(jù)實(shí)施例的用于對頻譜包絡(luò)的樣本值進(jìn)行編碼的基于上下文的熵編碼 器的方塊圖。
[0015] 圖3顯示示出在對推導(dǎo)測量進(jìn)行量化中可使用的量化函數(shù)的示意圖。
[0016] 圖4顯示與圖2的編碼器相配的基于上下文的熵解碼器的方塊圖。
[0017]圖5顯示根據(jù)另一實(shí)施例的用于對頻譜包絡(luò)的樣本值進(jìn)行編碼的基于上下文的熵 編碼器的方塊圖。
[0018]圖6顯示示出根據(jù)使用逸出編碼(escape coding)的實(shí)施例的預(yù)測殘差的熵編碼 的可能值的區(qū)間相對于預(yù)測殘差可能值的整體區(qū)間的放置的示意圖。
[0019]圖7顯示與圖5的編碼器相配的基于上下文的熵解碼器的方塊圖。
[0020]圖8顯示使用特定記號的頻譜時(shí)間鄰近區(qū)域的可能定義。
[0021 ]圖9顯示根據(jù)實(shí)施例的參數(shù)化音頻解碼器的方塊圖。
[0022]圖10通過顯示一方面的由頻譜包絡(luò)覆蓋的頻率區(qū)間與另一方面的覆蓋整體音頻 信號的頻率范圍的另一區(qū)間的精細(xì)結(jié)構(gòu)之間的關(guān)系,顯示示出圖9的參數(shù)化解碼器的可能 的實(shí)施變型的示意圖。
[0023]圖11顯示根據(jù)圖10的變型的與圖9的參數(shù)化音頻解碼器相配的音頻編碼器的方塊 圖。
[0024] 圖12顯示示出當(dāng)支持智能間隙填充(Intelligent Gap Filling,IGF)時(shí)的圖9的 參數(shù)化音頻解碼器的變型的示意圖。
[0025]圖13顯示示出根據(jù)實(shí)施例的頻譜包絡(luò)的源于精細(xì)結(jié)構(gòu)頻譜圖的頻譜(即頻譜片), 頻譜的IGF填充及其成形的示意圖。
[0026]圖14顯示支持IGF的音頻編碼器的方塊圖,其與根據(jù)圖12的圖9的參數(shù)化解碼器的 變型相配。
【具體實(shí)施方式】
[0027]如以下所概述的實(shí)施例(其通常適于頻譜包絡(luò)的編碼)的動(dòng)機(jī),使用智能間隙填充 (IGF)作為示例,在此呈現(xiàn)引致以下概述的有利實(shí)施例的一些想法。IGF為一種新的方法,用 于顯著地改進(jìn)即使以非常低的比特率編碼的信號的品質(zhì)。詳細(xì)內(nèi)容請參考以下描述。在任 何情況下,IGF處理這樣的事實(shí):由于通常不足的比特預(yù)算,高頻區(qū)域中的頻譜的重要部分 被量化成零。為了盡可能保持上頻率區(qū)域的精細(xì)結(jié)構(gòu),在IGF信息中低頻區(qū)域用作自適應(yīng)地 替代高頻區(qū)域中的大部分被量化成零的目的區(qū)域的來源。為了實(shí)現(xiàn)良好的感知品質(zhì),重要 的需求是,頻譜系數(shù)的解碼的能量包絡(luò)與原始信號的解碼的能量包絡(luò)相匹配。為了實(shí)現(xiàn)此, 從一個(gè)或多個(gè)連續(xù)的AAC比例因子頻帶在頻譜系數(shù)上計(jì)算平均頻譜能量。使用由比例因子 頻帶所定義的邊界來計(jì)算平均能量是由已存在的將這些邊界小心調(diào)整至臨界頻帶的片段 所激發(fā),該臨界頻帶對于人類聽覺是特有的。平均能量被使用公式(類似于用于AAC比例因 子的公式)而轉(zhuǎn)換成dB比例表示,然后被均勻量化。在IGF中,根據(jù)所請求的總比特率,可選 擇地使用不同的量化準(zhǔn)確性。平均能量構(gòu)成由IGF所產(chǎn)生的信息的重要部分,因此其高效的 表示對于IGF的整體性能是高度重要的。
[0028]因此,在IGF中,比例因子能量描述頻譜包絡(luò)。比例因子能量(SFE)表示描述頻譜包 絡(luò)的頻譜值。當(dāng)SFE進(jìn)行解碼時(shí),可以利用SFE的特定屬性。特別地,相比于[2]和[3],已實(shí)現(xiàn) SFE表示MDCT頻譜線的平均值,因此其值更"平滑"并與對應(yīng)復(fù)頻譜線的平均振幅線性相關(guān)。 利用此情景,以下的實(shí)施例使用一方面的頻譜包絡(luò)樣本值預(yù)測與另一方面的使用取決于此 頻譜包絡(luò)的成對的鄰近的已編碼/解碼的樣本值的偏差的測量的上下文的預(yù)測殘差的基于 上下文的熵編碼的結(jié)合。此結(jié)合的使用特別地適于此類待被編碼的數(shù)據(jù),即頻譜包絡(luò)。 [0029]為了容易理解以下所描述的實(shí)施例,圖1顯示頻譜包絡(luò)10以及源于樣本值12的其 組成,樣本值12以特定頻譜時(shí)間分辨率采樣音頻信號的頻譜包絡(luò)10。在圖1中,樣本值12示 意性地沿著時(shí)間軸14和頻譜軸16布置。每個(gè)樣本值12描述或定義對應(yīng)時(shí)空平鋪(tile)之內(nèi) 的頻譜包絡(luò)10的高度,此對應(yīng)時(shí)空平鋪覆蓋,例如音頻信號的頻譜圖的時(shí)空域的特定矩形。 因此,樣本值為已通過整合其相關(guān)聯(lián)的頻譜時(shí)間平鋪上的頻譜圖而獲得的整合值。依據(jù)能 量或一些其他物理測量,樣本值12可測量頻譜包絡(luò)10的高度或強(qiáng)度,且可被定義在非對數(shù) 或線性域中,或?qū)?shù)域中。其中由于其額外地分別沿著軸14和16對樣本值進(jìn)行平滑的特性, 對數(shù)域可提供額外的優(yōu)點(diǎn)。
[0030]應(yīng)注意的是,就以下描述而言,僅為了示出目的而假設(shè)樣本值12在頻譜上和時(shí)間 上規(guī)律地布置,即對應(yīng)于樣本值12的對應(yīng)時(shí)空平鋪規(guī)律地覆蓋源于音頻信號的頻譜圖的頻 帶18,但是此規(guī)律并非強(qiáng)制性的。相反地,也可使用樣本值12對頻譜包絡(luò)10的不規(guī)則采樣, 每個(gè)樣本值12表示在其對應(yīng)時(shí)空平鋪之內(nèi)的頻譜包絡(luò)10的高度的平均值。以下概述的鄰近 區(qū)域的定義仍可用于頻譜包絡(luò)10的不規(guī)則采樣的可選實(shí)施例。以下呈現(xiàn)此可能性的簡要描 述。
[0031] 然而,之前,應(yīng)注意的是,上述頻譜包絡(luò)可受到為了各種理由的用于從編碼器到解 碼器的傳輸?shù)木幋a和解碼。例如,為了可擴(kuò)展性目的可以使用頻譜包絡(luò),以延伸音頻信號的 低頻帶的核心編碼,即將此低頻帶朝更高的頻率延伸