平滑,所以在解碼側(cè),對于空間參數(shù)的PLC結(jié)果會更平滑。
[0160] 類似地,可以直接對空間參數(shù)進(jìn)行平滑操作。而在本申請中,還提出了通過對形成 空間參數(shù)的變換矩陣的元素進(jìn)行平滑來平滑空間參數(shù)。
[0161] 如在"整體解決方案"部分討論的,可以使用自適應(yīng)變換來得到單聲道分量和空間 分量,并且一個重要的示例是已經(jīng)討論的KLT。在這樣的變換中,可以在KLT編碼中通過變 換矩陣比如協(xié)方差矩陣來將輸入格式(如WXY或LRS)變換成旋轉(zhuǎn)音頻信號(如KLT編碼 中的特征通道分量)。并且根據(jù)該變換矩陣得到空間參數(shù)d、tp:和Θ。從而,如果平滑了該 變換矩陣,則平滑了空間參數(shù)。
[0162] 同樣,各種平滑操作都可適用,比如移動平均或者下面所示的歷史平均:
[0163]
[0164] 其中Rxx_smooth(p)是平滑之后幀P的變換矩陣,Rxx_smooth(p_l)是平滑之后 幀P-1的變換矩陣,Rxx(P)是平滑之前幀P的變換矩陣。α是具有(0.8, 1]的范圍或基于 其他物理屬性如幀Ρ的發(fā)散度自適應(yīng)地產(chǎn)生的加權(quán)因子。
[0165] 因此,如圖11所示,提供了一種用于將輸入格式的空間音頻信號變換成傳輸格式 的幀的第二變換器1000。這里每個幀包括至少一個單聲道分量和至少一個空間分量。第二 變換器可以包括:自適應(yīng)變換器1002,將輸入格式的空間音頻信號的每個幀分解成至少一 個單聲道分量,該至少一個單聲道分量通過變換矩陣與輸入格式的空間音頻信號的幀相關(guān) 聯(lián);平滑單元1004,對變換矩陣中的每個元素的值進(jìn)行平滑,產(chǎn)生當(dāng)前幀的平滑變換矩陣; 和空間分量提取器1006,從平滑變換矩陣得出該至少一個空間分量。
[0166] 使用平滑協(xié)方差矩陣,可以顯著地改善空間參數(shù)的穩(wěn)定性。這允許在PLC中使用 空間參數(shù)的簡單復(fù)制,作為一種經(jīng)濟而有效的方法,如在"整體解決方案"部分中討論的。
[0167] 關(guān)于協(xié)方差矩陣的平滑以及從其推導(dǎo)出空間參數(shù)的更多細(xì)節(jié)將在"音頻信號的正 自適應(yīng)變換和逆自適應(yīng)變換"部分中給出。
[0168] 音/頻信號的正自i舌應(yīng)變換和逆自i舌應(yīng)變換
[0169] 本部分將給出關(guān)于如何獲取傳輸格式的音頻幀的一些示例以及相應(yīng)的音頻編碼 器和解碼器,所述傳輸格式的音頻幀例如是用作作為本申請的處理對象的示例音頻信號的 參數(shù)化特征信號。然而,本申請顯然不限于此。上面所討論的PLC裝置和方法可以在音頻 解碼器之前(例如在服務(wù)器中)設(shè)置和實現(xiàn),或者與音頻解碼器集成,例如在目的通信終端 中。
[0170] 為了更清楚地描述本部分,一些術(shù)語與前面各部分中所使用的那些術(shù)語不完全相 同,但在下面適當(dāng)?shù)那闆r下將給出對應(yīng)關(guān)系。二維空間聲場通常由3-麥克風(fēng)陣列("LRS") 捕獲,然后用二維B格式("WXY")表示。二維B格式("WXY")是聲場信號的示例,具體 地是3通道聲場信號的示例。二維B格式通常在X方向和Y方向上表達(dá)聲場,但不在Z方 向(高度)上表達(dá)聲場。可以使用離散方法和參數(shù)化方法對這樣的3通道空間聲場信號進(jìn) 行編碼。已經(jīng)發(fā)現(xiàn)離散方法在相對高的工作比特率時有效率,而參數(shù)化方法在相對低的速 率(例如,每通道24kbit/s或更低)時比較經(jīng)濟。在本部分中,對使用參數(shù)化方法的編碼 系統(tǒng)進(jìn)行描述。
[0171] 參數(shù)化方法對于聲場信號的分層傳輸具有額外的優(yōu)點。參數(shù)化編碼方法通常涉及 下混合信號的生成以及描述一個或更多個空間信號的空間參數(shù)的生成??臻g信號的參數(shù)化 描述通常需要比在離散編碼情形中所需要的比特率較低的比特率。因此,給定預(yù)定的比特 率限制,在參數(shù)化方法的情況下,可以花費更多的比特用于下混合信號的離散編碼,可以根 據(jù)下混合信號使用空間參數(shù)的集合重建聲場信號。因此,可以以比用于單獨地對聲場信號 的每個聲道進(jìn)行編碼的比特率較高的比特率對下混合信號進(jìn)行編碼。因此,可以為下混合 信號提供提高的感知質(zhì)量??臻g信號的參數(shù)化編碼的該特征在涉及分層編碼的應(yīng)用中是有 用的,在涉及分層編碼的應(yīng)用中,單聲道客戶端(或終端)以及空間客戶端(或終端)在電 話會議系統(tǒng)中共存。例如,在單聲道客戶端的情況下,下混合信號可以用于渲染單聲道輸出 (忽略用于重建完整的聲場信號的空間參數(shù))。換言之,可以通過從完整的聲場比特流中剝 離與空間參數(shù)有關(guān)的比特來獲得單聲道客戶端的比特流。
[0172] 參數(shù)化方法背后的思想在于發(fā)送單聲道下混合信號加上空間參數(shù)的集合,這使得 能夠在解碼器處重建(3-通道)聲場信號的感知上適當(dāng)?shù)慕啤?梢允褂梅亲赃m應(yīng)下混合 方法和/或自適應(yīng)下混合方法從待編碼的聲場信號得到下混合信號。
[0173] 用于得到下混合信號的非自適應(yīng)方法可以包括固定的可逆變換的使用。這樣的變 換的示例是將"LRS"表達(dá)轉(zhuǎn)換成二維B格式("WXY")的矩陣。在這種情況下,由于分量W 的物理屬性,分量W可以是下混合信號的合理的選擇??梢约俣晥鲂盘柕?LRS"表達(dá)由 3個麥克風(fēng)的陣列捕獲,每個麥克風(fēng)具有心形指向模式。在這種情況下,B格式表示的W分 量相當(dāng)于由(虛擬)全向麥克風(fēng)所捕獲的信號。虛擬全向麥克風(fēng)提供基本上對聲源的空間 位置不敏感的信號,從而提供健壯的和穩(wěn)定的下混合信號。例如,由聲場信號表示的主要聲 源的角度位置不影響W分量。到B格式的變換是可逆的。給定"W"以及其他兩個分量,SP "X"和"Y",可以重建聲場的"LRS"表達(dá)。因此,可以在"WXY"域執(zhí)行(參數(shù)化)編碼。應(yīng) 當(dāng)注意,更一般地,上面所提到的術(shù)語"LRS"域可以稱為捕獲域,S卩,聲場信號(使用麥克風(fēng) 陣列)被捕獲的域。
[0174] 使用非自適應(yīng)下混合的參數(shù)化編碼的優(yōu)點是由于以下事實:由于下混合信號的穩(wěn) 定性和健壯性,這樣的非自適應(yīng)方法提供了用于在"WXY"域中執(zhí)行的預(yù)測算法的健壯的基 礎(chǔ)。使用非自適應(yīng)下混合的參數(shù)化編碼的可能的缺點在于非自適應(yīng)下混合通常具有噪聲并 且攜帶很多混響。因此,在"WXY"域中執(zhí)行的預(yù)測算法會具有降低的性能,這是因為"W"信 號通常具有與"X"信號和"Y"信號不同的特性。
[0175] 創(chuàng)建下混合信號的自適應(yīng)方法可以包括執(zhí)行聲場信號的"LRS"表達(dá)的自適應(yīng)變 換。這樣的變換的示例是卡洛南-洛伊(Karhunen-L〇6Ve)變換(KLT)。通過執(zhí)行聲場信號 的通道間協(xié)方差矩陣的特征值分解得到該變換。在所討論的情形中,可以使用"LRS"域中 的通道間協(xié)方差矩陣。然后,自適應(yīng)變換可以用于將信號的"LRS"表達(dá)變換成可以由"E1 E2E3"表示的特征通道的集合??梢酝ㄟ^對"ElE2E3"表達(dá)應(yīng)用編碼來實現(xiàn)高的編碼增 益。在參數(shù)化編碼方法的情況下,"E1"分量可以用作單聲道下混合信號。
[0176] 這樣的自適應(yīng)下混合方案的優(yōu)點在于特征域便于編碼。原則上,當(dāng)對特征通道 (或特征信號)進(jìn)行編碼時,可以實現(xiàn)最佳的速率-失真平衡。在理想化的情況下,特征 通道是完全去相關(guān)的,并且它們可以彼此獨立地編碼而沒有性能損耗(相比于聯(lián)合編碼而 言)。另外,信號E1通常比"W"信號具有較少的噪聲,并且通常包含較少的混響。然而,自 適應(yīng)下混合策略也具有缺點。第一個缺點與以下事實有關(guān):自適應(yīng)下混合變換必須被編碼 器和解碼器已知,因此,表示自適應(yīng)下混合變換的參數(shù)必須被編碼和傳輸。為了相對于特征 信號E1、E2和E3的去相關(guān)實現(xiàn)這樣的目的,自適應(yīng)變換應(yīng)當(dāng)以相對高的頻率更新。自適應(yīng) 傳輸?shù)亩ㄆ诟聦?dǎo)致計算復(fù)雜度的增加,并且需要比特率來向解碼器傳輸對變換的描述。
[0177] 基于自適應(yīng)方法的參數(shù)化編碼的第二個缺點可以是由于基于E1的下混合信號的 不穩(wěn)定性。不穩(wěn)定性可以由以下事實造成:提供下混合信號E1的基礎(chǔ)變換是信號自適應(yīng) 的,因此變換是隨時間變化的。KLT的變化通常依賴于信號源的空間屬性。因此,一些類型 的輸入信號可能特別具有挑戰(zhàn)性,比如多個談話者情形,其中多個談話者由聲場信號表示。 自適應(yīng)方法的不穩(wěn)定性的另一來源可以是由于用于捕獲聲場信號的"LRS"表達(dá)的麥克風(fēng)的 空間特性。通常,具有指向模式(例如,心形模式)的定向麥克風(fēng)陣列用于捕獲聲場信號。 在這種情況下,當(dāng)信號源的空間屬性(例如,在多談話者情形中)變化時,"LRS"表示中的 聲場信號的通道間協(xié)方差矩陣可以是高度可變的,所得到的KLT也會如此。
[0178] 在本文中,對下混合方法進(jìn)行描述,該下混合方法解決了上面所提到的自適應(yīng)下 混合方法的穩(wěn)定性問題。所描述的下混合方案將非自適應(yīng)下混合方法的優(yōu)點和自適應(yīng)下混 合方法的優(yōu)點結(jié)合起來。具體地,提出了確定自適應(yīng)下混合信號,例如,主要包含聲場信號 的主導(dǎo)分量并且保持使用非自適應(yīng)下混合方法所得到下混合信號的穩(wěn)定性的"波束成形信 號"。
[0179] 應(yīng)該注意,從"LRS"表達(dá)到"WXY"表達(dá)的變換是可逆的,但是是非正交的。因此, 在編碼(例如,由量化進(jìn)行的編碼)的背景下,KLT在"LRS"域中的應(yīng)用和在"WXY"域中的 應(yīng)用通常不是等同的。WXY表達(dá)的優(yōu)點與以下事實有關(guān):WXY表達(dá)包含從聲源的空間屬性角 度來看健壯的分量"W"。在"LRS"表達(dá)中,所有的分量通常對于聲源的空間變化性同樣敏 感。另一方面,WXY表達(dá)的"W"分量通常不依賴聲場信號內(nèi)的主要聲源的角度位置。
[0180] 可以進(jìn)一步指出的是,不管聲場信號的表達(dá)如何,在聲場信號的至少一個分量是 空間穩(wěn)定的變換域中應(yīng)用KLT是有利的。因此,將聲場表達(dá)變換到聲場信號的至少一個分 量是空間穩(wěn)定的域?qū)⑹怯欣?。隨后,自適應(yīng)變換(例如,KLT)可以在聲場信號的至少一 個分量是空間穩(wěn)定的域中使用。換言之,僅依賴于用于捕獲聲場陣列的麥克風(fēng)陣列的麥克 風(fēng)的指向模式的屬性的非自適應(yīng)變換的使用,與依賴于非自適應(yīng)變換域中的聲場信號的通 道間時變協(xié)方差矩陣的自適應(yīng)變換相結(jié)合。注意,變換(即,非自適應(yīng)變換和自適應(yīng)變換) 是可逆的。換言之,提出的兩個變換的結(jié)合的好處在于,保證了兩個變換在任何情況下都是 可逆的。因此,兩個變換允許聲場信號的高效編碼。
[0181] 因此,提出了將所捕獲的聲場信號從捕獲域(例如,"LRS"域)變換到非自適應(yīng)變 換域(例如,"WXY"域)。隨后,可以基于非自適應(yīng)變換域中的聲場信號確定自適應(yīng)變換(例 如,KLT)??梢允褂米赃m應(yīng)變換(例如,KLT)將聲場信號變換到自適應(yīng)變換域(例如,"E1 E2E3"域)。
[0182] 在下面,對不同的參數(shù)化編碼方案進(jìn)行了描述。編碼方案可以使用基于預(yù)測和/ 或基于KLT的參數(shù)化。參數(shù)編碼方案與上面所提到的下混合方案相結(jié)合,旨在改進(jìn)編解碼 器的整體的速率-質(zhì)量平衡。
[0183] 圖22示出了示例編碼系統(tǒng)1100的框圖。示出的系統(tǒng)1100包括通常被包括在編 碼系統(tǒng)1100的編碼器內(nèi)的部件120和通常被包括在編碼系統(tǒng)1100的解碼器內(nèi)的部件130。 該編碼系統(tǒng)1100包括從"LRS"域到"WXY"域的(可逆的和/或非自適應(yīng))變換101,在變 換101之后是能量集中性正交(自適應(yīng))變換(例如,KLT變換)102。捕獲麥克風(fēng)陣列的 域(例如,"LRS"域)中的聲場信號110由非自適應(yīng)變換101變換成包括穩(wěn)定的下混合信 號(例如,"WXY"域中的信號"W")的域中的聲場信號111。隨后,使用去相關(guān)變換102將 聲場信號111變換成包括去相關(guān)的通道或信號(例如,通道E1、E2、E3)的聲場信號112。
[0184] 第一特征通道E1 113可以用于對其他特征通道E2和E3進(jìn)行參數(shù)化編碼(參數(shù) 化編碼,在前面各部分中也稱為"預(yù)測編碼")。但本申請并不限于此。在另一實施方式中, E2和E3可以不被參數(shù)化編碼,但僅以與E1的方式相同的方式編碼(離散方法,在前面各 部分中也稱為"非預(yù)測/離散編碼")??梢允褂孟禄旌暇幋a單元103,使用單聲道音頻和/ 或語音編碼方案對下混合信號E1進(jìn)行編碼。解碼的下混合信號114(在相應(yīng)的解碼器處也 可得到)可以用于對特征通道E2和E3進(jìn)行參數(shù)化編碼??梢栽趨?shù)化編碼單元104中執(zhí) 行參數(shù)化編碼。參數(shù)化編碼單元104可以提供預(yù)測參數(shù)的集合,預(yù)測參數(shù)的集合可以用于 根據(jù)解碼的信號E1 114重建信號E2和E3。通常在相應(yīng)的解碼器處執(zhí)行重建。此外,解碼 操作包括重建的E1信號以及參數(shù)化解碼的E2信號和E3信號(附圖標(biāo)記115)的使用,并 且包括執(zhí)行逆正交變換(例如,逆KLT) 105以在非自適應(yīng)變換域(例如,"WXY"域)中得到 重建的聲場信號116。逆正交變換105之后是變換106 (例如,非自適應(yīng)逆變換)以在捕獲 域(例如,"LRS"域)中得到重建的聲場信號117。該變換106通常對應(yīng)于變換101的逆變 換。重建的聲場信號117可以由被配置成對聲場信號進(jìn)行渲染的電話會議系統(tǒng)的終端進(jìn)行 渲染(呈現(xiàn))。電話會議系統(tǒng)的單聲道終端可以直接渲染重建的下混合信號El114(而不 需要重建聲場信號117)。
[0185] 為了實現(xiàn)提高的編碼質(zhì)量,在子帶域中應(yīng)用參數(shù)化編碼是有利的??梢酝ㄟ^時 間-頻率(T-F)變換例如重疊的T-F變換諸如MDCT(改進(jìn)的離散余弦變換)將時域信號變 換到子帶域。由于變換101、102是線性的,因此,原則上,可以在捕獲域(例如,"LRS"域)、 在非自適應(yīng)變換域(例如,"WXY"域),或在自適應(yīng)變換域(例如,"ElE2E3"域)中等效 地應(yīng)用T-F變換。因此,編碼器可以包括被配置成執(zhí)行T-F變換的單元(例如,圖2a中的 單元201)。
[0186] 使用編碼系統(tǒng)1100生成的3_通道聲場信號110的幀的描述包括例如兩個分量。 一個分量包括至少基于每幀改變的參數(shù)。另一個分量包括使用1-通道單聲道編碼器(例 如,基于變換的音頻和/或語音編碼器)基于下混合信號113(例如,E1)所獲得的單聲道 波形的描述。
[0187] 解碼操作包括1-通道單聲道下混合信號(例如,E1下混合信號)的解碼。然后, 重建的下混合信號114用于通過參數(shù)化的參數(shù)(例如,通過預(yù)測參數(shù))重建其余的聲道(例 如,E2和E3信號)。隨后,通過使用傳輸?shù)拿枋鋈ハ嚓P(guān)變換102的參數(shù)(例如,通過使用 KLT參數(shù))將重建的特征信號ElE2和E3 115旋轉(zhuǎn)回非自適應(yīng)變換域(例如,"WXY"域)。 捕獲域中的重建的聲場信號117可以通過將"WXY"信號116變換到原始的"LRS"域117來 獲得。
[0188] 圖23a和圖23b分別更詳細(xì)地示出了示例編碼器1200的框圖和示例解碼器250 的框圖。在示出的示例中,編碼器1200包括T-F變換單元201,該T-F變換單元201被配置 成將非自適應(yīng)變換域內(nèi)的聲場信號111 (的通道)變換到頻域,由此產(chǎn)生聲場信號111的子 帶信號211。因此,在示出的示例中,對聲場信號111的不同的子帶信號211執(zhí)行聲場信號 111到自適應(yīng)變換域的變換202。
[0189] 在下面,對編碼器1200的不同部件和解碼器250的不同部件進(jìn)行描述。
[0190] 如上文所述,編碼器1200可以包括第一變換單元101,該第一變換單元101被配置 成將來自捕獲域(例如,"LRS"域)的聲場信號110變換成非自適應(yīng)變換域(例如,"WXY" 域)中的聲場信號111??梢酝ㄟ^變換[WXY]T=M(g)[LRS]τ執(zhí)行從"LRS"域到"WXY" 域的變換,其中變換矩陣M(g)由
[0191] (13)
[0192] 給定,其中g(shù)>0為有限常數(shù)。如果g= 1,則獲得正確的"WXY"表達(dá)(S卩,根據(jù)二維 B格式的定義),然而可以考慮其他值g。
[0193] 如果KLT可以相對于其被應(yīng)用的信號的時變統(tǒng)計屬性被足夠經(jīng)常的改變,則KLT 102在速率-失真方面是有效率的。然而,KLT的頻繁改變會引入降低感知質(zhì)量的編碼畸 變。已經(jīng)實驗確定,通過對"WXY"域中的聲場信號111應(yīng)用KLT變換而不是對"LRS"域中 的聲場信號110應(yīng)用KLT變換(如上文所述),可獲得速率-失真效率與引入的畸變之間的 良好的平衡。
[0194] 在使KLT穩(wěn)定的方面,變換矩陣M(g)的參數(shù)g可以是有用的。如上文所述,期望 KLT是基本上穩(wěn)定的。通過選擇g辛sqrt(2),變換矩陣M(g)不是正交的,并且W分量被增 強(如果g>sqrt(2))或削弱(如果g〈sqrt(2))。這可以對KLT具有穩(wěn)定化效果。應(yīng)當(dāng)注 意,對于任何g#〇,變換矩陣M(g)始終是可逆的,從而便利于編碼(這是由于以下事實: 逆矩陣Μ1 (g)存在,并且可以在解碼器250處使用)。然而,如果g辛sqrt(2),則編碼效率 (在速率-失真平衡方面)通常降低(由于變換矩陣M(g)的非正交性)。因此,應(yīng)當(dāng)選擇 參數(shù)g以使編碼效率與KLT的穩(wěn)定性之間的平衡得以改善。在實驗的過程中,已經(jīng)確定,g =1(由此確定了到"WXY"域的"適當(dāng)?shù)?變換)可以在編碼效率與KLT的穩(wěn)定性之間提供 合理的平衡。
[0195] 在接下來的步驟中,對"WXY"域中的聲場信號111進(jìn)行分析。首先,可以使用協(xié)方 差估計單元203對通道間協(xié)方差矩陣進(jìn)行估計??梢栽谠谧訋в颍ㄈ鐖D23a所示)中執(zhí)行 估計。協(xié)方差估計器203可以包括平滑過程,其旨在改進(jìn)通道間協(xié)方差的估計,并且減少 (例如,最小化)由該估計的實質(zhì)的時變性引起的可能的問題。因此,協(xié)方差估計單元203 可以被配置成執(zhí)行聲場信號111的幀的協(xié)方差矩陣沿時間線的平滑。
[0196] 此外,協(xié)方差估計單元203可以被配置成通過產(chǎn)生將協(xié)方差矩陣對角化的正交變 換V的特征值分解(EVD)對通道間協(xié)方差矩陣進(jìn)行分解。該變換V根據(jù)下式方便將"WXY" 聲道旋轉(zhuǎn)到包括特征通道"ElE2E3"的特征域:
[0197] -- -- (14)
[0198] 由于變換V是信號自適應(yīng)的并且在解碼器250處逆變,因此變換V需要被高效地 編碼。為了對變換V進(jìn)行編碼,提出了下面的參數(shù)化:
[0199]
[0200] 其中
參數(shù)4φ,Θ確定了變換。應(yīng)當(dāng)注意,所提出的 參數(shù)化對變換V的(1,1)元素的符號施加了限制(即,(1,1)元素總是必須為正的)。引入 這樣的限制是有利的,可以表明,這樣的限制不會導(dǎo)致任何性能損耗(在實現(xiàn)的編碼增益 方面)。由參數(shù)ciΘ描述的變換#在編碼器1200(圖23a)處的變換單元 202中以及解碼器250 (圖23b)處的相應(yīng)的逆變換單元105中使用。通常,參數(shù)d,φ,Θ由 協(xié)方差估計單元203提供給變換參數(shù)編碼單元204,該變換參數(shù)編碼單元204被配置成對變 換參數(shù)d,φ,Θ212進(jìn)行量化和(哈夫曼)編碼??梢詫⒕幋a的變換參數(shù)214插入到空間 比特流221中。將編碼的變換參數(shù)213的解碼的版本(對應(yīng)于解碼器250處的解碼的變換 參數(shù)213 4 § )提供給去相關(guān)單元202,該去相關(guān)單元202被配置成執(zhí)行變換:
[0201]
[0202] 結(jié)果,獲得去相關(guān)或特征值或自適應(yīng)變換域中的聲場信號112。
[0203] 原則上,可以基于每個子帶應(yīng)用變換七以提供聲場信號no的參數(shù)化編 碼器。第一特征信號E1根據(jù)定義包含最多能量,并且特征信號E1可以被用作使用單聲道 編碼器103被變換編碼的下混合信號113。對E1信號113進(jìn)行編碼的額外的好處在于:當(dāng) 從KLT域變換回捕獲域時,類似的量化誤差散步到解碼器250處的聲場信號117的所有三 個聲道之間。這降低了潛在的由空間量化噪聲帶來的掩蔽外失真。
[0204] 可以如下執(zhí)行KLT域中的參數(shù)化編碼??梢詫μ卣餍盘朎1 (單個單聲道編碼器 103)應(yīng)用波形編碼。此外,可以對特征信號E2和E3應(yīng)用參數(shù)化編碼。具體地,可以使用 去相關(guān)方法(例如,通過使用特征信號E1的延遲版本)從特征信號E1中生成兩個去相關(guān) 信號??梢詫μ卣餍盘朎1的去相關(guān)版本的能量進(jìn)行調(diào)整,以使得能量分別與相應(yīng)的特征 信號E2和E3的能量匹配。作為能量調(diào)整的結(jié)果,可以獲得能量調(diào)整增益b2 (針對特征信 號E2)和b3(針對特征信號E3)。可以如下所描述的那樣確定這些能量調(diào)整增益(也可以 與a2 -起被視為預(yù)測參數(shù))??梢栽趨?shù)估計單元205中確定能量調(diào)整增益b2和b3。參 數(shù)估計單元205可以被配置成對能量調(diào)整增益進(jìn)行量化和(哈夫曼)編碼以產(chǎn)生編碼增益 216,編碼增益216可以插入到空間比特流221中。編碼增益216的解碼版本(S卩,解碼增 益?Ι和?δ215)可以在解碼器250處使用以根據(jù)重建的特征信號_^&定重建的特征信號 15、II。如上面已經(jīng)描述的,通?;诿總€子帶執(zhí)行參數(shù)化編碼,即,通常對于多個子帶 確定能量調(diào)整增益b2 (針對特征信號E2)和b3 (針對特征信號E3)。
[0205] 應(yīng)當(dāng)注意,基于每個子帶的KLT的應(yīng)用在所需要的待確定和編碼的參數(shù)3,黽§ 214的數(shù)量方面是相對昂貴的。例如,要描述"ElE2E3"域中的聲場信號112的子帶,使 用三(3)個參數(shù)來描述KLT,即d,φ,Θ,并且另外使用兩個增益調(diào)整參數(shù)b2和b3。因此, 參數(shù)的總數(shù)是每個子帶五(5)個參數(shù)。在存在更多個描述聲場信號的聲道的情況下,基于KLT的編碼將需要顯著增加的變換參數(shù)的數(shù)量來描述KLT。例如,在四維空間中指定KLT所 需要的變換參數(shù)的最小數(shù)量為6個。另外,將使用3個調(diào)整增益參數(shù)以根據(jù)特征信號E1確 定特征信號E2、E3和E4。因此,參數(shù)的總的數(shù)量將是每個子帶9個。在一般情況下,使聲 場信號包括Μ個聲道,需要0(M2)個參數(shù)來描述KLT變換參數(shù),并且需要0(M)個參數(shù)來描述 對特征信號執(zhí)行的能量調(diào)整。因此,關(guān)于每個子帶的變換參數(shù)212的集合(用于描述KLT) 的確定會需要相當(dāng)數(shù)量的參數(shù)的編碼。
[0206] 在本文件中描述了一種高效的參數(shù)化編碼方案,其中,用于對聲場信號進(jìn)行編碼 的參數(shù)的數(shù)量始終為〇(M)(特別地,只要子帶的數(shù)量N實質(zhì)上大于聲道的數(shù)量M)。具體地, 在本文件中,提出了確定多個子帶(例如,所有的子帶,或頻率比在起子始帶的頻率高的所 有子帶)的KLT變換參數(shù)212。這樣的基于多個子帶確定并且應(yīng)用到多個子帶的KLT可以 被稱為寬帶KLT。寬帶KLT僅提供與多個子帶(寬帶KLT是基于這多個子帶確定的)相對 應(yīng)的組合信號的完全去相關(guān)的特征向量E1、E2、E3。另一方面,如果寬帶KLT被應(yīng)用到個別 的子帶,該個別的子帶的特征向量通常不是完全去相關(guān)的。換言之,只要考慮特征信號的全 頻帶版本,寬帶KLT即可生成互相去相關(guān)的特