技術(shù)領(lǐng)域
本發(fā)明涉及用于回放指定給視頻信號的更高階立體混響(Higher-Order Ambisonics)音頻信號的方法和設(shè)備,該視頻信號是對原始和不同的屏幕而生成的但是將被呈現(xiàn)在當前屏幕上。
背景技術(shù):
一種存儲和處理球形麥克風陣列的三維聲場的方式是更高階立體混響(HOA)表示。立體混響使用標準正交球形函數(shù)用于描述位于原點或空間中基準點(也稱為蜜點)及其附近的區(qū)域中的聲場。如此描述的精度通過立體混響階N來確定,其中,有限數(shù)的立體混響系數(shù)描述聲場。球形陣列的最大立體混響階通過麥克風精盒(microphone capsule)的數(shù)量來限制,所述數(shù)量必須等于或大于立體混響系數(shù)的數(shù)量O=(N+1)2。這樣的立體混響表示的優(yōu)勢在于聲場的再現(xiàn)可以單獨地適配于近乎任何給定揚聲器位置排列。
技術(shù)實現(xiàn)要素:
雖然促進空間音頻的靈活通用的表示非常獨立于揚聲器設(shè)置,與不同尺寸屏幕上的音頻回放的組合可以變得分散,因為空間聲音回放未被相應(yīng)地適配。
立體和環(huán)繞聲基于離散揚聲器聲道,并且涉及視頻顯示關(guān)于在哪里放置揚聲器存在非常特定的規(guī)則。例如,在影院環(huán)境下,在屏幕的中央放置中央揚聲器,而在屏幕的左側(cè)和右側(cè)放置左揚聲器和右揚聲器。因而,揚聲器設(shè)置固有地隨屏幕變動:對于小屏幕,揚聲器彼此更接近,而對于巨屏,它們則遠離。這樣的優(yōu)勢是混音可以以非常連貫的方式完成:有關(guān)屏幕上的可視對象的聲音對象可以可靠地放置在左聲道、中央聲道和右聲道。因此,聽眾的體驗在混音級上匹配聲音藝術(shù)家的創(chuàng)造性意圖。
但是這樣的優(yōu)勢同時也是基于聲道系統(tǒng)的劣勢:對于改變揚聲器設(shè)置,靈活度非常有限。該劣勢隨著揚聲器聲道數(shù)量的增加而增加。例如,7.1和22.2格式要求各個揚聲器的精確安裝并且極其難以適配音頻內(nèi)容到次佳揚聲器位置。
基于聲道系統(tǒng)的另一劣勢是:優(yōu)先效應(yīng)限制了在左聲道、中央聲道和右聲道之間搖移(pan)聲音對象的能力,特別是對于類似影院環(huán)境下的大型聆聽設(shè)置。對于偏心聆聽位置,搖移的音頻對象可以“落在”最靠近聽眾的揚聲器上。因而,很多電影已經(jīng)和重要的屏幕相關(guān)的聲音混音,特別是排他地映射到中央聲道上的對話,借此,獲得屏幕上那些聲音的非常穩(wěn)定的定位,但是是以整體聲音現(xiàn)場的次佳寬敞度為代價。
通常對后置環(huán)繞聲道選擇類似的妥協(xié):因為播放那些聲道的揚聲器的精確定位在制作時難以知曉,并且因為那些聲道的密度相當?shù)?,通常僅環(huán)境聲音和未校正項被混音到環(huán)繞聲道。因而,環(huán)繞聲道中的明顯再現(xiàn)錯誤的概率可以降低,但是是以不能如實地在任何地點而是在屏幕上(或甚至在如上所述的中央聲道上)放置離散聲音對象為代價。
如上所述,在不同尺寸屏幕上的空間音頻和視頻回放的組合可以變得分散,因為空間聲音回放未被相應(yīng)地適配。取決于實際屏幕尺寸是否匹配在再現(xiàn)中使用的尺寸,聲音對象的方向可以偏離屏幕上可視對象的方向。例如,如果已經(jīng)在小屏幕的環(huán)境中進行了混音,則耦合到屏幕對象的聲音對象(例如,演員的發(fā)音)將被定位在從混音器的位置看去相對狹窄的錐體。如果此內(nèi)容受控于基于聲場的表示并且在具有大很多的屏幕的影院環(huán)境中回放,則在屏幕的寬視場與屏幕相關(guān)聲音對象的窄錐體之間存在明顯失配。對象的可視圖像的位置和對應(yīng)聲音的位置之間的巨大失配會分散觀眾注意力并且因而嚴重地影響電影的感知。
更近地,已經(jīng)提出音頻現(xiàn)場的參數(shù)表示或面向?qū)ο蟊硎?,其通過單獨音頻對象和參數(shù)及特性的集合的組合來描述音頻現(xiàn)場。例如,主要對處理波場綜合系統(tǒng)已經(jīng)提出面向?qū)ο蟋F(xiàn)場描述,例如,在Sandra Brix、Thomas Sporer、Jan Plogsties于Proc.of 110th AES Convention,Paper 5314,2001年5月12-15日,在荷蘭阿姆斯特丹發(fā)表的“CARROUSO–An European Approach to 3D-Audio”,以及在Ulrich Horbach、Etienne Corteel、Renato S.Pellegrini和Edo Hulsebos于Proc.of IEEE Intl.Conf.on Multimedia and Expo(ICME),pp.517-520,2002年8月,瑞士Lausanne,發(fā)表的“Real-Time Rendering of Dynamic Scenes Using Wave Field Synthesis”中。
EP 1518443 B1描述了應(yīng)對使音頻回放適配于可視屏幕尺寸的問題的兩種不同途徑。第一種途徑對每一個聲音對象取決于其對基準點方向和距離以及與相機和投影裝備的孔徑角(opening angle)和位置類似的參數(shù),單獨確定回放位置。實際上,在對象的可見性和相關(guān)混音之間的如此緊密的耦合不是典型的,相反,混音與相關(guān)可見對象的某些偏差可以實際上出于藝術(shù)原因而容忍。此外,區(qū)分直達聲和環(huán)境聲音是重要的。最后但不是最不重要的,物理相機和投影參數(shù)的合并相當復(fù)雜,并且這樣的參數(shù)不總是可用。第二種途徑(比較權(quán)利要求16)描述了根據(jù)以上步驟的聲音對象的預(yù)計算,但是假設(shè)屏幕具有固定的基準尺寸。該方案要求全部位置參數(shù)(在笛卡爾坐標中)的線性縮放用于將屏幕適配到比基準屏幕大或小的屏幕上。然而,這意味著,適配到雙倍尺寸屏幕也導(dǎo)致到聲音對象的虛擬距離的翻倍。沒有相對于基準座位(即,蜜點)中的聽眾的聲音對象的角度位置中的任何改變,這只是聽覺現(xiàn)場的“氣息音”而已。對于角坐標中屏幕的相對尺寸(孔徑角)的改變,不可能通過此途徑產(chǎn)生可行的聆聽結(jié)果。
在EP 1318502 B1中描述面向?qū)ο舐曇衄F(xiàn)場描述格式的另一示例。這里,除了包括不同的聲音對象及其特性之外,音頻現(xiàn)場還包括關(guān)于要再現(xiàn)的房間的特性的信息以及關(guān)于基準屏幕的水平和垂直孔徑角的信息。在解碼器中,類似于EP 1518443 B1中的原理,確定實際可用屏幕的位置和尺寸,并且單獨地最優(yōu)化聲音對象的回放以匹配基準屏幕。
例如,在PCT/EP2011/068782中,已經(jīng)對聲場的通用空間表示提出了面向聲場的類似更高階立體混響HOA的音頻格式,并且在記錄和回放方面,面向聲場的處理提供通用性和實踐性之間極好的平衡,因為它可以縮放到實際上任意的空間分辨率,類似于面向?qū)ο蟾袷降哪菢?。另一方面,一些直接記錄和再現(xiàn)技術(shù)存在,其對比對面向?qū)ο蟾袷揭蟮耐耆铣傻谋硎荆试S得到真實聲場的自然記錄。顯然,因為面向聲場的音頻內(nèi)容不包括關(guān)于單獨聲音對象的任何信息,所以以上對使面向?qū)ο蟾袷竭m配到不同屏幕尺寸而介紹的機制不能得以應(yīng)用。
如今,僅有少量描述用于控制在面向聲場的音頻現(xiàn)場中包含的單獨聲音對象的相對位置的裝置的公開可用。例如在Richard Schultz-Amling、FabianKuech、Oliver Thiergart、Markus Kallinger于2010年5月22-25日在英國倫敦的“Acoustical Zooming Based on a Parametric Sound Field Representation”,128th AES Convention,Paper 8120中描述的一系列算法要求將聲場分解為有限數(shù)量的離散聲音對象。可以控制這些聲音對象的位置參數(shù)。此途徑具有如下劣勢:音頻現(xiàn)場分解易出錯并且在確定音頻對象時的任何錯誤將極可能導(dǎo)致聲音重現(xiàn)的人為產(chǎn)物。
很多出版物涉及將HOA內(nèi)容的回復(fù)最優(yōu)化到“靈活回放布局”,例如,以上引用的Brix文章以及Franz Zotter、HannesPomberger、Markus Noisternig于2010年5月6-7日在法國巴黎的Proc.of the 2nd International Symposium on Ambisonics and Spherical Acoustics上的“Ambisonic Decoding With and Without Mode-Matching:A Case Study Using the Hemisphere”。這些技術(shù)處理使用不規(guī)則間隔的揚聲器的問題,但是它們都沒有對準改變音頻現(xiàn)場的空間構(gòu)成。
本發(fā)明要解決的問題是空間音頻內(nèi)容對不同尺寸的視頻屏幕的適配,該音頻內(nèi)容已被表示為聲場分解的系數(shù),從而屏幕上對象的聲音回復(fù)位置與對應(yīng)的可視位置匹配。通過在權(quán)利要求1中公開的方法解決此問題。在權(quán)利要求2中公開了使用此方法的設(shè)備。
本發(fā)明允許面向空間聲場的音頻的回放對其鏈接可視對象的系統(tǒng)性適配。因而,滿足了用于對電影的空間音頻的可信再現(xiàn)的顯然的先決條件。
根據(jù)本發(fā)明,結(jié)合諸如在PCT/EP2011/068782和EP 11192988.0中公開的那些格式之類的面向聲場的音頻格式,通過應(yīng)用在EP 11305845.7中公開的空間彎曲處理將面向聲場的音頻現(xiàn)場被適配到不同的視頻屏幕尺寸。有利處理是編碼并傳輸與內(nèi)容一起在內(nèi)容制作中使用的屏幕的基準尺寸(或者從基準聆聽位置的視角)作為元數(shù)據(jù)。
替代地,在編碼中和對解碼假定固定的基準屏幕尺寸,并且解碼器知道目標屏幕的實際尺寸。解碼器以如下方式彎曲聲場:根據(jù)目標屏幕的尺寸和基準屏幕的尺寸的比率壓縮或拉伸在屏幕的方向上的全部聲音對象。這可以借助于例如如下說明的簡單的雙段分段線性彎曲函數(shù)(two-segment piecewise linear warping function)完成。與上述現(xiàn)有技術(shù)相反,此拉伸基本上限制于聲音項的角位置,并且不需要導(dǎo)致聲音對象距聆聽區(qū)域的距離的改變。在下面描述發(fā)明的一些實施例,其允許控制聲音現(xiàn)場的哪部分應(yīng)當或不應(yīng)當被操控。
原則上,發(fā)明方法適用于回放指定給視頻信號的原始更高階立體混響音頻信號的方法,上述視頻信號是對原始和不同的屏幕而生成的但是將被呈現(xiàn)在當前屏幕上,所述方法包括如下步驟:
-解碼所述更高階立體混響音頻信號以提供解碼的音頻信號;
-接收或建立從所述原始屏幕和所述當前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現(xiàn)適配信息;
-通過在空間域中彎曲它們來適配所述解碼的音頻信號,其中,所述再現(xiàn)適配信息控制所述彎曲,從而對于當前屏幕的觀眾和所述適配的解碼的音頻信號的聽眾,由所述適配的解碼的音頻信號表示的至少一個音頻對象的感知位置匹配所述屏幕上的相關(guān)視頻對象的感知位置;
-對揚聲器重現(xiàn)和輸出適配的解碼的音頻信號。
原則上,發(fā)明設(shè)備適用于回放指定給視頻信號的原始更高階立體混響音頻信號,所述視頻信號是對原始和不同的屏幕而生成的但是將被呈現(xiàn)在當前屏幕上,所述設(shè)備包括:
-適配于解碼所述更高階立體混響音頻信號以提供解碼的音頻信號的裝置;
-適配于接收或建立從所述原始屏幕和所述當前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現(xiàn)適配信息的裝置;
-適配于通過在空間域中彎曲它們來適配所述解碼的音頻信號的裝置,其中,所述再現(xiàn)適配信息控制所述彎曲,從而對于當前屏幕的觀眾和所述適配的解碼的音頻信號的聽眾,由所述適配的解碼的音頻信號表示的至少一個音頻對象的感知位置匹配所述屏幕上的相關(guān)視頻對象的感知位置;
-適配于對揚聲器重現(xiàn)和輸出適配的解碼的音頻信號的裝置。
本發(fā)明的有利的額外實施例在各自的從屬權(quán)利要求中公開。
附圖說明
參考附圖描述本發(fā)明的示例性實施例,其示出:
圖1示例工作室環(huán)境;
圖2示例影院環(huán)境;
圖3彎曲函數(shù)f(φ);
圖4權(quán)函數(shù)g(φ);
圖5原始權(quán)重;
圖6彎曲之后的權(quán)重;
圖7彎曲矩陣;
圖8已知HOA處理;
圖9根據(jù)本發(fā)明的處理。
具體實施方式
圖1示出具有基準點和屏幕的示例工作室環(huán)境,而圖2示出具有基準點和屏幕的示例影院環(huán)境。不同的投影環(huán)境導(dǎo)致從基準點看去屏幕的不同孔徑角。借助于現(xiàn)有技術(shù)的面向聲場回放技術(shù),在工作室環(huán)境中產(chǎn)生的音頻內(nèi)容(孔徑角60°)將不匹配影院環(huán)境中的屏幕內(nèi)容(孔徑角90°)。在工作室環(huán)境中的孔徑角60°必須同音頻內(nèi)容一起傳輸以便于允許內(nèi)容對回放環(huán)境的不同特性的適配。
為了易理解,這些圖簡化情形為2D場景。
在更高階立體混響理論中,經(jīng)由傅里葉巴塞爾序列的系數(shù)描述空間音頻場景。對于無源列(source-free volume),聲壓被描述為球坐標的函數(shù)(半徑r,傾角θ,方位角φ和空間頻率(c是聲音在空氣中的速度)):
其中,jn(kr)是第一類的球型巴塞爾函數(shù),其描述了徑向從屬性,是球調(diào)和函數(shù)(SH,Spherical Harmonics),其實際上是實數(shù),而N是立體混響階。
通過在EP 11305845.7中公開的技術(shù)可以彎曲音頻現(xiàn)場的空間構(gòu)成。
可以改變音頻現(xiàn)場的二維或三維更高階立體混響HOA表示中包含的聲音對象的相對位置,其中,具有維度Oin的輸入向量Ain確定輸入信號的傅里葉序列的系數(shù),而具有維度Oout的輸出向量Aout確定相應(yīng)改變的輸出信號的傅里葉序列的系數(shù)。使用模式矩陣ψ1的逆通過計算將輸入HOA系數(shù)的輸入向量Ain解碼為針對規(guī)則布置的揚聲器位置的空間域中的輸入信號sin。通過計算Aout=Ψ2sin在空間域中將輸入信號sin彎曲并解碼為已適配輸出HOA系數(shù)的輸出向量Aout,其中根據(jù)彎曲函數(shù)f(φ)修改模式矩陣ψ2的模式向量,借助于該彎曲函數(shù)f(φ),原始揚聲器位置的角度被一對一地映射到輸出向量Aout中的目標揚聲器位置的目標角。
可以通過向虛擬揚聲器輸出信號sin應(yīng)用增益加權(quán)函數(shù)g(φ)對抗(counter)揚聲器密度的修改,導(dǎo)致信號sout。原則上,可以指定任何加權(quán)函數(shù)g(φ)。已經(jīng)經(jīng)驗性地確定一個特別有利的變量為與彎曲函數(shù)f(φ)的導(dǎo)數(shù)成比例:借助于此特定加權(quán)函數(shù),假定適當高的內(nèi)階和輸出階,在特定彎曲角度的搖移函數(shù)f(φ)的幅度保持等于在原始角φ的原始搖移函數(shù)。因而,獲得每個孔徑角的同類聲音平衡(幅度)。對于三維立體混響,增益函數(shù)在φ方向和在θ方向上是
其中,φε是小方位角。
通過使用尺寸Owarp×Owarp變換矩陣可以共同地進行解碼、加權(quán)和彎曲/解碼,其中,diag(w)表示具有窗口向量值w作為其主對角的分量的對角矩陣,diag(g)表示具有增益函數(shù)值g作為其增益對角的分量的對角矩陣。為了變形變換矩陣T以獲得尺寸Oout×Oin,變換矩陣T的對應(yīng)列和/或線被移除以進行空間彎曲操作Aout=TAin。
圖3到圖7圖示了在二維(圓形)情況下的空間彎曲,并且示出了用于圖1/2中的情形的分段線性彎曲函數(shù)的示例及其對13個規(guī)則布置的示例揚聲器的搖移函數(shù)的影響。系統(tǒng)以1.5的因子拉伸在前方的聲場以適配在影院中的較大屏幕。因此,來自其他方向的聲音項被壓縮。彎曲函數(shù)f(φ)類似于具有單一實數(shù)參數(shù)的離散時間全通濾波器的相位響應(yīng),并且在圖3中示出。對應(yīng)的加權(quán)函數(shù)g(φ)在圖4中示出。
圖7描繪了13×65個單步變換彎曲矩陣T。矩陣的單獨系數(shù)的對數(shù)性絕對值用根據(jù)所附灰度或陰影條的灰度或陰影型指示。已經(jīng)對Norig=6的輸入HOA階和Nwarp=32的輸出階設(shè)計此示例矩陣。要求較高的輸出階以便于捕獲由從低階系數(shù)到高階系數(shù)的變換展開的大部分信息。
此特定彎曲矩陣的有用特性在于其有效部分為零。這允許在實現(xiàn)此操作時節(jié)約大量的計算能力。圖5和圖6圖示了由一些平面波產(chǎn)生的波束圖案的彎曲特性。兩個圖都是從在φ位置0、2/13π、4/13π、6/13π、...、22/13π和24/13π的相同十三個輸入平面波得出的,全部具有一致的幅度“一”,且示出十三個角幅度分布,即,超定的結(jié)果向量s,規(guī)則解碼操作s=Ψ-1A,其中,HOA向量A是平面波的集合的或原始或彎曲的變量。圓之外的數(shù)字表示角度φ。虛擬揚聲器的數(shù)量可觀地高于HOA參數(shù)的數(shù)量。用于來自前方的平面波的幅度分布或波束圖案位于φ=0。
圖5示出原始HOA表示的權(quán)重和幅度分布。全部十三個分布都相似地形成并且突出主波瓣的相同寬度。圖6示出對相同聲音對象的權(quán)重和幅度分布,但是是在已經(jīng)進行彎曲操作之后。對象已經(jīng)從φ=0的前方遠離并且該前方附近的主波瓣變得更加寬闊。通過更高階Nwarp=32的彎曲HOA向量促進波束圖案的這些修改。用在空間中變化的局部階創(chuàng)建混階(mixed-order)信號。
為了得出對將音頻現(xiàn)場的回放適配于實際屏幕配置的合適彎曲特性f(φin),除了HOA系數(shù)之外還發(fā)送或提供了額外信息。例如,在混音處理中使用的基準屏幕的以下特性可以被包括在位流中:
●屏幕中央的方向,
●寬度,
●基準屏幕的高度,
全部都在從基準聆聽位置測量(即,“蜜點”)的極化坐標中。
另外,對特殊應(yīng)用可以要求以下參數(shù):
●屏幕的形狀,例如,它是平的或是球形,
●屏幕的距離,
●關(guān)于在立體3D視頻投影情況中的最大和最小可視深度的信息。
對于本領(lǐng)域技術(shù)人員已知這樣的元數(shù)據(jù)如何編碼。
接著,假定編碼的音頻位流包括至少以上三個參數(shù),中央的方向、基準屏幕的寬度和高度。為了理解,進一步假定實際屏幕的中央與基準屏幕的中央一致,例如,直接在聽眾的前方。此外,假定,僅以2D格式表示聲場(相比于3D格式)并且這個的傾角的改變被忽略(例如,如當選擇的HOA格式表示無垂直分量時,或者其中聲音編輯認為圖片和屏幕上聲源的傾角之間的失配將足夠小從而普通觀察者將不會注意到它們。)對任意屏幕位置和3D情況的轉(zhuǎn)變對于本領(lǐng)域技術(shù)人員是直接的。進一步,出于簡單而假定屏幕結(jié)構(gòu)是球型。
借助這些假定,僅屏幕的寬度可以在內(nèi)容和實際設(shè)置之間變化。下面,定義合適的兩段分段式線性彎曲特性。由孔徑角2φw,a定義實際屏幕寬度(即,φw,a描述半角)。由角度φw,r定義基準屏幕寬度,并且此值是在位流內(nèi)傳遞的元信息的部分。對于在前方上(即,在視頻屏幕上)的聲音對象的可信再現(xiàn),聲音對象的全部位置(在極化坐標中)將由因子φw,a/φw,r操控。相反,在其他方向上的全部聲音對象應(yīng)當根據(jù)剩余空間而移動。彎曲特性導(dǎo)致
否則
對獲得此特性所要求的彎曲操作可以以在EP 11305845.7中公開的規(guī)則構(gòu)建。例如,其結(jié)果是,可以得出單步線性彎曲運算符,該運算符在所操控的向量被輸入HOA重現(xiàn)處理之前被應(yīng)用于每一個HOA向量。以上示例是很多可能彎曲特性中的一個??梢詰?yīng)用其他特性以便于找到復(fù)雜度和在操作之后剩余的失真量之間的平衡。例如,如果應(yīng)用簡單分段線性彎曲特性用于制造3D聲場重現(xiàn),則可以產(chǎn)生空間再現(xiàn)的典型枕型失真和桶形失真,但是如果因子φw,a/φw,r接近“一”,可以忽略空間重現(xiàn)的這樣的失真。對于很大或很小的因子,可以應(yīng)用更復(fù)雜的彎曲特性,其最小化空間失真。
另外,如果所選擇的HOA表示確實規(guī)定了傾角且聲音編輯認為屏幕所對的垂直角是重要的,則可以對傾角應(yīng)用基于屏幕的角高度θh(半高)和有關(guān)因子(例如,實際高度對基準高度的比率θh,a/θh,r)的類似等式作為彎曲操作符的部分。
如另一示例,假定在聽眾前方,取代球形屏幕的純平屏幕可能要求比上述示例性特性更為精致的彎曲特性。再次,這可以僅以寬度或僅以寬度+高度彎曲關(guān)注其自身。
上述示例性實施例具有固定和極易于實現(xiàn)的優(yōu)勢。另一方面,不允許來自生產(chǎn)側(cè)的適配處理的任何控制。以下實施例介紹用于以不同方式的更多控制的處理。
實施例1:屏幕相關(guān)聲音和其他聲音之間的分離
由于各種原因可能要求這樣的控制技術(shù)。例如,不是音頻現(xiàn)場中的全部聲音對象直接與屏幕上的可見對象耦合,并且操控不同于環(huán)境聲的直達聲可以是有利的??梢栽谥噩F(xiàn)側(cè)通過現(xiàn)場分析進行此區(qū)分。然而,通過向傳輸位流增加額外信息可以顯著地改善和控制。理想化地,對實際屏幕特性適配何種聲音項以及何種聲音項不處理的決定應(yīng)當留給進行聲音混音的藝術(shù)家。
向重現(xiàn)處理傳輸此信息的不同方式是可能的:
●在位流內(nèi)定義兩個完全集合的HOA系數(shù)(信號),一個用于描述有關(guān)可見項的對象而另一個用于表示獨立或環(huán)境聲音。在解碼器中,僅第一HOA信號將經(jīng)歷對實際屏幕布局(geometry)的適配而另一個則未處理。在回放之前,組合所操控的第一HOA信號和未修改第二HOA信號。
作為示例,聲音工程師可以決定將類似對話的屏幕相關(guān)聲音或特定的弗雷(Foley)項混合到第一信號中,并且將環(huán)境聲音混合到第二新號中。以此方式,無論對音頻/視頻信號的回放使用哪個屏幕,環(huán)境將總是保持一致。
這種處理具有額外優(yōu)勢,可以對特定類型的信號單獨地最優(yōu)化兩個構(gòu)成子信號的HOA階,由此,用于屏幕相關(guān)聲音對象(即,第一子信號)的HOA階高于對環(huán)境信號分量(即,第二子聲音)使用的HOA階。
●經(jīng)由附著于時空頻率瓦(tile)的標識,將聲音的映射定義為屏幕相關(guān)的或屏幕獨立的。出于此目的,例如,經(jīng)由平面波分解確定HOA信號的空間特性。然后,對時間分段(分窗口)和時頻轉(zhuǎn)換輸入每一個空間域信號。由此,將定義瓦的三維集合,其可以例如由聲明該瓦的內(nèi)容是否應(yīng)當被適配于實際屏幕布局的二進制標識單獨地標記。此子實施例比之前的子實施例更為有效,但是它限制了定義聲音現(xiàn)場的哪個部分應(yīng)當被操控或不被操控的靈活性。
實施例2:動態(tài)適配
在一些應(yīng)用中,將要求以動態(tài)方式改變被發(fā)信號(signalled)的基準屏幕特性。例如,音頻內(nèi)容可以是從不同混音連結(jié)重新調(diào)整的內(nèi)容分段的結(jié)果。在此情況下,描述基準屏幕參數(shù)的參數(shù)將隨時間改變,并且動態(tài)地改變適配算法:對于屏幕參數(shù)的每一個改變,對應(yīng)地重新計算所應(yīng)用的彎曲函數(shù)。
另一應(yīng)用示例起于混合對最終可視視頻和音頻現(xiàn)場的不同子部分已準備的不同HOA流。然后,有利的是,考慮處于共同位流中的多于一個(或以上用實施例1多于兩個)HOA信號,每一個都具有其單獨的屏幕特性。
實施例3:替代實現(xiàn)
取代在經(jīng)由固定HOA解碼器的解碼之前的彎曲HOA表示,關(guān)于如何適配信號到實際屏幕特性的信息可以被集成到解碼器設(shè)計中。此實現(xiàn)是對在以上示例性實施例中描述的基本實現(xiàn)的替代。然而,它不改變在位流內(nèi)的屏幕特性的發(fā)信號。
在圖8中,HOA編碼的信號被存儲在存儲設(shè)備82中。為了在影院中的呈現(xiàn),來自設(shè)備82的HOA表示的信號在HOA解碼器83中被HOA解碼,穿過再現(xiàn)器85,并且對于一組揚聲器輸出為揚聲器信號81。
在圖9中,HOA編碼的信號被存儲在存儲設(shè)備92中。為了例如在影院中的呈現(xiàn),來自設(shè)備92的HOA表示的信號在HOA解碼器93中被HOA解碼,穿過彎曲級94到再現(xiàn)器95,并且對于一組揚聲器輸出為揚聲器信號91。彎曲級94接收上述再現(xiàn)適配信息90,并相應(yīng)地使用它用于適配已解碼的HOA信號。