包括音頻對象的音頻場景的高效編碼的制作方法
【專利說明】包括首頻對象的首頻場景的局效編碼
[0001]相關(guān)申請的交叉引用
[0002]本申請要求2013年5月24日提交的美國臨時專利申請No:61/827246、2013年10月21日提交的美國臨時專利申請No:61/893770、以及2014年4月I日提交的美國臨時專利申請No =61/973623的申請日的權(quán)益,其中的每一個通過其完整引用合并到此。
技術(shù)領(lǐng)域
[0003]本公開在此總體上涉及包括音頻對象的音頻場景的編碼。具體地說,其涉及用于音頻對象的編碼和解碼的編碼器、解碼器以及相關(guān)聯(lián)的方法。
【背景技術(shù)】
[0004]音頻場景可以通常包括音頻對象和音頻通道。音頻對象是具有可以隨時間而變化的關(guān)聯(lián)空間位置的音頻信號。音頻通道是直接與多通道揚聲器配置(如具有三個前部揚聲器、兩個環(huán)繞揚聲器以及一個低頻效果揚聲器的所謂的5.1揚聲器配置)對應(yīng)的音頻信號。
[0005]由于音頻對象的數(shù)量通??梢苑浅4螅?例如在幾百個音頻對象的量級上),因此需要允許在解碼器側(cè)處高效地重構(gòu)音頻對象的編碼方法。已經(jīng)建議在編碼器側(cè)上將音頻對象組合為多通道下混(downmix)(即與特定多通道揚聲器配置(如5.1配置)的通道對應(yīng)的多個音頻通道),并且在解碼器側(cè)上從多通道下混以參變方式重構(gòu)音頻對象。
[0006]該方法的優(yōu)點在于,不支持音頻對象重構(gòu)的傳統(tǒng)解碼器可以直接使用多通道下混,以用于多通道揚聲器配置上的回放。通過示例的方式,可以在5.1配置的外放揚聲器上直接播放5.1下混。
[0007]然而,該方法的缺點在于,多通道下混無法在解碼器側(cè)處給出音頻對象的足夠好的重構(gòu)。例如,考慮具有與5.1配置的左前部揚聲器相同的水平位置但不同的垂直位置的兩個音頻對象。這些音頻對象將通常組合到5.1下混的同一通道中。這將在解碼器側(cè)處構(gòu)成對于音頻對象重構(gòu)的以下挑戰(zhàn)情況,必須從同一下混通道重構(gòu)兩個音頻對象的近似,即一種不能確保完全重構(gòu)并且有時甚至導致聽覺偽聲的處理。
[0008]因此需要提供高效并且改進的音頻對象的重構(gòu)的編碼/解碼方法。
[0009]在從例如下混重構(gòu)音頻對象期間一般采用輔助信息或元數(shù)據(jù)。該輔助信息的形式和內(nèi)容可能例如影響所重構(gòu)的音頻對象的保真度和/或執(zhí)行重構(gòu)的計算復(fù)雜度。因此,將期望提供具有新的以及替選的輔助信息格式的編碼/解碼方法,其允許增加所重構(gòu)的音頻對象的保真度,和/或其允許減少重構(gòu)的計算復(fù)雜度。
【附圖說明】
[0010]現(xiàn)將參照附圖描述示例實施例,在附圖上:
[0011]圖1是根據(jù)示例性實施例的編碼器的示意性圖解;
[0012]圖2是根據(jù)示例性實施例的支持音頻對象重構(gòu)的解碼器的示意性圖解;
[0013]圖3是根據(jù)示例性實施例的不支持音頻對象重構(gòu)的低復(fù)雜度解碼器的示意性圖解;
[0014]圖4是根據(jù)示例性實施例的包括用于簡化音頻場景的依次布置的聚類組件的編碼器的示意性圖示;
[0015]圖5是根據(jù)示例性實施例的包括用于簡化音頻場景的并行布置的聚類組件的編碼器的示意性圖解;
[0016]圖6示出用于計算用于元數(shù)據(jù)實例集合的呈現(xiàn)矩陣的典型已知處理;
[0017]圖7示出在呈現(xiàn)音頻信號中所采用的系數(shù)曲線的推導;
[0018]圖8示出根據(jù)示例實施例的元數(shù)據(jù)實例內(nèi)插方法;
[0019]圖9和圖10示出根據(jù)示例實施例的引入附加元數(shù)據(jù)實例的示例;以及
[0020]圖11示出根據(jù)示例實施例的使用具有低通濾波器的采樣和保持電路的內(nèi)插方法。
[0021]所有附圖是示意性的并且通常僅示出為了闡明本公開而必需的部分,而其它部分可以省略或僅提及。除非另外聲明,否則在不同附圖中相似標號指代相同部分。
【具體實施方式】
[0022]鑒于上述,因此目的是提供一種編碼器、解碼器以及相關(guān)聯(lián)的方法,其允許高效并且改進的音頻對象重構(gòu),和/或其允許增加所重構(gòu)的音頻對象的保真度,和/或其允許減少重構(gòu)的計算復(fù)雜度。
[0023]1.概述-編碼器
[0024]根據(jù)第一方面,提供一種用于對音頻對象進行編碼的編碼方法、編碼器以及計算機程序產(chǎn)品。
[0025]根據(jù)示例性實施例,提供一種用于將音頻對象編碼到數(shù)據(jù)流中的方法,包括:
[0026]接收N個音頻對象,其中,N〉I ;
[0027]通過根據(jù)獨立于任何外放揚聲器配置的準則來形成所述N個音頻對象的組合,計算M個下混信號,其中,M彡N;
[0028]計算包括允許從所述M個下混信號重構(gòu)基于所述N個音頻對象形成的音頻對象集合的參數(shù)的輔助信息;以及
[0029]將所述M個下混信號和所述輔助信息包括在數(shù)據(jù)流中,用于發(fā)送到解碼器。
[0030]使用以上布置,就獨立于任何外放揚聲器配置從N個音頻對象形成M個下混信號。這意味著M個下混信號并不限于適合于在具有M個通道的揚聲器配置的通道上的回放的音頻信號。反之,可以根據(jù)準則來更自由地選擇M個下混信號,以使得它們例如適用于N個音頻對象的動態(tài)并且改進在解碼器側(cè)處的音頻對象的重構(gòu)。
[0031]返回具有與5.1配置的左前部揚聲器相同的水平位置但不同的垂直位置的兩個音頻對象的示例,所提出的方法允許將第一音頻對象放在第一下混信號中,并且將第二音頻對象放在第二下混信號中。這樣使得能夠在解碼器中完全重構(gòu)音頻對象。通常,只要起作用的音頻對象的數(shù)量不超過下混信號的數(shù)量,這種完全重構(gòu)就是可能的。如果起作用的音頻對象的數(shù)量較高,則所提出的方法允許選擇必須被混合到同一下混信號中的音頻對象,以使得解碼器中的所重構(gòu)的音頻對象中產(chǎn)生的可能近似誤差對所重構(gòu)的音頻場景沒有或盡可能小的感知影響。
[0032]M個下混信號為自適應(yīng)的第二優(yōu)點是用于保持特定音頻對象與其它音頻對象嚴格分離的能力。例如,可以有利地保持任何對話對象與背景對象分離,以確保就空間屬性而言精確地呈現(xiàn)對話,并且允許解碼器中的對象處理(如對話增強或?qū)υ掜懚鹊脑黾?,以用于改進的智能性)。在其它應(yīng)用(例如卡拉0K)中,可以有利的是,允許完成一個或更多個對象的靜音,這也要求這些對象不與其它對象混合。使用與特定揚聲器配置對應(yīng)的多通道下混的傳統(tǒng)方法不允許其它音頻對象的混合中出現(xiàn)的音頻對象的完全靜音。
[0033]詞語下混信號反映下混信號是其它信號的混合體(即組合)。詞語“下”指示下混信號的數(shù)量M通常低于音頻對象的數(shù)量N。
[0034]根據(jù)示例性實施例,所述方法可以還包括:將每個下混信號與空間位置進行關(guān)聯(lián),并且將下混信號的空間位置包括在數(shù)據(jù)流中作為用于下混信號的元數(shù)據(jù)。這樣的有利之處在于,其允許在傳統(tǒng)回放系統(tǒng)的情況下使用低復(fù)雜度解碼。更準確地說,與下混信號關(guān)聯(lián)的元數(shù)據(jù)可以用在解碼器側(cè)上,以用于將下混信號呈現(xiàn)給傳統(tǒng)回放系統(tǒng)的通道。
[0035]根據(jù)示例性實施例,N個音頻對象與包括N個音頻對象的空間位置的元數(shù)據(jù)關(guān)聯(lián),基于N個音頻對象的空間位置來計算與下混信號關(guān)聯(lián)的空間位置。因此,下混信號可以解釋為具有取決于N個音頻對象的空間位置的空間位置的音頻對象。
[0036]此外,N個音頻對象的空間位置以及與M個下混信號關(guān)聯(lián)的空間位置可以是時變的,即,它們可以在音頻數(shù)據(jù)的各時間幀之間變化。換言之,下混信號可以解釋為具有在各時間幀之間變化的關(guān)聯(lián)位置的動態(tài)音頻對象。這與下混信號對應(yīng)于固定空間外放揚聲器位置的現(xiàn)有技術(shù)系統(tǒng)形成對比。
[0037]通常,輔助信息也是時變的,由此允許掌控音頻對象重構(gòu)的參數(shù)在時間上變化。
[0038]編碼器可以應(yīng)用不同的準則,以用于計算下混信號。根據(jù)示例性實施例,其中,N個音頻對象與包括N個音頻對象的空間位置的元數(shù)據(jù)關(guān)聯(lián),用于計算M個下混信號的準則可以基于N個音頻對象的空間接近度。例如,彼此靠近的音頻對象可以組合為同一下混信號。
[0039]根據(jù)示例性實施例,其中,與N個音頻對象關(guān)聯(lián)的元數(shù)據(jù)還包括指示N個音頻對象相對于彼此的重要性的重要性值,用于計算M個下混信號的準則可以進一步基于N個音頻對象的重要性值。例如,N個音頻對象中的最重要的音頻對象可以直接映射為下混信號,而其余音頻對象被組合以形成其余下混信號。
[0040]具體地說,根據(jù)示例性實施例,計算M個下混信號的步驟包括第一聚類過程,其包括:基于N個音頻對象的空間接近度和重要性值(若可用的話)將所述N個音頻對象與M個聚類關(guān)聯(lián),以及通過形成與聚類關(guān)聯(lián)的音頻對象的組合來計算用于每個聚類的下混信號。在一些情況下,音頻對象可以形成至多一個聚類的一部分。在其它情況下,音頻對象可以形成若干聚類的一部分。以此方式,從音頻對象形成不同的分組(即聚類)。每個聚類可以進而由可以看作音頻對象的下混信號來表示。所述聚類方法允許將每個下混信號與基于音頻對象(這些音頻對象和與下混信號對應(yīng)的聚類關(guān)聯(lián))的空間位置而計算出的空間位置進行關(guān)聯(lián)。通過這種解釋,第一聚類過程因此以靈活的方式將N個音頻對象的維度減少為M個音頻對象。
[0041]與每個下混信號關(guān)聯(lián)的空間位置可以例如被計算為與和下混信號對應(yīng)的聚類關(guān)聯(lián)的音頻對象的空間位置的質(zhì)心或加權(quán)質(zhì)心。權(quán)重可以例如基于音頻對象的重要性值。
[0042]根據(jù)示例性實施例,通過應(yīng)用具有N個音頻對象的空間位置作為輸入的K-means算法,所述N個音頻對象得以與M個聚類關(guān)聯(lián)。
[0043]由于音頻場景可以包括巨大數(shù)量的音頻對象,因此所述方法可以采取進一步措施,以用于減少音頻場景的維度,由此當重構(gòu)所述音頻對象時減少在解碼器側(cè)處的計算復(fù)雜度。具體地說,所述方法還包括第二聚類過程,用于將第一組多個音頻對象減少為第二組多個音頻對象。
[0044]根據(jù)一個實施例,在計算M個下混信號之前,執(zhí)行第二聚類過程。在該實施例中,第一組多個音頻對象因此與音頻場景的初始音頻對象對應(yīng),并且減少的第二組多個音頻對象與計算M個下混信號所基于的N個音頻對象對應(yīng)。此外,在該實施例中,基于N個音頻對象形成的(待在解碼器中重構(gòu)的)音頻對象集合與N個音頻對象對應(yīng)(即相等)。
[0045]根據(jù)另一實施例,與計算M個下混信號并行地執(zhí)行第二聚類過程。在該實施例中,計算M個下混信號所基于的N個音頻對象以及輸入到第二聚類過程的第一組多個音頻對象與音頻場景的初始音頻對象對應(yīng)。此外,在該實施例中,基于N個音頻對象所形成的(待在所述解碼器中重構(gòu)的)音頻對象集合與第二組多個音頻對象對應(yīng)。以此方法,因此基于音頻場景的初始音頻對象而不基于減少數(shù)量的音頻對象來計算M個下混信號。
[0046]根據(jù)示例性實施例,所述第二聚類過程包括:
[0047]接收第一組多個音頻對象及其關(guān)聯(lián)空間位置,
[0048]基于第一組多個音頻對象的空間接近度而將第一組多個音頻對象與至少一個聚類進彳丁關(guān)聯(lián),
[0049]通過用作為與至少一個聚類中的每一個相關(guān)聯(lián)的音頻對象的組合的音頻對象來表示所述每一個聚類而生成第二組多個音頻對象,
[0050]計算包括用于第二組多個音頻對象的空間位置的元數(shù)據(jù),其中,基于與對應(yīng)聚類相關(guān)聯(lián)的音頻對象的空間位置而計算第二組多個音頻對象的每個音頻對象的空間位置;以及
[0051]將用于第二組多個音頻對象的元數(shù)據(jù)包括在數(shù)據(jù)流中。
[0052]換言之,第二聚類過程利用音頻場景(如具有等同或非常相似的位置的對象)中出現(xiàn)的空間冗余性。此外,當生成第二組多個音頻對象時,可以考慮音頻對象的重要性值。
[0053]如上所述,音頻場景可以還包括音頻通道。這些音頻通道可以看作音頻對象與靜態(tài)位置(即與音頻通道對應(yīng)的外放揚聲器的位置)關(guān)聯(lián)。更詳細地說,第二聚類過程可以還包括:
[0054]接收至少一個音頻通道;
[0055]將至少一個音頻通道中的每一個轉(zhuǎn)換為具有與該音頻通道的外放揚聲器位置對應(yīng)的靜態(tài)空間位置的音頻對象;以及
[0056]將轉(zhuǎn)換后的至少一個音頻通道包括在第一組多個音頻對象中。
[0057]以此方式,所述方法允許對包括音頻通道以及音頻對象的音頻場景進行編碼。
[0058]根據(jù)示例性實施例,提供一種計算機程序產(chǎn)品,包括具有用于執(zhí)行根據(jù)示例性實施例的解碼方法的指令的計算機可讀介質(zhì)。
[0059]根據(jù)示例性實施例,提供一種用于將音頻對象編碼到數(shù)據(jù)流中的編碼器,包括:
[0060]接收組件,被配置為接收N個音頻對象,其中,N〉I ;
[0061]下混組件,被配置為:通過根據(jù)獨立于任何外放揚聲器配置的準則形成N個音頻對象的組合,來計算M個下混信號,其中,M ( N ;
[0062]分析組件,被配置為:計算包括允許從M個下混信號重構(gòu)基于N個音頻對象所形成的音頻對象集合的參數(shù)的輔助信息;以及
[0063]復(fù)用組件,被配置為:將M個下混信號和輔助信息包括在數(shù)據(jù)流中,以用于發(fā)送到解碼器。
[0064]I1.概述-解碼器
[0065]根據(jù)第二方面,提供一種用于對多通道音頻內(nèi)容進行解碼的解碼方法、解碼器和計算機程序產(chǎn)品。
[0066]第二方面可以總體上具有與第一方面相同的特征和優(yōu)點。
[0067]根據(jù)示例性實施例,提供一種用于對包括所編碼的音頻對象的數(shù)據(jù)流進行解碼的解碼器中的方法,包括:
[0068]接收數(shù)據(jù)流,數(shù)據(jù)流包括:M個下混信號,其為根據(jù)獨立于任何外放揚聲器配置的準則所計算出的N個音頻對象的組合,其中,MSN;以及輔助信息,其包括允許從M個下混信號重構(gòu)基于N個音頻對象所形成的音頻對象集合的參數(shù);以及
[0069]從M個下混信號和輔助信息重構(gòu)基于N個音頻對象所形成的音頻對象集合。
[0070]根據(jù)示例性實施例,所述數(shù)據(jù)流還包括含有與M個下混信號關(guān)聯(lián)的空間位置的用于M個下混信號的元數(shù)據(jù),所述方法還包括:
[0071]在解碼器被配置為支持音頻對象重構(gòu)的狀況時,執(zhí)行步驟:從M個下混信號和輔助信息重構(gòu)基于N個音頻對象所形成的音頻對象集合;以及
[0072]在解碼器并未被配置為支持音頻對象重構(gòu)的狀況時,使用用于M個下混信號的元數(shù)據(jù),以用于將M個下混信號呈現(xiàn)給回放系統(tǒng)的輸出通道。
[0073]根據(jù)示例性實施例,與M個下混信號關(guān)聯(lián)的空間位置是時變的。
[0074]根據(jù)示例性實施例,輔助信息是時變的。
[0075]根據(jù)示例性實施例,所述數(shù)據(jù)流還包括用于基于N個音頻對象所形成的音頻對象集合的元數(shù)據(jù),所述元數(shù)據(jù)含有基于N個音頻對象所形成的音頻對象集合的空間位置,所述方法還包括:
[0076]使用用于基于N個音頻對象所形成的音頻對象集合的元數(shù)據(jù),以用于將所重構(gòu)的基于N個音頻對象所形成的音頻對象集合呈現(xiàn)給回放系統(tǒng)的輸出通道。
[0077]根據(jù)示例性實施例,基于N個音頻對象所形成的音頻對象集合等于N個音頻對象。
[0078]根據(jù)示例性實施例,基于N個音頻對象所形成的音頻對象集合包括作為N個音頻對象的組合的多個音頻對象,并且其數(shù)量小于N。
[0079]根據(jù)示例性實施例,提供一種計算機程序產(chǎn)品,包括具有用于執(zhí)行根據(jù)示例性實施例的解碼方法的指令的計算機可讀介質(zhì)。
[0080]根據(jù)示例性實施例,提供一種用于對包括編碼的音頻對象的數(shù)據(jù)流進行解碼的解碼器,包括:
[0081]接收組件,被配置為:接收數(shù)據(jù)流,數(shù)據(jù)流包括:M個下混信號,其為根據(jù)獨立于任何外放揚聲器配置的準則所計算出的N個音頻對象的組