對音頻場景的編碼的制作方法

文檔序號：9493768閱讀：790來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

對音頻場景的編碼的制作方法
【專利說明】對首頻場景的編碼
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2013年5月24日提交的美國臨時專利申請第61/827，246號的優(yōu)先權(quán)，通過引用將該申請整體地合并到本文中。
技術(shù)領(lǐng)域
[0003]本文所公開的發(fā)明總體上涉及音頻編碼和解碼領(lǐng)域。特別地，本發(fā)明涉及對包括音頻對象的音頻場景的編碼和解碼。
【背景技術(shù)】
[0004]存在用于參數(shù)空間音頻編碼的音頻編碼系統(tǒng)。例如，MPEG Surround描述了一種用于多聲道音頻的參數(shù)空間編碼的系統(tǒng)。MPEG SAOC (空間音頻對象編碼)描述了一種用于音頻對象的參數(shù)編碼的系統(tǒng)。
[0005]在編碼器側(cè)，這些系統(tǒng)通常將聲道/對象下混成下混，下混通常為單聲道(一個聲道)或立體聲(兩個聲道)下混，并且提取通過如電平差和互相關(guān)來描述聲道/對象的性質(zhì)的邊信息。然后對下混和邊信息進(jìn)行編碼并且將其發(fā)送解碼器側(cè)。在解碼器側(cè)，在邊信息的參數(shù)的控制下根據(jù)下混來重構(gòu)即近似估計聲道/對象。
[0006]這些系統(tǒng)的缺點(diǎn)在于重構(gòu)通常在數(shù)學(xué)上是復(fù)雜的并且經(jīng)常需要依賴于對由作為邊信息發(fā)送的參數(shù)未明確描述的音頻內(nèi)容的性質(zhì)的假設(shè)。這種假設(shè)例如可以是:除非發(fā)送了互相關(guān)參數(shù)，否則聲道/對象被認(rèn)為是不相關(guān)的；或者以特定方式生成聲道/對象的下混。此外，當(dāng)下混的聲道的數(shù)目增加時，數(shù)學(xué)復(fù)雜度和對額外的假設(shè)的需要會顯著增加。
[0007]此外，在應(yīng)用在解碼器側(cè)的處理的算法細(xì)節(jié)中內(nèi)在地反映出所需要的假設(shè)。這意味著在解碼器側(cè)必須包括相當(dāng)多的智能。這是個缺點(diǎn)，因?yàn)楫?dāng)解碼器被設(shè)置在例如很難或甚至不可能升級的消費(fèi)者裝置中時，很難升級和改進(jìn)算法。
【附圖說明】
[0008]在下文中，將參考附圖并且更加詳細(xì)地描述示例實(shí)施例，其中:
[0009]圖1是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的不意圖；
[0010]圖2是根據(jù)示例實(shí)施例的具有遺留解碼器的音頻編碼/解碼系統(tǒng)的示意圖；
[0011]圖3是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的編碼側(cè)的不意圖；
[0012]圖4是根據(jù)示例實(shí)施例的編碼方法的流程圖；
[0013]圖5是根據(jù)示例實(shí)施例的編碼器的示意圖；
[0014]圖6是根據(jù)示例實(shí)施例的音頻編碼/解碼系統(tǒng)的解碼器側(cè)的示意圖；
[0015]圖7是根據(jù)示例實(shí)施例的解碼方法的流程圖；
[0016]圖8是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的解碼器側(cè)的不意圖；以及
[0017]圖9是在根據(jù)示例實(shí)施例的音頻編碼/解碼系統(tǒng)的解碼器側(cè)執(zhí)行的時頻變換的示意圖。
[0018]所有附圖都是示意性的，并且一般僅示出為闡明本發(fā)明所必須的部分，而可以省略或僅暗示其它部分。除非另有說明，否則相同附圖標(biāo)記在不同附圖中的指示相同部件。
【具體實(shí)施方式】
[0019]考慮到上述內(nèi)容，目的是提供編碼器和解碼器，以及提供音頻對象的較不復(fù)雜的且更靈活的重構(gòu)的相關(guān)方法。
[0020]1.概述一一編碼器
[0021]根據(jù)第一方面，示例實(shí)施例提出了編碼方法、編碼器以及用于編碼的計算機(jī)程序產(chǎn)品。所提出的方法、編碼器和計算機(jī)程序產(chǎn)品一般可以具有相同特征和優(yōu)勢。
[0022]根據(jù)示例實(shí)施例，提供了一種對至少包括N個音頻對象的音頻場景的時頻塊進(jìn)行編碼的方法。該方法包括:接收N個音頻對象；基于至少N個音頻對象生成M個下混信號；用矩陣元素生成重構(gòu)矩陣，重構(gòu)矩陣使得能夠根據(jù)M個下混信號重構(gòu)至少N個音頻對象；以及生成包括M個下混信號以及重構(gòu)矩陣的矩陣元素中的至少一些矩陣元素的比特流。
[0023]音頻對象的數(shù)目N可以等于或大于I。下混信號的數(shù)目M可以等于或大于I。
[0024]通過該方法，從而生成了比特流，該比特流包括作為邊信息的重構(gòu)矩陣的矩陣元素中的至少一些矩陣元素以及M個下混信號。通過將重構(gòu)矩陣的各個矩陣元素包括在比特流中，在解碼器側(cè)需要非常少的智能。例如，在解碼器側(cè)不需要基于所傳輸?shù)膶ο髤?shù)和額外的假設(shè)對重構(gòu)矩陣進(jìn)行復(fù)雜計算。因此，顯著降低了解碼器側(cè)的數(shù)學(xué)復(fù)雜度。此外，因?yàn)樵摲椒ǖ膹?fù)雜度不依賴于所使用的下混信號的數(shù)目，所以與現(xiàn)有技術(shù)方法相比，增加了關(guān)于下混信號的數(shù)目的靈活性。
[0025]如本文中所使用的，音頻場景一般指如下三維音頻環(huán)境:其包括與可以被呈現(xiàn)以在音頻系統(tǒng)上回放的三維空間中的位置相關(guān)聯(lián)的音頻單元。
[0026]如本文中所使用的，音頻對象指音頻場景的單元。音頻對象通常包括音頻信號以及諸如對象在三位空間中的位置的附加信息。附加信息通常被用于在給定的回放系統(tǒng)上最優(yōu)地呈現(xiàn)音頻對象。
[0027]如本文中所使用的，下混信號指是作為至少N個音頻對象的組合的信號。諸如音床聲道(將在下文中描述)的音頻場景的其它信號也可以被組合到下混信號中。例如，M個下混信號可以對應(yīng)于對給定揚(yáng)聲器配置，例如標(biāo)準(zhǔn)5.1配置的音頻場景的呈現(xiàn)。在本文中由M表示的下混信號的數(shù)目通常(但不必須地)少于音頻對象和音床聲道的數(shù)目之和，這解釋了為什么M個下混信號稱為下混。
[0028]音頻編碼/解碼系統(tǒng)通常例如通過將適合的濾波器組應(yīng)用于輸入音頻信號而將時頻空間劃分成時頻塊。時頻塊的一般意思是對應(yīng)于時間間隔和頻率子帶的時頻空間的一部分。時間間隔可以通常對應(yīng)于用在音頻編碼/解碼系統(tǒng)中的時間幀的持續(xù)時間。頻率子帶可以通常對應(yīng)于由用在編碼/解碼系統(tǒng)中的濾波器組所定義的一個或若干相鄰頻率子帶。在頻率子帶對應(yīng)于由濾波器組定義的若干相鄰頻率子帶的情形下，這允許在音頻信號的解碼過程中存在不均勻的頻率子帶，例如，更寬的頻率子帶用于音頻信號的較高頻率。在音頻編碼/解碼系統(tǒng)對整個頻率范圍進(jìn)行操作的寬波段的情形下，時頻塊的頻率子帶可以對應(yīng)于整個頻率范圍。上述方法公開了用于在一個這樣的時頻塊期間對音頻場景進(jìn)行編碼的編碼步驟。然而，要理解的是，可以針對音頻編碼/解碼系統(tǒng)的每個時頻塊重復(fù)該方法。并且，還要理解的是，可以同時對若干時頻塊進(jìn)行編碼。通常，相鄰的時頻塊可以在時間和/或頻率上稍稍重疊。例如，時間上的重疊可以相當(dāng)于重構(gòu)矩陣的元素在時間上，即從一個時間間隔到下一個時間間隔的線性插值。然而，本公開內(nèi)容的目標(biāo)在于編碼/解碼系統(tǒng)的其它部件，而相鄰的時頻塊之間的時間和/或頻率上的任何重疊留給本領(lǐng)域技術(shù)人員去實(shí)現(xiàn)。
[0029]根據(jù)示例實(shí)施例，使用第一格式將M個下混信號布置在比特流的第一字段中，并且使用第二格式將矩陣元素布置在比特流的第二字段中，從而允許僅支持第一格式的解碼器解碼和回放第一字段中的M個下混信號并且丟棄第二子段中的矩陣元素。這樣做的優(yōu)勢在于比特流中的M個下混信號與不用于實(shí)現(xiàn)音頻對象重構(gòu)的遺留解碼器后向兼容。換言之，遺留解碼器仍然可以例如通過將每個下混信號映射到解碼器的聲道輸出來解碼和回放比特流的M個下混信號。
[0030]根據(jù)示例實(shí)施例，該方法還可以包括步驟:接收對應(yīng)于N個音頻對象中的每個音頻對象的位置數(shù)據(jù)，其中，基于位置數(shù)據(jù)生成M個下混信號。位置數(shù)據(jù)通常將每個音頻對象與三位空間中的位置相關(guān)聯(lián)。音頻對象的位置可以隨時間而變化。通過在對音頻對象進(jìn)行下混時使用位置數(shù)據(jù)，將通過以下方式將音頻對象混合到M個下混信號中:例如如果在具有M個輸出聲道的系統(tǒng)上聽M個下混信號，則音頻對象聽起來就像它們近似地位于其各自的位置。這例如在M個下混信號要與遺留解碼器后向兼容的情況下是有利的。
[0031]根據(jù)示例實(shí)施例，重構(gòu)矩陣的矩陣元素是時變的和頻變的。換言之，重構(gòu)矩陣的矩陣元素可以對于不同的時頻塊而不同。以這樣的方式，實(shí)現(xiàn)了音頻對象的重構(gòu)的極好的靈活性。
[0032]根據(jù)示例實(shí)施例，音頻場景還包括多個音床聲道。這例如在音頻內(nèi)容除了包括音頻對象以外還包括音床聲道的影院音頻應(yīng)用中是常見的。在這種情形下，可以基于至少N個音頻對象和多個音床聲道生成M個下混信號。音床聲道的一般意思是對應(yīng)于三維空間中的固定位置的音頻信號。例如，音床聲道可以對應(yīng)于音頻編碼/解碼系統(tǒng)的輸出聲道之一。這樣，音床聲道可以被解釋為具有三維空間中與音頻編碼/解碼系統(tǒng)的輸出揚(yáng)聲器之一的位置相同的相關(guān)位置。因此，音床聲道可以與僅指示相應(yīng)輸出揚(yáng)聲器的位置的標(biāo)簽相關(guān)聯(lián)。
[0033]當(dāng)音頻場景包括音床聲道時，重構(gòu)矩陣可以包括使得能夠根據(jù)M個下混信號重構(gòu)音床聲道的矩陣元素。
[0034]在某些情況下，音頻場景可以包括大量的對象。為了降低表現(xiàn)音頻場景所需要的復(fù)雜度和數(shù)據(jù)量，可以通過減少音頻對象的數(shù)量來簡化音頻場景。因此，如果音頻場景初始包括K個音頻對象，其中K>N，則該方法還可以包括步驟:接收K個音頻對象，并且通過將K個音頻對象聚類成N個聚類并將每個聚類用一個音頻對象表示，來將K個音頻對象減少到N個音頻對象。
[0035]為了簡化場景，該方法還可以包括步驟:接收對應(yīng)于K個音頻對象中的每個音頻對象的位置數(shù)據(jù)，其中，將K個對象聚類成N個聚類基于由K個音頻對象的位置數(shù)據(jù)所給出的K個對象之間的位置距離。例如，三維空間中位置彼此靠近的音頻對象可以被聚

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：?？啤て諣柟?拉爾斯·維爾默斯;利夫·約納什·薩穆埃爾松;托尼·希爾沃寧;
技術(shù)所有人：杜比國際公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

雅思聽力場景詞匯音頻相關(guān)技術(shù)

場景音頻相關(guān)技術(shù)

音頻編碼相關(guān)技術(shù)

語音與音頻編碼相關(guān)技術(shù)

音頻編解碼相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

對音頻場景的編碼的制作方法