具有位置信息的有效傳輸?shù)亩嗤ǖ谰幋a器和解碼器的制造方法

文檔序號：8927069閱讀：745來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

具有位置信息的有效傳輸?shù)亩嗤ǖ谰幋a器和解碼器的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及位置信息的通信，并且尤其但不完全涉及用于音頻處理應(yīng)用的位置數(shù) 據(jù)的通信。
【背景技術(shù)】
[0002] 隨著數(shù)字信號表示和通信已日益取代模擬表示和通信，各種各樣源信號的數(shù)字編碼在過去數(shù)十年已變得越來越重要。例如，諸如語音和音樂之類的音頻內(nèi)容越來越多地以數(shù)字內(nèi)容編碼為基礎(chǔ)。此外，隨著例如環(huán)繞立體聲和家庭影院設(shè)置成為流行，音頻消費(fèi)已日益成為一種包絡(luò)（enveloping)三維體驗(yàn)。
[0003] 已研制音頻編碼格式來提供日益有能力的、多樣的和靈活的音頻服務(wù)，并且尤其已研制支持空間音頻服務(wù)的音頻編碼格式。
[0004] 如同DTS和Dolby Digital之類的眾所周知的音頻編碼技術(shù)產(chǎn)生編碼的多通道音頻信號，其將空間圖像表示為圍繞著收聽者被放置在固定位置上的許多通道。對于與對應(yīng) 于多通道信號的設(shè)置不同的揚(yáng)聲器設(shè)置來說，空間圖像將是次最優(yōu)的。并且，基于通道的音頻編碼系統(tǒng)通常不能應(yīng)付不同數(shù)量的揚(yáng)聲器。
[0005] (MPEG-D) MPEG Surround (環(huán)繞）提供一種多通道音頻編碼工具，其允許現(xiàn)有的基于單聲道或基于立體聲的編碼器被擴(kuò)展至多通道音頻應(yīng)用。圖1舉例說明MPEG Surround 系統(tǒng)的元素的示例。使用通過原始的多通道輸入的分析而獲得的空間參數(shù)，MPEG Surround 解碼器通過單聲道或立體聲信號的受控上混（upmix)以獲得多通道輸出信號而能夠重新創(chuàng) 建空間圖像。
[0006] 由于多通道輸入信號的空間圖像被參數(shù)化，所以MPEG Surround允許利用不使用多通道揚(yáng)聲器設(shè)置的渲染設(shè)備來解碼同一個多通道比特流。示例是在耳機(jī)上的虛擬環(huán)繞立體聲再現(xiàn)，其被稱為MPEG Surround雙耳解碼處理。在這種模式中，在使用普通耳機(jī)的同時能夠提供逼真的環(huán)繞立體聲體驗(yàn)。另一示例是較高階多通道輸出例如7. 1通道至較低階設(shè) 置例如5. 1通道的修剪（pruning)。
[0007] 實(shí)際上，隨著越來越多的再現(xiàn)格式變得可用于主流消費(fèi)者，用于渲染空間聲音的渲染配置的變化和靈活性近年來已顯著增加。這要求音頻的靈活表示。隨著MPEG Surround 編解碼器的引入，已采取重要的步驟。然而，仍然針對特定的揚(yáng)聲器設(shè)置來產(chǎn)生和發(fā)送音頻。沒有規(guī)定通過不同的設(shè)置和通過非標(biāo)準(zhǔn)（即，靈活的或用戶定義的)揚(yáng)聲器設(shè)置的再現(xiàn)。實(shí)際上，具有使得音頻編碼和表示日益獨(dú)立于特定的預(yù)定的和標(biāo)稱的揚(yáng)聲器設(shè)置的愿望。日益優(yōu)選的是：能夠在解碼器/渲染側(cè)上執(zhí)行針對多種多樣的不同的揚(yáng)聲器設(shè)置的靈活適配（adaptation)。
[0008] 為了提供更靈活的音頻的表示，MPEG標(biāo)準(zhǔn)化了稱為"Spatial Audio Object Coding (空間音頻對象編碼）"（MPEG-D SA0C)的格式。與諸如DTS、Dolby Digital和MPEG Surround之類的多通道音頻編碼系統(tǒng)形成對比，SA0C提供個別音頻對象而非音頻通道的有效編碼。借助于渲染矩陣，個別聲音對象被映射到揚(yáng)聲器通道上。而在MPEG Surround 中，每一個揚(yáng)聲器通道能夠被視為源自聲音對象的不同混合，SAOC使得在解碼器側(cè)上可利用的個別聲音對象用于如圖2所示的交互操縱。在SA0C中，多個聲音對象和參數(shù)化數(shù)據(jù)一起被編碼到單聲道或立體聲縮混（downmix)中，其中參數(shù)化數(shù)據(jù)允許聲音對象在植染側(cè)上被提取，從而允許個別音頻對象可用于例如由終端用戶進(jìn)行的操縱。
[0009] 實(shí)際上，與MPEG Surround相類似，SA0C也創(chuàng)建單聲道或立體聲縮混。另外，計(jì)算和包括對象參數(shù)。在解碼器側(cè)上，用戶可以操縱這些參數(shù)來控制個別對象的各種各樣特征諸如位置、水平、均衡乃至應(yīng)用諸如混響之類的效果。圖3舉例說明使得用戶能夠控制在 SA0C比特流中包含的個別對象的交互界面。
[0010] 通過發(fā)送音頻對象而非僅僅再現(xiàn)通道，SA0C允許更靈活的方案并且尤其允許更多的基于渲染的適應(yīng)性（adaptability)。假定空間被揚(yáng)聲器充分覆蓋，則這允許解碼器側(cè)將音頻對象放置在空間中的任意位置上。這樣，在所發(fā)送的音頻與再現(xiàn)或渲染設(shè)置之間沒有關(guān)系，因此能夠使用任意的揚(yáng)聲器設(shè)置。這對于例如其中揚(yáng)聲器幾乎從不位于預(yù)定位置上的典型起居室中的家庭影院設(shè)置而言是有利的。在SA0C中，在解碼器側(cè)上決定在聲音場景中這些對象被放置在什么地方，這從藝術(shù)的角度來看時常不是所希望的。SA0C標(biāo)準(zhǔn)確實(shí)提供在比特流中發(fā)送默認(rèn)渲染矩陣的方式，這消除解碼器責(zé)任。然而，所提供的方法依賴于或固定的再現(xiàn)設(shè)置或依賴于未指明的語法。因而，SA0C沒有提供規(guī)范的手段來完全發(fā)送音頻場景而與揚(yáng)聲器設(shè)置無關(guān)。并且，SA0C不太適合于（not well equipped)彌散性信號分量的忠實(shí)植染。雖然具有包括所謂的多通道背景對象（multichannel background object)來捕獲漫聲的可能性，但是這個對象被束縛于一個特定的揚(yáng)聲器配置，例如，諸如5. 1環(huán)繞揚(yáng) 聲器設(shè)置。
[0011] 由3D Audio Alliance (音頻聯(lián)盟）（3DAA)正在研制用于3D音頻的音頻格式的另一規(guī)范，其中3DAA是工業(yè)聯(lián)盟。3DAA致力于研制"將有助于從當(dāng)前的揚(yáng)聲器饋送范例至靈活的基于對象的方案的轉(zhuǎn)變"的用于3D音頻的傳輸?shù)臉?biāo)準(zhǔn)。在3DAA中，將定義允許將傳統(tǒng)的多通道縮混連同個別聲音對象一起傳輸?shù)谋忍亓鞲袷?。另外，包括對象定位?shù)據(jù)。在圖4中舉例說明生成3DAA音頻流的原理。
[0012] 在3DAA方案中，單獨(dú)地在擴(kuò)展流中接收聲音對象，并且可以從多通道縮混中提取這些聲音對象。由此產(chǎn)生的多聲道縮混與個別可用的對象一起進(jìn)行渲染。
[0013] 這些對象可以由所謂的詞干（stem)構(gòu)成。這些詞干基本上是分組(縮混）的軌道 (track)或?qū)ο?。因此，對象可以由包裝在詞干中的多個子對象構(gòu)成。在3DAA中，利用音頻對象的選擇，能夠發(fā)送多通道參考混合（reference mix)。3DAA針對每一個對象發(fā)送3D 位置數(shù)據(jù)。這些對象隨后能夠使用3D位置數(shù)據(jù)來提取。可供選擇地，可以發(fā)送逆的混合矩陣，其描述這些對象與參考混合之間的關(guān)系。
[0014] 根據(jù)3DAA的描述，通過給每一個對象分配角度和距離，很可能發(fā)送聲音場景信息，其表明：相對于例如默認(rèn)的前進(jìn)方向應(yīng)該將該對象放置在什么地方。因而，針對每一個對象，發(fā)送位置信息。這對于點(diǎn)源來說是有用的，但是其無法描述廣源（wide source)(例如，如同合唱或歡呼）或彌漫性聲場(諸如周圍環(huán)境)。當(dāng)從參考混合中提取所有的點(diǎn)源時，周圍的多聲道混合保留。與SA0C相類似，3DAA中的殘留物（residual)被固定于特定的揚(yáng) 聲器設(shè)置。
[0015] 因而，SA0C和3DAA方案二者并入能夠在解碼器側(cè)上個別操縱的個別音頻對象的傳輸。這兩種方案之間的不同在于：SAOC通過相對于縮混提供表征音頻對象的參數(shù)來提供有關(guān)這些音頻對象的信息（即，以致在解碼器側(cè)上根據(jù)縮混來生成這些音頻對象)，而3DAA 提供音頻對象作為完整的且獨(dú)立的音頻對象（即，能夠在解碼器側(cè)上獨(dú)立于縮混來生成這些音頻對象)。對于兩種方案，可以針對這些音頻對象來傳送位置數(shù)據(jù)。
[0016] 傳統(tǒng)的和新的用于音頻編碼和分發(fā)的方案之間的顯著差異在于：傳統(tǒng)的方案固有地假設(shè)特定的揚(yáng)聲器配置。因而，對于這些方案來說，每一個揚(yáng)聲器的位置是(被假設(shè)為)已知的。此外，音頻作為針對個別揚(yáng)聲器的音頻信號而被編碼并被分發(fā)，并因而生成將從已知的渲染位置渲染的音頻信號，并且以致當(dāng)從這些位置渲染這些信號時，由此產(chǎn)生的聲音將產(chǎn)生聲源位于所希望位置上的空間感知。作為這個方案的結(jié)果，只需要傳送針對個別揚(yáng)聲器的音頻信號，并且不需要位置信息。
[0017] 然而，對于較新的方案來說，不能進(jìn)行這樣的假設(shè)，并相應(yīng)地要求或希望也傳送位置數(shù)據(jù)。
[0018] 例如，與音頻對象的所希望或所建議的位置相關(guān)的位置信息應(yīng)該被傳送。作為另一示例，可取的可能是將要傳送所希望的揚(yáng)聲器位置(或，例如，捕獲信號的麥克風(fēng)的位置)，以致渲染器能夠在根據(jù)在編碼的時間未知的給定渲染配置生成空間聲音場景時考慮這樣的位置。另一示例是：當(dāng)提供對于雙耳虛擬聲音渲染的支持時，諸如當(dāng)使用HRTF處理來經(jīng)由耳機(jī)渲染空間音頻時。在這個案例中，可以傳送位置信息，以便雙耳渲染器選擇與所希望的位置相對應(yīng)的恰當(dāng)?shù)腍RTF濾波器。
[0019] 然而，位置數(shù)據(jù)的通信對于音頻信息的通信引入開銷，并且具體地導(dǎo)致比其他情況更高的數(shù)據(jù)率?？扇〉氖潜M可能減少這個開銷，并因而希望位置數(shù)據(jù)的有效表示和通信。
[0020] 因此，改善的方案將是有利的，并且特別地允許位置信息的改善的表示與通信、降低的數(shù)據(jù)率、減少的開銷、便利的實(shí)現(xiàn)和/或改善的性能的方案將是有利的。

【發(fā)明內(nèi)容】

[0021] 相應(yīng)地，本發(fā)明尋求優(yōu)選地、單個地或以任何組合來減輕、緩解或消除上述缺點(diǎn)之中的一個或多個。
[0022] 根據(jù)本發(fā)明的一方面，提供一種用于傳送位置的設(shè)備，該設(shè)備包括：用于接收位置的接收機(jī)，該位置具有至少第一值和第二值，第一值表示第一位置參數(shù)，并且第二值表示第二位置參數(shù)；匹配電路，用于確定第二值是否與用于第二位置參數(shù)的標(biāo)稱值相匹配；用于生成輸出數(shù)據(jù)的輸出電路，該輸出電路被安排成：當(dāng)?shù)诙蹬c標(biāo)稱值相匹配時，在輸出數(shù)據(jù) 的第一字段中包括表示第一值的第一數(shù)據(jù)但是在輸出數(shù)據(jù)中不包括表示第二值的數(shù)據(jù)；以及當(dāng)?shù)诙蹬c標(biāo)稱值不匹配時，在第一字段中包括第二數(shù)據(jù)，第二數(shù)據(jù)表示用于第一位置參數(shù)的無效位置值。
[0023] 本發(fā)明可以允許改善的位置的通信。特別地，一個或多個位置可以利用減少的開銷來傳送。在許多實(shí)施例和情形中可以降低為了傳送音頻數(shù)據(jù)和相關(guān)聯(lián)的位置信息所需的數(shù)據(jù)率。這在許多實(shí)施例中可以實(shí)現(xiàn)而不限制能夠傳送的位置的范圍。
[0024] 該方案基于發(fā)明人的認(rèn)識，即通過允許位置有時利用比用于描述位置的參數(shù)的數(shù) 量更少的值來表明，能夠?qū)崿F(xiàn)有利地在許多情形中改善的位置的表示和通信。例如，三維位置可以利用單個值或兩個值來表示。這可以通過對于至少一個分量使用標(biāo)稱值來實(shí)現(xiàn)。這些標(biāo)稱值在發(fā)射機(jī)上和在接收機(jī)上都可以是已知的。然而，該方案還慮及能夠傳送的位置不限于只在一個參數(shù)方面變化的位置。相反，數(shù)據(jù)字段的數(shù)據(jù)能夠動態(tài)地變化，以便在對于至少一個其他位置參數(shù)假設(shè)標(biāo)稱值的情況下表示第一位置參數(shù)的值或表示這些標(biāo)稱值不能用于這個其他位置參數(shù)的指示。具體地，第一數(shù)據(jù)字段能夠包括指示第一位置參數(shù)的值的數(shù)據(jù)或能夠表明第二通信參數(shù)具有標(biāo)稱值的假設(shè)是否是有效的。
[0025]該方案可以允許低復(fù)雜度的語法用于表示。它可

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5 6