具有位置信息的有效傳輸?shù)亩嗤ǖ谰幋a器和解碼器的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及位置信息的通信,并且尤其但不完全涉及用于音頻處理應(yīng)用的位置數(shù) 據(jù)的通信。
【背景技術(shù)】
[0002] 隨著數(shù)字信號表示和通信已日益取代模擬表示和通信,各種各樣源信號的數(shù)字編 碼在過去數(shù)十年已變得越來越重要。例如,諸如語音和音樂之類的音頻內(nèi)容越來越多地以 數(shù)字內(nèi)容編碼為基礎(chǔ)。此外,隨著例如環(huán)繞立體聲和家庭影院設(shè)置成為流行,音頻消費(fèi)已日 益成為一種包絡(luò)(enveloping)三維體驗(yàn)。
[0003] 已研制音頻編碼格式來提供日益有能力的、多樣的和靈活的音頻服務(wù),并且尤其 已研制支持空間音頻服務(wù)的音頻編碼格式。
[0004] 如同DTS和Dolby Digital之類的眾所周知的音頻編碼技術(shù)產(chǎn)生編碼的多通道音 頻信號,其將空間圖像表示為圍繞著收聽者被放置在固定位置上的許多通道。對于與對應(yīng) 于多通道信號的設(shè)置不同的揚(yáng)聲器設(shè)置來說,空間圖像將是次最優(yōu)的。并且,基于通道的音 頻編碼系統(tǒng)通常不能應(yīng)付不同數(shù)量的揚(yáng)聲器。
[0005] (MPEG-D) MPEG Surround (環(huán)繞)提供一種多通道音頻編碼工具,其允許現(xiàn)有的基 于單聲道或基于立體聲的編碼器被擴(kuò)展至多通道音頻應(yīng)用。圖1舉例說明MPEG Surround 系統(tǒng)的元素的示例。使用通過原始的多通道輸入的分析而獲得的空間參數(shù),MPEG Surround 解碼器通過單聲道或立體聲信號的受控上混(upmix)以獲得多通道輸出信號而能夠重新創(chuàng) 建空間圖像。
[0006] 由于多通道輸入信號的空間圖像被參數(shù)化,所以MPEG Surround允許利用不使用 多通道揚(yáng)聲器設(shè)置的渲染設(shè)備來解碼同一個多通道比特流。示例是在耳機(jī)上的虛擬環(huán)繞立 體聲再現(xiàn),其被稱為MPEG Surround雙耳解碼處理。在這種模式中,在使用普通耳機(jī)的同時 能夠提供逼真的環(huán)繞立體聲體驗(yàn)。另一示例是較高階多通道輸出例如7. 1通道至較低階設(shè) 置例如5. 1通道的修剪(pruning)。
[0007] 實(shí)際上,隨著越來越多的再現(xiàn)格式變得可用于主流消費(fèi)者,用于渲染空間聲音的 渲染配置的變化和靈活性近年來已顯著增加。這要求音頻的靈活表示。隨著MPEG Surround 編解碼器的引入,已采取重要的步驟。然而,仍然針對特定的揚(yáng)聲器設(shè)置來產(chǎn)生和發(fā)送音 頻。沒有規(guī)定通過不同的設(shè)置和通過非標(biāo)準(zhǔn)(即,靈活的或用戶定義的)揚(yáng)聲器設(shè)置的再現(xiàn)。 實(shí)際上,具有使得音頻編碼和表示日益獨(dú)立于特定的預(yù)定的和標(biāo)稱的揚(yáng)聲器設(shè)置的愿望。 日益優(yōu)選的是:能夠在解碼器/渲染側(cè)上執(zhí)行針對多種多樣的不同的揚(yáng)聲器設(shè)置的靈活適 配(adaptation)。
[0008] 為了提供更靈活的音頻的表示,MPEG標(biāo)準(zhǔn)化了稱為"Spatial Audio Object Coding (空間音頻對象編碼)"(MPEG-D SA0C)的格式。與諸如DTS、Dolby Digital和MPEG Surround之類的多通道音頻編碼系統(tǒng)形成對比,SA0C提供個別音頻對象而非音頻通道的 有效編碼。借助于渲染矩陣,個別聲音對象被映射到揚(yáng)聲器通道上。而在MPEG Surround 中,每一個揚(yáng)聲器通道能夠被視為源自聲音對象的不同混合,SAOC使得在解碼器側(cè)上可利 用的個別聲音對象用于如圖2所示的交互操縱。在SA0C中,多個聲音對象和參數(shù)化數(shù)據(jù)一 起被編碼到單聲道或立體聲縮混(downmix)中,其中參數(shù)化數(shù)據(jù)允許聲音對象在植染側(cè)上 被提取,從而允許個別音頻對象可用于例如由終端用戶進(jìn)行的操縱。
[0009] 實(shí)際上,與MPEG Surround相類似,SA0C也創(chuàng)建單聲道或立體聲縮混。另外,計(jì)算 和包括對象參數(shù)。在解碼器側(cè)上,用戶可以操縱這些參數(shù)來控制個別對象的各種各樣特征 諸如位置、水平、均衡乃至應(yīng)用諸如混響之類的效果。圖3舉例說明使得用戶能夠控制在 SA0C比特流中包含的個別對象的交互界面。
[0010] 通過發(fā)送音頻對象而非僅僅再現(xiàn)通道,SA0C允許更靈活的方案并且尤其允許更多 的基于渲染的適應(yīng)性(adaptability)。假定空間被揚(yáng)聲器充分覆蓋,則這允許解碼器側(cè)將 音頻對象放置在空間中的任意位置上。這樣,在所發(fā)送的音頻與再現(xiàn)或渲染設(shè)置之間沒有 關(guān)系,因此能夠使用任意的揚(yáng)聲器設(shè)置。這對于例如其中揚(yáng)聲器幾乎從不位于預(yù)定位置上 的典型起居室中的家庭影院設(shè)置而言是有利的。在SA0C中,在解碼器側(cè)上決定在聲音場景 中這些對象被放置在什么地方,這從藝術(shù)的角度來看時常不是所希望的。SA0C標(biāo)準(zhǔn)確實(shí)提 供在比特流中發(fā)送默認(rèn)渲染矩陣的方式,這消除解碼器責(zé)任。然而,所提供的方法依賴于或 固定的再現(xiàn)設(shè)置或依賴于未指明的語法。因而,SA0C沒有提供規(guī)范的手段來完全發(fā)送音頻 場景而與揚(yáng)聲器設(shè)置無關(guān)。并且,SA0C不太適合于(not well equipped)彌散性信號分量 的忠實(shí)植染。雖然具有包括所謂的多通道背景對象(multichannel background object)來 捕獲漫聲的可能性,但是這個對象被束縛于一個特定的揚(yáng)聲器配置,例如,諸如5. 1環(huán)繞揚(yáng) 聲器設(shè)置。
[0011] 由3D Audio Alliance (音頻聯(lián)盟)(3DAA)正在研制用于3D音頻的音頻格式的 另一規(guī)范,其中3DAA是工業(yè)聯(lián)盟。3DAA致力于研制"將有助于從當(dāng)前的揚(yáng)聲器饋送范例至 靈活的基于對象的方案的轉(zhuǎn)變"的用于3D音頻的傳輸?shù)臉?biāo)準(zhǔn)。在3DAA中,將定義允許將傳 統(tǒng)的多通道縮混連同個別聲音對象一起傳輸?shù)谋忍亓鞲袷?。另外,包括對象定位?shù)據(jù)。在 圖4中舉例說明生成3DAA音頻流的原理。
[0012] 在3DAA方案中,單獨(dú)地在擴(kuò)展流中接收聲音對象,并且可以從多通道縮混中提取 這些聲音對象。由此產(chǎn)生的多聲道縮混與個別可用的對象一起進(jìn)行渲染。
[0013] 這些對象可以由所謂的詞干(stem)構(gòu)成。這些詞干基本上是分組(縮混)的軌道 (track)或?qū)ο?。因此,對象可以由包裝在詞干中的多個子對象構(gòu)成。在3DAA中,利用音 頻對象的選擇,能夠發(fā)送多通道參考混合(reference mix)。3DAA針對每一個對象發(fā)送3D 位置數(shù)據(jù)。這些對象隨后能夠使用3D位置數(shù)據(jù)來提取。可供選擇地,可以發(fā)送逆的混合矩 陣,其描述這些對象與參考混合之間的關(guān)系。
[0014] 根據(jù)3DAA的描述,通過給每一個對象分配角度和距離,很可能發(fā)送聲音場景信 息,其表明:相對于例如默認(rèn)的前進(jìn)方向應(yīng)該將該對象放置在什么地方。因而,針對每一個 對象,發(fā)送位置信息。這對于點(diǎn)源來說是有用的,但是其無法描述廣源(wide source)(例 如,如同合唱或歡呼)或彌漫性聲場(諸如周圍環(huán)境)。當(dāng)從參考混合中提取所有的點(diǎn)源時, 周圍的多聲道混合保留。與SA0C相類似,3DAA中的殘留物(residual)被固定于特定的揚(yáng) 聲器設(shè)置。
[0015] 因而,SA0C和3DAA方案二者并入能夠在解碼器側(cè)上個別操縱的個別音頻對象的 傳輸。這兩種方案之間的不同在于:SAOC通過相對于縮混提供表征音頻對象的參數(shù)來提供 有關(guān)這些音頻對象的信息(即,以致在解碼器側(cè)上根據(jù)縮混來生成這些音頻對象),而3DAA 提供音頻對象作為完整的且獨(dú)立的音頻對象(即,能夠在解碼器側(cè)上獨(dú)立于縮混來生成這 些音頻對象)。對于兩種方案,可以針對這些音頻對象來傳送位置數(shù)據(jù)。
[0016] 傳統(tǒng)的和新的用于音頻編碼和分發(fā)的方案之間的顯著差異在于:傳統(tǒng)的方案固有 地假設(shè)特定的揚(yáng)聲器配置。因而,對于這些方案來說,每一個揚(yáng)聲器的位置是(被假設(shè)為)已 知的。此外,音頻作為針對個別揚(yáng)聲器的音頻信號而被編碼并被分發(fā),并因而生成將從已知 的渲染位置渲染的音頻信號,并且以致當(dāng)從這些位置渲染這些信號時,由此產(chǎn)生的聲音將 產(chǎn)生聲源位于所希望位置上的空間感知。作為這個方案的結(jié)果,只需要傳送針對個別揚(yáng)聲 器的音頻信號,并且不需要位置信息。
[0017] 然而,對于較新的方案來說,不能進(jìn)行這樣的假設(shè),并相應(yīng)地要求或希望也傳送位 置數(shù)據(jù)。
[0018] 例如,與音頻對象的所希望或所建議的位置相關(guān)的位置信息應(yīng)該被傳送。作為 另一示例,可取的可能是將要傳送所希望的揚(yáng)聲器位置(或,例如,捕獲信號的麥克風(fēng)的位 置),以致渲染器能夠在根據(jù)在編碼的時間未知的給定渲染配置生成空間聲音場景時考慮 這樣的位置。另一示例是:當(dāng)提供對于雙耳虛擬聲音渲染的支持時,諸如當(dāng)使用HRTF處理 來經(jīng)由耳機(jī)渲染空間音頻時。在這個案例中,可以傳送位置信息,以便雙耳渲染器選擇與所 希望的位置相對應(yīng)的恰當(dāng)?shù)腍RTF濾波器。
[0019] 然而,位置數(shù)據(jù)的通信對于音頻信息的通信引入開銷,并且具體地導(dǎo)致比其他情 況更高的數(shù)據(jù)率??扇〉氖潜M可能減少這個開銷,并因而希望位置數(shù)據(jù)的有效表示和通信。
[0020] 因此,改善的方案將是有利的,并且特別地允許位置信息的改善的表示與通信、降 低的數(shù)據(jù)率、減少的開銷、便利的實(shí)現(xiàn)和/或改善的性能的方案將是有利的。
【發(fā)明內(nèi)容】
[0021] 相應(yīng)地,本發(fā)明尋求優(yōu)選地、單個地或以任何組合來減輕、緩解或消除上述缺點(diǎn)之 中的一個或多個。
[0022] 根據(jù)本發(fā)明的一方面,提供一種用于傳送位置的設(shè)備,該設(shè)備包括:用于接收位置 的接收機(jī),該位置具有至少第一值和第二值,第一值表示第一位置參數(shù),并且第二值表示第 二位置參數(shù);匹配電路,用于確定第二值是否與用于第二位置參數(shù)的標(biāo)稱值相匹配;用于 生成輸出數(shù)據(jù)的輸出電路,該輸出電路被安排成:當(dāng)?shù)诙蹬c標(biāo)稱值相匹配時,在輸出數(shù)據(jù) 的第一字段中包括表示第一值的第一數(shù)據(jù)但是在輸出數(shù)據(jù)中不包括表示第二值的數(shù)據(jù);以 及當(dāng)?shù)诙蹬c標(biāo)稱值不匹配時,在第一字段中包括第二數(shù)據(jù),第二數(shù)據(jù)表示用于第一位置 參數(shù)的無效位置值。
[0023] 本發(fā)明可以允許改善的位置的通信。特別地,一個或多個位置可以利用減少的開 銷來傳送。在許多實(shí)施例和情形中可以降低為了傳送音頻數(shù)據(jù)和相關(guān)聯(lián)的位置信息所需的 數(shù)據(jù)率。這在許多實(shí)施例中可以實(shí)現(xiàn)而不限制能夠傳送的位置的范圍。
[0024] 該方案基于發(fā)明人的認(rèn)識,即通過允許位置有時利用比用于描述位置的參數(shù)的數(shù) 量更少的值來表明,能夠?qū)崿F(xiàn)有利地在許多情形中改善的位置的表示和通信。例如,三維位 置可以利用單個值或兩個值來表示。這可以通過對于至少一個分量使用標(biāo)稱值來實(shí)現(xiàn)。這 些標(biāo)稱值在發(fā)射機(jī)上和在接收機(jī)上都可以是已知的。然而,該方案還慮及能夠傳送的位置 不限于只在一個參數(shù)方面變化的位置。相反,數(shù)據(jù)字段的數(shù)據(jù)能夠動態(tài)地變化,以便在對于 至少一個其他位置參數(shù)假設(shè)標(biāo)稱值的情況下表示第一位置參數(shù)的值或表示這些標(biāo)稱值不 能用于這個其他位置參數(shù)的指示。具體地,第一數(shù)據(jù)字段能夠包括指示第一位置參數(shù)的值 的數(shù)據(jù)或能夠表明第二通信參數(shù)具有標(biāo)稱值的假設(shè)是否是有效的。
[0025]該方案可以允許低復(fù)雜度的語法用于表示。它可