基于對(duì)象的音頻編碼系統(tǒng)中利用旁路音頻對(duì)象信號(hào)的通知響度估計(jì)的解碼器、編碼器及方法
【專利說明】基于對(duì)象的音頻編碼系統(tǒng)中利用旁路音頻對(duì)象信號(hào)的通知 響度估計(jì)的解碼器、編碼器及方法
[0001] 本發(fā)明設(shè)及音頻信號(hào)編碼、處理及解碼,特別地,設(shè)及用于基于對(duì)象的音頻編碼系 統(tǒng)中的通知響度估計(jì)的解碼器、編碼器及方法。
[0002] 近來,在音頻編碼怔CC、JSC、SA0C、SA0C1、SA0C2]及通知源分離[ISS1、ISS2、 ISS3、ISS4、ISS5、ISS6]的領(lǐng)域中已提出用于包括多個(gè)音頻對(duì)象信號(hào)的音頻場景的具比特 率效益的傳輸/儲(chǔ)存的參數(shù)技術(shù)。運(yùn)些技術(shù)旨在基于描述所傳輸/儲(chǔ)存的音頻場景和/或 該音頻場景中的源對(duì)象的附加邊信息(sidein化rmation)來重構(gòu)希望的輸出音頻場景或 音頻源對(duì)象。此重構(gòu)使用通知源分離方案而發(fā)生于解碼器中??蒞對(duì)重構(gòu)的對(duì)象進(jìn)行組合 W產(chǎn)生輸出音頻場景。取決于組合對(duì)象的方式,輸出場景的感知響度可W不同。
[0003] 在TV及無線電廣播中,可基于各個(gè)方面諸如峰值信號(hào)水平或響度水平來規(guī)范化 各個(gè)節(jié)目的音軌的音量水平。取決于信號(hào)的動(dòng)態(tài)特性,具有相同峰值水平的兩個(gè)信號(hào)可能 具有大不相同的感知響度水平?,F(xiàn)在,在節(jié)目或頻道之間切換,信號(hào)響度的差異非常惱人, 且已成為終端用戶對(duì)廣播的抱怨的主要來源。
[0004] 在現(xiàn)有技術(shù)中,已提出使用基于感知信號(hào)響度的測量將所有頻道上的所有節(jié)目類 似地規(guī)范化至共同基準(zhǔn)水平。在歐洲的一個(gè)此種推薦為邸U推薦R128圧腳](后文稱為 R128)。
[0005] 該推薦稱,"節(jié)目響度",例如一個(gè)節(jié)目(或一個(gè)廣告或某其他有意義的節(jié)目實(shí)體) 的平均響度應(yīng)等于指定水平(允許有小的偏差)。當(dāng)愈來愈多的廣播臺(tái)符合此推薦及所要 求的規(guī)范化時(shí),應(yīng)最小化節(jié)目及頻道之間的平均響度的差異。
[0006] 可WW若干方式進(jìn)行響度估計(jì)。存在用于估計(jì)音頻信號(hào)的感知響度的若干數(shù)學(xué)模 型。邸U推薦R128依賴于口U-RBS. 1770(后文稱為BS. 1770)(參見[ITU])中提出的模型 用于響度估計(jì)。
[0007] 如前所述,例如根據(jù)邸U推薦R128,節(jié)目響度例如一個(gè)節(jié)目的平均響度應(yīng)等于指 定水平,允許有小的偏差。然而,運(yùn)導(dǎo)致了進(jìn)行音頻呈現(xiàn)時(shí)的顯著問題,迄今在現(xiàn)有技術(shù)中 仍未解決。在解碼器側(cè)進(jìn)行音頻呈現(xiàn)對(duì)所接收音頻輸入信號(hào)的總體/總響度具有顯著影 響。然而,盡管進(jìn)行場景呈現(xiàn),所接收音頻信號(hào)的總響度應(yīng)保持相同。
[0008] 當(dāng)前,對(duì)于此問題不存在特定的解碼器側(cè)解決方案。
[0009] EP2 146 522Al(圧門)設(shè)及使用基于對(duì)象的元數(shù)據(jù)產(chǎn)生音頻輸出信號(hào)的構(gòu)思。 其生成表示至少兩個(gè)不同音頻對(duì)象信號(hào)的疊加的至少一個(gè)音頻輸出信號(hào),但未提供對(duì)此問 題的解決方案。
[0010] WO2008/035275A2(怔RE])描述了一種包括編碼器的音頻系統(tǒng),該編碼器在編碼 單元中編碼音頻對(duì)象,該編碼單元產(chǎn)生下混音頻信號(hào)及表示多個(gè)音頻對(duì)象的參數(shù)數(shù)據(jù)。該 下混音頻信號(hào)及參數(shù)數(shù)據(jù)被傳輸至包括解碼單元及呈現(xiàn)單元的解碼器,該解碼單元產(chǎn)生音 頻對(duì)象的近似復(fù)本且該呈現(xiàn)單元根據(jù)該音頻對(duì)象產(chǎn)生輸出信號(hào)。此外,該解碼器含有用于 產(chǎn)生被發(fā)送至編碼器的編碼修改數(shù)據(jù)的處理器。然后,該編碼器響應(yīng)于該編碼修改數(shù)據(jù)而 修改該音頻對(duì)象的編碼,且特別是修改該參數(shù)數(shù)據(jù)。該方法允許由解碼器控制對(duì)音頻對(duì)象 的操縱但完全或部分地由編碼器進(jìn)行對(duì)音頻對(duì)象的操縱。因此,可對(duì)實(shí)際的獨(dú)立的音頻對(duì) 象而非對(duì)近似復(fù)本進(jìn)行操縱,藉此提高效能。
[0011] EP2 146 522Al([SC田)公開了一種用于產(chǎn)生表示至少兩個(gè)不同音頻對(duì)象的疊 加的至少一個(gè)音頻輸出信號(hào)的設(shè)備,其包括用于處理音頻輸入信號(hào)W提供音頻輸入信號(hào)的 對(duì)象表示的處理器,其中此對(duì)象表示可通過使用對(duì)象下混信號(hào)對(duì)原始對(duì)象進(jìn)行參數(shù)導(dǎo)引近 似而產(chǎn)生。對(duì)象操縱器使用設(shè)及各個(gè)音頻對(duì)象的基于音頻對(duì)象的元數(shù)據(jù)來單獨(dú)地操縱對(duì) 象,W獲得經(jīng)操縱的音頻對(duì)象。使用對(duì)象混合器對(duì)經(jīng)操縱的音頻對(duì)象進(jìn)行混合W取決于特 定呈現(xiàn)設(shè)定而最終獲得具有一個(gè)或若干個(gè)聲道信號(hào)的音頻輸出信號(hào)。
[0012] WO2008/046531Al(圧NG])描述了一種使用多個(gè)音頻對(duì)象生成編碼對(duì)象信號(hào)的 音頻對(duì)象編碼器,其包含:下混信息產(chǎn)生器,其用于產(chǎn)生指示多個(gè)音頻對(duì)象至至少兩個(gè)下混 聲道的分配的下混信息;音頻對(duì)象參數(shù)產(chǎn)生器,其用于產(chǎn)生音頻對(duì)象的對(duì)象參數(shù);W及輸 出接口,其用于使用該下混信息及對(duì)象參數(shù)來產(chǎn)生導(dǎo)入的音頻輸出信號(hào)。音頻合成器使用 下混信息來產(chǎn)生可用于建立預(yù)定義音頻輸出配置的多個(gè)輸出聲道的輸出數(shù)據(jù)。
[0013] 希望的是無延遲地具有對(duì)輸出平均響度或平均響度改變的準(zhǔn)確估計(jì),且當(dāng)節(jié)目不 改變或呈現(xiàn)場景不改變時(shí),平均響度估計(jì)也應(yīng)該保持靜態(tài)。
[0014] 本發(fā)明的目標(biāo)是提供改進(jìn)的音頻信號(hào)編碼、處理及解碼構(gòu)思。本發(fā)明的目標(biāo)通過 W下來解決:根據(jù)權(quán)利要求1所述的解碼器、根據(jù)權(quán)利要求9所述的編碼器、根據(jù)權(quán)利要求 11所述的系統(tǒng)、根據(jù)權(quán)利要求12所述的方法、根據(jù)權(quán)利要求13所述的方法及根據(jù)權(quán)利要求 15所述的計(jì)算機(jī)程序。
[0015] 提供了用于估計(jì)基于對(duì)象的音頻編碼系統(tǒng)中的輸出的響度的通知方式。所提供的 構(gòu)思依賴于關(guān)于待提供至解碼器的音頻混合中的對(duì)象的響度的信息。解碼器使用此信息連 同呈現(xiàn)信息用于估計(jì)輸出信號(hào)的響度。例如,此舉允許接著估計(jì)默認(rèn)下混與呈現(xiàn)的輸出之 間的響度差異。接著可W補(bǔ)償該差異W無關(guān)于呈現(xiàn)信息而獲得輸出中的大致恒定的響度。 解碼器中的響度估計(jì)W全參數(shù)方式發(fā)生,且與基于信號(hào)的響度估計(jì)構(gòu)思相比,其在計(jì)算上 非常輕便且準(zhǔn)確。
[0016] 提供了用于使用純參數(shù)概念獲得關(guān)于特定輸出場景的響度的信息的構(gòu)思,其因此 允許在不進(jìn)行解碼器中的明確的基于信號(hào)的響度估計(jì)的情況下進(jìn)行響度處理。此外,描述 了通過MPEG[SA0幻標(biāo)準(zhǔn)化的空間音頻對(duì)象編碼(SAOC)的特定技術(shù),但所提供的構(gòu)思亦可 結(jié)合其他音頻對(duì)象編碼技術(shù)來使用。
[0017] 提供了用于產(chǎn)生包括一個(gè)或更多個(gè)音頻輸出聲道的音頻輸出信號(hào)的解碼器。該解 碼器包括接收接口,該接收接口用于接收包括多個(gè)音頻對(duì)象信號(hào)的音頻輸入信號(hào),用于接 收關(guān)于該音頻對(duì)象信號(hào)的響度信息,且用于接收指示該音頻對(duì)象信號(hào)中的一個(gè)或更多個(gè)應(yīng) 放大還是衰減的呈現(xiàn)信息。此外,該解碼器包括用于產(chǎn)生該音頻輸出信號(hào)的一個(gè)或更多個(gè) 音頻輸出聲道的信號(hào)處理器。該信號(hào)處理器被配置成取決于該響度信息且取決于該呈現(xiàn)信 息來確定響度補(bǔ)償值。此外,該信號(hào)處理器被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ) 償值而自該音頻輸入信號(hào)產(chǎn)生該音頻輸出信號(hào)的所述一個(gè)或更多個(gè)音頻輸出聲道。
[0018] 根據(jù)一實(shí)施方式,該信號(hào)處理器可被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ) 償值而自該音頻輸入信號(hào)產(chǎn)生該音頻輸出信號(hào)的一個(gè)或更多個(gè)音頻輸出聲道,使得該音頻 輸出信號(hào)的響度等于該音頻輸入信號(hào)的響度,或使得該音頻輸出信號(hào)的響度比經(jīng)修改音頻 信號(hào)的響度更接近于該音頻輸入信號(hào)的響度,該經(jīng)修改音頻信號(hào)是通過根據(jù)該呈現(xiàn)信息放 大或衰減該音頻輸入信號(hào)的音頻對(duì)象信號(hào)而修改該音頻輸入信號(hào)來產(chǎn)生。
[0019] 根據(jù)另一實(shí)施方式,可將音頻輸入信號(hào)的音頻對(duì)象信號(hào)中的每個(gè)指派給兩個(gè)或更 多個(gè)組中的確切的一個(gè)組,其中所述兩個(gè)或更多個(gè)組中的每個(gè)可包括該音頻輸入信號(hào)的音 頻對(duì)象信號(hào)中的一個(gè)或更多個(gè)。在此實(shí)施方式中,該接收接口可被配置成接收所述兩個(gè)或 更多個(gè)組中的每一個(gè)組的響度值作為響度信息,其中該響度值指示該組的所述一個(gè)或更多 個(gè)音頻對(duì)象信號(hào)的原始總響度。此外,該接收接口可被配置成接收針對(duì)所述兩個(gè)或更多個(gè) 組中的至少一個(gè)組通過指示該組的一個(gè)或更多個(gè)音頻對(duì)象信號(hào)的經(jīng)修改總響度而指示應(yīng) 放大衰減該組的所述一個(gè)或更多個(gè)音頻對(duì)象信號(hào)的呈現(xiàn)信息。此外,在此實(shí)施方式中,該信 號(hào)處理器可被配置成取決于所述兩個(gè)或更多個(gè)組中的所述至少一個(gè)組中的每個(gè)的經(jīng)修改 總響度且取決于所述兩個(gè)或更多個(gè)組中的每個(gè)的原始總響度來確定該響度補(bǔ)償值。此外, 該信號(hào)處理器可被配置成取決于所述兩個(gè)或更多個(gè)組中的所述至少一個(gè)組中的每個(gè)的經(jīng) 修改總響度且取決于該響度補(bǔ)償值而自該音頻輸入信號(hào)產(chǎn)生該音頻輸出信號(hào)的一個(gè)或更 多個(gè)音頻輸出聲道。
[0020] 在特定實(shí)施方式中,所述兩個(gè)或更多個(gè)組中的至少一個(gè)組可包括該音頻對(duì)象信號(hào) 中的兩者或更多。
[0021] 此外,提供了一種編碼器。該編碼器包括基于對(duì)象的編碼單元,該基于對(duì)象的編碼 單元用于編碼多個(gè)音頻對(duì)象信號(hào)W獲得包括所述多個(gè)音頻對(duì)象信號(hào)的編碼音頻信號(hào)。此 夕F,該編碼器包括用于編碼關(guān)于該音頻對(duì)象信號(hào)的響度信息的對(duì)象響度編碼單元。該響度 信息包括一個(gè)或更多個(gè)響度值,其中所述一個(gè)或更多個(gè)響度值中的每個(gè)取決于該音頻對(duì)象 信號(hào)中的一個(gè)或更多個(gè)。
[0022] 根據(jù)一實(shí)施方式,可將編碼音頻信號(hào)的音頻對(duì)象信號(hào)中的每個(gè)指派給兩個(gè)或更多 個(gè)組中的確切的一個(gè)組,其中所述兩個(gè)或更多個(gè)組中的每個(gè)包括該編碼音頻信號(hào)的音頻對(duì) 象信號(hào)中的一個(gè)或更多個(gè)。該對(duì)象響度編碼單元可被配置成通過確定所述兩個(gè)或更多個(gè)組 中的每一個(gè)組的響度值來確定該響度信息的所述一個(gè)或更多個(gè)響度值,其中該組的響度值 指示該組的所述一個(gè)或更多個(gè)音頻對(duì)象信號(hào)的原始總響度。
[0023] 此外,提供了一種系統(tǒng)。該系統(tǒng)包括根據(jù)上述實(shí)施方式中的一個(gè)的編碼器,該編碼 器用于編碼多個(gè)音頻對(duì)象信號(hào)W獲得包括該多個(gè)音頻對(duì)象信號(hào)的編碼音頻信號(hào),且用于編 碼關(guān)于該音頻對(duì)象信號(hào)的響度信息。此外,該系統(tǒng)包括根據(jù)上述實(shí)施方式中的一個(gè)的解碼 器,該解碼器用于產(chǎn)生包括一個(gè)或更多個(gè)音頻輸出聲道的音頻輸出信號(hào)。該解碼器被配置 成接收作為音頻輸入信號(hào)的編碼音頻信號(hào)及響度信息。此外,該解碼器被配置成還接收呈 現(xiàn)信息。此外,該解碼器被配置成取決于該響度信息且取決于該呈現(xiàn)信息來確定響度補(bǔ)償 值。此外,該解碼器被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自該音頻輸入信 號(hào)產(chǎn)生該音頻輸出信號(hào)的所述一個(gè)或更多個(gè)音頻輸出聲道。
[0024] 此外,提供了一種用于產(chǎn)生包括一個(gè)或更多個(gè)音頻輸出聲道的音頻輸出信號(hào)的方 法。該方法包括:
[0025] -接收包括多個(gè)音頻對(duì)象信號(hào)的音頻輸入信號(hào)。
[0026] -接收關(guān)于該音頻對(duì)象信號(hào)的響度信息。
[0027] -接收指示該音頻對(duì)象信號(hào)中的一個(gè)或更多個(gè)是否應(yīng)放大或衰減的呈現(xiàn)信息。
[0028] -取決于該響度信息且取決于該呈現(xiàn)信息來確定響度補(bǔ)償值。及:
[0029] -取決于該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自該音頻輸入信號(hào)產(chǎn)生該音頻輸出 信號(hào)的所述一個(gè)或更多個(gè)音頻輸出聲道。
[0030] 此外,提供了一種用于編碼的方法。該方法包括:
[0031] -編碼包括多個(gè)音頻對(duì)象信號(hào)的音頻輸入信號(hào)。及:
[0032] -編碼關(guān)于該音頻對(duì)象信號(hào)的響度信息,其中該響度信息包括一個(gè)或更多個(gè)響度 值,其中所述一個(gè)或更多個(gè)響度值中的每個(gè)取決于該音頻對(duì)象信號(hào)中的一個(gè)或更多個(gè)。
[0033] 此外,提供了一種用于在計(jì)算機(jī)或信號(hào)處理器上執(zhí)行時(shí)實(shí)施上述方法的計(jì)算機(jī)程 序。
[0034] 在所附權(quán)利要求中提供了優(yōu)選實(shí)施方式。
[0035] 下文中,參考附圖更詳細(xì)地描述了本發(fā)明的實(shí)施方式,在附圖中:
[0036] 圖1圖示了根據(jù)一實(shí)施方式的用于產(chǎn)生包括一個(gè)或更多個(gè)音頻輸出聲道的音頻 輸出信號(hào)的解碼器,
[0037] 圖2圖示了根據(jù)一實(shí)施方式的編碼器,
[0038] 圖3圖示了根據(jù)一實(shí)施方式的系統(tǒng),
[0039] 圖4圖示了包括SAOC編碼器及SAOC解碼器的空間音頻對(duì)象編碼系統(tǒng),
[0040] 圖5圖示了包括邊信息解碼器、對(duì)象分離器及呈現(xiàn)器的SAOC解碼器,
[0041] 圖6圖示了對(duì)響度改變的輸出信號(hào)響度估計(jì)的特征,
[0042] 圖7描繪根據(jù)一實(shí)施方式的通知響度估計(jì),其圖示了根據(jù)一實(shí)施方式的編碼器及 解碼器的組件,
[0043] 圖8圖示了根據(jù)另一實(shí)施方式的編碼器,
[0044] 圖9圖示了根據(jù)一實(shí)施方式的關(guān)于包括旁路聲道的SAOC對(duì)話增強(qiáng)的編碼器及解 碼器,
[0045] 圖10描繪使用W參數(shù)方式估計(jì)響度改變的所提供構(gòu)思來測量響度改變及其結(jié)果 的第一圖解,
[0046] 圖11描繪使用W參數(shù)方式估計(jì)響度改變的所提供構(gòu)思來測量響度改變及其結(jié)果 的第二圖解,W及
[0047] 圖12圖示了用于進(jìn)行響度補(bǔ)償?shù)牧硪粚?shí)施方式。
[0048] 在詳細(xì)描述優(yōu)選實(shí)施方式之前,描述響度估計(jì)、空間音頻對(duì)象編碼(SAOC)及對(duì)話 增強(qiáng)值巧。
[0049] 首先,描述響度估計(jì)。
[0050] 如之前所述,E腳推薦R128依賴于口U-RBS. 1770中提出的模型來進(jìn)行響度估計(jì)。 雖然將此測量用作示例,但下文所描述的構(gòu)思亦可應(yīng)用于其他響度測量。
[005。 根據(jù)BS. 1770的響度估計(jì)操作相對(duì)簡單,且基于W下主要步驟[ITU]:
[0052] -用K濾波器(傾斜型濾波器與高通濾波器的組合)對(duì)輸入信號(hào)Xi(或多聲道信 號(hào)情況下的信號(hào))進(jìn)行濾波W獲得信號(hào)yi。
[0053] -計(jì)算信號(hào)的均方能量Z1。
[0054] -在多聲道信號(hào)的情況下,應(yīng)用聲道權(quán)重Gi,且對(duì)經(jīng)加權(quán)信號(hào)進(jìn)行求和。則將信號(hào) 響度定義為
[00 巧]