用于并行操作音頻編碼器的方法和系統(tǒng)的制作方法

文檔序號：2830038閱讀：372來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于并行操作音頻編碼器的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及音頻編碼，尤其涉及并行地應(yīng)用兩個或更多的音頻編碼過程到音頻信息流的段來編碼音頻信息的方法和系統(tǒng)。
背景技術(shù)：
音頻編碼系統(tǒng)經(jīng)常被用來減少充分表達(dá)源信號所需的信息量。通過降低信息容量需求，信號表達(dá)可以在具有較低帶寬的信道上被傳輸或使用更少的空間存儲在媒體上。感知音頻編碼通過消除信號中的冗余成分或非相關(guān)成分可以降低源音頻信號的信息容量需求。這種類型的編碼經(jīng)常使用濾波器組通過使用一組基本的頻鐠成分對源信號進(jìn) 行去相關(guān)來減少冗余，以及通過根據(jù)心理感知標(biāo)準(zhǔn)對頻譜成分的自適應(yīng)量化來減少非相關(guān)性。上述濾波器組可以通過許多方式來實(shí)施，包括各種變換，比如離散傅立葉變換(DFT)或離散余弦變換(DCT)。代表源音頻信號的頻譜內(nèi)容的一組變換系數(shù)或頻譜成分可以通過對代表源音頻信號的時間間隔的時域釆樣塊施加變換來獲得。在1987年5月出版的1987 年聲學(xué)、語音和信號處理國際會議(ICASSP)論文集pp. 2161-64中， Princen等人的"使用基于時域混疊消除的濾波器組設(shè)計的子帶/變換編碼，，("Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation")中所描述的具體的修改離散余弦變換(MDCT)被廣泛使用，因?yàn)樗哂卸喾N對音頻編碼來說是非常有吸引力的屬性，包括在提供臨界采樣的同時允許相鄰源信號塊互相重疊的能力。對MDCT濾波器組的正確操作需要使用交迭的源信號塊和滿足特定標(biāo)準(zhǔn)的窗函數(shù)。使用MDCT濾波器組的兩個編碼系統(tǒng)的例子是符合高級音頻編碼器(AAC)標(biāo)準(zhǔn)的系統(tǒng)，其被描述在
1997年10月的J. Audio Eng. Soc.的45巻10號的Bosi等人的 "ISO/IEC MPEG-2高級音頻編碼，，中，以及符合杜比數(shù)字編碼比特流標(biāo)準(zhǔn)的系統(tǒng)。該編碼標(biāo)準(zhǔn)，有時也叫做AC-3，被描述在2001年8月 20日7>開的才示題為"Revision A to Digital Audio Compression (AC-3) Standard"的高級電視系統(tǒng)委員會(ATSC ) A/52A文件中。這兩個參考文件都以引用的方式被包含在本文中。調(diào)整量化分辨率的編碼過程能夠減少信號非相關(guān)性，但其也會將可聽見水平的量化差錯或"量化噪聲"帶到信號中。感知編碼系統(tǒng)嘗試控制量化分辨率以使得量化噪聲被"掩蓋"或在渲染時由于信號的頻鐠內(nèi)容而察覺不到。這些系統(tǒng)通常使用感知模型來預(yù)測可被源信號掩蓋的量化噪聲的水平，并且它們通常通過分配變化數(shù)量的比特來表示每個量化的頻譜成分來控制量化分辨率，以使得總的比特分配符合某種分配限制。感知編碼系統(tǒng)可以通過多種方式被實(shí)施，包括專用硬件、數(shù)字信號處理(DSP)計算機(jī)和通用計算機(jī)。使用在許多編碼系統(tǒng)中的濾波器組和比特分配過程需要相當(dāng)大的計算資源。結(jié)果由現(xiàn)在可普遍獲得的傳統(tǒng)DSP和通用計算機(jī)所實(shí)施的編碼器通常不能比"實(shí)時"快得多地對源音頻信號進(jìn)行編碼，這也就意味著編碼源音頻信號所需的時間通常等于甚至大于呈現(xiàn)或"播放"該源音頻信號所需的時間。盡管DSP 和通用計算機(jī)的處理速度在提高，但是在編碼過程中因復(fù)雜度增加所產(chǎn)生的需求抵消掉了在硬件處理器速度方面所取得的收益。結(jié)果，無論是用DSP還是用通用計算機(jī)實(shí)施的編碼器都不太可能比實(shí)時快得多地對源音頻信號進(jìn)行編碼。AC-3編碼系統(tǒng)的一個應(yīng)用是對用于DVD上的電影音軌的編碼。用于典型電影的音軌長度在兩小時左右。如果編碼過程由DSP或通用計算機(jī)來實(shí)施，那么編碼也將幾乎占用兩小時。減少編碼時間的一種方法是在不同的處理器或計算機(jī)上執(zhí)行編碼過程的不同部分。然而，這種方法并不吸引人，因?yàn)檫@需要為多處理器上的操作重新設(shè)計編碼過程，為在可變數(shù)量的處理器上的有效操作設(shè)計編碼過程，即使不是
不可能的也是很困難的，并且這種重新設(shè)計的編碼過程即使對于長度較短的源信號也需要多個計算機(jī)。所需要的是一種能夠減少編碼時間的方法，其使用任意數(shù)量的傳統(tǒng)音頻編碼過程。發(fā)明內(nèi)容本發(fā)明提供了一種使用傳統(tǒng)音頻編碼過程的多個實(shí)例，減少對源音頻信號進(jìn)行編碼所需要的時間的方法。根據(jù)本發(fā)明的一個方面，包括按塊序列排列的音頻釆樣的音頻信息流通過以下過程被編碼識別互相重疊的音頻信息流的第一和第二段，其中它們的重疊間隔等于整數(shù)個塊，應(yīng)用第一編碼過程到音頻信息流的第一段以產(chǎn)生多塊第一編碼音頻信息和第一控制參數(shù)，應(yīng)用第二編碼過程到音頻信息流的第二段以產(chǎn)生多塊第二編碼音頻信息和第二控制參數(shù)，以及將所述的多塊第一和第二編碼音頻信息組裝到輸出信號中。第一編碼過程響應(yīng)于音頻信息的第一段中的音頻采樣的所有塊產(chǎn)生多塊第一編碼音頻信息和第一控制參數(shù)。第二編碼過程響應(yīng) 于音頻信息的第二段中的音頻采樣的所有塊產(chǎn)生第二控制參數(shù)，但可能只對跟在重疊間隔之后的音頻采樣塊產(chǎn)生多塊第二編碼音頻信息。重疊間隔的長度被選擇以使得用于重疊間隔中最后一個塊的第一和第二參數(shù)值之間的差小于某期望的閾值。所述控制參數(shù)可被組裝到輸出信號中或用于調(diào)整第一和第二編碼過程的操作。優(yōu)選地，第一和第二編碼過程是相同的?？梢詤⒖家韵碌拿枋龊透綀D更好地理解本發(fā)明的各種特點(diǎn)及其優(yōu)選實(shí)施例，在附圖中相同的附圖標(biāo)記代表多個圖中相同的元件。以下討論的內(nèi)容和附圖僅被作為例子列出，并不應(yīng)被理解為表示對本發(fā) 明的范圍的限定。

圖1是在可以包含本發(fā)明的各個方面的編碼系統(tǒng)中使用的編碼
發(fā)射機(jī)的示意框圖。圖2A至2C是按塊序列排列的音頻信息的示意圖。圖3排列在音頻信息的相鄰幀中的音頻信息塊的示意圖。圖4是處理輸入音頻信息以產(chǎn)生編碼輸出信號的編碼發(fā)射機(jī)的示意框圖。圖5是被安排來并行地編碼音頻信號段的多個編碼發(fā)射機(jī)的示意框圖。圖6是用于假設(shè)的類型II參數(shù)的數(shù)值的曲線圖。圖7是被安排來并行地編碼重疊的音頻信號段的多個編碼發(fā)射機(jī)的示意框圖。圖8-9是用于控制多個并行操作的編碼發(fā)射機(jī)的系統(tǒng)的示意框圖。圖IO是可被用來實(shí)施本發(fā)明的各個方面的設(shè)備的示意框圖。
具體實(shí)施方式
A.介紹圖1示出了可被用于本發(fā)明各個方面的音頻編碼發(fā)射機(jī)IO的一種實(shí)施方式。在這種實(shí)施方式中，發(fā)射機(jī)10對從路徑1接收的源信號應(yīng)用分析濾波器組2以產(chǎn)生代表源信號頻譜內(nèi)容的頻譜成分，在控制器4中分析源信號或頻譜成分以沿著路徑5產(chǎn)生一個或多個控制參數(shù)，在編碼器6中使用可響應(yīng)于控制參數(shù)來調(diào)整的編碼過程對這些頻鐠成分進(jìn)行編碼以產(chǎn)生編碼信息，以及對該編碼信息應(yīng)用格式化器8 以沿路徑9產(chǎn)生輸出信號。該輸出信號可被提供給其他設(shè)備用于額外處理或其可被立刻記錄在存儲介質(zhì)上。路徑7是可選的并在下面討論。分析濾波器組2可通過各種方式來實(shí)施，包括廣泛的數(shù)字濾波器技術(shù)、小波變換和塊變換。通過某種類型的數(shù)字濾波器，比如多相濾波器而不是塊變換來實(shí)施的分析濾波器組將輸入信號分割成一組子帶信號。每個子帶信號都是輸入信號在特定頻率子帶內(nèi)的頻i普成分的基于時間的表示。優(yōu)選地，子帶信號被抽選以使得每個子帶信號都具
有與單位時間間隔的子帶信號中的采樣數(shù)量相符的帶寬。盡管分析濾波器組2的許多類型的實(shí)施方式都可被應(yīng)用于音頻信息的連續(xù)輸入流，但通常是應(yīng)用這些實(shí)施方式到多塊音頻信息以協(xié)助各種類型的編碼過程，比如塊縮放、基于心理聲學(xué)模型的自適應(yīng)量化或者熵編碼。用塊變換實(shí)施的分析濾波器組將輸入信號的一個塊或一段時間間隔轉(zhuǎn)變成代表該信號間隔的頻鐠內(nèi)容的變換系數(shù)。由一個或多個相鄰變換系數(shù)構(gòu)成的一組表示所具有的帶寬與該組中的系數(shù)數(shù)量相符的特定頻率子帶內(nèi)的頻i脊內(nèi)容。圖2A至2C是按塊序列排列的數(shù)字音頻信息流的示意圖，該塊序列可由分析濾波器組處理以產(chǎn)生頻譜成分。每個塊都包含代表音頻信號的時間間隔的數(shù)字采樣。在圖2A中，在塊序列中相鄰的塊或時間間隔11到14互相毗鄰。例如，塊12緊跟并毗鄰塊11。在圖2B 中，塊序列中的相鄰的塊或時間間隔11到15以塊長度八分之一的量互相重疊。在圖2C中，塊序列中相鄰的塊或時間間隔11到18以塊長度二分之一的量互相重疊。例如塊12緊跟并重疊塊11。在這些圖中所圖示的重疊量僅為舉例顯示。就本發(fā)明的原理來說，具體的重疊量并不是重要的。以下討論更具體地涉及使用MDCT作為分析濾波器組的編碼發(fā) 射機(jī)10的實(shí)施方式。該變換被應(yīng)用到互相重疊塊長度二分之一的塊序列上，如圖2C所示。在這里所討論的內(nèi)容中，術(shù)語"頻語成分"是指變換系數(shù)，術(shù)語"頻率子帶"和"子帶信號，，涉及多組一個或多個相鄰變換系數(shù)。然而，本發(fā)明的原理可被應(yīng)用到其他類型的實(shí)施方式中，所以術(shù)語"頻率子帶，，和"子帶信號"也涉及代表信號整個帶寬的一部分的頻鐠內(nèi)容的信號，并且術(shù)語"頻鐠成分"通?？杀焕斫鉃榇碜訋?信號的采樣或元素。感知編碼系統(tǒng)經(jīng)常采用分析濾波器組來提供具有與人類聽覺系統(tǒng)所謂臨界帶寬相符的帶寬的頻率子帶?？刂破?可實(shí)施多種過程以產(chǎn)生所述的一個或多個控制參數(shù)。在圖l所示的實(shí)施方式中，這些控制參數(shù)沿著路徑5傳送到編碼器6和格式化器8。在其他實(shí)施方式中，這些控制參數(shù)可只傳送到編碼器6
或只傳送到格式化器8。在一個實(shí)施方式中，控制器4將感知模型應(yīng) 用于頻譜成分以獲取代表對源信號的掩蓋效果的估計的"掩蓋曲線"，并且從頻鐠成分得到一個或多個控制參數(shù)，編碼器6使用該控制參數(shù) 加上掩蓋曲線來分配用于量化頻鐠成分的比特。對于這種實(shí)施方式，如果互補(bǔ)的解碼過程能夠從輸出信號所承載的其他信息中導(dǎo)出它們，那么就沒有必要將這些控制參數(shù)傳送給格式化器8。在另一個實(shí)施方式中，控制器4從至少一些頻謙成分中導(dǎo)出一個或多個控制參數(shù)并將它們傳送到格式化器8以使其與編碼的信息一同包含在沿著路徑9傳送的輸出信號中。這些控制參數(shù)可被互補(bǔ)解碼過程用來從編碼的信息中恢復(fù)或重放音頻信號。編碼器6實(shí)際上可實(shí)施被期望用于特定應(yīng)用的任何編碼過程。在本說明書中，像"編碼器"和"編碼"的術(shù)語并不意味著任何特定類型的信息處理。例如，編碼經(jīng)常被用來減少信息容量需求；然而，在本說明書中，這些術(shù)語實(shí)際上并不一定是指這種類型的處理。編碼器6實(shí) 際上可執(zhí)行所期望的任何類型的處理。在上面提到的一種實(shí)施方式中，編碼信息是根據(jù)從頻語模型所獲得的掩蓋曲線來量化頻譜成分而產(chǎn)生的。其他類型的處理可在編碼器6中執(zhí)行，比如熵編碼或者對于信號帶寬的一部分丟棄頻譜成分并將編碼的信息提供給對所丟棄部分的頻譜包絡(luò)的估計。格式化器8可以使用多路復(fù)用技術(shù)或其他已知過程來將編碼的信息組裝到輸出信號中，該輸出信號具有適用于特定應(yīng)用的形式。如果需要的話，控制參數(shù)也可被組裝到輸出信號中。B.示意性實(shí)施方式編碼發(fā)射機(jī)10的一種實(shí)施方式通過MDCT來實(shí)施其濾波器組 2，該編碼發(fā)射機(jī)10產(chǎn)生符合上面引用的ATSCA/52A中所描述的標(biāo) 準(zhǔn)。這種特定的變換被應(yīng)用于一個或多個信道的音頻信息流。用于特定信道的流由按塊序列排列的音頻釆樣組成，在該塊序列中，相鄰塊互相重疊塊長度的二分之一，如圖2C所示。用于所有信道的塊在時間上互相對準(zhǔn)。用于每個信道的一組六個相鄰塊構(gòu)成了音頻信息的一
"幀”，其中這六個相鄰塊也互相對準(zhǔn)。編碼器6通過應(yīng)用編碼過程到代表一幀音頻信息的多塊頻"^普成分來產(chǎn)生編碼的信息。控制器4產(chǎn)生一個或多個用于調(diào)整對每個塊或幀的編碼過程的控制參數(shù)?？刂破?還為將被組裝到沿路徑9產(chǎn)生以供解碼接收機(jī)使用的輸出信號中的每個塊或幀產(chǎn)生一個或多個控制參數(shù)。用于一個塊或幀的控制參數(shù)是響應(yīng)于僅在相應(yīng)塊或幀中的音頻信息而產(chǎn)生的。這種類型的控制參數(shù)，也就是這里叫做類型I參數(shù)的一個例子是定義用于特定塊的計算出的掩蓋曲線的數(shù)值數(shù)組(參見 ATSCA/52A規(guī)范中的數(shù)組"mask(掩蓋)")。用于一個單獨(dú)的塊或幀的其他控制參數(shù)是響應(yīng)于在該單獨(dú)的塊或幀之前的音頻信息而產(chǎn) 生的。這種類型的控制參數(shù)，也就是這里叫做類型II參數(shù)的一個例子是用于解碼信號的重放水平的壓縮數(shù)值(參見ATSC A/52A規(guī)范中的參數(shù)"compr，，)。用于一個給定的塊或幀的類型II參數(shù)可以響應(yīng)于該塊或幀內(nèi)的音頻信息以及在該給定塊或幀之前的音頻信息而被產(chǎn)生。當(dāng)編碼發(fā)射機(jī)10處理音頻信息流時，用于一個單獨(dú)的塊或幀的類型I 參數(shù)的數(shù)值對于該塊或幀而言獨(dú)立地重新計算，而類型II參數(shù)的數(shù)值以依賴于前面的塊或幀中的音頻信息的方式被計算。為了便于解釋，這些例子和基本原理同樣適用于應(yīng)用于個體塊的控制參數(shù)。圖3示意性地示出了被分組到幀21和22中的多塊音頻信息。由控制器4計算的用于幀22的類型I控制參數(shù)數(shù)值僅依賴于幀22中的音頻信息，而用于幀22的類型II參數(shù)數(shù)值依賴于幀21中并且還有可能是幀21之前的其他幀中的音頻信息。用于幀22的類型II參數(shù)數(shù)值還可依賴于該幀中的音頻信息。為了便于討論，以下例子中假設(shè)用于特定幀的類型II參數(shù)數(shù)值從該幀和一個或多個在前幀的音頻信息中導(dǎo)出。C.并行處理對于編碼發(fā)射機(jī)10的許多實(shí)施方式，多信道輸入音頻流可以以與播放該輸入音頻流所需的時間幾乎相同的時間量而i^編碼。圖4中
顯示的以輸入幀31開始并以輸入幀35結(jié)束的輸入音頻流30——例如其可被播放2小時——可被編碼發(fā)射機(jī)10在大約2小時內(nèi)編碼以產(chǎn) 生多塊編碼信息被排列為以輸出幀41開始并以輸出幀45結(jié)束的多個幀的輸出信號40。通過將音頻流分割成大約相等長度的N段，由各自的編碼發(fā)射機(jī)對每段進(jìn)行編碼以產(chǎn)生N個并行的編碼信號段，并將編碼信號段互相附接到一起以獲得輸出信號，用于編碼的時間可以減少大約N倍。圖5中顯示的例子將音頻流30分割成兩段30-1和30-2，由編碼發(fā)射機(jī)10-1和10-2分別對這兩段進(jìn)行編碼以產(chǎn)生兩個并行的編碼信號段 40-1和40-2，并將編碼信號段40-2附加到編碼信號段40-1的結(jié)尾以獲得輸出信號40'。但是，從輸出信號40'解碼的音頻信號通常在聽覺上不同于從由單個編碼發(fā)射機(jī)10產(chǎn)生的輸出信號40中解碼的音頻信號。該聽覺差是由編碼發(fā)射機(jī)10在每個段的開始所使用的類型II參數(shù)數(shù)值的差別而引起的。該問題的起因和解決方案在下面被討論。以下例子假設(shè)編碼發(fā)射機(jī)的所有實(shí)例都以下述方式實(shí)施，即由相同的輸入音頻流產(chǎn)生同樣的輸出信號。參考圖4和5中顯示的例子，在每個輸出幀中的多塊編碼信息是響應(yīng)于在對應(yīng)的輸入幀中的音頻信息塊，響應(yīng)于從對應(yīng)的輸入幀中的音頻信息所計算出來的一個或多個類型I參數(shù)，以及響應(yīng)于從對應(yīng)的輸入幀以及一個或多個在前幀中的音頻信息所計算出來的一個或多個類型II參數(shù)而產(chǎn)生的。例如，在輸出幀43中的多塊編碼信息是響應(yīng)于輸入幀33中的多塊音頻信息，響應(yīng)于從輸入幀33中的音頻信息計算出來的類型I參數(shù)，以及響應(yīng)于從輸入幀33和一個或多個在前輸入幀中的音頻信息計算出來的類型II參數(shù)而產(chǎn)生的。輸出幀41中的塊是響應(yīng)于輸入幀31中的多塊音頻信息，響應(yīng)于從輸入幀31中的音頻信息計算出來的類型I參數(shù)，以及響應(yīng)于從輸入幀31中的音頻信息計算出來的類型II參數(shù)而產(chǎn)生的。用于輸入幀31的類型II參數(shù)不依賴于任何在前幀中的音頻信息，因?yàn)檩斎霂?1是輸入音頻流30中的第一個幀并且沒有在前的輸入幀。用于輸入幀31中的塊的類型II參
數(shù)是從僅僅在輸入幀31中承載的音頻信息而被初始化的。輸出信號 40從輸出幀41開始到輸出幀43的輸出幀中的編碼信息與編碼信號段 40-1的對應(yīng)輸出幀中的編碼信息相同，因?yàn)榫幋a發(fā)射機(jī)10和編碼發(fā) 射機(jī)10-1接收并處理從輸入幀31開始到輸入幀33結(jié)束的輸入音頻流中的相同音頻信息塊。從輸出幀44開始的輸出信號40的后半部分的輸出幀中的編碼信息通常不同于從輸出幀44'開始的輸出信號40，的后半部分的輸出幀中的編碼信息。參考圖4，輸出幀44中的編碼信息塊是響應(yīng)于輸入幀 34中的音頻信息塊，響應(yīng)于從輸入幀34中的音頻信息計算出的類型 I參數(shù)，以及響應(yīng)于從輸入幀34和一個或多個在前輸入幀中的音頻信息計算出的類型II參數(shù)而產(chǎn)生的。參考圖5，輸出幀44，中的塊是響應(yīng)于輸入幀34中的音頻信息塊，響應(yīng)于從輸入幀34中的音頻信息計算出的類型I參數(shù)，以及響應(yīng)于從輸入幀34中的音頻信息計算出的類型II參數(shù)而產(chǎn)生的。用于輸入幀34的類型II參數(shù)不依賴于任何在前幀中的音頻信息，因?yàn)檩斎霂?4是段30-2中的第一個幀并且沒有任何在前的輸入幀。用于輸入幀34中的塊的類型II參數(shù)是從在輸入幀 34中承載的音頻信息而被初始化的。通常，編碼發(fā)射機(jī)10和10-2所使用的用來編碼輸入幀34中的音頻信息塊的類型II參數(shù)是不同的；因此，它們產(chǎn)生的編碼信息的幀是不相同的。圖6示出了假定的類型II參數(shù)"X"的數(shù)值在編碼發(fā)射機(jī)10的一個實(shí)施方式中是如何變化的。參考線51、 53、 54和55分別代表對應(yīng) 于輸入幀31、 33、 34和35的開始的時間點(diǎn)。曲線61表示圖4中的編碼發(fā)射機(jī)10通過處理以輸入幀31開始并以輸入幀35結(jié)束的輸入音頻流中的音頻信息塊而計算出的"X"參數(shù)的數(shù)值。該曲線指定了以下被稱作"X"參數(shù)的參考數(shù)值的數(shù)值。曲線64表示圖5中的編碼發(fā)射機(jī)10通過處理從輸入幀34開始的輸入音頻流30-2中的音頻信息塊而計算出的"X，，參數(shù)的數(shù)值。曲線61和64與線54的交叉點(diǎn)之間的垂直距離表示由兩個編碼發(fā)射機(jī)用來編碼輸入幀34中的音頻信息塊的類型II參數(shù)"X，，之間的差。當(dāng)輸出信號40中的輸出幀43和44中的編碼信息被解碼并播放時，受到"X，，參數(shù)的數(shù)值影響的音頻信息將變化非常小，因?yàn)槿缜€ 61從線53到54的小幅增長所示，"X，，參數(shù)的數(shù)值改變的非常少。相反，當(dāng)輸出信號40'中的輸出幀43和44'中的編碼信息被解碼并播放時，受到"X"參數(shù)的數(shù)值影響的音頻信息發(fā)生程度大得多的改變，因為如在線53處的曲線61到在線54處的曲線64之間的較大下降所示， "X"參數(shù)的數(shù)值改變很大。例如，如果假定"X"參數(shù)是上面提到的 "compr，，參數(shù)，那么這種大的改變很有可能產(chǎn)生大的、突然的重放水平變化。其他的類型II參數(shù)會產(chǎn)生其他類型的噪聲(artifact)，比如滴答聲、砰砰聲或重?fù)袈?。這個問題可以像圖7中顯示的那樣被克服，即使得編碼發(fā)射機(jī) 10-1如上述那樣處理段30-l中的音頻信息以產(chǎn)生具有輸出幀41、 42 和43的編碼段40-1，以及使得編碼發(fā)射機(jī)10-3處理段30-3中的音頻信息，其包括輸入幀34之前的一個或多個幀中的音頻信息塊，所以用于輸入幀34的類型II參數(shù)數(shù)值大大不同于用于該幀的對應(yīng)參考數(shù) 值。參考圖6，曲線62表示編碼發(fā)射機(jī)10-3通過處理從輸入幀32開始的段30-3中的音頻信息塊而計算的"X，，參數(shù)數(shù)值。在線54處的曲線61上的"X"參數(shù)的參考數(shù)值與在線54處的曲線62上的"X"參數(shù)數(shù) 值之間的接近程度要比它與在線54處的曲線64上的對應(yīng)參數(shù)數(shù)值之間的接近程度大得多。如果在線54處的曲線61和曲線62之間的差足夠小，那么從將編碼信號段40-3附加到編碼信號段40-l而獲得的輸出信號40"中解碼并播放的音頻信號中就不會產(chǎn)生可聽見的噪聲。編碼發(fā)射機(jī)10-3可響應(yīng)于輸入幀34之前的音頻信號塊產(chǎn)生的任何編碼信息都不包括在編碼信號段40-3中。這可通過各種方式來完成。一種方式是通過圖8所示的系統(tǒng)80來實(shí)施，其使用分段器81將輸入音頻流30分割成重疊的段，如圖7中所示。包括以輸入幀31開始并以輸入幀33結(jié)束的音頻信息的段30-1沿著路徑1-1傳送到編碼發(fā)射機(jī)10-1。包括以輸入幀32開始并以輸入幀35結(jié)束的音頻信息的段30-3沿著路徑1-3到達(dá)編碼發(fā)射機(jī)10-3。信號分段器81沿著路徑 83產(chǎn)生指示輸入幀34的位置的控制信號。信號組裝器82從路徑9-1 接收由編碼發(fā)射機(jī)10-1產(chǎn)生的第一輸出信號段，從路徑9-3接收由編碼發(fā)射機(jī)10-3產(chǎn)生的第二輸出信號段，響應(yīng)于從路徑83接收的控制信號丟棄在輸出幀44'，之前的第二輸出信號段中所有的輸出幀，并且將以輸出幀44"開始并以輸出幀34"結(jié)束的第二輸出信號段中的剩余輸出幀附加到從編碼發(fā)射機(jī)10-1接收的第一輸出信號段。由圖9中顯示的系統(tǒng)實(shí)施的另一種方式使用圖1中示意性圖示的編碼發(fā)射機(jī)10的修改的實(shí)施方式。根據(jù)該修改的實(shí)施方式，編碼發(fā) 射機(jī)IO從路徑7接收控制信號，并且作為響應(yīng)，使得格式化器8抑制輸出幀的產(chǎn)生。此外，編碼器6也可通過抑制計算類型II參數(shù)不需要的處理而作出響應(yīng)。系統(tǒng)90使用信號分段器91將輸入音頻流30 分割成圖7中所示的重疊段。第一段30-l中的音頻信息沿著路徑1-1 到達(dá)編碼發(fā)射機(jī)10-1。第二段30-3中的音頻信息沿著路徑1-3到達(dá)編碼發(fā)射機(jī)10-3。信號分段器91沿著路徑7-1產(chǎn)生第一控制信號，該信號指示第一段30-1中所有的音頻信息將被編碼發(fā)射機(jī)10-1編碼。信號分段器91沿著路徑7-3產(chǎn)生第二控制信號，該信號指示只有從輸入幀34開始的第二段30-3中的音頻信息將被編碼發(fā)射機(jī)10-3編碼。編碼發(fā)射機(jī)10-3處理第二段30-3的所有輸入幀中的音頻信息以計算其類型II參數(shù)數(shù)值，但是其僅對從輸入幀34開始的該段的那一部分中的音頻信息進(jìn)行編碼。信號組裝器92從路徑9-1接收由編碼發(fā)射機(jī) 10-1所產(chǎn)生的輸出信號段40-1，從路徑9-3接收由編碼發(fā)射機(jī)10-3 所產(chǎn)生的輸出信號段40-3，并拼接這兩個信號段以產(chǎn)生期望的輸出信號。D.分段各種過程可被用來控制對輸入音頻流30的分段。一些典型的過程可通過將術(shù)語"初始化間隔"定義為兩個相鄰段之間的重疊而更容易地解釋。對于給定段的初始化間隔從該段的開始處開始并在緊跟著前一段的最后一個塊的塊的開始處結(jié)束。圖7中的例子顯示了被分割為兩個段30-1和30-2的輸入音頻流30。第一段從輸入幀31開始并在輸入幀33結(jié)束，而第二段從輸入幀32開始并在輸入幀35結(jié)束。對于第二段30-2的初始化間隔是從輸入幀32的第一塊的開始處開始并在輸入幀34中的第一塊的開始處結(jié)束。例如，當(dāng)相鄰幀如圖3所示那樣重疊時，對于后續(xù)段的初始化間隔在前一段的最后一幀內(nèi)的一點(diǎn)處結(jié)束。更長的初始化間隔通常將減小類型II參數(shù)值與其在初始化間隔結(jié)尾處對應(yīng)的參考數(shù)值之間的差，但它也會增加編碼輸入音頻流段所需的時間量。優(yōu)選地，初始化間隔的長度被選擇為盡可能的短，以使得所有相關(guān)的類型II參數(shù)值與它們在初始化間隔結(jié)尾處的對應(yīng)參考數(shù)值之間的差小于某一閾值。例如，閾值可被確立來防止從輸出信號解碼的音頻信息中聽覺噪聲的產(chǎn)生。類型II參數(shù)值的最大可允許差值可被經(jīng)驗(yàn)確定，或者可選地，參數(shù)數(shù)值的差值可被限制以使得重放響度的最終改變不會超過ldB。如果相關(guān)的類型II參數(shù)被量化，那么初始化間隔可被選擇為盡可能的短，以使得量化的類型II參數(shù)值與對應(yīng) 的量化的參考數(shù)值之間的差不會超過量化臺階(step)的指定數(shù)量。以下例子假定編碼發(fā)射機(jī)10實(shí)施了處理并產(chǎn)生與上面引用的 ATSC A/52A文件中描述的標(biāo)準(zhǔn)相符的輸出信號。在該實(shí)施方式中，輸入音頻流被排列為512個采樣的塊。流中相鄰的塊互相重疊二分之一塊長度并且被排列為在每個音頻信道上包括六個塊的幀。初始化間隔等于完整輸入幀的整數(shù)數(shù)量。對于包括編碼運(yùn)動圖像在內(nèi)的許多應(yīng) 用來說合適的最小化初始化間隔是大約35秒，如果音頻采樣率是 48kHz的話也就是大約1094個輸入幀，如果音頻采樣率是44.1kHz 的話大約是1005個輸入幀。E. 實(shí)施方式結(jié)合了本發(fā)明各個方面的設(shè)備可以通過各種方式被實(shí)施，包括用于由計算機(jī)或一些其他設(shè)備來執(zhí)行的軟件，該其他設(shè)備包括更具體的元件，比如連接到類似于通用計算機(jī)中能找到的那些元件的數(shù)字信號處理器(DSP)電路。圖10是可被用來實(shí)施本發(fā)明各方面的設(shè)備70 的示意性框圖。處理器72提供了計算資源。RAM 73是由處理器72
用于處理的系統(tǒng)隨才幾訪問存儲器(RAM) 。 ROM74^表例如只讀存儲器(ROM)的用于存儲操作設(shè)備70并且有可能用于執(zhí)行本發(fā)明的各個方面所需的程序的永久存儲器的某種形式。1/0控制75代表以通信信道76、 77的方式接收和發(fā)送信號的接口電路。在所示的實(shí)施例中，所有主要的系統(tǒng)元件都連接到總線71，其可代表一個以上的物理或邏輯總線；然而，實(shí)施本發(fā)明并不一定需要總線架構(gòu)。在由通用計算機(jī)系統(tǒng)實(shí)施的實(shí)施例中，附加的元件可被包括進(jìn)來以用于與比如鍵盤或鼠標(biāo)和顯示器的設(shè)備進(jìn)行交互，以及用于控制具有比如磁帶或磁盤或光介質(zhì)的存儲介質(zhì)的存儲設(shè)備78 。該存儲介質(zhì)可被用于記錄操作系統(tǒng)、功能和應(yīng)用的指令的程序，并可包括實(shí)施本發(fā) 明的各個方面的程序。實(shí)現(xiàn)本發(fā)明的各個方面所需的功能可由以多種方式實(shí)施的元件來完成，包括離散邏輯元件、集成電路、一個或多個ASIC和/或編程控制的處理器。這些元件被實(shí)施的方式對本發(fā)明來說并不是重要的。本發(fā)明的軟件實(shí)施可由以下方式來承載，即各種機(jī)器可讀介質(zhì)，比如基帶或包括從超聲波到紫外線頻率的整個頻i普中調(diào)制的通信路徑，或使用實(shí)際上任何記錄技術(shù)來承載信息的存儲介質(zhì)，包括磁帶、磁卡或磁盤、光卡或光盤，以及包括紙張?jiān)趦?nèi)的介質(zhì)上的可檢測的標(biāo) 記。
權(quán)利要求
1.一種用于編碼包括按塊序列排列的音頻采樣的音頻信息流的方法，每個塊都具有各自的開始和結(jié)束，其中第一塊在第二塊之前，第三塊跟在第二塊之后，第四塊緊跟在第三塊之后，第五塊跟在第四塊之后，并且其中該方法包括(a)識別互相重疊一個重疊間隔的所述音頻信息流的第一和第二段，其中(1)第一段包括以第一塊開始并以第三塊結(jié)束的多個塊，(2)第二段包括以第二塊開始，包括第四塊，并以第五塊結(jié)束的多個塊，以及(3)所述重疊間隔從第二塊的開始處延伸到第四塊的開始處；(b)應(yīng)用第一編碼過程到所述音頻信息流的第一段以產(chǎn)生多塊第一編碼音頻信息和對應(yīng)于直到并包括第三塊的多塊音頻采樣的第一控制參數(shù)，其中(1)響應(yīng)于直到并包括第三塊的音頻信息流的第一段中的音頻采樣的一個對應(yīng)塊，產(chǎn)生一個塊中的第一編碼音頻信息；(2)響應(yīng)于在從第一塊開始直到并包括第三塊的音頻信息流的第一段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn)生所述塊中的第一控制參數(shù)，以及(c)應(yīng)用第二編碼過程到音頻信息流的第二段以產(chǎn)生多塊第二編碼音頻信息和對應(yīng)于從第四塊直到并包括第五塊的多塊音頻采樣的第二控制參數(shù)，并且產(chǎn)生對應(yīng)于第三塊中的音頻采樣的第二控制參數(shù)，其中(1)響應(yīng)于從第四塊直到并包括第五塊的音頻信息流的第二段中的音頻采樣的對應(yīng)塊，產(chǎn)生一個塊中的第二編碼音頻信息，(2)響應(yīng)于從第二塊直到并包括第五塊的音頻信息流的第二段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn)生所述塊中的第二控制參數(shù)，以及(3)所述重疊間隔被設(shè)為使以下條件成立用于第三塊的第一和第二控制參數(shù)數(shù)值之間的差小于閾值量；以及(d)將所述的多塊第一和第二編碼音頻信息組裝到輸出信號中，其中(1)第一和第二控制參數(shù)被組裝到輸出信號中，或(2)第一編碼過程響應(yīng)于第一控制參數(shù)產(chǎn)生第一編碼音頻信息，第二編碼過程響應(yīng)于第二控制參數(shù)產(chǎn)生第二編碼音頻信息。
2. 如權(quán)利要求l所述的方法，其中所述音頻信息流按幀排列，每個幀具有多個塊，第一、第二和第四塊是相應(yīng)幀的開始塊，而第三和第五塊是相應(yīng)幀的結(jié)束塊。
3. 如權(quán)利要求l所述的方法，其中第一和第二編碼過程通過應(yīng) 用濾波器組到多塊音頻采樣來產(chǎn)生編碼音頻信息，其中應(yīng)用濾波器組到多塊音頻采樣致使時域混疊噪聲因應(yīng)用到編碼音頻信息的互補(bǔ)解碼過程而產(chǎn)生，并且所述塊序列中的多塊音頻采樣互相重疊一個量，該重疊量允許互補(bǔ)解碼過程減輕時域混疊噪聲的影響。
4. 如權(quán)利要求l所述的方法，其中第一和第二控制參數(shù)被組裝到輸出信號中并且所述重疊間隔大于35秒。
5. 如權(quán)利要求l所述的方法，其中第一和第二編碼過程分別響應(yīng)于第一和第二控制參數(shù)，并且所述重疊間隔大于4500毫秒。
6. 如權(quán)利要求l所述的方法，其中所述閾值量被設(shè)為使以下條件成立根據(jù)第一和第二控制參數(shù)從用于第三塊的編碼音頻信息解碼出的音頻信號的差別是察覺不到的。
7. 如權(quán)利要求l所述的方法，其中第一和第二控制參數(shù)代表了在與第一和第二編碼過程互補(bǔ)的解碼過程中使用的因數(shù)的數(shù)值，并且其中該閾值量代表了所述因數(shù)等于ldB的改變。
8. 如權(quán)利要求l所述的方法，其中第一和第二控制參數(shù)用根據(jù) 量化臺階大小而被量化的數(shù)值表示，并且該閾值量是大于或等于零的量化臺階大小的整數(shù)數(shù)量。
9. 一種用于編碼包括按塊序列排列的音頻釆樣的音頻信息流的裝置，每個塊都具有各自的開始和結(jié)束，其中第一塊在第二塊之前，第三塊跟在第二塊之后，第四塊緊跟在第三塊之后，第五塊跟在第四塊之后，并且其中該裝置包括(a)用于識別互相重疊一個重疊間隔的音頻信息流的第一和第二段的裝置，其中(1) 第一段包括以第一塊開始并以第三塊結(jié)束的多個塊，(2) 第二段包括以第二塊開始，包括第四塊，并以第五塊結(jié)束的多個塊，以及(3 )所述重疊間隔從第二塊的開始處延伸到第四塊的開始處； (b )用于應(yīng)用第一編碼過程到音頻信息流的第一段以產(chǎn)生多塊第一編碼音頻信息和對應(yīng)于直到并包括第三塊的多塊音頻采樣的第一控制參數(shù)的裝置，其中(1) 響應(yīng)于直到并包括第三塊的音頻信息流的第一段中的音頻采樣的一個對應(yīng)塊，產(chǎn)生一個塊中的第一編碼音頻信息；(2) 響應(yīng)于在從第一塊開始直到并包括第三塊的音頻信息流的第一段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn) 生所述塊中的第一控制參數(shù)，以及(c)用于應(yīng)用第二編碼過程到音頻信息流的第二段以產(chǎn)生多塊第二編碼音頻信息和對應(yīng)于從第四塊直到并包括第五塊的多塊音頻采樣的第二控制參數(shù)，并且產(chǎn)生對應(yīng)于第三塊中的音頻采樣的第二控制參數(shù)的裝置，其中(1) 響應(yīng)于從第四塊直到并包括第五塊的音頻信息流的第二段中的音頻釆樣的對應(yīng)塊，產(chǎn)生一個塊中的第二編碼音頻信息，(2) 響應(yīng)于從第二塊直到并包括第五塊的音頻信息流的第二段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn)生所述塊中的第二控制參數(shù)，以及 (3)所述重疊間隔被設(shè)為使以下條件成立用于第三塊的第一和第二控制參數(shù)數(shù)值之間的差小于閾值量；以及(d )用于將所述的多塊第一和第二編碼音頻信息組裝到輸出信號中的裝置，其中(1) 第一和第二控制參數(shù)被組裝到輸出信號中，或(2) 第一編碼過程響應(yīng)于第一控制參數(shù)產(chǎn)生第一編碼音頻信息，第二編碼過程響應(yīng)于第二控制參數(shù)產(chǎn)生第二編碼音頻信息。
10. 如權(quán)利要求9所述的裝置，其中所述音頻信息流按幀排列，每個幀具有多個塊，第一、第二和第四塊是相應(yīng)幀的開始塊，而第三和第五塊是相應(yīng)幀的結(jié)束塊。
11. 如權(quán)利要求9所述的裝置，其中第一和第二編碼過程通過應(yīng) 用濾波器組到多塊音頻采樣來產(chǎn)生編碼音頻信息，其中應(yīng)用濾波器組到多塊音頻采樣致使時域混疊噪聲因應(yīng)用到編碼音頻信息的互補(bǔ)解碼過程而產(chǎn)生，并且所述塊序列中的多塊音頻采樣互相重疊一個量，該重疊量允許互補(bǔ)解碼過程減輕時域混疊噪聲的影響。
12. 如權(quán)利要求9所述的裝置，其中第一和第二控制參數(shù)被組裝到輸出信號中并且所述重疊間隔大于35秒。
13. 如權(quán)利要求9所述的裝置，其中第一和第二編碼過程分別響應(yīng)于第一和第二控制參數(shù)，并且所述重疊間隔大于4500毫秒。
14. 如權(quán)利要求9所述的裝置，其中所述閾值量被設(shè)為使以下條件成立根據(jù)第一和第二控制參數(shù)從用于第三塊的編碼音頻信息解碼出的音頻信號的差別是察覺不到的。
15. 如權(quán)利要求9所述的裝置，其中第一和第二控制參數(shù)代表了在與第一和第二編碼過程互補(bǔ)的解碼過程中使用的因數(shù)的數(shù)值，并且其中該閾值量代表了所述因數(shù)等于ldB的改變。
16. 如權(quán)利要求9所述的裝置，其中第一和第二控制參數(shù)用根據(jù) 量化臺階大小而被量化的數(shù)值表示，并且該閾值量是大于或等于零的量化臺階大小的整數(shù)數(shù)量。
17. —種承載指令程序的介質(zhì)，該指令程序可由設(shè)備執(zhí)行來實(shí)現(xiàn) 一種方法，該方法用于編碼包括按塊序列排列的音頻釆樣的音頻信息流，每個塊都具有各自的開始和結(jié)束，其中第一塊在第二塊之前，第三塊跟在第二塊之后，第四塊緊跟在第三塊之后，第五塊跟在第四塊之后，并且其中該方法包括(a )識別互相重疊一個重疊間隔的所述音頻信息流的第一和第二段，其中(1) 第一段包括以第一塊開始并以第三塊結(jié)束的多個塊，(2) 第二段包括以第二塊開始，包括第四塊，并以第五塊結(jié)束的多個塊，以及(3) 所述重疊間隔從第二塊的開始處延伸到第四塊的開始處；(b) 應(yīng)用第一編碼過程到所述音頻信息流的第一段以產(chǎn)生多塊第一編碼音頻信息和對應(yīng)于直到并包括第三塊的多塊音頻采樣的第一控制參數(shù)，其中(1) 響應(yīng)于直到并包括第三塊的音頻信息流的第一段中的音頻釆樣的一個對應(yīng)塊，產(chǎn)生一個塊中的第一編碼音頻信息；(2) 響應(yīng)于在從第一塊開始直到并包括第三塊的音頻信息流的第一段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn) 生所述塊中的第一控制參數(shù)，以及(c) 應(yīng)用第二編碼過程到音頻信息流的第二段以產(chǎn)生多塊第二編碼音頻信息和對應(yīng)于從第四塊直到并包括第五塊的多塊音頻采樣的第二控制參數(shù)，并且產(chǎn)生對應(yīng)于第三塊中的音頻采樣的第二控制參數(shù)，其中(1) 響應(yīng)于從第四塊直到并包括第五塊的音頻信息流的第二段中的音頻采樣的對應(yīng)塊，產(chǎn)生一個塊中的第二編碼音頻信息，(2) 響應(yīng)于從第二塊直到并包括第五塊的音頻信息流的第二段中的音頻采樣的所述對應(yīng)塊和音頻采樣的在前塊，產(chǎn)生所述塊中的第二控制參數(shù)，以及(3)所述重疊間隔被設(shè)為使以下條件成立用于第三塊的第一和第二控制參數(shù)數(shù)值之間的差小于閾值量；以及(d)將所述的多塊第一和第二編碼音頻信息組裝到輸出信號中，其中(1) 第一和第二控制參數(shù)被組裝到輸出信號中，或(2) 第一編碼過程響應(yīng)于第一控制參數(shù)產(chǎn)生第一編碼音頻信息，第二編碼過程響應(yīng)于第二控制參數(shù)產(chǎn)生第二編碼音頻信息。
18. 如權(quán)利要求17所述的介質(zhì)，其中所述音頻信息流按幀排列，每個幀具有多個塊，第一、第二和第四塊是相應(yīng)幀的開始塊，而第三和第五塊是相應(yīng)幀的結(jié)束塊。
19. 如權(quán)利要求17所述的方法，其中第一和第二編碼過程通過應(yīng)用濾波器組到多塊音頻采樣來產(chǎn)生編碼音頻信息，其中應(yīng)用濾波器解碼過程而產(chǎn)生，并且所述塊序列中的多塊音頻采樣互相重疊一個量，該重疊量允許互補(bǔ)解碼過程減輕時域混疊噪聲的影響。
20. 如權(quán)利要求17所述的介質(zhì)，其中第一和第二控制參數(shù)被組裝到輸出信號中并且所述重疊間隔大于35秒。
21. 如權(quán)利要求17所述的介質(zhì)，其中第一和第二編碼過程分別響應(yīng)于第一和第二控制參數(shù)，并且所述重疊間隔大于4500毫秒。
22. 如權(quán)利要求17所述的介質(zhì)，其中所述閾值量被設(shè)為使以下條件成立根據(jù)第一和第二控制參數(shù)從用于第三塊的編碼音頻信息解碼出的音頻信號的差別是察覺不到的。
23. 如權(quán)利要求17所述的介質(zhì)，其中第一和第二控制參數(shù)代表了在與第一和第二編碼過程互補(bǔ)的解碼過程中使用的因數(shù)的數(shù)值，并且其中該閾值量代表了所述因數(shù)等于ldB的改變。
24. 如權(quán)利要求17所述的介質(zhì)，其中第一和第二控制參數(shù)用根據(jù)量化臺階大小而被量化的數(shù)值表示，并且該閾值量是大于或等于零的量化臺階大小的整數(shù)數(shù)量。
全文摘要
通過以下方法減少編碼輸入音頻流所需要的時間將輸入音頻流分割成兩個或更多的音頻信息塊的重疊段，應(yīng)用編碼過程到每個段以產(chǎn)生并行的編碼段，以及拼接編碼段以形成編碼的輸出信號。所述編碼過程響應(yīng)于一個或多個控制參數(shù)而變。根據(jù)一個或多個在前塊中的音頻信息來計算應(yīng)用于一個給定塊的部分控制參數(shù)。相鄰段之間的重疊長度被選擇為滿足以下條件控制參數(shù)數(shù)值和重疊間隔結(jié)尾處的對應(yīng)參考數(shù)值之間的差足夠小，足以避免在通過解碼編碼的輸出信號而獲得的信號中產(chǎn)生可聽見的噪聲。
文檔編號G10L19/02GK101167127SQ200680014158
公開日2008年4月23日申請日期2006年3月23日優(yōu)先權(quán)日2005年4月28日
發(fā)明者詹姆斯·斯塔爾特·考德里申請人:杜比實(shí)驗(yàn)室特許公司

完整全部詳細(xì)技術(shù)資料下載