專利名稱:用于生成具有恒定質(zhì)量的可縮放編碼視頻比特流的方法
技術領域:
本發(fā)明總的涉及視頻代碼轉(zhuǎn)換的領域,更具體地,涉及可縮放的視頻數(shù)據(jù)的代碼轉(zhuǎn)換。
背景技術:
視頻壓縮能夠以較少的存儲、網(wǎng)絡和處理器資源來存儲、傳輸和處理可視信息。最廣泛使用的視頻壓縮標準包括用于存儲和恢復活動圖象的MPEG-1,用于數(shù)字電視的MPEG-2,和用于電視會議的H.263,見ISO/IEC 11172-21993,“Information Technology-Coding ofMoving Picture and Associated Audio for Digital Storage Mediaup to about 1.5 Mbit/s-Part2Video(信息技術-用于高到約1.5Mbit/s的數(shù)字貯存媒體的活動圖象和相關的音頻的編碼-第2部分視頻)”,D.LeGall,“MPEGA Video Compression Standard forMultimedia Applications(用于多媒體應用的視頻壓縮標準)”,Communications of the ACM,第34卷,No.4,第46-58頁,1991,ISO/IEC 13818-21996,“Information Technology-GenericCoding of Moving Picture and Associated Audio Information-Part2Video(信息技術-活動圖象和相關的音頻的通用編碼-第2部分視頻)”,1994,ITU-T SG XV,DRAFT H.263,“Video Codingfor Low Bitrate Communication(用于低比特率通信的視頻編碼)”,1996,和ITU-T SG XVI,DRAFT13 H.263+Q15-A-60 rev.0,“Video Coding for Low Bitrate Communication(用于低比特率通信的視頻編碼)”,1997。
這些標準是相對較低級別的技術規(guī)范,它主要處理圖象或幀的空間壓縮以及幀序列的空間與時間壓縮。作為共同的特性,這些標準按照每個幀執(zhí)行壓縮。這些標準達到高的壓縮比,用于各種各樣的應用。
對于通過具有固定的帶寬的通信信道進行的視頻傳輸,視頻常常以恒定的比特率(CBR)被編碼。為了計及對于每個幀所產(chǎn)生的比特中的微小起伏,編碼器的輸出比特首先被發(fā)送到緩存器。隨后,緩存器以恒定的比特率釋放輸出比特到信道。
CBR編碼的視頻具有許多優(yōu)點,然而,CBR編碼也有某些缺點。一個缺點是,感知的圖象質(zhì)量由于比特流內(nèi)的起伏失真而起伏。當失真增加時,感知的圖象質(zhì)量降低。作為另一個缺點,CBR編碼沒有提供通過非均勻時變網(wǎng)絡發(fā)送視頻的有效的方法。這樣的網(wǎng)絡的特征在于,或者改變帶寬或者根據(jù)在許多中間可提供的比特率(ABR)建立進程或二者的組合。在兩種情形下,或者為了提供恒定的或最大的質(zhì)量視頻,或為了充分利用通信信道的容量,常??紤]可變比特率(VBR)編碼。
在2001年3月6日授權給Blawat等人的美國專利No.6,198,878中,“Method and apparatus for encoding and decoding digitalvideo data(用于編碼和譯碼數(shù)字視頻數(shù)據(jù)的方法和設備)”,描述了用于被存儲在固定容量的媒體中的VBR編碼的視頻的緩存器控制策略。Blawat等人提高整個序列的第一部分(例如,總的重放時間的80%)的質(zhì)量,同時保持在序列的第二部分(例如,總的重放時間的20%)的質(zhì)量的可忽略的損失。雖然產(chǎn)生VBR編碼的視頻,但沒有描述保證恒定質(zhì)量的方法。而是,它們的聚焦點是使得在重建的視頻中的失真最小化。
在2001年3月20日授權給Fert等人的美國專利No.6,205,174中,“Variable bit-rate video coding method and correspondingvideo coder(可變比特率視頻編碼方法和相應的視頻編碼器)”,描述了VBR視頻編碼方法,包括分析過程,預測過程,和圖象重新安排。它們超過先前的VBR編碼器之處在于,來自第一過程的數(shù)據(jù)影響最后的量化步驟尺寸以及圖象類型的安置,即,I,P和B幀,它們被稱為幀的編組分配。它們需要多次迭代,達到合理的恒定質(zhì)量,并表示更大數(shù)目的迭代將進一步改進質(zhì)量。然而,每次迭代消耗附加的處理功率和增加的延時。
在1999年11月2日授權給Boice等人的美國專利No.5,978,029中,“Real-time encoding of video sequence employing twoencoders and statistical analysis(采用兩個編碼器和統(tǒng)計分析的視頻序列的實時編碼)”,描述了用于分析視頻幀序列和用于得出信息編碼子系統(tǒng)。子系統(tǒng)包括控制處理器,用于分析收集的信息和用于產(chǎn)生一組控制參量。第二編碼子系統(tǒng)通過使用相應的組的控制參量來編碼每個幀。它們通過在第一過程收集統(tǒng)計資料,然后在第二過程使用統(tǒng)計資料執(zhí)行編碼,而克服與許多現(xiàn)有的VBR編碼器有關的延時。雖然在原理上,所描述的編碼系統(tǒng)與現(xiàn)有的多過程編碼器沒有很大的不同,但它們確實描述兩個編碼器借以互相耦合保證實時運行的方法。
總之,現(xiàn)有技術方法主要描述VBR編碼器,它們在比特率起伏不是主要關心的問題時使得失真最小化。
現(xiàn)有技術可以證實,在第一階段期間從編碼的比特流中提取數(shù)據(jù),和在編碼的第二階段使用提取的數(shù)據(jù),是共同的技術。這由Lin等人在他們的文章中進一步描述“Bit-rate control usingpiece-wise approximated rate-distortion characteristics(使用逐片近似的速率-失真特性的比特率控制)”,IEEE Trans.Circuitsand Systems for Video Technology,August 1998。他們描述用來編碼視頻的大的組的量化尺度。相應的速率量化器數(shù)據(jù)和失真量化器數(shù)據(jù)也被記錄。使用該記錄的數(shù)據(jù),通過線性或立方內(nèi)插方法來內(nèi)插一條曲線。該曲線最后被使用來選擇一組量化尺度,它使得在給定速率限制下的平均失真或失真變化最小化。然而,他們的方法在計算速率均衡器數(shù)據(jù)時是計算上昂貴的,而且,需要對于最佳量化尺度的復雜的搜索。因此,這個方法不能使用于實時應用,特別是,對于低的比特率流的數(shù)據(jù)。
圖1顯示大多數(shù)現(xiàn)有技術VBR編碼器的基礎的概念。在編碼器100的一個分支中,源編碼統(tǒng)計資料111由統(tǒng)計資料生成器110從輸入源101被提取。統(tǒng)計資料生成器110的特別的事例是視頻編碼器,它通過使用很大的一組量化參量從許多速率失真樣本中提取實際的速率失真(R-D)統(tǒng)計資料111。R-D統(tǒng)計資料111被發(fā)送到統(tǒng)計分析器120,在其中確定用于編碼的R-D參量121。R-D參量121被使用來對于被延時的、輸入視頻101的副本執(zhí)行單層VBR編碼130。結果是VBR編碼的比特流131,它可被存儲或通過網(wǎng)絡被傳輸。
圖2顯示VBR編碼的統(tǒng)計的復接應用,正如在2000年12月26日授權給Wang等人的美國專利No.6,167,084中,“Dynamic bit-allocation for statistical multiplexing of compressed anduncompressed digital video signals(用于統(tǒng)計復接壓縮的和未壓縮的數(shù)字視頻信號的動態(tài)比特分配)”中描述的。動態(tài)比特分配方法200分配速率給在CBS信道262上傳輸?shù)亩鄠€節(jié)目201。每個節(jié)目(視頻)201具有壓縮的或未壓縮的比特流的形式,多半被存儲在軟盤220上。
分級結構動態(tài)比特分配通過使用速率控制處理器240被執(zhí)行。速率控制處理器首先以超級幀的組(GOP)級別分配比特,然后最終下降到幀級別。速率控制處理器240使用由多個單層VBR代碼轉(zhuǎn)換機231-232和編碼器233-234提取的速率失真參量241。目標的比特數(shù)在速率控制處理器240中按照幀的形式和節(jié)目優(yōu)先權被確定。對于目標比特率的約束條件也在速率控制處理器中被考慮,防止緩存器260的過流和欠流。所以,線261上的信號表示緩存器260的“充滿度”。每個視頻節(jié)目的目標比特數(shù)被發(fā)送到多個編碼器的每個編碼器,傳輸多個單層VBR比特流235-238。這些比特流被復接250,被緩存260,和典型地通過CBR信道262被傳輸。
對于從視頻服務器到接收機(例如電視機或計算機)的視頻傳輸,外部帶寬起伏是主要關心的問題。起伏不單影響質(zhì)量,而且也影響傳輸期間的延時和抖動。2000年7月4日授權給Graf的美國專利No.6,085,221,“File server for multimedia file distribution(用于多媒體文件分布的文件服務器)”描述了用于從文件服務器發(fā)送多媒體文件的方法。VBR編碼器被使用來壓縮多媒體。Graf沒有詳述他的VBR編碼的細節(jié)。他只假設,不管編碼格式可以得到恒定的感覺的質(zhì)量。然而,他確實描述一種調(diào)度視頻傳輸?shù)姆椒āA硗?,沒有提到可被使用來使得重建的視頻的感覺的質(zhì)量最佳化的方法。
對于大多數(shù)部分,上述的方法具有兩個隱含的假設。首先,假設了單層編碼方案,第二,具有可被調(diào)節(jié)來滿足速率或失真約束條件(例如用于MPEG-2)的有限的參量組,僅僅考慮量化參量和GOP結構,即,幀類型和位置。
視頻編碼標準,諸如用于多媒體應用的MPEG-4(參閱ISO/IEC14496-21999,“Information technology-coding ofaudio/visual objects,Part2Visual(信息技術-音頻/可視的目標的編碼-第2部分可視的)”,提供幾個新的編碼工具,包括改進編碼效率的工具和支持基于目標的編碼與錯誤回彈的工具。
在網(wǎng)絡上傳遞視頻內(nèi)容時一個主要的問題是調(diào)節(jié)內(nèi)容滿足由用戶和網(wǎng)絡施加的特定的約束條件。用戶要求以感覺的質(zhì)量的最小的變化進行重放。然而,動態(tài)網(wǎng)絡條件常常造成這種困難。
MPEG-4標準采用了細粒子可縮放(FGS)編碼。支持FGS編碼的工具在MPEG-4標準的修改例中被規(guī)定,ISO/IEC 14496-21999/FDAM4,“Information Technology-coding of audio/visualobjects,Part2Visual(信息技術-音頻/可視的目標的編碼-第2部分可視的)”。FGS編碼的綜述由Li在他的文章中進行描述“Overview of Fine Granularity Scalability in MPEG-4 VideoStandard(MPEG-4視頻標準中細粒度可縮放度綜述)”,IEEE Trans.Circuits and Systems for Video Technology,March 2001.
FGS編碼根本地背離傳統(tǒng)的縮放編碼。對于傳統(tǒng)的可縮放編碼,內(nèi)容被編碼成一個基本層比特流以及可能幾個增強層比特流,其中粒度僅僅與被形成的增強層比特流的數(shù)目一樣細。最后得到的速率失真曲線類似于階躍函數(shù)。
相反,F(xiàn)GS編碼提供可連續(xù)縮放的增強層比特流??蛇B續(xù)縮放的增強層比特流是藉助于使用離散余弦變換(DCT)系數(shù)的位面編碼方法而被提供的。位面編碼允許在任何點截斷增強層比特流。這樣,重建的視頻的質(zhì)量正比于被譯碼的增強層比特流的比特數(shù)。
圖3顯示傳統(tǒng)的FGS編碼器300。輸入的視頻301被提供到典型的基本層編碼器310?;緦泳幋a器包括DCT311,量化(Q)312,運動補償(MC)318,逆量化(Q-1)313,逆DCT(IDCT)314,運動補償317,截幅315,幀存儲器316,和可變長度編碼器(VLC)319部件?;緦泳幋a器310的輸出是具有每個預定的最小恒定的比特率的基本層比特流301。典型地,CBR是非常低的,例如,20kbps或更低。因此,基本層比特流可以在高帶寬和低帶寬的信道上進行傳輸。
增強層比特流是通過從輸入視頻301減去基本層比特流310的重建的幀被生成的。這產(chǎn)生在空間域中的FGS剩余信號322。然后,對于剩余信號322施加增強層編碼。增強編碼包括DCT330,后面跟隨位面移位340,最大運行350,和位面VLC編碼360,以產(chǎn)生增強層比特流303。
圖4顯示FGS譯碼器400,它可以應用到基本層比特流302和增強層比特流303,以產(chǎn)生重建的基本層視頻491和重建的增強層視頻492。譯碼器400包括可變長度譯碼器(VLD)410,逆量化器415,逆DCT420,運動補償425,幀存儲器430,和截幅435部件。FGS剩余信號456由增強層比特流傳送通過位面VLD445,位面移位450和IDCT455部件而被重建。然后,F(xiàn)GS剩余信號456可被加到457重建的基本層喜好36,產(chǎn)生增強視頻492。組合的信號被限幅460,以確保信號是有界的,即,8比特象素數(shù)值必須處在
范圍內(nèi)。
在增強層的FGS編碼的視頻比特流中控制位面移位的選擇性增強方法在2001年7月17日授權給Chen等人的美國專利No.6,263,022中被描述,“System and Method for fine granular scalable videowith selective quality enhancement(用于選擇性質(zhì)量增強的細粒度可縮放的視頻的系統(tǒng)和方法)”。這里,被使用來編碼基本層視頻的量化參量也確定相應的移位因子。與被認為在視覺上更重要的宏塊有關的位面被移位更高。
要指出的關鍵點是,基本層比特流的比特率是某個預先規(guī)定的最小值。增強層比特流覆蓋從最小值到接近于無損的重建的速率和失真的范圍。另外,在增強層比特流被生成后,它可以被存儲和被重新使用許多次。按照網(wǎng)絡特性,適當?shù)谋忍財?shù)可被分配給一個幀,以及通過網(wǎng)絡被傳輸,考慮當前的網(wǎng)絡條件。然而,重要的是指出,在該方案中不調(diào)節(jié)量化參量。
標準沒有說明如何完成速率分配,或等價地,按每個幀的比特截斷。標準只說明如何譯碼可縮放的比特流。另外,被使用來為速率-失真(R-D)特性建模(例如,根據(jù)量化參量)的傳統(tǒng)的方法,對于由FGS編碼使用的位面編碼方案不再成立。結果,重建的視頻的質(zhì)量可明顯地改變。
因為不同的靈敏度是我們?nèi)祟愐曈X感覺的關鍵,重要的是感覺的質(zhì)量的變化最小化,而不是總的失真。最佳速率分配可以通過使得用于指數(shù)R-D模型的花費最小化而被完成。這導致幀之間的恒定的質(zhì)量,參閱Wang等人,“A new rate allocation scheme for progressivefine granular scalable coding(用于逐步地細粒度可縮放的編碼的新的速率分配)”,Proc.International Symposium on Circuits andSystems,2001。然而,這個現(xiàn)有技術的、基于模型的方法對于低的比特率信號行不通。
所以,需要一種可提供具有恒定的質(zhì)量的輸出比特流的可縮放編碼器。而且,希望提供可測量位面編碼的比特流中R-D特性的技術,這樣,可以調(diào)節(jié)速率以便滿足實時的質(zhì)量需求。
發(fā)明內(nèi)容
本發(fā)明提供一種用于對于輸入視頻的輸出比特流進行編碼以使得譯碼的輸出比特流具有恒定感覺的質(zhì)量的方法。從輸入視頻生成具有恒定的比特率的基本層比特流,以及從輸入視頻與基本層比特流之間的差值生成輸入的增強層比特流。替換地,基本的和輸入的增強層比特流被預先存儲。
從基本層比特流和增強層比特流中提取速率和失真特性,以及按照速率和失真特性從輸入增強層比特流生成具有可變比特率的輸出增強層比特流?;緦颖忍亓髋c增強層比特流相組合,形成具有可變比特率和恒定失真的輸出比特流。
附圖簡述圖1是現(xiàn)有技術單層VBR編碼器的方框圖;圖2是現(xiàn)有技術的、具有統(tǒng)計復接的輸出的多個單層VBR編碼器的方框圖;圖3是現(xiàn)有技術的、細粒度可縮放(FGS)編碼器的方框圖;圖4是現(xiàn)有技術FGS譯碼器的方框圖;圖5是按照本發(fā)明的、恒定質(zhì)量的多層VBR編碼器的方框圖;圖6a是用于在空間域中FCS增強層編碼的速率-失真提取器的方框圖;圖6b是用于頻域中的FCS增強層比特流的速率-失真提取器的方框圖;圖7是具有統(tǒng)計復接的輸出的多個FGS和VBR編碼器的方框圖;圖8a-c是比較多層編碼方法的圖;圖9a是與現(xiàn)有技術方法相比較,按照本發(fā)明的、使用第一組編碼參量的、基于一幀的恒定質(zhì)量的圖;圖9b是顯示與現(xiàn)有技術方法相比較,按照本發(fā)明的、使用第二組編碼參量的、基于一幀的恒定質(zhì)量的圖;圖10是顯示使用現(xiàn)有技術均勻比特分配方法的、統(tǒng)計復接的輸出比特流的基于一幀的可變質(zhì)量的圖;以及圖11是顯示使用按照本發(fā)明的均勻比特分配方法的、統(tǒng)計復接的輸出比特流的基于一幀的可變質(zhì)量的圖。
本發(fā)明的最佳實現(xiàn)模式系統(tǒng)結構圖5顯示按照本發(fā)明的視頻編碼器500。編碼器500取源視頻501作為輸入,以及產(chǎn)生由基本層比特流和增強層比特流組成的比特流作為輸出。作為一個優(yōu)點,組合的基本層比特流和增強層比特流使能重建具有恒定的感知的質(zhì)量的視頻。
按照本發(fā)明的視頻編碼器500包括細粒度可縮放的編碼器510,被耦合到速率-失真提取器520和增強層VBR代碼轉(zhuǎn)換機540。
系統(tǒng)運行FGS編碼器510生成基本層比特流511和增強層比特流512?;緦颖忍亓?11具有預定的最小比特率和相應的失真。輸入的增強層比特流512是通過使用位面編碼,局部或完全譯碼基本層比特流511,從輸入視頻501與基本層比特流511之間的差值生成的。
速率-失真提取器520采樣基本層和增強層比特流,確定速率-失真(R-D)特性521。具體地,測量一組R-D樣本,正如下面更詳細地描述的。樣本被線性地內(nèi)插,估計出一條曲線,用于為基本層和輸入增強層比特流的R-D特性正確地建模。
增強層VBR代碼轉(zhuǎn)換機540按照速率和失真特性521,通過使用滑窗541和可提供的網(wǎng)絡帶寬521從輸入的增強層比特流512生成輸出的增強層比特流519。正如下面描述的,窗口541的尺寸(M)可以是固定的或可以適配于視頻復雜性和網(wǎng)絡條件。
基本層比特流51l和輸出的增強層比特流519相組合,被存儲在軟盤上,用于以后的異步傳輸,或當這兩個比特流被代碼轉(zhuǎn)換時,可以通過網(wǎng)絡550被同步地發(fā)送。在任一個事例中,比特流511和519的重建產(chǎn)生具有最小的失真的變化的視頻。因此,我們的方法有效地保持重建的視頻中恒定的感覺的質(zhì)量。
另一種方案是,基本層比特流511和輸入的增強層比特流512由FGS編碼器510提前生成以及被預先存儲在貯存單元515。FGS編碼器510也可預先生成速率-失真特性521,而同時在這個預先的代碼轉(zhuǎn)換階段期間產(chǎn)生基本層和輸入的增強層比特流511-512。這些連同相關的基本層比特流511和輸入的增強層比特流512也可被存儲在貯存單元515。然后,速率-失真提取器520被旁路,以及增強層VBR代碼轉(zhuǎn)換機540實時地同步運行,正如上面描述的。
FGS比特流的最佳速率分配以前的、用于最佳速率分配的方法提供了使得受到速率(R)限制的總的失真(D)最小化的解決方案。大多數(shù)通常的方法通過使用Lagrange乘法因子λ而使得總的失真最小化。所以,我們也使得花費函數(shù)J(λ)最小化,J(λ)=Σi=0N-1Di(Ri)+λΣi=0N-1RisubjecttoΣi=0N-1Ri≤Rbudget,---(1)]]>其中N是序列中幀的數(shù)目。
求解方程(1),在低的比特率條件下可直接導致負的速率分配,即,當速率預算Rbudget是小的,正如在可縮放的比特流的情形下。因為這是不實際的,所以加上熟知的Karush-Kuhn-Tucker(KKT)約束條件。例如,給定熟知的模型,D(R)=aσ22-2R,解是Ri=(-12logλ2aσi2)+---(2)]]>其中(x)+表示x的正的部分,以及Σi(-12log2λ2aσi2)+=Rbudget.]]>速率-失真提取器我們的R-D提取器520作用在基本層比特流511和輸入的增強層比特流512上,提供R-D特性521。我們的方法克服由于在低的比特率下現(xiàn)有技術封閉形式模型的不精確性造成的問題。
用于速率分配的基于模型方法的性能依賴于選擇的模型的精度?,F(xiàn)有技術的指數(shù)模型對于在低的比特率下的速率-失真性質(zhì)沒有精確地建模,正如在FGS比特流511-512中給出的,參閱以上Wang的文章。這是與關于這個主題的經(jīng)典理論一致的,參閱Jayant and Noll,Digital Coding of Waveforms(波形的數(shù)字編碼),Prentice Hall,1984。
為了克服現(xiàn)有技術的問題,我們的R-D特性521估計FGS比特流中完全的R-D關系。我們使用在R-D樣本之間的線性內(nèi)插,估計對于R-D關系正確建模的曲線。因為實際的R-D曲線典型地是平滑的,為了精確地估計R-D曲線只需要小量R-D樣本。實際上,我們發(fā)現(xiàn)兩個R-D樣本就足以近似每個位面的R-D關系。
作為一個優(yōu)點,我們的R-D提取器520不僅可以確定對于存儲的比特流的R-D特性521,也可以確定對于實時運行在流動的視頻的R-D特性。另外,可以在頻域通過使用DCT系數(shù)或在空域中得出我們的R-D特性,因為信號的方差通常是DCT不變的。我們可以通過使用傳統(tǒng)的技術從基本層比特流511中提取R-D特性,然而,我們也從輸入的增強層比特流512中提取R-D特性。
空間R-D提取圖6a是測量空域中的R-D失真樣本的R-D提取器的方框圖。增強層比特流519首先被傳送到比特流控制器610,以便測量速率樣本611。速率樣本可被線性地間隔開,或按照預定的函數(shù)被選擇。速率樣本作為每個R-D樣本對{R,D}的第一部分被記錄。根據(jù)每個速率樣本,特定的數(shù)目的比特被使用來通過位面VLD620,位面移位630和IDCT而重建FGS剩余信號641。從原先的FGS剩余信號602中減去645重建的FGS剩余信號641(見圖3的信號322),產(chǎn)生誤差信號646。然后根據(jù)空域誤差646,估計650失真651,產(chǎn)生失真樣本651,它們形成每個R-D對{R,D}的第二部分。這個處理過程對于多個速率樣本點重復進行,產(chǎn)生一組R-D對。
頻率提取圖6b是測量DCT域中的R-D樣本的R-D提取器的方框圖。處理過程類似于圖6a上描述的處理過程,除了沒有進行IDCT640來產(chǎn)生在DCT域中的重建的FGS剩余信號631以外。這個重建的FGS從原先的FGS剩余信號602中減去645這個重建的FGS(見圖3的信號322),產(chǎn)生誤差信號646’。然后根據(jù)頻域誤差646’,估計650失真651,產(chǎn)生失真樣本651,它們形成每個R-D對{R,D}的第二部分。這個處理過程對于多個速率樣本點重復進行,產(chǎn)生一組R-D對。
與其中R-D樣本只從基本層比特流中得出的現(xiàn)有技術相反,我們也從位面編碼的增強層比特流中提取樣本。現(xiàn)有技術的方法需要輸入的視頻用各種均衡器進行編碼。這在計算上有高的要求,不適用于實時應用,正如這里描述的。我們的方法能夠從位面編碼的增強層比特流中進行實時R-D樣本提取。
對于具有恒定的失真的單個FGS視頻的比特率分配我們提取的R-D特性521足以用于VBR代碼轉(zhuǎn)換機540中最佳的速率分配。在給定這個信息后,我們再次進行方程(1)的花費函數(shù)的最小化,但這時約束失真。在現(xiàn)有技術方法中,典型地使用窮舉搜索來找出方程(1)的最佳解。相反,我們提供實際的速率分配方法。
根據(jù)恒定的失真的適當?shù)某跏脊乐担梢栽谝粋€過程中得出最佳解?;凹夹g被使用來適配于網(wǎng)絡中隨時間的變化。
對于恒定的失真D的初始估值,我們考慮兩個相鄰的R-D樣本{Rmi,Dmi}和{Rni,Dni},以使得Dmi≥D≥Dni和Rmi≤R≤Rni,其中Ri是要被分配到幀i的最佳速率,達到恒定的失真D。我們通過使用測量的失真樣本的平均值,即,D=1NΣi=0N-1Di,]]>(其中Di是與恒定的比特分配有關的失真),來確定D的初始估值。使用與恒定的比特分配有關的速率,提供了一種用來近似其中存在最佳速率的鄰居的、計算上有效的方法。
實際上,對于每個幀的可提供的帶寬隨變化的網(wǎng)絡條件而變化。所以,我們使用利用滑窗的比特率分配方案。對于從時間a的幀開始的、M幀的窗口的速率預算Wa是 其中Rbudget是在時間a的可提供的帶寬,以及Fs是輸入的序列的幀的速率。速率預算是對于窗口中的每個幀被確定的,以及當前幀的速率分配是根據(jù)下面給出的方程組進行的, 其中ΔRi=Rmi-Rni和ΔDi=Dmi-Dni分別代表兩個相鄰的R-D樣本的速率和失真的差值。這產(chǎn)生具有M個未知數(shù)的一組M個方程,它可以通過使用已知的方法求解。
如果以上的方程的解對于幀i的是負的,則我們令Ri=0,以及重新計算解。因為被分配給每個窗的速率是基于每個幀改變的,我們只對于當前的幀Ri求解以上的方程。
我們的方法的計算的復雜性大大地低于現(xiàn)有技術中完成的窮舉搜索。然而,我們通過確定對于每個M幀的組的速率,而不是基于每個幀,而進一步減小計算花費。這樣,在每步中滑窗移動M個幀,而不是一次一個幀。在每步中,被分配給窗口中的每個幀的速率是對于該組的幀的速率。這個改進的方法對于具有慢變化的條件的網(wǎng)絡最管用。另外,通過最佳滑窗的尺寸M,可進一步減小失真的變化,我們發(fā)現(xiàn),大約20個幀左右的尺寸的窗運行得很好。然而,M的數(shù)值可以根據(jù)視頻復雜性和/或網(wǎng)絡的動態(tài)特性的變化量自適應地進行選擇。
對于大的窗口尺寸,在傳輸之前必須知道更多的幀的R-D信息。如果R-D信息被離線地得到和被存儲,則速率控制處理器720瞬時接入到這個數(shù)據(jù)。因為我們的方法的計算復雜性是非常低的,O(M),計算延時實際上可以忽略。在穩(wěn)定的網(wǎng)絡條件下,希望選擇更大的窗口來平滑由于視頻的變化的復雜性引起的起伏。
另一方面,如果網(wǎng)絡條件是不穩(wěn)定的,我們寧愿以初始的延時為代價得到平滑性。在這種情形下,可以使用緩存器來臨時存儲當前的M個幀。然后,比特率分配可以在當前的幀中間進行調(diào)節(jié)。在實時應用情形下,窗口尺寸可以根據(jù)幀之間的最大變化,對于初始延時的敏感性,和目標平滑性,自適應地被確定。最佳解是這些因素的折衷。
對于具有恒定的失真的多個FGS視頻的比特率分配在現(xiàn)代通信系統(tǒng)中,視頻流的發(fā)射機通常通過具有高帶寬的CBR信道,例如同軸電纜或光纜,被連接到接收機。當多個視頻在這種網(wǎng)絡中傳輸時,各個比特流被復接到具有恒定的集合的比特率的單個信道。
為了有效地利用高帶寬的信道,而同時保持每個多個視頻的恒定的感覺的質(zhì)量,每個視頻被如上所述地進行VBR編碼。而且,多個VBR生成比特流的和值,在任何時間都小于或等于恒定的集合的比特率。事實上,為了充分利用帶寬,該和值盡可能地接近于信道的集合的CBR。
我們的方法不單使得每個視頻中的失真變化最小化,也使得全部視頻的總的失真最小化,而同時使得信道利用最大化。
圖7顯示按照本發(fā)明的多視頻FGS的統(tǒng)計的編碼器700的方框圖。加到編碼器700的同時的輸入是多個視頻701,以及輸出是在滿足以上的條件時的CBR信道741上的復接的VBR比特流。
首先,每個輸入視頻701被單獨地編碼成510如上所述的VBR FGS比特流511和512。可以測量相應的R-D特性521。對于異步的應用,即,非實時應用,輸出被存儲在貯存單元515。R-D特性521被發(fā)送到速率控制處理器720。速率控制處理器確定對于每個增強層VBR代碼轉(zhuǎn)換機540的速率分配721。對于同步的應用,即,實時應用,貯存裝置515被旁路,以及基本層和輸入增強層比特流直接傳送到增強層VBR代碼轉(zhuǎn)換機540。
來自代碼轉(zhuǎn)換機540的輸出比特流被復接730,被緩存740和在CBS信道741上被同步地傳輸,或被存儲用于以后的異步傳輸。緩存器在緩存器充滿后把反饋信號742提供到速率控制處理器720。
速率控制處理器速率控制處理器720把上述的用于單個視頻的公式擴展到多個視頻。作出類似的假設。即,多個視頻的最小失真方差導致最小的總的失真。對于從時間b的幀開始的、M個幀和K個源的二維窗口的速率預算Wb是 其中Rbudget是現(xiàn)在是對于K個源的總的預算,以及Rj,i是在幀i中被使用于視頻j的比特數(shù)。速率預算是對于每個視頻的窗口中的每個幀被確定的,以及當前幀的速率分配是根據(jù)下面的方程組進行的,
其中ΔRj,i=Rmj,i-Rnj,i和ΔDj,i=Dmj,i-Dnj,i分別代表來自視頻j的兩個相鄰的R-D樣本的速率和失真的差值。這產(chǎn)生具有M×K個未知數(shù)的一組M×K個方程,它們可以通過使用已知的方法求解。
結果和效果為了驗證我們的單個視頻方法的有效性,我們通過使用FGS和FGS-臨時(FGST)編碼法以共同-中間-格式(CIF)分辨率編碼在MPEG-4標準中使用的熟知的“Foreman”視頻序列。用于基本層比特流的編碼的幀速率對于FGS和FGST編碼被固定在10fps。我們測試三個速率分配方法均勻比特分配方法,基于高斯模型的最佳比特分配方法,和按照本發(fā)明的方法。
圖8a-c分別顯示相應于比特的速率802的每個幀的最后得到的失真801,其中每個組的三個幀800進行比較,以及劃陰影線的橫條803表示該三個幀的組的第一幀。從這些圖可以看到,只有按照本發(fā)明的方法,如圖8c所示,在很寬的比特率的范圍內(nèi)達到在幀中的恒定的失真。
圖9a和9b比較我們的滑窗方法901與現(xiàn)有技術的均勻的比特分配?;緦颖忍亓饔脙山M量化參量進行編碼,以及增強層比特流被分配以每秒75k字節(jié)的速率,這對于均勻比特分配允許每個FGS-VOP2.5k字節(jié)。畫出了在100個接連的幀912上對于每個方法的失真911。
結果明顯地表示,通過使用我們的方法901,僅僅在幾個幀后失真就變?yōu)楹愣ǖ?,而采用均勻比特分配方?02的失真在整個100幀的序列上包含很大的變化。這對于其中“射程(shots)”的長度典型地是在1到10秒的范圍內(nèi)(即,30到300幀)的許多視頻是重要的。
而且,失真的平均的均方差(MSE)在圖9a上從35.14減小到34.91,以及在圖9b上從46.31減小到45.50。
圖10和11比較現(xiàn)有技術均勻比特分配1000與我們的滑窗方法1100,以驗證我們的多個視頻方法的有效性。我們通過使用FGS和FGST編碼法以CIF分辨率編碼Foreman 1001,CoastguaR-D 1002,Carphone1003和Mobile 1004序列。用于基本層比特流的編碼的幀速率對于FGS和FGST編碼法被固定在10fps。增強層比特流被分配以1320kbps的速率,這對于均勻比特分配允許每個FGS-VOP 5.5k字節(jié)。畫出了在100個接連的幀上對于每個方法的失真。
使用現(xiàn)有技術均勻比特分配的結果1000表示,序列具有很大的質(zhì)量差。這是由于與每個序列有關的不同的復雜性。除了序列之間相互的差值以外,通過均勻速率分配不能避免在同一個序列內(nèi)的幀之間的內(nèi)部的起伏。另一方面,通過按照本發(fā)明的方法得到幾乎恒定的質(zhì)量1100。平均失真減小約10%,從30.70減小到27.66。
雖然本發(fā)明是藉助于優(yōu)選實施例的例子進行描述的,但應當看到,可以在本發(fā)明的精神和范圍內(nèi)作出各種其他改變和修正。所以,所附權利要求的目的是覆蓋屬于本發(fā)明的真實的精神和范圍內(nèi)所有的這樣的改變和修正。
權利要求
1.一種用于生成代表具有可測量的速率和失真特性的輸入視頻的輸出比特流的方法,輸出比特流被重建為恒定的質(zhì)量的輸出視頻,包括提供代表輸入視頻的基本層比特流和輸入的增強層比特流;按照速率和失真特性從輸入增強層比特流生成具有可變比特率的輸出增強層比特流;以及把基本層比特流與輸出增強層比特流相組合,形成具有可變比特率和恒定失真的輸出比特流。
2.權利要求1的方法,還包括在細粒度可縮放編碼器中從恒定的比特率的輸入視頻生成基本層比特流;在細粒度可縮放編碼器中從輸入視頻與基本層比特流之間的差值生成輸入增強層比特流;以及把基本層比特流和輸入增強層比特流存儲在第一貯存單元。
3.權利要求1的方法,還包括在細粒度可縮放譯碼器中從基本層比特流和輸出增強層比特流重建輸出視頻。
4.權利要求1的方法,還包括把輸出比特流存儲在第二貯存單元,用于異步傳輸。
5.權利要求1的方法,還包括把輸出比特流呈給網(wǎng)絡,用于同步傳輸。
6.權利要求1的方法,還包括在生成輸入增強層比特流之前,局部地譯碼基本層比特流。
7.權利要求1的方法,還包括在生成輸入增強層比特流之前,完全地譯碼基本層比特流。
8.權利要求1的方法,還包括位面編碼輸入增強層比特流。
9.權利要求1的方法,還包括從輸入視頻測量速率和失真特性。
10.權利要求1的方法,還包括從基本層比特流和輸入增強層比特流測量速率和失真特性。
11.權利要求10的方法,還包括線性地內(nèi)插測量的速率和失真樣本,估計出一條曲線,用于為基本層和輸入增強層比特流的速率與失真特性正確地建模。
12.權利要求10的方法,還包括比較兩對相鄰的速率與失真樣本;將在速率與失真樣本對之間的測量的失真進行平均,以估計恒定的失真值;確定保持在信道的可用帶寬上的恒定失真的、可用的最大速率;以及通過使用M幀的滑窗,適配于隨時間的速率樣本的變化。
13.權利要求10的方法,還包括測量頻域中速率與失真特性。
14.權利要求13的方法,還包括測量輸入增強層的速率樣本;記錄每個速率樣本作為速率-失真樣本對的第一部分;通過對于規(guī)定的數(shù)目的比特的位面可變長度譯碼和位面移位,根據(jù)每個速率樣本重建頻域中細粒度可縮放的剩余信號;從原先的細粒度可縮放的剩余信號中減去重建的細粒度可縮放的剩余信號,產(chǎn)生誤差信號;以及根據(jù)誤差信號估計失真值,產(chǎn)生失真樣本作為每個速率-失真樣本對的第二部分。
15.權利要求8的方法,還包括以小于逐幀的頻率測量速率與失真樣本對。
16.權利要求12的方法,還包括在每步中移動滑窗大于1的幀的數(shù)目。
17.權利要求10的方法,還包括測量空域中速率與失真特性。
18.權利要求17的方法,還包括通過對于規(guī)定的數(shù)目的比特的逆離散余弦變換,根據(jù)每個速率樣本重建空域中細粒度可縮放的剩余信號。
19.權利要求12的方法,其中在窗口中的幀的數(shù)目按照窗口內(nèi)幀的復雜性被調(diào)節(jié)。
20.權利要求12的方法,其中在窗口中的幀的數(shù)目按照被使用來發(fā)送輸出比特流的網(wǎng)絡的條件被調(diào)節(jié)。
21.權利要求10的方法,其中輸入增強層包括多個位面,以及還包括用兩個速率失真樣本近似每個位面。
22.權利要求1的方法,其中多個同時輸出比特流是從多個輸入視頻被生成的,每個輸入視頻具有相應的速率失真特性,以及還包括提供代表每個輸入視頻的基本層比特流和相應的輸入增強層比特流;按照相應的速率和失真特性從輸入增強層比特流生成具有可變比特率的輸出增強層比特流;把基本層比特流與輸出增強層比特流相組合,形成對于每個輸入視頻的、具有可變比特率和恒定失真的輸出比特流;以及復接多個生成比特流,以使得多個輸出比特流的可變比特率的和值在任何時間小于或等于恒定集合的比特率。
23.權利要求15的方法,其中和值盡可能地接近于信道的集合CBR。
全文摘要
本發(fā)明提供一種用于對于輸入視頻的輸出比特流進行編碼以使得譯碼的輸出比特流具有恒定感覺的質(zhì)量的方法。從輸入視頻生成具有恒定比特率的基本層比特流,以及從輸入視頻與基本層比特流之間的差值生成輸入的增強層比特流。另一方案是,基本的和輸入的增強層比特流被預先存儲。從基本層比特流和增強層比特流中提取速率和失真特性,以及按照速率和失真特性從輸入增強層比特流中生成具有可變比特率的輸出增強層比特流?;緦颖忍亓髋c增強層比特流相組合,形成具有可變比特率和恒定失真的輸出比特流。
文檔編號H04N7/58GK1476727SQ02802994
公開日2004年2月18日 申請日期2002年9月18日 優(yōu)先權日2001年9月24日
發(fā)明者張習民, A·維特羅, 羋, 施云慶, 孫惠方 申請人:三菱電機株式會社