專利名稱:視頻編碼方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻壓縮領(lǐng)域,并且更特別地,涉及用于與已經(jīng)被分成連續(xù)幀組(GOF)的原始視頻序列相對應(yīng)的位流的壓縮的三維(3D)視頻編碼方法,該幀組的大小為N=2n,其中n為整數(shù),這些GOF本身再分成連續(xù)的幀對(COF),所述編碼方法包括應(yīng)用到該序列的每個連續(xù)GOF的下述步驟a)時空分析步驟,以最多等于n的給定數(shù)量的層次執(zhí)行并且導(dǎo)致將當(dāng)前GOF時空多分辨率分解為低頻和高頻時間子頻帶,所述步驟自身包括-運動估計子步驟;-對當(dāng)前GOF的2n-1個COF中的每一個執(zhí)行的基于所述運動估計的運動補償時間濾波子步驟;-對從所述時間濾波子步驟得到的子頻帶執(zhí)行的空間分析子步驟;b)編碼步驟,所述步驟自身包括-對從時空分析步驟得到的所述低頻和高頻時間子頻帶和對通過所述運動估計步驟獲得的運動向量執(zhí)行的熵編碼子步驟;-應(yīng)用到如此獲得的編碼序列并且得出所嵌入的編碼位流的算術(shù)編碼子步驟。
本發(fā)明還涉及能夠?qū)崿F(xiàn)所述編碼方法的相應(yīng)視頻編碼裝置。
背景技術(shù):
第一個標(biāo)準(zhǔn)視頻壓縮方案基于所謂的混合解決方案混合視頻編碼器使用預(yù)測方案,其中輸入視頻序列的每個當(dāng)前幀根據(jù)給定參考幀在時間上預(yù)測,并且這樣由所述當(dāng)前幀及其預(yù)測之間的差異得到的預(yù)測誤差被空間變換(該變換為例如二維DCT變換),以便獲益于空間冗余度。稱為3D(或2D+t)子頻帶分析的更新的解決途徑在于按照三維結(jié)構(gòu)對一組幀(GOF)進行處理并且對其進行時空濾波以壓縮低頻能量。
在這樣的3D子頻帶分解方案中引入運動補償步驟允許提高整體編碼效率并且由于子頻帶樹產(chǎn)生了視頻信號的時空多分辨率(分級)表示。如例如表示這樣一種具有運動補償?shù)?D小波分解的圖1中所示,首先對在圖示的情況下包括八個幀F(xiàn)1到F8的輸入視頻序列的每個GOF進行運動補償(MC)以便處理具有大運動的序列,然后使用哈夫(Haar)小波進行時間濾波(TF)(虛線箭頭對應(yīng)于高通時間濾波,而非虛線箭頭對應(yīng)于低通時間濾波)。示出了分解的三個階段(L和H=第一階段;LL和LH=第二階段;LLL和LLH=第三階段),在每個時間分解層次上產(chǎn)生一組運動向量場(分別為MV4、MV3、MV2)。然后通過小波濾波器對每個層次(在上面的例子中為H、LH和LLH)的高頻時間子頻帶和最深層次(LLL)的低頻時間子頻帶進行空間分析,然后熵編碼器允許對由這一時空分解得到的小波系數(shù)進行編碼。對輸入視頻序列的連續(xù)GOF相似地應(yīng)用所有這些操作。
在可以用來對由這種子頻帶分解得到的3D小波系數(shù)進行編碼的不同的熵編碼技術(shù)當(dāng)中,例如在文獻“Low bit-rate scalable videocoding with 3D set partitioning in hierarchical trees(3D-SPIHT)(采用3D集合劃分為等級樹(3D-SPIHT)的低位速率可調(diào)視頻編碼)”(K.Z.Xiong和W.A.Pearlman,IEEE Transactions on Circuits andSystems for Video Technology,卷10,第8期,第1374-1387頁,2000年12月)中描述的所謂的3D-SPIHT算法是最有效的方法之一(并且在“A fully scalable 3D subband video codec(完全可調(diào)整3D子頻帶視頻編解碼器)”(V.Bottreau、M.Bénetière、B.Pesquet-Popescu和B.Felts,Proceedings of IEEE InternationalConference on Image Processing,ICIP 2001,卷2,第1017-1020頁,希臘,薩洛尼卡,2001年10月7-10日)中介紹了其支持可調(diào)整性的擴展)。
在圖2中展示了這種3D-SPIHT算法,圖2表示從子頻帶分解得到的時空方向樹中觀察到的父代-子代相關(guān)性(圖2中的符號如下TF=時間幀,TAS=時間近似子頻帶LL,CFTS=時空近似子頻帶中的系數(shù)或根系數(shù),TDS.LRL=在分解的最后分辨率層次下的時間細節(jié)子頻帶LH,而TDS.HR=較高分辨率下的時間細節(jié)子頻帶H)。所述算法基于這樣一個關(guān)鍵概念通過利用自然圖像所固有的自相似性,通過連續(xù)等級的小波分解預(yù)測不存在重要信息(即,如果在最低等級的分解下,一個系數(shù)按照給定標(biāo)準(zhǔn)是不重要的,那么在所述分解的其它等級下,相應(yīng)于同一區(qū)域的系數(shù)很可能也是不重要的)。3D-SPIHT算法利用了樹狀結(jié)構(gòu)(時空方向樹),該樹狀結(jié)構(gòu)自然地定義了小波系數(shù)的等級金字塔內(nèi)部的空間和時間關(guān)系(樹的根部由最低分辨率下的近似子頻帶(或根子頻帶)的像素組成,并且模式的直接子孫代(或子代)對應(yīng)于金字塔的下一個更精細層次內(nèi)相同體積和方向的像素),并且尋找小波子頻帶中的零樹,以減小它們之間的冗余度。最終按照小波系數(shù)的性質(zhì)可能的零樹根部(或非重要集合)、非重要像素和重要像素來對它們進行編碼。
在現(xiàn)有文獻中,當(dāng)使用3D-SPIHT時,時間分解可能會在將得到單獨一個低頻時間子頻帶的最后的(可能)分解步驟之前停止(見圖3,相比于圖1中所示的完全分解的情況)。然后將小波系數(shù)之間的第一個時間相關(guān)性應(yīng)用于兩個近似子頻帶LL之間。這些系數(shù)的意義是一致的,因為它們是同一分級層次上的近似小波系數(shù),但是所述系數(shù)是高度去相關(guān)的,因為它們包含來自序列的非常不同的部分的信息LL0實際上是由GOF的前四個輸入幀求算出來的,而LL1是由同一GOF的后四個幀求算出來的。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種更為有效的編碼方法,采用這種方法,消除了對SPIHT方法的效率不起主要作用的這種深的時間分解層次上的相關(guān)性(利用子頻帶間相關(guān)性的有益效果主要出現(xiàn)在分解的前幾步)。
為此,本發(fā)明涉及諸如說明書的前言部分中定義的那種編碼方法,并且其特征還在于,當(dāng)所述時間濾波子步驟包括(n-1)個分解層次以致漏失了本將得到單獨一個低頻子頻帶的最終時間分解層次時,按照下述規(guī)則執(zhí)行時空分析和編碼步驟a)將每個當(dāng)前輸入GOF分割成兩個大小為原始大小的一半并且具有一半數(shù)量的COF的新的GOF,所述新的GOF是獨立的并且分別包括所述原始輸入GOF的前面2n-1個幀和后面2n-1個幀;b)在這兩個新的GOF中的每一個中,向下執(zhí)行具有(n-1)個層次的完整的時空多分辨率分解到最后一個低頻時間子頻帶以便對所述新的GOF中的每一個得到僅僅一個最終的近似子頻帶;
c)相繼并且獨立地對這兩個新的GOF應(yīng)用經(jīng)過修改的3D-SPIHT掃描,相對于按傳統(tǒng)方式對原始GOF執(zhí)行的時空分解,由所述SPIHT掃描用來定義小波系數(shù)的等級金字塔內(nèi)部的時空關(guān)系的時空方向樹現(xiàn)在包括原始數(shù)量的子頻帶的一半。
本發(fā)明還涉及一種能夠?qū)崿F(xiàn)所述方法的視頻編碼裝置。
為此,本發(fā)明涉及這樣一種裝置,該裝置包括a)時空分析裝置,以最多等于n的給定數(shù)量的層次應(yīng)用到序列的每個連續(xù)GOF,并且導(dǎo)致將當(dāng)前GOF的時空多分辨率分解為低頻和高頻時間子頻帶,所述分析裝置執(zhí)行-運動估計子步驟;-對當(dāng)前GOF的2n-1個COF中的每一個執(zhí)行的基于所述運動估計的運動補償時間濾波子步驟;-對從所述時間濾波子步驟得到的子頻帶執(zhí)行的空間分析子步驟;b)編碼裝置,它們自身包括-熵編碼裝置,被應(yīng)用到從時空分析步驟得到的所述低頻和高頻時間子頻帶和通過所述運動估計子步驟獲得的運動向量;-算術(shù)編碼裝置,被應(yīng)用到如此獲得的編碼序列并且得出所嵌入的編碼位流;所述視頻編碼裝置的特征還在于,當(dāng)所述時間濾波子步驟包括(n-1)個分解層次以及漏失了本將得到單獨一個低頻子頻帶的最終時間分解層次時,時空分析和編碼裝置采用下述規(guī)則a)將每個當(dāng)前輸入GOF分割成兩個大小為原始大小的一半并且具有一半數(shù)量的COF的新的GOF,所述新的GOF是獨立的并且分別包括所述原始輸入GOF的前面2n-1個幀和后面2n-1個幀;b)在這兩個新的GOF中的每一個中,向下執(zhí)行具有(n-1)個層次的完整的時空多分辨率分解到最后一個低頻時間子頻帶以便致針對所述新的GOFs中的每一個得到僅僅一個最終的近似子頻帶;c)相繼并且獨立地對這兩個新的GOF應(yīng)用經(jīng)過修改的3D-SPIHT掃描,相對于按傳統(tǒng)方式對原始GOF執(zhí)行的時空分解,由所述SPIHT掃描用來定義小波系數(shù)的等級金字塔內(nèi)部的時空關(guān)系的時空方向樹現(xiàn)在包括原始數(shù)量的子頻帶的一半。
現(xiàn)在將參照附圖,通過舉例,對本發(fā)明加以介紹,其中圖1表示應(yīng)用到輸入視頻序列的GOF的具有運動補償?shù)?D小波分解;圖2表示在從所述子頻帶分解得到的時空方向樹中觀察到的父代-子代相關(guān)性;圖3表示在先前應(yīng)用3D-SPIHT算法的解決方案中執(zhí)行的具有運動補償?shù)牟煌暾臅r間多分辨率分析的情況,所述分解在得到單獨一個低頻時間子頻帶的最終分解步驟之前即終止;圖4表示按照本發(fā)明原理執(zhí)行的時間分解;圖5表示當(dāng)按照本發(fā)明的所述原理執(zhí)行時間分解時在時空方向樹中觀察到的新的父代-子代相關(guān)性。
具體實施例方式
為了消除圖3的不完整的時間分解的兩個近似子頻帶LL0和LL1之間的相關(guān)性,首先提出了將當(dāng)前輸入GOF分割成兩個具有一半原始大小的獨立的新GOF。然后對每個獨立的GOF執(zhí)行時間分解,所述時間分解是完整的(即,向下執(zhí)行到最后的低時間子頻帶),以便對于每個新的GOF得到了僅僅一個最終的近似子頻帶。
圖4中示出了這一新的時間分解,其中垂直虛線表示對GOF結(jié)構(gòu)的新劃分。每個新的GOF(相對于原始的GOF,具有原始GOF的大小的一半)可以看作是獨立的,并且分別對應(yīng)于這兩個GOF(稱為“GOF 0”和“GOF 1”)中的每一個的所有信息是獨立發(fā)送的。首先發(fā)送“GOF 0”的所有信息(運動向量和子頻帶),子頻帶發(fā)送的自然順序是LL0、LH0、H0并且最后是H1,然后發(fā)送“GOF 1”的所有信息,子頻帶發(fā)送的自然順序類似地為LL1、LH1、H2并且最后是H3。
起源于這種新的時間分解,圖2的原始SPIHT掃描被修改,以便摒棄了來自不同GOF的子頻帶之間的相關(guān)性。對(在所給出的例子中有四幀的)這兩個新的GOF相繼應(yīng)用這種新的掃描,并且使用圖5中所示的不同的父代-子代相關(guān)性組(其中TDS.HR具有與圖2中相同的意義,LDLS.1代表針對GOF的第一部分的最后一個分解層次子頻帶,即LL0和LH0,而LDLS.2代表針對GOF的第二部分的最后一個分解層次子頻帶,即LL1和LH1)來消除兩個近似子頻帶LL0和LL1之間的相關(guān)性,并且因此消除了兩個新的GOF之間的相關(guān)性。
如此提出的技術(shù)解決方案將對于給定分解層次數(shù)的每GOF的幀數(shù)量減少了一半。在與原始解決方案比較時,這可以看作主要的改進之處,因為它將編碼端和解碼端兩端的存儲需求減少了一半。而且,這種方法不會對編碼效率造成任何不良影響,因為經(jīng)過修改的相關(guān)性僅僅影響可以看作不相關(guān)的時間近似子頻帶。
可以注意到,圖5中所示的新的SPIHT掃描可以成功地與圖3所示的原始GOF大小關(guān)聯(lián)起來在那種情況下,可以交替地進行子頻帶發(fā)送,以便首先發(fā)送最重要的信息(發(fā)送順序于是可以是原始的發(fā)送順序LL0、LL1、LH0、LH1、H0、H1、H2、H3)。不過,即使已消除了近似子頻帶之間的相關(guān)性,GOF大小也是原始的GOF大小,并且丟失了存儲空間需求方面的益處。
權(quán)利要求
1.一種用于與已經(jīng)被分成連續(xù)幀組(GOF)的原始視頻序列相對應(yīng)的位流的壓縮的三維(3D)視頻編碼方法,該幀組的大小為N=2n,其中n是整數(shù),這些GOF自身再分為連續(xù)的幀對(COF),所述編碼方法包括應(yīng)用于所述序列的每個連續(xù)GOF的下述步驟a)時空分析步驟,以最多等于n的給定數(shù)量層次執(zhí)行,并且導(dǎo)致將當(dāng)前GOF時空多分辨率分解為低頻和高頻時間子頻帶,所述步驟自身包括-運動估計子步驟;-對當(dāng)前GOF的2n-1個COF中的每一個執(zhí)行的基于所述運動估計的運動補償時間濾波子步驟;-對從所述時間濾波子步驟得到的子頻帶執(zhí)行的空間分析子步驟;b)編碼步驟,所述步驟自身包括-對所述從時空分析步驟得到的低頻和高頻時間子頻帶和對通過所述運動估計步驟獲得的運動向量執(zhí)行的熵編碼子步驟;-應(yīng)用到如此獲得的編碼序列并且得出所嵌入的編碼位流的算術(shù)編碼子步驟;所述編碼方法的特征還在于,當(dāng)所述時間濾波子步驟包括(n-1)個分解層次以致漏失了本將得到單獨一個低頻子頻帶的最終時間分解層次時,按照下述規(guī)則執(zhí)行時空分析和編碼步驟a)將每個當(dāng)前輸入GOF分割成兩個大小為原始大小的一半并且具有一半數(shù)量的COF的新的GOF,所述新的GOF是獨立的并且分別包括所述原始輸入GOF的前面2n-1個幀和后面2n-1個幀;b)在這兩個新的GOF中的每一個中,向下執(zhí)行具有(n-1)個層次的完整的時空多分辨率分解到最后一個低頻時間子頻帶,以便針對所述新的GOF中的每一個得到僅僅一個最終的近似子頻帶;c)相繼并且獨立地對這兩個新的GOF應(yīng)用經(jīng)過修改的3D-SPIHT掃描,相對于按傳統(tǒng)方式對原始GOF執(zhí)行的時空間分解,由所述SPIHT掃描用來定義小波系數(shù)的等級金字塔內(nèi)部的時空關(guān)系的時空方向樹現(xiàn)在包括原始數(shù)量的子頻帶的一半。
2.一種用于實現(xiàn)按照權(quán)利要求1的三維視頻編碼方法的視頻編碼裝置,所述裝置包括a)時空分析裝置,以最多等于n的給定數(shù)量的層次應(yīng)用到所述序列的每個連續(xù)GOF,并且導(dǎo)致將當(dāng)前GOF的時空多分辨率分解為低頻和高頻時間子頻帶,所述分析裝置執(zhí)行-運動估計子步驟;-對當(dāng)前GOF的2n-1個COF中的每一個執(zhí)行的基于所述運動估計的運動補償時間濾波子步驟;-對從所述時間濾波子步驟得到的子頻帶執(zhí)行的空間分析子步驟;b)編碼裝置,它們自身包括-熵編碼裝置,被應(yīng)用到從時空分析步驟得到的低頻和高頻時間子頻帶和通過所述運動估計子步驟獲得的運動向量;-算術(shù)編碼裝置,被應(yīng)用到如此獲得的編碼序列并且得出所嵌入的編碼位流;所述視頻編碼裝置的特征還在于,當(dāng)所述時間濾波子步驟包括(n-1)個分解層次以致漏失了本將得到單獨一個低頻子頻帶的最終時間分解層次時,該時空分析和編碼裝置采用下述規(guī)則a)將每個當(dāng)前輸入GOF分割成兩個大小為原始大小的一半并且具有一半數(shù)量的COF的新的GOF,所述新的GOF是獨立的并且分別包括所述原始輸入GOF的前面2n-1個幀和后面2n-1個幀;b)在這兩個新的GOF中的每一個中,向下執(zhí)行具有(n-1)個層次的完整的時空多分辨率分解到最后一個低頻時間子頻帶,以便針對所述新的GoFs中的每一個得到僅僅一個最終的近似子頻帶;c)相繼并且獨立地對這兩個新的GOF應(yīng)用經(jīng)過修改的3D-SPIHT掃描,相對于按傳統(tǒng)方式對原始GOF執(zhí)行的時空分解,由所述SPIHT掃描用來定義小波系數(shù)的等級金字塔內(nèi)部的時空關(guān)系的時空方向樹現(xiàn)在包括原始數(shù)量的子頻帶的一半。
全文摘要
本發(fā)明總地來說涉及一種用于與已經(jīng)被分成連續(xù)幀組(GOFs)的原始視頻序列相對應(yīng)的位流的壓縮的三維(3D)視頻編碼方法,其中幀組的大小為N=文檔編號H04N7/26GK1720744SQ200380105103
公開日2006年1月11日 申請日期2003年11月27日 優(yōu)先權(quán)日2002年12月4日
發(fā)明者E·巴勞, A·布格, V·博特雷奧 申請人:皇家飛利浦電子股份有限公司