專利名稱:用于子畫面生成的全局運動估計的制作方法
本申請是基于國際申請日為2001年5月24日、申請?zhí)枮?1810756.7、發(fā)明名稱為“用于子畫面生成的全局運動估計”的分案申請發(fā)明背景本發(fā)明涉及子畫面生成與3D運動估計,以及全局運動估計的新開發(fā)技術(shù)。
1.介紹子畫面系表示整個可見場景的靜止畫面。一幅子畫面可通過亮度、色度、與灰度阿爾法數(shù)據(jù)的二維空間數(shù)組表示。
實際上,子畫面是從計算機動畫繪圖產(chǎn)生,或在多個部分的靜態(tài)背景上所得到的自然圖像集。就此意義來說,子畫面具有與攝影測量法的圖像鑲嵌、圖像處理、及計算機繪圖相同的意義。
例如,如圖9所示,子畫面950可從連續(xù)圖像910和930形成。子畫面950的每個特征可與來自輸入圖像(例如某些幀)910和930的相應(yīng)特征對準。運動參數(shù)描述與輸入圖像特征最匹配的子畫面的彎曲。子畫面可能必須使序列中的每個輸入幀作不同的彎曲,這例如是起因于攝像機運動或?qū)ο蟮倪\動。
例如,樹對象912″是基于來自第一輸入圖像910的樹對象912。房子對象914″是分別基于來自第一及第二輸入圖像910和930的房子對象914和914′。樹對象916″基于第二輸入圖像930的樹對象916′。
而且,如果子畫面是個序列中的背景對象,由于前景物件或攝像機運動(例如移動攝像),該背景對象在某些幀中不是全部可見,則整個子畫面可通過收集輸入幀的相關(guān)像素而在序列上將它逐漸更新獲得。
子畫面已在例如視頻游戲、交互式廣告、虛擬旅行等的各種不同應(yīng)用中變得很流行。子畫面可提供有效途徑來實現(xiàn)場景導(dǎo)航。在任何角度上的任何一部分景象可通過適當彎曲及裁剪子畫面而構(gòu)造出來。因此,它在網(wǎng)絡(luò)廣告中使用得越來越多。例如,子畫面可用來顯示汽車的內(nèi)部結(jié)構(gòu),而且用戶可通過旋轉(zhuǎn)可見角度來對它進行檢視及/或縮放。
另一范例是通過使用子畫面來傳送股市行情指示器,而不用活動視頻,根據(jù)我們的研究,其可減少20倍以上的數(shù)據(jù)量。標志符(例如,站臺標識、廣告或類似物)亦可當作子畫面?zhèn)魉汀?br>
子畫面在新圖像中可被再次訪問,該子畫面中的場景具有冗余性或者說具有很容易被重新編碼的部分,所以子畫面從編碼效率的觀點來看是非常有益的。因此,MPEG-4(國際標準的ISO/IEC 14496-2最后草擬″Information Technology-Coding of audio-visual objects,Part 2visual,″MPEG98/N2502,1998年12月)已通過將它們收入到其視頻部分,對子畫面編碼工具進行標準化。靜態(tài)子畫面只可提供子畫面部份(sprite piece)的彎曲結(jié)果,而動態(tài)子畫面(DS)與全局運動補償(GMC)允許將彎曲結(jié)果與先前譯碼的視頻對象平面(VOP)混合及局部調(diào)整。子畫面部份基本上是一幅圖像,但是其源自于圖像鑲嵌(例如,鑲嵌部份)。
靜態(tài)子畫面已用于MPEG-4視覺版本1,而且DS和GMC可預(yù)期包含在版本2中。根據(jù)版本1語法,靜態(tài)子畫面部份可立即在序列的起始位置上或在低延時模式下逐部份作為一般內(nèi)部VOP被編碼。全局運動參數(shù)(于預(yù)期的運動模型可多達8個)亦在每個VOP上編碼。但是,子畫面部份與全局運動參數(shù)不屬于MPEG-4編碼器,而是用作MPEG-4編碼器的輸入。
雖然MPEG-4圖像可提供子畫面的編碼工具,但是它對應(yīng)如何生成子畫面沒有作出規(guī)定。在MPEG-4圖像確認模型版本9.1(信息部分)的信息部分中(ISO/IEC 14496-2 MPEG-4 Video Verification ModelVersion 9.1,MPEG98/M3100,F(xiàn)eb.1998),只提供了參考算法的簡短描述。
因此,有必要提供一種改進的全局運動估計技術(shù)來生成離線子畫面。該技術(shù)應(yīng)該對在MPEG-4(可參考MPEG98/M31002,及由J.Konrad和F.Dufaux于1998年2月所作標題″Improved global motion estimationfor N3″的文章,ISO/IEC JTC1/SC29/WG11 MPEG98/M3096)的核心實驗所提出的參考算法進行擴充。
最初MPEG-4方法采用預(yù)期全局運動估計的迭代非線性最小化算法。此迭代算法嚴重依賴初始估計的質(zhì)量。
因此,希望改進子畫面編碼的效率并允許源序列具有更多的靈活性,比如可通過提供新工具,例如自動子畫面生成系統(tǒng)、初始估計的第一階預(yù)測、異常畫面排除的延遲刪除、及隔行掃描視頻源的基于場的子畫面生成等。
希望提供一項技術(shù)來根據(jù)預(yù)先彎曲及遞歸技術(shù)確定更為精確的初始估計。
希望使用一種有效的異常畫面排除方法而改善子畫面生成與運動參數(shù)的精確性。
在控制與未受控制的情況下,同時希望改善子畫面生成與運動參數(shù)的質(zhì)量。受控制情況是在正常環(huán)境中預(yù)期的理想狀況,例如,景象沒有噪聲、視頻圖像于不同的幀之間較慢運動。
本發(fā)明可提供具有上述及其他優(yōu)點的一種系統(tǒng)。
發(fā)明概述本發(fā)明系有關(guān)于子畫面生成與3-D運動估計、及全局運動估計的最新技術(shù)。
因為就局部而言,由MPEG-4提出的子畫面生成算法的全局運動估計技術(shù)容易受到異常畫面與快速運動問題的影響,所以其未能實際使用。
本發(fā)明可通過提供一個完全自動子畫面生成系統(tǒng)、一種初始估計的第一階預(yù)測、異常畫面排除的延遲刪除、及用于隔行掃描視頻源的基于場的子畫面生成來處理上述及其他令人關(guān)注的問題。
作為選擇,初始估計的較高階預(yù)測可用來處理更復(fù)雜的運動。
本發(fā)明對于生成子畫面很有用,例如,3D序列、股市行情指示器、交互式廣告及多種其他用途。
特別是,自動子畫面生成可通過在輸入圖像上執(zhí)行拍攝檢測而提供,以便提供一組共享相同靜態(tài)背景的連續(xù)圖像來形成子畫面。該拍攝檢測可檢測搖動拍攝,在此情況下運動參數(shù)的初始估計中塊匹配是開啟的;或檢測縮放,在此情況下初始估計的塊匹配是關(guān)閉。
從一連串輸入圖像形成子畫面的運動參數(shù)數(shù)據(jù)的初始估計可根據(jù)在初始輸入圖像之前的至少兩幅輸入圖像的運動參數(shù)而提供,例如,通過使用該兩預(yù)先輸入圖像(至少兩幅)的運動參數(shù)的線性預(yù)測或非線的預(yù)測來進行估計。在一特殊具體實施例中,運動參數(shù)Sn的初始估計可根據(jù)下式提供Sn=Sn-1+(Sn-1-Sn-2),其中Sn-1是在初始輸入圖像之前的一輸入圖像的運動參數(shù),而且Sn-2是下一個在前的輸入圖像的運動參數(shù)。
在進一步具體實施例中,延遲的異常畫面排除可通過提供對運動參數(shù)數(shù)據(jù)的至少第一及第二連續(xù)估計而實現(xiàn),用以提供在子畫面與初始輸入圖像之間的對準。在初始輸入圖像像素與子畫面像素之間的至少第一及第二誤差可分別根據(jù)至少第一及第二估計而決定。第二估計可基于第一誤差而通過更新第一估計而獲得。第二誤差超出它們第一誤差的像素可從生成子畫面中考慮排除。
在另一具體實施例中,用以從包含隔行掃描的第一及第二場的一連串輸入圖像中生成子畫面數(shù)據(jù)的方法包括下列步驟為輸入圖像的第一及第二場中分別生成第一及第二場子畫面,其帶有分開的運動參數(shù)數(shù)據(jù)組,及從第二場子畫面及用以傳輸給至少一譯碼器的相關(guān)運動參數(shù)數(shù)據(jù)而分開對第一場子畫面及其相關(guān)的運動參數(shù)數(shù)據(jù)進行編碼。
用以在譯碼器上處理子畫面數(shù)據(jù)的相應(yīng)方法包括下列步驟接收從編碼器傳送的數(shù)據(jù),其中數(shù)據(jù)包括一編碼的第一場子畫面及其相關(guān)運動參數(shù)數(shù)據(jù);及一分開編碼的第二場子畫面及其相關(guān)運動參數(shù)數(shù)據(jù)。第一及第二場子畫面可在編碼器上分別從至少一初始輸入圖像的隔行掃描第一及第二場而生成。該方法進一步包括下列步驟對該編碼的第一場子畫面及其相關(guān)運動參數(shù)數(shù)據(jù)進行譯碼,以提供第一場子畫面輸出;對該編碼的第二場子畫面及其相關(guān)運動參數(shù)數(shù)據(jù)進行譯碼,以提供第二場子畫面輸出;并組合該第一場子畫面輸出及第二場子畫面輸出,以形成一組合的子畫面輸出,例如,可用于電視或計算機監(jiān)視器顯示。
圖1顯示根據(jù)本發(fā)明中所描述的子畫面生成裝置。
圖2系描述全局運動估計方法的流程圖。
圖3顯示根據(jù)本發(fā)明而描述自動子畫面生成系統(tǒng)。
圖4系描述異常畫面范例。
圖5(a)系描述使用截除二次方程式(TQ)異常畫面排除方法結(jié)果的一非對齊圖像。
圖5(b)系描述使用截除二次方程式(TQ)異常畫面排除方法結(jié)果的一異常畫面。
圖6系根據(jù)本發(fā)明而描述延遲刪除算法。
圖7系根據(jù)本發(fā)明而的描述全局運動估計的方法。
圖8系所描述子畫面譯碼器。
圖9系所描述子畫面的構(gòu)造。
圖10系根據(jù)本發(fā)明而描述用以處理隔行掃描視頻源的編碼器與譯碼器。
發(fā)明詳述本發(fā)明涉及生成子畫面圖像。
2.子畫面生成與全局運動估計本節(jié)對有關(guān)MPEG-4編碼器子畫面生成作一概述。MPEG-4編碼器的必要輸入是子畫面部份與運動參數(shù)。此運動參數(shù)包括作為特殊情況下(有關(guān)轉(zhuǎn)換運動模型)的傳統(tǒng)運動向量(如同在MPEG-2)。MPEG-4編碼器可通過使用內(nèi)部編碼模式而壓縮該子畫部份。任何時間實例的圖像可根據(jù)運動參數(shù)而通過彎曲子畫面部份的1、2、3、或4角落(因運動模型而定)的子畫面曲線(子畫面參考點)表示。
子畫面部份與運動參數(shù)密切相關(guān),因此,可在子畫面生成中同時被確定。子畫面部份可根據(jù)全局運動參數(shù)將新圖像彎曲及根據(jù)混合方法而將它在目前子畫面上更新而建立。一個主要問題是如何找到每個圖像的運動參數(shù)。此問題會在圖像對準問題的一般情況中發(fā)生。最佳解是使在對準(新圖像)與對準(子畫面)圖像之間的相關(guān)性最大的運動(彎曲)參數(shù)。只使用轉(zhuǎn)換運動的圖像對準的一種統(tǒng)計方法是由W.K.Pratt在1974年5月,IEEE Trans.Aerospace Electronics and Systems,第AES-10冊的第353-358頁的名稱″Correlation techniques of imageregistration″中提供。
需要在3D空間中作完全幾何變換的三維空間(3D)運動允許整個范圍內(nèi)的運動,例如,在兩圖像之間的旋轉(zhuǎn)、縮放、與剪截。對3D運動估計方法的一個概述可參考T.S.Huang、和A.N.Netravali在1997年7月的Proc.IEEE,第82冊,第252-268頁名為″Motion and structure fromfeature correspondencesA review″的文章。
對于自然的圖像而言,MPEG-4子畫面編碼是適于包含靜態(tài)背景與經(jīng)歷攝像機運動的一圖像序列。既然任意形狀的編碼可因相關(guān)的阿爾法平面而定,允許將輸入分成數(shù)個對象,所以此情況可有效用于MPEG-4;因此,有時運動部分可分成另一對象,并從子畫面排除。在此假設(shè)下,一個新圖像部分會受到來自一部分先前圖像或子畫面的變形,因此子畫面的像素是在專利案號MPEG98/M3100及在1997年微軟研究技術(shù)報告,1997年由H.Y.Shum和R.Szeliski所提出,名稱為″Panoramic image mosaics″中所討論通過平面透視變換(向前彎曲)而與遮蓋圖像的像素有關(guān),如下所示x′=m
x+m[1]y+m[2]m[6]x+m[7]y+m[8]]]>y′=m[3]x+m[4]y+m[5]m[6]x+m[7]y+m[8]]]>其中m
到m[8]是預(yù)期系數(shù)(m[8]根據(jù)平面情況被設(shè)成1),并且(x,y)及(x′,y′)分別是彎曲圖像與子畫面的像素坐標。反向彎曲用來描述在遮蓋圖像像素與子畫面像素之間的關(guān)系,即,x=(m[4]m[8]-m[5]m[7])x′+(m[2]m[7]-m[1]m[8])y′+m[1]m[5]-m[2]m[4](m[3]m[7]-m[4]m[6])x′+(m[1]m[6]-m
m[7])y′+m
m[4]-m[1]m[3]]]>y=(m[5]m[6]-m[3]m[8])x′+(m
m[8]-m[2]m[6])y′+m[2]m[3]-m
m[5](m[3]m[7]-m[4]m[6])x′+(m[1]m[6]-m
m[7])y′+m
m[4]-m[1]m[3]]]>平面透視變換的透視系數(shù)是描述在遮蓋圖像與子畫面之間變形的參數(shù)。全局運動估計可在子畫面上嘗試找到遮蓋圖像的最佳對準(運動參數(shù)),其接著可決定變形與預(yù)期系數(shù)。只要遮蓋圖像是經(jīng)由反向彎曲而變換,它便可混合到目前的子畫面中,以建立一更新的子畫面。反向彎曲通常可取代向前彎曲,以避免由于將向前彎曲目前子畫面延伸而造成更新子畫面中的孔洞。本發(fā)明可應(yīng)用于向前或反向彎曲。
混合是離線子畫面生成的最后處理步驟?;旌峡山邮軆陕份斎氩⒏鶕?jù)一加權(quán)因子而將他們一起混合。加權(quán)因子是在任何位置上指定兩輸入之間的混合比率。在MPEG-4中,它是用于子畫面中任何像素的一個整數(shù)變量,而且它可通過定義的常數(shù)而增加,例如每當它對應(yīng)像素更新時的常數(shù)。通過使用相等加權(quán)將新圖像不斷增加(更新)到子畫面,單幅圖像的噪聲便可排除。注意,在線子畫面編碼處理的混合可通過使用新的VOP與子畫面而構(gòu)成一更新的子畫面。在此情況中,混合因素是在0與1之間的(混合因子在靜態(tài)子畫面中始終是1)的一浮點小數(shù)常數(shù)。
3.MPEG-4預(yù)期的運動估計算法MPEG-4中有關(guān)子畫面生成的研究由核心實驗N3進行。兩全局運動估計算法(MPEG98/M3096及C.Gu,T.Markoc,R.Szeliski和M.C.Lee,名稱″Results report on core experiment N3-Sprite generation″,ISO/IEC JTC1/SC29/WG11 MPEG96/M1350,1996年9月)已在N3展開研究,并且廣泛應(yīng)用于子畫面編碼的核心實驗中。M1350建議在MPEG-4 VM(M3100)的附錄中形成一個參考算法。M3096建議是根據(jù)M3100的改進方法。在下列各單元中描述這兩算法的細節(jié)。
3.MPEG96/M1350建議圖1系根據(jù)本發(fā)明而顯示的離線子畫面生成裝置100的一個概述。
裝置100基于MPEG-4 VM(基于M1350),但是建議采用運動估計功能110的新算法。圖1的所有組件需要被用來生成子畫面部份。運動估計功能110可接收遮蓋數(shù)據(jù)、VOP數(shù)據(jù)、與幀存儲140中的數(shù)據(jù)。彎曲功能120可根據(jù)VOP數(shù)據(jù)與運動估計功能110的輸出而提供彎曲。混合功能130可根據(jù)VOP數(shù)據(jù)、彎曲功能的輸出、及幀存儲而提供混合,以提供子畫面。特別是,混合功能130可通過將當前VOP(在一適當彎曲之后)混合到現(xiàn)有子畫面部份而更新子畫面部份。
類似于前面部分所討論的彎曲與混合方法也可在此過程中采用。因為在MPEG-4采用的預(yù)期運動模型是非線性運動估計,其可通過找到輸入圖像的最適宜變形參數(shù)而嘗試減少在輸入圖像與子畫面之間的誤差,必須依賴一種非線性最小化技術(shù)。MPEG-4 VM的預(yù)期運動估計核心處理稱為″Levenberg-Marquardt″(LM)的一種非線性最小化技術(shù)(可參考W.H.Press,S.A.Teukolsky,W.T.Vetterling和B.P.Flannery,″Numerical recipes in C″,Cambridge Univ.Press,1992),其本質(zhì)上是一迭代算法。LM技術(shù)可根據(jù)X2優(yōu)點功能(雖然X2未在VM中使用)而通過在最陡峭下降與反向Hessian方法之間適當調(diào)整它的算法而有效解決非線性最小均方問題。LM嘗試解決以下正態(tài)方程。
Δm=A-1b其中A是具有下列組件的一近似海森伯矩陣(Hessian matrix)aki=Σi∂ei∂nk∂ei∂ni.]]>b是具有下列組件的加權(quán)梯度向量bk=-Σiei∂ei∂nk]]>一高斯角錐可與LM同時使用,以加速處理過程。在角錐水平之間的運動參數(shù)可通過下式描述其關(guān)系m6=m6/2,m7=m7/2,m2=m2*2,m5=m5*22.2 MPEG96/M1350建議圖2顯示對MPEG-4 VM預(yù)期運動估計的一個改進。
此技術(shù)是以使用三步驟搜尋塊匹配算法(塊210)進行初始估計而開始,用來估計轉(zhuǎn)換的運動參數(shù)。此估計是在粗略(最低)分辨率上執(zhí)行。從初始估計獲得的運動參數(shù)可開始LM算法,該LM算法可從粗略分辨率開始遞歸執(zhí)行并改進在較佳(較高)分辨率(方塊220、280)上的結(jié)果。每個階段的結(jié)果是在32次迭代(方塊250-270)之后的結(jié)果。然而,只要更新的參數(shù)小于一預(yù)設(shè)臨界值(方塊240),迭代便可停止。
異常畫面的效果可通過例如″截除二次方程式″(方塊230)的一種異常畫面排除方法而減輕。它可根據(jù)該階段的LM決定的運動參數(shù)而將輸入圖像與子畫面對齊,然后計算兩對象內(nèi)每個像素的誤差(在此情況是二次方程式函數(shù))。促成該圖像10%最高誤差的任何像素可從隨后的減小化過程排除。截除二次方程式處理可在每個分辨率的第一迭代上實施。
3.建議的修改技術(shù)根據(jù)本發(fā)明,本節(jié)描述對預(yù)期運動估計的修改,以改善在未受控制情況中的性能。當在場景中高速運動時,例如快速搖動拍攝情況下,這種情況便可能發(fā)生。所建議的修改技術(shù)是使用LM來減少在子畫面與輸入圖像之間的不同幀中的差別。初始估計的高精度對于LM涵蓋全程最小值是必不可少的。第一單元(3.1)將更詳細討論此問題。
還要描述對MPEG-4 VM進行修改以改善初始估計精度。第二單元(3.2)還將討論在未受控制情況下的另一問題,該情況下在場景中存在噪聲。第二單元將顯示TQ方法不適用于異常畫面排除,并提出一種較佳的選擇。第三單元(3.3)將討論處理隔行掃描視頻源一種方法。此問題尚未在核心實驗N3中研究。
從自然圖像序列中生成在線子畫面需要可自動創(chuàng)建適用于子畫面輸入序列的一個預(yù)處理階段。
圖3中顯示本發(fā)明的自動子畫面生成系統(tǒng)的示意圖。此系統(tǒng)包括拍攝檢測(塊310),以便將共享相同靜態(tài)背景的圖像聚集起來,如此可適用于子畫面生成。一次拍攝中含有來自同一攝像機對相同景象(不必是靜態(tài))的一個圖像序列。子畫面部份可在系統(tǒng)接收一適當輸入圖像時而每次自動更新。當在相同景象有足夠的數(shù)據(jù)時,子畫面便可使用;否則,此序列便認為不適合于子畫面編碼。一個好的拍攝檢測算法可指定在該拍攝中的運動特征(例如,縮放、搖動),所以全局運動估計可適當(例如,當有一搖動/縮放運動時,可啟動/關(guān)閉初始估計的塊匹配)調(diào)整它的參數(shù)??墒褂萌魏我阎呐臄z檢測方法。
當前景對象(例如,在背景中作不同移動的一對象)存在于場景中時,可能需要一種自動遮蓋處理過程(塊310)。遮蓋可從在前景與背景(假設(shè)在前景與背景的顏色是明顯不同)之間的色距差別而合成,其類似藍屏技術(shù)(可參考在1998年9月17日由K.Panusopone和X.Chen所申請的美國專利案號09/156,790名稱″Modified Chroma Keyed TechniqueFor Simple Shape Coding for Digital Video″)。在這種情況中,需要采用覆蓋前景的所有背景。
注意,可用數(shù)據(jù)可由兩方塊310和340使用。圖3每次只考慮一次拍攝,所以拍攝檢測只使用可用數(shù)據(jù)(在相同拍攝中的所有圖像是可用的數(shù)據(jù))來檢測相同的拍攝。
相同拍攝決定塊320可使用先前可用數(shù)據(jù)的知識來分析輸入幀,以決定該輸入幀是否屬于相同的拍攝。此分析包括計算相關(guān)參數(shù)。
一個″足夠數(shù)據(jù)″決定塊350可保持追蹤圖像序列的持續(xù)時間。子畫面的有用輸入應(yīng)該足夠長,以便在子畫面找出明顯的趨勢。
子畫面生成塊340在圖1中描述。
3.1初始估計MPEG-4 VM預(yù)期運動估計是在連續(xù)圖像之中有一小變形假設(shè)下進行的。在此情況中,LM可適度收斂以將最近圖像的運動參數(shù)當作一初始估計。若要維持此假設(shè),輸入序列只需要慢速運動。但是這會造成攝影師的明顯不方便。當最后參數(shù)是實質(zhì)不同于初始估計時,我們的實驗便可確定重復(fù)使用先前運動參數(shù)不會導(dǎo)致使用LM來得到滿意結(jié)果。此問題的解決是要使用過去運動歷史決定初始估計。隨著此方法,只要運動在相同圖案中發(fā)生,初始估計便接近最后的參數(shù),而不管參數(shù)在連續(xù)圖像之間的如何不同。
任何類型(以自相關(guān)性為基礎(chǔ))的線性預(yù)測(例如,差分脈碼調(diào)制DPCM)或非線性預(yù)測(例如,樣條內(nèi)插)可用來決定初始估計。最簡單的第二階預(yù)測可依下列數(shù)學描述S‾n=S‾n-1+(S‾n-1-S‾n-2)]]>S‾n=m
m[1]m[2]m[3]m[4]m[5]m[6]m[7]m[8]′]]>其中是第n圖像的運動參數(shù),且上標″t″表示一轉(zhuǎn)置。此第二階預(yù)測不同于重復(fù)使用的過去運動參數(shù),它增加了前一幀圖像及前兩幀圖像運動參數(shù)之間的殘差。第二階預(yù)測是攝像機在大致相同速度上操作假設(shè)下進行的。當運動不跟隨先前兩圖像圖案時,此預(yù)測的缺點便會在不尋常情況下發(fā)生,在此情況下,預(yù)測的初始估計可能比重復(fù)使用作參數(shù)所獲得的估計更壞。
因為當連續(xù)圖像對在例如縮放情況下轉(zhuǎn)換的其他參數(shù)中具有一強運動時,它可選取一個完全不相關(guān)的初始估計,所以塊匹配(例如在M3096中使用的塊匹配)不適于初始估計。然而,當輸入序列經(jīng)歷到例如在運動連續(xù)鏡頭的一不可預(yù)測的搖鏡時,建議采用塊匹配。
3.2異常畫面排除很難保證所有自然輸入圖像的所有背景是靜態(tài)的。因為在一樹上運動的葉子或在拍攝期間人們轉(zhuǎn)動他們頭部而發(fā)生的一個異常畫面會不利于LM處理。如果異常畫面在場景中是主要部份,那么異常畫面的影響會較嚴重,例如,來自異常畫面的誤差與來子其余場景的誤差相比較會特別強。通過異常畫面排除,LM性能可明顯得到改善,因為來自異常畫面的誤差可被排除。而且,當運動參數(shù)幾乎是最適宜時,異常畫面便會帶來一較大誤差。
圖4系描述一異常畫面的實例。例如,除了在圖像1(400)的眼睛410、415是閉合,而在圖像2(450)的眼睛410′、415′是睜開之外,在400和450顯示的兩臉部圖像是相同的。當運動參數(shù)是最適宜時,睜開的眼睛410′、415′因此是異常畫面。
TQ利用上述原理工作,以選擇性排除出現(xiàn)最高10%誤差的所有像素。也就是說,根據(jù)圖2,目前VOP可通過從先前VOP(在最粗略分辨率下)或先前階段(較粗略分辨率)獲得的彎曲參數(shù)而彎曲。目前VOP的所有像素誤差然后可分類,而且生成高10%誤差的像素被申明為異常畫面。
然而,當運動參數(shù)不是接近最適宜時,此直接的技術(shù)性能較差。在這種情況下,TQ的問題是在場景的某一重要特征不正確對齊,而且類似于一異常畫面。
本發(fā)明可通過使用異常畫面排除的延遲刪除而克服此問題。
圖5(a)和5(b)顯示截除二次方程式方法中所存在問題示例。例如,假設(shè)分別具有符號′T′515、525的兩連續(xù)幀510、520,如圖5(a)所示,它們沒有對齊。圖5(b)的圖像550為顯示彎曲參數(shù)為零(假設(shè)沒有先前信息可用)情況下的異常畫面。不幸地是,在這里圖5(b)中的所有細節(jié)將可根據(jù)TQ而被排除,因此,其余細節(jié)將不能決定正確的全局運動。
通常,異常畫面像素是隨機出現(xiàn)的,與噪聲類似,這表示它們與較好的運動參數(shù)有較差的匹配,而它不可能在一重要特征中發(fā)生。也就是說,不一致現(xiàn)象不應(yīng)該在一個重要特征中發(fā)生,比如,對于一條直線,其通常生成較低的誤差,并有較好的匹配(更多次迭代)。只有一些決定性特征足以決定最佳運動參數(shù),認識到這一點是重要的。在實施中,盡可能多使用測試數(shù)據(jù),因為決定性特征非常不容易被識別。測試數(shù)據(jù)不僅包含決定性特征與異常畫面,而且包含例如一簡單背景的無意義數(shù)據(jù),其始終可很好匹配,而無需顯示有關(guān)最佳運動參數(shù)的任何信息。當只允許出現(xiàn)很少誤差時,無意義數(shù)據(jù)將占據(jù)大量剩余的測試數(shù)據(jù)。這種情況的最后結(jié)果將不會類似于最佳的運動參數(shù)。當允許更多誤差時,便可獲得較好的結(jié)果,而且無意義數(shù)據(jù)與重要特征的比率可更為平衡。當然,如果誤差太大,而且異常畫面變成是一個因子時,性能便會開始降低。
圖6顯示根據(jù)本發(fā)明而描述的一種延遲排除處理。在此,異常畫面排除的效率可通過增加延遲排除處理而得到改善。特別是,更可靠信息可使用二次通過(或更多)處理,以取代一次通過的誤差處理。
在第一次迭代(610)中,采用了LM最小化技術(shù),而且誤差(e1)可對于每個像素進行計算。在塊620中,提供比預(yù)設(shè)臨界值更多誤差的像素可能被標志成異常畫面。在另一迭代(630)之后,這些像素可重新被檢查,而如果這些像素是重要特征,以允許它們可更好地對齊。在塊640中,在二次通過具有較高誤差的像素會類似于噪聲,并且被申明成異常畫面。在塊650,異常畫面可被排除。
注意,根據(jù)這一概念,其他結(jié)構(gòu)可使用例如根據(jù)三個或多個階段的延遲刪除等更復(fù)雜方法實施,以指定一異常畫面等。隨著三個或多個更新階段,在效率與復(fù)雜度之間存在一種權(quán)衡。
3.3隔行掃描視頻源的子畫面生成目前,MPEG-4只以幀格式來處理子畫面部份。在目前MPEG-4語法下,有兩可能方法可對隔行掃描輸入圖像當作子畫面進行編碼。第一方法可通過將視頻源變?yōu)橹鹦袙呙枰孕纬蓡螏斎?,并進行通常的子畫面生成過程。第二方法可基于每個場而形成兩個子畫面,然后將兩幀子畫面組合,以生成一幀子畫面。這兩個解決方法具有用以編碼的子畫面部份及用以傳送的一組參數(shù)。然而,這些方法在許多情況不會得到最佳效果。
圖10顯示根據(jù)本發(fā)明而描述的用以處理隔行掃描視頻源的一種編碼器1000及譯碼器1050(例如,在譯碼器族群中)。在此,可修改MPEG-4語法,以便例如在子畫面生成與編碼功能1010和1030上處理作為兩獨立輸入(用于每個場)的隔行掃描視頻源。在編碼之后,可在多路器1020中復(fù)用,然后在網(wǎng)絡(luò)1040上傳送,兩場子畫面及相關(guān)運動參數(shù)數(shù)據(jù)可在解復(fù)用器1060上解復(fù)用,并且在譯碼功能1070和1080中譯碼。
各場子畫面可從相應(yīng)功能1070和1080輸出,并且在一顯示引擎1090上組合,以形成子畫面輸出,例如在顯示器1095中輸出。
注意,編碼器1000及譯碼器1050是以簡化形式顯示。而且,雖然功能1010和1030,與1070和1080分開描述,但它們在實際中可利用一般軟件及/或硬件實現(xiàn),本領(lǐng)域中的專業(yè)人員應(yīng)該能夠理解。
在此具體實施例中,兩子畫面部份可分開編碼,而且兩組運動參數(shù)必須都被傳送及解碼。然而,該子畫面的性能相比其他兩種MPEG-4方法要較好一些,比如,對于復(fù)雜運動,其中相同幀的兩場可能具有一不同變形(運動參數(shù))。
4.子畫面生成的指標關(guān)于子畫面生成,我們從實驗中收集了數(shù)個觀察結(jié)果。這些觀察結(jié)果是成功子畫面生成的指標。
1.初始估計是減小處理量的最重要因素。一個較好的初始估計具有較高機會獲得最佳子畫面運動參數(shù)。
2.攝像機的速度應(yīng)該是常數(shù)(以任何速度),因為我們的初始估計是基于線性預(yù)測模型(距離誤差)。
3.更復(fù)雜預(yù)測模型(例如,速度誤差)可適用于攝像機速度的高度復(fù)雜功能情形。
4.因為在對預(yù)測模型預(yù)測可靠初始估計之前,它需要填充相關(guān)的過去歷史記錄,所以攝像機的速度或方向的變化可以一逐漸變化的速率(例如,從其余位置到操作速度)實現(xiàn)。
5.當目前圖像經(jīng)歷到縮放、裁剪、或旋轉(zhuǎn)時,根據(jù)塊匹配(例如,M3096)的初始估計效果不好,但是它通常對于復(fù)雜搖鏡的情況有幫助。裁剪是將一矩形改變成一平行四邊形的效果。
6.異常畫面排除可有助于保留場景的重要特征。沒有可靠異常畫面排除,就不容易將精確細節(jié)(例如,本文)對齊。
7.將第一通過的最后運動參數(shù)當作第二通過的初始估計的二次通過系統(tǒng),可略微得到改善(小于1分貝,PSNR)。較高階系統(tǒng)(例如,三、四)預(yù)期可在此二次通過系統(tǒng)上生成可以忽略的改善。
8.通過任何輸入圖像誤差對準所生成子畫面中具有相同效果,而不管誤差發(fā)生的階數(shù)。此更普通的項中亦是如此,例如,發(fā)生(VOP數(shù)目)的階數(shù)。
圖7系根據(jù)本發(fā)明處理而顯示的全局運動估計。
該處理基于圖2,但不同的是在塊710、715和720。
明確地說,在塊710上,可得到運動參數(shù)的改良初始估計。使用8個運動參數(shù)(例如,先前討論的m
至m[8])的線性預(yù)測、或可使用塊匹配?;蛘呖墒褂梅蔷€性預(yù)測。而且,這些運動參數(shù)不是部分的MPEG-4子畫面編碼,而該MPEG-4子畫面編碼系使用從運動參數(shù)取得的4個角落位置。
在塊715上,子畫面的最初兩次迭代能以較高像素分辨率進行。
在塊600,可執(zhí)行圖6的延遲異常畫面排除。
圖8顯示子畫面的譯碼器800,其包括I-VOPs的一個形狀/結(jié)構(gòu)譯碼器810、一個形狀/結(jié)構(gòu)譯碼器830、及S-VOPs(子畫面VOPs)的一彎曲向量譯碼器、子畫面緩沖器820、及用以提供重建取樣的一個彎曲功能850。
5.模擬結(jié)果在所建議的系統(tǒng)中允許改變的參數(shù)是塊匹配的搜尋范圍、及誤差截除的臨界值。其他變量保持為常數(shù),亦即,迭代次數(shù)、停止的臨界值、像素分辨率(例如,128×128、256×256和512×512)的量/水平,以便在建議的系統(tǒng)與M3096之間作出清楚的比較。所有輸入序列可被剪下或遮蓋,以排除前景物件??赏ㄟ^跳過一固定數(shù)量的圖像而仿真一種未受控制的情況,以建立一種更嚴重的變形。
測試可對各種不同的目標應(yīng)用(例如,股市行情指示器、貨幣行情指示器)進行,以獲得由本發(fā)明所生成的最后子畫面部份。子畫面亦可通過MPEG-4編碼器而與它們相關(guān)運動參數(shù)共同編碼,以描述建議系統(tǒng)的編碼效率。這些測試證明了本發(fā)明的成功之處。
6.結(jié)論此備忘錄系描述子畫面生成的以MPEG-4為基礎(chǔ)的全局運動估計的改善技術(shù)。所建議的技術(shù)在不受控制情況中可比目前MPEG-4方法執(zhí)行得更好,而該不受控制情況更可能實際發(fā)生。VM全局運動估計的數(shù)個主要解決方法已被建議,亦即,初始估計技術(shù)、異常畫面排除的延遲刪除、及隔行掃描視頻源的子畫面生成。所建議的技術(shù)可滿足目前MPEG-4編碼器需求,而且也可為MPEG-4版本2的GMC和DS提供可靠運動參數(shù)。
雖然本發(fā)明通過各種不同具體的實施例進行描述,但是可以理解,在本發(fā)明所申明的權(quán)利要求范圍內(nèi),可對本發(fā)明作各種不同改造與修改。
權(quán)利要求
1.一種用以從多個輸入圖像中生成子畫面的方法,其包含下列步驟在該輸入圖像上執(zhí)行拍攝檢測以提供一組連續(xù)圖像,其可共享形成該子畫面中使用的同一場景。
2.如權(quán)利要求1中所述的方法,其中該場景是一靜態(tài)背景。
3.如權(quán)利要求1中所述的方法,其中該拍攝檢測可檢測縮放和搖動拍攝中的至少一種。
4.如權(quán)利要求1中所述的方法,其進一步包含下列步驟提供對運動參數(shù)數(shù)據(jù)的一個初始估計,當檢測到搖動時,其可通過使用塊匹配而在該子畫面與初始輸入圖像之間提供對準。
5.如權(quán)利要求1中所述的方法,其進一步包含下列步驟提供對運動參數(shù)數(shù)據(jù)的一個初始估計,當檢測到搖動時,其可通過使用塊匹配而在該子畫面與初始輸入圖像之間提供對準。
6.如權(quán)利要求1中所述的方法,其中該拍攝檢測包含場景檢測。
7.一種可從多個輸入圖像中生成子畫面的裝置,其包含用以在該輸入圖像上執(zhí)行拍攝檢測的裝置,以提供一組連續(xù)圖像,該連續(xù)圖像可共享在形成該子畫面中使用的同一場景。
全文摘要
一種自動的子畫面生成系統(tǒng),其采用第一階預(yù)測來作初始估計,對異常畫面(outlier)采用延遲排除、對隔行掃描視頻源采用基于場的子畫面生成方法。初始估計的較高階預(yù)測可用來處理更復(fù)雜的運動。本發(fā)明對現(xiàn)有MPEG-4方案中沒有得到處理的異常畫面及快速運動等問題進行處理。自動子畫面生成可在輸入圖像上通過執(zhí)行拍攝檢測(例如,拍攝全景或縮放)而提供,以便提供形成子畫面中共享同一場景的一組連續(xù)圖像。用以形成子畫面的運動參數(shù)數(shù)據(jù)的初始估計可通過使用至少兩先前輸入圖像的運動參數(shù)數(shù)據(jù)而得到改善。延遲的異常畫面排除可通過排除誤差在連續(xù)子畫面迭代中增加的像素而以兩個步驟執(zhí)行。對于隔行掃描的輸入圖像而言,子畫面及運動參數(shù)組可于每個場分開編碼及傳送。
文檔編號H04N7/26GK1578465SQ20041005018
公開日2005年2月9日 申請日期2001年5月24日 優(yōu)先權(quán)日2000年6月6日
發(fā)明者K·帕努索龐, 陳學敏 申請人:通用儀器公司