專利名稱:處理和瀏覽所提供的視頻/音頻信號(hào)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻/音頻信號(hào)處理方法和視頻/音頻信號(hào)處理設(shè)備,并且提供一種用于此的有效計(jì)算方法以簡(jiǎn)化(facilitate)諸如(但不限于)來自MPEG壓縮領(lǐng)域的攝像運(yùn)動(dòng)提取和視頻概括(video summarization)的應(yīng)用。
背景技術(shù):
隨著視頻存儲(chǔ)裝置容量的增加,出現(xiàn)了為用戶瀏覽方便進(jìn)行視頻內(nèi)容的構(gòu)建和概括的需要。元數(shù)據(jù)(即,關(guān)于數(shù)據(jù)的數(shù)據(jù))使視頻瀏覽成為可能,該元數(shù)據(jù)最好被自動(dòng)提取。
圖1描述了從在像素域中的MPEG(運(yùn)動(dòng)圖像專家組)壓縮視頻提取與元數(shù)據(jù)有關(guān)的運(yùn)動(dòng)的現(xiàn)有技術(shù)。MPEG視頻至像素域的全解碼(Full decoding)由MPEG解碼單元11執(zhí)行。運(yùn)動(dòng)估計(jì)單元12(基于本領(lǐng)域技術(shù)人員都知道的光流計(jì)算或塊匹配)從視頻流的像素表示中計(jì)算運(yùn)動(dòng)矢量。參數(shù)和攝像運(yùn)動(dòng)計(jì)算單元13從這些運(yùn)動(dòng)矢量中計(jì)算涉及元數(shù)據(jù)的運(yùn)動(dòng)。
對(duì)于像素域中的攝像運(yùn)動(dòng)估計(jì),有Ingemar J.Cox,Sebastien Roy的專利“US5,751,8385/1998“在兩圖像幀382/107間的攝像運(yùn)動(dòng)的校正(Correction ofc amera motion between two image frames382/107)”以及出版物。
在Yi Tong Tse和Richard L.Baker的“視頻壓縮的全局縮放/全景估計(jì)以及補(bǔ)償(Global Zoom/Pan estimation and compensation for video compression)”ICASSP 91,1991,2725-2728頁中估計(jì)了視頻編碼的攝像縮放和全景。但是,該方法在不是已建模的那些攝像運(yùn)動(dòng)類型的情況下可能產(chǎn)生不可靠的結(jié)果。
在SPIE的1992年第1818卷的視覺通信和圖像處理部分1522-1530頁中發(fā)表的A.Akutsu,Y.Tonomura,H.Hashimoto,Y.Ohha的“使用運(yùn)動(dòng)矢量進(jìn)行視頻檢索(Video indexing using motion vectors)”中分析了使用霍夫變換(Hough Transform)像素域中的攝像運(yùn)動(dòng),然而所描述的方法沒有提取攝像運(yùn)動(dòng)量。
在IEEE Trans.CSVT的1994年6月卷4第3冊(cè)的288-296頁中發(fā)表的Jong-II Park,Nobuyuki Yagi,Kazumasa Enami,Kiyoharu Aizama,MitsutoshiHatori的“對(duì)基于視頻編碼模型的圖像序列中的攝像參數(shù)的估計(jì)(Estimationof Camera Parameters from Image Sequence for model based video coding)”以及在“信號(hào)處理圖像通信”的1996年第9卷43-53頁中發(fā)表的Jong-II Park,Choong Woong Lee的“從視頻組成的圖像序列中進(jìn)行攝像參數(shù)的強(qiáng)健(robust)估計(jì)(Robust estimation of camera parameters from image sequence for videocomposition)”中發(fā)現(xiàn)了使用紋理傾斜度的像素域中的特征點(diǎn),并確定了這些特征點(diǎn)的運(yùn)動(dòng)的攝像運(yùn)動(dòng)。
在“信號(hào)處理圖像通信”的1996年第9卷43-53頁中發(fā)表的Jong-II Park,Choong Woong Lee的“從視頻組成的圖像序列中進(jìn)行攝像參數(shù)的強(qiáng)健估計(jì)(Robust estimation of camera parameters from image sequence for videocomposition)”中使用了非正常值拒絕方法使得在像素域中的攝像運(yùn)動(dòng)估計(jì)更強(qiáng)健。
在1995年的Proc.ICPC的406-409頁中發(fā)表的Y.P.Tan,S.R.Kuilarni,PJ.Ramadge的“攝像運(yùn)動(dòng)參數(shù)估計(jì)的新方法(A new method for camera motionparameter estimation)”中描述了根據(jù)攝像運(yùn)動(dòng)的小總量的假設(shè)的像素域中的攝像運(yùn)動(dòng)估計(jì)的回歸最小二乘法。
在“信號(hào)處理圖像通信”的1996年第8卷295-307頁發(fā)表的Philippe Joly,Hae-Kwang Kim的“使用時(shí)空?qǐng)D像進(jìn)行攝像工作和視頻微分割的有效自動(dòng)分析(Efficient automatic analysis of camera work and microsegmentation of videousing spatiotemporal images)”中基于蘇貝爾算子(Sobel operator)或標(biāo)準(zhǔn)邊緣檢測(cè)單元以及邊緣至線條圖形的時(shí)空投射描述了像素域中的攝像運(yùn)動(dòng)估計(jì)算法。使用霍夫變換分析線條圖形以提取運(yùn)動(dòng)方向中的邊緣。
在荷蘭政治地理學(xué)的“線條識(shí)別”的1997年第30卷第4冊(cè)593-606頁發(fā)表的M.V.Srinivasan,S.Venkatesh,R.Hosi的“從視頻序列中定性估計(jì)攝像運(yùn)動(dòng)參數(shù)(Qualitative estimation of camera motion parameters from videosequence)”中,從像素域中的未壓縮視頻中提取攝像運(yùn)動(dòng)參數(shù),其中分別提供攝像全景、傾斜、旋轉(zhuǎn)和縮放的總量。
在ICASSP 99,1999中發(fā)表的Richard R.Schultz,Mark Galford的“通過使用匹配特征點(diǎn)選擇的自動(dòng)塊進(jìn)行的投射變換的多幀綜合(Multiframeintegration via the projective transform with automated block matching featurepoint selection)”建議了一種基于非線性投影變換模型的像素域中的自像素分辨率圖像注冊(cè)算法以便計(jì)算攝像平移、旋轉(zhuǎn)、縮放、全景和傾斜。
在IEEE圖像編碼論文集,PCS99,1999中發(fā)表的R.S.Jasinschi,T.Naveen,P.Babic-Vovk,A.J.Tabatabai的“視在3-D攝像速度提取及其應(yīng)用(Apparent 3-Dcamera velocity extraction and its Applicants)”中描述了用于數(shù)據(jù)庫查詢和子畫面(拼接)應(yīng)用的像素域中的攝像速度估計(jì)。
由于視頻內(nèi)容的巨大存儲(chǔ)量,出現(xiàn)了越來越多的采用MPEG-1/MPEG-2或MPEG-4格式壓縮的視頻材料。但是,針對(duì)像素域而開發(fā)的攝像運(yùn)動(dòng)估計(jì)算法卻不是能夠直接應(yīng)用到MPEG壓縮領(lǐng)域的。因此,需要MPEG壓縮位流的時(shí)間耗費(fèi)解碼以及像素域中的計(jì)算需求運(yùn)動(dòng)估計(jì),并且必須執(zhí)行攝像運(yùn)動(dòng)估計(jì)(圖1)。
而且,為了避開像素域中的MPEG視頻解壓縮和攝像運(yùn)動(dòng)估計(jì)的計(jì)算負(fù)擔(dān),已經(jīng)建議了在壓縮域中執(zhí)行的攝像運(yùn)動(dòng)估計(jì)。先前的對(duì)于壓縮域中的攝像運(yùn)動(dòng)估計(jì)是基于使用MPEG運(yùn)動(dòng)矢量并將它們匹配到描述攝像運(yùn)動(dòng)的參數(shù)運(yùn)動(dòng)模型中的。
圖2描述了MPEG壓縮視頻中的涉及元數(shù)據(jù)的運(yùn)動(dòng)的提取的本領(lǐng)域的當(dāng)前狀態(tài)。MPEG視頻分析由MPEG位流分析單元21執(zhí)行。從該分析的位流中,單元22提取運(yùn)動(dòng)矢量并將其傳遞到參數(shù)和攝像運(yùn)動(dòng)計(jì)算單元23。
在1997年2月的關(guān)于“圖像和視頻數(shù)據(jù)庫V的存儲(chǔ)和檢索”的SPIE會(huì)議的論文集第3022卷200-211頁中發(fā)表的V.Kobla,D.Doermann,K-I.Lin,C.Faloutsos的“使用MPEG視頻的DCT和運(yùn)動(dòng)矢量信息的壓縮域視頻技術(shù)(Compressed domain video indexing techniques using DCT and motion vectorinformation in MPEG video)”中通過使用方向柱狀圖從MPEG壓縮域運(yùn)動(dòng)矢量中確定“流矢量”以便確定全面的轉(zhuǎn)化運(yùn)動(dòng)方向。但是這個(gè)基本模型不能檢測(cè)攝像縮放和旋轉(zhuǎn)。
在ICIP,神戶,1999上發(fā)表的Roy Wang,Thomas Huang的“MPEG域的快速攝像分析(Fast Camera Motion Analysis in MPEG domain)”中描述了在MPEG域中的快速運(yùn)動(dòng)分析算法。該算法是基于使用來自P-幀的MPEG運(yùn)動(dòng)矢量和基于來自B幀的為獲得I幀的內(nèi)插運(yùn)動(dòng)矢量。參數(shù)攝像運(yùn)動(dòng)估計(jì)的非正常值拒絕最小二乘算法被用于加強(qiáng)從這些運(yùn)動(dòng)矢量中的攝像運(yùn)動(dòng)估計(jì)的可靠性。
但是,使用攝像運(yùn)動(dòng)估計(jì)的MPEG運(yùn)動(dòng)矢量具有幾個(gè)缺點(diǎn)。
首先,在壓縮的MPEG流中的運(yùn)動(dòng)矢量不表示真實(shí)的運(yùn)動(dòng),但選擇這些運(yùn)動(dòng)矢量是為了在編碼器上快速和位速率的有效壓縮,并且這些運(yùn)動(dòng)矢量依賴于編碼器廠商的編碼策略,該編碼策略是沒有被MPEG標(biāo)準(zhǔn)化的,可能是截然不同的。例如,與使用具有增加了的搜索范圍的運(yùn)動(dòng)估計(jì)算法的高位速率和高質(zhì)量MPEG編碼相比,為了快速編碼而采用低復(fù)雜運(yùn)動(dòng)估計(jì)算法。比較Kluwer學(xué)院出版社,1999年6月出版的Peter Kuhn的“MPEG-4運(yùn)動(dòng)估計(jì)的算法、復(fù)雜分析和VLSI-架構(gòu)(Complexity Analysis and VLSI-Architecturesfor MPEG-4 Motion Estimation)”,ISBN 792385160。
而且,使用MPEG運(yùn)動(dòng)矢量進(jìn)行攝像運(yùn)動(dòng)估計(jì)的水平較大地依賴于MPEG的圖像組(GOP)結(jié)構(gòu)、視頻采樣速率(例如,每秒30幀)以及其他的因素,并且因此對(duì)于精確攝像運(yùn)動(dòng)估計(jì)來說是不可靠的。例如,市場(chǎng)上的某些MPEG編碼器設(shè)備對(duì)具有快速運(yùn)動(dòng)的序列動(dòng)態(tài)地改變GOP結(jié)構(gòu)。
而且,MPEG運(yùn)動(dòng)矢量(特別是小的運(yùn)動(dòng)矢量)常常被噪聲極大地影響并且可能不可靠。
而且,在使用某些快速運(yùn)動(dòng)估計(jì)算法使用受限運(yùn)動(dòng)估計(jì)搜索區(qū)域的情況下,可能不存在長(zhǎng)的運(yùn)動(dòng)矢量。
而且,僅MPEG視頻的I幀根本不包括運(yùn)動(dòng)矢量。因此,這里是不能使用基于使用MPEG運(yùn)動(dòng)矢量的算法。僅MPEG視頻的I幀是有效的MPEG視頻格式,由于可以進(jìn)行幀精確剪切使得該MPEG視頻格式被用于視頻編輯中。在該領(lǐng)域中,涉及元數(shù)據(jù)的運(yùn)動(dòng)是很重要的,例如,用于確定該攝像工作。
而且,一些諸如DV和MJPEG的壓縮視頻格式是基于象MPEG的相似的DCT(離散余弦變換)結(jié)構(gòu)的,但是不包括運(yùn)動(dòng)信息。因此對(duì)于這些情況不使用基于包含在壓縮流中的運(yùn)動(dòng)矢量的攝像運(yùn)動(dòng)估計(jì)算法。
而且,從B幀中進(jìn)行運(yùn)動(dòng)矢量?jī)?nèi)插獲得I幀對(duì)于快速攝像或?qū)ο筮\(yùn)動(dòng)的情況是失敗的,在這些情況中出現(xiàn)了新圖像內(nèi)容。
發(fā)明內(nèi)容
由于本領(lǐng)域的上述狀態(tài),本發(fā)明的一個(gè)目的在于提供用于從壓縮的視頻中提取和瀏覽涉及元數(shù)據(jù)的運(yùn)動(dòng)的一種視頻/音頻信號(hào)處理方法和一種視頻/音頻信號(hào)處理設(shè)備。
在本發(fā)明中,運(yùn)動(dòng)元數(shù)據(jù)的主要應(yīng)用包括視頻概括、攝像運(yùn)動(dòng)表示以及基于視頻瀏覽的運(yùn)動(dòng)。
根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)以實(shí)現(xiàn)上述目的。該設(shè)備包括步驟提取至少一個(gè)表示在所述的視頻/音頻信號(hào)的壓縮域中的所述視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn);對(duì)在所述提取步驟提取的特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì);并通過預(yù)設(shè)數(shù)量的構(gòu)成所述視頻/音頻信號(hào)的幀跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,在壓縮域中提取視頻/音頻信號(hào)的特征點(diǎn),執(zhí)行所提取的特征點(diǎn)的運(yùn)動(dòng)估計(jì),并且跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)以實(shí)現(xiàn)上述目的。該設(shè)備包括提取裝置,提取至少一個(gè)表示在所述的視頻/音頻信號(hào)的壓縮域中的所述視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn);運(yùn)動(dòng)估計(jì)裝置,對(duì)在所述提取裝置提取的特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì);以及特征點(diǎn)跟蹤裝置,通過預(yù)設(shè)數(shù)量的構(gòu)成所述視頻/音頻信號(hào)的幀跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,在壓縮域中提取壓縮域特征點(diǎn)的裝置提取視頻/音頻信號(hào)的特征點(diǎn),執(zhí)行特征點(diǎn)的運(yùn)動(dòng)估計(jì)的裝置執(zhí)行所提取的特征點(diǎn)的運(yùn)動(dòng)估計(jì),并且跟蹤特征點(diǎn)的裝置跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
而且,一種視頻/音頻信號(hào)處理方法被用于處理和瀏覽所提供的視頻/音頻信號(hào)以便實(shí)現(xiàn)上述目的。該方法包括步驟分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立步驟包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀(keyframe)進(jìn)行瀏覽;以及通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行的瀏覽,以及執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行的瀏覽。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理和瀏覽所提供的視頻/音頻信號(hào)以便實(shí)現(xiàn)上述目的。該設(shè)備包括建立裝置,用于分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立裝置包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀,進(jìn)行瀏覽;以及瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,通過建立圖的裝置分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,第一瀏覽裝置執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行的瀏覽,以及第二瀏覽裝置執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行的瀏覽。
并且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于提取用于瀏覽的合成視頻選擇的分級(jí)分解以便實(shí)現(xiàn)上述目的。該方法包括步驟識(shí)別視頻;從表示每一視頻段的所述視頻拍攝(shot)中收集主幀;根據(jù)攝像運(yùn)動(dòng)或全面的運(yùn)動(dòng)信息分類主幀的收集;以及建立視頻的圖形表示,圖形表示是基于所述分類步驟的結(jié)果的、瞬間的以及與視頻拍攝的每一部分有關(guān)的攝像運(yùn)動(dòng)信息,其中所述的圖形表示建立步驟包括由節(jié)點(diǎn)表示視頻拍攝的每一類別的步驟。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,識(shí)別視頻,從視頻拍攝中收集主幀,分類所收集的主幀,并建立視頻的圖形表示。
而且,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備是適用于提取用于瀏覽的合成視頻選擇的分級(jí)分解以獲得上述目的。該設(shè)備包括識(shí)別裝置,用于識(shí)別視頻;收集裝置,用于從表示每一視頻段的所述視頻拍攝中收集主幀;分類裝置,用于根據(jù)攝像運(yùn)動(dòng)或全面的運(yùn)動(dòng)信息分類主幀的收集;以及建立裝置,用于建立視頻的圖形表示,圖形表示是基于所述分類步驟的結(jié)果的、瞬間的以及與視頻拍攝的每一部分有關(guān)的攝像運(yùn)動(dòng)信息,其中所述的圖形表示建立步驟包括由節(jié)點(diǎn)表示視頻拍攝的每一類別的步驟。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,識(shí)別視頻的裝置識(shí)別視頻,收集主幀的裝置從視頻拍攝中收集主幀,分類的裝置分類所收集的主幀,并且建立視頻的圖形表示的裝置建立視頻的圖形表示。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)以實(shí)現(xiàn)上述目的。該方法包括步驟提取至少一個(gè)表示在所述的視頻/音頻信號(hào)的壓縮域中的所述視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,在壓縮域中提取視頻/音頻信號(hào)的特征點(diǎn)。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)以實(shí)現(xiàn)上述目的。該裝置包括提取裝置,用于在所述視頻/音頻信號(hào)的壓縮域中提取表示所述視頻/音頻信號(hào)的特性的至少一個(gè)壓縮域特征點(diǎn)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,在壓縮域中由提取壓縮域特征點(diǎn)的裝置提取視頻/音頻信號(hào)的特征點(diǎn)。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)。該方法包括步驟對(duì)在所述視頻/音頻信號(hào)的壓縮域中的表示所述視頻/音頻信號(hào)的特性的至少一個(gè)特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,執(zhí)行所提取特征點(diǎn)的運(yùn)動(dòng)估計(jì)。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)。該設(shè)備包括運(yùn)動(dòng)估計(jì)裝置,用于對(duì)在所述視頻/音頻信號(hào)的壓縮域中的表示所述視頻/音頻信號(hào)的特性的至少一個(gè)特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,由執(zhí)行運(yùn)動(dòng)估計(jì)的裝置執(zhí)行所提取特征點(diǎn)的運(yùn)動(dòng)估計(jì)。
圖1描述了運(yùn)動(dòng)元數(shù)據(jù)提取的現(xiàn)有技術(shù);圖2描述了運(yùn)動(dòng)元數(shù)據(jù)提取的其他的現(xiàn)有技術(shù);圖3描述了視頻瀏覽和元數(shù)據(jù)提取單元的概略圖;圖4給出了對(duì)塊和宏塊的命名協(xié)定;圖5給出了壓縮域特征點(diǎn)運(yùn)動(dòng)估計(jì)概念的概略圖;圖6示出了元數(shù)據(jù)提取單元的數(shù)據(jù)流程圖;
圖7說明了MPEG位流分析、DCT-系數(shù)提取以及運(yùn)動(dòng)矢量提取單元;圖8示出了使用在選擇塊中應(yīng)用的IDCT算法的特征點(diǎn)注冊(cè)和運(yùn)動(dòng)估計(jì)的控制流;圖9示出了塊關(guān)聯(lián)度量的計(jì)算流;圖10描述了在DCT-域中的特征點(diǎn)選擇和運(yùn)動(dòng)估計(jì)的控制流;圖11示出了一個(gè)8×8DCT-塊的DCT系數(shù)編號(hào)方式;圖12示出了視頻概括的特征點(diǎn)壽命的數(shù)據(jù)結(jié)構(gòu);圖13說明了攝像運(yùn)動(dòng)方向;圖14給出了視頻瀏覽單元的一個(gè)例子的概略圖;圖15示出了具有攝像全景、縮放和旋轉(zhuǎn)主幀例子的視頻瀏覽單元;圖16給出了視頻瀏覽單元的圖形表示。
具體實(shí)施例方式
現(xiàn)在將參考
根據(jù)本發(fā)明的實(shí)施例。
在本發(fā)明中公開了一種新的壓縮域特征點(diǎn)選擇和在多種應(yīng)用情況下的運(yùn)動(dòng)估計(jì)算法,包括攝像運(yùn)動(dòng)估計(jì)、對(duì)象運(yùn)動(dòng)估計(jì)、視頻概括、視頻代碼轉(zhuǎn)換、運(yùn)動(dòng)活動(dòng)測(cè)量、視頻場(chǎng)景檢測(cè)以及視頻主幀檢測(cè)。
用于對(duì)象識(shí)別、對(duì)象跟蹤、全面運(yùn)動(dòng)估計(jì)以及視頻概括的現(xiàn)存的特征點(diǎn)選擇方法被應(yīng)用于像素域中,因此需要消耗時(shí)間來進(jìn)行壓縮視頻位流的解碼。
公開的特征點(diǎn)選擇算法直接工作在壓縮域中,并且因此避免了計(jì)算的浪費(fèi)和解碼壓縮的視頻流所消耗的時(shí)間。壓縮域預(yù)選擇機(jī)構(gòu)確定后選特征點(diǎn)極大地減小了計(jì)算復(fù)雜性。
特征點(diǎn)選擇算法采用了包含在DCT(離散余弦變換)系數(shù)和MPEG(運(yùn)動(dòng)圖像專家組)運(yùn)動(dòng)矢量(當(dāng)存在時(shí))中的紋理信息,并因此能夠直接應(yīng)用到基于DCT的壓縮靜止圖像(如運(yùn)動(dòng)JPEG(聯(lián)合圖象專家組,)、MIPEG)和壓縮的視頻(如MPEG-1/MPEG-2/MPEG-4、ITU-T(國(guó)際電信同盟-電信標(biāo)準(zhǔn)部門)推薦的H.261、H.263、H.26X、或DV格式)。
本發(fā)明公開的內(nèi)容,描述了在壓縮域(例如使用MPEG-1)中的特征點(diǎn)的提取,和利用在MPEG壓縮域中存在的運(yùn)動(dòng)矢量的這些特征的運(yùn)動(dòng)估計(jì)以及預(yù)測(cè)的誤差能量。
而且,本發(fā)明公開了使用在壓縮域中的這個(gè)特征點(diǎn)選擇算法的下列應(yīng)用。
(1)對(duì)象識(shí)別和分類(2)用于跟蹤的對(duì)象運(yùn)動(dòng)估計(jì)(使用例如參數(shù)運(yùn)動(dòng)模型或卡爾曼濾波器)(3)全面(攝像)運(yùn)動(dòng)估計(jì)(使用參數(shù)攝像運(yùn)動(dòng)模型)(4)使用由該方法提取的運(yùn)動(dòng)矢量進(jìn)行運(yùn)動(dòng)活動(dòng)計(jì)算(5)視頻代碼轉(zhuǎn)換(根據(jù)幀中特征點(diǎn)的位置確定感興趣區(qū)域,并通過適當(dāng)?shù)牧炕骺刂茖?duì)感興趣區(qū)域給出較多的位,使用攝像運(yùn)動(dòng)參數(shù)以便于再編碼或?yàn)樽有蛄芯幋a提供運(yùn)動(dòng)矢量)(6)視頻場(chǎng)景中前景/背景分割(通過跟蹤特征點(diǎn)的壽命,確定特征點(diǎn)的全面運(yùn)動(dòng)和對(duì)象運(yùn)動(dòng))(7)視頻概括和視頻場(chǎng)景檢測(cè)(通過跟蹤特征點(diǎn)的壽命。當(dāng)大量先前存在的特征點(diǎn)消失并且大量新的特征點(diǎn)出現(xiàn)時(shí),那么這是一個(gè)新場(chǎng)景開始的征候,可以用做視頻概括)(8)視頻主幀檢測(cè)(從部分視頻流中檢測(cè)出主幀,其中,隨著時(shí)間過去,在視頻流中大量的特征點(diǎn)沒有改變)(9)視頻瀏覽(使用特征點(diǎn)和涉及根據(jù)上述分級(jí)視頻表示的方法的特征點(diǎn)和主幀的對(duì)象/全面運(yùn)動(dòng))(10)視頻拼接(通過合并幾個(gè)視頻幀的較小的部分以生成一個(gè)單個(gè)大的圖像。這里特征點(diǎn)用做參考點(diǎn))圖3描述了元數(shù)據(jù)提取和視頻瀏覽單元的概略圖。所描述的設(shè)備包括存儲(chǔ)介質(zhì)31(包括光的、磁的、電的和機(jī)電的介質(zhì),如CD-ROM、DVD-RAM、DVD-ROM、視頻磁帶、硬盤、RAM、ROM等)、提供元數(shù)據(jù)MD30至視頻瀏覽單元35的元數(shù)據(jù)提取單元36。元數(shù)據(jù)提取單元36和視頻瀏覽單元35的實(shí)施可以根據(jù)可編程的計(jì)算機(jī)34,但也可能是其他的裝置。視頻瀏覽單元35由和用戶人33交互的用戶接口單元32控制。
現(xiàn)在將詳細(xì)描述第一優(yōu)選實(shí)施例。
這部分首先給出了全面的概覽,并接著作為第一優(yōu)選實(shí)施例,描述了在壓縮域中的特征點(diǎn)選擇和運(yùn)動(dòng)估計(jì)的基本方法。另一個(gè)優(yōu)選實(shí)施例描述了和第一優(yōu)選實(shí)施例不同的方法,以及該特征點(diǎn)和運(yùn)動(dòng)估計(jì)方法的應(yīng)用。
圖4給出了16×16像素大小的MPEG宏塊(MB)和它們的8×8像素大小的塊的符號(hào)。參考幀一般說是,一個(gè)在和當(dāng)前時(shí)間相比的不同時(shí)間點(diǎn)上的幀。一般來說,在上下文中假設(shè)參考幀暫時(shí)位于當(dāng)前幀的后面。在MPEG-4的情況下,參考MBcur是當(dāng)前(cur)幀或當(dāng)前視頻對(duì)象平面(VOP)的MB,和在MPEG-4的情況中,MBref是參考(ref)幀或參考視頻平面(VOP)的MB,與當(dāng)前幀或VOP比較,這些MB與不同時(shí)間場(chǎng)合有關(guān)。在本發(fā)明中,術(shù)語“幀”還包括在MPEG-4中使用的任意形狀對(duì)象(VOP)。MV是運(yùn)動(dòng)矢量,它在x方向和y方向上的分量分別為MVx和MVy。
這里使用的“幀內(nèi)”是用于在MPEG和H.26X標(biāo)準(zhǔn)和推薦中的內(nèi)編碼宏塊,以及用于DCT的僅在DV格式和MJPEG中的編碼塊。“P-型”用于在MPEG和H.26X標(biāo)準(zhǔn)和推薦中的預(yù)測(cè)編碼宏塊,并且“B-型”用于在MPEG和H.26X標(biāo)準(zhǔn)和推薦中的雙向預(yù)測(cè)宏塊。
圖5給出了特征點(diǎn)提取和運(yùn)動(dòng)估計(jì)方法的一般概略圖。特征點(diǎn)(或該例子中的邊緣點(diǎn))是例如在亮度、顏色或紋理上具有突然地改變的地方,并且因此適用于運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)跟蹤。51描述了在t=t0的當(dāng)前幀中具有一些邊緣點(diǎn)的視頻對(duì)象,例如這些邊緣點(diǎn)中的一個(gè)在位置52。對(duì)于在t=t1的參考幀,該邊緣點(diǎn)52(在t=t1的參考幀中重新編號(hào)為54)移動(dòng)到位置55。該移動(dòng)和運(yùn)動(dòng)矢量53有關(guān)。為了找到該運(yùn)動(dòng)矢量,在預(yù)測(cè)運(yùn)動(dòng)矢量周圍的搜索區(qū)域56中執(zhí)行運(yùn)動(dòng)估計(jì)技術(shù)。本發(fā)明公開的一些方法是如何在壓縮域中尋找特征點(diǎn)的技術(shù)以及在壓縮域中的兩個(gè)有關(guān)的特征點(diǎn)之間有效地計(jì)算估計(jì)的運(yùn)動(dòng)的技術(shù)。固然在不同時(shí)間情況的相同的兩個(gè)特征點(diǎn)(或在幾個(gè)特征點(diǎn)是表示一個(gè)對(duì)象的情況中的超過兩個(gè)的特征點(diǎn))是聯(lián)系在一起的以便找到它們的運(yùn)動(dòng)矢量,本發(fā)明還公開了一種在壓縮域以及像素域中的特征點(diǎn)的簽名技術(shù)。該簽名技術(shù)在圖8的步驟S83中將更詳細(xì)地描述。
圖6描述了元數(shù)據(jù)提取單元的數(shù)據(jù)流。該分析單元61是負(fù)責(zé)MPEG位流分析以及DCT-系數(shù)和運(yùn)動(dòng)矢量提取的,并且在圖7中更詳細(xì)地進(jìn)行了描述。分析單元61將當(dāng)前宏塊的類型(I幀內(nèi),B雙向預(yù)測(cè),P預(yù)測(cè))、提取的MPEG運(yùn)動(dòng)矢量(如果存在該宏塊類型)以及當(dāng)前幀的DCT-系數(shù)(如果存在)提供到特征點(diǎn)選擇單元以及運(yùn)動(dòng)估計(jì)單元62。
特征點(diǎn)選擇單元63由特征點(diǎn)保真度參數(shù)控制。它從這些輸入的數(shù)據(jù)中計(jì)算出當(dāng)前幀的特征點(diǎn)坐標(biāo),并將它們傳遞到特征點(diǎn)運(yùn)動(dòng)估計(jì)單元64、參數(shù)和攝像運(yùn)動(dòng)計(jì)算單元65和視頻概括單元66。從特征點(diǎn)選擇單元63中,將候選運(yùn)動(dòng)矢量MV(x,y)、所需要的運(yùn)動(dòng)矢量決定(resolution)以及搜索區(qū)域傳遞到特征點(diǎn)運(yùn)動(dòng)估計(jì)單元64。在圖8中描述了特征點(diǎn)選擇和運(yùn)動(dòng)估計(jì)的控制流。特征點(diǎn)運(yùn)動(dòng)估計(jì)單元64從當(dāng)前幀的特征點(diǎn)坐標(biāo)以及參考幀的特征點(diǎn)坐標(biāo)中計(jì)算運(yùn)動(dòng)矢量,并將這些運(yùn)動(dòng)矢量輸出到參數(shù)和攝像運(yùn)動(dòng)計(jì)算單元65。
參數(shù)和攝像運(yùn)動(dòng)計(jì)算單元65從前面的步驟中獲得運(yùn)動(dòng)矢量,并計(jì)算參數(shù)運(yùn)動(dòng)模型的參數(shù)和攝像運(yùn)動(dòng)參數(shù),這些參數(shù)被傳遞到視頻概括單元66。
視頻概括單元66包括特征點(diǎn)壽命列表67的基本步驟以及基于場(chǎng)景改變檢測(cè)和主幀提取單元68的特征點(diǎn)和運(yùn)動(dòng)的步驟。
特征點(diǎn)壽命67包括特征點(diǎn)坐標(biāo)和簽名、與特征點(diǎn)有關(guān)的運(yùn)動(dòng)矢量以及為運(yùn)動(dòng)矢量計(jì)算的距離測(cè)量,例如比較圖12?;趫?chǎng)景改變檢測(cè)和主幀提取單元68的特征點(diǎn)和運(yùn)動(dòng),將場(chǎng)景改變的幀數(shù)目、具有相應(yīng)的重要等級(jí)和攝像運(yùn)動(dòng)參數(shù)的主幀作為元數(shù)據(jù)傳送至圖3所示的視頻瀏覽單元35。
視頻概括單元66可以根據(jù)概括的深度,即具有相應(yīng)的重要等級(jí)和攝像運(yùn)動(dòng)參數(shù)的主幀的數(shù)目,進(jìn)行(可選的)外形上的控制。
圖7描述了由MPEG位流分析單元71組成的分析單元,MPEG位流分析單元71例如從MPEG傳送流中提取MPEG視頻位流。幀-和宏塊-類型提取單元72提取宏塊-類型,并且在當(dāng)前宏塊(MB)是P-MB或B-MB(分別地是P-VOP或B-VOP)74的情況下,還使用運(yùn)動(dòng)矢量提取單元75為該宏塊(或VOP)提取運(yùn)動(dòng)矢量。從預(yù)分析的位流中,DCT-系數(shù)提取單元73提取在I-幀、P-幀、B-幀(或MPEG-4中的I-VOP、P-VOP或B-VOP)中的幀內(nèi)塊。
圖8描述了通過僅在所選擇的一些塊上使用IDCT(逆離散余弦變換)的特征點(diǎn)選擇和運(yùn)動(dòng)估計(jì)處理。
當(dāng)使用CIF格式(352×288像素)時(shí),MPEG流的全解碼(比較圖1)需要對(duì)cur和ref進(jìn)行2×396×4=3168IDCT計(jì)算。但是,例如,對(duì)于攝像運(yùn)動(dòng)估計(jì),僅在與運(yùn)動(dòng)矢量有關(guān)的cur中的6個(gè)特征點(diǎn)(num=6)例如對(duì)一個(gè)6參數(shù)運(yùn)動(dòng)模型來說是必須的。在這個(gè)例子中,對(duì)于每一特征點(diǎn),當(dāng)使用小的[-4,+4]像素搜索區(qū)域(例如,在預(yù)示變量周圍)時(shí),需要cur中的一個(gè)IDCT計(jì)算和ref中的4個(gè)IDCT計(jì)算(=5×6=30IDCT)。這對(duì)于IDCT計(jì)算所需的計(jì)算量而言給出了相當(dāng)?shù)谋憷蠹s減少100倍。對(duì)于大的運(yùn)動(dòng),還可以使用MPEG運(yùn)動(dòng)矢量作為搜索區(qū)域的預(yù)示變量。當(dāng)使用MPEG運(yùn)動(dòng)矢量作為預(yù)示變量時(shí),[-4,+4]的搜索區(qū)域通常是足夠的。但是,該搜索區(qū)域能夠適當(dāng)?shù)剡M(jìn)行選擇。
在圖8中,步驟S81計(jì)算當(dāng)前幀中的所有8×8塊的塊關(guān)聯(lián)度量,根據(jù)它們的關(guān)聯(lián)分類這些塊并根據(jù)最高關(guān)聯(lián)確定cur中的塊的“num”的數(shù)字。在圖9中更詳細(xì)地說明了塊關(guān)聯(lián)度量的計(jì)算。注意,僅在幀內(nèi)-宏塊中的塊能夠被選擇作為“新”關(guān)聯(lián)點(diǎn)的一個(gè),而(一旦選擇了)關(guān)聯(lián)點(diǎn)能夠通過I-幀、P-幀和B-幀被跟蹤。在圖9中詳細(xì)描述了優(yōu)選實(shí)施例的步驟S81。
在圖8步驟S82中,對(duì)“num”選擇的cur塊,計(jì)算8×8塊IDCT(以及MC、運(yùn)動(dòng)補(bǔ)償,對(duì)于在P-宏塊或B-宏塊內(nèi)的塊)。8×8塊IDCT和MC計(jì)算是本領(lǐng)域技術(shù)人員熟知的方法。
在圖8中,步驟S83為所有的“num”cur塊執(zhí)行塊簽名提取。對(duì)于塊簽名的計(jì)算,這里公開了兩個(gè)優(yōu)選實(shí)施例a)在像素域中的塊簽名的計(jì)算;以及b)在DCT域中的塊簽名的計(jì)算。由于必須僅對(duì)這些cur中的“num”塊計(jì)算塊簽名,這些cur中的“num”塊已經(jīng)由步驟S82在像素域中進(jìn)行了變換,所以從這個(gè)步驟中導(dǎo)致了像素域塊簽名的沒有意義的附加計(jì)算開銷。
作為一個(gè)簡(jiǎn)單的像素域塊特征,所有的或選擇的塊的像素的數(shù)目可以被用做一個(gè)簽名,并且可以使用SAD(絕對(duì)差值和)、MSE(均方誤差)或諸如豪斯多夫距離(Haussdorf-distance)的本領(lǐng)域技術(shù)人員熟知的其他標(biāo)準(zhǔn)來執(zhí)行簽名匹配。但是,由于這就表示效率而言不是很合適,所以在像素域中的較高電平塊特征點(diǎn)簽名是表示優(yōu)選實(shí)施例的。這些較高電平簽名特征包括如Canny(在1986年的IEEE的圖案分析和機(jī)器智能學(xué)報(bào)(IEEE Transactionson Pattern Analysis and Machine Intelligience),卷8,第6冊(cè),第679-698頁上,John Canny的“邊緣檢測(cè)的計(jì)算方法”(A computational approach to edgedetection))、Sobel、Prewitt的邊緣檢測(cè)技術(shù)以及、如Lucas/Kanade(在1980年的人工智能的國(guó)際聯(lián)合會(huì)議會(huì)刊(International Joint Conference on ArtificialIntelligence)第674-679頁上,Bruce D.Lucas and Takeo Kanade發(fā)表的“應(yīng)用到立體圖象的迭代圖象注冊(cè)技術(shù)”(An Iterative Image Registration Techniquewith an Application to Stereo Visition))、Marr/Hildreth(在1980年的倫敦皇家學(xué)院院刊卷(Proc.of the Royal Society of London B)207第187-217頁發(fā)表的David Marr,Ellen Hildreth的“邊緣檢測(cè)理論”(Theory of edge detection))的紋理和顏色分類圖像注冊(cè)技術(shù);或者能夠與它們的匹配標(biāo)準(zhǔn)一起使用的、是優(yōu)選實(shí)施例的、并且是本領(lǐng)域技術(shù)人員熟知的其他技術(shù)。
對(duì)于DCT-域塊簽名計(jì)算,圖11中的所有的或選擇的DCT-系數(shù)可以用于特征點(diǎn)注冊(cè)。DCT-塊簽名的DCT-系數(shù)能夠僅從亮度(Y)塊或-可選擇地-從色度(U,V)DCT-塊中獲得。這里,僅描述亮度塊的DCT-系數(shù)的使用,但是本領(lǐng)域技術(shù)人員能夠容易地執(zhí)行到色度塊的延伸。優(yōu)選實(shí)施例包括根據(jù)應(yīng)用情況的a)D00,b)D00,D01,D02,D03;和c)所有的DCT系數(shù)。在Dhv(當(dāng)前DCT-塊的簽名)和Dhv(表示被比較的DCT-塊的簽名的系數(shù))的DCT-系數(shù)之間的距離計(jì)算的優(yōu)選實(shí)施例包括Distance=ΣhhmaxΣvvmaxPhv.|Chv-Dhv|]]>或Distance=ΣhhmaxΣvvmaxPhv·(Chv-Dhv)2]]>其中(例如h=v=0,并且hmax=vmax=7),并且每一項(xiàng)可以被加權(quán)因子phv選擇地加權(quán)。使用這些參數(shù),DCT-塊簽名可以應(yīng)用到各種應(yīng)用中,例如,用于視頻序列的圖像拼接,可以從為視頻概括或攝像運(yùn)動(dòng)估計(jì)選擇的那些值中挑選不同的h、v、hmax、vmax、phv值。對(duì)于較高電平DCT-塊簽名,優(yōu)選實(shí)施例還包括DCT-塊活動(dòng)特征、DCT-方向特征、DCT-能量特征,如在1990年學(xué)院出版社(Academic Press)出版的K.R.Rao.P.Yip的“離散余弦變換-算法、優(yōu)點(diǎn)和應(yīng)用”(Discrete Cosine Transform-Algorithms,Advantages,Applications)和在1996年Bo Shen、Ishwar K.Sethi在SPIE 2670,圖象和視頻數(shù)據(jù)庫IV的存儲(chǔ)和檢索(Storage & retrieval for Image and Video DatabasesIV)上發(fā)表的“從壓縮的圖象中方向特點(diǎn)的提取”(Direct feature extractionfrom compressed images)”所描述的,并且這些是本領(lǐng)域技術(shù)人員熟知的。
在圖8步驟S84中,為一個(gè)所選擇的cur塊計(jì)算預(yù)測(cè)運(yùn)動(dòng)矢量(MV)、參考?jí)K位置和搜索區(qū)域。運(yùn)動(dòng)預(yù)測(cè)策劃極其依賴應(yīng)用。例如,對(duì)于使用6參數(shù)模型的攝像運(yùn)動(dòng)提取,在ref中的特征點(diǎn)的位置能夠從先前幀中獲得的仿射(affine)運(yùn)動(dòng)模型中進(jìn)行預(yù)測(cè)。相似地可以為對(duì)象跟蹤預(yù)測(cè)特征點(diǎn)的運(yùn)動(dòng)。在P-宏塊或B-宏塊的情況下,從壓縮的MPEG位流中提取的運(yùn)動(dòng)矢量可以被用做在ref中的搜索區(qū)域的中心。在這種情況中,并且特別在MPEG運(yùn)動(dòng)矢量變得小的情況中,搜索區(qū)域可以選得小些。這意味著僅4塊的IDCT解碼和運(yùn)動(dòng)補(bǔ)償就已經(jīng)是足夠的了。在幀內(nèi)-宏塊的情況中,必須通過DCT-塊簽名或像素域塊簽名確定一個(gè)或幾個(gè)塊是否是新的。在該塊是新的情況下,接著根據(jù)應(yīng)用,優(yōu)選實(shí)施例設(shè)置一個(gè)較大的搜索區(qū)域。
在塊簽名展示了該塊已經(jīng)存在于一個(gè)或幾個(gè)距離幀中,接著從塊列表的運(yùn)動(dòng)矢量歷史中,通過本領(lǐng)域技術(shù)人員熟知的運(yùn)動(dòng)矢量預(yù)測(cè)方法能夠確定下一個(gè)運(yùn)動(dòng)方向和搜索范圍。在圖8步驟S85中,對(duì)于在步驟S84中所有的在I-參考幀/、P-參考幀/、B-參考幀中的計(jì)算的塊位置,計(jì)算8×8塊IDCT。塊位置是具有中心為在步驟S84中計(jì)算的運(yùn)動(dòng)矢量預(yù)示變量的在步驟S84中計(jì)算的搜索區(qū)域。對(duì)于P-參考宏塊和B-參考宏塊還計(jì)算MC(運(yùn)動(dòng)補(bǔ)償)。
該技術(shù)和在MPEG-1/MPEG-2/MPEG-4標(biāo)準(zhǔn)解碼器中使用的技術(shù)相同,并且是本領(lǐng)域技術(shù)人員熟知的。注意,IDCT(以及在P-宏塊和B-宏塊的情況中的MC)不僅應(yīng)用在整個(gè)幀上,并且還應(yīng)用到與在cur中的“num”塊有關(guān)的ref中的小的搜索區(qū)域中,并且因此比整個(gè)幀的全解碼是顯著快的。
在圖8的步驟S86中,在像素域?qū)λ械念A(yù)測(cè)MV周圍的搜索區(qū)域中的ref中的搜索位置(在步驟S84中計(jì)算的二者,)執(zhí)行8×8塊運(yùn)動(dòng)估計(jì),以便為cur中的所選擇的塊找到ref中的搜索區(qū)域中的最好的運(yùn)動(dòng)矢量。對(duì)于像素域中的8×8運(yùn)動(dòng)估計(jì),優(yōu)選實(shí)施例包括(但不限于)如本領(lǐng)域技術(shù)人員熟知的全搜索塊匹配、像素回歸搜索等的運(yùn)動(dòng)估計(jì)方法,比較1999年6月Kluwer學(xué)院出版社(Kluwer Academic Publishers)出版的Peter Kuhn的“MPEG-4運(yùn)動(dòng)估計(jì)的算法、復(fù)雜分析和VLSI-架構(gòu)(Complexity Analysis andVLSI-Architectures for MPEG-4 Motion Estimation)”,ISBN 792385160。注意對(duì)于P-宏塊/B-宏塊,由于來自MPEG-位流的運(yùn)動(dòng)矢量被用做運(yùn)動(dòng)矢量預(yù)示變量(但是在大多數(shù)情況中,它是針對(duì)16×16宏塊的,并且不總是可靠的),搜索區(qū)域(以及所需要的計(jì)算能力)可以是很小的。運(yùn)動(dòng)估計(jì)單元的一個(gè)優(yōu)選實(shí)施例是塊大小不限于8×8,但也可以覆蓋使用諸如4×4以及8×8塊的可變塊大小的運(yùn)動(dòng)估計(jì)。運(yùn)動(dòng)估計(jì)的另一個(gè)優(yōu)選實(shí)施例是一個(gè)外形可控的運(yùn)動(dòng)位移(displacement)分解(resolution),它可以是例如設(shè)置成1像素、2像素或0.5像素,并且可以通過本領(lǐng)域技術(shù)人員熟知的方法來實(shí)施。注意當(dāng)使用特定的特征,象例如Lucas/Kanade特征時(shí),就計(jì)算復(fù)雜性和跟蹤保真度而言,最好在所計(jì)算的搜索區(qū)域內(nèi)使用Lucas/Kanade/Tomasi特征跟蹤器,而取代在這些特征點(diǎn)上執(zhí)行的塊-匹配運(yùn)動(dòng)估計(jì)。
在圖8步驟S87中,使用在步驟S83中描述的相同的方法計(jì)算由最佳匹配8×8塊位置的運(yùn)動(dòng)矢量(在步驟S86中確定)指向的ref中的塊的塊簽名。注意當(dāng)使用DCT-塊簽名時(shí)最佳匹配8×8塊位置的所有像素必須變換到DCT域。
在圖8步驟S88中,cur中的塊位置(其中剛執(zhí)行過步驟S84、S85、S86、S87)、在步驟S87中計(jì)算的塊簽名、運(yùn)動(dòng)矢量以及所計(jì)算的在由最佳運(yùn)動(dòng)矢量(在步驟S86中計(jì)算的)指向的當(dāng)前和參考?jí)K之間的距離(MSE均方誤差,SAD絕對(duì)差值和,依據(jù)所使用的運(yùn)動(dòng)估計(jì)算法)被存儲(chǔ)在一個(gè)數(shù)據(jù)結(jié)構(gòu)中,優(yōu)選實(shí)施例是例如在圖12中所描述的實(shí)施例。在距離計(jì)算的結(jié)果是高于應(yīng)用給出的門限,并且最后的“num”塊已經(jīng)被處理的情況下,采用一個(gè)或多個(gè)下面的策略增加從塊關(guān)聯(lián)列表中獲得的“num”塊或者增加運(yùn)動(dòng)估計(jì)單元的搜索區(qū)域。這個(gè)方法允許采用壓縮視頻的不同內(nèi)容材料和編碼結(jié)構(gòu)。
在圖8的步驟S89中,檢測(cè)在步驟S83確定的所有的“num”塊是否已經(jīng)都被處理了。如果所有確定的“num”塊已經(jīng)都被處理了(是),則對(duì)于這一幀,基于運(yùn)動(dòng)估計(jì)算法的特征點(diǎn)停止在這里,如果不是都被處理了(否),則進(jìn)入步驟S90。
在圖8步驟S90中,訪問目前還沒有執(zhí)行運(yùn)動(dòng)估計(jì)的下一個(gè)確定的“num”塊位置,并且再執(zhí)行包括步驟S84、S85、S86、S87、S88的循環(huán)。
在圖9中描述了塊關(guān)聯(lián)度量計(jì)算的優(yōu)選實(shí)施例。塊關(guān)聯(lián)度量表示用于運(yùn)動(dòng)估計(jì)或運(yùn)動(dòng)跟蹤的塊的適應(yīng)性,通常由(不限于)如邊緣、顏色或其他重要的構(gòu)造傾斜度的視覺特點(diǎn)決定。當(dāng)可獲得P-幀或B-幀的時(shí)候,在這些幀的P-宏塊和B-宏塊中包含的運(yùn)動(dòng)信息可以用于幫助發(fā)現(xiàn)描述高關(guān)聯(lián)的塊。
在圖9步驟S91中,當(dāng)前幀的宏塊計(jì)數(shù)器,MBcur,被設(shè)置成零。該計(jì)數(shù)器迭代在當(dāng)前幀中的所有宏塊而不管它們的宏塊類型(I-型、P-型或B-型)。
在圖9的步驟S92中,選擇與參考幀中的MBcur、MBref有關(guān)的宏塊。如果存在一個(gè)MBcur的運(yùn)動(dòng)矢量(由于我們已經(jīng)訪問了壓縮位流的下一個(gè)編碼幀,所以這個(gè)信息是可獲得的),MBref是與運(yùn)動(dòng)矢量有關(guān)的宏塊。如果不存在MBcur的運(yùn)動(dòng)矢量(或具有零長(zhǎng)度的運(yùn)動(dòng)矢量),那么MBref具有和MBcur相同的宏塊號(hào)(number)。MBcur和MBref的宏塊類型也是從該步驟壓縮的位流中提取的。
在圖9的步驟S93中,測(cè)試一條件。在MBcur的宏塊類型是幀內(nèi),并且MBref是P-型或B-型宏塊的情況下,進(jìn)入步驟S94。
在圖9的步驟S98中,測(cè)試另一個(gè)條件。在MBcur的宏塊類型是P-型,并且MBref是B-型的情況下,進(jìn)入步驟S99。
在圖9的步驟S104中,測(cè)試另一個(gè)條件。在MBcur的宏塊類型是幀內(nèi),并且MBref也是幀內(nèi)的情況下,進(jìn)入步驟S105。步驟S105和后續(xù)步驟處理所有的不可預(yù)測(cè)的僅DCT(DCT-only)編碼MPEG格式以及其他如DV或MJPEG的格式。
在圖9的步驟S94中,用于宏塊內(nèi)部的DCT-塊的塊計(jì)數(shù)器(圖4)被設(shè)置成零,并且進(jìn)入步驟S95。
在圖9的步驟S95中,描述了blockMBcur,i關(guān)聯(lián)計(jì)算的優(yōu)選實(shí)施例,其中該8×8DCT塊的關(guān)聯(lián)定義如下Relevance(blockMBcur,i)=Activity(blockMBcur,i)]]>+k×MV2MBcur,x+MV2MBcur,yDCTenergy(blockMBref,i)]]>其中“k”是根據(jù)應(yīng)用選擇的加權(quán)系數(shù),并且對(duì)于運(yùn)動(dòng)估計(jì)(例如,通過塊匹配)的選擇不同于對(duì)于跟蹤(例如,通過如Lukas/Kanade/Tomasi的特征點(diǎn)跟蹤技術(shù))的選擇。下面定義了DCT域中的8×8塊的活動(dòng)測(cè)量的優(yōu)選實(shí)施例,其中Dhv是DCT-系數(shù)(圖11)。
Activity=ΣhhmaxΣvvmax|Dhv|---(h,v)≠(0,0)]]>hmax=vmax的值通常選擇為7,但可以在(1...6)間進(jìn)行選擇以便獲得較快但更多噪聲的強(qiáng)健的實(shí)施。但是,在1990年學(xué)院出版社(Academic Press)出版的K.R.Rao.P.Yip的“離散余弦變換-算法、優(yōu)點(diǎn)和應(yīng)用”(Discrete CosineTransform-Algorithms,Advantages,Applications)中所定義的其他的DCT-活動(dòng)或邊緣測(cè)量也代表了本發(fā)明的可能的實(shí)施例。該DCTenergy定義為DCTenergy=ΣhhmaxΣvvmax|Dhv|]]>另一個(gè)具有減量計(jì)算復(fù)雜性的優(yōu)選實(shí)施例是對(duì)于每個(gè)單獨(dú)的關(guān)聯(lián)計(jì)算或僅使用運(yùn)動(dòng)矢量的和(并且不是平方和)來說,將DCT-energy項(xiàng)設(shè)置成1。
在圖9中,步驟S96和S97迭代步驟S95四次直到MBcur的所有的四個(gè)塊都被處理為止。
在圖9的步驟S99中,對(duì)于宏塊(圖4)內(nèi)部的塊的塊計(jì)數(shù)器被設(shè)置成零,并進(jìn)入步驟S100。
在圖9的步驟S100中,由于在P-宏塊或B-宏塊中,從先前幀(在B-幀的情況下還有將來幀)中預(yù)測(cè)宏塊像素,并且沒有新的特征點(diǎn)出現(xiàn)在這里,所以該塊的關(guān)聯(lián)被設(shè)置成零。
但是,在圖9的步驟S101中,已經(jīng)從其他的幀中跟蹤得到的存在的塊特征點(diǎn)仍保留在“num”當(dāng)前塊特征點(diǎn)的特征點(diǎn)列表中。注意,對(duì)于在步驟S82的這些特征點(diǎn),由于宏塊是類型P或B,所以必須執(zhí)行IDCT和MC。
在圖9中,步驟S102和S103迭代步驟S100和S101四次直到MBcur的所有的四個(gè)塊都被處理為止。
但是,在圖9的步驟S105中,對(duì)于宏塊(圖4)內(nèi)部的塊的塊計(jì)數(shù)器被設(shè)置成零,并進(jìn)入步驟S106。
在圖9的步驟S106中,在當(dāng)前宏塊和參考宏塊是幀內(nèi)-宏塊的情況下,計(jì)算MBcur的塊關(guān)聯(lián)。塊關(guān)聯(lián)計(jì)算如下Relevance(blockMBcur,i)=Activity(blockMBcur,i)+Activity(blockMBref,i)以及Activity(blockMBref,i)=Σk=0kmaxmk×Activity(blockMBref,i)]]>其中在DCT-域中的活動(dòng)的計(jì)算如上所述。對(duì)于在參考幀中的相應(yīng)塊的活動(dòng)計(jì)算,相應(yīng)的和相鄰的kmax塊的幾個(gè)活動(dòng)測(cè)量被概括并相加成為當(dāng)前塊的活動(dòng)。相鄰塊的活動(dòng)還給出了子序列運(yùn)動(dòng)估計(jì)的搜索區(qū)域的大小的提示。值kmax依賴于幀大小以及應(yīng)用約束。值mk加權(quán)遠(yuǎn)距離的參考DCT-塊的活動(dòng),并依據(jù)應(yīng)用約束被確定,但是對(duì)于該優(yōu)選實(shí)施例mk是小的并且在1以下,但對(duì)于其他的(例如,計(jì)算上更多的約束)實(shí)施例也可以是零。
在圖9中,步驟S107和步驟S108迭代步驟S106四次直到MBcur的所有的四個(gè)塊都被處理為止。
在圖9中,步驟S109和S110確定所有的當(dāng)前宏塊是否已經(jīng)被處理并對(duì)幀MBcur的所有的宏塊進(jìn)行迭代。
在圖9中,步驟S111涉及塊關(guān)聯(lián)列表的分類,與已經(jīng)跟蹤的特征點(diǎn)進(jìn)行合并,并輸出確定的“num”塊。MBcur中的塊按照它們的塊關(guān)聯(lián)值被存儲(chǔ),并且必須決定最佳的“num”特征點(diǎn)。分類算法是本領(lǐng)域技術(shù)人員熟知的。特征點(diǎn)數(shù)目的選擇主要根據(jù)目標(biāo)應(yīng)用。例如,對(duì)于基于仿射6參數(shù)模型的6參數(shù)攝像運(yùn)動(dòng)估計(jì),需要與它們的運(yùn)動(dòng)矢量相關(guān)的6個(gè)特征點(diǎn)。因此,在這種情況中,必須選擇至少6個(gè)具有高關(guān)聯(lián)的塊。對(duì)于這個(gè)例子,選擇描述最佳關(guān)聯(lián)度量的6個(gè)塊。對(duì)于視頻概括,表示特征點(diǎn)的所選擇塊的數(shù)目依賴于外部選擇的保真度參數(shù)。對(duì)于其他的應(yīng)用,特征點(diǎn)的較大數(shù)目可以僅由圖像中的8×8塊的數(shù)目限定。在特征點(diǎn)的跟蹤僅導(dǎo)致很短的運(yùn)動(dòng)矢量(其經(jīng)常被噪聲干擾),或后面的運(yùn)動(dòng)估計(jì)處理導(dǎo)致不充足的結(jié)果(即,出現(xiàn)很高的距離測(cè)量)的情況中,本發(fā)明的一個(gè)優(yōu)選實(shí)施例是根據(jù)它們的相關(guān)值選擇下面n個(gè)特征點(diǎn)直到再?zèng)]有特征點(diǎn)剩下為止。對(duì)于特征點(diǎn)跟蹤應(yīng)用,具有高關(guān)聯(lián)的新計(jì)算的塊特征點(diǎn)必須與從遠(yuǎn)距離的幀中已經(jīng)跟蹤的存在的塊特征點(diǎn)進(jìn)行合并。
現(xiàn)在將詳細(xì)描述第二優(yōu)選實(shí)施例。
圖10描述了使用基于DCT的運(yùn)動(dòng)估計(jì)的本發(fā)明的第二優(yōu)選實(shí)施例。該方法具有下述優(yōu)點(diǎn),即對(duì)于當(dāng)前塊或搜索區(qū)域,沒有宏塊必須通過使用IDCT被從DCT-域變換至像素-域。但是,在壓縮視頻位流中存在P-幀或B-幀的情況中,在壓縮域中必須執(zhí)行運(yùn)動(dòng)補(bǔ)償(MC),這就使準(zhǔn)確度呈現(xiàn)損失。穿越塊邊界的基于DCT的運(yùn)動(dòng)估計(jì)也可以導(dǎo)致準(zhǔn)確度的損失。本發(fā)明的第二實(shí)施例的主要應(yīng)用期望在于以內(nèi)幀(Intra-frame)主導(dǎo)的視頻領(lǐng)域,如象DV、MJPEG的壓縮位流以及在廣播業(yè)中經(jīng)常使用的僅MPEG格式的內(nèi)幀。
在圖10的步驟S121中,對(duì)于cur中的所有的8×8塊的塊關(guān)聯(lián)度量使用在圖8步驟S81中所述的相同方法進(jìn)行計(jì)算。
在圖10的步驟S122中,計(jì)算所有的選擇的“num”cur塊的塊簽名?;旧显趫D8步驟S83描述的DCT-域以及在像素域中的兩種方法都能使用。但是,在圖10步驟S122中描述的DCT-域中的塊簽名方法的優(yōu)點(diǎn)是在這一步驟上不需要IDCT,并且不進(jìn)行任何IDCT也可以執(zhí)行圖10的完整算法。但是,對(duì)于P-宏塊和B-宏塊,在壓縮域中或在像素域中需要運(yùn)動(dòng)補(bǔ)償。
在圖10的步驟S123中,使用在圖8步驟S84中描述的相同方法計(jì)算預(yù)測(cè)的運(yùn)動(dòng)矢量、計(jì)算的參考?jí)K位置以及ref中的搜索區(qū)域。
在圖10的步驟S124中,對(duì)于ref中的搜索區(qū)域的P-宏塊和B-宏塊,必須在DCT-壓縮域中計(jì)算運(yùn)動(dòng)補(bǔ)償(MC)。幾個(gè)優(yōu)選實(shí)施例中的一個(gè)是在1995年IEEE通信中的選擇的區(qū)域期刊(IEEE Journal on Selected Areas inCommunication)卷13第1冊(cè)中Shih-Fu Chang,David G.Messerschmidt發(fā)表的“MC-DCT壓縮視頻的處理和組合”(Manipulation and Compositing ofMC-DCT Compressed Video)以及在1999年的ICASSP 99上Yoshiaki Shibata、Zhigang Chen、Roy H.Campell發(fā)表的“對(duì)于壓縮域中DCT塊提取的快速自由降級(jí)算法”(A fast degradation-free algorithm for DCT block extraction in thecompressed domain)中的修改版描述的算法。
在圖10的步驟S125中,在DCT-域中對(duì)預(yù)測(cè)運(yùn)動(dòng)矢量周圍的ref中的所有的搜索位置計(jì)算運(yùn)動(dòng)估計(jì)。對(duì)于最佳搜索位置,保存距離度量值以及運(yùn)動(dòng)矢量。對(duì)于在DCT-域中的運(yùn)動(dòng)估計(jì)的計(jì)算的優(yōu)選實(shí)施例例如列出在Ut-va Koc,K.J.Ray Liu的美國(guó)專利US 5,790,6868/1998,“基于DCT的運(yùn)動(dòng)補(bǔ)償方法382/107”(DCt-based motion estimation method382/107)中。
在圖10的步驟S126中,計(jì)算ref中最佳運(yùn)動(dòng)矢量位置的塊簽名?;旧显趫D10步驟S122描述的DCT-域以及在像素域中的兩種方法都能使用。但是,在圖8步驟S83中描述的DCT-域中的塊簽名方法的優(yōu)點(diǎn)是在這一步驟上不需要IDCT,并且不進(jìn)行任何IDCT也可以執(zhí)行圖10的完整算法。在像素域中的塊簽名方法僅需要兩個(gè)IDCT,一個(gè)用于每一“num”當(dāng)前塊并且另一個(gè)用于壓縮域運(yùn)動(dòng)估計(jì)的最佳轉(zhuǎn)移塊,其計(jì)算仍是很少的。
在圖10的步驟S127中,在塊列表中保存位置、塊簽名、運(yùn)動(dòng)矢量以及ref中最佳塊位置的距離標(biāo)準(zhǔn)。在距離計(jì)算的結(jié)果是高于該應(yīng)用給出的標(biāo)準(zhǔn)并且最后的“num”塊已經(jīng)被處理的情況下,可以使用下列策略的一個(gè)或多個(gè)增加從塊關(guān)聯(lián)列表中獲得的“num”塊或者增加運(yùn)動(dòng)估計(jì)單元的搜索區(qū)域。這個(gè)方法允許采用壓縮視頻的不同內(nèi)容材料和編碼結(jié)構(gòu)。
在圖10的步驟S128中,訪問確定的“num”塊位置的下一個(gè),該確定的“num”塊位置的下一個(gè)目前是沒有執(zhí)行運(yùn)動(dòng)估計(jì)的。并且再次執(zhí)行包括步驟S123、S124、S125、S126、S127的循環(huán)。
現(xiàn)在將詳細(xì)描述第三優(yōu)選實(shí)施例。
本發(fā)明的另一優(yōu)選實(shí)施例是視頻概括。這通過保持特征點(diǎn)(其可以由它們的特征點(diǎn)簽名區(qū)分)以及它們的在幀中的相關(guān)位置的壽命列表、它們的運(yùn)動(dòng)矢量、它們的距離(運(yùn)動(dòng)矢量計(jì)算的距離)以及它們的簽名來實(shí)現(xiàn)。在大量新特征點(diǎn)出現(xiàn)在新幀中的情況下,則極有可能存在有場(chǎng)景改變。類似地當(dāng)從一個(gè)幀到下一幀消失了大量特征點(diǎn)時(shí),那么也極有可能是場(chǎng)景改變。在這樣的幀中選擇場(chǎng)景的主幀,其中存在大量特征點(diǎn)并且整個(gè)運(yùn)動(dòng)總量是低的。
圖12描述了視頻概括的特征點(diǎn)壽命列表的數(shù)據(jù)結(jié)構(gòu)的優(yōu)選實(shí)施例。對(duì)于每一特征點(diǎn)存在一個(gè)鏈接的列表,為單獨(dú)地標(biāo)記它,給出了feature_point_id,如131、138、141所描述的。feature_point_id數(shù)據(jù)結(jié)構(gòu)還包括一個(gè)object_id字段以便將一個(gè)或幾個(gè)特征點(diǎn)與對(duì)象相聯(lián)系。這些feature_point_id使用指針相連作為鏈接列表136。每個(gè)feature_point_id指向在視頻流中的每一特征點(diǎn)的時(shí)間情況的另一列表(例如132),其中每一項(xiàng)包含該特征點(diǎn)(例如134、135和137)在特定時(shí)間情況(例如location_0=(x,y),time)上的時(shí)空位置的數(shù)據(jù)、在特定時(shí)間情況上的該特征點(diǎn)至下一個(gè)時(shí)間情況上相同的特征點(diǎn)間的運(yùn)動(dòng)矢量(例如,MV_0=(MVx,MVy))的數(shù)據(jù)、用于運(yùn)動(dòng)矢量的可靠性確定的特征點(diǎn)運(yùn)動(dòng)矢量計(jì)算的距離值(distance_0),以及在相同feature_point_id下的正確的特征點(diǎn)相聯(lián)系的特征點(diǎn)簽名(signature_0)。注意對(duì)于某些應(yīng)用,這些數(shù)據(jù)-字段的某些是可以選擇的或者需要其他的數(shù)據(jù)-字段。
這些特征點(diǎn)的時(shí)間情況也通過鏈接的列表連接,其中最后項(xiàng)和最初項(xiàng)的鏈接例如可以看作是如一遍一遍播放視頻的一部分的功能,其中出現(xiàn)了對(duì)象(包含許多特征點(diǎn))或特定運(yùn)動(dòng)圖形。對(duì)于這些鏈接的列表,由于它們?cè)趫?chǎng)景中不出現(xiàn),所以存在根據(jù)它們的時(shí)間feature_point_id移去的機(jī)理(mechanism)。還存在添加新feature_point_id的機(jī)理,其使用在簽名空間中的特征點(diǎn)的距離。該簽名空間中的距離確定這是否是一個(gè)新的特征點(diǎn)或是否是與存在的一個(gè)特征點(diǎn)有關(guān)的特征點(diǎn)。添加新feature_point_id至存在的對(duì)象的另一個(gè)機(jī)理包括自該對(duì)象的它們的空間距離。從包含在一個(gè)feature_point_id的特征段(feature-field)中的運(yùn)動(dòng)矢量中,可以構(gòu)建該特征點(diǎn)在時(shí)間上的運(yùn)動(dòng)軌跡,這是本領(lǐng)域技術(shù)人員熟知的(例如,通過卡爾曼濾波器或Lucas/Kanade/Tomasi特征跟蹤,但不限于此)。
屬于一個(gè)object_id組(例如可以根據(jù)簽名和它們位置的空間距離進(jìn)行分組)的幾個(gè)feature_point_id的運(yùn)動(dòng)矢量可以用于計(jì)算由feature_point_id識(shí)別的對(duì)象的參數(shù)運(yùn)動(dòng),如本領(lǐng)域技術(shù)人員所熟知的。在對(duì)象被選做矩形背景幀的情況中,相似地該鏈接的列表可以用做表示攝像運(yùn)動(dòng),這將在下面的優(yōu)選實(shí)施例中詳細(xì)說明。
現(xiàn)在將詳細(xì)描述第四優(yōu)選實(shí)施例。
圖13描述了攝像的可能的運(yùn)動(dòng)方向,其包括縮放、在三個(gè)方向上的旋轉(zhuǎn)以及在三個(gè)方向上的平移。本發(fā)明的一個(gè)優(yōu)選實(shí)施例是使用提取的包含在圖12的數(shù)據(jù)-結(jié)構(gòu)中的運(yùn)動(dòng)元數(shù)據(jù),以計(jì)算如壓縮域中視頻序列的縮放、全景、傾斜等的攝像運(yùn)動(dòng)。例如對(duì)于有效的視頻瀏覽(展現(xiàn)主幀和它們有關(guān)的攝像運(yùn)動(dòng))、視頻編輯(例如剪切縮放輸出端的幀上的視頻)以及簡(jiǎn)化從一個(gè)壓縮表示(例如,MPEG-2)至另一個(gè)壓縮表示(例如,MPEG-4)的代碼轉(zhuǎn)換來說,攝像運(yùn)動(dòng)的快速和有效計(jì)算是有用的。
為了基于在圖6中的62中所得到的特征點(diǎn)運(yùn)動(dòng)矢量提取攝像運(yùn)動(dòng)參數(shù),優(yōu)選實(shí)施例之一是使用攝像運(yùn)動(dòng)模型(在1997年Elsevier的圖案識(shí)別(Patternrecognition)卷30第4冊(cè)593-606頁中M.V.Srinivasan、S.Venkatesh,R.Hosi發(fā)表的“來自視頻序列的攝像運(yùn)動(dòng)的定性估計(jì)”(Qualitative estimation ofcamera motion parameters from video sequence))以及它的攝像運(yùn)動(dòng)參數(shù)提取方法ux=-ry+Y·rz+X·rzoomuy=rx-X·rz+Y·rzoom在這個(gè)算法中,對(duì)于每一運(yùn)動(dòng)矢量(ux,uy),根據(jù)參數(shù)rx、ry、rz和rzoom計(jì)算上面的方程描述的合成運(yùn)動(dòng)矢量段,其中X和Y是圖像平面的像素坐標(biāo)。接著從合成的運(yùn)動(dòng)矢量段中減去實(shí)際的矢量段(在圖6的步驟62中提供),并且計(jì)算剩余運(yùn)動(dòng)矢量段的平行度(the parallelism of the residual motionvector field)。剩余運(yùn)動(dòng)矢量段表示攝像運(yùn)動(dòng)的平移分量。當(dāng)剩余運(yùn)動(dòng)矢量段的所有運(yùn)動(dòng)矢量是平行的時(shí)候,找到rx、ry、rz和rzoom的最優(yōu)參數(shù)。該算法例如通過改變參數(shù)rx、ry、rz和rzoom執(zhí)行四維單行式最小化直到獲得剩余(平移的(translatoric))運(yùn)動(dòng)矢量的最佳近似平行度。但是本領(lǐng)域技術(shù)人員所熟知的從運(yùn)動(dòng)矢量中確定攝像的參數(shù)運(yùn)動(dòng)模型或?qū)ο筮\(yùn)動(dòng)的其他方法也是可行的。
圖14描述了視頻瀏覽單元的圖形表示的例子的概略圖。該視頻瀏覽單元(或視頻瀏覽用戶接口)使用運(yùn)動(dòng)信息(即,元數(shù)據(jù)),特別是攝像運(yùn)動(dòng)元數(shù)據(jù)以便能在拍攝和主幀電平上的分級(jí)分解和視頻概括。在本文中定義的拍攝是作為一序列視頻幀,該序列視頻幀是由一個(gè)攝像機(jī)捕捉的在時(shí)間和空間中的單個(gè)連續(xù)活動(dòng)。本發(fā)明是通用的,并且這個(gè)視頻瀏覽器不限于攝像運(yùn)動(dòng)而是覆蓋涉及如參數(shù)對(duì)象運(yùn)動(dòng)的一般元數(shù)據(jù)的運(yùn)動(dòng)和場(chǎng)景。本發(fā)明不限于矩形幀,也可以用于與它們的運(yùn)動(dòng)元數(shù)據(jù)有關(guān)的任意形狀對(duì)象的瀏覽。在下面的例子中,通常,描述在攝像運(yùn)動(dòng)和矩形對(duì)象情況下的視頻瀏覽單元。對(duì)于視頻瀏覽,使用分級(jí)攝像運(yùn)動(dòng)模型的狀態(tài)轉(zhuǎn)換圖。
首先使用本領(lǐng)域技術(shù)人員熟知的傾斜度和分類技術(shù)識(shí)別相似的運(yùn)動(dòng)元數(shù)據(jù)段,主幀的收集從這些中得出并用于表示每一視頻段。在每一段的主幀之間的攝像運(yùn)動(dòng)過渡弧由攝像運(yùn)動(dòng)參數(shù)描述,這些攝像運(yùn)動(dòng)參數(shù)在瀏覽器中被可視地表示。攝像運(yùn)動(dòng)的總量在視頻瀏覽器中被描述,使得用戶在小的和大的攝像運(yùn)動(dòng)之間可視地區(qū)分,或者在慢的和快的攝像縮放之間區(qū)分。
圖14描述,例如,具有三個(gè)運(yùn)動(dòng)元數(shù)據(jù)狀態(tài)攝像全景、攝像縮放和攝像旋轉(zhuǎn)的情況。
圖14步驟151描述了在X方向具有0.5的攝像全景常數(shù)的攝像全景狀態(tài)。該箭頭描述了攝像全景運(yùn)動(dòng)的方向和它的長(zhǎng)度、攝像運(yùn)動(dòng)的相對(duì)速度。攝像全景的優(yōu)選圖形表示之一是一個(gè)包含攝像全景的連續(xù)幀的拼接表示。該拼接表示的生成是本領(lǐng)域技術(shù)人員熟知的,如1996年“信號(hào)處理、圖象通信”(Signal Processing,Image Communications)卷8上M.Irani,P.Anandan、J.Bergen、R.Kumar、S.Hsu發(fā)表的“視頻序列的有效表示及其應(yīng)用”(Efficientrepresentations of video sequences and their application)。
圖14步驟152描述了在狀態(tài)轉(zhuǎn)換圖中的攝像縮放狀態(tài)的圖形表示的優(yōu)選實(shí)施例,其中在時(shí)間“to”上出現(xiàn)2的攝像縮放。在攝像縮放表示中的縮略圖(thumbnail)(即主幀)表示攝像縮放的中心。在攝像縮放窗口中的箭頭的長(zhǎng)度表示相對(duì)的攝像縮放速度。至中心的箭頭的方向表示縮放。穿出中心的箭頭的方向表示縮放放大。
圖14步驟153描述了攝像旋轉(zhuǎn)的圖形表示的優(yōu)選實(shí)施例,其中圖標(biāo)中的縮略圖表示攝像旋轉(zhuǎn)的焦點(diǎn)的表示幀。該箭頭描述旋轉(zhuǎn)的方向,并且箭頭表示攝像旋轉(zhuǎn)的相對(duì)速度。
每一攝像運(yùn)動(dòng)圖標(biāo)表示特定的攝像運(yùn)動(dòng)狀態(tài)并且在攝像運(yùn)動(dòng)圖標(biāo)之間的箭頭表示在特定攝像運(yùn)動(dòng)狀態(tài)之間的攝像運(yùn)動(dòng)狀態(tài)轉(zhuǎn)換。通過例如傾斜度技術(shù)或?qū)υ谶B續(xù)幀之間的攝像運(yùn)動(dòng)的每一類型的總量設(shè)定標(biāo)準(zhǔn)能夠簡(jiǎn)單地找到轉(zhuǎn)換。但是,也可以使用本領(lǐng)域技術(shù)人員熟知的更先進(jìn)的算法??s放的中心由所有的(人工延長(zhǎng)的)運(yùn)動(dòng)矢量的相交點(diǎn)來確定。
圖15描述了在圖14中出現(xiàn)的視頻瀏覽單元的擴(kuò)大圖。優(yōu)選功能之一是在三個(gè)狀態(tài)圖標(biāo)(161、163、164)之一上的BROWSE命令(優(yōu)選實(shí)施例是使用鼠標(biāo)點(diǎn)擊,碰擊功能鍵或觸筆),其將導(dǎo)致顯示更詳盡的表示。當(dāng)給出BROWSE命令至全景狀態(tài)窗口161時(shí),攝像全景的主幀表示如162所示。當(dāng)給出BROWSE命令至縮放狀態(tài)窗口163時(shí),攝像縮放的主幀表示如166所示。在166中,主幀168的一部分被可視地標(biāo)記(優(yōu)選的實(shí)施例可能是在焦點(diǎn)區(qū)域的縮放中心周圍的不同顏色的正方形中的幀)。當(dāng)給出一個(gè)命令至該顏色幀(優(yōu)選實(shí)施例是使用鼠標(biāo)或觸筆進(jìn)行點(diǎn)擊)時(shí),相同運(yùn)動(dòng)元數(shù)據(jù)的下一個(gè)較低分級(jí)電平被圖形顯示為167。當(dāng)給出BROWSE命令至旋轉(zhuǎn)狀態(tài)窗口164時(shí),攝像全景的主幀表示如165所示。另一個(gè)優(yōu)選實(shí)施例的功能包括在三個(gè)狀態(tài)圖標(biāo)(161、163、164)之一或主幀表示(162、165、166、167)上的PLAY命令(優(yōu)選實(shí)施例是使用鼠標(biāo)進(jìn)行雙擊,碰擊功能鍵或觸筆)描述這個(gè)特定的元數(shù)據(jù)的視頻序列的部分(在這個(gè)例子中特定的是攝像運(yùn)動(dòng))。這導(dǎo)致播放屬于這個(gè)狀態(tài)的視頻序列的部分。
圖16描述了視頻瀏覽單元的功能的另一個(gè)優(yōu)選實(shí)施例,當(dāng)在三個(gè)狀態(tài)圖標(biāo)(171、173、174)或它們的自坐標(biāo)表示的主幀表示(比較圖15)之一上給出一個(gè)GRAPH命令(優(yōu)選實(shí)施例是使用鼠標(biāo)按鈕、功能鍵或觸筆進(jìn)行點(diǎn)擊)時(shí),顯示元數(shù)據(jù)的圖形表示(優(yōu)選實(shí)施例沿時(shí)間/幀數(shù)字軸的攝像運(yùn)動(dòng)元數(shù)據(jù))。
產(chǎn)業(yè)上的可應(yīng)用性如上已經(jīng)詳細(xì)地描述的,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)。該方法包括步驟提取至少一個(gè)表示在視頻/音頻信號(hào)的壓縮域中的視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn);對(duì)在提取步驟提取的特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì);并通過預(yù)設(shè)數(shù)量的構(gòu)成視頻/音頻信號(hào)的幀跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,在壓縮域中提取視頻/音頻信號(hào)的特征點(diǎn),執(zhí)行所提取的特征點(diǎn)的運(yùn)動(dòng)估計(jì),并且跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。從而能夠?qū)崿F(xiàn)處理上時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)。該設(shè)備包括提取裝置,提取至少一個(gè)表示在視頻/音頻信號(hào)的壓縮域中的視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn);運(yùn)動(dòng)估計(jì)裝置,對(duì)在提取裝置提取的特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì);以及特征點(diǎn)跟蹤裝置,通過預(yù)設(shè)數(shù)量的構(gòu)成視頻/音頻信號(hào)的幀跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,在壓縮域中提取壓縮域特征點(diǎn)的裝置提取視頻/音頻信號(hào)的特征點(diǎn),執(zhí)行特征點(diǎn)的運(yùn)動(dòng)估計(jì)的裝置執(zhí)行所提取的特征點(diǎn)的運(yùn)動(dòng)估計(jì),并且跟蹤特征點(diǎn)的裝置跟蹤與運(yùn)動(dòng)矢量有關(guān)的特征點(diǎn)。從而能夠?qū)崿F(xiàn)處理上時(shí)間或成本的降低,并且使有效處理成為可能。
而且,一種視頻/音頻信號(hào)處理方法被用于處理和瀏覽所提供的視頻/音頻信號(hào)。該方法包括步驟分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立步驟包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的節(jié)點(diǎn)的圖形布局;通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行瀏覽;以及通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行的瀏覽,以及執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行的瀏覽。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理和瀏覽所提供的視頻/音頻信號(hào)。該設(shè)備包括建立裝置,用于分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立裝置包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀,進(jìn)行瀏覽;以及瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行測(cè)覽。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,通過建立圖的裝置分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,第一瀏覽裝置執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行的瀏覽,以及第二瀏覽裝置執(zhí)行通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行的瀏覽。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
并且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于提取用于瀏覽的合成視頻選擇的分級(jí)分解。該方法包括步驟識(shí)別視頻;從表示每一視頻段的視頻拍攝中收集主幀;根據(jù)攝像運(yùn)動(dòng)或全面的運(yùn)動(dòng)信息分類主幀的收集;以及建立視頻的圖形表示,圖形表示是基于分類步驟的結(jié)果的、瞬間的以及與視頻拍攝的每一部分有關(guān)的攝像運(yùn)動(dòng)信息,其中圖形表示建立步驟包括由節(jié)點(diǎn)表示視頻拍攝的每一類別的步驟。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,識(shí)別視頻,從視頻拍攝中收集主幀,分類所收集的主幀,并建立視頻的圖形表示。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備是適用于提取用于瀏覽的合成視頻選擇的分級(jí)分解。該設(shè)備包括識(shí)別裝置,用于識(shí)別視頻;收集裝置,用于從表示每一視頻段的視頻拍攝中收集主幀;分類裝置,用于根據(jù)攝像運(yùn)動(dòng)或全面的運(yùn)動(dòng)信息分類主幀的收集;以及建立裝置,用于建立視頻的圖形表示,圖形表示是基于分類步驟的結(jié)果的、瞬間的以及與視頻拍攝的每一部分有關(guān)的攝像運(yùn)動(dòng)信息,其中所述的圖形表示建立步驟包括由節(jié)點(diǎn)表示視頻拍攝的每一類別的步驟。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,識(shí)別視頻的裝置識(shí)別視頻,收集主幀的裝置從視頻拍攝中收集主幀,分類的裝置分類所收集的主幀,并且建立視頻的圖形表示的裝置建立視頻的圖形表示。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)。該方法包括步驟提取至少一個(gè)表示在視頻/音頻信號(hào)的壓縮域中的視頻/音頻信號(hào)的特性的壓縮域特征點(diǎn)。
在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,在壓縮域中提取視頻/音頻信號(hào)的特征點(diǎn)。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)。該裝置包括提取裝置,用于在視頻/音頻信號(hào)的壓縮域中提取表示所述視頻/音頻信號(hào)的特性的至少一個(gè)壓縮域特征點(diǎn)。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,在壓縮域中由提取壓縮域特征點(diǎn)的裝置提取視頻/音頻信號(hào)的特征點(diǎn)。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法適用于處理所提供的視頻/音頻信號(hào)。該方法包括步驟對(duì)在視頻/音頻信號(hào)的壓縮域中的表示視頻/音頻信號(hào)的特性的至少一個(gè)特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì)。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理方法中,執(zhí)行所提取特征點(diǎn)的運(yùn)動(dòng)估計(jì)。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備適用于處理所提供的視頻/音頻信號(hào)。該設(shè)備包括運(yùn)動(dòng)估計(jì)裝置,用于對(duì)在視頻/音頻信號(hào)的壓縮域中的表示視頻/音頻信號(hào)的特性的至少一個(gè)特征點(diǎn)執(zhí)行運(yùn)動(dòng)估計(jì)。
因此,在根據(jù)本發(fā)明的視頻/音頻信號(hào)處理設(shè)備中,由執(zhí)行運(yùn)動(dòng)估計(jì)的裝置執(zhí)行所提取特征點(diǎn)的運(yùn)動(dòng)估計(jì)。從而能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
權(quán)利要求
1.一種處理和瀏覽所提供的視頻/音頻信號(hào)的方法,包括步驟分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立步驟包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行瀏覽;以及通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。
2.一種處理和瀏覽所提供的視頻/音頻信號(hào)的設(shè)備,包括建立裝置,用于分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立裝置包括提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀,進(jìn)行瀏覽;以及瀏覽裝置,通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。
全文摘要
一種處理和瀏覽所提供的視頻/音頻信號(hào)的方法和設(shè)備。所述方法包括步驟分級(jí)建立攝像運(yùn)動(dòng)轉(zhuǎn)換圖,其中圖形建立步驟包括步驟提供具有至少一個(gè)主攝像運(yùn)動(dòng)轉(zhuǎn)換圖和具有多個(gè)表示其他的具有用于視頻序列說明的轉(zhuǎn)換路徑的攝像運(yùn)動(dòng)的圖形布局;通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)視頻序列的主幀進(jìn)行瀏覽;以及通過攝像運(yùn)動(dòng)轉(zhuǎn)換圖,并通過說明在節(jié)點(diǎn)上的攝像運(yùn)動(dòng)的圖形表示進(jìn)行瀏覽。元數(shù)據(jù)提取單元具有特征點(diǎn)選擇和運(yùn)動(dòng)估計(jì)單元(62),用于在視頻/音頻信號(hào)的壓縮域中提取至少一個(gè)表示該視頻/音頻信號(hào)的特性的特征點(diǎn)。因此,能夠?qū)崿F(xiàn)處理時(shí)間或成本的降低,并且使有效處理成為可能。
文檔編號(hào)H04N5/91GK1625246SQ200410098368
公開日2005年6月8日 申請(qǐng)日期1999年11月29日 優(yōu)先權(quán)日1999年11月29日
發(fā)明者M·彼得·庫恩 申請(qǐng)人:索尼公司