專利名稱:基于h.264壓縮域運(yùn)動對象實(shí)時分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到一種基于H.264壓縮域運(yùn)動對象實(shí)時分割方法,特別是與現(xiàn)有方法截然不同的是,免除了對壓縮視頻的完全解碼,僅通過熵解碼提取出的運(yùn)動矢量用作分割所需的運(yùn)動特征,因此計(jì)算量大大減少。而且它不受限于靜止背景的視頻序列,對于具有運(yùn)動背景或者靜止背景的視頻序列,都能快速可靠地分割出運(yùn)動對象。由于該方法只使用了運(yùn)動矢量場信息,因此它同樣可適用于MPEG壓縮域的運(yùn)動對象分割。
背景技術(shù):
運(yùn)動對象分割是諸如視頻索引與檢索、智能視頻監(jiān)控、視頻編輯和人臉識別等眾多基于內(nèi)容的多媒體應(yīng)用所必需的一個前提條件。自從MPEG-4提出基于內(nèi)容的視頻編碼,有關(guān)運(yùn)動對象分割的研究大多集中在象素域,而基于壓縮域的運(yùn)動對象分割直至近年來才開始引起關(guān)注。在壓縮域內(nèi)進(jìn)行運(yùn)動對象分割,與象素域內(nèi)的分割方法相比更適合于實(shí)際應(yīng)用的需要。尤其是實(shí)際應(yīng)用中的大多數(shù)視頻序列已經(jīng)壓縮為某種格式,直接在此壓縮域內(nèi)進(jìn)行運(yùn)動對象分割,可免除對壓縮視頻進(jìn)行完全解碼;而且,在壓縮域內(nèi)需要處理的數(shù)據(jù)量要比象素域少很多,因此計(jì)算量大大減少;加之,從壓縮視頻中僅通過熵解碼提取出的運(yùn)動矢量和DCT系數(shù),可直接用作分割所需的運(yùn)動特征和紋理特征。因此,從壓縮域分割運(yùn)動對象具有快速的特點(diǎn),可解決傳統(tǒng)的象素域分割方法難于滿足實(shí)時性分割的要求,適合于眾多的具有實(shí)時性要求的應(yīng)用場合。
目前,壓縮域運(yùn)動對象分割方法雖已有人提出,但基本上是針對MPEG-2壓縮域的,H.264是最新的視頻編碼標(biāo)準(zhǔn),相比于MPEG-2編碼效率提高了一倍,目前越來越多的應(yīng)用都在轉(zhuǎn)向采用H.264來取代MPEG-2,但至今在H.264壓縮域內(nèi)進(jìn)行運(yùn)動對象分割的研究甚少。與MPEG壓縮域相比,H.264壓縮域中I幀的DCT系數(shù)不能直接用作分割的紋理特征,因?yàn)樗鼈兪窃趬K的空間預(yù)測殘差上進(jìn)行變換的,而不是在原始塊上進(jìn)行變換。因此,在H.264域進(jìn)行運(yùn)動對象分割可直接使用的特征只有運(yùn)動矢量信息。目前在H.264域,只有Zeng等提出了一種基于塊的MRF模型從稀疏運(yùn)動矢量場中分割運(yùn)動對象的方法,根據(jù)各個塊運(yùn)動矢量的幅值賦予各個塊不同類型的標(biāo)記,通過最大化MRF的后驗(yàn)概率標(biāo)記出屬于運(yùn)動對象的塊。但是,這種方法只適用于靜態(tài)背景的視頻序列,而且分割的準(zhǔn)確度不高,計(jì)算量也較大。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于H.264壓縮域運(yùn)動對象實(shí)時分割方法,分割所用的唯一信息是從H.264壓縮視頻中提取出的基于4×4塊均勻采樣的運(yùn)動矢量場。本方法可免除對壓縮視頻的完全解碼,使用熵解碼提取出的運(yùn)動矢量作為分割所需的運(yùn)動特征,因此計(jì)算量大大減少,以達(dá)到實(shí)時運(yùn)動對象分割的目的。
為達(dá)到上述的目的,本發(fā)明的構(gòu)思是如圖1所示,對輸入的H.264壓縮視頻流提取運(yùn)動矢量并歸一化,然后進(jìn)行迭代后向投影,獲得可顯著增強(qiáng)運(yùn)動信息的累積運(yùn)動矢量場。再進(jìn)行全局運(yùn)動補(bǔ)償并且按照運(yùn)動相似性將累積運(yùn)動矢量場分割成多個區(qū)域,然后用一個匹配矩陣表示當(dāng)前幀的分割區(qū)域和前一幀運(yùn)動對象在當(dāng)前幀投影的相關(guān)性,基于這個匹配矩陣將運(yùn)動對象分割出來。
根據(jù)上述構(gòu)思,本發(fā)明的技術(shù)方案是一種基于H.264壓縮域的運(yùn)動對象實(shí)時分割方法,其特征在于對連續(xù)多幀的運(yùn)動矢量場歸一化并進(jìn)行迭代后向投影,獲得累積運(yùn)動矢量場;然后對累積運(yùn)動矢量場進(jìn)行全局運(yùn)動補(bǔ)償,同時采用快速的統(tǒng)計(jì)區(qū)域生長算法按照運(yùn)動相似性將其分割成多個區(qū)域;利用上述兩方面結(jié)果,采用本發(fā)明提出的基于匹配矩陣的運(yùn)動對象分割方法分割出運(yùn)動對象,其中可有效地在視頻序列中進(jìn)行對象的跟蹤與更新、對象的合并與分裂、對象的出現(xiàn)與消失等多種情況;其步驟是a.運(yùn)動矢量場歸一化從H.264視頻中提取出運(yùn)動矢量場并進(jìn)行時域和空域上的歸一化;b.累積運(yùn)動矢量場利用連續(xù)多幀的運(yùn)動矢量場進(jìn)行迭代后向投影來獲得更加可靠的累積運(yùn)動矢量場;c.全局運(yùn)動補(bǔ)償在累積運(yùn)動矢量場上進(jìn)行全局運(yùn)動估計(jì)后進(jìn)行補(bǔ)償以獲得各4×4塊的殘差;d.區(qū)域分割采用統(tǒng)計(jì)區(qū)域生長方法將累積運(yùn)動矢量場分割成多個具有相似運(yùn)動的區(qū)域;e.對象分割采用基于匹配矩陣的分割方法將運(yùn)動對象分割出來。上述的運(yùn)動矢量場歸一化的步驟是(1)時域歸一化將當(dāng)前幀的運(yùn)動矢量除以當(dāng)前幀與參考幀的間隔幀數(shù),即時域距離;(2)空域歸一化將凡尺寸大于4×4的各個宏塊運(yùn)動矢量直接賦給該宏塊所覆蓋的所有4×4塊。
上述的累積運(yùn)動矢量場的步驟是(1)利用當(dāng)前幀之后若干幀的運(yùn)動矢量場,對相鄰幀的運(yùn)動矢量場進(jìn)行后向投影,就是通過對各投影塊的運(yùn)動矢量乘以不同的比例因子后相加得到當(dāng)前塊的投影運(yùn)動矢量,比例因子的選定方法為如果重疊區(qū)域的總面積大于當(dāng)前塊面積的一半,則各投影塊的比例因子取為該投影塊與當(dāng)前塊的相重疊的面積除以所有投影塊與當(dāng)前塊重疊區(qū)域的總面積;否則,各投影塊的比例因子取為其重疊面積與當(dāng)前塊面積之比;(2)從后幀開始迭代累積以獲得當(dāng)前幀的累積運(yùn)動矢量場;上述的全局運(yùn)動補(bǔ)償?shù)牟襟E是(1)采用6參數(shù)的仿射運(yùn)動模型估算全局運(yùn)動矢量場;①模型參數(shù)初始化設(shè)m=(m1,m2,m3,m4,m5,m6)是全局運(yùn)動模型的參數(shù)矢量,模型參數(shù)m(0)初始化為m(0)=101NΣi=1Nmvxi011NΣj=1NmvyiT;]]>②剔除局外點(diǎn)首先計(jì)算當(dāng)前幀中心坐標(biāo)為(xi,yi)的第i個塊在前一幀的估計(jì)中心坐標(biāo)(xi′,yi′)xi′yi′=m1m2m4m5xiyi+m3m6,]]>則預(yù)測運(yùn)動矢量((xi′-xi),(yi′-yi))和原始累積運(yùn)動矢量(mvxi,mvyi)的偏差(exi,eyi)計(jì)算為exi=xi′-xi-mvxieyi=yi′-yi-mvyi,]]>使用這個式子計(jì)算出每個4×4塊的預(yù)測偏差(exi,eyi),最后計(jì)算出偏差幅度平方和(exi2+eyi2)的直方圖,然后剔除直方圖中那些偏差幅度平方和大于25%的運(yùn)動矢量;③模型參數(shù)更新使用前面步驟中保留下來的運(yùn)動矢量和Newton-Raphson方法來更新模型參數(shù),第l步迭代中新的模型參數(shù)矢量m(l)定義如下m(l)=m(l-1)-H-1b,這里Hessian矩陣H和梯度矢量b計(jì)算如下
H=Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1000000Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1]]>b=Σi∈RxiexiΣi∈RyiexiΣi∈RexiΣi∈RxieyiΣi∈RyieyiΣi∈ReyiT]]>這里R代表保留下來的塊的集合;④結(jié)束條件重復(fù)步驟②和③最多5次,而且以下兩個條件之一如果被滿足的話也提前結(jié)束迭代(i)計(jì)算m(l)和在攝像機(jī)靜止情況下的全局運(yùn)動向量mstatic=[1 0 0 0 1 0]T的差值,如果對于每一個參數(shù)分量,這個差值小于0.01,就判斷為屬于攝像機(jī)靜止的情況,結(jié)束迭代;(ii)計(jì)算m(l)和m(l-1)的差值,如果這個差值的參數(shù)分量m3和m6小于0.01,而且其它參數(shù)分量小于0.0001,則迭代結(jié)束;⑤將得到的全局運(yùn)動模型參數(shù)矢量m代入xi′yi′=m1m2m4m5xiyi+m3m6,]]>求出前一幀的估計(jì)坐標(biāo)(xi′,yi′),最后得到全局運(yùn)動矢量場((xi′-xi),(yi′-yi));(2)計(jì)算全局運(yùn)動矢量場與累積運(yùn)動矢量場中各4×4塊的殘差。
上述的區(qū)域分割是采用統(tǒng)計(jì)區(qū)域生長算法將累積運(yùn)動矢量場分劃成多個具有相似運(yùn)動的區(qū)域,步驟如下(1)計(jì)算四鄰域內(nèi)任意相鄰塊組的運(yùn)動差異性度量;(2)所有相鄰塊組按照運(yùn)動差異性度量從小到大的次序進(jìn)行排序;(3)將運(yùn)動差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程,在每次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,則判斷這兩個區(qū)域是否合并的條件是這兩個區(qū)域的平均運(yùn)動矢量之差是否小于閾值條件Δ(R)=SR22Q|R|(min(SR,|R|)log(1+|R|)+2log6wh),]]>其中SR表示運(yùn)動矢量的動態(tài)范圍,|R|表示區(qū)域包含的運(yùn)動矢量數(shù)目,wh表示運(yùn)動矢量場的尺寸,參數(shù)Q用來控制運(yùn)動矢量場的分割程度,就樣就可以將運(yùn)動矢量場適度地分割成若干具有相似運(yùn)動的區(qū)域;(4)計(jì)算每個分割區(qū)域在全局運(yùn)動補(bǔ)償后的平均殘差;(5)區(qū)分最可靠的背景區(qū)域和其它對象所在的區(qū)域,在面積大于整個運(yùn)動矢量場10%的若干分割區(qū)域中選擇平均殘差最小的區(qū)域作為可靠的背景區(qū)域,標(biāo)記為R0t,剩下的區(qū)域作為運(yùn)動對象可能存在的區(qū)域Rit;最后對當(dāng)前幀所分割的M個對象區(qū)域和1個背景區(qū)域分別標(biāo)記,分割結(jié)果記為Lregt。
上述的對象分割是利用前一幀,t-1時刻,已經(jīng)獲得的運(yùn)動對象分割結(jié)果,來判斷當(dāng)前幀,t時刻,各個分割區(qū)域是否與前一幀的某個對象匹配,以此構(gòu)造匹配矩陣;基于匹配矩陣判斷對象的跟蹤與更新、對象的合并、對象的分裂、新對象的出現(xiàn)、舊對象的消失等情況,最終獲得當(dāng)前幀的若干運(yùn)動對象;其步驟是(1)采用后向投影方法獲得前一幀,t-1時刻,各個對象在當(dāng)前幀t時刻的投影區(qū)域,先將前一幀的N個運(yùn)動對象Ojt-1和1個背景對象O0t-1標(biāo)記出來,然后采用后向投影的方法獲得前一幀各個對象在當(dāng)前幀的投影區(qū)域。就是利用當(dāng)前幀累積運(yùn)動矢量場中任意塊的坐標(biāo)和其對應(yīng)的累積運(yùn)動矢量的差求出這個塊在前一幀中的匹配位置,然后將前一幀匹配位置上的塊對象投影到當(dāng)前幀并逐個標(biāo)記出來,記為Lprogt;(2)構(gòu)造矩陣CMt,它表示分割區(qū)域與對象投影相互重疊的面積;構(gòu)造矩陣CMRt,它表示每個分割區(qū)域落在各個對象投影內(nèi)的比例;構(gòu)造矩陣CMCt,它表示每個對象投影落在各個分割區(qū)域內(nèi)的比例;根據(jù)標(biāo)記圖象Lregt和Lprojt,構(gòu)造3個M+1行N+1列的矩陣CMt,CMRt,CMCt。其中矩陣CMt中的任意元素CMt(i,j)取值為在Lregt中標(biāo)記為i且在Lprojt標(biāo)記為j的象素?cái)?shù)目,即分割區(qū)域Lregt與對象投影Lprojt相互重疊的面積。而矩陣CMRt(i,j)定義為CMRt第i行的各個元素是分割區(qū)域Rit落在各個對象投影內(nèi)的比例;矩陣CMCt(i,j)定義為CMCt第j列的各個元素是對象Ojt-1的投影落在各個分割區(qū)域內(nèi)的比例;
(3)構(gòu)造矩陣CMMt,它表示當(dāng)前幀分割區(qū)域和對象投影之間的關(guān)聯(lián)程度,矩陣CMMt記錄了CMRt和CMCt所反映的Lregt和Lprojt之間的相關(guān)信息;CMMt首先置為M+1行、N+1列的零矩陣;接著對CMRt進(jìn)行行掃描找到每一行最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加1;然后對CMCt進(jìn)行列掃描找到每一列最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加2;生成的矩陣CMMt的縱坐標(biāo)依次表示為當(dāng)前幀背景區(qū)域R0t和運(yùn)動區(qū)域Rit(i=1,2,L M),橫坐標(biāo)依次表示為前一幀背景對象O0t-1和運(yùn)動對象Ojt-1(j=1,2,L,N),矩陣中各元素的可能取值為0,1,2,3;CMMt中任意不為0的元素CMMt(i,j)表明了分割區(qū)域Rit與對象Ojt-1存在一定的相關(guān)性,具體而言①CMMt(i,j)=1,表明分割區(qū)域Rit在很大程度上屬于前一幀對象Ojt-1;②CMMt(i,j)=2,表明前一幀對象Ojt-1在很大程度上包含在分割區(qū)域Rit中;③CMMt(i,j)=3,同時包含了上述兩種情況,表明Rit和Ojt-1具有極強(qiáng)的相關(guān)性;需要進(jìn)一步比較,如果CMRt(i,j)>CMCt(i,j),則CMMt(i,j)=1;否則,CMMt(i,j)=2;最后生成的CMMt取值范圍為0,1,2;(4)基于匹配矩陣CMMt對單個對象的跟蹤與更新、新對象出現(xiàn)、對象的合并、對象的分裂以及對象的消失五類情況進(jìn)行對象分割;通過矩陣CMMt可以有效地建立起分割區(qū)域與運(yùn)動對象的關(guān)聯(lián)關(guān)系,它能夠以一種統(tǒng)一的方式有效地處理以下五種情況①單個對象跟蹤與更新(1→1);②新對象出現(xiàn)(0→1);③對象的合并(m→1);④對象的分裂(1→m);⑤對象的消失(1→0)。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下的突出特點(diǎn)和優(yōu)點(diǎn)本發(fā)明提供的基于壓縮域的實(shí)時運(yùn)動對象分割方法,是基于H.264視頻流,即與現(xiàn)有方法截然不同的是現(xiàn)有的壓縮域視頻對象分割方法主要適用于MPEG域,而本發(fā)明不僅適用于H.264壓縮域,同樣適用于MPEG壓縮域。而且本發(fā)明不受限于靜止背景的視頻序列,不論對于具有運(yùn)動背景或者靜止背景的視頻序列,都能快速可靠地分割出運(yùn)動對象。此外本發(fā)明提出的匹配矩陣分割運(yùn)動對象的方法,幾乎能夠?qū)σ曨l對象運(yùn)動的各種情況作出實(shí)時分割,因此分割對象的效果很好,具有很強(qiáng)的適用性。
圖1是本發(fā)明的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法的程序框圖。
圖2是圖1中運(yùn)動矢量場歸一化和累積運(yùn)動矢量場的結(jié)構(gòu)框圖。
圖3是圖1中全局運(yùn)動補(bǔ)償和區(qū)域分割的結(jié)構(gòu)框圖。
圖4是圖1中對象分割的結(jié)構(gòu)框圖。
圖5是對序列Coastguard中各個典型幀(第4、37、61、208幀)運(yùn)動對象分割結(jié)果的圖示。
圖6是對序列Mobile中各個典型幀(第4、43、109、160幀)運(yùn)動對象分割結(jié)果的圖示。
具體實(shí)施例方式
本發(fā)明的一個實(shí)施例子結(jié)合附圖詳述如下本發(fā)明基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法是按圖1所示程序框圖,在CPU為3.0GHz、內(nèi)存512M的PC測試平臺上編程實(shí)現(xiàn),圖5和圖6示出仿真測試結(jié)果。
參見圖1,本發(fā)明基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,通過運(yùn)動矢量場的歸一化和累積增強(qiáng)了顯著的運(yùn)動信息,然后對累積運(yùn)動矢量場進(jìn)行全局運(yùn)動補(bǔ)償,采用統(tǒng)計(jì)區(qū)域生長算法和基于匹配矩陣的運(yùn)動對象分割方法來分割區(qū)域和運(yùn)動對象,具有算法簡單,對象分割速度快,分割效果好的特點(diǎn)。
其步驟是(1)運(yùn)動矢量場歸一化從H.264視頻中提取出運(yùn)動矢量場并進(jìn)行時域和空域上歸一化;(2)累積運(yùn)動矢量場利用連續(xù)多幀的運(yùn)動矢量場進(jìn)行迭代后向投影來獲得更加可靠的累積運(yùn)動矢量場;(3)全局運(yùn)動補(bǔ)償在累積運(yùn)動矢量場上進(jìn)行全局運(yùn)動估計(jì)后進(jìn)行補(bǔ)償以獲得各4×4塊的殘差;(4)區(qū)域分割采用統(tǒng)計(jì)區(qū)域生長方法將累積運(yùn)動矢量場分割成多個具有相似運(yùn)動的區(qū)域;(5)對象分割采用基于匹配矩陣的分割算法將運(yùn)動對象分割出來。
上述步驟(1)的運(yùn)動矢量場歸一化的過程如下①時域歸一化將當(dāng)前幀的運(yùn)動矢量除以當(dāng)前幀與參考幀的間隔幀數(shù),即時域距離;②空域歸一化將凡尺寸大于4×4的各個宏塊運(yùn)動矢量直接賦給該宏塊所覆蓋的所有4×4塊。
上述步驟(2)的累積運(yùn)動矢量場的過程如下①利用當(dāng)前幀之后若干幀的運(yùn)動矢量場,對相鄰幀的運(yùn)動矢量場進(jìn)行后向投影;②從后幀開始迭代累積以獲得當(dāng)前幀的累積運(yùn)動矢量場。
上述步驟(3)的全局運(yùn)動補(bǔ)償?shù)倪^程如下①采用6參數(shù)的仿射運(yùn)動模型估算全局運(yùn)動矢量場;②計(jì)算出各4×4塊經(jīng)全局運(yùn)動補(bǔ)償后的殘差。
上述步驟(4)的區(qū)域分割的過程如下①計(jì)算四鄰域內(nèi)任意相鄰塊組的運(yùn)動差異性度量;②所有相鄰塊組按照運(yùn)動差異性度量從小到大的次序進(jìn)行排序;③將運(yùn)動差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程;④計(jì)算每個分割區(qū)域在全局運(yùn)動補(bǔ)償后的平均殘差;⑤區(qū)分最可靠的背景區(qū)域和其它對象所在的區(qū)域。
上述步驟(5)的對象分割的過程如下①采用后向投影方法獲得前一幀各個對象在當(dāng)前幀的投影區(qū)域;②構(gòu)造矩陣CMt,它表示分割區(qū)域與投影對象相互重疊的面積;構(gòu)造矩陣CMRt,它表示每個分割區(qū)域落在各個對象投影內(nèi)的比例;構(gòu)造矩陣CMCt,它表示每個對象投影落在各個分割區(qū)域內(nèi)的比例;③構(gòu)造矩陣CMMt,它表示當(dāng)前幀分割區(qū)域和對象投影之間的關(guān)聯(lián)程度;④基于匹配矩陣CMMt對單個對象跟蹤與更新、新對象出現(xiàn)、對象的合并、對象的分裂以及對象的消失等五類情況進(jìn)行對象分割。
下面對本實(shí)施例子結(jié)合總框圖(圖1)的五個步驟給予進(jìn)一步詳細(xì)說明a.運(yùn)動矢量場歸一化如圖2所示,將當(dāng)前幀的運(yùn)動矢量除以當(dāng)前幀與參考幀的間隔幀數(shù)得到時域上的歸一化,將當(dāng)前幀中尺寸大于4×4的塊的運(yùn)動矢量直接賦給該塊所覆蓋的所有4×4塊獲得空域上的歸一化。
b.累積運(yùn)動矢量場如圖2所示,先利用當(dāng)前幀之后若干幀的運(yùn)動矢量場,對相鄰幀的運(yùn)動矢量場進(jìn)行后向投影。就是通過對各投影塊的運(yùn)動矢量乘以不同的比例因子后相加得到當(dāng)前塊的投影運(yùn)動矢量,比例因子的選定方法為如果重疊區(qū)域的總面積大于當(dāng)前塊面積的一半,則各投影塊的比例因子取為該投影塊與當(dāng)前塊的相重疊的面積除以所有投影塊與當(dāng)前塊重疊區(qū)域的總面積;否則,各投影塊的比例因子取為其重疊面積與當(dāng)前塊面積之比。然后從后幀開始迭代累積以獲得當(dāng)前幀的累積運(yùn)動矢量場。
c.全局運(yùn)動補(bǔ)償如圖3所示,采用6參數(shù)的仿射運(yùn)動模型估算全局運(yùn)動矢量場,利用它與累積運(yùn)動矢量場之差就可獲得累積運(yùn)動矢量場任意塊經(jīng)全局運(yùn)動補(bǔ)償后的殘差。其步驟是(1)采用6參數(shù)的仿射運(yùn)動模型估算全局運(yùn)動矢量場①模型參數(shù)初始化設(shè)m=(m1,m2,m3,m4,m5,m6)是全局運(yùn)動模型的參數(shù)矢量,模型參數(shù)m(0)初始化為m(0)=101NΣi=1Nmvxi011NΣi=1NmvyiT;]]>②剔除局外點(diǎn)首先計(jì)算當(dāng)前幀中心坐標(biāo)為(xi,yi)的第i個塊在前一幀的估計(jì)中心坐標(biāo)(xi′,yi′)xi′yi′=m1m2m4m5xiyi+m3m6,]]>則預(yù)測運(yùn)動矢量((xi′-xi),(yi′-yi))和原始累積運(yùn)動矢量(mvxi,mvyi)的偏差(exi,eyi)計(jì)算為exi=xi′-xi-mvxieyi=yi′-yi-mvyi.]]>使用這個式子計(jì)算出每個4×4塊的預(yù)測偏差(exi,eyi),最后計(jì)算出偏差幅度的平方和(exi2+eyi2)的直方圖,然后剔除直方圖中那些偏差幅度平方和大于25%的運(yùn)動矢量。
③模型參數(shù)更新使用前面步驟中保留下來的運(yùn)動矢量和Newton-Raphson方法來更新模型參數(shù)。第l步迭代中新的模型參數(shù)矢量m(l)定義如下m(l)=m(l-1)-H-1b,這里Hessian矩陣H和梯度矢量b計(jì)算如下H=Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1000000Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1]]>b=Σi∈RxiexiΣi∈RyiexiΣi∈RexiΣi∈RxieyiΣi∈RyieyiΣi∈ReyiT]]>這里R代表保留下來的塊的集合。
④結(jié)束條件重復(fù)步驟②和③最多5次,而且以下兩個條件之一如果被滿足的話也提前結(jié)束迭代(i)計(jì)算m(l)和在攝像機(jī)靜止情況下的全局運(yùn)動向量mstatic=[1 0 0 0 1 0]T的差值,如果對于每一個參數(shù)分量,這個差值小于0.01,就判斷為屬于攝像機(jī)靜止的情況,結(jié)束迭代;(ii)計(jì)算m(l)和m(l-1)的差值,如果這個差值的參數(shù)分量m3和m6小于0.01,而且其它參數(shù)分量小于0.0001,則迭代結(jié)束。
⑤將得到的全局運(yùn)動模型參數(shù)矢量m代入xi′yi′=m1m2m4m5xiyi+m3m6,]]>求出前一幀的估計(jì)坐標(biāo)(xi′,yi′),最后得到全局運(yùn)動矢量場((xi′-xi),(yi′-yi))。
(2)計(jì)算全局運(yùn)動矢量場與累積運(yùn)動矢量場中各4×4塊的殘差。
d.區(qū)域分割
如圖3所示,本發(fā)明采用統(tǒng)計(jì)區(qū)域生長算法實(shí)現(xiàn)對累積運(yùn)動矢量場的區(qū)域分割。步驟詳述如下(1)計(jì)算四鄰域內(nèi)任意相鄰塊組的運(yùn)動差異性度量;(2)所有相鄰塊組按照運(yùn)動差異性度量從小到大的次序進(jìn)行排序;(3)將運(yùn)動差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程。在每次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,則判斷這兩個區(qū)域是否合并的條件是這兩個區(qū)域的平均運(yùn)動矢量之差是否小于閾值條件Δ(R)=SR22Q|R|(min(SR,|R|)log(1+|R|)+2log6wh),]]>其中SR表示運(yùn)動矢量的動態(tài)范圍,|R|表示區(qū)域包含的運(yùn)動矢量數(shù)目,wh表示運(yùn)動矢量場的尺寸,參數(shù)Q用來控制運(yùn)動矢量場的分割程度,就樣就可以將運(yùn)動矢量場適度地分割成若干具有相似運(yùn)動的區(qū)域;(4)計(jì)算每個分割區(qū)域在全局運(yùn)動補(bǔ)償后的平均殘差;(5)區(qū)分最可靠的背景區(qū)域和其它對象所在的區(qū)域。在面積大于整個運(yùn)動矢量場10%的若干分割區(qū)域中選擇平均殘差最小的區(qū)域作為可靠的背景區(qū)域,標(biāo)記為R0t,剩下的區(qū)域作為運(yùn)動對象可能存在的區(qū)域Rit。最后對當(dāng)前幀所分割的M個對象區(qū)域和1個背景區(qū)域分別標(biāo)記,分割結(jié)果記為Lregt。
e.對象分割如圖4所示,先通過計(jì)算找到在相鄰兩幀中匹配的塊,再將前一幀的運(yùn)動對象投影至當(dāng)前幀并標(biāo)記為對象投影,然后利用當(dāng)前幀對象投影和分割區(qū)域的相關(guān)性構(gòu)造3個M+1行N+1列的矩陣CMt,CMRt,CMCt。再由矩陣CMRt和CMCt生成匹配矩陣CMMt,基于這個匹配矩陣對五類不同的運(yùn)動對象情況作出分割。步驟詳述如下(1)采用后向投影方法獲得前一幀,t-1時刻,各個對象在當(dāng)前幀t時刻的投影區(qū)域。先將前一幀的N個運(yùn)動對象Ojt-1和1個背景對象O0t-1標(biāo)記出來,然后采用后向投影的方法獲得前一幀各個對象在當(dāng)前幀的投影區(qū)域。就是利用當(dāng)前幀累積運(yùn)動矢量場中任意塊的坐標(biāo)和其對應(yīng)的累積運(yùn)動矢量的差求出這個塊在前一幀中的匹配位置,然后將前一幀匹配位置上的塊對象投影到當(dāng)前幀并逐個標(biāo)記出來,記為Lprojt。
(2)構(gòu)造矩陣CMt,它表示分割區(qū)域與對象投影相互重疊的面積;構(gòu)造矩陣CMRt,它表示每個分割區(qū)域落在各個對象投影內(nèi)的比例;構(gòu)造矩陣CMCt,它表示每個對象投影落在各個分割區(qū)域內(nèi)的比例。根據(jù)標(biāo)記圖象Lregt和Lprojt,構(gòu)造3個M+1行N+1列的矩陣CMt,CMRt,CMCt。其中矩陣CMt中的任意元素CMt(i,j)取值為在Lregt中標(biāo)記為i且在Lprojt標(biāo)記為j的象素?cái)?shù)目,即分割區(qū)域Lregt與對象投影Lprojt相互重疊的面積。而矩陣CMRt(i,j)定義為CMRt第i行的各個元素是分割區(qū)域Rit落在各個對象投影內(nèi)的比例;矩陣CMCt(i,j)定義為CMCt第j列的各個元素是對象Ojt-1的投影落在各個分割區(qū)域內(nèi)的比例。
(3)構(gòu)造矩陣CMMt,它表示當(dāng)前幀分割區(qū)域和對象投影之間的關(guān)聯(lián)程度。矩陣CMMt記錄了CMRt和CMCt所反映的Lregt和Lprojt之間的相關(guān)信息。CMMt首先置為M+1行N+1列的零矩陣;接著對CMRt進(jìn)行行掃描找到每一行最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加1;然后對CMCt進(jìn)行列掃描找到每一列最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加2。生成的矩陣CMMt的縱坐標(biāo)依次表示為當(dāng)前幀背景區(qū)域R0t和運(yùn)動區(qū)域Rit(i=1,2,L M),橫坐標(biāo)依次表示為前一幀背景對象O0t-1和運(yùn)動對象Ojt-1(j=1,2,L,N),矩陣中各元素的可能取值為0,1,2,3。CMMt中任意不為0的元素CMMt(i,j)表明了分割區(qū)域Rit與對象Ojt-1存在一定的相關(guān)性,具體而言①CMMt(i,j)=1,表明分割區(qū)域Rit在很大程度上屬于前一幀對象Ojt-1;②CMMt(i,j)=2,表明前一幀對象Ojt-1在很大程度上包含在分割區(qū)域Rit中;③CMMt(i,j)=3,同時包含了上述兩種情況,表明Rit和Ojt-1具有極強(qiáng)的相關(guān)性。需要進(jìn)一步比較,如果CMRt(i,j)>CMCt(i,j),則CMMt(i,j)=1;否則,CMMt(i,j)=2。最后生成的CMMt取值范圍為0,1,2。
(4)基于匹配矩陣CMMt對單個對象的跟蹤與更新、新對象出現(xiàn)、對象的合并、對象的分裂以及對象的消失五類情況進(jìn)行對象分割。通過矩陣CMMt可以有效地建立起分割區(qū)域與運(yùn)動對象的關(guān)聯(lián)關(guān)系,它能夠以一種統(tǒng)一的方式有效地處理以下五種情況①單個對象跟蹤與更新(1→1)如果CMMt的第i行只有一個非零元素CMMt(i,j),而且第j列也只有這一個非零元素CMMt(i,j),那么表明分割區(qū)域Rit只與對象Ojt-1存在相關(guān)性,根據(jù)CMMt(i,j)的取值采取不同的策略如果CMMt(i,j)=2,采取更新策略,用當(dāng)前幀的分割區(qū)域來表示更新后的對象,即Ojt=Rit.]]>如果CMMt(i,j)=1,一般采取對象跟蹤的策略,即用前一幀對象的投影來表示當(dāng)前幀的對象,即Ojt=Proj(Ojt-1);]]>另外,如果分割區(qū)域Rit同時還滿足閾值條件|Rit|>Ts,]]>且ERit>αER0t,]]>其中Ts=64,α=1.5,|Rit|表示區(qū)域Rit所包含的運(yùn)動矢量數(shù)目,ERit表示區(qū)域Rit的平均殘差,ER0t表示背景的平均殘差;則認(rèn)為Rit是一個可靠的運(yùn)動區(qū)域,可用來表示當(dāng)前幀的運(yùn)動對象,即Ojt=Rit.]]>②新對象出現(xiàn)(0→1)如果CMMt的第i行只有一個非零元素且位于第1列,值為1,表明該分割區(qū)域Rit在前一幀還是背景對象O0t-1,并不屬于已有的任何運(yùn)動對象。如果Rit同時滿足上面①中的閾值條件,則可認(rèn)為Rit是一個新出現(xiàn)的運(yùn)動對象,記為OM+1t=Rit.]]>上述①和②兩種情況下,CMMt某行的非零元素個數(shù)都為1。如果CMMt的第i行存在多個非零元素,則表明分割區(qū)域Rit可能與多個對象存在相關(guān)性。在這種情況下,只需要將前一幀的對象投影到當(dāng)前幀作為當(dāng)前幀的運(yùn)動對象,實(shí)現(xiàn)對象的跟蹤,即Ojt=Proj(Ojt-1).]]>③對象的合并(m→1)如果CMMt的第i行上除第1列外有2個以上的元素取值為2,表明前一幀中2個以上的對象在很大程度上包含在新的分割區(qū)域Rit中,則Rit表示了這些對象合并后的新對象,記為OM+1t=Rit.]]>在這種情況下,分割區(qū)域Rit往往包含了2個或2個以上具有十分相似的運(yùn)動且在空間相互鄰接的對象,則它們在當(dāng)前幀作為一個新的合并對象而被分割出來。
④對象的分裂(1→m)如果CMMt的第j列中有2個以上的元素取值為1,則表明前一幀對象Ojt-1在當(dāng)前幀分裂成多個分割區(qū)域Rs1t,Rs2tL,Rsmt。即使這些區(qū)域在空間上并不鄰接,在當(dāng)前幀的分割中,仍然認(rèn)為這些分割區(qū)域?qū)儆谕粋€對象,直到這些具有相同對象標(biāo)記卻在空間相互不鄰接的多個分割區(qū)域在隨后的若干幀中表現(xiàn)出不同的運(yùn)動,則對這些分割區(qū)域賦予不同的對象標(biāo)記,記為Osit=Rsit,]]>以實(shí)現(xiàn)真正的對象分裂。
⑤對象的消失(1→0)如果CMMt的第j列只有1個非零元素且位于第1行,值為2,表明前一幀對象Ojt-1的投影落在當(dāng)前幀的背景區(qū)域R0t,則認(rèn)為Ojt-1在當(dāng)前幀消失。
如上所述已經(jīng)能夠有效地處理在視頻序列的運(yùn)動對象分割過程中可能出現(xiàn)的5種情況。但當(dāng)場景發(fā)生較大變化時,連續(xù)多幀都對所有對象采取了跟蹤的策略,即都是上一幀各個對象的投影,表明當(dāng)前幀各個分割區(qū)域與前一幀各個運(yùn)動對象的相關(guān)性很弱,因此將按照情況②來判斷是否有新對象出現(xiàn),需要重新檢測運(yùn)動對象。
以下給出輸入視頻格式為352×288的CIF時的實(shí)例,采用JM8.6版本的H.264編碼器對MPEG-4標(biāo)準(zhǔn)測試序列進(jìn)行編碼,作為測試用的H.264壓縮視頻。H.264編碼器的配置如下Baseline Profile,IPPP,每30幀插入1個I幀,3個參考幀,運(yùn)動估計(jì)的搜索范圍為[-32,32],量化參數(shù)為30,編碼幀數(shù)為300幀。在實(shí)驗(yàn)中,我們采取每隔3幀(運(yùn)動矢量累積過程中使用的幀數(shù))計(jì)算一次累積運(yùn)動矢量場的做法,總共獲得了100幀累積運(yùn)動矢量場來測試本文提出的運(yùn)動對象分割算法的性能。先從當(dāng)前幀由累積運(yùn)動矢量場得到區(qū)域分割結(jié)果,然后將前一幀運(yùn)動對象投影到當(dāng)前幀,基于這兩個結(jié)果采用基于匹配矩陣的分割方法將運(yùn)動對象分割出來。
采用典型的標(biāo)準(zhǔn)測試序列Coastguard和Mobile作為輸入視頻進(jìn)行測試,實(shí)驗(yàn)結(jié)果分別如圖5和圖6所示。兩圖中第1列為當(dāng)前幀的原始圖象,第2列為當(dāng)前幀由累積運(yùn)動矢量場分割所得的區(qū)域分割結(jié)果,第3列為前一幀運(yùn)動對象的在當(dāng)前幀的投影區(qū)域,第4列為當(dāng)前幀分割出的運(yùn)動對象。平均每幀的處理時間為38ms,已能滿足大多數(shù)實(shí)時應(yīng)用25fps的要求??紤]到本文的分割方法其實(shí)是每隔3幀進(jìn)行一次運(yùn)動對象分割,對于給出的原始視頻序列而言,完全可以在實(shí)時解碼的同時就能分割出相應(yīng)的運(yùn)動對象,即使要求每幀都分割出相應(yīng)的運(yùn)動對象,只需要對其余幀進(jìn)行對象投影,其計(jì)算量也很小,仍能實(shí)時分割出運(yùn)動對象。
實(shí)驗(yàn)1序列Coastguard具有明顯的全局運(yùn)動,攝像機(jī)首先自右向左平移來跟蹤畫面中間的小船,然后自左向右運(yùn)動來跟蹤從畫面左邊出現(xiàn)的大船。圖5第1行(序列第4幀)為攝像機(jī)自右向左跟蹤小船的運(yùn)動,圖5第2行(序列第37幀)為新對象大船由左向右運(yùn)動,圖5第3行(序列第61幀)為兩個運(yùn)動對象大船和小船完全出現(xiàn)在攝像機(jī)的場景中,圖5第4行(序列第208幀)為攝像機(jī)開始自左向右跟蹤大船的運(yùn)動。由圖5第2列圖象可以看出,對累積運(yùn)動矢量場的分割大多能夠比較準(zhǔn)確地分割出兩個運(yùn)動對象所在的區(qū)域,而且符合全局運(yùn)動模型的大部分背景區(qū)域也都包含在一個大的分割區(qū)域中,白色的區(qū)域表示了經(jīng)運(yùn)動補(bǔ)償后最可靠的背景區(qū)域,因此本文采取的對運(yùn)動矢量場的累積以及分割方法是有效的,能夠利用運(yùn)動矢量信息獲得一個適度分割的結(jié)果。結(jié)合第3列所示的前一幀各個對象在當(dāng)前幀的投影區(qū)域,利用基于匹配矩陣的運(yùn)動對象分割方法,能夠在整個序列中穩(wěn)定可靠地分割出第4列所示的運(yùn)動對象。
實(shí)驗(yàn)2序列Mobile具有更復(fù)雜的全局運(yùn)動,除了攝像機(jī)的平移和俯仰運(yùn)動外,在序列的前半段還有明顯的縮放運(yùn)動。圖6第1行(序列第4幀)場景中總共包括3個運(yùn)動對象,小火車推動球在軌道上運(yùn)動,而掛歷在間歇性地上下運(yùn)動,因此運(yùn)動對象分割的難度更大。由圖6的分割結(jié)果可以看出,本發(fā)明提出的運(yùn)動對象分割算法在運(yùn)動對象停止運(yùn)動的情況下,能夠通過對象投影分割出該運(yùn)動對象,如圖6第2行(序列第43幀)的球以及圖6第3行(序列第109幀)的掛歷。此外,圖6的實(shí)驗(yàn)結(jié)果也表明了本文的運(yùn)動對象分割算法能夠很好地處理運(yùn)動對象的合并與分裂。在圖6第3行(序列第109幀),由于小火車已經(jīng)在無縫隙地推著球運(yùn)動,因此兩個在空間上緊密鄰接且運(yùn)動完全一致的運(yùn)動對象被視作發(fā)生了對象合并;在圖6第4行(序列第160幀)對有了間隙的兩個對象,且運(yùn)動程度不再相同時,兩個對象被分割成了兩個區(qū)域,真正實(shí)現(xiàn)兩個對象的分裂。
權(quán)利要求
1.一種基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于對連續(xù)多幀的運(yùn)動矢量場歸一化并進(jìn)行迭代后向投影,獲得累積運(yùn)動矢量場。然后對累積運(yùn)動矢量場進(jìn)行全局運(yùn)動補(bǔ)償,同時采用快速的統(tǒng)計(jì)區(qū)域生長算法按照運(yùn)動相似性將其分割成多個區(qū)域。利用上述兩方面結(jié)果,采用本發(fā)明提出的基于匹配矩陣的運(yùn)動對象分割方法分割出運(yùn)動對象,其中可有效地在視頻序列中進(jìn)行對象的跟蹤與更新、對象的合并與分裂、對象的出現(xiàn)與消失等多種情況;其步驟如下a.運(yùn)動矢量場歸一化從H.264視頻中提取出運(yùn)動矢量場并進(jìn)行時域和空域上的歸一化;b.累積運(yùn)動矢量場利用連續(xù)多幀的運(yùn)動矢量場進(jìn)行迭代后向投影來獲得更加可靠的累積運(yùn)動矢量場;c.全局運(yùn)動補(bǔ)償在累積運(yùn)動矢量場上進(jìn)行全局運(yùn)動估計(jì)后進(jìn)行補(bǔ)償以獲得各4×4塊的殘差;d.區(qū)域分割采用統(tǒng)計(jì)區(qū)域生長方法將累積運(yùn)動矢量場分割成多個具有相似運(yùn)動的區(qū)域;e.對象分割采用基于匹配矩陣的分割方法將運(yùn)動對象分割出來。
2.根據(jù)權(quán)利要求1所述的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于所述的運(yùn)動矢量場歸一化的步驟是(1)時域歸一化將當(dāng)前幀的運(yùn)動矢量除以當(dāng)前幀與參考幀的間隔幀數(shù),即時域距離;(2)空域歸一化將凡尺寸大于4×4的各個宏塊運(yùn)動矢量直接賦給該宏塊所覆蓋的所有4×4塊。
3.根據(jù)權(quán)利要求1所述的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于所述的累積運(yùn)動矢量場的步驟是(1)利用當(dāng)前幀之后若干幀的運(yùn)動矢量場,對相鄰幀的運(yùn)動矢量場進(jìn)行后向投影,就是通過對各投影塊的運(yùn)動矢量乘以不同的比例因子后相加得到當(dāng)前塊的投影運(yùn)動矢量,比例因子的選定方法為如果重疊區(qū)域的總面積大于當(dāng)前塊面積的一半,則各投影塊的比例因子取為該投影塊與當(dāng)前塊的相重疊的面積除以所有投影塊與當(dāng)前塊重疊區(qū)域的總面積;否則,各投影塊的比例因子取為其重疊面積與當(dāng)前塊面積之比;(2)然后從后幀開始迭代累積以獲得當(dāng)前幀的累積運(yùn)動矢量場。
4.根據(jù)權(quán)利要求1所述的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于全局運(yùn)動補(bǔ)償,是先采用仿射運(yùn)動模型估算全局運(yùn)動矢量場,然后計(jì)算出各4×4塊經(jīng)全局運(yùn)動補(bǔ)償后的殘差。步驟如下(1)采用6參數(shù)的仿射運(yùn)動模型估算全局運(yùn)動矢量場①模型參數(shù)初始化設(shè)m=(m1,m2,m3,m4,m5,m6)是全局運(yùn)動模型的參數(shù)矢量,模型參數(shù)m(0)初始化為m(0)=101NΣi=1Nmvxi011NΣi=1NmvyiT;]]>②剔除局外點(diǎn)首先計(jì)算當(dāng)前幀中心坐標(biāo)為(xi,yi)的第i個塊在前一幀的估計(jì)中心坐標(biāo)(xi′,yi′)xi′yi′=m1m2m4m5xiyi+m3m6,]]>則預(yù)測運(yùn)動矢量((xi′-xi),(yi′-yi))和原始累積運(yùn)動矢量(mvxi,mvyi)的偏差(exi,eyi)計(jì)算為exi=xi′-xi-mvxieyi=yi′-yi-mvyi,]]>使用這個式子計(jì)算出每個4×4塊的預(yù)測偏差(exi,eyi),最后計(jì)算出偏差幅度平方和(exi2+eyi2)的直方圖,然后剔除直方圖中那些偏差幅度平方和大于25%的運(yùn)動矢量;③模型參數(shù)更新使用前面步驟中保留下來的運(yùn)動矢量和Newton-Raphson方法來更新模型參數(shù),第l步迭代中新的模型參數(shù)矢量m(l)定義如下m(l)=m(l-1)-H-1b,這里Hessian矩陣H和梯度矢量b計(jì)算如下H=Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1000000Σi∈Rxi2Σi∈RxiyiΣi∈Rxi000Σi∈RxiyiΣi∈Ryi2Σi∈Ryi000Σi∈RxiΣi∈RyiΣi∈R1]]>b=Σi∈RxiexiΣi∈RyiexiΣi∈RexiΣi∈RxieyiΣi∈RyieyiΣi∈ReyiT]]>這里R代表保留下來的塊的集合;④結(jié)束條件重復(fù)步驟②和③最多5次,而且以下兩個條件之一如果被滿足的話也提前結(jié)束迭代(i)計(jì)算m(l)和在攝像機(jī)靜止情況下的全局運(yùn)動向量mstatic=[100010]T的差值,如果對于每一個參數(shù)分量,這個差值小于0.01,就判斷為屬于攝像機(jī)靜止的情況,結(jié)束迭代;(ii)計(jì)算m(l)和m(l-1)的差值,如果這個差值的參數(shù)分量m3和m6小于0.01,而且其它參數(shù)分量小于0.0001,則迭代結(jié)束;⑤將得到的全局運(yùn)動模型參數(shù)矢量m代入xi′yi′=m1m2m4m5xiyi+m3m6,]]>求出前一幀的估計(jì)坐標(biāo)(xi′,yi′),最后得到全局運(yùn)動矢量場((xi′-xi),(yi′-yi));(2)計(jì)算全局運(yùn)動矢量場與累積運(yùn)動矢量場中各4×4塊的殘差。
5.根據(jù)權(quán)利要求1所述的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于所述的區(qū)域分割,是采用統(tǒng)計(jì)區(qū)域生長算法將累積運(yùn)動矢量場分割成多個具有相似運(yùn)動的區(qū)域。步驟如下(1)計(jì)算四鄰域內(nèi)任意相鄰塊組的運(yùn)動差異性度量;(2)所有相鄰塊組按照運(yùn)動差異性度量從小到大的次序進(jìn)行排序;(3)將運(yùn)動差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程,在每次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,則判斷這兩個區(qū)域是否合并的條件是這兩個區(qū)域的平均運(yùn)動矢量之差是否小于閾值條件Δ(R)=SR22Q|R|(min(SR,|R|)log(1+|R|)+2log6wh),]]>其中SR表示運(yùn)動矢量的動態(tài)范圍,|R|表示區(qū)域包含的運(yùn)動矢量數(shù)目,wh表示運(yùn)動矢量場的尺寸,參數(shù)Q用來控制運(yùn)動矢量場的分割程度,就樣就可以將運(yùn)動矢量場適度地分割成若干具有相似運(yùn)動的區(qū)域;(4)計(jì)算每個分割區(qū)域在全局運(yùn)動補(bǔ)償后的平均殘差;(5)區(qū)分最可靠的背景區(qū)域和其它對象所在的區(qū)域,在面積大于整個運(yùn)動矢量場10%的若干分割區(qū)域中選擇平均殘差最小的區(qū)域作為可靠的背景區(qū)域,標(biāo)記為R0t,剩下的區(qū)域作為運(yùn)動對象可能存在的區(qū)域Rit;最后對當(dāng)前幀所分割的M個對象區(qū)域和1個背景區(qū)域分別標(biāo)記,分割結(jié)果記為Lregt。
6.根據(jù)權(quán)利要求1所述的基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,其特征在于所述的對象分割,是利用前一幀,t-1時刻,已經(jīng)獲得的運(yùn)動對象分割結(jié)果,來判斷當(dāng)前幀,t時刻,各個分割區(qū)域是否與前一幀的某個對象匹配,以此構(gòu)造匹配矩陣;基于匹配矩陣判斷對象的跟蹤與更新、對象的合并、對象的分裂、新對象的出現(xiàn)、舊對象的消失等情況,最終獲得當(dāng)前幀的若干運(yùn)動對象。步驟如下(1)采用后向投影方法獲得前一幀,t-1時刻,各個對象在當(dāng)前幀t時刻的投影區(qū)域,先將前一幀的N個運(yùn)動對象Ojt-1和1個背景對象O0t-1標(biāo)記出來,然后采用后向投影的方法獲得前一幀各個對象在當(dāng)前幀的投影區(qū)域。就是利用當(dāng)前幀累積運(yùn)動矢量場中任意塊的坐標(biāo)和其對應(yīng)的累積運(yùn)動矢量的差求出這個塊在前一幀中的匹配位置,然后將前一幀匹配位置上的塊對象投影到當(dāng)前幀并逐個標(biāo)記出來,記為Lprojt;(2)構(gòu)造矩陣CMt,它表示分割區(qū)域與對象投影相互重疊的面積;構(gòu)造矩陣CMRt,它表示每個分割區(qū)域落在各個對象投影內(nèi)的比例;構(gòu)造矩陣CMCt,它表示每個對象投影落在各個分割區(qū)域內(nèi)的比例;根據(jù)標(biāo)記圖象Lregt和Lprojt,構(gòu)造3個M+1行N+1列的矩陣CMt,CMRt,CMCt。其中矩陣CMt中的任意元素CMt(i,j)取值為在Lregt中標(biāo)記為i且在Lprojt標(biāo)記為j的象素?cái)?shù)目,即分割區(qū)域Lregt與對象投影Lprojt相互重疊的面積。而矩陣CMRt(i,j)定義為CMRt第i行的各個元素是分割區(qū)域Rit落在各個對象投影內(nèi)的比例;矩陣CMCt(i,j)定義為CMCt第j列的各個元素是對象Ojt-1的投影落在各個分割區(qū)域內(nèi)的比例;(3)構(gòu)造矩陣CMMt,它表示當(dāng)前幀分割區(qū)域和對象投影之間的關(guān)聯(lián)程度,矩陣CMMt記錄了CMRt和CMCt所反映的Lregt和Lprojt之間的相關(guān)信息;CMMt首先置為M+1行、N+1列的零矩陣;接著對CMRt進(jìn)行行掃描找到每一行最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加1;然后對CMCt進(jìn)行列掃描找到每一列最大值所在的位置,對CMMt中相應(yīng)位置處的元素值加2;生成的矩陣CMMt的縱坐標(biāo)依次表示為當(dāng)前幀背景區(qū)域R0t和運(yùn)動區(qū)域Rit(i=1,2,L,M),橫坐標(biāo)依次表示為前一幀背景對象O0t-1和運(yùn)動對象Ojt-1(j=1,2,L,N),矩陣中各元素的可能取值為0,1,2,3;CMMt中任意不為0的元素CMMt(i,j)表明了分割區(qū)域Rjt與對象Ojt-1存在一定的相關(guān)性,具體而言①CMMt(i,j)=1,表明分割區(qū)域Rjt在很大程度上屬于前一幀對象Ojt-1;②CMMt(i,j)=2,表明前一幀對象Ojt-1在很大程度上包含在分割區(qū)域Rit中;③CMMt(i,j)=3,同時包含了上述兩種情況,表明Rit和Ojt-1具有極強(qiáng)的相關(guān)性;需要進(jìn)一步比較,如果CMRt(i,j)>CMCt(i,j),則CMMt(i,j)=1;否則,CMMt(i,j)=2;最后生成的CMMt取值范圍為0,1,2;(4)基于匹配矩陣CMMt對單個對象的跟蹤與更新、新對象出現(xiàn)、對象的合并、對象的分裂以及對象的消失五類情況進(jìn)行對象分割;通過矩陣CMMt可以有效地建立起分割區(qū)域與運(yùn)動對象的關(guān)聯(lián)關(guān)系,它能夠以一種統(tǒng)一的方式有效地處理以下五種情況①單個對象跟蹤與更新(1→1);②新對象出現(xiàn)(0→1);③對象的合并(m→1);④對象的分裂(1→m);⑤對象的消失(1→0)。
全文摘要
本發(fā)明提出了一種基于匹配矩陣的H.264壓縮域運(yùn)動對象實(shí)時分割方法,分割所依賴的唯一信息是從H.264視頻提取出的基于4×4塊均勻采樣的運(yùn)動矢量場。首先對連續(xù)多幀的運(yùn)動矢量場進(jìn)行歸一化并且迭代后向投影,獲得累積運(yùn)動矢量場以增強(qiáng)顯著的運(yùn)動信息。然后對累積運(yùn)動矢量場進(jìn)行全局運(yùn)動補(bǔ)償,同時采用快速的統(tǒng)計(jì)區(qū)域生長算法按照運(yùn)動相似性將其分割成多個區(qū)域。利用上述兩方面結(jié)果,提出基于匹配矩陣的運(yùn)動對象分割方法,使之能有效的在視頻序列中進(jìn)行對象的跟蹤與更新、對象的合并與分裂、新對象的出現(xiàn)以及對象消失等多種情況。對MPEG-4測試序列的實(shí)驗(yàn)結(jié)果表明,在一臺CPU為3.0GHz,內(nèi)存為512M的計(jì)算機(jī)上處理CIF格式的視頻序列,平均每幀的處理時間為38ms,已能滿足大多數(shù)實(shí)時應(yīng)用25fps的要求,而且具有良好的分割質(zhì)量。由于本發(fā)明提出的方法只使用了運(yùn)動矢量場信息,因此它同樣可適用于MPEG壓縮域的運(yùn)動對象分割。
文檔編號H04N7/26GK1960491SQ20061011636
公開日2007年5月9日 申請日期2006年9月21日 優(yōu)先權(quán)日2006年9月21日
發(fā)明者劉志, 張兆楊, 陸宇 申請人:上海大學(xué)