下文公開了用于對視頻序列中的移動物體設(shè)界的方法。這一方法用于對視頻中的區(qū)域或物體作注釋從而指示其位置和/或添加可用于各種目的的文本或上下文信息。例如,出于譴責的目的,這可用于隱藏或?qū)⒛:砑拥揭曨l區(qū)域。在另一示例中,對視頻中的區(qū)域作注釋允許建立地面實況(ground truth),該地面實況可用于評估諸如物體或面部檢測算法之類的計算機視覺算法。還公開了相應的設(shè)備。
背景技術(shù):
該部分意為向讀者介紹本領(lǐng)域的各方面,其可與下面所描述和/或所聲明保護的本發(fā)明的各方面相關(guān)。相信本論述有助于向讀者提供背景信息以協(xié)助對本發(fā)明的各方面進行更好的理解。相應地,應理解的是,這些陳述應從該方面來閱讀,并不承認為現(xiàn)有技術(shù)。
視頻注釋對于各種應用是十分有用的,例如,出于譴責的目的來隱藏或模糊移動物體。視頻注釋對于生成地面實況從而評估計算機視覺中的物體檢測算法(訓練算法和測試其性能二者)也十分有用。直接的方法是手動地對視頻序列的每個幀作注釋,但這可能十分乏味和耗時。當要作注釋的物體是靜態(tài)的時,或者當其形狀不隨著視頻序列而變化時,已知一些現(xiàn)有方法,在這些方法中,對一些幀作注釋并且跟蹤物體的軌跡。例如,美國專利7911482“用于圖像序列中的物體軌跡的有效注釋的方法和系統(tǒng)(Method and system for efficient annotation of object trajectories in image sequences)”公開了對視頻中的物體作注釋的方法。該方法包括初始執(zhí)行視頻序列的初始時間子采樣。經(jīng)子采樣的圖像序列被顯示于交互屏上的兩個正交方向。用戶通過經(jīng)由交互屏跟蹤物體以在兩個正交的經(jīng)子采樣的序列上作注釋來繪制兩個正交軌跡。該方法還描述了獲得近地軌道(neo) 軌跡,該近地軌道軌跡進一步被內(nèi)插到剩余的視頻序列中。然而,這一方法不能精確地對大小和形狀隨著視頻序列變化的物體作注釋。實際上,盡管現(xiàn)有方法可以捕獲移動物體軌跡,但這些方法不能將視頻的每個幀的經(jīng)注釋區(qū)域的大小進行調(diào)整以適應要注釋的物體的變化的大小/形狀。因此,需要一些新的有效方法來自動地對視頻序列中的變化大小和/或形狀的移動物體作注釋,而無需手動編輯和注釋每個幀。
技術(shù)實現(xiàn)要素:
公開了用于對視頻序列Fx,y,t中的物體設(shè)界的方法。該方法包括在視頻序列的每個幀中獲得位于要注釋的物體中的像素子集。以所獲得的像素子集為中心,對視頻序列Fx,y,t執(zhí)行空時切割,從而通過第一切片的水平串聯(lián)獲得第一圖像Fy,t,并且通過第二切片的垂直串聯(lián)獲得第二圖像Fx,t,其中第一切片包括所獲得的像素子集。所獲得的像素子集的軌跡顯示于第一圖像Fy,t和第二圖像Fx,t二者上。通過使用輪廓檢測方法,在第一圖像Fy,t和第二圖像Fx,t二者上、在所獲得的像素子集的軌跡周圍獲得第一邊界和第二邊界。要注釋的物體周圍的設(shè)界形態(tài)(bounding form)從視頻序列的每個幀中的四個點獲得,其中幀t的四個點的坐標是從針對該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。有利地,設(shè)界形態(tài)是從四個點繪制的矩形,或者內(nèi)接在該矩形中的橢圓形,或者包括這四個點的橢圓形。
根據(jù)優(yōu)選實施例,例如通過用戶編輯第一圖像Fy,t和第二圖像Fx,t之一、調(diào)整所獲得子集的相應(第一或第二)軌跡以及通過自動再生成其他圖像Fy,t或Fx,t,來交互式地細調(diào)設(shè)界形態(tài)。更精確地,方法還包括:調(diào)整第一圖像中的像素子集的軌跡,獲得第二圖像的更新版本,獲得第二軌跡的更新版本,獲得第二圖像的更新版本上的第二軌跡的更新版本周圍的第一邊界和第二邊界的更新版本,以及獲得物體周圍的設(shè)界形態(tài)的更新版本。
根據(jù)特定優(yōu)勢的變體,第一切片是垂直切片,第二切片是水平切片。
根據(jù)特定優(yōu)勢的變體,第一切片中的每個切片相對于垂直方向而言是傾斜的,并且其傾斜度對于視頻序列的一組連續(xù)幀是恒定的。
根據(jù)特定優(yōu)勢的變體,第一切片相對于垂直方向的傾斜度是可由用戶在視頻序列的多個幀上進行調(diào)整的,并且傾斜度進一步被內(nèi)插到視頻序列的其余幀中。
根據(jù)特定優(yōu)勢的變體,像素子集是從如下中選擇的:
-單個像素,
-四個像素的塊,
-八個像素的塊,
-十六個像素的塊。
在第二方面,還公開了基于每幀根據(jù)像素子集來對視頻序列中的物體設(shè)界的設(shè)備。該設(shè)備包括處理器,該處理器被配置為:
-從第一空時切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;
-從第二空時切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一個與同一幀的第一切片相垂直;
-在第一圖像和第二圖像中的每一個上獲得基于每幀的像素子集的第一軌跡和第二軌跡;
-通過輪廓檢測方法在第一圖像和第二圖像中的每一個上、在第一軌跡和第二軌跡周圍獲得第一邊界和第二邊界;
-在視頻序列的每個幀中、從物體周圍的四個點獲得設(shè)界形態(tài),其中幀t中的四個點的坐標是從針對該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。
在第三方面,還公開了基于每幀根據(jù)像素子集來對視頻序列中的物體設(shè)界的計算機程序。該計算機程序包括程序代碼指令,所述程序代碼指令可由處理器執(zhí)行,以:
-從第一空時切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;
-從第二空時切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一 個與同一幀的第一切片相垂直;
-在第一圖像和第二圖像中的每一個上獲得基于每幀的像素子集的第一軌跡和第二軌跡;
-通過輪廓檢測方法在第一圖像和第二圖像中的每一個上、在第一軌跡和第二軌跡周圍獲得第一邊界和第二邊界;
-在視頻序列的每個幀中、從物體周圍的四個點獲得設(shè)界形態(tài),其中幀t中的四個點的坐標是從針對該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。
在第四方面,還公開了基于每幀根據(jù)像素子集來對視頻序列中的物體設(shè)界的計算機程序產(chǎn)品。該計算機程序產(chǎn)品被存儲于非暫態(tài)計算機可讀介質(zhì)上,并且包括程序代碼指令,所述程序代碼指令可由處理器執(zhí)行,以:
-從第一空時切割獲得第一圖像,其中,第一圖像是第一切片的水平串聯(lián),該第一切片包括沿著視頻序列的幀的像素子集;
-從第二空時切割獲得第二圖像,其中,第二圖像是第二切片的垂直串聯(lián),該第二切片包括沿著視頻序列的幀的像素子集,第二切片中的每一個與同一幀的第一切片相垂直;
-在第一圖像和第二圖像中的每一個上獲得基于每幀的像素子集的第一軌跡和第二軌跡;
-通過輪廓檢測方法在第一圖像和第二圖像中的每一個上、在第一軌跡和第二軌跡周圍獲得第一邊界和第二邊界;
-在視頻序列的每個幀中、從物體周圍的四個點獲得設(shè)界形態(tài),其中幀t中的四個點的坐標是從針對該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。
盡管沒有明確描述,但本文的實施例可以任何組合或子組合的形式來使用。例如,本發(fā)明不限于所描述的像素子集和設(shè)界形態(tài)變體,并且可以使用像素子集或設(shè)界形態(tài)變體的任何安排。而且,本發(fā)明不限于所描述的空時切割特性,并且可以使用貫穿視頻序列來調(diào)整切片傾斜度的其他方式。
另外,所描述的設(shè)界方法的任何特性或?qū)嵤├c意為處理所公開的方法和存儲程序指令的計算機可讀存儲介質(zhì)相兼容。
附圖說明
在附圖中,示出了本發(fā)明的實施例,其示出了:
-圖1根據(jù)本發(fā)明的特定非限制性示例,描繪了對視頻中的物體設(shè)界的處理設(shè)備;
-圖2根據(jù)本發(fā)明的特定非限制性示例,表示了圖1的處理設(shè)備的示例性架構(gòu);
-圖3根據(jù)優(yōu)選實施例,示出了對視頻中的物體設(shè)界的方法;
-圖4根據(jù)優(yōu)選實施例,示出了視頻序列的示例、像素子集選擇的示例以及切割的示例;
-圖5根據(jù)優(yōu)選實施例,示出了空時切割結(jié)果的示例以及設(shè)界形態(tài)的示例;
-圖6根據(jù)替代實施例,示出了切割和設(shè)界的示例。
具體實施方式
圖1描繪了對視頻序列Fx,y,t中的物體設(shè)界的處理設(shè)備1,其中,像素子集是基于視頻序列Fx,y,t的每幀而獲得的。根據(jù)本發(fā)明的特定非限制性實施例,處理設(shè)備1包括輸入裝置10,該輸入裝置10被配置為接收視頻序列。視頻序列是從源獲得的。根據(jù)本發(fā)明的不同實施例,源屬于包括如下項的集合:
-本地存儲器,例如,視頻存儲器、RAM、閃存、硬盤、SD卡;
-存儲接口,例如,與大容量存儲設(shè)備、ROM、光盤或磁性架(magnetic support)的接口;
-通信接口,例如,電線接口(例如,總線接口、廣域網(wǎng)接口、局域網(wǎng)接口)或無線接口(例如,IEEE 802.11接口、藍牙接口、蜂窩移動電話接口)。
輸入裝置10還被配置為從用戶接收關(guān)于幀的選擇數(shù)據(jù)。選擇數(shù)據(jù)是由用戶經(jīng)由選擇裝置(未表示)生成的,以獲得要注釋的物體中所包括的像素子集。根據(jù)本發(fā)明的不同實施例,選擇裝置屬于包括如下項的集合:
-觸摸屏傳感器及其隨附的基于控制器的固件,其能夠結(jié)合諸如筆或手指之類的外部物體來選擇視頻序列的至少一個幀中的像素子集;
-鼠標,其與其他輸入信號(例如,鍵盤的一些鍵)結(jié)合并且與一些視頻顯示功能相關(guān)聯(lián)從而選擇視頻序列的至少一個幀中的像素子集。
更一般地,允許獲得要注釋的物體中所包括的像素子集的任何選擇裝置都符合本發(fā)明。
輸入裝置10被鏈接到處理模塊11,處理模塊11被配置為在視頻序列的至少一個幀中根據(jù)選擇數(shù)據(jù)來獲得像素子集,其中選擇數(shù)據(jù)表示要注釋的物體中所包括的位置,其中,視頻序列的至少一個幀從對視頻序列的時間子采樣來得到。有利地,處理模塊11被配置為通過將所選擇的經(jīng)子采樣的幀的像素子集內(nèi)插到其余幀來獲得視頻序列的每個幀中的像素子集。在變體中,處理模塊11處于設(shè)備1的外部,并且在該情形中,基于視頻序列的每幀的像素子集是由設(shè)備1經(jīng)由輸入裝置10來接收的。處理模塊11被鏈接至兩個空時切割模塊121和122,該空時切割模塊121和122被配置為獲得第一圖像和第二圖像。第一圖像是從空時切割模塊121通過第一切片的水平串聯(lián)獲得的,其中,第一切片包括針對視頻序列的幀由處理模塊11獲得的像素子集。第二圖像是從空時切割模塊122通過第二切片的垂直串聯(lián)獲得的,其中,第二切片包括針對視頻序列的幀由處理模塊11獲得的像素子集,并且其中,第二切片中的每個切片沿著視頻序列與同一幀的第一切片正交。
空時切割模塊121和122中的每一個分別被鏈接至處理模塊131和132,處理模塊131和132被配置為分別在第一圖像和第二圖像上分別獲得第一軌跡和第二軌跡。更精確地,處理模塊131被配置為沿著第一圖像的水平串聯(lián)的切片來串聯(lián)像素子集所占用的區(qū)域,從而產(chǎn)生第一軌跡。類似地,處理模塊132被配置為沿著第二圖像的垂直串聯(lián)的切片來串聯(lián)像素子集所占用的區(qū)域,從而產(chǎn)生第二軌跡。根據(jù)特定實施例,所產(chǎn)生的第一軌跡和第二軌跡與第一圖像和第二圖像一起被處理模塊131和132發(fā)送至輸出裝置18(例如,顯示裝置)。像素子集的第一軌跡和像素子集的第二軌跡分別與第一圖像和第二圖像顯示于顯示裝置上。用戶可以決定調(diào)整相 應的(第一或第二)圖像上的像素子集的第一軌跡或第二軌跡的位置,并且另一圖像(第二或第一)被重新計算。例如,用戶決定調(diào)整第一圖像上的第一軌跡。這通過經(jīng)由選擇裝置來向處理模塊131發(fā)送選擇數(shù)據(jù)來完成,處理模塊131經(jīng)由輸出裝置18向顯示裝置發(fā)送經(jīng)修改的圖像。處理模塊131向空時切割模塊122發(fā)送經(jīng)調(diào)整的像素子集的軌跡,空時切割模塊122被配置為根據(jù)第二切片的垂直串聯(lián)來重新計算第二圖像,其中第二切片包括從沿著視頻序列針對幀的經(jīng)更新軌跡獲得的像素子集。經(jīng)重新計算的第二圖像被發(fā)送至處理模塊132,以獲得第二圖像上的經(jīng)更新的像素子集的軌跡。所產(chǎn)生的經(jīng)重新計算的第二圖像和經(jīng)更新的第二軌跡將被發(fā)送至輸出裝置18并向用戶顯示。還適用如下類似處理,其中用戶調(diào)整第二圖像上的像素子集的第二軌跡的位置,并且第一圖像被重新計算。
處理模塊131和132中的每一個還分別被鏈接到處理模塊141、142,處理模塊141、142被配置為在其相應第一軌跡或第二軌跡周圍相應地獲得第一邊界和第二邊界。換言之,處理模塊131向處理模塊141發(fā)送與第一圖像和像素集合的第一軌跡相對應的數(shù)據(jù),處理模塊141被配置為獲得第一軌跡周圍的第一和第二邊界。類似地,處理模塊132向處理模塊142發(fā)送與第二圖像和像素集合的第二軌跡相對應的數(shù)據(jù),處理模塊142被配置為獲得第一軌跡周圍的第一和第二邊界。
處理模塊141和142中的每一個分別向處理模塊16發(fā)送第一圖像和第二圖像以及與其第一邊界和第二邊界相對應的數(shù)據(jù),處理模塊16被配置為在要注釋的物體周圍獲得設(shè)界形態(tài)。設(shè)界形態(tài)是在視頻序列的每個幀中、由基于每幀的四個點獲得的,其中幀t中的四個點的坐標(X,Y)是從針對該幀t位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。根據(jù)特定實施例,處理模塊16向視頻輸出裝置18發(fā)送所產(chǎn)生的經(jīng)注釋的視頻序列,其中,視頻序列的物體在每個幀中由所獲得設(shè)界形態(tài)來設(shè)界。
根據(jù)特定實施例,顯示裝置處于設(shè)備的外部,并且輸出裝置18發(fā)送數(shù)據(jù)以顯示于外部的顯示裝置上。根據(jù)本發(fā)明的不同實施例,顯示裝置(內(nèi)部或外部)屬于包括如下項的集合:
-個人計算機屏幕;
-TV屏幕;
-平板計算機;
-智能電話屏幕。
更一般地,允許在視頻序列中要注釋的物體周圍顯示設(shè)界形態(tài)的任何顯示裝置均符合本發(fā)明。
在變體中,設(shè)界形態(tài)和/或其相應的四個點坐標被存儲于存儲器中。如一示例,這樣的信息被存儲于遠程存儲器或本地存儲器中,例如,視頻存儲器或RAM、硬盤。
圖2表示了根據(jù)本發(fā)明的特定非限制性實施例的處理設(shè)備1的示例性架構(gòu),其中,處理設(shè)備1被配置為對視頻序列中的物體設(shè)界。存儲器存儲視頻序列的幀,該視頻序列包括要注釋的物體。處理設(shè)備1包括一個或多個處理器210和內(nèi)部存儲器220(例如,RAM、ROM、EPROM),該處理器210例如可以是CPU、GPU和/或DSP(數(shù)字信號處理器的英文首字母縮寫)。處理設(shè)備1包括一個或若干個輸入/輸出接口230和電源240,該一個或若干個輸入/輸出接口230適于向顯示設(shè)備發(fā)送輸出信息和/或允許用戶輸入命令和/或數(shù)據(jù)(例如,鍵盤、鼠標、觸摸板、網(wǎng)絡(luò)攝像頭、顯示器)和/或通過網(wǎng)絡(luò)接口進行發(fā)送/接收,該電源240可以處于處理設(shè)備1的外部。
根據(jù)本發(fā)明的示例性且非限制性實施例,處理設(shè)備1還包括存儲于存儲器220中的計算機程序。計算機程序包括指令,當該指令被處理設(shè)備1(尤其是處理器210)執(zhí)行時,使得處理設(shè)備1實施參照圖3所描述的處理方法。根據(jù)變體,計算機程序被存儲于處理設(shè)備1的外部的非暫態(tài)數(shù)字數(shù)據(jù)支持上,例如,本領(lǐng)域已知的諸如SD卡、HDD、CD-ROM、DVD、只讀驅(qū)動器和/或DVD驅(qū)動器和/或DVD讀/寫驅(qū)動器之類的外部存儲介質(zhì)。處理設(shè)備1因而包括讀取計算機程序的接口。另外,處理設(shè)備1可以通過相應的USB端口(未示出)來訪問一個或多個通用串行總線(USB)型存儲設(shè)備(例如,“存儲棒”)。根據(jù)示例性且非限制性實施例,處理設(shè)備1是屬于包括如下項的集合的設(shè)備:
-移動設(shè)備;
-通信設(shè)備;
-游戲設(shè)備;
-平板(或平板計算機);
-智能電話;
-膝上型計算機;
-靜態(tài)圖片照相機;
-視頻照相機;
-靜態(tài)圖片服務器;
-視頻服務器(例如,廣播服務器、點播服務器或web服務器)。
圖3根據(jù)優(yōu)選實施例示出了用于對視頻序列中的物體設(shè)界的方法。在不具有任何限制或不失去一般性的情形下,為了清楚描述,如圖4所示,視頻序列40被視作具有三維(x,y,t)的容量,其中(x,y)表示幀400的空間維度,t表示時間維度。該容量還可被視為由一組空時2D切割片(cut)組成,每個空時2D切割片具有維度(x,t)或(y,t),其中,空時2D切割片是1D切片的串聯(lián),還被稱為通過增加時間值在每個幀的選定的相同位置中的直接切片。
獲得像素子集的3D軌跡
在步驟S31中,根據(jù)從選擇裝置接收到的選擇數(shù)據(jù),在視頻序列40的至少一個幀400中獲得像素子集403??吹揭曨l序列40的至少一個幀400的用戶通過使用選擇裝置(例如,在觸摸屏上使用鼠標或筆)在例如接近于要注釋的物體的中心處選擇所看到的至少一個幀的一部分。在第一變體中,在至少一個幀400上所獲得的像素子集403與所選擇的幀400的區(qū)域中所包括的像素相對應。在第二變體中,在至少一個幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的單個像素相對應。在另一變體中,在至少一個幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的四個像素的塊相對應。在又一變體中,在至少一個幀400上所獲得的像素子集403與位于所選擇的幀400的區(qū)域的中心處的八個或十六個像素的塊相對應。更一般地,從所選擇的區(qū)域獲得的任 何塊大小和形態(tài)均符合所公開的方法。
在第一實施例中,像素子集403是根據(jù)上述所公開的任何變體、基于從用戶接收到的選擇數(shù)據(jù)來在單個幀400中選擇的?;诿繋南袼刈蛹?03(被稱為初始3D軌跡42)是通過將對于一個幀400而獲得的像素子集403的位置直線沿著對應于視頻序列40的容量中的時間軸來內(nèi)插到序列40的所有幀中而獲得的。這在如下方面是有利的:需要用戶進行單個的手動注釋,從而獲得初始3D軌跡,該初始3D軌跡隨后可按照稍后描述的交互式處理而被細調(diào)。
在第二實施例中,視頻序列被臨時子采樣為多個幀400,這些幀400由用戶手動注釋,從而根據(jù)上述任何變體基于從用戶接收到的選擇數(shù)據(jù)來獲得像素子集403?;诿繋南袼刈蛹?03是通過將經(jīng)子采樣像素子集的位置內(nèi)插到其余幀而獲得的,從而得到如圖4所示的初始3D軌跡41。
空時切割
在步驟S311中,第一圖像51(如圖5所示)是從第一空時切割來獲得的,其中,至少一個第一切片401是在視頻序列40的每個幀中獲得的,并且其中幀的第一切片401是直的切片,其特點是相對于垂直方向具有傾斜度、具有某一寬度并且針對該幀具有所獲得的像素子集403。有利地,第一切片401的寬度確切地是所獲得的像素子集403的寬度。但比所獲得像素403更小或更大的其他寬度也符合所公開的方法。有利地,第一切片401中的每一個是垂直切片,如圖4所示。所獲得的針對視頻序列的所有幀的第一切片401是從左到右通過增加時間t的值而水平串聯(lián)的,從而產(chǎn)生如圖5所示的第一圖像51。從右到左通過增加時間t的值對第一切片401的水平串聯(lián)是該方法的可能變體。第一圖像51的切斷(abscise)是視頻序列40的時間t,并且對于給定的t值,第一圖像51的縱坐標對應于視頻序列在該時間t處的第一切片401。換言之,第一圖像51可被視作按照所獲得的像素子集的3D軌跡41、42以及第一切片401的傾斜度、在視頻序列容量40中的切割。如稍后進一步的詳細描述,所公開的空時切割在如下方面是有利的:該切割不是線性的(第一切片隨著時間相對于垂直變化的傾斜度)。
類似地,在步驟S312中,第二圖像52(如圖5所示)是從第二空時切割來獲得的,其中,至少一個第二切片402是在視頻序列的每個幀中獲得的,其中幀的第二切片402是直的切片,其正交于同一幀的第一切片401并且其特點是具有某一寬度并且針對該幀具有所獲得的像素子集403。在第一切片401是垂直的情形中,相應的第二切片402是水平的,如圖4所示。第一切片401和第二切片402之間的正交性是稍后描述的交互式處理中細調(diào)像素子集的3D軌跡的必要特征。有利地,第二切片402的寬度確切地是所獲得的像素子集403的寬度。但比所獲得像素403更小或更大的其他寬度也符合所公開的方法。所獲得的針對視頻序列40的所有幀400的第二切片402是從上到下通過增加時間t的值而垂直串聯(lián)的,從而產(chǎn)生如圖5所示的第二圖像52。從下到上通過增加時間t的值對第二切片的垂直串聯(lián)是該方法的可能變體。第二圖像52的縱坐標是視頻序列40的時間t,并且對于給定的t值,第二圖像52的切斷對應于視頻序列在該時間t處的第二切片402。換言之,第二圖像52可被視作按照所獲得的像素子集的3D軌跡41、42以及第二切片402的傾斜度、在視頻序列容量40中的切割。
更正式地:
將視頻序列Fx,y,t視作像素立方體,其中,像素由其在該立方體中的坐標(x,y,t)來限定。
使Tt=(x,y)為3D軌跡函數(shù),給定在時間t時位于像素子集中心的像素的坐標(x,y)。
使Tt.x=x為投影3D軌跡函數(shù),給定在時間t時位于像素子集中心的像素的坐標(x)。
第一圖像51可被視作矩陣I,像素集合為:
第二圖像52可被視作矩陣J,像素集合為:
其中,a和b是針對矩陣I和J的分別與水平軸和垂直軸相對應的索引。
獲得邊界
在步驟S321中,通過沿著第一圖像51的水平串聯(lián)的第一切片401來串聯(lián)由像素子集占用的區(qū)域,從而在第一圖像51上獲得第一軌跡510,如圖5所示。第一軌跡510不同于前面所描述的3D軌跡41、42,因為其屬 于第一圖像51。第一軌跡510是像素子集在第一圖像51上的軌跡,第一軌跡510表示要注釋的物體的中心。如果像素子集沿著視頻序列很好地位于要注釋的物體之內(nèi),并且要注釋的物體沿著視頻序列是清楚可見的,則帶狀物515在第一圖像51上是清楚可見的。
在步驟S331中,第一邊界511和第二邊界512是在第一圖像51上、在第一軌跡510的周圍獲得的,從而得到第一帶狀物515。在第一變體中,第一邊界511和第二邊界512是用戶經(jīng)由選擇裝置放置于第一軌跡510周圍的。在第二變體中,第一邊界511和第二邊界512是通過自動輪廓檢測技術(shù)而放置于第一軌跡510周圍的。有利地,手動和自動技術(shù)的組合被用于在第一圖像51上、在第一軌跡510的周圍獲得第一邊界511和第二邊界512。
類似地,在步驟S322中,通過沿著第二圖像52的垂直串聯(lián)的第二切片402來串聯(lián)由像素子集占用的區(qū)域,從而在第二圖像52上獲得第二軌跡520,如圖5所示。第二軌跡520不同于前面所描述的3D軌跡41、42,因為其屬于第二圖像52。第二軌跡520是像素子集在第二圖像52上的軌跡,第二軌跡520表示要注釋的物體的中心。同樣,如果像素子集沿著視頻序列很好地位于要注釋的物體之內(nèi),并且要注釋的物體沿著視頻序列是清楚可見的,則帶狀物525在第二圖像52上是清楚可見的。
在步驟S332中,第一邊界521和第二邊界522是在第二圖像52上、在第二軌跡520的周圍獲得的,從而得到第二帶狀物525。在第一變體中,第一邊界521和第二邊界522是用戶經(jīng)由選擇裝置放置于第二軌跡520周圍的。在第二變體中,第一邊界521和第二邊界522是通過自動輪廓檢測技術(shù)而放置于第二軌跡520周圍的。有利地,手動和自動技術(shù)的組合被用于在第二圖像52上、在第二軌跡520的周圍獲得第一邊界521和第二邊界522。
交互式細調(diào)
在步驟S321的子步驟S3210中,第一軌跡510在第一圖像51上例如由用戶經(jīng)由選擇裝置來調(diào)整。對第一圖像51上的第一軌跡510的位置的修改使得相應像素子集403的位置沿著視頻序列容量40中該幀的第一切 片的方向產(chǎn)生修改。換言之,調(diào)整第一圖像51上的第一軌跡510允許調(diào)整視頻序列40中的像素子集403的3D軌跡。由于第一切片和第二切片之間的正交性,使得調(diào)整第一圖像51上的第一軌跡510不導致第二圖像52上的第二軌跡520產(chǎn)生變化。然而,由于像素子集的3D軌跡沿著第一切片的方向已演進,因而第二圖像52有利地可被重新生成。第二圖像52的更新版本是在步驟S312中,基于更新后的像素子集403的3D軌跡從第二空時切割獲得的。調(diào)整(S3210)第一圖像51上的第一軌跡510、基于更新后的像素子集從第二空時切割獲得(S312)第二圖像52、獲得(S322)第二圖像52上的第二軌跡520的序列可重復若干次,以使得對第一圖像51和第二圖像52上的第一軌跡510和第二軌跡520進行細調(diào),從而產(chǎn)生交互式處理。
對稱地,在步驟S322的子步驟S3220中,第二軌跡520在第二圖像52上例如由用戶經(jīng)由選擇裝置來調(diào)整。對第二圖像52上的第二軌跡520的位置的修改也使得相應像素子集的位置沿著視頻序列容量40中該幀的第二切片的方向產(chǎn)生修改。這產(chǎn)生像素子集的更新的3D軌跡。第一圖像51的更新版本是在步驟S311中,基于更新后的像素子集的3D軌跡從第一空時切割獲得的。調(diào)整(S3220)第二圖像52上的第二軌跡520、基于更新后的像素子集的3D軌跡從第一空時切割獲得(S311)第一圖像51、獲得(S321)第一圖像51上的第一軌跡510的序列可重復若干次,以使得對第一圖像51和第二圖像52上的第一軌跡510和第二軌跡520進行細調(diào)。
有利地,交互式細調(diào)第一圖像51和第二圖像52上的第一帶狀物515和第二帶狀物525是通過交替地進行調(diào)整(S3210)第一軌跡510和獲得(S312)第二圖像與調(diào)整(S3220)第二軌跡520和獲得(S311)第一圖像來完成的。
有利地,交互式細調(diào)第一圖像51和第二圖像52上的第一帶狀物和第二帶狀物還包括:獲得(S331)第一軌跡510周圍的第一邊界511和第二邊界512,以及獲得(S332)第二軌跡520周圍的第一邊界521和第二邊界522。
顯然地,本領(lǐng)域技術(shù)人員還能通過輪廓檢測方法來在第一圖像(51) 和第二圖像(52)上在基于每幀的像素子集(403,603)周圍獲得第一邊界(511,521)和第二邊界(403,603),從而跳過獲得第一軌跡和第二軌跡以及交互式細調(diào)。
獲得設(shè)界形態(tài)
在步驟S34中,在視頻序列的每個幀530、531、532中、在要注釋的物體周圍、從四個點獲得設(shè)界形態(tài)540、541、542,其中幀t中的四個點的坐標(X,Y)是從針對該幀t的位于第一圖像51和第二圖像52的第一邊界511、521和第二邊界512、522中的點的坐標獲得的。換言之,從第一圖像51,在任何t值處,從針對t值的位于第一邊界511和第二邊界512中的點獲得兩個值Y1和Y2。類似地,從第二圖像52,對于同一t值,從位于第一邊界521和第二邊界522中的點獲得兩個值X1和X2。對于幀t,四個點的坐標為(X1,Y1)、(X2,Y2)、(X1,Y2)和(X2,Y1)。在第一變體中,設(shè)界形態(tài)是根據(jù)四個點繪制的矩形。在第二變體中,設(shè)界形態(tài)是根據(jù)四個點繪制的矩形的內(nèi)切橢圓形。在又一變體中,設(shè)界形態(tài)是包括四個點的橢圓形。當物體例如為人臉時,用橢圓形來對物體設(shè)界是有利的。
圖6根據(jù)替代實施例示出了對視頻序列中的物體設(shè)界的方法,其中,第一切片601相對于垂直方向60傾斜的角度為α。在該實施例中,與第一切片601正交的第二切片602相對于水平方向傾斜了相同角度α。在該實施例中,第一切片601不一定是垂直的,并且第二切片602不一定是水平的。盡管描述了該特性(第一切片的垂直性和第二切片602的水平性),但所述所有變體是可適用的。前述在步驟S34中根據(jù)四個點繪制的在幀600中的要注釋的物體周圍的設(shè)界形態(tài)605相對于垂直方向與第一切片601針對同一幀600傾斜相同角度。
更精確地,要注釋的物體周圍的設(shè)界形態(tài)605是根據(jù)從第一圖像和第二圖像提取的四個點獲得的,其中,在視頻序列的幀t中,四個點的坐標(X,Y)是從針對該幀t的位于第一圖像和第二圖像的第一邊界和第二邊界中的點的坐標獲得的。
使Y’1和Y’2為從針對任何t值的位于第一圖像的第一邊界和第二邊界中的點獲得的兩個值。
類似地,使X’1和X’2為從針對任何t值的位于第二圖像的第一邊界和第二邊界中的點獲得的兩個值。對于幀t,四個點是從如下坐標獲得的:(X’1,Y’1)、(X’2,Y’2)、(X’1,Y’2)和(X’2,Y’1)。
對于某一幀以像素子集603為中心、針對該幀t從與第一切片601的傾斜度相對應的逆角度的旋轉(zhuǎn)隨后被實施于這四個點(X’1,Y’1)、(X’2,Y’2)、(X’1,Y’2)和(X’2,Y’1)中的每一個點,從而得到四個點(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4),而從這四個點獲得設(shè)界形態(tài)。
注意:考慮α是與第一切片相對于垂直方向的傾斜度相對應的角度,逆角度為-α。
更正式地:
使Rt=(cx,cy,α)為以坐標(cx,cy)的點為中心的角度(α)的旋轉(zhuǎn)。
使-Rt=(cx,cy,-α)為以坐標(cx,cy)的點為中心的與逆角度相對應的角度(-α)的旋轉(zhuǎn)。
使Rotate(I,r)為向圖像I施加旋轉(zhuǎn)r的函數(shù)。
將視頻序列Fx,y,t視為像素立方體,其中,像素由其在立方體中的坐標(x,y,t)來限定,F(xiàn)’x’,y′,t被定義為從針對每個幀以像素子集603為中心的旋轉(zhuǎn)獲得的經(jīng)旋轉(zhuǎn)的像素立方體:
Rotate(Fx,y,t,Rt)=F′x′,y′,t,其中,Rt=(cx,cy,α)和(cx,cy)是像素子集603的中心的坐標,并且α是第一切片601相對于垂直方向的傾斜度。
在第一切片601相對于垂直方向60傾斜角度α的情形下,第一空時切割和第二空時切割被實施于經(jīng)旋轉(zhuǎn)的像素立方體F’x’,y′,t中。從位于第一圖像和第二圖像的第一邊界和第二邊界中的點獲得的坐標對應于經(jīng)旋轉(zhuǎn)的立方體F’x’,y′,t。
具有坐標(X1,Y1)、(X2,Y2)、(X3,Y3)和(X4,Y4)的四個點(從其繪制設(shè)界形態(tài))是通過將旋轉(zhuǎn)-Rt=(cx,cy,-α)實施于位于第一圖像和第二圖像的第一邊界和第二邊界中的點來獲得的:
(Xk,Yk)=旋轉(zhuǎn)((X′i,Y′j),-Rt)其中k∈{1,2,3,4},i∈{1,2},j∈{1,2}
在第一變體中,第一切片601相對于垂直方向的傾斜度α對于視頻序列是恒定的。有利地,傾斜度α隨著視頻序列而變化,并且依賴于要注釋 的物體隨著視頻序列的傾斜度和幾何的變化。有利地,傾斜度α是用戶隨著視頻序列的時間作為交互式軌跡細調(diào)處理的一部分來調(diào)整的。例如,傾斜度α是由用戶對多個經(jīng)子采樣的幀來調(diào)整的,并且傾斜度α被內(nèi)插到其余幀中。