本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于遮擋維度的圖像庫(kù)構(gòu)建方法。
背景技術(shù):
圖像作為信息傳播的媒介,以其含有直觀而豐富的信息而被普遍應(yīng)用。為了促進(jìn)計(jì)算機(jī)視覺(jué)的發(fā)展,尤其是圖像分割、目標(biāo)檢測(cè)、識(shí)別方法的研究,先后出現(xiàn)了一些國(guó)際評(píng)測(cè)平臺(tái)來(lái)比較和檢測(cè)各個(gè)算法的優(yōu)劣:2005年歐盟建立了PASCAL(Pattern Analysis,Statistical Modelling and Computational Learning)數(shù)據(jù)集,開(kāi)啟了VOC(Visual Object Classes)挑戰(zhàn)賽;VOC圖像庫(kù)(Visual Object Classes)圖像集分4大類(lèi),分別為交通工具、室內(nèi)物體、動(dòng)物、其他;大類(lèi)下共包含20個(gè)目錄,共有11530張圖片,圖片內(nèi)容均為一些日常中常見(jiàn)的物體,目的就是能更好的評(píng)價(jià)算法的實(shí)用性。2010年斯坦福大學(xué)建立了世界上最大的ImageNet圖像庫(kù)為相關(guān)圖像研究提供數(shù)據(jù)源和國(guó)際評(píng)測(cè)平臺(tái),其中的圖像基本上都是辨識(shí)度較高的簡(jiǎn)單圖像;該圖像庫(kù)在WordNet樹(shù)形結(jié)構(gòu)的基礎(chǔ)上建立,共有近1500萬(wàn)張圖像,分17個(gè)類(lèi)別,每個(gè)類(lèi)別進(jìn)行了分層次結(jié)構(gòu),而每張圖都標(biāo)注了關(guān)于顏色、圖案、形狀、紋理等屬性,2014年微軟推出了圖像復(fù)雜度很高的COCO(Common Objects in Context)圖像數(shù)據(jù)集。
由于這些圖像庫(kù)主要是服務(wù)于計(jì)算機(jī)視覺(jué)領(lǐng)域的,并沒(méi)有從遮擋的角度出發(fā)去構(gòu)建。而遮擋是復(fù)雜場(chǎng)景圖像中一個(gè)普遍存在的現(xiàn)象,也是具有各種復(fù)雜情況的自動(dòng)駕駛視覺(jué)導(dǎo)航、公共安全視頻監(jiān)控等實(shí)際應(yīng)用無(wú)法回避的核心問(wèn)題。因此,這些圖像庫(kù)并不能夠被直接用于關(guān)于遮擋的圖像應(yīng)用場(chǎng)景以及相關(guān)研究。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服已有技術(shù)的不足之處,提出一種基于遮擋維度的圖像庫(kù)構(gòu)建方法,為圖像識(shí)別提供一個(gè)更大更準(zhǔn)確的訓(xùn)練集,以更好的服務(wù)于基于圖像識(shí)別的各類(lèi)應(yīng)用。
本發(fā)明提出的一種基于遮擋維度的圖像庫(kù)構(gòu)建方法,包括以下步驟:
1)采集帶有不同遮擋目標(biāo)的圖像,并將采集到的圖像按照遮擋目標(biāo)進(jìn)行分類(lèi),形成樹(shù)類(lèi)結(jié)構(gòu);
2)對(duì)每幅圖像按照遮擋維度進(jìn)行標(biāo)注;
3)將標(biāo)注后的圖像添加到對(duì)應(yīng)的樹(shù)狀分類(lèi)結(jié)構(gòu)中,形成圖像庫(kù);將后續(xù)采集的遮擋圖形按步驟1)和2)的處理方法陸續(xù)添加至圖像庫(kù)中,使圖像庫(kù)進(jìn)一步的更新和完善。
本發(fā)明具有以下優(yōu)點(diǎn):
(1)針對(duì)性強(qiáng):該圖像庫(kù)是專(zhuān)門(mén)針對(duì)復(fù)雜遮擋情況下的目標(biāo)檢測(cè)與識(shí)別建立的,具有很強(qiáng)的針對(duì)性;
(2)基礎(chǔ)性好:該圖像庫(kù)第一次將提出遮擋程度的量化標(biāo)準(zhǔn),標(biāo)注了遮擋屬性,其構(gòu)建過(guò)程有很強(qiáng)的基礎(chǔ)理論支撐;
(3)應(yīng)用前景廣:該圖像庫(kù)不僅能夠應(yīng)用于目標(biāo)檢測(cè)和識(shí)別以外,而且可以為分析已有主流算法的抗遮擋性能奠定基礎(chǔ),對(duì)提取遮擋對(duì)圖像認(rèn)知的影響規(guī)律有重要意義。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的基于遮擋維度的圖像庫(kù)的構(gòu)建方法流程圖;
圖2為本發(fā)明實(shí)施例的樹(shù)狀分類(lèi)結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步說(shuō)明:
本發(fā)明提出的一種基于遮擋維度的圖像庫(kù)的構(gòu)建方法,如圖1所示,具體包括以下步驟:
1)采集帶有不同遮擋目標(biāo)的圖像,并將采集到的圖像按照遮擋目標(biāo)進(jìn)行分類(lèi),形成樹(shù)類(lèi)結(jié)構(gòu);
2)對(duì)每幅圖像按照遮擋維度進(jìn)行標(biāo)注;
3)將標(biāo)注后的圖像添加到對(duì)應(yīng)的樹(shù)狀分類(lèi)結(jié)構(gòu)中,形成圖像庫(kù);將后續(xù)采集的遮擋圖形按步驟1)和2)的處理方法陸續(xù)添加至圖像庫(kù)中,使圖像庫(kù)進(jìn)一步的更新和完善。
上述步驟1)采集帶有不同遮擋目標(biāo)的圖像,并將采集到的圖像按照遮擋目標(biāo)進(jìn)行分類(lèi),形成樹(shù)類(lèi)結(jié)構(gòu);具體包括:
1‐1)對(duì)采集的圖像按照對(duì)帶有遮擋目標(biāo)圖像進(jìn)行人工分類(lèi),例如按目標(biāo)不同分成飛機(jī)、車(chē)輛、船舶、人物、動(dòng)物類(lèi)別,將同一類(lèi)別的目標(biāo)圖像組成集合;
1‐2)將所述分類(lèi)圖像形成樹(shù)狀分類(lèi)結(jié)構(gòu),本實(shí)施例的樹(shù)狀分類(lèi)結(jié)構(gòu)如圖2虛框所示。所述樹(shù)狀分類(lèi)結(jié)構(gòu)采用二級(jí)形式,第一級(jí)分為不同遮擋物,例如飛機(jī)、車(chē)輛、船舶、人物、動(dòng)物的類(lèi)目。第二級(jí)分類(lèi)中,對(duì)每類(lèi)遮擋物細(xì)分為遮擋部位,如飛機(jī)分為機(jī)頭、機(jī)翼、機(jī)身、機(jī)窗等遮擋元素。。
上述步驟2)對(duì)每幅圖像按照遮擋維度進(jìn)行標(biāo)注;
本實(shí)施例的遮擋維度包括:遮擋部件、遮擋面積、遮擋關(guān)系、遮擋復(fù)雜度。選取帶有遮擋的圖像,將其分別按照遮擋部件、遮擋面積、遮擋關(guān)系、遮擋復(fù)雜度進(jìn)行標(biāo)注。其中:遮擋部件、遮擋面積和遮擋關(guān)系采用Labelme工具進(jìn)行標(biāo)注。Labelme是由麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室創(chuàng)建的一個(gè)開(kāi)放的注釋工具。圖像的注釋以XML文件進(jìn)行保存??赏ㄟ^(guò)MATLAB工具箱對(duì)XML文件進(jìn)行處理。具體包括:
遮擋部件:不同部件的遮擋對(duì)物體識(shí)別有著不同程度的影響。本發(fā)明利用labelme工具通過(guò)點(diǎn)擊目標(biāo)元素的邊緣來(lái)描繪出目標(biāo)元素的多邊形輪廓,然后對(duì)目標(biāo)元素進(jìn)行注釋?zhuān)煌淖⑨屇繕?biāo)元素在圖像中用不同的顏色進(jìn)行標(biāo)記。各目標(biāo)元素的名稱(chēng)和點(diǎn)擊目標(biāo)元素邊界所形成的多邊形的離散坐標(biāo)點(diǎn)保存在對(duì)應(yīng)圖像的XML文件中。
部件指目標(biāo)元素具有的典型特征,如對(duì)于“車(chē)”這個(gè)類(lèi)別,將車(chē)輛的被遮擋部位細(xì)分為車(chē)頭、車(chē)燈、車(chē)輪、車(chē)窗等部件。如圖2所示。如車(chē)輪這一部位被遮擋,將遮擋部件標(biāo)注為“wheel(車(chē)輪)”,以便查詢(xún)。
在物體部件標(biāo)注具體實(shí)現(xiàn)中,對(duì)全場(chǎng)景進(jìn)行模塊劃分,并根據(jù)每個(gè)模塊的顏色、紋理等信息,將屬于同一部件的模塊進(jìn)行聚類(lèi),完成物體的部件劃分。標(biāo)出遮擋物體各個(gè)部件是否存在缺失,在此基礎(chǔ)上根據(jù)部件的缺失程度、遮擋部件的類(lèi)型進(jìn)行分類(lèi),即按照?qǐng)D像內(nèi)容對(duì)遮擋物體與被遮擋物體進(jìn)行分類(lèi)。將類(lèi)別進(jìn)行編碼(可采用任意類(lèi)型的編碼),以便入庫(kù)。
遮擋面積:本實(shí)施例采用超像素分割法對(duì)全場(chǎng)景進(jìn)行模塊劃分后,采用物體補(bǔ)全的方式進(jìn)行遮擋標(biāo)注,即根據(jù)圖像原有信息,預(yù)測(cè)出被遮擋部分的形狀、大小等參數(shù),從而將計(jì)算出的遮擋面積比例進(jìn)行標(biāo)注;遮擋面積的計(jì)算是基于遮擋物體與被遮擋物體輪廓的提取。對(duì)于遮擋圖像,采用多邊形近似法對(duì)遮擋物體與被遮擋物體進(jìn)行擬合,根據(jù)遮擋面積的大小,將遮擋圖像分類(lèi)標(biāo)注,如圖2所示,本實(shí)施例的遮擋面積標(biāo)注細(xì)分為小于20%、在20%-50%之間、在50%-70%之間、大于70%等,這種方法精度并不高但是其精度已經(jīng)足以用于分辨遮擋圖像,且通過(guò)對(duì)標(biāo)注精度的適當(dāng)簡(jiǎn)化可以使得計(jì)算變得便捷迅速。
本實(shí)施例采用Labelme工具進(jìn)行計(jì)算。利用取得的坐標(biāo)計(jì)算多邊形的面積,計(jì)算遮擋部位面積占被遮擋物體總面積的百分比,1為遮擋物體(Scover),2為被遮擋物體(Scovered),3為圖像總面積(Swhole),計(jì)算公式如下:
遮擋關(guān)系:遮擋關(guān)系由物體的遮擋方式、位置、距離決定。遮擋關(guān)系標(biāo)注細(xì)分為同類(lèi)物體之間的遮擋、不同類(lèi)物體之間的遮擋、自遮擋與互遮擋等。
遮擋復(fù)雜度:結(jié)合視線(xiàn)焦點(diǎn)檢測(cè)技術(shù)并利用眼動(dòng)儀定義遮擋復(fù)雜度(眼動(dòng)儀用于記錄人在處理視覺(jué)信息時(shí)的眼動(dòng)軌跡特征,廣泛用于注意、視知覺(jué)、閱讀等領(lǐng)域的研究)。本發(fā)明的實(shí)施例實(shí)現(xiàn)方法包括如下步驟:
21)采用眼動(dòng)儀檢測(cè)眼動(dòng)軌跡,通過(guò)記錄得到觀察者注視點(diǎn)坐標(biāo)序列得到注視點(diǎn)軌跡,將得到的注視點(diǎn)坐標(biāo)序列前、后10%的數(shù)據(jù)點(diǎn)刪去,以保證序列的正確性;
22)將注視點(diǎn)坐標(biāo)按照時(shí)間順序排列成;
23)對(duì)注視點(diǎn)坐標(biāo)進(jìn)行坐標(biāo)換算——眼動(dòng)儀提取出的坐標(biāo)以電腦屏幕分辨率為基準(zhǔn),但在測(cè)試過(guò)程中為了保證圖像不失真,圖像并非全屏顯示,故而需要進(jìn)行坐標(biāo)換算。
若分辨率為L(zhǎng)×H,圖像顯示大小為l×h,顯示方式為居中顯示,得到坐標(biāo)變換公式如下:
式中:xoriginal、yoriginal分別為原始坐標(biāo);xnew、ynew分別為變換后的坐標(biāo);
24)利用眼動(dòng)儀記錄坐標(biāo)變換后的不同時(shí)刻視線(xiàn)焦點(diǎn)坐標(biāo),繪制視線(xiàn)軌跡圖,通過(guò)聚類(lèi)算法繪制視線(xiàn)駐留熱點(diǎn)圖,根據(jù)軌跡圖的被遮擋數(shù)量(復(fù)雜程度、駐留熱點(diǎn)圖熱點(diǎn)數(shù)目)及平均駐留時(shí)間(熱點(diǎn)平均駐留時(shí)間百分比)定義的遮擋復(fù)雜度進(jìn)行標(biāo)注。
和已有的部件分割數(shù)據(jù)集相比,本發(fā)明建立的數(shù)據(jù)集增加了被遮擋部件的標(biāo)注。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。