本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種基于先驗(yàn)條件約束的圖像場(chǎng)景多對(duì)象標(biāo)記方法。
背景技術(shù):
隨著社會(huì)科技的快速發(fā)展,智能手機(jī)、平板電腦、照相機(jī)等電子設(shè)備在社會(huì)生活中日益廣泛地使用,伴隨而來(lái)的是圖像數(shù)據(jù)的獲取越來(lái)越便捷、數(shù)據(jù)量也越來(lái)越龐大,人們對(duì)圖像處理和應(yīng)用的需求也日漸豐富,各種圖像處理的軟件工具也隨之而生。在促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展的各個(gè)行業(yè)領(lǐng)域,對(duì)圖像場(chǎng)景理解的需求得到越來(lái)越廣泛的重視,例如,在無(wú)人駕駛系統(tǒng)中,需要對(duì)街道場(chǎng)景進(jìn)行理解,識(shí)別車(chē)道線(xiàn)、交通標(biāo)示、障礙物檢測(cè),引導(dǎo)無(wú)人駕駛系統(tǒng)的行駛;在旅游智能化系統(tǒng)中,對(duì)用戶(hù)所拍攝照片的內(nèi)容進(jìn)行分析理解,推送相關(guān)服務(wù)信息;在虛擬展示平臺(tái),人機(jī)交互和增強(qiáng)現(xiàn)實(shí)顯示,都與圖像場(chǎng)景密切相關(guān);在機(jī)器人系統(tǒng)中,圖像場(chǎng)景理解是機(jī)器人視覺(jué)的基礎(chǔ)。因此,在智能化和信息化快速發(fā)展的時(shí)代,人們對(duì)圖像場(chǎng)景理解的需求和應(yīng)用也隨著社會(huì)發(fā)展而不斷的更新,迫切需要深入理解圖像內(nèi)容,并使之更好的為人們的生活服務(wù)。
根據(jù)國(guó)內(nèi)外科技發(fā)展趨勢(shì)來(lái)看,圖像場(chǎng)景理解已成為科學(xué)技術(shù)發(fā)展前沿與行業(yè)領(lǐng)域應(yīng)用需求的熱點(diǎn),成為計(jì)算機(jī)視覺(jué)、人工智能、虛擬現(xiàn)實(shí)等研究領(lǐng)域的交叉支點(diǎn)。其中,圖像場(chǎng)景語(yǔ)義分割或語(yǔ)義標(biāo)記是該領(lǐng)域的基本問(wèn)題,同時(shí)也是研究難點(diǎn)。隨著深度學(xué)習(xí)、人工智能技術(shù)的發(fā)展,場(chǎng)景級(jí)別的語(yǔ)義分割已經(jīng)逐漸達(dá)到了一個(gè)較為理想的狀態(tài),甚至能達(dá)到90%以上的準(zhǔn)確率。但是場(chǎng)景級(jí)語(yǔ)義分割在一些具體應(yīng)用領(lǐng)域還無(wú)法達(dá)到實(shí)用的程度,其原因在于應(yīng)用領(lǐng)域需要的是更精細(xì)、更準(zhǔn)確的語(yǔ)義分割,是關(guān)于對(duì)象實(shí)例的識(shí)別與分割,而大多數(shù)場(chǎng)景語(yǔ)義分割方法還處于場(chǎng)景類(lèi)別層次的語(yǔ)義分割,即得到的是場(chǎng)景中不同類(lèi)別的區(qū)域,對(duì)于多個(gè)個(gè)體對(duì)象的類(lèi)別內(nèi)部劃分還無(wú)法給出準(zhǔn)確的結(jié)果。
值得鼓舞的是,目前國(guó)內(nèi)外的學(xué)者和技術(shù)研發(fā)人員已經(jīng)開(kāi)始關(guān)注這一問(wèn)題,并且普遍認(rèn)為這是一個(gè)值得深入研究的內(nèi)容,已經(jīng)開(kāi)始逐步的開(kāi)展相關(guān)的工作,甚至有學(xué)者為對(duì)象級(jí)語(yǔ)義識(shí)別、分割、標(biāo)記等方向的研究工作提供了專(zhuān)業(yè)、公開(kāi)、通用的數(shù)據(jù)集,如微軟coco數(shù)據(jù)集?,F(xiàn)有的對(duì)象級(jí)分割工作大多數(shù)僅為將對(duì)象分割出來(lái),而缺少了對(duì)象的語(yǔ)義信息,如微軟劍橋研究院rother等提出的對(duì)象共分割。對(duì)于場(chǎng)景中多對(duì)象的分割與標(biāo)記,澳大利亞國(guó)立大學(xué)的gould等提出一種基于樣例隨機(jī)場(chǎng)模型的圖像多對(duì)象分割方法,加拿大多倫多大學(xué)的zhang等人提出了一種無(wú)人駕駛系統(tǒng)中的對(duì)象級(jí)場(chǎng)景語(yǔ)義標(biāo)記方法。
但是應(yīng)該看到,對(duì)象的語(yǔ)義分割本身難度非常大,它不僅需要語(yǔ)義識(shí)別的基礎(chǔ)來(lái)進(jìn)行類(lèi)別與類(lèi)別的區(qū)分,還需要類(lèi)別內(nèi)部多個(gè)對(duì)象之間的劃分,而多個(gè)對(duì)象之間往往表現(xiàn)出多種多樣的差異。目前,該方向的工作尚處于一個(gè)探索階段,亟需理論與技術(shù)的進(jìn)一步深入研究。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種基于先驗(yàn)條件約束的圖像場(chǎng)景多對(duì)象標(biāo)記方法,將對(duì)象的豐富特征作為先驗(yàn)約束來(lái)提高對(duì)象標(biāo)記的準(zhǔn)確率。
為了實(shí)現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:
一種基于先驗(yàn)條件約束的圖像場(chǎng)景多對(duì)象標(biāo)記方法,包括以下步驟:
步驟1、針對(duì)待標(biāo)記的語(yǔ)義類(lèi)別對(duì)象,在訓(xùn)練數(shù)據(jù)集上利用分類(lèi)算法訓(xùn)練得到場(chǎng)景各語(yǔ)義類(lèi)別的識(shí)別器和待標(biāo)記語(yǔ)義類(lèi)別的對(duì)象檢測(cè)器,利用該檢測(cè)器得到測(cè)試圖像的對(duì)象識(shí)別包圍盒,確定待標(biāo)記對(duì)象的數(shù)量;
步驟2、在超像素尺度的測(cè)試圖像上,根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布圖確定語(yǔ)義對(duì)象群的感興趣區(qū)域;
步驟3、計(jì)算測(cè)試圖像的多維度特征,作為先驗(yàn)外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,將像素級(jí)多維度特征轉(zhuǎn)化為超像素級(jí)多維度特征;
步驟4、構(gòu)建測(cè)試圖像感興趣區(qū)域的圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點(diǎn),以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊,將先驗(yàn)外觀約束的對(duì)應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布值計(jì)算初始測(cè)地線(xiàn)距離,作為節(jié)點(diǎn)權(quán)重值;
步驟5、進(jìn)行測(cè)地線(xiàn)傳播,每一步傳播中,確定當(dāng)前種子點(diǎn)的對(duì)象標(biāo)記,更新它周?chē)噜忺c(diǎn)的測(cè)地線(xiàn)距離,為下一步傳播做準(zhǔn)備,直至傳播過(guò)程結(jié)束,得到每個(gè)超像素的對(duì)象標(biāo)記。
作為優(yōu)選,所述步驟1中,利用該檢測(cè)器確定待標(biāo)記對(duì)象數(shù)量的方式如下:根據(jù)檢測(cè)器得到的所有對(duì)象包圍盒的檢測(cè)分值,選擇分值大于設(shè)定閾值tb的包圍盒,包圍盒的個(gè)數(shù)即為待標(biāo)記對(duì)象的個(gè)數(shù),其中,閾值tb由訓(xùn)練數(shù)據(jù)集確定,在訓(xùn)練數(shù)據(jù)集上檢測(cè)對(duì)象包圍盒,統(tǒng)計(jì)包圍盒分值分布的直方圖,以滿(mǎn)足直方圖80%的包圍盒時(shí)所對(duì)應(yīng)的分值,作為閾值tb。
作為優(yōu)選,所述步驟2中,感興趣區(qū)域由初始粗略語(yǔ)義概率和對(duì)象顯著性確定,具體方式如下:根據(jù)分類(lèi)算法得到的初始粗略語(yǔ)義概率,統(tǒng)計(jì)訓(xùn)練集數(shù)據(jù)中待標(biāo)記對(duì)象語(yǔ)義的直方圖分布,以滿(mǎn)足直方圖85%的語(yǔ)義概率時(shí)所對(duì)應(yīng)的分值,作為語(yǔ)義閾值tp,對(duì)于測(cè)試圖像中大于該閾值的超像素,認(rèn)為它在感興趣區(qū)域中;對(duì)于一個(gè)超像素,如果它所有類(lèi)別的粗略語(yǔ)義概率中,最大值為待標(biāo)記語(yǔ)義類(lèi)別,即認(rèn)為它最可能屬于該類(lèi)別,即認(rèn)為它在感興趣區(qū)域中;以同樣統(tǒng)計(jì)方式確定對(duì)象顯著性閾值ts,大于該閾值的超像素認(rèn)為它在感興趣區(qū)域中。
作為優(yōu)選,所述步驟3中,將紋理描述符聚為256個(gè)類(lèi),以詞袋形式來(lái)表征圖像紋理特征;在lab顏色空間,將顏色特征聚為128類(lèi),以詞袋形式來(lái)表征圖像顏色特征;圖像hog視覺(jué)特征以8*8的塊結(jié)構(gòu)、4像素步長(zhǎng)為計(jì)算方式,聚為1000個(gè)類(lèi),以詞袋形式來(lái)表征圖像hog特征;hog、紋理、顏色共同構(gòu)成圖像外觀差異特征;梯度特征包括水平和垂直兩個(gè)方向的梯度變化,作為圖像多對(duì)象之間的邊界先驗(yàn);將所有特征都轉(zhuǎn)化為超像素級(jí)別,以這些特征作為超像素之間的特征差異,權(quán)重取值如下公式計(jì)算:
d(i,j)=0.1*||fhog(i)-fhog(j)||+0.3*||ftex(i)-ftex(j)||+0.6*||fcolor(i)-fcolor(j)||
其中,fhog(·)、ftex(·)、fcolor(·)分別對(duì)應(yīng)hog特征、紋理特征、顏色特征,所述梯度特征,作為圖像多對(duì)象之間的邊界先驗(yàn),為后續(xù)測(cè)地線(xiàn)距離傳播提供邊界約束。
作為優(yōu)選,所述步驟4中,將圖模型標(biāo)記問(wèn)題通過(guò)流行空間中的測(cè)地線(xiàn)傳播算法來(lái)解決,其中圖模型結(jié)構(gòu)的節(jié)點(diǎn)權(quán)重值為初始測(cè)地線(xiàn)距離,圖模型結(jié)構(gòu)的邊權(quán)重值為先驗(yàn)約束下的多維度特征值;首先在計(jì)算初始測(cè)地線(xiàn)距離時(shí),計(jì)算方式如下:計(jì)算每個(gè)節(jié)點(diǎn)屬于每個(gè)對(duì)象的概率,對(duì)于顯著性概率大于ts同時(shí)語(yǔ)義概率大于tp的節(jié)點(diǎn),它的節(jié)點(diǎn)值為三部分之和,即顯著性值、語(yǔ)義概率值以及所屬對(duì)象包圍盒的分值;對(duì)于其他情況的節(jié)點(diǎn),它的節(jié)點(diǎn)值為非該語(yǔ)義類(lèi)別概率值與非顯著性值的和;然后將節(jié)點(diǎn)值歸一化并轉(zhuǎn)化為初始測(cè)地線(xiàn)距離,使之與節(jié)點(diǎn)值成反比,即節(jié)點(diǎn)值越大測(cè)地線(xiàn)距離越小,通過(guò)以下公式計(jì)算:
geodis(s,o)=exp(1-spop(s,o))
其中,spop(s,o)表示每個(gè)節(jié)點(diǎn)即超像素s屬于每個(gè)對(duì)象o的概率,sp(s,l)和smp(s)分別表示語(yǔ)義概率和顯著性,inb(s,o)表示該節(jié)點(diǎn)是否在該對(duì)象的包圍盒內(nèi),取值為1或0,bbox(o)表示該包圍盒的分值,geodis(s,o)表示s到o的初始測(cè)地線(xiàn)距離。
作為優(yōu)選,所述步驟4中,邊權(quán)重值的計(jì)算方式為:相鄰兩個(gè)節(jié)點(diǎn)之間的邊權(quán)重值由紋理、顏色、hog特征的差值所決定,各特征之間的權(quán)重取值體現(xiàn)了對(duì)象外觀特征的特點(diǎn)。
作為優(yōu)選,所述步驟5中,當(dāng)前傳播的過(guò)程如下:每一次傳播開(kāi)始時(shí),選擇當(dāng)前測(cè)地線(xiàn)距離最小的節(jié)點(diǎn)以及該測(cè)地線(xiàn)距離對(duì)應(yīng)的所屬對(duì)象,由此確定當(dāng)前節(jié)點(diǎn)即種子點(diǎn)的對(duì)象標(biāo)記;然后選擇該種子點(diǎn)的鄰接節(jié)點(diǎn)中尚未進(jìn)行標(biāo)記的那些節(jié)點(diǎn),更新它們到每個(gè)對(duì)象的測(cè)地線(xiàn)距離,然后進(jìn)行下一次傳播過(guò)程;其中,更新測(cè)地線(xiàn)距離的方式為,如果種子點(diǎn)與當(dāng)前鄰接節(jié)點(diǎn)之間的外觀差異特征小于外觀差異閾值t1并且邊界先驗(yàn)值小于閾值邊界先驗(yàn)t2,那么兩節(jié)點(diǎn)之間的邊權(quán)值為邊界先驗(yàn)值,否則取外觀差異與邊界先驗(yàn)值的線(xiàn)性組合;當(dāng)種子點(diǎn)到所屬對(duì)象的測(cè)地線(xiàn)距離值與該邊權(quán)值之和小于當(dāng)前鄰接節(jié)點(diǎn)到該對(duì)象的測(cè)地線(xiàn)距離值時(shí),就以前者之和更新后者的測(cè)地線(xiàn)距離值,否則保持原值不變。
本發(fā)明的基于先驗(yàn)條件約束的圖像場(chǎng)景多對(duì)象標(biāo)記方法,包括:在訓(xùn)練數(shù)據(jù)集上利用分類(lèi)算法訓(xùn)練得到各語(yǔ)義類(lèi)別的識(shí)別器和待標(biāo)記語(yǔ)義類(lèi)別的對(duì)象檢測(cè)器,并對(duì)測(cè)試圖像進(jìn)行識(shí)別,得到對(duì)象識(shí)別包圍盒,確定待標(biāo)記對(duì)象的數(shù)量;在超像素尺度的測(cè)試圖像上,根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布圖確定語(yǔ)義對(duì)象群的感興趣區(qū)域;計(jì)算測(cè)試圖像的多維度特征,作為先驗(yàn)外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,將像素級(jí)多維度特征轉(zhuǎn)化為超像素級(jí)多維度特征;構(gòu)建測(cè)試圖像感興趣區(qū)域的圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點(diǎn),以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊,將先驗(yàn)外觀約束的對(duì)應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布值計(jì)算初始測(cè)地線(xiàn)距離,作為節(jié)點(diǎn)權(quán)重值;進(jìn)行測(cè)地線(xiàn)傳播,每一步傳播中,確定當(dāng)前種子點(diǎn)的對(duì)象標(biāo)記,更新它周?chē)噜忺c(diǎn)的測(cè)地線(xiàn)距離,為下一步傳播做準(zhǔn)備,直至傳播過(guò)程結(jié)束,得到每個(gè)超像素的對(duì)象標(biāo)記。本發(fā)明能廣泛的應(yīng)用于智慧旅游、智能交通、公共安全、影視娛樂(lè)等行業(yè)。
附圖說(shuō)明
圖1為本發(fā)明的方法流程示意圖;
圖2為本發(fā)明的圖像顯著性檢測(cè)圖;
圖3為本發(fā)明的結(jié)果示意圖。
具體實(shí)施方式
下面對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,以令本領(lǐng)域技術(shù)人員參照說(shuō)明書(shū)文字能夠據(jù)以實(shí)施。
本發(fā)明提供了一種基于先驗(yàn)條件約束的圖像場(chǎng)景多對(duì)象標(biāo)記方法,該方法在圖像場(chǎng)景語(yǔ)義類(lèi)別識(shí)別的基礎(chǔ)上進(jìn)一步得到對(duì)象標(biāo)記的結(jié)果??傮w流程如下:在訓(xùn)練數(shù)據(jù)集上利用分類(lèi)算法訓(xùn)練得到各語(yǔ)義類(lèi)別的識(shí)別器和待標(biāo)記語(yǔ)義類(lèi)別的對(duì)象檢測(cè)器,并對(duì)測(cè)試圖像進(jìn)行識(shí)別,得到初始粗略語(yǔ)義概率和對(duì)象識(shí)別包圍盒,確定待標(biāo)記對(duì)象的數(shù)量;對(duì)圖像進(jìn)行過(guò)分割處理,得到超像素集合,對(duì)圖像進(jìn)行顯著性檢測(cè),得到顯著性分布圖,在超像素級(jí)別上根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布圖確定語(yǔ)義對(duì)象群的感興趣區(qū)域;計(jì)算測(cè)試圖像的多維度特征作為先驗(yàn)外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征,轉(zhuǎn)化為超像素級(jí)多維度特征;在感興趣區(qū)域范圍內(nèi)構(gòu)件圖模型結(jié)構(gòu),以感興趣區(qū)域中超像素作為圖結(jié)構(gòu)節(jié)點(diǎn),以超像素的鄰接關(guān)系作為圖結(jié)構(gòu)的邊;根據(jù)初始粗略語(yǔ)義概率和對(duì)象顯著性分布值計(jì)算初始測(cè)地線(xiàn)距離,作為節(jié)點(diǎn)權(quán)重值,將先驗(yàn)外觀約束的對(duì)應(yīng)特征轉(zhuǎn)化為邊權(quán)重值;進(jìn)行測(cè)地線(xiàn)傳播,每一步傳播中,選擇具有最小的測(cè)地線(xiàn)距離的節(jié)點(diǎn)作為種子點(diǎn),以該距離所對(duì)應(yīng)的對(duì)象作為種子點(diǎn)的對(duì)象標(biāo)記確定下來(lái),更新它周?chē)噜忺c(diǎn)的測(cè)地線(xiàn)距離,為下一步傳播做準(zhǔn)備,直至傳播過(guò)程結(jié)束,得到每個(gè)超像素的對(duì)象標(biāo)記。
根據(jù)上述流程,識(shí)別部分包括兩部分,語(yǔ)義類(lèi)別識(shí)別和對(duì)象檢測(cè)識(shí)別。由語(yǔ)義識(shí)別模塊得到像素點(diǎn)屬于每一種語(yǔ)義類(lèi)別的初始粗略語(yǔ)義概率,由對(duì)象檢測(cè)識(shí)別模塊得到多個(gè)候選對(duì)象包圍盒,兩個(gè)識(shí)別模塊均使用boost算法來(lái)進(jìn)行訓(xùn)練。對(duì)于輸出的多類(lèi)別的語(yǔ)義概率,每一個(gè)點(diǎn)選擇它最大概率的那個(gè)類(lèi)別,由此可以構(gòu)成一個(gè)初始語(yǔ)義概率圖。對(duì)于輸出的多個(gè)對(duì)象包圍盒,選擇分值高于閾值tb的那些構(gòu)成候選集。tb的選擇方式為:在訓(xùn)練數(shù)據(jù)集上,檢測(cè)對(duì)象包圍盒,統(tǒng)計(jì)所有包圍盒的分值分布,選擇滿(mǎn)足80%以上的包圍盒的那個(gè)分值,作為閾值tb。由此閾值確定輸入測(cè)試圖像上的對(duì)象包圍盒候選集,包圍盒的個(gè)數(shù)即要標(biāo)記的對(duì)象數(shù)量。
利用turbosp算法,對(duì)測(cè)試圖像進(jìn)行過(guò)分割處理,得到超像素集合,超像素?cái)?shù)量為一千左右的數(shù)量級(jí)。利用context-awaresaliency算法檢測(cè)圖像的顯著性,得到降采樣后的顯著性圖,因此需要進(jìn)行升采樣處理。根據(jù)降采樣后的顯著性檢測(cè)結(jié)果,可知該算法處理的結(jié)果對(duì)原圖像進(jìn)行了縮小。處理后的圖像結(jié)果為原圖像的1/4大小左右,分別是x軸方向1/2,y軸方向1/2,對(duì)于原圖像維度為單數(shù)的軸,取維度值為原維度值減一維后的1/2。因此,采取升采樣為降采樣逆向過(guò)程的線(xiàn)性插值:對(duì)于同屬于原圖像和降采樣后圖像的像素點(diǎn),直接將顯著性值賦值給原圖像。對(duì)于不屬于采樣的原圖像像素點(diǎn),該點(diǎn)的值由其周?chē)泥徲虻泥従狱c(diǎn)的顯著性值線(xiàn)性組合得到。由此,即可得到與原圖像同樣大小的顯著性圖。
確定感興趣區(qū)域作為對(duì)象標(biāo)記的區(qū)域,以外的區(qū)域就不作為標(biāo)記范圍。以這個(gè)縮小后的區(qū)域作為構(gòu)建隨機(jī)場(chǎng)模型的區(qū)域。因此,首先需要確定感興趣區(qū)域。如圖2、3所示,以“馬”這個(gè)對(duì)象類(lèi)別為例,滿(mǎn)足三種情況的超像素都可以作為該區(qū)域,一,初始粗略概率最大值為類(lèi)別“馬”的超像素,二,“馬”的初始粗略概率值大于tp的超像素,三,顯著性值大于ts的超像素。tp和ts的選擇均由訓(xùn)練數(shù)據(jù)集上統(tǒng)計(jì)得到,滿(mǎn)足85%以上超像素的對(duì)應(yīng)值即選擇為閾值。
提取圖像的多維度特征,作為先驗(yàn)外觀約束,包括hog特征、紋理特征、顏色特征、梯度特征。將紋理描述符聚為256個(gè)類(lèi),以詞袋形式來(lái)表征圖像紋理特征。在lab顏色空間,將顏色特征聚為128類(lèi),以詞袋形式來(lái)表征圖像顏色特征。圖像hog視覺(jué)特征以8*8的塊結(jié)構(gòu)、4像素步長(zhǎng)為計(jì)算方式,聚為1000個(gè)類(lèi),以詞袋形式來(lái)表征圖像hog特征。hog、紋理、顏色共同構(gòu)成圖像外觀差異特征。將所有特征都轉(zhuǎn)化為超像素級(jí)別,以這些特征作為超像素之間的特征差異,權(quán)重取值如下公式所示。
d(i,j)=0.1*||fhog(i)-fhog(j)||+0.3*||ftex(i)-ftex(j)||+0.6*||fcolor(i)-fcolor(j)||
其中,fhog(·)、ftex(·)、fcolor(·)分別對(duì)應(yīng)hog特征、紋理特征、顏色特征。另外,梯度特征包括水平和垂直兩個(gè)方向的梯度變化,作為圖像多對(duì)象之間的邊界先驗(yàn),為后續(xù)測(cè)地線(xiàn)距離傳播提供邊界約束。
在前面工作基礎(chǔ)上,構(gòu)建圖模型結(jié)構(gòu)下的測(cè)地線(xiàn)傳播框架。在該框架中,感興趣區(qū)域中的超像素作為節(jié)點(diǎn),超像素的鄰接關(guān)系作為邊,將初始測(cè)地線(xiàn)距離值作為圖結(jié)構(gòu)節(jié)點(diǎn)的權(quán)重值,多維度特征差異作為圖結(jié)構(gòu)的邊權(quán)值,從種子點(diǎn)開(kāi)始將對(duì)象標(biāo)記傳播到整個(gè)結(jié)構(gòu)空間。首先計(jì)算每個(gè)節(jié)點(diǎn)的初始測(cè)地線(xiàn)距離,計(jì)算方式如下:計(jì)算每個(gè)節(jié)點(diǎn)屬于每個(gè)對(duì)象的概率,對(duì)于顯著性概率大于ts同時(shí)語(yǔ)義概率大于tp的節(jié)點(diǎn),它的節(jié)點(diǎn)值為三部分之和,即顯著性值、語(yǔ)義概率值以及所屬對(duì)象包圍盒的分值;對(duì)于其他情況的節(jié)點(diǎn),它的節(jié)點(diǎn)值為非該語(yǔ)義類(lèi)別概率值與非顯著性值的和。將節(jié)點(diǎn)值歸一化,并轉(zhuǎn)化為初始測(cè)地線(xiàn)距離,使之與節(jié)點(diǎn)值成反比,即節(jié)點(diǎn)值越大測(cè)地線(xiàn)距離越小,如以下公式所示。
geodis(s,o)=exp(1-spop(s,o))
其中,spop(s,o)表示每個(gè)節(jié)點(diǎn)即超像素s屬于每個(gè)對(duì)象o的概率,sp(s,l)和smp(s)分別表示語(yǔ)義概率和顯著性。inb(s,o)表示該節(jié)點(diǎn)是否在該對(duì)象的包圍盒內(nèi),取值為1或0。bbox(o)表示該包圍盒的分值。geodis(s,o)表示s到o的初始測(cè)地線(xiàn)距離。
邊權(quán)重值的計(jì)算方式為:相鄰兩個(gè)節(jié)點(diǎn)之間的邊權(quán)重值由紋理、顏色、hog特征的差值所決定,各特征之間的權(quán)重取值體現(xiàn)了對(duì)象外觀特征的特點(diǎn)。
在傳播過(guò)程中,每一次傳播開(kāi)始時(shí),選擇當(dāng)前測(cè)地線(xiàn)距離最小的節(jié)點(diǎn)作為當(dāng)前種子點(diǎn),以該測(cè)地線(xiàn)距離對(duì)應(yīng)的所屬對(duì)象作為當(dāng)前種子點(diǎn)的對(duì)象標(biāo)記,將該節(jié)點(diǎn)剔除出未標(biāo)記的隊(duì)列,將該節(jié)點(diǎn)屬于該對(duì)象的測(cè)地線(xiàn)距離設(shè)置為無(wú)限大;然后選擇該種子點(diǎn)的鄰接節(jié)點(diǎn)中尚未進(jìn)行標(biāo)記的那些節(jié)點(diǎn),更新它們到每個(gè)對(duì)象的測(cè)地線(xiàn)距離,然后進(jìn)入下一次傳播過(guò)程。更新測(cè)地線(xiàn)距離時(shí),節(jié)點(diǎn)之間的邊界特征起到了約束作用,將傳播方向指向邊界差異小的鄰接節(jié)點(diǎn)去。如果種子點(diǎn)與當(dāng)前鄰接節(jié)點(diǎn)之間的外觀差異特征小于外觀差異閾值t1并且邊界先驗(yàn)值小于閾值邊界先驗(yàn)t2,那么兩節(jié)點(diǎn)之間的邊權(quán)值為邊界先驗(yàn)值,否則取外觀差異與邊界先驗(yàn)值的線(xiàn)性組合;在邊權(quán)值確定下來(lái)之后,判斷是否需要更新測(cè)地線(xiàn)距離,當(dāng)種子點(diǎn)到所屬對(duì)象的測(cè)地線(xiàn)距離值與該邊權(quán)值之和小于當(dāng)前鄰接節(jié)點(diǎn)到該對(duì)象的測(cè)地線(xiàn)距離值時(shí),就以前者之和更新后者的測(cè)地線(xiàn)距離值,否則保持原值不變,如下所示,其中,d(i,j)為特征差異,bdry(i,j)為邊界特征。