本發(fā)明屬于多媒體信息檢索、模式識(shí)別等智能信息處理領(lǐng)域,尤其涉及一種基于興趣目標(biāo)的圖像檢索方法。
背景技術(shù):
智能手機(jī)、數(shù)碼相機(jī)等便攜式圖像捕獲設(shè)備的普及以及微信、微博等數(shù)據(jù)共享平臺(tái)的流行,導(dǎo)致網(wǎng)絡(luò)上圖像數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)海量的圖像數(shù)據(jù),傳統(tǒng)人工標(biāo)注的圖像檢索方式已無(wú)法應(yīng)對(duì)。基于內(nèi)容的圖像檢索逐漸成為科學(xué)研究的熱點(diǎn),圖像檢索技術(shù)的相關(guān)應(yīng)用也得到了發(fā)展。
在當(dāng)前圖像檢索模型與相應(yīng)構(gòu)建的圖像搜索引擎中,通常針對(duì)整體圖像來(lái)提取圖像的底層特征。從技術(shù)角度來(lái)說(shuō),這一做法是自然的,而從應(yīng)用角度來(lái)說(shuō)則可能無(wú)法滿足人們的實(shí)際需求。即,如果用戶僅僅對(duì)圖像中的特定目標(biāo)物體感興趣,此時(shí)從整體圖像提取的特征一部分是有效的,而另一部分則是無(wú)效的且會(huì)對(duì)查詢結(jié)果帶來(lái)消極影響。
顯著性檢測(cè)是圖像分析與理解領(lǐng)域另一個(gè)重要分支,其主要任務(wù)是模擬人眼視覺(jué)注意選擇機(jī)制,檢測(cè)出圖像中密度、顏色、形狀等與周?chē)鷧^(qū)域有顯著差異的區(qū)域。當(dāng)進(jìn)行“這是什么東西”這類(lèi)查詢?nèi)蝿?wù)時(shí),我們以圖像顯著性檢測(cè)來(lái)理解用戶的興趣目標(biāo)。一個(gè)理想的顯著性檢測(cè)模型能夠像人類(lèi)視覺(jué)系統(tǒng)一樣快速定位出復(fù)雜場(chǎng)景中最重要的視覺(jué)信息.近年來(lái),人們提出了各種顯著性檢測(cè)算法.Itti等人提出了一種基于生物啟發(fā)模型和特征整合理論的視覺(jué)顯著性檢測(cè)算法(IT算法).該算法分別在圖像顏色、亮度、方向特征圖中,按照贏者通吃的顯著性競(jìng)爭(zhēng)準(zhǔn)則,保留局部最為突出的位置,最后將所有特征圖組合成最終的顯著圖。Hou和Zhang等人提出了一種基于頻譜殘差的圖像顯著性檢測(cè)算法(SR算法),該算法通過(guò)分析輸入圖像的對(duì)數(shù)譜,從圖像的頻域提取普殘差,并在對(duì)應(yīng)的空間域構(gòu)建顯著性圖。Li等人提出了一種頻域圖像顯著性檢測(cè)算法(HFT算法),該算法基于超復(fù)數(shù)傅里葉變換,利用頻譜尺度空間技術(shù)進(jìn)行圖像顯著性區(qū)域檢測(cè)。Cheng等人提出了一種同時(shí)使用空間加權(quán)和區(qū)域的全局對(duì)比度的顯著性區(qū)域檢測(cè)算法(RC算法)。Yan等人提出了一種分層顯著性區(qū)域檢測(cè)算法(HS算法)。除此之外,還有很多其他顯著性檢測(cè)算法。
此前,研究者已經(jīng)嘗試過(guò)將視覺(jué)注意機(jī)制融入到圖像檢索框架中。Fu等人提出了基于注意力驅(qū)動(dòng)的圖像檢索系統(tǒng),該方法通過(guò)最大化一個(gè)全局注意函數(shù),以一個(gè)迭代方式將顯著物體從背景中分離出來(lái),并賦予較高的注意值;檢索時(shí),只比較注意值較高的目標(biāo)物體。Liu等人提出了一種利用顯著性結(jié)構(gòu)直方圖描述圖像的方法。該方法融入視覺(jué)注意內(nèi)核和神經(jīng)元的方向選擇性機(jī)制,以此來(lái)提高檢索系統(tǒng)的準(zhǔn)確性。然而,在Fu等人提出其算法時(shí),人們對(duì)顯著性檢測(cè)問(wèn)題的理解還不夠完善,相關(guān)技術(shù)效率較低,并且該算法所提取的圖像特征僅包括顏色和紋理,在描述目標(biāo)時(shí)區(qū)分力不夠,從而導(dǎo)致圖像檢索效率低下。Liu等人的算法介于基于整體圖像的檢索和基于興趣目標(biāo)的檢索之間,可以解決目標(biāo)類(lèi)似(權(quán)重較高)同時(shí)背景類(lèi)似(權(quán)重較低)的圖像檢索任務(wù)。該算法從功能上來(lái)說(shuō)與現(xiàn)有的圖像檢索引擎的表現(xiàn)類(lèi)似。實(shí)際上,如果用戶所感興趣的是圖像中的特定目標(biāo),此時(shí)是無(wú)需考慮目標(biāo)背景特征的。
有鑒于上述的缺陷,本設(shè)計(jì)人,積極加以研究創(chuàng)新,結(jié)合顯著性檢測(cè)與圖像分割領(lǐng)域最新研究成果,實(shí)現(xiàn)一種基于用戶興趣目標(biāo)的圖像檢索方法,以解決“這是什么東西”這類(lèi)圖像檢索任務(wù)。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種基于興趣目標(biāo)的圖像檢索方法,僅在興趣目標(biāo)區(qū)域提取特征,以有效地抑制背景對(duì)檢索結(jié)果的影響,提高檢索的查全率和查準(zhǔn)率。
本發(fā)明的基于興趣目標(biāo)的圖像檢索方法,包括以下步驟:
(1)依據(jù)HS顯著性檢測(cè)算法分析用戶的興趣目標(biāo),結(jié)合SaliencyCut算法分割出興趣目標(biāo);
(2)對(duì)用戶的興趣目標(biāo)提取HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征;
(3)將提取的興趣目標(biāo)的特征與數(shù)據(jù)庫(kù)圖像進(jìn)行特征相似度匹配,并根據(jù)相似度排序得到基于興趣目標(biāo)的檢索結(jié)果。
進(jìn)一步的,所述數(shù)據(jù)庫(kù)為:對(duì)圖像數(shù)據(jù)庫(kù)中所有的圖像進(jìn)行顯著性檢測(cè)并分割出興趣目標(biāo),然后在興趣目標(biāo)區(qū)域提取特征,所有圖像的興趣目標(biāo)區(qū)域的特征組成的特征數(shù)據(jù)庫(kù)。
進(jìn)一步的,所述HS顯著性檢測(cè)算法首先提取輸入圖像不同尺度的圖像層,然后計(jì)算每張圖像層的顯著性線索,最后利用圖模型將每層的顯著性線索融合成一張顯著圖。
進(jìn)一步的,通過(guò)樹(shù)結(jié)構(gòu)的所述圖模型進(jìn)行分層推理,實(shí)現(xiàn)對(duì)所有線索圖的融合,將每層的顯著性線索融合成一張顯著圖。
進(jìn)一步的,所述SaliencyCut算法首先利用所述顯著圖來(lái)生成一個(gè)不完全的三值圖,然后迭代地調(diào)用GrabCut算法來(lái)改進(jìn)興趣區(qū)域的分割結(jié)果,每次迭代后,分別對(duì)分割結(jié)果使用膨脹和腐蝕操作來(lái)得到新的三值圖以進(jìn)行下一次迭代。
進(jìn)一步的,迭代次數(shù)小于等于4次。
進(jìn)一步的,HSV顏色特征的提取,首先根據(jù)興趣目標(biāo)分割結(jié)果,保留興趣目標(biāo)區(qū)域的像素,接著將興趣目標(biāo)中所有像素的(r,g,b)值轉(zhuǎn)換為(h,s,v)值,并將HSV顏色空間量化成240種顏色,最后用歸一化的240維HSV顏色直方圖描述興趣目標(biāo)的顏色特征。
進(jìn)一步的,SIFT局部特征的提取,首先采用DoG或Hessian-affine檢測(cè)器檢測(cè)出圖像中穩(wěn)定的關(guān)鍵點(diǎn),并且根據(jù)興趣目標(biāo)分割結(jié)果保留興趣目標(biāo)區(qū)域的關(guān)鍵點(diǎn),然后用128維向量描述興趣目標(biāo)區(qū)域內(nèi)每個(gè)關(guān)鍵點(diǎn)周?chē)?6×16區(qū)域的信息。
進(jìn)一步的,在利用SIFT局部特征進(jìn)行特征相似度匹配時(shí),將訓(xùn)練得到的視覺(jué)詞典,采用多分配方法,將每個(gè)SIFT特征通過(guò)最近鄰算法量化成視覺(jué)單詞,然后采用漢明嵌入、rootSIFT和IDF方法,最終建立一個(gè)標(biāo)準(zhǔn)的倒排索引,并利用投票機(jī)制進(jìn)行檢索。
進(jìn)一步的,CNN語(yǔ)義特征的提取,根據(jù)興趣目標(biāo)的分割結(jié)果,用一個(gè)矩形框包含興趣目標(biāo)并將其剪切出來(lái),然后利用MatConvNet工具提取興趣目標(biāo)的4096維的CNN特征向量,并對(duì)該特征向量進(jìn)行歸一化。
進(jìn)一步的,所述步驟(3)中使用加權(quán)的特征距離計(jì)算查詢圖像和數(shù)據(jù)庫(kù)中每一幅圖像之間的相似度,然后按照相似度由大到小的順序返回圖像檢索結(jié)果。
借由上述方案,本發(fā)明通過(guò)僅在興趣目標(biāo)區(qū)域提取特征的做法,可以有效抑制背景對(duì)檢索結(jié)果的影響,提高檢索的查全率和查準(zhǔn)率。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。
附圖說(shuō)明
圖1是本發(fā)明流程圖;
圖2是本發(fā)明中SaliencyCut算法流程圖;
圖3是為本發(fā)明采用的SIVAL數(shù)據(jù)庫(kù)的樣例圖像;
圖4是結(jié)合HS算法和SaliencyCut算法提取興趣目標(biāo)的結(jié)果:(a)輸入圖像,(b)顯著圖,(c)興趣目標(biāo)分割結(jié)果,(d)人工標(biāo)注的興趣目標(biāo);
圖5是不同顯著性檢測(cè)算法的結(jié)果比較,其中HS為本文所采用的算法;
圖6是不同的顯著圖分割方法的比較;
圖7是基于興趣目標(biāo)與基于整體圖像的檢索效果比較:(a)關(guān)于HSV特征的比較,(b)關(guān)于SIFT特征的比較,(c)關(guān)于CNN特征的比較;
圖8為不同特征相結(jié)合檢索效果的比較:(a)PR曲線,(b)F-度量曲線;
圖9為本發(fā)明和基準(zhǔn)算法的檢索樣例,最左上的圖像為查詢圖像,(a)為本發(fā)明的檢索結(jié)果,(b)為基準(zhǔn)算法的檢索結(jié)果;
圖10為本發(fā)明與現(xiàn)有其他算法及基準(zhǔn)算法的比較:(a)PR曲線,(b)F-度量曲線。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。
本發(fā)明結(jié)合顯著性檢測(cè)與圖像分割領(lǐng)域最新研究成果,實(shí)現(xiàn)一種基于興趣目標(biāo)的圖像檢索方法,并在圖像數(shù)據(jù)庫(kù)上對(duì)所提方法進(jìn)行測(cè)評(píng)。與基于整體圖像的檢索模型及Liu等人提出的檢索模型相比,本發(fā)明解決了用戶不同的檢索任務(wù);與Fu等人提出的算法相比,本發(fā)明的檢索性能顯著提升。本發(fā)明的檢索方法為:依據(jù)HS顯著性檢測(cè)算法分析用戶的興趣目標(biāo),結(jié)合SaliencyCut算法分割出興趣目標(biāo);然后對(duì)用戶的興趣目標(biāo)提取HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征;最后將其與數(shù)據(jù)庫(kù)圖像進(jìn)行特征相似度匹配,并根據(jù)相似度排序得到基于興趣目標(biāo)的檢索結(jié)果.以上僅在興趣目標(biāo)區(qū)域提取特征的做法,可以有效抑制背景對(duì)檢索結(jié)果的影響,提高檢索的查全率和查準(zhǔn)率?;谂d趣目標(biāo)的圖像檢索流程如圖1所示。
1、分層顯著性模型
在對(duì)比常用的顯著性檢測(cè)算法的各方面性能后,本發(fā)明采用HS算法來(lái)理解和獲取用戶的興趣目標(biāo),該算法首先提取輸入圖像不同尺度的圖像層,然后計(jì)算每張圖像層的顯著性線索,最后利用圖模型將每層的顯著性線索融合成一張顯著圖。
1.1、提取圖像層
圖像層是對(duì)輸入圖像在不同細(xì)節(jié)程度上的描述,不同層對(duì)輸入圖像的表示和結(jié)構(gòu)復(fù)雜度的表現(xiàn)不一樣。圖像層的層數(shù)一般設(shè)定為3層。在第1層,圖像的細(xì)節(jié)盡可能被保留,在第2層,圖像的細(xì)節(jié)消失,顯現(xiàn)出圖像的結(jié)構(gòu),在第3層,細(xì)節(jié)消失,只剩下大尺度的圖像結(jié)構(gòu)。
為了產(chǎn)生三幅圖像層,首先使用分水嶺分割算法生成一幅初始化的過(guò)分割圖,并計(jì)算每個(gè)分割區(qū)域的尺度值.然后使用一個(gè)迭代程序合并鄰近的分割區(qū)域。如果區(qū)域尺度值小于3,這個(gè)區(qū)域?qū)⒈缓喜⒌阶罱彽膮^(qū)域,隨之更新合并后區(qū)域的尺度值和顏色。當(dāng)所有的區(qū)域都處理完后,將產(chǎn)生第1層區(qū)域圖,第2層區(qū)域圖和第3層區(qū)域圖的產(chǎn)生方式與第1層類(lèi)似,只是尺度閾值更大。
1.2、單層顯著性線索
用于單層顯著性的主要線索包括局部對(duì)比度和啟發(fā)式位置。
1)局部對(duì)比度。與周?chē)伾珜?duì)比度較大的圖像區(qū)域一般更會(huì)吸引人們的關(guān)注??紤]圖像的兩個(gè)區(qū)域Ri和Rj,其顏色分別記為ci和cj。區(qū)域的像素?cái)?shù)目為w(Rj)。記
φ(i,j)=exp{-D(Ri,Rj)/σ2}
為區(qū)域Rj在空間上對(duì)區(qū)域Ri的顯著性影響程度,其中D(Ri,Rj)表示區(qū)域Ri中心和區(qū)域Rj中心的歐氏距離的平方,參數(shù)σ2控制周?chē)鷧^(qū)域影響范圍。區(qū)域Ri局部對(duì)比度顯著性線索定義如下.
其中n為圖像中區(qū)域的總數(shù)。
2)啟發(fā)式位置。心理學(xué)研究表明人們注意力傾向于圖像中間區(qū)域,因此靠近圖像中心的區(qū)域顯著性更高。記xc為圖像中心的坐標(biāo),{x0,x1,…}為區(qū)域Ri中像素坐標(biāo)的集合。啟發(fā)式位置模型如下:
為了更好地得到圖像的顯著性,需要融合以上形式線索,形式如下:
其中λ控制位置線索與局部對(duì)比度線索的權(quán)重。λ越大,位置線索權(quán)重越小,一般λ設(shè)置為9。對(duì)每一層計(jì)算完si后,即可分別得到初始的顯著圖。
1.3、分層推理
不同層的線索圖揭示的顯著性一般是不一樣的,在底層,產(chǎn)生了分散的顯著區(qū)域,在頂層則保留了大結(jié)構(gòu)的顯著區(qū)域。每層的顯著信息都不一樣,因此單獨(dú)層的線索圖不能夠保證完整的顯著性信息。此外,很難決定哪一層最好。考慮到背景和前景的復(fù)雜性,平均所有線索圖的融合方式也達(dá)不到最好的效果。為此,可以借助樹(shù)結(jié)構(gòu)的圖模型進(jìn)行分層推理,實(shí)現(xiàn)對(duì)所有線索圖的融合。
在第k(k=1,2,3)層,對(duì)區(qū)域i對(duì)應(yīng)的節(jié)點(diǎn)定義一個(gè)顯著性變量集合S包含所有的顯著性變量。為了分層推理,最小化下面的能量函數(shù):
其中第二項(xiàng)要求該能量函數(shù)包含兩部分,分別為數(shù)據(jù)項(xiàng)和層次項(xiàng)。數(shù)據(jù)項(xiàng)用來(lái)收集各個(gè)顯著性置信度,對(duì)于每個(gè)節(jié)點(diǎn)定義如下:
其中β(k)控制層置信度,并且是由式(3)計(jì)算得到的初始化的顯著性值。
層次項(xiàng)控制不同層對(duì)應(yīng)區(qū)域的一致性。ES定義如下:
其中λ(k)控制層與層之間的一致性強(qiáng)度。層次項(xiàng)使得不同層對(duì)應(yīng)區(qū)域的顯著性分配更相似,能夠有效地糾正初始顯著性錯(cuò)誤。
式(4)中的能量函數(shù)是一個(gè)簡(jiǎn)單的分層圖模型,采用置信傳播的方法可以實(shí)現(xiàn)最優(yōu)化。當(dāng)能量函數(shù)達(dá)到全局最優(yōu)時(shí),便可得到最終的顯著圖。
2、興趣目標(biāo)分割
在圖像分割領(lǐng)域,SaliencyCut算法是對(duì)GrabCut算法的一種改進(jìn)。GrabCut算法需要用戶在圖像中框選出所要分割的目標(biāo),而SaliencyCut算法則利用顯著性檢測(cè)來(lái)理解用戶期待的目標(biāo)區(qū)域,從而不需要人工參與就能自動(dòng)選擇目標(biāo)區(qū)域??梢钥闯觯琒aliencyCut算法與本發(fā)明有著類(lèi)似的思想,均使用了顯著性檢測(cè)來(lái)理解和獲取用戶的目標(biāo)。不同的是,SaliencyCut算法使用了RC顯著性檢測(cè)算法,而本發(fā)明使用了效率更高的HS顯著性檢測(cè)算法。SaliencyCut算法實(shí)現(xiàn)步驟如下。
2.1、興趣區(qū)域初始化
SaliencyCut算法首先對(duì)圖像進(jìn)行顯著性檢測(cè),然后利用顯著圖來(lái)生成一個(gè)不完全的三值圖(0表示背景像素,128表示未知像素,255表示目標(biāo)像素)。顯著性值低于閾值的像素被認(rèn)為背景像素,其余像素被認(rèn)為可能是目標(biāo)像素,也有可能是背景像素,對(duì)應(yīng)于三值圖中的未知像素。此時(shí)三值圖中值為255的像素個(gè)數(shù)為0,之后值為128的像素可被賦為255,因此此處三值圖為不完全的三值圖。初始三值圖中的背景像素用來(lái)訓(xùn)練背景顏色模型,未知像素用來(lái)訓(xùn)練前景顏色模型。在生成不完全的三值圖時(shí),此算法將置信度非常高的非顯著性區(qū)域中的像素作為背景像素。在利用HS算法計(jì)算得到的顯著圖生成三值圖時(shí),如果將所有的顯著性值歸一化到[0,255]范圍內(nèi),這個(gè)閾值為70。
2.2、興趣區(qū)域分割
初始化步驟完成后,SaliencyCut算法迭代地調(diào)用了GrabCut算法來(lái)改進(jìn)興趣區(qū)域的分割結(jié)果(一般最多迭代4次)。每次迭代后,分別對(duì)分割結(jié)果使用膨脹和腐蝕操作來(lái)得到新的三值圖以進(jìn)行下一次迭代。膨脹后仍然落在外面的區(qū)域像素設(shè)成背景像素,腐蝕后仍然落在區(qū)域內(nèi)的像素設(shè)為前景像素,其余像素為三值圖中的未知像素。此時(shí),背景像素用來(lái)訓(xùn)練背景顏色模型,前景像素用來(lái)訓(xùn)練前景顏色模型。SaliencyCut算法流程圖如圖2所示。
3、興趣目標(biāo)的特征提取
在應(yīng)用HS算法和SaliencyCut算法理解和獲取用戶的興趣目標(biāo)后,為了對(duì)其進(jìn)行描述,本發(fā)明考慮和比較了若干不同圖像特征,最后使用HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征相結(jié)合的方式從多個(gè)不同的角度去描述興趣目標(biāo)。下面首先給出以上三種特征的提取細(xì)節(jié),然后融合這些特征進(jìn)行圖像相似度計(jì)算。
3.1、興趣目標(biāo)的HSV顏色特征
由于RGB顏色空間與人眼的感知差異較大,因此本文采用更符合人眼感知特性的HSV顏色空間。首先根據(jù)興趣目標(biāo)分割結(jié)果,保留興趣目標(biāo)區(qū)域的像素;接著將興趣目標(biāo)中所有像素的(r,g,b)值轉(zhuǎn)換為(h,s,v)值,并將HSV顏色空間量化成10×8×3=240種顏色;最后用歸一化的240維HSV顏色直方圖描述興趣目標(biāo)的顏色特征。實(shí)驗(yàn)結(jié)果表明,在比較興趣目標(biāo)的顏色直方圖時(shí),應(yīng)用HSV顏色特征能夠有效地描述與識(shí)別興趣目標(biāo)。
3.2興趣目標(biāo)的SIFT特征
鑒于SIFT特征的優(yōu)良特性,本發(fā)明提取出興趣目標(biāo)的SIFT局部特征。首先采用DoG,Hessian-affine等檢測(cè)器檢測(cè)出圖像中穩(wěn)定的關(guān)鍵點(diǎn),并且根據(jù)興趣目標(biāo)分割結(jié)果保留興趣目標(biāo)區(qū)域的關(guān)鍵點(diǎn);然后用128維向量描述興趣目標(biāo)區(qū)域內(nèi)每個(gè)關(guān)鍵點(diǎn)周?chē)?6×16區(qū)域的信息。本發(fā)明在獨(dú)立的數(shù)據(jù)集上訓(xùn)練得到20k的視覺(jué)詞典,隨之將每個(gè)SIFT特征通過(guò)最近鄰算法量化成視覺(jué)單詞。為了提高召回率,本文采用多分配方法;為了提高精確度,本繁忙采用漢明嵌入,rootSIFT[25]和IDF[2],最終建立一個(gè)標(biāo)準(zhǔn)的倒排索引,并利用投票機(jī)制進(jìn)行檢索。在對(duì)目標(biāo)相同背景不同的圖像進(jìn)行匹配時(shí),利用SIFT特征,能夠有效去除由于背景干擾而產(chǎn)生的錯(cuò)配對(duì);對(duì)于背景相同目標(biāo)不同的兩幅圖像,雖然在背景區(qū)域能夠產(chǎn)生大量匹配對(duì),但由于本發(fā)明關(guān)注的是目標(biāo)部分,所以背景區(qū)域的匹配對(duì)應(yīng)該給予剔除。
3.3、興趣目標(biāo)的CNN特征
卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeural Network,CNN)是一種多層神經(jīng)網(wǎng)絡(luò)模型。在底層,提取的特征較原始,層次越高,提取的特征越抽象,在高層已經(jīng)是一種語(yǔ)義組合。這種網(wǎng)絡(luò)結(jié)構(gòu)提取的特征對(duì)平移變換、旋轉(zhuǎn)變換、仿射變換等具有高度不變性。為了提取興趣目標(biāo)的語(yǔ)義特征,本發(fā)明根據(jù)興趣目標(biāo)的分割結(jié)果,用一個(gè)矩形框包含興趣目標(biāo)并將其剪切出來(lái),然后利用MatConvNet工具提取興趣目標(biāo)的4096維的CNN特征向量,并對(duì)該特征向量進(jìn)行歸一化。仿真實(shí)驗(yàn)表明,提取剪切后興趣目標(biāo)的特征比提取整體圖像的特征更能夠描述圖像的目標(biāo)部分。
3.4、基于興趣目標(biāo)的圖像相似度計(jì)算
本發(fā)明使用加權(quán)的特征距離計(jì)算查詢圖像Q和數(shù)據(jù)庫(kù)中每一幅圖像I之間的相似度,然后按照相似度由大到小的順序返回圖像檢索結(jié)果。
記Sh(Q,I)為兩幅圖像興趣目標(biāo)的HSV顏色直方圖相似度,計(jì)算如下:
其中,N為直方圖區(qū)間數(shù)。
記Ss(Q,I)為兩幅圖像的興趣目標(biāo)區(qū)域SIFT匹配數(shù)的得分,匹配點(diǎn)的數(shù)目越多,該得分越高,計(jì)算如下:
其中表示圖像Q和I中SIFT特征,表示兩SIFT特征的匹配函數(shù),匹配則為1,不匹配則為0,idf表示倒排文檔頻率,||Q||2表示詞頻的歐式范數(shù)。
記Sc(Q,I)為兩幅圖像興趣目標(biāo)的CNN特征相似度,采用余弦距離度量,計(jì)算如下:
多個(gè)特征相似度得分的融合策略有加法、乘法、最大值、最小值法則等?;谝韵聝蓚€(gè)原因,本發(fā)明采用乘法法則。第一,前人工作證實(shí)乘法法則有不低于加法法則的性能;第二,使用乘法法則時(shí),不同意義的特征組合不需要進(jìn)行外部特征歸一化。
基于以上三種特征相似度得分以及乘法法則融合策略,查詢圖像Q和數(shù)據(jù)庫(kù)中的圖像I之間的相似度定義為
其中wh,ws,wc為上述3個(gè)特征對(duì)應(yīng)的權(quán)值,滿足wh+ws+wc=1?;诜抡鎸?shí)驗(yàn)結(jié)果,這些參數(shù)默認(rèn)值取為wh=0.2,ws=0.1,wc=0.7.值得一提的是,可以通過(guò)對(duì)數(shù)運(yùn)算操作將式(10)轉(zhuǎn)化為加法形式以減小計(jì)算復(fù)雜度。
4、實(shí)驗(yàn)結(jié)果及分析
4.1、實(shí)驗(yàn)數(shù)據(jù)庫(kù)選擇
目前用于測(cè)試圖像檢索算法的常用數(shù)據(jù)庫(kù)包括Ukbench、Holidays、Corel-10k、Caltech256等數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)中圖像的內(nèi)容一般填滿整幅圖像區(qū)域,主要用來(lái)測(cè)試現(xiàn)有基于整體圖像的檢索算法在旋轉(zhuǎn)不變性、仿射不變性、光照不變性及其他條件下的穩(wěn)定性,或測(cè)試算法在語(yǔ)義方面的描述能力。
由于本發(fā)明基于興趣目標(biāo)來(lái)完成圖像檢索任務(wù),為了展示和評(píng)估其性能,本發(fā)明選擇了更符合問(wèn)題背景的SIVAL圖像數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)之前主要用于測(cè)試多示例學(xué)習(xí)算法的性能,并可以進(jìn)一步用于測(cè)試基于多示例學(xué)習(xí)的圖像檢索算法。這個(gè)數(shù)據(jù)庫(kù)共由1500幅圖像組成,分為25類(lèi),每類(lèi)60幅圖像,同類(lèi)圖像均含有一個(gè)相同的目標(biāo),但其背景具有高度多樣性,且目標(biāo)的空間位置、尺度大小、光照等在不同的圖像中也會(huì)發(fā)生很大的變化。數(shù)據(jù)庫(kù)將目標(biāo)相同的圖像歸為一類(lèi),因此檢索時(shí)需要忽略圖像背景而關(guān)注對(duì)目標(biāo)的描述和識(shí)別。圖3展示了SIVAL數(shù)據(jù)庫(kù)的部分樣例。
對(duì)于Ukbench、Holidays、Corel-10k、Caltech256等常用數(shù)據(jù)庫(kù),若在顯著性檢測(cè)步驟能夠?qū)D像整體當(dāng)作顯著性區(qū)域,則本發(fā)明所提出的檢索模型和現(xiàn)有的圖像檢索模型是等效的。但在實(shí)際執(zhí)行檢索時(shí),由于當(dāng)前的顯著性檢測(cè)技術(shù)并不傾向于將大塊圖像區(qū)域當(dāng)作顯著性目標(biāo),本發(fā)明的效率會(huì)受到影響,此時(shí)可通過(guò)改進(jìn)顯著性檢測(cè)機(jī)理或在本發(fā)明的框架外增加視覺(jué)注意力引導(dǎo)步驟來(lái)保證最終的檢索效果。
4.2評(píng)估指標(biāo)
評(píng)估圖像檢索性能主要有兩個(gè)指標(biāo):查準(zhǔn)率(Precision)和查全率(Recall)。查準(zhǔn)率是指系統(tǒng)返回的查詢結(jié)果中同類(lèi)圖像的數(shù)目占返回的圖像數(shù)目的百分比;查全率是指系統(tǒng)返回的查詢結(jié)果中同類(lèi)圖像的數(shù)目占整個(gè)圖像數(shù)據(jù)庫(kù)中同類(lèi)圖像數(shù)目的百分比。F-度量(F-Measure)為這兩個(gè)指標(biāo)的調(diào)和平均數(shù),是對(duì)查準(zhǔn)率和查全率綜合性能的評(píng)估。查準(zhǔn)率P,查全率R以及F-度量具體計(jì)算方法如下:
其中IN為檢索返回的同類(lèi)圖像數(shù)目,N為檢索返回的圖像數(shù)目,M為數(shù)據(jù)庫(kù)中所包含的同類(lèi)圖像數(shù)目(包括檢索返回的和沒(méi)有檢索出來(lái)的同類(lèi)圖像)。參數(shù)β權(quán)衡查準(zhǔn)率和查全率之間的重要性,由于圖像檢索中查準(zhǔn)率和查全率同樣重要,因此,β2一般設(shè)定為1。
若用X軸表示查全率,Y軸表示查準(zhǔn)率,在設(shè)定好返回圖像的數(shù)目時(shí),可得到查準(zhǔn)率-查全率(Precision-Recall,PR)曲線。若用X軸表示返回的圖像數(shù)目,Y軸表示F-得分,則可以得到F-度量曲線。
4.3不同顯著性檢測(cè)算法的比較
驗(yàn)證一個(gè)顯著性檢測(cè)算法的性能最簡(jiǎn)單的方法是設(shè)置一個(gè)閾值Tf∈[0,255]對(duì)算法產(chǎn)生的顯著圖進(jìn)行二值化,從而得到興趣目標(biāo)的二值分割。為了全面地比較各種顯著性檢測(cè)算法凸顯興趣目標(biāo)的好壞,閾值Tf從0到255動(dòng)態(tài)地變化。根據(jù)二值化顯著圖與手工標(biāo)注的目標(biāo)顯著性區(qū)域進(jìn)行比較來(lái)評(píng)估,評(píng)估準(zhǔn)則采用檢測(cè)精度-召回率(Precision-Recall,PR)曲線。檢測(cè)精度表示顯著性檢測(cè)算法檢測(cè)出的目標(biāo)前景區(qū)域包含的真正的有效前景目標(biāo)的比例,反映的是顯著性檢測(cè)算法檢測(cè)前景目標(biāo)的準(zhǔn)確率;召回率表示顯著性檢測(cè)算法檢測(cè)出的真正有效的前景區(qū)域與圖像中實(shí)際的目標(biāo)前景區(qū)域之間的比例,反映的是顯著性檢測(cè)算法檢測(cè)出有效前景區(qū)域的完整性。
圖4展示了本發(fā)明所采用HS算法結(jié)合SaliencyCut算法提取興趣目標(biāo)的結(jié)果,圖4(a)為輸入圖像,圖4(b)為HS算法檢測(cè)得到的顯著圖,圖4(c)是基于顯著圖分割出興趣目標(biāo)的結(jié)果,圖4(d)是人工標(biāo)注的興趣目標(biāo)區(qū)域??梢钥闯觯罱K的顯著性區(qū)域均可以有效指向興趣目標(biāo)。
圖5給出了HS算法與其他4種顯著性檢測(cè)算法(IT,SR,HFT,RC)在SIVAL數(shù)據(jù)庫(kù)上的性能表現(xiàn)??梢钥闯?,HS算法能夠取得最佳的效果。在具體細(xì)節(jié)上,由IT算法生成的顯著圖雖然可以得到興趣目標(biāo)的位置,但興趣目標(biāo)的尺寸和范圍無(wú)法確定,獲取的區(qū)域中往往包含大量的背景區(qū)域;SR算法關(guān)注的是圖像特征變化比較劇烈的部分,因此對(duì)紋理不豐富、對(duì)比不明顯的圖像提取顯著圖效果較差;HFT算法是在頻域上對(duì)圖像的振幅譜進(jìn)行尺度空間分析,并重組分析后的振幅譜、相位譜和能量譜,因此該算法檢測(cè)出來(lái)的顯著性區(qū)域常會(huì)出現(xiàn)空心化;RC算法考慮的是空間加權(quán)和區(qū)域的全局對(duì)比度因素,對(duì)背景比較復(fù)雜的圖像效果也不好。綜上,本發(fā)明選擇HS算法來(lái)完成對(duì)圖像的顯著性檢測(cè)。
4.4、基于顯著圖的不同分割方法比較
基于顯著圖分割出興趣目標(biāo)的傳統(tǒng)方法是設(shè)定一個(gè)經(jīng)驗(yàn)閾值Tf∈[0,255]對(duì)顯著圖進(jìn)行二值化。該方法稱為固定閾值分割法(Fixed Threshold Cut,F(xiàn)TC)。另一種傳統(tǒng)方法是自動(dòng)閾值分割法(Automatic Threshold Cut,ATC)。圖6給出了SaliencyCut算法與以上兩種閾值分割算法的比較結(jié)果.分割效果的評(píng)估采用精度(Precision),召回率(Recall),F(xiàn)-度量這三項(xiàng)指標(biāo)。本實(shí)施例中,由于分割精度和召回率對(duì)興趣目標(biāo)的特征提取同樣重要,因而式(11)中的β2設(shè)為1。
4.5基于興趣目標(biāo)與基于整體圖像的檢索效果比較
興趣目標(biāo)的每一種特征都可以單獨(dú)用于匹配檢索。為了展現(xiàn)基于興趣目標(biāo)的檢索算法的優(yōu)越性,本發(fā)明分別提取整體圖像和興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征。對(duì)于不同特征,分別比較基于興趣目標(biāo)的檢索算法和基于整體圖像的檢索算法。SIVAL數(shù)據(jù)庫(kù)上每一幅圖像都作為查詢圖像,并將所有的查詢結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算。圖7給出了檢索效果的PR曲線圖。可以看出,對(duì)于不同特征,基于興趣目標(biāo)的檢索算法都能夠大幅度提升檢索效果。相比于SIFT特征和CNN特征,HSV特征對(duì)檢索效果提升的幅度稍低。這是因?yàn)轭伾卣魅菀资艿焦庹铡⒃肼暤纫蛩赜绊?,并且圖像庫(kù)中某些不同類(lèi)別的顏色比較相似,而有些類(lèi)別類(lèi)內(nèi)的顏色差異卻較大。CNN語(yǔ)義特征和SIFT局部特征都具有優(yōu)秀的區(qū)分力,在去除圖像背景區(qū)域的影響后,對(duì)興趣目標(biāo)的檢索性能均得到了較大提升。
4.6多特征組合與單一特征檢索效果比較
單一的特征可能在某些樣本上效果比較好,但在另外一些樣本上效果會(huì)變差。為此,一般通過(guò)多特征組合的方式來(lái)進(jìn)行圖像檢索。為了研究不同特征組合的貢獻(xiàn),本發(fā)明分別提取圖像中興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征,并且比較這三種特征以及它們組合特征的檢索效果。從圖8中可以得出兩個(gè)主要結(jié)論:1)僅僅使用單一特征很難獲得較好的檢索效果.在本實(shí)施例中,CNN特征和SIFT特征的檢索效果相當(dāng),優(yōu)于HSV特征;2)兩個(gè)或者三個(gè)特征的組合,會(huì)明顯提高檢索效果,CNN特征和SIFT特征組合的檢索效果比其他兩兩特征組合的效果要好,三個(gè)特征相組合的檢索效果達(dá)到最佳。
4.7、本發(fā)明與現(xiàn)有檢索算法的比較
依據(jù)4.6節(jié)的實(shí)驗(yàn)結(jié)果與分析,本實(shí)施例選取HSV,SIFT,CNN三種特征的聯(lián)合形式來(lái)描述興趣目標(biāo),然后通過(guò)相似度計(jì)算完成基于興趣目標(biāo)的圖像檢索。為了可客觀地測(cè)評(píng)本發(fā)明,本實(shí)施例提取整體圖像的HSV特征、SIFT特征、CNN特征,并將這三種特征的聯(lián)合形式來(lái)描述整體圖像,從而實(shí)現(xiàn)了一種基于整體圖像的基準(zhǔn)檢索方法。圖9展示了本發(fā)明和基準(zhǔn)算法的檢索樣例,對(duì)檢索結(jié)果的觀察可以看出,在返回的前28張圖像中,本發(fā)明檢索出的圖像中的興趣目標(biāo)均與查詢圖像中的興趣目標(biāo)(花盆)相同,見(jiàn)圖9(a)所示,而基準(zhǔn)算法檢索出的圖像均在背景上(藍(lán)色椅子)與查詢圖像相同,見(jiàn)圖9(b)所示??梢?jiàn),基準(zhǔn)算法無(wú)助于解決用戶的實(shí)際問(wèn)題。
為了進(jìn)一步評(píng)估本發(fā)發(fā)明的性能,本實(shí)施例遴選了如下的檢索算法作參照:1)HE算法。該算法在局部圖像描述子中融入了漢明嵌入,并采用投票機(jī)制進(jìn)行圖像匹配檢索;2)c-MI算法。該算法在基于詞袋的圖像檢索模型中加入了局部顏色特征,在對(duì)圖像中關(guān)鍵點(diǎn)進(jìn)行匹配時(shí),不僅需要SIFT特征匹配,同時(shí)也需要局部顏色特征匹配;3)CDH算法。該算法融合了圖像的邊緣方向信息、顏色信息、顏色差異信息以及空間布局信息,形成了一種新的視覺(jué)特征描述符,并以此來(lái)進(jìn)行圖像檢索;4)MSD算法。該算法融合了圖像的顏色信息、紋理信息、形狀信息和顏色布局信息,生成了一種稱作微結(jié)構(gòu)的圖像特征描述符;5)SSH算法。該算法在對(duì)圖像的顏色信息、亮度信息和邊緣方向信息進(jìn)行描述時(shí),融入了視覺(jué)注意內(nèi)核和神經(jīng)元的方向選擇機(jī)制,提出了一種新的圖像特征描述符,稱為顯著性結(jié)構(gòu)直方圖。
圖10給出了本發(fā)明與比較算法的PR曲線圖和F-度量曲線圖??梢钥闯?,本發(fā)明的效果明顯高于其他算法及基準(zhǔn)算法。分析這些比較算法可知,這些算法都是提取整體圖像的特征,在進(jìn)行檢索時(shí),檢索效果都嚴(yán)重受到了背景的干擾。而本發(fā)明先采用HS算法結(jié)合SaliencyCut算法來(lái)理解和獲取用戶的興趣目標(biāo),并且僅針對(duì)興趣目標(biāo)進(jìn)行特征描述.選取的HSV特征、SIFT特征和CNN特征的描述力較強(qiáng),且這三種特征均具有旋轉(zhuǎn)不變性、仿射不變性等特性。因而本發(fā)明能夠較好地解決“這是什么東西”這類(lèi)檢索任務(wù),彌補(bǔ)了現(xiàn)有的圖像檢索算法的不足。
5、結(jié)論
在用戶使用現(xiàn)有的圖像搜索引擎查詢一幅圖像時(shí),通常是想識(shí)別圖像中他們所感興趣的目標(biāo)或者返回與興趣目標(biāo)相關(guān)的圖像。然而,當(dāng)前圖像檢索算法大多根據(jù)整體圖像的特征來(lái)設(shè)計(jì),很難滿足這種需求。特別地,當(dāng)圖像中興趣目標(biāo)比較小時(shí),即便根據(jù)語(yǔ)義特征來(lái)檢索也不能有效解決用戶的問(wèn)題。為此,本發(fā)明提出的基于興趣目標(biāo)的圖像檢索方法,首先以圖像顯著性檢測(cè)來(lái)理解用戶的興趣目標(biāo),這是因?yàn)橛脩粢话銜?huì)有意識(shí)地將其所關(guān)注的目標(biāo)以顯眼的方式來(lái)呈現(xiàn);接著結(jié)合基于顯著性的分割算法分割出該興趣目標(biāo);然后針對(duì)興趣目標(biāo)提取特征;最后將其與數(shù)據(jù)庫(kù)圖像進(jìn)行相似度計(jì)算并根據(jù)相似度排序返回檢索結(jié)果。通過(guò)仿真實(shí)驗(yàn),本發(fā)明分析與比較了各種特征以及組合特征的檢索效果,最終遴選了興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征,并以這些特征的組合形式進(jìn)行基于興趣目標(biāo)的圖像檢索。在測(cè)試數(shù)據(jù)庫(kù)選擇方面,選擇了更符合問(wèn)題背景的SIVAL數(shù)據(jù)庫(kù)。在不同特征相似度得分進(jìn)行融合時(shí),采用了乘法法則融合策略。實(shí)驗(yàn)結(jié)果表明,本發(fā)明提出的檢索算法與基于整體圖像的檢索算法相比,在解決興趣目標(biāo)識(shí)別的任務(wù)上具有更佳的性能。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并不用于限制本發(fā)明,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。