基于興趣目標(biāo)的圖像檢索方法與流程

文檔序號(hào)：11155235閱讀：618來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于多媒體信息檢索、模式識(shí)別等智能信息處理領(lǐng)域，尤其涉及一種基于興趣目標(biāo)的圖像檢索方法。

背景技術(shù)：

智能手機(jī)、數(shù)碼相機(jī)等便攜式圖像捕獲設(shè)備的普及以及微信、微博等數(shù)據(jù)共享平臺(tái)的流行，導(dǎo)致網(wǎng)絡(luò)上圖像數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)海量的圖像數(shù)據(jù)，傳統(tǒng)人工標(biāo)注的圖像檢索方式已無(wú)法應(yīng)對(duì)。基于內(nèi)容的圖像檢索逐漸成為科學(xué)研究的熱點(diǎn)，圖像檢索技術(shù)的相關(guān)應(yīng)用也得到了發(fā)展。

在當(dāng)前圖像檢索模型與相應(yīng)構(gòu)建的圖像搜索引擎中，通常針對(duì)整體圖像來(lái)提取圖像的底層特征。從技術(shù)角度來(lái)說(shuō)，這一做法是自然的，而從應(yīng)用角度來(lái)說(shuō)則可能無(wú)法滿足人們的實(shí)際需求。即，如果用戶僅僅對(duì)圖像中的特定目標(biāo)物體感興趣，此時(shí)從整體圖像提取的特征一部分是有效的，而另一部分則是無(wú)效的且會(huì)對(duì)查詢結(jié)果帶來(lái)消極影響。

顯著性檢測(cè)是圖像分析與理解領(lǐng)域另一個(gè)重要分支，其主要任務(wù)是模擬人眼視覺(jué)注意選擇機(jī)制，檢測(cè)出圖像中密度、顏色、形狀等與周?chē)鷧^(qū)域有顯著差異的區(qū)域。當(dāng)進(jìn)行“這是什么東西”這類(lèi)查詢?nèi)蝿?wù)時(shí)，我們以圖像顯著性檢測(cè)來(lái)理解用戶的興趣目標(biāo)。一個(gè)理想的顯著性檢測(cè)模型能夠像人類(lèi)視覺(jué)系統(tǒng)一樣快速定位出復(fù)雜場(chǎng)景中最重要的視覺(jué)信息.近年來(lái)，人們提出了各種顯著性檢測(cè)算法.Itti等人提出了一種基于生物啟發(fā)模型和特征整合理論的視覺(jué)顯著性檢測(cè)算法(IT算法).該算法分別在圖像顏色、亮度、方向特征圖中，按照贏者通吃的顯著性競(jìng)爭(zhēng)準(zhǔn)則，保留局部最為突出的位置，最后將所有特征圖組合成最終的顯著圖。Hou和Zhang等人提出了一種基于頻譜殘差的圖像顯著性檢測(cè)算法(SR算法)，該算法通過(guò)分析輸入圖像的對(duì)數(shù)譜，從圖像的頻域提取普殘差，并在對(duì)應(yīng)的空間域構(gòu)建顯著性圖。Li等人提出了一種頻域圖像顯著性檢測(cè)算法(HFT算法)，該算法基于超復(fù)數(shù)傅里葉變換，利用頻譜尺度空間技術(shù)進(jìn)行圖像顯著性區(qū)域檢測(cè)。Cheng等人提出了一種同時(shí)使用空間加權(quán)和區(qū)域的全局對(duì)比度的顯著性區(qū)域檢測(cè)算法(RC算法)。Yan等人提出了一種分層顯著性區(qū)域檢測(cè)算法(HS算法)。除此之外，還有很多其他顯著性檢測(cè)算法。

此前，研究者已經(jīng)嘗試過(guò)將視覺(jué)注意機(jī)制融入到圖像檢索框架中。Fu等人提出了基于注意力驅(qū)動(dòng)的圖像檢索系統(tǒng)，該方法通過(guò)最大化一個(gè)全局注意函數(shù)，以一個(gè)迭代方式將顯著物體從背景中分離出來(lái)，并賦予較高的注意值；檢索時(shí)，只比較注意值較高的目標(biāo)物體。Liu等人提出了一種利用顯著性結(jié)構(gòu)直方圖描述圖像的方法。該方法融入視覺(jué)注意內(nèi)核和神經(jīng)元的方向選擇性機(jī)制，以此來(lái)提高檢索系統(tǒng)的準(zhǔn)確性。然而，在Fu等人提出其算法時(shí)，人們對(duì)顯著性檢測(cè)問(wèn)題的理解還不夠完善，相關(guān)技術(shù)效率較低，并且該算法所提取的圖像特征僅包括顏色和紋理，在描述目標(biāo)時(shí)區(qū)分力不夠，從而導(dǎo)致圖像檢索效率低下。Liu等人的算法介于基于整體圖像的檢索和基于興趣目標(biāo)的檢索之間，可以解決目標(biāo)類(lèi)似(權(quán)重較高)同時(shí)背景類(lèi)似(權(quán)重較低)的圖像檢索任務(wù)。該算法從功能上來(lái)說(shuō)與現(xiàn)有的圖像檢索引擎的表現(xiàn)類(lèi)似。實(shí)際上，如果用戶所感興趣的是圖像中的特定目標(biāo)，此時(shí)是無(wú)需考慮目標(biāo)背景特征的。

有鑒于上述的缺陷，本設(shè)計(jì)人，積極加以研究創(chuàng)新，結(jié)合顯著性檢測(cè)與圖像分割領(lǐng)域最新研究成果，實(shí)現(xiàn)一種基于用戶興趣目標(biāo)的圖像檢索方法，以解決“這是什么東西”這類(lèi)圖像檢索任務(wù)。

技術(shù)實(shí)現(xiàn)要素：

為解決上述技術(shù)問(wèn)題，本發(fā)明的目的是提供一種基于興趣目標(biāo)的圖像檢索方法，僅在興趣目標(biāo)區(qū)域提取特征，以有效地抑制背景對(duì)檢索結(jié)果的影響，提高檢索的查全率和查準(zhǔn)率。

本發(fā)明的基于興趣目標(biāo)的圖像檢索方法，包括以下步驟：

(1)依據(jù)HS顯著性檢測(cè)算法分析用戶的興趣目標(biāo)，結(jié)合SaliencyCut算法分割出興趣目標(biāo)；

(2)對(duì)用戶的興趣目標(biāo)提取HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征；

(3)將提取的興趣目標(biāo)的特征與數(shù)據(jù)庫(kù)圖像進(jìn)行特征相似度匹配，并根據(jù)相似度排序得到基于興趣目標(biāo)的檢索結(jié)果。

進(jìn)一步的，所述數(shù)據(jù)庫(kù)為：對(duì)圖像數(shù)據(jù)庫(kù)中所有的圖像進(jìn)行顯著性檢測(cè)并分割出興趣目標(biāo)，然后在興趣目標(biāo)區(qū)域提取特征，所有圖像的興趣目標(biāo)區(qū)域的特征組成的特征數(shù)據(jù)庫(kù)。

進(jìn)一步的，所述HS顯著性檢測(cè)算法首先提取輸入圖像不同尺度的圖像層，然后計(jì)算每張圖像層的顯著性線索，最后利用圖模型將每層的顯著性線索融合成一張顯著圖。

進(jìn)一步的，通過(guò)樹(shù)結(jié)構(gòu)的所述圖模型進(jìn)行分層推理，實(shí)現(xiàn)對(duì)所有線索圖的融合，將每層的顯著性線索融合成一張顯著圖。

進(jìn)一步的，所述SaliencyCut算法首先利用所述顯著圖來(lái)生成一個(gè)不完全的三值圖，然后迭代地調(diào)用GrabCut算法來(lái)改進(jìn)興趣區(qū)域的分割結(jié)果，每次迭代后，分別對(duì)分割結(jié)果使用膨脹和腐蝕操作來(lái)得到新的三值圖以進(jìn)行下一次迭代。

進(jìn)一步的，迭代次數(shù)小于等于4次。

進(jìn)一步的，HSV顏色特征的提取，首先根據(jù)興趣目標(biāo)分割結(jié)果，保留興趣目標(biāo)區(qū)域的像素，接著將興趣目標(biāo)中所有像素的(r,g,b)值轉(zhuǎn)換為(h,s,v)值，并將HSV顏色空間量化成240種顏色，最后用歸一化的240維HSV顏色直方圖描述興趣目標(biāo)的顏色特征。

進(jìn)一步的，SIFT局部特征的提取，首先采用DoG或Hessian-affine檢測(cè)器檢測(cè)出圖像中穩(wěn)定的關(guān)鍵點(diǎn)，并且根據(jù)興趣目標(biāo)分割結(jié)果保留興趣目標(biāo)區(qū)域的關(guān)鍵點(diǎn)，然后用128維向量描述興趣目標(biāo)區(qū)域內(nèi)每個(gè)關(guān)鍵點(diǎn)周?chē)?6×16區(qū)域的信息。

進(jìn)一步的，在利用SIFT局部特征進(jìn)行特征相似度匹配時(shí)，將訓(xùn)練得到的視覺(jué)詞典，采用多分配方法，將每個(gè)SIFT特征通過(guò)最近鄰算法量化成視覺(jué)單詞，然后采用漢明嵌入、rootSIFT和IDF方法，最終建立一個(gè)標(biāo)準(zhǔn)的倒排索引，并利用投票機(jī)制進(jìn)行檢索。

進(jìn)一步的，CNN語(yǔ)義特征的提取，根據(jù)興趣目標(biāo)的分割結(jié)果，用一個(gè)矩形框包含興趣目標(biāo)并將其剪切出來(lái)，然后利用MatConvNet工具提取興趣目標(biāo)的4096維的CNN特征向量，并對(duì)該特征向量進(jìn)行歸一化。

進(jìn)一步的，所述步驟(3)中使用加權(quán)的特征距離計(jì)算查詢圖像和數(shù)據(jù)庫(kù)中每一幅圖像之間的相似度，然后按照相似度由大到小的順序返回圖像檢索結(jié)果。

借由上述方案，本發(fā)明通過(guò)僅在興趣目標(biāo)區(qū)域提取特征的做法，可以有效抑制背景對(duì)檢索結(jié)果的影響，提高檢索的查全率和查準(zhǔn)率。

上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施，以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。

附圖說(shuō)明

圖1是本發(fā)明流程圖；

圖2是本發(fā)明中SaliencyCut算法流程圖；

圖3是為本發(fā)明采用的SIVAL數(shù)據(jù)庫(kù)的樣例圖像；

圖4是結(jié)合HS算法和SaliencyCut算法提取興趣目標(biāo)的結(jié)果：(a)輸入圖像，(b)顯著圖，(c)興趣目標(biāo)分割結(jié)果，(d)人工標(biāo)注的興趣目標(biāo)；

圖5是不同顯著性檢測(cè)算法的結(jié)果比較，其中HS為本文所采用的算法；

圖6是不同的顯著圖分割方法的比較；

圖7是基于興趣目標(biāo)與基于整體圖像的檢索效果比較：(a)關(guān)于HSV特征的比較，(b)關(guān)于SIFT特征的比較，(c)關(guān)于CNN特征的比較；

圖8為不同特征相結(jié)合檢索效果的比較：(a)PR曲線，(b)F-度量曲線；

圖9為本發(fā)明和基準(zhǔn)算法的檢索樣例，最左上的圖像為查詢圖像，(a)為本發(fā)明的檢索結(jié)果，(b)為基準(zhǔn)算法的檢索結(jié)果；

圖10為本發(fā)明與現(xiàn)有其他算法及基準(zhǔn)算法的比較：(a)PR曲線，(b)F-度量曲線。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明，但不用來(lái)限制本發(fā)明的范圍。

本發(fā)明結(jié)合顯著性檢測(cè)與圖像分割領(lǐng)域最新研究成果，實(shí)現(xiàn)一種基于興趣目標(biāo)的圖像檢索方法，并在圖像數(shù)據(jù)庫(kù)上對(duì)所提方法進(jìn)行測(cè)評(píng)。與基于整體圖像的檢索模型及Liu等人提出的檢索模型相比，本發(fā)明解決了用戶不同的檢索任務(wù)；與Fu等人提出的算法相比，本發(fā)明的檢索性能顯著提升。本發(fā)明的檢索方法為：依據(jù)HS顯著性檢測(cè)算法分析用戶的興趣目標(biāo)，結(jié)合SaliencyCut算法分割出興趣目標(biāo)；然后對(duì)用戶的興趣目標(biāo)提取HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征；最后將其與數(shù)據(jù)庫(kù)圖像進(jìn)行特征相似度匹配，并根據(jù)相似度排序得到基于興趣目標(biāo)的檢索結(jié)果.以上僅在興趣目標(biāo)區(qū)域提取特征的做法，可以有效抑制背景對(duì)檢索結(jié)果的影響，提高檢索的查全率和查準(zhǔn)率?；谂d趣目標(biāo)的圖像檢索流程如圖1所示。

1、分層顯著性模型

在對(duì)比常用的顯著性檢測(cè)算法的各方面性能后，本發(fā)明采用HS算法來(lái)理解和獲取用戶的興趣目標(biāo)，該算法首先提取輸入圖像不同尺度的圖像層，然后計(jì)算每張圖像層的顯著性線索，最后利用圖模型將每層的顯著性線索融合成一張顯著圖。

1.1、提取圖像層

圖像層是對(duì)輸入圖像在不同細(xì)節(jié)程度上的描述，不同層對(duì)輸入圖像的表示和結(jié)構(gòu)復(fù)雜度的表現(xiàn)不一樣。圖像層的層數(shù)一般設(shè)定為3層。在第1層，圖像的細(xì)節(jié)盡可能被保留，在第2層，圖像的細(xì)節(jié)消失，顯現(xiàn)出圖像的結(jié)構(gòu)，在第3層，細(xì)節(jié)消失，只剩下大尺度的圖像結(jié)構(gòu)。

為了產(chǎn)生三幅圖像層，首先使用分水嶺分割算法生成一幅初始化的過(guò)分割圖，并計(jì)算每個(gè)分割區(qū)域的尺度值.然后使用一個(gè)迭代程序合并鄰近的分割區(qū)域。如果區(qū)域尺度值小于3，這個(gè)區(qū)域?qū)⒈缓喜⒌阶罱彽膮^(qū)域，隨之更新合并后區(qū)域的尺度值和顏色。當(dāng)所有的區(qū)域都處理完后，將產(chǎn)生第1層區(qū)域圖，第2層區(qū)域圖和第3層區(qū)域圖的產(chǎn)生方式與第1層類(lèi)似，只是尺度閾值更大。

1.2、單層顯著性線索

用于單層顯著性的主要線索包括局部對(duì)比度和啟發(fā)式位置。

1)局部對(duì)比度。與周?chē)伾珜?duì)比度較大的圖像區(qū)域一般更會(huì)吸引人們的關(guān)注?？紤]圖像的兩個(gè)區(qū)域R_i和R_j，其顏色分別記為c_i和c_j。區(qū)域的像素?cái)?shù)目為w(R_j)。記

φ(i,j)＝exp{-D(R_i,R_j)/σ²}

為區(qū)域R_j在空間上對(duì)區(qū)域R_i的顯著性影響程度，其中D(R_i,R_j)表示區(qū)域R_i中心和區(qū)域R_j中心的歐氏距離的平方，參數(shù)σ²控制周?chē)鷧^(qū)域影響范圍。區(qū)域R_i局部對(duì)比度顯著性線索定義如下.

其中n為圖像中區(qū)域的總數(shù)。

2)啟發(fā)式位置。心理學(xué)研究表明人們注意力傾向于圖像中間區(qū)域，因此靠近圖像中心的區(qū)域顯著性更高。記x_c為圖像中心的坐標(biāo)，{x₀,x₁,…}為區(qū)域R_i中像素坐標(biāo)的集合。啟發(fā)式位置模型如下：

為了更好地得到圖像的顯著性，需要融合以上形式線索，形式如下：

其中λ控制位置線索與局部對(duì)比度線索的權(quán)重。λ越大，位置線索權(quán)重越小，一般λ設(shè)置為9。對(duì)每一層計(jì)算完s_i后，即可分別得到初始的顯著圖。

1.3、分層推理

不同層的線索圖揭示的顯著性一般是不一樣的，在底層，產(chǎn)生了分散的顯著區(qū)域，在頂層則保留了大結(jié)構(gòu)的顯著區(qū)域。每層的顯著信息都不一樣，因此單獨(dú)層的線索圖不能夠保證完整的顯著性信息。此外，很難決定哪一層最好。考慮到背景和前景的復(fù)雜性，平均所有線索圖的融合方式也達(dá)不到最好的效果。為此，可以借助樹(shù)結(jié)構(gòu)的圖模型進(jìn)行分層推理，實(shí)現(xiàn)對(duì)所有線索圖的融合。

在第k(k＝1,2,3)層，對(duì)區(qū)域i對(duì)應(yīng)的節(jié)點(diǎn)定義一個(gè)顯著性變量集合S包含所有的顯著性變量。為了分層推理，最小化下面的能量函數(shù)：

其中第二項(xiàng)要求該能量函數(shù)包含兩部分，分別為數(shù)據(jù)項(xiàng)和層次項(xiàng)。數(shù)據(jù)項(xiàng)用來(lái)收集各個(gè)顯著性置信度，對(duì)于每個(gè)節(jié)點(diǎn)定義如下：

其中β^(k)控制層置信度，并且是由式(3)計(jì)算得到的初始化的顯著性值。

層次項(xiàng)控制不同層對(duì)應(yīng)區(qū)域的一致性。E_S定義如下：

其中λ^(k)控制層與層之間的一致性強(qiáng)度。層次項(xiàng)使得不同層對(duì)應(yīng)區(qū)域的顯著性分配更相似，能夠有效地糾正初始顯著性錯(cuò)誤。

式(4)中的能量函數(shù)是一個(gè)簡(jiǎn)單的分層圖模型，采用置信傳播的方法可以實(shí)現(xiàn)最優(yōu)化。當(dāng)能量函數(shù)達(dá)到全局最優(yōu)時(shí)，便可得到最終的顯著圖。

2、興趣目標(biāo)分割

在圖像分割領(lǐng)域，SaliencyCut算法是對(duì)GrabCut算法的一種改進(jìn)。GrabCut算法需要用戶在圖像中框選出所要分割的目標(biāo)，而SaliencyCut算法則利用顯著性檢測(cè)來(lái)理解用戶期待的目標(biāo)區(qū)域，從而不需要人工參與就能自動(dòng)選擇目標(biāo)區(qū)域?？梢钥闯觯琒aliencyCut算法與本發(fā)明有著類(lèi)似的思想，均使用了顯著性檢測(cè)來(lái)理解和獲取用戶的目標(biāo)。不同的是，SaliencyCut算法使用了RC顯著性檢測(cè)算法，而本發(fā)明使用了效率更高的HS顯著性檢測(cè)算法。SaliencyCut算法實(shí)現(xiàn)步驟如下。

2.1、興趣區(qū)域初始化

SaliencyCut算法首先對(duì)圖像進(jìn)行顯著性檢測(cè)，然后利用顯著圖來(lái)生成一個(gè)不完全的三值圖(0表示背景像素，128表示未知像素，255表示目標(biāo)像素)。顯著性值低于閾值的像素被認(rèn)為背景像素，其余像素被認(rèn)為可能是目標(biāo)像素，也有可能是背景像素，對(duì)應(yīng)于三值圖中的未知像素。此時(shí)三值圖中值為255的像素個(gè)數(shù)為0，之后值為128的像素可被賦為255，因此此處三值圖為不完全的三值圖。初始三值圖中的背景像素用來(lái)訓(xùn)練背景顏色模型，未知像素用來(lái)訓(xùn)練前景顏色模型。在生成不完全的三值圖時(shí)，此算法將置信度非常高的非顯著性區(qū)域中的像素作為背景像素。在利用HS算法計(jì)算得到的顯著圖生成三值圖時(shí)，如果將所有的顯著性值歸一化到[0,255]范圍內(nèi)，這個(gè)閾值為70。

2.2、興趣區(qū)域分割

初始化步驟完成后，SaliencyCut算法迭代地調(diào)用了GrabCut算法來(lái)改進(jìn)興趣區(qū)域的分割結(jié)果(一般最多迭代4次)。每次迭代后，分別對(duì)分割結(jié)果使用膨脹和腐蝕操作來(lái)得到新的三值圖以進(jìn)行下一次迭代。膨脹后仍然落在外面的區(qū)域像素設(shè)成背景像素，腐蝕后仍然落在區(qū)域內(nèi)的像素設(shè)為前景像素，其余像素為三值圖中的未知像素。此時(shí)，背景像素用來(lái)訓(xùn)練背景顏色模型，前景像素用來(lái)訓(xùn)練前景顏色模型。SaliencyCut算法流程圖如圖2所示。

3、興趣目標(biāo)的特征提取

在應(yīng)用HS算法和SaliencyCut算法理解和獲取用戶的興趣目標(biāo)后，為了對(duì)其進(jìn)行描述，本發(fā)明考慮和比較了若干不同圖像特征，最后使用HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征相結(jié)合的方式從多個(gè)不同的角度去描述興趣目標(biāo)。下面首先給出以上三種特征的提取細(xì)節(jié)，然后融合這些特征進(jìn)行圖像相似度計(jì)算。

3.1、興趣目標(biāo)的HSV顏色特征

由于RGB顏色空間與人眼的感知差異較大，因此本文采用更符合人眼感知特性的HSV顏色空間。首先根據(jù)興趣目標(biāo)分割結(jié)果，保留興趣目標(biāo)區(qū)域的像素；接著將興趣目標(biāo)中所有像素的(r,g,b)值轉(zhuǎn)換為(h,s,v)值，并將HSV顏色空間量化成10×8×3＝240種顏色；最后用歸一化的240維HSV顏色直方圖描述興趣目標(biāo)的顏色特征。實(shí)驗(yàn)結(jié)果表明，在比較興趣目標(biāo)的顏色直方圖時(shí)，應(yīng)用HSV顏色特征能夠有效地描述與識(shí)別興趣目標(biāo)。

3.2興趣目標(biāo)的SIFT特征

鑒于SIFT特征的優(yōu)良特性，本發(fā)明提取出興趣目標(biāo)的SIFT局部特征。首先采用DoG，Hessian-affine等檢測(cè)器檢測(cè)出圖像中穩(wěn)定的關(guān)鍵點(diǎn)，并且根據(jù)興趣目標(biāo)分割結(jié)果保留興趣目標(biāo)區(qū)域的關(guān)鍵點(diǎn)；然后用128維向量描述興趣目標(biāo)區(qū)域內(nèi)每個(gè)關(guān)鍵點(diǎn)周?chē)?6×16區(qū)域的信息。本發(fā)明在獨(dú)立的數(shù)據(jù)集上訓(xùn)練得到20k的視覺(jué)詞典，隨之將每個(gè)SIFT特征通過(guò)最近鄰算法量化成視覺(jué)單詞。為了提高召回率，本文采用多分配方法；為了提高精確度，本繁忙采用漢明嵌入，rootSIFT^[25]和IDF^[2]，最終建立一個(gè)標(biāo)準(zhǔn)的倒排索引，并利用投票機(jī)制進(jìn)行檢索。在對(duì)目標(biāo)相同背景不同的圖像進(jìn)行匹配時(shí)，利用SIFT特征，能夠有效去除由于背景干擾而產(chǎn)生的錯(cuò)配對(duì)；對(duì)于背景相同目標(biāo)不同的兩幅圖像，雖然在背景區(qū)域能夠產(chǎn)生大量匹配對(duì)，但由于本發(fā)明關(guān)注的是目標(biāo)部分，所以背景區(qū)域的匹配對(duì)應(yīng)該給予剔除。

3.3、興趣目標(biāo)的CNN特征

卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeural Network，CNN)是一種多層神經(jīng)網(wǎng)絡(luò)模型。在底層，提取的特征較原始，層次越高，提取的特征越抽象，在高層已經(jīng)是一種語(yǔ)義組合。這種網(wǎng)絡(luò)結(jié)構(gòu)提取的特征對(duì)平移變換、旋轉(zhuǎn)變換、仿射變換等具有高度不變性。為了提取興趣目標(biāo)的語(yǔ)義特征，本發(fā)明根據(jù)興趣目標(biāo)的分割結(jié)果，用一個(gè)矩形框包含興趣目標(biāo)并將其剪切出來(lái)，然后利用MatConvNet工具提取興趣目標(biāo)的4096維的CNN特征向量，并對(duì)該特征向量進(jìn)行歸一化。仿真實(shí)驗(yàn)表明，提取剪切后興趣目標(biāo)的特征比提取整體圖像的特征更能夠描述圖像的目標(biāo)部分。

3.4、基于興趣目標(biāo)的圖像相似度計(jì)算

本發(fā)明使用加權(quán)的特征距離計(jì)算查詢圖像Q和數(shù)據(jù)庫(kù)中每一幅圖像I之間的相似度，然后按照相似度由大到小的順序返回圖像檢索結(jié)果。

記S_h(Q,I)為兩幅圖像興趣目標(biāo)的HSV顏色直方圖相似度，計(jì)算如下：

其中，N為直方圖區(qū)間數(shù)。

記S_s(Q,I)為兩幅圖像的興趣目標(biāo)區(qū)域SIFT匹配數(shù)的得分，匹配點(diǎn)的數(shù)目越多，該得分越高，計(jì)算如下：

其中表示圖像Q和I中SIFT特征，表示兩SIFT特征的匹配函數(shù)，匹配則為1，不匹配則為0，idf表示倒排文檔頻率，||Q||₂表示詞頻的歐式范數(shù)。

記S_c(Q,I)為兩幅圖像興趣目標(biāo)的CNN特征相似度，采用余弦距離度量，計(jì)算如下：

多個(gè)特征相似度得分的融合策略有加法、乘法、最大值、最小值法則等?；谝韵聝蓚€(gè)原因，本發(fā)明采用乘法法則。第一，前人工作證實(shí)乘法法則有不低于加法法則的性能；第二，使用乘法法則時(shí)，不同意義的特征組合不需要進(jìn)行外部特征歸一化。

基于以上三種特征相似度得分以及乘法法則融合策略，查詢圖像Q和數(shù)據(jù)庫(kù)中的圖像I之間的相似度定義為

其中w_h，w_s，w_c為上述3個(gè)特征對(duì)應(yīng)的權(quán)值，滿足w_h+w_s+w_c＝1?；诜抡鎸?shí)驗(yàn)結(jié)果，這些參數(shù)默認(rèn)值取為w_h＝0.2，w_s＝0.1，w_c＝0.7.值得一提的是，可以通過(guò)對(duì)數(shù)運(yùn)算操作將式(10)轉(zhuǎn)化為加法形式以減小計(jì)算復(fù)雜度。

4、實(shí)驗(yàn)結(jié)果及分析

4.1、實(shí)驗(yàn)數(shù)據(jù)庫(kù)選擇

目前用于測(cè)試圖像檢索算法的常用數(shù)據(jù)庫(kù)包括Ukbench、Holidays、Corel-10k、Caltech256等數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)中圖像的內(nèi)容一般填滿整幅圖像區(qū)域，主要用來(lái)測(cè)試現(xiàn)有基于整體圖像的檢索算法在旋轉(zhuǎn)不變性、仿射不變性、光照不變性及其他條件下的穩(wěn)定性，或測(cè)試算法在語(yǔ)義方面的描述能力。

由于本發(fā)明基于興趣目標(biāo)來(lái)完成圖像檢索任務(wù)，為了展示和評(píng)估其性能，本發(fā)明選擇了更符合問(wèn)題背景的SIVAL圖像數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)之前主要用于測(cè)試多示例學(xué)習(xí)算法的性能，并可以進(jìn)一步用于測(cè)試基于多示例學(xué)習(xí)的圖像檢索算法。這個(gè)數(shù)據(jù)庫(kù)共由1500幅圖像組成，分為25類(lèi)，每類(lèi)60幅圖像，同類(lèi)圖像均含有一個(gè)相同的目標(biāo)，但其背景具有高度多樣性，且目標(biāo)的空間位置、尺度大小、光照等在不同的圖像中也會(huì)發(fā)生很大的變化。數(shù)據(jù)庫(kù)將目標(biāo)相同的圖像歸為一類(lèi)，因此檢索時(shí)需要忽略圖像背景而關(guān)注對(duì)目標(biāo)的描述和識(shí)別。圖3展示了SIVAL數(shù)據(jù)庫(kù)的部分樣例。

對(duì)于Ukbench、Holidays、Corel-10k、Caltech256等常用數(shù)據(jù)庫(kù)，若在顯著性檢測(cè)步驟能夠?qū)D像整體當(dāng)作顯著性區(qū)域，則本發(fā)明所提出的檢索模型和現(xiàn)有的圖像檢索模型是等效的。但在實(shí)際執(zhí)行檢索時(shí)，由于當(dāng)前的顯著性檢測(cè)技術(shù)并不傾向于將大塊圖像區(qū)域當(dāng)作顯著性目標(biāo)，本發(fā)明的效率會(huì)受到影響，此時(shí)可通過(guò)改進(jìn)顯著性檢測(cè)機(jī)理或在本發(fā)明的框架外增加視覺(jué)注意力引導(dǎo)步驟來(lái)保證最終的檢索效果。

4.2評(píng)估指標(biāo)

評(píng)估圖像檢索性能主要有兩個(gè)指標(biāo)：查準(zhǔn)率(Precision)和查全率(Recall)。查準(zhǔn)率是指系統(tǒng)返回的查詢結(jié)果中同類(lèi)圖像的數(shù)目占返回的圖像數(shù)目的百分比；查全率是指系統(tǒng)返回的查詢結(jié)果中同類(lèi)圖像的數(shù)目占整個(gè)圖像數(shù)據(jù)庫(kù)中同類(lèi)圖像數(shù)目的百分比。F-度量(F-Measure)為這兩個(gè)指標(biāo)的調(diào)和平均數(shù)，是對(duì)查準(zhǔn)率和查全率綜合性能的評(píng)估。查準(zhǔn)率P，查全率R以及F-度量具體計(jì)算方法如下：

其中I_N為檢索返回的同類(lèi)圖像數(shù)目，N為檢索返回的圖像數(shù)目，M為數(shù)據(jù)庫(kù)中所包含的同類(lèi)圖像數(shù)目(包括檢索返回的和沒(méi)有檢索出來(lái)的同類(lèi)圖像)。參數(shù)β權(quán)衡查準(zhǔn)率和查全率之間的重要性，由于圖像檢索中查準(zhǔn)率和查全率同樣重要，因此，β²一般設(shè)定為1。

若用X軸表示查全率，Y軸表示查準(zhǔn)率，在設(shè)定好返回圖像的數(shù)目時(shí)，可得到查準(zhǔn)率-查全率(Precision-Recall，PR)曲線。若用X軸表示返回的圖像數(shù)目，Y軸表示F-得分，則可以得到F-度量曲線。

4.3不同顯著性檢測(cè)算法的比較

驗(yàn)證一個(gè)顯著性檢測(cè)算法的性能最簡(jiǎn)單的方法是設(shè)置一個(gè)閾值T_f∈[0,255]對(duì)算法產(chǎn)生的顯著圖進(jìn)行二值化，從而得到興趣目標(biāo)的二值分割。為了全面地比較各種顯著性檢測(cè)算法凸顯興趣目標(biāo)的好壞，閾值T_f從0到255動(dòng)態(tài)地變化。根據(jù)二值化顯著圖與手工標(biāo)注的目標(biāo)顯著性區(qū)域進(jìn)行比較來(lái)評(píng)估，評(píng)估準(zhǔn)則采用檢測(cè)精度-召回率(Precision-Recall，PR)曲線。檢測(cè)精度表示顯著性檢測(cè)算法檢測(cè)出的目標(biāo)前景區(qū)域包含的真正的有效前景目標(biāo)的比例，反映的是顯著性檢測(cè)算法檢測(cè)前景目標(biāo)的準(zhǔn)確率；召回率表示顯著性檢測(cè)算法檢測(cè)出的真正有效的前景區(qū)域與圖像中實(shí)際的目標(biāo)前景區(qū)域之間的比例，反映的是顯著性檢測(cè)算法檢測(cè)出有效前景區(qū)域的完整性。

圖4展示了本發(fā)明所采用HS算法結(jié)合SaliencyCut算法提取興趣目標(biāo)的結(jié)果，圖4(a)為輸入圖像，圖4(b)為HS算法檢測(cè)得到的顯著圖，圖4(c)是基于顯著圖分割出興趣目標(biāo)的結(jié)果，圖4(d)是人工標(biāo)注的興趣目標(biāo)區(qū)域?？梢钥闯觯罱K的顯著性區(qū)域均可以有效指向興趣目標(biāo)。

圖5給出了HS算法與其他4種顯著性檢測(cè)算法(IT，SR，HFT，RC)在SIVAL數(shù)據(jù)庫(kù)上的性能表現(xiàn)?？梢钥闯?，HS算法能夠取得最佳的效果。在具體細(xì)節(jié)上，由IT算法生成的顯著圖雖然可以得到興趣目標(biāo)的位置，但興趣目標(biāo)的尺寸和范圍無(wú)法確定，獲取的區(qū)域中往往包含大量的背景區(qū)域；SR算法關(guān)注的是圖像特征變化比較劇烈的部分，因此對(duì)紋理不豐富、對(duì)比不明顯的圖像提取顯著圖效果較差；HFT算法是在頻域上對(duì)圖像的振幅譜進(jìn)行尺度空間分析，并重組分析后的振幅譜、相位譜和能量譜，因此該算法檢測(cè)出來(lái)的顯著性區(qū)域常會(huì)出現(xiàn)空心化；RC算法考慮的是空間加權(quán)和區(qū)域的全局對(duì)比度因素，對(duì)背景比較復(fù)雜的圖像效果也不好。綜上，本發(fā)明選擇HS算法來(lái)完成對(duì)圖像的顯著性檢測(cè)。

4.4、基于顯著圖的不同分割方法比較

基于顯著圖分割出興趣目標(biāo)的傳統(tǒng)方法是設(shè)定一個(gè)經(jīng)驗(yàn)閾值T_f∈[0,255]對(duì)顯著圖進(jìn)行二值化。該方法稱為固定閾值分割法(Fixed Threshold Cut，F(xiàn)TC)。另一種傳統(tǒng)方法是自動(dòng)閾值分割法(Automatic Threshold Cut，ATC)。圖6給出了SaliencyCut算法與以上兩種閾值分割算法的比較結(jié)果.分割效果的評(píng)估采用精度(Precision)，召回率(Recall)，F(xiàn)-度量這三項(xiàng)指標(biāo)。本實(shí)施例中，由于分割精度和召回率對(duì)興趣目標(biāo)的特征提取同樣重要，因而式(11)中的β²設(shè)為1。

4.5基于興趣目標(biāo)與基于整體圖像的檢索效果比較

興趣目標(biāo)的每一種特征都可以單獨(dú)用于匹配檢索。為了展現(xiàn)基于興趣目標(biāo)的檢索算法的優(yōu)越性，本發(fā)明分別提取整體圖像和興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征。對(duì)于不同特征，分別比較基于興趣目標(biāo)的檢索算法和基于整體圖像的檢索算法。SIVAL數(shù)據(jù)庫(kù)上每一幅圖像都作為查詢圖像，并將所有的查詢結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算。圖7給出了檢索效果的PR曲線圖。可以看出，對(duì)于不同特征，基于興趣目標(biāo)的檢索算法都能夠大幅度提升檢索效果。相比于SIFT特征和CNN特征，HSV特征對(duì)檢索效果提升的幅度稍低。這是因?yàn)轭伾卣魅菀资艿焦庹铡⒃肼暤纫蛩赜绊?，并且圖像庫(kù)中某些不同類(lèi)別的顏色比較相似，而有些類(lèi)別類(lèi)內(nèi)的顏色差異卻較大。CNN語(yǔ)義特征和SIFT局部特征都具有優(yōu)秀的區(qū)分力，在去除圖像背景區(qū)域的影響后，對(duì)興趣目標(biāo)的檢索性能均得到了較大提升。

4.6多特征組合與單一特征檢索效果比較

單一的特征可能在某些樣本上效果比較好，但在另外一些樣本上效果會(huì)變差。為此，一般通過(guò)多特征組合的方式來(lái)進(jìn)行圖像檢索。為了研究不同特征組合的貢獻(xiàn)，本發(fā)明分別提取圖像中興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征，并且比較這三種特征以及它們組合特征的檢索效果。從圖8中可以得出兩個(gè)主要結(jié)論：1)僅僅使用單一特征很難獲得較好的檢索效果.在本實(shí)施例中，CNN特征和SIFT特征的檢索效果相當(dāng)，優(yōu)于HSV特征；2)兩個(gè)或者三個(gè)特征的組合，會(huì)明顯提高檢索效果，CNN特征和SIFT特征組合的檢索效果比其他兩兩特征組合的效果要好，三個(gè)特征相組合的檢索效果達(dá)到最佳。

4.7、本發(fā)明與現(xiàn)有檢索算法的比較

依據(jù)4.6節(jié)的實(shí)驗(yàn)結(jié)果與分析，本實(shí)施例選取HSV，SIFT，CNN三種特征的聯(lián)合形式來(lái)描述興趣目標(biāo)，然后通過(guò)相似度計(jì)算完成基于興趣目標(biāo)的圖像檢索。為了可客觀地測(cè)評(píng)本發(fā)明，本實(shí)施例提取整體圖像的HSV特征、SIFT特征、CNN特征，并將這三種特征的聯(lián)合形式來(lái)描述整體圖像，從而實(shí)現(xiàn)了一種基于整體圖像的基準(zhǔn)檢索方法。圖9展示了本發(fā)明和基準(zhǔn)算法的檢索樣例，對(duì)檢索結(jié)果的觀察可以看出，在返回的前28張圖像中，本發(fā)明檢索出的圖像中的興趣目標(biāo)均與查詢圖像中的興趣目標(biāo)(花盆)相同，見(jiàn)圖9(a)所示，而基準(zhǔn)算法檢索出的圖像均在背景上(藍(lán)色椅子)與查詢圖像相同，見(jiàn)圖9(b)所示?？梢?jiàn)，基準(zhǔn)算法無(wú)助于解決用戶的實(shí)際問(wèn)題。

為了進(jìn)一步評(píng)估本發(fā)發(fā)明的性能，本實(shí)施例遴選了如下的檢索算法作參照：1)HE算法。該算法在局部圖像描述子中融入了漢明嵌入，并采用投票機(jī)制進(jìn)行圖像匹配檢索；2)c-MI算法。該算法在基于詞袋的圖像檢索模型中加入了局部顏色特征，在對(duì)圖像中關(guān)鍵點(diǎn)進(jìn)行匹配時(shí)，不僅需要SIFT特征匹配，同時(shí)也需要局部顏色特征匹配；3)CDH算法。該算法融合了圖像的邊緣方向信息、顏色信息、顏色差異信息以及空間布局信息，形成了一種新的視覺(jué)特征描述符，并以此來(lái)進(jìn)行圖像檢索；4)MSD算法。該算法融合了圖像的顏色信息、紋理信息、形狀信息和顏色布局信息，生成了一種稱作微結(jié)構(gòu)的圖像特征描述符；5)SSH算法。該算法在對(duì)圖像的顏色信息、亮度信息和邊緣方向信息進(jìn)行描述時(shí)，融入了視覺(jué)注意內(nèi)核和神經(jīng)元的方向選擇機(jī)制，提出了一種新的圖像特征描述符，稱為顯著性結(jié)構(gòu)直方圖。

圖10給出了本發(fā)明與比較算法的PR曲線圖和F-度量曲線圖?？梢钥闯?，本發(fā)明的效果明顯高于其他算法及基準(zhǔn)算法。分析這些比較算法可知，這些算法都是提取整體圖像的特征，在進(jìn)行檢索時(shí)，檢索效果都嚴(yán)重受到了背景的干擾。而本發(fā)明先采用HS算法結(jié)合SaliencyCut算法來(lái)理解和獲取用戶的興趣目標(biāo)，并且僅針對(duì)興趣目標(biāo)進(jìn)行特征描述.選取的HSV特征、SIFT特征和CNN特征的描述力較強(qiáng)，且這三種特征均具有旋轉(zhuǎn)不變性、仿射不變性等特性。因而本發(fā)明能夠較好地解決“這是什么東西”這類(lèi)檢索任務(wù)，彌補(bǔ)了現(xiàn)有的圖像檢索算法的不足。

5、結(jié)論

在用戶使用現(xiàn)有的圖像搜索引擎查詢一幅圖像時(shí)，通常是想識(shí)別圖像中他們所感興趣的目標(biāo)或者返回與興趣目標(biāo)相關(guān)的圖像。然而，當(dāng)前圖像檢索算法大多根據(jù)整體圖像的特征來(lái)設(shè)計(jì)，很難滿足這種需求。特別地，當(dāng)圖像中興趣目標(biāo)比較小時(shí)，即便根據(jù)語(yǔ)義特征來(lái)檢索也不能有效解決用戶的問(wèn)題。為此，本發(fā)明提出的基于興趣目標(biāo)的圖像檢索方法，首先以圖像顯著性檢測(cè)來(lái)理解用戶的興趣目標(biāo)，這是因?yàn)橛脩粢话銜?huì)有意識(shí)地將其所關(guān)注的目標(biāo)以顯眼的方式來(lái)呈現(xiàn)；接著結(jié)合基于顯著性的分割算法分割出該興趣目標(biāo)；然后針對(duì)興趣目標(biāo)提取特征；最后將其與數(shù)據(jù)庫(kù)圖像進(jìn)行相似度計(jì)算并根據(jù)相似度排序返回檢索結(jié)果。通過(guò)仿真實(shí)驗(yàn)，本發(fā)明分析與比較了各種特征以及組合特征的檢索效果，最終遴選了興趣目標(biāo)的HSV顏色特征、SIFT局部特征和CNN語(yǔ)義特征，并以這些特征的組合形式進(jìn)行基于興趣目標(biāo)的圖像檢索。在測(cè)試數(shù)據(jù)庫(kù)選擇方面，選擇了更符合問(wèn)題背景的SIVAL數(shù)據(jù)庫(kù)。在不同特征相似度得分進(jìn)行融合時(shí)，采用了乘法法則融合策略。實(shí)驗(yàn)結(jié)果表明，本發(fā)明提出的檢索算法與基于整體圖像的檢索算法相比，在解決興趣目標(biāo)識(shí)別的任務(wù)上具有更佳的性能。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，并不用于限制本發(fā)明，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明技術(shù)原理的前提下，還可以做出若干改進(jìn)和變型，這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鐘寶江;張峰
技術(shù)所有人：蘇州大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

職業(yè)興趣方向目標(biāo)相關(guān)技術(shù)

目標(biāo)分解的方法相關(guān)技術(shù)

多目標(biāo)決策方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于興趣目標(biāo)的圖像檢索方法與流程