本發(fā)明涉及一種相似圖像搜索方法,尤其涉及一種基于HOG和視覺詞袋的相似圖像搜索方法和裝置。
背景技術(shù):
互聯(lián)網(wǎng)的普及以及搜索引擎技術(shù)的巨大發(fā)展為人們的生活帶來了極大的便利,人們可以快速、準(zhǔn)確地在互聯(lián)網(wǎng)上找到所需要的東西。
圖像搜索是一個(gè)新興的搜索模式,而互聯(lián)網(wǎng)上有約數(shù)以百億的圖像,并且每天都在以數(shù)百萬的速度增長(zhǎng),要快速有效地識(shí)別所搜索的圖像,其相關(guān)技術(shù)條件不是非常成熟,具有較好的發(fā)展空間。
方向梯度直方圖特征,簡(jiǎn)稱HOG特征是通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征,HOG特征結(jié)合SVM分類器已經(jīng)被廣泛應(yīng)用于圖像識(shí)別中,尤其在行人檢測(cè)中獲得了極大的成功;詞袋模型已被應(yīng)用到圖像處理領(lǐng)域,用來進(jìn)行圖像分類,即通過將一幅圖像看成是由一系列視覺單詞組成的文章,實(shí)現(xiàn)圖像的高速分類,是一種有效的基于圖像語(yǔ)義特征提取與描述的圖像分類算法,但是,目前還未有一種將HOG特征提取和視覺詞袋模型結(jié)合在一起,來提高相似圖像搜索準(zhǔn)確率的方法和裝置。
鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長(zhǎng)時(shí)間的研究和實(shí)踐終于獲得了本發(fā)明。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問題,本發(fā)明采用的技術(shù)方案在于,一方面提供一種基于HOG和視覺詞袋的相似圖像搜索裝置,包括預(yù)處理單元、輸入單元、高斯差分單元、選取單元、HOG特征提取單元、聚類單元、視覺詞袋單元和訓(xùn)練單元;
所述預(yù)處理單元,用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像,并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化;
所述輸入單元,用于輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像;
所述高斯差分單元,用于通過高斯差分算法尋找所述輸入單元中的所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn);
所述選取單元,用于選取所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域;
所述HOG特征提取單元,用于對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提?。?/p>
所述聚類單元,用于通過K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類,得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞;
所述視覺詞袋單元,用于在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞,并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖為所述測(cè)試圖像的視覺詞袋;
所述訓(xùn)練單元,用于使用支持向量機(jī)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練,得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試,得到所述測(cè)試圖像的分類結(jié)果,反饋同一類別的圖片。
進(jìn)一步,所述高斯差分單元包括分層模塊、差分模塊、比較模塊、第一刪除模塊和第二刪除模塊;
所述分層模塊,用于對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波Gσ1(x,y)、Gσ2(x,y),得到兩幅圖像g1(x,y)和g2(x,y):
g1(x,y)=Gσ1(x,y)×f(x,y)
g2(x,y)=Gσ2(x,y)×f(x,y)
所述差分模塊,用于將得到的兩幅圖像g1(x,y)、g2(x,y)進(jìn)行相減,得到高斯差分圖像:
g1(x,y)-g2(x,y)=Gσ1×f(x,y)-Gσ1×f(x,y)=DoG×f(x,y)
所述比較模塊,用于將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較,若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小,那該所述像素點(diǎn)則為極值點(diǎn);
所述第一刪除模塊,用于去除對(duì)比度低的所述極值點(diǎn),利用高斯差分函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正,Taylor展開式為:
對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0,得到:
將結(jié)果代入所述Taylor展開式中得:
式中,x表示所述極值點(diǎn),D表示所述極值點(diǎn)處的Harris響應(yīng)值,T表示轉(zhuǎn)秩,若則所述極值點(diǎn)保留,否則刪除所述極值點(diǎn);
所述第二刪除模塊,用于去除邊緣不穩(wěn)定的所述極值點(diǎn),所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率,在垂直邊緣的方向有較小的主曲率,主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出:
式中,D表示所述極值點(diǎn)處的Harris響應(yīng)值,H表示二階Hessian矩陣,所述D的主曲率和所述H的特征值成正比,令α為較大的所述特征值,β為較小的所述特征值,則
Tr(H)=Dxx+Dyy=α+β
Det(H)=DxxDyy-(Dxy)2=αβ
令α=rβ得,由于在所述α、β相等的時(shí)候最小,隨著r的增大而增大,因此當(dāng)不滿足下式時(shí),所述極值點(diǎn)刪除,反之保留,保留下來的所述極值點(diǎn)是穩(wěn)定關(guān)鍵點(diǎn):
式中,H表示Hessian矩陣,Tr(H)代表Hessian矩陣的對(duì)角線元素之和,Det(H)代表Hessian矩陣的行列式。
進(jìn)一步,所述HOG特征提取單元包括第一處理模塊、第二處理模塊、劃分模塊、第一計(jì)算模塊、第一串聯(lián)模塊、第二串聯(lián)模塊和轉(zhuǎn)換模塊;
所述第一處理模塊,用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的所述前N個(gè)區(qū)域中的每一塊區(qū)域視為一個(gè)圖像,進(jìn)行灰度化;
所述第二處理模塊,用于通過Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化;
所述劃分模塊,用于將歸一化后的所述每一個(gè)圖像劃分為單元格,每2×2個(gè)像素點(diǎn)組成一個(gè)單元格;
所述第一計(jì)算模塊,用于計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度,捕獲輪廓信息,其中,所述梯度包括大小和方向:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
Gx(x,y),Gy(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值;
所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為:
采用無符號(hào)(0-180)形式,并將(0-180)分成9等分,每個(gè)所述單元格產(chǎn)生9維的特征;
所述第一串聯(lián)模塊,用于將每2×2個(gè)所述單元格組成一個(gè)塊,一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化,便得到該塊的HOG特征;
所述第二串聯(lián)模塊,用于將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征;
變換模塊,用于將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化,所述歸一化的過程為:對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換,如下式:
v←v/255
式中,v為特征向量,ε為常數(shù)。
進(jìn)一步,所述聚類單元包括集合模塊、確定模塊和第二計(jì)算模塊;
所述集合模塊,用于將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示;
所述確定模塊,用于根據(jù)應(yīng)用需求確定聚類中心數(shù)值n;
所述第二計(jì)算模塊,用于對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算,得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。
進(jìn)一步,所述視覺詞袋單元包括替換模塊和統(tǒng)計(jì)模塊;
所述替換模塊,用于利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度,將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替,歐氏距離為:
其中,Ha,Hb分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量,i表示所述測(cè)試圖像的HOG特征的維數(shù);
所述統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖即為所述測(cè)試圖像的視覺詞袋。
另一方面,提供一種基于HOG和視覺詞袋的相似圖像搜索方法,包括以下步驟:
S1:用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像,并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化;
S2:輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像,并對(duì)所述訓(xùn)練集圖像中的每幅圖像進(jìn)行S3-S5的步驟;
S3:通過高斯差分算法尋找相應(yīng)圖像的穩(wěn)定關(guān)鍵點(diǎn);
S4:選取所述穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域;
S5:對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提取;
S6:在所述訓(xùn)練集圖像中的每幅圖像進(jìn)行完S3-S5的步驟后,使用K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類,得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞;
S7:對(duì)輸入的所述測(cè)試圖像進(jìn)行S3-S5的操作;
S8:在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞,并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖為所述測(cè)試圖像的視覺詞袋;
S9:使用支持向量機(jī)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練,得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試,得到所述測(cè)試圖像的分類結(jié)果,反饋同一類別的圖片。
進(jìn)一步,所述步驟S3具體包括:
步驟S31:對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波Gσ1(x,y)、Gσ2(x,y),得到兩幅圖像g1(x,y)和g2(x,y):
g1(x,y)=Gσ1(x,y)×f(x,y)
g2(x,y)=Gσ2(x,y)×f(x,y)
步驟S32:將得到的兩幅圖像g1(x,y)、g2(x,y)進(jìn)行相減,得到高斯差分圖像:
g1(x,y)-g2(x,y)=Gσ1×f(x,y)-Gσ1×f(x,y)=DoG×f(x,y)
步驟S33:將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較,若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小,那該所述像素點(diǎn)則為極值點(diǎn);
步驟S34:去除對(duì)比度低的所述極值點(diǎn),利用高斯差分函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正,Taylor展開式為:
對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0,得到:
將結(jié)果代入所述Taylor展開式中得:
式中,x表示所述極值點(diǎn),D表示所述極值點(diǎn)處的Harris響應(yīng)值,T表示轉(zhuǎn)秩,若則所述極值點(diǎn)保留,否則刪除所述極值點(diǎn);
步驟S35:去除邊緣不穩(wěn)定的所述極值點(diǎn),所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率,在垂直邊緣的方向有較小的主曲率,主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hess i an矩陣求出:
式中,D表示所述極值點(diǎn)處的Harris響應(yīng)值,H表示二階Hessian矩陣,所述D的主曲率和所述H的特征值成正比,令α為較大的所述特征值,β為較小的所述特征值,則
Tr(H)=Dxx+Dyy=α+β
Det(H)=DxxDyy-(Dxy)2=αβ
令α=rβ得,由于在所述α、β相等的時(shí)候最小,隨著r的增大而增大,因此當(dāng)不滿足下式時(shí),所述極值點(diǎn)刪除,反之保留,保留下來的所述極值點(diǎn)是穩(wěn)定關(guān)鍵點(diǎn):
式中,H表示Hessian矩陣,Tr(H)代表Hessian矩陣的對(duì)角線元素之和,Det(H)代表Hessian矩陣的行列式。
進(jìn)一步,所述步驟S5具體包括:
步驟S51:將所述相應(yīng)圖像中所述前N個(gè)區(qū)域的每一塊區(qū)域視為一個(gè)圖像,進(jìn)行灰度化;
步驟S52:采用Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化;
步驟S53:將歸一化后的所述每一個(gè)圖像劃分為單元格,每2×2個(gè)像素點(diǎn)組成一個(gè)單元格;
步驟S54:計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度,捕獲輪廓信息,其中,所述梯度包括大小和方向:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
Gx(x,y),Gy(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值;
所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為:
采用無符號(hào)(0-180)形式,并將(0-180)分成9等分,每個(gè)所述單元格產(chǎn)生9維的特征;
步驟S55:將每2×2個(gè)所述單元格組成一個(gè)塊,一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化,便得到該塊的HOG特征;
步驟S56:將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征;
步驟S57:將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化,所述歸一化的過程為:對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換,如下式:
v←v/255
式中,v為特征向量,ε為常數(shù)。
進(jìn)一步,所述步驟S6具體包括:
步驟S61:將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示;
步驟S62:根據(jù)應(yīng)用需求確定聚類中心數(shù)值n;
步驟S63:對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算,得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。
進(jìn)一步,所述步驟S8具體包括:
步驟S81:利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度,將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替,歐氏距離為:
其中,Ha,Hb分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量,i表示所述測(cè)試圖像的HOG特征的維數(shù);
步驟S82:統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。
與現(xiàn)有技術(shù)比較本發(fā)明的有益效果在于:
1.使用高斯差分算子尋找穩(wěn)定關(guān)鍵點(diǎn)并確定特征提取區(qū)域,減少了傳統(tǒng)使用HOG特征提取時(shí)對(duì)整幅圖像進(jìn)行滑窗掃描操作,既節(jié)省了時(shí)間,又提高了效率;
2.使用HOG特征可以讓圖像局部像素點(diǎn)之間的關(guān)系得到很好的表征,除此之外,位置和方向空間的量化在一定程度上抑制了平移和旋轉(zhuǎn)帶來的影響;
3.使用視覺詞袋模型,相對(duì)基于文本的相似圖像搜索,更好地避免了語(yǔ)義鴻溝的問題。
附圖說明
圖1為本發(fā)明基于HOG和視覺詞袋的相似圖像搜索裝置的功能框圖;
圖2為本發(fā)明預(yù)處理單元的功能框圖;
圖3為本發(fā)明高斯差分單元的功能框圖;
圖4為本發(fā)明選取單元的功能框圖;
圖5為本發(fā)明HOG特征提取單元的功能框圖;
圖6為本發(fā)明聚類單元的功能框圖;
圖7為本發(fā)明視覺詞袋單元的功能框圖;
圖8為本發(fā)明基于HOG和視覺詞袋的相似圖像搜索方法的流程圖。
具體實(shí)施方式
以下結(jié)合附圖,對(duì)本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點(diǎn)作更詳細(xì)的說明。
實(shí)施例一
如圖1所示,其為本發(fā)明一種基于HOG和視覺詞袋的相似圖像搜索裝置的功能框圖,一種基于HOG和視覺詞袋的相似圖像搜索裝置包括:預(yù)處理單元1、輸入單元2、高斯差分單元3、選取單元4、HOG特征提取單元5、聚類單元6、視覺詞袋單元7和訓(xùn)練單元8;
所述預(yù)處理單元1,用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像,并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化;
所述輸入單元2,用于輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像;
所述高斯差分單元3,用于通過高斯差分(DoG)算法尋找所述輸入單元中的所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn);
所述選取單元4,用于選取所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域;
所述HOG特征提取單元5,用于對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提取;
所述聚類單元6,用于通過K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類,得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞;
所述視覺詞袋單元7,用于在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞,并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖(n維)為所述測(cè)試圖像的視覺詞袋;
所述訓(xùn)練單元8,用于使用支持向量機(jī)(SVM)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練,得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試,得到所述測(cè)試圖像的分類結(jié)果,反饋同一類別的圖片。
如圖2所示,為本發(fā)明預(yù)處理單元的功能框圖,所述預(yù)處理單元1包括分類模塊11和預(yù)處理模塊12;
所述分類模塊11,用于對(duì)要訓(xùn)練的圖像進(jìn)行分類,添加類別標(biāo)簽,并從每類中挑選相同數(shù)目的圖像作為訓(xùn)練集圖像;
所述預(yù)處理模塊12,用于對(duì)測(cè)試圖像和所述訓(xùn)練集圖像進(jìn)行尺寸大小歸一化。
如圖3所示,為本發(fā)明高斯差分單元3的功能框圖,所述高斯差分單元3包括分層模塊31、差分模塊32、比較模塊33、第一刪除模塊34和第二刪除模塊35;
所述分層模塊31,用于對(duì)所述測(cè)試圖像f(x,y)或所述訓(xùn)練集圖像中的每一幅訓(xùn)練圖像f(x,y)加入高斯濾波Gσ1(x,y)、Gσ2(x,y),得到兩幅圖像g1(x,y)和g2(x,y),如下式:
g1(x,y)=Gσ1(x,y)×f(x,y)
g2(x,y)=Gσ2(x,y)×f(x,y)
其中,σ1,σ2表示不同的高斯濾波;
所述差分模塊32,用于將得到的兩幅圖像g1(x,y)、g2(x,y)進(jìn)行相減,得到高斯差分(DOG)圖像:
g1(x,y)-g2(x,y)=Gσ1×f(x,y)-Gσ1×f(x,y)=DoG×f(x,y)
所述比較模塊33,用于將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較,若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小,那該所述像素點(diǎn)則為極值點(diǎn),其中,所述圖像域?yàn)槊恳粋€(gè)所述像素點(diǎn)所在的層面,所述尺度域?yàn)榕c所述圖像域相鄰上下兩層所在的層面;
所述第一刪除模塊34,用于去除對(duì)比度低的所述極值點(diǎn),利用高斯差分函數(shù)(DOG)在尺度空間Taylor展開式分別對(duì)所述高斯差分(DOG)金字塔空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正,Taylor展開式為:
對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0,得到:
將結(jié)果代入所述Taylor展開式中得:
式中,x表示所述極值點(diǎn),D表示所述極值點(diǎn)處的Harris響應(yīng)值,T表示轉(zhuǎn)秩,若則所述極值點(diǎn)保留,否則刪除所述極值點(diǎn);
所述第二刪除模塊35,用于去除邊緣不穩(wěn)定的所述極值點(diǎn),所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率,在垂直邊緣的方向有較小的主曲率,主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出:
式中,D表示所述極值點(diǎn)處的Harris響應(yīng)值,H表示二階Hessian矩陣,所述D的主曲率和所述H的特征值成正比,令α為較大的所述特征值,β為較小的所述特征值,則
Tr(H)=Dxx+Dyy=α+β
Det(H)=DxxDyy-(Dxy)2=αβ
令α=rβ得,由于在所述α、β相等的時(shí)候最小,隨著r的增大而增大,因此當(dāng)不滿足下式時(shí),所述極值點(diǎn)刪除,反之保留,保留下來的所述極值點(diǎn)是穩(wěn)定關(guān)鍵點(diǎn):
式中,H表示Hessian矩陣,Tr(H)代表Hessian矩陣的對(duì)角線元素之和,Det(H)代表Hessian矩陣的行列式。
如圖4示,為本發(fā)明選取單元4的功能框圖,所述選取單元4包括分割模塊41和選擇模塊42;
所述分割模塊41,用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中的每一幅圖像按照m×m(m<M,M=km,k∈Z)大小進(jìn)行分塊,統(tǒng)計(jì)每一塊中的所述穩(wěn)定關(guān)鍵點(diǎn)的個(gè)數(shù),其中,M代表所述測(cè)試圖像的邊長(zhǎng)或所述訓(xùn)練集圖像中每一幅圖像的邊長(zhǎng);
所述選擇模塊42,用于選擇所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域,其中,N取整數(shù)。
本發(fā)明使用高斯差分算子尋找穩(wěn)定關(guān)鍵點(diǎn)并確定特征提取區(qū)域,減少了傳統(tǒng)使用HOG特征提取時(shí)對(duì)整幅圖像進(jìn)行滑窗掃描操作,既節(jié)省了時(shí)間,又提高了效率。
如圖5示,為本發(fā)明HOG特征提取單元5的功能框圖,所述HOG特征提取單元5包括第一處理模塊51、第二處理模塊52、劃分模塊53、第一計(jì)算模塊54、第一串聯(lián)模塊55、第二串聯(lián)模塊56和轉(zhuǎn)換模塊57。
所述第一處理模塊51,用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的所述前N個(gè)區(qū)域中的每一塊區(qū)域視為一個(gè)圖像,進(jìn)行灰度化;
所述第二處理模塊52,用于通過Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化,這樣,可以調(diào)節(jié)所述每一個(gè)圖像的對(duì)比度,降低所述每一個(gè)圖像局部的陰影和光照變化所造成的影響,同時(shí)抑制噪音的干擾;
所述劃分模塊53,用于將歸一化后的所述每一個(gè)圖像劃分為單元格,每2×2個(gè)像素點(diǎn)組成一個(gè)單元格;
所述第一計(jì)算模塊54,用于計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度,捕獲輪廓信息,其中,所述梯度包括大小和方向:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
Gx(x,y),Gy(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。
所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為:
梯度方向分為有符號(hào)(0-360)和無符號(hào)(0-180)兩種形式,本裝置采用的是無符號(hào)的形式,并將(0-180)分成9等分,所以,所述每一個(gè)圖像中每個(gè)所述單元格的梯度方向都分成9個(gè)方向塊,使用所述單元格中的梯度方向和大小對(duì)9個(gè)方向塊進(jìn)行加權(quán)投影,最后,每個(gè)所述單元格產(chǎn)生9維的特征。
所述第一串聯(lián)模塊55,用于將每2×2個(gè)所述單元格組成一個(gè)塊,一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化,便得到該塊的HOG特征;
所述第二串聯(lián)模塊56,用于將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征;
變換模塊57,用于將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化,所述歸一化的過程為:對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換,如下式:
v←v/255
式中,v為特征向量,ε為常數(shù)。
本發(fā)明使用HOG特征可以讓圖像局部像素點(diǎn)之間的關(guān)系得到很好的表征,除此之外,位置和方向空間的量化在一定程度上抑制了平移和旋轉(zhuǎn)帶來的影響。
如圖6示,為本發(fā)明聚類單元6的功能框圖,所述聚類單元6包括集合模塊61、確定模塊62和第二計(jì)算模塊63;
所述集合模塊61,用于將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示;
所述確定模塊62,用于根據(jù)應(yīng)用需求確定聚類中心數(shù)值n;
所述第二計(jì)算模塊63,用于對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算,得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。
如圖7示,為本發(fā)明視覺詞袋單元7的功能框圖,所述視覺詞袋單元7包括替換模塊71和統(tǒng)計(jì)模塊72;
所述替換模塊71,用于利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度,將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替。歐氏距離為:
其中,Ha,Hb分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量,i表示所述測(cè)試圖像的HOG特征的維數(shù)。
所述統(tǒng)計(jì)模塊72,用于統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。
本發(fā)明使用視覺詞袋模型,相對(duì)基于文本的相似圖像搜索,更好地避免了語(yǔ)義鴻溝的問題。
實(shí)施例二
如圖8所示,為本發(fā)明一種基于HOG和視覺詞袋的相似圖像搜索方法的功能框圖,包括以下步驟:
S1:用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像,并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化;
S2:輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像,并對(duì)所述訓(xùn)練集圖像中的每幅圖像進(jìn)行S3-S5的步驟;
S3:通過高斯差分(DoG)算法尋找相應(yīng)圖像的穩(wěn)定關(guān)鍵點(diǎn);
S4:選取所述穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域;
S5:對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提?。?/p>
S6:在所述訓(xùn)練集圖像中的每幅圖像進(jìn)行完S3-S5的步驟后,使用K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類,得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞;
S7:對(duì)輸入的所述測(cè)試圖像進(jìn)行S3-S5的操作;
S8:在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞,并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖(n維)為所述測(cè)試圖像的視覺詞袋;
S9:使用支持向量機(jī)(SVM)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練,得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試,得到所述測(cè)試圖像的分類結(jié)果,反饋同一類別的圖片。
所述步驟S1具體包括:
步驟S11:對(duì)要訓(xùn)練的圖像進(jìn)行分類,添加類別標(biāo)簽,并從每類中挑選相同數(shù)目的圖像作為訓(xùn)練集圖像;
步驟S12:用于對(duì)測(cè)試圖像和所述訓(xùn)練集圖像進(jìn)行尺寸大小歸一化。
所述步驟S3具體包括:
步驟S31:對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波Gσ1(x,y)、Gσ2(x,y),得到兩幅圖像g1(x,y)和g2(x,y):
g1(x,y)=Gσ1(x,y)×f(x,y)
g2(x,y)=Gσ2(x,y)×f(x,y)
σ1,σ2表示兩種不同的高斯濾波;
步驟S32:將得到的兩幅圖像g1(x,y)、g2(x,y)進(jìn)行相減,得到高斯差分(DOG)圖像:
g1(x,y)-g2(x,y)=Gσ1×f(x,y)-Gσ1×f(x,y)=DoG×f(x,y)
步驟S33:將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較,若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小,那該所述像素點(diǎn)則為極值點(diǎn),其中,所述圖像域?yàn)槊恳粋€(gè)所述像素點(diǎn)所在的層面,所述尺度域?yàn)榕c所述圖像域相鄰上下兩層所在的層面;
步驟S34:去除對(duì)比度低的所述極值點(diǎn),利用高斯差分(DOG)函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分(DOG)空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正,Taylor展開式為:
對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0,得到:
將結(jié)果代入所述Taylor展開式中得:
式中,x表示所述極值點(diǎn),D表示所述極值點(diǎn)處的Harris響應(yīng)值,T表示轉(zhuǎn)秩,若則所述極值點(diǎn)保留,否則刪除所述極值點(diǎn);
步驟S35:去除邊緣不穩(wěn)定的所述極值點(diǎn),所述高斯差分(DOG)函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率,在垂直邊緣的方向有較小的主曲率,主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出:
式中,D表示所述極值點(diǎn)處的Harris響應(yīng)值,H表示二階Hessian矩陣,所述D的主曲率和所述H的特征值成正比,令α為較大的所述特征值,β為較小的所述特征值,則
Tr(H)=Dxx+Dyy=α+β
Det(H)=DxxDyy-(Dxy)2=αβ
令α=rβ得,由于在所述α、β相等的時(shí)候最小,隨著r的增大而增大,因此當(dāng)不滿足下式時(shí),所述極值點(diǎn)刪除,反之保留,保留下來的所述極值點(diǎn)是穩(wěn)定關(guān)鍵點(diǎn):
式中,H表示Hessian矩陣,Tr(H)代表Hessian矩陣的對(duì)角線元素之和,Det(H)代表Hessian矩陣的行列式。
所述步驟S4具體包括:
步驟S41:將所述相應(yīng)圖像按照m×m(m<M,M=km,k∈Z)的大小進(jìn)行分塊,統(tǒng)計(jì)每一塊中的所述穩(wěn)定關(guān)鍵點(diǎn)的個(gè)數(shù),其中,M代表所述相應(yīng)圖像的邊長(zhǎng);
步驟S42:選擇所述相應(yīng)圖像中的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域,其中,N取整數(shù)。
本發(fā)明使用高斯差分算子尋找穩(wěn)定關(guān)鍵點(diǎn)并確定特征提取區(qū)域,減少了傳統(tǒng)使用HOG特征提取時(shí)對(duì)整幅圖像進(jìn)行滑窗掃描操作,既節(jié)省了時(shí)間,又提高了效率。
所述步驟S5具體包括:
步驟S51:將所述相應(yīng)圖像中所述前N個(gè)區(qū)域的每一塊區(qū)域視為一個(gè)圖像,進(jìn)行灰度化;
步驟S52:采用Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化,這樣,可以調(diào)節(jié)所述每一個(gè)圖像的對(duì)比度,降低所述每一個(gè)圖像局部的陰影和光照變化所造成的影響,同時(shí)抑制噪音的干擾。
步驟S53:將歸一化后的所述每一個(gè)圖像劃分為單元格,每2×2個(gè)像素點(diǎn)組成一個(gè)單元格;
步驟S54:計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度,捕獲輪廓信息,其中,所述梯度包括大小和方向:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
Gx(x,y),Gy(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。
所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為:
梯度方向分為有符號(hào)(0-360)和無符號(hào)(0-180)兩種形式,本裝置采用的是無符號(hào)的形式,并將(0-180)分成9等分,所以,所述每一個(gè)圖像中每個(gè)所述單元格的梯度方向都分成9個(gè)方向塊,使用所述單元格中的梯度方向和大小對(duì)9個(gè)方向塊進(jìn)行加權(quán)投影,最后,每個(gè)所述單元格產(chǎn)生9維的特征。
步驟S55:將每2×2個(gè)所述單元格組成一個(gè)塊,一個(gè)塊內(nèi)所有單元格的所述特征串聯(lián)起來后歸一化,便得到該塊的HOG特征;
步驟S56:將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征;
步驟S57:將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化,所述歸一化的過程為:對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換,如下式:
v←v/255
式中,v為特征向量,ε為常數(shù)。
本發(fā)明使用HOG特征可以讓圖像局部像素點(diǎn)之間的關(guān)系得到很好的表征,除此之外,位置和方向空間的量化在一定程度上抑制了平移和旋轉(zhuǎn)帶來的影響。
所述步驟S6具體包括:
步驟S61:將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示;
步驟S62:根據(jù)應(yīng)用需求在所述矩陣集合中確定聚類中心數(shù)值n;
步驟S63:對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算,得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。
所述步驟S8具體包括:
步驟S81:利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度,將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替。歐氏距離為:
其中,Ha,Hb分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量,i表示所述測(cè)試圖像的HOG特征的維數(shù)。
步驟S82:統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率,得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。
本發(fā)明使用視覺詞袋模型,相對(duì)基于文本的相似圖像搜索,更好地避免了語(yǔ)義鴻溝問題。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明方法的前提下,還可以做出若干改進(jìn)和補(bǔ)充,這些改進(jìn)和補(bǔ)充也應(yīng)視為本發(fā)明的保護(hù)范圍。