一種基于HOG和視覺詞袋的相似圖像搜索方法和裝置與流程

文檔序號(hào)：11134057閱讀：412來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種相似圖像搜索方法，尤其涉及一種基于HOG和視覺詞袋的相似圖像搜索方法和裝置。

背景技術(shù)：

互聯(lián)網(wǎng)的普及以及搜索引擎技術(shù)的巨大發(fā)展為人們的生活帶來了極大的便利，人們可以快速、準(zhǔn)確地在互聯(lián)網(wǎng)上找到所需要的東西。

圖像搜索是一個(gè)新興的搜索模式，而互聯(lián)網(wǎng)上有約數(shù)以百億的圖像，并且每天都在以數(shù)百萬的速度增長(zhǎng)，要快速有效地識(shí)別所搜索的圖像，其相關(guān)技術(shù)條件不是非常成熟，具有較好的發(fā)展空間。

方向梯度直方圖特征，簡(jiǎn)稱HOG特征是通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征，HOG特征結(jié)合SVM分類器已經(jīng)被廣泛應(yīng)用于圖像識(shí)別中，尤其在行人檢測(cè)中獲得了極大的成功；詞袋模型已被應(yīng)用到圖像處理領(lǐng)域，用來進(jìn)行圖像分類，即通過將一幅圖像看成是由一系列視覺單詞組成的文章，實(shí)現(xiàn)圖像的高速分類，是一種有效的基于圖像語(yǔ)義特征提取與描述的圖像分類算法，但是，目前還未有一種將HOG特征提取和視覺詞袋模型結(jié)合在一起，來提高相似圖像搜索準(zhǔn)確率的方法和裝置。

鑒于上述缺陷，本發(fā)明創(chuàng)作者經(jīng)過長(zhǎng)時(shí)間的研究和實(shí)踐終于獲得了本發(fā)明。

技術(shù)實(shí)現(xiàn)要素：

為解決上述問題，本發(fā)明采用的技術(shù)方案在于，一方面提供一種基于HOG和視覺詞袋的相似圖像搜索裝置，包括預(yù)處理單元、輸入單元、高斯差分單元、選取單元、HOG特征提取單元、聚類單元、視覺詞袋單元和訓(xùn)練單元；

所述預(yù)處理單元，用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像，并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化；

所述輸入單元，用于輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像；

所述高斯差分單元，用于通過高斯差分算法尋找所述輸入單元中的所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)；

所述選取單元，用于選取所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域；

所述HOG特征提取單元，用于對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提?。?/p>

所述聚類單元，用于通過K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類，得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞；

所述視覺詞袋單元，用于在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞，并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖為所述測(cè)試圖像的視覺詞袋；

所述訓(xùn)練單元，用于使用支持向量機(jī)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練，得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試，得到所述測(cè)試圖像的分類結(jié)果，反饋同一類別的圖片。

進(jìn)一步，所述高斯差分單元包括分層模塊、差分模塊、比較模塊、第一刪除模塊和第二刪除模塊；

所述分層模塊，用于對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波G_σ1(x,y)、G_σ2(x,y)，得到兩幅圖像g₁(x,y)和g₂(x,y)：

g₁(x,y)＝G_σ1(x,y)×f(x,y)

g₂(x,y)＝G_σ2(x,y)×f(x,y)

所述差分模塊，用于將得到的兩幅圖像g₁(x,y)、g₂(x,y)進(jìn)行相減，得到高斯差分圖像：

g₁(x,y)-g₂(x,y)＝G_σ1×f(x,y)-G_σ1×f(x,y)＝DoG×f(x,y)

所述比較模塊，用于將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較，若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小，那該所述像素點(diǎn)則為極值點(diǎn)；

所述第一刪除模塊，用于去除對(duì)比度低的所述極值點(diǎn)，利用高斯差分函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正，Taylor展開式為：

對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0，得到:

將結(jié)果代入所述Taylor展開式中得：

式中，x表示所述極值點(diǎn)，D表示所述極值點(diǎn)處的Harris響應(yīng)值，T表示轉(zhuǎn)秩，若則所述極值點(diǎn)保留，否則刪除所述極值點(diǎn)；

所述第二刪除模塊，用于去除邊緣不穩(wěn)定的所述極值點(diǎn)，所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率，在垂直邊緣的方向有較小的主曲率，主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出：

式中，D表示所述極值點(diǎn)處的Harris響應(yīng)值，H表示二階Hessian矩陣，所述D的主曲率和所述H的特征值成正比，令α為較大的所述特征值，β為較小的所述特征值，則

Tr(H)＝D_xx+D_yy＝α+β

Det(H)＝D_xxD_yy-(D_xy)²＝αβ

令α＝rβ得，由于在所述α、β相等的時(shí)候最小，隨著r的增大而增大，因此當(dāng)不滿足下式時(shí)，所述極值點(diǎn)刪除，反之保留，保留下來的所述極值點(diǎn)是穩(wěn)定關(guān)鍵點(diǎn)：

式中，H表示Hessian矩陣，Tr(H)代表Hessian矩陣的對(duì)角線元素之和，Det(H)代表Hessian矩陣的行列式。

進(jìn)一步，所述HOG特征提取單元包括第一處理模塊、第二處理模塊、劃分模塊、第一計(jì)算模塊、第一串聯(lián)模塊、第二串聯(lián)模塊和轉(zhuǎn)換模塊；

所述第一處理模塊，用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的所述前N個(gè)區(qū)域中的每一塊區(qū)域視為一個(gè)圖像，進(jìn)行灰度化；

所述第二處理模塊，用于通過Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化；

所述劃分模塊，用于將歸一化后的所述每一個(gè)圖像劃分為單元格，每2×2個(gè)像素點(diǎn)組成一個(gè)單元格；

所述第一計(jì)算模塊，用于計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度，捕獲輪廓信息，其中，所述梯度包括大小和方向：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

G_x(x,y),G_y(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值；

所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為：

采用無符號(hào)(0-180)形式，并將(0-180)分成9等分，每個(gè)所述單元格產(chǎn)生9維的特征；

所述第一串聯(lián)模塊，用于將每2×2個(gè)所述單元格組成一個(gè)塊，一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化，便得到該塊的HOG特征；

所述第二串聯(lián)模塊，用于將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征；

變換模塊，用于將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化，所述歸一化的過程為：對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換，如下式：

v←v/255

式中，v為特征向量，ε為常數(shù)。

進(jìn)一步，所述聚類單元包括集合模塊、確定模塊和第二計(jì)算模塊；

所述集合模塊，用于將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示；

所述確定模塊，用于根據(jù)應(yīng)用需求確定聚類中心數(shù)值n；

所述第二計(jì)算模塊，用于對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算，得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。

進(jìn)一步，所述視覺詞袋單元包括替換模塊和統(tǒng)計(jì)模塊；

所述替換模塊，用于利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度，將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替，歐氏距離為：

其中，H_a,H_b分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量，i表示所述測(cè)試圖像的HOG特征的維數(shù)；

所述統(tǒng)計(jì)模塊，用于統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖即為所述測(cè)試圖像的視覺詞袋。

另一方面，提供一種基于HOG和視覺詞袋的相似圖像搜索方法，包括以下步驟：

S1：用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像，并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化；

S2：輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像，并對(duì)所述訓(xùn)練集圖像中的每幅圖像進(jìn)行S3-S5的步驟；

S3：通過高斯差分算法尋找相應(yīng)圖像的穩(wěn)定關(guān)鍵點(diǎn)；

S4：選取所述穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域；

S5：對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提取；

S6：在所述訓(xùn)練集圖像中的每幅圖像進(jìn)行完S3-S5的步驟后，使用K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類，得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞；

S7：對(duì)輸入的所述測(cè)試圖像進(jìn)行S3-S5的操作；

S8：在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞，并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖為所述測(cè)試圖像的視覺詞袋；

S9：使用支持向量機(jī)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練，得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試，得到所述測(cè)試圖像的分類結(jié)果，反饋同一類別的圖片。

進(jìn)一步，所述步驟S3具體包括：

步驟S31:對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波G_σ1(x,y)、G_σ2(x,y)，得到兩幅圖像g₁(x,y)和g₂(x,y)：

g₁(x,y)＝G_σ1(x,y)×f(x,y)

g₂(x,y)＝G_σ2(x,y)×f(x,y)

步驟S32:將得到的兩幅圖像g₁(x,y)、g₂(x,y)進(jìn)行相減，得到高斯差分圖像：

g₁(x,y)-g₂(x,y)＝G_σ1×f(x,y)-G_σ1×f(x,y)＝DoG×f(x,y)

步驟S33:將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較，若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小，那該所述像素點(diǎn)則為極值點(diǎn)；

步驟S34：去除對(duì)比度低的所述極值點(diǎn)，利用高斯差分函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正，Taylor展開式為：

對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0，得到:

將結(jié)果代入所述Taylor展開式中得：

式中，x表示所述極值點(diǎn)，D表示所述極值點(diǎn)處的Harris響應(yīng)值，T表示轉(zhuǎn)秩，若則所述極值點(diǎn)保留，否則刪除所述極值點(diǎn)；

步驟S35：去除邊緣不穩(wěn)定的所述極值點(diǎn)，所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率，在垂直邊緣的方向有較小的主曲率，主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hess i an矩陣求出：

Tr(H)＝D_xx+D_yy＝α+β

Det(H)＝D_xxD_yy-(D_xy)²＝αβ

式中，H表示Hessian矩陣，Tr(H)代表Hessian矩陣的對(duì)角線元素之和，Det(H)代表Hessian矩陣的行列式。

進(jìn)一步，所述步驟S5具體包括：

步驟S51：將所述相應(yīng)圖像中所述前N個(gè)區(qū)域的每一塊區(qū)域視為一個(gè)圖像，進(jìn)行灰度化；

步驟S52：采用Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化；

步驟S53：將歸一化后的所述每一個(gè)圖像劃分為單元格，每2×2個(gè)像素點(diǎn)組成一個(gè)單元格；

步驟S54：計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度，捕獲輪廓信息，其中，所述梯度包括大小和方向：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

G_x(x,y),G_y(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值；

所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為：

采用無符號(hào)(0-180)形式，并將(0-180)分成9等分，每個(gè)所述單元格產(chǎn)生9維的特征；

步驟S55：將每2×2個(gè)所述單元格組成一個(gè)塊，一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化，便得到該塊的HOG特征；

步驟S56：將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征；

步驟S57：將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化，所述歸一化的過程為：對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換，如下式：

v←v/255

式中，v為特征向量，ε為常數(shù)。

進(jìn)一步，所述步驟S6具體包括：

步驟S61：將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示；

步驟S62：根據(jù)應(yīng)用需求確定聚類中心數(shù)值n；

步驟S63：對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算，得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。

進(jìn)一步，所述步驟S8具體包括：

步驟S81：利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度，將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替，歐氏距離為：

其中，H_a,H_b分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量，i表示所述測(cè)試圖像的HOG特征的維數(shù)；

步驟S82：統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。

與現(xiàn)有技術(shù)比較本發(fā)明的有益效果在于：

1.使用高斯差分算子尋找穩(wěn)定關(guān)鍵點(diǎn)并確定特征提取區(qū)域，減少了傳統(tǒng)使用HOG特征提取時(shí)對(duì)整幅圖像進(jìn)行滑窗掃描操作，既節(jié)省了時(shí)間，又提高了效率；

2.使用HOG特征可以讓圖像局部像素點(diǎn)之間的關(guān)系得到很好的表征，除此之外，位置和方向空間的量化在一定程度上抑制了平移和旋轉(zhuǎn)帶來的影響；

3.使用視覺詞袋模型，相對(duì)基于文本的相似圖像搜索，更好地避免了語(yǔ)義鴻溝的問題。

附圖說明

圖1為本發(fā)明基于HOG和視覺詞袋的相似圖像搜索裝置的功能框圖；

圖2為本發(fā)明預(yù)處理單元的功能框圖；

圖3為本發(fā)明高斯差分單元的功能框圖；

圖4為本發(fā)明選取單元的功能框圖；

圖5為本發(fā)明HOG特征提取單元的功能框圖；

圖6為本發(fā)明聚類單元的功能框圖；

圖7為本發(fā)明視覺詞袋單元的功能框圖；

圖8為本發(fā)明基于HOG和視覺詞袋的相似圖像搜索方法的流程圖。

具體實(shí)施方式

以下結(jié)合附圖，對(duì)本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點(diǎn)作更詳細(xì)的說明。

實(shí)施例一

如圖1所示，其為本發(fā)明一種基于HOG和視覺詞袋的相似圖像搜索裝置的功能框圖，一種基于HOG和視覺詞袋的相似圖像搜索裝置包括：預(yù)處理單元1、輸入單元2、高斯差分單元3、選取單元4、HOG特征提取單元5、聚類單元6、視覺詞袋單元7和訓(xùn)練單元8；

所述預(yù)處理單元1，用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像，并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化；

所述輸入單元2，用于輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像；

所述高斯差分單元3，用于通過高斯差分(DoG)算法尋找所述輸入單元中的所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)；

所述選取單元4，用于選取所述測(cè)試圖像和所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域；

所述HOG特征提取單元5，用于對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提取；

所述聚類單元6，用于通過K-Means聚類算法對(duì)所述訓(xùn)練集圖像中的所述HOG特征進(jìn)行聚類，得到的n個(gè)聚類中心為視覺詞袋的n個(gè)視覺單詞；

所述視覺詞袋單元7，用于在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞，并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖(n維)為所述測(cè)試圖像的視覺詞袋；

所述訓(xùn)練單元8，用于使用支持向量機(jī)(SVM)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練，得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試，得到所述測(cè)試圖像的分類結(jié)果，反饋同一類別的圖片。

如圖2所示，為本發(fā)明預(yù)處理單元的功能框圖，所述預(yù)處理單元1包括分類模塊11和預(yù)處理模塊12；

所述分類模塊11，用于對(duì)要訓(xùn)練的圖像進(jìn)行分類，添加類別標(biāo)簽，并從每類中挑選相同數(shù)目的圖像作為訓(xùn)練集圖像；

所述預(yù)處理模塊12，用于對(duì)測(cè)試圖像和所述訓(xùn)練集圖像進(jìn)行尺寸大小歸一化。

如圖3所示，為本發(fā)明高斯差分單元3的功能框圖，所述高斯差分單元3包括分層模塊31、差分模塊32、比較模塊33、第一刪除模塊34和第二刪除模塊35；

所述分層模塊31，用于對(duì)所述測(cè)試圖像f(x,y)或所述訓(xùn)練集圖像中的每一幅訓(xùn)練圖像f(x,y)加入高斯濾波G_σ1(x,y)、G_σ2(x,y)，得到兩幅圖像g₁(x,y)和g₂(x,y)，如下式：

g₁(x,y)＝G_σ1(x,y)×f(x,y)

g₂(x,y)＝G_σ2(x,y)×f(x,y)

其中，σ1，σ2表示不同的高斯濾波；

所述差分模塊32，用于將得到的兩幅圖像g₁(x,y)、g₂(x,y)進(jìn)行相減，得到高斯差分(DOG)圖像：

g₁(x,y)-g₂(x,y)＝G_σ1×f(x,y)-G_σ1×f(x,y)＝DoG×f(x,y)

所述比較模塊33，用于將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較，若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小，那該所述像素點(diǎn)則為極值點(diǎn)，其中，所述圖像域?yàn)槊恳粋€(gè)所述像素點(diǎn)所在的層面，所述尺度域?yàn)榕c所述圖像域相鄰上下兩層所在的層面；

所述第一刪除模塊34，用于去除對(duì)比度低的所述極值點(diǎn)，利用高斯差分函數(shù)(DOG)在尺度空間Taylor展開式分別對(duì)所述高斯差分(DOG)金字塔空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正，Taylor展開式為：

對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0，得到：

將結(jié)果代入所述Taylor展開式中得：

式中，x表示所述極值點(diǎn)，D表示所述極值點(diǎn)處的Harris響應(yīng)值，T表示轉(zhuǎn)秩，若則所述極值點(diǎn)保留，否則刪除所述極值點(diǎn)；

所述第二刪除模塊35，用于去除邊緣不穩(wěn)定的所述極值點(diǎn)，所述高斯差分函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率，在垂直邊緣的方向有較小的主曲率，主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出：

Tr(H)＝D_xx+D_yy＝α+β

Det(H)＝D_xxD_yy-(D_xy)²＝αβ

式中，H表示Hessian矩陣，Tr(H)代表Hessian矩陣的對(duì)角線元素之和，Det(H)代表Hessian矩陣的行列式。

如圖4示，為本發(fā)明選取單元4的功能框圖，所述選取單元4包括分割模塊41和選擇模塊42；

所述分割模塊41，用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中的每一幅圖像按照m×m(m＜M,M＝km,k∈Z)大小進(jìn)行分塊，統(tǒng)計(jì)每一塊中的所述穩(wěn)定關(guān)鍵點(diǎn)的個(gè)數(shù)，其中，M代表所述測(cè)試圖像的邊長(zhǎng)或所述訓(xùn)練集圖像中每一幅圖像的邊長(zhǎng)；

所述選擇模塊42，用于選擇所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域，其中，N取整數(shù)。

本發(fā)明使用高斯差分算子尋找穩(wěn)定關(guān)鍵點(diǎn)并確定特征提取區(qū)域，減少了傳統(tǒng)使用HOG特征提取時(shí)對(duì)整幅圖像進(jìn)行滑窗掃描操作，既節(jié)省了時(shí)間，又提高了效率。

如圖5示，為本發(fā)明HOG特征提取單元5的功能框圖，所述HOG特征提取單元5包括第一處理模塊51、第二處理模塊52、劃分模塊53、第一計(jì)算模塊54、第一串聯(lián)模塊55、第二串聯(lián)模塊56和轉(zhuǎn)換模塊57。

所述第一處理模塊51，用于將所述測(cè)試圖像或所述訓(xùn)練集圖像中每一幅圖像的所述前N個(gè)區(qū)域中的每一塊區(qū)域視為一個(gè)圖像，進(jìn)行灰度化；

所述第二處理模塊52，用于通過Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化，這樣，可以調(diào)節(jié)所述每一個(gè)圖像的對(duì)比度，降低所述每一個(gè)圖像局部的陰影和光照變化所造成的影響，同時(shí)抑制噪音的干擾；

所述劃分模塊53，用于將歸一化后的所述每一個(gè)圖像劃分為單元格，每2×2個(gè)像素點(diǎn)組成一個(gè)單元格；

所述第一計(jì)算模塊54，用于計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度，捕獲輪廓信息，其中，所述梯度包括大小和方向：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

G_x(x,y),G_y(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。

所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為：

梯度方向分為有符號(hào)(0-360)和無符號(hào)(0-180)兩種形式，本裝置采用的是無符號(hào)的形式，并將(0-180)分成9等分，所以，所述每一個(gè)圖像中每個(gè)所述單元格的梯度方向都分成9個(gè)方向塊，使用所述單元格中的梯度方向和大小對(duì)9個(gè)方向塊進(jìn)行加權(quán)投影，最后，每個(gè)所述單元格產(chǎn)生9維的特征。

所述第一串聯(lián)模塊55，用于將每2×2個(gè)所述單元格組成一個(gè)塊，一個(gè)塊內(nèi)所有單元格的所述特征向量串聯(lián)起來后歸一化，便得到該塊的HOG特征；

所述第二串聯(lián)模塊56，用于將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征；

變換模塊57，用于將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化，所述歸一化的過程為：對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換，如下式：

v←v/255

式中，v為特征向量，ε為常數(shù)。

本發(fā)明使用HOG特征可以讓圖像局部像素點(diǎn)之間的關(guān)系得到很好的表征，除此之外，位置和方向空間的量化在一定程度上抑制了平移和旋轉(zhuǎn)帶來的影響。

如圖6示，為本發(fā)明聚類單元6的功能框圖，所述聚類單元6包括集合模塊61、確定模塊62和第二計(jì)算模塊63；

所述集合模塊61，用于將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示；

所述確定模塊62，用于根據(jù)應(yīng)用需求確定聚類中心數(shù)值n；

所述第二計(jì)算模塊63，用于對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算，得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。

如圖7示，為本發(fā)明視覺詞袋單元7的功能框圖，所述視覺詞袋單元7包括替換模塊71和統(tǒng)計(jì)模塊72；

所述替換模塊71，用于利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度，將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替。歐氏距離為：

其中，H_a,H_b分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量，i表示所述測(cè)試圖像的HOG特征的維數(shù)。

所述統(tǒng)計(jì)模塊72，用于統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。

本發(fā)明使用視覺詞袋模型，相對(duì)基于文本的相似圖像搜索，更好地避免了語(yǔ)義鴻溝的問題。

實(shí)施例二

如圖8所示，為本發(fā)明一種基于HOG和視覺詞袋的相似圖像搜索方法的功能框圖，包括以下步驟：

S1：用于將訓(xùn)練的圖像進(jìn)行分類作為訓(xùn)練集圖像，并對(duì)測(cè)試圖像和所述訓(xùn)練集圖像的大小進(jìn)行歸一化；

S2：輸入歸一化后的所述測(cè)試圖像和所述訓(xùn)練集圖像，并對(duì)所述訓(xùn)練集圖像中的每幅圖像進(jìn)行S3-S5的步驟；

S3：通過高斯差分(DoG)算法尋找相應(yīng)圖像的穩(wěn)定關(guān)鍵點(diǎn)；

S4：選取所述穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域；

S5：對(duì)所述最密集的前N個(gè)區(qū)域進(jìn)行HOG特征提?。?/p>

S7：對(duì)輸入的所述測(cè)試圖像進(jìn)行S3-S5的操作；

S8：在所述訓(xùn)練集圖像的視覺單詞中尋找與所述測(cè)試圖像中的每一個(gè)特征最近鄰的視覺單詞，并統(tǒng)計(jì)所述測(cè)試圖像中所找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖(n維)為所述測(cè)試圖像的視覺詞袋；

S9：使用支持向量機(jī)(SVM)分類器對(duì)所述訓(xùn)練集圖像的視覺詞袋進(jìn)行訓(xùn)練，得到的模型對(duì)所述測(cè)試圖像的視覺詞袋進(jìn)行測(cè)試，得到所述測(cè)試圖像的分類結(jié)果，反饋同一類別的圖片。

所述步驟S1具體包括：

步驟S11:對(duì)要訓(xùn)練的圖像進(jìn)行分類，添加類別標(biāo)簽，并從每類中挑選相同數(shù)目的圖像作為訓(xùn)練集圖像；

步驟S12:用于對(duì)測(cè)試圖像和所述訓(xùn)練集圖像進(jìn)行尺寸大小歸一化。

所述步驟S3具體包括：

步驟S31:對(duì)所述相應(yīng)圖像f(x,y)加入高斯濾波G_σ1(x,y)、G_σ2(x,y)，得到兩幅圖像g₁(x,y)和g₂(x,y)：

g₁(x,y)＝G_σ1(x,y)×f(x,y)

g₂(x,y)＝G_σ2(x,y)×f(x,y)

σ1，σ2表示兩種不同的高斯濾波；

步驟S32:將得到的兩幅圖像g₁(x,y)、g₂(x,y)進(jìn)行相減，得到高斯差分(DOG)圖像：

g₁(x,y)-g₂(x,y)＝G_σ1×f(x,y)-G_σ1×f(x,y)＝DoG×f(x,y)

步驟S33:將高斯差分圖像中每一個(gè)像素點(diǎn)與其所有的相鄰點(diǎn)進(jìn)行比較，若每一個(gè)所述像素點(diǎn)比其圖像域和尺度域中的相鄰點(diǎn)都大或都小，那該所述像素點(diǎn)則為極值點(diǎn)，其中，所述圖像域?yàn)槊恳粋€(gè)所述像素點(diǎn)所在的層面，所述尺度域?yàn)榕c所述圖像域相鄰上下兩層所在的層面；

步驟S34：去除對(duì)比度低的所述極值點(diǎn)，利用高斯差分(DOG)函數(shù)在尺度空間Taylor展開式分別對(duì)所述高斯差分(DOG)空間的多層圖像的行、列及尺度三個(gè)分量進(jìn)行修正，Taylor展開式為：

對(duì)所述Taylor展開式進(jìn)行求導(dǎo)并令其為0，得到:

將結(jié)果代入所述Taylor展開式中得：

式中，x表示所述極值點(diǎn)，D表示所述極值點(diǎn)處的Harris響應(yīng)值，T表示轉(zhuǎn)秩，若則所述極值點(diǎn)保留，否則刪除所述極值點(diǎn)；

步驟S35：去除邊緣不穩(wěn)定的所述極值點(diǎn)，所述高斯差分(DOG)函數(shù)的極值點(diǎn)在橫跨邊緣的方向有較大的主曲率，在垂直邊緣的方向有較小的主曲率，主曲率通過計(jì)算所述極值點(diǎn)位置尺度的二階Hessian矩陣求出：

Tr(H)＝D_xx+D_yy＝α+β

Det(H)＝D_xxD_yy-(D_xy)²＝αβ

式中，H表示Hessian矩陣，Tr(H)代表Hessian矩陣的對(duì)角線元素之和，Det(H)代表Hessian矩陣的行列式。

所述步驟S4具體包括：

步驟S41：將所述相應(yīng)圖像按照m×m(m＜M,M＝km,k∈Z)的大小進(jìn)行分塊，統(tǒng)計(jì)每一塊中的所述穩(wěn)定關(guān)鍵點(diǎn)的個(gè)數(shù)，其中，M代表所述相應(yīng)圖像的邊長(zhǎng)；

步驟S42：選擇所述相應(yīng)圖像中的穩(wěn)定關(guān)鍵點(diǎn)的最密集的前N個(gè)區(qū)域，其中，N取整數(shù)。

所述步驟S5具體包括：

步驟S51：將所述相應(yīng)圖像中所述前N個(gè)區(qū)域的每一塊區(qū)域視為一個(gè)圖像，進(jìn)行灰度化；

步驟S52：采用Gamma校正法對(duì)灰度化后的每一塊區(qū)域?qū)?yīng)的每一個(gè)圖像進(jìn)行顏色空間的歸一化，這樣，可以調(diào)節(jié)所述每一個(gè)圖像的對(duì)比度，降低所述每一個(gè)圖像局部的陰影和光照變化所造成的影響，同時(shí)抑制噪音的干擾。

步驟S53：將歸一化后的所述每一個(gè)圖像劃分為單元格，每2×2個(gè)像素點(diǎn)組成一個(gè)單元格；

步驟S54：計(jì)算所述每一個(gè)圖像中每個(gè)像素點(diǎn)(x,y)的梯度，捕獲輪廓信息，其中，所述梯度包括大小和方向：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

G_x(x,y),G_y(x,y),H(x,y)分別代表所述像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。

所述像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別為：

步驟S55：將每2×2個(gè)所述單元格組成一個(gè)塊，一個(gè)塊內(nèi)所有單元格的所述特征串聯(lián)起來后歸一化，便得到該塊的HOG特征；

步驟S56：將所述每一個(gè)圖像中的所有塊的HOG特征串聯(lián)起來就得到所述每一個(gè)圖像的HOG特征；

步驟S57：將所述每一個(gè)圖像的HOG特征進(jìn)行歸一化，所述歸一化的過程為：對(duì)所述HOG特征提取后的特征向量v進(jìn)行特征變換，如下式：

v←v/255

式中，v為特征向量，ε為常數(shù)。

所述步驟S6具體包括：

步驟S61：將所述訓(xùn)練集圖像中的所有圖像的HOG特征用矩陣集合統(tǒng)一表示；

步驟S62：根據(jù)應(yīng)用需求在所述矩陣集合中確定聚類中心數(shù)值n；

步驟S63：對(duì)所述訓(xùn)練集圖像的矩陣集合進(jìn)行K-Means均值聚類計(jì)算，得到的n個(gè)聚類中心即為視覺詞袋的n個(gè)視覺單詞。

所述步驟S8具體包括：

步驟S81：利用歐式距離法計(jì)算所述測(cè)試圖像的每個(gè)HOG特征與所述視覺詞袋中每個(gè)視覺單詞的相似度，將所述測(cè)試圖像中的所述HOG特征用所述視覺詞袋中相似度最高的視覺單詞近似代替。歐氏距離為：

其中，H_a,H_b分別為所述測(cè)試圖像中的一個(gè)HOG特征向量和所述視覺詞袋中的一個(gè)視覺單詞向量，i表示所述測(cè)試圖像的HOG特征的維數(shù)。

步驟S82：統(tǒng)計(jì)所述測(cè)試圖像中找到的所有視覺單詞出現(xiàn)的頻率，得到的頻率直方圖(n維)即為所述測(cè)試圖像的視覺詞袋。

本發(fā)明使用視覺詞袋模型，相對(duì)基于文本的相似圖像搜索，更好地避免了語(yǔ)義鴻溝問題。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員，在不脫離本發(fā)明方法的前提下，還可以做出若干改進(jìn)和補(bǔ)充，這些改進(jìn)和補(bǔ)充也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許飛月;李青海;簡(jiǎn)宋全;侯大勇;
技術(shù)所有人：廣州精點(diǎn)計(jì)算機(jī)科技有限公司;
我是此專利的發(fā)明人

上一篇：一種在網(wǎng)絡(luò)操作中收藏夾操作的方法與制造工藝
上一篇：一種信息處理方法、裝置及服務(wù)器與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

視覺詞袋模型相關(guān)技術(shù)

視覺詞袋相關(guān)技術(shù)

圖像相似度算法相關(guān)技術(shù)

圖像相似度相關(guān)技術(shù)

opencv圖像相似度算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于HOG和視覺詞袋的相似圖像搜索方法和裝置與流程