基于級(jí)聯(lián)的sift特征和稀疏編碼的圖像分類方法

文檔序號(hào)：6397570閱讀：348來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于級(jí)聯(lián)的sift特征和稀疏編碼的圖像分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域，涉及圖像的分類方法，可用于物體或目標(biāo)的識(shí)別，從而可用于目標(biāo)的檢測(cè)和跟蹤。
背景技術(shù)：
圖像的分類與識(shí)別一直是圖像處理領(lǐng)域和計(jì)算機(jī)視覺(jué)領(lǐng)域研究的重點(diǎn)之一，現(xiàn)階段國(guó)內(nèi)外關(guān)于目標(biāo)識(shí)別與圖像分類的研究蓬勃發(fā)展，目標(biāo)識(shí)別廣泛地應(yīng)用于圖像全景制作、圖像水印、機(jī)器人全局定位、人臉檢測(cè)、光學(xué)字符識(shí)別、制造質(zhì)量控制、基于內(nèi)容的圖像檢索、目標(biāo)計(jì)數(shù)及監(jiān)測(cè)、自動(dòng)車輛停車系統(tǒng)、視覺(jué)定位及跟蹤和視頻去抖動(dòng)等領(lǐng)域。而圖像的分類和識(shí)別結(jié)果的好壞很大程度上依賴于如何進(jìn)行圖像的有效表示。近年來(lái)，隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的不斷發(fā)展，有效的構(gòu)建圖像表示越來(lái)越成為該領(lǐng)域內(nèi)研究者們關(guān)注的重點(diǎn)，它直接關(guān)系到圖像分類與識(shí)別的正確率，是對(duì)圖像進(jìn)行有效分類的關(guān)鍵步驟。在計(jì)算機(jī)視覺(jué)領(lǐng)域，圖像表示，又稱為視覺(jué)描述子或圖像描述子，是對(duì)圖像、視頻中的內(nèi)容所具有的視覺(jué)特征的一種描述。它們描述了圖像中的基本特征，比如形狀、顏色、紋理或者運(yùn)動(dòng)。具體來(lái)說(shuō)，為了找到數(shù)字圖像中的像素和人們?cè)诳戳艘环蛞幌盗袌D像后形成的影像這兩者之間的聯(lián)系，尋找最合適的圖像描述子就是建立這種聯(lián)系的第一步。隨著計(jì)算機(jī)視覺(jué)的不斷發(fā)展，高效的圖像描述子在圖像處理的各種應(yīng)用中越來(lái)越具有顯著的重要性，密切關(guān)系到對(duì)圖像的進(jìn)一步處理及應(yīng)用效果的好壞，比如圖像分類、目標(biāo)的檢測(cè)與跟蹤。目前，為了尋求高效的圖像描述，在圖像分類和目標(biāo)識(shí)別方面，級(jí)聯(lián)的深度網(wǎng)絡(luò)得到了飛速的發(fā)展，其在圖像描述方面的應(yīng)用也得到了進(jìn)一步的挖掘。當(dāng)前的圖像描述子構(gòu)建主要分為兩大模塊基于底層圖像特征的構(gòu)建和基于圖像像素的構(gòu)建。基于底層特征的方法當(dāng)前主要是和單層網(wǎng)絡(luò)相結(jié)合而存在，例如，J. Yang提出的基于稀疏編碼線性空間金字塔匹配方法(Linear Spatial Pyramid MatchingusingSparse Coding)和 A. Coates 和 A. Ng 提出的軟域值投票方法(soft thresholdvoting)，其缺點(diǎn)是(1)底層特征存在著冗余，沒(méi)有進(jìn)行精簡(jiǎn)的特征會(huì)增加后期圖像分類的模糊性；(2)直接使用底層的特征丟失了局部圖像塊的結(jié)構(gòu)化信息；(3)單層的網(wǎng)絡(luò)不能有效地模擬人的視覺(jué)注意機(jī)制?；趫D像像素的方法，例如，L. Bo提出的級(jí)聯(lián)匹配追蹤(Hierarchical Matching Pursuit)和 K. Yu 提出的級(jí)聯(lián)稀疏編碼(HierarchicalSparseCoding),其最顯著的缺點(diǎn)是沒(méi)有局部圖像塊的結(jié)構(gòu)化信息。綜上所述，以上方法存在的不足有一方面沒(méi)有精簡(jiǎn)原始的圖像特征，導(dǎo)致提取出的圖像底層特征具有的冗余信息沒(méi)有去除，并且原始的圖像特征沒(méi)有捕獲到局部圖像塊的結(jié)構(gòu)化信息；另一方面單層網(wǎng)絡(luò)構(gòu)建的圖像特征表征的信息沒(méi)有深度，對(duì)圖像中局部較顯著的細(xì)節(jié)不能較好的描述，不能較好的模擬人在看到一幅圖像后進(jìn)行深度挖掘圖像中的關(guān)鍵信息的能力，比如定位到圖像中對(duì)比度較強(qiáng)或邊緣較顯著的部分。由于以上原因?qū)е伦罱K圖像分類的正確率相對(duì)低。

發(fā)明內(nèi)容
針對(duì)以上的不足，本發(fā)明提出了一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，以精簡(jiǎn)圖像原始的SIFT特征，去除相對(duì)冗余的部分，提高圖像分類的正確率。實(shí)現(xiàn)本發(fā)明目的的技術(shù)思路是從圖像的局部到全局，一級(jí)一級(jí)地構(gòu)建圖像的特征，在第一級(jí)圖像特征的構(gòu)建中通過(guò)一個(gè)三層的空間金字塔最大化池方法精簡(jiǎn)原始的圖像特征，去除相對(duì)冗余的部分，并且加入局部圖像塊的結(jié)構(gòu)化信息；在第二級(jí)圖像特征構(gòu)建中通過(guò)稀疏編碼和空間金字塔最大化池方法相結(jié)合，加入圖像整體結(jié)構(gòu)化信息，進(jìn)一步提取出了第一級(jí)輸出的圖像特征中的顯著部分，以提高圖像分類的準(zhǔn)確性。其實(shí)現(xiàn)步驟包括如下(I)將Caltech-1Ol數(shù)據(jù)集中每個(gè)圖像按8像素的步長(zhǎng)分成32X32像素大小的塊，提取每個(gè)圖像塊的尺度不變特征SIFT，得到一個(gè)512維的原始尺度不變SIFT特征向(2)對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y ；(3)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D，其中每一塊的特征向量為新特征向量y ；(4)對(duì)每一幅圖像中所有塊的新特征向量y，通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼，得到稀疏表示X ;(5)對(duì)于每一幅圖像，對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征，得到整幅圖像的特征表示I;(6)把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器，經(jīng)過(guò)訓(xùn)練測(cè)試，得到圖像的最終分類結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)1、對(duì)原始的SIFT特征應(yīng)用空間金字塔最大化池方法，不僅提取到原始SIFT特征中的顯著性部分，去除了冗余的部分，相對(duì)降低了圖像塊的SIFT特征維數(shù)，而且三層的空間金字塔模型捕獲了局部圖像塊的結(jié)構(gòu)化信息；2、對(duì)空間金字塔最大化池方法處理后的SIFT特征進(jìn)行稀疏表示，然后再對(duì)稀疏表示進(jìn)行空間金字塔最大化池方法處理，不僅捕獲了整幅圖像的結(jié)構(gòu)化信息，而且最終得到一個(gè)高維的、稀疏的圖像特征表示，這就可以利用簡(jiǎn)單的線性SVM分類器達(dá)到甚至優(yōu)于非線性SVM分類器的效果；3、對(duì)原始SIFT特征和稀疏編碼采用級(jí)聯(lián)的空間金字塔最大化池方法處理，不僅整合了局部圖像塊的結(jié)構(gòu)化信息和整幅圖像的結(jié)構(gòu)化信息，而且更好的模擬了人在看到一幅圖像后深度挖掘局部圖像細(xì)節(jié)的能力；仿真實(shí)驗(yàn)表明，本發(fā)明的圖像分類效果比現(xiàn)有的圖像分類效果好。

圖1是本發(fā)明的實(shí)現(xiàn)流程圖；圖2是本發(fā)明構(gòu)建圖像特征表示的示意圖；圖3是用于仿真實(shí)驗(yàn)的Caltech-1Ol數(shù)據(jù)集圖像。
具體實(shí)施例方式參照?qǐng)D1，本發(fā)明的實(shí)現(xiàn)步驟如下步驟1，提取圖像的尺度不變SIFT特征向量(Ia)對(duì)32X32像素大小的圖像塊進(jìn)行高斯濾波，其中高斯濾波塊的均值為0，方差為1，大小為5X5 ；(Ib)對(duì)高斯濾波后的圖像塊求出每一個(gè)像素點(diǎn)的梯度，包括模值和方向；(Ic)統(tǒng)計(jì)每個(gè)4X4像素的圖像塊內(nèi)每個(gè)像素點(diǎn)分別在8個(gè)方向上的投影大小之和，產(chǎn)生一個(gè)8維的特征向量，其中只統(tǒng)計(jì)正值，8個(gè)方向分別為O度，45度，90度，135度，180度，225度，270度，315度，對(duì)于32X32像素大小的圖像塊內(nèi)64個(gè)4X4像素的圖像塊的8維特征向量，提取到的尺度不變SIFT特征向量為512維。步驟2，對(duì)提取的尺度不變SIFT特征應(yīng)用空間金字塔最大化池方法，提取出原始尺度不變SIFT特征中的顯著性特征。(2a)對(duì)整個(gè)32X32像素大小的圖像塊中64個(gè)8維的SIFT特征向量的每一維，求出64個(gè)圖像塊中在該維數(shù)上的最大值，得到一個(gè)8維的特征向量，即把64個(gè)8維的SIFT特征向量寫成一個(gè)8X64的矩陣，求出矩陣中每一行的最大值，得到一個(gè)8維的特征向量；(2b)把32X32像素大小的圖像塊分成16X16像素的4個(gè)圖像塊，對(duì)于每一個(gè)16X16像素塊應(yīng)用步驟(2a)所述方法，共計(jì)得到4個(gè)8維的特征向量；(2c)把32 X 32像素大小的圖像塊分成8X8像素的16個(gè)圖像塊，對(duì)于每一個(gè)8X8像素塊應(yīng)用步驟(2a)所述方法，得到16個(gè)8維的特征向量；(2d)連接上面得到的21個(gè)8維特征向量，得到一個(gè)168維的新特征向量y。步驟3，隨機(jī)從步驟2得到的新特征向量中選取200000個(gè)訓(xùn)練字典D (3a)對(duì)于Caltech-101數(shù)據(jù)集中所有的32X32像素大小的塊，隨機(jī)從中選取200000塊，其中每一塊的特征向量為168維的新特征向量y，用所有200000圖像塊的新特征向量組成矩陣Y，矩陣Y的大小為168 X 200000，其中每一列表示一個(gè)32 X 32像素大小圖像塊的新特征向量；(3b)從矩陣Y中隨機(jī)選取1024個(gè)新特征向量初始化字典D，即字典D的大小為168X1024,其中每一列表一個(gè)新特征向量；(3c)通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D，即從優(yōu)化方程Y-DX ||^}，Vi, IxiI I0^ T0, I ^ I ^ 200000中，求出字典D的近似解，其中Xi表示X的第i列；TQ為稀疏度，取值為5 ; I I Xi I I ^表示向量Xi的O范數(shù)，即向量Xi中非零元素的個(gè)數(shù)；Il Y -DXII；表示矩陣Y-DX的F范數(shù)的平方，求解步驟如下(3cl)固定字典D不變，通過(guò)正交匹配追蹤方法解出Y中每一列Ii對(duì)應(yīng)的稀疏表示 Xi，其中200000 ；(3c2)定義式
權(quán)利要求
1.一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，包括如下步驟(1)將Caltech-1Ol數(shù)據(jù)集中每幅圖像按8像素的步長(zhǎng)分成32X32像素大小的塊，提取每個(gè)圖像塊的尺度不變特征SIFT，得到一個(gè)512維的原始尺度不變SIFT特征向量；(2)對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y ；(3)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D，其中每一塊的特征向量為新特征向量y ；(4)對(duì)每一幅圖像中所有塊的新特征向量y，通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼，得到稀疏表示X ;(5)對(duì)于每一幅圖像，對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征，得到整幅圖像的特征表示I ;(6)把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器，經(jīng)過(guò)訓(xùn)練測(cè)試，得到圖像的最終分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(I)所述的提取每個(gè)圖像塊的尺度不變特征SIFT，按如下步驟進(jìn)行(Ia)對(duì)32X32像素大小的圖像塊進(jìn)行高斯濾波，其中高斯濾波塊的均值為0，方差為 1，大小為5X5 ；(Ib)對(duì)高斯濾波后的圖像塊求出每一個(gè)像素點(diǎn)的梯度，包括模值和方向；(Ic)統(tǒng)計(jì)每個(gè)4X 4像素的圖像塊內(nèi)每個(gè)像素點(diǎn)分別在8個(gè)方向上的投影大小之和，產(chǎn)生一個(gè)8維的特征向量，其中只統(tǒng)計(jì)正值，8個(gè)方向分別為O度，45度，90度，135度，180 度，225度，270度，315度，對(duì)于32 X 32像素大小的圖像塊內(nèi)64個(gè)4 X 4像素的圖像塊的8 維特征向量，提取到的尺度不變SIFT特征向量為512維。
3.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(2)所述的對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y，按如下步驟進(jìn)行(2a)對(duì)整個(gè)32X32像素大小的圖像塊中64個(gè)8維的SIFT特征向量的每一維，求出 64個(gè)圖像塊中在該維數(shù)上的最大值，得到一個(gè)8維的特征向量；(2b)把32X32像素大小的圖像塊分成16X 16像素的4個(gè)圖像塊，對(duì)于每一個(gè)16X 16 像素塊應(yīng)用步驟(2a)所述方法，共計(jì)得到4個(gè)8維的特征向量；(2c)把32X32像素大小的圖像塊分成8X8像素的16個(gè)圖像塊，對(duì)于每一個(gè)8X8像素塊應(yīng)用步驟(2a)所述方法，得到16個(gè)8維的特征向量；(2d)連接上面得到的21個(gè)8維特征向量，得到一個(gè)168維的新特征向量I。
4.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(3)所述的隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000 塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D，按如下步驟進(jìn)行(3a)對(duì)于Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的塊，隨機(jī)從中選取200000 塊，其中每一塊的特征向量為168維的新特征向量y，用所有200000圖像塊的新特征向量組成矩陣Y，矩陣的大小為168X200000 ；(3b)從矩陣Y中再隨機(jī)選取1024個(gè)特征向量初始化字典D，即字典D的大小為168X1024 ；(3c)通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D，即從優(yōu)化方程求出字典D的近似解，其中Xi表示X的第i列Jtl為稀疏度，設(shè)為5。
5.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(4)所述的對(duì)每一幅圖像中所有塊的新特征向量y，通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼，得到稀疏表示X，即x=DTy,其中Dt表示D的轉(zhuǎn)置。
6.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(5)所述的對(duì)于每一幅圖像，對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征，按如下步驟進(jìn)行(5a)對(duì)整幅圖像中所有32X32像素大小的圖像塊的稀疏表示，求出其各個(gè)維度的最大值，得到一個(gè)1024維的特征向量；(5b)把整幅圖像分為2X2的4個(gè)圖像塊，求出每一個(gè)圖像塊中所有稀疏表示在各個(gè)維度的最大值，得到共4個(gè)1024維的特征向量；(5c)把整幅圖像分為4X4的16個(gè)圖像塊，求出每一個(gè)圖像塊中所有稀疏表示在各個(gè)維度的最大值，得到共16個(gè)1024維的特征向量；(5d)將步驟(5a)、(5b)、(5c)所得到的共21個(gè)1024維的特征向量合成，得到21504維的整幅圖像特征表示I ;(5e)對(duì)Caltech-1Ol數(shù)據(jù)集中所有的圖像重復(fù)步驟(5a) (5d)，得到Caltech-101數(shù)據(jù)集中所有圖像的特征表示。
7.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法，其中步驟(6)所述的把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器，經(jīng)過(guò)訓(xùn)練測(cè)試，得到圖像的最終分類結(jié)果，按如下步驟進(jìn)行(6a)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中每一類圖像的特征表示中選取30個(gè)作為訓(xùn)練樣本，其余的作為測(cè)試樣本；(6b)將步驟(6a)隨機(jī)選取的30個(gè)特征表示，輸入到線性支撐矢量機(jī)SVM分類器中進(jìn)行訓(xùn)練，得到訓(xùn)練好的SVM分類器；(6c)把步驟(6a)中得到的測(cè)試樣本輸入到步驟(6b)訓(xùn)練好的SVM分類器，得到圖像的最終分類結(jié)果。
全文摘要
本發(fā)明公開一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法。其實(shí)現(xiàn)步驟為(1)將數(shù)據(jù)集中每幅圖像按8像素步長(zhǎng)、32×32像素塊，提取512維尺度不變SIFT特征；(2)對(duì)每個(gè)圖像塊的SIFT特征應(yīng)用空間最大化池方法得到168維的向量y；(3)隨機(jī)從數(shù)據(jù)集中所有32×32的圖像塊中選取數(shù)塊，通過(guò)K-奇異值分解方法訓(xùn)練字典D；(4)對(duì)每一幅圖像中所有塊的向量y，通過(guò)字典D進(jìn)行稀疏表示；(5)對(duì)于每一幅圖像中所有的稀疏表示應(yīng)用步驟(2)方法，得到整幅圖像的特征表示；(6)將圖像的特征表示輸入到線性SVM分類器，得到圖像的分類結(jié)果。本發(fā)明具有捕獲圖像局部結(jié)構(gòu)化信息，去除圖像底層特征冗余的優(yōu)點(diǎn)，可用于目標(biāo)識(shí)別。
文檔編號(hào)G06K9/62GK103020647SQ20131000632
公開日2013年4月3日申請(qǐng)日期2013年1月8日優(yōu)先權(quán)日2013年1月8日
發(fā)明者韓紅, 韓啟強(qiáng), 張紅蕾, 謝福強(qiáng), 顧建銀, 李曉君申請(qǐng)人:西安電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韓紅;韓啟強(qiáng);張紅蕾;謝福強(qiáng);顧建銀;李曉君
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像稀疏編碼相關(guān)技術(shù)

圖像的稀疏編碼相關(guān)技術(shù)

級(jí)聯(lián)編碼相關(guān)技術(shù)

編碼器級(jí)聯(lián)相關(guān)技術(shù)

圖像稀疏表示相關(guān)技術(shù)

圖像的稀疏表示相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于級(jí)聯(lián)的sift特征和稀疏編碼的圖像分類方法