專利名稱:基于級(jí)聯(lián)的sift特征和稀疏編碼的圖像分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及圖像的分類方法,可用于物體或目標(biāo)的識(shí)別,從而可用于目標(biāo)的檢測(cè)和跟蹤。
背景技術(shù):
圖像的分類與識(shí)別一直是圖像處理領(lǐng)域和計(jì)算機(jī)視覺(jué)領(lǐng)域研究的重點(diǎn)之一,現(xiàn)階段國(guó)內(nèi)外關(guān)于目標(biāo)識(shí)別與圖像分類的研究蓬勃發(fā)展,目標(biāo)識(shí)別廣泛地應(yīng)用于圖像全景制作、圖像水印、機(jī)器人全局定位、人臉檢測(cè)、光學(xué)字符識(shí)別、制造質(zhì)量控制、基于內(nèi)容的圖像檢索、目標(biāo)計(jì)數(shù)及監(jiān)測(cè)、自動(dòng)車輛停車系統(tǒng)、視覺(jué)定位及跟蹤和視頻去抖動(dòng)等領(lǐng)域。而圖像的分類和識(shí)別結(jié)果的好壞很大程度上依賴于如何進(jìn)行圖像的有效表示。近年來(lái),隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的不斷發(fā)展,有效的構(gòu)建圖像表示越來(lái)越成為該領(lǐng)域內(nèi)研究者們關(guān)注的重點(diǎn),它直接關(guān)系到圖像分類與識(shí)別的正確率,是對(duì)圖像進(jìn)行有效分類的關(guān)鍵步驟。在計(jì)算機(jī)視覺(jué)領(lǐng)域,圖像表示,又稱為視覺(jué)描述子或圖像描述子,是對(duì)圖像、視頻中的內(nèi)容所具有的視覺(jué)特征的一種描述。它們描述了圖像中的基本特征,比如形狀、顏色、紋理或者運(yùn)動(dòng)。具體來(lái)說(shuō),為了找到數(shù)字圖像中的像素和人們?cè)诳戳艘环蛞幌盗袌D像后形成的影像這兩者之間的聯(lián)系,尋找最合適的圖像描述子就是建立這種聯(lián)系的第一步。隨著計(jì)算機(jī)視覺(jué)的不斷發(fā)展,高效的圖像描述子在圖像處理的各種應(yīng)用中越來(lái)越具有顯著的重要性,密切關(guān)系到對(duì)圖像的進(jìn)一步處理及應(yīng)用效果的好壞,比如圖像分類、目標(biāo)的檢測(cè)與跟蹤。目前,為了尋求高效的圖像描述,在圖像分類和目標(biāo)識(shí)別方面,級(jí)聯(lián)的深度網(wǎng)絡(luò)得到了飛速的發(fā)展,其在圖像描述方面的應(yīng)用也得到了進(jìn)一步的挖掘。當(dāng)前的圖像描述子構(gòu)建主要分為兩大模塊基于底層圖像特征的構(gòu)建和基于圖像像素的構(gòu)建。基于底層特征的方法當(dāng)前主要是和單層網(wǎng)絡(luò)相結(jié)合而存在,例如,J. Yang提出的基于稀疏編碼線性空間金字塔匹配方法(Linear Spatial Pyramid MatchingusingSparse Coding)和 A. Coates 和 A. Ng 提出的軟域值投票方法(soft thresholdvoting),其缺點(diǎn)是(1)底層特征存在著冗余,沒(méi)有進(jìn)行精簡(jiǎn)的特征會(huì)增加后期圖像分類的模糊性;(2)直接使用底層的特征丟失了局部圖像塊的結(jié)構(gòu)化信息;(3)單層的網(wǎng)絡(luò)不能有效地模擬人的視覺(jué)注意機(jī)制?;趫D像像素的方法,例如,L. Bo提出的級(jí)聯(lián)匹配追蹤(Hierarchical Matching Pursuit)和 K. Yu 提出的級(jí)聯(lián)稀疏編碼(HierarchicalSparseCoding),其最顯著的缺點(diǎn)是沒(méi)有局部圖像塊的結(jié)構(gòu)化信息。綜上所述,以上方法存在的不足有一方面沒(méi)有精簡(jiǎn)原始的圖像特征,導(dǎo)致提取出的圖像底層特征具有的冗余信息沒(méi)有去除,并且原始的圖像特征沒(méi)有捕獲到局部圖像塊的結(jié)構(gòu)化信息;另一方面單層網(wǎng)絡(luò)構(gòu)建的圖像特征表征的信息沒(méi)有深度,對(duì)圖像中局部較顯著的細(xì)節(jié)不能較好的描述,不能較好的模擬人在看到一幅圖像后進(jìn)行深度挖掘圖像中的關(guān)鍵信息的能力,比如定位到圖像中對(duì)比度較強(qiáng)或邊緣較顯著的部分。由于以上原因?qū)е伦罱K圖像分類的正確率相對(duì)低。
發(fā)明內(nèi)容
針對(duì)以上的不足,本發(fā)明提出了一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,以精簡(jiǎn)圖像原始的SIFT特征,去除相對(duì)冗余的部分,提高圖像分類的正確率。實(shí)現(xiàn)本發(fā)明目的的技術(shù)思路是從圖像的局部到全局,一級(jí)一級(jí)地構(gòu)建圖像的特征,在第一級(jí)圖像特征的構(gòu)建中通過(guò)一個(gè)三層的空間金字塔最大化池方法精簡(jiǎn)原始的圖像特征,去除相對(duì)冗余的部分,并且加入局部圖像塊的結(jié)構(gòu)化信息;在第二級(jí)圖像特征構(gòu)建中通過(guò)稀疏編碼和空間金字塔最大化池方法相結(jié)合,加入圖像整體結(jié)構(gòu)化信息,進(jìn)一步提取出了第一級(jí)輸出的圖像特征中的顯著部分,以提高圖像分類的準(zhǔn)確性。其實(shí)現(xiàn)步驟包括如下(I)將Caltech-1Ol數(shù)據(jù)集中每個(gè)圖像按8像素的步長(zhǎng)分成32X32像素大小的塊,提取每個(gè)圖像塊的尺度不變特征SIFT,得到一個(gè)512維的原始尺度不變SIFT特征向(2)對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y ;(3)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,其中每一塊的特征向量為新特征向量y ;(4)對(duì)每一幅圖像中所有塊的新特征向量y,通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼,得到稀疏表示X ;(5)對(duì)于每一幅圖像,對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征,得到整幅圖像的特征表示I;(6)把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器,經(jīng)過(guò)訓(xùn)練測(cè)試,得到圖像的最終分類結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)1、對(duì)原始的SIFT特征應(yīng)用空間金字塔最大化池方法,不僅提取到原始SIFT特征中的顯著性部分,去除了冗余的部分,相對(duì)降低了圖像塊的SIFT特征維數(shù),而且三層的空間金字塔模型捕獲了局部圖像塊的結(jié)構(gòu)化信息;2、對(duì)空間金字塔最大化池方法處理后的SIFT特征進(jìn)行稀疏表示,然后再對(duì)稀疏表示進(jìn)行空間金字塔最大化池方法處理,不僅捕獲了整幅圖像的結(jié)構(gòu)化信息,而且最終得到一個(gè)高維的、稀疏的圖像特征表示,這就可以利用簡(jiǎn)單的線性SVM分類器達(dá)到甚至優(yōu)于非線性SVM分類器的效果;3、對(duì)原始SIFT特征和稀疏編碼采用級(jí)聯(lián)的空間金字塔最大化池方法處理,不僅整合了局部圖像塊的結(jié)構(gòu)化信息和整幅圖像的結(jié)構(gòu)化信息,而且更好的模擬了人在看到一幅圖像后深度挖掘局部圖像細(xì)節(jié)的能力;仿真實(shí)驗(yàn)表明,本發(fā)明的圖像分類效果比現(xiàn)有的圖像分類效果好。
圖1是本發(fā)明的實(shí)現(xiàn)流程圖;圖2是本發(fā)明構(gòu)建圖像特征表示的示意圖;圖3是用于仿真實(shí)驗(yàn)的Caltech-1Ol數(shù)據(jù)集圖像。
具體實(shí)施例方式參照?qǐng)D1,本發(fā)明的實(shí)現(xiàn)步驟如下步驟1,提取圖像的尺度不變SIFT特征向量(Ia)對(duì)32X32像素大小的圖像塊進(jìn)行高斯濾波,其中高斯濾波塊的均值為0,方差為1,大小為5X5 ;(Ib)對(duì)高斯濾波后的圖像塊求出每一個(gè)像素點(diǎn)的梯度,包括模值和方向;(Ic)統(tǒng)計(jì)每個(gè)4X4像素的圖像塊內(nèi)每個(gè)像素點(diǎn)分別在8個(gè)方向上的投影大小之和,產(chǎn)生一個(gè)8維的特征向量,其中只統(tǒng)計(jì)正值,8個(gè)方向分別為O度,45度,90度,135度,180度,225度,270度,315度,對(duì)于32X32像素大小的圖像塊內(nèi)64個(gè)4X4像素的圖像塊的8維特征向量,提取到的尺度不變SIFT特征向量為512維。步驟2,對(duì)提取的尺度不變SIFT特征應(yīng)用空間金字塔最大化池方法,提取出原始尺度不變SIFT特征中的顯著性特征。(2a)對(duì)整個(gè)32X32像素大小的圖像塊中64個(gè)8維的SIFT特征向量的每一維,求出64個(gè)圖像塊中在該維數(shù)上的最大值,得到一個(gè)8維的特征向量,即把64個(gè)8維的SIFT特征向量寫成一個(gè)8X64的矩陣,求出矩陣中每一行的最大值,得到一個(gè)8維的特征向量;(2b)把32X32像素大小的圖像塊分成16X16像素的4個(gè)圖像塊,對(duì)于每一個(gè)16X16像素塊應(yīng)用步驟(2a)所述方法,共計(jì)得到4個(gè)8維的特征向量;(2c)把32 X 32像素大小的圖像塊分成8X8像素的16個(gè)圖像塊,對(duì)于每一個(gè)8X8像素塊應(yīng)用步驟(2a)所述方法,得到16個(gè)8維的特征向量;(2d)連接上面得到的21個(gè)8維特征向量,得到一個(gè)168維的新特征向量y。步驟3,隨機(jī)從步驟2得到的新特征向量中選取200000個(gè)訓(xùn)練字典D (3a)對(duì)于Caltech-101數(shù)據(jù)集中所有的32X32像素大小的塊,隨機(jī)從中選取200000塊,其中每一塊的特征向量為168維的新特征向量y,用所有200000圖像塊的新特征向量組成矩陣Y,矩陣Y的大小為168 X 200000,其中每一列表示一個(gè)32 X 32像素大小圖像塊的新特征向量;(3b)從矩陣Y中隨機(jī)選取1024個(gè)新特征向量初始化字典D,即字典D的大小為168X1024,其中每一列表一個(gè)新特征向量;(3c)通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,即從優(yōu)化方程Y-DX ||^},Vi, IxiI I0^ T0, I ^ I ^ 200000中,求出字典D的近似解,其中Xi表示X的第i列;TQ為稀疏度,取值為5 ; I I Xi I I ^表示向量Xi的O范數(shù),即向量Xi中非零元素的個(gè)數(shù);Il Y -DXII;表示矩陣Y-DX的F范數(shù)的平方,求解步驟如下(3cl)固定字典D不變,通過(guò)正交匹配追蹤方法解出Y中每一列Ii對(duì)應(yīng)的稀疏表示 Xi,其中200000 ;(3c2)定義式
權(quán)利要求
1.一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,包括如下步驟(1)將Caltech-1Ol數(shù)據(jù)集中每幅圖像按8像素的步長(zhǎng)分成32X32像素大小的塊,提取每個(gè)圖像塊的尺度不變特征SIFT,得到一個(gè)512維的原始尺度不變SIFT特征向量;(2)對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y ;(3)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,其中每一塊的特征向量為新特征向量y ;(4)對(duì)每一幅圖像中所有塊的新特征向量y,通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼, 得到稀疏表示X ;(5)對(duì)于每一幅圖像,對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征,得到整幅圖像的特征表示I ;(6)把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器,經(jīng)過(guò)訓(xùn)練測(cè)試,得到圖像的最終分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(I)所述的提取每個(gè)圖像塊的尺度不變特征SIFT,按如下步驟進(jìn)行(Ia)對(duì)32X32像素大小的圖像塊進(jìn)行高斯濾波,其中高斯濾波塊的均值為0,方差為 1,大小為5X5 ;(Ib)對(duì)高斯濾波后的圖像塊求出每一個(gè)像素點(diǎn)的梯度,包括模值和方向;(Ic)統(tǒng)計(jì)每個(gè)4X 4像素的圖像塊內(nèi)每個(gè)像素點(diǎn)分別在8個(gè)方向上的投影大小之和, 產(chǎn)生一個(gè)8維的特征向量,其中只統(tǒng)計(jì)正值,8個(gè)方向分別為O度,45度,90度,135度,180 度,225度,270度,315度,對(duì)于32 X 32像素大小的圖像塊內(nèi)64個(gè)4 X 4像素的圖像塊的8 維特征向量,提取到的尺度不變SIFT特征向量為512維。
3.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(2)所述的對(duì)每個(gè)圖像塊中的SIFT特征利用空間金字塔最大化池方法得到168維的新特征向量y,按如下步驟進(jìn)行(2a)對(duì)整個(gè)32X32像素大小的圖像塊中64個(gè)8維的SIFT特征向量的每一維,求出 64個(gè)圖像塊中在該維數(shù)上的最大值,得到一個(gè)8維的特征向量;(2b)把32X32像素大小的圖像塊分成16X 16像素的4個(gè)圖像塊,對(duì)于每一個(gè)16X 16 像素塊應(yīng)用步驟(2a)所述方法,共計(jì)得到4個(gè)8維的特征向量;(2c)把32X32像素大小的圖像塊分成8X8像素的16個(gè)圖像塊,對(duì)于每一個(gè)8X8像素塊應(yīng)用步驟(2a)所述方法,得到16個(gè)8維的特征向量;(2d)連接上面得到的21個(gè)8維特征向量,得到一個(gè)168維的新特征向量I。
4.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(3)所述的隨機(jī)從Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的圖像塊中選取200000 塊通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,按如下步驟進(jìn)行(3a)對(duì)于Caltech-1Ol數(shù)據(jù)集中所有的32X32像素大小的塊,隨機(jī)從中選取200000 塊,其中每一塊的特征向量為168維的新特征向量y,用所有200000圖像塊的新特征向量組成矩陣Y,矩陣的大小為168X200000 ;(3b)從矩陣Y中再隨機(jī)選取1024個(gè)特征向量初始化字典D,即字典D的大小為168X1024 ;(3c)通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,即從優(yōu)化方程求出字典D的近似解,其中Xi表示X的第i列Jtl為稀疏度,設(shè)為5。
5.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(4)所述的對(duì)每一幅圖像中所有塊的新特征向量y,通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼,得到稀疏表示X,即x=DTy,其中Dt表示D的轉(zhuǎn)置。
6.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(5)所述的對(duì)于每一幅圖像,對(duì)其稀疏表示矩陣X再次運(yùn)用空間金字塔最大化池方法整合圖像塊中的顯著性特征,按如下步驟進(jìn)行(5a)對(duì)整幅圖像中所有32X32像素大小的圖像塊的稀疏表示,求出其各個(gè)維度的最大值,得到一個(gè)1024維的特征向量;(5b)把整幅圖像分為2X2的4個(gè)圖像塊,求出每一個(gè)圖像塊中所有稀疏表示在各個(gè)維度的最大值,得到共4個(gè)1024維的特征向量;(5c)把整幅圖像分為4X4的16個(gè)圖像塊,求出每一個(gè)圖像塊中所有稀疏表示在各個(gè)維度的最大值,得到共16個(gè)1024維的特征向量;(5d)將步驟(5a)、(5b)、(5c)所得到的共21個(gè)1024維的特征向量合成,得到21504維的整幅圖像特征表示I ;(5e)對(duì)Caltech-1Ol數(shù)據(jù)集中所有的圖像重復(fù)步驟(5a) (5d),得到Caltech-101數(shù)據(jù)集中所有圖像的特征表示。
7.根據(jù)權(quán)利要求1所述的基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法,其中步驟(6)所述的把圖像的特征表示I輸入到線性支撐矢量機(jī)SVM分類器,經(jīng)過(guò)訓(xùn)練測(cè)試,得到圖像的最終分類結(jié)果,按如下步驟進(jìn)行(6a)隨機(jī)從Caltech-1Ol數(shù)據(jù)集中每一類圖像的特征表示中選取30個(gè)作為訓(xùn)練樣本, 其余的作為測(cè)試樣本;(6b)將步驟(6a)隨機(jī)選取的30個(gè)特征表示,輸入到線性支撐矢量機(jī)SVM分類器中進(jìn)行訓(xùn)練,得到訓(xùn)練好的SVM分類器;(6c)把步驟(6a)中得到的測(cè)試樣本輸入到步驟(6b)訓(xùn)練好的SVM分類器,得到圖像的最終分類結(jié)果。
全文摘要
本發(fā)明公開一種基于級(jí)聯(lián)的SIFT特征和稀疏編碼的圖像分類方法。其實(shí)現(xiàn)步驟為(1)將數(shù)據(jù)集中每幅圖像按8像素步長(zhǎng)、32×32像素塊,提取512維尺度不變SIFT特征;(2)對(duì)每個(gè)圖像塊的SIFT特征應(yīng)用空間最大化池方法得到168維的向量y;(3)隨機(jī)從數(shù)據(jù)集中所有32×32的圖像塊中選取數(shù)塊,通過(guò)K-奇異值分解方法訓(xùn)練字典D;(4)對(duì)每一幅圖像中所有塊的向量y,通過(guò)字典D進(jìn)行稀疏表示;(5)對(duì)于每一幅圖像中所有的稀疏表示應(yīng)用步驟(2)方法,得到整幅圖像的特征表示;(6)將圖像的特征表示輸入到線性SVM分類器,得到圖像的分類結(jié)果。本發(fā)明具有捕獲圖像局部結(jié)構(gòu)化信息,去除圖像底層特征冗余的優(yōu)點(diǎn),可用于目標(biāo)識(shí)別。
文檔編號(hào)G06K9/62GK103020647SQ20131000632
公開日2013年4月3日 申請(qǐng)日期2013年1月8日 優(yōu)先權(quán)日2013年1月8日
發(fā)明者韓紅, 韓啟強(qiáng), 張紅蕾, 謝福強(qiáng), 顧建銀, 李曉君 申請(qǐng)人:西安電子科技大學(xué)