專利名稱:基于最鄰近標簽傳播算法的圖像型垃圾郵件檢測方法
技術(shù)領(lǐng)域:
本發(fā)明是利用基于最鄰近標簽傳播算法檢測圖像型垃圾郵件。主要思想是:首先獲取圖片聚類中心點信息;然后提取所有圖片的加速魯棒性特征描述符信息,進行均值聚類;最后采用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件。主要解決了當今的技術(shù)對圖像型垃圾郵件的檢測效率和召回率低等問題,屬于數(shù)據(jù)挖掘和機器學習領(lǐng)域。
背景技術(shù):
電子郵件是人們進行網(wǎng)絡交流溝通的重要途徑,因此隨著電子郵件的流行,產(chǎn)生了垃圾郵件,并呈現(xiàn)了快速增長的趨勢。雖然帶來了巨大的商業(yè)、經(jīng)濟及政治利益,但是企業(yè)界和個人家庭的用戶都花費了數(shù)百萬美元來對抗垃圾郵件。由于垃圾郵件的增加,ISPs(互聯(lián)網(wǎng)服務提供商)不得不花費更多的時間和精力處理日益增長的網(wǎng)絡流量。因此,如果垃圾郵件繼續(xù)增長,那么在不久的將來,ISPs可能會難以管理網(wǎng)絡流量。Hrishikesh B.Aradhye等在2005年提出了一種采用基于對象與基于邊緣的文本定位方法來挖掘圖像中的文本以及顏色特征的思想來對Image Spam (圖像型垃圾郵件)進行分類。Giorgio Fumerai等在2006年提出了一種OCR (光學字符識別)技術(shù)檢測圖像型垃圾郵件的文本信息。該技術(shù)相對其他過濾系統(tǒng)來說,具有較好的檢測效果。Ngo Phuong Nhung等在2007年提出的通過挖掘圖片的邊緣特征的方法,使用的分類算法也是SVM (支持向量機)。該方法是通過比較從Email中提取出的圖片與樣本圖片的邊緣特征,得到特征向量,然后使用SVM將這些特征向量分別歸入Spam與non-Spam類??偟膩碚f使用邊緣特征來檢測圖像Spam能夠獲取80%的準確率,從不同的圖像特征分出Spam類的效率更高并且速度很快。Battista Biggio等在2007年提出了一種通過計算圖像周長復雜度的方法來判別一張圖片是否經(jīng)過了模糊技術(shù)的處理。通過文字周長復雜度可以標識斷字符或者是噪音對象的出現(xiàn)。由于不能證實經(jīng)過模糊處理的圖像就是攜帶垃圾信息的圖像,這種處理技術(shù)只能作為垃圾郵件過濾系統(tǒng)中預處理某個模塊。Eric Medvet等在2008年提出的檢測方法結(jié)合了文本特征,嵌入的圖像特征和全局特征,分別用于計算垃圾圖像與合法圖像的三方面的特征向量值。特征結(jié)合后選取相似度最高的幾個特征進行進一步的相似程度計算,提高了檢測的效率。然后計算出總的相似程度,若這個值超出了一定的閾值,就說明該郵件為圖像型垃圾郵件。Haiqiang Zuo等在2009年提出了使用一類SVM分類器來對圖像型垃圾郵件的局部不變特征進行歸類。將異常值檢測視為異類分類問題。該算法采用核函數(shù)將樣本點映射到高維空間以便于分類,采用的核函數(shù)是PMK。使用MSER與SURF檢測器尋找每張圖像的興趣點,以sift、sc、SURF作為各類特征集合,并使用10交叉法進行可行性驗證。該方法主要是針對那些為了逃避基于圖像版面相似性的過濾器,而改變圖像的總體布局的垃圾郵件。然而,他們并沒有改變圖像中的某些標記??傊?,以上的所有方法都存在不足之處,要么是不能保證提取圖片的特征具有尺度不變性、旋轉(zhuǎn)不變性,要么是不能改變圖像一開始就確定的標簽。然而,隨著技術(shù)的發(fā)展,圖像型垃圾郵件制造者也在不斷地增強垃圾郵件逃避檢測系統(tǒng)的能力,這就迫切需要一個檢測圖像型垃圾郵件效率高的系統(tǒng)或方法,從而產(chǎn)生了本文的思想,利用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件。
發(fā)明內(nèi)容
技術(shù)問題:本發(fā)明的目的是提供一種利用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件的方法。通過提取圖片的加速魯棒性特征描述符,確保了圖片的旋轉(zhuǎn)和尺度不變性;通過獲取圖片聚類中心點信息,再按照該信息均值聚類圖片加速魯棒性特征描述符,確保了所有圖片聚類后的信息具有可比性;通過利用基于最鄰近的標簽傳播,選擇與每個圖像相似度最接近的一定數(shù)量的圖像的標簽進行傳播,提高了標簽的傳播速率,節(jié)省了檢測圖像型垃圾郵件的時間。技術(shù)方案:本發(fā)明利用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件所包含的步驟為:步驟I)訓練已知類別數(shù)據(jù)集,獲取聚類中心點信息,其中類別分為正常圖片和垃圾圖片:步驟1.1)輸入已知類別數(shù)據(jù)集中的正常圖片和垃圾圖片;步驟1.2)提取每幅圖片的加速魯棒性特征描述符信息:步驟1.2.1)獲取輸入的圖片;步驟1.2.2)獲取輸入圖片的積分圖片;步驟1.2.3)獲取積分圖片的像素點;步驟1.2.4)輸入圖片的第一個像素點;步驟1.2.5)判斷圖片該像素點是否存在,如果存在,轉(zhuǎn)步驟1.2.6),否則,轉(zhuǎn)步驟1.2.14);步驟1.2.6)計算該像素點的海森矩陣及行列式值;步驟1.2.7)判斷該點是否是極值點,如果是,轉(zhuǎn)步驟1.2.8),否則,轉(zhuǎn)步驟
1.2.13);步驟1.2.8)確認該極值點為加速魯棒性特征點;步驟1.2.9)獲取該特征點在原始圖片中的位置、尺度信息;步驟1.2.10)獲取該特征點在原始圖片中的主方向;步驟1.2.11)根據(jù)該特征點的位置、尺度、主方向信息,計算該特征點的加速魯棒性特征描述符;其中,加速魯棒性特征描述符采用64維描述向量存儲;步驟1.2.12)輸入圖片下一個像素點,轉(zhuǎn)步驟1.2.5);步驟1.2.13)系統(tǒng)自動舍棄該點,轉(zhuǎn)步驟1.2.12);步驟1.2.14)輸出圖片的所有加速魯棒性特征點描述符信息;步驟1.3)隨機初始化聚類中心點,根據(jù)均值聚類算法,同時聚類已知類別數(shù)據(jù)集中所有圖片的加速魯棒性特征描述符:步驟1.3.1)獲取需要聚類的所有加速魯棒性特征點描述符信息;步驟1.3.2)獲取聚類中心點的個數(shù);
步驟1.3.3)輸入第一個加速魯棒性特征點信息;步驟1.3.4)判斷該加速魯棒性特征點是否存在,如果存在,轉(zhuǎn)步驟1.3.5),否則,轉(zhuǎn)步驟1.3.9);步驟1.3.5)分別計算該加速魯棒性特征點到所有聚類中心點的距離;步驟1.3.6)選擇最短距離,獲取與最短距離相應的聚類中心信息;步驟1.3.7)將該加速魯棒性特征點聚類到該聚類中心中;步驟1.3.8)輸入下一個加速魯棒性特征點,轉(zhuǎn)步驟1.3.5);步驟1.3.9)總結(jié)每個聚類中心中的加速魯棒性特征點描述符信息;步驟1.3.10)更新所有聚類中心點信息:將每個聚類中心中的加速魯棒性特征點描述符信息求和再取平均;步驟1.3.11)輸出聚類后的所有的加速魯棒性特征描述符信息;步驟1.4)輸出所有的聚類中心點信息,即聚類后的所有的加速魯棒性特征描述符
信息;步驟2)訓練已知類別數(shù)據(jù)集和測試數(shù)據(jù)集,獲取每幅圖片均值聚類后的加速魯棒性特征描述符信息:步驟2.1)輸入已知類別數(shù)據(jù)集中的正常圖片和垃圾圖片、測試數(shù)據(jù)集中的測試圖片;步驟2.2)標簽圖片:若輸入的圖片屬于正常圖片數(shù)據(jù)集,則標簽為0,若輸入的圖片屬于垃圾圖片數(shù)據(jù)集,則標簽為1,若輸入的圖片屬于測試圖片數(shù)據(jù)集,則默認為垃圾圖片,標簽為I ;步驟2.3)提取每幅圖片的加速魯棒性特征描述符信息,具體提取方法采用步驟
1.2)中的步驟1.2.1)至步驟1.2.14);步驟2.4)獲取聚類中心點信息,具體獲取方法采用步驟I)中的步驟1.1)至步驟1.4);步驟2.5)根據(jù)聚類中心點信息,使用均值聚類算法,聚類每幅圖片的加速魯棒性特征描述符,具體聚類方法采用步驟1.3.1)至步驟1.3.11);步驟2.6)輸出每幅圖片均值聚類后的加速魯棒性特征描述符信息;步驟3)基于最鄰近的標簽傳播算法分類圖片:步驟3.1)獲取所有圖片聚類后的加速魯棒性特征描述符信息;其中,所有圖片包括已知類別數(shù)據(jù)集中的圖片和測試數(shù)據(jù)集中的圖片;步驟3.2)初始化已知類別數(shù)據(jù)集標簽矩陣;步驟3.3)初始化標簽概率分布矩陣;步驟3.4)根據(jù)圖片的加速魯棒性特征描述符,計算圖片之間的相似度;步驟3.5)根據(jù)相似度矩陣,計算圖片之間的相似度排列矩陣;步驟3.6)根據(jù)相似度排列矩陣,計算圖片之間的相似度K排列矩陣,其中,K=已知類別的圖像數(shù)+測試的圖像數(shù)/10,表示表示選取與圖像相似度最相近的圖像幅數(shù);步驟3.7)根據(jù)相似度矩陣,計算圖片之間的傳播概率矩陣;步驟3.8)將每張圖片視為一個節(jié)點,生成帶權(quán)完全連接圖;步驟3.9)根據(jù)每個節(jié)點的標簽,進行標簽傳播:
步驟3.9.1)根據(jù)相似度排列矩陣,確定每個節(jié)點最鄰近的節(jié)點個數(shù);步驟3.9.2)生成最鄰近圖;步驟3.9.3)更新標簽概率分布矩陣;步驟3.9.4)限制已知類別數(shù)據(jù),再次更新標簽概率分布矩陣;步驟3.9.5)判斷標簽概率分布矩陣是否收斂,如果收斂,轉(zhuǎn)步驟3.9.6),否則,轉(zhuǎn)步驟 3.9.3);步驟3.9.6)根據(jù)標簽概率分布矩陣,輸出測試圖片的標簽;步驟4)根據(jù)測試圖片的標簽,將測試圖片進行正常圖片與垃圾圖片分類。有益效果:本發(fā)明對比已有技術(shù)具有以下創(chuàng)新點:提出了基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件的方法,根據(jù)與每個圖像相似度最接近的一定數(shù)量的圖像的標簽,進行標簽傳播,確定標簽概率分布,直到傳播過程達到穩(wěn)定,依據(jù)圖像標簽,檢測出圖像型垃圾郵件。本發(fā)明對比已有技術(shù)具有以下顯著優(yōu)點:I)提取圖片加速魯棒性特征,具有尺度和旋轉(zhuǎn)不變性;2)根據(jù)與每個圖像相似度最接近的K個圖像與標簽概率分布,使用標簽傳播算法,傳播并更新圖像的標簽,檢測出垃圾圖像。其中,K=已知類別的圖像數(shù)+測試的圖像數(shù)/10。總之,提高了標簽的傳播速率,提高了圖像型垃圾郵件檢測的精度、準確率和召回率,節(jié)省了檢測圖像型垃圾郵件的時間。
圖1利用基于最鄰近的標簽傳播算法分類器檢測圖像的整體流程圖;圖2獲取聚類中心點信息的流程圖;圖3提取加速魯棒性特征描述符的流程圖;圖4均值聚類加速魯棒性特征描述符的流程圖;圖5基于最鄰近的標簽傳播算法分類器的分類圖片流程圖。
具體實施例方式本發(fā)明是利用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件。具體的實施方式如下:步驟I)訓練已知類別數(shù)據(jù)集,提取該數(shù)據(jù)集中所有圖片的加速魯棒性特征描述符信息,同時進行均值聚類,獲取圖片聚類中心點信息,具體過程如圖2所示,其中類別分為正常圖片和垃圾圖片:步驟1.1)獲取已知類別數(shù)據(jù)集中的所有圖片,包括正常圖片和垃圾圖片;步驟1.2)提取步驟1.1)獲取的所有圖片的加速魯棒性特征描述符信息,具體過程如圖3所:步驟1.2.1)根據(jù)輸入的圖片,獲取該圖片的積分圖片,再獲取該積分圖片的所有像素點,計算每個像素點的海森矩陣及行列式值;接著判斷這些點是否為極值點,如果某點是極值點,那么確定該點為加速魯棒性特征點,如果某點不是極值點,那么就舍棄該點;
步驟1.2.3)獲取加速魯棒性特征點在原圖中的位置、尺度信息,以及主方向信息,根據(jù)這些信息,計算加速魯棒性特征點的特征描述符;其中,加速魯棒性特征描述符采用64維描述向量存儲;步驟1.3)根據(jù)聚類中心點的個數(shù)m,隨機初始化m個聚類中心點,根據(jù)均值聚類算法,同時聚類已知類別數(shù)據(jù)集中所有圖片的加速魯棒性特征描述符,具體過程如圖4所示:步驟1.3.1)獲取步驟1.2)中提取的已知類別數(shù)據(jù)集中所有圖片的所有加速魯棒性特征點描述符信息,分別計算這些加速魯棒性特征點到m個聚類中心的距離;接著選擇最短的距離,獲取與該最短距離相應的聚類中心點的信息,將相應的加速魯棒性特征點聚類到該聚類中心中;步驟1.3.2)總結(jié)每個聚類中心中的加速魯棒性特征點描述符信息,并更新m個聚類中心點信息,即重新計算m個聚類中心點信息:將每個聚類中心中的加速魯棒性特征點描述符信息求和再取平均,得到聚類后的m個加速魯棒性特征描述符信息;步驟1.4)獲取m個聚類中心點信息,即聚類后的m個加速魯棒性特征描述符信息;步驟2)訓練已知類別數(shù)據(jù)集和測試數(shù)據(jù)集,針對這兩個數(shù)據(jù)集中的圖片,預先將已知類別數(shù)據(jù)集中的圖片按類別標簽,將測試數(shù)據(jù)集中的圖片初始化為垃圾類別標簽,提取出旋轉(zhuǎn)和尺度不變的加速魯棒性特征描述符,再根據(jù)聚類中心點信息,使用均值聚類法,統(tǒng)一化所有圖像的特征描述符個數(shù),即獲取每幅圖片均值聚類后的加速魯棒性特征描述符信息,具體過程如圖1所示:步驟2.1)獲取已知類別數(shù)據(jù)集中的正常圖片和垃圾圖片、測試數(shù)據(jù)集中的測試圖片;步驟2.2)標簽步驟2.1)中獲取的所有圖片:若圖片屬于正常圖片數(shù)據(jù)集,則標簽為0,若圖片屬于垃圾圖片數(shù)據(jù)集,則標簽為1,若圖片屬于測試圖片數(shù)據(jù)集,則默認為垃圾圖片,標簽為I ;步驟2.3)提取步驟2.1)中獲取的所有圖片的加速魯棒性特征描述符信息,具體提取方法見步驟1.2)中的步驟1.2.1)至步驟1.2.3),具體過程如圖3所示;步驟2.4)獲取聚類中心點信息,具體獲取方法見步驟I)中的步驟1.0至步驟
1.4),具體過程如圖2所示;步驟2.5)根據(jù)步驟2.4)中獲取的聚類中心點信息,使用均值聚類算法,聚類每幅圖片的加速魯棒性特征描述符,具體聚類方法見步驟1.3.1)至步驟1.3.2),具體過程如圖4所示;步驟2.6)獲取每幅圖片均值聚類后的加速魯棒性特征描述符信息;其中,每幅圖片聚類為m個64維加速魯棒性特征描述符,存儲在矩陣Fhm中,其中,η:表示已知類別數(shù)據(jù)集和測試數(shù)據(jù)集中的所有圖片數(shù);M=64Xm,m:表示聚類中心點的個數(shù);步驟3)計算每幅圖像之間的相似度,存儲于相似度數(shù)組中;從而計算每幅圖像之間的相似度排列矩陣、傳播概率矩陣;接著,將每幅圖像視為一個節(jié)點后,構(gòu)造出圖像的最鄰近圖;最后,在該圖上進行標簽傳播,直到標簽矩陣概率分布達到收斂,根據(jù)標簽矩陣概率分布分類測試數(shù)據(jù)集中的圖片,具體過程如圖5所示:步驟3.1)獲取步驟2)中提取的所有圖片聚類后的加速魯棒性特征描述符信息F.丄nM 步驟3.2)初始化已知類別數(shù)據(jù)集標簽矩陣Ylc:
權(quán)利要求
1.一種利用基于最鄰近標簽傳播算法檢測圖像型垃圾郵件的方法,其特征在于該方法包含的步驟為: 步驟I)訓練已知類別數(shù)據(jù)集,獲取聚類中心點信息,其中類別分為正常圖片和垃圾圖片: 步驟1.1)輸入已知類別數(shù)據(jù)集中的正常圖片和垃圾圖片; 步驟1.2)提取每幅圖片的加速魯棒性特征描述符信息: 步驟1.2.1)獲取輸入的圖片; 步驟1.2.2)獲取輸入圖片的積分圖片; 步驟1.2.3)獲取積分圖片的像素點; 步驟1.2.4)輸入圖片的第一個像素點; 步驟1.2.5)判斷圖片該像素點是否存在,如果存在,轉(zhuǎn)步驟1.2.6),否則,轉(zhuǎn)步驟1.2.14); 步驟1.2.6)計算該像素點的海森矩陣及行列式值; 步驟1.2.7)判斷該點是否是極值點,如果是,轉(zhuǎn)步驟1.2.8),否則,轉(zhuǎn)步驟1.2.13); 步驟1.2.8)確認該極值點為加速魯棒性特征點; 步驟1.2.9)獲取該特征點在原始圖片中的位置、尺度信息; 步驟1.2.10)獲取該特征點在原始圖片中的主方向; 步驟1.2.11)根據(jù)該特征點的位置、尺度、主方向信息,計算該特征點的加速魯棒性特征描述符;其中,加速魯棒性特征描述符采用64維描述向量存儲; 步驟1.2.12)輸入圖片下一個像素點,轉(zhuǎn)步驟1.2.5); 步驟1.2.13)系統(tǒng)自動舍棄該點,轉(zhuǎn)步驟1.2.12); 步驟1.2.14)輸出圖片的所有加速魯棒性特征點描述符信息; 步驟1.3)隨機初始化聚類中心點,根據(jù)均值聚類算法,同時聚類已知類別數(shù)據(jù)集中所有圖片的加速魯棒性特征描述符: 步驟1.3.1)獲取需要聚類的所有加速魯棒性特征點描述符信息; 步驟1.3.2)獲取聚類中心點的個數(shù); 步驟1.3.3)輸入第一個加速魯棒性特征點信息; 步驟1.3.4)判斷該加速魯棒性特征點是否存在,如果存在,轉(zhuǎn)步驟1.3.5),否則,轉(zhuǎn)步驟 1.3.9); 步驟1.3.5)分別計算該加速魯棒性特征點到所有聚類中心點的距離; 步驟1.3.6)選擇最短距離,獲取與最短距離相應的聚類中心信息; 步驟1.3.7)將該加速魯棒性特征點聚類到該聚類中心中; 步驟1.3.8)輸入下一個加速魯棒性特征點,轉(zhuǎn)步驟1.3.5); 步驟1.3.9)總結(jié)每個聚類中心中的加速魯棒性特征點描述符信息; 步驟1.3.10)更新所有聚類中心點信息:將每個聚類中心中的加速魯棒性特征點描述符信息求和再取平均; 步驟1.3.11)輸出聚類后的所有的加速魯棒性特征描述符信息; 步驟1.4)輸出所有的聚類中心點信息,即聚類后的所有的加速魯棒性特征描述符信息;步驟2)訓練已知類別數(shù)據(jù)集和測試數(shù)據(jù)集,獲取每幅圖片均值聚類后的加速魯棒性特征描述符信息: 步驟2.1)輸入已知類別數(shù)據(jù)集中的正常圖片和垃圾圖片、測試數(shù)據(jù)集中的測試圖片;步驟2.2)標簽圖片:若輸入的圖片屬于正常圖片數(shù)據(jù)集,則標簽為O,若輸入的圖片屬于垃圾圖片數(shù)據(jù)集,則標簽為1,若輸入的圖片屬于測試圖片數(shù)據(jù)集,則默認為垃圾圖片,標簽為I ; 步驟2.3)提取每幅圖片的加速魯棒性特征描述符信息,具體提取方法采用步驟1.2)中的步驟1.2.1)至步驟1.2.14); 步驟2.4)獲取聚類中心點信息,具體獲取方法采用步驟I)中的步驟1.1)至步驟1.4);步驟2.5)根據(jù)聚類中心點信息,使用均值聚類算法,聚類每幅圖片的加速魯棒性特征描述符,具體聚類方法采用步驟1.3.1)至步驟1.3.11); 步驟2.6)輸出每幅圖片均值聚類后的加速魯棒性特征描述符信息; 步驟3)基于最鄰近的標簽傳播算法分類圖片: 步驟3.1)獲取所有圖片聚類后的加速魯棒性特征描述符信息;其中,所有圖片包括已知類別數(shù)據(jù)集中的圖片和測試數(shù)據(jù)集中的圖片; 步驟3.2)初始化已知類別數(shù)據(jù)集標簽矩陣Yk:
全文摘要
為了提高圖像型垃圾郵件檢測的精度和召回率,節(jié)省檢測圖像型垃圾郵件的時間,導致需要一個高效率的檢測圖像型垃圾郵件的方法。本發(fā)明的目的是提供一種利用基于最鄰近的標簽傳播算法檢測圖像型垃圾郵件的方法。通過提取圖片的加速魯棒性特征描述符,確保了圖片的旋轉(zhuǎn)和尺度不變性;通過獲取圖片聚類中心點信息,再按照該信息均值聚類圖片加速魯棒性特征描述符,確保了所有圖片聚類后的信息具有可比性;通過利用基于最鄰近的標簽傳播,選擇與每個圖像相似度最接近的K(K=已知類別的圖像數(shù)+測試的圖像數(shù)/10,表示表示選取與圖像相似度最相近的圖像幅數(shù))個圖像的標簽進行傳播,提高了標簽的傳播速率,節(jié)省了檢測圖像型垃圾郵件的時間。
文檔編號H04L12/58GK103150574SQ20131000111
公開日2013年6月12日 申請日期2013年1月5日 優(yōu)先權(quán)日2013年1月5日
發(fā)明者張衛(wèi)豐, 錢小燕, 周國強, 張迎周, 王子元, 周國富, 許碧歡, 陸柳敏 申請人:南京郵電大學