国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于陸地移動距離的相似度檢測圖像型垃圾郵件的方法

      文檔序號:6353355閱讀:336來源:國知局
      專利名稱:基于陸地移動距離的相似度檢測圖像型垃圾郵件的方法
      技術領域
      本發(fā)明是一種提取圖片的局部不變特征,利用陸地移動距離的相似度測量方法, 對圖像型垃圾郵件檢測的實現(xiàn)方案,主要解決了當今的技術對圖片型垃圾郵件的檢測效率 和召回率低等問題,屬于數(shù)據挖掘和機器學習領域。
      背景技術
      電子郵件已成為人們進行網絡交流溝通的重要途徑,但是由于巨大的商業(yè)、經濟 及政治利益,導致垃圾郵件數(shù)量急劇膨脹。起初盛行的圖像型垃圾郵件是將廣告等垃圾信 息以文字形式嵌入圖像中,Hrishikesh等人在利用挖掘出來的文本以及顏色特征來對郵件 進行分類[1]。Fumera等人在2006年提出了一種0CR(光學字符識別)技術檢測圖像型垃 圾郵件的文本信息,相對其他過濾系統(tǒng)來說,具有較好的檢測效果[2]。同時垃圾郵件制造 者們也在不斷地增強垃圾郵件逃避檢測系統(tǒng)的能力,他們對嵌有廣告等垃圾信息的圖像進 行了模糊處理,這使得當時的OCR技術無法挖掘出嵌入這種圖片中的文字。Dredze等人提 出了利用圖片的高級特征來對圖片進行分類,高級特征指的是文件格式,大小,顏色分布等。這種方法的優(yōu)點是檢測速度很快,并且具有較好的擴展性,能夠與對低級特征的圖片 過濾器進行有效的結合。Fumera在2007年提出了一種通過計算圖像周長復雜度的方法來判別一張圖片是 否經過了模糊技術的處理[4]。一張圖片的模糊的程度可以由周長復雜度來衡量的,計算方 法為文字區(qū)域周長的平方和文字區(qū)域面積的比值。通過文字周長復雜度可以標識斷字符或 者是噪音對象的出現(xiàn)。由于不能證實經過模糊處理的圖像就是攜帶垃圾信息的圖像,這種 處理技術只能作為垃圾郵件過濾系統(tǒng)中預處理某個模塊。Zhe Wang等人提出的圖像型垃圾 郵件過濾方法是通過比較圖像之間的相似性方法[5]分別使用結合三類圖像型垃圾郵件 過濾方法(顏色直方圖過濾方法、哈爾小波過濾以及方向直方圖特征),實驗的結果表明 每個過濾系統(tǒng)單獨執(zhí)行時,通過比較發(fā)現(xiàn)小波過濾獲取了最好的檢測率并且其誤檢率(將 正常圖片標識為垃圾圖片)低于0. 0009%,三類過濾器結合起來的精確率達到96%,該方 法是通過結合已有的過濾系統(tǒng)來實現(xiàn)的,可以說它是對一個階段的垃圾郵件過濾技術的一 個總結,使用該方法提高了圖像型垃圾郵件過濾系統(tǒng)的性能。Mehta等在2008年針對使用模板而大量生成的垃圾郵件進行檢測,利用重復相 似性質,使用支持向量機分類器的精確度達到了 98%,同時提出了利用高斯混合模型來對 圖片進行聚類的算法[6]將每幅圖片縮小到100X100像素點,提取每個像素的紋理形狀 和顏色特征,對每幅圖片訓練其高斯混合模型,并計算高斯混合模型之間的相近距離來聚 類。通過計算閥值來分辨垃圾圖片,雖然該方法采用統(tǒng)計學知識計算比較精確但是計算量 太大,算法的時間復雜度較高,不利于在實際的應用中。隨后由Zuo等提出了使用核函數(shù) 為PMK的一類支持向量機分類器對電子郵件中圖像的局部不變特征進行歸類[7]。該方法 主要是針對那些為了逃避基于圖像模板相似性的過濾器,而改變圖像的總體布局,保留圖 片中的某些局部不變特征的垃圾郵件。所以這種方法在一定程度上彌補了相似性檢測的漏洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition, ICDAR 2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699_2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fastclassifiers for image spam. In Proceedings of the Fourth Conference on Emailand Anti-Spam, CEAS' 2007,2007.[4]Giorgio Fumera,Ignazio Pillai,Fabio Roli,and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5]Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConterence on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection.In Proceeding of the 17thinternational Conference on World Wide Web(Beijing, China, April 21-25, 2008) .WWW' 08. ACM, New York,NY,497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.

      發(fā)明內容
      技術問題本發(fā)明的目的是提供一種使用圖片的局部不變特征的基于陸地移動距 離的相似度檢測圖像型垃圾郵件的方法。目前現(xiàn)有的利用相似度檢測圖像型垃圾郵件技術 主要是使用歐式距離,而歐式距離無法處理結構大小可變的特征,需要先對特征進行聚類 規(guī)范化特征,因此影響了檢測速度。本發(fā)明利用陸地移動距離直接處理結構大小可變的局 部不變特征,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。技術方案圖片的局部不變特征,是一種基于尺度空間的不變量技術的特征檢測 方法,對圖像平移、旋轉、縮放、甚至仿射變換保持不變性的圖像局部特征。用這種方法提取 圖片中的不變區(qū)域特征,是結構大小可變的特征。陸地移動距離,是一種能夠計算結構大小 可變特征的距離的測量標準,可以用它來計算兩個圖片的局部不變特征的距離。本發(fā)明提出使用陸地移動距離根據圖片的局部不變特征計算圖片之間的相似度, 進而達到檢測圖像型垃圾郵件的實現(xiàn)方法。整個方法包括訓練閾值,檢測圖像型郵件兩大 模塊,系統(tǒng)的模塊組成如圖1所示?;陉懙匾苿泳嚯x的相似度檢測圖像型垃圾郵件的方法主要分為以下步驟
      一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數(shù)據集進行標簽,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然后采用尺度不變特 征轉換算法分別提取每個垃圾圖片和正常圖片的局部不變特征描述符,構造正常圖片特征 庫與垃圾圖片特征庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特征庫 的相似度,通過對這些相似度的分析統(tǒng)計分別確定垃圾圖片集的閾值1和正常圖片集的閾 值2;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然后進行檢測過程步驟5).對于待檢測的圖片,首先對圖片進行標準化,然后利用尺度不變特征轉 換算法來提取標準化后圖片的局部不變特征描述符;步驟6).計算待檢測圖片局部不變特征描述符與垃圾圖片特征庫的陸地移動距 離;計算時將遍歷垃圾圖片特征庫中每個圖片的局部不變特征描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進 行分類,如果待檢測圖片與垃圾圖片特征庫的相似度小于該閾值,則該圖片為垃圾圖片,否 則為正常圖片。有益效果本發(fā)明方法提出了提取圖片的局部不變特征,根據這個特征使用陸地 移動距離來計算兩個圖片的相似度,完成對圖片型垃圾郵件進行檢測。通過使用本發(fā)明的 方法,能夠提高垃圾郵件檢測的精確度和召回率,節(jié)省程序運算時間和空間。


      圖1基于陸地移動距離的相似度檢測圖像型垃圾郵件的系統(tǒng)原型,圖2檢測階段的分類算法流程圖。
      具體實施例方式基于陸地移動距離的相似度檢測圖像型垃圾郵件,采用VC++6. 0為開發(fā)工具,其 中對圖像特征的處理利用opencvl. 0開源庫,其中詳細的步驟如下一、獲取垃圾圖片特征庫步驟1)選取M個垃圾圖片并用尺度不變特征轉換算法提取不變特征描述符作為 垃圾圖片特征庫,則圖片的簽名為 P = {(pi, Wp,); Cp2 5 'Wp2 )5 …,(pm, )}.Pi為不變特征描述符,wA^ PiW權重,m為不變特征描述符的個數(shù),i = {1,2,…
      m} ο二、訓練閾值步驟1)選取N個垃圾圖片作為訓練閾值用的垃圾圖片集,選取N個正常圖片作為 訓練閾值用的正常圖片集;步驟2)對于垃圾圖片集中的一個圖片,先用尺度不變特征轉換算法提取局部不 變特征,然后計算與垃圾圖片數(shù)據庫中每一個圖片的陸地移動距離,并選取其中最小值,記
      權利要求
      1. 一種基于陸地移動距離的相似度檢測圖像型垃圾郵件的方法,其特征在于該方法主 要分為以下步驟一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數(shù)據集進行標簽,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然后采用尺度不變特征轉 換算法分別提取每個垃圾圖片和正常圖片的局部不變特征描述符,構造正常圖片特征庫與 垃圾圖片特征庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特征庫的相 似度,通過對這些相似度的分析統(tǒng)計分別確定垃圾圖片集的閾值1和正常圖片集的閾值2 ;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然后進行檢測過程步驟5).對于待檢測的圖片,首先對圖片進行標準化,然后利用尺度不變特征轉換算 法來提取標準化后圖片的局部不變特征描述符;步驟6).計算待檢測圖片局部不變特征描述符與垃圾圖片特征庫的陸地移動距離;計 算時將遍歷垃圾圖片特征庫中每個圖片的局部不變特征描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進行分 類,如果待檢測圖片與垃圾圖片特征庫的相似度小于該閾值,則該圖片為垃圾圖片,否則為 正常圖片。
      全文摘要
      基于陸地移動距離的相似度檢測圖像型垃圾郵件的方法,利用了尺度不變特征轉換算法來提取圖片中垃圾信息的不變區(qū)域特征,使用陸地移動距離計算待測圖片與垃圾郵件特征庫中圖片的相似度,從而檢測出圖像型垃圾郵件。本發(fā)明提供了一種使用圖片的局部不變特征的基于陸地移動距離的相似度檢測圖像型垃圾郵件的方法。目前現(xiàn)有的利用相似度檢測圖像型垃圾郵件技術主要是使用歐式距離,而歐式距離無法處理結構大小可變的特征,需要先對特征進行聚類規(guī)范化特征,因此影響了檢測速度。本發(fā)明利用陸地移動距離直接處理結構大小可變的局部不變特征,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。
      文檔編號G06K9/66GK102103700SQ20111002090
      公開日2011年6月22日 申請日期2011年1月18日 優(yōu)先權日2011年1月18日
      發(fā)明者周國強, 張衛(wèi)豐, 張迎周, 王宗輝, 許碧歡, 陸柳敏 申請人:南京郵電大學
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1