一種垃圾郵件的特征選擇方法及其檢測(cè)方法
【專(zhuān)利摘要】本發(fā)明涉及一種垃圾郵件的特征選擇方法及其檢測(cè)方法,包括:基于字節(jié)的N-grams方法進(jìn)行郵件的特征提??;根據(jù)提取的特征與預(yù)設(shè)郵件類(lèi)別的相關(guān)度進(jìn)行特征排序生成初始特征子集;根據(jù)近似馬爾科夫毯算法刪除所述初始特征子集中的冗余特征得到候選特征子集;通過(guò)在線邏輯回歸分類(lèi)器對(duì)所述候選特征子集進(jìn)行預(yù)測(cè)并根據(jù)預(yù)測(cè)結(jié)果對(duì)所述候選特征子集進(jìn)行評(píng)價(jià)選擇最優(yōu)特征子集;根據(jù)所述最優(yōu)特征子集利用在線邏輯回歸分類(lèi)器對(duì)垃圾郵件進(jìn)行檢測(cè)。采用本發(fā)明提出的垃圾郵件的特征選擇方法及其檢測(cè)方法,使得垃圾郵件的特征選擇及垃圾郵件檢測(cè)的計(jì)算過(guò)程簡(jiǎn)單,時(shí)間復(fù)雜度低,而且使得垃圾郵件檢測(cè)的準(zhǔn)確率大大提高。
【專(zhuān)利說(shuō)明】一種垃圾郵件的特征選擇方法及其檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,尤其涉及一種垃圾郵件的特征選擇方法及 其檢測(cè)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件成為了新型的信息傳遞工具,憑借其價(jià)格低廉、 方便快捷等優(yōu)點(diǎn),廣泛的應(yīng)用于各個(gè)領(lǐng)域。然后廣泛的使用也帶來(lái)了一些負(fù)面的影響,大量 的垃圾郵件充斥在人們的郵箱中,不僅影響了用戶(hù)的正常使用,而且對(duì)運(yùn)營(yíng)商的形象產(chǎn)生 了損害。許多垃圾郵件系統(tǒng)應(yīng)運(yùn)而生,但是面臨著數(shù)據(jù)量大、運(yùn)行效率低等問(wèn)題。
[0003] 傳統(tǒng)的垃圾郵件過(guò)濾方法,包括Flexible Bayes、決策樹(shù)、SVM、Boosting在內(nèi)的很 多機(jī)器學(xué)習(xí)方法都被應(yīng)用到垃圾郵件過(guò)濾中。從目前的研究結(jié)果看,F(xiàn)lexible Bayes、SVM、 Boosting、Winnow等這些機(jī)器學(xué)習(xí)方法在一些小規(guī)模數(shù)據(jù)上似乎可以達(dá)到實(shí)用化的程度。 但是對(duì)于大規(guī)模數(shù)據(jù)來(lái)說(shuō),訓(xùn)練分類(lèi)器會(huì)花費(fèi)大量時(shí)間,而且由于數(shù)據(jù)繁雜,難以得到最優(yōu) 的訓(xùn)練模型。
[0004] 在目前的特征方法當(dāng)中,針對(duì)高維二值數(shù)據(jù)的特征選擇方法研究甚少,目前還沒(méi) 有有效的解決辦法。傳統(tǒng)的方法可以處理二值數(shù)據(jù)的特征選擇,但是對(duì)于高維的數(shù)據(jù)來(lái)說(shuō), 那些方法往往復(fù)雜度很高,難以在實(shí)際應(yīng)用中取得良好的效果。
【發(fā)明內(nèi)容】
[0005] (一)要解決的技術(shù)問(wèn)題
[0006] 本發(fā)明的目的是提供一種垃圾郵件的特征選擇方法及其檢測(cè)方法,以解決現(xiàn)有特 征選擇方法以及傳垃圾郵件檢測(cè)方法中存在的計(jì)算復(fù)雜度高,花費(fèi)時(shí)間多,且難以在實(shí)際 應(yīng)用中取得良好的效果的問(wèn)題。
[0007] (二)技術(shù)方案
[0008] 為了達(dá)到上述目的,本發(fā)明提出了一種垃圾郵件的特征選擇方法,包括:
[0009] 基于字節(jié)的N-grams方法進(jìn)行郵件的特征提??;
[0010] 根據(jù)提取的特征與預(yù)設(shè)郵件類(lèi)別的相關(guān)度進(jìn)行特征排序生成初始特征子集;
[0011] 根據(jù)近似馬爾科夫毯算法刪除所述初始特征子集中的冗余特征得到候選特征子 集;
[0012] 通過(guò)在線邏輯回歸分類(lèi)器對(duì)所述候選特征子集進(jìn)行預(yù)測(cè)并根據(jù)預(yù)測(cè)結(jié)果對(duì)所述 候選特征子集進(jìn)行評(píng)價(jià)選擇最優(yōu)特征子集。
[0013] 本發(fā)明還提出了一種基于上述垃圾郵件的特征選擇方法的垃圾郵件檢測(cè)方法,包 括:
[0014] 根據(jù)所述最優(yōu)特征子集利用在線邏輯回歸分類(lèi)器對(duì)垃圾郵件進(jìn)行檢測(cè)。
[0015] 優(yōu)選地,所述基于字節(jié)的N-grams方法進(jìn)行郵件的特征提取具體包括:
[0016] 將郵件按照字節(jié)流進(jìn)行預(yù)設(shè)長(zhǎng)度的字節(jié)切分得到所述郵件的hash字典;
[0017] 將預(yù)設(shè)樣本與所述hash字典進(jìn)行特征對(duì)比得到與所述hash字典對(duì)應(yīng)的特征集。
[0018] 優(yōu)選地,所述將預(yù)設(shè)樣本與所述hash字典進(jìn)行特征對(duì)比得到與所述hash字典對(duì) 應(yīng)的特征集具體為:
[0019] 當(dāng)所述hash字典中的特征在所述預(yù)設(shè)樣本中出現(xiàn)則所述hash字典對(duì)應(yīng)位置的特 征值設(shè)為1,若未出現(xiàn),則所述hash字典對(duì)應(yīng)位置的特征值設(shè)為0,得到一個(gè)稀疏的二值特 征數(shù)據(jù)集。
[0020] 優(yōu)選地,所述根據(jù)提取的特征與預(yù)設(shè)郵件類(lèi)別的相關(guān)度進(jìn)行特征排序生成初始特 征子集具體包括:
[0021] 計(jì)算提取的特征與預(yù)設(shè)郵件類(lèi)別的相對(duì)密度,具體如下:
[0022] -
【權(quán)利要求】
1. 一種垃圾郵件的特征選擇方法,其特征在于,包括: 基于字節(jié)的N-grams方法進(jìn)行郵件的特征提取; 根據(jù)提取的特征與預(yù)設(shè)郵件類(lèi)別的相關(guān)度進(jìn)行特征排序生成初始特征子集; 根據(jù)近似馬爾科夫毯算法刪除所述初始特征子集中的冗余特征得到候選特征子集; 通過(guò)在線邏輯回歸分類(lèi)器對(duì)所述候選特征子集進(jìn)行預(yù)測(cè)并根據(jù)預(yù)測(cè)結(jié)果對(duì)所述候選 特征子集進(jìn)行評(píng)價(jià)選擇最優(yōu)特征子集。
2. -種基于權(quán)利要求1所述的特征選擇方法的垃圾郵件檢測(cè)方法,其特征在于,包括: 根據(jù)所述最優(yōu)特征子集利用在線邏輯回歸分類(lèi)器對(duì)垃圾郵件進(jìn)行檢測(cè)。
3. 如權(quán)利要求1或2所述的方法,其特征在于,所述基于字節(jié)的N-grams方法進(jìn)行郵件 的特征提取具體包括: 將郵件按照字節(jié)流進(jìn)行預(yù)設(shè)長(zhǎng)度的字節(jié)切分得到所述郵件的hash字典; 將預(yù)設(shè)樣本與所述hash字典進(jìn)行特征對(duì)比得到與所述hash字典對(duì)應(yīng)的特征集。
4. 如權(quán)利要求3所述的方法,其特征在于,所述將預(yù)設(shè)樣本與所述hash字典進(jìn)行特征 對(duì)比得到與所述hash字典對(duì)應(yīng)的特征集具體為: 所述hash字典中的特征在所述預(yù)設(shè)樣本中出現(xiàn)則所述hash字典對(duì)應(yīng)位置的特征值設(shè) 為1,若未出現(xiàn),則所述hash字典對(duì)應(yīng)位置的特征值設(shè)為0,得到一個(gè)稀疏的二值特征數(shù)據(jù) 集。
5. 如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)提取的特征與預(yù)設(shè)郵件類(lèi)別的相 關(guān)度進(jìn)行特征排序生成初始特征子集具體包括: 計(jì)算提取的特征與預(yù)設(shè)郵件類(lèi)別的相對(duì)密度,具體如下:
其中,F(xiàn)為特征集,匕為特征集中的第i個(gè)特征,C為預(yù)設(shè)郵件類(lèi)別集,Q為類(lèi)別集中的 第1個(gè)類(lèi)別,為類(lèi)別Q所含樣本數(shù),L為類(lèi)別總數(shù),Μ為特征總數(shù),表示第i個(gè)特征數(shù) 值為1時(shí)相對(duì)于類(lèi)別Q的相對(duì)密度,且Μ1; 根據(jù)所述相對(duì)密度判斷所述提取的特征與預(yù)設(shè)郵件類(lèi)別的相關(guān)度; 根據(jù)所述相關(guān)度進(jìn)行特征排序生成初始特征子集。
6. 如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)相對(duì)密度判斷所述提取的特征與 預(yù)設(shè)郵件類(lèi)別的相關(guān)度具體包括: 根據(jù)所述相對(duì)密度進(jìn)行相關(guān)度計(jì)算,公式如下:
其中,W(Fi)diff的范圍為[0, 1],4表示第i個(gè)特征數(shù)值為1時(shí)相對(duì)于類(lèi)別Q的相對(duì)密 度,表示第i個(gè)特征數(shù)值為1時(shí)相對(duì)于類(lèi)別Q的相對(duì)密度,且當(dāng)W(Fi)diff = 0時(shí),表示特 征匕與類(lèi)別最不相關(guān),當(dāng)W的)diff = 1,表示特征匕與類(lèi)別最相關(guān); 將W(Fi)diff作為評(píng)價(jià)準(zhǔn)則,對(duì)所述WhUf與預(yù)設(shè)閾值ω進(jìn)行比較,判斷所述特征匕 與預(yù)設(shè)郵件類(lèi)別的相關(guān)度。
7. 如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)近似馬爾科夫毯算法刪除所述 初始特征子集中的冗余特征得到候選特征子集具體包括: 初始化特征子集,對(duì)于所述初始特征子集中的特征匕依據(jù)相關(guān)系數(shù)從所述初始特征子 集中選取和所述匕最相關(guān)的K個(gè)特征,所述相關(guān)系數(shù)的計(jì)算公式如下:
其中,A和Ci分別是特征匕和類(lèi)別Q的分量,η為樣本的個(gè)數(shù),/和F是特征匕和類(lèi) 別(;均值,計(jì)算公式如下:
將這K個(gè)特征組成集合%,并將所述%作為特征匕的近似馬爾科夫毯計(jì)算所述特征匕 的分值S e (匕| ,計(jì)算公式如下:
其中,表示相對(duì)熵,是衡量變量之間相似度的指標(biāo),計(jì)算公式如下:
根據(jù)所還分值δ JFilMi)刪除所還初始特征子集中的冗余特征得到候選特征子集。
8. 如權(quán)利要求7所述的方法,其特征在于,所述根據(jù)分值SjFilMi)刪除所述初始特征 子集中的冗余特征得到候選特征子集具體包括: 根據(jù)所述分值SjFilMi)對(duì)所述初始特征子集中的特征進(jìn)行排序,刪除值最小的 SjFilMi)所對(duì)應(yīng)的特征; 循環(huán)上述步驟,根據(jù)預(yù)設(shè)特征個(gè)數(shù)得到候選特征子集。
9. 如權(quán)利要求1或2所述的方法,其特征在于,所述通過(guò)在線邏輯回歸分類(lèi)器對(duì)所述候 選特征子集進(jìn)行預(yù)測(cè)并根據(jù)預(yù)測(cè)結(jié)果對(duì)所述候選特征子集進(jìn)行評(píng)級(jí)選擇最優(yōu)特征子集具 體包括: 所述在線邏輯回歸分類(lèi)器利用預(yù)測(cè)函數(shù)對(duì)所述候選特征子集進(jìn)行預(yù)測(cè),所述預(yù)測(cè)函數(shù) 為:
其中,w為權(quán)重,b為偏置,X為輸入,P(Y|x)為預(yù)測(cè)結(jié)果且范圍為[0,1]; 對(duì)于所述候選特征子集中的特征輸入,獲取所述預(yù)測(cè)函數(shù)的預(yù)測(cè)結(jié)果,當(dāng)預(yù)測(cè)結(jié)果 P>0. 5時(shí),則為垃圾郵件,當(dāng)預(yù)測(cè)結(jié)果P彡0. 5時(shí),則為正常郵件; 根據(jù)所述預(yù)測(cè)結(jié)果對(duì)所述候選特征子集中的特征進(jìn)行評(píng)價(jià)提取出預(yù)定數(shù)量的在所述 在線邏輯回歸分類(lèi)器上預(yù)測(cè)效果最優(yōu)的最優(yōu)特征子集。
10.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)最優(yōu)特征子集利用在線邏輯回歸 分類(lèi)器對(duì)垃圾郵件進(jìn)行檢測(cè)具體為: 當(dāng)有郵件需要檢測(cè)時(shí),所述在線邏輯回歸分類(lèi)器對(duì)所述最優(yōu)特征子集進(jìn)行預(yù)測(cè); 根據(jù)預(yù)測(cè)結(jié)果檢測(cè)出垃圾郵件。
【文檔編號(hào)】G06Q10/10GK104050556SQ201410228073
【公開(kāi)日】2014年9月17日 申請(qǐng)日期:2014年5月27日 優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】孫廣路, 何勇軍, 劉廣明 申請(qǐng)人:哈爾濱理工大學(xué)