專(zhuān)利名稱(chēng):基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種網(wǎng)絡(luò)電子郵件過(guò)濾評(píng)估技術(shù),特別是涉及一種針對(duì)釣魚(yú) 郵件的過(guò)濾技術(shù)。
(二)
背景技術(shù):
隨著人們?cè)絹?lái)越依靠互聯(lián)網(wǎng)來(lái)處理商業(yè)、金融等問(wèn)題,釣魚(yú)郵件的數(shù)量也急 劇增加,而且形式呈多樣化。釣魚(yú)郵件指利用偽裝的電郵,欺騙收件人將賬號(hào)、 口令等信息回復(fù)給指定的接收者或引導(dǎo)收件人連接到特制的網(wǎng)頁(yè),這些網(wǎng)頁(yè)通常 會(huì)偽裝成和真實(shí)網(wǎng)站一樣,令登錄者信以為真,輸入信用卡或銀行卡號(hào)碼、賬戶(hù) 名稱(chēng)及密碼等而被盜取。郵件中都會(huì)以某管理機(jī)構(gòu)的身份,內(nèi)容通常涉及到中獎(jiǎng)、 賬號(hào)和密碼等信息。特別是淘寶、拍拍、易趣、飛信、銀行等站點(diǎn)等被大量釣魚(yú) 網(wǎng)站克隆,用各種手段偽裝虛假的身份,欺騙用戶(hù)登錄其網(wǎng)站且騙取用戶(hù)信息, 這些釣魚(yú)網(wǎng)站通常被嵌在郵件中發(fā)送給收件人。如果用戶(hù)在毫無(wú)警惕的情況下, 點(diǎn)擊了郵件正文中的超級(jí)鏈接,就會(huì)打開(kāi)一個(gè)冒充的頁(yè)面,由于仿冒得很像,用 戶(hù)往往認(rèn)為自己進(jìn)入的真正網(wǎng)站,其實(shí)用戶(hù)所造訪的不過(guò)是一個(gè)假冒網(wǎng)站而已。
根據(jù)賽門(mén)鐵克7月垃圾郵件現(xiàn)狀報(bào)告[R].2009,釣魚(yú)攻擊鏈接可以由釣魚(yú)軟 件制作,這種軟件可以自動(dòng)建立一個(gè)假冒的網(wǎng)頁(yè),這為成功的實(shí)現(xiàn)網(wǎng)絡(luò)釣魚(yú)攻擊 提供了方便。目前越來(lái)越多的釣魚(yú)攻擊者正在自身的虛假網(wǎng)站上濫用合法SSL 證書(shū),由于這些網(wǎng)站上顯示熟悉的SSL掛鎖圖標(biāo),這就給用戶(hù)造成了一種虛假 的安全感。另一方面,免費(fèi)主機(jī)服務(wù)一直是釣魚(yú)攻擊活躍的大本營(yíng),因?yàn)樗鼛缀?不需要任何成本和技術(shù)就能制作一個(gè)網(wǎng)站。
目前對(duì)釣魚(yú)郵件的治理還是集中在依靠釣魚(yú)攻擊防御、識(shí)別技術(shù),主要分為 基于釣魚(yú)鏈接地址的識(shí)別和基于釣魚(yú)頁(yè)面的識(shí)別兩類(lèi)?;卺烎~(yú)鏈接地址的識(shí)別 機(jī)制主要是利用鏈接地址的黑白名單或自定義規(guī)則的相似度等技術(shù),該類(lèi)識(shí)別技 術(shù)識(shí)別速度快,但是識(shí)別技術(shù)過(guò)于單一、識(shí)別效果較差,而且不能正常識(shí)別經(jīng)過(guò) 偽裝的鏈接地址,該類(lèi)識(shí)別技術(shù)也沒(méi)有考慮用戶(hù)的需求,往往會(huì)導(dǎo)致誤判率較高。 基于釣魚(yú)頁(yè)面的識(shí)別機(jī)制主要是通過(guò)鏈接地址來(lái)獲取鏈接站點(diǎn)的頁(yè)面布局,利用
5釣魚(yú)網(wǎng)站的頁(yè)面存在的共性及與合法頁(yè)面的不同,從頁(yè)面中提取釣魚(yú)網(wǎng)站的敏感
特征,利用頁(yè)面檢測(cè)算法或算法的改進(jìn),對(duì)頁(yè)面進(jìn)行分類(lèi),從而識(shí)別釣魚(yú)網(wǎng)站。
如網(wǎng)絡(luò)釣魚(yú)Web頁(yè)面檢測(cè)算法[J].2008, 34(20),分析Phishing頁(yè)面敏感特征,
提出了一種基于敏感特征異常檢測(cè)的Phishing頁(yè)面檢測(cè)算法,通過(guò)分析Web頁(yè)面
的文檔對(duì)象模型來(lái)提取Phishing敏感特征,使用BP神經(jīng)網(wǎng)絡(luò)檢測(cè)頁(yè)面異常程度,
利用線性分類(lèi)器判斷該頁(yè)面是否為Phishing頁(yè)面;如專(zhuān)利文件(中國(guó)專(zhuān)利,公開(kāi)
號(hào)101145902,
公開(kāi)日期2008-03-19)基于圖像處理的釣魚(yú)網(wǎng)頁(yè)檢測(cè)方法,采用
逐一計(jì)算可疑釣魚(yú)網(wǎng)頁(yè)與各個(gè)受保護(hù)網(wǎng)頁(yè)之間的相似度,將可疑網(wǎng)頁(yè)與受保護(hù)網(wǎng)
頁(yè)之間的相似度小于預(yù)先設(shè)定的值的可疑網(wǎng)頁(yè)判為針對(duì)該受保護(hù)網(wǎng)頁(yè)的釣魚(yú)網(wǎng)
頁(yè),直接分析用戶(hù)所訪問(wèn)的網(wǎng)頁(yè)圖像,不易被網(wǎng)頁(yè)設(shè)計(jì)技巧所欺騙;通過(guò)對(duì)網(wǎng)頁(yè)
圖片進(jìn)行分割可以進(jìn)行部分匹配,防止由于部分相似而引起的網(wǎng)絡(luò)釣魚(yú);又如A
Content-based Approach to DetectingPhishing Web Sites[C] 2007, 639-648頁(yè),闡述
的也是基于釣魚(yú)頁(yè)面的分析。該類(lèi)方法的缺點(diǎn)在于識(shí)別速度較慢,要對(duì)郵件中的
鏈接做DNS解析才能得到該鏈接所在的頁(yè)面信息,而DNS解析過(guò)程又增加了處
理時(shí)間,且敏感特征提取等預(yù)處理過(guò)程需要較多的輸入做參考,需要大量的系統(tǒng)
資源來(lái)完成頁(yè)面分類(lèi)器的構(gòu)造,識(shí)別要耗費(fèi)較多的時(shí)間。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種資源開(kāi)銷(xiāo)少,可靠性高、實(shí)時(shí)性強(qiáng)的基于鏈接域 名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)及方法。 本發(fā)明的目的是這樣實(shí)現(xiàn)的
本發(fā)明的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)的構(gòu)成包括網(wǎng)絡(luò)郵件
接收裝置、郵件預(yù)處理裝置、郵件性質(zhì)判定裝置、輸出裝置、反饋處理裝置;
網(wǎng)絡(luò)郵件接收裝置通過(guò)實(shí)現(xiàn)SMTP協(xié)議交互過(guò)程,接收進(jìn)出受控網(wǎng)絡(luò)的電
子郵件,并存儲(chǔ)郵件全部信息;
郵件預(yù)處理裝置根據(jù)郵件的編碼類(lèi)型、字符集、消息類(lèi)型提取并解碼郵件
中的正文信息,形成不同類(lèi)型的郵件正文結(jié)構(gòu)體,在已解析的郵件正文中提取鏈
接地址;
郵件性質(zhì)判定裝置當(dāng)鏈接地址經(jīng)過(guò)惡意的編碼偽裝,則將鏈接去除偽裝, 還原為真實(shí)的鏈接地址,提取該鏈接的域名信息,根據(jù)郵件屬于純文本類(lèi)型還是 超文本類(lèi)型,進(jìn)行鏈接域名的特征分析處理,以此判定該郵件性質(zhì);輸出裝置根據(jù)郵件性質(zhì)判定裝置得到的郵件性質(zhì),按該郵件性質(zhì)的不同進(jìn) 行郵件去向處理;
反饋處理裝置收集用戶(hù)的反饋信息,提供受控網(wǎng)內(nèi)用戶(hù)反饋信息的自動(dòng)處 理機(jī)制,及時(shí)更新個(gè)性化特征庫(kù),且保證各受控網(wǎng)內(nèi)用戶(hù)間互不干擾。
本發(fā)明的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)的構(gòu)成還可以包括
1、 所述的郵件預(yù)處理裝置包括郵件正文解析單元、鏈接提取單元;郵件正 文解析單元在郵件中定位并提取郵件正文、郵件字符集類(lèi)型和傳輸編碼信息,判 斷郵件類(lèi)型后,再根據(jù)該郵件的字符集和傳輸編碼類(lèi)型,解析郵件正文信息,并 存入正文結(jié)構(gòu)體鏈表;鏈接提取單元用于在郵件正文解析單元所得的正文信息中 提取鏈接地址,若郵件類(lèi)型為純文本,則在正文中査找"http:Z/或www"字段, 若郵件類(lèi)型為超文本,則在HTML類(lèi)型的正文中査找"<AHERF=……>…… </A>"字段,以此定位鏈接地址。
2、 所述的郵件性質(zhì)判定裝置包括鏈接去偽裝單元、個(gè)性化特征庫(kù)過(guò)濾單元、 快速釣魚(yú)特征庫(kù)匹配單元、鏈接特征分析單元和相似度比較單元;鏈接去偽裝單 元判斷待分析的鏈接地址是否經(jīng)過(guò)惡意的編碼,若存在惡意的編碼,則將其解碼 還原為真實(shí)的鏈接地址;個(gè)性化特征庫(kù)過(guò)濾單元利用匹配域名的正則表達(dá)式,從 鏈接去偽裝單元所得的鏈接地址中提取出域名信息,結(jié)合該郵件的收件人郵箱地 址,形成待檢測(cè)信息,利用字符串匹配自動(dòng)機(jī),判斷待檢測(cè)信息是否存在于個(gè)性 化特征庫(kù)中;快速釣魚(yú)特征庫(kù)匹配單元根據(jù)個(gè)性化特征庫(kù)過(guò)濾單元中獲得的鏈接 的域名信息,采用ELFhash字符串散列函數(shù)處理后,在釣魚(yú)特征庫(kù)的哈希表中匹 配該信息,且用鏈地址法處理所構(gòu)造的釣魚(yú)特征庫(kù)哈希表沖突問(wèn)題;鏈接特征分 析單元分析該鏈接是否具備釣魚(yú)鏈接的特征,通過(guò)識(shí)別該鏈接地址是否存在鏈接
的跳轉(zhuǎn)特征、鏈接的域名是否包含點(diǎn)分十進(jìn)制IP地址;相似度比較單元將個(gè)性 化特征庫(kù)過(guò)濾單元中獲得的鏈接的域名與金融站點(diǎn)特征庫(kù),采用自然語(yǔ)言處理 (NLP)里的Levenshtein Distance算法,依次計(jì)算兩者相似度,并判斷相似度是否 超過(guò)設(shè)定的閾值。
3、 所述的輸出裝置將根據(jù)郵件判定性質(zhì)裝置判斷的郵件性質(zhì),分別采取不 同的輸出策略;當(dāng)郵件威脅度為高時(shí),則該郵件屬于釣魚(yú)郵件,本發(fā)明將攔截該 郵件,將郵件存入隔離區(qū),禁止該郵件轉(zhuǎn)發(fā);當(dāng)郵件威脅度為中時(shí),則該郵件屬 于疑似釣魚(yú)郵件,在郵件中添加提醒信息,提醒受控網(wǎng)用戶(hù)該郵件極有可能為釣
7魚(yú)郵件,通知用戶(hù)登錄本發(fā)明的監(jiān)控區(qū)域查看郵件,并且提供給受控網(wǎng)用戶(hù)反饋 接口;當(dāng)郵件威脅度為低時(shí),則該郵件屬于正常郵件,將正常轉(zhuǎn)發(fā)該郵件到收件 人信箱中,受控網(wǎng)用戶(hù)能正常接收。
4、所述的反饋處理裝置包括1)反饋處理裝置接收反饋信息后,自動(dòng)判斷 信息的類(lèi)型是否正確,并提取反饋信息的域名信息;2)在反饋信息的域名與反 饋者的郵箱地址中添加標(biāo)志位"[per]",形成個(gè)性化特征信息;3)完成字符串匹 配自動(dòng)機(jī)的更新,使該個(gè)性化特征信息添加到個(gè)性化特征庫(kù),完成個(gè)性化特征庫(kù) 的更新。
本發(fā)明的所述的反釣魚(yú)郵件方法分析新郵件的工作過(guò)程包括以下步驟 郵件預(yù)處理步驟,解析郵件正文信息,提取郵件正文中的鏈接地址; 鏈接預(yù)處理步驟,解碼還原經(jīng)惡意編碼的鏈接地址;
個(gè)性化特征庫(kù)的過(guò)濾步驟,提取該鏈接地址的域名信息,結(jié)合該郵件的收件 人郵箱地址,形成待檢測(cè)信息,利用字符串匹配自動(dòng)機(jī)查找待檢測(cè)信息是否存在 于個(gè)性化特征庫(kù)中,若查找到,則分析過(guò)程結(jié)束,且郵件威脅等級(jí)為高,否則進(jìn) 行下一步驟;
快速釣魚(yú)特征庫(kù)的匹配步驟,將待檢測(cè)信息經(jīng)ELFhash字符串散列處理后, 在所構(gòu)造的釣魚(yú)特征庫(kù)的哈希表中査找該待檢測(cè)信息,若查找到,則分析過(guò)程結(jié) 束,郵件威脅等級(jí)為高,否則進(jìn)行下一步驟;
鏈接的特征分析步驟,判斷該鏈接地址是否存在鏈接跳轉(zhuǎn)、鏈接的域名信息 包含點(diǎn)分十進(jìn)制IP地址等特征,若存在,則郵件威脅等級(jí)為中,否則進(jìn)行下一 步驟;
相似度比較步驟,采用Levenshtdri Distance算法,依次計(jì)算鏈接的域名信 息與金融站點(diǎn)特征庫(kù)中信息的相似度,若兩者相似度超過(guò)閾值,則郵件威脅等級(jí) 為中,否則郵件威脅等級(jí)為低;
所述的反釣魚(yú)郵件方法將依次分析郵件中的每個(gè)鏈接地址,結(jié)束該分析過(guò)程 的充要條件是郵件威脅等級(jí)為高或者郵件中所有鏈接均已分析完畢,且郵件性質(zhì) 是取決于分析每個(gè)鏈接所得的郵件威脅等級(jí)的最高值。
針對(duì)以上情況,本發(fā)明根據(jù)釣魚(yú)鏈接的特征,從郵件中提取鏈接地址的域名, 分析鏈接域名的特征,并結(jié)合了用戶(hù)反饋的策略,提出了基于鏈接域名和用戶(hù)反 饋的反釣魚(yú)郵件系統(tǒng)及方法。本發(fā)明的有益效果在于通過(guò)本發(fā)明可以在網(wǎng)關(guān)或郵件服務(wù)器處對(duì)釣魚(yú)郵件進(jìn)行攔截,對(duì)疑似釣魚(yú)郵件添加處理信息和提醒信息,提高受控網(wǎng)用戶(hù)警惕性,將郵件投遞到本發(fā)明提供的郵件監(jiān)控區(qū)域,通知受控網(wǎng)用戶(hù)登錄該區(qū)域查看郵件,故不會(huì)對(duì)郵件的誤攔截,從而給受控網(wǎng)用戶(hù)造成損失。本發(fā)明較釣魚(yú)頁(yè)面檢測(cè)方法有較快的郵件處理速度,只需郵件中的鏈接地址,大大減少了資源的開(kāi)銷(xiāo),具有可靠性高、實(shí)時(shí)性高。本發(fā)明采用了郵件正文信息全部解析,故可以識(shí)別郵件中的圖片鏈接和隱藏的鏈接,同時(shí)提供給受控網(wǎng)用戶(hù)的反饋接口,充分考慮用戶(hù)的因素,同時(shí)保證受控網(wǎng)內(nèi)用戶(hù)間互不干擾,這樣有效的抵抗受控網(wǎng)內(nèi)惡意用戶(hù)的干擾,可保護(hù)受控網(wǎng)的電子郵件用戶(hù)免受網(wǎng)絡(luò)釣魚(yú)的欺騙。
本發(fā)明可以部署到要求高實(shí)時(shí)性的郵件服務(wù)器、網(wǎng)關(guān)服務(wù)器中,可廣泛的應(yīng)用于網(wǎng)絡(luò)郵件過(guò)濾管理、防網(wǎng)絡(luò)釣魚(yú)攻擊等應(yīng)用領(lǐng)域。
(四)
圖l本發(fā)明所述的系統(tǒng)的結(jié)構(gòu)框圖2本發(fā)明所述的郵件性質(zhì)判定裝置的結(jié)構(gòu)圖3用戶(hù)反饋分析模型的處理流程圖4實(shí)施本發(fā)明的典型應(yīng)用環(huán)境;
圖5純文本類(lèi)型郵件處理的工作原理流程圖6超文本類(lèi)型郵件處理的工作原理流程(五)
具體實(shí)施例方式
下面結(jié)合附圖舉例對(duì)本發(fā)明做更詳細(xì)地描述
圖1所示為基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)的結(jié)構(gòu)框圖,包括網(wǎng)絡(luò)郵件接收裝置通過(guò)實(shí)現(xiàn)SMTP協(xié)議交互過(guò)程,接收進(jìn)出受控網(wǎng)絡(luò)的電
子郵件,并存儲(chǔ)郵件全部信息;
郵件預(yù)處理裝置根據(jù)郵件的編碼類(lèi)型、字符集、消息類(lèi)型提取并解碼郵件
中的正文信息,形成不同類(lèi)型的郵件正文結(jié)構(gòu)體,在已解析的郵件正文中提取鏈
接地址;
郵件性質(zhì)判定裝置當(dāng)鏈接地址經(jīng)過(guò)惡意的編碼偽裝,則將鏈接去除偽裝,還原為真實(shí)的鏈接地址,提取該鏈接的域名信息,根據(jù)郵件屬于純文本類(lèi)型還是超文本類(lèi)型,進(jìn)行鏈接域名的特征分析處理,以此判定該郵件性質(zhì);輸出裝置根據(jù)郵件性質(zhì)判定裝置得到的郵件性質(zhì),按該郵件性質(zhì)的不同進(jìn)行郵件去向處理;
反饋處理裝置收集用戶(hù)的反饋信息,提供受控網(wǎng)內(nèi)用戶(hù)反饋信息的自動(dòng)處理機(jī)制,及時(shí)更新個(gè)性化特征庫(kù),且保證各受控網(wǎng)內(nèi)用戶(hù)間互不干擾。
圖2給出了郵件性質(zhì)判定裝置的各個(gè)單元的結(jié)構(gòu)圖,包括
鏈接去偽裝單元用于判斷待分析的鏈接地址是否經(jīng)過(guò)惡意編碼,若存在惡意編碼,則將其解碼還原為真實(shí)的鏈接地址;
個(gè)性化特征庫(kù)過(guò)濾單元利用匹配域名的正則表達(dá)式,從鏈接去偽裝單元所獲得的鏈接地址中提取出域名信息,結(jié)合該郵件的收件人郵箱地址,形成待檢測(cè)信息,利用字符串匹配自動(dòng)機(jī),判斷待檢測(cè)信息是否存在于受控網(wǎng)用戶(hù)個(gè)性化特征庫(kù)中;
快速釣魚(yú)特征庫(kù)匹配單元根據(jù)個(gè)性化特征庫(kù)過(guò)濾單元中獲得的鏈接的域名信息,采用ELFhash字符串散列函數(shù)處理后,在釣魚(yú)特征庫(kù)的哈希表中快速匹配該信息,且用鏈地址法處理所構(gòu)造的釣魚(yú)特征庫(kù)的哈希表沖突問(wèn)題;
鏈接的特征分析單元分析該鏈接是否具備釣魚(yú)鏈接的特征,通過(guò)識(shí)別該鏈接地址是否存在鏈接的跳轉(zhuǎn)特征、鏈接的域名是否包含點(diǎn)分十進(jìn)制IP地址;
相似度比較單元將個(gè)性化特征庫(kù)過(guò)濾單元中獲得的鏈接的域名與金融站點(diǎn)特征庫(kù),采用自然語(yǔ)言處理(NLP)里的Levenshtein Distance算法,依次計(jì)算兩者相似度,并比較相似度是否超過(guò)給定的閾值,閾值可取0.75-0.95之間。
所述的個(gè)性化特征庫(kù),可以是用于存儲(chǔ)從經(jīng)過(guò)處理后的受控網(wǎng)用戶(hù)反饋信息;所述的釣魚(yú)特征庫(kù),可以是用于存儲(chǔ)權(quán)威機(jī)構(gòu)提供的站點(diǎn)的域名信息;所述的金融站點(diǎn)的特征庫(kù),可以是用于存儲(chǔ)涉及電子商務(wù)、電子金融站點(diǎn)的域名信息。
圖3給出了用戶(hù)反饋分析模型的處理流程圖,包括
反饋信息處理裝置接收反饋信息后,自動(dòng)判斷信息的類(lèi)型是否正確;提取反饋信息的域名信息與反饋者的郵箱地址;在反饋信息的域名與反饋者的郵箱地址中添加標(biāo)志位"[per]",即"[per]反饋者的郵箱地址[per]反饋信息的域名[per]"類(lèi)型,形成個(gè)性化特征信息,這樣是為了防止出現(xiàn)誤匹配現(xiàn)象;同時(shí)完成自動(dòng)機(jī)更新,釋放舊的自動(dòng)機(jī),建立新的自動(dòng)機(jī),使該個(gè)性化特征信息添加到個(gè)性化特征庫(kù),更新個(gè)性化特征庫(kù)。
此反饋分析模型的建立,實(shí)現(xiàn)了個(gè)性化特征庫(kù)的實(shí)時(shí)更新,通過(guò)用戶(hù)的不斷
10反饋報(bào)告,使得本發(fā)明在原有的基礎(chǔ)上不斷地提高識(shí)別能力,提高分析性能。所述的反饋信息處理裝置接收反饋信息是依托于本發(fā)明提供的受控網(wǎng)用戶(hù)
反饋界面,為了安全性考慮,該反饋界面處于本發(fā)明所在的服務(wù)器上,并非處于
受控網(wǎng)用戶(hù)的客戶(hù)端。
圖4展現(xiàn)了實(shí)施本發(fā)明的典型應(yīng)用環(huán)境。
在圖示的應(yīng)用環(huán)境下,本發(fā)明部署在高性能服務(wù)器網(wǎng)關(guān)中,保護(hù)受控網(wǎng)內(nèi)所有郵件服務(wù)器及用戶(hù)免受網(wǎng)絡(luò)釣魚(yú)郵件的攻擊,其中郵件發(fā)送者C處于外部網(wǎng)絡(luò),用戶(hù)A、 B為受控網(wǎng)中兩類(lèi)用戶(hù)的代表,即用戶(hù)A為正常用戶(hù),用戶(hù)B為惡意用戶(hù);用戶(hù)A、 B反饋時(shí),本發(fā)明會(huì)分別處理反饋信息,惡意用戶(hù)B反饋的信息,只對(duì)用戶(hù)B本身有效,對(duì)用戶(hù)A無(wú)效,這樣避免惡意用戶(hù)B通過(guò)反饋錯(cuò)誤的信息,而影響整個(gè)受控網(wǎng),有效的抵抗受控網(wǎng)內(nèi)惡意用戶(hù)的干擾。
外部郵件發(fā)送者C發(fā)送正常郵件時(shí),本發(fā)明將投遞該郵件到相應(yīng)收件人的郵箱中;發(fā)送釣魚(yú)郵件時(shí),本發(fā)明將攔截該郵件存入隔離區(qū);對(duì)于本發(fā)明識(shí)別為疑似釣魚(yú)郵件,為了避免誤判給用戶(hù)造成損失,還考慮到郵件可能帶有網(wǎng)絡(luò)釣魚(yú)攻擊,故本發(fā)明添加了處理信息及提醒信息,提高受控網(wǎng)用戶(hù)的警惕性,防止用戶(hù)在不知情的情況下受到網(wǎng)絡(luò)釣魚(yú)的攻擊。
實(shí)施例一、本發(fā)明對(duì)純文本類(lèi)型的郵件分析圖5給出了實(shí)施例一的原理流程圖。實(shí)施例二、本發(fā)明對(duì)超文本類(lèi)型的郵件分析圖6給出了實(shí)施例二的原理流程圖。
下面通過(guò)基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)對(duì)具體類(lèi)型的釣魚(yú)郵件識(shí)別過(guò)程,結(jié)合上述兩個(gè)實(shí)施例進(jìn)一步介紹本發(fā)明的技術(shù)方案。
1、 網(wǎng)絡(luò)電子郵件的接收
實(shí)現(xiàn)SMTP協(xié)議交互過(guò)程,接收發(fā)往受控網(wǎng)絡(luò)或從受控網(wǎng)絡(luò)發(fā)出的電子郵件,并存儲(chǔ)郵件全文;
2、 網(wǎng)絡(luò)電子郵件的解析
通過(guò)對(duì)郵件類(lèi)型的分析,獲得該郵件為純文本還是超文本類(lèi)型,在郵件中提取正文信息、郵件字符集類(lèi)型和傳輸編碼等頭信息;若郵件類(lèi)型為純文本,則根據(jù)字符集類(lèi)型和傳輸編碼將郵件的正文解析為純文本類(lèi)型,并存入正文結(jié)構(gòu)體鏈表;若郵件類(lèi)型為超文本,則郵件正文解析為HTML類(lèi)型,存入正文結(jié)構(gòu)體鏈表。
3、 正文中鏈接的提取
若郵件類(lèi)型為純文本,則在正文中査找"http:/Z或www"字段;若郵件類(lèi)型為超文本,則提取出解析為HTML類(lèi)型的正文結(jié)構(gòu)體,并在其中査找 "<AHERF=……>......</八>"字段,特別的當(dāng)郵件類(lèi)型為超文本類(lèi)型時(shí),鏈接地址包
括了鏈接的顯式地址和隱式地址(如在"<A HERF=X>Y々AV'中,X代表鏈接的隱式地址,Y代表鏈接的顯式地址,從X中提取的域名信息為隱式域名,從Y中提取的鏈接的域名信息為顯式域名);根據(jù)査找上述字段來(lái)定位鏈接地址,依次并提取鏈接地址。
4、 鏈接地址的解碼
在鏈接地址中查找'%,,來(lái)判斷是否經(jīng)過(guò)URL的惡意編碼,若存在惡意的編碼,則進(jìn)行URL字符解碼,將兩位16進(jìn)制的ASCII碼還原為字符,完成鏈接地址的還原。
5、 鏈接分析
利用匹配域名的正則表達(dá)式從解碼后的鏈接地址中匹配該鏈接地址的域名,作為待分析信息;
判斷上述待分析信息是否存在于受控網(wǎng)用戶(hù)個(gè)性化特征庫(kù)中,若存在,則該郵件為釣魚(yú)郵件,郵件威脅等級(jí)達(dá)到高,結(jié)束鏈接分析過(guò)程;否則進(jìn)行下一歩處理;
將待分析信息經(jīng)過(guò)ELFhash字符串散列函數(shù)處理后,在釣魚(yú)特征庫(kù)的哈希表中查找,若査找到,則該郵件為釣魚(yú)郵件,郵件威脅等級(jí)達(dá)到高,結(jié)束鏈接分析過(guò)程;若未査找到,根據(jù)郵件類(lèi)型,分別進(jìn)行如下處理;
1)當(dāng)郵件為純文本類(lèi)型時(shí),直接通過(guò)匹配IP的正則表達(dá)式從待分析信息中匹配點(diǎn)分十進(jìn)制IP地址;
如果匹配到IP地址,則郵件暫判為疑似釣魚(yú)郵件,且郵件威脅等級(jí)達(dá)到中,該鏈接的分析過(guò)程結(jié)束;
如果未匹配IP地址,將待分析信息與金融站點(diǎn)特征庫(kù)逐一進(jìn)行相似度比較;先判斷待分析信息是否存在于金融站點(diǎn)特征庫(kù)中,若存在于金融站點(diǎn)特征庫(kù)中,則說(shuō)明待分析信息為正常,郵件威脅等級(jí)為低,該鏈接的分析過(guò)程結(jié)束;若待分析信息不存在于特征庫(kù)中,則根據(jù)相似度計(jì)算策略將待分析信息的與金融站點(diǎn)特征庫(kù)逐一進(jìn)行相似度比較,所述的相似度計(jì)算策略為俄國(guó)科學(xué)家Levenshtein提出的自然語(yǔ)言處理(NLP)里的Levenshtein Distance算法,即計(jì)算從待分析信息s轉(zhuǎn)換到特征庫(kù)中某一特征信息t所需要的最少的插入,刪除和替換的數(shù)目,通過(guò)構(gòu)造矩陣,矩陣中的值d[n, m]表示待分析信息s與特征信息t的距離,且d[i, j〗=min(d[i-l, j] + l,d[i, j-1] + 1, d[i-l , j-l] + k)(其中n、 m分別為待分析信息s、特征信息t的長(zhǎng)度,i, j分別介于1到n、 1到m,若s[i]=t[j]成立,k取O,否者k取l),得到待分析信息s與特征信息t的距離,即可得st相似度氣l-st距離/max(n, m));
當(dāng)某次比較相似度結(jié)果超過(guò)閾值,閾值一般取(0.75-0.95)較為合適,則結(jié)束相似度比較,且郵件威脅等級(jí)為中,該鏈接的分析過(guò)程結(jié)束;
當(dāng)待分析信息s與特征庫(kù)中的特征信息逐一比較結(jié)果均未超過(guò)閾值,則為待分析的信息為正常,則郵件威脅度為低,該鏈接的分析過(guò)程結(jié)束。
2)當(dāng)郵件類(lèi)型為超文本類(lèi)型時(shí),提取鏈接的顯式域名與鏈接的隱式域名;
若鏈接的顯式域名與鏈接的隱式域名均存在且不一致,則郵件威脅等級(jí)為中,該鏈接的分析過(guò)程結(jié)束;
若鏈接的顯式域名與鏈接的隱式域名一致或鏈接的顯式域名不存在,則通過(guò)匹配IP的正則表達(dá)式在鏈接的隱式域名中匹配點(diǎn)分十進(jìn)制IP地址;
如果匹配到點(diǎn)分十進(jìn)制IP地址,則郵件威脅等級(jí)為中,該鏈接的分析過(guò)程結(jié)束;
如果未匹配到點(diǎn)分十進(jìn)制IP地址,則按照上述相似度比較策略分析鏈接的隱式域名與金融站點(diǎn)的特征庫(kù)相似度,以此判斷郵件威脅等級(jí)。
本發(fā)明從郵件中的每個(gè)鏈接地址中提取鏈接的域名信息,作為待分析信息集,依次提取每個(gè)待分析信息經(jīng)過(guò)上述鏈接分析過(guò)程,結(jié)束郵件性質(zhì)判定過(guò)程的充要條件為郵件威脅等級(jí)到達(dá)高或所有待分析信息均巳分析完畢,而郵件的性質(zhì)是取決于每個(gè)鏈接分析過(guò)程所得的郵件威脅等級(jí)的最高值。
6.郵件輸出處理
當(dāng)郵件威脅度為高時(shí),則該郵件屬于釣魚(yú)郵件,本發(fā)明將郵件存入隔離區(qū);當(dāng)郵件威脅度為中時(shí),則該郵件屬于疑似釣魚(yú)郵件,在郵件中添加警告信息,
13提醒受控網(wǎng)用戶(hù)該郵件極有可能為釣魚(yú)郵件;
當(dāng)郵件威脅度為低時(shí),則該郵件屬于正常郵件,本發(fā)明將正常轉(zhuǎn)發(fā)該郵件。 綜上,本發(fā)明在執(zhí)行效率、資源開(kāi)銷(xiāo)等方面具有較好的性能,能夠滿足實(shí)時(shí) 釣魚(yú)郵件過(guò)濾的需求,可防止受控網(wǎng)內(nèi)惡意用戶(hù)的干擾,可保護(hù)受控網(wǎng)的電子郵 件用戶(hù)免受網(wǎng)絡(luò)釣魚(yú)的攻擊,本發(fā)明適合部署在要求高實(shí)時(shí)性的郵件服務(wù)器、網(wǎng) 關(guān)服務(wù)器中,可廣泛的應(yīng)用于網(wǎng)絡(luò)郵件過(guò)濾管理、防網(wǎng)絡(luò)釣魚(yú)攻擊等應(yīng)用領(lǐng)域。
權(quán)利要求
1、一種基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng),其構(gòu)成包括網(wǎng)絡(luò)郵件接收裝置、郵件預(yù)處理裝置、郵件性質(zhì)判定裝置、輸出裝置和反饋處理裝置;其特征是網(wǎng)絡(luò)郵件接收裝置通過(guò)實(shí)現(xiàn)SMTP協(xié)議交互過(guò)程,接收進(jìn)出受控網(wǎng)絡(luò)的電子郵件,并存儲(chǔ)郵件全部信息;郵件預(yù)處理裝置根據(jù)郵件的編碼類(lèi)型、字符集、消息類(lèi)型提取并解碼郵件中的正文信息,形成不同類(lèi)型的郵件正文結(jié)構(gòu)體,在已解析的郵件正文中提取鏈接地址;郵件性質(zhì)判定裝置當(dāng)鏈接地址經(jīng)過(guò)惡意的編碼偽裝,則將鏈接去除偽裝,還原為真實(shí)的鏈接地址,提取該鏈接的域名信息,根據(jù)郵件屬于純文本類(lèi)型還是超文本類(lèi)型,進(jìn)行鏈接域名的特征分析處理,以此判定該郵件性質(zhì);輸出裝置根據(jù)郵件性質(zhì)判定裝置得到的郵件性質(zhì),按該郵件性質(zhì)的不同進(jìn)行郵件去向處理;反饋處理裝置收集用戶(hù)的反饋信息,提供受控網(wǎng)內(nèi)用戶(hù)反饋信息的自動(dòng)處理機(jī)制,及時(shí)更新個(gè)性化特征庫(kù),且保證各受控網(wǎng)內(nèi)用戶(hù)間互不干擾。
2、 根據(jù)權(quán)利要求l所述的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng),其特征是所述的郵件預(yù)處理裝置包括郵件正文解析單元、鏈接提取單元;郵件正文解析單元在郵件中定位并提取郵件正文、郵件字符集類(lèi)型和傳輸編碼信息,判斷郵件類(lèi)型后,再根據(jù)該郵件的字符集和傳輸編碼類(lèi)型,解析郵件正文信息,并存入正文結(jié)構(gòu)體鏈表;鏈接提取單元用于在郵件正文解析單元所得的正文信息中提取鏈接地址,若郵件類(lèi)型為純文本,則在正文中査找"11 ://或\^"字段,若郵件類(lèi)型為超文本,則在HTML類(lèi)型的正文中査找"<AHERF=……>……</A>"字段,以此定位鏈接地址。
3、 根據(jù)權(quán)利要求2所述的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng),其特征是所述的郵件性質(zhì)判定裝置包括鏈接去偽裝單元、個(gè)性化特征庫(kù)過(guò)濾單元、快速釣魚(yú)特征庫(kù)匹配單元、鏈接特征分析單元和相似度比較單元;鏈接去偽裝單元判斷待分析的鏈接地址是否經(jīng)過(guò)惡意的編碼,若存在惡意的編碼,則將其解碼還原為真實(shí)的鏈接地址;個(gè)性化特征庫(kù)過(guò)濾單元利用匹配域名的正則表達(dá)式,從鏈接去偽裝單元所得的鏈接地址中提取出域名信息,結(jié)合該郵件的收件人郵箱地址,形成待檢測(cè)信息,利用字符串匹配自動(dòng)機(jī),判斷待檢測(cè)信息是否存在于個(gè)性化特征庫(kù)中;快速釣魚(yú)特征庫(kù)匹配單元根據(jù)個(gè)性化特征庫(kù)過(guò)濾單元中獲得的鏈接的域名信息,采用ELFhash字符串散列函數(shù)處理后,在釣魚(yú)特征庫(kù)的哈希表中匹配該信息,且用鏈地址法處理所構(gòu)造的 釣魚(yú)特征庫(kù)哈希表沖突問(wèn)題;鏈接特征分析單元分析該鏈接是否具備釣魚(yú)鏈接的特 征,通過(guò)識(shí)別該鏈接地址是否存在鏈接的跳轉(zhuǎn)特征、鏈接的域名是否包含點(diǎn)分十進(jìn)制 IP地址;相似度比較單元將個(gè)性化特征庫(kù)過(guò)濾單元中獲得的鏈接的域名與金融站點(diǎn)特 征庫(kù),采用自然語(yǔ)言處理NLP里的Levenshtein Distance算法,依次計(jì)算兩者相似度, 并判斷相似度是否超過(guò)給定的閾值。
4、 根據(jù)權(quán)利要求3所述的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng),其特征 是所述的輸出裝置將根據(jù)郵件判定性質(zhì)裝置判斷得到的郵件性質(zhì),分別采取不同的輸出策略;當(dāng)郵件威脅度為高時(shí),則該郵件屬于釣魚(yú)郵件,攔截該郵件,將郵件存入 隔離區(qū);當(dāng)郵件威脅度為中時(shí),則該郵件屬于疑似釣魚(yú)郵件,添加提醒信息,用于提醒受控網(wǎng)的用戶(hù),將郵件投遞到郵件監(jiān)控區(qū)域,通知用戶(hù)登錄該區(qū)域查看郵件,并提供用戶(hù)反饋接口;當(dāng)郵件威脅度為低時(shí),則該郵件屬于正常郵件,將正常轉(zhuǎn)發(fā)郵件。
5、 根據(jù)權(quán)利要求4所述的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng),其特征 是所述的反饋處理裝置包括1)反饋處理裝置接收反饋信息后,自動(dòng)判斷信息的 類(lèi)型是否正確,并提取反饋信息的域名;2)在反饋信息的域名與反饋者的郵箱地址 中添加標(biāo)志位"[per]",形成個(gè)性化特征信息;3)完成字符串匹配自動(dòng)機(jī)的更新,使該 個(gè)性化特征信息添加到個(gè)性化特征庫(kù),完成個(gè)性化特征庫(kù)的更新。
6、 基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件方法,其特征是包括以下步驟 郵件預(yù)處理步驟,解析郵件正文信息,提取郵件正文中的鏈接地址; 鏈接預(yù)處理步驟,解碼還原經(jīng)惡意編碼的鏈接地址;個(gè)性化特征庫(kù)的過(guò)濾步驟,提取該鏈接地址的域名信息,結(jié)合該郵件的收件人郵 箱地址,形成待檢測(cè)信息,利用字符串匹配自動(dòng)機(jī)查找待檢測(cè)信息是否存在于個(gè)性化 特征庫(kù)中,若査找到,則分析過(guò)程結(jié)束,且郵件威脅等級(jí)為高,否則進(jìn)行下一步驟;快速釣魚(yú)特征庫(kù)的匹配步驟,將待檢測(cè)信息經(jīng)ELFhash字符串散列處理后,在所 構(gòu)造的釣魚(yú)特征庫(kù)的哈希表中查找該待檢測(cè)信息,若査找到,則分析過(guò)程結(jié)束,郵件 威脅等級(jí)為高,否則進(jìn)行下一步驟;鏈接的特征分析步驟,判斷該鏈接地址是否存在鏈接跳轉(zhuǎn)、鏈接的域名信息包含 點(diǎn)分十進(jìn)制IP地址等特征,若存在,則郵件威脅等級(jí)為中,否則進(jìn)行下一步驟;相似度比較步驟,采用Levenshtein Distance算法,依次計(jì)算鏈接的域名信息與金 融站點(diǎn)特征庫(kù)中信息的相似度,若兩者相似度超過(guò)閾值,則郵件威脅等級(jí)為中,否則郵件威脅等級(jí)為低。
7、根據(jù)權(quán)利要求6所述的基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件方法,其特征 是所述的反釣魚(yú)郵件方法將依次分析郵件中的每個(gè)鏈接地址,結(jié)束該分析過(guò)程的充 要條件是郵件威脅等級(jí)為高或郵件中所有鏈接均己分析完畢,且郵件性質(zhì)是取決于分 析每個(gè)鏈接所得的郵件威脅等級(jí)的最高值。
全文摘要
本發(fā)明提供的是一種基于鏈接域名和用戶(hù)反饋的反釣魚(yú)郵件系統(tǒng)及方法。本發(fā)明所述的系統(tǒng)包括網(wǎng)絡(luò)郵件接收裝置、郵件預(yù)處理裝置、郵件性質(zhì)判定裝置、輸出裝置、反饋處理裝置。所述的方法為通過(guò)分析郵件中鏈接的域名的特征,并結(jié)合受控網(wǎng)用戶(hù)反饋策略,實(shí)現(xiàn)釣魚(yú)郵件以及疑似釣魚(yú)郵件的識(shí)別。本發(fā)明的優(yōu)點(diǎn)在于識(shí)別效率高、低資源消耗、無(wú)誤判率,可部署到要求高實(shí)時(shí)性的郵件服務(wù)器、網(wǎng)關(guān)服務(wù)器等,保護(hù)受控網(wǎng)用戶(hù)免受釣魚(yú)郵件的欺騙,可抵抗受控網(wǎng)內(nèi)惡意用戶(hù)的干擾,可廣泛應(yīng)用于網(wǎng)絡(luò)郵件過(guò)濾管理、防網(wǎng)絡(luò)釣魚(yú)攻擊等應(yīng)用領(lǐng)域。
文檔編號(hào)H04L12/58GK101667979SQ20091007304
公開(kāi)日2010年3月10日 申請(qǐng)日期2009年10月12日 優(yōu)先權(quán)日2009年10月12日
發(fā)明者朱文龍, 武 楊, 玄世昌, 巍 王, 苘大鵬, 邱文真 申請(qǐng)人:哈爾濱工程大學(xué)