基于頁面特征和url特征的釣魚app檢測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于頁面特征和URL特征的釣魚APP檢測方法及系統(tǒng),所述方法包括:S1、對所要檢測的APP進行反編譯,得到XML文本、XML圖像和smali文件;S2、對XML文本進行XML文本特征提取,采用源代碼檢測器對XML文本特征進行分類檢測;S3、對XML圖像進行XML圖像特征提取,采用頁面檢測器對XML圖像特征進行分類檢測;S4、對所有的smali文件進行掃描,提取smali文件中的URL,然后采用URL檢測器對URL進行檢測。本發(fā)明不需要大量的釣魚APP數(shù)據(jù)進行匹配,不要求APP的安裝,不需要手機用戶觸發(fā)事件,對用戶完全沒有任何要求,已經(jīng)將釣魚APP危害扼殺在搖籃之中。
【專利說明】基于頁面特征和URL特征的釣魚APP檢測方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機軟件安全【技術(shù)領(lǐng)域】,尤其設(shè)及一種基于頁面特征和U化特征的 釣魚APP檢測方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,隨著手機終端的迅速發(fā)展,尤其是安卓系統(tǒng),手機平臺上的釣魚攻擊呈爆 炸式的增長,因此,釣魚式攻擊的檢測技術(shù)的研究變得更加重要。事實上,對比手機上的惡 意軟件,手機終端的釣魚式攻擊顯得更加危險,原因之一是手機終端的某些缺陷,W及手機 用戶的習(xí)慣所導(dǎo)致的,原因之二是現(xiàn)有的臺式電腦/筆記本電腦上的釣魚式攻擊檢測技術(shù) 不能應(yīng)用到手機終端上。
[0003] 釣魚式攻擊主要目的是盜取用戶的隱私信息,比如用戶登錄名、密碼W及用戶信 用卡信息等。盡管已有很多的研究者提出了許多的反釣魚技術(shù),但是釣魚式攻擊沒有得到 一絲緩和。一方面,釣魚式攻擊層出不窮,根據(jù)世界反釣魚工作聯(lián)盟報告,每一種釣魚式攻 擊存活的平均時間大概是4. 5天。另一方面,攻擊者持續(xù)地改進攻擊技術(shù),W致能逃脫現(xiàn)有 的檢測工具。
[0004] 手機終端上的釣魚式攻擊主要涌現(xiàn)在在線購物、社交網(wǎng)絡(luò)W及金融機構(gòu)等。對手 機終端發(fā)起釣魚式攻擊的趨勢在于手機硬件的限制,如屏幕過小、用戶輸入的不方便、各個 手機應(yīng)用的切換較麻煩,除此之外,手機用戶容易被假冒的登錄界面所欺騙。
[0005] 隨著經(jīng)濟的發(fā)展,為了提升它們的服務(wù)W及業(yè)績,很多公司企業(yè)都研發(fā)了自己的 手機應(yīng)用,如淘寶手機客戶端、京東手機客戶端等。該為攻擊者提供了新的一塊釣魚式攻擊 的領(lǐng)域:一些攻擊者會運用開發(fā)出假冒APP,或者向合法APP中注入代碼,并將改制后的APP 上傳到非官方的手機應(yīng)用市場。對比釣魚網(wǎng)址,釣魚APP的檢測難度遠高于釣魚網(wǎng)址的檢 巧。,之所W該樣,是因為沒法識別用戶的信任證書是發(fā)送到了合法的服務(wù)器上,還是釣魚式 攻擊的服務(wù)器上。
[0006] 現(xiàn)有技術(shù)中針對于釣魚APP目前檢測技術(shù)還很匿乏,只有少數(shù)研究關(guān)于此。
[0007] 坦普爾大學(xué)的吳龍飛等提出一種通過監(jiān)控數(shù)據(jù)向外傳送的各種路徑來檢測是否 是釣魚APP。具體思想如下;
[000引收集大量可疑釣魚APP數(shù)據(jù),建立一個包含應(yīng)用程序名稱、化d(應(yīng)用程序編號)、 啟動時間和應(yīng)用程序登陸界面的文本信息的數(shù)據(jù)庫;
[0009] 在某個APP啟動的時候,提取其名稱,并在數(shù)據(jù)庫中捜索,如果存在,則證明此APP 不是釣魚的APP ;如果存在,則通過光學(xué)字符識別技術(shù)提取APP登陸界面的文本信息,記錄 APP的啟動時間和獲取APP的化d,然后進入APP的認證階段,先將APP的Uid與數(shù)據(jù)庫進 行比較,若不存在,則證明不是釣魚APP,反之,同時進行啟動時間的比較和登陸界面的文本 信息的比較,若啟動時間相同,則切斷Socket/SMS通信,若文本信息相同,則切斷HTTP的連 接;
[0010] 通過W上的通信路徑的實時檢測,W此達到檢測釣魚APP的目的。
[0011] 然而上述方法存在W下幾個缺陷:
[0012] 該種技術(shù)是建立在大量釣魚APP數(shù)據(jù)基礎(chǔ)之上的,然而釣魚式APP攻擊剛出現(xiàn)不 久,現(xiàn)存的數(shù)據(jù)量較少,W上技術(shù)的成功檢測率大大減低;
[0013] 要求APP安裝在手機上,如果APP是釣魚APP,由于W上的成功檢測率的低下,該就 導(dǎo)致了隱患的存在;
[0014] 要求手機用戶觸發(fā)數(shù)據(jù)傳輸事件,才能進行檢測,如果手機用戶沒有連接網(wǎng)絡(luò),沒 法進行數(shù)據(jù)庫匹配的話,該樣就造成了釣魚式攻擊的形成;
[0015] 用戶的要求過高,要用戶時刻引起懷疑才可W成功的阻擋釣魚式攻擊,然而由于 用戶的習(xí)慣和缺乏極強的安全意識,該就會導(dǎo)致該種技術(shù)面臨著窘境。
[0016] 因此,針對上述技術(shù)問題,有必要提供一種基于頁面特征和U化特征的釣魚APP檢 測方法及系統(tǒng),其不需要大量的釣魚APP數(shù)據(jù)進行匹配,不要求APP的安裝,不需要手機用 戶觸發(fā)事件,對用戶完全沒有任何要求,能夠?qū)⒃摲N危害扼殺在搖籃之中。
【發(fā)明內(nèi)容】
[0017] 有鑒于此,本發(fā)明的目的在于提供一種基于頁面特征和U化特征的釣魚APP檢測 方法及系統(tǒng)。
[001引為了達到上述目的,本發(fā)明實施例提供的技術(shù)方案如下:
[0019] 一種基于頁面特征和U化特征的釣魚APP檢測方法,所述方法包括:
[0020] S1、對所要檢測的APP進行反編譯,得到XML文本、XML圖像和smali文件;
[0021] S2、對XML文本進行XML文本特征提取,采用源代碼檢測器對XML文本特征進行分 類檢測,若檢測結(jié)果為釣魚APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S3 ;
[0022] S3、對XML圖像進行XML圖像特征提取,采用頁面檢測器對XML圖像特征進行分類 檢測,若檢測結(jié)果為釣魚APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S4 ;
[0023] S4、對所有的smali文件進行掃描,提取smali文件中的U化,然后采用U化檢測 器對U化進行檢測,若檢測到U化是釣魚的U化,則停止剩余U化的檢測,提示用戶將此APP 安裝包刪除,若所有的smali文件均未檢測到U化是釣魚的U化,則提示用于該APP為正常 APP。
[0024] 作為本發(fā)明的進一步改進,所述步驟S2中"對XML文本進行XML文本特征提取"具 體為:
[0025] 根據(jù)標(biāo)記樹模型提取XML文本特征,標(biāo)記樹T = (IV Vt,^ t),其中:
[0026] 14 C JV是節(jié)點集合,Vt中的節(jié)點分為元素節(jié)點、屬性節(jié)點和文本節(jié)點,
[0027] V t是標(biāo)記樹T的根節(jié)點,
[0028] 島C 14 X Ft為邊的集合,每條邊代表了標(biāo)記樹T中兩個節(jié)點間的父子關(guān)系,
[0029] A: : Ff W E為節(jié)點的標(biāo)記映射函數(shù),E是節(jié)點標(biāo)簽集合;
[0030] 根據(jù)標(biāo)記樹及全路徑提取特征方法,將XML文本向量化:
[00川 T是XML文本集合,對于其中每一個文本TiG T,用文本向量di表示;di=化_ pathTvi),表示中可W用全路徑表示,且滿足條件:
[0032]
【權(quán)利要求】
1. 一種基于頁面特征和URL特征的釣魚APP檢測方法,其特征在于,所述方法包括: 51、 對所要檢測的APP進行反編譯,得到XML文本、XML圖像和smali文件; 52、 對XML文本進行XML文本特征提取,采用源代碼檢測器對XML文本特征進行分類檢 測,若檢測結(jié)果為釣魚APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S3 ; 53、 對XML圖像進行XML圖像特征提取,采用頁面檢測器對XML圖像特征進行分類檢 測,若檢測結(jié)果為釣魚APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S4 ; 54、 對所有的smali文件進行掃描,提取smali文件中的URL,然后采用URL檢測器對URL進行檢測,若檢測到URL是釣魚的URL,則停止剩余URL的檢測,提示用戶將此APP安裝 包刪除,若所有的smali文件均未檢測到URL是釣魚的URL,則提示用于該APP為正常APP。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中"對XML文本進行XML文 本特征提取"具體為: 根據(jù)標(biāo)記樹模型提取XML文本特征,標(biāo)記樹T= (rt,Vt,Et,At),其中:gI是節(jié)點集合,Vt中的節(jié)點分為元素節(jié)點、屬性節(jié)點和文本節(jié)點, rtGVt是標(biāo)記樹T的根節(jié)點, 焉SFtX14為邊的集合,每條邊代表了標(biāo)記樹T中兩個節(jié)點間的父子關(guān)系, Xt'V(I-^ 為~p點的標(biāo)記映射函數(shù),E是~P點標(biāo)簽集合; 根據(jù)標(biāo)記樹及全路徑提取特征方法,將XML文本向量化: T是XML文本集合,對于其中每一個文本TiGT,用文本向量di表示:di= {H_pathTvi},表示Cli可以用全路徑表示,且滿足條件:
式中:i= 1,2, . . .,n,j= 1,2, . . .,m,n表示文本集合中的文本個數(shù),m表示標(biāo)記樹 T中出現(xiàn)的所有的全部路徑數(shù)目。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S2中"采用源代碼檢測器對XML 文本特征進行分類檢測"具體為: 根據(jù)提取出的文本向量,檢測全路徑信息中含有元素節(jié)點中的文本節(jié)點,對文本節(jié)點 出現(xiàn)"invisible"的次數(shù)設(shè)定一個閾值,若檢測到的文本向量中含有"invisible"且對應(yīng) 的出現(xiàn)次數(shù)大于閾值,則表示此XML文本是來自釣魚APP。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述閾值設(shè)置為2。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3中"對XML圖像進行XML圖 像特征提取"具體為: XML圖像特征由向量P〈Pl,p2,p3,p4>表示,設(shè)當(dāng)前處理的XML圖像為S,Shash表示圖片S指紋的集合,Ssiz彥示圖片S的大小,S^表示圖片S的顏色直方圖集合,SgMy表示圖片S 的灰度直方圖集合,則向量P中各分量為: P1:記數(shù)據(jù)庫D中圖片指紋為D(hash),則pi表示在Shash集合所有元素中能夠在D(hash)中找到相同記錄的元素數(shù)量占Shash集合的百分比; P2:記數(shù)據(jù)庫D中圖片大小為D(size),則p2表示在Ssize集合所有元素中能夠在D(Size)中找到相同記錄的元素數(shù)量占匕^集合的百分比; P3:記數(shù)據(jù)庫D中所有圖片的彩色直方圖集合為D(hsv),則p3表示Shsv集合的所有元 素中能夠在D(hsv)中找到和其歐氏距離大于0. 9的元素數(shù)量占5^集合的百分比; P4:記數(shù)據(jù)庫D中所有圖片的彩色直方圖集合為D(grey),則p4表示Sg,ey集合的所有元 素中能夠在D(grey)中找到和其歐氏距離大于0. 9的元素數(shù)量占SgMy集合的百分比。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述歐氏距離的計算方法為: 向量a= (Xl,x2, . . .,xn)和向量|3 = (y:,y2, . . .,yn)的歐氏距離為
7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述所述步驟S3中"采用頁面檢測器對 XML圖像特征進行分類檢測"具體為: 根據(jù)XML圖像特征提取得到的向量P〈Pl,p2,p3,p4>,與服務(wù)器上的釣魚頁面圖像模板 庫進行相似度的對比,若兩個圖像特征的歐氏距離小于〇. 5,則認為是近似圖像。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括: 依次遍歷smali文件內(nèi)容,提取smali文件中的URL; 根據(jù)URL域名是否有IP、URL中是否含有16進制、URL域名級數(shù)是否超過5級、URL路 徑是否帶點、URL路徑中是否有被入侵特征、URL路徑中是否含有根域名6個特征作為URL 特征檢測的特征部分,并將這6個特征部分轉(zhuǎn)換成bool型的特征值; 根據(jù)以上特征提取得到向量X= (Xl,x2, ...,xn)T,且向量中的變量相互獨立,計算URL二分分類的概率:
其中,條件概率P(y= 11X) =P是釣魚URL的概率; 通過計算result,進行是否是釣魚URL的判斷。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟S4還包括: 將result的閾值設(shè)定為0. 5,若URL的result超過0. 5,則認為是釣魚URL,否則,則認 為是正常URL。
10. -種基于頁面特征和URL特征的釣魚APP檢測系統(tǒng),其特征在于,所述系統(tǒng)包括: 反編譯模塊,用于對所要檢測的APP進行反編譯,得到XML文本、XML圖像和smali文 件; 檢測模塊,包括XML文本檢測模塊、XML圖像檢測模塊和smali文件檢測模塊,其中:XML文本檢測模塊,用于對XML文本進行XML文本特征提取,采用源代碼檢測器對XML 文本特征進行分類檢測; XML圖像檢測模塊,用于對XML圖像進行XML圖像特征提取,采用頁面檢測器對XML圖 像特征進行分類檢測; smali文件檢測模塊,用于對所有的smali文件進行掃描,提取smali文件中的URL,然 后采用URL檢測器對URL進行檢測。
【文檔編號】G06F21/56GK104504335SQ201410817371
【公開日】2015年4月8日 申請日期:2014年12月24日 優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】任環(huán), 張巍, 姜青山 申請人:中國科學(xué)院深圳先進技術(shù)研究院