一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法
【專利摘要】本發(fā)明涉及一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,屬于信息安全【技術(shù)領(lǐng)域】。目前,移動互聯(lián)網(wǎng)應(yīng)用軟件在人們生活中扮演著越來越重要的角色,而移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測的方法還不夠成熟。本發(fā)明利用隱馬爾科夫模型對所監(jiān)控的移動互聯(lián)網(wǎng)應(yīng)用軟件進(jìn)行分析,得到當(dāng)前軟件相對于每種軟件基本操作類型的相似程度,形成相似度向量,將相似度向量輸入到根據(jù)不同的核函數(shù)訓(xùn)練好的5個(gè)支持向量機(jī)模型(SVM模型),輸出結(jié)果由表決系統(tǒng)判定其是否為惡意應(yīng)用。采用本發(fā)明所述的方法,能克服現(xiàn)有技術(shù)中對惡意行為定義不完備以及訓(xùn)練數(shù)據(jù)集過于龐大的不足之處,實(shí)現(xiàn)對于惡意應(yīng)用軟件的有效檢測,并且可靠性較高。
【專利說明】一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,確切地說,涉及一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,屬于移動互聯(lián)網(wǎng)環(huán)境下應(yīng)用軟件惡意性分析的信息安全【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]伴隨著移動互聯(lián)網(wǎng)時(shí)代的到來,移動智能終端的性能越來越強(qiáng)大,普及程度也越來越高,加上全球都在推動3G甚至4G移動網(wǎng)絡(luò)的發(fā)展,移動網(wǎng)絡(luò)的高速度為智能手機(jī)應(yīng)用提供了環(huán)境。用戶開始在移動智能終端上消費(fèi)音樂、電子產(chǎn)品、電影、地圖、游戲等應(yīng)用,同時(shí)也利用移動智能終端溝通交流,如社交網(wǎng)絡(luò)Facebook、Twitter、微博等。但是,大量的終端軟件和應(yīng)用也意味著大量的安全風(fēng)險(xiǎn),針對終端設(shè)備的各類攻擊是從2004年之后就開始出現(xiàn)的。目前移動智能終端面臨的安全威脅和安全風(fēng)險(xiǎn)主要包括三方面:一是自身系統(tǒng)或軟件的漏洞;二是惡意軟件(病毒、木馬等);三是出現(xiàn)違反國家法律的內(nèi)容或服務(wù)。具體可能存在的安全隱患包括:個(gè)人隱私泄露、個(gè)人身份盜用、應(yīng)用程序安全、位置定位、手機(jī)病毒、信息竊取、存在安全漏洞的業(yè)務(wù)應(yīng)用等。
[0003]對于移動智能終端安全領(lǐng)域的研究是一個(gè)比較新的方向和課題,并且隨著移動設(shè)備用戶的不斷增加這也將成為網(wǎng)絡(luò)安全領(lǐng)域的熱點(diǎn)。目前國內(nèi)外在這方面的研究不多,主要包括政策性法規(guī)研究和技術(shù)研究,技術(shù)研究分為兩部分:一部分是從硬件方面來尋求安全的解決方案,認(rèn)為單純的軟件解決方案已不能滿足來自復(fù)雜移動網(wǎng)絡(luò)的各類威脅,現(xiàn)在國內(nèi)外都期望從硬件方面來尋求解決方案。而可信計(jì)算的出現(xiàn)為終端安全提供了一種新的思路。在軟件方面,各網(wǎng)絡(luò)安全廠商,如賽門鐵克,卡巴斯基,趨勢科技等都開始致力于智能移動終端的安全解決方案,而國內(nèi)的瑞星等也開始有一些相關(guān)產(chǎn)品的研究,但是技術(shù)尚處于不完善階段。
[0004]和傳統(tǒng)的電腦遇到的安全問題一樣,移動智能終端也遇到了同樣的問題,病毒、惡意程序、木馬等的侵害也開始出現(xiàn)在了終端上,給終端用戶帶來了許多侵害。比如設(shè)備運(yùn)行速度變慢甚至死機(jī),費(fèi)用不明增加等。而且,當(dāng)手持終端設(shè)備成為人們信息的中心時(shí),存儲在設(shè)備上的信息越來越多且重要性越來越大,如果設(shè)備丟失或被他人利用,后果將不堪設(shè)想。因此終端安全不容忽視,根據(jù)現(xiàn)在來自各方的多種威脅,軟件方案涉及技術(shù)眾多。
[0005]在智能移動終端安全的領(lǐng)域中,軟件方案涉及到的關(guān)鍵技術(shù)包括關(guān)鍵數(shù)據(jù)保密,文件訪問控制、智能防盜、惡意程序的檢測、軟件的更新優(yōu)化等。目前針對手持智能終端設(shè)備的安全國內(nèi)外的主要解決方案有:Symantec Mobile Security for Symbian、卡巴斯基手機(jī)版7.0、F_Secure Mobile Security、趨勢科技移動安全精靈、德國 G_Data、Avira、Panda、McAfee Mobile Security、奇虎360手機(jī)安全管家、瑞星殺毒軟件手機(jī)版等相關(guān)產(chǎn)品。
[0006]國際著名反病毒測試機(jī)構(gòu)AV-Comparatives發(fā)布了 2011年9月份殺毒軟件惡意軟件手動檢測報(bào)告。測試系統(tǒng)和環(huán)境最后更新時(shí)間為8月12日。此次,來自德國的G-Data以99.7%的高百分比榮獲第一名,Avira,Panda分別排名第二、三名,緊隨其后的F-Secure略顯風(fēng)騷,以99.3%的百分比排名第四。國內(nèi)Qihoo雖然進(jìn)入第二陣營,本質(zhì)上由于使用小紅傘,BD及自己的引擎,遺漏數(shù)和AVIRA相近,但誤報(bào)數(shù)遠(yuǎn)遠(yuǎn)高于Avira,掃描速度上也是遠(yuǎn)遠(yuǎn)慢于小紅傘。
[0007]在這些產(chǎn)品中國外的相關(guān)產(chǎn)品技術(shù)相對成熟一些,但功能不完善,且功能實(shí)現(xiàn)效率等有待改善;通過這些相關(guān)產(chǎn)品介紹可知,這些產(chǎn)品均可提供包括病毒、木馬等惡意程序的檢測等,同時(shí)能提供對文件,郵件消息等的防護(hù)。然而這些產(chǎn)品使用的查殺惡意程序的原理是檢測病毒特征碼的過程,這是通過檢測文件等各類屬性來確定惡意程序的方法。這種檢測方法是電腦上查殺病毒所使用的方案,它的缺點(diǎn)是并不能檢測未知的病毒,并且需要病毒庫的更新,這對于處理速度較慢,資源有限的終端設(shè)備來說是一個(gè)巨大的挑戰(zhàn),因此還需要深入的研究。而國內(nèi)的大部分相關(guān)產(chǎn)品尚處于免費(fèi)下載使用階段,很多關(guān)鍵技術(shù)尚未成熟。
[0008]綜上所述,移動互聯(lián)網(wǎng)應(yīng)用軟件在人們生活中的作用越發(fā)的重要,而移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測的方法還不夠成熟。為此,如何對全面有效的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件進(jìn)行檢測就成為業(yè)內(nèi)科技人員所關(guān)注的新課題。
【發(fā)明內(nèi)容】
[0009]有鑒于此,本發(fā)明的目的是提供一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,使用該方法檢測移動互聯(lián)網(wǎng)惡意應(yīng)用軟件時(shí),我們只需要對非惡意的軟件行為建模,該環(huán)境模型采用雙重嵌套的方式,底層是隱馬爾可夫模型,上層是支持向量機(jī)模型。由于在移動互聯(lián)網(wǎng)環(huán)境下對于非惡意行為的定義比惡意行為的定義簡便,所以使用該方法分析惡意應(yīng)用軟件時(shí),更加全面和有效。
[0010]為了達(dá)到上述目的,本發(fā)明提供了一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,其特征在于,所述方法包括下述操作步驟:
[0011](I)利用隱馬爾科夫模型對所監(jiān)控的移動互聯(lián)網(wǎng)應(yīng)用軟件進(jìn)行分析,得到當(dāng)前程序相對于每一種行為類型的相似程度,形成相似度向量;
[0012](2)先采用五種不同的核函數(shù)分別訓(xùn)練樣本建立SVM模型,再根據(jù)訓(xùn)練好的模型,輸入當(dāng)前待測應(yīng)用軟件的相似度向量,輸出SVM模型的判斷結(jié)果,最后根據(jù)表決系統(tǒng)判定該軟件是否為惡意應(yīng)用軟件。
[0013]所述步驟(I)進(jìn)一步包括下列操作內(nèi)容:
[0014](11)運(yùn)行所需分析的移動互聯(lián)網(wǎng)應(yīng)用軟件,對其行為進(jìn)行監(jiān)控,按照設(shè)定的時(shí)長進(jìn)行分段處理,將移動互聯(lián)網(wǎng)應(yīng)用軟件的行為數(shù)據(jù)劃分為一個(gè)行為段序列;
[0015](12)提取行為段序列中每個(gè)行為段的特征:段CPU平均占用率、段內(nèi)存平均占用率、段隱私訪問次數(shù)、段wifi網(wǎng)絡(luò)占用時(shí)間、段2G/3G網(wǎng)絡(luò)占用時(shí)間、段攝像頭開啟次數(shù)、段位置信息獲取、段設(shè)備信息獲取;
[0016](13)利用隱馬爾科夫模型對基本軟件操作進(jìn)行建模和檢測:先在訓(xùn)練過程中采用Baum-Welch算法調(diào)整隱馬爾科夫模型中的各項(xiàng)參數(shù),得到各個(gè)相應(yīng)的模型后,再用Viterbi算法計(jì)算和檢測當(dāng)前檢測的應(yīng)用軟件與每一種模型的相似程度,即最大似然值,在最大似然值的基礎(chǔ)上形成最大似然值向量。
[0017]所述步驟(12)進(jìn)一步包括下列操作內(nèi)容:[0018](121)段CPU平均占用率指在應(yīng)用軟件在監(jiān)控時(shí)間段內(nèi)平均每秒鐘對CPU的占用量;
[0019](122)段內(nèi)存平均占用率指在應(yīng)用軟件在監(jiān)控時(shí)間段中平均每秒鐘對內(nèi)存的占用量;
[0020](123)段隱私訪問次數(shù)指應(yīng)用軟件在監(jiān)控時(shí)間段中訪問用戶通信錄、圖片和短信的總次數(shù);
[0021](124)段網(wǎng)絡(luò)占用時(shí)間指應(yīng)用軟件在監(jiān)控時(shí)間段中訪問網(wǎng)絡(luò)的時(shí)間;
[0022](125)段攝像頭開啟次數(shù)指應(yīng)用軟件在監(jiān)控時(shí)間段中打開手機(jī)攝像頭的次數(shù);
[0023](126)段位置信息獲取指示了應(yīng)用軟件在監(jiān)控時(shí)間段中是否獲取過用戶位置信息,如果有,則此特征為1,如果沒有,則此特征為O ;
[0024](127)段設(shè)備信息獲取指示了應(yīng)用軟件在監(jiān)控時(shí)間段中是否獲取IMEI號、基帶版本、內(nèi)核版本這些設(shè)備信息,如果有,則此特征為1,如果沒有,則此特征為O。
[0025]所述步驟(13)進(jìn)一步包括下列操作內(nèi)容:
[0026](131)設(shè)定共需建立N種基本軟件操作類型,當(dāng)前待檢測應(yīng)用的行為與其中第i種類型的相似程度,即最大似然值為Ci,那么,當(dāng)前待檢測應(yīng)用的最大似然值向量為
C_ {。1,C2,......,CN}。
[0027]所述步驟(2)進(jìn)一步包括下列操作內(nèi)容:
[0028](21)對于指定樣本分別選擇線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基函數(shù)、Sigmoid核函數(shù)和復(fù)合核函數(shù)建立SVM模型,標(biāo)記為SVMi,其中i=l,2,3,4,5 ;
[0029](22)根據(jù)訓(xùn)練好的SVM模型,將當(dāng)前待測應(yīng)用軟件的相似度向量依次輸入SVMi,輸出結(jié)果Ci,其中若該軟件為惡意軟件則輸出結(jié)果為1,否則為0,i=l,2, 3,4,5 ;
[0030](23)計(jì)算
【權(quán)利要求】
1.一種基于支持向量機(jī)的移動互聯(lián)網(wǎng)惡意應(yīng)用軟件檢測方法,其特征在于,所述方法包括下述操作步驟: (1)利用隱馬爾科夫模型對所監(jiān)控的移動互聯(lián)網(wǎng)應(yīng)用軟件進(jìn)行分析,得到當(dāng)前程序相對于每一種軟件基本操作類型的相似程度,形成相似度向量; (2)先采用五種不同的核函數(shù)分別訓(xùn)練樣本建立支持向量機(jī)模型,再根據(jù)訓(xùn)練好的模型,輸入當(dāng)前待測應(yīng)用軟件的相似度向量,輸出支持向量機(jī)模型的判斷結(jié)果,最后根據(jù)表決系統(tǒng)判定該軟件是否為惡意應(yīng)用軟件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于: 所述步驟(1)進(jìn)一步包括下列操作內(nèi)容: (11)運(yùn)行所需分析的移動互聯(lián)網(wǎng)應(yīng)用軟件,對其行為進(jìn)行監(jiān)控,按照設(shè)定的時(shí)長進(jìn)行分段處理,將移動互聯(lián)網(wǎng)應(yīng)用軟件的行為數(shù)據(jù)劃分為一個(gè)行為段序列; (12)提取行為段序列中每個(gè)行為段的特征:段CPU平均占用率、段內(nèi)存平均占用率、段隱私訪問次數(shù)、段wifi網(wǎng)絡(luò)占用時(shí)間、段2G/3G網(wǎng)絡(luò)占用時(shí)間、段攝像頭開啟次數(shù)、段位置信息獲取、段設(shè)備信息獲??; (13)利用隱馬爾科夫模型對基本軟件操作進(jìn)行建模和檢測:先在訓(xùn)練過程中采用Baum-Welch算法調(diào) 整隱馬爾科夫模型中的各項(xiàng)參數(shù),得到各個(gè)相應(yīng)的模型后,再用Viterbi算法計(jì)算和檢測當(dāng)前檢測的應(yīng)用軟件與每一種模型的相似程度,即最大似然值,在最大似然值的基礎(chǔ)上形成最大似然值向量。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于: 所述步驟(12)進(jìn)一步包括下列操作內(nèi)容: (121)段CPU平均占用率指在應(yīng)用軟件在監(jiān)控時(shí)間段內(nèi)平均每秒鐘對CPU的占用量; (122)段內(nèi)存平均占用率指在應(yīng)用軟件在監(jiān)控時(shí)間段中平均每秒鐘對內(nèi)存的占用量; (123)段隱私訪問次數(shù)指應(yīng)用軟件在監(jiān)控時(shí)間段中訪問用戶通信錄、圖片和短信的總次數(shù); (124)段網(wǎng)絡(luò)占用時(shí)間指應(yīng)用軟件在監(jiān)控時(shí)間段中訪問網(wǎng)絡(luò)的時(shí)間; (125)段攝像頭開啟次數(shù)指應(yīng)用軟件在監(jiān)控時(shí)間段中打開手機(jī)攝像頭的次數(shù); (126)段位置信息獲取指示了應(yīng)用軟件在監(jiān)控時(shí)間段中是否獲取過用戶位置信息,如果有,則此特征為1,如果沒有,則此特征為O ; (127)段設(shè)備信息獲取指示了應(yīng)用軟件在監(jiān)控時(shí)間段中是否獲取IMEI號、基帶版本、內(nèi)核版本這些設(shè)備信息,如果有,則此特征為1,如果沒有,則此特征為O。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于: 所述步驟(13)進(jìn)一步包括下列操作內(nèi)容: (131)設(shè)定共需建立N種基本軟件操作類型,當(dāng)前待檢測應(yīng)用的行為與其中第i種類型的相似程度,即最大似然值為Ci,那么,當(dāng)前待檢測應(yīng)用的相似度向量為C= {Cl,c2,……,CN} ο
5.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述步驟(11)中的設(shè)定時(shí)長范圍推薦為200s至500s的短時(shí)間時(shí)長。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于: 所述步驟(2)進(jìn)一步包括下列操作內(nèi)容:(21)對于指定樣本分別選擇線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基函數(shù)、Sigmoid核函數(shù)和復(fù)合核函數(shù)建立支持向量機(jī)模型,并將這些模型分別標(biāo)記為SVMi,其中i=l,2,3,4,5 ; (22)根據(jù)訓(xùn)練好的支持向量機(jī)模型,將當(dāng)前待測應(yīng)用軟件的相似度向量依次輸入5個(gè)模型,得到輸出結(jié)果。若SVMi的輸出結(jié)果表明當(dāng)前軟件為惡意軟件則令Ci=I,否則Ci=O,其中 i=l,2, 3, 4, 5 ; (23)計(jì)算i?= tc1-3,若R >0,則判定該軟件為惡意應(yīng)用軟件,否則為非惡意應(yīng)用軟
/=1件。
【文檔編號】H04L29/06GK103617393SQ201310616988
【公開日】2014年3月5日 申請日期:2013年11月28日 優(yōu)先權(quán)日:2013年11月28日
【發(fā)明者】張程鵬, 李承澤, 楊昕雨, 董航, 徐國愛 申請人:北京郵電大學(xué)