專利名稱:一種基于dns數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本方法涉及計算機網(wǎng)絡(luò)安全領(lǐng)域,涉及僵尸網(wǎng)絡(luò)域名的發(fā)現(xiàn)方法,尤其涉及基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法。
背景技術(shù):
僵尸網(wǎng)絡(luò)是一群被僵尸程序(bot)感染的存在命令與控制關(guān)系的僵尸主機(zombie)集合,這些僵尸主機分布于家庭、企業(yè)、政府機構(gòu)等各種場合,接收來自控制者(botmaster)的指令,執(zhí)行DDoS、信息竊取、網(wǎng)絡(luò)釣魚、垃圾郵件、廣告濫點、非法投票等多種網(wǎng)絡(luò)攻擊,作為一種群體性大規(guī)模網(wǎng)絡(luò)攻擊手段,對民用互聯(lián)網(wǎng)、工業(yè)生產(chǎn)控制系統(tǒng)、軍用網(wǎng)絡(luò)等造成了嚴重的安全威脅。一對多的命令與控制(C&C)是僵尸網(wǎng)絡(luò)區(qū)別于傳統(tǒng)病毒、木馬、后門等攻擊技術(shù)的根本特點,僵尸網(wǎng)絡(luò)具有“大規(guī)模、有組織、高可控、高隱蔽、長期潛伏”等典型特征。目前,僵尸網(wǎng)絡(luò)檢測的傳統(tǒng)方法是利用特征碼發(fā)現(xiàn)被控僵尸主機,非特征碼檢測僵尸網(wǎng)絡(luò)的方法主要有采用網(wǎng)絡(luò)特征收集分類、主機間威脅和關(guān)聯(lián)性評分,通過域名詞法的語義分析在域名中挖掘惡意域名,通過IP和域名的Fast-Flux現(xiàn)象來檢測僵尸網(wǎng)絡(luò)等。這些方法面臨以下問題I)僵尸網(wǎng)絡(luò)長期潛伏等特點決定了控制者與僵尸主機的交互是一個動態(tài)命令與控制過程,因此已知特征信息很快被更新,基于特征碼的檢測方法無法跟上特征信息的腳 步,檢測失效率隨時間將逐步提聞。2)基于網(wǎng)絡(luò)的檢測方法對數(shù)據(jù)源要求高,由于數(shù)據(jù)計算復(fù)雜,很難應(yīng)用于大型網(wǎng)絡(luò)。3)基于字面語義分析的檢測方法和利用Fast-Flux現(xiàn)象的檢測方法局限性很強,無法有效檢測種類繁多的僵尸網(wǎng)絡(luò)。
發(fā)明內(nèi)容
本方法的目的在于提供一種基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,通過已知的僵尸網(wǎng)絡(luò)的局部特征(表現(xiàn)為僵尸網(wǎng)絡(luò)的域名),發(fā)現(xiàn)其隨時間變化后更新或改變的未知域名,發(fā)現(xiàn)、掌握和追蹤給定僵尸網(wǎng)絡(luò)的訪問行為的動態(tài)變化,以克服現(xiàn)有僵尸網(wǎng)絡(luò)檢測方法的不足。本發(fā)明方法以域名為特征,可以避免以特征碼為檢測手段時由于僵尸網(wǎng)絡(luò)協(xié)議多樣性或信息加密等的局限性;以域名的共現(xiàn)行為觀測對象,可以充分利用僵尸網(wǎng)絡(luò)的群體性和持續(xù)性特征,發(fā)現(xiàn)未知的僵尸網(wǎng)絡(luò)域名。實驗表明,本方法能夠在數(shù)萬臺主機的網(wǎng)絡(luò)規(guī)模下有效、可靠地發(fā)現(xiàn)未知的僵尸網(wǎng)絡(luò)域名。為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案一種基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,包括以下步驟,數(shù)據(jù)預(yù)處理步驟I. I :以給定網(wǎng)絡(luò)出口流量為數(shù)據(jù)源,從數(shù)據(jù)包中解析DNS查詢數(shù)據(jù),從中提取包含DNS查詢特征信息的四元組r=(t, h, p, d)集合,t為請求發(fā)起時間,h為請求發(fā)起主機,P為請求的資源記錄類型,d為請求的域名;步驟I. 2 :通過域名白名單過濾約簡四元組r=(t,h, p,d)集合,將包含域名白名單給定域名的四元組從四元組r=(t, h, P,d)集合中剔除;步驟I. 3 :識別 NAT (IP 網(wǎng)絡(luò)地址轉(zhuǎn)換器/IP Network Address Translator)主機,過濾NAT網(wǎng)絡(luò)中NAT主機對域名的訪問記錄,從四元組r=(t,h,p, d)集合剔除步驟I. 2域名白名單給定域名四元組后的四元組集合中剔除;剔除后得到約簡后的四元組集合;步驟I. 4:在步驟3得到的約簡后的四元組集合上以域名為主體按時間窗口進行統(tǒng)計,統(tǒng)計每個時間窗口中每個域名被每個主機查詢的次數(shù),定義為四元組S= (Ti, h, d, nall) Ji表示從到ti+1的時間范圍,h為請求發(fā)起主機,d為請求的域名,nall為時間窗口中每個域名被每個主機查詢的次數(shù),其中時間窗口大小為T ;優(yōu)選的,步驟I. 3中識別NAT主機的過程包括以下步驟·步驟a :劃分時間周期,記錄每個主機i在每個時間周期j內(nèi)訪問的域名數(shù)量觀測值Xij ;j=l,2, 3,…N,N為自然數(shù);步驟b :計算主機i在n個時間周期內(nèi)訪問域名數(shù)量的平均值為^;
戶I步驟c :計算閾值Mk,使Mk為隨機變量Xij的上側(cè)k分位數(shù),即P (Xij)MJ =k,k G (0,I),其中,隨機變量Xu表示主機i在時間周期j內(nèi)域名查詢數(shù);實驗表明,k取0.05有最優(yōu)效果;步驟d :判斷若不> Mk ,則認為該主機為NAT主機。優(yōu)選的,所述基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法還包括域名共現(xiàn)評分的步驟步驟2. I :對給定僵尸網(wǎng)絡(luò),根據(jù)給定僵尸網(wǎng)絡(luò)的域名集合確定在四元組S=(TiAcUall)中的待測域名集合;向任一已知的僵尸網(wǎng)絡(luò)中的域名發(fā)出過DNS查詢請求的主機為僵尸主機,所有僵尸主機訪問過的數(shù)據(jù)集中的未知域名為待測域名集合;步驟2. 2 :劃分時間窗口,對每個時間窗口 Ti,計算待測域名集合中的每一個域名與給定僵尸網(wǎng)絡(luò)域名的共現(xiàn)評分I)計算時間窗口 Ti內(nèi),該待測域名與給定僵尸網(wǎng)絡(luò)的域名集合中每一個域名間的相似系數(shù),相似系數(shù)為C(4,c/.,7;) = (5A|W^^D(KTi)Vdj ^D{hM\ D(h, Ti)為該時間
窗口 Ti內(nèi)主機h訪問過的域名集合,Cli為該時間窗口內(nèi)待測域名,4為該時間窗口內(nèi)給定僵尸網(wǎng)絡(luò)的域名集合中給定域名;2)計算該時間窗口 Ti內(nèi),該待測域名d與所有給定僵尸網(wǎng)絡(luò)中的已知域名集合Zb的相似系數(shù)之和Udih3)計算該時間窗口 Ti內(nèi),該待測域名d的修正系數(shù)W(d,Ti),修正系數(shù)為訪問過該域名的僵尸主機數(shù)除以訪問過該域名的所有主機數(shù),即
W(JJi)= I / G (J HidbJ1) Ad!\{h\h^ H(d, I;)八 d e DihJi)]]。其中,H(d, Ti)表示在時間窗口 Ti內(nèi)訪問過域名d的主機集合;4)計算該時間窗口 Ti內(nèi),該待測域名與給定僵尸網(wǎng)絡(luò)域名集合的共現(xiàn)評分Sb(CUi), Sb(d,=C(db,d,T,))*W(d,T,).步驟2. 3 :計算多時間窗口的域名共現(xiàn)評分Sb (d);I)對X個連續(xù)時間窗口,計算域名d與僵尸網(wǎng)絡(luò)Bb的平均共現(xiàn)評分^ (d) = (Sb (d,T]) + Sb(d,T2) + - + Si(d,T))iXt2)對X個連續(xù)時間窗口,計算域名d與僵尸網(wǎng)絡(luò)Bb的最大共現(xiàn)評分Sbmax(d)=max(Sb(d, Ti));3)做歸一化,計算多時間窗口的域名共現(xiàn)評分Sb (d) Si(Ci) = Sb(J) / max(5i(4))+ SbimJd) / maxC^^C^)) (I - a), a G (0, I)其中,為僵尸網(wǎng)絡(luò)Bb所有待測域名平均共現(xiàn)評分的最大值,max (Sbmax (Cli))為僵尸網(wǎng)絡(luò)Bb所有待測域名最大共現(xiàn)評分的最大值,a為反映網(wǎng)絡(luò)中域名共現(xiàn)評分平均值與最大值比例的比例因子;實驗表明,a取值0.8時結(jié)果準(zhǔn)確率最高。優(yōu)選的,所述基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法還包括僵尸網(wǎng)絡(luò)域名篩選步驟對給定僵尸網(wǎng)絡(luò)的所有待測域名的域名共現(xiàn)評分進行排序,篩選評分>0. 2的待測域名;對評分>0. 2的待測域名利用域名惡意性判斷規(guī)則進行惡意性判斷并進行推薦。優(yōu)選的,域名惡意性判斷規(guī)則為滿足以下任意一條或多條(I)安全廠商公布該域名為惡意域名或該域名下存在惡意URL ;(2)和已知惡意域名具有相同的二級域名,且該二級域名不是動態(tài)域名提供商;(3)和已知惡意域名具有相同的如綴;(4)通過搜索引擎發(fā)現(xiàn)根本沒有該域名的信息,但它的確存在,且解析所得IP地址與已知惡意域名解析的IP地址相同。優(yōu)選的,步驟I. 2中域名白名單中的域名為常用域名、錯誤配置域名、程序頻發(fā)域名中一種或多種。相對于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果本發(fā)明方法無需主機層數(shù)據(jù)支持,在網(wǎng)絡(luò)層以DNS數(shù)據(jù)包為基礎(chǔ)數(shù)據(jù)源,在已知部分僵尸網(wǎng)絡(luò)域名的條件下,利用僵尸網(wǎng)絡(luò)的群體性和持續(xù)性兩個關(guān)鍵特征,使用域名共現(xiàn)評分方法追蹤和發(fā)現(xiàn)更多僵尸網(wǎng)絡(luò)域名。該方法分為數(shù)據(jù)預(yù)處理,域名共現(xiàn)評分計算和僵尸網(wǎng)絡(luò)域名篩選三部分。該方法在數(shù)據(jù)預(yù)處理部分排除了網(wǎng)絡(luò)中NAT主機的干擾;在域名共現(xiàn)評分計算部分從空間維度和時間維度進行評分分析,使僵尸網(wǎng)絡(luò)所表現(xiàn)出的域名共現(xiàn)行為能夠顯著區(qū)別于其他正常應(yīng)用所表現(xiàn)出的域名共現(xiàn)行為;最后通過對域名共現(xiàn)評分進行排序,篩選與已知僵尸網(wǎng)絡(luò)域名相關(guān)度最高的域名。
圖I是本方法所述的僵尸網(wǎng)絡(luò)共現(xiàn)行為示意圖。圖2是本方法所述的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)的詳細流程圖。
具體實施例方式為了更清楚的理解本方法,以下對本方法結(jié)合附圖通過具體實施方式
做進一步的詳細描述。圖I為僵尸網(wǎng)絡(luò)共現(xiàn)行為示意圖。僵尸網(wǎng)絡(luò)無論是集中式或分布式結(jié)構(gòu),無論是IRC或HTTP協(xié)議,均具有如下共性
(I)空間上的群體性。被同一黑客或者黑客組織控制,接收相同或協(xié)同的攻擊命令,具有相同的網(wǎng)絡(luò)訪問規(guī)律;(2)時間上的持續(xù)性。僵尸主機在時間上持續(xù)訪問相關(guān)目標(biāo)服務(wù)器(包括控制服務(wù)器、更新服務(wù)器等),始終保持與僵尸控制者的聯(lián)系。僵尸網(wǎng)絡(luò)在其命令與控制的過程中,通常會使用多個不同域名,且僵尸主機在其生命周期中,會持續(xù)訪問這些特定域 名,以保持、接收攻擊者的命令和控制,并保證自身的隱匿性和可靠性。典型的僵尸網(wǎng)絡(luò)控制案例中,僵尸主機對各種域名的訪問過程為首先訪問命令控制服務(wù)器域名,完成控制命令的接收;隨后訪問相關(guān)服務(wù)器域名執(zhí)行更新僵尸程序、下載惡意代碼、上傳竊取信息等控制命令;最后訪問受害服務(wù)器域名進行網(wǎng)絡(luò)攻擊等。由于接受同一僵尸控制者控制,同一僵尸網(wǎng)絡(luò)中的僵尸主機對服務(wù)器域名的訪問必然存在相同或相似的訪問行為。即僵尸網(wǎng)絡(luò)的域名訪問具有明確的域名共現(xiàn)行為給定域名集合由已知僵尸域名充當(dāng),如捕獲所得的命令控制域名;而共現(xiàn)域名集合則涵蓋了各種未知僵尸域名,如相關(guān)域名和受害域名等。因此本方法基于僵尸網(wǎng)絡(luò)的域名共現(xiàn)行為進行評分并發(fā)現(xiàn)未知的僵尸網(wǎng)絡(luò)域名。圖2為利用本方法發(fā)現(xiàn)僵尸網(wǎng)絡(luò)域名的詳細流程圖。本方法的數(shù)據(jù)源是給定網(wǎng)絡(luò)的流量數(shù)據(jù),可采用網(wǎng)絡(luò)出口的流量鏡像,亦可采用區(qū)域網(wǎng)絡(luò)DNS服務(wù)器的入口流量,通過winpcap進行數(shù)據(jù)包解析,提取DNS查詢流量中的包含DNS查詢特征信息的四元組,并將其作為元數(shù)據(jù)存儲在數(shù)據(jù)庫中。該步驟需長期進行,以取得長時間的數(shù)據(jù)。在白名單過濾和NAT主機過濾以及數(shù)據(jù)統(tǒng)計的步驟中,其操作數(shù)據(jù)均為這些元數(shù)據(jù)。當(dāng)數(shù)據(jù)預(yù)處理部分結(jié)束,通過過濾所得域名特征四元組和通過統(tǒng)計所得統(tǒng)計特征四元組作為域名共現(xiàn)評分計算部分的輸入,首先根據(jù)給定僵尸網(wǎng)絡(luò)的已知域名,篩選出待測共現(xiàn)域名集合,待測域名為向任一給定僵尸網(wǎng)絡(luò)的已知域名發(fā)出過DNS查詢請求的主機為僵尸主機。隨后劃分時間窗口,并根據(jù)發(fā)明內(nèi)容中所述步驟計算單時間窗口中每個待測域名的域名共現(xiàn)評分,隨后根據(jù)發(fā)明內(nèi)容中所述步驟計算多時間窗口中每個待測域名的域名共現(xiàn)評分。當(dāng)域名共現(xiàn)評分計算部分結(jié)束,將得到一個待測域名共現(xiàn)評分列表,對這些域名評分按評分進行排序,篩選與已知僵尸網(wǎng)絡(luò)域名相關(guān)度最高的域名。對評分>0. 2的域名進行惡意性判斷并進行推薦。本發(fā)明方法分為數(shù)據(jù)預(yù)處理、域名共現(xiàn)評分計算和僵尸網(wǎng)絡(luò)域名篩選三部分。其中每部分包括以下步驟數(shù)據(jù)預(yù)處理部分步驟I :以給定網(wǎng)絡(luò)出口流量為數(shù)據(jù)源,從數(shù)據(jù)包中解析DNS查詢數(shù)據(jù),從中提取包含DNS查詢特征信息的四元組r=(t,h, p,d) (t為請求發(fā)起時間,h為請求發(fā)起主機,p為請求的資源記錄類型,d為請求的域名)集合,為后續(xù)步驟做好一系列數(shù)據(jù)準(zhǔn)備工作。
步驟2 :通過“域名白名單”過濾約簡四元組r=(t,h,p,d)集合,將包含給定域名的四元組從四元組r=(t,h,p,d)集合中剔除。白名單中的域名主要有以下類型常用域名、錯誤配置域名、程序頻發(fā)域名。步驟3 :識別 NAT (IP 網(wǎng)絡(luò)地址轉(zhuǎn)換器/IP Network Address Translator)主機,基于網(wǎng)絡(luò)域名訪問統(tǒng)計特性,無需硬件支持,過濾NAT網(wǎng)絡(luò)中NAT主機對域名的訪問記錄,從步驟2得到的四元組集合中剔除得到約簡后的四元組集合。NAT主機的識別步驟為I)劃分時間周期,記錄每個主機i在每個時間周期j (j=l, 2,3,…)內(nèi)訪問的域名
數(shù)量觀測值Xij。2)計算主機i在n個時間周期內(nèi)訪問域名數(shù)量的平均值為。
戶I3)計算閾值Mk,使Mk為隨機變量Xij的上側(cè)k分位數(shù),即P (Xij)MJ =k, k G (0,I),其中,隨機變量Xu表示主機i在該時間周期j內(nèi)域名查詢數(shù)。實驗表明,k取0. 05有最優(yōu)效果。4)判斷若S >Mk ,則認為該主機為NAT主機。步驟4:在步驟3得到的約簡后的四元組集合上以域名為主體按時間窗口進行統(tǒng)計,統(tǒng)計每個時間窗口(時間窗口優(yōu)選為I個自然日)中每個域名被每個主機查詢的次數(shù),定義為四元組四元組S=Cri, h, d, nall) (Ti表示從ti到ti+1的時間范圍,ti+1 = ti+T, h為請求發(fā)起主機,d為請求的域名,nall為時間窗口中每個域名被每個主機查詢的次數(shù),其中時間窗口大小為T)。在不丟失有效信息的情況下突出了域名的統(tǒng)計特征并約減了數(shù)據(jù)集。域名共現(xiàn)評分計算部分步驟I :對給定僵尸網(wǎng)絡(luò),根據(jù)給定僵尸網(wǎng)絡(luò)的域名集合確定在四元組S=(Lbc^nall)中的待測域名集合。向任一已知的僵尸網(wǎng)絡(luò)中的域名發(fā)出過DNS查詢請求的主機為僵尸主機,所有僵尸主機訪問過的四元組S=(TDbc^nall)中的未知域名(除給定僵尸網(wǎng)絡(luò)的域名集合外的域名)為待測域名集合。步驟2 :劃分時間窗口,對每個時間窗口 Ti,計算待測域名集合中的每一個域名與給定僵尸網(wǎng)絡(luò)域名的共現(xiàn)評分I)計算時間窗口 Ti內(nèi),該待測域名與給定僵尸網(wǎng)絡(luò)的域名集合中每一個域名間的相似系數(shù),該系數(shù)基于雅可比相似系數(shù)并作以修正。D (h, Ti)為該時間窗口 Ti內(nèi)主機h訪問過的域名集合,Cli為該時間窗口內(nèi)待測域名,dj為該時間窗口內(nèi)給定僵尸網(wǎng)絡(luò)的域名集合中給定域名,則相似系數(shù)為
中,,《)=(仏4_辦_到"IA/切|)/|例4 e聊£聊}|。2)計算該時間窗口 Ti內(nèi),該待測域名d與所有給定僵尸網(wǎng)絡(luò)中的已知域名集合Zb的相似系數(shù)之和HM7J^db兒Ti、。3)計算該時間窗口 Ti內(nèi),該待測域名d的修正系數(shù),修正系數(shù)為訪問過該待測域名的僵尸主機數(shù)除以訪問過該待測域名的所有主機數(shù),即
W(CiJl)= {h.\he (J //(J6J)A 仏 £>汍7;)}££ (/^)}|。其中,H(d, Ti)表示在時間窗口 Ti內(nèi)訪問過域名d的主機集合。4)計算該時間窗口 Ti內(nèi),該待測域名與給定僵尸網(wǎng)絡(luò)域名集合的共現(xiàn)評分SM Ti),Sb(ChTi) =(dk,dAfrwJ1)。
步驟3 :計算多時間窗口的域名共現(xiàn)評分Sb (d)。I)對X個連續(xù)時間窗口,計算域名d與僵尸網(wǎng)絡(luò)Bb的平均共現(xiàn)評分Sb(d) = (Slt (d,Tt) + Sh (d,T2) + --- + St (d,T ))/x。2)對x個連續(xù)時間窗口,計算域名d與僵尸網(wǎng)絡(luò)Bb的最大共現(xiàn)評分
Sbmax (d) —max (Sj3 (d, Ti))。3)做歸一化,計算多時間窗口的域名共現(xiàn)評分Sb(d)Sli(d) = Sb (d) / max(S6 )) + Siniax (d) I max(Shimx (c/,)) (I - a) , a G (0, I)其中,maxdtW,))為僵尸網(wǎng)絡(luò)Bb所有待測域名平均共現(xiàn)評分的最大值,maHSb.^))為僵尸網(wǎng)絡(luò)Bb所有待測域名最大共現(xiàn)評分的最大值,a為反映網(wǎng)絡(luò)中域名共現(xiàn)評分平均值與最大值比例的比例因子。實驗表明,a取值0.8時結(jié)果準(zhǔn)確率最高。僵尸網(wǎng)絡(luò)域名篩選部分步驟I :對給定僵尸網(wǎng)絡(luò)的所有待測域名的域名共現(xiàn)評分進行排序。步驟2 :篩選評分>0. 2 (評分>0. 2的待測域名與已知僵尸網(wǎng)絡(luò)域名相關(guān)度高)的待測域名。步驟3 :對篩選所得待測域名進行惡意性判斷,判斷規(guī)則滿足以下任意一條或多條描述I)安全廠商公布該域名為惡意域名或該域名下存在惡意URL。 2 )和已知惡意域名具有相同的二級域名,且該二級域名不是動態(tài)域名提供商。3)和已知惡意域名具有相同的如綴。4)通過搜索引擎發(fā)現(xiàn)根本沒有該域名的信息,但它的確存在,且解析所得IP地址與已知惡意域名解析的IP地址相同。
權(quán)利要求
1.一種基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,包括數(shù)據(jù)預(yù)處理步驟 步驟I. I :以給定網(wǎng)絡(luò)出口流量為數(shù)據(jù)源,從數(shù)據(jù)包中解析DNS查詢數(shù)據(jù),從中提取包含DNS查詢特征信息的四元組r=(t, h, p, d)集合,t為請求發(fā)起時間,h為請求發(fā)起主機,p為請求的資源記錄類型,d為請求的域名; 步驟I. 2 :通過域名白名單過濾約簡四元組r=(t,h, p, d)集合,將包含域名白名單給定域名的四元組從四元組r=(t, h, p, d)集合中剔除; 步驟I. 3 :識別NAT主機,過濾NAT網(wǎng)絡(luò)中NAT主機對域名的訪問記錄,從四元組r=(t,h,p, d)集合剔除步驟I. 2域名白名單給定域名四元組后的四元組集合中剔除;剔除后得到約簡后的四元組集合; 步驟I. 4:在步驟3得到的約簡后的四元組集合上以域名為主體按時間窗ロ進行統(tǒng)計,統(tǒng)計每個時間窗ロ Ti中每個域名被每個主機查詢的次數(shù),定義為四元組S=(TDbc^nall);Ti表示從ti到ti+1的時間范圍,ti+^ti+T, h為請求發(fā)起主機,d為請求的域名,nall為時間窗口中每個域名被每個主機查詢的次數(shù),其中時間窗ロ大小為T。
2.如權(quán)利I所述的基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,步驟I.3中識別NAT主機的過程包括以下步驟 步驟a :劃分時間周期,記錄每個主機i在每個時間周期j內(nèi)訪問的域名數(shù)量觀測值Xij ;j=l,2, 3,…N,N 為自然數(shù); 步驟b :計算主機i在η個時間周期內(nèi)訪問域名數(shù)量的平均值為 =Σ Zむ 步驟c :計算閾值Mk,使Mk為隨機變量Xij的上側(cè)k分位數(shù),即P (Xij)MJ =k, k e (O, I),其中,隨機變量Xu表示主機i在時間周期j內(nèi)域名查詢數(shù);k=0. 05 ; 步驟d :判斷若$ >Mk ,則認為該主機為NAT主機。
3.如權(quán)利I所述的基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,所述基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法還包括域名共現(xiàn)評分的步驟 步驟2. I :對給定僵尸網(wǎng)絡(luò),根據(jù)給定僵尸網(wǎng)絡(luò)的域名集合確定在四元組8=(1^, d, nall)中的待測域名集合;向任一已知的僵尸網(wǎng)絡(luò)中的域名發(fā)出過DNS查詢請求的主機為僵尸主機,所有僵尸主機訪問過的數(shù)據(jù)集中的未知域名為待測域名集合; 步驟2. 2 :劃分時間窗ロ,對每個時間窗ロ Ti,計算待測域名集合中的每ー個域名與給定僵尸網(wǎng)絡(luò)域名的共現(xiàn)評分 O計算時間窗ロ Ti內(nèi),該待測域名與給定僵尸網(wǎng)絡(luò)的域名集合中每ー個域名間的相似系數(shù),相似系數(shù)為C(も"ΙΑ/び)|)/|{/柄^DQ%Ti)vdj;其中,D(h, Ti)為該時間窗ロ Ti內(nèi)主機h訪問過的域名集合,Cli為該時間窗口內(nèi)待測域名,も為該時間窗口內(nèi)給定僵尸網(wǎng)絡(luò)的域名集合中給定域名; 2)計算該時間窗ロTi內(nèi),該待測域名d與所有給定僵尸網(wǎng)絡(luò)中的已知域名集合Zb的相似系數(shù)之和メA); 3)計算該時間窗ロTi內(nèi),該待測域名d的修正系數(shù)W(d,Ti),修正系數(shù)為訪問過該域名的僵尸主機數(shù)除以訪問過該域名的所有主機數(shù),即
4.如權(quán)利3所述的基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,所述基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法還包括僵尸網(wǎng)絡(luò)域名篩選步驟 對給定僵尸網(wǎng)絡(luò)的所有待測域名的域名共現(xiàn)評分進行排序,篩選評分>0. 2的待測域名;對評分>0. 2的待測域名利用域名惡意性判斷規(guī)則進行惡意性判斷并進行推薦。
5.如權(quán)利4所述的基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,域名惡意性判斷規(guī)則為滿足以下任意一條或多條 (O安全廠商公布該域名為惡意域名或該域名下存在惡意URL ; (2)和已知惡意域名具有相同的ニ級域名,且該ニ級域名不是動態(tài)域名提供商; (3)和已知惡意域名具有相同的如綴; (4)通過搜索引擎發(fā)現(xiàn)根本沒有該域名的信息,但它的確存在,且解析所得IP地址與已知惡意域名解析的IP地址相同。
6.如權(quán)利I所述的基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,其特征在于,步驟I.2中域名白名單中的域名為常用域名、錯誤配置域名、程序頻發(fā)域名中ー種或多種。
全文摘要
本發(fā)明公開一種基于DNS數(shù)據(jù)包的僵尸網(wǎng)絡(luò)域名發(fā)現(xiàn)方法,在網(wǎng)絡(luò)層以DNS數(shù)據(jù)包為基礎(chǔ)數(shù)據(jù)源,在已知部分僵尸網(wǎng)絡(luò)域名的條件下,利用僵尸網(wǎng)絡(luò)的群體性和持續(xù)性兩個關(guān)鍵特征,使用域名共現(xiàn)評分方法追蹤和發(fā)現(xiàn)更多僵尸網(wǎng)絡(luò)域名。本發(fā)明通過已知的僵尸網(wǎng)絡(luò)的局部特征,表現(xiàn)為僵尸網(wǎng)絡(luò)的域名,發(fā)現(xiàn)其隨時間變化后更新或改變的未知域名,發(fā)現(xiàn)、掌握和追蹤給定僵尸網(wǎng)絡(luò)的訪問行為的動態(tài)變化,以克服現(xiàn)有僵尸網(wǎng)絡(luò)檢測方法的不足。本發(fā)明方法以域名為特征,可以避免以特征碼為檢測手段時由于僵尸網(wǎng)絡(luò)協(xié)議多樣性或信息加密等的局限性;以域名的共現(xiàn)行為觀測對象,可以充分利用僵尸網(wǎng)絡(luò)的群體性和持續(xù)性特征,發(fā)現(xiàn)未知的僵尸網(wǎng)絡(luò)域名。
文檔編號H04L29/06GK102685145SQ201210168340
公開日2012年9月19日 申請日期2012年5月28日 優(yōu)先權(quán)日2012年5月28日
發(fā)明者劉璐, 周文瑜, 王志文, 陶敬, 馬小博 申請人:西安交通大學(xué)