一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法
【專利摘要】本發(fā)明公開了一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法,利用hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯(cuò)、高擴(kuò)展和高可靠性以及開源的特點(diǎn),采用HDFS的高容錯(cuò)性、高伸縮性優(yōu)點(diǎn),允許用戶將Hadoop部署在普通低廉的硬件上,形成分布式系統(tǒng);MapReduce提供開發(fā)并行應(yīng)用程序,在集群上實(shí)現(xiàn)分布式計(jì)算和并行任務(wù)處理;HDFS在MapReduce任務(wù)處理過(guò)程中提供了文件操作和存儲(chǔ)等支持,數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ),然后使用MapReduce對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示MapReduce在HDFS的基礎(chǔ)上實(shí)現(xiàn)了任務(wù)的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成Hadoop分布式集群的主要任務(wù)。
【專利說(shuō)明】—種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,具體涉及一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)安全管理平臺(tái)的應(yīng)用,能夠?qū)崿F(xiàn)整體網(wǎng)絡(luò)安全狀態(tài)的可視化監(jiān)測(cè)和配置,簡(jiǎn)化人工分析和管理的復(fù)雜度,節(jié)省網(wǎng)絡(luò)安全人力資源,并為快速的應(yīng)急響應(yīng)處置提供技術(shù)依據(jù)。但隨著信息化規(guī)模日漸增長(zhǎng),網(wǎng)絡(luò)安全防護(hù)的范圍越來(lái)越廣,安全管理的復(fù)雜性也越來(lái)越高。應(yīng)用系統(tǒng)使用越多,安全的數(shù)據(jù)量越大,對(duì)網(wǎng)絡(luò)安全管理平臺(tái)數(shù)據(jù)處理的要求越來(lái)越高,處理的海量數(shù)據(jù)有可能達(dá)到TB、甚至PB級(jí)。如果數(shù)據(jù)處理效率無(wú)法應(yīng)對(duì)日益增長(zhǎng)的數(shù)據(jù)規(guī)模要求,將對(duì)網(wǎng)絡(luò)安全管理平臺(tái)的適用性、可用性、可靠性等產(chǎn)生影響,人工維護(hù)的成本也可能大大增加??梢哉f(shuō),大數(shù)據(jù)時(shí)代的到來(lái),海量事件的分析處理將是網(wǎng)絡(luò)安全管理平臺(tái)面臨的最嚴(yán)峻的挑戰(zhàn)之一。
[0003]Hadoop是Apache的一個(gè)開源分布式計(jì)算平臺(tái)。由于Hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯(cuò)、高擴(kuò)展和高可靠性以及開源的特點(diǎn),使得它在眾多行業(yè)和科研領(lǐng)域中被廣泛采用:雅虎通過(guò)Hadoop支持廣告系統(tǒng)和Web搜索的研究,Facebook用其支持?jǐn)?shù)據(jù)分析和機(jī)器學(xué)習(xí),百度使用Hadoop進(jìn)行搜索日志的分析和網(wǎng)頁(yè)數(shù)據(jù)的挖掘工作,淘寶的Hadoop系統(tǒng)用于存儲(chǔ)并處理電子商務(wù)交易的相關(guān)數(shù)據(jù)等。
[0004]HDFS, Hadoop Distributed File System,簡(jiǎn)稱 HDFS,是一個(gè)分布式文件系統(tǒng)。HDFS有著高容錯(cuò)性(fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS 放寬了(relax)POSIX 的要求(requirements)這樣可以實(shí)現(xiàn)流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache項(xiàng)目nutch的基礎(chǔ)結(jié)構(gòu)而創(chuàng)建,HDFS是hadoop項(xiàng)目的一部分,而hadoop又是Iucene的一部分。
[0005]MapReduce是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念“Map (映射)”和“Reduce (化簡(jiǎn))”,及他們的主要思想,都是從函數(shù)式編程語(yǔ)言借來(lái)的,還有從矢量編程語(yǔ)言借來(lái)的特性。[I]當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map (映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce (化簡(jiǎn))函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。
【發(fā)明內(nèi)容】
[0006]本發(fā)明要解決的技術(shù)問(wèn)題是:本發(fā)明應(yīng)用Hadoop處理海量事件的技術(shù),提出了一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法,旨在為將來(lái)提升網(wǎng)絡(luò)安全管理平臺(tái)大數(shù)據(jù)量的處理效率提供解決思路。
[0007]本發(fā)明所采用的技術(shù)方案為:
一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法,利用hadoop在海量數(shù)據(jù)處理上具有的高效、高容錯(cuò)、高擴(kuò)展和高可靠性以及開源的特點(diǎn),采用HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn),允許用戶將Hadoop部署在普通低廉的硬件上,形成分布式系統(tǒng);MapReduce提供開發(fā)并行應(yīng)用程序,在集群上實(shí)現(xiàn)分布式計(jì)算和并行任務(wù)處理;HDFS在MapReduce任務(wù)處理過(guò)程中提供了文件操作和存儲(chǔ)等支持,數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ),然后使用MapReduce對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示MapReduce在HDFS的基礎(chǔ)上實(shí)現(xiàn)了任務(wù)的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成Hadoop分布式集群的主要任務(wù)。
[0008]所述方法采用分布式存儲(chǔ)HDFS集群,由一個(gè)NameNode和若干個(gè)DataNode組成,如附圖1所示。其中NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作;集群中的DataNode管理存儲(chǔ)的數(shù)據(jù);HDFS允許用戶以文件的形式存儲(chǔ)數(shù)據(jù);從內(nèi)部來(lái)看,文件被分成若干個(gè)數(shù)據(jù)塊(Block)并存放在一組DataNode上;NameNode執(zhí)行文件系統(tǒng)的命名空間操作,如打開、關(guān)閉、重命名文件或目錄等,它也負(fù)責(zé)數(shù)據(jù)塊到具體DataNode的映射;DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求,并在NameNode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制.所述MapReduce數(shù)據(jù)處理流程是通過(guò)利用一個(gè)輸入的key/value對(duì)集合來(lái)產(chǎn)生一個(gè)輸出的key value對(duì)集合,對(duì)應(yīng)MapReduce庫(kù)的兩個(gè)函數(shù)Map和Reduce, —個(gè)MapReduce作業(yè)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由Map任務(wù)以并行的方式處理,先進(jìn)行Map輸出的排序,然后把結(jié)果輸入給Reduce任務(wù);作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中,每一個(gè)Map任務(wù)和每一個(gè)Reduce任務(wù)均能夠同時(shí)運(yùn)行于一個(gè)單獨(dú)的計(jì)算節(jié)點(diǎn)上。
[0009]所述Hadoop集群采用主從(Master/Slave)模式,在Hadoop的架構(gòu)中,namenode和 jobtracker 屬于 master, datanode 和 tasktracker 屬于 slave, master 只有一個(gè),而slave有多個(gè)。
[0010]所述方法的進(jìn)程如下:
1)數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ);
2)使用MapReduce對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示;MapReduce的輸入即為來(lái)自存儲(chǔ)在HDFS中的網(wǎng)絡(luò)安全事件信息(可支持文本、二進(jìn)制、數(shù)據(jù)庫(kù)等多種格式),使用MapReduce對(duì)事件信息進(jìn)行分析過(guò)程時(shí),用戶需要自定義Mapper、Reducer函數(shù);
3)Hadoop根據(jù)設(shè)定的InputDataFormat來(lái)將輸入文件分割成一個(gè)個(gè)(keyl, valuel)對(duì),然后將這些(keyl,valuel)集合傳遞給map函數(shù)作輸入處理,map函數(shù)根據(jù)輸入(keyl,valuel),形成中間數(shù)據(jù)(key2, value2)并在節(jié)點(diǎn)間進(jìn)行交換;
4)在map過(guò)程完成之后,Hadoop將這些生成的中間數(shù)據(jù)(key2,value2)按照Key2進(jìn)行分組(sort),形成<Key2, list (Value2) >,之后傳遞給reduce函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果<Key3,Value3> ;
5)reduce將自己的輸出寫入到結(jié)果文件中,使用output data format來(lái)配置輸出的文件格式。
[0011]本發(fā)明有益效果:本發(fā)明應(yīng)用Hadoop處理海量事件的技術(shù),基于HDFS和MapReduce的Hadoop集群架構(gòu)也符合網(wǎng)絡(luò)安全管理平臺(tái)的應(yīng)用模式,提出了一種基于Hadoop的網(wǎng)絡(luò)安全事件分析方法,大大提升網(wǎng)絡(luò)安全管理平臺(tái)大數(shù)據(jù)量的處理效率。應(yīng)對(duì)了大數(shù)據(jù)時(shí)代的到來(lái)給海量事件的分析處理的網(wǎng)絡(luò)安全管理平臺(tái)帶來(lái)的挑戰(zhàn),實(shí)現(xiàn)整體網(wǎng)絡(luò)安全狀態(tài)的可視化監(jiān)測(cè)和配置,簡(jiǎn)化人工分析和管理的復(fù)雜度,節(jié)省網(wǎng)絡(luò)安全人力資源,并為快速的應(yīng)急響應(yīng)處置提供技術(shù)依據(jù),增加對(duì)網(wǎng)絡(luò)安全管理平臺(tái)的適用性,為將來(lái)提升網(wǎng)絡(luò)安全管理平臺(tái)大數(shù)據(jù)量的處理效率提供了很高的技術(shù)價(jià)值。
[0012]Hadoop在海量數(shù)據(jù)處理上具有的聞效、聞容錯(cuò)、聞擴(kuò)展和聞可罪性以及開源的特點(diǎn)與網(wǎng)絡(luò)安全管理平臺(tái)的應(yīng)用,能夠應(yīng)對(duì)日益增長(zhǎng)的數(shù)據(jù)規(guī)模,安全管理的復(fù)雜性也越來(lái)越高的要求,處理海量數(shù)據(jù)達(dá)到TB、甚至PB級(jí)的的數(shù)據(jù)的網(wǎng)絡(luò)安全,實(shí)現(xiàn)整體網(wǎng)絡(luò)安全狀態(tài)的可視化監(jiān)測(cè)和配置,簡(jiǎn)化人工分析和管理的復(fù)雜度,節(jié)省網(wǎng)絡(luò)安全人力資源,并為快速的應(yīng)急響應(yīng)處置提供技術(shù)依據(jù),增加對(duì)網(wǎng)絡(luò)安全管理平臺(tái)的適用性、可用性可靠性等產(chǎn)生影響,HDFS對(duì)文件采用“一次性寫,多次讀”的訪問(wèn)模型。文件一旦創(chuàng)建、寫入、關(guān)閉之后就不需要修改了。這簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題,使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能,Mapreduce的設(shè)計(jì)很適合使用這樣的模型。網(wǎng)絡(luò)安全管理平臺(tái)的數(shù)據(jù)來(lái)源主要為網(wǎng)絡(luò)安全設(shè)備和系統(tǒng)的日志信息,為保證數(shù)據(jù)真實(shí)性一經(jīng)生成,不允許修改,主要用于檢索查詢和統(tǒng)計(jì)分析等因此基于HDFS和MapReduce的Hadoop集群架構(gòu)也符合網(wǎng)絡(luò)安全管理平臺(tái)的應(yīng)用模式。
【專利附圖】
【附圖說(shuō)明】
[0013]圖1為本發(fā)明HDFS結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0014]下面根據(jù)說(shuō)明書附圖,結(jié)合具體實(shí)施例,對(duì)本發(fā)明進(jìn)一步說(shuō)明:
使用三臺(tái)機(jī)器,均安裝Ubuntu 11.04。一臺(tái)為分布式文件系統(tǒng)HDFS的NameNode (192.168.1.1)及 MapReduce 的 JobTracker 節(jié)點(diǎn),其它兩臺(tái)機(jī)器(192.168.1.2,192.168.1.3)作為 HDFS 的 Data Node 以及 MapReduce 的 Task Tracker 節(jié)點(diǎn)。在實(shí)驗(yàn)環(huán)境中,Name Node通過(guò)SSH來(lái)啟動(dòng)和停止Data Node上的各類進(jìn)程。
[0015]HDFS的分布式存儲(chǔ)結(jié)合MapReduce的并行分布式計(jì)算思想的特點(diǎn),構(gòu)建一個(gè)基于Hadoop的安全事件分析原型平臺(tái),所述方法的進(jìn)程如下:
1)數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用API或命令將它們存入HDFS,數(shù)據(jù)由HDFS在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ);
2)使用MapReduce對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示;MapReduce的輸入即為來(lái)自存儲(chǔ)在HDFS中的網(wǎng)絡(luò)安全事件信息(可支持文本、二進(jìn)制、數(shù)據(jù)庫(kù)等多種格式),使用MapReduce對(duì)事件信息進(jìn)行分析過(guò)程時(shí),用戶需要自定義Mapper、Reducer函數(shù);
3)Hadoop根據(jù)設(shè)定的InputDataFormat來(lái)將輸入文件分割成一個(gè)個(gè)(keyl, valuel)對(duì),然后將這些(keyl, valuel)集合傳遞給map函數(shù)作輸入處理,map函數(shù)根據(jù)輸入(keyl,valuel),形成中間數(shù)據(jù)(key2, value2)并在節(jié)點(diǎn)間進(jìn)行交換;
4)在map過(guò)程完成之后,Hadoop將這些生成的中間數(shù)據(jù)(key2,value2)按照Key2進(jìn)行分組(sort),形成<Key2, list (Value2) >,之后傳遞給reduce函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果<Key3,Value3> ;
5)reduce將自己的輸出寫入到結(jié)果文件中,使用output data format來(lái)配置輸出的文件格式。
【權(quán)利要求】
1.一種基于他如叩的網(wǎng)絡(luò)安全事件分析方法,其特征在于:利用匕如叩在海量數(shù)據(jù)處理上具有的聞效、聞容錯(cuò)、聞擴(kuò)展和聞可罪性以及開源的特點(diǎn),米用的聞容錯(cuò)性、聞伸縮性優(yōu)點(diǎn),允許用戶將他如。!)部署在普通低廉的硬件上,形成分布式系統(tǒng)提供開發(fā)并行應(yīng)用程序,在集群上實(shí)現(xiàn)分布式計(jì)算和并行任務(wù)處理出0?3在妨叩如如⑶任務(wù)處理過(guò)程中提供了文件操作和存儲(chǔ)等支持,數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用仙I或命令將它們存入冊(cè)?3,數(shù)據(jù)由冊(cè)?3在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ),然后使用妨叩如如⑶對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示妨叩如如⑶在冊(cè)?3的基礎(chǔ)上實(shí)現(xiàn)了任務(wù)的分發(fā)、跟蹤、執(zhí)行等工作,并收集結(jié)果,二者相互作用,完成他如叩分布式集群的主要任務(wù)。
2.根據(jù)權(quán)利要求1所述的一種基于他如叩的網(wǎng)絡(luò)安全事件分析方法,其特征在于:所述方法采用分布式存儲(chǔ)冊(cè)?3集群,由一個(gè)版11116^0(16和若干個(gè)組成,其中^1116^0(16作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)操作;集群中的021^^0(16管理存儲(chǔ)的數(shù)據(jù)出0?3允許用戶以文件的形式存儲(chǔ)數(shù)據(jù);從內(nèi)部來(lái)看,文件被分成若干個(gè)數(shù)據(jù)塊并存放在一組0^2^0(16上#£11116^0(16執(zhí)行文件系統(tǒng)的命名空間操作,也負(fù)責(zé)數(shù)據(jù)塊到具體此仏如如的映射負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求,并在的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。
3.根據(jù)權(quán)利要求1或2所述的一種基于他如叩的網(wǎng)絡(luò)安全事件分析方法,其特征在于:所述1^^6(11106數(shù)據(jù)處理流程是利用一個(gè)輸入的1^67八211116對(duì)集合來(lái)產(chǎn)生一個(gè)輸出的垃67妨1116對(duì)集合,對(duì)應(yīng)庫(kù)的兩個(gè)函數(shù)1叩和06(11106,一個(gè)作業(yè)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由任務(wù)以并行的方式處理,先進(jìn)行輸出的排序,然后把結(jié)果輸入給如如⑶任務(wù);作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中,每一個(gè)1叩任務(wù)和每一個(gè)06(11106任務(wù)均能夠同時(shí)運(yùn)行于一個(gè)單獨(dú)的計(jì)算節(jié)點(diǎn)上。
4.根據(jù)權(quán)利要求3所述的一種基于他如叩的網(wǎng)絡(luò)安全事件分析方法,其特征在于:所述集群米用主從模式,在的架構(gòu)中,1181116110(16和』0)31:屬于胍81:61~,(1^1:8110(16 矛口 垃 1:1^0垃61 屬于 81^6, 111881:61-只有——個(gè),而 81^6 有多個(gè)。
5.根據(jù)權(quán)利要求4所述的一種基于他如叩的網(wǎng)絡(luò)安全事件分析方法,其特征在于,所述方法的進(jìn)程如下: 1)數(shù)據(jù)采集系統(tǒng)從各個(gè)網(wǎng)絡(luò)安全設(shè)備采集網(wǎng)絡(luò)安全事件信息并生成數(shù)據(jù)文件,使用八?I或命令將它們存入冊(cè)?3,數(shù)據(jù)由!在多個(gè)普通硬件資源的節(jié)點(diǎn)上分布式存儲(chǔ); 2)使用1^^6(11106對(duì)事件信息進(jìn)行分析并輸出分析結(jié)果進(jìn)行展示的輸入即為來(lái)自存儲(chǔ)在冊(cè)?3中的網(wǎng)絡(luò)安全事件信息,使用妨叩如如⑶對(duì)事件信息進(jìn)行分析過(guò)程時(shí),用戶需要自定義此卯61~、1^6(111061-函數(shù); 3)1151(1001)根據(jù)設(shè)定的I即來(lái)將輸入文件分割成一個(gè)個(gè)(匕丫丨,^11161)對(duì),然后將這些1)集合傳遞給111叩函數(shù)作輸入處理,111叩函數(shù)根據(jù)輸入(匕71,^11161),形成中間數(shù)據(jù)(1^672, ^11162)并在節(jié)點(diǎn)間進(jìn)行交換; 4)在111叩過(guò)程完成之后,118(1001)將這些生成的中間數(shù)據(jù)(1^672,^11162)按照1(672進(jìn)行分組,形成〈&372,1181: ^11162)),之后傳遞給1*6(111(36函數(shù),在該函數(shù)中最終得到程序的輸出結(jié)果〈1(673,%11163? ; 5)1*6(111(36將自己的輸出寫入到結(jié)果文件中,使用011如111: (13,13, ?01~胍1:來(lái)配置輸出的文件格式。
【文檔編號(hào)】H04L29/06GK104363222SQ201410630224
【公開日】2015年2月18日 申請(qǐng)日期:2014年11月11日 優(yōu)先權(quán)日:2014年11月11日
【發(fā)明者】黃敏 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司