分布式模式發(fā)現(xiàn)的制作方法
【專利說明】
【背景技術(shù)】
[0001]安全信息和事件管理(SIEM)技術(shù)提供由網(wǎng)絡(luò)硬件和應(yīng)用程序生成的安全警報的實時分析。SIEM技術(shù)能夠檢測對計算網(wǎng)絡(luò)的潛在威脅。這些潛在威脅能夠根據(jù)安全事件的分析來確定。
【附圖說明】
[0002]下面的【具體實施方式】參照附圖,其中:
[0003]圖1至圖3是根據(jù)各示例的用于分布式模式發(fā)現(xiàn)的計算系統(tǒng)的框圖;
[0004]圖4是根據(jù)一個示例的局部設(shè)備的框圖;
[0005]圖5是根據(jù)一個示例的分層設(shè)備的框圖;以及
[0006]圖6至圖8是根據(jù)各示例的用于分布式模式發(fā)現(xiàn)的方法的流程圖。
【具體實施方式】
[0007]模式發(fā)現(xiàn)(pattern discovery)是基于數(shù)據(jù)挖掘的先占式方法,以解決由安全信息和事件管理(SIEM)系統(tǒng)面臨的許多挑戰(zhàn)。隨著大安全數(shù)據(jù)的增長和由職業(yè)信息攻擊者使用的協(xié)作技術(shù)的推進,SIEM系統(tǒng)正在面臨各種挑戰(zhàn),如零日漏洞探索、慢攻擊、從一個系統(tǒng)至另一系統(tǒng)擴散的長期滲透以及信息撤出。進一步,黑客們正在向他們的武器庫中加入以前沒有見過的新武器。
[0008]先占式方法能夠用來檢測系統(tǒng)異常,不是通過匹配已知簽名,而是通過對安全信息進行相關(guān)和發(fā)現(xiàn)系統(tǒng)中未知跟蹤模式。SIEM中的模式發(fā)現(xiàn)是確定這些漏洞的強大方法。關(guān)聯(lián)挖掘算法可以用于系統(tǒng)中的數(shù)據(jù),以檢測模式,模式在一個示例中可以是不同事務(wù)之間頻繁共同發(fā)生的事件。可以通過跟蹤系統(tǒng)來開發(fā)這些模式,并且一旦這些模式被確定為惡意的,那么這些模式可以用于實時系統(tǒng)監(jiān)視和分析。
[0009]在特定示例中,網(wǎng)絡(luò)的安全信息/事件管理可以包括從網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備收集反映網(wǎng)絡(luò)活動和/或網(wǎng)絡(luò)設(shè)備操作的數(shù)據(jù),并且分析該數(shù)據(jù)以提高安全性。網(wǎng)絡(luò)設(shè)備的示例可以包括防火墻、入侵檢測系統(tǒng)、服務(wù)器、工作站、個人計算機等??梢苑治鲈摂?shù)據(jù)以檢測模式,模式可以表示網(wǎng)絡(luò)或網(wǎng)絡(luò)設(shè)備上的攻擊或異常。檢測到的模式可以用于例如定位該數(shù)據(jù)中的那些模式。例如,那些模式可以表示以下活動:蠕蟲或另一種計算機病毒正在試圖訪問該網(wǎng)絡(luò)中的計算機并安裝惡意軟件。
[0010]從網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備收集的數(shù)據(jù)用于事件。事件可以是能夠被監(jiān)控和被分析的任何活動。為事件捕獲的數(shù)據(jù)被稱為事件數(shù)據(jù)。可以執(zhí)行對所捕獲的事件數(shù)據(jù)的分析,以確定該事件與威脅關(guān)聯(lián)還是與某一其它情況關(guān)聯(lián)。與事件關(guān)聯(lián)的活動的示例可以包括登錄、注銷、通過網(wǎng)絡(luò)發(fā)送數(shù)據(jù)、發(fā)送電子郵件、訪問應(yīng)用程序、讀取或?qū)懭霐?shù)據(jù)、端口掃描、安裝軟件等。可以從由網(wǎng)絡(luò)設(shè)備生成的消息、日志文件條目或從其它源收集事件數(shù)據(jù)。安全系統(tǒng)還可以生成事件數(shù)據(jù),如相關(guān)事件和審計事件。在一些實例中,每秒鐘可以生成一千個事件。這可以達到每天I億個事件或每月30億個事件。
[0011]在一些示例中,還可以通過建立已經(jīng)脫機學(xué)到的系統(tǒng)正常模式的基線(baseline)來實現(xiàn)異常檢測。當任何異常發(fā)生時,該系統(tǒng)能夠檢測新模式并告警系統(tǒng)管理。SIEM的單個節(jié)點上的模式發(fā)現(xiàn)可能受系統(tǒng)資源(例如存儲器、數(shù)據(jù)庫(DB)的1帶寬、等)限制,從而其可能不能處理在目前企業(yè)安全系統(tǒng)中常見的大數(shù)據(jù)。
[0012]因此,本文公開的各實施例涉及SIEM中的分布式模式發(fā)現(xiàn)。本文描述的方法允許并行處理SIEM上的模式發(fā)現(xiàn)。例如,可以對大數(shù)據(jù)安全信息管理域?qū)崿F(xiàn)批處理模式解決方案。分布式模式發(fā)現(xiàn)引擎能夠以多級分布式的方式探查大量數(shù)據(jù)來捕獲模式。局部節(jié)點可以生成局部模式樹。局部模式樹可以被發(fā)送至合并節(jié)點,合并節(jié)點可以將局部模式樹合并為全局模式樹。全局模式樹可以被回傳至局部節(jié)點,在特定示例中,可以使用全局模式樹和/或局部模式樹執(zhí)行安全功能。此外,在一些示例中,模式樹可以包括關(guān)于潛在模式的信息。該信息可以包括實際的潛在模式和/或指向這些潛在模式。進一步,局部模式樹可以包括潛在模式的支持度信息和/或長度信息,或與潛在模式的支持度信息和/或長度信息關(guān)聯(lián)。
[0013]該分布式方法可以將數(shù)據(jù)劃分到不同局部節(jié)點內(nèi),以避免數(shù)據(jù)密集的1瓶頸。進一步,這些分布式方法并行處理事務(wù)構(gòu)建和局部頻繁模式樹(local frequent patterntree)生成,以避免計算密集的瓶頸。
[0014]利用這些方法,局部節(jié)點首先檢查事件要件并且將相關(guān)事件的組識別為事務(wù)(transact1n)。然后,確定頻繁項集。在特定示例中,頻繁項集是在不同事務(wù)之間頻繁一起發(fā)生的相關(guān)事件的組。因此,在事務(wù)中可以包括一個或多個安全事件。這些頻繁項集中的一些頻繁項集(可以定制這些頻繁項集,以例如滿足由消費者指定的標準)是對惡意攻擊的跟蹤并且可以用作用于進一步分析的簽名。
[0015]這可以是關(guān)聯(lián)項集挖掘的情況,該情況可以正式地表述如下:令I(lǐng) = {&1, a2,a3,…,am}為一項集,并且事務(wù)數(shù)據(jù)庫DB是I的子集的集合,該集合由DB = IT1J2,T3,…,TJ表示,其中TiQ彡i彡η)被稱為事務(wù)。由supp(A)表示的潛在模式A的支持度是在DB中包含A的事務(wù)的數(shù)量,并且由Iength(A)表示的潛在模式A的長度是A中項的數(shù)量。在一個示例中,當且僅當supp (A)彡ξ丨并且Iength(A)彡ξ 2時,A被認為是頻繁模式(frequentpattern),其中ξ i是模式支持度的預(yù)定閾值,ξ 2是模式長度的預(yù)定閾值。項的示例可以包括用于模式發(fā)現(xiàn)的域(field)和參數(shù)。模式長度可以被認為是活動的數(shù)量。
[0016]根據(jù)示例,為模式發(fā)現(xiàn)選擇域和參數(shù)。事件數(shù)據(jù)中的事件可以具有多個屬性??梢愿鶕?jù)與事件數(shù)據(jù)中的事件的屬性關(guān)聯(lián)的域來存儲該事件數(shù)據(jù)。例如,域是描述事件數(shù)據(jù)中事件的屬性。域的示例包括事件日期/時間、事件名稱、事件類別、事件ID、源地址、源MAC地址、目的地址、目的MAC地址、用戶ID、用戶權(quán)限、設(shè)備客戶字符串等。事件數(shù)據(jù)可以被存儲在由域組成的表格中。在一些情況下,可以使用反映不同事件屬性的數(shù)百個域來存儲事件數(shù)據(jù)。
[0017]為進行模式發(fā)現(xiàn),選擇這些域中的一些域。例如,所選擇的域可以包括來自該表格的域的集合。該集合中的域的數(shù)量可以包括來自該表格的域中的一個或多個域。為該集合選擇的域可以根據(jù)各種統(tǒng)計進行選擇,并且可以被存儲在模式發(fā)現(xiàn)配置文件(profile)中。模式發(fā)現(xiàn)配置文件是用于發(fā)現(xiàn)事件數(shù)據(jù)中的模式的任何數(shù)據(jù)。模式發(fā)現(xiàn)配置文件可以包括用于模式發(fā)現(xiàn)的域的集合、參數(shù)和其它信息。
[0018]除了包括域以外,參數(shù)可以用于模式發(fā)現(xiàn)。在用于模式發(fā)現(xiàn)的模式發(fā)現(xiàn)配置文件中可以包括參數(shù)。參數(shù)可以指定為檢測模式而將模式發(fā)現(xiàn)配置文件中的域與事件數(shù)據(jù)進行匹配的條件。參數(shù)還可以用于調(diào)整檢測到的模式的數(shù)量。參數(shù)的一個示例是模式長度,模式長度是活動的數(shù)量。模式長度參數(shù)可以表示對被認為是模式的活動執(zhí)行的不同活動的最小數(shù)量。參數(shù)的另一示例是重復(fù)性參數(shù),該重復(fù)性參數(shù)可以表示為使不同活動被認為是模式而將不同活動重復(fù)的最少次數(shù)。在一個示例中,重復(fù)性與兩個域關(guān)聯(lián)。例如,可以將重復(fù)性表示為該活動在源域和目標域之間重復(fù)的源域和目標域的不同組合。源IP地址和目標IP地址的不同組合的最小數(shù)量是重復(fù)性參數(shù)的示例??梢哉{(diào)整這些參數(shù),直至識別出預(yù)定數(shù)量的匹配模式。
[0019]在特定示例中,模式是像事務(wù)這樣的多個不同活動的序列。頻繁模式可以被檢測為滿足諸如支持度和長度之類的特定參數(shù)的潛在模式。在模式的示例中,活動的該序列包括掃描端口、識別開放端口、向該端口發(fā)送具有特定凈荷的分組、登錄計算機系統(tǒng)以及在該計算機系統(tǒng)上的特定位置存儲程序。
[0020]還識別重復(fù)的模式。例如,如果重復(fù)多個不同活動,那么其可以被認為是重復(fù)模式。模式還可以在兩個計算機系統(tǒng)之間。因此,該模式可以包括與不同計算機系統(tǒng)關(guān)聯(lián)的源域和目標域。在一個示例中,源域和目標域是計算機系統(tǒng)的互聯(lián)網(wǎng)協(xié)議(IP)地址。源域和目標域描述計算機系統(tǒng)之間的事務(wù)。除了源域和目標域之一以外或者替代源域和目標域之一,模式活動還可以通過其它域組合到一起。在一個示例中,可以在多個用戶ID之間分析模式活動,以識別由多個用戶重復(fù)的活動的序列或集合。在另一示例中,可以在多個信用卡號或顧客之間分析模式活動,以識別多個信用卡賬戶之間活動的序列或集合。
[0021]除了源域和目標域之一以外或代替源域和目標域之一,其它事件域可以被包括在模式發(fā)現(xiàn)配置文件中。在一個示例中,域用于識別特定模式,并且被稱為模式識別域。在一個示例中,模式識別域是事件名稱或事件類別。在另一示例中,模式識別域可以是信用卡交易量。在又一示例中,模式識別域可以是用于檢測應(yīng)用程序URL訪問模式的事件請求URL域。
[0022]下面是病毒的模式的一個簡單示例。一個事件是端口掃描。端口掃描發(fā)生在源機器上。下一事件是向目標機器發(fā)送分組。下一事件可以是登錄目標機器。下一事件可以是目標機器處的端口掃描以及其它事件的重復(fù)。通過這種方式,病毒可以復(fù)制。通過將重復(fù)的事件檢測為模式,可以檢測該病毒。例如,用于模式發(fā)現(xiàn)的選擇域可以是事件名稱,重復(fù)性參數(shù)是4,并且活動參數(shù)的數(shù)量是3。檢測到的獨特事件具有以下事件名:端口掃描、分組傳輸和登錄目標/目的機器。事件數(shù)量為3。該模式包括3個不同事件(例如,端口掃描、分組傳輸和登錄目標/目的機器),這滿足活動參數(shù)的數(shù)量。如果例如在模式發(fā)現(xiàn)運行期間此模式被檢測到至少支持度次