国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法

      文檔序號(hào):7954354閱讀:153來源:國知局
      專利名稱:基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及數(shù)據(jù)的壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法,尤其是具有相似數(shù)據(jù)集的海量網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)的壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法。
      背景技術(shù)
      最近幾年,隨著信息技術(shù)的發(fā)展,特別是Intemet技術(shù)的發(fā)展,世界各國的信息量都呈爆炸性增長(zhǎng)趨勢(shì),高于1012字節(jié)的海量數(shù)據(jù)庫已成為常見的數(shù)據(jù)庫。例如,美國NASA發(fā)射的人造衛(wèi)星每年要向地面返回1015字節(jié)的觀測(cè)數(shù)據(jù)。美國勞倫斯國家實(shí)驗(yàn)室的高能物理實(shí)驗(yàn)數(shù)據(jù)高達(dá)每年3×1014字節(jié)。
      網(wǎng)絡(luò)安全監(jiān)測(cè)同樣要存儲(chǔ)和處理大量的數(shù)據(jù)。網(wǎng)絡(luò)安全監(jiān)測(cè)保存的數(shù)據(jù)可以是路由表、路由報(bào)文和IP報(bào)文等類型的信息。BGP(邊界網(wǎng)關(guān)協(xié)議)是骨干網(wǎng)絡(luò)最重要的路由協(xié)議,對(duì)BGP路由表進(jìn)行監(jiān)測(cè)可以發(fā)現(xiàn)路由異常和路由攻擊行為,為路由系統(tǒng)與基礎(chǔ)網(wǎng)絡(luò)的安全保證和健康運(yùn)行提供早期預(yù)警。核心網(wǎng)絡(luò)BGP轉(zhuǎn)發(fā)表的數(shù)目已經(jīng)從2002年的130 000條增長(zhǎng)到2006年5月份的245 000條左右,由于到一個(gè)目標(biāo)網(wǎng)絡(luò)的路由不止一條,BGP路由表的數(shù)目更是達(dá)到674000條(根據(jù)Telstra公司編號(hào)為1221的自治系統(tǒng)的數(shù)據(jù)),并且BGP路由表的大小仍然呈現(xiàn)出指數(shù)增長(zhǎng)的趨勢(shì)。如果要對(duì)某些路由系統(tǒng)進(jìn)行長(zhǎng)期監(jiān)測(cè),并對(duì)歷史信息作分析統(tǒng)計(jì),不斷采集到的路由表將會(huì)使存儲(chǔ)的數(shù)據(jù)量線性膨脹,變得非常龐大。
      對(duì)路由報(bào)文和IP報(bào)文等一般進(jìn)行實(shí)時(shí)捕獲和實(shí)時(shí)檢測(cè),但是為了對(duì)潛在的網(wǎng)絡(luò)安全威脅進(jìn)行更深入的數(shù)據(jù)挖掘,往往需要把不同地點(diǎn)或不同時(shí)間采集的數(shù)據(jù)保存下來,進(jìn)行聯(lián)合的分析和檢測(cè),這樣需要存儲(chǔ)的報(bào)文數(shù)據(jù)會(huì)非常多。就BGP路由報(bào)文而言,每天一個(gè)路由器的路由更新信息有數(shù)百兆字節(jié),往往要對(duì)多個(gè)時(shí)間多個(gè)路由器的路由更新進(jìn)行分析才能發(fā)現(xiàn)一些隱蔽的路由攻擊行為。對(duì)于IP數(shù)據(jù)報(bào)文,由于骨干網(wǎng)絡(luò)的帶寬已經(jīng)達(dá)到10Gbps以上,即使進(jìn)行預(yù)處理和過濾操作,需要保存的用于安全檢測(cè)的數(shù)據(jù)量仍然非常巨大。
      為了便于組織和處理,網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)可以采用數(shù)據(jù)庫存儲(chǔ)。數(shù)據(jù)庫常用的數(shù)據(jù)模型主要有關(guān)系模型、層次模型、面向?qū)ο竽P秃突谶壿嫷哪P偷?。關(guān)系數(shù)據(jù)庫采用關(guān)系模型作為數(shù)據(jù)的組織方式。關(guān)系數(shù)據(jù)庫因其嚴(yán)格的數(shù)學(xué)理論、使用簡(jiǎn)單靈活、數(shù)據(jù)獨(dú)立性強(qiáng)等特點(diǎn),被公認(rèn)為最有前途的一種數(shù)據(jù)庫管理系統(tǒng)。它的發(fā)展十分迅速,目前已成為占據(jù)主導(dǎo)地位的數(shù)據(jù)庫管理系統(tǒng)。
      信息量的這種爆炸式增長(zhǎng)給當(dāng)前的數(shù)據(jù)庫管理技術(shù)帶來了挑戰(zhàn)。從硬件的角度看,目前對(duì)于這種海量數(shù)據(jù)進(jìn)行存儲(chǔ)與管理的主要方法是三級(jí)存儲(chǔ)和并行存儲(chǔ)。三級(jí)存儲(chǔ)方法的硬件開銷比較大,主要是通過擴(kuò)充硬件設(shè)備來獲取更大的存儲(chǔ)空間,加大存儲(chǔ)容量的同時(shí)也大大增加了查詢的處理時(shí)間,降低了數(shù)據(jù)庫的效率。并行數(shù)據(jù)庫技術(shù)也是通過增加硬件開銷來獲取高速的處理,但是硬件處理能力的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)跟不上信息爆炸的速度。因此,當(dāng)前對(duì)海量數(shù)據(jù)庫更加經(jīng)濟(jì)的一種存儲(chǔ)方法是對(duì)數(shù)據(jù)庫里需要存儲(chǔ)的數(shù)據(jù)進(jìn)行壓縮,于是人們提出了數(shù)據(jù)壓縮方法。數(shù)據(jù)壓縮可以提高海量數(shù)據(jù)的存儲(chǔ)效率,也可提高數(shù)據(jù)庫性能。
      數(shù)據(jù)壓縮的根據(jù)是數(shù)據(jù)本身存在冗余,方法是根據(jù)數(shù)據(jù)的存儲(chǔ)模式,對(duì)于特定模式的數(shù)據(jù)進(jìn)行特定形式的壓縮。
      從壓縮效果來看,壓縮方法分為有損壓縮和無損壓縮;從壓縮的對(duì)象來看,壓縮方法主要分為通用數(shù)據(jù)壓縮和多媒體數(shù)據(jù)壓縮。多媒體數(shù)據(jù)壓縮方法主要用于視頻和音頻信號(hào)的壓縮傳輸;通用數(shù)據(jù)壓縮方法包括基于統(tǒng)計(jì)模型的壓縮方法和基于字典模型的壓縮方法;增量壓縮是利用兩個(gè)文件之間的內(nèi)容差異來進(jìn)行編碼壓縮;把數(shù)據(jù)壓縮應(yīng)用到數(shù)據(jù)庫的存儲(chǔ)中,在訪問時(shí)通常都要為數(shù)據(jù)解壓縮耗費(fèi)很大的時(shí)間開銷。
      但現(xiàn)有的這些壓縮方法都沒有充分利用網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)的一些固有特性。網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)是一類特殊的數(shù)據(jù)集,不同的數(shù)據(jù)集之間存在大量相同的記錄,這些相同記錄使得各個(gè)數(shù)據(jù)集之間存在極大的數(shù)據(jù)冗余。具有這種特性的數(shù)據(jù)集稱為相似數(shù)據(jù)集。以域間路由協(xié)議BGP的路由表為例,對(duì)某個(gè)路由器的路由狀態(tài)進(jìn)行監(jiān)測(cè),定期采集并保存該路由器在不同時(shí)刻的路由狀態(tài)。路由的相對(duì)穩(wěn)定性使得同一個(gè)路由器的路由狀態(tài)的改變符合時(shí)間局部性原理,兩個(gè)相鄰時(shí)間采集的路由表中存在大量的相同路由表項(xiàng),因而各個(gè)數(shù)據(jù)表之間也存在著大量的數(shù)據(jù)冗余。相關(guān)的壓縮存儲(chǔ)方法多是對(duì)單個(gè)數(shù)據(jù)文件在更大的時(shí)間粒度上聚合或?qū)崿F(xiàn)文件內(nèi)部的壓縮,沒有針對(duì)多個(gè)數(shù)據(jù)集合數(shù)據(jù)文件之間的相似性提出有效的存儲(chǔ)方案。
      網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)可以從不同地點(diǎn)采集或者在同一地點(diǎn)不同時(shí)刻采集,除了對(duì)單個(gè)數(shù)據(jù)集進(jìn)行檢測(cè)之外,往往需要對(duì)多個(gè)數(shù)據(jù)集進(jìn)行聯(lián)合檢測(cè),例如發(fā)現(xiàn)不同采集點(diǎn)數(shù)據(jù)項(xiàng)的差異,獲知某個(gè)數(shù)據(jù)項(xiàng)在多個(gè)采集點(diǎn)的穩(wěn)定情況,通過對(duì)不同采集點(diǎn)的數(shù)據(jù)互相參照發(fā)現(xiàn)更加隱蔽的網(wǎng)絡(luò)安全問題或者一個(gè)采集點(diǎn)發(fā)現(xiàn)的異常需要通過其他的采集點(diǎn)進(jìn)行確認(rèn)。已有方法多是對(duì)單個(gè)數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)其中的特征序列,然后對(duì)其他數(shù)據(jù)集進(jìn)行匹配;或者對(duì)多個(gè)原始數(shù)據(jù)集逐個(gè)進(jìn)行分析,再匯總處理。當(dāng)數(shù)據(jù)集比較多時(shí),這樣進(jìn)行聯(lián)合檢測(cè)的效率比較低。

      發(fā)明內(nèi)容
      本發(fā)明要解決的技術(shù)問題是針對(duì)網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)等一類存在較多相同數(shù)據(jù)項(xiàng)的多個(gè)數(shù)據(jù)集,提出一種基于表的關(guān)系數(shù)據(jù)庫壓縮存儲(chǔ)方法,把同一個(gè)關(guān)系框架上的多個(gè)相似數(shù)據(jù)集壓縮在數(shù)據(jù)庫的同一個(gè)表中,并且基于壓縮的數(shù)據(jù)表實(shí)現(xiàn)對(duì)多個(gè)原始數(shù)據(jù)集之間的聯(lián)合檢測(cè)。
      技術(shù)方案是采用關(guān)系模型對(duì)數(shù)據(jù)建模,利用關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,采用基于狀態(tài)標(biāo)記序列的壓縮方法對(duì)同一關(guān)系框架下的多個(gè)相似數(shù)據(jù)集進(jìn)行壓縮存儲(chǔ);使用簡(jiǎn)單的查詢語句快速無損地恢復(fù)出原始的數(shù)據(jù)集;通過直接對(duì)壓縮后的數(shù)據(jù)表進(jìn)行查詢,便能實(shí)現(xiàn)對(duì)多個(gè)原始數(shù)據(jù)集的多種類型的聯(lián)合檢測(cè)。
      設(shè)R&lt;X1,X2,…,Xn&gt;是一個(gè)n元的關(guān)系框架,其中Xi標(biāo)識(shí)R的第i個(gè)屬性。令r和r′為框架R上的兩條具體記錄,其中r=&lt;x1,x2,…,xn&gt;,r′=&lt;y1,y2,…,yn&gt;,r′=r當(dāng)且僅當(dāng)對(duì)于i∈{1,2,…,n}都有xi=y(tǒng)i。
      定義1.若集合A和集合B是同一個(gè)關(guān)系框架R上的兩個(gè)具體關(guān)系,則A和B互為R上的相似數(shù)據(jù)集。
      定義2.A和B為兩個(gè)非空相似數(shù)據(jù)集,B所包含的元素個(gè)數(shù)#B=k,A∩B所包含的元素個(gè)數(shù)#(A∩B)=k′,令βB→A=k′/k,稱βB→A為集合B對(duì)集合A的冗余度。
      由定義2知,βB→A∈
      ,當(dāng)A∩B=φ時(shí),βB→A=0;當(dāng)A∩B=B時(shí),βB→A=1,此時(shí),B的數(shù)據(jù)相對(duì)A是完全冗余的。βB→A越大,表示B對(duì)A的冗余性越大。
      對(duì)于K個(gè)相似數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的屬性構(gòu)造關(guān)系數(shù)據(jù)模型,定義關(guān)系框架R&lt;X1,X2,…,Xn&gt;,其中Xi標(biāo)識(shí)R的第i個(gè)屬性。原來的K個(gè)相似數(shù)據(jù)集變成了關(guān)系框架R上的K個(gè)具體關(guān)系S1、S2、…、SK,分別為每一個(gè)數(shù)據(jù)集指派一個(gè)狀態(tài)標(biāo)識(shí)STAMP[1]=″1″、STAMP[2]=″2″、…、STAMP[K]=“K”。為每條記錄增加一個(gè)狀態(tài)標(biāo)記序列字段stamp,用來標(biāo)記該條記錄在哪些數(shù)據(jù)集中存在,以此來記錄該條記錄的活躍狀態(tài),將S1、S2、…、SK逐個(gè)壓縮到數(shù)據(jù)庫的同一個(gè)表中。利用stamp包含的信息,可以無損地恢復(fù)出原始的數(shù)據(jù)集。由于只是通過擴(kuò)展字段stamp將多個(gè)數(shù)據(jù)集映射到同一個(gè)壓縮數(shù)據(jù)集,使那些在多個(gè)不同數(shù)據(jù)集中有重復(fù)出現(xiàn)的的記錄只在壓縮數(shù)據(jù)集中出現(xiàn)一次,從而實(shí)現(xiàn)了多個(gè)數(shù)據(jù)集之間的壓縮;由于單條記錄的內(nèi)容并沒有變化,因而訪問單條記錄時(shí)不需要解壓,在訪問單個(gè)數(shù)據(jù)集時(shí)也只需根據(jù)每條記錄的stamp來提?。煌瑫r(shí),還可以基于壓縮數(shù)據(jù)集對(duì)各個(gè)原始數(shù)據(jù)集進(jìn)行聯(lián)合檢測(cè),并在此基礎(chǔ)上完成更復(fù)雜的聯(lián)合檢測(cè)功能根據(jù)記錄的狀態(tài)標(biāo)記序列stamp中是否同時(shí)含有STAMP[i]與STAMP[j]來判斷該數(shù)據(jù)項(xiàng)在數(shù)據(jù)集Si與Sj中是否一致,找出不含有STAMP[i]或STAMP[j]的記錄獲得數(shù)據(jù)集Si與Sj的差異,根據(jù)stamp中是否包含所有數(shù)據(jù)集對(duì)應(yīng)的狀態(tài)標(biāo)識(shí)來判斷該數(shù)據(jù)項(xiàng)的穩(wěn)定性,找出沒有包含所有狀態(tài)標(biāo)識(shí)的記錄得到在全過程發(fā)生變化的所有數(shù)據(jù)項(xiàng),等等。
      1.對(duì)多個(gè)相似數(shù)據(jù)集進(jìn)行壓縮存儲(chǔ)的方法令R1=&lt;X1,X2,…,Xn&gt;,R2=&lt;stamp&gt;,stamp是一個(gè)字符串,R=R1×R2。S1、S2、…、SK互為關(guān)系框架R1上的相似數(shù)據(jù)集。S0是關(guān)系框架R上的具體關(guān)系,作為S1、S2、…、SK的壓縮集,用來記錄壓縮之后的數(shù)據(jù)集,其初始值為空集。結(jié)合狀態(tài)標(biāo)記序列,先后將S1、S2、…、SK逐個(gè)壓縮存入數(shù)據(jù)庫,壓縮存儲(chǔ)過程是輸入關(guān)系框架R1上的K個(gè)相似數(shù)據(jù)集S1、S2、…、SK,數(shù)據(jù)集的狀態(tài)標(biāo)記標(biāo)識(shí)STAMP[1]=″1″、STAMP[2]=″2″、…、STAMP[K]=“K”。
      輸出帶狀態(tài)標(biāo)記序列的壓縮數(shù)據(jù)集S0,S0是關(guān)系框架R上的具體關(guān)系。
      1)S0初始時(shí)是一個(gè)空集;
      2)i=1,2,…,K,重復(fù)執(zhí)行以下步驟3)j=1,2,…,#Si(數(shù)據(jù)集Si的元素個(gè)數(shù)),重復(fù)執(zhí)行以下步驟4)從數(shù)據(jù)集Si中任取一個(gè)元素r,并將r從Si去除;5)如果存在r′∈S0使得它的各個(gè)屬性值都和r相同,即r′.x1=r.x1、r′.x2=r.x2、…、r′.xn=r.xn,則修改r′對(duì)應(yīng)的狀態(tài)標(biāo)記序列r′.stamp=r′.stamp+STAMP[i];6)否則,構(gòu)造一個(gè)新的stamp,stamp=STAMP[i],把&lt;r,stamp&gt;作為一條新的記錄添加到S0中。
      2.對(duì)壓縮數(shù)據(jù)的恢復(fù)方法對(duì)壓縮數(shù)據(jù)庫使用簡(jiǎn)單的查詢語句,從數(shù)據(jù)庫中選出所有的stamp屬性值中包含STAMP[i]的記錄,便可恢復(fù)出初始的所有數(shù)據(jù)集Si(1≤i≤K),無需額外的解壓開銷,因而實(shí)現(xiàn)了對(duì)壓縮數(shù)據(jù)的無損解壓。
      3.對(duì)多個(gè)相似數(shù)據(jù)集聯(lián)合檢測(cè)的方法基于壓縮數(shù)據(jù)集可實(shí)現(xiàn)對(duì)各個(gè)原始數(shù)據(jù)集的聯(lián)合檢測(cè)功能。利用狀態(tài)標(biāo)記序列stamp中記錄的歷史狀態(tài)信息,對(duì)多個(gè)相似數(shù)據(jù)集可有效實(shí)現(xiàn)以下四種基本的聯(lián)合檢測(cè)(設(shè)壓縮數(shù)據(jù)集為S0)1)判斷某個(gè)數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集Si和Sj內(nèi)是否一致的方法是在壓縮數(shù)據(jù)庫中采用關(guān)鍵字查詢找到滿足某種屬性特征的記錄,如果其stamp中同時(shí)包含STAMP[i]和STAMP[j],則該數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集內(nèi)一致;否則,該數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集內(nèi)不一致。
      2)獲得二個(gè)數(shù)據(jù)集Si和Sj數(shù)據(jù)項(xiàng)差異的方法是將S0中所有stamp只包含STAMP[i]或者STAMP[j]的記錄取出來,記為S′,則S′中包含的每條記錄都只在Si或Sj中單獨(dú)出現(xiàn),顯然,S′就是Si和Sj的數(shù)據(jù)項(xiàng)差異。
      3)判斷某個(gè)數(shù)據(jù)項(xiàng)r′在全過程的穩(wěn)定性的方法是將r′.stamp取出,如果r′.stamp包含了所有數(shù)據(jù)集的狀態(tài)標(biāo)識(shí),說明r′在每個(gè)數(shù)據(jù)集里都有出現(xiàn),則r′在全過程是穩(wěn)定的;如果r′.stamp包含了部分?jǐn)?shù)據(jù)集的狀態(tài)標(biāo)識(shí),說明r′只在部分?jǐn)?shù)據(jù)集里有出現(xiàn),則r′在全過程是不穩(wěn)定的。
      4)得出全過程發(fā)生變化的數(shù)據(jù)項(xiàng)的方法是如果一條記錄在全過程都是穩(wěn)定的,則該條記錄對(duì)應(yīng)的狀態(tài)標(biāo)記序列必然包含所有數(shù)據(jù)集對(duì)應(yīng)的狀態(tài)標(biāo)識(shí)。將S0中所有stamp中沒有全部包含所有數(shù)據(jù)集的狀態(tài)標(biāo)識(shí)的記錄取出來,記為S′,S′就是所有在全過程發(fā)生變化的數(shù)據(jù)項(xiàng)。
      以上四種基本的檢測(cè)方法,既能通過數(shù)據(jù)集之間的比較對(duì)數(shù)據(jù)集的相似性和穩(wěn)定性進(jìn)行分析,又能根據(jù)狀態(tài)標(biāo)記序列對(duì)單條記錄進(jìn)行穩(wěn)定性分析。例如,將以上方法應(yīng)用到路由表的壓縮數(shù)據(jù)庫中,可以對(duì)路由表的變化、路由表的穩(wěn)定性、單條路由的穩(wěn)定性等進(jìn)行聯(lián)合分析與比較。
      基于這四種基本的檢測(cè)方法,可以實(shí)現(xiàn)更加復(fù)雜的聯(lián)合檢測(cè)功能。例如,通過對(duì)不同數(shù)據(jù)集的互相參照發(fā)現(xiàn)更加隱蔽的網(wǎng)絡(luò)安全問題,或者一個(gè)數(shù)據(jù)集中發(fā)現(xiàn)的異常通過其他的數(shù)據(jù)集進(jìn)一步確認(rèn),以提高網(wǎng)絡(luò)安全檢測(cè)的準(zhǔn)確性,降低漏報(bào)率和誤報(bào)率。
      采用本發(fā)明能達(dá)到以下有益效果本發(fā)明充分利用了大量數(shù)據(jù)集之間的相似性,將多個(gè)數(shù)據(jù)集增量式地壓縮到數(shù)據(jù)庫的同一個(gè)表中,可以應(yīng)用于多種類型網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)的壓縮存儲(chǔ),包括路由表、路由報(bào)文、IP報(bào)文等;也可用于存儲(chǔ)其他類型的網(wǎng)絡(luò)歷史數(shù)據(jù),或者存在較多數(shù)據(jù)項(xiàng)相同的相似數(shù)據(jù)集。采用本發(fā)明可以取得以下效果1)壓縮存儲(chǔ)通過為每條記錄增加一個(gè)新的狀態(tài)標(biāo)記字段來標(biāo)記該條記錄在各個(gè)數(shù)據(jù)集是否存在,實(shí)現(xiàn)了將多個(gè)數(shù)據(jù)集壓縮到單個(gè)數(shù)據(jù)集。由于網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)的各數(shù)據(jù)集之間存在較大的冗余,因而能夠?qū)崿F(xiàn)非常高的壓縮效率;2)聯(lián)合檢測(cè)采用本發(fā)明將多個(gè)數(shù)據(jù)集進(jìn)行壓縮后,利用狀態(tài)標(biāo)記字段將多個(gè)數(shù)據(jù)集映射到一個(gè)數(shù)據(jù)集,增強(qiáng)了各數(shù)據(jù)集之間的耦合度,如果多個(gè)數(shù)據(jù)集采自不同時(shí)間點(diǎn),則便于時(shí)域分析;如果采自不同的地點(diǎn),則便于空域分析;如果基于其它標(biāo)度采集,則便于在該標(biāo)度空間進(jìn)行分析。采用本發(fā)明基于壓縮數(shù)據(jù)集的聯(lián)合檢測(cè)方法,不但不需要直接保存各個(gè)原始數(shù)據(jù)集,而且能夠以更高的效率實(shí)現(xiàn)多種類型的聯(lián)合檢測(cè)。
      3)高效查詢采用本發(fā)明可實(shí)現(xiàn)多種粒度的高效查詢。因?yàn)楸景l(fā)明對(duì)記錄本身并沒有壓縮,因而在查詢的時(shí)候并不需要額外的解壓過程,數(shù)據(jù)庫的查詢效率基本沒有降低。


      圖1是本發(fā)明多數(shù)據(jù)集壓縮入庫及其處理流程;圖2是K個(gè)原始的相似數(shù)據(jù)集S1、S2、…、SK;圖3是采用本發(fā)明的壓縮方法對(duì)圖2數(shù)據(jù)集增量入庫后得到的數(shù)據(jù)庫表;圖4是某路由器在三個(gè)不同時(shí)刻路由表的前四條記錄;圖5是采用本發(fā)明的壓縮方法對(duì)圖4數(shù)據(jù)壓縮之后的數(shù)據(jù)庫表;圖6是編號(hào)為1221的自治系統(tǒng)10個(gè)時(shí)刻路由表項(xiàng)的數(shù)目和壓縮前后的累積記錄數(shù);圖7是編號(hào)為1221的自治系統(tǒng)路由表項(xiàng)記錄數(shù)目壓縮前后的對(duì)比圖。
      具體實(shí)施例方式
      圖1是本發(fā)明多數(shù)據(jù)集壓縮入庫及其處理流程示意圖。從不同地點(diǎn)或者從同一地點(diǎn)在不同時(shí)刻采集原始數(shù)據(jù),存入不同的數(shù)據(jù)文件;對(duì)原始的數(shù)據(jù)文件采用關(guān)系模型進(jìn)行數(shù)據(jù)建模,得到多個(gè)具有某些相同數(shù)據(jù)項(xiàng)的相似數(shù)據(jù)集S1、S2、…、SK。采用本發(fā)明的壓縮方法增量式入庫,得到壓縮數(shù)據(jù)集S0。基于S0通過簡(jiǎn)單的查詢操作可以恢復(fù)出相似數(shù)據(jù)集Si(1≤i≤K),可以高效實(shí)現(xiàn)多個(gè)粒度的查詢操作,可以對(duì)原始數(shù)據(jù)集合實(shí)現(xiàn)高效的聯(lián)合檢測(cè)。
      圖2是K個(gè)相似數(shù)據(jù)集的一個(gè)一般性的例子,其中Si(1≤i≤K)對(duì)應(yīng)的列為該數(shù)據(jù)集包含的記錄。圖3是應(yīng)用本發(fā)明對(duì)圖2所示的多個(gè)相似數(shù)據(jù)集進(jìn)行壓縮存儲(chǔ)之后得到的結(jié)果。對(duì)各個(gè)原始數(shù)據(jù)集內(nèi)相同的記錄只存儲(chǔ)一次,從而節(jié)省了空間。
      本發(fā)明現(xiàn)已應(yīng)用在國防科學(xué)技術(shù)大學(xué)研發(fā)的域間路由安全監(jiān)測(cè)系統(tǒng)ISP-HEALTH中。下面以路由監(jiān)測(cè)系統(tǒng)大量路由數(shù)據(jù)的壓縮存儲(chǔ)為例,進(jìn)一步說明本發(fā)明。
      1.原始數(shù)據(jù)采集以實(shí)際獲取的路由監(jiān)測(cè)數(shù)據(jù)為例,從http://www.routeviews.org/獲取實(shí)驗(yàn)數(shù)據(jù)。RouteViews項(xiàng)目是美國Oregon大學(xué)高級(jí)網(wǎng)絡(luò)中心的一個(gè)項(xiàng)目,其主要目標(biāo)是從多個(gè)不同自治系統(tǒng)的角度來獲取全球Internet的路由系統(tǒng)視圖,它定期采集全球Internet的BGP路由數(shù)據(jù)并將數(shù)據(jù)定時(shí)發(fā)布。下面用的是編號(hào)為1221的自治系統(tǒng)在2006年1月份內(nèi)的連續(xù)10個(gè)時(shí)間點(diǎn)的BGP路由表。
      2.數(shù)據(jù)建模采用關(guān)系數(shù)據(jù)模型對(duì)數(shù)據(jù)建模,對(duì)于采集到的K個(gè)原始的相似數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的屬性構(gòu)造關(guān)系數(shù)據(jù)模型,定義關(guān)系框架R&lt;X1,X2,…,Xn&gt;。原來的K個(gè)相似數(shù)據(jù)集變成了關(guān)系框架R上的K個(gè)具體關(guān)系S1、S2、…、SK。一個(gè)自治系統(tǒng)的BGP路由表中可能包含數(shù)十萬條路由表項(xiàng),一條BGP路由表項(xiàng)包括目的網(wǎng)絡(luò)地址network、下一跳next_hop、AS路徑as_path等多個(gè)屬性,提取幾個(gè)關(guān)鍵屬性構(gòu)造關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)關(guān)系R=&lt;Network,Next_hop,AS_path&gt;。為了便于說明,取出路由器在三個(gè)不同時(shí)刻的部分路由表項(xiàng)作為例子,如圖4。這時(shí)原始數(shù)據(jù)集是三個(gè),每個(gè)數(shù)據(jù)集四條記錄。其中t1時(shí)刻包含數(shù)據(jù)項(xiàng)r1、r2、r3和r4,t2時(shí)刻包含數(shù)據(jù)項(xiàng)r1、r2、r3和r5,t3時(shí)刻包含數(shù)據(jù)項(xiàng)r1、r3、r4和r6。
      3.壓縮存儲(chǔ)過程采用本發(fā)明的壓縮存儲(chǔ)方法依次對(duì)編號(hào)為1221的自治系統(tǒng)的不同時(shí)刻的路由表進(jìn)行壓縮存儲(chǔ)。每條路由記錄對(duì)應(yīng)的狀態(tài)標(biāo)記序列記錄了該條路由在各個(gè)時(shí)刻的存在情況。例如,圖5是對(duì)圖4數(shù)據(jù)集壓縮之后得到的數(shù)據(jù)庫表,數(shù)據(jù)庫中只有6條記錄,每條記錄的stamp屬性表明該數(shù)據(jù)項(xiàng)在哪些原始數(shù)據(jù)集內(nèi)出現(xiàn)。
      4.數(shù)據(jù)恢復(fù)采用本發(fā)明根據(jù)狀態(tài)標(biāo)記序列可以完整地恢復(fù)出任一數(shù)據(jù)集。例如在圖5中,第1、2、3、5條記錄對(duì)應(yīng)的stamp包含了“2”,由此可以得到該路由器在t2時(shí)刻的路由表所包含的路由全集,即為圖5中的第1、2、3、5條記錄。
      5.查詢對(duì)數(shù)據(jù)進(jìn)行壓縮存儲(chǔ)后,可以對(duì)關(guān)系數(shù)據(jù)庫從屬性值、單條記錄、某個(gè)數(shù)據(jù)集和所有記錄等多個(gè)粒度進(jìn)行查詢,具體方法是1)根據(jù)屬性值“x”對(duì)Xi進(jìn)行查詢從數(shù)據(jù)庫中選出所有Xi屬性值為“x”的記錄;2)對(duì)單條記錄r′的查詢從數(shù)據(jù)庫中選出與r′屬性完全相匹配的記錄;3)對(duì)某個(gè)數(shù)據(jù)集Si(1≤i≤K)的查詢從數(shù)據(jù)庫中選出所有的stamp屬性值中包含STAMP[i]的記錄;4)對(duì)所有記錄的查詢?cè)诓唤o定任何查詢條件的情況下,可以獲取數(shù)據(jù)庫中全部的記錄。
      對(duì)路由表的例子而言,具體要查詢的就是滿足屬性條件的路由項(xiàng)、查找某條路由的完整信息、恢復(fù)出某個(gè)時(shí)間的路由表、獲知監(jiān)測(cè)時(shí)間內(nèi)出現(xiàn)的所有路由項(xiàng)。
      由于只是通過擴(kuò)展字段實(shí)現(xiàn)多個(gè)數(shù)據(jù)集之間的壓縮,單條記錄并沒有經(jīng)過壓縮,所以以上列舉的四類數(shù)據(jù)庫查詢的效率在數(shù)據(jù)庫壓縮之后并沒有明顯的降低,查詢的準(zhǔn)確性和直接查詢?cè)紨?shù)據(jù)集沒有差別。
      6.聯(lián)合檢測(cè)6.1聯(lián)合檢測(cè)方法利用狀態(tài)標(biāo)記字段將多個(gè)數(shù)據(jù)集映射到一個(gè)數(shù)據(jù)集,增強(qiáng)了各數(shù)據(jù)集之間的耦合度,方便了對(duì)數(shù)據(jù)集之間的聯(lián)合檢測(cè)、交叉分析與處理,使用壓縮數(shù)據(jù)集比直接使用原始數(shù)據(jù)集更有利于時(shí)域、空域或者其他標(biāo)度的分析。下面參照?qǐng)D5具體說明。
      (1)判斷某個(gè)數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集Si和Sj內(nèi)是否一致例如,要判斷到網(wǎng)絡(luò)1.0.0.0的路由在t1、t2時(shí)刻是否發(fā)生變化,不用直接對(duì)原始數(shù)據(jù)集S1和S2分析,而能夠從壓縮數(shù)據(jù)庫中快速得到。到網(wǎng)絡(luò)1.0.0.0的路由在壓縮數(shù)據(jù)集中對(duì)應(yīng)的數(shù)據(jù)項(xiàng)是r1,r1.stamp同時(shí)包含S1和S2的狀態(tài)標(biāo)識(shí),因此這條到網(wǎng)絡(luò)1.0.0.0的路由在t1和t2時(shí)刻沒有發(fā)生變化。
      (2)獲得二個(gè)數(shù)據(jù)集Si和Si數(shù)據(jù)項(xiàng)差異例如,要得到t1和t2時(shí)刻路由的差異,可以基于stamp對(duì)壓縮數(shù)據(jù)集進(jìn)行查詢。stamp中只包含“1”不包含“2”的路由為&lt;6.1.0.0,202.12.6.2,4538 9407 668&gt;,只包含“2”不包含“1”的路由為&lt;6.1.0.0,202.12.6.4,4538 9407668&gt;。由此可以斷定t2時(shí)刻相對(duì)t1時(shí)刻只有到網(wǎng)絡(luò)6.1.0.0的路由發(fā)生了變化,變化的只是其next-hop屬性。
      (3)判斷某個(gè)數(shù)據(jù)項(xiàng)r′在全過程的穩(wěn)定性例如,到網(wǎng)絡(luò)1.0.0.0的路由對(duì)應(yīng)的數(shù)據(jù)項(xiàng)r1,r1.stamp包含了所有數(shù)據(jù)集的狀態(tài)標(biāo)識(shí),因此r1在全過程中是穩(wěn)定的;而到網(wǎng)絡(luò)3.0.0.0的路由對(duì)應(yīng)的數(shù)據(jù)項(xiàng)r2,由于r2.stamp只包含數(shù)據(jù)集S1和S2的狀態(tài)標(biāo)識(shí),沒有包含數(shù)據(jù)集S3的狀態(tài)標(biāo)識(shí),因此r2在全過程中不穩(wěn)定。
      (4)得出全過程發(fā)生變化的數(shù)據(jù)項(xiàng)r2、r4、r5和r6的狀態(tài)標(biāo)記序列沒有包含所有數(shù)據(jù)集對(duì)應(yīng)的狀態(tài)標(biāo)識(shí),因此全過程發(fā)生變化的是到3.0.0.0、6.1.0.0和6.2.0.0的路由。
      6.2聯(lián)合檢測(cè)性能以數(shù)據(jù)項(xiàng)的穩(wěn)定性分析為例,如果采用傳統(tǒng)方法,要在多個(gè)數(shù)據(jù)集中查找,然后匯總查找結(jié)果。而采用本發(fā)明的聯(lián)合檢測(cè)方法,只要對(duì)壓縮數(shù)據(jù)集查詢一次即可。不但減少查詢次數(shù),而且免去了匯總操作。
      7.壓縮率計(jì)算對(duì)所有的數(shù)據(jù)集S1、S2、…、SK壓縮之后,數(shù)據(jù)庫中的記錄數(shù)為n&prime;=#(Ui=1KSi),]]>而壓縮前的記錄總數(shù)n=&Sigma;i=1K#Si,]]>壓縮率為β=n′/n。針對(duì)圖4和圖5的例子,壓縮前的表項(xiàng)數(shù)為12,壓縮后的表項(xiàng)數(shù)為6,那么壓縮率為6/12=50%。
      若#S1=#S2=…=#SK=N,且對(duì)Si,Sj∈{S1,S2,…,SK}都有&beta;Si&RightArrow;&cup;m=1KSm=&beta;Sj&RightArrow;&cup;m=1KSm=&beta;]]>則壓縮前的記錄個(gè)數(shù)n=K·N,壓縮后的記錄個(gè)數(shù)n′=N+N(1-β)(K-1)。當(dāng)K足夠大時(shí),壓縮率為&mu;=n&prime;n&ap;1-&beta;.]]>從編號(hào)為1221的自治系統(tǒng)中采集的10個(gè)時(shí)間點(diǎn)的路由數(shù)據(jù)情況如圖6所示,每個(gè)時(shí)刻的路由表都包含了超過17萬條的路由記錄,路由的相對(duì)穩(wěn)定性使得同一個(gè)路由器的路由狀態(tài)的改變符合時(shí)間局部性原理,兩個(gè)相鄰時(shí)刻對(duì)應(yīng)的路由表中存在大量的相同路由表項(xiàng),各個(gè)路由表之間的冗余度β≥0.99,壓縮率的計(jì)算結(jié)果為 壓縮后的表項(xiàng)數(shù)僅為壓縮前的1/10,而且,隨著K的增大,壓縮率會(huì)越來越小,并最終接近1-β。其壓縮前后的對(duì)比如圖7。
      本發(fā)明不但能夠用于BGP路由監(jiān)測(cè),也可以用到基于路由報(bào)文和IP報(bào)文的安全監(jiān)測(cè)與入侵檢測(cè)。既能夠?qū)ν粩?shù)據(jù)采集點(diǎn)在多個(gè)時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行壓縮存儲(chǔ)和聯(lián)合檢測(cè),也能夠?qū)Σ煌杉c(diǎn)的相似數(shù)據(jù)集進(jìn)行處理。不但可用于網(wǎng)絡(luò)監(jiān)測(cè)領(lǐng)域,還可用于其他類型的海量歷史信息的存儲(chǔ)或者數(shù)據(jù)分析領(lǐng)域。
      權(quán)利要求
      1.一種基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法,其特征在于采用關(guān)系模型對(duì)數(shù)據(jù)建模,利用關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,采用基于狀態(tài)標(biāo)記序列的壓縮方法對(duì)同一關(guān)系框架下的多個(gè)相似數(shù)據(jù)集進(jìn)行壓縮存儲(chǔ),使用查詢語句恢復(fù)出原始的數(shù)據(jù)集,通過對(duì)壓縮后的數(shù)據(jù)表進(jìn)行查詢實(shí)現(xiàn)對(duì)多個(gè)原始數(shù)據(jù)集的多種類型的聯(lián)合檢測(cè);基于狀態(tài)標(biāo)記序列的壓縮方法的過程是令R1=&lt;X1,X2,…,Xn&gt;,R2=&lt;stamp&gt;,stamp是一個(gè)字符串,R=R1×R2;S1、S2、…、SK互為關(guān)系框架R1上的相似數(shù)據(jù)集;S0是關(guān)系框架R上的具體關(guān)系,作為S1、S2、…、SK的壓縮集,用來記錄壓縮之后的數(shù)據(jù)集,其初始值為空集;結(jié)合狀態(tài)標(biāo)記序列,先后將S1、S2、…、SK逐個(gè)壓縮存入數(shù)據(jù)庫,壓縮存儲(chǔ)過程是輸入關(guān)系框架R1上的K個(gè)相似數(shù)據(jù)集S1、S2、…、SK,數(shù)據(jù)集的狀態(tài)標(biāo)記標(biāo)識(shí)STAMP[1]=″1″、STAMP[2]=″2″、…、STAMP[K]=“K”;輸出帶狀態(tài)標(biāo)記序列的壓縮數(shù)據(jù)集S0,S0是關(guān)系框架R上的具體關(guān)系;1)S0初始時(shí)是一個(gè)空集;2)i=1,2,…,K,重復(fù)執(zhí)行以下步驟3)j=1,2,…,#Si(數(shù)據(jù)集Si的元素個(gè)數(shù)),重復(fù)執(zhí)行以下步驟4)從數(shù)據(jù)集Si中任取一個(gè)元素r,并將r從Si去除;5)如果存在r′∈S0使得它的各個(gè)屬性值都和r相同,即r′.x1=r.x1、r′.x2=r.x2、…、r′.xn=r.xn,則修改r′對(duì)應(yīng)的狀態(tài)標(biāo)記序列r′.stamp=r′.stamp+STAMP[i];6)否則,構(gòu)造一個(gè)新的stamp,stamp=STAMP[i],把&lt;r,stamp&gt;作為一條新的記錄添加到S0中。
      2.如權(quán)利要求1所述的基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法,其特征在于使用查詢語句恢復(fù)原始數(shù)據(jù)集的方法是使用查詢語句,從數(shù)據(jù)庫中選出所有的stamp屬性值中包含STAMP[i]的記錄,便恢復(fù)出初始的所有數(shù)據(jù)集Si(1≤i≤K)。
      3.如權(quán)利要求1所述的基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法,其特征在于對(duì)多個(gè)相似數(shù)據(jù)集聯(lián)合檢測(cè)的方法是3.1判斷某個(gè)數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集Si和Sj內(nèi)是否一致的方法是在壓縮數(shù)據(jù)庫中采用關(guān)鍵字查詢找到滿足某種屬性特征的記錄,如果其stamp中同時(shí)包含STAMP[i]和STAMP[j],則該數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集內(nèi)一致;否則,該數(shù)據(jù)項(xiàng)在二個(gè)數(shù)據(jù)集內(nèi)不一致;3.2獲得二個(gè)數(shù)據(jù)集Si和Sj數(shù)據(jù)項(xiàng)差異的方法是將S0中所有stamp只包含STAMP[i]或者STAMP[j]的記錄取出來,記為S′,則S′中包含的每條記錄都只在Si或Sj中單獨(dú)出現(xiàn),S′就是Si和Sj的數(shù)據(jù)項(xiàng)差異;3.3判斷某個(gè)數(shù)據(jù)項(xiàng)r′在全過程的穩(wěn)定性的方法是將r′.stamp取出,如果r′.stamp包含了所有數(shù)據(jù)集的狀態(tài)標(biāo)識(shí),說明r′在每個(gè)數(shù)據(jù)集里都有出現(xiàn),則r′在全過程是穩(wěn)定的;如果r′.stamp包含了部分?jǐn)?shù)據(jù)集的狀態(tài)標(biāo)識(shí),說明r′只在部分?jǐn)?shù)據(jù)集里有出現(xiàn),則r′在全過程是不穩(wěn)定的;3.4得出全過程發(fā)生變化的數(shù)據(jù)項(xiàng)的方法是如果一條記錄在全過程都是穩(wěn)定的,則該條記錄對(duì)應(yīng)的狀態(tài)標(biāo)記序列必然包含所有數(shù)據(jù)集對(duì)應(yīng)的狀態(tài)標(biāo)識(shí),將S0中所有stamp中沒有全部包含所有數(shù)據(jù)集的狀態(tài)標(biāo)識(shí)的記錄取出來,記為S′,S′就是所有在全過程發(fā)生變化的數(shù)據(jù)項(xiàng)。
      全文摘要
      本發(fā)明公開了一種基于相似數(shù)據(jù)集的網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法,要解決的技術(shù)問題是針對(duì)存在較多相同數(shù)據(jù)項(xiàng)的多個(gè)數(shù)據(jù)集提出一種基于表的關(guān)系數(shù)據(jù)庫壓縮存儲(chǔ)和聯(lián)合檢測(cè)方法。技術(shù)方案是采用關(guān)系模型對(duì)數(shù)據(jù)建模,利用關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,采用基于狀態(tài)標(biāo)記序列的壓縮方法對(duì)同一關(guān)系框架下的多個(gè)相似數(shù)據(jù)集進(jìn)行壓縮存儲(chǔ);使用查詢語句恢復(fù)出原始的數(shù)據(jù)集;通過對(duì)壓縮后的數(shù)據(jù)表進(jìn)行查詢實(shí)現(xiàn)對(duì)多個(gè)原始數(shù)據(jù)集的多種類型的聯(lián)合檢測(cè)。本發(fā)明利用大量數(shù)據(jù)集之間的相似性,將多個(gè)數(shù)據(jù)集增量式地壓縮到數(shù)據(jù)庫的同一個(gè)表中,可以應(yīng)用于多種類型網(wǎng)絡(luò)監(jiān)測(cè)數(shù)據(jù)的壓縮存儲(chǔ),也可用于存儲(chǔ)其他類型的網(wǎng)絡(luò)歷史數(shù)據(jù)或相似數(shù)據(jù)集。
      文檔編號(hào)H04L9/28GK1866821SQ20061003176
      公開日2006年11月22日 申請(qǐng)日期2006年6月5日 優(yōu)先權(quán)日2006年6月5日
      發(fā)明者朱培棟, 寧洪, 鄧文平, 蔡開裕, 趙建強(qiáng), 周麗濤 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1