一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法。一種數(shù)據(jù)預(yù)處理單元,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個(gè)任務(wù)處理模塊,其中,任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài);任務(wù)處理模塊包括:管理器;應(yīng)用協(xié)議解析引擎;以及業(yè)務(wù)數(shù)據(jù)過濾引擎。所述系統(tǒng)及方法將網(wǎng)絡(luò)數(shù)據(jù)包形成元數(shù)據(jù)存入規(guī)則庫(kù)并實(shí)現(xiàn)對(duì)其的關(guān)聯(lián)分析。本發(fā)明的有益效果為:通過預(yù)處理單元對(duì)數(shù)據(jù)的處理,極大的降低后續(xù)單元的工作壓力,更有效的應(yīng)對(duì)數(shù)據(jù)訪問高峰。處理系統(tǒng)通過對(duì)業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)現(xiàn)其深度使用。
【專利說明】一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,具體涉及一種數(shù)據(jù)預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)服務(wù)器經(jīng)常需要處理大量的業(yè)務(wù)數(shù)據(jù),例如促銷時(shí)的網(wǎng)購(gòu)、綜合查詢系統(tǒng)(或警務(wù)綜合平臺(tái))、情報(bào)信息綜合應(yīng)用平臺(tái)、人口信息系統(tǒng)、出入境人員/證件信息庫(kù)、機(jī)動(dòng)車/駕駛?cè)诵畔?kù)、公安機(jī)關(guān)戶籍管理系統(tǒng)、金融行業(yè)核心業(yè)務(wù)系統(tǒng)、證券交易系統(tǒng)、企業(yè)ERP應(yīng)用等以及一些其他行業(yè)核心業(yè)務(wù)系統(tǒng),基于現(xiàn)有的網(wǎng)絡(luò)訪問行為尚未建立日志或日志信息不全的現(xiàn)狀,在信息化與業(yè)務(wù)工作不斷深入融合的背景下,利用信息系統(tǒng)的漏洞或不完善的方面違規(guī)操作、冒用他人身份操作、授意他人操作的情況難以避免。更有甚者,在信息系統(tǒng)中惡意修改數(shù)據(jù)、使用黑客軟件攻擊服務(wù)器的現(xiàn)象也偶有發(fā)生。因?yàn)闆]有專門的操作日志記錄,導(dǎo)致取證困難,這也充分暴露了內(nèi)部監(jiān)督制約的必要性。嚴(yán)格審計(jì)管理所有的業(yè)務(wù)信息系統(tǒng),并制定責(zé)任追查和追蹤制度,可以有效防止和避免內(nèi)部人員利用信息系統(tǒng)監(jiān)守自盜等非授權(quán)的行為操作,確保信息系統(tǒng)的安全。
[0003]另外,現(xiàn)有的這些系統(tǒng)中,其業(yè)務(wù)審計(jì)功能普遍較弱,為了對(duì)業(yè)務(wù)行為進(jìn)行審計(jì),通常的解決方式是對(duì)應(yīng)用系統(tǒng)進(jìn)行改造,增加業(yè)務(wù)審計(jì)模塊,但改造不僅需要經(jīng)費(fèi)、影響系統(tǒng)的正常應(yīng)用,而且對(duì)系統(tǒng)的資源(CPU、內(nèi)存)也會(huì)產(chǎn)生較大的壓力。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供的一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法,通過預(yù)處理工序,減輕數(shù)據(jù)訪問高峰階段服務(wù)器的處理壓力。
[0005]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
一種數(shù)據(jù)預(yù)處理單元,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個(gè)任務(wù)處理模塊,其中,
任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài);
任務(wù)處理模塊包括:
管理器,用于同任務(wù)調(diào)度模塊進(jìn)行數(shù)據(jù)交換,并監(jiān)控任務(wù)處理模塊的系統(tǒng)資源和任務(wù)執(zhí)行進(jìn)度;
應(yīng)用協(xié)議解析引擎,根據(jù)任務(wù)指令接收網(wǎng)絡(luò)數(shù)據(jù)包并進(jìn)行解析、整合,形成網(wǎng)絡(luò)數(shù)據(jù)
包;
以及業(yè)務(wù)數(shù)據(jù)過濾引擎,接收應(yīng)用協(xié)議解析引擎?zhèn)鬏斶^來的網(wǎng)絡(luò)數(shù)據(jù)包,并過濾掉非網(wǎng)絡(luò)數(shù)據(jù)包。通過預(yù)處理單元處理的網(wǎng)絡(luò)數(shù)據(jù)包,都是與業(yè)務(wù)相關(guān)的明文包,極大的減輕處理單元的處理壓力。
[0006]進(jìn)一步的,任務(wù)調(diào)度模塊將任務(wù)分解成子任務(wù)以分配給多個(gè)任務(wù)處理模塊,子任務(wù)的處理分為串行處理和并行處理。針對(duì)較復(fù)雜的任務(wù),多個(gè)模塊同時(shí)處理速度更快。
[0007]進(jìn)一步的,任務(wù)和子任務(wù)的運(yùn)行狀態(tài)包括準(zhǔn)備、就序、處理、完成以及收回。更加便于調(diào)度模塊對(duì)任務(wù)的調(diào)派。
[0008]一種數(shù)據(jù)處理系統(tǒng),包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲(chǔ)單元以及前述的預(yù)處理單元,其中,
網(wǎng)絡(luò)接收單元,用以接收網(wǎng)絡(luò)數(shù)據(jù)包;
處理單元,接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,根據(jù)業(yè)務(wù)信息提取規(guī)則對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行關(guān)聯(lián)分析以生成處理結(jié)果;
維護(hù)單元,對(duì)業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新;
存儲(chǔ)單元,存儲(chǔ)業(yè)務(wù)信息提取規(guī)則以及業(yè)務(wù)信息。
[0009]裝有預(yù)處理單元的系統(tǒng)處理速度更快,處理能力更強(qiáng)大,能應(yīng)對(duì)更大量的數(shù)據(jù)訪問。
[0010]進(jìn)一步的,處理單元接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,并處理以形成包括請(qǐng)求人、請(qǐng)求時(shí)間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)的元數(shù)據(jù)并存入業(yè)務(wù)信息。使規(guī)則庫(kù)具有對(duì)訪問數(shù)據(jù)的關(guān)聯(lián)分析能力。
[0011]進(jìn)一步的,網(wǎng)絡(luò)接收單元包括網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng),網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)用于監(jiān)控用戶狀態(tài)以確認(rèn)是否允許用戶數(shù)據(jù)通過,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)根據(jù)預(yù)設(shè)抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包。進(jìn)行身份認(rèn)證以實(shí)現(xiàn)請(qǐng)求人確認(rèn),通過兩個(gè)系統(tǒng)實(shí)現(xiàn)資源的高效利用。
[0012]優(yōu)選的,存儲(chǔ)單元以統(tǒng)一的存儲(chǔ)接口集成數(shù)據(jù)庫(kù)管理系統(tǒng)和分布式存儲(chǔ)架構(gòu)??梢圆渴鹪诘土挠布?,也可以提供高傳輸率訪問數(shù)據(jù),適合未來超大數(shù)據(jù)集的審計(jì)和應(yīng)用分析。也便于新的存儲(chǔ)單元的接入。
[0013]一種數(shù)據(jù)處理方法,包括以下步驟:
801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識(shí)別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫(kù);
802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請(qǐng)求人、請(qǐng)求時(shí)間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)
據(jù);
803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫(kù)中讀取提取規(guī)則;
804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
[0014]基于關(guān)聯(lián)分析知識(shí),可以對(duì)業(yè)務(wù)信息進(jìn)行不同的挖掘,從而可以根據(jù)需求實(shí)現(xiàn)對(duì)業(yè)務(wù)信息的綜合分析和處理。
[0015]進(jìn)一步的,規(guī)則庫(kù)中的業(yè)務(wù)信息提取規(guī)則的狀態(tài)分為測(cè)試、活動(dòng)、凍結(jié)、失效四個(gè)階段。規(guī)則庫(kù)還包括規(guī)則定義、規(guī)則有效性驗(yàn)證以及規(guī)則管理。業(yè)務(wù)信息和提取規(guī)則都是動(dòng)態(tài)的,實(shí)時(shí)更新的。
[0016]本發(fā)明的有益效果為:通過預(yù)處理單元對(duì)數(shù)據(jù)的處理,極大的降低后續(xù)單元的工作壓力,更有效的應(yīng)對(duì)數(shù)據(jù)訪問高峰。處理系統(tǒng)通過對(duì)業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)現(xiàn)其深度使用。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明所述數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)框圖; 圖2為本發(fā)明所述數(shù)據(jù)處理方法的流程圖;
圖3為本發(fā)明所述數(shù)據(jù)處理系統(tǒng)的具體實(shí)施圖。
【具體實(shí)施方式】
[0018]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行描述,很顯然的,附圖所描述的僅僅是本發(fā)明的一部分而不是全部實(shí)施例。
[0019]如圖1所示,本發(fā)明提供的一種數(shù)據(jù)預(yù)處理單元,包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個(gè)任務(wù)處理模塊。在眾多場(chǎng)合,網(wǎng)絡(luò)數(shù)據(jù)訪問在業(yè)務(wù)高峰期的數(shù)據(jù)量非常巨大,對(duì)其進(jìn)行業(yè)務(wù)審計(jì)所需的資源也非常巨大,本發(fā)明的核心功能是對(duì)捕獲的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行預(yù)處理,減輕后續(xù)審計(jì)處理的壓力,主要處理手段包括應(yīng)用協(xié)議分析引擎、協(xié)議算法模塊(http、DES、MD5等)及業(yè)務(wù)數(shù)據(jù)過濾引擎。
[0020]本發(fā)明提供的預(yù)處理單元優(yōu)選分布式設(shè)計(jì),由多個(gè)預(yù)處理模塊和調(diào)度模塊構(gòu)成。在實(shí)際布置時(shí),可依據(jù)業(yè)務(wù)預(yù)處理需求及預(yù)處理機(jī)的運(yùn)算能力,確定預(yù)處理模塊的數(shù)量。每個(gè)預(yù)處理模塊除內(nèi)置數(shù)據(jù)處理模塊外,還包括任務(wù)管理模塊,任務(wù)管理模塊接受任務(wù)調(diào)度模塊的指令,處理指定網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)接受的網(wǎng)絡(luò)數(shù)據(jù)包;預(yù)處理模塊的任務(wù)管理模塊還定時(shí)監(jiān)控本機(jī)的系統(tǒng)資源和任務(wù)執(zhí)行情況,并上報(bào)到任務(wù)調(diào)度模塊,一旦預(yù)處理模塊出現(xiàn)故障,任務(wù)調(diào)度模塊可以及時(shí)協(xié)調(diào)其它預(yù)處理機(jī),接替出現(xiàn)故障的預(yù)處理機(jī)。任務(wù)調(diào)度模塊是預(yù)處理的核心,它可以協(xié)調(diào)多任務(wù)預(yù)處理模塊的并行工作。
[0021]這里需要說明的是,處理模塊和任務(wù)調(diào)度模塊是軟件模塊化概念,在一臺(tái)服務(wù)器上,可以安裝處理機(jī)軟件或任務(wù)調(diào)度引擎機(jī)軟件,也可以把處理機(jī)軟件或任務(wù)調(diào)度引擎機(jī)軟件同時(shí)安裝到一臺(tái)服務(wù)器上。
[0022]每個(gè)預(yù)處理模塊內(nèi)部都包括應(yīng)用協(xié)議解析弓I擎和業(yè)務(wù)數(shù)據(jù)過濾弓I擎兩部分。應(yīng)用協(xié)議解析引擎從網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)接收http及https協(xié)議數(shù)據(jù)包并進(jìn)行解析,整合成業(yè)務(wù)數(shù)據(jù)包;業(yè)務(wù)數(shù)據(jù)過濾引擎對(duì)解析后的業(yè)務(wù)數(shù)據(jù)包進(jìn)行二次清洗。針對(duì)http協(xié)議數(shù)據(jù)包,應(yīng)用協(xié)議解析引擎分別提取請(qǐng)求報(bào)文的請(qǐng)求行、消息報(bào)頭、請(qǐng)求正文和應(yīng)答報(bào)文的狀態(tài)行、消息報(bào)頭、響應(yīng)正文,把這些信息作為一個(gè)信息單元,提交業(yè)務(wù)數(shù)據(jù)過濾引擎進(jìn)行處理。對(duì)于https協(xié)議的數(shù)據(jù)包,在提取http信息之前,還要進(jìn)行報(bào)文解密工作。首先,從服務(wù)器證書庫(kù)中,提取報(bào)文發(fā)起方的數(shù)字證書;然后以數(shù)據(jù)證書對(duì)https本次通訊的密鑰協(xié)商報(bào)文進(jìn)行解密了,獲取本次通訊的密鑰;分析https本次通訊的協(xié)商報(bào)文,確定本次通訊的加密算法;根據(jù)采用的算法調(diào)用相應(yīng)的DES、RC2、RC5等模塊,對(duì)報(bào)文進(jìn)行解析,獲得通訊的明文;最后,對(duì)明文進(jìn)行MD5或SHA的簽名驗(yàn)證,保證解析的正確性。為了實(shí)現(xiàn)https等加密數(shù)據(jù)的還原,本發(fā)明提供的預(yù)處理單元內(nèi)置數(shù)字證書庫(kù),導(dǎo)入數(shù)據(jù)證書,實(shí)現(xiàn)解密工作。
[0023]當(dāng)應(yīng)用協(xié)議解析完成后,把全部變?yōu)槊魑牡臄?shù)據(jù)包提交業(yè)務(wù)數(shù)據(jù)過濾引擎,對(duì)捕獲的數(shù)據(jù)包進(jìn)行二次清洗,過濾掉與業(yè)務(wù)無關(guān)的CSS、Javascript、圖片等數(shù)據(jù)包。經(jīng)過預(yù)處理單元后,從網(wǎng)絡(luò)捕獲的數(shù)據(jù)包只剩下業(yè)務(wù)相關(guān)的明文包,可以極大地減輕后續(xù)處理壓力。
[0024]如圖1-3所示,本發(fā)明提供的一種數(shù)據(jù)處理系統(tǒng),包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲(chǔ)單元以及前述的預(yù)處理單元。
[0025]其中,網(wǎng)絡(luò)接收單元的網(wǎng)絡(luò)并非特指互聯(lián)網(wǎng),應(yīng)作廣義的理解,包括各種形式的內(nèi)網(wǎng)以及其他現(xiàn)有網(wǎng)絡(luò)形式。網(wǎng)絡(luò)接收單元由網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)構(gòu)成,它們分別擔(dān)負(fù)不同任務(wù)。網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)位于網(wǎng)絡(luò)主干線路上,任務(wù)業(yè)務(wù)請(qǐng)求都必須經(jīng)過該子系統(tǒng)。子系統(tǒng)內(nèi)部的連接控制引擎用于控制用戶,它實(shí)時(shí)與用戶狀態(tài)監(jiān)控模塊通訊,確定是否允許用戶數(shù)據(jù)通過;如果用戶沒有登錄,連接控制引擎自動(dòng)把用戶請(qǐng)求跳轉(zhuǎn)到登錄審計(jì)界面,由用戶輸入登錄信息;對(duì)于第一次進(jìn)入網(wǎng)絡(luò)的用戶,可進(jìn)入用戶信息管理模塊,注冊(cè)和管理個(gè)人信息;黑、白名單是為了提供系統(tǒng)效率,優(yōu)化系統(tǒng)功能而設(shè)置的;bypass用于保證整個(gè)系統(tǒng)的兼容性,當(dāng)網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)出現(xiàn)軟、硬件故障時(shí),bypass模塊啟動(dòng)使數(shù)據(jù)包可以直接通過本設(shè)備。網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)位于單位主要交換設(shè)備的鏡像上,根據(jù)預(yù)設(shè)的抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包,經(jīng)過抓包規(guī)則的過濾,可以屏蔽掉無關(guān)數(shù)據(jù)包,減輕系統(tǒng)壓力;抓包規(guī)則以IP包為目標(biāo),可以設(shè)定源IP、源端口、目標(biāo)IP和目標(biāo)端口 ;另夕卜,考慮到日常工作中,業(yè)務(wù)請(qǐng)求的瞬發(fā)性特點(diǎn),在網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)中,設(shè)置了大容量的網(wǎng)絡(luò)數(shù)據(jù)緩沖池,起到削峰抑谷的作用,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)流量較大時(shí),網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)的資源主要用來抓包,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)流量較小時(shí),網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)的資源可以用來進(jìn)行數(shù)據(jù)包整合,實(shí)現(xiàn)資源的充分利用。
[0026]業(yè)務(wù)內(nèi)容處理單元是本系統(tǒng)的核心,主機(jī)實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的提取和關(guān)聯(lián)。主要處理流程包括信息提取、信息有效性驗(yàn)證、中文編碼轉(zhuǎn)換及信息整合(關(guān)聯(lián))。信息提取時(shí),首先與規(guī)則庫(kù)通訊,獲得活動(dòng)規(guī)則,然后根據(jù)規(guī)則提取數(shù)據(jù);提取數(shù)據(jù)后,要對(duì)數(shù)據(jù)的有效性進(jìn)行驗(yàn)證,如與預(yù)期不一致,應(yīng)產(chǎn)生報(bào)警,由管理員對(duì)數(shù)據(jù)包或規(guī)則的有效性進(jìn)行確認(rèn);如果提取的信息中含有中文信息,則要進(jìn)行中文編碼轉(zhuǎn)換,把GBK、GB18030、Unicode等編碼的中文統(tǒng)一轉(zhuǎn)換為utf-8格式;最后,要按照關(guān)聯(lián)規(guī)則庫(kù)對(duì)提取信息進(jìn)行關(guān)聯(lián),生成操作人員、時(shí)間、目標(biāo)系統(tǒng)、業(yè)務(wù)信息等元數(shù)據(jù),其中用戶狀態(tài)表由網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)提供信息元,主要包括〈人員、IP、時(shí)段〉三元組,用于操作人員與業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)。業(yè)務(wù)規(guī)則管理子系統(tǒng)是主要用于規(guī)則維護(hù),同時(shí)管理規(guī)則的分發(fā),同時(shí)管理員也可以利用規(guī)則有效性監(jiān)測(cè)工具,驗(yàn)證當(dāng)前規(guī)則是否用效,如果目標(biāo)系統(tǒng)發(fā)生變更,在信息提取時(shí)無法通過驗(yàn)證,那么將向規(guī)則管理子系統(tǒng)發(fā)送規(guī)則失效報(bào)警,規(guī)則管理子系統(tǒng)收到報(bào)警后,將該規(guī)則狀態(tài)置為“凍結(jié)”,并停止該規(guī)則的分發(fā)。業(yè)務(wù)內(nèi)容處理采用分布式設(shè)計(jì),由調(diào)度機(jī)實(shí)現(xiàn)任務(wù)分配、狀態(tài)監(jiān)控及管理,各處理機(jī)定時(shí)報(bào)送狀態(tài)信息到調(diào)度機(jī)。維護(hù)單元,主要用戶對(duì)處理單元中的業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新;
本發(fā)明提供的系統(tǒng),數(shù)據(jù)存儲(chǔ)單元通過統(tǒng)一的存儲(chǔ)接口可以與數(shù)據(jù)庫(kù)管理系統(tǒng)(Oracle、SqlServer> Mysql)和分布式存儲(chǔ)架構(gòu)(hadoop)集成。其中,數(shù)據(jù)庫(kù)管理系統(tǒng)以數(shù)據(jù)表為單位,以SQL語(yǔ)言進(jìn)行關(guān)聯(lián)、分析,技術(shù)成熟;分布式存儲(chǔ)架構(gòu)有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,而且提供高傳輸率來訪問的數(shù)據(jù),適合未來超大數(shù)據(jù)集的應(yīng)用分析。
[0027]如圖2所示,本發(fā)明提供的一種業(yè)務(wù)數(shù)據(jù)處理方法,包括以下步驟:
801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識(shí)別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫(kù);
802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請(qǐng)求人、請(qǐng)求時(shí)間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)
據(jù);
803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫(kù)中讀取提取規(guī)則;
804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
[0028]本發(fā)明提供的處理方法,其核心創(chuàng)新點(diǎn)在于:對(duì)業(yè)務(wù)信息進(jìn)行分析,按信息提取規(guī)則庫(kù)提取業(yè)務(wù)數(shù)據(jù);業(yè)務(wù)信息提取規(guī)則的定義、維護(hù)以及實(shí)施算法;基于關(guān)聯(lián)規(guī)則規(guī)則庫(kù),關(guān)聯(lián)分析各類業(yè)務(wù)信息,形成由操作人、目標(biāo)系統(tǒng)、時(shí)間、業(yè)務(wù)數(shù)據(jù)組成的元數(shù)據(jù);關(guān)聯(lián)知識(shí)的定義及、維護(hù)及實(shí)施算法;采用分布式計(jì)算方式,實(shí)現(xiàn)“業(yè)務(wù)信息分析”和“關(guān)聯(lián)分析”任務(wù)的可調(diào)度性,在物理設(shè)備上實(shí)現(xiàn)負(fù)載均衡;提供分布式數(shù)據(jù)接口,支持大數(shù)據(jù)分析。
[0029]另外優(yōu)選的,業(yè)務(wù)數(shù)據(jù)通過網(wǎng)絡(luò)接收,因此在網(wǎng)絡(luò)接收數(shù)據(jù)時(shí)還應(yīng)包括Ip數(shù)據(jù)包采集;http(s)等傳輸層協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)包還原;網(wǎng)絡(luò)身份認(rèn)證;現(xiàn)實(shí)身份、ip、時(shí)段關(guān)聯(lián)算法;相關(guān)業(yè)務(wù)系統(tǒng)的信息采集。
[0030]本發(fā)明提供的方法,步驟802中,業(yè)務(wù)處理單元從預(yù)處理單元的業(yè)務(wù)數(shù)據(jù)緩存處接收業(yè)務(wù)數(shù)據(jù)包,根據(jù)業(yè)務(wù)數(shù)據(jù)包特征,判斷業(yè)務(wù)種類,根據(jù)業(yè)務(wù)種類,從規(guī)則庫(kù)中讀取適用于本業(yè)務(wù)的活動(dòng)規(guī)則子集,按規(guī)則子集提取業(yè)務(wù)信息。如果分析引擎在運(yùn)行過程中,發(fā)現(xiàn)提取規(guī)則有問題,可能由于多種原因,如:業(yè)務(wù)系統(tǒng)升級(jí)、規(guī)則適用性不強(qiáng)等,則通過異步機(jī)制通知管理員,由管理員對(duì)規(guī)則庫(kù)進(jìn)行維護(hù)。
[0031]業(yè)務(wù)信息提取規(guī)則,由抽象化邏輯語(yǔ)言描述,定義適用業(yè)務(wù)、提取參數(shù)定位信息、參數(shù)有效性驗(yàn)證等信息。根據(jù)不同的業(yè)務(wù),不同的深度分析需求,編輯不同需求規(guī)則。規(guī)則庫(kù)包括各種業(yè)務(wù)信息提取規(guī)則的總和。圖2中使用了規(guī)則庫(kù)和規(guī)則庫(kù)兩個(gè)方框表示流程,實(shí)際應(yīng)用中提取規(guī)則的總和和業(yè)務(wù)信息的總和即可存儲(chǔ)與一起也可分開放置,根據(jù)實(shí)際需求設(shè)置。規(guī)則按其有效狀態(tài)分為活動(dòng)和凍結(jié),業(yè)務(wù)信息分析引擎提交規(guī)則查詢請(qǐng)求時(shí),規(guī)則庫(kù)返回所有適用于該業(yè)務(wù)的、處于活動(dòng)狀態(tài)的規(guī)則;當(dāng)一條規(guī)則不適用時(shí),可將該規(guī)則狀態(tài)調(diào)整為凍結(jié),該規(guī)則將不生效;規(guī)則庫(kù)還包括規(guī)則定義、有效性驗(yàn)證、規(guī)則管理等工具,由管理員進(jìn)行維護(hù)。
[0032]步驟804中,關(guān)聯(lián)分析包括實(shí)現(xiàn)〈業(yè)務(wù)數(shù)據(jù)〉與〈操作人員、時(shí)間和業(yè)務(wù)信息〉的關(guān)聯(lián)。這里,業(yè)務(wù)信息根據(jù)需求確定,既需要分析和挖掘網(wǎng)絡(luò)數(shù)據(jù)包何種方向的價(jià)值,則選取該方向的業(yè)務(wù)信息對(duì)網(wǎng)絡(luò)數(shù)據(jù)包根據(jù)提取規(guī)則進(jìn)行關(guān)聯(lián)以深度分析。業(yè)務(wù)信息可以是業(yè)務(wù)數(shù)據(jù)的總和,也可以是其它信息。
[0033]通過網(wǎng)絡(luò)接收數(shù)據(jù)包時(shí),在網(wǎng)絡(luò)數(shù)據(jù)包還原時(shí),可以提取網(wǎng)絡(luò)數(shù)據(jù)包的操作時(shí)間和發(fā)起IP,為了確定操作人員,主要通過網(wǎng)絡(luò)身份認(rèn)證方法,身份認(rèn)證網(wǎng)關(guān)從日切時(shí)間點(diǎn)開始工作,記錄各IP地址的狀態(tài),如果I個(gè)IP沒經(jīng)過身份認(rèn)證而發(fā)起交易,身份認(rèn)證網(wǎng)關(guān)攔截該IP的通訊,自動(dòng)跳轉(zhuǎn)到身份認(rèn)證界面,由操作人員輸入身份認(rèn)證信息,實(shí)現(xiàn)〈IP,時(shí)段〉與〈操作人員〉的關(guān)聯(lián)。對(duì)于操作人員的關(guān)聯(lián),視不同目標(biāo)系統(tǒng)可進(jìn)行優(yōu)化,如目標(biāo)系統(tǒng)自身具有身份認(rèn)證模塊,并可提供身份認(rèn)證與通訊session的記錄,那么根據(jù)〈sessionid、操作人員 > 的記錄,可以對(duì)身份認(rèn)證網(wǎng)關(guān)的操作人員進(jìn)行確認(rèn)和修正。〈業(yè)務(wù)數(shù)據(jù)〉與〈業(yè)務(wù)信息〉的關(guān)聯(lián),主要依賴于規(guī)則庫(kù)。
[0034]規(guī)則庫(kù)中的知識(shí),由業(yè)務(wù)人員歸納、總結(jié),由管理員進(jìn)行維護(hù)。知識(shí)采用優(yōu)選采用問題歸約法表述,從關(guān)聯(lián)目標(biāo)出發(fā),逆向推理,通過變換把初始問題變換為子問題集合和子子問題集合,直至最后歸約為一個(gè)平凡的本原問題集合。知識(shí)同樣存在生命周期的問題,分為測(cè)試、活動(dòng)、凍結(jié)、失效等階段,測(cè)試期主要由業(yè)務(wù)人員控制,確認(rèn)關(guān)聯(lián)知識(shí)是否有效、是否達(dá)到預(yù)期目標(biāo);確認(rèn)有效后,標(biāo)記知識(shí)為活動(dòng)狀態(tài),關(guān)聯(lián)分析引擎根據(jù)知識(shí),進(jìn)行業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)處理;同任何事物一樣,知識(shí)也有適用性問題,當(dāng)目標(biāo)系統(tǒng)及其關(guān)聯(lián)系統(tǒng)發(fā)生變更時(shí),管理員把知識(shí)調(diào)整為凍結(jié)狀態(tài),由業(yè)務(wù)人員對(duì)知識(shí)的有效進(jìn)行確認(rèn)和調(diào)整;當(dāng)涉及知識(shí)的模塊或系統(tǒng)停止服務(wù)時(shí),知識(shí)已不適用,即調(diào)整為失效狀態(tài)。
[0035]在業(yè)務(wù)分析和關(guān)聯(lián)分析時(shí),優(yōu)選采用分布式處理算法,由任務(wù)調(diào)度主機(jī)和任務(wù)處理主機(jī)協(xié)作完成。首先,對(duì)業(yè)務(wù)分析和關(guān)聯(lián)分析的任務(wù),在調(diào)度主機(jī)上建立任務(wù)列表,任務(wù)處理主機(jī)向調(diào)度主機(jī)提交申請(qǐng),由調(diào)度主機(jī)分派任務(wù),任務(wù)處理主機(jī)完成工作后,提交處理結(jié)果,調(diào)度主機(jī)對(duì)處理情況時(shí)行確認(rèn)。調(diào)度主機(jī)除負(fù)責(zé)任務(wù)調(diào)度外,還負(fù)責(zé)監(jiān)控各任務(wù)處理主機(jī)的運(yùn)行狀態(tài),當(dāng)任務(wù)處理主機(jī)出現(xiàn)異常、性能降低時(shí),調(diào)度主機(jī)收回任務(wù),改由其它任務(wù)處理主機(jī)完成;同時(shí),調(diào)度主機(jī)還負(fù)責(zé)任務(wù)的分解及子任務(wù)時(shí)序管理,當(dāng)一個(gè)任務(wù)被解為可計(jì)算的子任務(wù)時(shí),子任務(wù)間存在并行和串行兩種關(guān)系,對(duì)于串行關(guān)系,由調(diào)度主機(jī)負(fù)責(zé),只有在前序任務(wù)已完成的情況下,才分配后序任務(wù)。為保證任務(wù)處理的一致性和連續(xù)性,我們?cè)谌蝿?wù)處理中引入狀態(tài)機(jī)概念,任務(wù)狀態(tài)分為準(zhǔn)備、就序、處理、完成、收回等五個(gè)狀態(tài),任務(wù)信息及其狀態(tài)以數(shù)據(jù)庫(kù)存儲(chǔ)。分布式任務(wù)處理支持系統(tǒng)進(jìn)行事務(wù)性恢復(fù),當(dāng)系統(tǒng)出現(xiàn)斷電等情況時(shí),重新啟動(dòng)后,調(diào)度機(jī)會(huì)根據(jù)數(shù)據(jù)庫(kù)中任務(wù)的狀態(tài),進(jìn)行回退和恢復(fù)操作,保證系統(tǒng)狀態(tài)的一致性。
[0036]在數(shù)據(jù)存儲(chǔ)方面,本發(fā)明提供統(tǒng)一的存儲(chǔ)接口,生成的數(shù)據(jù)即可以存儲(chǔ)到傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)中,也可以存儲(chǔ)到hadoop之類的分布式系統(tǒng)。這使得后期數(shù)據(jù)挖掘和科學(xué)決策的技術(shù)方式和體系框架更加靈活。各應(yīng)用單位,可以對(duì)生成的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,提取有價(jià)值的業(yè)務(wù)信息,并在此基礎(chǔ)上,通過選用不同的數(shù)學(xué)模型,進(jìn)行量化計(jì)算,為市場(chǎng)預(yù)測(cè)和科學(xué)決策提供事實(shí)依據(jù)。
[0037]如圖3所示,是本發(fā)明在公安系統(tǒng)的一個(gè)詳細(xì)實(shí)施例,在我國(guó),公安系統(tǒng)下設(shè)的現(xiàn)有業(yè)務(wù)系統(tǒng)有60多個(gè),這些業(yè)務(wù)系統(tǒng)絕大部分都是基于http和https的Web應(yīng)用系統(tǒng),它們由不同的警種、總隊(duì)、業(yè)務(wù)處室使用。這些業(yè)務(wù)系統(tǒng)都不能實(shí)現(xiàn)總體聯(lián)通和審計(jì),不能達(dá)到公安部關(guān)于《加強(qiáng)信息系統(tǒng)應(yīng)用審計(jì)的通知》的要求。如果進(jìn)行整改,一部分系統(tǒng)的開發(fā)商已經(jīng)無法聯(lián)系,不具備改造條件;其它系統(tǒng)則都要按照統(tǒng)一的規(guī)則進(jìn)行改造,影響正常業(yè)務(wù)、改造周期長(zhǎng)、成本高。
[0038]本發(fā)明提供的處理系統(tǒng)及其方法采用基本網(wǎng)絡(luò)的架構(gòu),是一種基于網(wǎng)絡(luò)數(shù)據(jù)包(流)的業(yè)務(wù)數(shù)據(jù)審計(jì)和業(yè)務(wù)數(shù)據(jù)深度分析的方法,不需要對(duì)現(xiàn)在信息系統(tǒng)和網(wǎng)絡(luò)進(jìn)行改造,不需要在原有信息系統(tǒng)的服務(wù)器里安裝任何插件或Agent,就可以達(dá)到公安部對(duì)業(yè)務(wù)系統(tǒng)審計(jì)的要求,同時(shí)還提供豐富的數(shù)據(jù)挖掘功能。在本實(shí)施例中,關(guān)聯(lián)分析系統(tǒng)的業(yè)務(wù)審計(jì)功能可以細(xì)化到操作級(jí)別,其元數(shù)據(jù)為:誰、什么時(shí)間、在哪個(gè)系統(tǒng)、進(jìn)行了什么操作、操作內(nèi)容是什么,完全滿足公安部的要求。在審計(jì)功能的基礎(chǔ)上,關(guān)聯(lián)分析系統(tǒng)提供豐富的數(shù)據(jù)挖掘功能,由于數(shù)據(jù)挖掘功能與業(yè)務(wù)結(jié)合緊密,例如:串并案和逃犯關(guān)注排名。
[0039]在關(guān)聯(lián)分析系統(tǒng)之前,對(duì)于一個(gè)案件的串并案工作,主要靠?jī)?nèi)部通報(bào),但由于警種和區(qū)域的限制,串并案的線索來源并不全面。如果使用本發(fā)明提供的關(guān)聯(lián)分析系統(tǒng),某一警員在案件偵破過程中,利用信息系統(tǒng)查詢犯罪嫌疑人或案例相關(guān)人員時(shí),其操作記錄都會(huì)被關(guān)聯(lián)分析系統(tǒng)審計(jì)到。關(guān)聯(lián)分析系統(tǒng)自動(dòng)根據(jù)被查人員的信息,在數(shù)據(jù)倉(cāng)庫(kù)中檢索所有查詢過該人的警員,按照時(shí)間和地域排序,形成案件線索,由內(nèi)部OA系統(tǒng)推送給案件承辦的警員。例如,派出所的A警官處理一起案件,通過網(wǎng)上逃犯庫(kù)中查詢了張三的信息,那么隨后王警官就會(huì)在OA系統(tǒng)中收到一份“案件線索文件”,其中提示“禁毒總隊(duì)的B警官在三天前在禁毒系統(tǒng)中也查詢過張三的信息”。關(guān)聯(lián)分析的具體應(yīng)用串并案自動(dòng)提示功能實(shí)現(xiàn)了跨系統(tǒng)、跨警種、跨地域的線索收集。
[0040]又如,在公安工作中,如何提高辦案效率是公安工作的首要問題。在關(guān)聯(lián)分析系統(tǒng)的逃犯關(guān)注排名,就可以起到探索作用。逃犯關(guān)注排名可以以全國(guó)逃犯庫(kù)為基礎(chǔ)數(shù)據(jù),以本發(fā)明提供的關(guān)聯(lián)分析系統(tǒng)的提取規(guī)則為主要數(shù)據(jù),通過權(quán)值處理算法,對(duì)逃犯進(jìn)行排序,篩選出最受關(guān)注和活躍的逃犯,作為工作的重點(diǎn)。其中,逃犯權(quán)值主要依據(jù)關(guān)注警員職級(jí)、關(guān)注(查詢)次數(shù)、時(shí)間來計(jì)算,如逃犯李四被廳長(zhǎng)在上周查詢過一次,被禁毒總隊(duì)長(zhǎng)在本周查詢過兩次,被基層民警查詢過11次,則其排名靠前,在通報(bào)時(shí)各警種和基層警員都會(huì)把張強(qiáng)作為工作的重點(diǎn)。
[0041]上述技術(shù)方案的描述僅體現(xiàn)了本發(fā)明的優(yōu)選技術(shù)方案,而并不是無遺漏的,很顯然的,基于上述實(shí)施例,本領(lǐng)域的技術(shù)人員很容易了解到本發(fā)明提供的技術(shù)方案還應(yīng)用于政府、公安、交警、財(cái)政、金融、證券、稅務(wù)、電信運(yùn)營(yíng)商、醫(yī)療、衛(wèi)生、保險(xiǎn)、企業(yè)、電力、能源、國(guó)土等各個(gè)行業(yè),或者將本發(fā)明限于所公開的形式?;诒景l(fā)明的實(shí)施例,任何人在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的其他形式的技術(shù)方案,不論其在結(jié)構(gòu)或形式上作出何種變化,均屬于本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)預(yù)處理單元,其特征在于,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個(gè)任務(wù)處理模塊,其中, 任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài); 任務(wù)處理模塊包括: 管理器,用于同任務(wù)調(diào)度模塊進(jìn)行數(shù)據(jù)交換,并監(jiān)控任務(wù)處理模塊的系統(tǒng)資源和任務(wù)執(zhí)行進(jìn)度; 應(yīng)用協(xié)議解析引擎,根據(jù)任務(wù)指令接收網(wǎng)絡(luò)數(shù)據(jù)包并進(jìn)行解析、整合,形成網(wǎng)絡(luò)數(shù)據(jù)包; 以及業(yè)務(wù)數(shù)據(jù)過濾引擎,接收應(yīng)用協(xié)議解析引擎?zhèn)鬏斶^來的網(wǎng)絡(luò)數(shù)據(jù)包,并過濾掉非網(wǎng)絡(luò)數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的預(yù)處理單元,其特征在于,任務(wù)調(diào)度模塊將任務(wù)分解成子任務(wù)以分配給多個(gè)任務(wù)處理模塊,子任務(wù)的處理分為串行處理和并行處理。
3.根據(jù)權(quán)利要求2所述的預(yù)處理單元,其特征在于,任務(wù)和子任務(wù)的運(yùn)行狀態(tài)包括準(zhǔn)備、就序、處理、完成以及收回。
4.一種利用權(quán)利要求1-3任一項(xiàng)所述預(yù)處理單元的數(shù)據(jù)處理系統(tǒng),其特征在于,該系統(tǒng)包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲(chǔ)單元以及預(yù)處理單元,其中, 網(wǎng)絡(luò)接收單元,用以接收網(wǎng)絡(luò)數(shù)據(jù)包;` 處理單元,接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,根據(jù)業(yè)務(wù)信息提取規(guī)則對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行關(guān)聯(lián)分析以生成處理結(jié)果; 維護(hù)單元,對(duì)業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新; 存儲(chǔ)單元,存儲(chǔ)業(yè)務(wù)信息提取規(guī)則以及業(yè)務(wù)信息。
5.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,處理單元接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,并處理以形成包括請(qǐng)求人、請(qǐng)求時(shí)間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)的元數(shù)據(jù)并存入業(yè)務(wù)信息。
6.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,網(wǎng)絡(luò)接收單元包括網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng),網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)用于監(jiān)控用戶狀態(tài)以確認(rèn)是否允許用戶數(shù)據(jù)通過,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)根據(jù)預(yù)設(shè)抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包。
7.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,存儲(chǔ)單元以統(tǒng)一的存儲(chǔ)接口集成數(shù)據(jù)庫(kù)管理系統(tǒng)和分布式存儲(chǔ)架構(gòu)。
8.一種數(shù)據(jù)處理方法,其特征在于,包括以下步驟: 801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識(shí)別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫(kù); 802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請(qǐng)求人、請(qǐng)求時(shí)間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)據(jù); 803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫(kù)中讀取提取規(guī)則; 804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
9.根據(jù)權(quán)利要求8所述的處理方法,其特征在于,規(guī)則庫(kù)中的業(yè)務(wù)信息提取規(guī)則的狀態(tài)分為測(cè)試、活動(dòng)、凍結(jié)、失效四個(gè)階段。
10.根據(jù)權(quán)利要求8所述的處理方法,其特征在于,規(guī)則庫(kù)還包括規(guī)則定義、規(guī)則有效性驗(yàn)證以及規(guī)則管理。`
【文檔編號(hào)】H04L29/06GK103701783SQ201310689819
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月17日 優(yōu)先權(quán)日:2013年12月17日
【發(fā)明者】邵永剛, 范仲偉, 李穎 申請(qǐng)人:沈陽(yáng)覺醒軟件有限公司