国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種流量數(shù)據(jù)篩選方法和裝置的制造方法_2

      文檔序號:8415438閱讀:來源:國知局
      taSharingServer)
      [0044]DPS:分發(fā)處理服務(wù)器(DistributeProcessingServer)
      [0045]CAS:關(guān)聯(lián)分析服務(wù)器(CorrelationAnalysisServer)
      [0046]UDS:用戶數(shù)據(jù)服務(wù)器(UserDatabaseServer)
      [0047]MES:適配服務(wù)器(MediationServer)
      [0048]APP:SERVERAPP服務(wù)器(ApplicationServer)
      [0049] 本發(fā)明針對由于應(yīng)用軟件心跳機(jī)制和用戶上網(wǎng)流量流速信息來源的不同和衡量 口徑的差異,收集的數(shù)據(jù)可能是分散、冗余或非結(jié)構(gòu)化的,甚至可能是不準(zhǔn)確、不完全或不 一致的"臟數(shù)據(jù)"(DirtyData)。對于語法(Syntactical)、語義(Semantic)方面的數(shù)據(jù)異 常(DataAnomalies),可以通過分解(Parsing)、轉(zhuǎn)換(Transformation)、完整性約束強(qiáng)制 (IntegrityConstraintEnforcement)、重復(fù)消除(DuplicateElimination)和統(tǒng)計(jì)方法(StatisticalMethods)等數(shù)據(jù)清理手段,處理形成相對完整的內(nèi)部數(shù)據(jù)庫;對于范圍異常 (CoverageAnomalies)和業(yè)務(wù)價值缺陷,貝U需要進(jìn)一步引入標(biāo)準(zhǔn)規(guī)則(BusinessRules)、 系統(tǒng)標(biāo)準(zhǔn)(SystemStandards),結(jié)合外部數(shù)據(jù)源進(jìn)行更深入的數(shù)據(jù)處理。
      [0050] 本發(fā)明的技術(shù)核心就是建立一種流量數(shù)據(jù)篩選方法,將應(yīng)用軟件心跳機(jī)制流量分 析與系統(tǒng)內(nèi)置數(shù)據(jù)校驗(yàn)機(jī)制相結(jié)合,篩選出在采集或傳輸過程中出錯的數(shù)據(jù),避免對后續(xù) 的計(jì)算結(jié)果產(chǎn)生影響。使SEQAnalyst的多接口的關(guān)聯(lián)準(zhǔn)確性高于99%,來實(shí)現(xiàn)"原始數(shù) 據(jù)一分析變量一客戶檔案一推薦系統(tǒng)"(Data-Variable-Profile-System,DVPS)流程。
      [0051] 其中,能夠適配的數(shù)據(jù)源包括探針的xDR數(shù)據(jù)、EMS系統(tǒng)的Counter數(shù)據(jù)、PM系統(tǒng) 性能數(shù)據(jù)、FM系統(tǒng)的告警數(shù)據(jù)、CRM系統(tǒng)的用戶列表數(shù)據(jù)等;Mediation能夠支持流式接入 以及文件接入,接入格式支持ASCII以及CSV,并能按需快速定制接入其他數(shù)據(jù)格式。
      [0052] 應(yīng)用軟件心跳機(jī)制流量分析是通過語義分析、自動聚類、模式識別、知識管理、行 為分析及人工智能等技術(shù)實(shí)現(xiàn)信息的精確傳遞。歸納而言,應(yīng)用軟件心跳機(jī)制流量分析的 通常路徑是:利用數(shù)據(jù)自動收集、行為特征分析、關(guān)聯(lián)規(guī)則挖掘等技術(shù)形成全方位、多視角 的數(shù)據(jù)源,通過建立和實(shí)施高效的流量流速分析數(shù)據(jù)質(zhì)量檢驗(yàn)字典庫系統(tǒng),實(shí)現(xiàn)對手機(jī)惡 意軟件、應(yīng)用軟件引發(fā)的網(wǎng)絡(luò)攻擊事件的分析和定位與圖形展示。
      [0053]如圖3所示,本發(fā)明的應(yīng)用軟件心跳機(jī)制流量分析的流稈何括:
      [0054]a、數(shù)據(jù)詵?。―ataSelection):自流量數(shù)據(jù)報(bào)文(包括用戶信息)抽取、信息拆 解-應(yīng)用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟蹤、心跳頻率、心跳機(jī)制IP包等各種數(shù)據(jù)中隨機(jī)抽取部 分?jǐn)?shù)據(jù)作為標(biāo)簽數(shù)據(jù),具體包括:
      [0055] 步驟102:依靠探針通過分析端口的方法獲取少量各應(yīng)用的標(biāo)簽數(shù)據(jù),該標(biāo)簽數(shù) 據(jù)為自流量數(shù)據(jù)報(bào)文(包括用戶信息)抽取、信息拆解-應(yīng)用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟蹤、 心跳頻率、心跳機(jī)制IP包等各種數(shù)據(jù)中隨機(jī)抽取的部分?jǐn)?shù)據(jù),上述標(biāo)簽數(shù)據(jù)可轉(zhuǎn)化為對上 述數(shù)據(jù):流量數(shù)據(jù)報(bào)文(包括用戶信息)抽取、信息拆解-應(yīng)用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟 蹤、心跳頻率、心跳機(jī)制IP包等的約束信息。
      [0056] 其中,成對的約束信息分為兩部分:
      [0057] (l)Must-retention,兩個點(diǎn)必須屬同一類,可用集合M={(ei,ej)}表示;
      [0058] (2)Cannot-retention,兩個點(diǎn)必須屬不同類,可用集合C={(ei,ej)}表示。
      [0059] 步驟104:利用上述標(biāo)簽數(shù)據(jù)對流量數(shù)據(jù)報(bào)文(包括用戶信息)抽取、信息拆解-應(yīng) 用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟蹤、心跳頻率、心跳機(jī)制IP包的單個數(shù)據(jù)子集e'i的約束信 息進(jìn)行半監(jiān)督聚類處理。
      [0060] 在步驟104中,半監(jiān)督聚類為對樣本約束傳遞性進(jìn)行預(yù)處理,表現(xiàn)為反映樣本間 相似關(guān)系的約束條件,將約束條件作為聚類目標(biāo)的一部分直接作用的聚類算法。其中,約束 條件的定義:兩個樣本屬于同一類為必須保留,不屬于同一類的則為不能保留。
      [0061] 具體地,步驟104具體包括:
      [0062] 步驟1042:對先驗(yàn)信息中滿足Must-retention約束的數(shù)據(jù)對(ei,ej)設(shè)置相似 性度量值:s(i,j)=0&s(j,i)=l。
      [0063] 其中,先驗(yàn)信息為獲得數(shù)據(jù)樣本的試驗(yàn)之前獲得的經(jīng)驗(yàn)數(shù)據(jù)和歷史資料數(shù)據(jù)。
      [0064]步驟1044:對先驗(yàn)信息中滿足Cannot-retention約束的數(shù)據(jù)對(ei,ej)設(shè)置相 似性度量值:S(i,j)=0&s(j,i)=0。
      [0065] 步驟1046:對不包含在先驗(yàn)信息中的數(shù)據(jù)對的相似度進(jìn)行調(diào)整: (ei ,ej (M U C}^>s(i, j) = max(s(i, j),s(i,k)+s(k, j))〇
      [0066] 步驟1048:在Cannot-retention集中對步驟1046中的調(diào)整結(jié)果進(jìn)行局部修正。
      [0067] 其中,考慮流量數(shù)據(jù)局部效應(yīng)可以使流量數(shù)據(jù)計(jì)算結(jié)果更為準(zhǔn)確。在進(jìn)行大型復(fù) 雜結(jié)構(gòu)的流量數(shù)據(jù)分析時,通過考慮局部效應(yīng),可在計(jì)算模型大大簡化的同時,獲得較為精 確的計(jì)算結(jié)果。
      [0068] 步驟106:將修正后的流量數(shù)據(jù)報(bào)文(包括用戶信息)抽取、信息拆解-應(yīng)用業(yè)務(wù)識 另IJ、心跳機(jī)制粗細(xì)跟蹤、心跳頻率、心跳機(jī)制IP包等數(shù)據(jù)送入數(shù)據(jù)倉庫。
      [0069]b、數(shù)據(jù)集成(DataIntegrity):由存儲在數(shù)據(jù)倉庫內(nèi)的多維數(shù)據(jù)關(guān)聯(lián)終端流量流 速與應(yīng)用分析數(shù)據(jù)源、多維數(shù)據(jù)關(guān)聯(lián)熱門應(yīng)用分析數(shù)據(jù)庫數(shù)據(jù)源、多維數(shù)據(jù)關(guān)聯(lián)流量流速 定向分析數(shù)據(jù)庫數(shù)據(jù)源、多維數(shù)據(jù)關(guān)聯(lián)客戶分析數(shù)據(jù)源組成:
      [0070] 步驟202:上述數(shù)據(jù)源中的各種數(shù)據(jù)實(shí)體映射成虛擬數(shù)據(jù)層中的表,虛擬數(shù)據(jù)層 中的表都只有元數(shù)據(jù),而不存儲實(shí)際的生產(chǎn)數(shù)據(jù)。
      [0071] 步驟204:在虛擬數(shù)據(jù)層上采用可視化圖形界面定義數(shù)據(jù)映射關(guān)系,進(jìn)行數(shù)據(jù)加 工整合,這些數(shù)據(jù)加工邏輯一般會以文件或者數(shù)據(jù)庫方式存儲。
      [0072] 步驟204具體包括:
      [0073] 步驟2042:對數(shù)據(jù)按照S0A架構(gòu)的需要進(jìn)行整合加工形成可用的信息;
      [0074] 步驟2044:將信息以符合S0A規(guī)范的方式發(fā)布出去,具體的實(shí)時數(shù)據(jù)集成模式可 以按照對這兩個處理過程的不同分為以下處理方式:
      [0075] 在中間件層上進(jìn)行數(shù)據(jù)的加工整合,同時通過中間件層的標(biāo)準(zhǔn)接口將整合后的數(shù) 據(jù)以標(biāo)準(zhǔn)接口發(fā)布;
      [0076] 在中間層上存在一個虛擬的數(shù)據(jù)服務(wù)層,該層通過JDBC,F(xiàn)ILE適配器、應(yīng)用適配 器等與數(shù)據(jù)層的各種數(shù)據(jù)源實(shí)現(xiàn)連接,將數(shù)據(jù)源中的各種數(shù)據(jù)實(shí)體映射成中間件的虛擬數(shù) 據(jù)層的表,虛擬數(shù)據(jù)層中的表都只有元數(shù)據(jù),而不存儲實(shí)際的生產(chǎn)數(shù)據(jù)。
      [0077] 步驟206 :定義好的數(shù)據(jù)可以通過web service、JDBC、數(shù)據(jù)對象等多種方式發(fā)布 出去,供數(shù)據(jù)整理調(diào)取使用。
      [0078]c、數(shù)據(jù)整理(DataCleansing):由數(shù)據(jù)質(zhì)量檢驗(yàn)、質(zhì)量缺陷確認(rèn)、數(shù)據(jù)返工組成。 數(shù)據(jù)質(zhì)量檢驗(yàn)是依據(jù)實(shí)時數(shù)據(jù)庫RMS中定義的各數(shù)據(jù)質(zhì)量要求,通過判斷,對數(shù)據(jù)與質(zhì)量 要求的符合性進(jìn)行評價,并將數(shù)據(jù)質(zhì)量檢驗(yàn)操作記錄在實(shí)時數(shù)據(jù)庫RMS中:
      [0079] 步驟302:單數(shù)據(jù)源數(shù)據(jù)質(zhì)量檢驗(yàn):數(shù)據(jù)質(zhì)量檢驗(yàn)對流量數(shù)據(jù)報(bào)文(包括用戶信 息)抽取、信息拆解-應(yīng)用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟蹤、心跳頻率、心跳機(jī)制IP包的單數(shù)據(jù) 源數(shù)據(jù)質(zhì)量共有4種問題類型:(1)數(shù)據(jù)本身錯誤;(2)數(shù)據(jù)冗余和重復(fù);(3)數(shù)據(jù)之間關(guān) 聯(lián)錯誤;(4)數(shù)據(jù)庫模式設(shè)計(jì)不完善,缺乏一些完整的約束機(jī)制對數(shù)據(jù)進(jìn)行質(zhì)量檢驗(yàn)。
      [0080] 步驟304:多數(shù)據(jù)源數(shù)據(jù)質(zhì)量檢驗(yàn):數(shù)據(jù)質(zhì)量檢驗(yàn)對流量數(shù)據(jù)報(bào)文(包括用戶信 息)抽取、信息拆解-應(yīng)用業(yè)務(wù)識別、心跳機(jī)制粗細(xì)跟蹤、心跳頻率、心跳機(jī)制IP包的多數(shù)據(jù) 源的數(shù)據(jù)交互集成時的數(shù)據(jù)質(zhì)量共有2種問題類型:(1)異構(gòu)的數(shù)據(jù)模式?jīng)_突,可以分為名 字沖突和結(jié)構(gòu)沖突兩種;(2)數(shù)據(jù)語義不一致。
      [0081] 步驟306 :對不滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)質(zhì)量缺陷進(jìn)行確認(rèn)。
      [0082] 數(shù)據(jù)返工是對有質(zhì)量缺陷的數(shù)據(jù)采取措施,使其符合質(zhì)量
      當(dāng)前第2頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1