本發(fā)明涉及電力應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng),主要適用于實現(xiàn)數(shù)據(jù)采集、監(jiān)控和分析,以及時幫助解決故障。
背景技術(shù):
隨著近幾年云數(shù)據(jù)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,國家電網(wǎng)公司正逐步將分散在各區(qū)域、省公司的業(yè)務(wù)系統(tǒng)集中一級部署,這種方式大大的降低了系統(tǒng)建設(shè)投資,提高了業(yè)務(wù)系統(tǒng)運(yùn)維效率,同時也給分部及省級運(yùn)維人員的管理工作帶來了新的挑戰(zhàn)。對于一級部署的業(yè)務(wù)系統(tǒng),由于系統(tǒng)核心服務(wù)器部署在總部,分部及省級運(yùn)維人員針對終端用戶反應(yīng)的網(wǎng)絡(luò)中斷、應(yīng)用慢、系統(tǒng)宕機(jī)等問題根本無從定位。而對于現(xiàn)有二級部署的業(yè)務(wù)系統(tǒng),由于網(wǎng)絡(luò)設(shè)備、服務(wù)器、軟件應(yīng)用系統(tǒng)等越來越多,錯綜復(fù)雜的關(guān)聯(lián)關(guān)系,使得應(yīng)用系統(tǒng)精細(xì)化運(yùn)維也面臨著前所未有的挑戰(zhàn)。各分部、省公司由于地域、網(wǎng)絡(luò)配置、管理運(yùn)維等因素的差異,導(dǎo)致終端用戶對網(wǎng)絡(luò)中斷、應(yīng)用卡頓、響應(yīng)速度慢等問題無從定位,影響最終用戶的應(yīng)用體驗。同時,現(xiàn)有二級部署的業(yè)務(wù)系統(tǒng)也缺乏相應(yīng)的應(yīng)用系統(tǒng)精細(xì)化運(yùn)維的工具和手段。
典型的案例有以下兩個:某地區(qū)的協(xié)同辦公系統(tǒng)使用時非常慢,要等好幾分鐘,嚴(yán)重影響日常辦公,而分部的協(xié)同辦公系統(tǒng)是國網(wǎng)一級部署,信息運(yùn)維人員需要與國網(wǎng)協(xié)同辦公系統(tǒng)運(yùn)維服務(wù)中心的相關(guān)人員進(jìn)行聯(lián)合調(diào)試,由于地理空間的隔離、運(yùn)維流程不通暢以及必要診斷工具的缺失,該問題的原因定位困難,反饋時間長和服務(wù)體驗非常差,最終在一定程度上提高了系統(tǒng)的響應(yīng)時長;某分部員工在使用經(jīng)濟(jì)法律系統(tǒng)(經(jīng)濟(jì)法律系統(tǒng)部署在該分部所屬地)的時候,反映經(jīng)濟(jì)法律系統(tǒng)中的某一個模塊響應(yīng)非常慢。經(jīng)濟(jì)法律系統(tǒng)運(yùn)維管理員解決問題的過程非常冗長:先與網(wǎng)絡(luò)管理員溝通,確保該用戶終端的網(wǎng)絡(luò)沒有問題,再排查經(jīng)濟(jì)法律系統(tǒng)是整體都比較慢,還是僅僅是該模塊比較慢,發(fā)現(xiàn)確實只有該模塊比較慢,然后去查看中間件所在主機(jī)以及中間件本身的負(fù)載情況,最終定位到是由于該模塊對數(shù)據(jù)庫的查詢SQL語句設(shè)計不合理,隨著數(shù)據(jù)的增多,該SQL語句執(zhí)行效率越來越低,最終導(dǎo)致該模塊的使用越來越慢。整個診斷過程沒有工具支撐,問題定位只能靠運(yùn)維人員的自身經(jīng)驗一點一點慢慢排查。這些情況的發(fā)生,給一級部署和二級部署系統(tǒng)的運(yùn)維方式以及運(yùn)維手段方面的短板敲響了警鐘。
針對一級部署的業(yè)務(wù)系統(tǒng),分部及省級運(yùn)維人員雖然不需要將關(guān)注點放在系統(tǒng)硬件故障以及應(yīng)用軟件故障上,但需要從終端用戶的應(yīng)用體驗角度分析網(wǎng)絡(luò)及應(yīng)用性能,譬如,HTTP錯誤、服務(wù)器響應(yīng)時間等信息,為分部及省級運(yùn)維人員提供一個真實的、可量化的應(yīng)用系統(tǒng)性能實時監(jiān)控分析數(shù)據(jù),以幫助實現(xiàn)應(yīng)用故障的預(yù)判、分析和定位。通過對電力行業(yè)相關(guān)規(guī)范的了解以及資料的檢索,發(fā)現(xiàn)電力行業(yè)并沒有針對應(yīng)用系統(tǒng)應(yīng)用感知和性能分析的專用平臺或工具。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的故障預(yù)判、分析和定位困難的缺陷與問題,提供一種可以實現(xiàn)數(shù)據(jù)采集、監(jiān)控和分析,幫助及時解決故障的基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng)。
為實現(xiàn)以上目的,本發(fā)明的技術(shù)解決方案是:一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng),該監(jiān)控系統(tǒng)包括數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊、應(yīng)用呈現(xiàn)模塊;
所述數(shù)據(jù)采集探針模塊,用于將業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)鏡像到數(shù)據(jù)采集探針的主機(jī)內(nèi),并對業(yè)務(wù)系統(tǒng)的應(yīng)用性能指標(biāo)進(jìn)行提取、計算及展現(xiàn);
所述數(shù)據(jù)引擎服務(wù)模塊,用于對數(shù)據(jù)采集探針進(jìn)行管理和任務(wù)調(diào)度,以及對從數(shù)據(jù)采集探針獲取的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)流量分析處理和協(xié)議還原處理;
所述應(yīng)用服務(wù)模塊,用于對數(shù)據(jù)引擎服務(wù)模塊處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過訪客IP、訪問量、響應(yīng)時間、業(yè)務(wù)返回碼、請求URL、后臺SQL語句進(jìn)行分類統(tǒng)計分析;
所述應(yīng)用呈現(xiàn)模塊,用于根據(jù)應(yīng)用服務(wù)模塊統(tǒng)計的數(shù)據(jù)分析結(jié)果,從用戶體驗可視化、網(wǎng)絡(luò)流量可視化、應(yīng)用性能可視化三個方面對業(yè)務(wù)系統(tǒng)的應(yīng)用性能進(jìn)行全面呈現(xiàn)。
所述數(shù)據(jù)采集探針模塊包括多個數(shù)據(jù)采集探針,數(shù)據(jù)采集探針分布式部署在業(yè)務(wù)系統(tǒng)的核心交換設(shè)備上或網(wǎng)絡(luò)出口處。
所述核心交換設(shè)備包括交換機(jī)。
所述數(shù)據(jù)引擎服務(wù)模塊包括任務(wù)調(diào)度引擎、沖突檢測引擎、流量分析引擎、協(xié)議還原引擎以及報表引擎;
所述任務(wù)調(diào)度引擎,用于對檢測任務(wù)進(jìn)行調(diào)度;
所述沖突檢測引擎,用于對檢測任務(wù)進(jìn)行沖突檢測;
所述流量分析引擎,用于通過L4層流量分析技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析處理;
所述協(xié)議還原引擎,用于通過L7層協(xié)議還原技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行協(xié)議還原處理;
所述報表引擎,用于根據(jù)處理結(jié)果生成報表。
所述應(yīng)用服務(wù)模塊包括指標(biāo)計算與存儲模塊、應(yīng)用組件關(guān)聯(lián)分析模塊以及故障智能分析模塊;
所述指標(biāo)計算與存儲模塊,用于對應(yīng)用性能分析指標(biāo)進(jìn)行計算與分析會話進(jìn)行存儲;
所述應(yīng)用組件關(guān)聯(lián)分析模塊,用于對業(yè)務(wù)系統(tǒng)的各獨(dú)立組件的性能分析結(jié)果進(jìn)行關(guān)聯(lián);
所述故障智能分析模塊,用于對故障點進(jìn)行定位。
所述應(yīng)用呈現(xiàn)模塊包括用戶體驗可視化模塊、網(wǎng)絡(luò)流量可視化模塊以及應(yīng)用性能可視化模塊;
所述用戶體驗可視化模塊,是指以Apdex應(yīng)用性能指數(shù)、平均響應(yīng)時間為指標(biāo),從用戶所屬地理位置、所屬網(wǎng)段、操作系統(tǒng)、瀏覽器、時間分布以及訪問次數(shù)多個角度反映最終用戶體驗指標(biāo),并定位故障影響的用戶范圍;
所述網(wǎng)絡(luò)流量可視化模塊,用于查看業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù)、分析網(wǎng)絡(luò)流量中的攻擊流量、對網(wǎng)絡(luò)流量中的異常操作流量進(jìn)行統(tǒng)計和操作還原;
所述應(yīng)用性能可視化模塊,是指在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系,并實時呈現(xiàn)各業(yè)務(wù)組件的關(guān)鍵性能指標(biāo),以及定位各業(yè)務(wù)組件時段內(nèi)的運(yùn)行情況。
所述Apdex應(yīng)用性能指數(shù)的測算是指,Apdex對應(yīng)用中發(fā)生的任務(wù)進(jìn)行采樣,按其響應(yīng)時間把采樣劃分到相應(yīng)的滿意度區(qū)間并計數(shù)后通過Apdex指數(shù)公式進(jìn)行測算,所述滿意度區(qū)間包括滿意、容忍、失望,所述Apdex指數(shù)公式為:Apdex指數(shù)=(1×滿意樣本個數(shù)+0.5×容忍樣本個數(shù))÷樣本總數(shù),其中,一個滿意樣本得分為1,一個容忍樣本得分為0.5,一個失望樣本得分為0。
所述網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù),包括總流量、總數(shù)據(jù)包、響應(yīng)延時、響應(yīng)時延峰值、連接成功或連接失敗次數(shù)、異常關(guān)閉連接數(shù)、發(fā)送TCP零窗口次數(shù)、發(fā)送錯包率、發(fā)送或接受流量速率;
所述攻擊流量,包括系統(tǒng)溢出攻擊、DDOS攻擊、SQL注入攻擊、跨站腳步攻擊、暴力破解攻擊;
所述異常操作流量,包括對包含敏感信息頁面的頻繁訪問、異常時間訪問。
所述在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系是指:通過對網(wǎng)絡(luò)數(shù)據(jù)包3–7層深入分析,結(jié)合應(yīng)用邏輯拓?fù)浣Y(jié)構(gòu),在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系;
所述關(guān)鍵性能指標(biāo),包括關(guān)鍵URL請求時長、關(guān)鍵SQL語句執(zhí)行時長;
所述定位各業(yè)務(wù)組件時段內(nèi)的運(yùn)行情況是指:通過時間軸技術(shù),對近一個月內(nèi)的每分鐘運(yùn)行情況進(jìn)行定位。
所述數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊和應(yīng)用呈現(xiàn)模塊采用松耦合的方式,通過API接口連接。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
由于本發(fā)明一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng)中該監(jiān)控系統(tǒng)包括數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊、應(yīng)用呈現(xiàn)模塊,數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊和應(yīng)用呈現(xiàn)模塊采用松耦合的方式,通過API接口連接,這樣的設(shè)計能夠?qū)崿F(xiàn)多因素關(guān)聯(lián)分析,不僅包括鏈路質(zhì)量、流量分布、硬件、系統(tǒng)性能分析,還包括前臺數(shù)據(jù)請求、后臺數(shù)據(jù)查詢等性能監(jiān)控,實現(xiàn)對整體業(yè)務(wù)處理過程的性能分析,快速確認(rèn)故障,減少和避免“應(yīng)用不可用”和“應(yīng)用太慢”的性能問題;同時,本系統(tǒng)采用智能旁路監(jiān)聽分析技術(shù),實現(xiàn)完全Agentless,無需在應(yīng)用服務(wù)器和用戶端安裝插件,不會對當(dāng)前架構(gòu)造成任何影響,在獲得用戶真實網(wǎng)絡(luò)訪問行為的相關(guān)數(shù)據(jù)包后,通過數(shù)據(jù)包解包及7層應(yīng)用協(xié)議深度解碼技術(shù),實現(xiàn)網(wǎng)絡(luò)及應(yīng)用性能的監(jiān)控與故障定位;另外,本系統(tǒng)基于先進(jìn)的網(wǎng)絡(luò)數(shù)據(jù)包協(xié)議還原技術(shù),充分利用網(wǎng)絡(luò)鏡像數(shù)據(jù)包,幫助企業(yè)IT部門從網(wǎng)絡(luò)流量分析和應(yīng)用系統(tǒng)視角出發(fā),建立全方位的應(yīng)用性能管理監(jiān)控平臺,基于網(wǎng)絡(luò)數(shù)據(jù)包協(xié)議還原技術(shù)的端到端性能分析可對一次業(yè)務(wù)交互的1–6個關(guān)鍵節(jié)點進(jìn)行性能關(guān)聯(lián)分析。因此,本發(fā)明不僅可以實現(xiàn)數(shù)據(jù)采集、監(jiān)控和分析,幫助及時解決故障,而且操作簡便、可靠性高。
附圖說明
圖1是本發(fā)明的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖說明和具體實施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。
參見圖1,一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng),該監(jiān)控系統(tǒng)包括數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊、應(yīng)用呈現(xiàn)模塊;
所述數(shù)據(jù)采集探針模塊,用于將業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)鏡像到數(shù)據(jù)采集探針的主機(jī)內(nèi),并對業(yè)務(wù)系統(tǒng)的應(yīng)用性能指標(biāo)進(jìn)行提取、計算及展現(xiàn);
所述數(shù)據(jù)引擎服務(wù)模塊,用于對數(shù)據(jù)采集探針進(jìn)行管理和任務(wù)調(diào)度,以及對從數(shù)據(jù)采集探針獲取的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)流量分析處理和協(xié)議還原處理;
所述應(yīng)用服務(wù)模塊,用于對數(shù)據(jù)引擎服務(wù)模塊處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過訪客IP、訪問量、響應(yīng)時間、業(yè)務(wù)返回碼、請求URL、后臺SQL語句進(jìn)行分類統(tǒng)計分析;
所述應(yīng)用呈現(xiàn)模塊,用于根據(jù)應(yīng)用服務(wù)模塊統(tǒng)計的數(shù)據(jù)分析結(jié)果,從用戶體驗可視化、網(wǎng)絡(luò)流量可視化、應(yīng)用性能可視化三個方面對業(yè)務(wù)系統(tǒng)的應(yīng)用性能進(jìn)行全面呈現(xiàn)。
所述數(shù)據(jù)采集探針模塊包括多個數(shù)據(jù)采集探針,數(shù)據(jù)采集探針分布式部署在業(yè)務(wù)系統(tǒng)的核心交換設(shè)備上或網(wǎng)絡(luò)出口處。
所述核心交換設(shè)備包括交換機(jī)。
所述數(shù)據(jù)引擎服務(wù)模塊包括任務(wù)調(diào)度引擎、沖突檢測引擎、流量分析引擎、協(xié)議還原引擎以及報表引擎;
所述任務(wù)調(diào)度引擎,用于對檢測任務(wù)進(jìn)行調(diào)度;
所述沖突檢測引擎,用于對檢測任務(wù)進(jìn)行沖突檢測;
所述流量分析引擎,用于通過L4層流量分析技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析處理;
所述協(xié)議還原引擎,用于通過L7層協(xié)議還原技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行協(xié)議還原處理;
所述報表引擎,用于根據(jù)處理結(jié)果生成報表。
所述應(yīng)用服務(wù)模塊包括指標(biāo)計算與存儲模塊、應(yīng)用組件關(guān)聯(lián)分析模塊以及故障智能分析模塊;
所述指標(biāo)計算與存儲模塊,用于對應(yīng)用性能分析指標(biāo)進(jìn)行計算與分析會話進(jìn)行存儲;
所述應(yīng)用組件關(guān)聯(lián)分析模塊,用于對業(yè)務(wù)系統(tǒng)的各獨(dú)立組件的性能分析結(jié)果進(jìn)行關(guān)聯(lián);
所述故障智能分析模塊,用于對故障點進(jìn)行定位。
所述應(yīng)用呈現(xiàn)模塊包括用戶體驗可視化模塊、網(wǎng)絡(luò)流量可視化模塊以及應(yīng)用性能可視化模塊;
所述用戶體驗可視化模塊,是指以Apdex應(yīng)用性能指數(shù)、平均響應(yīng)時間為指標(biāo),從用戶所屬地理位置、所屬網(wǎng)段、操作系統(tǒng)、瀏覽器、時間分布以及訪問次數(shù)多個角度反映最終用戶體驗指標(biāo),并定位故障影響的用戶范圍;
所述網(wǎng)絡(luò)流量可視化模塊,用于查看業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù)、分析網(wǎng)絡(luò)流量中的攻擊流量、對網(wǎng)絡(luò)流量中的異常操作流量進(jìn)行統(tǒng)計和操作還原;
所述應(yīng)用性能可視化模塊,是指在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系,并實時呈現(xiàn)各業(yè)務(wù)組件的關(guān)鍵性能指標(biāo),以及定位各業(yè)務(wù)組件時段內(nèi)的運(yùn)行情況。
所述Apdex應(yīng)用性能指數(shù)的測算是指,Apdex對應(yīng)用中發(fā)生的任務(wù)進(jìn)行采樣,按其響應(yīng)時間把采樣劃分到相應(yīng)的滿意度區(qū)間并計數(shù)后通過Apdex指數(shù)公式進(jìn)行測算,所述滿意度區(qū)間包括滿意、容忍、失望,所述Apdex指數(shù)公式為:Apdex指數(shù)=(1×滿意樣本個數(shù)+0.5×容忍樣本個數(shù))÷樣本總數(shù),其中,一個滿意樣本得分為1,一個容忍樣本得分為0.5,一個失望樣本得分為0。
所述網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù),包括總流量、總數(shù)據(jù)包、響應(yīng)延時、響應(yīng)時延峰值、連接成功或連接失敗次數(shù)、異常關(guān)閉連接數(shù)、發(fā)送TCP零窗口次數(shù)、發(fā)送錯包率、發(fā)送或接受流量速率;
所述攻擊流量,包括系統(tǒng)溢出攻擊、DDOS攻擊、SQL注入攻擊、跨站腳步攻擊、暴力破解攻擊;
所述異常操作流量,包括對包含敏感信息頁面的頻繁訪問、異常時間訪問。
所述在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系是指:通過對網(wǎng)絡(luò)數(shù)據(jù)包3–7層深入分析,結(jié)合應(yīng)用邏輯拓?fù)浣Y(jié)構(gòu),在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系;
所述關(guān)鍵性能指標(biāo),包括關(guān)鍵URL請求時長、關(guān)鍵SQL語句執(zhí)行時長;
所述定位各業(yè)務(wù)組件時段內(nèi)的運(yùn)行情況是指:通過時間軸技術(shù),對近一個月內(nèi)的每分鐘運(yùn)行情況進(jìn)行定位。
所述數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊和應(yīng)用呈現(xiàn)模塊采用松耦合的方式,通過API接口連接。
本發(fā)明的原理說明如下:
本設(shè)計一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng),可從識別出的所有業(yè)務(wù)交易中篩選出感興趣的交易作為關(guān)鍵交易,對關(guān)鍵交易設(shè)置不同的監(jiān)控指標(biāo),詳細(xì)查看這類關(guān)鍵交易的平均響應(yīng)時間、Apdex性能指標(biāo)、并發(fā)用戶數(shù)、錯誤率、返回碼等各項指標(biāo)及告警情況。另外,本設(shè)計具有故障定位和智能預(yù)警功能,系統(tǒng)支持閾值、持續(xù)時間與Apdex指數(shù)的復(fù)合指標(biāo)告警,同時,系統(tǒng)還提供基線告警功能,可根據(jù)歷史數(shù)據(jù)自動生成參考基準(zhǔn)線,主動標(biāo)識觸發(fā)告警的應(yīng)用組件,幫助運(yùn)維人員快速識別、定位故障信息與故障原因。性能基線來源于用戶的歷史性能數(shù)據(jù)表現(xiàn),根據(jù)內(nèi)部建模算法建立,此外,用戶可自定義基線的靈敏度以匹配實際業(yè)務(wù)特點。
實施例:
參見圖1,一種基于流量分析的電力應(yīng)用性能監(jiān)控系統(tǒng),該監(jiān)控系統(tǒng)包括數(shù)據(jù)采集探針模塊、數(shù)據(jù)引擎服務(wù)模塊、應(yīng)用服務(wù)模塊、應(yīng)用呈現(xiàn)模塊,上述模塊之間都是分開的,采用松耦合的方式,通過API接口連接,修改其中一個模塊不會影響其它模塊;
所述數(shù)據(jù)采集探針模塊,包括多個數(shù)據(jù)采集探針,數(shù)據(jù)采集探針分布式部署在業(yè)務(wù)系統(tǒng)的核心交換設(shè)備(核心交換設(shè)備包括交換機(jī))上或網(wǎng)絡(luò)出口處,用于將業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)鏡像到數(shù)據(jù)采集探針的主機(jī)內(nèi),并對業(yè)務(wù)系統(tǒng)的應(yīng)用性能指標(biāo)進(jìn)行提取、計算及展現(xiàn);本模塊采用旁路部署,主動獲取網(wǎng)絡(luò)流量數(shù)據(jù),部署簡單,用戶無需進(jìn)行繁瑣的應(yīng)用配置,也無需考慮在服務(wù)器端安裝Agent軟件,只需為數(shù)據(jù)采集探針設(shè)備提供鏡像流量導(dǎo)入即可,通常將數(shù)據(jù)采集探針部署在用戶的業(yè)務(wù)系統(tǒng)核心交換設(shè)備上,或是網(wǎng)絡(luò)出口處;本系統(tǒng)提供一個涵蓋鏈路質(zhì)量、流量分布、硬件設(shè)備性能、軟件應(yīng)用系統(tǒng)性能、終端用戶體驗等多個因素在內(nèi)的自動關(guān)聯(lián)分析報告,降低IT運(yùn)維工作量,提升網(wǎng)絡(luò)及應(yīng)用性能;
所述數(shù)據(jù)引擎服務(wù)模塊,用于對分布式部署的數(shù)據(jù)采集探針進(jìn)行集中管理和任務(wù)調(diào)度,以及對從數(shù)據(jù)采集探針獲取的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)流量分析處理和協(xié)議還原處理;所述數(shù)據(jù)引擎服務(wù)模塊包括任務(wù)調(diào)度引擎、沖突檢測引擎、流量分析引擎、協(xié)議還原引擎以及報表引擎;所述任務(wù)調(diào)度引擎,用于對檢測任務(wù)進(jìn)行調(diào)度;所述沖突檢測引擎,用于對檢測任務(wù)進(jìn)行沖突檢測;所述流量分析引擎,用于通過L4層流量分析技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析處理,能夠精確到年、月、周、日、時的網(wǎng)絡(luò)流量統(tǒng)計信息提取,包括總流量、總數(shù)據(jù)包、響應(yīng)延時、響應(yīng)時延峰值、連接成功/失敗次數(shù)、異常關(guān)閉連接數(shù)、發(fā)送TCP零窗口次數(shù)、發(fā)送錯包率、發(fā)送/接收流量速率等各種詳細(xì)數(shù)據(jù)交互信息;所述協(xié)議還原引擎,用于通過L7層協(xié)議還原技術(shù),對從數(shù)據(jù)采集探針獲取的業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行協(xié)議還原處理,通過L7層協(xié)議還原技術(shù),跟蹤會話及交易,實時獲取L7層的業(yè)務(wù)類型、交易量、成功率、響應(yīng)時間、返回碼等關(guān)鍵指標(biāo);所述報表引擎,用于根據(jù)處理結(jié)果生成報表;這些統(tǒng)計信息為應(yīng)用呈現(xiàn)模塊分析提供了詳盡的數(shù)據(jù)依據(jù);
所述應(yīng)用服務(wù)模塊,用于對數(shù)據(jù)引擎服務(wù)模塊處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過訪客IP、訪問量、響應(yīng)時間、業(yè)務(wù)返回碼、請求URL、后臺SQL語句進(jìn)行分類統(tǒng)計分析;所述應(yīng)用服務(wù)模塊包括指標(biāo)計算與存儲模塊、應(yīng)用組件關(guān)聯(lián)分析模塊以及故障智能分析模塊;所述指標(biāo)計算與存儲模塊,用于對應(yīng)用性能分析指標(biāo)進(jìn)行計算與分析會話進(jìn)行存儲;所述應(yīng)用組件關(guān)聯(lián)分析模塊,用于對業(yè)務(wù)系統(tǒng)的各獨(dú)立組件(Weblogic、數(shù)據(jù)庫等)的性能分析結(jié)果進(jìn)行關(guān)聯(lián);所述故障智能分析模塊,用于根據(jù)上述信息對具體故障點進(jìn)行定位;
所述應(yīng)用呈現(xiàn)模塊,用于根據(jù)應(yīng)用服務(wù)模塊統(tǒng)計的數(shù)據(jù)分析結(jié)果,從用戶體驗可視化、網(wǎng)絡(luò)流量可視化、應(yīng)用性能可視化三個方面對業(yè)務(wù)系統(tǒng)的應(yīng)用性能進(jìn)行全面呈現(xiàn),為業(yè)務(wù)系統(tǒng)故障定位提供數(shù)據(jù)支持;所述應(yīng)用呈現(xiàn)模塊包括用戶體驗可視化模塊、網(wǎng)絡(luò)流量可視化模塊以及應(yīng)用性能可視化模塊;
所述用戶體驗可視化模塊,是指以Apdex應(yīng)用性能指數(shù)、平均響應(yīng)時間為主要指標(biāo),從用戶所屬地理位置、所屬網(wǎng)段、操作系統(tǒng)、瀏覽器、時間分布以及訪問次數(shù)多個角度真實反映最終用戶體驗指標(biāo),能夠快速并定位故障影響的用戶范圍;同時,系統(tǒng)可以指定“關(guān)鍵頁面”監(jiān)控,通過對最受關(guān)注頁面(服務(wù))統(tǒng)計、關(guān)鍵頁面訪問量統(tǒng)計、關(guān)鍵頁面響應(yīng)時間監(jiān)控、RTT、HTTP錯誤、頁面大小等的統(tǒng)計,為用戶體驗的提升以及業(yè)務(wù)系統(tǒng)的擴(kuò)容、改造提供數(shù)據(jù)支持;
所述Apdex應(yīng)用性能指數(shù)的測算主要包括以下步驟:在網(wǎng)絡(luò)中運(yùn)行的任何一個應(yīng)用(Web、數(shù)據(jù)庫、E-mail等),它的響應(yīng)時間決定了其應(yīng)用性能和用戶的滿意程度,基于“響應(yīng)性”,Apdex定義了三個用戶滿意度區(qū)間:
滿意:這樣的響應(yīng)時間讓用戶感到愉快,例如少于3秒;
容忍:慢了一點,但還可以接受,繼續(xù)這一應(yīng)用過程,例如3~12秒;
失望:太慢了,受不了了,用戶決定放棄這一應(yīng)用,例如超過12秒;
“滿意”、“容忍”、“失望”這三個區(qū)間通過響應(yīng)時間數(shù)值“T”來劃分,T值代表著用戶對應(yīng)用性能滿意的響應(yīng)時間界限或者說是“門檻”,也就是第一個區(qū)間“滿意”的底線,如3秒,滿意區(qū)間就是0~3秒;響應(yīng)時間超過T值用戶就有些不滿了,下一個區(qū)間“容忍”的界限值則是T和4T,即3~12秒之間為容忍區(qū)間;響應(yīng)時間再長用戶就開始考慮放棄了,最后一個區(qū)間“失望”的響應(yīng)時間則大于4T,即多于12秒;
之后,Apdex對應(yīng)用中發(fā)生的任務(wù)進(jìn)行采樣,并且按其響應(yīng)時間把采樣劃分到相應(yīng)的滿意度區(qū)間,計數(shù)后再用一個公式計算Apdex指數(shù),實際上,這個公式的意義在于:一個滿意樣本得分為1,一個容忍樣本得分為0.5,一個失望樣本得分為0,因此,公式可以寫成:Apdex指數(shù)=(1×滿意樣本個數(shù)+0.5×容忍樣本個數(shù))÷樣本總數(shù),這樣,采樣結(jié)果被量化為一個0到1之間的數(shù)值即“Apdex指數(shù)”,0代表沒有滿意用戶,1則代表所有用戶都滿意,經(jīng)過統(tǒng)計,Apdex把這個數(shù)值與用戶滿意程度一一對應(yīng),對于應(yīng)用性能的Apdex評分與用戶的體驗緊密關(guān)聯(lián),為管理者提供了一種通過應(yīng)用性能量化值評估用戶滿意度的方法;
所述網(wǎng)絡(luò)流量可視化模塊,可直觀的查看業(yè)務(wù)服務(wù)器,如數(shù)據(jù)服務(wù)器、WEB服務(wù)器等業(yè)務(wù)服務(wù)器的網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù),所述網(wǎng)絡(luò)流量統(tǒng)計分析數(shù)據(jù)包括總流量、總數(shù)據(jù)包、響應(yīng)延時、響應(yīng)時延峰值、連接成功或連接失敗次數(shù)、異常關(guān)閉連接數(shù)、發(fā)送TCP零窗口次數(shù)、發(fā)送錯包率、發(fā)送或接受流量速率等各種詳細(xì)數(shù)據(jù)信息,這些統(tǒng)計信息為因為網(wǎng)絡(luò)質(zhì)量造成的應(yīng)用系統(tǒng)性能下降提供故障分析與定位數(shù)據(jù),同時,系統(tǒng)可對網(wǎng)絡(luò)流量中的攻擊流量進(jìn)行分析,包括系統(tǒng)溢出攻擊、DDOS攻擊、SQL注入攻擊、跨站腳步攻擊、暴力破解攻擊等,也能對網(wǎng)絡(luò)流量中的異常操作流量進(jìn)行統(tǒng)計和操作還原,包括對包含敏感信息頁面的頻繁訪問、異常時間訪問等;
所述應(yīng)用性能可視化模塊,可通過對網(wǎng)絡(luò)數(shù)據(jù)包3–7層深入分析,結(jié)合應(yīng)用邏輯拓?fù)浣Y(jié)構(gòu),在業(yè)務(wù)儀表板中以應(yīng)用拓?fù)鋱D形式直觀呈現(xiàn)應(yīng)用服務(wù)的業(yè)務(wù)邏輯和依賴關(guān)系,并實時呈現(xiàn)(每分鐘)各業(yè)務(wù)組件(主機(jī))的關(guān)鍵性能指標(biāo),包括關(guān)鍵URL請求時長、關(guān)鍵SQL語句執(zhí)行時長等;借助時間軸技術(shù),還可以快速對最近一個月內(nèi)的每分鐘運(yùn)行情況進(jìn)行定位,方便回放故障演變過程。