一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng),將大規(guī)模超級計算機(jī)管理系統(tǒng)進(jìn)行邏輯分區(qū);在分區(qū)內(nèi)部通過構(gòu)建多層次自主元素實現(xiàn)自主管理。監(jiān)控管理系統(tǒng)MMS實現(xiàn)對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,系統(tǒng)管理員通過監(jiān)控管理軟件可以了解系統(tǒng)當(dāng)前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài)。同時系統(tǒng)采用統(tǒng)一監(jiān)控管理策略從而實現(xiàn)統(tǒng)一的分布式管理。
【專利說明】
一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及分布式計算管理領(lǐng)域,具體來說,提供了一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng)。
【背景技術(shù)】
[0002]超級計算機(jī)系統(tǒng)結(jié)構(gòu)不同,其監(jiān)控管理軟件架構(gòu)也不盡相同。目前比較典型的集群管理軟件包括〖311〖1丨&,11&〖;[08,8即61'1]1011和卩&1'1]1011。
[0003]Ganglia是UC Berkeley發(fā)起的一個開源監(jiān)控項目。Ganglia是目前應(yīng)用最為廣泛的集群監(jiān)控軟件之一。Ganglia能夠得到廣泛的應(yīng)用主要得益于以下三點:l)Ganglia是一個開源項目。2) Gang I i a采用分級的樹狀體系結(jié)構(gòu),該結(jié)構(gòu)使得Gang I i a具有良好的可擴(kuò)展性,可支持不同規(guī)模的集群系統(tǒng)。3)Ganglia采用基于XML技術(shù)的數(shù)據(jù)傳輸機(jī)制,因此監(jiān)控信息可以跨越不同的平臺進(jìn)行交互。Ganglia將結(jié)點劃分成不同的區(qū)域,區(qū)域內(nèi)的結(jié)點通過多播進(jìn)行信息交互,因此每個結(jié)點都維護(hù)了一張本區(qū)域內(nèi)所有結(jié)點狀態(tài)的列表。這種組織方式使得Ganglia在不進(jìn)行任何配置的情況下進(jìn)行結(jié)點的刪除與添加,但是其帶來的代價很大。首先多播導(dǎo)致監(jiān)控數(shù)據(jù)占用了系統(tǒng)網(wǎng)絡(luò)帶寬,其次每個結(jié)點都維護(hù)了一張本區(qū)域內(nèi)的結(jié)點狀態(tài)表,當(dāng)區(qū)域較大時,這些全局冗余的數(shù)據(jù)的更新效率低下。
[0004]Nag1s是由Ethan Galstad開發(fā)的一款基于GPLv2的開源軟件,用于對系統(tǒng)運行狀態(tài)和網(wǎng)絡(luò)信息進(jìn)行監(jiān)控,也是當(dāng)前使用廣泛的監(jiān)控軟件之一川。其主要功能包括:網(wǎng)絡(luò)服務(wù)監(jiān)控(SMTP,P0P3,HTTP,NNTP,ICMP,SNMP等)和主機(jī)資源監(jiān)控(CPU負(fù)載、硬盤利用率和系統(tǒng)日志)Jag1s與Ganglia都可用于高性能計算環(huán)境中,但是這兩者對監(jiān)控的側(cè)重點不同。Ganglia更多地收集監(jiān)控數(shù)據(jù)并隨時跟蹤這些數(shù)據(jù)而Nag1s則致力于成為一種報警機(jī)制。
[0005]Supermon是美國洛斯阿拉莫斯國家高級計算實驗室開發(fā)的一套面向Iinux集群的監(jiān)控系統(tǒng)。集群中的每個結(jié)點上都運行一個定制的內(nèi)核模塊mon,因此其信息采集效率高。Supermon依次與所有的mon進(jìn)行通信來獲取監(jiān)控信息。Supermon是監(jiān)控系統(tǒng)中的單一失效點,同時Supermon由于需要串行訪問所有結(jié)點上的mon模塊導(dǎo)致在大規(guī)模系統(tǒng)中監(jiān)控效率下降。
[0006]Parmon是由印度高性能計算中心為PAR-MON集群開發(fā)的監(jiān)控軟件。該軟件采用c/s結(jié)構(gòu),每個結(jié)點上運行一個server程序負(fù)責(zé)本地信息收集,Client負(fù)責(zé)集中管理與信息顯示。當(dāng)系統(tǒng)規(guī)模較大時Client收集全系統(tǒng)信息需要的時間較長從而導(dǎo)致監(jiān)控軟件的實時性差。
[0007]上述管理軟件在一定規(guī)模的集群系統(tǒng)上可以高效運行,但是當(dāng)系統(tǒng)規(guī)摸不斷擴(kuò)大時,這些管理軟件面臨如下問題,這也是超級計算機(jī)系統(tǒng)的監(jiān)控管理所面臨的問題。
[0008]I)實時性。當(dāng)計算機(jī)系統(tǒng)規(guī)模擴(kuò)大時,監(jiān)控管理系統(tǒng)是否能夠繼續(xù)高效對系統(tǒng)進(jìn)行管理與監(jiān)控。隨著應(yīng)用需求的增長,系統(tǒng)規(guī)模擴(kuò)大、性能提高是計算機(jī)系統(tǒng)的發(fā)展趨勢。根據(jù)top500統(tǒng)計結(jié)果,2012年11月發(fā)布的top50。中排名第一的系統(tǒng)理論峰值27112TFlops,包括560 640個CPU核,一年后排名第一的系統(tǒng)性能提升到54902TFlops,規(guī)模擴(kuò)展到3120OOO個CPU核。系統(tǒng)性能翻了一翻,系統(tǒng)規(guī)模擴(kuò)大了 5倍多。傳統(tǒng)的集中式監(jiān)控已經(jīng)無法適用于如此大規(guī)模的計算機(jī)系統(tǒng)。因此如何提高監(jiān)控管理系統(tǒng)的實時性是超級計算機(jī)系統(tǒng)監(jiān)控管理軟件面臨的問題之一。
[0009]2)可靠性。監(jiān)控管理軟件是超級計算機(jī)系統(tǒng)可靠性運行的保障之一,因此監(jiān)控管理系統(tǒng)自身的可靠性是首先要解決的問題。
[00?0] 3)完備性。目前的監(jiān)控管理軟件基本上側(cè)重于某個功能。例如Ganglia,Supermon和Permon都側(cè)重于系統(tǒng)資源的監(jiān)控,而Nag1s則是側(cè)重于對異常狀態(tài)的管理。監(jiān)控管理軟件是提高超級計算機(jī)系統(tǒng)可靠性和可用性的關(guān)鍵,因此功能完備的監(jiān)控管理軟件才能更好實現(xiàn)對超級計算機(jī)系統(tǒng)的管理。
[0011]4)自組織性。如此龐大的超級計算機(jī)規(guī)模,要向完全發(fā)揮超級計算機(jī)系統(tǒng)的性能,完全靠人為管理和干預(yù)必然會導(dǎo)致性能的下降。因此需要提高系統(tǒng)的自主管理能力。監(jiān)控管理軟件如何基于數(shù)據(jù)環(huán)境自適應(yīng)的改變管理策略,也是面臨的問題之一。
[0012]5)可擴(kuò)展性。超級計算機(jī)系統(tǒng)必須是可擴(kuò)展的,可擴(kuò)展包括規(guī)模(資源)可擴(kuò)展、時間可擴(kuò)展(升級)、性能可擴(kuò)展、軟件可擴(kuò)展,前三項特點和超級計算機(jī)自身相關(guān),而軟件可擴(kuò)展更是不僅針對超級計算機(jī)系統(tǒng)運行時的業(yè)務(wù)軟件,同時針對超級計算機(jī)管理系統(tǒng)軟件。
[0013]此外,從管理層次角度來看,自主計算管理體系結(jié)構(gòu)重點研究多個自主元素之間的組織關(guān)系,從已有的研究看主要包括層次結(jié)構(gòu)、對等結(jié)構(gòu)、混合結(jié)構(gòu)即層次和對等結(jié)構(gòu)的結(jié)合。在層次結(jié)構(gòu)中,上層自主管理者(AM)可以向其下層AM傳遞控制信息(Cl),下層AM則向其上層AM傳遞狀態(tài)信息(SI);上層AM控制系統(tǒng)的宏觀自主特性,Cl型出度為零的AM為底層自主管理者,實現(xiàn)微觀控制。例如,基于控制論和效用函數(shù)優(yōu)化的兩層自主計算系統(tǒng)。在對等結(jié)構(gòu)中,參與協(xié)作的AM不存在等級關(guān)系,控制信息和狀態(tài)信息的傳遞是雙向的,系統(tǒng)的全局自主特性通常是在個體的局部交互中“涌現(xiàn)”出來,例如,基于自組織涌現(xiàn)理論的體系結(jié)構(gòu)。在這種體系結(jié)構(gòu)中,AM的關(guān)系是對等的,不存在管理全局自治行為的AM,即系統(tǒng)宏觀自主特性是在AM的局部交互中產(chǎn)生的。在混合結(jié)構(gòu)中,上層AM可以向其下層AM傳遞控制信息(Cl),下層AM向其上層AM傳遞狀態(tài)信息(SI);上層AM控制系統(tǒng)的宏觀自主特性,下層AM則基于上層AM提供的約束、通過交互實現(xiàn)該層的宏觀特性。例如,把自主系統(tǒng)分為二層:上層是資源仲裁者,負(fù)責(zé)全局的資源分配,實現(xiàn)全局效用的最大化;下層是應(yīng)用管理者,對于給定的資源,應(yīng)用管理者通過調(diào)整局部參數(shù),實現(xiàn)本地效用的最大化。應(yīng)用管理者把本地服務(wù)級效用函數(shù)轉(zhuǎn)化為資源仲裁者使用的資源級效用函數(shù),資源仲裁者通過計算系統(tǒng)級的效用得到全局的資源分配方案,并以此來調(diào)整下層應(yīng)用管理者的行為。
【發(fā)明內(nèi)容】
[0014]為解決上述缺陷,本發(fā)明提供了一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng)。具體包括如下技術(shù)方案:
[0015]一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng),其特征在于:監(jiān)控管理系統(tǒng)采用分布式系統(tǒng)結(jié)構(gòu),分為三個層次,底層結(jié)點由所有的被管理設(shè)備組成,中間層包括多個中間代理,最頂層是多個管理結(jié)點,最底層的每個結(jié)點上運行一個信息采集模塊daemon,負(fù)責(zé)采集結(jié)點的資源信息,包括結(jié)點配置、結(jié)點資源使用情況,結(jié)點負(fù)載,結(jié)點的用戶及進(jìn)程信息;
[0016]監(jiān)控管理系統(tǒng)提供基于web的用戶訪問界面,管理員可以在遠(yuǎn)程或本地訪問MMS。MMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息,軟件資源主要包括系統(tǒng)資源、結(jié)點狀態(tài)和全局存儲信息,系統(tǒng)資源主要包括系統(tǒng)所有結(jié)點的狀態(tài)和作業(yè)信息,包括結(jié)點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài)等,結(jié)點狀態(tài)包括單個結(jié)點上的可用資源例如CPU、內(nèi)存的利用率等。全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài),硬件信息主要包括電壓、溫度、風(fēng)扇信息、運行環(huán)境相關(guān)信息和系統(tǒng)功耗管理,系統(tǒng)管理員通過監(jiān)控管理軟件了解系統(tǒng)當(dāng)前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài);
[0017]監(jiān)控管理系統(tǒng)采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下:
[0018]策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機(jī)、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;策略描述:在上述監(jiān)控管理策略分類的基礎(chǔ)上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進(jìn)行統(tǒng)一描述;策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是通過策略轉(zhuǎn)換直接實施到具體設(shè)備或應(yīng)用上的,而間接策略則由一組直接策略或間接策略組合而成;策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設(shè)備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設(shè)備策略分發(fā)到設(shè)備或應(yīng)用上的設(shè)備監(jiān)管驅(qū)動和中間代理模塊。
[0019]進(jìn)一步的,所述方案還具有如下特點:
[°02°]結(jié)點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊,Daemon運行在結(jié)點上,負(fù)責(zé)采集本地信息,OOB-mon是結(jié)點的帶外監(jiān)控程序,負(fù)責(zé)一個或多個結(jié)點的硬件狀態(tài)監(jiān)控。OOB-mon和daemon采集到的信息發(fā)送到對應(yīng)的中間代理模塊。
[0021 ]進(jìn)一步的,所述方案還具有如下特點:
[0022]管理結(jié)點提供基于web的監(jiān)控服務(wù),用戶通過瀏覽器可以實現(xiàn)系統(tǒng)的遠(yuǎn)程和本地監(jiān)控,管理結(jié)點上的報警信息處理模塊負(fù)責(zé)接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進(jìn)行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。
[0023]進(jìn)一步的,所述方案還具有如下特點:
[0024]被管理網(wǎng)絡(luò)由節(jié)點組成。設(shè)一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標(biāo)識(IDl),并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都可以通過消息互相傳遞信息,即為全連接拓?fù)浣Y(jié)構(gòu),整個分區(qū)代理的集合可以用{100,101,102,……IDN-1}表示,在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進(jìn)行管理。
[0025]進(jìn)一步的,所述方案還具有如下特點:
[0026]Daemon將采集到的信息分成兩類,其中一類是靜態(tài)信息,另一類是動態(tài)信息。所述靜態(tài)信息包括CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡(luò)理論帶寬和本地存儲容量信息。所述動態(tài)信息包括CPU、內(nèi)存和網(wǎng)絡(luò)利用率,作業(yè)負(fù)載信息。
【附圖說明】
[0027]圖1是本發(fā)明的MMS功能示意圖;
[0028]圖2是本發(fā)明的監(jiān)控系統(tǒng)結(jié)構(gòu)圖;
[0029]圖3是本發(fā)明的中間代理的組織結(jié)構(gòu)圖;
【具體實施方式】
[0030]以下根據(jù)附圖,詳細(xì)說明本發(fā)明的實施例。說明本發(fā)明時如果對該發(fā)明相關(guān)的通知功能或結(jié)構(gòu)的說明不必要時可以省略該部分的說明。還有后述的功能都是考慮到本發(fā)明而定義的功能,該功能根據(jù)運用者的意愿或慣例而可變,所以該定義是應(yīng)該基于本說明書的全部內(nèi)容而決定的。
[0031]超級計算機(jī)系統(tǒng)規(guī)模龐大,節(jié)點數(shù)目成千上萬,系統(tǒng)設(shè)備復(fù)雜,系統(tǒng)中除了計算結(jié)點外還包括存儲設(shè)備、互連設(shè)備和基礎(chǔ)架構(gòu)(包括供電和制冷)等,因此監(jiān)控管理系統(tǒng)需要在對系統(tǒng)軟件資源管理的同時,對這些硬件設(shè)備進(jìn)行監(jiān)測與控制,實現(xiàn)一個功能完備的監(jiān)控管理系統(tǒng)。
[0032]監(jiān)控管理系統(tǒng)MMS提供了基于web的用戶訪問界面,管理員可以在遠(yuǎn)程或本地訪問MMS JMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,其主要功能如圖1所示。資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息。軟件資源主要包括系統(tǒng)資源、結(jié)點狀態(tài)和全局存儲信息。系統(tǒng)資源主要包括系統(tǒng)所有結(jié)點的狀態(tài)和作業(yè)信息,包括結(jié)點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài)等。結(jié)點狀態(tài)包括單個結(jié)點上的可用資源例如CPU、內(nèi)存等的利用率等。全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài)。硬件信息主要包括電壓、溫度、風(fēng)扇等信息、運行環(huán)境相關(guān)信息和系統(tǒng)功耗管理。系統(tǒng)管理員通過監(jiān)控管理軟件可以了解系統(tǒng)當(dāng)前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài)。
[0033]同時,MMS采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下:
[0034]策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機(jī)、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;
[0035]策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;
[0036]策略描述:在上述監(jiān)控管理策略分類的基礎(chǔ)上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進(jìn)行統(tǒng)一描述;
[0037]策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是可以通過策略轉(zhuǎn)換直接實施到具體設(shè)備或應(yīng)用上的,而間接策略則由一組直接策略或間接策略組合而成;
[0038]策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設(shè)備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設(shè)備策略分發(fā)到設(shè)備或應(yīng)用上的設(shè)備監(jiān)管驅(qū)動和中間代理模塊。
[0039]MMS采用分布式系統(tǒng)結(jié)構(gòu)如圖2所示。MMS系統(tǒng)分為3個層次。底層結(jié)點由所有的被管理設(shè)備組成,中間層包括多個中間代理,最頂層是兩個管理結(jié)點。最底層的每個結(jié)點上運行一個信息采集模塊daemon,負(fù)責(zé)采集結(jié)點的資源信息,包括結(jié)點配置、結(jié)點資源(CPU、內(nèi)存、網(wǎng)絡(luò)、本地存儲等)使用情況,結(jié)點負(fù)載,結(jié)點的用戶及進(jìn)程等相關(guān)信息。OOB-mon是結(jié)點的帶外監(jiān)控程序,負(fù)責(zé)一個或多個結(jié)點的硬件狀態(tài)監(jiān)控。OOB-mon和daemon采集到的信息發(fā)送到對應(yīng)的client。在圖2中,帶箭頭的實線表示數(shù)據(jù)通過計算網(wǎng)絡(luò)進(jìn)行傳輸,帶箭頭的虛線表示數(shù)據(jù)通過監(jiān)控管理網(wǎng)絡(luò)進(jìn)行傳輸。從圖2可以看出daemon與client之間的通信需要經(jīng)過計算網(wǎng)絡(luò),對計算網(wǎng)絡(luò)帶來一定的影響。而OOB-mon與c I i ent之間通過專用的監(jiān)控管理網(wǎng)絡(luò)進(jìn)行互連,因此帶外管理對系統(tǒng)性能沒有影響。Client是中間代理模塊,負(fù)責(zé)接收來自所管轄范圍內(nèi)結(jié)點信息采集模塊發(fā)送的信息,雙機(jī)熱備的兩個管理結(jié)點負(fù)責(zé)管理中間代理同時向用戶提供基于web的人機(jī)交互界面。中間代理和管理結(jié)點上都使用mysql數(shù)據(jù)庫來存儲信息。
[°04°]結(jié)點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊。Daemon運行在結(jié)點上,負(fù)責(zé)采集本地信息。Daemon將采集到的信息分成兩類。其中一類是靜態(tài)信息,主要是系統(tǒng)配置信息,例如:CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡(luò)理論帶寬和本地存儲容量等信息。另一類是動態(tài)信息,包括CPU、內(nèi)存和網(wǎng)絡(luò)利用率,作業(yè)負(fù)載等動態(tài)變化的信息。因為改變結(jié)點配置時通常情況下需要重新啟動結(jié)點才能生效,此時daemon程序也將被重啟,所以只有在dae-mon 程序每次重啟之后進(jìn)行一次靜態(tài)信息采集。 Daemon 啟動后 ,等待接收來自中間代理的信息,然后開始查詢。將查詢的靜態(tài)信息和首次查詢(包括daemon啟動后的第一次和中間代理發(fā)生變化后的第一次查詢)的動態(tài)信息發(fā)送到中間代理,后續(xù)的查詢只針對動態(tài)信息。動態(tài)信息查詢的結(jié)果與上次的狀態(tài)進(jìn)行比較,標(biāo)記發(fā)生了變化的信息,將信息采集結(jié)果以及比較結(jié)果存放到公共數(shù)據(jù)區(qū)。中間代理在查詢過程中只需要訪問公共數(shù)據(jù)區(qū)即可。中間代理和結(jié)點之間只傳輸發(fā)生了變化的數(shù)據(jù)。這種策略減少了計算網(wǎng)絡(luò)上傳輸?shù)谋O(jiān)控管理數(shù)據(jù)量,從而降低對計算網(wǎng)絡(luò)的影響。
[0041]中間代理層由多個中間代理組成。每個中間代理負(fù)責(zé)所屬分區(qū)內(nèi)結(jié)點的監(jiān)控。如圖3所示,中間代理包括4個功能模塊。結(jié)點監(jiān)聽模塊負(fù)責(zé)接收來自結(jié)點的靜態(tài)信息和首次查詢的動態(tài)信息。信息組播模塊定時向所屬分區(qū)內(nèi)的結(jié)點發(fā)送中間代理的相關(guān)信息,保證故障結(jié)點恢復(fù)后知道自己所在分區(qū)。查詢模塊定時對所屬結(jié)點進(jìn)行動態(tài)信息查詢,將查詢的信息存儲到本地數(shù)據(jù)庫。
[0042]管理結(jié)點提供了基于web的監(jiān)控服務(wù),用戶通過瀏覽器可以實現(xiàn)系統(tǒng)的遠(yuǎn)程和本地監(jiān)控。管理結(jié)點上的報警信息處理模塊負(fù)責(zé)接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進(jìn)行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。
[0043]在本發(fā)明中,從網(wǎng)絡(luò)管理角度來看,被管理網(wǎng)絡(luò)由基本的被管元素節(jié)點組成。設(shè)一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標(biāo)識(IDl),并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都可以通過消息互相傳遞信息,即為全連接拓?fù)浣Y(jié)構(gòu),整個分區(qū)代理的集合可以用{IDO,IDl,ID2,……IDN-1}表示。在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進(jìn)行管理。管理節(jié)點和中間代理之間依據(jù)集中式管理模式協(xié)作,即管理節(jié)點指示中間代理進(jìn)行特定的操作或提供特定的信息,中間代理返回操作結(jié)果或被要求的信息;管理節(jié)點之間則依據(jù)一定的分布式協(xié)同模式完成管理任務(wù)。
[0044]本發(fā)明利用分治思想設(shè)計了超級計算機(jī)的自主管理系統(tǒng)?;诙噙壿嫹謪^(qū)動態(tài)管理方式,把大規(guī)模計算機(jī)系統(tǒng)根據(jù)一定策略進(jìn)行邏輯分區(qū),每個分區(qū)內(nèi)部實現(xiàn)自主管理,以適應(yīng)系統(tǒng)規(guī)模的擴(kuò)展。每個分區(qū)內(nèi)部,構(gòu)建多層次自主元素進(jìn)行管理,在多個分區(qū)的上層,構(gòu)建高一級的自主元素實現(xiàn)系統(tǒng)級管理。每一級自主元素支持可擴(kuò)展性,在新增設(shè)備或修改特征參數(shù)時系統(tǒng)不停機(jī),實現(xiàn)系統(tǒng)的自配置。
[0045]到目前為止著重說明的是關(guān)于本發(fā)明的實施例。在屬于本發(fā)明的技術(shù)領(lǐng)域里擁有常規(guī)的知識的人可以看出本發(fā)明并沒有超出本質(zhì),只是一個稍微變型的一種,所以把上述的實施例不要理解為有限的觀點應(yīng)理解為說明性的觀點。本發(fā)明的范圍不是上述的說明而體現(xiàn)在權(quán)利要求范圍內(nèi),至于其它在同一范圍內(nèi)的所有的差別應(yīng)當(dāng)理解成都包括在本發(fā)明里。
【主權(quán)項】
1.一種面向超級計算機(jī)的分布式層次化自主監(jiān)控管理系統(tǒng),其特征在于:監(jiān)控管理系統(tǒng)采用分布式系統(tǒng)結(jié)構(gòu),分為三個層次,底層結(jié)點由所有的被管理設(shè)備組成,中間層包括多個中間代理,最頂層是多個管理結(jié)點,最底層的每個結(jié)點上運行一個信息采集模塊daemon,負(fù)責(zé)采集結(jié)點的資源信息,包括結(jié)點配置、結(jié)點資源使用情況,結(jié)點負(fù)載,結(jié)點的用戶及進(jìn)程信息; 監(jiān)控管理系統(tǒng)提供基于web的用戶訪問界面,管理員在遠(yuǎn)程或本地訪問MMS,MMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息,軟件資源主要包括系統(tǒng)資源、結(jié)點狀態(tài)和全局存儲信息,系統(tǒng)資源主要包括系統(tǒng)所有結(jié)點的狀態(tài)和作業(yè)信息,包括結(jié)點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài),結(jié)點狀態(tài)包括單個結(jié)點上的可用資源例如CPU、內(nèi)存的利用率,全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài),硬件信息主要包括電壓、溫度、風(fēng)扇信息、運行環(huán)境相關(guān)信息和系統(tǒng)功耗管理,系統(tǒng)管理員通過監(jiān)控管理軟件了解系統(tǒng)當(dāng)前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài); 監(jiān)控管理系統(tǒng)采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下: 策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機(jī)、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;策略描述:在上述監(jiān)控管理策略分類的基礎(chǔ)上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進(jìn)行統(tǒng)一描述;策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是通過策略轉(zhuǎn)換直接實施到具體設(shè)備或應(yīng)用上的,而間接策略則由一組直接策略或間接策略組合而成;策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設(shè)備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設(shè)備策略分發(fā)到設(shè)備或應(yīng)用上的設(shè)備監(jiān)管驅(qū)動和中間代理模塊。2.如權(quán)利要求1所述的系統(tǒng),其特征在于:結(jié)點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊,Daemon運行在結(jié)點上,負(fù)責(zé)采集本地信息,OOB-mon是結(jié)點的帶外監(jiān)控程序,負(fù)責(zé)一個或多個結(jié)點的硬件狀態(tài)監(jiān)控,OOB-mon和daemon采集到的信息發(fā)送到對應(yīng)的中間代理模塊。3.如權(quán)利要求1所述的系統(tǒng),其特征在于:管理結(jié)點提供基于web的監(jiān)控服務(wù),用戶通過瀏覽器實現(xiàn)系統(tǒng)的遠(yuǎn)程和本地監(jiān)控,管理結(jié)點上的報警信息處理模塊負(fù)責(zé)接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進(jìn)行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。4.如權(quán)利要求1所述的系統(tǒng),其特征在于:被管理網(wǎng)絡(luò)由節(jié)點組成,設(shè)一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標(biāo)識IDl,并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都通過消息互相傳遞信息,即為全連接拓?fù)浣Y(jié)構(gòu),整個分區(qū)代理的集合用{IDO,IDl,ID2,……IDN-1}表示,在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進(jìn)行管理。5.如權(quán)利要求3所述的系統(tǒng),其特征在于:Daemon將采集到的信息分成兩類,其中一類是靜態(tài)息,另一類是動態(tài)信息。6.如權(quán)利要求5所述的系統(tǒng),其特征在于:所述靜態(tài)信息包括CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡(luò)理論帶寬和本地存儲容量信息。7.如權(quán)利要求5所述的系統(tǒng),其特征在于:所述動態(tài)信息包括CPU、內(nèi)存和網(wǎng)絡(luò)利用率,作業(yè)負(fù)載信息。
【文檔編號】G06F11/30GK105975378SQ201610307721
【公開日】2016年9月28日
【申請日】2016年5月11日
【發(fā)明人】王紀(jì)軍, 譚晶, 高莉莎, 張輝, 徐宏志, 梁俊鋒, 李興
【申請人】國網(wǎng)江蘇省電力公司, 北京中電普華信息技術(shù)有限公司