本發(fā)明屬于通信網(wǎng)絡(luò)故障診斷領(lǐng)域,尤其涉及一種大規(guī)模通信網(wǎng)絡(luò)路由交換設(shè)備硬件故障在線診斷和批量搜集方法。
背景技術(shù):
戰(zhàn)術(shù)通信網(wǎng)絡(luò)是一種典型的軍用網(wǎng)絡(luò),具有機(jī)動(dòng)性好、抗毀性強(qiáng)、及時(shí)性好等特點(diǎn),滿足了軍隊(duì)在戰(zhàn)爭(zhēng)中對(duì)通信聯(lián)絡(luò)的保密、迅速、不間斷、準(zhǔn)確等高要求。由于戰(zhàn)場(chǎng)環(huán)境復(fù)雜多變、通信裝備的運(yùn)載平臺(tái)震動(dòng)大、環(huán)境高低溫差大、風(fēng)沙鹽霧等自然條件十分惡劣,導(dǎo)致路由交換設(shè)備容易出現(xiàn)硬件層面的間歇性故障或者永久性故障,影響通信網(wǎng)絡(luò)的正常運(yùn)行。
現(xiàn)有路由交換設(shè)備一般由一塊控制交換板和若干業(yè)務(wù)單元板構(gòu)成,采用背板實(shí)現(xiàn)各功能板之間的互連,其硬件結(jié)構(gòu)如圖1所示。設(shè)備開機(jī)時(shí)各單元板進(jìn)行加電自檢,主控板對(duì)各個(gè)單元板的自檢信息進(jìn)行維護(hù),能夠在開機(jī)時(shí)發(fā)現(xiàn)單元板硬件故障,網(wǎng)絡(luò)操作人員需要通過設(shè)備面板指示燈或者人機(jī)界面查詢才能明確故障單元,這屬于單節(jié)點(diǎn)單設(shè)備行為。而在戰(zhàn)術(shù)通信網(wǎng)絡(luò)的演訓(xùn)和實(shí)戰(zhàn)運(yùn)用過程中,通信節(jié)點(diǎn)散布在各個(gè)地域,路由交換設(shè)備持續(xù)工作時(shí)間長(zhǎng),出現(xiàn)運(yùn)行時(shí)硬件故障時(shí),需要網(wǎng)絡(luò)操作人員采用第三方通信手段(例如民用電話網(wǎng)絡(luò))進(jìn)行逐層上報(bào),網(wǎng)絡(luò)管理人員無法及時(shí)獲取硬件故障的詳細(xì)信息,給解決問題帶來很大難度。
可見,現(xiàn)有技術(shù)對(duì)于路由交換設(shè)備的硬件診斷方式比較單一,無法及時(shí)發(fā)現(xiàn)大規(guī)模組網(wǎng)時(shí)設(shè)備的運(yùn)行時(shí)硬件故障。為了保證通信網(wǎng)絡(luò)的可靠運(yùn)行,如何以最少的操作、最低的代價(jià)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中路由交換設(shè)備的硬件故障,及時(shí)進(jìn)行維修或者器件替換,仍然是一個(gè)棘手的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明公開了一種大規(guī)模通信網(wǎng)絡(luò)路由交換設(shè)備硬件故障在線診斷和批量搜集方法。路由交換設(shè)備的各業(yè)務(wù)單元板需要向控制交換板注冊(cè),使得控制交換板能掌握各業(yè)務(wù)單元板的存在狀況,注冊(cè)過程通過控制交換板的詢問和業(yè)務(wù)單元板的應(yīng)答實(shí)現(xiàn);注冊(cè)后控制交換板需要監(jiān)視各業(yè)務(wù)單元板的運(yùn)行狀態(tài),監(jiān)視過程通過控制交換板對(duì)各業(yè)務(wù)單元板的定時(shí)詢問機(jī)制實(shí)現(xiàn)。故障搜集診斷設(shè)備能夠自動(dòng)發(fā)現(xiàn)通信網(wǎng)絡(luò)中的故障節(jié)點(diǎn),批量搜集和保存設(shè)備硬件故障信息,輔助網(wǎng)絡(luò)管理人員快速定位設(shè)備的硬件故障及類型,加快故障排除的進(jìn)度。
如圖2所示,本發(fā)明中涉及兩種設(shè)備:故障搜集診斷設(shè)備、路由交換設(shè)備。故障搜集診斷設(shè)備是負(fù)責(zé)故障搜集和診斷的計(jì)算機(jī)終端。路由交換設(shè)備是通信網(wǎng)絡(luò)中的網(wǎng)絡(luò)交換節(jié)點(diǎn)。路由交換設(shè)備之間按正常的網(wǎng)間鏈路互連;故障搜集診斷設(shè)備與路由交換設(shè)備之間采用eth鏈路互連。
如圖3所示,本發(fā)明中涉及三種軟件模塊:故障搜集診斷模塊、故障搜集模塊、故障監(jiān)控模塊。其中:
故障搜集診斷模塊運(yùn)行在故障搜集診斷設(shè)備上。該模塊能夠發(fā)起故障搜集請(qǐng)求組播消息;能夠接收通信網(wǎng)絡(luò)中各節(jié)點(diǎn)的故障搜集響應(yīng)單播消息,解析并保存故障搜集結(jié)果;能夠向網(wǎng)絡(luò)管理人員顯示故障告警信息;能夠?qū)νㄐ啪W(wǎng)絡(luò)的故障歷史信息進(jìn)行統(tǒng)計(jì)分析。
故障搜集模塊運(yùn)行在路由交換設(shè)備的控制交換板上。該模塊能夠接收故障搜集請(qǐng)求組播消息,并將該請(qǐng)求消息在網(wǎng)絡(luò)中泛洪轉(zhuǎn)播;能夠查看故障監(jiān)控模塊中是否存在硬件故障信息;能夠生成故障搜集響應(yīng)單播消息回傳給故障搜集診斷設(shè)備。
故障監(jiān)控模塊運(yùn)行在路由交換設(shè)備的控制交換板上。該模塊能夠監(jiān)控設(shè)備各業(yè)務(wù)單元板的運(yùn)行狀態(tài);發(fā)現(xiàn)單元板出現(xiàn)故障時(shí)能夠主動(dòng)將故障信息向故障搜集模塊匯報(bào)。
故障搜集診斷模塊與故障搜集模塊之間的消息采用udp報(bào)文進(jìn)行封裝,故障搜集模塊之間的消息采用udp報(bào)文進(jìn)行封裝,udp收發(fā)端口號(hào)均采用固定值。
本發(fā)明有益技術(shù)效果是:提供了一種大規(guī)模組網(wǎng)時(shí)路由交換設(shè)備硬件故障在線診斷和批量搜集方法,網(wǎng)絡(luò)管理人員能夠以最少的操作、最低的代價(jià)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中路由交換設(shè)備各業(yè)務(wù)單元板的硬件故障,加快故障排除的進(jìn)度。通過對(duì)故障歷史信息的統(tǒng)計(jì)分析,能夠發(fā)現(xiàn)通信網(wǎng)絡(luò)中故障率較高的設(shè)備或單元板,為推動(dòng)設(shè)備質(zhì)量改進(jìn)提供信息依據(jù)。
附圖說明
圖1、路由交換設(shè)備的硬件結(jié)構(gòu);
圖2、設(shè)備間的連接關(guān)系圖;
圖3、設(shè)備的功能模塊組成及模塊間的關(guān)系圖。
具體實(shí)施方式
本發(fā)明提供一種大規(guī)模通信網(wǎng)絡(luò)路由交換設(shè)備硬件故障在線診斷和批量搜集方法,實(shí)現(xiàn)該方法包括故障搜集診斷模塊、故障搜集模塊、故障監(jiān)控模塊。模塊之間關(guān)系可參見圖3。故障監(jiān)控模塊與業(yè)務(wù)單元板之間采用板間總線維護(hù)通道通信,其交互流程及報(bào)文格式在此不作詳細(xì)闡述。需要說明的是,為了更加清楚、簡(jiǎn)要的描述本發(fā)明的實(shí)現(xiàn)方式,圖3中省略了節(jié)點(diǎn)的原有功能模塊,僅僅示出與本發(fā)明相關(guān)的功能模塊。具體實(shí)施方式如下:
故障搜集診斷模塊主要包括如下功能:
1)故障搜集診斷模塊定期(5-10分鐘一次,可配置)向路由交換設(shè)備發(fā)送故障搜集請(qǐng)求組播消息,消息內(nèi)部需攜帶故障搜集診斷設(shè)備的通信ip地址、udp收端口號(hào)以及請(qǐng)求消息的序列號(hào),序列號(hào)逐次遞增;
2)故障搜集診斷模塊接收路由交換設(shè)備的故障搜集響應(yīng)單播消息,解析并保存故障搜集響應(yīng)消息到數(shù)據(jù)庫中,需要記錄下接收時(shí)間、響應(yīng)設(shè)備ip地址、故障具體信息等;
3)能夠向網(wǎng)絡(luò)管理人員顯示故障告警信息,明確指出哪一臺(tái)設(shè)備的哪一塊業(yè)務(wù)單元板發(fā)生故障,具體信息包括單元板類型、生產(chǎn)廠家代號(hào)、硬件版本號(hào)、軟件版本號(hào)、故障編碼等;
4)能夠?qū)νㄐ啪W(wǎng)絡(luò)的故障歷史信息進(jìn)行統(tǒng)計(jì)分析,向網(wǎng)絡(luò)管理人員提供故障查詢、統(tǒng)計(jì)、顯示等功能,輔助網(wǎng)絡(luò)管理人員進(jìn)行故障數(shù)據(jù)挖掘。
故障搜集模塊主要包括如下功能:
1)全網(wǎng)的故障搜集模塊均采用固定統(tǒng)一的udp端口號(hào)接收和發(fā)送報(bào)文;
2)故障搜集模塊接收故障搜集診斷設(shè)備的故障搜集請(qǐng)求組播消息,并將該請(qǐng)求消息在網(wǎng)絡(luò)中泛洪傳輸;
3)故障搜集模塊通過故障搜集請(qǐng)求組播消息中攜帶的序列號(hào)進(jìn)行識(shí)別,同一個(gè)消息只處理一次,避免在泛洪時(shí)形成網(wǎng)絡(luò)風(fēng)暴;
4)故障搜集模塊記錄下故障診斷設(shè)備的通信ip地址及udp端口號(hào)便于回傳故障響應(yīng)報(bào)文使用;
5)故障搜集模塊查看故障監(jiān)控模塊是否存在硬件故障信息,如果有則生成故障搜集響應(yīng)單播消息回傳給故障搜集診斷設(shè)備;
6)故障搜集模塊接收故障監(jiān)控模塊主動(dòng)匯報(bào)的故障信息,及時(shí)生成故障搜集響應(yīng)單播消息回傳給故障搜集診斷設(shè)備。
故障監(jiān)控模塊主要包括如下功能:
1)故障監(jiān)控模塊需要完成對(duì)業(yè)務(wù)單元板的注冊(cè)及運(yùn)行狀態(tài)監(jiān)視,對(duì)各業(yè)務(wù)單元板進(jìn)行定時(shí)詢問,第一輪使用強(qiáng)制warm詢問消息,以后采用定時(shí)詢問消息;業(yè)務(wù)單元板收到強(qiáng)制warm詢問消息后,必須使用warm消息應(yīng)答;控制交換板收到warm消息時(shí),向業(yè)務(wù)單元板應(yīng)答warm確認(rèn)消息;業(yè)務(wù)單元板在收到控制交換板發(fā)送的warm確認(rèn)消息后,對(duì)以后的定時(shí)詢問消息使用業(yè)務(wù)單元板正常消息或故障消息進(jìn)行應(yīng)答;如果沒有收到warm確認(rèn)消息,業(yè)務(wù)單元板使用warm消息應(yīng)答定時(shí)詢問消息,直到收到warm確認(rèn)消息后再使用業(yè)務(wù)單元板正常消息或故障消息進(jìn)行應(yīng)答;
2)故障監(jiān)控模塊發(fā)現(xiàn)某塊業(yè)務(wù)單元板出現(xiàn)硬件故障時(shí),主動(dòng)將故障信息向故障搜集模塊匯報(bào);
3)故障信息中應(yīng)包含業(yè)務(wù)單元板類型、生產(chǎn)廠家代號(hào)、硬件版本號(hào)、軟件版本號(hào)、故障編碼等。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。