t;h,消除報 警,并將h = 2*Z'n,作為新的報警闊值進(jìn)入步驟S201,對下一時刻采集的網(wǎng)絡(luò)工作時間內(nèi)網(wǎng) 絡(luò)設(shè)備實際工作狀態(tài)下的特征值進(jìn)行檢測。
[0045] 本實施例中,所述特征值為板卡溫度,或為CPU使用率,或為內(nèi)存使用率,或為接口 丟包率,或為誤碼率;此外,采集的周期短可W迅速發(fā)現(xiàn)設(shè)備異常,有利于維護(hù)網(wǎng)絡(luò)運(yùn)行,缺 點是頻繁的信息采集占用設(shè)備和系統(tǒng)的資源,加重系統(tǒng)負(fù)擔(dān);采集的周期長數(shù)據(jù)量少,對系 統(tǒng)負(fù)擔(dān)少,但是不能及時發(fā)現(xiàn)問題,對突發(fā)狀況不能及時響應(yīng);實際系統(tǒng)中時間間隔一般設(shè) 置為(5分鐘一60分鐘)之間;本發(fā)明中,所述步驟SlOl中采集一段時間內(nèi)的網(wǎng)絡(luò)設(shè)備正常工 作狀態(tài)下的特征值,所述一段時間為:采集時間大于2天,采集間隔為5分鐘。
[0046] 本發(fā)明的工作原理為:對網(wǎng)絡(luò)設(shè)備進(jìn)行故障診斷及預(yù)算,其實質(zhì)是利用預(yù)測模型 對特征量進(jìn)行預(yù)測,因此,故障特征量的選擇顯得格外重要,要選擇對設(shè)備運(yùn)行狀態(tài)影響較 大的特征量,對于在線運(yùn)行的計算機(jī)網(wǎng)絡(luò)設(shè)備來說,可W通過SNMP獲取其大量運(yùn)行信息,比 如:生產(chǎn)廠商、路由表、設(shè)備的運(yùn)行時間、板卡的溫度、CPU利用率、內(nèi)存利用率、端口流量、端 口丟包率等;由于設(shè)備的運(yùn)行時間、板卡的溫度、CPU利用率、內(nèi)存利用率對設(shè)備的運(yùn)行趨勢 影響較大,本發(fā)明選擇它們作為預(yù)測模型的特征量,并做出如下假設(shè):
[0047] I、設(shè)備的運(yùn)行時間越趨近或超過故障周期,認(rèn)為發(fā)生故障的可能性越大;
[0048] 2、板卡的溫度超過標(biāo)準(zhǔn)溫度越高,認(rèn)為發(fā)生故障的可能性越大;
[0049] 3、CPU利用率越高,認(rèn)為發(fā)生故障的可能性越大;
[0050] 4、內(nèi)存利用率越高,認(rèn)為發(fā)生故障的可能性越大;
[0051 ] 5、接口的丟包率,誤碼率越高,認(rèn)為發(fā)生故障的可能性越大。
[0052] 本實施例中,步驟SlOl和步驟S201中,采集特征值的過程中,由于某些原因使得采 集到的數(shù)據(jù)有可能出現(xiàn)錯誤,需要對錯誤數(shù)據(jù)進(jìn)行過濾;具體過程為:首先去除超出取值范 圍的數(shù)據(jù),然后根據(jù)數(shù)據(jù)關(guān)聯(lián)分析去除不合理的數(shù)據(jù),比如流入設(shè)備的流量和流出設(shè)備的 流量應(yīng)基本平衡,如果某一方向的流量特別大,可能數(shù)據(jù)有誤;其次,對采集到數(shù)據(jù)進(jìn)行同 化處理,如:端口流量一般轉(zhuǎn)化成實際帶寬占用比,端口誤碼率,丟包率等參數(shù),內(nèi)存使用量 一般轉(zhuǎn)化為占用率等,運(yùn)樣便于分析;最后進(jìn)行數(shù)據(jù)融合,對來源不同的數(shù)據(jù)進(jìn)行融合分 析,比如通過SNMP采集到的數(shù)據(jù)與監(jiān)控數(shù)據(jù),系統(tǒng)日志數(shù)據(jù)進(jìn)行融合,可W保證數(shù)據(jù)質(zhì)量, 去除錯誤,彌補(bǔ)不足。
[0053] 具體地,W特征值為板卡溫度為例進(jìn)行說明:
[0054] SI:根據(jù)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的板卡溫度特征值,通過訓(xùn)練算法,得到網(wǎng)絡(luò) 設(shè)備無故障工作狀態(tài)下的特征參數(shù);其訓(xùn)練算法的過程為:
[0055] SlOl:連續(xù)采集一段時間內(nèi)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的板卡溫度特征值,并根 據(jù)板卡溫度特征值生成檢測序列,記為Xn;
[0056] S102:根據(jù)檢測序列Xn,計算網(wǎng)絡(luò)設(shè)備特征變量的信念值,記為k;計算網(wǎng)絡(luò)設(shè)備特 征變量的信念值的過程為:
[0057] S1021:求出檢測序列Xn的期望值,記為8,并利用正態(tài)分布逼近策略,計算檢測序 列的標(biāo)準(zhǔn)偏差,記為O;
[0化引其中:Xn的期望值:
;k。是與樣本個數(shù)n相關(guān)的一個系數(shù),當(dāng)n大于100時約等 于1;
[0060] S1022:遍歷y = l,2,3,...,計算k = y*〇,當(dāng)檢測序列Xn的偏差<k,則停止,并將此 時的k作為網(wǎng)絡(luò)設(shè)備特征變量的信念值。
[0061] S103:根據(jù)網(wǎng)絡(luò)設(shè)備特征值的工作上限H,W及網(wǎng)絡(luò)設(shè)備達(dá)到工作上限H的時間容 忍度r,設(shè)置報警闊值h,記為h = r*化-o+k);當(dāng)特征值為板卡溫度時,該特征值的工作上限 即為:板卡溫度正常工作時上限70°C。
[0062] 本發(fā)明一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值 的獲取,可W通過網(wǎng)絡(luò)管理系統(tǒng)所提供的告警信息為基礎(chǔ),通過SNMP接收設(shè)備告警,將來自 不同設(shè)備的告警信息經(jīng)中間轉(zhuǎn)換為標(biāo)準(zhǔn)格式,存儲于告警數(shù)據(jù)庫中,對于故障報警信息將 觸發(fā)故障預(yù)測與診斷過程,對歷史數(shù)據(jù)進(jìn)行重新學(xué)習(xí)發(fā)現(xiàn)故障模式,不斷完善故障診斷信 息庫。
[0063] 本發(fā)明,采用了基于CUSUM算法的故障診斷與預(yù)測技術(shù),可W檢測到一個統(tǒng)計過程 均值的變化;該算法具有計算量小、檢測迅速、實施簡單的優(yōu)點,并且該算法可W不需要故 障樣本,就可W進(jìn)行診斷。
[0064]綜上,本發(fā)明具有突出的實質(zhì)性特點和顯著的進(jìn)步,上面結(jié)合附圖對本發(fā)明的實 施例作了詳細(xì)說明,但是本發(fā)明并不限于上述實施例,在本領(lǐng)域普通技術(shù)人員所具備的知 識范圍內(nèi),還可W在不脫離本發(fā)明宗旨的前提下作出各種變化。
【主權(quán)項】
1. 一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,其特征在于:包括以下步驟: S1:根據(jù)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,通過訓(xùn)練算法,得到網(wǎng)絡(luò)設(shè)備無故障工 作狀態(tài)下的特征參數(shù);其訓(xùn)練算法的過程為: S101:連續(xù)采集一段時間內(nèi)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,并根據(jù)特征值生成 檢測序列,記為xn; S102:根據(jù)檢測序列Χη,計算網(wǎng)絡(luò)設(shè)備特征變量的信念值,記為k; S103:根據(jù)網(wǎng)絡(luò)設(shè)備特征值的工作上限H,以及網(wǎng)絡(luò)設(shè)備達(dá)到工作上限Η的時間容忍度 r,設(shè)置報警閾值h,記為h = r*(H_〇+k),其中:σ為檢測序列的χη的標(biāo)準(zhǔn)偏差; S104:計算序列檢測序列χη快速變化到報警閾值h時的⑶SUM值,記為Ζη; S105:根據(jù)報警閾值h對檢測序列&進(jìn)行測試,將檢測序列χη無故障工作狀態(tài)下的Zj^h 進(jìn)行比較,若Zn<h;則訓(xùn)練結(jié)束,若Zn>h,則調(diào)整h值,并將調(diào)整后的h值作為新的報警閾值 h,并根據(jù)新的報警閾值h重新對檢測序列&進(jìn)行測試,直到無故障工作狀態(tài)下的Zn<h。 S2:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,通過檢測算法,對網(wǎng)絡(luò)設(shè) 備故障進(jìn)行預(yù)測并報警,其檢測算法的過程為: S201:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,并根據(jù)特征值生成序 列yn,計算序列yn的⑶SUM值,記為Zn; S202:如果yn+Zn-i-S-k < 0,則Zn = 0,否則Zn = yn+Zn-i-S-k;其中:Zn-i為網(wǎng)絡(luò)設(shè)備實際工 作狀態(tài)下的采集的前η-1個特征值生成的序列y Η的⑶SUM值; S203:將ZAh進(jìn)行比較,若Zn>h,則報警;gZn小于h,則記錄該數(shù)據(jù)后,進(jìn)入步驟S201 對下一時刻采集的網(wǎng)絡(luò)工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值進(jìn)行檢測。2. 根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,其特征在于:所述步驟 S102中計算網(wǎng)絡(luò)設(shè)備特征變量的信念值的過程包括如下步驟: S1021:求出檢測序列&的期望值,記為δ,并利用正態(tài)分布逼近策略,計算檢測序列的標(biāo) 準(zhǔn)偏差,記為〇; S1022:遍歷y = l,2,3,...,計算k = y*〇,當(dāng)檢測序列χη的偏差<k,則停止,并將此時的k 作為網(wǎng)絡(luò)設(shè)備特征變量的信念值。3. 根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,其特征在于:所述步驟 S103中,容忍度r的取值為:r=l,或r = T/t;其中,r=l,表示達(dá)到工作上限Η需要立即報警; r = T/t,表示達(dá)到工作上限Η后可繼續(xù)工作一段時間Τ后再進(jìn)行報警,t為采樣時間間隔。4. 根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,其特征在于:所述特征值 為板卡溫度,或為CHJ使用率,或為內(nèi)存使用率,或為接口丟包率,或為誤碼率。5. 根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,其特征在于:所述步驟 S101中采集一段時間內(nèi)的網(wǎng)絡(luò)設(shè)備正常工作狀態(tài)下的特征值,所述一段時間為:采集時間 大于2天,采集間隔為5分鐘。
【專利摘要】本發(fā)明一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,屬于通訊設(shè)備故障監(jiān)測的技術(shù)領(lǐng)域;解決的技術(shù)問題為:提供一種能夠?qū)W(wǎng)絡(luò)設(shè)備故障進(jìn)行智能預(yù)測、并可提前預(yù)警的網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法;采用的技術(shù)方案為:一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,包括以下步驟:首先,根據(jù)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,通過訓(xùn)練算法,得到網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征參數(shù);其次,連續(xù)采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,通過檢測算法,對網(wǎng)絡(luò)設(shè)備故障進(jìn)行檢測并報警;適用于電力系統(tǒng)。
【IPC分類】H04L12/24
【公開號】CN105634796
【申請?zhí)枴緾N201510974174
【發(fā)明人】趙昌健, 賈培偉
【申請人】山西合力創(chuàng)新科技有限公司
【公開日】2016年6月1日
【申請日】2015年12月22日