專利名稱:一種通信設(shè)備的故障處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及故障處理技術(shù),特別涉及一種通信設(shè)備的故障處理方法。
背景技術(shù):
現(xiàn)有的通信設(shè)備的故障處理框架如圖1所示,具體包括:1、檢測(cè)到通信設(shè)備的異常;2、將異常情況記錄到故障日志中;3、將故障上報(bào)給系統(tǒng);4、系統(tǒng)進(jìn)行故障隔離;5、將故障形成告警上報(bào)給用戶。在上述故障處理框架中,檢測(cè)到異常后直接上報(bào)給用戶,容易導(dǎo)致告警閃斷或者告警不準(zhǔn)確,不利于用戶參照告警排障;故障上報(bào)后通常會(huì)做必要的故障隔離但缺乏自動(dòng)的故障自愈處理,需要用戶干預(yù)才能修復(fù)故障,故障修復(fù)不及時(shí)。
發(fā)明內(nèi)容
本發(fā)明提供了一種通信設(shè)備的故障處理方法,能夠提高故障判斷的準(zhǔn)確性。為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:—種通信設(shè)備的故障處理方法,包括:檢測(cè)到異常后進(jìn)行故障的初步判斷;若初步判斷出現(xiàn)故障,則綜合多個(gè)器件的狀態(tài)對(duì)檢測(cè)到的所述異常進(jìn)行綜合判決,確定故障類型和/或故障器件。較佳地,所述進(jìn)行故障的初步判斷為:若在預(yù)設(shè)周期內(nèi),所述異常檢測(cè)到N次,則初步判斷出現(xiàn)故障;所述N為預(yù)設(shè)的故障判定次數(shù)。較佳地,對(duì)于一個(gè)公共器件與多個(gè)獨(dú)立器件分別相連的硬件架構(gòu),所述綜合判決為:若參與檢測(cè)的所有獨(dú)立器件均檢測(cè)到相同的異常,確定所述公共器件出現(xiàn)故障,并確定故障類型;若參與檢測(cè)的多個(gè)獨(dú)立器件中僅部分獨(dú)立器件檢測(cè)到異常,確定檢測(cè)出異常的獨(dú)立器件出現(xiàn)故障,并確定故障類型。較佳地,所述硬件架構(gòu)為一個(gè)CPU和多個(gè)DSP相連,當(dāng)其中任一 DSP初步判斷故障時(shí),若其他參與本輪心跳檢測(cè)的DSP最近一次心跳檢測(cè)失敗,則綜合判決確定CPU出現(xiàn)故障;若其他參與本輪心跳檢測(cè)的DSP未出現(xiàn)心跳檢測(cè)失敗,則綜合判決確定所述任一 DSP出現(xiàn)故障。較佳地,所述硬件架構(gòu)為一個(gè)FPGA和多個(gè)DSP相連,進(jìn)行FGPA和DSP間數(shù)據(jù)通路的檢測(cè),當(dāng)其中任一 DSP檢測(cè)出與所述FGPA的數(shù)據(jù)通路故障時(shí),若其他參與本輪數(shù)據(jù)通路檢測(cè)的DSP均出現(xiàn)數(shù)據(jù)通路故障,則綜合判決確定SRIO Switch異?;騀PGA的SRIO CORE異常;若其他參與本輪數(shù)據(jù)通路檢測(cè)的DSP未出現(xiàn)數(shù)據(jù)通路故障,則綜合判決確定FGGA所述任一 DSP的SRIO異常。
較佳地,在進(jìn)行所述綜合判決后,該方法進(jìn)一步包括:根據(jù)故障類型和/或故障器件觸發(fā)執(zhí)行預(yù)設(shè)的自愈操作,若故障恢復(fù),則向用戶上報(bào)自愈事件,不向用戶上報(bào)告警。較佳地,為所述自愈操作設(shè)定最大執(zhí)行次數(shù),若自愈操作執(zhí)行的次數(shù)達(dá)到設(shè)定的所述最大執(zhí)行次數(shù),故障仍然未恢復(fù),則停止自愈操作,并隔離故障,向用戶上報(bào)告警。較佳地,在包含DSP的通信設(shè)備中,當(dāng)綜合判決結(jié)果為DSP故障時(shí),所述自愈操作為DSP復(fù)位。較佳地,所述自愈處理為:信令處理模塊觸發(fā)不同單板間以及單板內(nèi)部不同處理器模塊間的資源核查,強(qiáng)制資源對(duì)齊。由上述技術(shù)方案可見,本發(fā)明中,檢測(cè)到異常后進(jìn)行故障的初步判斷;若初步判斷出現(xiàn)故障,則綜合多個(gè)器件的狀態(tài)對(duì)檢測(cè)到的所述異常進(jìn)行綜合判決,確定故障類型和/或故障器件。通過上述處理,一方面通過預(yù)設(shè)周期內(nèi)多次異常檢測(cè)的累積進(jìn)行故障的初步判斷,避免故障閃斷和防止誤報(bào);另一方面綜合多個(gè)器件綜合判決具體的故障類型和/或故障器件,能夠準(zhǔn)確定位故障,提高故障判斷的準(zhǔn)確性。同時(shí),進(jìn)一步地,還可以根據(jù)故障類型和/或故障器件觸發(fā)執(zhí)行預(yù)設(shè)的自愈操作,從而快速從故障狀態(tài)恢復(fù)。
圖1為現(xiàn)有故障處理架構(gòu)示意圖;圖2為本發(fā)明中故障處理架構(gòu)示意圖;圖3a和圖3b為FPGA和多個(gè)DSP之間的數(shù)據(jù)通路監(jiān)測(cè)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)手段和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。本發(fā)明中,引入故障初判和故障終判環(huán)節(jié),跨器件甚至跨單板綜合判定具體故障;進(jìn)一步地,引入故障自愈操作,若自愈成功故障恢復(fù),則不再向用戶告警,僅上報(bào)自愈事件。具體地,本發(fā)明中的故障處理架構(gòu)如圖2所示,其中,陰影部分的處理是相對(duì)于圖1所示的架構(gòu)增加的部分。接下來,對(duì)該故障處理過程進(jìn)行詳細(xì)描述,如圖2所示,本發(fā)明中的故障處理方法包括:步驟201,異常檢測(cè)。對(duì)于不同的硬件系統(tǒng),存在不同的異常檢測(cè)方式。該步驟的處理與現(xiàn)有相同,這里就不再贅述。當(dāng)出現(xiàn)異常后,進(jìn)入步驟202。步驟202,對(duì)檢測(cè)出的異常進(jìn)行故障的初步判斷,即故障預(yù)判。異常發(fā)生后,為了防止誤報(bào)以及故障閃斷問題的出現(xiàn)引入故障預(yù)判環(huán)節(jié),故障預(yù)判的職責(zé)是確定特定故障的上報(bào)檢測(cè)周期以及平滑策略,例如連續(xù)多次或者一段時(shí)間內(nèi)累計(jì)多次異常,則確定出現(xiàn)故障。具體地,可以預(yù)設(shè)故障判斷次數(shù)N,當(dāng)在預(yù)設(shè)周期內(nèi)相同的異常檢測(cè)到N次,則初步判斷出現(xiàn)故障。舉個(gè)例子,對(duì)于部署有CPU和多塊DSP的單板,通常需要支持CPU和全部DSP的通信心跳握手檢測(cè)。如果CPU發(fā)送給DSP的握手消息在預(yù)定時(shí)間內(nèi)不能收到響應(yīng)消息,認(rèn)為出現(xiàn)了 DSP心跳檢測(cè)失敗的異常;故障預(yù)判可以定義為:當(dāng)某個(gè)DSP連續(xù)三次異常時(shí),認(rèn)定為一次DSP心跳檢測(cè)故障。一次CPU和DSP的之間的心跳丟失異??赡苁且?yàn)镈SP的實(shí)時(shí)操作系統(tǒng)正在處理高優(yōu)先級(jí)任務(wù)導(dǎo)致低優(yōu)先級(jí)心跳任務(wù)得不到及時(shí)調(diào)度,并非系統(tǒng)確實(shí)已經(jīng)處于故障態(tài),通過上述故障預(yù)判的定義,在一定時(shí)間內(nèi)檢測(cè)到多次異常才會(huì)判斷為出現(xiàn)故障,從而使故障預(yù)判的引入有效防止了故障的誤報(bào)。步驟203,綜合多個(gè)器件的檢測(cè)結(jié)果進(jìn)行故障終判。異常通過預(yù)判后還需要進(jìn)一步實(shí)施綜合判決,確保問題定位的準(zhǔn)確性,故障終判實(shí)現(xiàn)跨器件甚至跨板的故障聯(lián)合判決,生成的故障可能和預(yù)判故障不同,一般生成的故障比預(yù)判故障更加準(zhǔn)確。為進(jìn)行故障終判,需要根據(jù)實(shí)際的設(shè)備硬件結(jié)構(gòu),確定綜合判決時(shí)需要分析的各個(gè)器件及其狀態(tài),預(yù)設(shè)各種不同狀態(tài)所對(duì)應(yīng)的具體故障。在實(shí)際進(jìn)行故障終判時(shí),根據(jù)檢測(cè)到的異常,分析相關(guān)器件及其狀態(tài),根據(jù)預(yù)設(shè)的狀態(tài)所對(duì)應(yīng)的故障進(jìn)行故障終判,確定故障類型和/或故障器件。在通信設(shè)備中,很多系統(tǒng)或單板都存在如下結(jié)構(gòu):一個(gè)公共器件與多個(gè)獨(dú)立器件分別連接,需要檢測(cè)該公共器件分別與各個(gè)獨(dú)立器件間的通信連接是否正常。在這類硬件結(jié)構(gòu)中,進(jìn)行故障終判時(shí),若參與檢測(cè)的所有獨(dú)立器件均檢測(cè)到相同的異常,確定該公共器件出現(xiàn)故障,并確定故障類型;若參與檢測(cè)的多個(gè)獨(dú)立器件中僅部分獨(dú)立器件檢測(cè)到異常,確定檢測(cè)出異常的獨(dú)立器件出現(xiàn)故障,并確定故障類型。例如,在上述部署有CPU和多塊DSP單板的例子中,故障終判定義為:當(dāng)故障預(yù)判確定虛擬DSP出現(xiàn)故障時(shí),檢查其他參與本輪檢測(cè)的虛擬DSP,如果此時(shí)其它參與本輪檢測(cè)的虛擬DSP最近I次心跳檢測(cè)全部失敗,則判定為CPU故障;否則,對(duì)于故障預(yù)判結(jié)果為出現(xiàn)故障的DSP,綜合判決該DSP出現(xiàn)故障。一個(gè)DSP和CPU之間的心跳故障通常是DSP軟件異常導(dǎo)致;通常出現(xiàn)多次心跳檢測(cè)異常后,故障預(yù)判就會(huì)判決DSP出現(xiàn)故障;而事實(shí)上,也可能是CPU出現(xiàn)故障,通過上述故障終判的引入,在綜合分析多個(gè)DSP與CPU間的心跳檢測(cè)結(jié)果后,當(dāng)所有參與檢測(cè)的DSP與CPU間心跳檢測(cè)都失敗時(shí),就能夠確定確切的故障點(diǎn)應(yīng)該是CPU而不是DSP,因此引入故障終判可以提高故障的準(zhǔn)確性。再舉一個(gè)例子,對(duì)于如圖3a和圖3b所示的需要監(jiān)控FPGA和多個(gè)DSP之間的數(shù)據(jù)通路的場(chǎng)景,DSP和FPGA的通路異??赡苡袃煞N原因:DSPSR10異常,此時(shí)影響相關(guān)DSP與FPGA的SRIO通信;SR10 Switch異?;騀PGA的SRIO CORE異常,此時(shí)全部DSP和FPGA的數(shù)據(jù)通路都異常。當(dāng)某DSPl與FPGA間的通路出現(xiàn)故障時(shí),可以在該輪檢測(cè)中進(jìn)一步檢查其他DSP與FPGA之間的通路,若參與檢測(cè)的所有DSP與FPGA的通路均出現(xiàn)故障,則故障終判結(jié)果為SRIO Switch異常或FPGA的SRIO CORE異常;否則,故障終判結(jié)果為DSP1SR10出現(xiàn)故障。顯然,引入多個(gè)DSP SRIO的終判可以有效區(qū)分這兩種故障場(chǎng)景。步驟204,將故障終判結(jié)果記錄到故障日志中。步驟205,判斷是否定義故障自愈操作,若是,執(zhí)行步驟206進(jìn)行故障自愈,否則,執(zhí)行步驟208進(jìn)行故障上報(bào)。
步驟206,根據(jù)故障終判結(jié)果觸發(fā)執(zhí)行預(yù)設(shè)的自愈操作,若自愈成功,則執(zhí)行步驟207,否則,執(zhí)行步驟208。為了恢復(fù)故障系統(tǒng)自動(dòng)執(zhí)行的操作定義為“自愈”,故障處理架構(gòu)引入自愈處理后,對(duì)于自愈成功的故障不上報(bào)告警給用戶,但需要發(fā)送自愈成功事件用于通知用戶系統(tǒng)執(zhí)行了自愈操作;對(duì)于有限次自愈操作后仍舊不能恢復(fù)的故障需要上報(bào)告警。為了防止多次自愈處理影響系統(tǒng)的正常工作,自愈次數(shù)在一定時(shí)間內(nèi)設(shè)置次數(shù)上限,如果達(dá)到此上限不再進(jìn)行自愈動(dòng)作。根據(jù)各類不同的故障以及出現(xiàn)故障的器件,可以預(yù)先定義相應(yīng)的故障自愈操作,在故障終判出現(xiàn)某故障后,即觸發(fā)執(zhí)行相應(yīng)的故障自愈操作。對(duì)于上述部署有CPU和多塊DSP單板的例子,如果沒有自愈處理,檢測(cè)到DSP故障時(shí)的處理措施是設(shè)置DSP的操作態(tài)不可用,此處理可以達(dá)到DSP故障隔離的目的,但是直到用戶干預(yù),故障DSP都不再能夠提供服務(wù)。自愈加入后,這種場(chǎng)景軟件可以自動(dòng)觸發(fā)自愈處理,即自動(dòng)復(fù)位DSP,對(duì)于軟件運(yùn)行異常復(fù)位通??梢越鉀Q問題而無需用戶干預(yù)。由此可見,有效的自愈可以縮短業(yè)務(wù)中斷時(shí)間,提高客戶滿意度。進(jìn)一步的,有時(shí)即使執(zhí)行自愈操作,也不一定能夠恢復(fù)故障,這種情況下,為避免不斷觸發(fā)自愈操作對(duì)系統(tǒng)造成的不利影響,優(yōu)選地,可以為自愈操作設(shè)定最大執(zhí)行次數(shù),若自愈操作執(zhí)行的次數(shù)達(dá)到設(shè)定的最大執(zhí)行次數(shù),故障仍然未恢復(fù),則停止自愈操作,并隔離故障,向用戶上報(bào)告警。例如,上述部署有CPU和多塊DSP單板的例子中,如果在24小時(shí)范圍內(nèi)同一 DSP已經(jīng)執(zhí)行3次自愈但是問題依舊不能解決(如DSP自身硬件問題),則不再觸發(fā)自動(dòng)自愈,上報(bào)告警給用戶,避免不斷觸發(fā)復(fù)位對(duì)CPU的沖擊。再舉一個(gè)例子,當(dāng)檢測(cè)發(fā)現(xiàn)如下故障時(shí):不同軟件模塊對(duì)同一資源的狀態(tài)管理不一致,可以進(jìn)行如下的自愈操作:信令處理模塊會(huì)周期性觸發(fā)板間以及板內(nèi)不同處理器模塊之間的資源核查,包括但不限于無線資源、傳輸資源、功率配置、載波數(shù)量以及時(shí)隙切換點(diǎn)。如果沒有自愈處理,檢測(cè)到不一致只能上報(bào)告警給用戶,實(shí)現(xiàn)自動(dòng)強(qiáng)制資源對(duì)齊的自愈操作后,通常系統(tǒng)可以繼續(xù)正常工作,自愈完成后上報(bào)自愈事件給用戶。減少了告警的同時(shí)還避免了可能的業(yè)務(wù)中斷。步驟207,向用戶上報(bào)故障自愈事件。通過自愈操作恢復(fù)故障后,將執(zhí)行的自愈操作事件上報(bào)給用戶,并結(jié)束本次故障處理流程。步驟208,向用戶上報(bào)故障終判結(jié)果。步驟209,進(jìn)行故障后處理。步驟210,向用戶上報(bào)告警信息。步驟208-210的處理與現(xiàn)有故障處理流程中的相應(yīng)處理相同,這里就不再贅述。至此,本發(fā)明中的故障處理流程結(jié)束。由上述本發(fā)明的具體實(shí)現(xiàn)可見,本發(fā)明中,通過故障預(yù)判的引入,有效避免故障誤報(bào)及故障閃斷問題;通過故障終判的引入,準(zhǔn)確定位故障,為進(jìn)行故障處理打下良好基礎(chǔ);通過故障自愈的引入,使系統(tǒng)盡快從故障態(tài)恢復(fù),保證系統(tǒng)正常工作,減少告警。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種通信設(shè)備的故障處理方法,其特征在于,該方法包括: 檢測(cè)到異常后進(jìn)行故障的初步判斷; 若初步判斷出現(xiàn)故障,則綜合多個(gè)器件的狀態(tài)對(duì)檢測(cè)到的所述異常進(jìn)行綜合判決,確定故障類型和/或故障器件。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行故障的初步判斷為:若在預(yù)設(shè)周期內(nèi),所述異常檢測(cè)到N次,則初步判斷出現(xiàn)故障;所述N為預(yù)設(shè)的故障判定次數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)于一個(gè)公共器件與多個(gè)獨(dú)立器件分別相連的硬件架構(gòu),所述綜合判決為:若參與檢測(cè)的所有獨(dú)立器件均檢測(cè)到相同的異常,確定所述公共器件出現(xiàn)故障,并確定故障類型;若參與檢測(cè)的多個(gè)獨(dú)立器件中僅部分獨(dú)立器件檢測(cè)到異常,確定檢測(cè)出異常的獨(dú)立器件出現(xiàn)故障,并確定故障類型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述硬件架構(gòu)為一個(gè)CPU和多個(gè)DSP相連,當(dāng)其中任一 DSP初步判斷故障時(shí),若其他參與本輪心跳檢測(cè)的DSP最近一次心跳檢測(cè)失敗,則綜合判決確定CPU出現(xiàn)故障;若其他參與本輪心跳檢測(cè)的DSP未出現(xiàn)心跳檢測(cè)失敗,則綜合判決確定所述任一 DSP出現(xiàn)故障。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述硬件架構(gòu)為一個(gè)FPGA和多個(gè)DSP相連,進(jìn)行FGPA和DSP間數(shù)據(jù)通路的檢測(cè),當(dāng)其中任一 DSP檢測(cè)出與所述FGPA的數(shù)據(jù)通路故障時(shí),若其他參與本輪數(shù)據(jù)通路檢測(cè)的DSP均出現(xiàn)數(shù)據(jù)通路故障,則綜合判決確定SRIOSwitch異?;騀PGA的SRIO CORE異常;若其他參與本輪數(shù)據(jù)通路檢測(cè)的DSP未出現(xiàn)數(shù)據(jù)通路故障,則綜合判決確定FGGA所述任一 DSP的SRIO異常。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在進(jìn)行所述綜合判決后,該方法進(jìn)一步包括:根據(jù)故障類型和/或故障器件觸發(fā)執(zhí)行預(yù)設(shè)的自愈操作,若故障恢復(fù),則向用戶上報(bào)自愈事件,不向用戶上報(bào)告警。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,為所述自愈操作設(shè)定最大執(zhí)行次數(shù),若自愈操作執(zhí)行的次數(shù)達(dá)到設(shè)定的所述最大執(zhí)行次數(shù),故障仍然未恢復(fù),則停止自愈操作,并隔離故障,向用戶上報(bào)告警。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在包含DSP的通信設(shè)備中,當(dāng)綜合判決結(jié)果為DSP故障時(shí),所述自愈操作為DSP復(fù)位。
9.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,所述自愈處理為:信令處理模塊觸發(fā)不同單板間以及單板內(nèi)部不同處理器模塊間的資源核查,強(qiáng)制資源對(duì)齊。
全文摘要
本發(fā)明提供了一種通信設(shè)備的故障處理方法,包括檢測(cè)到異常后進(jìn)行故障的初步判斷;若初步判斷出現(xiàn)故障,則綜合多個(gè)器件的狀態(tài)對(duì)檢測(cè)到的所述異常進(jìn)行綜合判決,確定故障類型和/或故障器件。通過本發(fā)明,能夠提高故障檢測(cè)的準(zhǔn)確性。
文檔編號(hào)H04L12/26GK103188113SQ20111044866
公開日2013年7月3日 申請(qǐng)日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
發(fā)明者閆銳, 曾奇志, 阮茜, 陳嵐, 劉剛, 陳昊 申請(qǐng)人:鼎橋通信技術(shù)有限公司