本發(fā)明公開一種服務(wù)器故障監(jiān)控的方法,涉及服務(wù)器管理領(lǐng)域。
背景技術(shù):
服務(wù)器,是提供計算服務(wù)的設(shè)備。由于服務(wù)器需要響應(yīng)服務(wù)請求,并進(jìn)行處理,因此一般來說服務(wù)器應(yīng)具備承擔(dān)服務(wù)并且保障服務(wù)的能力。服務(wù)器的構(gòu)成包括處理器、硬盤、內(nèi)存、系統(tǒng)總線等,和通用的計算機(jī)架構(gòu)類似,但是由于需要提供高可靠的服務(wù),因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴(kuò)展性、可管理性等方面要求較高。而今在競爭日益激烈的服務(wù)器市場中,服務(wù)器的可靠性成為越來越重要的指標(biāo)。服務(wù)器出現(xiàn)故障后的停機(jī)時間是服務(wù)器可靠性的重要組成部分,一般服務(wù)器出現(xiàn)故障宕機(jī)后,往往需要客服人員手動觸發(fā)各模塊故障狀態(tài)收集,但常常由于多種因素,導(dǎo)致錯誤并發(fā)造成服務(wù)器故障狀態(tài)被破壞,無法獲取有效信息。
為了解決上述問題,本發(fā)明提供一種服務(wù)器故障監(jiān)控的方法,使系統(tǒng)的管理模塊能在系統(tǒng)發(fā)生故障的瞬間感知故障,并實時收集故障狀態(tài),同時也可以記錄下錯誤發(fā)送的順序,對故障定位提供有效的幫助,提高服務(wù)器的可靠性。
pch,platformcontrollerhub是intel公司的集成南橋。
gpiogeneralpurposei/o通用輸入/輸出,或總線擴(kuò)展器,利用工業(yè)標(biāo)準(zhǔn)i2c、smbus或spi接口簡化了i/o口的擴(kuò)展。當(dāng)微控制器或芯片組沒有足夠的i/o端口,或當(dāng)系統(tǒng)需要采用遠(yuǎn)端串行通信或控制時,gpio產(chǎn)品能夠提供額外的控制和監(jiān)視功能。
技術(shù)實現(xiàn)要素:
本發(fā)明針對目前服務(wù)器出現(xiàn)故障宕機(jī)后,往往需要客服人員手動觸發(fā)各模塊故障狀態(tài)收集,但常常由于多種因素,導(dǎo)致錯誤并發(fā)造成服務(wù)器故障狀態(tài)被破壞,無法獲取有效信息的問題,提供一種服務(wù)器故障監(jiān)控的方法,對故障定位提供有效的幫助,提高服務(wù)器的可靠性。
一種服務(wù)器故障監(jiān)控的方法,將系統(tǒng)元器件的特定管腳連接到系統(tǒng)管理模塊的gpio上,當(dāng)系統(tǒng)元器件的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
所述系統(tǒng)元器件為cpu,將cpu的特定管腳連接到系統(tǒng)管理模塊的gpio上,當(dāng)系統(tǒng)cpu的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
將cpu的caterr管腳連接到管理模塊的gpio上,當(dāng)系統(tǒng)cpu的caterr管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否發(fā)生致命性錯誤,若為系統(tǒng)發(fā)生致命性錯誤,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
還將cpu的err管腳連接到管理模塊的gpio上,當(dāng)系統(tǒng)cpu的err管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否發(fā)生pcie錯誤,若為系統(tǒng)發(fā)生pcie錯誤,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
所述系統(tǒng)元器件還包括pch,并將pch的warmreset管腳連接到管理模塊的gpio上,當(dāng)pch的warmreset管腳狀態(tài)發(fā)生變化時,管理模塊通過與warmreset管腳相連的gpio獲取系統(tǒng)發(fā)生重啟信息,判斷系統(tǒng)是否為異常重啟,若是,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
一種服務(wù)器故障監(jiān)控系統(tǒng),利用所述的方法對服務(wù)器系統(tǒng)進(jìn)行改造而成,將服務(wù)器系統(tǒng)元器件的特定管腳連接到系統(tǒng)管理模塊的gpio上;當(dāng)系統(tǒng)元器件的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
所述的元器件為cpu,將cpu的特定管腳連接到系統(tǒng)管理模塊的gpio上。
將系統(tǒng)cpu的caterr管腳和/或err管腳連接到管理模塊的gpio上。
所述的元器件還包括pch,將pch的warmreset管腳連接到管理模塊的gpio上。
本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果是:
本發(fā)明提供一種服務(wù)器故障監(jiān)控的方法,將系統(tǒng)元器件的特定管腳連接到系統(tǒng)管理模塊的gpio上,當(dāng)系統(tǒng)元器件的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志;使用本發(fā)明方法,只對系統(tǒng)做很少改變,卻使系統(tǒng)的管理模塊能在系統(tǒng)發(fā)生故障的瞬間感知故障,并實時收集故障狀態(tài),同時還可以記錄下錯誤發(fā)送的順序,對故障定位提供有效的幫助,提高服務(wù)器的可靠性。
附圖說明
圖1本發(fā)明系統(tǒng)管腳連接示意圖;
圖2本發(fā)明方法流程示意圖。
圖1中w表示warmreset管腳,e表示err管腳,c表示caterr管腳。
具體實施方式
本發(fā)明提供一種服務(wù)器故障監(jiān)控的方法,將系統(tǒng)元器件的特定管腳連接到系統(tǒng)管理模塊的gpio上,當(dāng)系統(tǒng)元器件的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio獲取系統(tǒng)變化信息,判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志。
同時提供一種服務(wù)器故障監(jiān)控的系統(tǒng),利用上述的方法對服務(wù)器系統(tǒng)進(jìn)行改造而成。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,對本發(fā)明進(jìn)一步詳細(xì)說明。
利用本發(fā)明方法,對服務(wù)器系統(tǒng)進(jìn)行改造,將系統(tǒng)元器件的特定管腳連接到系統(tǒng)管理模塊的gpio上,當(dāng)系統(tǒng)元器件的特定管腳狀態(tài)發(fā)生變化時,管理模塊通過gpio可以獲取系統(tǒng)相應(yīng)的變化信息,然后判斷系統(tǒng)是否異常,若為系統(tǒng)異常,則收集系統(tǒng)故障狀態(tài)數(shù)據(jù),并記錄日志;
其中參考圖1,將各個cpu的caterr管腳連接到管理模塊的gpio上,當(dāng)系統(tǒng)caterr管腳狀態(tài)發(fā)生變化時,即系統(tǒng)發(fā)生致命性錯誤時,管理模塊通過gpio感知,則收集cpu等模塊故障狀態(tài),記錄致命錯誤日志;
同時可將各個cpu的err管腳連接到管理模塊的gpio上,當(dāng)系統(tǒng)err管腳狀態(tài)發(fā)生變化時,即系統(tǒng)發(fā)生pcie錯誤時,管理模塊通過gpio感知,收集cpu等模塊故障狀態(tài)并記錄pcie錯誤日志;
除將cpu的特定管腳連接到管理模塊的gpio上外,還可將pch的warmreset管腳連接到管理模塊的gpio上,當(dāng)系統(tǒng)發(fā)生重啟時,管理模塊通過與warmreset管腳相連的gpio感知,并判斷是否為異常重啟,若是,則收集系統(tǒng)cpu等模塊故障狀態(tài)并記錄異常重啟日志。
在上述實施例中,在主流錯誤場景下,即系統(tǒng)異常重啟,發(fā)生致命錯誤,發(fā)生pcie錯誤場景下,系統(tǒng)管理模塊可瞬間感知,自動記錄故障并收集故障狀態(tài),能有效的提高故障定位效率。
除此之外,可根據(jù)實際情況選擇元器件的特定管腳連接到管理模塊的gpio上,對系統(tǒng)異常情況進(jìn)行監(jiān)控,使系統(tǒng)管理模塊可瞬間感知,自動記錄故障并收集故障狀態(tài),能有效的提高故障定位效率。