一種多路服務(wù)器快速故障恢復(fù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多路服務(wù)器架構(gòu)技術(shù),尤其涉及一種多路服務(wù)器快速故障恢復(fù)的方法。
【背景技術(shù)】
[0002]普通的多路服務(wù)器架構(gòu),南橋芯片(PCH)的DMI總線與主CPU相連接,如圖1。在系統(tǒng)開機啟動時,PCH從B1S中獲取系統(tǒng)的設(shè)置信息、設(shè)備驅(qū)動程序和自檢程序等,并通過與主CPU之間的DMI總線來完成對所有CPU和內(nèi)存的自檢。自檢完成后,B1S會開始引導(dǎo)操作系統(tǒng),完成開機。在這種服務(wù)器結(jié)構(gòu)設(shè)計中,系統(tǒng)可以屏蔽掉故障的從CPU,但是如果主CPU出現(xiàn)故障,與PCH之間的DMI總線便無法工作,B1S程序無法加載,系統(tǒng)無法屏蔽主CPU,必須通過人工更換主CPU的方式完成故障恢復(fù),增加了服務(wù)器的宕機時間,這對于關(guān)鍵應(yīng)用的服務(wù)器來說是十分不利的。
【發(fā)明內(nèi)容】
[0003]為了解決該問題,本發(fā)明提出一種新的多路服務(wù)器的快速故障恢復(fù)的方法。
[0004]本發(fā)明的技術(shù)方案是:
PCH的DMI總線通過一個PCIE switch芯片與主CPU和一個從CPU相連接,switch芯片的切換由PCH和管理控制器(BMC)共同控制。由于DMI總線使用的是PCIE協(xié)議,因此使用PCIE switch芯片可以保證DMI總線的信號完整。在這種設(shè)計下,當從CPU出現(xiàn)故障時,系統(tǒng)可將該從CPU屏蔽;當主CPU出現(xiàn)故障時,B1S或者BMC會自動將DMI總線切換至從CPU下,并且屏蔽掉故障的主CPU,使得系統(tǒng)能夠快速從故障中恢復(fù),即實現(xiàn)了服務(wù)器中任何一個CPU的故障屏蔽,大幅降低服務(wù)器的故障恢復(fù)時的宕機時間,將因CPU故障導(dǎo)致系統(tǒng)宕機造成的損失降到最低。使用PCH和BMC雙控切換的方式可以保證switch芯片在主CPU出現(xiàn)故障時可以穩(wěn)定和快速切換。
[0005]switch芯片的控制信號由PCH的GP1端口和BMC共同控制,通過控制信號來選擇PCH的DMI總線連接到主CPU或者從CPU。
[0006]Switch芯片默認選擇主CPU的DMI總線,控制信號為高電平,默認狀態(tài)下PCH的GP1端口和BMC均釋放對該控制信號的控制權(quán);當在系統(tǒng)運行時主CPU出現(xiàn)故障后,BMC會檢測到主CPU的故障,并自動將控制信號拉低,并進行一次系統(tǒng)重啟,重啟后完成DMI總線的切換。
[0007]當在系統(tǒng)開機自檢時主CPU出現(xiàn)故障,B1S會自動根據(jù)CPU的自檢代碼進行響應(yīng),控制PCH的GP1端口拉低switch芯片的控制信號,切換到從CPU并進行熱重啟重新自檢,完成DMI總線的切換。
[0008]這種設(shè)計方法使得當主CPU出現(xiàn)故障時,B1S或者BMC會自動將DMI總線切換至從CPU下,并且屏蔽掉故障的主CPU,使得系統(tǒng)能夠快速從故障中恢復(fù),大幅降低服務(wù)器的故障恢復(fù)時的宕機時間,將因CPU故障系統(tǒng)宕機造成的損失降到最低。
【附圖說明】
[0009]圖1是現(xiàn)有技術(shù)的連接結(jié)構(gòu)示意圖。
[0010]圖2是本發(fā)明的連接結(jié)構(gòu)示意圖。
【具體實施方式】
[0011]下面對本發(fā)明的內(nèi)容進行更加詳細的闡述:
如圖2所示,
1、該發(fā)明由主CPU、從CPU、switch芯片、PCH和BMC組成;
2、主CPU和從CPU的DMI總線都連接到switch芯片上,芯片的另一端連接到系統(tǒng)的PCH, switch芯片的控制信號由PCH的GP1端口和BMC共同控制,通過控制信號來選擇PCH的DMI總線連接到主CPU或者從CPU ;
3、Switch芯片默認選擇主CPU的DMI總線(控制信號為高電平),默認狀態(tài)下PCH的GP1端口和BMC均釋放對該控制信號的控制權(quán)。當在系統(tǒng)OS運行時主CPU出現(xiàn)故障后,BMC會檢測到主CPU的故障,并自動將控制信號拉低,并進行一次系統(tǒng)重啟,重啟后完成DMI總線的切換;
4、當在系統(tǒng)開機自檢時主CPU出現(xiàn)故障,B1S會自動根據(jù)CPU的自檢代碼進行響應(yīng),控制PCH的GP1端口拉低switch芯片的控制信號,切換到從CPU并進行熱重啟重新自檢,完成DMI總線的切換。
【主權(quán)項】
1.一種多路服務(wù)器快速故障恢復(fù)的方法,其特征在于, PCH的DMI總線通過一個PCIE switch芯片與主CPU和一個從CPU相連接,switch芯片的切換由PCH和BMC共同控制;當從CPU出現(xiàn)故障時,系統(tǒng)將該從CPU屏蔽;當主CPU出現(xiàn)故障時,B1S或者BMC自動將DMI總線切換至從CPU下,并且屏蔽掉故障的主CPU,使得系統(tǒng)能夠快速從故障中恢復(fù),即實現(xiàn)了服務(wù)器中任何一個CPU的故障屏蔽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,switch芯片的控制信號由PCH的GP1端口和BMC共同控制,通過控制信號來選擇PCH的DMI總線連接到主CPU或者從CPU。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,Switch芯片默認選擇主CPU的DMI總線,控制信號為高電平,默認狀態(tài)下PCH的GP1端口和BMC均釋放對該控制信號的控制權(quán);當在系統(tǒng)運行時主CPU出現(xiàn)故障后,BMC會檢測到主CPU的故障,并自動將控制信號拉低,并進行一次系統(tǒng)重啟,重啟后完成DMI總線的切換。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,當在系統(tǒng)開機自檢時主CPU出現(xiàn)故障,B1S會自動根據(jù)CPU的自檢代碼進行響應(yīng),控制PCH的GP1端口拉低switch芯片的控制信號,切換到從CPU并進行熱重啟重新自檢,完成DMI總線的切換。
【專利摘要】本發(fā)明提供一種多路服務(wù)器快速故障恢復(fù)的方法,涉及多路服務(wù)器架構(gòu)技術(shù),發(fā)明讓PCH的DMI總線通過一個PCIE switch芯片與主CPU和一個從CPU相連接,switch芯片的切換由PCH和BMC共同控制;當從CPU出現(xiàn)故障時,系統(tǒng)將該從CPU屏蔽;當主CPU出現(xiàn)故障時,BIOS或者BMC自動將DMI總線切換至從CPU下,并且屏蔽掉故障的主CPU,使得系統(tǒng)能夠快速從故障中恢復(fù),即實現(xiàn)了服務(wù)器中任何一個CPU的故障屏蔽。降低服務(wù)器的故障恢復(fù)時的宕機時間,將因CPU故障系統(tǒng)宕機造成的損失降到最低。
【IPC分類】H04L12-24
【公開號】CN104579802
【申請?zhí)枴緾N201510080647
【發(fā)明人】王巖, 薛廣營, 黃小東
【申請人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開日】2015年4月29日
【申請日】2015年2月15日