專利名稱:信息處理裝置、故障處理方法、程序及其記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于處理在硬件資源中發(fā)生的故障的技術(shù),其中所述硬 件資源是由例如安裝在服務(wù)器系統(tǒng)等中的分區(qū)功能創(chuàng)建的多個物理分區(qū)所 劃分和共享的。
背景技術(shù):
用于骨干系統(tǒng)的服務(wù)器系統(tǒng)要求高的資源(硬件資源)利用性和資源使 用的靈活性。為了達(dá)到這些目的,傳統(tǒng)的服務(wù)器系統(tǒng)利用例如一種物理分區(qū) 功能(其將硬件資源分成多個物理分區(qū)并共享這些物理分區(qū))和一種分區(qū)功 能(其任意地組合通過由所述物理分區(qū)功能劃分而創(chuàng)建的物理分區(qū)),以創(chuàng) 建多個獨立分區(qū)。因此,這些功能使服務(wù)器系統(tǒng)能夠在不受硬件限制的情況 下使用資源。圖6是用于解釋在傳統(tǒng)服務(wù)器系統(tǒng)中執(zhí)行的物理分區(qū)功能和分區(qū)功能的 示圖,并且示出根據(jù)ASIC (專用集成電路)和固件的屬性為硬件資源分配 和信息分布執(zhí)行和交互功能的實例。在圖6所示的實例中,服務(wù)器200包括硬件管理單元201,并且服務(wù)器 200能夠通過物理分區(qū)功能將硬件資源(例如存儲器,PCI (外設(shè)部件互連) 卡和芯片集)劃分成多個(在圖6所示的實例中為m,其中m是自然數(shù)) XPAR (擴(kuò)充分區(qū))202-1, 202-2,…,202-m。XPAR202-1, 202-2, ..., 202-m中的每一個都是通過對例如SB (系統(tǒng) 主板)/IOU (輸入輸出單元)的硬件資源(模塊)劃分而形成,并且將劃分 的硬件資源重新組合成分區(qū)結(jié)構(gòu)。在下文中,由標(biāo)號202-1, 202-2,...或者 202-m表示一個特定的XPAR,以從剩余的XPAR中區(qū)別出該特定的XPAR, 但是可由標(biāo)號202表示任一 XPAR。在圖6中所示的實例將例如ASIC 203的硬件資源進(jìn)行劃分,以將劃分 的硬件資源結(jié)合到XPAR 202中。
此外,在圖6中,在多個(在圖6所示的實例中為n+l,其中n是整數(shù)) 分區(qū)塊P0到Pn中使用多個XPAR 202 ,并且例如分區(qū)塊P0共同地利用XPAR 202-1和202-2;并且分區(qū)塊Pn在上述的分區(qū)功能的幫助下利用XPAR 202-m。在下文中,由標(biāo)號PO, Pl, P2,...或者Pn表示一個特定的分區(qū)塊,以 從剩余的分區(qū)塊中區(qū)別出該特定的分區(qū)塊,但是可由標(biāo)號P表示任一分區(qū)塊。分區(qū)塊是OS (操作系統(tǒng))205用以操作的單元,因此每一個分區(qū)塊P 應(yīng)該包括至少一個處理器。硬件管理單元201管理電源的開/關(guān)和服務(wù)器200的錯誤信息,并且還包 括例如服務(wù)處理器。此外,利用如在圖6中表示的物理分區(qū)功能和分區(qū)功能的服務(wù)器200必 須準(zhǔn)確分析和通知與服務(wù)器200的其中一個硬件資源發(fā)生的故障相關(guān)的故障 信息,類似于服務(wù)器200關(guān)閉物理分區(qū)功能的情況。當(dāng)激活物理分區(qū)功能時,服務(wù)器200通過例如ASIC 203、權(quán)衡可靠性、 安裝、成本以及與其它功能的適應(yīng)性來管理和劃分硬件資源,以及向固件204 提供包括該錯誤信息的資源管理信息。為每一個分區(qū)塊P而執(zhí)行的固件 (F/W) 204在需要的情況下分析錯誤信息并且通過發(fā)送錯誤信息給例如OS 205的上層來管理故障,從而硬件故障較少會影響到分區(qū)塊。這使得服務(wù)器 200能夠靈活地擴(kuò)充功能。當(dāng)通過使用物理分區(qū)功能將硬件資源分成多個物理分區(qū)時,作為物理分 區(qū)的結(jié)果而被創(chuàng)建的物理分區(qū)被分類成獨立使用的硬件資源(在下文中被稱 作獨占資源)和被其它硬件資源共享的硬件資源(在下文中被稱作共享資 源)。[專利參考文獻(xiàn)1]日本專利申請?zhí)亻_No.2002-229806[專利參考文獻(xiàn)2]日本專利申請?zhí)亻_No.2004-62535然而,當(dāng)在激活與ASIC 30和固件204互連的物理分區(qū)功能時檢測關(guān)于 ASIC電平的故障期間,作為ASIC 203的派生物的劃分結(jié)果而創(chuàng)建的s個物 理分區(qū)(XPAR202)(其中S是2或更大的整數(shù),在圖6中所示的實例中s 是2,即包括XPAR202-1和202-2)被假定作為獨立的分區(qū)塊被共同操作。 如果在由XPAR 202-1和XPAR 202-2共享的硬件資源(共享硬件資源)上 發(fā)生故障,或者在獨占資源等上產(chǎn)生的故障傳播至XPAR 202-1和XPAR202-2,則XPAR 202-1和XPAR 202-2分別發(fā)出各自的故障報告,因此在ASIC 203記錄了冗余的故障報告。換句話說,根據(jù)例如激活物理分區(qū)功能的這種傳統(tǒng)的故障處理方法,在 ASIC 30中記錄了與作為劃分結(jié)果而被創(chuàng)建的物理分區(qū)數(shù)量一樣多的s條冗 余故障報告,并且固件204利用記錄的故障報告的信息來分析故障,并且還 額外地向OS 205和/或硬件管理單元201發(fā)送故障。結(jié)果,這就使OS 205 和/或硬件管理單元201不能管理準(zhǔn)確數(shù)量的故障事件,也不能被合適地維 護(hù)。此外,固件204管理的精確的故障事件也存在問題。例如,專利參考文獻(xiàn)1公開了這樣一種技術(shù),即通過使用在運行有兩個 或更多OS的開放式系統(tǒng)的計算機的OS上運行的管理代理和管理控制臺, 而在硬件和軟件上發(fā)生故障管理。在專利文獻(xiàn)1中公開的方式涉及一種虛擬技術(shù),其中通過例如構(gòu)件的軟 件來執(zhí)行用于硬件資源分配和信息分布的所有功能。也就是,參考文獻(xiàn)公開 了關(guān)于在軟件水平上的服務(wù)器硬件資源的虛擬劃分方法,因此該方法不會應(yīng) 用到物理地劃分硬件資源的物理分區(qū)功能。還有另外一個問題,專利參考文 獻(xiàn)1中的方法增加了在固件上的負(fù)載并且需要額外OS以完成虛擬。另外,由于專利參考文獻(xiàn)1中的方法通過使用在OS上運行的管理代理 或管理控制臺執(zhí)行關(guān)于故障事件的管理,所以在OS上的負(fù)載會增加以及對 于管理控制的需求增加了服務(wù)器的制造成本。另外,因為管理代理是由用戶在OS上運行,所以服務(wù)器賣家不能保證 故障管理。專利參考文獻(xiàn)2涉及多處理器系統(tǒng)的故障處理方法,其中所述多處理器 系統(tǒng)使用通過結(jié)合多個節(jié)點而形成的大規(guī)模平臺。在該方法中,如果在一個 節(jié)點發(fā)生故障,那么該故障節(jié)點向服務(wù)處理器通知故障事件,并且服務(wù)處理 器向服務(wù)處理器管理器通知該故障事件。為此,該專利必須為每一個節(jié)點提供一個服務(wù)處理器,并且需要服務(wù)處 理器管理器共同地控制這些服務(wù)處理器,從而導(dǎo)致了制造成本的增加。發(fā)明內(nèi)容有鑒于此,本發(fā)明提供一種能夠在分區(qū)模式下運行的信息處理裝置,在
所述信息處理裝置中將硬件資源分成多個物理分區(qū),并且所述多個物理分區(qū) 中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,其目的在于在共享硬件資源中 發(fā)生的故障不會被過度地報告,可掌握故障事件的準(zhǔn)確數(shù)量,以及能夠以低 制造成本實現(xiàn)服務(wù)器。為獲得上述目的,作為第一普通特征,提供了一種能夠在分區(qū)模式下運 行的信息處理裝置,在所述信息處理裝置中將硬件資源分成多個物理分區(qū), 并且所述多個物理分區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述信 息處理裝置包括分區(qū)模式信息保持部,用于保持關(guān)于所述信息處理裝置是 否在分區(qū)模式下運行的分區(qū)模式信息;硬件資源管理信息保持部,用于在所 述信息處理裝置在分區(qū)模式下時保持關(guān)于所述硬件資源的共享狀態(tài)的硬件 資源管理信息;故障通知部,為所述多個物理分區(qū)中的每一個物理分區(qū)分別 配置一個所述故障通知部,所述故障通知部用于檢測在硬件資源中的故障事 件并輸出所述故障事件的檢測結(jié)果;運行模式檢測部,用于根據(jù)在所述分區(qū) 模式信息保持部(30)中保持的分區(qū)模式信息來檢測所述信息處理裝置是否 在分區(qū)模式下運行;共享硬件資源判斷部,用于根據(jù)在所述硬件資源管理信 息保持部(51)中保持的硬件資源管理信息來判斷由所述故障通知部(103) 已經(jīng)檢測到故障事件的硬件資源是否被每一個所述物理分區(qū)和所述多個物 理分區(qū)中另一物理分區(qū)共享;以及共同故障報告創(chuàng)建部,用于在所述運行模 式檢測部檢測到所述信息處理裝置在分區(qū)模式下運行并且由所述共享硬件 資源判斷部判斷的結(jié)果是肯定的情況下,根據(jù)在每一個所述物理分區(qū)中的所 述故障通知部所輸出的故障事件的檢測結(jié)果以及在所述另一物理分區(qū)中的 故障通知部所通知的故障事件的檢測結(jié)果來創(chuàng)建共同故障報告。作為第二普通特征, 一種故障處理方法,用于能夠在分區(qū)模式下運行的 信息處理裝置中,在所述信息處理裝置中將硬件資源分成多個物理分區(qū),并 且所述多個物理分區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述故障 處理方法包括下列步驟(a)在所述多個物理分區(qū)的每一個物理分區(qū)中檢 測在所述硬件資源中的故障事件并且輸出所述故障事件的檢測結(jié)果;(b) 根據(jù)關(guān)于所述信息處理裝置是否在分區(qū)模式下運行的分區(qū)模式信息檢測所 述信息處理裝置是否在分區(qū)模式下運行;(c)根據(jù)當(dāng)所述信息處理裝置在 分區(qū)模式下時的關(guān)于所述硬件資源的共享狀態(tài)的硬件資源管理信息判斷在 檢測處理和輸出處理的所述步驟(a)中已經(jīng)輸出故障事件的硬件資源是否 由所述多個物理分區(qū)中的兩個或更多個共享;以及如果在檢測處理的所述步驟(b)中檢測到所述信息處理裝置在分區(qū)模式下運行并且在判斷處理的所述步驟(c)中的判斷結(jié)果是肯定的,則根據(jù)從所述兩個或更多個物理分區(qū)輸出的故障事件的檢測結(jié)果創(chuàng)建共同故障報告。作為第三普通特征, 一種故障處理程序,其指示能夠在分區(qū)模式下運行 的計算機執(zhí)行下列步驟,在所述計算機中將硬件資源分成多個物理分區(qū),并 且所述多個物理分區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述步驟包括(a)在所述多個物理分區(qū)的每一個物理分區(qū)中檢測在所述硬件資源 中的故障事件并且輸出所述故障事件的檢測結(jié)果;(b)根據(jù)關(guān)于所述計算 機是否在分區(qū)模式下運行的分區(qū)模式信息檢測所述計算機是否在分區(qū)模式 下運行;(c)根據(jù)當(dāng)所述計算機在分區(qū)模式下時的關(guān)于所述硬件資源的共 享狀態(tài)的硬件資源管理信息判斷在檢測處理和輸出處理的所述步驟(a)中 已經(jīng)輸出故障事件的硬件資源是否由所述多個物理分區(qū)中的兩個或更多個 共享;以及(d)如果在檢測處理的所述步驟(b)中檢測到所述計算機在分 區(qū)模式下運行并且在判斷處理的所述步驟(c)中的判斷結(jié)果是肯定的,則 根據(jù)從所述兩個或更多個物理分區(qū)輸出的故障事件的檢測結(jié)果創(chuàng)建共同故 障報告。作為第四個普通特征,提供了一種計算機可讀記錄介質(zhì),在所述介質(zhì)中 記錄有上面已經(jīng)提到過的故障處理程序。 本發(fā)明保證了下面的優(yōu)點。(1) 如果檢測到在分區(qū)模式下運行并且判斷出已經(jīng)輸出故障事件的硬 件資源是共享硬件資源,則根據(jù)從共享所述共享硬件的多個物理分區(qū)中所輸 出的故障事件的檢測結(jié)果創(chuàng)建共同故障報告。從而可以消除冗余的故障通知 并且能輸出與在硬件資源中發(fā)生的故障實際數(shù)量相同的故障報告。本發(fā)明能 管理故障事件的準(zhǔn)確頻率,從而改善可靠性。(2) 本發(fā)明的故障處理能夠在不需要專用裝置或部件的情況下實現(xiàn), 所述信息處理裝置能在不增加成本的情況下制造,因此很經(jīng)濟(jì)。當(dāng)結(jié)合所附附圖閱讀時,根據(jù)下列的具體描述,本發(fā)明的其它目的和特 征將會很明顯。
圖1是示意性示出根據(jù)本發(fā)明的第一實施例的執(zhí)行故障處理方法的服務(wù) 器功能框圖;圖2是示意性示出根據(jù)第一實施例的服務(wù)器的硬件結(jié)構(gòu)邏輯框圖; 圖3是示出圖2的服務(wù)器的資源信息實例圖表;圖4是示出在發(fā)生故障事件的情況下執(zhí)行的一系列過程步驟的流程圖; 圖5是示意性示出根據(jù)第一實施例的服務(wù)器的分區(qū)塊結(jié)構(gòu)的實例示圖;以及圖6是示出用于服務(wù)器系統(tǒng)的傳統(tǒng)物理分區(qū)功能和傳統(tǒng)分區(qū)功能的示圖。
具體實施方式
(a)第一實施例以下將參照附圖描述本發(fā)明的第一 實施例。圖1是示意性地示出根據(jù)本發(fā)明第一實施例的執(zhí)行故障處理方法的服 務(wù)器(信息處理裝置)的功能框圖;圖2是示出圖1的服務(wù)器的硬件結(jié)構(gòu)的 邏輯框圖。服務(wù)器100例如可以是在骨干系統(tǒng)中使用的信息處理裝置(計算機), 并且服務(wù)器100的每一個功能由執(zhí)行固件(F/W) 10和其它程序的CPU 53 (見圖2)或者OS (操作系統(tǒng))20執(zhí)行。服務(wù)器100具有能夠?qū)⒂布Y源(例如存儲器,PCI (外設(shè)部件互連) 卡和芯片集)劃分成多個(在圖1的實例中為m,其中m是自然數(shù))XPAR (擴(kuò)充的分區(qū)物理分區(qū))102-1, 102-2,…102-m的物理分區(qū)功能,以及 能夠通過任意重新組合由該物理分區(qū)功能所分區(qū)的多個物理分區(qū)從而形成 多個獨立分區(qū)塊的分區(qū)功能。XPAR 102-1, 102-2, ...102-m是具有分區(qū)結(jié)構(gòu)的物理分區(qū),即將結(jié)合 在服務(wù)器100中的例如SB (系統(tǒng)主板)/IOU (輸入輸出單元)的硬件資源 劃分成的分區(qū)結(jié)果。例如,通過物理地劃分例如ASIC (專用集成電路)30 的硬件資源而形成XPAR 102-1, 102-2, ...102-m,如圖1中表示。在下文
中,由標(biāo)號102-1, 102-2,...或者102-m表示一個特定的XPAR,以從剩余 的XPAR中區(qū)別出該特定的XPAR,但是可由標(biāo)號102表示任一 XPAR。服務(wù)器IOO通過使用上面描述的分區(qū)功能任意地組合多個XPAR 102, 從而形成多個(在圖l所示的實例中為n+l,其中n是整數(shù))的分區(qū)塊(在 圖1所示的實例中從PO到Pn)。例如,分區(qū)塊PO共同地利用XPAR 102-1 和102-2;并且分區(qū)塊Pn利用XPAR 102誦m。服務(wù)器100能任意地設(shè)置上述分區(qū)功能的激活/關(guān)閉。在下文中,分區(qū)功 能是激活的并且兩個或更多的XPAR 102 (例如在圖1中的實例為102-1和 102-2)作為獨立的分區(qū)塊共同地運行的這種狀態(tài)通常被稱作在分區(qū)模式下運 行。分區(qū)功能的激活/關(guān)閉被看作是分區(qū)模式信息,如下所述,通過ASIC 30 管理該分區(qū)模式信息并且將分區(qū)模式信息保持在ASIC 30內(nèi)。在下文中,由標(biāo)號PO, Pl, P2,...或者Pn表示一個特定的分區(qū)塊,以從剩余的分區(qū)塊中區(qū)別出該特定的分區(qū)塊,但是可由標(biāo)號P表示任一分區(qū)塊。 分區(qū)塊是OS 20用以操作的單元,因此每一個分區(qū)塊P應(yīng)該包括至少一 個CPU 53。如圖1所示,服務(wù)器IOO包括硬件管理單元101,其執(zhí)行系統(tǒng)管理(例 如在服務(wù)器100中的每一個硬件塊的電源控制)和在硬件中的溫度和電壓的 環(huán)境監(jiān)控,在這種情況下所述硬件管理單元配備有服務(wù)處理器(未示出)和 其它的裝置。此外,硬件管理單元101管理在服務(wù)器100中的故障事件,并 且SB (系統(tǒng)主板,稍后詳述)50 (見圖2)中的至少一個將另一個SB50作 為故障SB 50的替代者來控制重啟服務(wù)器100。ASIC 30是使服務(wù)器100實現(xiàn)用于服務(wù)器的功能的集成電路,并且共同 地表示在服務(wù)器100中結(jié)合的各ASIC (專用集成電路,見圖2)。如圖2所示,服務(wù)器100包括通過交叉開關(guān)60互連的多個SB 50和多 個IOU 70。SB 50是在上面配置有CPU (中央處理器)53a和53b以及DIMM (雙 列直插內(nèi)存模塊)51a和51b的單元,并且如圖2所示,除了多個(在圖2 中的實例中為2)的CPU 53a和53b以及多個(在圖2中的實例中為2)的 DIMM 51a和51b之外,SB 50還包括NB (北橋芯片)54和MLDS (存儲器和邏輯數(shù)據(jù)開關(guān))52。圖2示出其中一個SB 50以及其中一個IOU 70的詳細(xì)硬件結(jié)構(gòu),并且 為了方便省略了剩余的SB 50和剩余的IOU 70的結(jié)構(gòu)。CPU 53a和53b的每一個通過執(zhí)行和算術(shù)操作程序來實現(xiàn)服務(wù)器的功 能,并且DIMM 51a和51b是存儲器,在其中臨時存儲并擴(kuò)展多種程序(命 令)和數(shù)據(jù)以通過CPU53a和53b執(zhí)行程序。在下文中,由標(biāo)號53a或者53b表示一個特定的CPU,以從剩余的CPU 中區(qū)別出該特定的CPU,但是可由標(biāo)號53表示任一 CPU。在下文中,由標(biāo)號51a或者51b表示一個特定的DIMM,以從剩余的 DIMM中區(qū)別出該特定的DIMM,但是可由標(biāo)號51表示任一 DIMM。NB 54禾Q MLDS 52是連接CPU 53a和53b、 DIMM 51a和51b以及10 控制器以實現(xiàn)由服務(wù)器100的控制的芯片集。NB 54是控制CPU 53a和53b 的ASIC,其用作北橋芯片,并且其通過用作接口的FSB (前端總線)55與 CPU 53a和53b中的每一個相連接。MLDS 52是控制DIMM 51a和51b的ASIC。在圖2中所示的實例包括 四個MLDS 52,它們實現(xiàn)在DIMM 51a和51b、 NB 54和交叉開關(guān)60之間 的數(shù)據(jù)交換。1OU70是將例如LAN或者硬盤驅(qū)動器的外圍裝置(未標(biāo)示)連接到服 務(wù)器100上的單元,并且如圖2所示,其包括SBRG (南橋芯片)71、 PCIEPL (PCI Express物理層)72和78、 IOC (輸入輸出控制器)73a和73b、 PHX 74a 和74b 、 SCSI/GbLAN 76a和76b 、 PCI卡77和PCI盒79。SBRG 71、 PCIEPL 72和78中的每一個都是控制高速IO (輸入輸出) 控制接口(PCI-Express)的ASIC。SBRG 71用作南橋芯片并且控制從CPU 53a 和53b到外圍裝置的訪問以及從外圍裝置到CPU 53a和53b的數(shù)據(jù)傳遞 (DMA:直接存儲器訪問)。PCIEPL 72和78用作PCI-E物理層。IOC 73a和73b中的每一個都是10控制芯片并且具有管理LAN、定吋 器等的功能。PHX 74a和74b將PCI-Express轉(zhuǎn)換到PCI總線橋上并且用作 PCI Express集線器。SCSI/GbLAN 76a和76b是以例如SCSI (小型計算機系統(tǒng)接口 )卡或者 LAN (吉比特LAN)卡的形式的IO接口,并且被連接到例如硬盤驅(qū)動器的 裝置上,以確定為SCSI標(biāo)準(zhǔn),或者連接到LAN電纜等。為了方便,圖2的 實例示出通過相同的IO接口單元的SCSI接口和LAN接口。但是,這些接 口不應(yīng)限制為只采取一個單獨的接口單元,并且可提出多種修改??蛇x擇地, SCSI接口和LAN接口可以分別安裝在每一個IOU中。PCI卡77是基于PCI標(biāo)準(zhǔn)的10接口并且與符合PCI標(biāo)準(zhǔn)的多個裝置相 連接。PCI盒79是用以增加可與IOU相連接的PCI裝置數(shù)量的擴(kuò)充盒。交叉開關(guān)60與SB 50和IOU 70互連,并且包括地址交叉和數(shù)據(jù)交叉(都 未示出)。在圖2中所示的實例中,通過上述的物理分區(qū)功能將SB 50劃分成XSB 501a和XSB 501b,以將DIMM 51a和CPU 53a包括在XSB 501a中,以及 將DIMM 51b和CPU 53b包括在XSB 501b中。然而,由XSB 501a和XSB 501b共享MLDS 52和NB 54。換句話說,在SB50中,DIMM 51a和CPU 53a是由XSB 501a獨占的獨 占資源(獨占硬件資源);DIMM 51b和CPU 53b是由XSB 501b獨占的獨 占資源。MLDS 52和NB 54是由XSB 501a和XSB502b共享的共享資源(共 享硬件資源)。XSB是LSB的名稱,所述LSB是兩個由XPAR (擴(kuò)充功能)創(chuàng)建的LSB 中的一個。在下文中,由標(biāo)號501a或者501b表示一個特定的XSB,以從剩 余的XSB中區(qū)別出該特定的XSB,但是可由標(biāo)號501表示任一 XSB。同時,通過上述的物理分區(qū)功能將IOU 70分成LIOU 701a和LIOU 701b。在IOU 70上執(zhí)行物理分區(qū),以將IOC 73a、 PHX 74a以及SCSI/GbLAN 76a包括在LIOU 701a中,而將IOC 73b、 PHX 74b以及SCSI/GbLAN 76b 包括在LIOU 701b中。另外,在LIOU 701a和LIOU 701b之間共享SBRG 71 、 PCIEPL 72禾卩78、 PCI卡77和PCI盒79。簡要地說,在IOU 70中,IOC 73a、 PHX 74a以及SCSI/GbLAN 76a是 由LIOU 701a獨占的獨占資源;并且相似地,IOC 73b、 PHX 74b以及 SCSI/GbLAN 76b是由LIOU 701b獨占的獨占資源。LIOU表示IOU的分區(qū)粒度。在下文中,由標(biāo)號701a或者70ib表示一 個特定的LIOU,以從剩余的LIOU中區(qū)別出該特定的LIOU,但是可由標(biāo)號 701表示任一LIOU。
在本實施例中,沒有被進(jìn)行分區(qū)的IOU為了方便表示為IOU,這樣是為了從通過劃分IOU而創(chuàng)建的LIOU中區(qū)別出來。例如,在圖2中的MLDS 52、 NB 54、 SBRG 71禾l] PCIEPL 72在圖1中 被統(tǒng)稱為ASIC 30。ASIC 30具有故障通知功能,這種功能檢測在硬件資源中的故障事件(在 圖1的E點)并且輸出故障事件的檢測結(jié)果。如果故障發(fā)生正在ASIC 30的 硬件資源派生物中,則ASIC30在其中記錄故障信息(例如,故障事件點以 及細(xì)節(jié)(錯誤代碼)等)并且輸入陷阱(trap)到存在錯誤的XSB或LIOU 所屬的結(jié)合到分區(qū)塊P的CPU 53中,作為故障事件的通知。此外,ASIC30在主LSB的NB54的寄存器(未圖示)中存儲錯誤強度 和故障點數(shù)據(jù),并且向固件10中輸入中斷。主LSB是分區(qū)塊的起始地址所分配的LSB,而且是故障事件所在的硬件 資源的LSB派生物。LSB表示SB 50的分區(qū)粒度。在XPAR分區(qū)模式過程中(在激活物理分 區(qū)功能的操作中)LSB等于XSB (LSB=XSB);并且在非分區(qū)模式過程中 (在關(guān)閉物理分區(qū)功能的操作中)LSB等于PSB (LSB-PSB) 。 PSB是在沒 有分割XPAR的情況下被用作單獨的LSB的SB 50的名稱。ASIC 30為每一個XPAR 102輸出故障事件通知并且因此用作故障通知 部103,為每一個XPAR102都提供一個故障通知部,用于檢測在硬件資源 中的故障事件以及輸出故障事件的檢測結(jié)果。在硬件資源中由ASIC30檢測到的故障可能是發(fā)生(源自)在存在問題 的硬件資源中的故障,也可能是源自另一個硬件資源并且被傳播至存在問題 的硬件資源的故障。ASIC30檢測任一個故障,并且向固件IO通知故障事件 的檢測結(jié)果。固件10是實現(xiàn)(服務(wù)器100的)多種功能的程序,并且被存儲在在SB 50上安裝的以及由安裝在每一個XSB 501中的CPU 53執(zhí)行的ROM (只讀 存儲器)芯片等中。特別地,除了實現(xiàn)上面詳述的物理分區(qū)功能和分區(qū)功能的程序外,固件 IO還是使得服務(wù)器IOO用作以下部件的程序,包括硬件資源管理信息管理 部12、運行模式檢測部13、共享硬件資源判斷部14以及共同故障報告創(chuàng)建
部15。在服務(wù)器100中的每一個CPU 53執(zhí)行固件10,因此也用作下列部件,包括硬件資源管理信息管理部12、運行模式檢測部13、共享硬件資源判斷部14以及共同故障報告創(chuàng)建部15,如圖1所示。在圖1中,為了方便,省略在分區(qū)塊Pn中的硬件資源管理信息管理部 12、運行模式檢測部13、共享硬件資源判斷部14以及共同故障報告創(chuàng)建部 15的功能以及在XPAR 102中的故障同志部103的功能。固件10可以以上述以被存儲在安裝到ASIC 30上的ROM芯片內(nèi)的形式 配置,可選擇地也可以以記錄在計算機可讀記錄介質(zhì)(例如軟盤、CD (例如 CD-ROM、 CD-R、 CD-RW) 、 DVD (例如DVD -ROM、 DVD-RAM、 DVD-R、 DVD+R、 DVD-RW、 DVD+RW)、磁盤、光盤或者磁光盤)的形式配置。 此外,服務(wù)器100可以從記錄介質(zhì)中讀取固件10并且發(fā)送已讀固件10到內(nèi) 部存儲器或者外部存儲器以用于存儲。此外可選擇地,固件10可以記錄在 存儲器裝置(記錄介質(zhì))中,例如磁盤、光盤或者磁光盤,并且固件10可 通過通信路徑從存儲器裝置提供到服務(wù)器100。為了實現(xiàn)硬件資源管理信息管理部12、運行模式檢測部13、共享硬件 資源判斷部14以及共同故障報告創(chuàng)建部15的功能,在服務(wù)器100中的微處 理器(在所示的實例中為CPU 53)執(zhí)行存儲在內(nèi)部存儲器(在所示的實例 中為ROM芯片)中的固件IO。此時,可以由讀取存儲在記錄介質(zhì)中的固件 10的服務(wù)器來完成該執(zhí)行處理。這里,計算機(服務(wù)器IOO)是硬件和OS的組合的概念,并表示在OS 控制的下運行的硬件。否則,如果應(yīng)用程序獨立于OS操作硬件,則該硬件 對應(yīng)于計算機。硬件至少包括例如CPU的微處理器,并用以讀取記錄在記 錄介質(zhì)中的計算機程序。在第一實施例中,服務(wù)器100用作計算機。除了上面所述的軟盤、CD (例如CD-ROM、 CD-R、 CD-RW) 、 DVD (例如DVD-ROM、 DVD-RAM、 DVD-R、 DVD+R、 DVD-RW、 DVD+RW)、 磁盤、光盤或者磁光盤之外,在第一實施例中使用的記錄介質(zhì)還可以是其它 多種計算機可讀記錄介質(zhì),例如IC卡、ROM卡、磁帶、穿孔卡、計算機內(nèi) 部存儲單元(RAM或者ROM)、外部存儲單元或者在上面印由代碼(例如 條形代碼)的物質(zhì)。運行模式檢測部13根據(jù)保持在ASIC 30的寄存器(分區(qū)模式信息保持
部)等中的分區(qū)模式信息來檢測服務(wù)器100是否分區(qū)模式下運行。在從XPAR 102獲得故障事件通知(輸出)時,運行模式檢測部13確認(rèn)在ASIC30中保 持的分區(qū)模式信息,以檢測服務(wù)器IOO是否在分區(qū)模式中運行。這里,分區(qū)模式信息表示服務(wù)器100是否在分區(qū)模式下運行,并且分區(qū) 模式信息可由ASIC (分區(qū)模式信息管理部)30管理和設(shè)置。例如,當(dāng)服務(wù) 器100分別在分區(qū)模式下運行以及不在分區(qū)模式下運行時,分別在ASIC 30 的預(yù)定儲存區(qū)域(例如寄存器)(分區(qū)模式信息保持部)中設(shè)置和存儲比特 "1"和比特"0"。例如,為每一個硬件資源設(shè)置分區(qū)模式信息。運行模式檢測部13通過確認(rèn)在ASIC 30中設(shè)置的比特來獲得分區(qū)模式 信息,從而確定服務(wù)器100是否在分區(qū)模式下。分區(qū)模式信息可包括用以表 示相關(guān)的硬件資源所屬分區(qū)塊的屬性數(shù)據(jù)。當(dāng)服務(wù)器100在分區(qū)模式下運行時,硬件資源管理信息管理部12管理 關(guān)于硬件資源的共享狀態(tài)的資源信息(硬件資源管理信息),并且例如在管 理之前預(yù)先確定的存儲區(qū)域(例如DIMM51)(硬件資源管理信息保持部) 中存儲資源信息。圖3示出根據(jù)第一實施例的服務(wù)器100的資源信息的實例。如圖3所示, 資源信息表示每一個硬件資源是共享資源(共享)還是獨占資源(獨占)。 例如,為獨占資源設(shè)置比特"0"以及為共享資源設(shè)置比特"1"使共享硬件 資源判斷部14通過確認(rèn)該比特值來確定硬件資源是共享資源還是獨占資源。例如,當(dāng)固件10和ASIC 30將要實現(xiàn)這些功能吋,根據(jù)物理分區(qū)功能 和/或分區(qū)功能的信息設(shè)置來創(chuàng)建和設(shè)置資源信息。在服務(wù)器100中,由固件10管理和利用的預(yù)定存儲區(qū)域(例如DIMM 51) 用作保持資源信息(硬件資源管理信息)的硬件資源管理信息保持部。在下 文中,在由固件10管理和利用的預(yù)定存儲區(qū)域(例如DIMM51)中的保持 信息簡單地描述為"固件10保持信息"。共享硬件資源判斷部14根據(jù)資源信息來判斷已經(jīng)由ASIC 30檢測到故 障事件的硬件資源是否為共享資源。具體地,共享硬件資源判斷部14參照 關(guān)于已經(jīng)發(fā)生的故障的故障信息(例如,故障發(fā)生點)檢索資源信息,并且 判斷關(guān)于該故障事件的硬件資源是否為共享資源。例如,故障信息被存儲在ASIC 30的存儲器區(qū)域或者固件10中。200710187026.1說明書第13/17頁如果運行模式檢測部13檢測到服務(wù)器100在分區(qū)模式下并且共享硬件資源判斷部14判斷由ASIC30所檢測到的硬件資源(故障源)是共享資源, 則共同故障報告創(chuàng)建部15利用從共享故障源的硬件資源的兩個或者更多 XPAR 102輸出的故障檢測通知來創(chuàng)建共同故障報告。共同故障報告創(chuàng)建部15在通過ASIC 30管理的單元中合并從ASIC 30 中獲取的共享資源的故障信息。在硬件資源中的故障事件中,在與故障硬件源相關(guān)的ASIC 30的寄存器 中(在預(yù)定的物理位置)設(shè)置一個比特(即故障通知比特),并且固件10 通過該比特獲得故障信息。如果所述硬件資源是作為物理分區(qū)的結(jié)果所創(chuàng)建的共享資源,則在對應(yīng) 于該共享資源的每一個ASIC30的寄存器中的預(yù)定位置設(shè)置一個比特(即故 障通知比特)。共同故障報告創(chuàng)建部15讀取在不同物理位置設(shè)置的所有故 障通知比特,并且同時通過計算所有故障通知比特的邏輯總和將所有故障通 知比特合并成一條信息。換句話說,共同故障報告創(chuàng)建部15根據(jù)通過將獲得的所有故障通知比 特合并而得到的一條信息創(chuàng)建故障報告,從而創(chuàng)建共同故障報告。當(dāng)固件10讀取在ASIC 30的寄存器中設(shè)置的故障通知比特后,所述故 障通知比特被清除,此時根據(jù)將兩個或者更多故障通知比特合并成一條信息 的信息來執(zhí)行所有故障通知比特的清除。如果服務(wù)器100不在分區(qū)模式下,則共同故障報告創(chuàng)建部15不合并故 障信息。根據(jù)來自XPAR 102的故障事件通知,固件10判斷所述故障是在已經(jīng)輸 出故障事件的硬件資源中產(chǎn)生還是在被傳播的相同硬件資源中產(chǎn)生,并且如 果判斷所述故障為被傳播到的硬件資源,那么固件10判斷沒有故障事件并 且不再處理故障事件。也就是說,固件10處理在己經(jīng)輸出故障事件的硬件 資源中產(chǎn)生的故障。通過利用保持在ASIC 30中的錯誤比特執(zhí)行一種遮蔽(masking)處理來 完成由固件(故障判斷部)IO作的判斷處理(即,判斷故障是在硬件資源中 產(chǎn)生還是被傳播到其它硬件資源中。如果固件10僅通過這種遮蔽處理不能 判斷故障是在己經(jīng)輸出故障事件的硬件資源中產(chǎn)生還是被傳播到其它硬件17 資源中,那么如果需要的話,固件io就進(jìn)一步地分析附加信息。如果從XPAR 102輸出故障通知并且在同一 XPAR 102中產(chǎn)生由故障通知部所通知的故障,那么固件10創(chuàng)建共同故障報告并且將創(chuàng)建的共同故障報告發(fā)送給OS 20和/或硬件管理單元101 。當(dāng)收到共同故障報告時,OS 20和/或硬件管理單元101利用接收到的報告完成預(yù)定過程。在探測到在SB 50中的故障的情況下,硬件管理單元101通過將另一個 SB用作故障SB50的替代者來重啟服務(wù)器100,從而實現(xiàn)控制。此外,當(dāng)檢 測到故障時,OS 20也發(fā)送錯誤通知給用戶,重啟自己的分區(qū)塊,并且完成 其它的操作。使用專用管理軟件使得OS 20能夠接收從固件10發(fā)送的信息?,F(xiàn)在將根據(jù)圖4的流程圖來說明根據(jù)第一實施例的在服務(wù)器100中發(fā)生 故障事件時所執(zhí)行的一系列過程步驟(步驟S10-S60)。當(dāng)在服務(wù)器100的硬件資源中發(fā)生故障時,向?qū)?yīng)于作為故障源的XSB 501或者LIOU701的CPU 53輸入陷阱。包括錯誤強度和位置信息的故障信 息被記錄在主LSB的NB 54的寄存器中(步驟S10),并且固件10接收中 斷。在固件10中的運行模式檢測部13獲得在ASIC 30中保持的分區(qū)模式信 息(步驟S20)并且根據(jù)已經(jīng)獲得的分區(qū)模式信息確定服務(wù)器100是否在分 區(qū)模式下運行(步驟S30)。如果服務(wù)器100在分區(qū)模式下(在步驟S30中選擇是的路線),共享硬 件資源判斷部14根據(jù)資源信息判斷已經(jīng)由ASIC 30檢測到故障事件的硬件 資源是否為共享資源,并且通過由ASIC 30管理的單元合并關(guān)于共享資源的 故障信息,以創(chuàng)建一條錯誤信息(共同故障報告)(步驟S40)。例如,因為FSB55和DIMM 51明顯是獨占資源,所以除了將與FSB55 和DIMM 51相關(guān)的故障信息看作關(guān)于共享資源的故障信息之外,還能夠合 并其它故障信息。接著,固件10分析作為合并結(jié)果所創(chuàng)建的錯誤信息,并且如果需耍, 還附加地收集和分析關(guān)于MLDS 52、 SBRG 71 、 PCIEPL 72和PHX 74的信 息(步驟S50)。相反,如果服務(wù)器100不在分區(qū)模式下(在步驟S30中選 擇否的路線),那么進(jìn)程跳轉(zhuǎn)到S50。
固件10將分析的結(jié)果(故障分析結(jié)果)發(fā)送給OS 20和/或硬件管理單元101 (步驟S60)以完成該過程。圖5示出根據(jù)第一實施例的在服務(wù)器100中的分區(qū)塊P的結(jié)構(gòu)實例,并 且具體示出通過利用物理分區(qū)功能和分區(qū)功能形成的四個分區(qū)塊P0-P3。在圖5中所示的實例包括四個SB 50 (50-1、 50-2、 50-3、 50-4);通過 物理分區(qū)功能將SB 50-2和50-3分別分區(qū)成XSB 501a和XSB 501b,并且不 對SB 50-1和50-4進(jìn)行分區(qū)(也就是,SB=SLB)。為了方便,圖5省略了 交叉開關(guān)60的圖示。此外,在圖5中所示的實例包括四個IOU70 (70-1、 70-2、 70-3、 70-4); 通過物理分區(qū)功能將IOU 70-1和70-3分別分區(qū)成LIOU 701a和LIOU 701b, 并且不對70-2和70-4分區(qū)。通過分區(qū)功能,分區(qū)塊PO包括PSB 50-1和LlOU701a,其中LlOU701a 是IOU 70-1的一個分區(qū);分區(qū)塊P1包括XSB 50la,其中XSB 501a為SB 50-2 的一個分區(qū),以及包括LIOU701b,其中LIOU701b是IOU70-l的另一個分 區(qū);分區(qū)塊P2包括XSB 501b,其中XSB 501b為SB 50-2的另一個分區(qū), 以及包括IOU70-2;分區(qū)塊P3包括XSB501a和XSB501b,它們是SB 50-3 的分區(qū),以及包括LIOU701a和LIOU701b,它們是IOU 70-3、 PSB 50-4和 IOU 70-4的分區(qū)。關(guān)于通過對IOU 50-1進(jìn)行物理分區(qū)而創(chuàng)建的LIOU 701a和LIOU 701b, 分別將LIOU 701a和LIOU 701b用于分區(qū)塊P0和分區(qū)塊Pl中。換句話說, 通過對IOU 50-1進(jìn)行物理分區(qū)而創(chuàng)建的LIOU 701a和LIOU 701b被用在各 個不同的分區(qū)塊中,也就是,分別用在分區(qū)塊P0和分區(qū)塊P1中。以相同的 方式,對SB 50-2進(jìn)行物理分區(qū)而得的XSB 501a和XSB501b被用在各個不 同的分區(qū)塊中,也就是,分別用在分區(qū)塊P1和分區(qū)塊P2中。在如圖5中所示創(chuàng)建多個分區(qū)P0-P3的服務(wù)器100中,如果在被物理分 區(qū)并用于不同分區(qū)塊中的模塊(硬件資源,例如對于分區(qū)塊P1的XSB501a 和LIOU701b)(見在圖5中的A點)中發(fā)生故障,則在兩個分區(qū)塊PO和 Pl上執(zhí)行用于處理故障的過程,并且將共同故障報告發(fā)送到OS 20和/或硬 件管理單元101。當(dāng)在用于相同分區(qū)塊中被物理分區(qū)的XSB 501a和XSB 501b中(例如
SB 50-3)的模塊(共享資源)(見在圖5中的B點)中發(fā)生故障吋,在ASIC 的級別通知對于XSB 501a和XSB501b中的每一個的錯誤,但是在固件10 中的共同故障報告創(chuàng)建部15創(chuàng)建一條共同故障報告,并從而防止了冗余的 錯誤報告輸出。結(jié)果,即使在共享資源中發(fā)生的故障被看作是一個故障并且 被處理,則將一條故障報告發(fā)送到OS 20和/或硬件管理單元101 。在分區(qū)塊P3中,關(guān)于SB 50-3、 SB 50-4、 IOU 70-3和IOU 70-4的故障 信息相互之間獨立。當(dāng)在SB 50-3、 SB 50-4、 IOU 70-3和IOU 70-4中的任何 一個發(fā)生故障時,該故障分別在(傳播至)SB 50-3、 SB 50-4、 IOU 70-3和 IOU 70-4內(nèi)部產(chǎn)生影響。如果在SB 50-3、 SB 50-4、 IOU 70-3和IOU 70-4 中的一個發(fā)生故障,則SB 50-3、 SB 50-4、 IOU 70-3和IOU 70-4中每一個都 發(fā)送故障報告給作為主LSB的XSB 501a。之后,固件10經(jīng)由作為主LSB的XSB 501a的NB 54從CPU 53接收中 斷,并且開始信息的收集和分析。相反,當(dāng)在獨占資源中發(fā)生故障時,故障事件的通知僅被發(fā)送給PSB 50-1、 PSB50-4、 XSB 501a、 XSB 501b、 IOU 70-2、 IOU 70-4、 LIOU 701a 和LIOU 701b中對應(yīng)于所述獨占資源的一個,因此獲得故障事件的準(zhǔn)確數(shù)量.如上所述,在本發(fā)明的服務(wù)器100中,當(dāng)在分區(qū)模式的操作過程中在共亨 資源中檢測到故障時,固件10合并故障通知比特(故障通知)并且根據(jù)作為 合并結(jié)果而得到的一條信息創(chuàng)建一個共同故障報告。能夠防止冗余的故障通 知被發(fā)送到OS 20和/或硬件管理單元101,因此輸出與硬件資源中發(fā)生的實 際故障事件數(shù)量相同的故障。有益地,能夠管理故障事件的準(zhǔn)確頻率,從而 改善了服務(wù)器100的可靠性。更有益地,固件10可以在不需要專用裝置或部件的情況下處理故障, 并且服務(wù)器100的制造成本降低,因此很經(jīng)濟(jì)。另外,因為本發(fā)明的故障處 理不是在OS 20上運行的軟件進(jìn)行,所以故障處理能夠在不需要通知服務(wù)器 100的用戶的情況下完成。對于提供本發(fā)明功能的買家,能夠輕松地實現(xiàn)和 管理信息處理裝置以及本發(fā)明的用于處理故障的方法和程序。物理分區(qū)功能包括分區(qū)功能,從而能夠靈活地擴(kuò)展服務(wù)器100的功能。此外,本發(fā)明不應(yīng)限于前述的實施例,并且在不脫離本發(fā)明的主旨的情 況下可以進(jìn)行多種改動和修飾。
例如,本服務(wù)器100的硬件結(jié)構(gòu)不應(yīng)限于在圖2中所示的實例,并且可 選擇地,在沒有脫離本發(fā)明的主旨的情況下,服務(wù)器的硬件結(jié)構(gòu)能夠被進(jìn)行 多種改動。
權(quán)利要求
1.一種能夠在分區(qū)模式下運行的信息處理裝置,在所述信息處理裝置中將硬件資源分成多個物理分區(qū),并且所述多個物理分區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述信息處理裝置包括分區(qū)模式信息保持部(30),用于保持關(guān)于所述信息處理裝置是否在分區(qū)模式下運行的分區(qū)模式信息;硬件資源管理信息保持部(51),用于在所述信息處理裝置在分區(qū)模式下時保持關(guān)于所述硬件資源的共享狀態(tài)的硬件資源管理信息;故障通知部(103),為所述多個物理分區(qū)中的每一個物理分區(qū)分別配置一個所述故障通知部,所述故障通知部用于檢測在硬件資源中的故障事件并輸出所述故障事件的檢測結(jié)果;運行模式檢測部(113),用于根據(jù)在所述分區(qū)模式信息保持部(30)中保持的分區(qū)模式信息來檢測所述信息處理裝置是否在分區(qū)模式下運行;共享硬件資源判斷部(14),用于根據(jù)在所述硬件資源管理信息保持部(51)中保持的硬件資源管理信息來判斷由所述故障通知部(103)已經(jīng)檢測到故障事件的硬件資源是否被每一個所述物理分區(qū)和所述多個物理分區(qū)中另一物理分區(qū)共享;以及共同故障報告創(chuàng)建部(15),用于在所述運行模式檢測部(13)檢測到所述信息處理裝置在分區(qū)模式下運行并且由所述共享硬件資源判斷部(14)判斷的結(jié)果是肯定的情況下,根據(jù)在每一個所述物理分區(qū)中的所述故障通知部(103)所輸出的故障事件的檢測結(jié)果以及在所述另一物理分區(qū)中的故障通知部(103)所通知的故障事件的檢測結(jié)果來創(chuàng)建共同故障報告。
2. —種故障處理方法,用于能夠在分區(qū)模式下運行的信息處理裝置中, 在所述信息處理裝置中將硬件資源分成多個物理分區(qū),并且所述多個物理分 區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述故障處理方法包括下列 步驟(a) 在所述多個物理分區(qū)的每一個物理分區(qū)中檢測在所述硬件資源中 的故障事件并且輸出所述故障事件的檢測結(jié)果;(b) 根據(jù)關(guān)于所述信息處理裝置是否在分區(qū)模式下運行的分區(qū)模式信息檢測所述信息處理裝置是否在分區(qū)模式下運行;(C)根據(jù)當(dāng)所述信息處理裝置在分區(qū)模式下時的關(guān)于所述硬件資源的共享狀態(tài)的硬件資源管理信息判斷在檢測處理和輸出處理的所述步驟(a)中己經(jīng)輸出故障事件的硬件資源是否由所述多個物理分區(qū)中的兩個或更多個共享;以及(d)如果在檢測處理的所述步驟(b)中檢測到所述信息處理裝置在分 區(qū)模式下運行并且在判斷處理的所述步驟(c)中的判斷結(jié)果是肯定的,則 根據(jù)從所述兩個或更多個物理分區(qū)輸出的故障事件的檢測結(jié)果創(chuàng)建共同故 障報告。
3. —種故障處理程序,其指示能夠在分區(qū)模式下運行的計算機執(zhí)行下列 步驟,在所述計算機中將硬件資源分成多個物理分區(qū),并且所述多個物理分區(qū)中的至少兩個物理分區(qū)作為獨立分區(qū)塊運行,所述步驟包括(a) 在所述多個物理分區(qū)的每一個物理分區(qū)中檢測在所述硬件資源中 的故障事件并且輸出所述故障事件的檢測結(jié)果;(b) 根據(jù)關(guān)于所述計算機是否在分區(qū)模式下運行的分區(qū)模式信息檢測 所述計算機是否在分區(qū)模式下運行;(c) 根據(jù)當(dāng)所述計算機在分區(qū)模式下時的關(guān)于所述硬件資源的共享狀 態(tài)的硬件資源管理信息判斷在檢測處理和輸出處理的所述步驟(a)中已經(jīng) 輸出故障事件的硬件資源是否由所述多個物理分區(qū)中的兩個或更多個共享; 以及(d) 如果在檢測處理的所述步驟(b)中檢測到所述計算機在分區(qū)模式 下運行并且在判斷處理的所述步驟(c)中的判斷結(jié)果是肯定的,則根據(jù)從 所述兩個或更多個物理分區(qū)輸出的故障事件的檢測結(jié)果創(chuàng)建共同故障報告。
4. 一種計算機可讀記錄介質(zhì),在其中存儲有故障處理程序,所述故障處 理程序指示能夠在分區(qū)模式下運行的計算機執(zhí)行下列步驟,在所述計算機中 將硬件資源分成多個物理分區(qū),并且所述多個物理分區(qū)中的至少兩個物理分 區(qū)作為獨立分區(qū)塊運行,所述步驟包括(a) 在所述多個物理分區(qū)的每一個物理分區(qū)中檢測在所述硬件資源中 的故障事件并且輸出所述故障事件的檢測結(jié)果; (b) 根據(jù)關(guān)于所述計算機是否在分區(qū)模式下運行的分區(qū)模式信息檢測所述計算機是否在分區(qū)模式下運行;(C)根據(jù)當(dāng)所述計算機在分區(qū)模式下時的關(guān)于所述硬件資源的共享狀態(tài)的硬件資源管理信息判斷在檢測處理和輸出處理的所述步驟(a)中已經(jīng)輸出故障事件的硬件資源是否由所述多個物理分區(qū)中的兩個或更多個共享;以及(d)如果在檢測處理的所述步驟(b)中檢測到所述計算機在分區(qū)模式 下運行并且在判斷處理的所述步驟(c)中的判斷結(jié)果是肯定的,則根據(jù)從 所述兩個或更多個物理分區(qū)輸出的故障事件的檢測結(jié)果創(chuàng)建共同故障報告。
全文摘要
一種信息處理裝置包括分區(qū)模式信息保持部(30)、硬件資源管理信息保持部(51)、故障通知部(103)、運行模式檢測部(13)、共享硬件資源判斷部(14)、共同故障報告創(chuàng)建部(15),其中共同故障報告創(chuàng)建部(15)用于在檢測到信息處理裝置在分區(qū)模式下運行并且判斷出已經(jīng)檢測到故障事件的硬件資源是共享資源的情況下,根據(jù)共享所述共享硬件資源的物理分區(qū)的故障通知部所輸出的故障事件的檢測結(jié)果來創(chuàng)建共同故障報告。從而能避免對共享硬件中發(fā)生的故障的過度報告,可掌握故障事件的準(zhǔn)確數(shù)量并降低制造成本。
文檔編號G06F11/00GK101211283SQ20071018702
公開日2008年7月2日 申請日期2007年11月19日 優(yōu)先權(quán)日2006年12月27日
發(fā)明者村上大士 申請人:富士通株式會社