一種資源約束性多節(jié)點計算系統(tǒng)的可靠性評估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機技術(shù)領(lǐng)域,涉及一種資源約束性多節(jié)點計算系統(tǒng)的可靠性評估 方法。
【背景技術(shù)】
[0002] 隨著經(jīng)濟和社會的發(fā)展,人們對計算系統(tǒng)處理能力的需求不斷提高。近年來出現(xiàn) 的多節(jié)點計算系統(tǒng)正是通過多個獨立的計算節(jié)點并行計算提供強大的計算能力。典型的多 節(jié)點計算系統(tǒng)有兩類,1)集群計算系統(tǒng):集群計算系統(tǒng)由多臺服務(wù)器節(jié)點通過互聯(lián)網(wǎng)絡(luò)組 合而成,在集群管理軟件的管理下作為一臺虛擬的高性能服務(wù)器向外提供服務(wù);2)多核處 理器:多核處理器是把多個計算內(nèi)核及其互聯(lián)網(wǎng)絡(luò)是設(shè)計在芯片內(nèi)部,此時一個多核芯片 的計算能力就相當(dāng)于一個集群系統(tǒng)。
[0003] 由于,多節(jié)點計算系統(tǒng)(如集群計算系統(tǒng)和多核處理器)的多個計算節(jié)點是通過互 聯(lián)網(wǎng)絡(luò)集成在一起,并通過一個網(wǎng)絡(luò)端口向外提供服務(wù)。此時,就存在多計算節(jié)點的強大計 算能力和網(wǎng)絡(luò)較低通信能力(即帶寬)的矛盾。也就是,在通信資源約束的條件下,一個N節(jié) 點的多節(jié)點計算系統(tǒng)不能夠激活全部N節(jié)點(即全負(fù)荷工作),因為全部N節(jié)點處于正常工作 狀態(tài)帶來的通信需求會導(dǎo)致網(wǎng)絡(luò)阻塞、進而引發(fā)整個系統(tǒng)的崩潰?,F(xiàn)有的用于通信資源約 束型多節(jié)點計算系統(tǒng)的可靠性評估方法是狀態(tài)枚舉法。例如對于N=4,K=3,L=2的多節(jié)點計 算系統(tǒng),該系統(tǒng)一共有10個正常的工作狀態(tài):
其中%表示節(jié)點i處于正常狀態(tài),而@表示節(jié)點i處于故障狀態(tài)。從實例可以看出,但是當(dāng)N 較大時,采用枚舉法進行狀態(tài)枚舉會出現(xiàn)狀態(tài)過多,存儲困難,計算效率低的問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的,為解決現(xiàn)有技術(shù)中的通信資源約束型多節(jié)點運算系統(tǒng)采用枚舉法 進行狀態(tài)枚舉會出現(xiàn)狀態(tài)過多,存儲困難,計算效率低的問題,使用更高效的決策圖運算數(shù) 據(jù)結(jié)構(gòu)對通信資源約束型多節(jié)點計算系統(tǒng)的工作狀態(tài)進行高效編碼,從而極大縮小了存儲 空間需求,提升了計算效率。
[0005] 本發(fā)明是通過下述技術(shù)方案實現(xiàn)的:一種資源約束性多節(jié)點計算系統(tǒng)的可靠性評 估方法,步驟如下: 步驟1:建立基本BDD模型計算機集群組織,并對BDD模型計算機集群組織中的各個運算 或工作的節(jié)點中的單個服務(wù)器或運算核心及其運行的部件狀態(tài)依照布爾型變量進行編碼, 單個服務(wù)器或運算核心及其運行的部件在下文中都統(tǒng)一代稱為節(jié)點;節(jié)點所有運行狀態(tài)形 式編碼為X,當(dāng)X節(jié)點為工作狀態(tài)時為編碼1,狀態(tài)表示X=1;當(dāng)X節(jié)點為故障狀態(tài)時編碼〇,狀 態(tài)表示X=0;且X=1的連接狀態(tài)編碼為1,X=0的連接狀態(tài)編碼為0;節(jié)點接受來自各下屬或平 級節(jié)點的運算數(shù)據(jù),并設(shè)置接受數(shù)據(jù)時0和1分支時的運行狀態(tài)出現(xiàn)概率P,概率P來自于節(jié) 點制造者的制造數(shù)據(jù)、檢測數(shù)據(jù)、或?qū)嶒灁?shù)據(jù)等,運行狀態(tài)出現(xiàn)概率P的值為大于0%小于 100%; 步驟2:繼續(xù)利用BDD模型,對BDD模型計算機集群組織的系統(tǒng)級狀態(tài)進行編碼,將BDD模 型計算機集群組織的各個節(jié)點在空間中按照X軸Y軸進行排列編號,使其在系統(tǒng)級BDD模型 中的位置平面橫縱軸坐標(biāo)化,并可根據(jù)實際節(jié)點數(shù)量沿橫縱軸坐標(biāo)排列擴展,并且模型位 置坐標(biāo)結(jié)構(gòu)必須呈現(xiàn)為方形,且服務(wù)器的數(shù)量也就是節(jié)點的設(shè)定值為N; 步驟3.依靠步驟2編排坐標(biāo)后,在BDD模型計算機集群組織的節(jié)點工作(量)狀態(tài)需求, 設(shè)定啟動工作的節(jié)點不多于K并且不少于L,1 < L < K < N,K的值根據(jù)具體通信資源的容量而 定,L的值根據(jù)計算任務(wù)的性能需求而定,計算任務(wù)的最低性能需求為M,每個節(jié)點的性能為 X,則L=M/X,單個節(jié)點需要的通信資源為Y,系統(tǒng)總的通信資源為C,則L=C/Y ; 并在節(jié)點的位置平面橫縱軸坐標(biāo)化的基礎(chǔ)上,再采用下面的方法對系統(tǒng)級BDD模型計 算機集群組織各節(jié)點之間的系統(tǒng)級運行狀態(tài)編碼: 1)當(dāng)節(jié)點布爾型變量的縱坐標(biāo)〇 < Υ〈Κ_1時,節(jié)點布爾變量的橫坐標(biāo)取值范圍為0 < X < Ν- Κ; a) 設(shè)置橫縱軸(X,Υ)位置上的節(jié)點的變量名為"Χ+Υ+1" ; b) 當(dāng)X= N-K時,該節(jié)點的0分支連接到常數(shù)節(jié)點0;否則該節(jié)點的0分支連接到(X+1, Y)位置上名為"X+Y+2"的節(jié)點; c) 當(dāng)Y=L時,該節(jié)點的1分支連接到常數(shù)節(jié)點1;否則該節(jié)點的1分支連接到(X,Y+1)位 置上名為"X+Y+2"的節(jié)點; 2 )當(dāng)節(jié)點布爾型變量的縱坐標(biāo)Y=K-1時,節(jié)點布爾型變量的橫坐標(biāo)取值范圍為0 < X < Ν-Κ; a) 設(shè)置(X,Υ)位置上的節(jié)點的變量名為"Χ+Υ+1"; b) 當(dāng)X〈 N-1時,該節(jié)點的0分支連接到(X+l,Y)位置上名為"X+Y+2"的節(jié)點;并且該節(jié) 點的1分支連接到(X,Y+1)位置上名為"X+Y+2"的節(jié)點; c) 當(dāng)N-L <X〈N-K時,該節(jié)點的0分支連接到(X+1,Y)位置上名為"X+Y+2"的節(jié)點;并且 該節(jié)點的1分支連接到常數(shù)節(jié)點1; d) 當(dāng)X=N-K時,該節(jié)點的0分支連接到常數(shù)節(jié)點0;并且該節(jié)點的1分支連接到常數(shù)節(jié)點 1; 3)當(dāng)節(jié)點布爾型變量的縱坐標(biāo)K-1〈Y < L時,節(jié)點布爾型變量的橫坐標(biāo)取值范圍為0 < X < N-L-1 ; a) 設(shè)置(X,Υ)位置上的節(jié)點的變量名為"Χ+Υ+1"; b) 當(dāng)X= η-L-l時,該節(jié)點的0分支連接到常數(shù)節(jié)點1;否則該節(jié)點的0分支連接到(X+1, Y)位置上名為"X+Y+2"的節(jié)點; c) 當(dāng)Y=L時,該節(jié)點的1分支連接到常數(shù)節(jié)點0;否則該節(jié)點的1分支連接到(X,Y+1)位 置上名為"X+Y+2"的節(jié)點; 步驟4:得到步驟3所構(gòu)造的BDD模型計算機集群組織后,利用系統(tǒng)級BDD模型對得到的 BDD模型計算機集群組織進行可靠性評估;利用系統(tǒng)級BDD模型進行可靠性評估是基于如下 兩個規(guī)則: 1)從坐標(biāo)為(〇,〇)的狀態(tài)變量節(jié)點到常數(shù)節(jié)點〇的任意一條路徑對應(yīng)著m)D模型計算機 集群組織的一個故障狀態(tài);狀態(tài)變量節(jié)點為節(jié)點的編碼和節(jié)點統(tǒng)稱,坐標(biāo)為(ο,ο)的狀態(tài)變 量節(jié)點即編碼1節(jié)點,常數(shù)節(jié)點0則為常數(shù)編碼為0的常數(shù)節(jié)點; 2) 從坐標(biāo)為(0,0)的狀態(tài)變量節(jié)點(即編碼1節(jié)點對應(yīng)的節(jié)點)到常數(shù)節(jié)點1的任意一條 路徑對應(yīng)著BDD模型計算機集群組織的一個工作狀態(tài); 系統(tǒng)可靠性評估就是計算或該BDD模型計算機集群組織自動計算自身,K)D模型計算機 集群組織所有工作狀態(tài)的概率之和;由于存在多個BDD模型計算機集群組織的工作狀態(tài),所 以需要將所有BDD模型計算機集群組織的工作狀態(tài)的概率進行累加;根據(jù)上述規(guī)則可知, BDD模型計算機集群組織的工作狀態(tài)和常數(shù)節(jié)點1路徑是一一對應(yīng)的關(guān)系,所以我們只需將 常數(shù)節(jié)點1路徑的概率進行累加; BDD模型計算機集群組織可靠性評估的"將常數(shù)節(jié)點1路徑的概率進行累加"這一運算 的步驟為: 3) 根據(jù)步驟1給BDD模型計算機集群組織中每個狀態(tài)變量節(jié)點的0分支和1分支各設(shè)置 相應(yīng)的概率值P; 4 )給常數(shù)節(jié)點0設(shè)定初始概率值P為0%,給常數(shù)節(jié)點1設(shè)定的初始概率值P為100%(獲得 了概率值后再到此處進行賦值);或給常數(shù)節(jié)點〇設(shè)定初始值〇,給常數(shù)節(jié)點1設(shè)定的初始初 始值1; 5) 在獲得的BDD模型計算機集群組織中按照節(jié)點的編碼號從大到小的順序,先計算節(jié) 點"N"的對應(yīng)的概率值,直至獲得節(jié)點"Γ對應(yīng)概率值; 6) 運算輸出點"Γ對應(yīng)概率值的結(jié)果,即為本BDD模型計算機集群組織的可靠度或需求 構(gòu)成的BDD模型計算機集群組織的可靠度; 由此得到本次構(gòu)