專利名稱:一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分布式制造信息集成系統(tǒng)容錯管理技術(shù)領(lǐng)域。具體涉及一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其為一種面向服務(wù)制造系統(tǒng)的資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)框架,以及相應(yīng)的故障檢測和基于ECA的消解機制與方法。該發(fā)明能有效檢測到服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置過程中的常見故障,并對其提供相應(yīng)的良好的消解策略,有效提高服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置的可靠性和服務(wù)質(zhì)量。
背景技術(shù):
服務(wù)制造系統(tǒng)(如云制造(CMfg)系統(tǒng)、制造服務(wù)系統(tǒng)、制造網(wǎng)格系統(tǒng)等)制造資源服務(wù)優(yōu)化配置實現(xiàn)過程中涉及到的操作,包括資源服務(wù)搜索與匹配、QoS評估、QoS提取、資源服務(wù)優(yōu)選、資源服務(wù)組合等,可能因為某些原因而失敗,從而導致整個優(yōu)化配置失敗或失效。其可能原因主要有①服務(wù)制造系統(tǒng)中兩個節(jié)點間的虛擬連接斷開或帶寬能力突然下降,無法滿足要求;②被調(diào)用的資源服務(wù)在執(zhí)行過程中出現(xiàn)故障或發(fā)生狀態(tài)改變,如突然被關(guān)閉或退出、資源服務(wù)組合失效、資源服務(wù)能力突然下降、過載等;③已提交的或正運行的任務(wù)發(fā)生狀態(tài)改變,如被管理員或用戶強行退出、需求提高、被掛起、無效的資源服務(wù)分配等;④在應(yīng)用過程中出現(xiàn)問題,如交易雙方信任不足、錯誤的訪問權(quán)限、不合理或不正確的代碼設(shè)計等。以上現(xiàn)象在本發(fā)明中統(tǒng)稱為故障。一旦出現(xiàn)以上情況,資源服務(wù)優(yōu)化配置(RSOA)將會被暫?;蚴АR虼?,為了提高RSOA的可靠性和服務(wù)質(zhì)量,必須解決以下幾個問題①RSOA過程中可能出現(xiàn)哪些故障?②如何檢測出現(xiàn)的故障?③如何分析檢測到的故障并 進行恢復處理?針對以上問題,在CMfg等服務(wù)制造領(lǐng)域內(nèi)目前還沒有相關(guān)研究。為解決以上問題,實現(xiàn)RSOA過程中的容錯管理,提高RSOA的可靠性和服務(wù)質(zhì)量,本發(fā)明首先分析RSOA過程中可能出現(xiàn)的故障并進行分類,在此基礎(chǔ)上研究RSOA容錯管理實現(xiàn)機制,并研究相應(yīng)的故障檢測方法與消解策略。
發(fā)明內(nèi)容
本發(fā)明的目的為本發(fā)明涉及的資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)機制,能夠有效檢測到服務(wù)制造系統(tǒng)RSOA過程中產(chǎn)生的常見故障,并針對各種故障提供相應(yīng)的良好的消解策略及方法。有效提高服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置的可靠性和服務(wù)質(zhì)量。本發(fā)明采用的技術(shù)方案為一種資源服務(wù)優(yōu)化配置(RSOA)容錯管理實現(xiàn)系統(tǒng),該系統(tǒng)包括信息服務(wù)模塊、資源服務(wù)優(yōu)化配置模塊、故障檢測模塊和故障恢復模塊;所述的信息服務(wù)模塊主要為故障檢測、故障恢復、資源服務(wù)優(yōu)化配置提供信息和數(shù)據(jù)支持;所述的資源服務(wù)優(yōu)化配置模塊主要實現(xiàn)資源服務(wù)搜索、服務(wù)質(zhì)量(QoS)評估、資源服務(wù)優(yōu)選、資源服務(wù)組合等功能操作;所述的故障檢測模塊負責監(jiān)控服務(wù)制造系統(tǒng)中各節(jié)點及其所運行的任務(wù)和資源的狀態(tài),隨時監(jiān)控并進行狀態(tài)分析;對正?;虍惓M顺龅膶嵗臍v史數(shù)據(jù)進行分析和統(tǒng)計,做出決策并通知故障恢復模塊對所檢測到的故障進行處理;所述的故障恢復模塊,即綜合多種容錯機制的基于ECA(Event-Condition-Action)的資源服務(wù)優(yōu)化配置故障消解模塊,主要包括事件檢測器(Event Detector)、條件評估器(Condition Detector)、動作執(zhí)行器(Action Executor)、規(guī)則推理引擎(Rule Engine)、ECA規(guī)則庫(ECA Rules)、ECA規(guī)則管理器(ECA Rulemanager)部分。
其中,所述的故障檢測模塊中故障檢測包括虛擬連接(VL)相關(guān)的故障檢測、資源服務(wù)(RS)相關(guān)的故障檢測、任務(wù)(Task)相關(guān)的故障檢測、應(yīng)用相關(guān)的故障檢測;虛擬連接相關(guān)的故障檢測,主要包括虛擬連接故障(VL_Disconnect_Failure)檢測和帶寬不足故障(Bandwidth_Failure)檢測;虛擬連接故障(VL_Disconnect_Failure)通??梢酝ㄟ^系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的中間件檢測到;兩個實體間是否因帶寬而產(chǎn)生故障采用通信時間和成功通信率或可靠性兩個指標來判斷;資源服務(wù)相關(guān)的故障檢測,主要是資源服務(wù)退出故障(RS_Quit_Failure)檢測、資源服務(wù)過載故障(RS_0verload_Failure)檢測、資源服務(wù)組合故障(RS_Composition_Failure)檢測;資源服務(wù)退出故障(RS_Quit_Failure)通過資源服務(wù)檢測器定期不間斷檢查每個資源服務(wù)的狀態(tài)來判定;資源服務(wù)過載故障(RS_0verload_Failure)通過評估RSi的數(shù)據(jù)處理能力、通信時間、執(zhí)行時間來判定RSi是否過載;資源服務(wù)過載故障(RS_0verload_Failure)通過檢測是否滿足概念間的誤匹配檢測規(guī)則、數(shù)據(jù)間誤匹配檢測規(guī)則、屬性誤匹配檢測規(guī)則、QoS非一致性檢測規(guī)則來判定;任務(wù)相關(guān)的故障檢測,主要包括任務(wù)取消故障(Task_Cancel_Failure)和任務(wù)被懸置或掛起故障(Task_Suspension_Failure)檢測、資源與任務(wù)匹配失敗(Task_Resource_Mismatch_Failure)檢測;任務(wù)被懸置或掛起故障(Task_Suspension_Failure)通過任務(wù)檢測器定期不間斷檢查每個任務(wù)的當前狀態(tài),任務(wù)是否處于任務(wù)掛起(Task_Suspended)隊列和任務(wù)終止(Task_Terminated)來判定;資源與任務(wù)匹配失敗(Task_Resource_MismatCh_Failure)采用資源服務(wù)匹配算法,判定是否發(fā)生了基本匹配故障、I/O匹配故障、QoS匹配故障、綜合匹配故障;任務(wù)被懸置或掛起故障(Task_Suspension_Failure)檢測方法與資源與任務(wù)匹配失敗(Task_Resource_Mismatch_Failure)相同;應(yīng)用相關(guān)的故障檢測,主要包括信任故障(Trust_Failure)檢測、應(yīng)用設(shè)計或者編碼故障(App_DesignCode_Failure)和訪問權(quán)限故障(App_AccessRight_Failure)檢測;信任故障(Trust_Failure)通過用資源服務(wù)Trust-QoS評估模型評估的X與y之間的信任值Tx —y和實體x對y的最低信任度要求Tx —y°的大小比較來判定;應(yīng)用設(shè)計或者編碼故障(App_DesignCode_Failure)和訪問權(quán)限故障(App_AccessRight_Failure)主要是通過系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的系統(tǒng)中間件來檢測。其中,所述的ECA(Event-Condition_Action,事件-條件-動作)規(guī)則中事件定義為觸發(fā)一個規(guī)則(Rule)所對應(yīng)的事件,條件(Condition)定義為激活該規(guī)則(Rule)所必須滿足的條件,動作為當一個ECA規(guī)則被觸發(fā)后所要執(zhí)行的動作指令;將RSOA過程中發(fā)生的故障定義為ECA規(guī)則的事件(Event);將故障檢測條件定義為ECA規(guī)則的條件(Condition);對故障做出的處理定義為ECA規(guī)則的動作(Action)。 其中,所述的對故障做出的處理具體為再調(diào)度或再匹配。其中,所述的事件檢測器(Event Detector)主要接收故障檢測模塊發(fā)送過來的故障消息,分析檢測故障的事件(Event);條件評估器(Condition Evaluator)主要負責對檢測到的事件(Event)相關(guān)的條件(Condition)進行評估,看其是否滿足相應(yīng)的ECA規(guī)則的條件;規(guī)則推理引擎(Rule Engine)主要負責對檢測到的事件(Event)與ECA規(guī)則庫中的相應(yīng)規(guī)則進行推理匹配,找到合適的規(guī)則來處理檢測到的故障;動作執(zhí)行器(Action Executor)主要是根據(jù)Rule Engine推理的結(jié)果,來執(zhí)行所選定的ECA規(guī)則動作來對故障進行處理;ECA規(guī)則管理器(ECA Rule Manager)負責管理ECA規(guī)則,包括規(guī)則的修改、添加及刪除;ECA規(guī)則庫(ECARules)主要存儲故障消解過程中所需的各種規(guī)則。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點在于(I)、具體的說該方法是根據(jù)資源服務(wù)優(yōu)化配置(RSOA)過程中故障產(chǎn)生的原因及分類,設(shè)計相應(yīng)的容錯管理實現(xiàn)機制,實現(xiàn)相應(yīng)的故障檢測和消解。該發(fā)明能有效檢測到服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置過程中由虛擬連接、資源、任務(wù)、應(yīng)用等引起的常見故障,并對其提供相應(yīng)的良好的消解策略,能有效提高服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置的可靠性和服務(wù)質(zhì)量。(2)、本發(fā)明包括一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)框架,以及相應(yīng)的故障檢測和基于ECA(事件-條件-動作)的消解機制與方法,可應(yīng)用于分布式網(wǎng)絡(luò)化服務(wù)制造系統(tǒng),具有良好的動態(tài)性、模塊性、可維護性、擴展性,能有效檢測和消解資源服務(wù)優(yōu)化配置過程中的各種故障,提高整個服務(wù)制造系統(tǒng)的穩(wěn)定性和資源服務(wù)優(yōu)化配置的可靠性。
圖I是資源服務(wù)優(yōu)化配置容錯管理體系結(jié)構(gòu);圖2是基于ECA的故障恢復;圖3 是 Task_Resource_MisMatch_Failure 檢測流程圖;圖4是Trust_Failure檢測流程圖;表I是資源服務(wù)優(yōu)化配置容錯管理的部分ECA規(guī)則。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進一步詳細的描述。本發(fā)明涉及的一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)機制及方法,即通過分析RSOA過程中可能出現(xiàn)的故障及分類,從而研究RSOA容錯管理體系結(jié)構(gòu),并研究相應(yīng)具體的故障檢測方法與消解策略。當且僅當發(fā)生以下兩種情況或者其中之一時,稱資源服務(wù)優(yōu)化配置出現(xiàn)故障①由于資源崩潰導致其停止服務(wù);②資源的可用性達不到任務(wù)的最低QoS標準。在實際應(yīng)用中,云制造等服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置故障類型多種多樣,常見故障的產(chǎn)生主要和虛擬連接、資源、任務(wù)、應(yīng)用四個因素相關(guān)。
( I)虛擬連接相關(guān)的故障虛擬連接(VL)是指服務(wù)制造系統(tǒng)中兩個實體間的廣義連接。因VL產(chǎn)生的故障主要有虛擬連接故障和帶寬不足故障。(2)資源服務(wù)相關(guān)的故障資源服務(wù)是執(zhí)行任務(wù)的載體,因此,資源服務(wù)的退出、過載、QoS或能力的改變、資源服務(wù)間的組合等都可能引發(fā)RSOA故障。因資源服務(wù)引起的故障主要有資源服務(wù)退出故障、資源服務(wù)過載(或飽和)故障、資源服務(wù)組合故障、資源服務(wù)能力改變而引起的故障。其中資源服務(wù)組合故障主要有資源服務(wù)概念間的誤匹配、數(shù)據(jù)之間的誤匹配、屬性匹配失誤、QoS非一致性。(3)任務(wù)相關(guān)的故障
在RSOA過程中,因種種原因,可能造成任務(wù)的取消、掛起等,從而導致優(yōu)化配置的失敗。因任務(wù)引起的RSOA故障主要有任務(wù)取消故障、任務(wù)被懸置或掛起故障、資源與任務(wù)匹配失敗、任務(wù)需求改變引起的故障。(4)應(yīng)用相關(guān)的故障在應(yīng)用過程中,可能因信任、訪問權(quán)限、編碼等原因?qū)е翿SOA失效,如信任故障、應(yīng)用設(shè)計或者編碼故障、訪問權(quán)限故障。RSOA過程中,以上四類可能產(chǎn)生的故障會導致整個RSOAS的效率和服務(wù)質(zhì)量下降。為支持RSOA過程中能提供容錯功能,結(jié)合RSOAS架構(gòu),本發(fā)明提出了如圖I所示的RSOA
容錯管理體系結(jié)構(gòu)。RSOAS容錯體系結(jié)構(gòu)由信息服務(wù)模塊、資源服務(wù)優(yōu)化配置模塊、故障檢測模塊、故障恢復模塊四部分組成。實現(xiàn)RSOAS容錯功能,重點要解決故障的檢測與消解。本發(fā)明涉及一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)機制與方法,包括一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)框架,以及相應(yīng)的故障檢測和基于ECA的消解機制與方法。RSOAS容錯體系結(jié)構(gòu)如圖1,由信息服務(wù)模塊、資源服務(wù)優(yōu)化配置模塊、故障檢測模塊、故障恢復模塊四部分組成,其中故障檢測模塊和故障恢復模塊是本發(fā)明的重點內(nèi)容。(I)信息服務(wù)模塊信息服務(wù)模塊主要為故障檢測、故障恢復、資源服務(wù)優(yōu)化配置提供目錄信息服務(wù)(HS)、資源信息服務(wù)(RIS)、資源服務(wù)封裝、QoS數(shù)據(jù)庫等信息和數(shù)據(jù)支持。其中,目錄信息服務(wù)(IIS)組織信息可提供信息集合查詢,并支持對多個RIS的有效查詢,同時能提供整個面向服務(wù)制造系統(tǒng)的信息索引和搜索功能。IIS由三部分組成通用注冊處理、可插入的目錄結(jié)構(gòu)和搜索處理。資源信息服務(wù)(RIS)運行于資源端,提供一個統(tǒng)一的手段來查詢系統(tǒng)平臺中資源的配置、能力和狀態(tài),且可配置成自身為聚集目錄服務(wù)。RIS對輸入的需求和任務(wù)進行安全鑒別和解析后,根據(jù)請求信息的類型把查詢請求分發(fā)到一個或多個信息提供者。然后RIS把資源的反饋信息傳給用戶。資源服務(wù)封裝模板的作用是實現(xiàn)平臺對參與協(xié)同制造的節(jié)點信息的有效管理。根據(jù)資源之間的屬性(如物理特征、地理位置、動力學特征、靈敏度、功能等)、客戶需求(如時間、質(zhì)量、價格、服務(wù)等)、被使用方式(如發(fā)現(xiàn)、代理、監(jiān)測、診斷等),將資源分類進行封裝。資源提供者在平臺進行資源注冊后,將被封裝成資源服務(wù)類模板;客戶在請求資源服務(wù)時,從系統(tǒng)平臺下載相應(yīng)的資源封裝模板,并完成具體任務(wù)的實例化。QoS數(shù)據(jù)庫中提取相應(yīng)資源服務(wù)的QoS信息。對相應(yīng)的QoS指標參數(shù)進行評估測量,并進行QoS比較,從而為后續(xù)的資源服務(wù)優(yōu)選和組合提供信息和數(shù)據(jù)支持。( 2 )資源服務(wù)優(yōu)化配置模塊資源服務(wù)優(yōu)化配置模塊主要提供資源服務(wù)搜索、QoS評估、資源服務(wù)優(yōu)選、資源服務(wù)組合等功能操作。資源服務(wù)搜索提供各類資源服務(wù)信息匹配算法服務(wù),根據(jù)任務(wù)分解的子任務(wù)對資源服務(wù)的需求,負責從資源服務(wù)庫中搜索到符合要求的相應(yīng)資源服務(wù),并生成待選資源服務(wù)集(RSS)。QoS評估是針對搜索到的符合用戶需求的海量待選資源服務(wù)集,目的是為用戶和 系統(tǒng)選擇最佳資源服務(wù),進行資源服務(wù)優(yōu)化配置提供量化的參考依據(jù),是資源優(yōu)化服務(wù)配置的重要環(huán)節(jié)。從注冊到服務(wù)器庫的資源服務(wù)信息OWL — S / WSDL或QoS數(shù)據(jù)庫中提取RSS中相應(yīng)資源服務(wù)的QoS信息。對相應(yīng)的QoS指標參數(shù)進行評估測量,并進行QoS比較,從而為后續(xù)的資源服務(wù)優(yōu)選和組合提供信息和數(shù)據(jù)支持。資源服務(wù)優(yōu)選如果用戶提交的任務(wù)是單一資源服務(wù)需求,則根據(jù)QoS參數(shù)信息需求對RSS的待選資源服務(wù)進行綜合評估排序,選擇最佳的資源服務(wù)執(zhí)行任務(wù)。資源服務(wù)組合及優(yōu)選如果用戶提交的是多資源服務(wù)需求,則從各RSS中選擇一個資源服務(wù)按照一定的順序組成組合資源服務(wù),并從所有可能的組合中選擇最優(yōu)組合來執(zhí)行任務(wù)。(3)故障檢測模塊負責監(jiān)控服務(wù)制造系統(tǒng)中各節(jié)點及其所運行的任務(wù)和資源的狀態(tài),隨時監(jiān)控并進行狀態(tài)分析。通過本地檢測器對優(yōu)化配置流程及涉及到的資源與任務(wù)性能和運行情況進行監(jiān)控,并提供一系列的管理服務(wù),如任務(wù)狀態(tài)管理、資源服務(wù)狀態(tài)管理。對正?;虍惓M顺龅膶嵗臍v史數(shù)據(jù)進行分析和統(tǒng)計,做出決策并通知故障恢復模塊對所檢測到的故障進行處理。以下分別對虛擬連接相關(guān)、資源服務(wù)相關(guān)、任務(wù)相關(guān)以及應(yīng)用相關(guān)的四類多種故障的具體消解方法進行詳細闡述。(一)虛擬連接故障檢測I) VL_Disconnect_Failure 檢測通??梢酝ㄟ^系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的中間件檢測到,可采用Golbus 提供的 GRAM 服務(wù)來檢測 VL_Disconnect_Failure。2) Bandwidth_Fai lure 檢測系統(tǒng)中兩個實體(用A、B表示)間是否因帶寬原因產(chǎn)生了故障采用通信時間(CT)和成功通信率(PSC)或可靠性兩個指標來判斷。A)采用通信時間判斷令A(yù)、B間的虛擬連接表示為VL (A, B),VL (A, B)的總信息交換量為SumInfor (A, B),傳輸速度(帶寬)為V(A,B),等待時間為Waite (A, B)。則相應(yīng)的總通信時間,記為Tc (A, B),為傳輸時間和等待時間之和。
B)成功通信率(PSC)或可靠性判斷設(shè)虛擬連接VL (A, B)、節(jié)點A和B的故障率分別為α (A, B)、α㈧、α (B),則由可靠性的定義可求VL(Α,B)間的可靠性SC(A,B)。設(shè)用戶請求的最低CT和PSC要求分別為K或#)和& (或#),則當虛擬連接VL(A, B)滿足Tl·(式5)>6( 為I )或λνΡ, ΚΧΗ為ii)時,則系統(tǒng)判定發(fā)生了 Bandwidth—Failure。(二)資源服務(wù)相關(guān)的故障檢測I) RS_Quit_Failure 檢測為檢測在資源服務(wù)優(yōu)化配置過程中是否產(chǎn)生了 RS_Quit_Failure,資源服務(wù)檢測器定期不間斷檢查每個資源服務(wù)的狀態(tài)。如果該資源服務(wù)沒有反應(yīng),則系統(tǒng)判定發(fā)生了 RS_Quit_Failure。2) RS_Overload_Failure 檢測通過評估RSi的數(shù)據(jù)處理能力(DC)、通信時間(CO、執(zhí)行時間(ET)來判定RSi是否過載,即系統(tǒng)是否產(chǎn)生了 RS_Overload_Failure。設(shè)一定時間段內(nèi)分配給RSi的任務(wù)集為Γ j = (Task1, Task2,…,Taskj,…,TaskJ。其中Taskj需要RSi的數(shù)量為,Clij j為任務(wù)Taskj調(diào)用RSi所需的數(shù)據(jù)訪問量,V(i, j)為Taskj與RSi之間的虛擬連接帶寬;e\_為每個RSi執(zhí)行Tasl^所需的執(zhí)行時間。則運行過程中RSi所對應(yīng)的ET, DC, CT分別計算得到 以’m ’ Cfxsi。設(shè)RSi的ET, DC, CT上限分別為/加g ,LinQf, Lim^i,當系統(tǒng)檢測到 RSi 滿足K,>Limt^i ,DCm >Lim^其中之一者,則系統(tǒng)判定發(fā)生了 RS_Overload_Failure。3) RS_Compos i t ion_Fai Iure 檢測RS_Comp o s i t i on_F a i I ur e主要包括概念間誤匹配、數(shù)據(jù)間誤匹配、屬性誤匹配和QoS非一致性四種情況。A)概念間的誤匹配檢測規(guī)則(I)如果RSi是RSk的子類并且RSk不包含于RSj,則RSi與RSj之間存在間隙(gap)。此為資源服務(wù)概念間的誤匹配(概念間存在間隙)檢測規(guī)則;(2)如果RSi是RSk的子類并且RSk是RSj的子類,則RSi是RSj的子類。此為資源服務(wù)概念間的誤匹配(RSi是RSj的子類)檢測規(guī)則。B)數(shù)據(jù)間誤匹配檢測規(guī)則(I)如果DUnitTranste(RSi)等于RS」,那么RSi和RSj的同一參數(shù)具有相同的數(shù)據(jù)類型,但不同量綱。其中DUnitT-O是數(shù)據(jù)量綱轉(zhuǎn)化函數(shù)。(2)如果DUgjRSi)等于RSj,那么RSi和RS^具有相同的參數(shù)概念,但不同數(shù)據(jù)類型。其中DTypJranste O是數(shù)據(jù)類型轉(zhuǎn)化函數(shù)。C)屬性誤匹配檢測規(guī)則如果RSj所需的屬性參數(shù)比RSi所能提供的多并且RSi與?(/ ,)的交集不為空,則RSi的屬性不能滿足RSj的要求,其中禮為split函數(shù)。以上有關(guān)資源服務(wù)組合檢測規(guī)則只是部分,在實際應(yīng)用中,可以根據(jù)需要設(shè)計添加新規(guī)則。D) QoS非一致性檢測規(guī)則
設(shè)/Ww(CTift)和/)/W(Cf_)分別為RSi和RSj的參數(shù)個數(shù),通過分析如果組合服務(wù)中兩個相鄰的資源服務(wù)RSi和RSj的QoS是一致的,該組合服務(wù)是有效的,否則系統(tǒng)判定發(fā)生了 RS_Composition_Failure.(三)任務(wù)相關(guān)的故障檢測I) Task_Cancel_Failure 和 Task_Suspension_Failure 檢測為了檢測在資源服務(wù)優(yōu)化配置過程中是否產(chǎn)成了 RS_Quit_Failure,任務(wù)檢測器定期不間斷檢查每個任務(wù)的當前狀態(tài)。當任務(wù)處于Task_Suspended隊列時,則系統(tǒng)判定產(chǎn)生了 Task_Suspension_Failure。如果處于 Task_Terminated,則系統(tǒng)判斷定產(chǎn)生了 Task_Cancel_Failure。2) Task_Resource_Mismatch_Failure 檢測
設(shè)分配資源服務(wù)RSi執(zhí)行任務(wù)Taskj,根據(jù)資源服務(wù)匹配算法,設(shè)ζ bas、ζ i/o, ζ QoS,ζ分別為系統(tǒng)或用戶設(shè)定的基本匹配閥值、I/O匹配閥值、QoS匹配閥值、綜合匹配閥值。則(I)若資源服務(wù)RSi與任務(wù)Taskj的基本匹配值小于基本匹配閥值ζ bas,則系統(tǒng)判定產(chǎn)生了基本匹配故障;(2)若資源服務(wù)RSi與任務(wù)Taskj^ I/O匹配值小于I/O匹配閥值ζ ^。,則系統(tǒng)判定產(chǎn)生了 I/O匹配故障;(3)若資源服務(wù)RSi與任務(wù)Taskj的QoS匹配值小于QoS匹配閥值ζ QoS,則系統(tǒng)判定產(chǎn)生了 QoS匹配故;(4)若資源服務(wù)RSi與任務(wù)Taskj的最后匹配值小于綜合匹配閥值ζ,則系統(tǒng)判定產(chǎn)生了綜合匹配故障。Task_Resource_Mismatch_Failure 的檢測過程如圖 3 所不。Task_RequireChange_Failure 檢測方法與 Task_Resource_Mismatch_Failure 相同。(四)應(yīng)用相關(guān)的故障檢測I) Trust_Failure 檢測設(shè)RSOA中參與交易的兩個實體分別為X和y,則在優(yōu)化配置過程中,可根據(jù)資源服務(wù)Trust-QoS評估模型來評估X與y之間的信任值Tx —y。設(shè)實體x對y的最低信任度要求為?。?—y°,則當Tx —y〈Tx —y°時,則系統(tǒng)判斷定產(chǎn)生了 Trust_Failure,如圖4。2) App_DesignCode_Failure 和 App_AccessRight_Failure 檢測同 VL_Disconnected_Failure 檢測方法一樣,App_DesignCode_Failure 和 App_AccessRight_Failure主要是通過系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的系統(tǒng)中間件來檢測,主要采用Globus提供的相關(guān)服務(wù)或中間件來檢測。(4)故障恢復模塊當發(fā)生并檢測到故障時,必須對其進行修復。當前的故障容錯機制主要有以下幾種I)基于檢查點策略的任務(wù)容錯系統(tǒng)通過周期性地設(shè)置檢查點,把程序運行時的正確狀態(tài)保存到可靠存儲設(shè)備中,當發(fā)生故障時,恢復到最近狀態(tài)并恢復運行,從而最大程度減少因故障帶來的損失。2)基于重試的任務(wù)容錯策略在資源服務(wù)優(yōu)化配置運行過程中,如果發(fā)生故障的操作已經(jīng)執(zhí)行或沒有執(zhí)行的操作不能忽略,則系統(tǒng)可嘗試在不改變執(zhí)行路徑的情況下重新執(zhí)行該操作,重試到最大重復次數(shù)的約束,如果反復執(zhí)行異?;顒又钡阶畲蟠螖?shù)仍然沒有得到解決則停止重復操作。3)基于備份的任務(wù)容錯策略其思想是將一個任務(wù)在不同的資源上進行復制備份,只要不是所有的備份都出錯,任務(wù)最終就能夠成功運行。4)基于替代的容錯策略當任務(wù)發(fā)生故障時,通過運行另外一個具有相同功能的任務(wù)來替代。5)基于冗余的任務(wù)容錯其思想是選擇多個可以實現(xiàn)任務(wù)的不同執(zhí)行活動或路徑,雖然有不同的執(zhí)行特征,但是這些活動或執(zhí)行路徑的功能相同。6)基于自定義異常容錯策略用戶自定義的異常允許用戶針對特殊任務(wù)定義各種異常處理方法。當運行過程中如果發(fā)生故障,則激活定義在該任務(wù)上的異常處理方法。本發(fā)明除了綜合采用以上容錯機制外,還采用事件-條件-動作(ECA)規(guī)則來支持RSOA容錯管理。通過將RSOA過程中發(fā)生的故障定義為ECA規(guī)則的Event ;將故障檢測條件定義為ECA規(guī)則的Condition ;對故障做出的處理(如再調(diào)度、再匹配等)定義為ECA規(guī)則的 Action。參照典型的ECA規(guī)則,本發(fā)明設(shè)計了如圖2所示的基于ECA的資源服務(wù)優(yōu)化配置故障消解模塊。主要包括事件檢測器、條件評估器、動作執(zhí)行器、Rule Engine、ECA規(guī)則庫、ECA規(guī)則管理器幾個部分。I) Event Detector :主要接收故障檢測模塊發(fā)送過來的故障消息,分析檢測故障的 Event。2) Condition Evaluator :主要負責對檢測到的Event相關(guān)的Condition進行評估,看其是否滿足相應(yīng)的ECA規(guī)則的條件。3) Rule Engine :主要負責對檢測到的Event與ECA規(guī)則庫中的相應(yīng)規(guī)則進行推理匹配,找到合適的規(guī)則來處理檢測到的故障。4) Action Executor :主要是根據(jù)Rule Engine推理的結(jié)果,來執(zhí)行所選定的ECA規(guī)則動作來對故障進行處理。 5) ECARules :為 ECA 規(guī)則庫。6) ECARule Manager :負責管理ECA規(guī)則,包括規(guī)則的修改、添加、刪除等。在所提出的服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置容錯機制中,ECA規(guī)則直接用來支持故障恢復。針對以上的故障及給出的檢測方法,本發(fā)明設(shè)計了如表I所示的ECA規(guī)則來支持CMfg等服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置故障恢復。表I中所列的有關(guān)服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置故障消解規(guī)則只是ECA規(guī)則庫中的一部分。在實際應(yīng)用中,根據(jù)需要設(shè)計新的規(guī)則,通過ECARule Managemr添加到ECA規(guī)則庫中。表I
權(quán)利要求
1.一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其特征在于該系統(tǒng)包括信息服務(wù)模塊、資源服務(wù)優(yōu)化配置模塊、故障檢測模塊和故障恢復模塊; 所述的信息服務(wù)模塊主要為故障檢測、故障恢復、資源服務(wù)優(yōu)化配置提供信息和數(shù)據(jù)支持; 所述的資源服務(wù)優(yōu)化配置模塊主要實現(xiàn)資源服務(wù)搜索、服務(wù)質(zhì)量(QoS)評估、資源服務(wù)優(yōu)選、資源服務(wù)組合等功能操作; 所述的故障檢測模塊負責監(jiān)控服務(wù)制造系統(tǒng)中各節(jié)點及其所運行的任務(wù)和資源的狀態(tài),隨時監(jiān)控并進行狀態(tài)分析;對正?;虍惓M顺龅膶嵗臍v史數(shù)據(jù)進行分析和統(tǒng)計,做出決策并通知故障恢復模塊對所檢測到的故障進行處理; 所述的故障恢復模塊,即綜合多種容錯機制的基于ECA (Event-Condition-Action)的資源服務(wù)優(yōu)化配置故障消解模塊,主要包括事件檢測器(Event Detector)、條件評估器(Condition Detector)、動作執(zhí)行器(Action Executor)、規(guī)則推理引擎(Rule Engine)、ECA 規(guī)則庫(ECA Rules)、ECA 規(guī)則管理器(ECA Rule manager)部分。
2.根據(jù)權(quán)利要求I所述的一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其特征在于所述的故障檢測模塊中故障檢測包括虛擬連接(VL)相關(guān)的故障檢測、資源服務(wù)(RS)相關(guān)的故障檢測、任務(wù)(Task)相關(guān)的故障檢測、應(yīng)用相關(guān)的故障檢測;虛擬連接相關(guān)的故障檢測,主要包括虛擬連接故障(VL_Disconnect_Failure)檢測和帶寬不足故障(Bandwidth_Failure)檢測;虛擬連接故障(VL_Disconnect_Failure)通??梢酝ㄟ^系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的中間件檢測到;兩個實體間是否因帶寬而產(chǎn)生故障采用通信時間和成功通信率或可靠性兩個指標來判斷;資源服務(wù)相關(guān)的故障檢測,主要是資源服務(wù)退出故障(RS_Quit_Failure)檢測、資源服務(wù)過載故障(RS_Overload_Failure)檢測、資源服務(wù)組合故障(RS_Composition_Failure)檢測;資源服務(wù)退出故障(RS_Quit_Failure)通過資源服務(wù)檢測器定期不間斷檢查每個資源服務(wù)的狀態(tài)來判定;資源服務(wù)過載故障(RS_Overload_Failure)通過評估RSi的數(shù)據(jù)處理能力、通信時間、執(zhí)行時間來判定RSi是否過載;資源服務(wù)過載故障(RS_Overload_Failure)通過檢測是否滿足概念間的誤匹配檢測規(guī)則、數(shù)據(jù)間誤匹配檢測規(guī)則、屬性誤匹配檢測規(guī)則、QoS非一致性檢測規(guī)則來判定;任務(wù)相關(guān)的故障檢測,主要包括任務(wù)取消故障(Task_Cancel_Failure)和任務(wù)被懸置或掛起故障(Task_Suspension_Failure)檢測、資源與任務(wù)匹配失敗(Task_Resource_Mismatch_Failure)檢測;任務(wù)被懸置或掛起故障(Task_Suspension_Failure)通過任務(wù)檢測器定期不間斷檢查每個任務(wù)的當前狀態(tài),任務(wù)是否處于任務(wù)掛起(Task_Suspended)隊列和任務(wù)終止(Task_Terminated)來判定;資源與任務(wù)匹配失敗(Task_Resource_Mismatch_Failure)采用資源服務(wù)匹配算法,判定是否發(fā)生了基本匹配故障、I/O匹配故障、QoS匹配故障、綜合匹配故障;任務(wù)被懸置或掛起故障(Task_Suspension_Failure)檢測方法與資源與任務(wù)匹配失敗(Task_Resource_Mismatch_Failure)相同;應(yīng)用相關(guān)的故障檢測,主要包括信任故障(Trust_Failure)檢測、應(yīng)用設(shè)計或者編碼故障(App_DesignCode_Failure)和訪問權(quán)限故障(App_AccessRight_Failure)檢測;信任故障(Trust_Failure)通過用資源服務(wù)Trust-QoS評估模型評估的X與y之間的信任值Tx —y和實體x對y的最低信任度要求Tx^/的大小比較來判定;應(yīng)用設(shè)計或者編碼故障(App_DesignCode_Failure)和訪問權(quán)限故障(App_AccessRight_Fai lure)主要是通過系統(tǒng)安全策略或嵌入在服務(wù)制造系統(tǒng)中的系統(tǒng)中間件來檢測。
3.根據(jù)權(quán)利要求I所述的一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其特征在于ECA(Event-Condition-Action,事件-條件-動作)規(guī)則中的事件(Event)定義為觸發(fā)一個規(guī)則(Rule)所對應(yīng)的事件,條件(Condition)定義為激活該規(guī)則(Rule)所必須滿足的條件,動作(Action)為當一個ECA規(guī)則被觸發(fā)后所要執(zhí)行的動作指令;將RSOA過程中發(fā)生的故障定義為ECA規(guī)則的事件(Event);將故障檢測條件定義為ECA規(guī)則的條件(Condition);對故障做出的處理定義為ECA規(guī)則的動作(Action)。
4.根據(jù)權(quán)利要求3所述的一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其特征在于所述的對故障做出的處理具體為再調(diào)度或再匹配。
5.根據(jù)權(quán)利要求I所述的一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其特征在于事件檢測器(Event Detector)主要接收故障檢測模塊發(fā)送過來的故障消息,分析檢測故障的事件(Event);條件評估器(Condition Evaluator)主要負責對檢測到的事件(Event)相關(guān)的條件(Condition)進行評估,看其是否滿足相應(yīng)的ECA規(guī)則的條件;規(guī)則推理引擎(RuleEngine)主要負責對檢測到的事件(Event)與ECA規(guī)則庫中的相應(yīng)規(guī)則進行推理匹配,找到合適的規(guī)則來處理檢測到的故障;動作執(zhí)行器(Action Executor)主要是根據(jù)Rule Engine推理的結(jié)果,來執(zhí)行所選定的ECA規(guī)則動作來對故障進行處理;ECA規(guī)則管理器(ECA RuleManager)負責管理ECA規(guī)則,包括規(guī)則的修改、添加及刪除;ECA規(guī)則庫(ECA Rules)主要存儲故障消解過程中所需的各種規(guī)則。
全文摘要
本發(fā)明涉及一種資源服務(wù)優(yōu)化配置容錯管理實現(xiàn)系統(tǒng),其根據(jù)資源服務(wù)優(yōu)化配置過程中故障產(chǎn)生的原因及分類,設(shè)計相應(yīng)的容錯管理實現(xiàn)機制,實現(xiàn)相應(yīng)的故障檢測和消解。具體包括信息服務(wù)模塊、資源服務(wù)優(yōu)化配置模塊、故障檢測模塊和故障恢復模塊,具有良好的模塊性、可維護性、擴展性,能有效檢測和消解資源服務(wù)優(yōu)化配置過程中的各種故障,提高整個服務(wù)制造系統(tǒng)的穩(wěn)定性和資源服務(wù)優(yōu)化配置的可靠性。本發(fā)明能有效檢測到服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置過程中由虛擬連接、資源、任務(wù)、應(yīng)用等引起的常見故障,并對其提供相應(yīng)的良好的消解策略,有效提高服務(wù)制造系統(tǒng)資源服務(wù)優(yōu)化配置的可靠性和服務(wù)質(zhì)量。
文檔編號H04L12/26GK102916830SQ201210335609
公開日2013年2月6日 申請日期2012年9月11日 優(yōu)先權(quán)日2012年9月11日
發(fā)明者陶飛, 程穎, 張霖 申請人:北京航空航天大學