專利名稱:復雜分布式應用程序中的自動化恢復和升級的制作方法
復雜分布式應用程序中的自動化恢復和升級
背景技術:
在今天的聯(lián)網(wǎng)通信環(huán)境中,很多過去由本地執(zhí)行的應用程序所提供的服務現(xiàn)在通過分布式服務來提供。例如,電子郵件服務、日歷/日程安排服務和類似服務是通過復雜的聯(lián)網(wǎng)系統(tǒng)提供的,其中聯(lián)網(wǎng)系統(tǒng)涉及多個物理的和虛擬的服務器、存儲設施和其它跨越地理邊界的組件。即使諸如企業(yè)網(wǎng)絡等組織系統(tǒng)也可能通過物理上分開的服務器場實現(xiàn),等
坐寸O盡管分布式服務使得更易于管理應用程序的安裝、更新和維護(例如,代替安裝、更新和維護成百的一假如不是成千的話一本地應用程序,中央管理的服務可以照看這些任務),此類服務仍涉及在多個服務器上執(zhí)行的多個應用程序。在連續(xù)地管理此類大規(guī)模 分布式應用程序時,可預期各種問題。硬件故障、軟件問題和其他預料外的失靈可能會定期發(fā)生。試圖管理并從此類問題中手動恢復可能需要成本過高的數(shù)量的專職的并有豐富領域知識的運營工程師。
發(fā)明內容
提供本發(fā)明內容以便以簡化的形式介紹將在以下的具體實施例中進一步描述的一些概念。本發(fā)明內容并不旨在專門標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。各實施例涉及將檢測到的警告映射到恢復動作,從而在聯(lián)網(wǎng)通信環(huán)境中自動地解決問題。未被映射的警告可通過循環(huán)升級方法升級給指定個體,該方法包括來自指定個體的確認交接通知。根據(jù)一些實施例,在升級過程中為每個警告收集的信息以及方案可被記錄以便擴展自動化解決知識庫。通過閱讀下面的詳細描述并參考相關聯(lián)的附圖,這些及其他特點和優(yōu)點將變得顯而易見??梢岳斫猓笆鲆话忝枋龊鸵韵碌脑敿毭枋龆际钦f明性的,并且不限制所要求保護的各方面。
圖I是檢測到警告可能導致修復動作或者警告升級的示例環(huán)境的概念圖;圖2是示出警告升級期間的動作的動作圖;圖3是示出多區(qū)域環(huán)境中的警告管理的另一概念圖。圖4是聯(lián)網(wǎng)環(huán)境,其中可實現(xiàn)根據(jù)實施例的系統(tǒng);圖5是可實現(xiàn)各實施例的示例計算操作環(huán)境的框圖;以及圖6是示出根據(jù)各實施例的聯(lián)網(wǎng)通信環(huán)境中的警告的自動化管理的邏輯流程圖。
具體實施例如以上簡要描述的,聯(lián)網(wǎng)系統(tǒng)中的警告可通過自動化動作/升級過程管理,其中自動化動作/升級過程使用映射到警告的動作和/或用于手動解決的升級,同時擴展知識庫中自動化動作的部分并將收集的信息提供給有解決所述問題的任務的指定個體。在以下詳細描述中,參考了構成詳細描述的一部分并作為說明示出各個具體實施例或示例的附圖??山M合這些方面,可利用其他方面,并且可以做出結構上的改變而不背離本發(fā)明的精神或范圍。因此,以下詳細描述并不旨在限制,并且本發(fā)明的范圍由所附權利要求及其等效方案來限定。盡管在結合在個人計算機上的操作系統(tǒng)上運行的應用程序執(zhí)行的程序模塊的一般上下文中描述了各實施例,但是本領域的技術人員會認識到各方面也可以結合其它程序模塊實現(xiàn)。一般而言,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、組件、數(shù)據(jù)結構和其他類型的結構。此外,本領域的技術人員可以明白,各實施例可以用其他計算機系統(tǒng)配置來實施,包括手持式設備、多處理器系統(tǒng)、基于微處理器的或可編程消費電子產品、小型計算機、大型計算機以及類似計算設備。各實施例還能在任務由通過通信網(wǎng)絡鏈接的遠程處理設備來執(zhí)行的分布式計算環(huán)境中實現(xiàn)。在分布式計算環(huán)境中,程序模塊可位于本地和遠程存儲器存儲設備兩者中。
各實施例可被實現(xiàn)為計算機實現(xiàn)的過程(方法)、計算系統(tǒng)、或者諸如計算機程序產品或計算機可讀介質等制品。計算機程序產品可以是計算機系統(tǒng)可讀并且編碼包括用于使計算機或計算系統(tǒng)執(zhí)行示例過程的指令的計算機程序的計算機存儲介質。例如,計算機可讀存儲介質可經(jīng)由易失性計算機存儲器、非易失性存儲器、硬盤驅動器、閃存驅動器、軟盤或緊致盤和類似介質中的一個或多個來實現(xiàn)。計算機程序產品也可以是計算系統(tǒng)可讀并且對用于執(zhí)行計算機過程的指令的計算機程序編碼的載體(例如,頻率或相位調制信號)上的傳播信號。對服務的引用貫穿本說明書。此處使用的服務描述任何可接收警告作為其常規(guī)操作的一部分并處理/存儲/轉發(fā)此信息的聯(lián)網(wǎng)/在線應用程序。此類應用程序可在單個計算設備、交互式的多個計算設備以及諸如此類上執(zhí)行。各實施例還可在在多個服務器或類似系統(tǒng)上執(zhí)行的托管服務中實現(xiàn)。術語“服務器”一般指通常在聯(lián)網(wǎng)環(huán)境中執(zhí)行一個或多個軟件程序的計算設備。然而,服務器還可以被實現(xiàn)為在被視作網(wǎng)絡上的服務器的一個或多個計算設備上執(zhí)行的虛擬服務器(軟件程序)。在下面將提供關于這些技術和示例操作的詳細細節(jié)。參考圖1,概念圖100示出了檢測到警告可導致修復動作或警告升級的示例環(huán)境。如之前簡要提到的,各實施例通過自動化修復動作和警告升級來解決技術支持服務的復雜性。例如,在分布式技術支持服務系統(tǒng)中,監(jiān)視引擎103可在檢測到分布式系統(tǒng)中的硬件、軟件或硬件/軟件組合的問題時向自動化引擎102發(fā)送警告113。自動化引擎102可試嘗試將警告113映射到修復動作112。如果自動化引擎102成功地將警告113映射到修復動作112,那么自動化引擎102可執(zhí)行修復動作112,修復動作可包括用于解決檢測到的問題的一組指令。問題可與地理上為分布式的服務地點105中的一個或多個設備104相關聯(lián)。設備可包括任何計算設備,諸如臺式計算機、服務器、智能電話、膝上型計算機以及類似計算設備。設備104還可包括附加的遠程可訪問設備,諸如監(jiān)視器、音頻設備、電視機、視頻捕捉設備及其他類似設備。
警告113可包括與檢測到的問題相關聯(lián)的設備或程序的狀態(tài)信息,諸如設備存儲器的內容、傳感器讀數(shù)、最后執(zhí)行的指令,以及其他信息。警告113還可包括問題描述,諸如哪一指令執(zhí)行失敗、哪些執(zhí)行指示了超出預定限制的結果,以及類似描述。自動化引擎102可嘗試通過搜索故障診斷數(shù)據(jù)庫114將警告113映射到修復動作112。故障診斷數(shù)據(jù)庫114可存儲匹配到由設備或軟件程序進一步分類的修復動作的警告的檔案。一示例實現(xiàn)可以是匹配到重啟通信設備網(wǎng)絡接口的修復動作的通信設備的“無連接”警告。一個或多個修復動作可被映射到每個警告。此外,一個或多個警告可被映射到單個修復動作。如果自動化引擎102為警告確定了多個修復動作,執(zhí)行優(yōu)先級可取決于各修復動作的預定優(yōu)先級。例如,以上討論的場景中主要的修復動作可能是重啟網(wǎng)絡接口,隨后是重新引導通信設備的次級修復動作。修復動作的預定優(yōu)先級可被手動輸入到故障診斷數(shù)據(jù)庫 114中,或者基于修復動作成功評估方案在問題得到成功修正時自動地確定。根據(jù)一些實施例,修復動作112可包括收集來自與所述問題相關聯(lián)的設備和/或軟件程序的附加診斷信息。根據(jù)其他實施例,附加診斷信息可作為重啟自動化循環(huán)的警告發(fā)送到監(jiān)視引擎。作為對警告的響應,附加診斷信息還可被收集并存儲在系統(tǒng)中。存儲的信息可用來捕捉問題狀態(tài)和提供當警告被升級給指定個人或團隊(例如,101)時的上下文。如果自動化引擎102未在故障診斷數(shù)據(jù)庫114中找到映射的修復動作,警告113可被升級給指定的個人或團隊101。即使映射的動作被找到并為了信息的目的而執(zhí)行了,也可通知指定的個人或團隊101。發(fā)送警告113給指定的個人或團隊101可根據(jù)警告113的命名約定來確定。警告的命名約定可指示警告應升級給哪個支持人員,諸如硬件支持團隊、軟件支持團隊以及類似人員等。命名約定方案還可用來將警告映射到恢復動作。例如,警告可以分層的方式(例如,系統(tǒng)/組件/警告名)命名,而且恢復動作可在從系統(tǒng)的所有警告(系統(tǒng)/*)到用于具體警告的特殊恢復動作的任何地方被映射到。根據(jù)一些實施例,每個具體警告可有指定的團隊與之相關聯(lián),盡管該團隊可能被默認為整個組件的特定值。將警告發(fā)送給哪個團隊成員的判斷可依賴于為了知曉支持團隊的日程安排而駐留在自動化引擎中的預定的映射算法。預定的映射算法可手動更新或者通過集成調度系統(tǒng)或外部調度系統(tǒng)自動地更新。自動化引擎102可通過電子郵件、即時消息、文本消息、尋呼、語音郵件或類似手段將警告113升級給第一個指定個人或團隊。警告可被映射到團隊名,而且團隊名可被映射到按預定間隔(例如,一天、一周等等)應呼的一組個體。映射的一部分可用來標識哪些人在該間隔中應呼。這樣,警告映射可以從可能流動的個體團隊成員中抽象出來。然后自動化引擎102可等待來自第一個指定個人或團隊的交接通知。交接通知可由自動化引擎102以警告之前如何發(fā)送的方式接收或者它可通過其他手段接收。如果自動化引擎102未在預定量的時間以內接收到,其可將警告113升級給通過預定的映射算法確定的輪班的下一指定個人或團隊。自動化算法可一直將警告升級給輪班的下一指定個人或團隊,直到收到交接通知。在修復動作112的執(zhí)行將反饋響應傳遞給自動化引擎102以后,監(jiān)視引擎103可從設備或軟件程序處接收該響應(例如,以動作的形式)。然后自動化引擎102可更新故障診斷數(shù)據(jù)庫114。諸如修復動作的成功率等的統(tǒng)計信息可用來改變修復動作的執(zhí)行優(yōu)先級。而且,與指定個人或團隊執(zhí)行的動作相關聯(lián)的反饋響應也可記錄在故障診斷數(shù)據(jù)庫114中,使得機器學習算法或類似機制可用來擴展動作列表、將新警告映射到已有的動作、將已有的警告映射到新動作,諸如此類。根據(jù)某些實施例,自動化引擎的動作和指定個人的動作可由系統(tǒng)審核。系統(tǒng)可維護關于誰、什么時候及針對什么設備或服務器執(zhí)行了特定動作的日志。然后記錄可用來故障診斷、跟蹤系統(tǒng)內的變化、及/或開發(fā)新的自動化警告響應。根據(jù)其他實施例,自動化引擎102可對故障診斷數(shù)據(jù)庫114執(zhí)行通配符搜索并響應于接收到的警告而確定多個修復動作。單個或成組修復動作的執(zhí)行可依賴于各修復動作的預定優(yōu)先級。成組的修復動作也可映射到成組的警告。當警告可匹配幾個通配符映射時,實際應用最特定的映射。例如,警告“交換/傳輸/排隊”可匹配映射“交換/*”、“交換/傳輸/*”和“交換/傳輸/排隊”。然而,最后一個可能實際上是真實的映射,因為其為最特定的一個。圖2在圖200中示出警告升級期間的動作。監(jiān)視引擎202可提供檢測到的問題作為給自動化引擎204的警告(211)。自動化引擎204可從動作存儲206(圖I的故障診斷數(shù)據(jù)庫114)檢查可用的動作(212),如果有可用的動作則執(zhí)行動作(213)。如果沒有可用的動作,自動化引擎204可將警告升級(214)給過程擁有者208。警告可進一步升級(215)給其他指定者209。如前所述,升級也可與所確定的動作的執(zhí)行并行執(zhí)行。當從過程擁有者208或者其他指定者209處接收到要執(zhí)行的新動作(216、217)時,自動化引擎204可執(zhí)行新動作(218)并用新動作更新記錄(219)以備將來使用。圖200中的示例交互示出有限制的場景。根據(jù)各實施例,諸如與指定人員的交接、來自報告問題的設備/軟件的反饋和類似交互等其他交互也可包括在自動化恢復和升級系統(tǒng)的操中。圖3在圖300中示出多區(qū)域環(huán)境中的警告管理的概念圖。在分布式系統(tǒng)中,警告的升級可依賴于地理區(qū)域的預定優(yōu)先級。例如,當兩個區(qū)域的升級同時由單個支持團隊管理時,預定優(yōu)先級可能升級來自處于白天的區(qū)域的警告并扣住來自處于夜間的區(qū)域的警告。類似地,當來自不同區(qū)域的修復動作競爭相同的硬件、軟件、通信資源以解決檢測到的問題時,來自不同區(qū)域的修復動作可基于預定的優(yōu)先級而被區(qū)分優(yōu)先級。圖300示出根據(jù)各實施例來自不同區(qū)域的警告可怎樣被系統(tǒng)解決。根據(jù)示例場景,監(jiān)視引擎303、313和323可分別負責監(jiān)視來自區(qū)域1、2和3 (304、314和324)的硬件和/或軟件問題。當檢測到問題時,監(jiān)視引擎的每一個都可發(fā)送警告到相應的自動化引擎302、312和322,這些自動化引擎可負責相應的區(qū)域。自動化引擎的邏輯以與監(jiān)視邏輯同樣的方式分布到每個區(qū)域。根據(jù)一些實施例,自動化可跨區(qū)域發(fā)生,諸如全站故障和恢復等。根據(jù)其他實施例,自動化引擎可負責多個區(qū)域。類似地,升級目標也可為集中式或分布式。例如,系統(tǒng)可基于一天內的時間升級給不同的團隊。監(jiān)視引擎303、313和323可擁有自己的單獨的區(qū)域數(shù)據(jù)庫以管理監(jiān)視過程。自動化引擎302、312和322可對故障診斷數(shù)據(jù)庫(集中的或分布式)進行查詢以將警告映射到修復動作。如果找到相應的修復動作,自動化引擎302、312和322可在區(qū)域304、314和324中的設備和/或程序上執(zhí)行修復動作。還可對所有區(qū)域實現(xiàn)全局監(jiān)視數(shù)據(jù)庫310。如果自動化引擎302、312和322不能找到匹配的修復動作,它們可基于諸如組織結構等預定義的區(qū)域優(yōu)先級將警告升級給指定的支持團隊301。例如,區(qū)域304可能是商業(yè)組織的公司企業(yè)網(wǎng)而324是文檔支持網(wǎng)絡。在這一場景中,在區(qū)域304中檢測到的問題的優(yōu)先級可高于區(qū)域324中檢測到的問題。類似地,在確定區(qū)域優(yōu)先級時,一天中的不同時間或者不同區(qū)域間的工作日/假日區(qū)別,以及類似因素等可被考慮進去。根據(jù)一些實施例,多個自動化引擎可分配給不同的區(qū)域,且如上所述通過自動化引擎間的一致性算法確定升級和/或修復動作優(yōu)先級??商鎿Q地,管理區(qū)域自動化引擎的進程可作出優(yōu)先級決定。而且,自動化引擎302、312和322可與區(qū)域故障診斷數(shù)據(jù)庫交互,區(qū)域故障診斷數(shù)據(jù)庫包括定制的修復動作一用于不同區(qū)域的警告映射。以上結合圖1、2和3使用示例場景、特定修復動作的執(zhí)行和警告的升級討論了分布式系統(tǒng)中的自動化恢復和升級過程,但各實施例不限于此。警告到修復動作的映射、修復動作的優(yōu)先次序、警告的升級和其他過程可使用此處討論的各原則,采用其他操作、優(yōu)先級、評估等來實現(xiàn)。圖4是可實現(xiàn)各實施例的示例聯(lián)網(wǎng)環(huán)境。警告到修復動作的映射可通過諸如托管服務的在一個或多個服務器422上執(zhí)行的軟件而實現(xiàn)。服務器422可通過網(wǎng)絡410與各個計算設備上的客戶端應用程序通信,計算設備諸如手機411、移動計算設備412、智能電話 413、膝上型計算機414和臺式計算機415等(客戶端設備)??蛻舳嗽O備411-415上的客戶端應用程序可促進用戶與在服務器422上執(zhí)行的服務交互,這些服務允許對與服務相關聯(lián)的軟件和/或硬件問題的自動化管理。自動化和監(jiān)視引擎可在各服務器422中的任一個上執(zhí)行。與諸如將警告映射到修復動作的操作相關聯(lián)的數(shù)據(jù)可存儲在一個或多個數(shù)據(jù)存儲(例如,數(shù)據(jù)存儲425或426)中,數(shù)據(jù)存儲可由服務器422中的任何一個或數(shù)據(jù)庫服務器424管理。根據(jù)各實施例的對檢測到的問題的自動化恢復和升級可在如以上示例所述的警告被監(jiān)視引擎檢測到時被觸發(fā)。網(wǎng)絡410可包括服務器、客戶機、因特網(wǎng)服務供應商以及通信介質的任何拓撲結構。根據(jù)各實施例的系統(tǒng)可以具有靜態(tài)或動態(tài)拓撲結構。網(wǎng)絡410可以包括諸如企業(yè)網(wǎng)絡等安全網(wǎng)絡、諸如無線開放網(wǎng)絡或因特網(wǎng)等非安全網(wǎng)絡。網(wǎng)絡410提供此處描述的節(jié)點之間的通信。作為示例而非限制,網(wǎng)絡410可以包括無線介質,諸如聲學、RF、紅外和其他無線介質。計算設備、應用程序、數(shù)據(jù)源和數(shù)據(jù)分布系統(tǒng)的很多其他配置可被采用來實現(xiàn)根據(jù)各實施例的對分布式系統(tǒng)問題的自動化管理的系統(tǒng)。此外,圖4中所討論的聯(lián)網(wǎng)環(huán)境僅用于說明目的。各實施例不限于示例應用程序、模塊、或過程。圖5及相關聯(lián)討論旨在提供對其中可實現(xiàn)各實施例的合適計算環(huán)境的簡要概括描述。參考圖5示出諸如計算設備500等根據(jù)各實施例的服務應用程序的的示例計算操作環(huán)境的框圖。在基本配置中計算設備500可以是托管服務系統(tǒng)中的服務器并包括至少一個處理單元502和系統(tǒng)存儲器504。計算設備500還可包括協(xié)作執(zhí)行程序的多個處理單元。取決于計算設備的確切配置和類型,系統(tǒng)存儲器504可以是易失性的(諸如RAM)、非易失性的(諸如ROM、閃存等)或是兩者的某種組合。系統(tǒng)存儲器504通常包括適于控制平臺操作的操作系統(tǒng)505,諸如來自華盛頓州雷德蒙市的微軟公司的WINDOWS 操作系統(tǒng)。系統(tǒng)存儲器504還可包括一個或多個程序模塊506、自動化引擎522和監(jiān)視引擎524。自動化和監(jiān)視引擎522和524可以是單獨的應用程序或如上所述處理系統(tǒng)警告的托管服務的集成模塊。該基本配置在圖5中由虛線508內的那些組件示出。
計算設備500可具有附加特征或功能。例如,計算設備500還可包括附加數(shù)據(jù)存儲設備(可移動和/或不可移動),例如磁盤、光盤或磁帶。在圖5中通過可移動存儲509和不可移動存儲510示出這樣的附加存儲。計算機可讀存儲介質可以包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。系統(tǒng)存儲器504、可移動存儲509和不可移動存儲510都是計算機可讀存儲介質的示例。計算機可讀存儲介質包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術,CD-ROM、數(shù)字多功能盤(DVD)或其它光學存儲,磁帶盒、磁帶、磁盤存儲或其它磁存儲設備,或能用于存儲所需信息且能夠由計算設備500訪問的任何其它介質。任何這樣的計算機可讀存儲介質都可以是計算設備500的一部分。計算設備500還可以具有輸入設備512,諸如鍵盤、鼠標、筆、語音輸入設備、觸摸輸入設備和類似輸入設備。還可以包括輸出設備514,諸如顯示器、揚聲器、打印機和其它類型的輸出設備。這些設備在本領域中公知且無需在此處詳細討論。 計算設備500還可以包含允許該設備與其他設備516通信的通信連接518,諸如通過分布式計算環(huán)境中的無線網(wǎng)絡、衛(wèi)星鏈路、蜂窩鏈路和類似機制。其他設備518可包括執(zhí) 行分布式應用程序及執(zhí)行類似操作的計算機設備。一個或多個通信連接516是通信介質的一個示例。通信介質可以包括計算機可讀指令、數(shù)據(jù)結構、程序模塊、或者諸如載波或其它傳輸機制等的已調制數(shù)據(jù)信號中的其它數(shù)據(jù),并且包括任何信息傳遞介質。術語“已調制數(shù)據(jù)信號”是指具有以在信號中編碼信息的方式被設定或改變其一個或多個特征的信號。作為示例而非限制,通信介質包括諸如有線網(wǎng)絡或直接線連接之類的有線介質,以及諸如聲學、RF、紅外及其他無線介質之類的無線介質。各示例實施例還包括各種方法。這些方法可以用任何數(shù)量的方式,包括本文中所描述的結構來實現(xiàn)。一種此類方式是通過本文中描述的類型的設備的機器操作。另一可任選方式是結合一個或多個人類操作者執(zhí)行該方法的各個操作中的某一些來執(zhí)行該方法的一個或多個操作。這些人類操作者無需彼此同在一處,而是其每一個可以僅與執(zhí)行程序的一部分的機器同在一處。圖6示出根據(jù)各實施例分布式系統(tǒng)中的問題恢復和升級的自動化管理的邏輯流程圖600。過程600可在服務器上作為托管服務的一部分實現(xiàn)或在客戶端應用程序上實現(xiàn),從而與諸如之前所述的服務交互。過程600從操作602開始,在該處自動化引擎檢測到由監(jiān)視引擎響應于系統(tǒng)中的設備和/或軟件應用程序問題而發(fā)出的警告。在操作604處,自動化引擎已經(jīng)從監(jiān)視引擎接收到警告,可開始收集與該警告相關聯(lián)的信息。這之后在操作606處可嘗試將警告映射到一個或多個修復動作。如果映射到所述警告的顯式動作在判定操作608處被找到,該動作(或多個動作)可在后續(xù)操作610處執(zhí)行。如果在映射過程中沒有顯式動作被確定,該警告可在操作614處升級給指定個人或團隊。操作614之后可以是任選操作616和618,在那里新動作可從指定個人或團隊處被接收并被執(zhí)行。在操作612處,記錄可根據(jù)執(zhí)行過的動作(映射的或新的)更新,使得映射數(shù)據(jù)庫可以被擴展或者與成功率相關聯(lián)的統(tǒng)計信息可以為將來的監(jiān)視和自動化響應任務所用。包括在過程600內的各操作是用于說明目的。復雜分布式應用程序中的問題的自動化恢復和升級可以使用此處所述的各原理通過具有更少或更多步驟的相似過程、以及不同的操作次序來實現(xiàn)。以上說明書、示例和數(shù)據(jù)提供了對各實施例的組成的制造和使用的全面描述。盡管用結構特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權利要求書中 定義的主題不必限于上述具體特征或動作。相反,上述具體特征和動作是作為實現(xiàn)權利要求和各實施例的示例形式而公開的。
權利要求
1.一種至少部分地在計算設備中執(zhí)行的用于分布式系統(tǒng)中的自動化 恢復和警告升級的方法,所述方法包括 從監(jiān)視引擎處接收與檢測到的問題相關聯(lián)的警告; 嘗試將所述警告映射到恢復動作; 如果所述警告被映射到恢復動作,則執(zhí)行所述恢復動作;否則 將所述警告升級給指定人;以及 更新與警告-恢復動作的映射相關聯(lián)的記錄。
2.如權利要求I所述的方法,其特征在于,還包括 收集與所述檢測到的問題相關聯(lián)的診斷信息; 如果所述警告被升級,向所述指定人提供所收集的診斷信息;以及 在更新所述記錄時采用所收集的診斷信息。
3.如權利要求2所述的方法,其特征在干,所收集的診斷信息包括下列ー組中的至少ー項設備的存儲器內容、傳感器讀數(shù)、最后執(zhí)行的指令、失敗的指令、以及與所述檢測到的問題相關聯(lián)的故障結果。
4.如權利要求I所述的方法,其特征在于,還包括 在升級所述警告后等待來自所述指定人的交接響應;以及 如果在預定義時間段內未接收到所述交接響應,則將所述警告升級給另一指定人。
5.如權利要求I所述的方法,其特征在于,所述指定人是根據(jù)指定人的預定義列表和所述警告的命名約定之一確定的,且所述指定人包括個人或團隊之一。
6.如權利要求I所述的方法,其特征在干,將所述警告升級包括 通過下列一組中的至少ー項將所述警告發(fā)送給所述指定人電子郵件、即時消息、文本消
7.如權利要求I所述的方法,其特征在于,還包括 在所述恢復動作執(zhí)行以后從與所述檢測到的問題相關聯(lián)的設備或程序之一處接收反饋動作;以及 更新與所述恢復動作相關聯(lián)的成功率記錄。
8.一種用于分布式系統(tǒng)中的警告自動化恢復和升級的系統(tǒng),所述系統(tǒng)包括 執(zhí)行監(jiān)視引擎和自動化引擎的服務器,其特征在于,所述監(jiān)視引擎被配置成 檢測與分布式系統(tǒng)中的設備和軟件應用程序中至少ー個相關聯(lián)的問題;以及 基于所述檢測到的問題發(fā)送警告;且 所述自動化引擎被配置成 接收所述警告; 收集與所檢測到的問題相關聯(lián)的診斷信息; 試圖采用恢復動作數(shù)據(jù)庫將所述警告映射到恢復動作; 如果所述警告被映射到恢復動作,則執(zhí)行所述恢復動作;否則 將所述警告與所收集的診斷信息一起升級給指定人;以及 更新所述恢復動作數(shù)據(jù)庫中的記錄。
9.如權利要求8所述的系統(tǒng),其特征在于,還包括多個監(jiān)視引擎,每個監(jiān)視引擎被配置成基于用于所述分布式系統(tǒng)內每個地理區(qū)域的系統(tǒng)規(guī)模監(jiān)視不同的地理區(qū)域并基于其相應區(qū)域中檢測到的問題發(fā)送警告,其中所述自動化引擎還被配置成 執(zhí)行映射的恢復動作和基于區(qū)域優(yōu)先級將來自不同區(qū)域的警告升級給所述指定人ニ者之一。
10.如權利要求8所述的系統(tǒng),其特征在于,所述區(qū)域優(yōu)先級還基于下列ー組中的至少ー項的可用性而確定指定的支持團隊、硬件資源、軟件資源、以及通信資源。
11.如權利要求8所述的系統(tǒng),其特征在于,所述警告被映射到多個恢復動作,以及所述各恢復動作根據(jù)預定義的執(zhí)行優(yōu)先級而執(zhí)行。
12.如權利要求8所述的系統(tǒng),其特征在于,所述設備包括臺式計算機、膝上型計算機、手持式計算機、服務器、智能電話、監(jiān)視器、音頻設備、電視機和視頻捕捉設備之一。
13.一種計算機可讀存儲介質,其上存儲有用于分布式系統(tǒng)中的自動化恢復和警告升級的指令,所述指令包括 在監(jiān)視引擎處檢測與分布式系統(tǒng)內的設備和軟件應用程序中的至少ー個相關聯(lián)的問題; 基于檢測到的問題從所述監(jiān)視引擎處發(fā)送警告;以及 在自動化引擎處接收所述警告; 收集與所述檢測到的問題相關聯(lián)的診斷信息; 嘗試將所述警告映射到來自恢復動作數(shù)據(jù)庫的恢復動作,所述恢復動作包括一組用于解決所述檢測到的問題的指令; 如果所述警告被映射到單個恢復動作,則執(zhí)行所述恢復動作; 如果所述警告被映射到多個恢復動作,則根據(jù)預定義的執(zhí)行優(yōu)先級執(zhí)行所述多個恢復動作; 如果所述警告未被映射到恢復動作,則將所述警告與所收集的診斷信息一起升級給指定人; 從所述指定人處接收交接響應;以及 采用所收集的診斷信息和與所執(zhí)行的恢復動作相關聯(lián)的反饋響應來更新所述恢復動作數(shù)據(jù)庫中的記錄。
14.如權利要求13所述的計算機可讀存儲介質,其特征在于,所述恢復動作被映射到單個警告和ー組警告之一。
15.如權利要求13所述的計算機可讀存儲介質,其特征在于,所述指定人是根據(jù)所述警告的命名約定和基于支持人員的可用性的輪班算法之一而確定的。
全文摘要
復雜分布式應用程序環(huán)境中基于檢測到的硬件和/或軟件問題的警告被映射到恢復動作以自動地解決問題。未被映射的警告通過循環(huán)升級方法被升級給指定個體或團隊,該方法包括來自指定個體或團隊的確認交接通知。升級過程中為每個警告收集的信息和方案可被記錄以擴展自動化解決知識庫。
文檔編號G06F9/44GK102859510SQ201180019685
公開日2013年1月2日 申請日期2011年3月30日 優(yōu)先權日2010年4月21日
發(fā)明者J·阿夫納, S·布拉迪, 嚴永文, 志田治哉, S·亞濟喬魯, A·盧基揚諾夫, B·阿林爾, C·納什 申請人:微軟公司