一種share nothing集群下的發(fā)起節(jié)點異常處理方法及裝置制造方法
【專利摘要】本發(fā)明提供一種share nothing集群下的發(fā)起節(jié)點異常處理方法及裝置,所述方法包括:集群中發(fā)起節(jié)點接收到數(shù)據(jù)請求任務(wù)后,先將其他節(jié)點設(shè)置為此數(shù)據(jù)請求任務(wù)的接管節(jié)點,接管節(jié)點向集群管理軟件提交注冊信息完成信息記錄,發(fā)起節(jié)點繼續(xù)執(zhí)行任務(wù);若執(zhí)行過程無異常,發(fā)起節(jié)點完成任務(wù)并將集群管理軟件設(shè)置為任務(wù)結(jié)束并清理資源;若執(zhí)行過程出現(xiàn)異常,集群管理軟件選擇一個接管節(jié)點繼續(xù)執(zhí)行任務(wù),接管節(jié)點完成任務(wù)之后將集群管理軟件設(shè)置為任務(wù)結(jié)束并清理資源;如果任務(wù)已不可繼續(xù)執(zhí)行,則進(jìn)行任務(wù)的異常處理,進(jìn)行恢復(fù)。本發(fā)明能夠解決數(shù)據(jù)庫系統(tǒng)在執(zhí)行任務(wù)中并行任務(wù)管理軟件發(fā)生異常時造成集群數(shù)據(jù)不一致問題,提高了系統(tǒng)的穩(wěn)定性。
【專利說明】—種share noth i ng集群下的發(fā)起節(jié)點異常處理方法及裝
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及分布式系統(tǒng)領(lǐng)域,尤其涉及一種share nothing集群下的發(fā)起節(jié)點異常處理方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展,軟件規(guī)模的不斷增大,越來越多的數(shù)據(jù)信息需要存儲及處理,以往的單臺服務(wù)器的模式已經(jīng)無法滿足使用需求,因此產(chǎn)生了由多臺機器組成的服務(wù)器集群系統(tǒng),將處理數(shù)據(jù)的請求轉(zhuǎn)化為執(zhí)行任務(wù),經(jīng)過負(fù)載均衡計算然后交由不同的節(jié)點處理,實現(xiàn)了并行的運算,在這種場景下可以滿足超大規(guī)模的數(shù)據(jù)存儲及處理任務(wù)。
[0003]share nothing集群是指集群中的各個節(jié)點都有自己的處理器,內(nèi)存,硬盤,它們之間沒有相互共享的硬件設(shè)備,這種模式能夠使各個節(jié)點獨立工作,互不干擾,提高并行運算的性能。
[0004]集群系統(tǒng)帶來運算能力提升的同時,其內(nèi)部的復(fù)雜程度也隨之增加,在集群系統(tǒng)中,每一個節(jié)點都有這幾個主要組件:集群并行任務(wù)管理軟件,數(shù)據(jù)信息處理軟件,集群管理軟件。
[0005]集群數(shù)據(jù)庫系統(tǒng)中通過集群并行任務(wù)管理軟件來完成SQL操作的任務(wù)分配和處理,集群管理軟件負(fù)責(zé)監(jiān)控每一個節(jié)點的狀態(tài),現(xiàn)有的機制中,如果其中有節(jié)點出現(xiàn)異常,將恢復(fù)此節(jié)點,恢復(fù)的機制較為簡單,將此節(jié)點的軟件服務(wù)進(jìn)行重啟。
[0006]在集群數(shù)據(jù)庫系統(tǒng)中使用這種方式會存在很大的問題,節(jié)點在執(zhí)行任務(wù)的過程中出現(xiàn)異常之后,它當(dāng)前執(zhí)行的任務(wù)沒有執(zhí)行完成就中斷了,如果執(zhí)行的任務(wù)是SQL的commit操作,則會使集群數(shù)據(jù)庫中的數(shù)據(jù)不一致,這將會給接入集群的使用者造成異常,導(dǎo)致執(zhí)行失敗,帶來損失,在高可用的集群系統(tǒng)下這是一個迫切需要解決的問題。
【發(fā)明內(nèi)容】
[0007]本發(fā)明要解決的問題是提供一種用于share nothing集群下的發(fā)起節(jié)點異常處理方法及裝置,尤其適合于針對分布式數(shù)據(jù)庫的服務(wù)要求有高可用性的場景。
[0008]為解決上述技術(shù)問題,本發(fā)明采用的設(shè)計思想是:在發(fā)起節(jié)點的集群并行任務(wù)管理軟件中,將執(zhí)行任務(wù)的數(shù)據(jù)信息同時存儲在集群管理軟件中,直到任務(wù)成功執(zhí)行完成之后才清除這些數(shù)據(jù)信息。
[0009]如果執(zhí)行過程中集群并行任務(wù)管理軟件發(fā)生異常,集群管理軟件探測到之后,選擇一個之前注冊過的接管節(jié)點,將此任務(wù)信息發(fā)送到接管節(jié)點的集群并行任務(wù)管理軟件,由接管節(jié)點進(jìn)行進(jìn)一步的處理,包括異常流程處理。
[0010]接管的節(jié)點上的集群并行任務(wù)管理軟件可以通過集群管理軟件上的記錄提取到信息,進(jìn)行數(shù)據(jù)狀態(tài)信息維護(hù),如果發(fā)現(xiàn)是SQL操作的commit過程失敗,則可以通過集群自動恢復(fù)程序,讓集群數(shù)據(jù)達(dá)到一致。
[0011]本發(fā)明采用的技術(shù)方案是:一種share nothing集群下的發(fā)起節(jié)點異常處理方法,其特征在于:包括如下步驟:
[0012]步驟一:在一個集群系統(tǒng)中,發(fā)起節(jié)點為任務(wù)請求選擇接管節(jié)點,接管節(jié)點向集群管理軟件注冊;
[0013]步驟二:發(fā)起節(jié)點向集群管理軟件提交數(shù)據(jù)請求任務(wù)信息,開始處理任務(wù),向集群管理軟件更改任務(wù)狀態(tài)為開始;
[0014]步驟三:發(fā)起節(jié)點如無異常,向集群管理軟件更改任務(wù)狀態(tài)為結(jié)束,并清理資源;
[0015]步驟四:發(fā)起節(jié)點如果異常,集群管理軟件檢測到異常發(fā)生,選擇一個此任務(wù)的接管節(jié)點繼續(xù)處理任務(wù)、進(jìn)行異常處理,任務(wù)結(jié)束。
[0016]進(jìn)一步的,所述步驟三包括:
[0017](I)在集群并行任務(wù)管理軟件中初始化操作狀態(tài);
[0018](2)在集群管理軟件中分配一個操作ID給集群并行任務(wù)管理軟件;
[0019](3)在集群并行任務(wù)管理軟件中選擇要操作的分片數(shù)據(jù);
[0020](4)在集群管理軟件中設(shè)置此分片數(shù)據(jù)為開始狀態(tài);
[0021](5)在集群并行任務(wù)管理軟件中處理分片數(shù)據(jù)內(nèi)容;
[0022](6)在集群管理軟件中設(shè)置此分片數(shù)據(jù)狀態(tài)為結(jié)束。
[0023]進(jìn)一步的,所述步驟四包括:
[0024](I)在集群管理軟件中檢測到操作過程中的異常節(jié)點;
[0025](2)選擇之前注冊過的接管節(jié)點作為新的處理節(jié)點;
[0026](3)接管節(jié)點的集群并行任務(wù)管理軟件中從集群管理軟件獲取操作ID的的分片數(shù)據(jù)狀態(tài)信息;
[0027](4)在接管節(jié)點的集群并行任務(wù)管理軟件中檢查集群中分片數(shù)據(jù)的狀態(tài),選擇出需要進(jìn)行異常處理的分片數(shù)據(jù)進(jìn)行處理;
[0028](5)在集群管理軟件中設(shè)置結(jié)束狀態(tài);
[0029](6)集群管理軟件通知集群并行任務(wù)管理軟件結(jié)束操作;
[0030](6)在集群管理軟件中也結(jié)束操作,異常處理流程結(jié)束。
[0031]進(jìn)一步的,所述集群管理軟件通過集群系統(tǒng)之間的高速網(wǎng)絡(luò)檢測各個節(jié)點的運行狀態(tài),所有節(jié)點都能夠一致性地看到節(jié)點狀態(tài)和公用數(shù)據(jù)。
[0032]根據(jù)本發(fā)明的另一方面,還提供了一種share nothing集群下的發(fā)起節(jié)點異常處理裝置,所述的裝置包括:
[0033]發(fā)起節(jié)點用于為任務(wù)請求選擇接管節(jié)點的接管節(jié)點選擇裝置,以及用于接管節(jié)點向集群管理軟件注冊的集群管理軟件注冊接管節(jié)點裝置;
[0034]發(fā)起節(jié)點用于向集群管理軟件提交數(shù)據(jù)請求任務(wù)信息的發(fā)起節(jié)點任務(wù)請求裝置,以及發(fā)起節(jié)點開始處理任務(wù)的發(fā)起節(jié)點任務(wù)處理裝置,以及發(fā)起節(jié)點向集群管理軟件更改任務(wù)狀態(tài)為開始的集群管理軟件任務(wù)狀態(tài)更改裝置;
[0035]發(fā)起節(jié)點用于清理集群管理軟件資源的集群管理軟件資源清理裝置;
[0036]集群管理軟件用于檢測發(fā)起節(jié)點異常的發(fā)起節(jié)點異常檢測裝置,以及用于選擇一個此任務(wù)的接管節(jié)點繼續(xù)處理任務(wù)的選擇接管節(jié)點裝置,以及用于發(fā)起節(jié)點進(jìn)行異常處理的發(fā)起節(jié)點異常處理裝置。
[0037]進(jìn)一步的,所述的一種share nothing集群下的發(fā)起節(jié)點異常處理裝置,還包括:
[0038]用于初始化集群并行任務(wù)管理軟件操作狀態(tài)的集群并行任務(wù)管理初始化操作狀態(tài)裝置;
[0039]用于分配給集群并行任務(wù)管理軟件操作ID的集群管理軟件分配ID操作裝置;
[0040]用于在集群并行任務(wù)管理軟件中選擇要操作的分片數(shù)據(jù)的集群并行任務(wù)管理軟件分片數(shù)據(jù)選擇裝置;
[0041]用于在集群管理軟件中設(shè)置此分片數(shù)據(jù)為開始狀態(tài)的集群管理軟件分片數(shù)據(jù)開始狀態(tài)設(shè)置裝置;
[0042]用于在集群并行任務(wù)管理軟件中處理分片數(shù)據(jù)內(nèi)容集群并行任務(wù)管理軟件分片數(shù)據(jù)內(nèi)容處理裝置;
[0043]用于在集群管理軟件中設(shè)置此分片數(shù)據(jù)狀態(tài)為結(jié)束的集群管理軟件分片數(shù)據(jù)結(jié)束狀態(tài)設(shè)置裝置。
[0044]進(jìn)一步的,所述的一種share nothing集群下的發(fā)起節(jié)點異常處理裝置,還包括:
[0045]用于在集群管理軟件中檢測操作過程中的異常節(jié)點的集群管理軟件異常節(jié)點檢測裝置;
[0046]用于選擇之前注冊過的接管節(jié)點作為新的處理節(jié)點的接管節(jié)點選擇裝置;
[0047]用于接管節(jié)點的集群并行任務(wù)管理軟件從集群管理軟件獲取操作ID的分片數(shù)據(jù)狀態(tài)信息獲取操作ID的分片數(shù)據(jù)狀態(tài)信息的獲取裝置;
[0048]用于在接管節(jié)點的集群并行任務(wù)管理軟件中檢查集群中分片數(shù)據(jù)的狀態(tài)的集群分片數(shù)據(jù)狀態(tài)的檢測裝置,以及用于選擇出需要進(jìn)行異常處理的分片數(shù)據(jù)進(jìn)行處理的分片數(shù)據(jù)的異常處理的選擇及處理裝置;
[0049]用于在集群管理軟件中設(shè)置結(jié)束狀態(tài)的集群管理軟件結(jié)束狀態(tài)設(shè)置裝置;
[0050]用于集群管理軟件通知集群并行任務(wù)管理軟件結(jié)束操作的并行任務(wù)管理軟件結(jié)束操作通知裝置;
[0051]用于在集群管理軟件中結(jié)束操作,異常處理流程結(jié)束的集群管理軟件操作結(jié)束裝置及異常處理流程結(jié)束裝置。
[0052]進(jìn)一步的,一種share nothing集群下的發(fā)起節(jié)點異常處理裝置,還包括:
[0053]集群管理軟件通過集群系統(tǒng)之間的高速網(wǎng)絡(luò)檢測各個節(jié)點的運行狀態(tài)的集群軟件各個節(jié)點的運行狀態(tài)的高速網(wǎng)絡(luò)檢測裝置。
[0054]本發(fā)明具有的優(yōu)點和積極效果是:解決了集群數(shù)據(jù)庫系統(tǒng)在執(zhí)行過程中集群并行任務(wù)管理軟件發(fā)生異常時,造成集群數(shù)據(jù)不一致的問題;另一方面,使集群數(shù)據(jù)庫系統(tǒng)能從異常中恢復(fù),提高了系統(tǒng)的穩(wěn)定性。
【專利附圖】
【附圖說明】
[0055]圖1是集群系統(tǒng)工作示意圖;
[0056]圖2是現(xiàn)有技術(shù)集群系統(tǒng)中的發(fā)起節(jié)點異常處理示意圖;
[0057]圖3是本發(fā)明一實施例中集群數(shù)據(jù)庫系統(tǒng)設(shè)置接管節(jié)點處理示意圖;
[0058]圖4是發(fā)明一實施例中集群數(shù)據(jù)庫系統(tǒng)正常處理邏輯示意圖;
[0059]圖5是發(fā)明一實施例中集群數(shù)據(jù)庫系統(tǒng)異常處理邏輯示意圖。
【具體實施方式】
[0060]接收到數(shù)據(jù)請求之后,集群并行任務(wù)管理軟件并不會立即去執(zhí)行此請求任務(wù),而是為此請求任務(wù)尋找接管節(jié)點,接管節(jié)點可以是一個或多個,根據(jù)系統(tǒng)的繁忙程度來設(shè)定。節(jié)點接收到被設(shè)置為接管節(jié)點的請求之后,還需要向集群管理軟件進(jìn)行注冊,注冊的信息保留在集群管理軟件中直到任務(wù)終止之后才進(jìn)行清理。
[0061]集群管理軟件的主要作用是對所有節(jié)點的狀態(tài)進(jìn)行監(jiān)控,提供共享空間,保證各節(jié)點的一致性。
[0062]在發(fā)起節(jié)點處理數(shù)據(jù)開始處理數(shù)據(jù)請求時,首先向集群管理軟件請求操作ID,將數(shù)據(jù)分片的狀態(tài)置為開始并保存到集群管理軟件上,如果處理數(shù)據(jù)的過程中沒有遇到異常,最終還是由發(fā)起節(jié)點根據(jù)操作ID在集群管理軟件上設(shè)置數(shù)據(jù)分片的狀態(tài)為結(jié)束,然后集群管理軟件,集群并行任務(wù)管理軟件清除相關(guān)的資源。
[0063]如果處理過程中遇到異常,導(dǎo)致發(fā)起節(jié)點的上的軟件中止了,這個時候其它節(jié)點上的集群管理軟件將會檢測到此錯誤,將觸發(fā)接管節(jié)點進(jìn)行工作,接管節(jié)點接收到任務(wù)處理的請求之后,向集群管理軟件上獲取分片分?jǐn)?shù)的信息和狀態(tài),根據(jù)這些信息,接管節(jié)點可以完成后續(xù)的處理流程,可以撤銷之前的分片數(shù)據(jù)操作,進(jìn)行恢復(fù),保證集群狀態(tài)的一致性。
[0064]下面結(jié)合附圖和本發(fā)明的一個實例對本發(fā)明做進(jìn)一步的說明,如圖2所示,系統(tǒng)中包括了若干個節(jié)點,每個節(jié)點上都運行著:集群管理軟件,集群并行任務(wù)管理軟件,數(shù)據(jù)信息處理軟件。數(shù)據(jù)請求是通過接入層到達(dá)一個節(jié)點,此節(jié)點就被稱做發(fā)起節(jié)點。
[0065]使用本發(fā)明后,數(shù)據(jù)請求在開始處理之前的執(zhí)行過程如圖2所示:
[0066]步驟201,接入層經(jīng)過負(fù)載均衡,選擇集群中的一個節(jié)點,并將請求發(fā)送到此節(jié)占.
[0067]步驟202,發(fā)起節(jié)點收到數(shù)據(jù)請求,然后根據(jù)系統(tǒng)運行情況,設(shè)置此數(shù)據(jù)請求任務(wù)的接管節(jié)點;
[0068]步驟203,接管節(jié)點向集群管理軟件進(jìn)行注冊,表示如果此任務(wù)在處理過程中發(fā)起節(jié)點異常,將接管此任務(wù);
[0069]步驟204,發(fā)起節(jié)點進(jìn)入到數(shù)據(jù)請求的處理階段,處理數(shù)據(jù)請求。
[0070]發(fā)起節(jié)點處理過程中無異常的執(zhí)行過程如圖3所示:
[0071]步驟301,發(fā)起節(jié)點上的集群并行任務(wù)管理軟件向集群管理軟件請求分配操作ID ;
[0072]步驟302,集群管理軟件返回操作ID給集群并行任務(wù)管理軟件,然后集群并行任務(wù)管理軟件開始選擇要處理的分片數(shù)據(jù);
[0073]步驟303,集群并行任務(wù)管理軟件將選擇好的分片數(shù)據(jù)信息上傳到集群管理軟件,并設(shè)置處理狀態(tài)為開始;
[0074]步驟304,集群管理軟件返回設(shè)置成功,集群并行任務(wù)管理軟件開始進(jìn)行數(shù)據(jù)的處理,直接控制集群節(jié)點上的數(shù)據(jù)信息處理軟件,會涉及到多節(jié)點并行處理;
[0075]步驟305,集群并行任務(wù)管理軟件搜集各節(jié)點的處理結(jié)果,完成之后,向集群管理軟件設(shè)置分片數(shù)據(jù)處理狀態(tài)為結(jié)束,集群軟件清理此操作ID相關(guān)的的信息。
[0076]發(fā)起節(jié)點處理過程中遇到異常后的執(zhí)行過程如圖4所示:
[0077]步驟401,發(fā)起節(jié)點上的集群并行任務(wù)管理軟件向集群管理軟件請求分配操作ID ;
[0078]步驟402,集群管理軟件返回操作ID給集群并行任務(wù)管理軟件,然后集群并行任務(wù)管理軟件開始選擇要處理的分片數(shù)據(jù);
[0079]步驟403,集群并行任務(wù)管理軟件將選擇好的分片數(shù)據(jù)信息上傳到集群管理軟件,并設(shè)置處理狀態(tài)為開始;
[0080]步驟404,集群管理軟件返回設(shè)置成功,集群并行任務(wù)管理軟件開始進(jìn)行數(shù)據(jù)的處理,直接控制集群節(jié)點上的數(shù)據(jù)信息處理軟件,會涉及到多節(jié)點并行處理。
[0081]處理過程中,發(fā)起節(jié)點遇到異常,軟件宕機。
[0082]步驟405,集群管理軟件通過異常檢測機制,檢測到發(fā)起節(jié)點狀態(tài)異常;
[0083]步驟406,集群管理軟件根據(jù)任務(wù)注冊信息選擇接管節(jié)點,向接管節(jié)點發(fā)送選擇命令;
[0084]步驟407,接管節(jié)點收到選擇命令后,向集群管理軟件請求分片數(shù)據(jù)信息和狀態(tài);
[0085]步驟408,集群管理軟件將分片數(shù)據(jù)信息狀態(tài)發(fā)送到接管節(jié)點,接管節(jié)點根據(jù)此信息,開始進(jìn)行數(shù)據(jù)的異常流程處理;
[0086]步驟409,接管節(jié)點處理完成,向集群管理軟件設(shè)置分片數(shù)據(jù)處理狀態(tài)為結(jié)束,集群軟件清理此操作ID相關(guān)的的信息。
[0087]以上對本發(fā)明的實施例進(jìn)行了詳細(xì)說明,但所述內(nèi)容僅為本發(fā)明的較佳實施例,不能被認(rèn)為用于限定本發(fā)明的實施范圍。凡依本發(fā)明范圍所作的均等變化與改進(jìn)等,均應(yīng)仍歸屬于本專利涵蓋范圍之內(nèi)。
【權(quán)利要求】
1.一種share nothing集群下的發(fā)起節(jié)點異常處理方法,其特征在于:包括如下步驟: 步驟一:在一個集群系統(tǒng)中,發(fā)起節(jié)點為任務(wù)請求選擇接管節(jié)點,接管節(jié)點向集群管理軟件注冊; 步驟二:發(fā)起節(jié)點向集群管理軟件提交數(shù)據(jù)請求任務(wù)信息,開始處理任務(wù),向集群管理軟件更改任務(wù)狀態(tài)為開始; 步驟三:發(fā)起節(jié)點如無異常,向集群管理軟件更改任務(wù)狀態(tài)為結(jié)束,并清理資源; 步驟四:發(fā)起節(jié)點如果異常,集群管理軟件檢測到異常發(fā)生,選擇一個此任務(wù)的接管節(jié)點繼續(xù)處理任務(wù)、進(jìn)行異常處理,任務(wù)結(jié)束。
2.根據(jù)權(quán)利要求1所述的一種sharenothing集群下的發(fā)起節(jié)點異常處理方法,其特征在于:所述步驟三包括: (1)在集群并行任務(wù)管理軟件中初始化操作狀態(tài); (2)在集群管理軟件中分配一個操作ID給集群并行任務(wù)管理軟件; (3)在集群并行任務(wù)管理軟件中選擇要操作的分片數(shù)據(jù); (4)在集群管理軟件中設(shè)置此分片數(shù)據(jù)為開始狀態(tài); (5)在集群并行任務(wù)管理軟件中處理分片數(shù)據(jù)內(nèi)容; (6)在集群管理軟件中設(shè)置此分片數(shù)據(jù)狀態(tài)為結(jié)束。
3.根據(jù)權(quán)利要求1所述的一種sharenothing集群下的發(fā)起節(jié)點異常處理方法,其特征在于:所述步驟四包括: (1)在集群管理軟件中檢測到操作過程中的異常節(jié)點; (2)選擇之前注冊過的接管節(jié)點作為新的處理節(jié)點; (3)接管節(jié)點的集群并行任務(wù)管理軟件從集群管理軟件獲取操作ID的分片數(shù)據(jù)狀態(tài)信息; (4)在接管節(jié)點的集群并行任務(wù)管理軟件中檢查集群中分片數(shù)據(jù)的狀態(tài),選擇出需要進(jìn)行異常處理的分片數(shù)據(jù)進(jìn)行處理; (5)在集群管理軟件中設(shè)置結(jié)束狀態(tài); (6)集群管理軟件通知集群并行任務(wù)管理軟件結(jié)束操作; (7)在集群管理軟件中也結(jié)束操作,異常處理流程結(jié)束。
4.根據(jù)權(quán)利要求1所述的一種sharenothing集群下的發(fā)起節(jié)點異常處理方法,其特征在于:所述集群管理軟件通過集群系統(tǒng)之間的高速網(wǎng)絡(luò)檢測各個節(jié)點的運行狀態(tài),所有節(jié)點都能夠一致性地看到節(jié)點狀態(tài)和公用數(shù)據(jù)。
5.—種share nothing集群下的發(fā)起節(jié)點異常處理裝置,其特征在于包括: 發(fā)起節(jié)點用于為任務(wù)請求選擇接管節(jié)點的接管節(jié)點選擇裝置,以及用于接管節(jié)點向集群管理軟件注冊的集群管理軟件注冊接管節(jié)點裝置; 發(fā)起節(jié)點用于向集群管理軟件提交數(shù)據(jù)請求任務(wù)信息的發(fā)起節(jié)點任務(wù)請求裝置,以及發(fā)起節(jié)點開始處理任務(wù)的發(fā)起節(jié)點任務(wù)處理裝置,以及發(fā)起節(jié)點向集群管理軟件更改任務(wù)狀態(tài)為開始的集群管理軟件任務(wù)狀態(tài)更改裝置; 發(fā)起節(jié)點用于清理集群管理軟件資源的集群管理軟件資源清理裝置; 集群管理軟件用于檢測發(fā)起節(jié)點異常的發(fā)起節(jié)點異常檢測裝置,以及用于選擇一個此任務(wù)的接管節(jié)點繼續(xù)處理任務(wù)的選擇接管節(jié)點裝置,以及用于發(fā)起節(jié)點進(jìn)行異常處理的發(fā)起節(jié)點異常處理裝置。
6.根據(jù)權(quán)利要求5所述的一種sharenothing集群下的發(fā)起節(jié)點異常處理裝置,其特征在于,還包括: 用于初始化集群并行任務(wù)管理軟件操作狀態(tài)的集群并行任務(wù)管理初始化操作狀態(tài)裝置; 用于分配給集群并行任務(wù)管理軟件操作ID的集群管理軟件分配ID操作裝置; 用于在集群并行任務(wù)管理軟件中選擇要操作的分片數(shù)據(jù)的集群并行任務(wù)管理軟件分片數(shù)據(jù)選擇裝置; 用于在集群管理軟件中設(shè)置此分片數(shù)據(jù)為開始狀態(tài)的集群管理軟件分片數(shù)據(jù)開始狀態(tài)設(shè)置裝置; 用于在集群并行任務(wù)管理軟件中處理分片數(shù)據(jù)內(nèi)容集群并行任務(wù)管理軟件分片數(shù)據(jù)內(nèi)容處理裝置; 用于在集群管理軟件中設(shè)置此分片數(shù)據(jù)狀態(tài)為結(jié)束的集群管理軟件分片數(shù)據(jù)結(jié)束狀態(tài)設(shè)置裝置。
7.根據(jù)權(quán)利要求5所述的一種sharenothing集群下的發(fā)起節(jié)點異常處理裝置,其特征在于,還包括: 用于在集群管理軟件中檢測操作過程中的異常節(jié)點的集群管理軟件異常節(jié)點檢測裝置; 用于選擇之前注冊過的接管節(jié)點作為新的處理節(jié)點的接管節(jié)點選擇裝置; 用于接管節(jié)點的集群并行任務(wù)管理軟件從集群管理軟件獲取操作ID的分片數(shù)據(jù)狀態(tài)信息獲取操作ID的分片數(shù)據(jù)狀態(tài)信息的獲取裝置; 用于在接管節(jié)點的集群并行任務(wù)管理軟件中檢查集群中分片數(shù)據(jù)的狀態(tài)的集群分片數(shù)據(jù)狀態(tài)的檢測裝置,以及用于選擇出需要進(jìn)行異常處理的分片數(shù)據(jù)進(jìn)行處理的分片數(shù)據(jù)的異常處理的選擇及處理裝置; 用于在集群管理軟件中設(shè)置結(jié)束狀態(tài)的集群管理軟件結(jié)束狀態(tài)設(shè)置裝置; 用于集群管理軟件通知集群并行任務(wù)管理軟件結(jié)束操作的并行任務(wù)管理軟件結(jié)束操作通知裝置; 用于在集群管理軟件中結(jié)束操作,異常處理流程結(jié)束的集群管理軟件操作結(jié)束裝置及異常處理流程結(jié)束裝置。
8.—種share nothing集群下的發(fā)起節(jié)點異常處理裝置,其特征在于,還包括: 集群管理軟件通過集群系統(tǒng)之間的高速網(wǎng)絡(luò)檢測各個節(jié)點的運行狀態(tài)的集群軟件各個節(jié)點的運行狀態(tài)的高速網(wǎng)絡(luò)檢測裝置。
【文檔編號】H04L12/24GK104410698SQ201410727702
【公開日】2015年3月11日 申請日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】李南鋒, 夏旭東, 崔維力, 武新 申請人:天津南大通用數(shù)據(jù)技術(shù)股份有限公司