專利名稱:多級調(diào)度系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),尤其涉及一種在集群系統(tǒng)中的多級調(diào)度系統(tǒng)。
技術(shù)背景
高性能計(jì)算一直是國內(nèi)外科技界,甚至政府十分重視的高科技領(lǐng)域。它不僅同科學(xué)技術(shù)與國民經(jīng)濟(jì)的發(fā)展密切有關(guān),而且還直接影響到國家的國防能力和國家安全。在近年來出現(xiàn)的支持高性能計(jì)算的計(jì)算機(jī)系統(tǒng)中,集群系統(tǒng)作為一種易擴(kuò)充、性價比高的方案得到廣泛采納。應(yīng)用程序的需求是無限的、不斷變化的,集群系統(tǒng)可以有效地支持更廣泛的工作負(fù)載。2007年11月在國外權(quán)威網(wǎng)站上公布的T0P500高性能計(jì)算機(jī)中,集群系統(tǒng)占據(jù)了 81. 20%。
在集群系統(tǒng)中,良好的調(diào)度可以高效利用集群資源,使集群中全部匯集起來的處理能力高效地在眾多用戶間分配。作業(yè)調(diào)度是一個很復(fù)雜的問題,調(diào)度算法是一個應(yīng)用相關(guān)(Application-specific)的問題,具體應(yīng)用的特性在很大程度上影響和決定著調(diào)度系統(tǒng)的性能。調(diào)度系統(tǒng)對于不同類型的應(yīng)用應(yīng)當(dāng)采用不同的調(diào)度策略,只有在充分考慮作業(yè)及資源特性的基礎(chǔ)上提出的調(diào)度算法才能夠獲得較高的系統(tǒng)性能。要想在并行化能力上有較大提高,則必須付出昂貴的硬件代價和設(shè)計(jì)出復(fù)雜的算法。
并行作業(yè)調(diào)度中最主要的兩個算法是Backfilling算法和Gang調(diào)度算法。 Backfilling算法是FCFS算法的改進(jìn),它允許調(diào)度器不按作業(yè)到達(dá)順序運(yùn)行,當(dāng)資源無法滿足前面大作業(yè)的運(yùn)行要求時,它讓一些小作業(yè)先運(yùn)行在當(dāng)前空閑的處理器上(稱為回填)以提高資源利用率。后來很多算法在其基礎(chǔ)上進(jìn)行了改進(jìn),出現(xiàn)了 EASY (Extensible Argonne SchedulingsYstem)Backfilling 算法、保守 Backfilling 算法和基于 Backfilling算法的“擴(kuò)履適足”的改進(jìn)算法。
Gang調(diào)度的思想是將作業(yè)作為一個整體進(jìn)行調(diào)度。每臺機(jī)器上為作業(yè)提供一個相同的環(huán)境,一個作業(yè)的所有進(jìn)程一起運(yùn)行。Gang調(diào)度算法是基于并行程序間會有頻繁的同步而提出的,避免各并行進(jìn)程由于運(yùn)行步調(diào)不一致而等待所造成的等待時間。成對Gang調(diào)度算法、緩沖協(xié)同調(diào)度算法是對Gang調(diào)度算法的改進(jìn)。
還有很多其他調(diào)度算法,如BestFit算法、自適應(yīng)算法、遺傳算法、基于經(jīng)濟(jì)學(xué)的資源調(diào)度算法和基于QOS的調(diào)度算法等,每個算法都有自己的優(yōu)缺點(diǎn),滿足特定的應(yīng)用需求。如此而言,上述算法的一個共同的缺點(diǎn)就是通用性不高,都僅局限在一個局部領(lǐng)域。發(fā)明內(nèi)容
本發(fā)明旨在提出一種具有較高的通用性的集群系統(tǒng)的調(diào)度技術(shù)。
根據(jù)本發(fā)明,提出一種多級調(diào)度系統(tǒng),應(yīng)用于集群系統(tǒng)中,包括
全局調(diào)度器,監(jiān)控集群系統(tǒng)的全局流量;
一組局部調(diào)度器,一組局部調(diào)度器都連接到所述全局調(diào)度器,每一個局部調(diào)度器監(jiān)控集群系統(tǒng)中一個局部的局部流量;
一組組調(diào)度器,每一個局部調(diào)度器連接到數(shù)個組調(diào)度器,每一個組調(diào)度器連接到集群系統(tǒng)中的數(shù)個節(jié)點(diǎn),數(shù)個節(jié)點(diǎn)屬于集群系統(tǒng)中的同一個局部,形成一個組;
節(jié)點(diǎn)流量監(jiān)控器,連接到集群系統(tǒng)中的每一個節(jié)點(diǎn),監(jiān)控節(jié)點(diǎn)的流量,與組調(diào)度器相連的節(jié)點(diǎn)的節(jié)點(diǎn)流量監(jiān)控器同樣連接到該組調(diào)度器;
其中,當(dāng)一個節(jié)點(diǎn)的流量監(jiān)控器檢測到該節(jié)點(diǎn)的流量超過第一流量閾值,則報告其所連接的組調(diào)度器,該組調(diào)度器在所連接的數(shù)個節(jié)點(diǎn)中進(jìn)行流量調(diào)度;
當(dāng)一個組調(diào)度器檢測到所連接的數(shù)個節(jié)點(diǎn)所形成的組的總流量超過第二流量閾值,則報告其所連接的局部調(diào)度器,該局部調(diào)度器在所連接的數(shù)個組中進(jìn)行流量調(diào)度;
當(dāng)一個局部調(diào)度器檢測到一個局部的總流量超過第三流量閾值,則報告全局調(diào)度器,全局調(diào)度器進(jìn)行全局流量調(diào)度。
全局調(diào)度器、局部調(diào)度器、組調(diào)度器的流量調(diào)度基于下述參數(shù)進(jìn)行處理時間、硬件資源、已存在負(fù)載流量。全局調(diào)度器、局部調(diào)度器、組調(diào)度器流量調(diào)度還根據(jù)業(yè)務(wù)流量的優(yōu)先級進(jìn)行。
其中,第一流量閾值為單個節(jié)點(diǎn)滿負(fù)載流量的80%,第二流量閾值為一個組的滿負(fù)載流量的85%,第三流量閾值為一個局部的滿負(fù)載流量的90%。
本發(fā)明的多級調(diào)度系統(tǒng)具有較高的通用性,適用于集群系統(tǒng),能夠針對絕大多數(shù)的業(yè)務(wù)流量進(jìn)行有效的調(diào)度,提高集群系統(tǒng)的工作效率。
圖1是根據(jù)本發(fā)明的多級調(diào)度系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
參考圖1所示,揭示了根據(jù)本發(fā)明的多級調(diào)度系統(tǒng)的結(jié)構(gòu)圖。該多級調(diào)度系統(tǒng)應(yīng)用于集群系統(tǒng)中,包括四個層次,分別是全局調(diào)度器10、局部調(diào)度器20、組調(diào)度器30和節(jié)點(diǎn)流量監(jiān)控器40。
全局調(diào)度器10監(jiān)控集群系統(tǒng)的全局流量。
局部調(diào)度器20包括多個,分別對應(yīng)集群系統(tǒng)中的數(shù)個局部,通常,集群系統(tǒng)會根據(jù)應(yīng)用需求劃分成數(shù)個局部。數(shù)個局部調(diào)度器20都連接到全局調(diào)度器10,每一個局部調(diào)度器20監(jiān)控集群系統(tǒng)中一個局部的局部流量。
組調(diào)度器30的數(shù)量也是數(shù)個。每一個組調(diào)度器對應(yīng)集群系統(tǒng)中的一個組,組是比局部更加小的劃分,一個局部中會包括數(shù)個組。每一個局部調(diào)度器20都連接到數(shù)個組調(diào)度器30,每一個組調(diào)度器30連接到集群系統(tǒng)中的數(shù)個節(jié)點(diǎn)50,這數(shù)個節(jié)點(diǎn)50形成一個組,這個組屬于同一個局部。
節(jié)點(diǎn)流量監(jiān)控器40,連接到集群系統(tǒng)中的每一個節(jié)點(diǎn)50,監(jiān)控節(jié)點(diǎn)50的流量,與組調(diào)度器30相連的節(jié)點(diǎn)50的節(jié)點(diǎn)流量監(jiān)控器40同樣連接到該組調(diào)度器30。
該多級調(diào)度系統(tǒng)的運(yùn)行方式如下
當(dāng)一個節(jié)點(diǎn)的流量監(jiān)控器檢測到該節(jié)點(diǎn)的流量超過第一流量閾值,則報告其所連接的組調(diào)度器,該組調(diào)度器在所連接的數(shù)個節(jié)點(diǎn)中進(jìn)行流量調(diào)度。當(dāng)一個組調(diào)度器檢測到所連接的數(shù)個節(jié)點(diǎn)所形成的組的總流量超過第二流量閾值,則報告其所連接的局部調(diào)度器,該局部調(diào)度器在所連接的數(shù)個組中進(jìn)行流量調(diào)度。當(dāng)一個局部調(diào)度器檢測到一個局部的總流量超過第三流量閾值,則報告全局調(diào)度器,全局調(diào)度器進(jìn)行全局流量調(diào)度。通常,第一流量閾值、第二流量閾值、第三流量閾值的取值如下第一流量閾值為單個節(jié)點(diǎn)滿負(fù)載流量的80%。第二流量閾值為一個組的滿負(fù)載流量的85%。第三流量閾值為一個局部的滿負(fù)載流量的90%。對于組和局部來說,由于其中包含的節(jié)點(diǎn)的數(shù)量較多,更加容易在內(nèi)部形成流量的平衡,因此能夠承受的流量總量應(yīng)當(dāng)能夠更高。所以,在第一流量閾值、第二流量閾值、第三流量閾值的取值中,隨著所包含的節(jié)點(diǎn)數(shù)量的增加,閾值容量也在增加。
全局調(diào)度器10、局部調(diào)度器20、組調(diào)度器30的流量調(diào)度是參考下述的參數(shù)進(jìn)行, 首先是設(shè)備方面的參數(shù),包括處理時間、硬件資源、已存在負(fù)載流量。還有是業(yè)務(wù)流量自身的參數(shù)業(yè)務(wù)流量的優(yōu)先級。
處理器主頻高、內(nèi)存大、硬盤大的結(jié)點(diǎn)運(yùn)行作業(yè)的速度就比較快。并行作業(yè)計(jì)算時往往要把完成的作業(yè)分布到各個處理結(jié)點(diǎn)并行執(zhí)行,各結(jié)點(diǎn)間會有大量的通信,所以網(wǎng)絡(luò)速度對運(yùn)行也有影響。因此,處理時間和硬件資源是進(jìn)行流量調(diào)度時需要考慮的兩個設(shè)備方面的參數(shù)。
同時,由于各個節(jié)點(diǎn)各自都有已經(jīng)在運(yùn)行的業(yè)務(wù),因此只有部分閑置的資源能夠用于承接新分配的業(yè)務(wù)流量,所以,已存在負(fù)載流量也是設(shè)備方面重要的考慮因素,只有具有最大空閑資源的設(shè)備才能夠最快地對業(yè)務(wù)流量進(jìn)行處理。
由于業(yè)務(wù)量流量的緊急程度和重要程度也不相同,因此本發(fā)明中還對業(yè)務(wù)流量劃分了優(yōu)先級,在進(jìn)行業(yè)務(wù)流量調(diào)度的時候,根據(jù)優(yōu)先級的高低,優(yōu)先調(diào)度具有高優(yōu)先級的業(yè)務(wù)流量。
本發(fā)明的多級調(diào)度系統(tǒng)具有較高的通用性,適用于集群系統(tǒng),能夠針對絕大多數(shù)的業(yè)務(wù)流量進(jìn)行有效的調(diào)度,提高集群系統(tǒng)的工作效率。
權(quán)利要求
1.一種多級調(diào)度系統(tǒng),應(yīng)用于集群系統(tǒng)中,其特征在于,包括 全局調(diào)度器,監(jiān)控集群系統(tǒng)的全局流量;一組局部調(diào)度器,所述一組局部調(diào)度器都連接到所述全局調(diào)度器,每一個局部調(diào)度器監(jiān)控集群系統(tǒng)中一個局部的局部流量;一組組調(diào)度器,每一個局部調(diào)度器連接到數(shù)個組調(diào)度器,每一個組調(diào)度器連接到集群系統(tǒng)中的數(shù)個節(jié)點(diǎn),所述數(shù)個節(jié)點(diǎn)屬于集群系統(tǒng)中的同一個局部,形成一個組;節(jié)點(diǎn)流量監(jiān)控器,連接到集群系統(tǒng)中的每一個節(jié)點(diǎn),監(jiān)控節(jié)點(diǎn)的流量,與組調(diào)度器相連的節(jié)點(diǎn)的節(jié)點(diǎn)流量監(jiān)控器同樣連接到該組調(diào)度器;其中,當(dāng)一個節(jié)點(diǎn)的流量監(jiān)控器檢測到該節(jié)點(diǎn)的流量超過第一流量閾值,則報告其所連接的組調(diào)度器,該組調(diào)度器在所連接的數(shù)個節(jié)點(diǎn)中進(jìn)行流量調(diào)度;當(dāng)一個組調(diào)度器檢測到所連接的數(shù)個節(jié)點(diǎn)所形成的組的總流量超過第二流量閾值,則報告其所連接的局部調(diào)度器,該局部調(diào)度器在所連接的數(shù)個組中進(jìn)行流量調(diào)度;當(dāng)一個局部調(diào)度器檢測到一個局部的總流量超過第三流量閾值,則報告全局調(diào)度器, 全局調(diào)度器進(jìn)行全局流量調(diào)度。
2.如權(quán)利要求1所述的多級調(diào)度系統(tǒng),其特征在于,所述全局調(diào)度器、局部調(diào)度器、組調(diào)度器的流量調(diào)度基于下述參數(shù)進(jìn)行處理時間、硬件資源、已存在負(fù)載流量。
3.如權(quán)利要求2所述的多級調(diào)度系統(tǒng),其特征在于,所述全局調(diào)度器、局部調(diào)度器、組調(diào)度器流量調(diào)度根據(jù)業(yè)務(wù)流量的優(yōu)先級進(jìn)行。
4.如權(quán)利要求1所述的多級調(diào)度系統(tǒng),其特征在于, 所述第一流量閾值為單個節(jié)點(diǎn)滿負(fù)載流量的80%。
5.如權(quán)利要求1所述的多級調(diào)度系統(tǒng),其特征在于, 所述第二流量閾值為一個組的滿負(fù)載流量的85%。
6.如權(quán)利要求1所述的多級調(diào)度系統(tǒng),其特征在于, 所述第三流量閾值為一個局部的滿負(fù)載流量的90%。
全文摘要
本發(fā)明揭示了一種多級調(diào)度系統(tǒng),應(yīng)用于集群系統(tǒng)中,包括全局調(diào)度器,監(jiān)控集群系統(tǒng)的全局流量;一組局部調(diào)度器,監(jiān)控集群系統(tǒng)中一個局部的局部流量;一組組調(diào)度器,連接到集群系統(tǒng)中的數(shù)個節(jié)點(diǎn);節(jié)點(diǎn)流量監(jiān)控器,監(jiān)控節(jié)點(diǎn)的流量,與組調(diào)度器相連的節(jié)點(diǎn)的節(jié)點(diǎn)流量監(jiān)控器同樣連接到該組調(diào)度器;當(dāng)一個節(jié)點(diǎn)的流量監(jiān)控器檢測到節(jié)點(diǎn)的流量超過第一流量閾值,報告組調(diào)度器,組調(diào)度器在數(shù)個節(jié)點(diǎn)中進(jìn)行流量調(diào)度;當(dāng)一個組調(diào)度器檢測到組的總流量超過第二流量閾值,則報告局部調(diào)度器,局部調(diào)度器在數(shù)個組中進(jìn)行流量調(diào)度;當(dāng)一個局部調(diào)度器檢測到一個局部的總流量超過第三流量閾值,則報告全局調(diào)度器,全局調(diào)度器進(jìn)行全局流量調(diào)度。
文檔編號H04L12/56GK102546358SQ20101058168
公開日2012年7月4日 申請日期2010年12月9日 優(yōu)先權(quán)日2010年12月9日
發(fā)明者張麗曉 申請人:上海杉達(dá)學(xué)院