一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法
【專利摘要】一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,通過采用N臺(tái)申威計(jì)算機(jī)構(gòu)建集群,其中1臺(tái)申威計(jì)算機(jī)作為控制節(jié)點(diǎn);剩余申威計(jì)算機(jī)作為計(jì)算節(jié)點(diǎn);控制節(jié)點(diǎn)和各個(gè)計(jì)算節(jié)點(diǎn)通過PCIE總線擴(kuò)展高速通信設(shè)備接口,并通過光纜與交換機(jī)相連,以此構(gòu)建控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間的高速通信網(wǎng)絡(luò);在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)作業(yè)管理軟件進(jìn)行修改編譯,使其可以適用于申威平臺(tái);用戶在控制節(jié)點(diǎn)中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個(gè)計(jì)算節(jié)點(diǎn),各個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點(diǎn)完成相關(guān)的處理。具有設(shè)計(jì)科學(xué)、使用方便等優(yōu)點(diǎn),可在國(guó)產(chǎn)化計(jì)算機(jī)服務(wù)器領(lǐng)域尤其是申威平臺(tái)中實(shí)現(xiàn),便于推廣使用,并可以應(yīng)用于航空、衛(wèi)星等領(lǐng)域。
【專利說明】
一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)服務(wù)器通信【技術(shù)領(lǐng)域】,具體涉及一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]高性能計(jì)算(HPC)集群通常是把一個(gè)作業(yè)分成若干可以并行執(zhí)行的子任務(wù),使每個(gè)子任務(wù)分別在獨(dú)立的計(jì)算節(jié)點(diǎn)中執(zhí)行,從而提高集群中作業(yè)的執(zhí)行效率。其中,作業(yè)的提交和分配,需要專門的作業(yè)調(diào)度來(lái)完成。而目前,在國(guó)產(chǎn)化計(jì)算機(jī)服務(wù)器等自主領(lǐng)域,尤其是申威平臺(tái)中,其運(yùn)算性能還比較低,與國(guó)外先進(jìn)計(jì)算機(jī)系統(tǒng)相比還具有較大的差距。因此,在申威平臺(tái)中,采用高性能計(jì)算作業(yè)管理方法來(lái)提高其計(jì)算效率凸顯重要。
[0003]申威處理器或申威CPU,簡(jiǎn)稱“SW處理器”。SW處理器源自于DEC的Alpha 21164,其研制得到了國(guó)家“核高基”專項(xiàng)資金支持。在國(guó)家“核高基”重大專項(xiàng)支持下、采用自主指令集,具體負(fù)責(zé)研發(fā)的單位是江南計(jì)算機(jī)所屬于軍方研究機(jī)構(gòu)(總參56所),且具有完全自主知識(shí)產(chǎn)權(quán)的處理器系列。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是:本發(fā)明提供一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法。
[0005]本發(fā)明所采用的技術(shù)方案為:
一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,通過采用N臺(tái)申威計(jì)算機(jī)構(gòu)建集群,其中I臺(tái)申威計(jì)算機(jī)作為控制節(jié)點(diǎn);剩余申威計(jì)算機(jī)作為計(jì)算節(jié)點(diǎn);控制節(jié)點(diǎn)和各個(gè)計(jì)算節(jié)點(diǎn)通過PCIE總線擴(kuò)展高速通信設(shè)備接口,并通過光纜與交換機(jī)相連,以此構(gòu)建控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間的高速通信網(wǎng)絡(luò);在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)作業(yè)管理軟件進(jìn)行修改編譯,使其可以適用于申威平臺(tái);用戶在控制節(jié)點(diǎn)中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個(gè)計(jì)算節(jié)點(diǎn),各個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點(diǎn)完成相關(guān)的處理。
[0006]所述方法執(zhí)行步驟如下:
1)通過申威計(jì)算機(jī)的PCIE總線擴(kuò)展高速通信設(shè)備接口,并且通過光纜與交換機(jī)相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建;
2)在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;
3)在控制節(jié)點(diǎn)中通過修改作業(yè)管理軟件,部署可用于申威平臺(tái)的專用戶服務(wù)器(server)、作業(yè)調(diào)度器(sched)、作業(yè)執(zhí)行器(mom);
4)在計(jì)算節(jié)點(diǎn)中修改專用作業(yè)管理軟件,部署可用于申威平臺(tái)的作業(yè)執(zhí)行器(mom);
5)用戶在控制節(jié)點(diǎn)中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器(server)接收到作業(yè)后,通過作業(yè)調(diào)度器(sched)將作業(yè)通過作業(yè)執(zhí)行器(mom)分發(fā)給各個(gè)計(jì)算節(jié)點(diǎn),以此來(lái)提聞作業(yè)的運(yùn)行效率;
6)通過采用qstat命令,查看各個(gè)計(jì)算節(jié)點(diǎn)中的作業(yè)執(zhí)行情況,進(jìn)而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計(jì)算節(jié)點(diǎn),進(jìn)而提高執(zhí)行效率。
[0007]所述高速通信設(shè)備接口為infiniband接口,所述交換機(jī)為infiniband交換機(jī)。
[0008]注:InfiniBand架構(gòu)是一種支持多并發(fā)鏈接的“轉(zhuǎn)換線纜”技術(shù),在這種技術(shù)中,每種鏈接都可以達(dá)到2.5 Gbps的運(yùn)行速度。這種架構(gòu)在一個(gè)鏈接的時(shí)候速度是500 MB/秒,四個(gè)鏈接的時(shí)候速度是2 GB/秒,12個(gè)鏈接的時(shí)候速度可以達(dá)到6 GB /秒。
[0009]MPI是多點(diǎn)接口(Multi Point Interface)的簡(jiǎn)稱,是西門子公司開發(fā)的用于PLC之間通訊的保密的協(xié)議。
[0010]本發(fā)明的有益效果為:本發(fā)明一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,具有設(shè)計(jì)科學(xué)、使用方便等優(yōu)點(diǎn),可在國(guó)產(chǎn)化計(jì)算機(jī)服務(wù)器領(lǐng)域尤其是申威平臺(tái)中實(shí)現(xiàn),便于推廣使用,并可以應(yīng)用于航空、衛(wèi)星等領(lǐng)域。
【專利附圖】
【附圖說明】
[0011]圖1為本發(fā)明的高性能計(jì)算結(jié)構(gòu)框圖;
圖2為本發(fā)明的作業(yè)管理工作流程圖。
【具體實(shí)施方式】
[0012]下面參照附圖所示,通過【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)一步說明:
一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,通過采用N臺(tái)申威計(jì)算機(jī)構(gòu)建集群,其中I臺(tái)申威計(jì)算機(jī)作為控制節(jié)點(diǎn);剩余申威計(jì)算機(jī)作為計(jì)算節(jié)點(diǎn);控制節(jié)點(diǎn)和各個(gè)計(jì)算節(jié)點(diǎn)通過PCIE總線擴(kuò)展高速通信設(shè)備接口,并通過光纜與交換機(jī)相連,以此構(gòu)建控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間的高速通信網(wǎng)絡(luò);在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)作業(yè)管理軟件進(jìn)行修改編譯,使其可以適用于申威平臺(tái);用戶在控制節(jié)點(diǎn)中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個(gè)計(jì)算節(jié)點(diǎn),各個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點(diǎn)完成相關(guān)的處理。
[0013]所述方法執(zhí)行步驟如下:
1)如圖1所示,通過申威計(jì)算機(jī)的PCIE總線擴(kuò)展高速通信設(shè)備接口,并且通過光纜與交換機(jī)相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建;
2)在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;
3)在控制節(jié)點(diǎn)中通過修改作業(yè)管理軟件,部署可用于申威平臺(tái)的專用戶服務(wù)器(server)、作業(yè)調(diào)度器(sched)、作業(yè)執(zhí)行器(mom);
4)在計(jì)算節(jié)點(diǎn)中修改專用作業(yè)管理軟件,部署可用于申威平臺(tái)的作業(yè)執(zhí)行器(mom);
5)如圖2所示,用戶在控制節(jié)點(diǎn)中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器(server)接收到作業(yè)后,通過作業(yè)調(diào)度器(sched)將作業(yè)通過作業(yè)執(zhí)行器(mom)分發(fā)給各個(gè)計(jì)算節(jié)點(diǎn),以此來(lái)提高作業(yè)的運(yùn)行效率; 6)通過采用qstat命令,查看各個(gè)計(jì)算節(jié)點(diǎn)中的作業(yè)執(zhí)行情況,進(jìn)而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計(jì)算節(jié)點(diǎn),進(jìn)而提高執(zhí)行效率。
[0014]所述高速通信設(shè)備接口為infiniband接口,所述交換機(jī)為infiniband交換機(jī)。
【權(quán)利要求】
1.一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,其特征在于:通過采用N臺(tái)申威計(jì)算機(jī)構(gòu)建集群,其中I臺(tái)申威計(jì)算機(jī)作為控制節(jié)點(diǎn);剩余申威計(jì)算機(jī)作為計(jì)算節(jié)點(diǎn);控制節(jié)點(diǎn)和各個(gè)計(jì)算節(jié)點(diǎn)通過PCIE總線擴(kuò)展高速通信設(shè)備接口,并通過光纜與交換機(jī)相連,以此構(gòu)建控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)間的高速通信網(wǎng)絡(luò);在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)作業(yè)管理軟件進(jìn)行修改編譯,使其可以適用于申威平臺(tái);用戶在控制節(jié)點(diǎn)中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個(gè)計(jì)算節(jié)點(diǎn),各個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點(diǎn)完成相關(guān)的處理。
2.根據(jù)權(quán)利要求1所述的一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,其特征在于,所述方法執(zhí)行步驟如下: 1)通過申威計(jì)算機(jī)的PCIE總線擴(kuò)展高速通信設(shè)備接口,并且通過光纜與交換機(jī)相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建; 2)在控制節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)中對(duì)MPI庫(kù)進(jìn)行修改編譯,使其能夠應(yīng)用于申威平臺(tái),進(jìn)而部署MPI并行程序執(zhí)行環(huán)境; 3)在控制節(jié)點(diǎn)中通過修改作業(yè)管理軟件,部署可用于申威平臺(tái)的專用戶服務(wù)器、作業(yè)調(diào)度器、作業(yè)執(zhí)行器; 4)在計(jì)算節(jié)點(diǎn)中修改專用作業(yè)管理軟件,部署可用于申威平臺(tái)的作業(yè)執(zhí)行器; 5)用戶在控制節(jié)點(diǎn)中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器接收到作業(yè)后,通過作業(yè)調(diào)度器將作業(yè)通過作業(yè)執(zhí)行器分發(fā)給各個(gè)計(jì)算節(jié)點(diǎn),以此來(lái)提高作業(yè)的運(yùn)行效率; 6)通過采用qstat命令,查看各個(gè)計(jì)算節(jié)點(diǎn)中的作業(yè)執(zhí)行情況,進(jìn)而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計(jì)算節(jié)點(diǎn),進(jìn)而提高執(zhí)行效率。
3.根據(jù)權(quán)利要求1或2所述的一種基于申威平臺(tái)的高性能計(jì)算作業(yè)管理實(shí)現(xiàn)方法,其特征在于:所述高速通信設(shè)備接口為infiniband接口,所述交換機(jī)為infiniband交換機(jī)。
【文檔編號(hào)】H04L29/08GK104268014SQ201410555905
【公開日】2015年1月7日 申請(qǐng)日期:2014年10月20日 優(yōu)先權(quán)日:2014年10月20日
【發(fā)明者】陳亮甫, 吳登勇 申請(qǐng)人:山東超越數(shù)控電子有限公司