本技術(shù)涉及人工智能和算力集群系統(tǒng)性能預(yù)測(cè),尤其涉及一種系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法、系統(tǒng)性能預(yù)測(cè)方法及裝置。
背景技術(shù):
1、隨著人工智能的發(fā)展,尤其是大模型領(lǐng)域的高速發(fā)展,系統(tǒng)對(duì)算力的要求越來(lái)越高,搭建一個(gè)計(jì)算中心通常需要上千塊處理器、加速卡并配套各種高速總線等設(shè)施,而系統(tǒng)的整體性能卻受到處理器、加速卡、通信方式、模型算法和調(diào)度算法等多方面因素影響。項(xiàng)目建設(shè)早期如果不能充分評(píng)估系統(tǒng)性能和設(shè)施投入開(kāi)銷,則很容易造成算力浪費(fèi)或算力不足等情況,很顯然這兩種情況都不是愿意看到的情景。
2、如何能夠根據(jù)實(shí)際應(yīng)用需求,結(jié)合歷史的測(cè)試數(shù)據(jù)分析,推薦合理的軟硬件設(shè)施組合,確保最終系統(tǒng)的成本、性能達(dá)到最優(yōu),成為行業(yè)內(nèi)關(guān)心的話題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法、系統(tǒng)性能預(yù)測(cè)方法及裝置,用以解決現(xiàn)有技術(shù)中存在的如何實(shí)現(xiàn)對(duì)算力集群的系統(tǒng)性能進(jìn)行準(zhǔn)確預(yù)測(cè)的問(wèn)題。
2、本技術(shù)實(shí)施例提供一種系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法,包括:
3、獲取用于訓(xùn)練系統(tǒng)性能預(yù)測(cè)模型的樣本特征數(shù)據(jù),所述樣本特征數(shù)據(jù)包括已知算力集群的集群特征數(shù)據(jù),以及對(duì)所述已知算力集群進(jìn)行基準(zhǔn)測(cè)試得到的系統(tǒng)性能數(shù)據(jù);
4、將所述集群特征數(shù)據(jù)輸入所述系統(tǒng)性能預(yù)測(cè)模型,得到輸出的系統(tǒng)性能預(yù)測(cè)數(shù)據(jù),其中,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有殘差塊堆疊層,所述殘差塊堆疊層包括殘差塊;
5、基于所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)和對(duì)應(yīng)的所述系統(tǒng)性能數(shù)據(jù),確定本次模型訓(xùn)練是否滿足收斂條件;
6、如果滿足收斂條件,確定完成所述系統(tǒng)性能預(yù)測(cè)模型的訓(xùn)練,如果不滿足收斂條件,調(diào)整所述系統(tǒng)性能預(yù)測(cè)模型的模型參數(shù),并執(zhí)行下一次模型訓(xùn)練。
7、進(jìn)一步的,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
8、所述殘差塊堆疊層包括多個(gè)串行相連接的殘差塊;
9、每個(gè)所述殘差塊均具有兩個(gè)輸入和一個(gè)輸出;
10、多個(gè)所述殘差塊的輸入均包括表示所述集群定性特征數(shù)據(jù)的定性特征向量;
11、第一個(gè)所述殘差塊的另一個(gè)輸入為表示所述集群定量特征數(shù)據(jù)的定量特征向量,除第一個(gè)之外的其他所述殘差塊的另一個(gè)輸入為相連接的前一個(gè)所述殘差塊的輸出,最后一個(gè)所述殘差塊的輸出作為所述殘差塊堆疊層的輸出。
12、進(jìn)一步的,所述殘差塊中執(zhí)行的操作包括如下操作:
13、將所述定性特征向量與關(guān)聯(lián)矩陣相乘,得到關(guān)聯(lián)向量;
14、將所述關(guān)聯(lián)向量與所述定量特征向量或前一個(gè)殘差塊的輸出相加,得到合并特征向量;
15、將所述合并特征向量與殘差矩陣相乘,得到殘差向量;
16、將所述殘差向量與所述定量特征向量或前一個(gè)殘差塊的輸出相加,得到跳躍連接特征向量;
17、對(duì)所述跳躍連接特征向量進(jìn)行歸一化處理,得到所述殘差塊的輸出;
18、其中,所述關(guān)聯(lián)矩陣和所述殘差矩陣作為所述系統(tǒng)性能預(yù)測(cè)模型的模型參數(shù)。
19、進(jìn)一步的,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
20、所述輸入層用于接收所述集群定量特征數(shù)據(jù)和所述集群定性特征數(shù)據(jù);
21、所述特征預(yù)處理層用于通過(guò)多層感知機(jī)mlp網(wǎng)絡(luò)對(duì)所述集群定量特征數(shù)據(jù)進(jìn)行預(yù)處理,得到定量特征向量,以及采用查標(biāo)簽碼方式,生成與所述集群定性特征數(shù)據(jù)對(duì)應(yīng)的定性特征向量。
22、進(jìn)一步的,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有匯總層和輸出層;
23、所述匯總層用于通過(guò)mlp網(wǎng)絡(luò)對(duì)所述殘差塊堆疊層的輸出進(jìn)行處理,得到所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù);
24、所述輸出層用于輸出所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)。
25、本技術(shù)實(shí)施例還提供一種算力集群系統(tǒng)性能預(yù)測(cè)方法,包括:
26、獲取待預(yù)測(cè)算力集群的集群特征數(shù)據(jù);
27、基于所述集群特征數(shù)據(jù),采用上述任一系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法訓(xùn)練得到的系統(tǒng)性能預(yù)測(cè)模型,對(duì)所述待預(yù)測(cè)算力集群的系統(tǒng)性能進(jìn)行預(yù)測(cè),得到系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)。
28、本技術(shù)實(shí)施例還提供一種系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練裝置,包括:
29、樣本數(shù)據(jù)獲取模塊,用于獲取用于訓(xùn)練系統(tǒng)性能預(yù)測(cè)模型的樣本特征數(shù)據(jù),所述樣本特征數(shù)據(jù)包括已知算力集群的集群特征數(shù)據(jù),以及對(duì)所述已知算力集群進(jìn)行基準(zhǔn)測(cè)試得到的系統(tǒng)性能數(shù)據(jù);
30、系統(tǒng)性能預(yù)測(cè)模塊,用于將所述集群特征數(shù)據(jù)輸入所述系統(tǒng)性能預(yù)測(cè)模型,得到輸出的系統(tǒng)性能預(yù)測(cè)數(shù)據(jù),其中,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有殘差塊堆疊層,所述殘差塊堆疊層包括殘差塊;
31、收斂判斷模塊,用于基于所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)和對(duì)應(yīng)的所述系統(tǒng)性能數(shù)據(jù),確定本次模型訓(xùn)練是否滿足收斂條件;
32、模型訓(xùn)練模塊,用于如果滿足收斂條件,確定完成所述系統(tǒng)性能預(yù)測(cè)模型的訓(xùn)練,如果不滿足收斂條件,調(diào)整所述系統(tǒng)性能預(yù)測(cè)模型的模型參數(shù),并執(zhí)行下一次模型訓(xùn)練。
33、進(jìn)一步的,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
34、所述殘差塊堆疊層包括多個(gè)串行相連接的殘差塊;
35、每個(gè)所述殘差塊均具有兩個(gè)輸入和一個(gè)輸出;
36、多個(gè)所述殘差塊的輸入均包括表示所述集群定性特征數(shù)據(jù)的定性特征向量;
37、第一個(gè)所述殘差塊的另一個(gè)輸入為表示所述集群定量特征數(shù)據(jù)的定量特征向量,除第一個(gè)之外的其他所述殘差塊的另一個(gè)輸入為相連接的前一個(gè)所述殘差塊的輸出,最后一個(gè)所述殘差塊的輸出作為所述殘差塊堆疊層的輸出。
38、進(jìn)一步的,所述殘差塊中執(zhí)行的操作包括如下操作:
39、將所述定性特征向量與關(guān)聯(lián)矩陣相乘,得到關(guān)聯(lián)向量;
40、將所述關(guān)聯(lián)向量與所述定量特征向量或前一個(gè)殘差塊的輸出相加,得到合并特征向量;
41、將所述合并特征向量與殘差矩陣相乘,得到殘差向量;
42、將所述殘差向量與所述定量特征向量或前一個(gè)殘差塊的輸出相加,得到跳躍連接特征向量;
43、對(duì)所述跳躍連接特征向量進(jìn)行歸一化處理,得到所述殘差塊的輸出;
44、其中,所述關(guān)聯(lián)矩陣和所述殘差矩陣作為所述系統(tǒng)性能預(yù)測(cè)模型的模型參數(shù)。
45、進(jìn)一步的,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
46、所述輸入層用于接收所述集群定量特征數(shù)據(jù)和所述集群定性特征數(shù)據(jù);
47、所述特征預(yù)處理層用于通過(guò)多層感知機(jī)mlp網(wǎng)絡(luò)對(duì)所述集群定量特征數(shù)據(jù)進(jìn)行預(yù)處理,得到定量特征向量,以及采用查標(biāo)簽碼方式,生成與所述集群定性特征數(shù)據(jù)對(duì)應(yīng)的定性特征向量。
48、進(jìn)一步的,所述系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有匯總層和輸出層;
49、所述匯總層用于通過(guò)mlp網(wǎng)絡(luò)對(duì)所述殘差塊堆疊層的輸出進(jìn)行處理,得到所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù);
50、所述輸出層用于輸出所述系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)。
51、本技術(shù)實(shí)施例還提供一種算力集群系統(tǒng)性能預(yù)測(cè)裝置,包括:
52、集群數(shù)據(jù)獲取模塊,用于獲取待預(yù)測(cè)算力集群的集群特征數(shù)據(jù);
53、系統(tǒng)性能預(yù)測(cè)模塊,用于基于所述集群特征數(shù)據(jù),采用上述系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練裝置訓(xùn)練得到的系統(tǒng)性能預(yù)測(cè)模型,對(duì)所述待預(yù)測(cè)算力集群的系統(tǒng)性能進(jìn)行預(yù)測(cè),得到系統(tǒng)性能預(yù)測(cè)數(shù)據(jù)。
54、本技術(shù)實(shí)施例還提供一種電子設(shè)備,包括處理器和機(jī)器可讀存儲(chǔ)介質(zhì),所述機(jī)器可讀存儲(chǔ)介質(zhì)存儲(chǔ)有能夠被所述處理器執(zhí)行的機(jī)器可執(zhí)行指令,所述處理器被所述機(jī)器可執(zhí)行指令促使:實(shí)現(xiàn)上述任一上述系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法,或者,實(shí)現(xiàn)算力集群系統(tǒng)性能預(yù)測(cè)方法。
55、本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一上述系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法,或者,實(shí)現(xiàn)算力集群系統(tǒng)性能預(yù)測(cè)方法。
56、本技術(shù)實(shí)施例還提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述任一上述系統(tǒng)性能預(yù)測(cè)模型訓(xùn)練方法,或者,執(zhí)行算力集群系統(tǒng)性能預(yù)測(cè)方法。
57、本技術(shù)有益效果包括:
58、本技術(shù)實(shí)施例提供的方法中,使用已知算力集群的集群特征數(shù)據(jù)作為系統(tǒng)性能預(yù)測(cè)模型的輸入,并將系統(tǒng)性能預(yù)測(cè)模型輸出的系統(tǒng)性能預(yù)測(cè)數(shù)據(jù),與對(duì)該已知算力集群進(jìn)行基準(zhǔn)測(cè)試得到的系統(tǒng)性能數(shù)據(jù)進(jìn)行比較,確定本次模型訓(xùn)練是否滿足收斂條件,通過(guò)反復(fù)的迭代訓(xùn)練直至滿足收斂條件,得到訓(xùn)練完成的系統(tǒng)性能預(yù)測(cè)模型,并且,該系統(tǒng)性能預(yù)測(cè)模型的模型結(jié)構(gòu)具有殘差塊堆疊層,且殘差塊堆疊層包括殘差塊,從而可以基于待預(yù)測(cè)算力集群的集群特征數(shù)據(jù),使用該系統(tǒng)性能預(yù)測(cè)模型對(duì)待預(yù)測(cè)算力集群的系統(tǒng)性能進(jìn)行準(zhǔn)確的預(yù)測(cè)。
59、本技術(shù)的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。