本發(fā)明涉及電力通信系統(tǒng)和路由優(yōu)化的,尤其是指一種基于多智能體深度強(qiáng)化學(xué)習(xí)的電力通信系統(tǒng)魯棒路由方法。
背景技術(shù):
1、現(xiàn)代電力系統(tǒng)呈現(xiàn)出高新能源接入比例、高電力電子器件比例和高分布式能源比例的“三高”特征,運(yùn)行方式和動(dòng)態(tài)機(jī)理變得更加復(fù)雜?,F(xiàn)代電力系統(tǒng)的復(fù)雜性對信息控制提出了更高的要求,隨著高比例的新能源接入,電力系統(tǒng)中能源注入變得分散,發(fā)電機(jī)功率的波動(dòng)性增加。這意味著在電力系統(tǒng)運(yùn)行過程中,需要更快速地進(jìn)行調(diào)度控制,以保持系統(tǒng)的平衡和穩(wěn)定。
2、對電力系統(tǒng)進(jìn)行快速準(zhǔn)確的信息控制需要安全可靠的電力通信系統(tǒng)作為支撐,而數(shù)據(jù)包路由是保障通信可靠性的關(guān)鍵環(huán)節(jié)。路由優(yōu)化問題是指在通信網(wǎng)絡(luò)中,尋找每個(gè)路由節(jié)點(diǎn)的最優(yōu)路由策略,使所有數(shù)據(jù)包從源節(jié)點(diǎn)傳輸?shù)侥繕?biāo)節(jié)點(diǎn)的平均傳輸延時(shí)和丟包率最小的問題。電力通信系統(tǒng)的路由策略需要滿足安全性、快速性和魯棒性的要求。安全性是指要盡可能減少路由節(jié)點(diǎn)之間的信息交換次數(shù),縮小網(wǎng)絡(luò)攻擊的暴露面??焖傩允侵嘎酚刹呗砸哂锌焖僬{(diào)節(jié)的能力。魯棒性是指路由策略要具有一定的抗干擾能力,當(dāng)電力通信系統(tǒng)中部分信息源節(jié)點(diǎn)遭受ddos攻擊或部分通信鏈路斷開時(shí),能夠維持正常數(shù)據(jù)包的傳輸延時(shí)在允許范圍內(nèi)并且不發(fā)生丟包。
3、當(dāng)前普遍采用的路由策略可以分為固定最短路徑路由策略和自適應(yīng)路由策略。固定最短路徑路由策略利用圖優(yōu)化算法計(jì)算每個(gè)信息源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最短路徑,并為每個(gè)路由節(jié)點(diǎn)建立固定的路由決策表,然而該路由策略無法根據(jù)通信系統(tǒng)的狀態(tài)進(jìn)行動(dòng)態(tài)調(diào)節(jié),不滿足智能電網(wǎng)對魯棒性的要求。鏈路狀態(tài)路由策略是在計(jì)算機(jī)通信網(wǎng)絡(luò)中廣泛采用的一類自適應(yīng)路由策略,然而該路由策略需要大量轉(zhuǎn)發(fā)狀態(tài)詢問信息,會(huì)增加網(wǎng)絡(luò)攻擊的暴露面,并且當(dāng)通信系統(tǒng)狀態(tài)突然發(fā)生變化時(shí),重新調(diào)整到最優(yōu)路由策略需要較長的過渡時(shí)間,無法滿足電力通信系統(tǒng)對安全性和快速性的要求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的電力通信系統(tǒng)魯棒路由方法,該方法基于分布式?jīng)Q策的思想,為每個(gè)路由節(jié)點(diǎn)建立相互獨(dú)立的路由策略網(wǎng)絡(luò),每個(gè)路由節(jié)點(diǎn)只需要本地觀測數(shù)據(jù)進(jìn)行路由決策,避免了不同節(jié)點(diǎn)間信息頻繁交互造成的安全隱患,并且電力通信系統(tǒng)的狀態(tài)變化僅反映為節(jié)點(diǎn)觀測量的變化,每個(gè)路由節(jié)點(diǎn)不需要額外的時(shí)間進(jìn)行路由策略調(diào)整,解決了傳統(tǒng)路由方法無法同時(shí)兼顧安全性、快速性和魯棒性的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:基于多智能體深度強(qiáng)化學(xué)習(xí)的電力通信系統(tǒng)魯棒路由方法,所述電力通信系統(tǒng)由采集量測數(shù)據(jù)的信息源節(jié)點(diǎn)、接受和轉(zhuǎn)發(fā)量測數(shù)據(jù)包的路由節(jié)點(diǎn)以及通信鏈路構(gòu)成,包括以下步驟:
3、s1:基于信息源節(jié)點(diǎn)的量測數(shù)據(jù)采集機(jī)制以及電力通信系統(tǒng)的數(shù)據(jù)包傳輸機(jī)制,建立電力通信系統(tǒng)的信息流模型;
4、s2:在信息流模型的基礎(chǔ)上,將電力通信系統(tǒng)中的路由節(jié)點(diǎn)視為智能體,并根據(jù)路由優(yōu)化的目標(biāo)設(shè)計(jì)智能體的觀測空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),將路由優(yōu)化問題轉(zhuǎn)化為多智能體深度強(qiáng)化學(xué)習(xí)問題;
5、s3:針對步驟s2中的多智能體深度強(qiáng)化學(xué)習(xí)問題,為每個(gè)智能體設(shè)計(jì)路由策略網(wǎng)絡(luò)和改進(jìn)評論家網(wǎng)絡(luò);所述路由策略網(wǎng)絡(luò)用于接收智能體在電力通信系統(tǒng)中獲取的觀測向量并輸出對應(yīng)的路由決策向量,所述改進(jìn)評論家網(wǎng)絡(luò)用于對路由策略網(wǎng)絡(luò)輸出的路由決策向量進(jìn)行打分;所述路由策略網(wǎng)絡(luò)由依次連接的三層全連接神經(jīng)網(wǎng)絡(luò)和一層lstm神經(jīng)網(wǎng)絡(luò)組成;所述改進(jìn)評論家網(wǎng)絡(luò)在傳統(tǒng)評論家網(wǎng)絡(luò)的基礎(chǔ)上增加了注意力機(jī)制,由多頭注意力神經(jīng)網(wǎng)絡(luò)和q值網(wǎng)絡(luò)組成,所述多頭注意力神經(jīng)網(wǎng)絡(luò)將電力通信系統(tǒng)中所有智能體的觀測向量和路由決策向量作為輸入,利用多頭注意力機(jī)制計(jì)算每對智能體之間的注意力權(quán)重,通過加權(quán)求和得到每個(gè)智能體的注意力特征向量,所述q值網(wǎng)絡(luò)采用雙q網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)q網(wǎng)絡(luò)由兩層全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成,接收智能體的注意力特征向量和觀測向量,輸出智能體路由決策的分?jǐn)?shù);
6、s4:采用soft-actor-critic算法交替更新每個(gè)智能體的路由策略網(wǎng)絡(luò)和改進(jìn)評論家網(wǎng)絡(luò)的參數(shù),最終得到所有智能體的最優(yōu)路由策略網(wǎng)絡(luò),用于輸出最優(yōu)的路由決策,當(dāng)電力通信系統(tǒng)遭受網(wǎng)絡(luò)攻擊或發(fā)生故障時(shí),不同智能體之間通過最優(yōu)路由決策的協(xié)同,維持正常量測數(shù)據(jù)包的傳輸延時(shí)在允許范圍內(nèi)。
7、進(jìn)一步,在步驟s1中,電力通信系統(tǒng)用無向圖g=<v,e>表示,其中v代表所有路由節(jié)點(diǎn)的集合,e代表所有通信鏈路的集合;每個(gè)路由節(jié)點(diǎn)均與固定數(shù)量的信息源節(jié)點(diǎn)相連,接受信息源節(jié)點(diǎn)產(chǎn)生的量測數(shù)據(jù)包并將其存儲(chǔ)到緩沖區(qū)中,每個(gè)數(shù)據(jù)包都有一個(gè)路由節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),當(dāng)數(shù)據(jù)包到達(dá)對應(yīng)目標(biāo)節(jié)點(diǎn)后從系統(tǒng)中移除;通信鏈路采用全雙工通信機(jī)制,通信鏈路兩端的數(shù)據(jù)包能夠同時(shí)向?qū)?cè)傳輸,并且共享傳輸帶寬;電力通信系統(tǒng)的狀態(tài)方程為:
8、
9、bij(t)=bij(t-1)-bij(t)
10、式中,ni代表路由節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn)集合,bi(t)代表t時(shí)刻路由節(jié)點(diǎn)vi緩沖區(qū)中的數(shù)據(jù)包數(shù)量,sij(t)、bij(t)分別代表t時(shí)刻通信鏈路eij正在傳輸?shù)臄?shù)據(jù)包數(shù)量以及緩沖區(qū)中的數(shù)據(jù)包數(shù)量;在t-1→t的單位時(shí)間內(nèi),ui(t)代表節(jié)點(diǎn)vi連接的信息源節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)包數(shù)量,δji(t)代表從節(jié)點(diǎn)vj傳輸?shù)焦?jié)點(diǎn)vi的數(shù)據(jù)包數(shù)量,ωlj(t)、ωki(t)分別代表從節(jié)點(diǎn)vl、vk傳入通信鏈路eij的數(shù)據(jù)包數(shù)量,rij(t)代表經(jīng)過通信鏈路eij傳入節(jié)點(diǎn)vi、vj緩沖區(qū)中的數(shù)據(jù)包總數(shù)量,bij(t)代表由通信鏈路eij的緩沖區(qū)轉(zhuǎn)移到傳輸隊(duì)列中的數(shù)據(jù)包數(shù)量;通信鏈路和路由節(jié)點(diǎn)緩沖區(qū)中的數(shù)據(jù)包數(shù)量超過緩沖區(qū)最大容量后,會(huì)按照“先入先出”的原則將溢出數(shù)據(jù)包從系統(tǒng)中移除。
11、進(jìn)一步,在步驟s2中,將路由優(yōu)化問題轉(zhuǎn)化為多智能體強(qiáng)化學(xué)習(xí)問題,其中電力通信系統(tǒng)被視為交互環(huán)境,路由節(jié)點(diǎn)被視為智能體,智能體的觀測空間、動(dòng)作空間及外部獎(jiǎng)勵(lì)定義如下:
12、a、觀測空間:基于安全性的要求,每個(gè)智能體只能獲取鄰居節(jié)點(diǎn)以及鄰居通信鏈路的狀態(tài)信息,所述鄰居節(jié)點(diǎn)是與智能體通過一條通信鏈路直接相連的智能體,對應(yīng)的通信鏈路為鄰居通信鏈路,定義智能體i的觀測空間oi={ui,li,hi},其中ui表示當(dāng)前時(shí)刻智能體i所有鄰居節(jié)點(diǎn)緩沖區(qū)中的數(shù)據(jù)包數(shù)量,li表示當(dāng)前時(shí)刻與智能體i相連的所有通信鏈路剩余帶寬,hi表示智能體i的本地狀態(tài)信息,包括自身緩沖區(qū)中未來n個(gè)數(shù)據(jù)包的目標(biāo)節(jié)點(diǎn)以及前m次路由決策轉(zhuǎn)發(fā)到各鄰居節(jié)點(diǎn)的數(shù)據(jù)包數(shù)量;
13、b、動(dòng)作空間:智能體i的動(dòng)作為路由決策,定義其動(dòng)作空間ai為智能體i的所有鄰居節(jié)點(diǎn)編號(hào);對智能體的動(dòng)作ai采用獨(dú)熱編碼,其中元素值為1的索引對應(yīng)下一跳鄰居節(jié)點(diǎn)編號(hào),若智能體i沒有進(jìn)行路由決策,則ai是全零向量;
14、c、外部獎(jiǎng)勵(lì):基于路由優(yōu)化問題的目標(biāo),智能體i的獎(jiǎng)勵(lì)機(jī)制應(yīng)使其轉(zhuǎn)發(fā)的數(shù)據(jù)包p到達(dá)該數(shù)據(jù)包目標(biāo)節(jié)點(diǎn)的總延時(shí)和丟包率最小,以下分別對路由過程中可能出現(xiàn)的三種情況的外部獎(jiǎng)勵(lì)riext進(jìn)行建模,具體如下:
15、c1、數(shù)據(jù)包p在最大允許延時(shí)的范圍內(nèi)傳輸?shù)侥繕?biāo)節(jié)點(diǎn):每個(gè)轉(zhuǎn)發(fā)過數(shù)據(jù)包p的智能體i獲得的獎(jiǎng)勵(lì)riext=ti(p)-td(p),其中ti(p)是智能體i轉(zhuǎn)發(fā)數(shù)據(jù)包p的時(shí)刻,td(p)是數(shù)據(jù)包到達(dá)目標(biāo)節(jié)點(diǎn)的時(shí)刻;
16、c2、數(shù)據(jù)包p因?yàn)橥ㄐ叛訒r(shí)超過最大允許值而發(fā)生丟包:每個(gè)轉(zhuǎn)發(fā)過數(shù)據(jù)包p的智能體i獲得的獎(jiǎng)勵(lì)riext=βp(ti(p)-td(p)),其中βp>1是懲罰系數(shù);
17、c3、數(shù)據(jù)包p因?yàn)榫彌_區(qū)滿而發(fā)生丟包:最后一次轉(zhuǎn)發(fā)數(shù)據(jù)包p的智能體i獲得的獎(jiǎng)勵(lì)其中tmax(p)是數(shù)據(jù)包p的最大允許延時(shí);
18、此外,智能體在沒有采取路由決策時(shí)刻的獎(jiǎng)勵(lì)被設(shè)置為該智能體的歷史動(dòng)作的平均獎(jiǎng)勵(lì)。
19、進(jìn)一步,在步驟s3中,所述多頭注意力神經(jīng)網(wǎng)絡(luò)用aω表示,其輸入為所有智能體的觀測量o=(o1,o2,...,oi,...,on)和路由決策a=(a1,a2,...,ai,...,an),輸出為每個(gè)智能體i的注意力特征zi,其中oi為第i個(gè)智能體的觀測量,為第i個(gè)智能體的路由決策;每個(gè)智能體i的觀測-動(dòng)作向量對首先通過嵌入層神經(jīng)網(wǎng)絡(luò)fi(oi,ai)被轉(zhuǎn)化為維度為nh的編碼向量ei,每個(gè)智能體i第k個(gè)注意力頭的輸出能夠表示為其它智能體value向量的加權(quán)和,表示為:
20、
21、式中,為第j個(gè)智能體第k個(gè)注意力頭的value向量,ej為第j個(gè)智能體的編碼向量,為第k個(gè)注意力頭的value提取矩陣,h是逐元素計(jì)算的非線性層;任意兩個(gè)智能體i、j之間的注意力權(quán)重由智能體i的query向量與智能體k的key向量的點(diǎn)積經(jīng)過softmax運(yùn)算得到,表示為:
22、
23、式中,為計(jì)算注意力權(quán)重的中間變量,分別代表query、key提取矩陣,nq為智能體query向量的維度;在得到每個(gè)注意力頭k的輸出后,將其在特征維度上串聯(lián)并經(jīng)過投影變換即可得到智能體i的注意力特征zi;
24、所述q值網(wǎng)絡(luò)用表示,其采用雙q網(wǎng)絡(luò)結(jié)構(gòu),為每個(gè)智能體建立兩個(gè)結(jié)構(gòu)相同但初始參數(shù)不同的評論網(wǎng)絡(luò)能夠避免強(qiáng)化學(xué)習(xí)中的過高估計(jì)問題,q值網(wǎng)絡(luò)的輸入為智能體i的觀測量oi、路由決策ai以及注意力特征zi,輸出智能體i的未來期望獎(jiǎng)勵(lì)
25、所述路由策略網(wǎng)絡(luò)用表示,其由神經(jīng)元數(shù)量相等的三層全連接網(wǎng)絡(luò)和一層長短期記憶網(wǎng)絡(luò)構(gòu)成,其輸入為智能體的觀測量oi,輸出為智能體采取各種路由決策的概率ρi,對ρi進(jìn)行蒙特卡洛抽樣并進(jìn)行獨(dú)熱編碼后得到智能體的路由決策向量ai。
26、進(jìn)一步,在步驟s4中,采用soft-actor-critic算法交替訓(xùn)練改進(jìn)評論家網(wǎng)絡(luò)和路由策略網(wǎng)絡(luò)的參數(shù),路由策略網(wǎng)絡(luò)的參數(shù)θ=(θ1,θ2,...,θi,...,θn)的更新目標(biāo)為使?fàn)顟B(tài)價(jià)值最大化,其中θi代表智能體i策略網(wǎng)絡(luò)的參數(shù),所有智能體的聯(lián)合損失函數(shù)l(θ)用以下公式表示:
27、
28、式中,d為存儲(chǔ)所有智能體歷史觀測向量和歷史動(dòng)作向量的緩沖區(qū),o、a分別代表從緩沖區(qū)抽取的所有智能體聯(lián)合觀測量與聯(lián)合動(dòng)作樣本,為智能體i在觀測量oi處對路由策略網(wǎng)絡(luò)進(jìn)行采樣得到的動(dòng)作向量,μ代表策略熵權(quán)重系數(shù),改進(jìn)評論家網(wǎng)絡(luò)的參數(shù)ω、的更新目標(biāo)為使得時(shí)序差分誤差最小,所有智能體評論家網(wǎng)絡(luò)的聯(lián)合損失函數(shù)用以下公式表示:
29、
30、式中,qi代表時(shí)序差分的更新目標(biāo),o'、r分別代表從緩沖區(qū)抽取的所有智能體下一時(shí)刻的聯(lián)合觀測量樣本和聯(lián)合獎(jiǎng)勵(lì)樣本,z'i代表智能體i在下一時(shí)刻的注意力特征,ri為智能體i獲得的獎(jiǎng)勵(lì),γ為未來獎(jiǎng)勵(lì)的折算系數(shù),a'i為智能體i在觀測量o'i處對路由策略網(wǎng)絡(luò)進(jìn)行采樣得到的動(dòng)作向量;采用梯度下降法交替更新網(wǎng)絡(luò)參數(shù)直至收斂,得到所有智能體的最優(yōu)路由策略網(wǎng)絡(luò)。
31、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)與有益效果:
32、1、本發(fā)明采用集中式訓(xùn)練、分散式執(zhí)行的強(qiáng)化學(xué)習(xí)框架訓(xùn)練每個(gè)智能體的路由策略網(wǎng)絡(luò),訓(xùn)練完成后,每個(gè)路由節(jié)點(diǎn)只需要本地觀測數(shù)據(jù)進(jìn)行路由決策,降低了不同路由節(jié)點(diǎn)間信息交換的頻率,提高了電力通信系統(tǒng)的數(shù)據(jù)安全性。
33、2、本發(fā)明將路由決策的時(shí)間控制在微秒級,并且當(dāng)通信系統(tǒng)的運(yùn)行工況發(fā)生變化后,路由策略的調(diào)整不需要額外時(shí)間,滿足了電力通信系統(tǒng)對路由快速性的要求。
34、3、本發(fā)明建立的路由策略對網(wǎng)絡(luò)安全事故表現(xiàn)出較高的魯棒性,當(dāng)部分信息源節(jié)點(diǎn)遭受ddos攻擊以及部分通信鏈路斷開的情況下,仍能夠滿足其它數(shù)據(jù)包的傳輸延時(shí)在允許范圍內(nèi),其魯棒性明顯優(yōu)于現(xiàn)有的路由方法。