本發(fā)明涉及一種基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)能量管理方法,屬于微電網(wǎng)系統(tǒng)能量管理。
背景技術(shù):
1、近年來隨著新能源裝機(jī)容量的不斷增大,棄光棄風(fēng)等新能源消納問題也隨之凸顯。以光伏發(fā)電為代表的新能源爆發(fā)式增長,新能源在電網(wǎng)中的滲透率不斷提高,極大地增加了電網(wǎng)運(yùn)行的復(fù)雜性和新能源消納的壓力。在新能源發(fā)電裝機(jī)容量大規(guī)模增長的同時(shí),第三產(chǎn)業(yè)和電動(dòng)汽車充電等居民生活用電占比不斷提升,系統(tǒng)負(fù)荷峰谷差進(jìn)一步加大,電網(wǎng)調(diào)峰調(diào)頻壓力以及局部地區(qū)送出困難問題也隨之凸顯。另一方面,電動(dòng)汽車充電樁、電池儲能、電解制氫等用戶側(cè)柔性負(fù)荷的推廣應(yīng)用,為電網(wǎng)調(diào)度運(yùn)行提供了潛在的靈活調(diào)節(jié)資源。而氫電耦合微電網(wǎng)作為一種新能源發(fā)電和柔性負(fù)荷集約化建設(shè)和有序管理的區(qū)域性能源聚合模式,它可以通過配套的通信技術(shù)和協(xié)調(diào)控制策略,實(shí)現(xiàn)對光伏發(fā)電、電池儲能、電動(dòng)汽車充電樁等分新能源發(fā)電與柔性負(fù)荷系統(tǒng)的有序管控,以微電網(wǎng)的形式接入電網(wǎng)運(yùn)行和市場交易,是新型電力系統(tǒng)在多能源設(shè)施整合利用方面的重要解決方案之一。
2、傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的能量管理如dqn算法,由于要求動(dòng)作空間離散化,導(dǎo)致動(dòng)作空間維數(shù)過大和次優(yōu)解的問題,因此dqn學(xué)習(xí)算法難以應(yīng)用于儲能充放、儲氫罐充放等連續(xù)空間的決策問題。此外,在此基礎(chǔ)上改進(jìn)的ddpg算法。由于氫電耦合微電網(wǎng)所能接收到的儲氫罐容量、蓄電池狀態(tài)、充電(氫)站負(fù)荷的信息有限,缺乏之前的“記憶”,能量管理只能依靠氫電耦合多微電網(wǎng)的當(dāng)前狀態(tài),導(dǎo)致規(guī)劃的能量管理策略過于曲折,存在重復(fù)多余的能源調(diào)配問題,嚴(yán)重影響氫電耦合多微電網(wǎng)的運(yùn)行效率和成本。
3、上述問題是在基于深度強(qiáng)化學(xué)習(xí)改進(jìn)的氫電耦合多微電網(wǎng)系統(tǒng)能量管理過程中應(yīng)當(dāng)予以考慮并解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)能量管理方法解決現(xiàn)有技術(shù)中存在的重復(fù)多余的能源調(diào)配,氫電耦合多微電網(wǎng)的運(yùn)行效率較低和成本較高的問題。
2、本發(fā)明的技術(shù)解決方案是:
3、一種基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)能量管理方法,包括以下步驟,
4、s1、獲取氫電耦合多微電網(wǎng)系統(tǒng)的歷史數(shù)據(jù)包括歷史輸入狀態(tài)和歷史動(dòng)作;
5、s2、建立基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型,基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型包括actor神經(jīng)網(wǎng)絡(luò)和critic神經(jīng)網(wǎng)絡(luò),其中,actor神經(jīng)網(wǎng)絡(luò)包括兩個(gè)結(jié)構(gòu)相同的策略網(wǎng)絡(luò)即當(dāng)前策略網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò),當(dāng)前策略網(wǎng)絡(luò)用于輸入狀態(tài) s t并輸出動(dòng)作a t,目標(biāo)策略網(wǎng)絡(luò)用于輸入下一狀態(tài)并輸出下一動(dòng)作;critic神經(jīng)網(wǎng)絡(luò)包括兩個(gè)結(jié)構(gòu)相同的q網(wǎng)絡(luò)即當(dāng)前q網(wǎng)絡(luò)和目標(biāo)q網(wǎng)絡(luò),當(dāng)前q網(wǎng)絡(luò)用于輸入狀態(tài) s t和動(dòng)作a t并輸出關(guān)于狀態(tài)a t與動(dòng)作a t的q值,目標(biāo)q網(wǎng)絡(luò)用于輸入下一狀態(tài) s t+1和下一動(dòng)作a t+1并輸出關(guān)于下一狀態(tài) s t+1與下一動(dòng)作a t+1的q值;
6、s3、建立基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型的目標(biāo)函數(shù)與約束條件;
7、s4、初始化能量管理系統(tǒng)智能體的運(yùn)行環(huán)境;
8、s5、使用步驟s1的歷史數(shù)據(jù)對基于改進(jìn)ddpg算法的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的基于改進(jìn)ddpg算法的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型;
9、s6、由氫電耦合多微電網(wǎng)系統(tǒng)的當(dāng)前輸入狀態(tài),通過訓(xùn)練后的基于改進(jìn)ddpg算法的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型得到能量管理策略。
10、進(jìn)一步地,步驟s1中,歷史輸入狀態(tài)包括各氫電耦合微電網(wǎng)各時(shí)段的光伏發(fā)電功率、充電功率、充氫功率、儲氫罐內(nèi)的氫氣量、儲氫罐內(nèi)的氫氣量儲能系統(tǒng)的荷電狀態(tài);歷史動(dòng)作包括各氫電耦合微電網(wǎng)各時(shí)段的電解槽制氫功率、光伏發(fā)電功率儲能充放電功率、購電價(jià)格。
11、進(jìn)一步地,步驟s2中,每個(gè)策略網(wǎng)絡(luò)包括第一長短期記憶網(wǎng)絡(luò)即第一?lstm網(wǎng)絡(luò)和兩個(gè)第一全連接層,由第一lstm網(wǎng)絡(luò)對接收的氫電耦合微電網(wǎng)的輸入狀態(tài)進(jìn)行處理后,再由兩個(gè)全連接層進(jìn)行處理后輸出微電網(wǎng)的動(dòng)作。
12、進(jìn)一步地,步驟s2中,每個(gè)q網(wǎng)絡(luò)包括第二lstm網(wǎng)絡(luò)、第二全連接層和第三全連接層,在critic神經(jīng)網(wǎng)絡(luò)接收到氫電耦合多微電網(wǎng)系統(tǒng)的輸入狀態(tài)和動(dòng)作時(shí),輸入狀態(tài)由第二lstm網(wǎng)絡(luò)處理,動(dòng)作由第二全連接層處理,第二lstm網(wǎng)絡(luò)與第二全連接層的輸出結(jié)果由第三全連接層處理后輸出關(guān)于狀態(tài)和動(dòng)作的q值。
13、進(jìn)一步地,步驟s3中,建立基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型的目標(biāo)函數(shù) f:
14、?(1)
15、式中:t為時(shí)間周期對應(yīng)的總時(shí)段數(shù);n為氫電耦合多微電網(wǎng)系統(tǒng)中的微電網(wǎng)數(shù)量;△t為單位時(shí)間;分別為t時(shí)段氫電耦合多微電網(wǎng)系統(tǒng)的購電成本、充電收益、充氫收益;分別為t時(shí)段氫電耦合微電網(wǎng)系統(tǒng)的購電功率和購電價(jià)格;為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的充電功率、充電價(jià)格、充氫功率、充氫價(jià)格;
16、約束條件包括:
17、(1)電力平衡約束:
18、?(2)
19、式中:為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的光伏發(fā)電功率;、、為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的電解槽制氫功率、光伏發(fā)電功率儲能充放電功率、站用電負(fù)荷功率;
20、(2)光伏發(fā)電系統(tǒng)運(yùn)行約束:
21、?(3)
22、式中:、分別為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的光伏出力最小和最大輸出功率;
23、(3)電解制氫系統(tǒng)運(yùn)行約束:
24、a.?電解槽的運(yùn)行約束:
25、?????(4)
26、式中:和是第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的電解槽正常運(yùn)行時(shí)消耗的功率的下限和上限;
27、b.燃料電池運(yùn)行約束:
28、??????(5)
29、式中:是第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的燃料電池的工作功率;和是燃料電池正常運(yùn)行時(shí)消耗的功率的下限和上限;
30、c.儲氫罐運(yùn)行約束:
31、??????(6)
32、式中:表示第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的儲氫罐內(nèi)的氫氣量;和表示儲氫罐存儲量的上限和下限;
33、(4)電化學(xué)儲能運(yùn)行約束:
34、??????(7)
35、???(8)
36、式中:和為儲能系統(tǒng)的充放電功率的上限和下限;為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的儲氫罐內(nèi)的氫氣量儲能系統(tǒng)的荷電狀態(tài);和為儲能系統(tǒng)荷電狀態(tài)上限和下限;
37、(5)充電/氫系統(tǒng)運(yùn)行約束:
38、a.充電/氫負(fù)荷約束:
39、??(9)
40、??(10)
41、式中:為初始充電負(fù)荷需求;為可調(diào)度充電負(fù)荷需求;為不可調(diào)度充電負(fù)荷需求;為初始充氫負(fù)荷需求;為可調(diào)度充氫負(fù)荷需求;為不可調(diào)度充氫負(fù)荷需求;
42、b.充電/氫樁運(yùn)行約束:
43、?????(11)
44、????????(12)
45、式中:為充電樁的額定功率,為充氫樁的額定功率。
46、進(jìn)一步地,步驟s4中,初始化能量管理系統(tǒng)智能體的運(yùn)行環(huán)境,具體為,
47、s41、將基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型輸入運(yùn)行環(huán)境中;
48、s42、定義狀態(tài)信號空間與動(dòng)作信號空間,設(shè)置懲罰函數(shù)與獎(jiǎng)勵(lì)函數(shù)。
49、進(jìn)一步地,步驟s42,具體為,
50、定義氫電耦合多微電網(wǎng)系統(tǒng)智能體的狀態(tài)信號空間s為:
51、??(13)
52、式中:分別為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的光伏發(fā)電功率、充電功率、充氫功率、儲氫罐內(nèi)的氫氣量、儲氫罐內(nèi)的氫氣量儲能系統(tǒng)的荷電狀態(tài);
53、定義氫電耦合多微電網(wǎng)系統(tǒng)智能體的動(dòng)作信號空間a為:
54、??(14)
55、式中:分別為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的電解槽制氫功率、光伏發(fā)電功率儲能充放電功率;為t時(shí)段氫電耦合多微電網(wǎng)系統(tǒng)的購電價(jià)格;
56、定義深度強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)r為
57、??????(15)
58、式中: c為氫電耦合多微電網(wǎng)系統(tǒng)收益獎(jiǎng)勵(lì):
59、?(16)
60、式中:t為時(shí)間周期對應(yīng)的總時(shí)段數(shù);n為氫電耦合多微電網(wǎng)系統(tǒng)中的微電網(wǎng)數(shù)量;為單位時(shí)間;分別為t時(shí)段氫電耦合微電網(wǎng)系統(tǒng)的購電功率和購電價(jià)格;為第i個(gè)氫電耦合微電網(wǎng)t時(shí)段的充電功率、充電價(jià)格、充氫功率、充氫價(jià)格;
61、 d為懲罰函數(shù):
62、???(17)
63、式中:為電力系統(tǒng)不平衡電量的懲罰;為儲能系統(tǒng)過放或過充儲量的懲罰;λ為懲罰系數(shù);是第i時(shí)刻電力系統(tǒng)不平衡電量;是第i時(shí)刻儲能系統(tǒng)過放或過充量。
64、進(jìn)一步地,步驟s5中,對基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型進(jìn)行訓(xùn)練,具體為,
65、s51、初始化actor神經(jīng)網(wǎng)絡(luò)、critic神經(jīng)網(wǎng)絡(luò)和經(jīng)驗(yàn)池,并設(shè)置參數(shù),初始化當(dāng)前回合數(shù);
66、s52、將氫電耦合多微電網(wǎng)系統(tǒng)的狀態(tài) s t輸入當(dāng)前策略網(wǎng)絡(luò)得到 a t,執(zhí)行動(dòng)作 a t,并計(jì)算得到獎(jiǎng)勵(lì) r t和下一狀態(tài) s t+1;將( s t, a t, r t, s t+1)存儲到經(jīng)驗(yàn)池中,并利用經(jīng)驗(yàn)池訓(xùn)練critic神經(jīng)網(wǎng)絡(luò)和actor神經(jīng)網(wǎng)絡(luò);
67、s53、利用最小化損失函數(shù)來更新critic神經(jīng)網(wǎng)絡(luò),策略梯度更新actor神經(jīng)網(wǎng)絡(luò);
68、s54、比較當(dāng)前回合數(shù)和設(shè)定的最大回合數(shù)是否一致,若不一致則當(dāng)前回合數(shù)加一并轉(zhuǎn)至步驟s52;否則保存訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)參數(shù),結(jié)束訓(xùn)練。
69、本發(fā)明的有益效果是:該種基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)能量管理方法,采用基于改進(jìn)ddpg的氫電耦合多微電網(wǎng)系統(tǒng)的能量管理模型,氫電耦合微電網(wǎng)的動(dòng)作不僅受到微電網(wǎng)當(dāng)前狀態(tài)的控制,而且受到微電網(wǎng)之前狀態(tài)的控制,能夠使微電網(wǎng)的動(dòng)作具有時(shí)間相關(guān)性,可以有效地避免產(chǎn)生不必要的能量管理動(dòng)作,能夠有效降低氫電耦合多微電網(wǎng)的運(yùn)行成本,并提高氫電耦合多微電網(wǎng)的運(yùn)行效率。