技術(shù)特征:1.一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,所述步驟s1中定義環(huán)境中的狀態(tài)空間及動(dòng)作空間具體為:
3.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,所述步驟s2中訓(xùn)練采用的獎(jiǎng)勵(lì)函數(shù)采取以下的方法:
4.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,所述步驟s1構(gòu)建的模型基礎(chǔ)結(jié)構(gòu)以及各個(gè)頭的結(jié)構(gòu)如下:
5.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,所述步驟s3中的強(qiáng)化學(xué)習(xí)微調(diào)階段進(jìn)一步為:
6.如權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,其特征在于,所述步驟s4中的決策過程進(jìn)一步為:
技術(shù)總結(jié)本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的智能電網(wǎng)調(diào)度算法,包括如下步驟:構(gòu)建智能電網(wǎng)調(diào)度的基礎(chǔ)模型,同時(shí)輸入預(yù)采集的電網(wǎng)數(shù)據(jù),并描述算法應(yīng)用的環(huán)境以及目標(biāo);使用構(gòu)建的模型對(duì)預(yù)采集數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使得模型掌握基本的安全行為和環(huán)境規(guī)則;基于在線強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整的能力,根據(jù)實(shí)際環(huán)境反饋對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào);引入分層強(qiáng)化學(xué)習(xí)理念處理持續(xù)安全的場(chǎng)景,將包括連續(xù)與離散情況的復(fù)雜動(dòng)作空間細(xì)分為不同的層次結(jié)構(gòu),每個(gè)層次負(fù)責(zé)特定類型的決策;引入了啟發(fā)式規(guī)則,對(duì)層次結(jié)構(gòu)進(jìn)行裁剪與優(yōu)化;優(yōu)化后的模型輸出決策,供電網(wǎng)調(diào)度采用。本方案通過在線強(qiáng)化學(xué)習(xí)的自我調(diào)整和學(xué)習(xí),達(dá)到減少人工干預(yù),增強(qiáng)模型對(duì)智能電網(wǎng)電力調(diào)度的參與度。
技術(shù)研發(fā)人員:程真,海雷,管詩駢,張?zhí)旌?張劉東
受保護(hù)的技術(shù)使用者:中科方寸知微(南京)科技有限公司
技術(shù)研發(fā)日:技術(shù)公布日:2024/12/19