一種基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評估方法
【技術領域】
[0001] 本發(fā)明屬于電力系統(tǒng)及其自動化技術領域,更準確地說本發(fā)明涉及一種基于強化 學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評估方法。
【背景技術】
[0002] 發(fā)電容量的充裕性是指在計及機組的計劃和非計劃停運,且元件不過載,母線電 壓和系統(tǒng)頻率維持在允許范圍內(nèi)的條件下,滿足用戶需求功率和電量的能力。電網(wǎng)運行中 應留有一定發(fā)電容量作為備用容量,以應付負荷突然變動、電網(wǎng)故障、發(fā)電設備隨機停運等 情況的出現(xiàn),從而將電力供需矛盾給社會和企業(yè)帶來的不利影響降至最低程度。通常將發(fā) 電容量充裕性區(qū)分為運行發(fā)電容量充裕性、裝機發(fā)電容量充裕性,本發(fā)明主要用于與電網(wǎng) 安全備用密切相關的運行發(fā)電容量充裕性問題。
[0003] 目前,發(fā)電容量充裕度的決策常用的是確定性方法,或用失負荷概率(LOLP)或電 力不足期望值(EENS)等指標來考慮不確定性。運行發(fā)電容量充裕性反映在備用容量的各 種側(cè)面上,包括時間尺度(實時運行、日運行、長期)、響應速度(旋轉(zhuǎn)、熱、冷)、地域及物理 量(有功、無功)等各類備用容量。
[0004] 不確定性環(huán)境下電力系統(tǒng)充裕度評估技術大致分為仿真方法和解析方法。典型的 解析方法是半不變量法(CumulantsMethod,CM),通過引入半不變量(Cumulants)的概念 進行估計。CM方法計算效率高,但是在解析過程中需要做出假設,并進行復雜的數(shù)學推導。 點估計法(PointEstimate,PM)可認為是仿真方法和解析方法的結(jié)合,通過泰勒級數(shù)展開 解析確定每個隨機變量的若干個固定采樣點,并以此為樣本進行仿真計算,以提高仿真效 率,常用的有兩/三點估計法。
[0005] 蒙特卡羅方法(MonteCarlo,MC)是典型的仿真方法,基于概率密度分布進行隨 機采樣獲得變量的樣本,進而對事件的潛在風險進行估計。假設需要估計的問題為1 = Jxh(X)f(X)dx,其中X為符合概率分布f(X)的多維隨機變量,h(X)為需要進行評估的目 標函數(shù)。MC方法將基于f(X)對X進行隨機抽樣,對1進行估計<=A[/辦)]=^7文/心:.)。 - Ni=i MC方法的優(yōu)點在于結(jié)果可靠,但是計算量極大,尤其是所估計事件發(fā)生概率較低時。
[0006] 隨著不確定性維數(shù)和問題復雜度提高,解析類方法的不足開始慢慢顯現(xiàn),難以保 證問題的解析解的存在以及穩(wěn)定可靠的分析結(jié)果,而采用MC方法對小概率高風險事件風 險進行評估時,由于該類事件的抽樣概率極低,往往需要在抽取海量樣本后,才能捕捉到小 概率高風險事件的發(fā)生,大量仿真資源消耗在了低風險事件上,這限制了MC方法的應用, 且無法滿足在線分析對于計算效率的要求,已有研宄集中在蒙特卡羅方法的改進以及相關 衍生方法的開發(fā)。
[0007] 針對MC方法處理小概率事件時耗時過長的缺陷,一些改進MC方法被提出,以期在 盡量保證估計精度的前提下提高計算效率。目前應用于電力系統(tǒng)不確定性分析的改進MC 方法包括:重點抽樣方法(ImportanceSampling,IS),馬爾可夫鏈蒙特卡羅方法(Markov ChainMonteCarlo,MCMC),分層抽樣方法(StratifiedSampling,SS)等。
[0008] 與MC方法不同,IS方法不以f(X)為抽樣分布,而是通過選擇不同于f(X)的重點 抽樣分布g(X),以期從多維抽樣空間中快速抽取到對估計結(jié)果更重要的樣本,以提高仿真 效率。同時IS需要利用偏置系數(shù)(也稱為權(quán)值MX) =f(x)/g(x)對1進行無偏估計:
[0009]
【主權(quán)項】
1. 基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評估方法,其特征在于,包 括如下步驟: 1) 對隨機變量進行分類,采用電力系統(tǒng)負荷水平作為反映當前電力系統(tǒng)狀態(tài)的"狀態(tài)" 變量S;將反映參與者狀態(tài)或決策的隨機變量劃歸為"行動"變量;電力系統(tǒng)負荷水平為連 續(xù)隨機變量,"行動"變量包括連續(xù)隨機變量和離散隨機變量,將各個"行動"變量記為ai,1 < <i< <NA,Na為"行動"變量的個數(shù); 2) 對電力系統(tǒng)負荷水平以及"行動"變量中的連續(xù)隨機變量進行分層離散化形成各個 隨機變量的重要性矩陣,以及對"行動"變量中的離散隨機變量形成重要性矩陣,然后對所 有隨機變量的重要性矩陣賦予統(tǒng)一的初值; 3) 基于各個隨機變量的重要性矩陣,以Boltzmann函數(shù)的形式,計算各個隨機變量的 重點抽樣概率分布密度函數(shù); 4) 基于步驟3)計算所得的各個隨機變量的重點抽樣概率分布密度函數(shù),進行序貫重 點抽樣,首先對"狀態(tài)"變量進行重點抽樣,而后基于所抽取的"狀態(tài)"變量樣本值,根據(jù)重 點抽樣條件概率,抽取所有"行動"變量的樣本; 5) 序貫重點抽樣后,獲得所有隨機變量的樣本集,根據(jù)隨機變量的原有概率分布和重 點抽樣概率分布,進行偏置系數(shù)計算,并采用舍取控制對偏置系數(shù)進行篩選,去除偏置系 數(shù)過小的樣本以提高仿真效率;若本次抽取的樣本集通過舍取控制的篩選,則繼續(xù)至步驟 6),否則返回步驟4); 6) 基于通過篩選的樣本集進行充裕度指標計算,基于指標計算結(jié)果,采用強化學習算 法更新各個隨機變量的重要性矩陣; 7) 根據(jù)充裕度指標的計算結(jié)果,以及每個計算結(jié)果的偏置系數(shù),對電力系統(tǒng)充裕度進 行評估,并判斷結(jié)果的收斂性,若收斂,則計算結(jié)束,否則返回步驟3)。
2. 根據(jù)權(quán)利要求1所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟2)中對電力系統(tǒng)負荷水平以及"行動"變量中的連續(xù)隨機變 量進行分層離散化的方法為:基于每個連續(xù)型隨機變量的累積分布函數(shù),按預先設定的取 值區(qū)間數(shù)目,進行分層離散化。
3. 根據(jù)權(quán)利要求2所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟2)中,"狀態(tài)"變量s的重要性矩陣13為IXM的矩陣,I3中 各個元素對應了 "狀態(tài)"變量s在各取值區(qū)間的重要程度,M為s的取值區(qū)間數(shù)目;各"行 動"變量&1的重要性矩陣Ia;i為MXNi的矩陣,其中N,寸"行動"變量中的連續(xù)隨機變量而 言為其取值區(qū)間數(shù)目,對"行動"變量中的離散隨機變量而言為其原有取值數(shù)目,Iu描述在 系統(tǒng)各個"狀態(tài)"取值區(qū)間下各"行動"變量%的各取值區(qū)間或取值的重要程度;將所有隨 機變量的重要性矩陣中元素統(tǒng)一賦值為1。
4. 根據(jù)權(quán)利要求3所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟3)的具體過程如下: 基于各隨機變量的重要性矩陣,以Boltzmann函數(shù)形式,構(gòu)建其重點抽樣概率分布密 度,先根據(jù)公式(1)計算"狀態(tài)"變量s重點抽樣概率分布密度^〇_):
其中,為在第k次抽樣時,"狀態(tài)"變量S第j個取值區(qū)間的重要性數(shù)值,gs(j)代 表"狀態(tài)"變量S第j個取值區(qū)間的重點抽樣概率,變量T為控制歷史信息挖掘和未知空 間探索程度的參數(shù),其取值根據(jù)i^y)的取值范圍制定; 然后計算各"行動"變量的重點抽樣概率分布密度,假定第k次抽樣時,"狀態(tài)"變量s 的抽樣值位于第#^個取值區(qū)間,則根據(jù)公式(2)計算"行動"變量ai的重點抽樣概率分布 密度 土#4):
其中,1以#,/)為在第k次抽樣時"行動"變量%重要性矩陣中第f行第j列元素 的取值,&代表"行動"變量%在"狀態(tài)"變量S第f個取值區(qū)間下選擇第j個取 值區(qū)間或取值的重點抽樣條件概率。
5. 根據(jù)權(quán)利要求4所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟4)的"狀態(tài)"變量s的抽樣方法為,首先根據(jù)gs(j)抽取s的 取值區(qū)間,而后在該取值區(qū)間內(nèi),按連續(xù)均勻分布抽取s的抽樣值,此時"狀態(tài)"變量s的具 體抽樣值的重點抽樣概率與其具體抽樣值所處取值區(qū)間的重點抽樣概率相同; "行動"變量的抽樣方法為,對連續(xù)隨機變量,首先根據(jù)&袖?。サ娜≈祬^(qū)間, 而后在該取值區(qū)間內(nèi),按連續(xù)均勻分布抽取%的抽樣值,此時"行動"變量a,的具體抽樣值 的重點抽樣概率與其在"狀態(tài)"變量s第個取值區(qū)間下選擇其具體抽樣值所處取值區(qū)間 的重點抽樣條件概率相同;對離散隨機變量,根據(jù)抽?。サ娜≈?,此時"行動"變 量ai的具體抽樣值的重點抽樣概率就是其在"狀態(tài)"變量s第個取值區(qū)間下選擇其具體 抽樣值的重點抽樣條件概率。
6. 根據(jù)權(quán)利要求5所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟5)中偏置系數(shù)的計算和篩選方法為: 5-1)根據(jù)公式(3)計算第k次抽樣結(jié)果的偏置系數(shù)wk:
其中,Sk為"狀態(tài)"變量s在第k次抽樣時抽取的具體抽樣值,sk所處的取值區(qū)間為;^; 4為第i個"行動"變量%在第k次抽樣時抽取的具體抽樣值,當ai為連續(xù)隨機變量時,af所處的取值區(qū)間為#,(Xk)為樣本集Xk的原有取值概率,而g(xk)為樣本集Xk的重 點抽樣取值概率;fs (Sk)和I分別為"狀態(tài)"變量樣本值Sk和"行動"變量樣本值 <的原有取值概率,g's (Sk)和I/)分別為"狀態(tài)"變量s的具體抽樣值Sk的重點 抽樣概率和"行動"變量ai的具體抽樣值 < 的重點抽樣概率;
機數(shù)rnd,若rnd<r,則接受并根據(jù)本次抽取的樣本集Xk計算充裕度指標V\同時將偏置 系數(shù)更新為Wk=wk/r,否則棄用該樣本集,此處c為預先設置的閾值。
7.根據(jù)權(quán)利要求6所述的基于強化學習和自適應序貫重點抽樣的電力系統(tǒng)充裕度評 估方法,其特征在于,所述步驟6)中的重要性矩陣的更新方法為: 首先對"行動"變量進行重要性矩陣的自適應更新,根據(jù)公式(4)的方法更新"行動"變 量&1重要性矩陣中對應本次所抽取樣本的值:
其中,A是學習系數(shù),在O到1范圍內(nèi)取值; 若所有"行動"變量的重要性矩陣更新完畢,則基于這些重要性矩陣來更新"狀態(tài)"變 量的重要性矩陣,按公式(5)對"狀態(tài)"變量s的重要性矩陣進行更新:
【專利摘要】本發(fā)明公開了一種基于強化學習算法和自適應序貫重點抽樣的電力系統(tǒng)充裕度評估方法,屬于電力系統(tǒng)及其自動化領域。本發(fā)明首先對隨機變量進行分類,初始化各個隨機變量的重要性矩陣,然后基于各個隨機變量的重要性矩陣,計算各個隨機變量的重點抽樣概率分布密度函數(shù),抽取所有隨機變量的樣本集根據(jù)偏置系數(shù)進行篩選,若本次抽取的樣本集通過篩選,則進行確定性的充裕度指標計算,否則重復抽樣,反復進行充裕度指標計算,直至指標計算結(jié)果收斂。本發(fā)明解決了高維不確定變量重點抽樣密度不易構(gòu)建的問題,可以大大提高抽樣效率,為電力系統(tǒng)充裕指標的快速評估提供高效、可靠的仿真計算方法。
【IPC分類】G06Q10-06, G06Q50-06
【公開號】CN104715343
【申請?zhí)枴緾N201510150631
【發(fā)明人】黃杰, 周霞, 李威, 方勇杰, 薛峰, 丁軍策, 蘇寅生, 黃河, 李建設
【申請人】國電南瑞科技股份有限公司, 中國南方電網(wǎng)有限責任公司, 南京南瑞集團公司
【公開日】2015年6月17日
【申請日】2015年3月31日