一種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法
【專利摘要】本發(fā)明公開一種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,首先將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回源系統(tǒng),由源系統(tǒng)重新生成數(shù)據(jù)集D;然后將重新生成的數(shù)據(jù)集D分成兩部分,即完整數(shù)據(jù)子集Dc和缺失數(shù)據(jù)子集Di,并對(duì)完全數(shù)據(jù)集D進(jìn)行聚類;最后通過聚類結(jié)果對(duì)缺失數(shù)據(jù)子集Di進(jìn)行填充,得到填充結(jié)果Di’。本發(fā)明能夠在存在噪聲和離群點(diǎn)的情況下,有效聚類空間數(shù)據(jù),將其應(yīng)用于缺失值填充中,提升了數(shù)據(jù)填充的準(zhǔn)確性,為電力公司實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的智能管理奠定了基礎(chǔ)。
【專利說明】—種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于智能電網(wǎng)術(shù)領(lǐng)域,涉及一種缺失值填充方法,特別是一種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法。
【背景技術(shù)】
[0002]由于電力行業(yè)數(shù)字化技術(shù)的廣泛應(yīng)用,電力系統(tǒng)中各種數(shù)據(jù)正以前所未有的速度劇增,數(shù)據(jù)類型也越來越復(fù)雜。海量多源異構(gòu)數(shù)據(jù)的深度分析和利用,對(duì)于電力企業(yè)盈利與控制水平的提升有很高的價(jià)值。有電網(wǎng)專家分析稱,每當(dāng)數(shù)據(jù)利用率調(diào)高10%,便可使電網(wǎng)提高20%?49%的利潤。而數(shù)據(jù)質(zhì)量的高低對(duì)數(shù)據(jù)分析的準(zhǔn)確性和實(shí)時(shí)性有直接的影響。這是因?yàn)橛捎谛畔?、技術(shù)、流程等種種因素,電力系統(tǒng)中數(shù)據(jù)存在著種種質(zhì)量問題,如數(shù)據(jù)不完整、不一致、冗余,程序邏輯錯(cuò)誤等,其中至關(guān)重要的就是數(shù)據(jù)缺失問題。
[0003]數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個(gè)復(fù)雜的問題。對(duì)數(shù)據(jù)挖掘與分析來說,數(shù)據(jù)缺失可能造成以下影響:(I)系統(tǒng)可能丟失大量的有用信息;(2)系統(tǒng)中所表現(xiàn)出的不確定性可能更加顯著;(3)系統(tǒng)產(chǎn)生不可靠的輸出。因此在電網(wǎng)數(shù)據(jù)分析和利用中,為了能夠更加充分地利用已經(jīng)搜集到的數(shù)據(jù),對(duì)缺失數(shù)據(jù)進(jìn)行處理是非常必要的。
[0004]針對(duì)電網(wǎng)系統(tǒng)中存在的數(shù)據(jù)缺失問題,綜觀已有缺失數(shù)據(jù)填充方法,K-means填補(bǔ)算法是一種比較常用的方法,該方法的主要思想是:首先通過計(jì)算完全數(shù)據(jù)集中各樣本間的距離將數(shù)據(jù)樣本分成不同簇,并使同一個(gè)簇中的對(duì)象之間具有很高的相似度,而不同簇中的對(duì)象高度相異;然后計(jì)算缺失數(shù)據(jù)集中各缺失數(shù)據(jù)與各聚類簇的聚類,并將該缺失數(shù)據(jù)分到對(duì)應(yīng)的聚類簇中;最后采用不同核函數(shù)對(duì)缺失數(shù)據(jù)進(jìn)行填充。但是該算法針對(duì)電網(wǎng)系統(tǒng)缺失數(shù)據(jù)填充的準(zhǔn)確性不甚理想,尤其是對(duì)于噪聲點(diǎn)和離群點(diǎn)的處理方面,仍待進(jìn)一步提聞。
【發(fā)明內(nèi)容】
[0005]針對(duì)電網(wǎng)系統(tǒng)缺失數(shù)據(jù)填充數(shù)據(jù)準(zhǔn)確性不甚理想的問題,本發(fā)明的目的是提供一種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,該方法首先將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回源系統(tǒng),由源系統(tǒng)重新生成數(shù)據(jù)集D,D由完整數(shù)據(jù)子集D。和缺失數(shù)據(jù)子集Di構(gòu)成;然后對(duì)D進(jìn)行聚類,形成N個(gè)緊密耦合的簇;最后根據(jù)聚類結(jié)果對(duì)缺失數(shù)據(jù)子集Di進(jìn)行填充,得到填充結(jié)果Di'
[0006]本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn):
[0007]—種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,其特征在于:該方法首先將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回源系統(tǒng),由源系統(tǒng)重新生成數(shù)據(jù)集D,D由完整數(shù)據(jù)子集D。和缺失數(shù)據(jù)子集Di構(gòu)成;然后對(duì)D進(jìn)行聚類,形成N個(gè)緊密耦合的簇;最后根據(jù)聚類結(jié)果對(duì)缺失數(shù)據(jù)子集進(jìn)行填充,得到填充結(jié)果。具體步驟如下:
[0008]I)將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回讓源系統(tǒng)重新生成,這些數(shù)據(jù)包含有較多缺失值的記錄和較少完整值的屬性;通常情況下如果一條記錄的缺失屬性值占記錄全部屬性值的一半及以上需要打回該記錄;如果某個(gè)屬性的完整屬性值占全部記錄的比例低于50%,也需要打回該屬性;
[0009]2)對(duì)重新生成的數(shù)據(jù)集D將重新生成的數(shù)據(jù)集分成完整數(shù)據(jù)子集D。和缺失數(shù)據(jù)子集Di,并對(duì)D進(jìn)行K-Means聚類,從而產(chǎn)生緊密耦合的K個(gè)小簇,這些小簇能夠?qū)⒃肼暫碗x群點(diǎn)與其他點(diǎn)有效地分離開來,然后通過動(dòng)態(tài)合并的方式不斷地合并這些小簇,在D上產(chǎn)生N個(gè)緊密耦合的簇;
[0010]3)根據(jù)聚類后的結(jié)果對(duì)缺失數(shù)據(jù)子集進(jìn)行填充,在填充過程中,如果簇中含有完整屬性的數(shù)據(jù),利用該簇相應(yīng)的屬性均值來填充該記錄的缺失值。如果簇中沒有完整屬性的數(shù)據(jù),則根據(jù)完整數(shù)據(jù)子集D。的平均值和方差,基于正態(tài)分布數(shù)據(jù)分發(fā)器來對(duì)這些缺失值進(jìn)行填充。
[0011]本發(fā)明在對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí),采用基于動(dòng)態(tài)建模的K-means聚類算法,該算法采用K-means算法來劃分?jǐn)?shù)據(jù)集,并基于自相似性概念合并簇。
[0012]對(duì)完全數(shù)據(jù)集D進(jìn)行聚類的具體步驟如下:
[0013]步驟一:選擇K個(gè)點(diǎn)作為初始質(zhì)心;
[0014]步驟二:根據(jù)歐幾里得距離(Euclidean Distance)將每個(gè)點(diǎn)指派到最近的質(zhì)心,形成K個(gè)小簇,K值一般選取為數(shù)據(jù)集中總記錄條數(shù)的10% -20%,歐幾里得距離的計(jì)算公式如公式(I)所示:
【權(quán)利要求】
1.一種面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,其特征在于:首先將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回源系統(tǒng),由源系統(tǒng)重新生成數(shù)據(jù)集D,D由完整數(shù)據(jù)子集D。和缺失數(shù)據(jù)子集01構(gòu)成;然后對(duì)D進(jìn)行聚類,形成N個(gè)緊密耦合的簇;最后根據(jù)聚類結(jié)果對(duì)缺失數(shù)據(jù)子集Di進(jìn)行填充,得到填充結(jié)果D/,具體步驟如下: 1)將源系統(tǒng)數(shù)據(jù)集中的部分不完整數(shù)據(jù)打回讓源系統(tǒng)重新生成,這些數(shù)據(jù)包含有較多缺失值的記錄和較少完整值的屬性;通常情況下如果一條記錄的缺失屬性值占記錄全部屬性值的一半及以上需要打回該記錄;如果某個(gè)屬性的完整屬性值占全部記錄的比例低于50%,也需要打回該屬性; 2)對(duì)重新生成的數(shù)據(jù)集D將重新生成的數(shù)據(jù)集分成完整數(shù)據(jù)子集D。和缺失數(shù)據(jù)子集Di,并對(duì)D進(jìn)行K-Means聚類,從而產(chǎn)生緊密耦合的K個(gè)小簇,這些小簇能夠?qū)⒃肼暫碗x群點(diǎn)與其他點(diǎn)有效地分離開來,然后通過動(dòng)態(tài)合并的方式不斷地合并這些小簇,在D上產(chǎn)生N個(gè)緊密耦合的簇; 3)根據(jù)聚類后的結(jié)果對(duì)缺失數(shù)據(jù)子集進(jìn)行填充,在填充過程中,如果簇中含有完整屬性的數(shù)據(jù),利用該簇相應(yīng)的屬性均值來填充該記錄的缺失值;如果簇中沒有完整屬性的數(shù)據(jù),則根據(jù)完整數(shù)據(jù)子集D。的平均值和方差,基于正態(tài)分布數(shù)據(jù)分發(fā)器來對(duì)這些缺失值進(jìn)行填充。
2.根據(jù)權(quán)利要求1所述的面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,其特征在于:步驟(2)中,對(duì)完整數(shù)據(jù)子集進(jìn)行聚類時(shí),采用基于動(dòng)態(tài)建模的K-means聚類算法,該算法采用K-means算法來 劃分?jǐn)?shù)據(jù)集,并基于自相似性概念合并簇。
3.根據(jù)權(quán)利要求2所述的面向智能電網(wǎng)的缺失數(shù)據(jù)填充方法,其特征在于:對(duì)完全數(shù)據(jù)集D進(jìn)行聚類的具體步驟如下: 步驟一:選擇K個(gè)點(diǎn)作為初始質(zhì)心; 步驟二:根據(jù)歐幾里得距離(Euclidean Distance)將每個(gè)點(diǎn)指派到最近的質(zhì)心,形成K個(gè)小簇,K值一般選取為數(shù)據(jù)集中總記錄條數(shù)的10% _20%,歐幾里得距離的計(jì)算公式如公式⑴所示:
其中:X = (X1, χ2,...,χη),Y = (y” y2,..., yn); 步驟三:根據(jù)指派到簇的點(diǎn),重新計(jì)算每個(gè)簇的質(zhì)心; 步驟四:重復(fù)步驟二和步驟三,直到簇不發(fā)生變化; 步驟五:采用相近鄰近度量,合并各個(gè)小簇對(duì),并設(shè)置一個(gè)閾值,如果RC (Ci, CP值小于閾值,則不斷地合并小簇,如果合并過程中某個(gè)類簇對(duì)之間的距離大于閾值,則停止類簇合并,并以此階段得到類簇作為最總的類簇結(jié)果,合并后產(chǎn)生N個(gè)類簇;相對(duì)接近度的計(jì)算公式如公式(2)所示:
其中,ki; h分別是簇Ci和q的大??;]EciCi, Γ,)是連接簇Ci和的邊的平均權(quán)值;IirCr2)是二分簇Ci的邊的平均權(quán)值;I『(C,.)是二分簇&的邊的平均權(quán)值;EC表示割邊; 基于自相似性概念,兩個(gè)簇合并,僅當(dāng)結(jié)果簇中的點(diǎn)之間的接近程度與原來的每個(gè)簇一樣,能夠有效聚類空間數(shù)據(jù),即便存在噪聲和離群點(diǎn)。
【文檔編號(hào)】G06Q50/06GK104133866SQ201410344391
【公開日】2014年11月5日 申請(qǐng)日期:2014年7月18日 優(yōu)先權(quán)日:2014年7月18日
【發(fā)明者】祁建, 周紅林, 王青國 申請(qǐng)人:國家電網(wǎng)公司, 江蘇省電力公司, 江蘇電力信息技術(shù)有限公司, 江蘇省電力公司信息通信分公司