本發(fā)明屬于數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)領(lǐng)域,涉及數(shù)據(jù)挖掘與數(shù)據(jù)處理方法,具體地說,涉及一種基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法。
背景技術(shù):
數(shù)據(jù)驅(qū)動建模方法是當(dāng)前的一個研究熱點,學(xué)者們提出了大量數(shù)據(jù)驅(qū)動模型。數(shù)據(jù)驅(qū)動模型的應(yīng)用范圍非常廣泛,涉及回歸分析、聚類分析、分類問題、密度估計等諸多領(lǐng)域。其中,非線性模型憑借其強大的非線性逼近能力通常表現(xiàn)出較高的預(yù)測精度。然而,當(dāng)前的非線性數(shù)據(jù)驅(qū)動模型仍存在以下兩個亟待解決的主要問題:(1)無法有效整合專家知識、模糊規(guī)則等異質(zhì)信息,導(dǎo)致無法進一步提升模型的精度;(2)缺乏可解釋性,導(dǎo)致非線性數(shù)據(jù)驅(qū)動模型在許多對模型透明度較高的應(yīng)用領(lǐng)域內(nèi)使用受限。
近年來學(xué)者們針對非線性數(shù)據(jù)驅(qū)動模型存在的上述問題,開展了一系列試探性研究并取得初步研究成果。jan與jacek提出了一種從神經(jīng)網(wǎng)絡(luò)中提取規(guī)則的方法,該方法抽取的規(guī)則通過模擬網(wǎng)絡(luò)背后的邏輯關(guān)系改進神經(jīng)網(wǎng)絡(luò)模型的推廣能力。將先驗知識融入非線性數(shù)據(jù)驅(qū)動模型則是另外一條有效途徑。maclin等人通過向svms優(yōu)化問題加入不等式約束的方式合并先驗知識到svms模型。更進一步,為了將非線性知識融入到非線性數(shù)據(jù)驅(qū)動模型中,mangasarian等人借助理論分析將非線性先驗知識轉(zhuǎn)化為線性不等式約束。然而,上述方法都是針對具體算法設(shè)計的,無法實現(xiàn)規(guī)則知識與一般數(shù)據(jù)驅(qū)動模型的融合,導(dǎo)致這些數(shù)據(jù)驅(qū)動模型的精度低,可解釋性差。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對ls-svms等現(xiàn)有數(shù)據(jù)驅(qū)動模型無法有效整合專家知識、模糊規(guī)則等多源異質(zhì)數(shù)據(jù)導(dǎo)致精度無法進一步提高、數(shù)據(jù)驅(qū)動模型可解釋性差等上述不足,提供了一種基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法,該方法通過實現(xiàn)專家知識、模糊規(guī)則等信息與數(shù)據(jù)驅(qū)動模型的高效集成,進而提高數(shù)據(jù)驅(qū)動模型的精度和可解釋性。
根據(jù)本發(fā)明一實施例,提供了一種基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法,含有以下步驟:
(一)采集2000m3高爐冶煉過程實際數(shù)據(jù),高爐實際采集數(shù)據(jù)具有時序特征,故在數(shù)據(jù)處理過程中保持數(shù)據(jù)先后順序不變;采用如下數(shù)據(jù)處理方法
(2)定義第k個樣本點xk的第ip個特征
其中,
(3)定義合取算子∧及析取算子
(4)利用規(guī)則支持度產(chǎn)生規(guī)則數(shù)據(jù),規(guī)則數(shù)據(jù)表示為:
rk=(r1(xk),…,rm(xk))∈[01]m(6);
(二)采用多核學(xué)習(xí)算法融合多源規(guī)則數(shù)據(jù),其具體步驟為:
(1)選擇高斯rbf函數(shù)作為核函數(shù),利用步驟(一)產(chǎn)生的p組規(guī)則數(shù)據(jù)
(2)利用面向ls-svms的
s.t.||μ||≤1,
μi≥0,i=1,…,p+1,
其中fi(α)=αtkiα,i=1,…,p+1,
求解上述融合的優(yōu)化問題,得到ls-svms模型正則化參數(shù)ν=μp+1及最優(yōu)核矩陣系數(shù)μi(i=1,…,p),進而獲得進行數(shù)據(jù)融合的規(guī)則核矩陣
(三)建立數(shù)據(jù)驅(qū)動預(yù)測模型,其具體步驟為:
利用ls-svms建立數(shù)據(jù)驅(qū)動模型為:
其中,w為分類超平面的法向量,b為分類超平面的截距項,ei為誤差項,v≥0為模型正則化參數(shù),
通過求解上述數(shù)據(jù)驅(qū)動模型的kkt系統(tǒng)
得到數(shù)據(jù)驅(qū)動預(yù)測模型為:
(四)建立規(guī)則預(yù)測模型,其具體步驟為:將步驟(二)中的得到ls-svms模型正則化參數(shù)ν以及規(guī)則矩陣kr代入ls-svms模型的kkt系統(tǒng)
求解公式(11)表示的kkt系統(tǒng)得到規(guī)則預(yù)測模型:
(五)采用sigmoid函數(shù)擬合將步驟(四)中規(guī)則預(yù)測模型的輸出轉(zhuǎn)換為后驗概率,其具體步驟為:通過擬牛頓算法求解優(yōu)化問題:
其中
得到sigmoid函數(shù)的最優(yōu)擬合參數(shù)a和b,進而將規(guī)則預(yù)測模型的輸出決策值轉(zhuǎn)化為后驗概率進行輸出,后驗概率表示為:
(六)通過后驗概率集成數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型,建立規(guī)則輔助的數(shù)據(jù)驅(qū)動模型,其具體步驟為:通過步驟(五)分別擬合出數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型的sigmoid函數(shù)的最優(yōu)擬合參數(shù),將數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型的決策值轉(zhuǎn)換為后驗概率pd和pr,并對數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型進行集成,獲得規(guī)則輔助的數(shù)據(jù)驅(qū)動模型為:
優(yōu)選的,所述高爐冶煉過程實際數(shù)據(jù)包括控制參數(shù)和狀態(tài)參數(shù),所述控制參數(shù)包括噴煤量、風(fēng)量、風(fēng)溫以及富氧量,所述狀態(tài)參數(shù)包括高爐鐵水硅含量、凸臺溫差、冶煉強度、透氣性指數(shù)、料速、頂風(fēng)壓力以及爐渣堿度;以高爐鐵水硅含量作為高爐爐溫的表征,并選取其為規(guī)則輔助的數(shù)據(jù)驅(qū)動模型的輸出變量,通過對高爐鐵水硅含量進行一階差分處理和符號函數(shù)的復(fù)合運算得到二元趨勢變量yi=sign([si]i-[si]i-1),其中,y∈[1,-1],1對應(yīng)爐溫升高的趨勢,-1對應(yīng)爐溫下降的趨勢,[si]i表示第i爐的高爐鐵水硅含量實際采集數(shù)據(jù);選擇高爐冶煉過程實際數(shù)據(jù)除高爐鐵水硅含量外的其他參數(shù)為規(guī)則輔助的數(shù)據(jù)驅(qū)動模型輸入變量x=(x1,…,xd),并對輸入變量進行預(yù)處理。
優(yōu)選的,步驟采用sigmoid函數(shù)擬合將步驟(三)中數(shù)據(jù)驅(qū)動預(yù)測模型的輸出轉(zhuǎn)換為后驗概率,其具體步驟為:通過擬牛頓算法求解優(yōu)化問題:
其中
得到sigmoid函數(shù)的最優(yōu)擬合參數(shù)a和b,進而將數(shù)據(jù)驅(qū)動預(yù)測模型的輸出決策值轉(zhuǎn)化為后驗概率進行輸出,后驗概率表示為:
本發(fā)明提出的基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法,選取高爐鐵水硅含量([si],又稱為高爐化學(xué)溫度)作為模型輸出變量,通過對采樣[si]數(shù)據(jù)的一階差分和符號函數(shù)復(fù)合運算得到二值型輸出變量,進而可建立高爐爐溫趨勢預(yù)報模型。通過收集、整理專家知識得到if…then…規(guī)則,根據(jù)if…then…規(guī)則將采集的原始采集數(shù)據(jù)轉(zhuǎn)化為規(guī)則數(shù)據(jù),能有效抑制工業(yè)噪聲、異常數(shù)據(jù)的影響,利用多核學(xué)習(xí)算法整合多個專家知識得到基于規(guī)則的規(guī)則預(yù)測模型,并建立數(shù)據(jù)驅(qū)動預(yù)測模型,通過sigmoid函數(shù)將規(guī)則預(yù)測模型和數(shù)據(jù)驅(qū)動預(yù)測模型的輸出決策值轉(zhuǎn)換為后驗概率,并對數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型進行集成,獲得規(guī)則輔助的數(shù)據(jù)驅(qū)動模型。通過根據(jù)本發(fā)明實施例的基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法建立的數(shù)據(jù)驅(qū)動模型,由于將專家知識、模糊規(guī)則等異質(zhì)信息與數(shù)據(jù)驅(qū)動模型進行集成,與現(xiàn)有技術(shù)相比,本發(fā)明建模方法建立的數(shù)據(jù)驅(qū)動模型的預(yù)測精度和可解釋性得到顯著提高,從而提高高爐冶煉過程采集數(shù)據(jù)的利用率。
附圖說明
附圖1為本發(fā)明具體實施例規(guī)則輔助的數(shù)據(jù)驅(qū)動建模的流程框圖。
附圖2a-d分別為本發(fā)明實施例cart算法產(chǎn)生的t1,t2,t3,t4四種決策規(guī)則圖。
附圖3為本發(fā)明實施例三種模型在國內(nèi)某高爐冶煉過程數(shù)據(jù)上的預(yù)測效果圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明實施例作進一步說明。
以國內(nèi)某2000m3高爐冶煉過程實際采集數(shù)據(jù)為例。參見圖1,一種基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法,含有以下步驟:
(一)采集2000m3高爐冶煉過程實際數(shù)據(jù),高爐實際采集數(shù)據(jù)具有時序特征,故在數(shù)據(jù)處理過程中保持數(shù)據(jù)先后順序不變;所述高爐冶煉過程實際數(shù)據(jù)包括控制參數(shù)和狀態(tài)參數(shù),所述控制參數(shù)包括噴煤量、風(fēng)量、風(fēng)溫以及富氧量,所述狀態(tài)參數(shù)包括高爐鐵水硅含量、凸臺溫差、冶煉強度、透氣性指數(shù)、料速、頂風(fēng)壓力以及爐渣堿度;以高爐鐵水硅含量作為高爐爐溫的表征,并選取其為規(guī)則輔助的數(shù)據(jù)驅(qū)動模型的輸出變量,通過對高爐鐵水硅含量進行一階差分處理和符號函數(shù)的復(fù)合運算得到二元趨勢變量yi=sign([si]i-[si]i-1),其中,y∈[1,-1],1對應(yīng)爐溫升高的趨勢,-1對應(yīng)爐溫下降的趨勢,[si]i表示第i爐的高爐鐵水硅含量實際采集數(shù)據(jù);選擇高爐冶煉過程實際數(shù)據(jù)除高爐鐵水硅含量外的其他參數(shù)為規(guī)則輔助的數(shù)據(jù)驅(qū)動模型輸入變量x=(x1,…,xd),并對輸入變量進行預(yù)處理;采用如下數(shù)據(jù)處理方法
(1)選擇待處理數(shù)據(jù)集合,從中選取200個樣本點構(gòu)造集合dr,用于產(chǎn)生決策樹規(guī)則;其余樣本點構(gòu)造集合dv,用于驗證模型。使用bootstrap方式對dr抽樣,然后應(yīng)用決策樹算法在抽樣上產(chǎn)生決策樹。本實施例中,決策樹算法采用cart算法。上述步驟執(zhí)行多次,直到產(chǎn)生4個不同的決策樹t1,t2,t3,t4,參見圖2a-d。
(2)將驗證集合dr分成學(xué)習(xí)集和測試集,從dv中隨機選取p%的樣本構(gòu)造測試集,其余樣本構(gòu)造學(xué)習(xí)集,其中p∈{10,15,…,85,90},設(shè)學(xué)習(xí)集為{(x1,y1),…,(xk,yk),…,(xl,yl)},定義第k個樣本點xk的第ip個特征
其中,
(3)定義合取算子∧及析取算子
(4)利用規(guī)則支持度產(chǎn)生規(guī)則數(shù)據(jù),規(guī)則數(shù)據(jù)表示為:
rk=(r1(xk),…,rm(xk))∈[01]m(6);
由此產(chǎn)生對應(yīng)于決策樹規(guī)則t1,t2,t3,t4的規(guī)則數(shù)據(jù)r1,r2,r3,r4。
(二)采用多核學(xué)習(xí)算法融合多源規(guī)則數(shù)據(jù),其具體步驟為:
(1)選擇高斯rbf函數(shù)
(2)利用面向ls-svms的
s.t.||μ||≤1,
μi≥0,i=1,…,p+1,
其中fi(α)=αtkiα,i=1,…,p+1,
求解上述融合的優(yōu)化問題,得到ls-svms模型正則化參數(shù)ν=μp+1及最優(yōu)核矩陣系數(shù)μi(i=1,…,p),進而獲得進行數(shù)據(jù)融合的規(guī)則核矩陣
(三)建立數(shù)據(jù)驅(qū)動預(yù)測模型,其具體步驟為:
利用ls-svms建立數(shù)據(jù)驅(qū)動模型為:
其中,w為分類超平面的法向量,b為分類超平面的截距項,ei為誤差項,v≥0為模型正則化參數(shù),此處取值為1,
通過求解上述數(shù)據(jù)驅(qū)動模型的kkt系統(tǒng)
得到數(shù)據(jù)驅(qū)動預(yù)測模型為:
(四)建立規(guī)則預(yù)測模型,其具體步驟為:將步驟(二)中的得到ls-svms模型正則化參數(shù)ν以及規(guī)則矩陣kr代入ls-svms模型的kkt系統(tǒng)
求解公式(11)表示的kkt系統(tǒng)得到規(guī)則預(yù)測器:
(五)采用sigmoid函數(shù)擬合將步驟(四)中規(guī)則預(yù)測模型的輸出轉(zhuǎn)換為后驗概率,其具體步驟為:通過擬牛頓算法求解優(yōu)化問題:
其中
得到sigmoid函數(shù)的最優(yōu)擬合參數(shù)a和b,進而將規(guī)則預(yù)測模型的輸出決策值轉(zhuǎn)化為后驗概率進行輸出,后驗概率表示為:
同樣地,采用sigmoid函數(shù)擬合將步驟(三)中數(shù)據(jù)驅(qū)動預(yù)測模型的輸出轉(zhuǎn)換為后驗概率,其具體步驟為:通過擬牛頓算法求解優(yōu)化問題:
其中
得到sigmoid函數(shù)的最優(yōu)擬合參數(shù)a和b,進而將數(shù)據(jù)驅(qū)動預(yù)測模型的輸出決策值轉(zhuǎn)化為后驗概率進行輸出,后驗概率表示為:
(六)通過后驗概率集成數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型,建立規(guī)則輔助的數(shù)據(jù)驅(qū)動模型,其具體步驟為:通過步驟(五)分別擬合出數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型的sigmoid函數(shù)的最優(yōu)擬合參數(shù),將數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型的決策值轉(zhuǎn)換為后驗概率pd和pr,并對數(shù)據(jù)驅(qū)動預(yù)測模型和規(guī)則預(yù)測模型進行集成,獲得規(guī)則輔助的數(shù)據(jù)驅(qū)動模型為:
分別應(yīng)用本發(fā)明具體實施例上述基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法(簡稱:ensemble)、數(shù)據(jù)驅(qū)動建模方法(簡稱:data)以及規(guī)則數(shù)據(jù)建模方法(簡稱:rule),校驗上述三種方法建模的有效性。數(shù)值實驗結(jié)果參見圖3,由圖3可以看出,本發(fā)明實施例所提基于規(guī)則輔助的高爐冶煉過程數(shù)據(jù)驅(qū)動建模方法(圖3中的ensemble)在國內(nèi)某高爐冶煉過程采集數(shù)據(jù)bf(a)上的測試精度優(yōu)于其它兩種建模方法(圖3中的data和rule)。
上述實施例用來解釋本發(fā)明,而不是對本發(fā)明進行限制,在本發(fā)明的精神和權(quán)利要求的保護范圍內(nèi),對本發(fā)明做出的任何修改和改變,都落入本發(fā)明的保護范圍。