本發(fā)明涉及機車運行優(yōu)化操縱技術,尤其涉及一種基于高階相關學習的機車節(jié)能優(yōu)化自動駕駛方法。
背景技術:
鐵路機車運行控制是一個典型的多目標、多約束、非線性的復雜實時變化過程。因此針對鐵路機車的運行操縱問題是一個非線性有約束的動態(tài)優(yōu)化問題。
現(xiàn)有工程領域應用中,復雜操縱序列優(yōu)化的解決方案主要有數(shù)值搜索,解析求解和啟發(fā)式策略設計三大類。
上述數(shù)值搜索方法即通過數(shù)值搜索算法對操縱序列進行尋優(yōu)搜索從而得到優(yōu)化的操縱序列。常見的算法有遺傳算法、群搜索算法、動態(tài)規(guī)劃等,這種方式耗時長,且短時間內(nèi)無法收斂到最優(yōu)結果,不適合在線控制系統(tǒng)優(yōu)化。
上述解析求解方法即基于領域知識對操縱控制過程中不同狀況下的關鍵轉換點根據(jù)解析公式求解來得到最終的優(yōu)化操縱序列。這種方式主要缺陷是轉換點的解析公式推導過程復雜,較難處理多約束條件。
上述啟發(fā)式策略設計即考慮諸多復雜因素,人工通過現(xiàn)有領域的一些操縱規(guī)范等啟發(fā)式的進行策略設計。該種方式過多的引入人工的分析與設計,極大的降低了策略設計的效率,同時由于人思考范圍有限,無法覆蓋所有可能的情況,這勢必會導致部分優(yōu)化解遺漏。
通過上述分析可以看出,上述幾種解決方案較難同時滿足復雜操縱序列優(yōu)化問題對計算效率和優(yōu)化效果的需求。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種基于高階相關學習的機車節(jié)能優(yōu)化自動駕駛方法,以便獲得更好地控制和節(jié)能效果。
本發(fā)明通過如下技術方案實現(xiàn):
一種基于高階相關學習的機車節(jié)能優(yōu)化自動駕駛方法,其特征在于,所述的方法包括:
步驟1)、獲取司機對機車的實際駕駛數(shù)據(jù)和運行數(shù)據(jù),并對實際駕駛數(shù)據(jù)和運行數(shù)據(jù)進行預處理;
步驟2)、確定影響機車油耗的因素,基于各因素的重要性提取與機車運行相關的特征組;
步驟3)、基于由構建的特征組描述的司機實際駕駛數(shù)據(jù)作為訓練數(shù)據(jù)構建超圖,并基于構建的超圖訓練學習模型,在訓練過程中對訓練數(shù)據(jù)進行標準化,調(diào)整所述特征組中至少部分特征的參數(shù),同時通過迭代更新的方式訓練學習模型;
步驟4)、將當前運行狀態(tài)下的由特征組描述的機車數(shù)據(jù)輸入訓練好的學習模型,基于所述學習模型獲得相應駕駛策略。
在一種優(yōu)選實現(xiàn)方式中,所述預處理包括將機車運行數(shù)據(jù)中的坡度值進行分類合并。
在另一種優(yōu)選實現(xiàn)方式中,影響機車油耗的因素至少包括:機車屬性、線路特征和機車運行信息。
在一種優(yōu)選實現(xiàn)方式中,所構建的超圖定義為g=(V,ε,w),其中V是超圖中頂點的集合,ε是超圖中邊的集合,w是超圖中所有邊的權重的集合,
構建超圖的過程包括:將每一條訓練數(shù)據(jù)視為一個頂點,通過對所有的訓練數(shù)據(jù)進行聚類,每一個聚類為一條邊。
在一種優(yōu)選實現(xiàn)方式中,所述方法還包括,將超圖表示成|V|×|ε|的關聯(lián)矩陣。
在一種優(yōu)選實現(xiàn)方式中,所述方法還包括,基于超圖獲得用于區(qū)別不同分類的學習投影矩陣M,所述學習投影矩陣M的代價函數(shù)包括以下三部分:超圖拉普拉斯正則化Ω(M)、經(jīng)驗損失Remp(M)以及投影矩陣的正則化φ(M)。
在一種優(yōu)選實現(xiàn)方式中,所述方法還包括對所述超圖模型進行強化更新,所述強化更新過程包括:
3-1、通過歸納學習方法,獲得學習投影矩陣M;
3-2、獲取選擇的nt條測試線路的仿真結果;
3-3、按評價標準對總共的nr+nt條線路進行排序,其中,nr,Ti,Ei,Wi分別為用于提取訓練數(shù)據(jù)的線路的數(shù)量、線路i的運行時間、油耗以及車重;
3-4、若收斂或者達到最大的迭代次數(shù)則退出,否則進入步驟3-5,
3-5、選擇所述步驟3-3的排序結果中的前nr條線路獲取ns個訓練數(shù)據(jù),進行預處理,然后返回步驟3-1)。
需要說明的是,在本發(fā)明中,每一條數(shù)據(jù)都是由特征組來描述的,比如在實例中一個特征組包括59維特征,那么每一條訓練數(shù)據(jù)都是一組59維的特征數(shù)據(jù)組成,而一條訓練數(shù)據(jù)就是超圖中的一個點。而每一條線路都是由很多點組成。
在另一種優(yōu)選實現(xiàn)方式中,所述超圖的構建過程包括:
1)將超圖的表達式定義為g=(V,ε,w),其中V是超圖中頂點的集合,ε是超圖中邊的集合,w是超圖中所有邊的權重的集合,超圖中每一條邊e可和任意多個點相連,超圖中每條邊e都設置了權重w(e);
2)、將超圖表示為一個|V|×|ε|的關聯(lián)矩陣,矩陣中每一個條目可定義如下:
對于每一個頂點v∈V,該頂點的度可定義如下:
d(v)=∑e∈εw(e)h(v,e)
對于每一條邊e∈ε,該邊的度可定義如下:
δ(e)=∑v∈Vh(v,e)
Dv和De分別為表示超圖中頂點的度和邊的度的對角矩陣,W為表示超圖中各個邊的權重的對角矩陣;
3)、將每一條訓練數(shù)據(jù)視為一個頂點,通過對所有的訓練數(shù)據(jù)進行聚類,每一個聚類即為一條邊;
4)、在構建好超圖之后,構建學習投影矩陣M,學習投影矩陣M的代價函數(shù)包括以下部分:超圖拉普拉斯正則化Ω(M)、經(jīng)驗損失Remp(M),以及投影矩陣的正則化φ(M):
Ψ={Ω(M)+λRemp(M)+μφ(M)}
其中,λ和μ分別是Remp(M)和正則化φ(M)的系數(shù)。
其中超圖的拉普拉斯正則化為:
其中k是從1到c的臨時變量,c的取值范圍為1-17(檔位的個數(shù)),u,v表示超圖中的點,e表示超圖中的邊,X表示由所有訓練數(shù)據(jù)構成的矩陣,T是矩陣運算中的矩陣轉置的符號。
經(jīng)驗損失定義如下:
Remp(M)=||XTM-Y||
φ(M)是一個l2范數(shù)正則式,其定義如下:
φ(M)=||M||2
5)、利用所述學習投影矩陣M進行歸納學習,學習任務表示為argminM{Ω(M)+λRemp(M)+μφ(M)};
6)求解獲得所述學習投影矩陣M=λ(XΔXT+λXXT+μI)-1XY。
7)得到投影矩陣后,利用當前運行狀態(tài)下的特征組作為一個輸入x,按照公式argmax xTM可獲得當前運行狀態(tài)下的建議檔位。
有益效果
本發(fā)明將超圖模型引入到機車的控制系統(tǒng)中,離線訓練學習模型的過程不受時間因素的限制,因此從鐵路機車運行時間以及能耗角度具有更好的優(yōu)化空間,且鐵路機車運行過程中應用離線訓練的學習模型獲取鐵路機車運行操縱檔位時能夠取得很好的節(jié)能效果。利用本發(fā)明的方法,可以更加準確地獲得所需要的建議檔位。
附圖說明
圖1表示在預處理階段對坡度進行分類的坡度分類表;
圖2表示所提取出的59維特征組圖;
圖3表示超圖構建過程示意圖;
圖4表示牽引特性曲線和制動特性曲線;
圖5表示超圖預測結果和司機實際駕駛數(shù)據(jù)對比圖。
具體實施方式
以下結合附圖及其實施例對本發(fā)明進行詳細說明,但并不因此將本發(fā)明的保護范圍限制在實施例描述的范圍之中。
為使本發(fā)明更為清晰,下面對本發(fā)明進行詳細的說明。
本發(fā)明第一實施例提供一種基于高階相關學習的機車節(jié)能優(yōu)化自動駕駛方法,其處理過程包括:
1.司機駕駛經(jīng)驗梳理及預處理。
機車駕駛的優(yōu)化問題可視為一個常見的以離散的檔位作為輸出并需考慮機車屬性,運行狀態(tài),線路屬性等因素的優(yōu)化問題。司機駕駛時所作的加檔或減檔操作的決定都是基于有經(jīng)驗的司機給予的指導或自身的駕駛經(jīng)驗。整個駕駛過程中每一個操作都會對總油耗以及花費的總時間產(chǎn)生影響。因此本發(fā)明分析大量的司機駕駛實際運行數(shù)據(jù),從司機駕駛操作中發(fā)現(xiàn)一般化的模式。司機實際駕駛數(shù)據(jù)中隱藏的模式對于發(fā)現(xiàn)一個優(yōu)化較好的駕駛方案能提供很重要的線索。因此本發(fā)明從有經(jīng)驗的司機的駕駛數(shù)據(jù)中學習較好的駕駛方案。
為了避免在上坡或下坡段出現(xiàn)過多的零碎檔位,本發(fā)明在預處理階段將坡度值進行分類合并,分類合并的標準如圖1所示,并在新合并的坡度段上進行接下來的操作。
2.構建特征組。
通過分析實際運行數(shù)據(jù)可知,影響機車油耗的因素主要有機車屬性、線路特征、運行信息、機車運行狀態(tài)、人為因素以及其他一些干擾因素。根據(jù)以上因素構建特征組,圖2給出其中一個實例,該特征組內(nèi)的特征可以分為以下三類:機車屬性,線路屬性和運行信息。其中,機車屬性包括車重、車長、重車數(shù)量和空車數(shù)量等四個特征;線路屬性包括當前線路的坡度信息、限速信息以及前后兩端線路的坡度信息和前后三段線路的限速信息等36個特征;運行信息包括當前公里標、當前速度、上一個檔位等19個特征。因為最終運行操縱的預測是基于所給出的特征值進行的,因此所構建的特征組對于最終的訓練得到的學習模型的預測性能有很大的影響。
3.構建超圖,訓練模型。
為了更好地從訓練數(shù)據(jù)中學習出高階關系,本發(fā)明提出根據(jù)實際運行數(shù)據(jù)構建超圖,并基于構建的超圖訓練學習模型。
其中超圖的構建過程如下:
超圖即圖中每一條邊可和任意多個點相連,下面給出超圖的一個初步定義,其中V是超圖中頂點的集合,ε是超圖中邊的集合,w是超圖中所有邊的權重的集合。超圖中每條邊e都設置了權重w(e)。因此超圖可表示為一個|V|×|ε|的關聯(lián)矩陣,矩陣中每一個條目可定義如下:
對于每一個頂點v∈V,該頂點的度可定義如下:
d(v)=∑e∈εw(e)h(v,e)
對于每一條邊e∈ε,該邊的度可定義如下:
δ(e)=∑v∈vh(v,e)
Dv和De分別為表示超圖中頂點的度和邊的度的對角矩陣,W為表示超圖中各個邊的權重的對角矩陣。
在構建過程中將每一條訓練數(shù)據(jù)視為一個頂點,通過對所有的訓練數(shù)據(jù)進行聚類,每一個聚類即為一條邊。具體聚類的方式如下,每次選一個點作為中心點,其本身與前n個距離最近的點構成一個聚類,即這些點由一條邊相連,在本專利給出的實例中n選擇為5。如圖3給出了超圖構建過程示意圖。基于構建的超圖,相應的關聯(lián)矩陣H,表示超圖的邊的度的對角矩陣De以及表示超圖的頂點的度的對角矩陣Dv都可相應的獲得。
在構建好超圖之后,通過基于超圖的歸納學習過程以得出一個規(guī)范化的投影來區(qū)別不同的分類。學習投影矩陣M的代價函數(shù)包括以下三部分:超圖拉普拉斯正則化Ω(M),經(jīng)驗損失Remp(M),以及投影矩陣的正則化φ(M):
Ψ={Ω(M)+λRemp(M)+μφ(M)}
其中,λ和μ分別是公式中的系數(shù),超圖的拉普拉斯正則化是基于如下假設:強關聯(lián)的頂點屬于相似的類別,超圖的拉普拉斯正則化如下:
經(jīng)驗損失定義如下:
Remp(M)=||XTM-Y||
φ(M)是一個l2范數(shù)正則式,主要用于避免M過度擬合,其定義如下:
φ(M)=||M||2
基于超圖的歸納學習任務可描述如下:
argminM{Ω(M)+λRemp(M)+μφ(M)}
為了完成上述學習任務,我們對M進行求導,如下所示:
因此可得:
M=λ(XΔXT+λXXT+μI)-1XY
對于每一個需要進行預測的數(shù)據(jù)x,對于x的預測操作可以通過如下定義獲?。?/p>
argmaxk xTM
因此訓練好超圖模型后,即可為機車的實時駕駛生成實時的運行操縱檔位。
4.調(diào)整以及高階關系強化更新
在模型的訓練過程中,本發(fā)明對構建的特征組中的特征進行了標準化。為了提高聚類的性能,特定參數(shù)比如上述公式中的λ也都針對特定的環(huán)境進行了調(diào)整。在訓練和仿真的過程中也需調(diào)整主要特征的權重,比如車重,車長,限速等。同時,還需對一些跟安全相關的因素進行實現(xiàn)和調(diào)整。比如整個行駛過程中速度不能超過限速等。
由步驟3訓練得出的超圖模型可得出一個高于平均水平的運行方案。為了提高超圖模型的質(zhì)量,本發(fā)明提出通過強化更新的方式提高超圖模型的質(zhì)量。強化更新的算法如下算法1所示。在模型更新的代價中同時考慮了油耗以及花費的時間。
5.設置實驗環(huán)境進行實驗
本發(fā)明選用的進行實驗的機車一共有17個檔位,1~8檔和-1~-8檔以及0檔。機車的功率特性曲線如圖4所示,左側為牽引力的功率特性曲線,右側為制動力的功率特性曲線。
可選擇不同車重范圍內(nèi)的訓練數(shù)據(jù)來訓練不同的超圖模型以提高預測的準確率,在本發(fā)明所給出的實例中將上千條線路按照油耗和車重的比值進行排序,選擇車重范圍在3000噸到4000噸的前400條最好的數(shù)據(jù)進行訓練?;谶@400條線路通過預處理得到23499個訓練數(shù)據(jù),每個訓練數(shù)據(jù)都有59維特征。參數(shù)λ通過測試結果分析對比,設置為0.1最佳。并對所有的數(shù)據(jù)進行歸一化。在本發(fā)明給出的實例中選用兩個車站總共15.85km的距離作為測試線路距離。通過對比訓練數(shù)據(jù)和測試數(shù)據(jù)的平均油耗結果可知,由本發(fā)明提出的方法的平均油耗為159.95kg,由有經(jīng)驗的司機駕駛的平均油耗為160.68,對比降低了0.46%。由此可知本發(fā)明提出的方法在節(jié)能方面的效果跟提供的好的訓練數(shù)據(jù)一樣甚至更節(jié)能。選擇的訓練數(shù)據(jù)比所有司機的平均油耗要少7.7%,因此可知提出的方法在節(jié)能方面比所有司機的平均油耗要少8.16%。圖5給出了由訓練的模型得到的速度曲線和檔位與司機實際駕駛的速度曲線和檔位的對比圖。之后根據(jù)步驟4中提出的算法1進行強化訓練過程。通過10次迭代之后,平均油耗下降9.86%。因此也說明了本發(fā)明提出的方法的有效性。
以上所述僅為本發(fā)明的較佳實施例,并非對本發(fā)明做任何形式上的限制,凡在本發(fā)明的精神和原則之內(nèi),依據(jù)本發(fā)明的技術實質(zhì)對以上實施例所做的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明的保護范圍之內(nèi)。
雖然上面結合本發(fā)明的優(yōu)選實施例對本發(fā)明的原理進行了詳細的描述,本領域技術人員應該理解,上述實施例僅僅是對本發(fā)明的示意性實現(xiàn)方式的解釋,并非對本發(fā)明包含范圍的限定。實施例中的細節(jié)并不構成對本發(fā)明范圍的限制,在不背離本發(fā)明的精神和范圍的情況下,任何基于本發(fā)明技術方案的等效變換、簡單替換等顯而易見的改變,均落在本發(fā)明保護范圍之內(nèi)。