本領域涉及車輛駕駛決策,尤其是涉及一種知識增強的強化學習車輛決策控制方法及系統(tǒng)。
背景技術:
1、隨著傳感器技術和深度學習的發(fā)展,自動駕駛相關研究取得了重大進步。行為決策是自動駕駛車輛需要實現(xiàn)的基本功能之一。其基本目的是在確保乘客和其他道路使用者安全的前提下,選擇最優(yōu)的駕駛操作,以實現(xiàn)高效、安全和舒適的駕駛體驗。然而面對復雜動態(tài)交互場景,需要綜合考慮復雜動態(tài)交互場景中的交通參與者駕駛行為、道路邊界約束等多個因素,對車輛決策控制水平提出了較高要求。
2、傳統(tǒng)的決策方法主要是基于規(guī)則的方法,將車輛的運動行為進行劃分,根據(jù)任務路線、交通環(huán)境、交通法規(guī)、駕駛規(guī)則知識庫等建立行為規(guī)則庫,對不同的環(huán)境狀態(tài)進行行為決策邏輯推理,輸出駕駛行為,并接收運動規(guī)劃層對控制執(zhí)行情況的反饋進行實時動態(tài)調(diào)整。然而,面對復雜不確定環(huán)境,基于規(guī)則的方法難以適應所有情況。
3、基于深度強化學習的方法能夠通過被控車輛學習過程中不斷與環(huán)境進行交互產(chǎn)生數(shù)據(jù)來更新模型自身參數(shù),能夠更好地應對復雜多變的駕駛環(huán)境。然而被控車輛需要探索大量的動作來最大化累積獎勵,才能獲得有效的駕駛策略,這嚴重危害了被控車輛的駕駛安全。
技術實現(xiàn)思路
1、本發(fā)明主要目的在于提供一種可以提高復雜動態(tài)交通場景下提高車輛作出安全、可靠的決策控制指令的知識增強的強化學習車輛決策控制方法及系統(tǒng)。
2、本發(fā)明所采用的技術方案是:
3、提供一種知識增強的強化學習車輛決策控制方法,包括以下步驟:
4、獲取連續(xù)三幀的場景鳥瞰圖,該場景鳥瞰圖包含自車狀態(tài)信息、障礙物信息和道路拓撲結(jié)構(gòu)信息;
5、將獲取的場景鳥瞰圖輸入預設構(gòu)建的強化學習模型,通過該強化學習模型輸出車輛加速度和橫擺角速度;該強化學習模型包括強化學習策略網(wǎng)絡、狀態(tài)價值網(wǎng)絡、動作價值網(wǎng)絡;其中在強化學習策略網(wǎng)絡中引入基于專家駕駛策略分布約束的損失函數(shù),以使該強化學習模型的輸出更貼近專家駕駛策略;且定期將新專家駕駛策略與當前專家駕駛策略通過高斯混合概率模型進行集成,生成新的專家駕駛策略;
6、根據(jù)車輛加速度和橫擺角速度生成控制指令,以使車輛根據(jù)該控制指令行駛。
7、接上述技術方案,專家駕駛策略的生成過程為:預先收集小批量人類駕駛數(shù)據(jù),根據(jù)行為克隆和不確定性估計方法生成專家駕駛策略。
8、接上述技術方案,新專家駕駛策略的生成過程為:在車輛運行過程中搜集符合預設條件的優(yōu)秀案例,當優(yōu)秀案例達到一定數(shù)量后,根據(jù)行為克隆和不確定性估計方法生成新專家駕駛策略。
9、接上述技術方案,具體將專家駕駛策略分布和強化學習策略網(wǎng)絡中的學習策略分布通過kl散度進行約束限制,并將其納入強化學習策略網(wǎng)絡的損失函數(shù),生成基于專家駕駛策略分布約束的損失函數(shù)。
10、接上述技術方案,該方法還包括步驟:
11、生成包括車輛碰撞、道路邊界超出、效率的負獎勵以及無碰撞到達終點的正向獎勵的獎勵函數(shù);
12、根據(jù)獎勵函數(shù)優(yōu)化強化學習策略網(wǎng)絡的學習策略。
13、接上述技術方案,專家駕駛策略的具體生成過程為:
14、基于smarts仿真平臺在線手動駕駛車輛,并收集專家駕駛數(shù)據(jù);
15、將專家駕駛數(shù)據(jù)構(gòu)建為包含n對狀態(tài)-動作序列的數(shù)據(jù)集;
16、基于行為克隆方法擬合專家知識從狀態(tài)到行動的映射關系,利用高斯概率密度模型來評估人類行為的不確定性,并使用最大似然損失函數(shù)生成專家駕駛策略。
17、接上述技術方案,新的專家駕駛策略的具體生成過程為:
18、在被控車輛在線運行過程中,利用臨時存儲空間記錄專家駕駛策略和被控車輛駕駛策略的狀態(tài)-動作對,并使用動作價值網(wǎng)絡進行評分,如果被控車輛成功完成任務并且其累積得分超過專家,則將臨時存儲的專家狀態(tài)-動作對存儲到專家數(shù)據(jù)拓展存儲空間;
19、當專家數(shù)據(jù)拓展存儲空間存儲數(shù)據(jù)超過設定閾值,則根據(jù)行為克隆和不確定性估計方法生成新專家駕駛策略。
20、本發(fā)明還提供一種知識增強的強化學習車輛決策控制系統(tǒng),包括以下步驟:
21、數(shù)據(jù)獲取模塊,用于獲取連續(xù)三幀的場景鳥瞰圖,該場景鳥瞰圖包含自車狀態(tài)信息、障礙物信息和道路拓撲結(jié)構(gòu)信息;
22、強化學習模型模塊,用于將獲取的場景鳥瞰圖輸入預設構(gòu)建的強化學習模型,通過該強化學習模型輸出車輛加速度和橫擺角速度;該強化學習模型包括強化學習策略網(wǎng)絡、狀態(tài)價值網(wǎng)絡、動作價值網(wǎng)絡;其中在強化學習策略網(wǎng)絡中引入基于專家駕駛策略分布約束的損失函數(shù),以使該強化學習模型的輸出更貼近專家駕駛策略;且定期將新專家駕駛策略與當前專家駕駛策略通過高斯混合概率模型進行集成,生成新的專家駕駛策略;
23、控制指令生成模塊,用于根據(jù)車輛加速度和橫擺角速度生成控制指令,以使車輛根據(jù)該控制指令行駛。
24、接上述技術方案,具體將專家駕駛策略分布和強化學習策略網(wǎng)絡中的學習策略分布通過kl散度進行約束限制,并將其納入強化學習策略網(wǎng)絡的損失函數(shù),生成基于專家駕駛策略分布約束的損失函數(shù)。
25、本發(fā)明還提供一種計算機存儲介質(zhì),其內(nèi)存儲有可被處理器執(zhí)行的計算機程序,該計算機程序執(zhí)行上述技術方案所述的知識增強的強化學習車輛決策控制方法。
26、本發(fā)明產(chǎn)生的有益效果是:本發(fā)明通過在強化學習策略網(wǎng)絡中引入基于專家駕駛策略分布約束的損失函數(shù),鼓勵被控車輛作出貼近專家行為的決策控制指令,從而提高車輛的駕駛安全性;通過定期將新專家駕駛策略與當前專家駕駛策略通過高斯混合概率模型進行集成,生成優(yōu)化后的專家駕駛策略,從而實現(xiàn)專家策略的自進化。
27、進一步地,通過kl散度約束模型的學習策略與專家駕駛策略之間的動作分布,確保每一步策略更新不會偏離專家駕駛策略太遠,從而保證訓練過程的安全性、可靠性。
28、進一步地,基于獎勵函數(shù)優(yōu)化強化學習策略網(wǎng)絡的學習策略,鼓勵策略網(wǎng)絡學習到最大化累計獎勵函數(shù)的決策控制策略。
29、當然,實施本發(fā)明的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
1.一種知識增強的強化學習車輛決策控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的知識增強的強化學習車輛決策控制方法,其特征在于,專家駕駛策略的生成過程為:預先收集小批量人類駕駛數(shù)據(jù),根據(jù)行為克隆和不確定性估計方法生成專家駕駛策略。
3.根據(jù)權(quán)利要求1所述的知識增強的強化學習車輛決策控制方法,其特征在于,新專家駕駛策略的生成過程為:在車輛運行過程中搜集符合預設條件的優(yōu)秀案例,當優(yōu)秀案例達到一定數(shù)量后,根據(jù)行為克隆和不確定性估計方法生成新專家駕駛策略。
4.根據(jù)權(quán)利要求1所述的知識增強的強化學習車輛決策控制方法,其特征在于,具體將專家駕駛策略分布和強化學習策略網(wǎng)絡中的學習策略分布通過kl散度進行約束限制,并將其納入強化學習策略網(wǎng)絡的損失函數(shù),生成基于專家駕駛策略分布約束的損失函數(shù)。
5.根據(jù)權(quán)利要求1所述的知識增強的強化學習車輛決策控制方法,其特征在于,該方法還包括步驟:
6.根據(jù)權(quán)利要求2所述的知識增強的強化學習車輛決策控制方法,其特征在于,專家駕駛策略的具體生成過程為:
7.根據(jù)權(quán)利要求3所述的知識增強的強化學習車輛決策控制方法,其特征在于,新的專家駕駛策略的具體生成過程為:
8.一種知識增強的強化學習車輛決策控制系統(tǒng),其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的知識增強的強化學習車輛決策控制系統(tǒng),其特征在于,具體將專家駕駛策略分布和強化學習策略網(wǎng)絡中的學習策略分布通過kl散度進行約束限制,并將其納入強化學習策略網(wǎng)絡的損失函數(shù),生成基于專家駕駛策略分布約束的損失函數(shù)。
10.一種計算機存儲介質(zhì),其特征在于,其內(nèi)存儲有可被處理器執(zhí)行的計算機程序,該計算機程序執(zhí)行權(quán)利要求1-7中任一項所述的知識增強的強化學習車輛決策控制方法。