本發(fā)明涉及自動駕駛,尤其涉及一種自動駕駛控制方法、裝置、電子設備及計算機存儲介質(zhì)。
背景技術(shù):
1、近年來,人工智能技術(shù)的高速發(fā)展對各行各業(yè)產(chǎn)生了深遠的影響,如圖像識別、語音識別、自然語言處理等。這些技術(shù)為自動駕駛提供了強大的技術(shù)支持,使得汽車能夠更好地感知周圍環(huán)境,理解并應對復雜多變的道路狀況,各大車企都展現(xiàn)了屬于自己流派的自動駕駛感知技術(shù)。
2、現(xiàn)有的自動駕駛技術(shù)中,出于安全性和穩(wěn)定性考慮,對于車輛的控制比較僵硬,對于不同的車輛行駛環(huán)境,可能會出現(xiàn)持續(xù)變速、急加速、急剎、突然變道等操作,導致車輛能耗增加的同時,降低乘客的乘坐體驗,特別是針對復雜的駕駛環(huán)境,不會考慮車輛能耗,造成能源浪費。
3、由此可見,現(xiàn)有的自動駕駛技術(shù)會造成車輛能耗過高的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,有必要提供一種自動駕駛控制方法、裝置、電子設備及計算機存儲介質(zhì),用以解決現(xiàn)有的自動駕駛技術(shù)會造成車輛能耗過高的技術(shù)問題。
2、為了解決上述問題,本發(fā)明提供一種自動駕駛控制方法,包括:
3、獲取車輛所處場景的場景信息,所述場景信息包括車輛狀態(tài)信息及車輛所在道路的道路環(huán)境信息;
4、采用基于深度強化學習的車輛節(jié)能控制模型對所述車輛狀態(tài)信息和所述道路環(huán)境信息進行分析,確定車輛控制策略,其中,所述車輛節(jié)能控制模型包括獎勵函數(shù),所述獎勵函數(shù)用于表示所述車輛在所述車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,所述車輛控制策略對應的獎勵函數(shù)的獎勵值最大
5、按照所述車輛控制策略控制所述車輛自動駕駛。
6、在一種可能的實施方式中,所述獲取車輛所處場景的場景信息,包括:
7、采用車載傳感器采集車輛狀態(tài)信息;
8、采用圖像采集裝置和車載雷達裝置采集車輛所在道路的道路環(huán)境信息。
9、在一種可能的實施方式中,所述采用圖像采集裝置和車載雷達裝置采集車輛所在道路的道路環(huán)境信息,包括:
10、采用圖像采集裝置采集所述車輛第一預設范圍內(nèi)的圖像信息;
11、采用車載雷達裝置采集所述車輛第二預設范圍內(nèi)的雷達點云信息;
12、將所述圖像信息和所述雷達點云信息進行融合,得到車輛所在道路的環(huán)境信息。
13、在一種可能的實施方式中,所述基于深度強化學習的車輛節(jié)能控制模型的訓練過程包括:
14、采用高樣本池中的樣本數(shù)據(jù)對所述車輛節(jié)能控制模型進行第一輪訓練,將所述第一輪訓練中獎勵函數(shù)的獎勵值大于所述預設獎勵閾值的樣本數(shù)據(jù)添加至所述高樣本池,更新所述高樣本池;
15、按照預設的比例在更新后的高樣本池和所述標準樣本池中隨機選取樣本數(shù)據(jù)對所述車輛節(jié)能控制模型進行第二輪訓練,直至所述車輛節(jié)能控制模型達到預期效果。
16、在一種可能的實施方式中,所述直至所述車輛節(jié)能控制模型達到預期效果,包括:
17、計算每次訓練結(jié)果的獎勵函數(shù)的獎勵值和當前價值網(wǎng)絡的評估值,所述價值網(wǎng)絡評估值用于指示所述訓練結(jié)果中的車輛控制策略的評分;
18、基于所述每次訓練結(jié)果的獎勵函數(shù)的獎勵值和所述當前價值網(wǎng)絡評估值計算目標價值網(wǎng)絡的目標值;
19、基于所述當前價值網(wǎng)絡的評估值和所述目標價值網(wǎng)絡的目標值構(gòu)建損失函數(shù),更新所述車輛節(jié)能控制模型以使所述損失函數(shù)最小化。
20、在一種可能的實施方式中,所述計算每次訓練結(jié)果當前價值網(wǎng)絡的評估值,包括:
21、分別計算每次訓練結(jié)果的第一當前價值網(wǎng)絡的第一評估值和第二當前價值網(wǎng)絡的第二評估值;
22、將所述第一評估值和所述第二評估值中的較小值作為所述訓練結(jié)果當前價值網(wǎng)絡的評估值。
23、在一種可能的實施方式中,所述獎勵函數(shù)的獎勵值的計算包括:
24、基于所述車輛控制策略下車輛的電機轉(zhuǎn)速和電機扭矩計算能量消耗得分;
25、基于所述車輛控制策略下車輛的車速與車輛允許車輛范圍的關(guān)系計算車速得分;
26、基于所述車輛控制策略下車輛的安全性確定安全得分;
27、按照預設的權(quán)重對所述能量消耗得分、所述車速得分和所述安全得分計算所述獎勵函數(shù)的獎勵值。
28、本發(fā)明還提供一種自動駕駛控制裝置,包括:
29、環(huán)境信息獲取模塊,用于獲取車輛所處場景的環(huán)境信息,所述環(huán)境信息包括車輛狀態(tài)信息及車輛所在道路的環(huán)境信息;
30、控制策略確定模塊,用于采用基于深度強化學習的車輛節(jié)能控制模型對所述車輛狀態(tài)信息和所述道路環(huán)境信息進行分析,確定車輛控制策略,其中,所述車輛節(jié)能控制模型包括獎勵函數(shù),所述獎勵函數(shù)用于表示所述車輛在所述車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,所述車輛控制策略對應的獎勵函數(shù)的獎勵值最大;
31、控制策略執(zhí)行模塊,用于按照所述車輛控制策略控制所述車輛自動駕駛。
32、本發(fā)明還提供一種電子設備,包括存儲器和處理器,其中,
33、所述存儲器,用于存儲程序;
34、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)上述任一實施例所述的自動駕駛控制方法中的步驟。
35、本發(fā)明還提供一種計算機可讀存儲介質(zhì),用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)上述任一實施例所述的自動駕駛控制方法中的步驟。
36、本發(fā)明的有益效果是:本發(fā)明提供的自動駕駛控制方法,通過獲取車輛狀態(tài)信息和車輛所在道路的道路信息,采用基于深度強化學習的車輛節(jié)能控制模型對車輛狀態(tài)信息和道路環(huán)境信息進行分析,確定車輛控制策略,其中,車輛節(jié)能控制模型包括獎勵函數(shù),獎勵函數(shù)用于表示車輛在車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,車輛控制策略對應的獎勵函數(shù)的獎勵值最大,通過采用獎勵函數(shù)的獎勵值最大的車輛控制策略控制車輛進行自動駕駛,能夠有效降低車輛能耗,節(jié)約能源。
1.一種自動駕駛控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述獲取車輛所處場景的場景信息,包括:
3.根據(jù)權(quán)利要求2所述的自動駕駛控制方法,其特征在于,所述采用圖像采集裝置和車載雷達裝置采集車輛所在道路的道路環(huán)境信息,包括:
4.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述基于深度強化學習的車輛節(jié)能控制模型的訓練過程包括:
5.根據(jù)權(quán)利要求4所述的自動駕駛控制方法,其特征在于,所述直至所述車輛節(jié)能控制模型達到預期效果,包括:
6.根據(jù)權(quán)利要求5所述的自動駕駛控制方法,其特征在于,計算每次訓練結(jié)果當前價值網(wǎng)絡的評估值,包括:
7.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述獎勵函數(shù)的獎勵值的計算包括:
8.一種自動駕駛控制裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括存儲器和處理器,其中,
10.一種計算機可讀存儲介質(zhì),其特征在于,用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)上述權(quán)利要求1至7中任意一項所述的自動駕駛控制方法中的步驟。