一種駕駛方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及車輛安全技術領域,特別涉及一種駕駛方法及系統(tǒng)。
【背景技術】
[0002] 隨著電子技術的快速發(fā)展,汽車等車輛已經成為生活中必不可少的交通工具。而 伴隨著車輛的普及,道路上的車輛越來越密集,行車安全也越來越重要。
[0003] 通常,駕駛員在駕駛車輛行駛的過程中,可能會發(fā)生一些諸如插車、障礙物阻擋等 突發(fā)事件,此時,駕駛員可以手動操作方向盤,油門,剎車等以避免車輛與障礙物發(fā)生碰撞, 但是由于在發(fā)生突發(fā)事件時,駕駛員通常處于緊張狀態(tài),駕駛員對方向盤,油門、剎車等操 作的準確性較低。為此,相關技術提供了一種駕駛系統(tǒng),該駕駛系統(tǒng)包括:環(huán)境感知模塊和 避撞控制模塊,避撞控制模塊中存儲有駕駛員根據(jù)駕駛車輛過程中的避撞經驗設置的環(huán)境 狀態(tài)量與決策動作的對應關系,其中,環(huán)境狀態(tài)量可以為障礙物的位置,環(huán)境感知模塊可以 在車輛的行駛環(huán)境中存在由障礙物引發(fā)的突發(fā)事件時獲取車輛當前的環(huán)境狀態(tài)量,避撞控 制模塊可以根據(jù)車輛當前的環(huán)境狀態(tài)量從環(huán)境狀態(tài)量與決策動作的對應關系中確定與車 輛當前的環(huán)境狀態(tài)量對應的目標決策動作,然后根據(jù)該目標決策動作控制車輛行駛,從而 避免車輛與障礙物發(fā)生碰撞。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)相關技術至少存在以下問題:
[0005] 相關技術中的駕駛系統(tǒng)是以駕駛員的避撞經驗為依據(jù)控制車輛行駛的,受駕駛員 經驗的限制,駕駛系統(tǒng)具有一定的局限性,且由于是以駕駛員的避撞經驗為依據(jù)控制車輛 行駛的,因此,駕駛系統(tǒng)的穩(wěn)定性較低,靈活性較差。
【發(fā)明內容】
[0006] 為了解決相關技術中駕駛系統(tǒng)具有局限性,穩(wěn)定性較低,靈活性較差的問題,本發(fā) 明提供一種駕駛方法及系統(tǒng)。所述技術方案如下:
[0007] 第一方面,提供一種駕駛系統(tǒng),所述駕駛系統(tǒng)包括:環(huán)境感知模塊和避撞控制模 塊,
[0008] 所述環(huán)境感知模塊用于在車輛行駛過程中監(jiān)測所述車輛的行駛環(huán)境;預測所述車 輛的行駛環(huán)境中是否會發(fā)生由障礙物引發(fā)的突發(fā)事件;在所述車輛的行駛環(huán)境中會發(fā)生由 障礙物引發(fā)的突發(fā)事件時,獲取所述障礙物的當前位置;
[0009] 所述避撞控制模塊用于根據(jù)所述障礙物的當前位置,采用自適應學習算法確定目 標決策動作;根據(jù)所述目標決策動作控制所述車輛行駛。
[0010] 可選地,所述避撞控制模塊用于:
[0011] 從經驗存儲庫中確定與所述障礙物的當前位置對應的目標可執(zhí)行動作,所述經驗 存儲庫中記錄了預先通過自適應學習算法確定的障礙物的位置與可執(zhí)行動作的對應關系, 每個障礙物的位置對應至少一個可執(zhí)行動作,每個可執(zhí)行動作包括決策動作和與所述決策 動作一一對應的增強信號,所述增強信號用于指示與所述增強信號一一對應的決策動作在 執(zhí)行時的立即回報;
[0012] 計算所述目標可執(zhí)行動作中的每個決策動作的未來無窮回報累加和;
[0013] 確定所述未來無窮回報累加和最大的第一決策動作;
[0014] 根據(jù)所述障礙物的當前位置和所述第一決策動作,確定所述第一決策動作在執(zhí)行 時需要付出的第一代價;
[0015] 根據(jù)所述第一代價和最大的未來回報累加和確定評價誤差;
[0016] 根據(jù)所述第一代價和預設的效用期望確定動作誤差;
[0017] 根據(jù)所述評價誤差和所述動作誤差對所述第一決策動作進行調節(jié)得到第二決策 動作,所述第二決策動作在執(zhí)行時需要付出的代價為第二代價,所述第二代價小于所述第 一代價;
[0018] 將所述第二決策動作對應的障礙物的位置確定為所述障礙物的當前位置;
[0019] 重復執(zhí)行上述步驟,直至得到執(zhí)行時需要付出的代價小于預設代價的決策動作;
[0020] 將所述執(zhí)行時需要付出的代價小于預設代價的決策動作作為所述目標決策動作。
[0021] 可選地,所述避撞控制模塊用于獲取駕駛員的決策動作;
[0022] 所述環(huán)境感知模塊用于獲取執(zhí)行所述駕駛員的決策動作之后所述障礙物的第一 位置;
[0023] 所述避撞控制模塊用于從所述經驗存儲庫中確定與所述障礙物的第一位置對應 的目標可執(zhí)行動作,所述經驗存儲庫中記錄了預先通過自適應學習算法確定的障礙物的位 置與可執(zhí)行動作的對應關系,每個障礙物的位置對應至少一個可執(zhí)行動作,每個可執(zhí)行動 作包括決策動作和與所述決策動作一一對應的增強信號,所述增強信號用于指示與所述增 強信號 對應的決策動作在執(zhí)行時的立即回報;
[0024] 計算所述目標可執(zhí)行動作中的每個決策動作的未來無窮回報累加和;
[0025] 確定所述未來無窮回報累加和最大的第一決策動作;
[0026] 根據(jù)所述障礙物的當前位置和所述第一決策動作,確定所述第一決策動作在執(zhí)行 時需要付出的第一代價;
[0027] 根據(jù)所述第一代價和最大的未來回報累加和確定評價誤差;
[0028] 根據(jù)所述第一代價和預設的效用期望確定動作誤差;
[0029] 根據(jù)所述評價誤差和所述動作誤差對所述第一決策動作進行調節(jié)得到第二決策 動作,所述第二決策動作在執(zhí)行時需要付出的代價為第二代價,所述第二代價小于所述第 一代價;
[0030] 將所述第二決策動作對應的障礙物的位置確定為所述障礙物的第一位置;
[0031] 重復執(zhí)行所述從所述經驗存儲庫中確定與所述障礙物的第一位置對應的目標可 執(zhí)行動作至所述將所述第二決策動作對應的障礙物的位置確定為所述障礙物的第一位置 的步驟,直至得到執(zhí)行時需要付出的代價小于預設代價的決策動作;
[0032] 將所述執(zhí)行時需要付出的代價小于預設代價的決策動作作為所述目標決策動作。
[0033] 可選地,所述環(huán)境感知模塊用于:
[0034] 采用汽車動力學方程計算執(zhí)行所述駕駛員的決策動作后所述車輛的行駛軌跡;
[0035] 判斷所述車輛的行駛軌跡是否為符合預設條件的行駛軌跡;
[0036] 在所述車輛的行駛軌跡為符合預設條件的行駛軌跡時,觸發(fā)所述環(huán)境感知模塊獲 取執(zhí)行所述駕駛員的決策動作之后所述障礙物的第一位置;
[0037] 其中,所述車輛在按照所述符合預設條件的行駛軌跡行駛時,所述車輛與所述車 輛的行駛環(huán)境中的障礙物會發(fā)生碰撞。
[0038] 可選地,所述環(huán)境感知模塊用于:
[0039] 判斷所述車輛的行駛環(huán)境中是否存在障礙物;
[0040] 在所述車輛的行駛環(huán)境中存在障礙物時,判斷所述障礙物是否處于預設范圍內;
[0041] 在所述障礙物處于所述預設范圍內時,確定所述車輛的行駛環(huán)境中會發(fā)生由所述 障礙物引發(fā)的突發(fā)事件。
[0042] 第二方面,提供一種駕駛方法,所述方法包括:
[0043] 在車輛行駛過程中監(jiān)測所述車輛的行駛環(huán)境;
[0044] 預測所述車輛的行駛環(huán)境中是否會發(fā)生由障礙物引發(fā)的突發(fā)事件;
[0045] 若所述車輛的行駛環(huán)境中會發(fā)生由障礙物引發(fā)的突發(fā)事件,則獲取所述障礙物的 當前位置;
[0046] 根據(jù)所述障礙物的當前位置,采用自適應學習算法確定目標決策動作;
[0047] 根據(jù)所述目標決策動作控制所述車輛行駛。
[0048] 可選地,所述根據(jù)所述障礙物的當前位置,采用自適應學習算法確定目標決策動 作,包括:
[0049] 從經驗存儲庫中確定與所述障礙物的當前位置對應的目標可執(zhí)行動作,所述經驗 存儲庫中記錄了預先通過自適應學習算法確定的障礙物的位置與可執(zhí)行動作的對應關系, 每個障礙物的位置對應至少一個可執(zhí)行動作,每個可執(zhí)行動作包括決策動作和與所述決策 動作一一對應的增強信號,所述增強信號用于指示與所述增強信號一一對應的決策動作在 執(zhí)行時的立即回報;
[0050] 計算所述目標可執(zhí)行動作中的每個決策動作的未來無窮回報累加和;
[0051] 確定所述未來無窮回報累加和最大的第一決策動作;
[0052] 根據(jù)所述障礙物的當前位置和所述第一決策動作,確定所述第一決策動作在執(zhí)行 時需要付出的第一代價;
[0053] 根據(jù)所述第一代價和最大的未來回報累加和確定評價誤差;
[0054] 根據(jù)所述第一代價和預設的效用期望確定動作誤差;
[0055] 根據(jù)所述評價誤差和所述動作誤差對所述第一決策動作進行調節(jié)得到第二決策 動作,所述第二決策動作在執(zhí)行時需要付出的代價為第二代價,所述第二代價小于所述第 一代價;
[0056] 將所述第二決策動作對應的障礙物的位置確定為所述障礙物的當前位置;
[0057] 重復執(zhí)行上述步驟,直至得到執(zhí)行時需要付出的代價小于預設代價的決策動作;
[0058] 將所述執(zhí)行時需要付出的代價小于預設代價的決策動作作為所述目標決策動作。
[0059] 可選地,所述根據(jù)所述障礙物的當前位置,采用自適應學習算法確定目標決策動 作,包括:
[0060] 獲取駕駛員的決策動作;
[0061] 獲取執(zhí)行所述駕駛員的決策動作之后所述障礙物的第一位置;
[0062] 從所述經驗存儲庫中確定與所述障礙物的第一位置對應的目標可執(zhí)行動作,所述 經驗存儲庫中記錄了預先通過自適應學習算法確定的障礙物的位置與可執(zhí)行動作的對應 關系,每個障礙物的位置對應至少一個可執(zhí)行動作,每個可執(zhí)行動作包括決策動作和與所 述決策動作一一對應的增強信號,所述增強信號用于指示與所述增強信號一一對應的決策 動作在執(zhí)行時的立即回報;
[0063] 計算所述目標可執(zhí)行動作中的每個決策動作的未來無窮回報累加和;
[0064] 確定所述未來無窮回報累加和最大的第一決策動作;
[0065] 根據(jù)所述障礙物的當前位置和所述第一決策動作,確定所述第一決策動作在執(zhí)行 時需要付出的第一代價;
[0066] 根據(jù)所述第一代價和最大的未來回報累加和確定評價誤差;
[0067] 根據(jù)所述第一代價和預設的效用期望確定動作誤差;
[0068] 根據(jù)所述評價誤差和所述動作誤差對所述第一決策動作進行調節(jié)得到第二決策 動作,所述第二決策動作在執(zhí)行時需要付出的代價為第二代價,所述第二代價小于所述第 一代價;
[0069] 將所述第二決策動作對應的障礙物的位置確定為所述障礙物的第一位置;
[0070] 重復執(zhí)行所述從所述經驗存儲庫中確定與所述障礙物的第一位置對應的目標可 執(zhí)行動作至所述將所述第二決策動作對應的障礙物的位置確定為所述障礙物的第一位置 的步驟,直至得到執(zhí)行時需要付出的代價小于