国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向仿真的q學習攻擊目標分配方法

      文檔序號:10489192閱讀:369來源:國知局
      一種面向仿真的q學習攻擊目標分配方法
      【專利摘要】本發(fā)明公開了一種面向仿真的Q學習攻擊目標分配方法,包括以下步驟:(1)確定初始狀態(tài),獲取紅藍雙方空戰(zhàn)態(tài)勢信息,雙方空戰(zhàn)態(tài)勢信息包括雙方編隊內飛機數(shù)量與編隊飛機相關參數(shù),為紅方目標分配和空戰(zhàn)模型計算提供輸入;(2)確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的“狀態(tài)?動作”對;確定合適的概率ε值并采用ε?貪婪策略進行紅方動作選擇;(3)規(guī)定Q學習算法回報函數(shù)、終止狀態(tài)和收斂條件,應用Q學習算法為紅進行攻擊目標分配迭代直至滿足收斂條件。本發(fā)明擺脫了對先驗知識的依賴;對ε?貪婪策略的引入,避免了陷入局部最優(yōu)陷阱;通過對參數(shù)ε的設置,可以在算法效率與局部最優(yōu)問題上尋求平衡。
      【專利說明】
      一種面向仿真的Q學習攻擊目標分配方法
      技術領域
      [0001] 本發(fā)明涉及作戰(zhàn)模擬技術領域,具體說涉及一種面向仿真的Q學習攻擊目標分配 方法。
      【背景技術】
      [0002] 空戰(zhàn)仿真中,傳統(tǒng)的目標分配方法是在預先給出的兩列(任務和執(zhí)行單元)元素中 找到一個配對方案使其配對后產生的價值最大(或消耗最?。捎谄湟蕾囂荻群瘮?shù)因而 易陷入局部最優(yōu)陷阱;蟻群算法用于目標分配具有尋優(yōu)能力好的優(yōu)點,但計算耗時較長,尤 其是面對復雜系統(tǒng)時,效率較低;相比蟻群算法,粒子群算法用于目標分配時具有尋優(yōu)速度 快、算法簡單的優(yōu)勢,但在處理離散問題時依舊容易陷入局部最優(yōu);遺傳算法解決此類問題 時,雖然很好地利用了該算法的自組織性、自適應性、并行性、不確定性等特點,但未能克服 其局部搜索能力差的缺陷,導致算法收斂慢,極大地影響了搜索效率,而且極易出現(xiàn)早熟現(xiàn) 象。為此,需提出一種能避免陷入局部最優(yōu)且效率較高的攻擊目標分配方法,用于空戰(zhàn)仿 真。

      【發(fā)明內容】

      [0003] 針對現(xiàn)有技術的不足,本發(fā)明提出了一種面向仿真的Q學習攻擊目標分配方法,用 于在空戰(zhàn)仿真中獲得紅方戰(zhàn)斗機編隊目標分配的優(yōu)化結果。
      [0004] 本發(fā)明的技術方案是:
      [0005] -種面向仿真的Q學習攻擊目標分配方法,包括以下步驟:
      [0006] (1)確定初始狀態(tài),獲取紅藍雙方空戰(zhàn)態(tài)勢信息,雙方空戰(zhàn)態(tài)勢信息包括雙方編隊 內飛機數(shù)量與編隊飛機相關參數(shù),為紅方目標分配和空戰(zhàn)模型計算提供輸入;
      [0007] (2)確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的"狀態(tài)-動作"對;確定合 適的概率 £值并采用£-貪婪策略進行紅方動作選擇;
      [0008] (3)規(guī)定Q學習算法回報函數(shù)、終止狀態(tài)和收斂條件,應用Q學習算法為紅進行攻擊 目標分配迭代直至滿足收斂條件。
      [0009] 本發(fā)明的步驟(1)中,用于空戰(zhàn)模型計算的編隊飛機相關參數(shù)包括雙方飛機數(shù)量、 指揮因子、戰(zhàn)機易損性、多目標攻擊能力、架次比、允許交戰(zhàn)比、作戰(zhàn)飛機的雷達反射截面 積、作戰(zhàn)飛機雷達抗干擾系數(shù)、機載雷達最大發(fā)現(xiàn)距離、機載空空彈最大有效射程、最大發(fā) 現(xiàn)距離上對目標的發(fā)現(xiàn)概率、預警機有效發(fā)現(xiàn)目標概率、導彈數(shù)量和導彈評分。用于紅方目 標分配學習的初始狀態(tài)為交戰(zhàn)前雙方各編隊內飛機數(shù)量;目標分配學習還需要基于空戰(zhàn)模 型計算結果得到回報值以及Q學習算法的相關參數(shù)如確定Q學習算法的折扣因子與學習步 長。
      [0010] 本發(fā)明中,紅方編隊所能執(zhí)行的動作即不同的目標分配方案,用阿拉伯數(shù)字表示; 雙方參與空戰(zhàn)的編隊內飛機種類及數(shù)量作為感知狀態(tài),用矩陣表示。紅方動作選擇采用了 ε_貪婪策略,即以一個較大概率(1-ε)選取當前Q函數(shù)達到最大值的動作;同時以概率ε嘗試 其他不同的動作。
      [0011] 本發(fā)明的步驟(3)中,終止狀態(tài)為作戰(zhàn)雙方中有一方的各編隊內飛機數(shù)量為0;收 斂條件為所有"狀態(tài)-動作"對的獎勵之和的變化幅度均小于給定閥值;當?shù)竭_終止狀態(tài),算 法將結束一次迭代循環(huán),并繼續(xù)從初始狀態(tài)開始新的迭代循環(huán),直到學習結束。
      [0012] 本發(fā)明具有通用性,基于Q學習算法進行攻擊目標分配具有以下優(yōu)點:
      [0013] (1)擺脫了對先驗知識的依賴;
      [0014] (2)對ε_貪婪策略的引入,避免了陷入局部最優(yōu)陷阱;
      [0015] (3)通過對參數(shù)ε的設置,可以在算法效率與局部最優(yōu)問題上尋求平衡。
      【附圖說明】
      [0016]圖1是攻擊目標分配示意圖。
      [0017] 圖2是本發(fā)明的流程圖。
      【具體實施方式】
      [0018] 下面結合附圖對本發(fā)明進行詳細說明。
      [0019] 空戰(zhàn)中的攻擊目標分配是指,根據(jù)作戰(zhàn)任務和戰(zhàn)區(qū)空戰(zhàn)態(tài)勢監(jiān)測,制定作戰(zhàn)意圖, 以戰(zhàn)斗機編隊為單位調度、控制整個機群的飛機資源進行對應編隊分配,其概念如圖1所 示。本發(fā)明提出一種面向仿真的Q學習攻擊目標分配方法,用于在空戰(zhàn)仿真中獲得紅方戰(zhàn)斗 機編隊目標分配的優(yōu)化結果。
      [0020] 本發(fā)明步驟包括:
      [0021 ] (1)確定初始狀態(tài),獲取雙方空戰(zhàn)態(tài)勢信息,包括雙方編隊內飛機數(shù)量與編隊飛機 相關參數(shù),為紅方目標分配和空戰(zhàn)模型計算提供輸入。
      [0022] (2)確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的"狀態(tài)-動作"對;確定合 適的ε值并采用ε_貪婪策略進行紅方動作選擇。
      [0023] (3)規(guī)定Q學習算法回報函數(shù)、終止狀態(tài)和收斂條件,應用Q學習算法為紅方進行攻 擊目標分配迭代直至滿足收斂條件。
      [0024]參照圖2,圖2是本發(fā)明面向仿真的Q學習攻擊目標分配方法的流程圖,其中Q(st, at)表示紅方在狀態(tài)St下采用動作&所獲得的獎勵折扣和;γ e[0,l]為折扣因子,用于權衡 立即回報和長期回報之間的重要性;α為學習步長,用于控制算法學習效率;r為回報函數(shù), rt+1表示在St下選擇動作&的立即回報;a為所有可行動作集;ε為貪婪策略參數(shù),引入用于避 免局部最優(yōu)陷阱;niaxiM+t,0代表在狀態(tài)St+1下所有動作最大回報,反映了長期回報的作 ? 用方式。
      [0025]下面結合一具體實施例,以紅方巡邏飛機遭遇藍方突擊飛機與干擾機后,在紅方 預警機指揮下的目標分配為背景,詳述本發(fā)明的實施過程:
      [0026] (1)確定初始狀態(tài),其形式如下表1。其中,紅方預警機具有學習能力且不直接參與 作戰(zhàn)(假定不會被擊落)。另外,初始情形下紅方的動作獎勵值皆為〇,用于空戰(zhàn)模型計算的 雙方空戰(zhàn)編隊前述相關參數(shù)以列表形式保存。
      [0027] 表1狀態(tài)表示形式
      [0029] 同時確定Q學習算法的折扣因子與學習步長,設置折扣因子γ =0.9;學習步長α = 0·1〇
      [0030] (2)確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的"狀態(tài)-動作"對,其形式 如表2。
      [0031] 表2 "狀態(tài)-動作"對表示形式 [
      [0033] 同時引入ε-貪婪策略,依據(jù)仿真數(shù)據(jù)探索出合適的ε值。一般情形取ε = 0.1可滿足 需求,其意義是:紅方進行動作選擇時,以0.9概率選取當前Q函數(shù)達到最大值的動作;同時 以〇. 1的概率嘗試其他不同的動作。
      [0034] (3)紅方回報函數(shù)定義如下:采用空戰(zhàn)模型計算空戰(zhàn)結果后,當判定藍方突擊飛機 或干擾飛機有一架被擊落,則紅方獲得一個+1的獎勵;當判定紅方巡邏飛機有一架被擊落, 則紅方獲得一個-1的回報。在紅方選擇自衛(wèi)規(guī)避即放棄制空權時,給予紅方懲罰-10。
      [0035] 空戰(zhàn)結果將采用空戰(zhàn)模型進行計算,經(jīng)上述回報函數(shù)計算后可得到紅方執(zhí)行動作 的立即回報。
      [0036] 紅方"狀態(tài)-動作"對的獎勵折扣值更新方程如下:
      [0037]
      [0038] rt+1即為紅方執(zhí)行動作的立即回報;mpc0(^+1,Ω)代表在狀態(tài)&+1下紅方所有動作 最大回報。
      [0039] 定義終止狀態(tài)為參戰(zhàn)雙方飛機中一方數(shù)量為0,每一次從任意初始狀態(tài)出發(fā)達到 終止狀態(tài)的過程稱為一幕(也稱為場景)。
      [0040] 每次達到終止狀態(tài),判斷紅方"狀態(tài)-動作"對的獎勵折扣值矩陣是否收斂。若沒有 收斂,滾回至初始狀態(tài)重新迭代,直至紅方"狀態(tài)-動作"對的獎勵折扣值矩陣收斂。
      [0041] 對紅方"狀態(tài)-動作"對的獎勵折扣值不為零的矩陣進行數(shù)據(jù)分析,可知紅方最佳 策略為該狀態(tài)下獎勵折扣和值最大的動作組合。
      【主權項】
      1. 一種面向仿真的Q學習攻擊目標分配方法,其特征在于,包括W下步驟: (1) 確定初始狀態(tài),獲取紅藍雙方空戰(zhàn)態(tài)勢信息,雙方空戰(zhàn)態(tài)勢信息包括雙方編隊內飛 機數(shù)量與編隊飛機相關參數(shù),為紅方目標分配和空戰(zhàn)模型計算提供輸入; (2) 確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的"狀態(tài)-動作"對;確定合適的 概率ε值并采用ε-貪婪策略進行紅方動作選擇; (3) 規(guī)定Q學習算法回報函數(shù)、終止狀態(tài)和收斂條件,應用Q學習算法為紅進行攻擊目標 分配迭代直至滿足收斂條件。2. 根據(jù)權利要求1所述的面向仿真的Q學習攻擊目標分配方法,其特征在于,步驟(1)中 編隊飛機相關參數(shù)包括雙方飛機數(shù)量、指揮因子、戰(zhàn)機易損性、多目標攻擊能力、架次比、允 許交戰(zhàn)比、作戰(zhàn)飛機的雷達反射截面積、作戰(zhàn)飛機雷達抗干擾系數(shù)、機載雷達最大發(fā)現(xiàn)距 離、機載空空彈最大有效射程、最大發(fā)現(xiàn)距離上對目標的發(fā)現(xiàn)概率、預警機有效發(fā)現(xiàn)目標概 率、導彈數(shù)量和導彈評分。3. 根據(jù)權利要求1所述的面向仿真的Q學習攻擊目標分配方法,其特征在于,步驟(3)中 終止狀態(tài)為作戰(zhàn)雙方中有一方的各編隊內飛機數(shù)量為0;收斂條件為所有"狀態(tài)-動作"對的 獎勵之和的變化幅度均小于給定閥值;當?shù)竭_終止狀態(tài),算法將結束一次迭代循環(huán),并繼續(xù) 從初始狀態(tài)開始新的迭代循環(huán),直到學習結束。4. 根據(jù)權利要求1所述的面向仿真的Q學習攻擊目標分配方法,其特征在于, 步驟(1 )中,確定初始狀態(tài),其中紅方有S11架預警機;S12架巡邏飛機;藍方有S21架干擾 機;S22架突擊飛機;紅方預警機具有學習能力且不直接參與作戰(zhàn)且假定不會被擊落; 步驟(2)中,確定紅方編隊所能執(zhí)行的動作集,并嚴格規(guī)定完備的"狀態(tài)-動作"對,其形 式如表2所示: 表2"狀態(tài)-動作"對表示形式選取ε = 0.1,即紅方進行動作選擇時,W0.9概率選取當前Q函數(shù)達到最大值的動作;同 時W0.1的概率嘗試其他不同的動作; 步驟(3)中,紅方回報函數(shù)定義如下:采用空戰(zhàn)模型計算空戰(zhàn)結果后,當判定藍方突擊 飛機或干擾飛機有一架被擊落,則紅方獲得一個+1的獎勵;當判定紅方巡邏飛機有一架被 擊落,則紅方獲得一個-1的回報。在紅方選擇自衛(wèi)規(guī)避即放棄制空權時,給予紅方懲罰-10; 紅方"狀態(tài)-動作"對的獎勵折扣值更新方程如下:rw即為紅方執(zhí)行動作的立即回報;代表在狀態(tài)SW下紅方所有動作最大 回報。 定義終止狀態(tài)為參戰(zhàn)雙方飛機中一方數(shù)量為0,每一次從任意初始狀態(tài)出發(fā)達到終止 狀態(tài)的過程稱為一幕; 每次達到終止狀態(tài),判斷紅方"狀態(tài)-動作"對的獎勵折扣值矩陣是否收斂;若沒有收 斂,滾回至初始狀態(tài)重新迭代,直至紅方"狀態(tài)-動作"對的獎勵折扣值矩陣收斂。5. 根據(jù)權利要求4所述的面向仿真的Q學習攻擊目標分配方法,其特征在于,確定Q學習 算法的折扣因子與學習步長,設置折扣因子丫 =0.9;學習步長α = 0.1。6. 根據(jù)權利要求4所述的面向仿真的Q學習攻擊目標分配方法,其特征在于,對紅方"狀 態(tài)-動作"對的獎勵折扣值不為零的矩陣進行數(shù)據(jù)分析,可知紅方最佳策略為該狀態(tài)下獎勵 折扣和值最大的動作組合。
      【文檔編號】G06F17/50GK105844068SQ201610427869
      【公開日】2016年8月10日
      【申請日】2016年6月16日
      【發(fā)明人】羅鵬程, 謝俊潔, 金光, 李進
      【申請人】中國人民解放軍國防科學技術大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1