本技術(shù)涉及無人機(jī)自主決策,特別是涉及一種無人機(jī)集群多目標(biāo)的分布式?jīng)Q策方法和裝置。
背景技術(shù):
1、隨著無人機(jī)技術(shù)的發(fā)展,反制無人機(jī)技術(shù)的發(fā)展也被提上日程,本研究以無人機(jī)多目標(biāo)任務(wù)決策為任務(wù)場(chǎng)景,當(dāng)有多個(gè)無人機(jī)同時(shí)執(zhí)行任務(wù)時(shí),無人機(jī)集群任務(wù)完成可以明顯提高任務(wù)執(zhí)行的效率,然而在多任務(wù)目標(biāo)場(chǎng)景下,無人機(jī)集群完成任務(wù)的效率會(huì)明顯降低,目前,一種做法是無人機(jī)集群通過決策分為多個(gè)無人機(jī)子集群完成,然而,目前常規(guī)技術(shù)是控制中心與無人機(jī)集群進(jìn)行通信交互,通過下發(fā)無人機(jī)集群的決策指令,進(jìn)行任務(wù)執(zhí)行。這種方式失去通信交互后則無法實(shí)現(xiàn),目前也有基于智能體的無人機(jī)集群自主決策,但是對(duì)于單個(gè)無人機(jī),其決策較為單一,無法同時(shí)應(yīng)對(duì)多個(gè)任務(wù)目標(biāo)執(zhí)行的復(fù)雜情況。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠根據(jù)不同任務(wù)難度,自主切換無人機(jī)狀態(tài)并靈活輸出決策的無人機(jī)集群多目標(biāo)的分布式?jīng)Q策方法和裝置。
2、一種無人機(jī)集群多目標(biāo)的分布式?jīng)Q策方法,所述方法包括:
3、構(gòu)建無人機(jī)集群中無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)以及博弈決策神經(jīng)網(wǎng)絡(luò);所述分布式?jīng)Q策有限狀態(tài)機(jī)中所述無人機(jī)的狀態(tài)包括:決策保持者、正常決策者、糾結(jié)者以及迷失者;
4、在當(dāng)前決策輪次,根據(jù)無人機(jī)存儲(chǔ)的上一決策輪次存儲(chǔ)的決策數(shù)據(jù)以及當(dāng)前獲取的實(shí)時(shí)數(shù)據(jù),對(duì)所述博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整;
5、設(shè)置所述分布式?jīng)Q策有限狀態(tài)機(jī)中狀態(tài)跳轉(zhuǎn)規(guī)則;所述狀態(tài)跳轉(zhuǎn)規(guī)則包括:若無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)的狀態(tài)為正常決策者,判斷無人機(jī)與任意任務(wù)目標(biāo)的距離均大于無人機(jī)決策距離閾值,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者;若判斷無人機(jī)短時(shí)決策跳變大于無人機(jī)短時(shí)決策記憶容量乘以無人機(jī)短時(shí)決策容忍跳變率,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為糾結(jié)者;跳轉(zhuǎn)為決策保持者的無人機(jī)若離任意任務(wù)目標(biāo)的距離小于決策距離閾值,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者,處于決策保持者的無人機(jī)若當(dāng)前迷失者狀態(tài)位為1,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離任意任務(wù)目標(biāo)的距離大于決策距離閾值,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離所有任務(wù)目標(biāo)的距離均變大或者變小,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為迷失者的無人機(jī)若所統(tǒng)計(jì)步數(shù)達(dá)到閾值,則迷失者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者;
6、處于所述正常決策者和所述糾結(jié)者狀態(tài)的無人機(jī)通過實(shí)時(shí)調(diào)整參數(shù)后的博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行決策輸出,處于所述迷失者的無人機(jī)通過任務(wù)目標(biāo)數(shù)量和預(yù)設(shè)距離內(nèi)無人機(jī)數(shù)量的比較關(guān)系,確定迷失者的最優(yōu)任務(wù)目標(biāo)作為決策輸出,處于所述決策保持者的無人機(jī)保持上一決策輪次的決策。
7、在其中一個(gè)實(shí)施例中,還包括:當(dāng)處于正常決策者的無人機(jī)同時(shí)滿足糾結(jié)者和決策保持者的跳轉(zhuǎn)條件,若正常決策者成為糾結(jié)者之后滿足迷失者條件則優(yōu)先跳轉(zhuǎn)糾結(jié)者;若正常決策者成為糾結(jié)者之后不滿足迷失者條件則優(yōu)先跳轉(zhuǎn)決策保持者。
8、在其中一個(gè)實(shí)施例中,還包括:無人機(jī)的狀態(tài)在正常決策者和糾結(jié)者狀態(tài)下,若糾結(jié)者在同時(shí)滿足迷失者和決策保持者的跳轉(zhuǎn)條件,則優(yōu)先進(jìn)入迷失者狀態(tài),若不滿足迷失者狀態(tài)條件則成為決策保持者,正常決策者滿足決策保持者的進(jìn)入條件則直接成為決策保持者。
9、在其中一個(gè)實(shí)施例中,還包括:設(shè)置決策保持標(biāo)志位、糾結(jié)者標(biāo)志位以及迷失者標(biāo)志位;當(dāng)無人機(jī)的狀態(tài)處于決策保持者時(shí),所述決策保持標(biāo)志位置1,否則為0;當(dāng)無人機(jī)的狀態(tài)處于糾結(jié)者時(shí),所述糾結(jié)者標(biāo)志位置1,否則為0;當(dāng)無人機(jī)的狀態(tài)處于迷失者時(shí),所述迷失者標(biāo)志位置1,否則為0。
10、在其中一個(gè)實(shí)施例中,還包括:若處于所述迷失者的無人機(jī)預(yù)設(shè)距離內(nèi)無人機(jī)數(shù)量等于任務(wù)目標(biāo)數(shù)量,則處于所述迷失者的無人機(jī)選擇距離最近的任務(wù)目標(biāo)為最優(yōu)任務(wù)目標(biāo)作為決策輸出,否則處于所述迷失者的無人機(jī)選擇差額最小的任務(wù)目標(biāo)為最優(yōu)任務(wù)目標(biāo)作為決策輸出。
11、在其中一個(gè)實(shí)施例中,還包括:給每個(gè)決策變量分配決策變量權(quán)重,以及根據(jù)所述決策變量權(quán)重構(gòu)建博弈決策神經(jīng)網(wǎng)絡(luò)為:
12、;
13、其中,為博弈決策神經(jīng)網(wǎng)絡(luò),表示網(wǎng)絡(luò)系數(shù),決策變量權(quán)重根據(jù)網(wǎng)絡(luò)系數(shù)歸一化得到,表示網(wǎng)絡(luò)參數(shù);
14、在當(dāng)前決策輪次,將無人機(jī)存儲(chǔ)的上一決策輪次存儲(chǔ)的決策數(shù)據(jù)以及當(dāng)前獲取的實(shí)時(shí)數(shù)據(jù)輸入所述博弈決策神經(jīng)網(wǎng)絡(luò),以此對(duì)所述博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整。
15、在其中一個(gè)實(shí)施例中,還包括:根據(jù)所述決策變量的任意兩個(gè)決策變量計(jì)算得到一組決策變量權(quán)重,然后根據(jù)計(jì)算得到的一組決策變量權(quán)重和另一組決策變量權(quán)重進(jìn)行拓展,得到第三個(gè)決策變量權(quán)重,以此計(jì)算得到所有決策變量權(quán)重。
16、一種無人機(jī)集群多目標(biāo)的分布式?jīng)Q策裝置,所述裝置包括:
17、框架構(gòu)建模塊,用于構(gòu)建無人機(jī)集群中無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)以及博弈決策神經(jīng)網(wǎng)絡(luò);所述分布式?jīng)Q策有限狀態(tài)機(jī)中所述無人機(jī)的狀態(tài)包括:決策保持者、正常決策者、糾結(jié)者以及迷失者;
18、參數(shù)調(diào)整模塊,用于在當(dāng)前決策輪次,根據(jù)無人機(jī)存儲(chǔ)的上一決策輪次存儲(chǔ)的決策數(shù)據(jù)以及當(dāng)前獲取的實(shí)時(shí)數(shù)據(jù),對(duì)所述博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整;
19、狀態(tài)跳轉(zhuǎn)邏輯設(shè)置模塊,用于設(shè)置所述分布式?jīng)Q策有限狀態(tài)機(jī)中狀態(tài)跳轉(zhuǎn)規(guī)則;所述狀態(tài)跳轉(zhuǎn)規(guī)則包括:若無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)的狀態(tài)為正常決策者,判斷無人機(jī)與任意任務(wù)目標(biāo)的距離均大于無人機(jī)決策距離閾值,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者;若判斷無人機(jī)短時(shí)決策跳變大于無人機(jī)短時(shí)決策記憶容量乘以無人機(jī)短時(shí)決策容忍跳變率,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為糾結(jié)者;跳轉(zhuǎn)為決策保持者的無人機(jī)若離任意任務(wù)目標(biāo)的距離小于決策距離閾值,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者,處于決策保持者的無人機(jī)若當(dāng)前迷失者狀態(tài)位為1,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離任意任務(wù)目標(biāo)的距離大于決策距離閾值,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離所有任務(wù)目標(biāo)的距離均變大或者變小,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為迷失者的無人機(jī)若所統(tǒng)計(jì)步數(shù)達(dá)到閾值,則迷失者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者;
20、決策輸出模塊,用于處于所述正常決策者和所述糾結(jié)者狀態(tài)的無人機(jī)通過實(shí)時(shí)調(diào)整參數(shù)后的博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行決策輸出,處于所述迷失者的無人機(jī)通過任務(wù)目標(biāo)數(shù)量和預(yù)設(shè)距離內(nèi)無人機(jī)數(shù)量的比較關(guān)系,確定迷失者的最優(yōu)任務(wù)目標(biāo)作為決策輸出,處于所述決策保持者的無人機(jī)保持上一決策輪次的決策。
21、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
22、構(gòu)建無人機(jī)集群中無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)以及博弈決策神經(jīng)網(wǎng)絡(luò);所述分布式?jīng)Q策有限狀態(tài)機(jī)中所述無人機(jī)的狀態(tài)包括:決策保持者、正常決策者、糾結(jié)者以及迷失者;
23、在當(dāng)前決策輪次,根據(jù)無人機(jī)存儲(chǔ)的上一決策輪次存儲(chǔ)的決策數(shù)據(jù)以及當(dāng)前獲取的實(shí)時(shí)數(shù)據(jù),對(duì)所述博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整;
24、設(shè)置所述分布式?jīng)Q策有限狀態(tài)機(jī)中狀態(tài)跳轉(zhuǎn)規(guī)則;所述狀態(tài)跳轉(zhuǎn)規(guī)則包括:若無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)的狀態(tài)為正常決策者,判斷無人機(jī)與任意任務(wù)目標(biāo)的距離均大于無人機(jī)決策距離閾值,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者;若判斷無人機(jī)短時(shí)決策跳變大于無人機(jī)短時(shí)決策記憶容量乘以無人機(jī)短時(shí)決策容忍跳變率,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為糾結(jié)者;跳轉(zhuǎn)為決策保持者的無人機(jī)若離任意任務(wù)目標(biāo)的距離小于決策距離閾值,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者,處于決策保持者的無人機(jī)若當(dāng)前迷失者狀態(tài)位為1,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離任意任務(wù)目標(biāo)的距離大于決策距離閾值,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離所有任務(wù)目標(biāo)的距離均變大或者變小,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為迷失者的無人機(jī)若所統(tǒng)計(jì)步數(shù)達(dá)到閾值,則迷失者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者;
25、處于所述正常決策者和所述糾結(jié)者狀態(tài)的無人機(jī)通過實(shí)時(shí)調(diào)整參數(shù)后的博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行決策輸出,處于所述迷失者的無人機(jī)通過任務(wù)目標(biāo)數(shù)量和預(yù)設(shè)距離內(nèi)無人機(jī)數(shù)量的比較關(guān)系,確定迷失者的最優(yōu)任務(wù)目標(biāo)作為決策輸出,處于所述決策保持者的無人機(jī)保持上一決策輪次的決策。
26、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
27、構(gòu)建無人機(jī)集群中無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)以及博弈決策神經(jīng)網(wǎng)絡(luò);所述分布式?jīng)Q策有限狀態(tài)機(jī)中所述無人機(jī)的狀態(tài)包括:決策保持者、正常決策者、糾結(jié)者以及迷失者;
28、在當(dāng)前決策輪次,根據(jù)無人機(jī)存儲(chǔ)的上一決策輪次存儲(chǔ)的決策數(shù)據(jù)以及當(dāng)前獲取的實(shí)時(shí)數(shù)據(jù),對(duì)所述博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整;
29、設(shè)置所述分布式?jīng)Q策有限狀態(tài)機(jī)中狀態(tài)跳轉(zhuǎn)規(guī)則;所述狀態(tài)跳轉(zhuǎn)規(guī)則包括:若無人機(jī)的分布式?jīng)Q策有限狀態(tài)機(jī)的狀態(tài)為正常決策者,判斷無人機(jī)與任意任務(wù)目標(biāo)的距離均大于無人機(jī)決策距離閾值,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者;若判斷無人機(jī)短時(shí)決策跳變大于無人機(jī)短時(shí)決策記憶容量乘以無人機(jī)短時(shí)決策容忍跳變率,則判斷無人機(jī)的狀態(tài)跳轉(zhuǎn)為糾結(jié)者;跳轉(zhuǎn)為決策保持者的無人機(jī)若離任意任務(wù)目標(biāo)的距離小于決策距離閾值,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者,處于決策保持者的無人機(jī)若當(dāng)前迷失者狀態(tài)位為1,則決策保持者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離任意任務(wù)目標(biāo)的距離大于決策距離閾值,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為決策保持者,跳轉(zhuǎn)為糾結(jié)者的無人機(jī)若離所有任務(wù)目標(biāo)的距離均變大或者變小,則糾結(jié)者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為迷失者,跳轉(zhuǎn)為迷失者的無人機(jī)若所統(tǒng)計(jì)步數(shù)達(dá)到閾值,則迷失者的無人機(jī)的狀態(tài)跳轉(zhuǎn)為正常決策者;
30、處于所述正常決策者和所述糾結(jié)者狀態(tài)的無人機(jī)通過實(shí)時(shí)調(diào)整參數(shù)后的博弈決策神經(jīng)網(wǎng)絡(luò)進(jìn)行決策輸出,處于所述迷失者的無人機(jī)通過任務(wù)目標(biāo)數(shù)量和預(yù)設(shè)距離內(nèi)無人機(jī)數(shù)量的比較關(guān)系,確定迷失者的最優(yōu)任務(wù)目標(biāo)作為決策輸出,處于所述決策保持者的無人機(jī)保持上一決策輪次的決策。
31、上述無人機(jī)集群多目標(biāo)的分布式?jīng)Q策方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),根據(jù)無人機(jī)可能會(huì)面臨的不同目標(biāo)決策場(chǎng)景設(shè)計(jì)了分布式有限狀態(tài)機(jī),設(shè)定了有限狀態(tài)機(jī)的狀態(tài)和跳轉(zhuǎn)條件。另外,構(gòu)建了分布式博弈決策神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)無人機(jī)局部信息下考慮不同決策變量時(shí)候的最優(yōu)目標(biāo)選擇。該網(wǎng)絡(luò)實(shí)現(xiàn)了通過無人機(jī)的環(huán)境信息歷史數(shù)據(jù)以及實(shí)時(shí)觀測(cè)量,實(shí)現(xiàn)局部信息下各個(gè)決策變量權(quán)重系數(shù)的自適應(yīng)調(diào)整。即無人機(jī)即飛即調(diào)參。本發(fā)明實(shí)現(xiàn)了在無通信下無人機(jī)依靠周圍局部信息下的自主決策選擇任務(wù)目標(biāo),能夠靈活應(yīng)用于多種無人機(jī)決策任務(wù)目標(biāo)選擇任務(wù)場(chǎng)景,具有實(shí)機(jī)部署的實(shí)用性。