本發(fā)明涉及固定翼無人機(jī)控制領(lǐng)域,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法及裝置。
背景技術(shù):
1、固定翼無人機(jī)因其具有較高飛行速度和較長飛行距離的特點(diǎn)受到高度關(guān)注。面對(duì)日益復(fù)雜的環(huán)境,單個(gè)無人機(jī)已難以滿足任務(wù)需求,因此需要多無人機(jī)協(xié)同,故本發(fā)明聚焦于固定翼無人機(jī)的協(xié)同編隊(duì)控制。
2、傳統(tǒng)的編隊(duì)控制方法,如pid控制和lqr控制,難以應(yīng)對(duì)固定翼無人機(jī)在復(fù)雜環(huán)境中的動(dòng)態(tài)變化。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,解決現(xiàn)有技術(shù)中固定翼無人機(jī)在連續(xù)空間的復(fù)雜條件下編隊(duì)控制困難的問題,提高編隊(duì)的穩(wěn)定性和效率。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,包括以下步驟:
4、s1:建立固定翼無人機(jī)運(yùn)動(dòng)學(xué)模型,構(gòu)建無人機(jī)仿真訓(xùn)練環(huán)境,對(duì)于輸入給模型的控制指令,通過底層pid控制器完成閉環(huán)控制;
5、s2:通過深度神經(jīng)網(wǎng)絡(luò)構(gòu)建actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò);
6、s3:跟隨無人機(jī)和領(lǐng)航無人機(jī)分別收集各自的狀態(tài)信息,包括位置、速度、航跡角、航向角和剩余燃料比信息,形成聯(lián)合狀態(tài)空間;跟隨無人機(jī)依據(jù)其控制指令輸出傾側(cè)角構(gòu)建動(dòng)作空間;
7、s4:根據(jù)無人機(jī)的特點(diǎn)以及編隊(duì)任務(wù)設(shè)計(jì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù),以引導(dǎo)無人機(jī)獲得最大獎(jiǎng)勵(lì);
8、s5:在無人機(jī)與環(huán)境交互的過程中,利用歷史數(shù)據(jù)不斷更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù),從而訓(xùn)練形成最終的actor網(wǎng)絡(luò)模型;所述歷史數(shù)據(jù)包括當(dāng)前狀態(tài)、所執(zhí)行的動(dòng)作、動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)以及執(zhí)行動(dòng)作后達(dá)到的下一狀態(tài);
9、s6:在執(zhí)行飛行任務(wù)時(shí),跟隨無人機(jī)實(shí)時(shí)收集自身和領(lǐng)航無人機(jī)的當(dāng)前狀態(tài)信息,并組合成聯(lián)合狀態(tài),將所述聯(lián)合狀態(tài)輸入到所述最終的actor網(wǎng)絡(luò)模型,生成跟隨無人機(jī)的傾側(cè)角控制指令。
10、本發(fā)明根據(jù)固定翼無人機(jī)的特點(diǎn)以及編隊(duì)任務(wù),設(shè)計(jì)了一套符合固定翼無人機(jī)編隊(duì)的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。該函數(shù)包括五個(gè)部分:速度矢量對(duì)準(zhǔn)獎(jiǎng)勵(lì)函數(shù):驅(qū)動(dòng)編隊(duì)成員速度矢量快速對(duì)準(zhǔn)期望幾何構(gòu)型點(diǎn);距離獎(jiǎng)勵(lì)函數(shù):驅(qū)動(dòng)編隊(duì)成員快速向期望位置靠攏,當(dāng)編隊(duì)成員距離期望空間位置更近,則給無人機(jī)施加正向獎(jiǎng)勵(lì),反之,施加負(fù)獎(jiǎng)勵(lì);航向角獎(jiǎng)勵(lì)函數(shù):為進(jìn)一步減小隊(duì)形形成時(shí)間,對(duì)跟隨無人機(jī)速度矢量方向角進(jìn)行約束,使得跟隨無人機(jī)速度矢量與領(lǐng)航無人機(jī)速度矢量保持一致,進(jìn)而形成穩(wěn)定編隊(duì);過程獎(jiǎng)勵(lì)函數(shù):用于對(duì)無人機(jī)過程狀態(tài)變量進(jìn)行約束;能量消耗獎(jiǎng)勵(lì)函數(shù):能量消耗獎(jiǎng)勵(lì)函數(shù)用于對(duì)編隊(duì)形成過程中的能量消耗進(jìn)行優(yōu)化。
11、本發(fā)明考慮實(shí)際情況中固定翼無人機(jī)在執(zhí)行任務(wù)時(shí)攜帶的燃料是有限的,故本發(fā)明在構(gòu)建無人機(jī)強(qiáng)化學(xué)習(xí)算法時(shí)將剩余燃料比作為狀態(tài)輸入的一部分,同時(shí)在獎(jiǎng)勵(lì)函數(shù)中也針對(duì)剩余燃料的狀態(tài)設(shè)計(jì)了獎(jiǎng)懲機(jī)制,以此對(duì)算法進(jìn)行訓(xùn)練,可以讓無人機(jī)在編隊(duì)過程中達(dá)到既能節(jié)省燃料的同時(shí)又能輸出最佳控制指令的效果。
12、本發(fā)明同時(shí)提供了一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制裝置,包括:
13、學(xué)習(xí)訓(xùn)練模塊:建立固定翼無人機(jī)的運(yùn)動(dòng)學(xué)模型,通過深度神經(jīng)網(wǎng)絡(luò)構(gòu)建actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),并在跟隨無人機(jī)與環(huán)境交互的過程中,利用歷史數(shù)據(jù)不斷更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù),從而訓(xùn)練形成最終的actor網(wǎng)絡(luò)模型;這些歷史數(shù)據(jù)包括當(dāng)前狀態(tài)、所執(zhí)行的動(dòng)作、動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì),以及執(zhí)行動(dòng)作后達(dá)到的下一狀態(tài);在交互過程中,跟隨無人機(jī)收集自身和領(lǐng)航無人機(jī)的當(dāng)前狀態(tài)信息,形成聯(lián)合狀態(tài);actor網(wǎng)絡(luò)根據(jù)該聯(lián)合狀態(tài)輸出跟隨無人機(jī)的控制指令,并通過固定翼無人機(jī)的運(yùn)動(dòng)學(xué)模型計(jì)算各無人機(jī)在下一時(shí)刻的狀態(tài);
14、任務(wù)執(zhí)行模塊:在執(zhí)行飛行任務(wù)時(shí),跟隨無人機(jī)實(shí)時(shí)收集自身和領(lǐng)航無人機(jī)的當(dāng)前狀態(tài)信息,并組合成聯(lián)合狀態(tài),輸入到經(jīng)過訓(xùn)練的actor網(wǎng)絡(luò)模型中,由該actor網(wǎng)絡(luò)模型基于實(shí)時(shí)獲取的聯(lián)合狀態(tài)生成各跟隨無人機(jī)的控制指令,調(diào)整其傾側(cè)角。
15、本發(fā)明通過在固定翼無人機(jī)編隊(duì)任務(wù)中,由各跟隨無人機(jī)知道自己以及領(lǐng)航無人機(jī)的狀態(tài)信息,跟隨無人機(jī)再根據(jù)自身actor網(wǎng)絡(luò)輸出的控制指令,實(shí)現(xiàn)編隊(duì)的形成和保持。該方法在連續(xù)狀態(tài)和動(dòng)作空間解決了leader-follower拓?fù)湎碌墓潭ㄒ頍o人機(jī)編隊(duì)問題,提高了無人機(jī)執(zhí)行任務(wù)的智能性和靈活性。
16、本發(fā)明通過集成多機(jī)編隊(duì)協(xié)同任務(wù)的感知和控制、無人機(jī)模型與環(huán)境擾動(dòng)的結(jié)合、actor與critic網(wǎng)絡(luò)的構(gòu)建以及完善的回報(bào)函數(shù)設(shè)計(jì),構(gòu)建了一種基于深度強(qiáng)化學(xué)習(xí)的高效、安全和靈活的固定翼無人機(jī)編隊(duì)控制方法。其特點(diǎn)和優(yōu)勢在于無需依賴精確模型即可實(shí)現(xiàn)高效的編隊(duì)控制,能夠適應(yīng)不同規(guī)模的編隊(duì)任務(wù),并顯著提高了控制策略的可遷移性。
1.一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s1中所述固定翼無人機(jī)運(yùn)動(dòng)學(xué)模型如下:
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,所述pid控制器由比例、積分和微分三個(gè)部分組成,其控制輸出c(t)代表無人機(jī)真實(shí)值,計(jì)算公式如下:
4.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s2中所述actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的構(gòu)建過程如下:
5.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s3中飛所述行器構(gòu)建聯(lián)合狀態(tài)空間和動(dòng)作空間的具體方法為:
6.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s4中所述獎(jiǎng)勵(lì)函數(shù)的形式如下:
7.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s5中所述無人機(jī)從歷史數(shù)據(jù)中不斷更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的方法為:
8.根據(jù)權(quán)利要求7所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,為所述控制器輸出動(dòng)作加上干擾,干擾服從零均值正態(tài)分布,為σγ為標(biāo)準(zhǔn)差。
9.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制方法,其特征在于,s6中所述無人機(jī)在任務(wù)執(zhí)行時(shí)的具體方法為:
10.一種基于深度強(qiáng)化學(xué)習(xí)的固定翼無人機(jī)編隊(duì)控制裝置,其特征在于,包括: