本發(fā)明屬于移動機器人編隊及避障,具體涉及一種基于多模信息融合的機器人自適應編隊與避障控制方法及系統(tǒng)。
背景技術:
1、伴隨人類社會的不斷發(fā)展,人們對機器人的功能要求也越來越高,面對復雜的任務場景,單個機器人的局限性越來越明顯。人們開始對多機器人的協(xié)同運動進行研究。多機器人協(xié)同系統(tǒng)?;诒姸嘞鄬喴椎臋C器人平臺構建,這些平臺個體間通過局部性的協(xié)作,共同實現(xiàn)整體協(xié)同行為,形成高效的群體系統(tǒng)。多機器人協(xié)同工作,可以在不明顯提高單個機器人系統(tǒng)的復雜度的情況下,通過相互配合,適應更加復雜的環(huán)境,并且很好發(fā)揮個體優(yōu)勢,以良好的整體配合勝任更加復雜的任務。多機器人協(xié)同問題可以被劃分為一致性問題、協(xié)同通信、編隊問題、協(xié)調控制問題和合作決策。其中編隊控制更是多機器人協(xié)同工作領域中廣受關注的話題。編隊控制指多個機器人在共同完成任務的運動過程中,既要保持編隊成員間的幾何隊形約束,同時又要適應環(huán)境變化帶來的制約,進行外部避障和內部避碰的控制問題。編隊控制目的是引導一個智能體團隊,以期望的隊形借助周圍智能體和環(huán)境信息到達目標位置的過程。
2、目前,主要有五種編隊控制方法:基于行為法、虛擬結構法、分布式模型預測控制、基于圖論法和領航跟隨法。領航跟隨法因為其結構簡單、自主性強和高靈活度的可拓展性更適合未知環(huán)境。根據(jù)獲得環(huán)境和相鄰移動機器人信息的方式,將領航跟隨編隊控制方法分為基于全局信息的、基于視覺的以及基于多傳感器融合的?;谌中畔⒌念I航跟隨編隊控制方法具有較高的穩(wěn)定性,能夠實現(xiàn)可靠的編隊管理,防止機器人之間的碰撞導致系統(tǒng)崩潰。盡管如此,此類方法在應用時必須構建一個能夠完整表征全體編隊結構的統(tǒng)一坐標框架,其中須包含各個單體移動機器人位置姿態(tài)的精確表述,以及增設必要的輔助錨點。這造成此類方法實現(xiàn)成本較高并且部署難度大,限制了其應用場景,缺乏靈活性?;谝曈X的領航跟隨編隊控制能夠脫離全局信息約束,具有主動獲取領航者位姿信息、隊形形成自主性強等優(yōu)勢。然而,現(xiàn)有的多機器人圖像信息編隊方法依賴額外添加的特殊標記實現(xiàn)隊形保持與編隊管理。這是由于在編隊管理方面,編隊成員通常具有相同的圖像特征,跟隨者很難完全基于視覺信息區(qū)分領航對象,需要依賴外加標簽協(xié)助劃分編隊中的成員順序。而在隊形保持方面,通常需要標簽數(shù)據(jù)實現(xiàn)跟隨者對領航者的位姿感知,計算運動決策保持成員相對位置。而在編隊保持方面,在復雜的未知實際環(huán)境中,障礙遮擋、環(huán)境噪聲等因素會使得依賴外加標記的視覺編隊方法很難保證編隊穩(wěn)定。編隊成員間距不穩(wěn)定則容易發(fā)生機間碰撞,從而導致整個編隊系統(tǒng)崩潰?;诖耍痉椒▽⑼ㄟ^引入相機、激光雷達和超寬帶傳感器來對環(huán)境進行感知,并對感知內容進行融合,最后通過深度強化學習算法依靠融合內容實現(xiàn)在障礙物場景下的編隊生成、編隊避障和編隊保持。
3、目前的編隊避障方法主要分為基于傳統(tǒng)編隊避障方法和基于深度強化學習的避障方法。傳統(tǒng)編隊避障方法主要通過搭建全局定位平臺,獲取編隊成員位置信息以此進行全局規(guī)劃并估計編隊成員狀態(tài)進行避障控制。傳統(tǒng)編隊避障方法需要針對智能體的模型來設計控制率,并在避障運動中切換固定隊形通過障礙物,這將導致在超出預先設計范圍的復雜未知環(huán)境中編隊避障效果會大打折扣。基于深度強化學習的編隊避障方法是通過深度神經(jīng)網(wǎng)絡擬合對應的編隊避障任務,能夠緩解傳統(tǒng)編隊避障方法中任務難以建模的缺點。本方法不僅需要在靜態(tài)障礙物條件下的任務執(zhí)行過程中保持隊形外,還要在動態(tài)障礙物環(huán)境下具有容錯能力,因此采用基于深度強化學習的編隊避障方法,以此保證編隊系統(tǒng)的穩(wěn)定性和魯棒性。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術中存在的問題,本發(fā)明提供一種基于多模信息融合的機器人自適應編隊與避障控制方法,提出了一種新的基于深度強化強化學習的算法框架與訓練方式,利用多個網(wǎng)絡分擔擬合任務的壓力,即由多個控制網(wǎng)絡聯(lián)合控制多移動機器人運動,旨在解決多移動機器人自適應編隊及避障問題,具有魯棒性高、可移植性強的特點。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術方案是:一種基于多模信息融合的機器人自適應編隊與避障控制方法,包括以下步驟:
3、獲取跟隨者的圖像、周圍環(huán)境雷達數(shù)據(jù)以及距離數(shù)據(jù);
4、構建并訓練深度強化學習網(wǎng)絡,包括編隊控制網(wǎng)絡和抗追蹤網(wǎng)絡,所述編隊控制網(wǎng)絡用于提取預處理后融合數(shù)據(jù)的特征,并根據(jù)融合數(shù)據(jù)的特征輸出編隊控制動作,抗追蹤網(wǎng)絡用于訓練領航者的反跟蹤能力;
5、基于訓練后的深度強化學習網(wǎng)絡提取預處理信息中移動機器人的運動特征、距離特征及動態(tài)障礙物時序特征,輸出移動機器人可執(zhí)行的最優(yōu)編隊運動決策;
6、根據(jù)移動機器人的最優(yōu)編隊運動決策,確定移動機器人的編隊運動控制指令;
7、執(zhí)行編隊運動控制指令,控制移動機器人隊形形成及編隊避障。
8、進一步的,獲取跟隨者的圖像、周圍環(huán)境雷達數(shù)據(jù)以及距離數(shù)據(jù)包括:移動機器人機載攝像機獲取跟隨者的圖像,對所述圖像進行降維、壓縮和堆疊處理;激光雷達獲取周圍環(huán)境雷達數(shù)據(jù),對周圍環(huán)境雷達數(shù)據(jù)進行定步長采樣,獲取設定數(shù)量的數(shù)據(jù);對uwb傳感器獲取的距離數(shù)據(jù)進行中值濾波。
9、進一步的,融合后的數(shù)據(jù)作為編隊控制網(wǎng)絡和抗追蹤網(wǎng)絡的輸入,編隊控制網(wǎng)絡分別輸出移動機器人的運動方向aot和速度變化量avt,移動機器人執(zhí)行動作后,收到新的狀態(tài)信息和獎勵信息。
10、進一步的,編隊控制網(wǎng)絡包括輸入層、cnn層、lstm層、時間注意力層和輸出層,lstm層負責處理時間序列數(shù)據(jù)的建模,將歷史觀測序列編碼為固定長度的向量表示,時間注意力機制用于加權l(xiāng)stm輸出序列中的不同時間步,對所述向量表示進行值函數(shù)估計和動作選擇,通過反向傳播算法進行優(yōu)化,最大化累積獎勵或最小化q值估計與目標q值之間的差異。
11、進一步的,訓練編隊控制網(wǎng)絡和抗追蹤網(wǎng)絡包括:階段1,隨機初始化編隊控制網(wǎng)絡參數(shù),對各個傳感器獲得的數(shù)據(jù)進行預處理并進行融合編碼作為狀態(tài)變量,用編隊控制網(wǎng)絡所得值函數(shù)為各動作進行評分,依據(jù)ε-greedy策略選擇下一步動作并執(zhí)行,進入新的狀態(tài),滿足終止條件則完成此次訓練否則繼續(xù)執(zhí)行,將(sf(t),a(t),r(t),sf(t+1))四元數(shù)存儲到跟隨者經(jīng)驗回放池中,當跟隨者的經(jīng)驗回放池積累設定量的經(jīng)驗后,啟動網(wǎng)絡訓練進行參數(shù)更新;
12、階段2,以階段1結束時的編隊控制網(wǎng)絡權重初始化抗追蹤智能體,訓練開始時領航者的經(jīng)驗回放池沒有樣本,當存放樣本數(shù)超過設定量進行網(wǎng)絡的訓練,經(jīng)驗回放池存放(st,a2t,r2t,st+1),將其中st和st+1作為抗追蹤網(wǎng)絡的輸入,計算q(st;ω)和q(st+1;ω)以及選擇a2t所對應的q(st,a2t;ω),依據(jù)最大q值選擇其所對應的動作,最后計算當前時刻的狀態(tài)動作價值函數(shù)y2(t)和領航者智能體的損失函數(shù)loss2(ω),使用adma優(yōu)化器優(yōu)化網(wǎng)絡參數(shù);
13、階段3,抗追蹤網(wǎng)絡與編隊控制網(wǎng)絡訓練方法與其優(yōu)化器不變,在訓練場景中除了靜態(tài)障礙物之外加入動態(tài)障礙物,動態(tài)障礙物的運行軌跡為正方形,正方形軌跡的中心為跟隨者每回合訓練的初始化位置,領航者的初始位置在矩形之外,跟隨者每回合需避開動態(tài)障礙物才能抵達目標獲得正獎勵。
14、進一步的,網(wǎng)絡訓練進行參數(shù)更新包括:
15、從經(jīng)驗回放池中隨機采樣一組(sf(t),a1(t),r1(t),sf(t+1));
16、利用編隊控制網(wǎng)絡計算狀態(tài)價值函數(shù)q(s(t);ω)和q(s(t+1);ω),并根據(jù)實際執(zhí)行的動作計算出相應的動作價值函數(shù)值和;
17、基于最大價值動作策略,選擇得分最高的動作,得到最大動作價值函數(shù)值maxa(t+1)q(s(t+1),a1(t+1);ω);
18、利用折扣因子γ和環(huán)境給出的即時獎賞,可以計算時刻的狀態(tài)動作價值函數(shù)值y1(t),具體計算方式為:
19、
20、編隊控制網(wǎng)絡的損失函數(shù)loss1(ω)為:
21、loss1(ω)=e[(q((t),a1(t);ω)-y1(t))2]
22、采用adma優(yōu)化器進行網(wǎng)絡參數(shù)更新,在訓練得分達到最大訓練得分的80%時,領航跟隨編隊控制網(wǎng)絡已初步具備在靜態(tài)障礙物環(huán)境中發(fā)現(xiàn)并接近領航者的能力。
23、進一步的,移動機器人的運動特征包括移動機器人的輪廓特征、形狀特征和位置變化特征;移動機器人的距離特征包括該移動機器人與前方所有移動機器人的距離特征;動態(tài)障礙物變化特征包括動態(tài)障礙物的輪廓特征和位置變化特征。
24、進一步的,編隊控制網(wǎng)絡輸出狀態(tài)動作價值函數(shù),其對應的編隊控制動作at為:ar,af,al;其中,ar,af,al代表的方向分別是向右轉、直行、向左轉,編隊控制動作具體如下式:
25、at=[arafa3l]
26、采用動作選擇策略,根據(jù)狀態(tài)動作價值函數(shù)估計的動作評價選擇編隊控制動作的最優(yōu)動作at。
27、第二方面,基于所述方法的構思,本發(fā)明還提供一種基于多模信息融合的機器人自適應編隊與避障控制系統(tǒng),包括:數(shù)據(jù)處理模塊、特征提取模塊、控制指令輸出模塊以及控制模塊;數(shù)據(jù)處理模塊用于對移動機器人獲取的圖像數(shù)據(jù)、雷達數(shù)據(jù)和距離數(shù)據(jù)進行預處理;特征提取模塊,用于采用訓練后的深度強化學習網(wǎng)絡提取融合數(shù)據(jù)中移動機器人的運動特征、距離特征及動態(tài)障礙物變化特征,并輸出移動機器人的最優(yōu)編隊運動決策;控制指令輸出模塊,用于根據(jù)移動機器人的最優(yōu)編隊運動決策,確定移動機器人的編隊運動控制指令;控制模塊,用于根據(jù)編隊運動控制指令控制移動機器人隊形形成及編隊避障。
28、第三方面,本發(fā)明提供一種機器人編隊,基于上述基于多模信息融合的機器人自適應編隊與避障控制方法編隊移動。
29、與現(xiàn)有技術相比,本發(fā)明至少具有以下有益效果:本發(fā)明公開了一種基于多模信息融合的機器人自適應編隊與避障控制方法,實現(xiàn)了無全局數(shù)據(jù)與地圖信息缺失條件下的機器人自適應編隊與避障;采用視覺、激光雷達和uwb傳感器分別獲取視覺數(shù)據(jù)、雷達數(shù)據(jù)和距離數(shù)據(jù),根據(jù)融合數(shù)據(jù)提取移動機器人的運動特征、距離特征及動態(tài)障礙物變化特征;根據(jù)移動機器人的感知結果,直接生成移動機器人的運動方向和運動速度等控制指令,實現(xiàn)在無全局信息環(huán)境下移動機器人編隊及避障任務;該方法將基于深度強化學習的多控制網(wǎng)絡協(xié)同控制與長短期記憶網(wǎng)絡和注意力機制相結合,使移動機器人在不受人工干預的情況下,自主完成無全局信息環(huán)境下機器人自適應編隊與避障任務,極大的提升了移動機器人的自主性和智能性。