本發(fā)明涉及機(jī)器人避障,尤其涉及一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng)。
背景技術(shù):
1、目前廣泛使用的機(jī)器人裝配和避障技術(shù)依賴于深度強(qiáng)化學(xué)習(xí)(drl)。這些技術(shù)通過(guò)大量的環(huán)境交互和數(shù)據(jù)積累,逐步學(xué)習(xí)完成任務(wù)的策略。例如,使用強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人能夠通過(guò)不斷嘗試和錯(cuò)誤來(lái)優(yōu)化其路徑選擇和物體操作策略,從而在有障礙的環(huán)境中實(shí)現(xiàn)有效的避障和精確的裝配。這些方法主要依賴于大量的交互數(shù)據(jù)和長(zhǎng)時(shí)間的訓(xùn)練周期,通過(guò)逐步學(xué)習(xí)環(huán)境特征和任務(wù)策略來(lái)適應(yīng)復(fù)雜場(chǎng)景,然而,相關(guān)技術(shù)中,存在的一些不足,如訓(xùn)練時(shí)間長(zhǎng),drl通常需要長(zhǎng)時(shí)間的訓(xùn)練才能達(dá)到工業(yè)使用的穩(wěn)定性和效率;數(shù)據(jù)依賴性強(qiáng),有效的drl策略需要大量的環(huán)境交互數(shù)據(jù),這在實(shí)際應(yīng)用中往往是不可行的;環(huán)境適應(yīng)性差,當(dāng)機(jī)器人從一個(gè)訓(xùn)練環(huán)境轉(zhuǎn)移到實(shí)際的生產(chǎn)環(huán)境時(shí),由于環(huán)境差異可能導(dǎo)致性能顯著下降。
2、綜上,相關(guān)技術(shù)中存在的技術(shù)問(wèn)題有待得到改善。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng),能夠提高機(jī)器人的操作安全性和生產(chǎn)效率,減少了碰撞和故障的風(fēng)險(xiǎn)。
2、本發(fā)明所采用的第一技術(shù)方案是:一種基于智能跨域策略遷移的機(jī)器人裝配避障方法,包括以下步驟:
3、構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景,所述源環(huán)境場(chǎng)景表示無(wú)障礙的仿真環(huán)境,所述目標(biāo)環(huán)境場(chǎng)景表示有障礙的仿真環(huán)境;
4、基于源環(huán)境場(chǎng)景,通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制,對(duì)機(jī)器人進(jìn)行三維裝配操作,構(gòu)建近似最優(yōu)源域策略;
5、基于目標(biāo)環(huán)境場(chǎng)景,對(duì)近似最優(yōu)源域策略進(jìn)行遷移,并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略;
6、將最優(yōu)目標(biāo)域策略部署于機(jī)器人控制平臺(tái),完成機(jī)器人三維裝配避障操作。
7、進(jìn)一步,所述基于源環(huán)境場(chǎng)景,通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制,對(duì)機(jī)器人進(jìn)行三維裝配操作,構(gòu)建近似最優(yōu)源域策略這一步驟,其具體包括:
8、基于深度強(qiáng)化學(xué)習(xí)策略,初始化策略網(wǎng)絡(luò)、值函數(shù)與經(jīng)驗(yàn)回放緩沖區(qū);
9、基于源環(huán)境場(chǎng)景,采集機(jī)器人三維裝配操作數(shù)據(jù)并存儲(chǔ)至經(jīng)驗(yàn)回放緩沖區(qū);
10、基于演員-評(píng)論家架構(gòu)算法,設(shè)定最大熵目標(biāo),通過(guò)最大化累計(jì)最大熵目標(biāo)的期望值,對(duì)經(jīng)驗(yàn)回放緩沖區(qū)中的機(jī)器人三維裝配操作數(shù)據(jù)進(jìn)行隨機(jī)更新,得到隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù);
11、設(shè)置稀疏獎(jiǎng)勵(lì)機(jī)制,獲取隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù)的獎(jiǎng)勵(lì)激勵(lì)并對(duì)經(jīng)驗(yàn)回放緩沖區(qū)進(jìn)行更新;
12、通過(guò)her算法對(duì)隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù)進(jìn)行標(biāo)記處理,得到標(biāo)記后的機(jī)器人三維裝配操作數(shù)據(jù);
13、根據(jù)標(biāo)記后的機(jī)器人三維裝配操作數(shù)據(jù)對(duì)策略網(wǎng)絡(luò)與值函數(shù)進(jìn)行更新,直至策略網(wǎng)絡(luò)與值函數(shù)滿足預(yù)設(shè)要求,構(gòu)建近似最優(yōu)源域策略。
14、進(jìn)一步,所述最大化累計(jì)最大熵目標(biāo)的期望值的表達(dá)式具體如下所示:
15、;
16、上式中,表示最大熵目標(biāo)的期望值,表示立即回報(bào)項(xiàng),量化了環(huán)境的即時(shí)反饋,表示熵回報(bào)項(xiàng),表示溫度參數(shù),用來(lái)調(diào)整熵項(xiàng)的權(quán)重,控制探索與利用之間的權(quán)衡,表示在狀態(tài)-動(dòng)作分布上的期望值,是按照策略生成的狀態(tài)-動(dòng)作對(duì)的分布,表示在時(shí)間步的環(huán)境狀態(tài),表示在時(shí)間步由智能體采取的動(dòng)作,表示策略,即狀態(tài)到動(dòng)作分布的映射,用于定義智能體的行為,表示總時(shí)間范圍、考慮的整個(gè)回合軌跡的時(shí)間步數(shù),表示在0到范圍內(nèi)的具體時(shí)間步。
17、進(jìn)一步,所述基于目標(biāo)環(huán)境場(chǎng)景,對(duì)近似最優(yōu)源域策略進(jìn)行遷移,并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略這一步驟,其具體包括:
18、考慮目標(biāo)環(huán)境場(chǎng)景與源環(huán)境場(chǎng)景的差異性,將近似最優(yōu)源域策略進(jìn)行遷移,構(gòu)建目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略;
19、通過(guò)動(dòng)態(tài)策略依賴方法,對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理,得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略;
20、基于更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略,結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略。
21、進(jìn)一步,所述考慮目標(biāo)環(huán)境場(chǎng)景與源環(huán)境場(chǎng)景的差異性,將近似最優(yōu)源域策略進(jìn)行遷移,構(gòu)建目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略這一步驟,其具體包括:
22、定義目標(biāo)環(huán)境場(chǎng)景的目標(biāo)域與源環(huán)境場(chǎng)景的源域;
23、獲取源域的外部知識(shí)與目標(biāo)域的內(nèi)部知識(shí);
24、通過(guò)將源域的外部知識(shí)與目標(biāo)域的內(nèi)部知識(shí)進(jìn)行融合,對(duì)近似最優(yōu)源域策略進(jìn)行遷移,得到目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略。
25、進(jìn)一步,所述目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的表達(dá)式具體如下所示:
26、;
27、上式中,表示目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略,為狀態(tài)-動(dòng)作值函數(shù)或函數(shù),在策略下,在狀態(tài)采取動(dòng)作時(shí)的預(yù)期累積回報(bào),表示在狀態(tài)分布和策略下的期望值,表示從初始狀態(tài)到第步的狀態(tài)分布,旨在最大化函數(shù)的期望值,表示當(dāng)前的環(huán)境狀態(tài),表示智能體在狀態(tài)下選擇的動(dòng)作。
28、進(jìn)一步,所述通過(guò)動(dòng)態(tài)策略依賴方法,對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理,得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略這一步驟,其具體包括:
29、通過(guò)近似最優(yōu)源域策略的在線評(píng)論家網(wǎng)絡(luò)與目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的在線評(píng)論家網(wǎng)絡(luò),對(duì)給定的機(jī)器人動(dòng)作與狀態(tài)進(jìn)行評(píng)估,獲取源域q值與目標(biāo)域q值;
30、將源域q值與目標(biāo)域q值進(jìn)行整合,得到綜合評(píng)價(jià)網(wǎng)絡(luò)q值;
31、根據(jù)綜合評(píng)價(jià)網(wǎng)絡(luò)q值定義最優(yōu)機(jī)器人動(dòng)作,并通過(guò)bellman方程獲取最優(yōu)機(jī)器人動(dòng)作的價(jià)值預(yù)期q值;
32、基于價(jià)值預(yù)期q值對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理,得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略。
33、進(jìn)一步,所述基于更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略,結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略這一步驟,其具體包括:
34、構(gòu)建目標(biāo)域狀態(tài)向量,所述目標(biāo)域狀態(tài)向量包括機(jī)器人的狀態(tài)信息與障礙物的狀態(tài)信息;
35、將目標(biāo)域狀態(tài)向量輸入至更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行評(píng)估當(dāng)前狀態(tài)和動(dòng)作的價(jià)值;
36、通過(guò)策略梯度方法,結(jié)合當(dāng)前狀態(tài)和動(dòng)作的價(jià)值進(jìn)行目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的參數(shù)更新,最大化期望回報(bào),構(gòu)建最優(yōu)目標(biāo)域策略。
37、本發(fā)明所采用的第二技術(shù)方案是:一種基于智能跨域策略遷移的機(jī)器人裝配避障系統(tǒng),包括:
38、第一模塊,用于構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景,所述源環(huán)境場(chǎng)景表示無(wú)障礙的仿真環(huán)境,所述目標(biāo)環(huán)境場(chǎng)景表示有障礙的仿真環(huán)境;
39、第二模塊,用于基于源環(huán)境場(chǎng)景,通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制,對(duì)機(jī)器人進(jìn)行三維裝配操作,構(gòu)建近似最優(yōu)源域策略;
40、第三模塊,用于基于目標(biāo)環(huán)境場(chǎng)景,對(duì)近似最優(yōu)源域策略進(jìn)行遷移,并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略;
41、第四模塊,用于將最優(yōu)目標(biāo)域策略部署于機(jī)器人控制平臺(tái),完成機(jī)器人三維裝配避障操作。
42、本發(fā)明方法及系統(tǒng)的有益效果是:本發(fā)明通過(guò)構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景,基于源環(huán)境場(chǎng)景,通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制,對(duì)機(jī)器人進(jìn)行三維裝配操作,構(gòu)建近似最優(yōu)源域策略,通過(guò)深度強(qiáng)化學(xué)習(xí)策略鼓勵(lì)策略更廣泛地探索環(huán)境,防止過(guò)早收斂到局部最優(yōu),結(jié)合稀疏獎(jiǎng)勵(lì)機(jī)制,其中獎(jiǎng)勵(lì)僅在成功完成裝配任務(wù)時(shí)授予,這種獎(jiǎng)勵(lì)設(shè)置激勵(lì)代理專注于實(shí)現(xiàn)任務(wù)的關(guān)鍵目標(biāo),而不是在過(guò)程中追求無(wú)關(guān)的中間狀態(tài),加速深度強(qiáng)化學(xué)習(xí)策略的有效收斂,基于目標(biāo)環(huán)境場(chǎng)景,對(duì)近似最優(yōu)源域策略進(jìn)行遷移,并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作,構(gòu)建最優(yōu)目標(biāo)域策略,在遷移過(guò)程中通過(guò)共享策略動(dòng)作空間的特征,并考慮源環(huán)境與目標(biāo)環(huán)境在觀測(cè)空間上的差異,通過(guò)調(diào)整觀測(cè)空間以捕捉更多的關(guān)鍵信息,從而提升模型在新環(huán)境中的表現(xiàn),進(jìn)而提高機(jī)器人在面對(duì)環(huán)境變化時(shí)的反應(yīng)速度和準(zhǔn)確性,提高了機(jī)器人的操作安全性和生產(chǎn)效率,減少了碰撞和故障的風(fēng)險(xiǎn)。