一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng)

文檔序號(hào)：40405188發(fā)布日期：2024-12-20 12:28閱讀：6來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>五金工具產(chǎn)品及配附件制造技術(shù)

本發(fā)明涉及機(jī)器人避障，尤其涉及一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng)。

背景技術(shù)：

1、目前廣泛使用的機(jī)器人裝配和避障技術(shù)依賴于深度強(qiáng)化學(xué)習(xí)（drl）。這些技術(shù)通過(guò)大量的環(huán)境交互和數(shù)據(jù)積累，逐步學(xué)習(xí)完成任務(wù)的策略。例如，使用強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人能夠通過(guò)不斷嘗試和錯(cuò)誤來(lái)優(yōu)化其路徑選擇和物體操作策略，從而在有障礙的環(huán)境中實(shí)現(xiàn)有效的避障和精確的裝配。這些方法主要依賴于大量的交互數(shù)據(jù)和長(zhǎng)時(shí)間的訓(xùn)練周期，通過(guò)逐步學(xué)習(xí)環(huán)境特征和任務(wù)策略來(lái)適應(yīng)復(fù)雜場(chǎng)景，然而，相關(guān)技術(shù)中，存在的一些不足，如訓(xùn)練時(shí)間長(zhǎng)，drl通常需要長(zhǎng)時(shí)間的訓(xùn)練才能達(dá)到工業(yè)使用的穩(wěn)定性和效率；數(shù)據(jù)依賴性強(qiáng)，有效的drl策略需要大量的環(huán)境交互數(shù)據(jù)，這在實(shí)際應(yīng)用中往往是不可行的；環(huán)境適應(yīng)性差，當(dāng)機(jī)器人從一個(gè)訓(xùn)練環(huán)境轉(zhuǎn)移到實(shí)際的生產(chǎn)環(huán)境時(shí)，由于環(huán)境差異可能導(dǎo)致性能顯著下降。

2、綜上，相關(guān)技術(shù)中存在的技術(shù)問(wèn)題有待得到改善。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題，本發(fā)明的目的是提供一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng)，能夠提高機(jī)器人的操作安全性和生產(chǎn)效率，減少了碰撞和故障的風(fēng)險(xiǎn)。

2、本發(fā)明所采用的第一技術(shù)方案是：一種基于智能跨域策略遷移的機(jī)器人裝配避障方法，包括以下步驟：

3、構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景，所述源環(huán)境場(chǎng)景表示無(wú)障礙的仿真環(huán)境，所述目標(biāo)環(huán)境場(chǎng)景表示有障礙的仿真環(huán)境；

4、基于源環(huán)境場(chǎng)景，通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制，對(duì)機(jī)器人進(jìn)行三維裝配操作，構(gòu)建近似最優(yōu)源域策略；

5、基于目標(biāo)環(huán)境場(chǎng)景，對(duì)近似最優(yōu)源域策略進(jìn)行遷移，并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略；

6、將最優(yōu)目標(biāo)域策略部署于機(jī)器人控制平臺(tái)，完成機(jī)器人三維裝配避障操作。

7、進(jìn)一步，所述基于源環(huán)境場(chǎng)景，通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制，對(duì)機(jī)器人進(jìn)行三維裝配操作，構(gòu)建近似最優(yōu)源域策略這一步驟，其具體包括：

8、基于深度強(qiáng)化學(xué)習(xí)策略，初始化策略網(wǎng)絡(luò)、值函數(shù)與經(jīng)驗(yàn)回放緩沖區(qū)；

9、基于源環(huán)境場(chǎng)景，采集機(jī)器人三維裝配操作數(shù)據(jù)并存儲(chǔ)至經(jīng)驗(yàn)回放緩沖區(qū)；

10、基于演員-評(píng)論家架構(gòu)算法，設(shè)定最大熵目標(biāo)，通過(guò)最大化累計(jì)最大熵目標(biāo)的期望值，對(duì)經(jīng)驗(yàn)回放緩沖區(qū)中的機(jī)器人三維裝配操作數(shù)據(jù)進(jìn)行隨機(jī)更新，得到隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù)；

11、設(shè)置稀疏獎(jiǎng)勵(lì)機(jī)制，獲取隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù)的獎(jiǎng)勵(lì)激勵(lì)并對(duì)經(jīng)驗(yàn)回放緩沖區(qū)進(jìn)行更新；

12、通過(guò)her算法對(duì)隨機(jī)更新后的機(jī)器人三維裝配操作數(shù)據(jù)進(jìn)行標(biāo)記處理，得到標(biāo)記后的機(jī)器人三維裝配操作數(shù)據(jù)；

13、根據(jù)標(biāo)記后的機(jī)器人三維裝配操作數(shù)據(jù)對(duì)策略網(wǎng)絡(luò)與值函數(shù)進(jìn)行更新，直至策略網(wǎng)絡(luò)與值函數(shù)滿足預(yù)設(shè)要求，構(gòu)建近似最優(yōu)源域策略。

14、進(jìn)一步，所述最大化累計(jì)最大熵目標(biāo)的期望值的表達(dá)式具體如下所示：

15、；

16、上式中，表示最大熵目標(biāo)的期望值，表示立即回報(bào)項(xiàng)，量化了環(huán)境的即時(shí)反饋，表示熵回報(bào)項(xiàng)，表示溫度參數(shù)，用來(lái)調(diào)整熵項(xiàng)的權(quán)重，控制探索與利用之間的權(quán)衡，表示在狀態(tài)-動(dòng)作分布上的期望值，是按照策略生成的狀態(tài)-動(dòng)作對(duì)的分布，表示在時(shí)間步的環(huán)境狀態(tài)，表示在時(shí)間步由智能體采取的動(dòng)作，表示策略，即狀態(tài)到動(dòng)作分布的映射，用于定義智能體的行為，表示總時(shí)間范圍、考慮的整個(gè)回合軌跡的時(shí)間步數(shù)，表示在0到范圍內(nèi)的具體時(shí)間步。

17、進(jìn)一步，所述基于目標(biāo)環(huán)境場(chǎng)景，對(duì)近似最優(yōu)源域策略進(jìn)行遷移，并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略這一步驟，其具體包括：

18、考慮目標(biāo)環(huán)境場(chǎng)景與源環(huán)境場(chǎng)景的差異性，將近似最優(yōu)源域策略進(jìn)行遷移，構(gòu)建目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略；

19、通過(guò)動(dòng)態(tài)策略依賴方法，對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理，得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略；

20、基于更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略，結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略。

21、進(jìn)一步，所述考慮目標(biāo)環(huán)境場(chǎng)景與源環(huán)境場(chǎng)景的差異性，將近似最優(yōu)源域策略進(jìn)行遷移，構(gòu)建目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略這一步驟，其具體包括：

22、定義目標(biāo)環(huán)境場(chǎng)景的目標(biāo)域與源環(huán)境場(chǎng)景的源域；

23、獲取源域的外部知識(shí)與目標(biāo)域的內(nèi)部知識(shí)；

24、通過(guò)將源域的外部知識(shí)與目標(biāo)域的內(nèi)部知識(shí)進(jìn)行融合，對(duì)近似最優(yōu)源域策略進(jìn)行遷移，得到目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略。

25、進(jìn)一步，所述目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的表達(dá)式具體如下所示：

26、；

27、上式中，表示目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略，為狀態(tài)-動(dòng)作值函數(shù)或函數(shù)，在策略下，在狀態(tài)采取動(dòng)作時(shí)的預(yù)期累積回報(bào)，表示在狀態(tài)分布和策略下的期望值，表示從初始狀態(tài)到第步的狀態(tài)分布，旨在最大化函數(shù)的期望值，表示當(dāng)前的環(huán)境狀態(tài)，表示智能體在狀態(tài)下選擇的動(dòng)作。

28、進(jìn)一步，所述通過(guò)動(dòng)態(tài)策略依賴方法，對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理，得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略這一步驟，其具體包括：

29、通過(guò)近似最優(yōu)源域策略的在線評(píng)論家網(wǎng)絡(luò)與目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的在線評(píng)論家網(wǎng)絡(luò)，對(duì)給定的機(jī)器人動(dòng)作與狀態(tài)進(jìn)行評(píng)估，獲取源域q值與目標(biāo)域q值；

30、將源域q值與目標(biāo)域q值進(jìn)行整合，得到綜合評(píng)價(jià)網(wǎng)絡(luò)q值；

31、根據(jù)綜合評(píng)價(jià)網(wǎng)絡(luò)q值定義最優(yōu)機(jī)器人動(dòng)作，并通過(guò)bellman方程獲取最優(yōu)機(jī)器人動(dòng)作的價(jià)值預(yù)期q值；

32、基于價(jià)值預(yù)期q值對(duì)目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行更新處理，得到更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略。

33、進(jìn)一步，所述基于更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略，結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略這一步驟，其具體包括：

34、構(gòu)建目標(biāo)域狀態(tài)向量，所述目標(biāo)域狀態(tài)向量包括機(jī)器人的狀態(tài)信息與障礙物的狀態(tài)信息；

35、將目標(biāo)域狀態(tài)向量輸入至更新后的目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略進(jìn)行評(píng)估當(dāng)前狀態(tài)和動(dòng)作的價(jià)值；

36、通過(guò)策略梯度方法，結(jié)合當(dāng)前狀態(tài)和動(dòng)作的價(jià)值進(jìn)行目標(biāo)環(huán)境場(chǎng)景最優(yōu)決策策略的參數(shù)更新，最大化期望回報(bào)，構(gòu)建最優(yōu)目標(biāo)域策略。

37、本發(fā)明所采用的第二技術(shù)方案是：一種基于智能跨域策略遷移的機(jī)器人裝配避障系統(tǒng)，包括：

38、第一模塊，用于構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景，所述源環(huán)境場(chǎng)景表示無(wú)障礙的仿真環(huán)境，所述目標(biāo)環(huán)境場(chǎng)景表示有障礙的仿真環(huán)境；

39、第二模塊，用于基于源環(huán)境場(chǎng)景，通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制，對(duì)機(jī)器人進(jìn)行三維裝配操作，構(gòu)建近似最優(yōu)源域策略；

40、第三模塊，用于基于目標(biāo)環(huán)境場(chǎng)景，對(duì)近似最優(yōu)源域策略進(jìn)行遷移，并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略；

41、第四模塊，用于將最優(yōu)目標(biāo)域策略部署于機(jī)器人控制平臺(tái)，完成機(jī)器人三維裝配避障操作。

42、本發(fā)明方法及系統(tǒng)的有益效果是：本發(fā)明通過(guò)構(gòu)建源環(huán)境場(chǎng)景與目標(biāo)環(huán)境場(chǎng)景，基于源環(huán)境場(chǎng)景，通過(guò)深度強(qiáng)化學(xué)習(xí)策略與稀疏獎(jiǎng)勵(lì)機(jī)制，對(duì)機(jī)器人進(jìn)行三維裝配操作，構(gòu)建近似最優(yōu)源域策略，通過(guò)深度強(qiáng)化學(xué)習(xí)策略鼓勵(lì)策略更廣泛地探索環(huán)境，防止過(guò)早收斂到局部最優(yōu)，結(jié)合稀疏獎(jiǎng)勵(lì)機(jī)制，其中獎(jiǎng)勵(lì)僅在成功完成裝配任務(wù)時(shí)授予，這種獎(jiǎng)勵(lì)設(shè)置激勵(lì)代理專注于實(shí)現(xiàn)任務(wù)的關(guān)鍵目標(biāo)，而不是在過(guò)程中追求無(wú)關(guān)的中間狀態(tài)，加速深度強(qiáng)化學(xué)習(xí)策略的有效收斂，基于目標(biāo)環(huán)境場(chǎng)景，對(duì)近似最優(yōu)源域策略進(jìn)行遷移，并結(jié)合狀態(tài)拼接策略對(duì)機(jī)器人進(jìn)行三維裝配避障操作，構(gòu)建最優(yōu)目標(biāo)域策略，在遷移過(guò)程中通過(guò)共享策略動(dòng)作空間的特征，并考慮源環(huán)境與目標(biāo)環(huán)境在觀測(cè)空間上的差異，通過(guò)調(diào)整觀測(cè)空間以捕捉更多的關(guān)鍵信息，從而提升模型在新環(huán)境中的表現(xiàn)，進(jìn)而提高機(jī)器人在面對(duì)環(huán)境變化時(shí)的反應(yīng)速度和準(zhǔn)確性，提高了機(jī)器人的操作安全性和生產(chǎn)效率，減少了碰撞和故障的風(fēng)險(xiǎn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧清華,全偉鑫,朱文博,羅陸鋒,陳明猷,張?jiān)浦?王愷
技術(shù)所有人：佛山大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、平老師：1.功能涂層設(shè)計(jì)與應(yīng)用 2.柔性電子器件設(shè)計(jì)與應(yīng)用 3.結(jié)構(gòu)動(dòng)態(tài)參數(shù)測(cè)試與裝置研發(fā) 4.智能機(jī)電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機(jī)電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評(píng)定
3、王老師：機(jī)械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽(yáng)能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于智能跨域策略遷移的機(jī)器人裝配避障方法及系統(tǒng)