結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置

文檔序號(hào)：39608368發(fā)布日期：2024-10-11 13:17閱讀：41來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>五金工具產(chǎn)品及配附件制造技術(shù)

本技術(shù)涉及機(jī)器人抓取，更具體地，涉及一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置。

背景技術(shù)：

1、目前，深度學(xué)習(xí)備受關(guān)注，被廣泛應(yīng)用到機(jī)器人抓取領(lǐng)域。機(jī)器人抓取利用視覺信息，主要方法為直接將深度圖像作為輸入，最后輸出抓取位姿和相應(yīng)的抓取質(zhì)量分?jǐn)?shù)；提出了生成式殘差卷積神經(jīng)網(wǎng)絡(luò)，充分利用rgb和深度圖像的信息，生成更準(zhǔn)確的抓取位姿。機(jī)器人抓取技術(shù)的最新進(jìn)展是整合了語言理解能力，使機(jī)器人能夠根據(jù)自然語言指令抓取物體。例如，提出聯(lián)合學(xué)習(xí)視覺和語言特征，并從rgb圖像中預(yù)測二維抓取框；提出端到端的視覺-自然語言抓取生成模型，預(yù)測雜亂場景中參照物體的二維抓取姿勢。在機(jī)器人視覺引導(dǎo)抓取任務(wù)中，準(zhǔn)確識(shí)別和抓取目標(biāo)物體是一個(gè)關(guān)鍵問題。如果僅使用單一模態(tài)(如僅rgb圖像)作為輸入，在復(fù)雜場景中可能無法可靠地執(zhí)行抓取任務(wù)。因此，結(jié)合視覺和自然語言引導(dǎo)機(jī)器人抓取很有必要，這種多模態(tài)引導(dǎo)的機(jī)器人抓取方法在復(fù)雜場景的抓取任務(wù)中能夠更準(zhǔn)確地識(shí)別和抓取物體。

2、但是，現(xiàn)有的抓取模型并不具備通用性，指定需要抓取的物體依賴于精確的語言指令，具體來說，必須知道物體的名稱。然而，在真實(shí)抓取場景中，無法識(shí)別某些物體或?qū)⑵浞Q為未命名的物體，因此無法通過指定物體名稱的語言指令來抓取這些物體，存在機(jī)器人抓取的準(zhǔn)確性低的問題。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的至少一個(gè)缺陷或改進(jìn)需求，本發(fā)明提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置，將視覺和語言指令進(jìn)行結(jié)合從而引導(dǎo)機(jī)器人執(zhí)行抓取操作，提高機(jī)器人抓取的準(zhǔn)確性。

2、為實(shí)現(xiàn)上述目的，按照本發(fā)明的第一個(gè)方面，提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法，該方法包括：

3、獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征，獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征；

4、在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下，基于sam模型得到所述待抓取對(duì)象的掩碼，其中，所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令；

5、融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征，對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果；

6、基于所述對(duì)齊結(jié)果生成抓取信息，控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作，其中，所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

7、在一個(gè)示例性實(shí)施例中，所述基于sam模型得到所述待抓取對(duì)象的掩碼包括：

8、確定預(yù)訓(xùn)練的所述sam模型對(duì)應(yīng)的sam生成掩碼模塊；

9、依據(jù)所述目標(biāo)對(duì)象與所述sam掩碼生成模塊之間的交互方式，確定所述目標(biāo)場景中的待抓取對(duì)象的位置信息，其中，所述交互方式包括點(diǎn)擊選中，邊界框框選，自定義劃線，所述位置信息包括所述待抓取對(duì)象的位置、區(qū)域；

10、基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼。

11、在一個(gè)示例性實(shí)施例中，在所述基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼之后，所述方法還包括：

12、采用alpha卷積網(wǎng)絡(luò)處理所述掩碼，提取所述掩碼的視覺特征，得到所述掩碼對(duì)應(yīng)的一系列視覺特征。

13、在一個(gè)示例性實(shí)施例中，所述融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征包括：

14、通過對(duì)位相加的特征融合方式，對(duì)所述rgb圖像的視覺特征與所述掩碼的視覺特征進(jìn)行融合，得到所述融合視覺特征。

15、在一個(gè)示例性實(shí)施例中，所述對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果包括：

16、將所述融合視覺特征與所述文本特征輸入至抓取投射器；

17、所述抓取投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換，得到一系列的轉(zhuǎn)化視覺特征；

18、所述抓取投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)化文本特征。

19、在一個(gè)示例性實(shí)施例中，所述抓投射器包含視覺投射器、文本投射器，所述將所述融合視覺特征與所述文本特征輸入至抓取投射器包括：

20、將所述融合視覺特征輸入至視覺投射器，將所述文本特征輸入至文本投射器；

21、所述視覺投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換，得到一系列的所述轉(zhuǎn)化視覺特征；

22、所述文本投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換，得到所述轉(zhuǎn)化文本特征。

23、在一個(gè)示例性實(shí)施例中，在所述將所述融合視覺特征輸入至視覺投射器，將所述文本特征輸入至文本投射器之后，所述方法還包括：

24、根據(jù)點(diǎn)乘相似性計(jì)算所述轉(zhuǎn)化視覺特征與所述轉(zhuǎn)化文本特征之間的相似度，在所述相似度達(dá)到預(yù)設(shè)值的情況下，得到所述對(duì)齊結(jié)果；

25、基于所述對(duì)齊結(jié)果生成抓取信息，控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作，其中，所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

26、按照本發(fā)明的第二個(gè)方面，還提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取裝置，其包括：

27、獲取模塊，其被配置為獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征，獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征；

28、確定模塊，其被配置為在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下，基于sam模型得到所述待抓取對(duì)象的掩碼，其中，所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令；

29、融合模塊，其被配置為融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征，對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果；

30、抓取模塊，其被配置為基于所述對(duì)齊結(jié)果生成抓取信息，控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作，其中，所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

31、按照本發(fā)明的第三個(gè)方面，還提供了一種電子設(shè)備，其包括至少一個(gè)處理單元、以及至少一個(gè)存儲(chǔ)單元，其中，所述存儲(chǔ)單元存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序被所述處理單元執(zhí)行時(shí)，使得所述處理單元執(zhí)行上述任一項(xiàng)所述方法的步驟。

32、按照本發(fā)明的第四個(gè)方面，還提供了一種存儲(chǔ)介質(zhì)，其存儲(chǔ)有可由訪問認(rèn)證設(shè)備執(zhí)行的計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序在訪問認(rèn)證設(shè)備上運(yùn)行時(shí)，使得所述訪問認(rèn)證設(shè)備執(zhí)行上述任一項(xiàng)所述方法的步驟。

33、總體而言，通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比，能夠取得下列有益效果：

34、本發(fā)明提供的一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法，通過獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征，獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征；在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下，基于sam模型得到所述待抓取對(duì)象的掩碼，其中，所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令；融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征，對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果；基于所述對(duì)齊結(jié)果生成抓取信息，控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作，其中，所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度，采用sam模型生成的物體掩碼更加準(zhǔn)確，結(jié)合用戶交互方式，達(dá)到使得目標(biāo)物體的定位更加精確的技術(shù)效果，解決了相關(guān)技術(shù)中僅通過語言指令無法指定未命名物體從而導(dǎo)致的抓取操作的準(zhǔn)確性較低的問題，提升了機(jī)器人抓取操作的抓取精度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙洲,鄭東沅,許永超
技術(shù)所有人：華中師范大學(xué)
我是此專利的發(fā)明人

上一篇：一種山柚籽去殼設(shè)備的制作方法
上一篇：一種散熱片生產(chǎn)用折邊設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、平老師：1.功能涂層設(shè)計(jì)與應(yīng)用 2.柔性電子器件設(shè)計(jì)與應(yīng)用 3.結(jié)構(gòu)動(dòng)態(tài)參數(shù)測試與裝置研發(fā) 4.智能機(jī)電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機(jī)電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評(píng)定
3、王老師：機(jī)械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置