国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置

      文檔序號(hào):39608368發(fā)布日期:2024-10-11 13:17閱讀:41來源:國知局
      結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置

      本技術(shù)涉及機(jī)器人抓取,更具體地,涉及一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置。


      背景技術(shù):

      1、目前,深度學(xué)習(xí)備受關(guān)注,被廣泛應(yīng)用到機(jī)器人抓取領(lǐng)域。機(jī)器人抓取利用視覺信息,主要方法為直接將深度圖像作為輸入,最后輸出抓取位姿和相應(yīng)的抓取質(zhì)量分?jǐn)?shù);提出了生成式殘差卷積神經(jīng)網(wǎng)絡(luò),充分利用rgb和深度圖像的信息,生成更準(zhǔn)確的抓取位姿。機(jī)器人抓取技術(shù)的最新進(jìn)展是整合了語言理解能力,使機(jī)器人能夠根據(jù)自然語言指令抓取物體。例如,提出聯(lián)合學(xué)習(xí)視覺和語言特征,并從rgb圖像中預(yù)測二維抓取框;提出端到端的視覺-自然語言抓取生成模型,預(yù)測雜亂場景中參照物體的二維抓取姿勢。在機(jī)器人視覺引導(dǎo)抓取任務(wù)中,準(zhǔn)確識(shí)別和抓取目標(biāo)物體是一個(gè)關(guān)鍵問題。如果僅使用單一模態(tài)(如僅rgb圖像)作為輸入,在復(fù)雜場景中可能無法可靠地執(zhí)行抓取任務(wù)。因此,結(jié)合視覺和自然語言引導(dǎo)機(jī)器人抓取很有必要,這種多模態(tài)引導(dǎo)的機(jī)器人抓取方法在復(fù)雜場景的抓取任務(wù)中能夠更準(zhǔn)確地識(shí)別和抓取物體。

      2、但是,現(xiàn)有的抓取模型并不具備通用性,指定需要抓取的物體依賴于精確的語言指令,具體來說,必須知道物體的名稱。然而,在真實(shí)抓取場景中,無法識(shí)別某些物體或?qū)⑵浞Q為未命名的物體,因此無法通過指定物體名稱的語言指令來抓取這些物體,存在機(jī)器人抓取的準(zhǔn)確性低的問題。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)現(xiàn)有技術(shù)的至少一個(gè)缺陷或改進(jìn)需求,本發(fā)明提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置,將視覺和語言指令進(jìn)行結(jié)合從而引導(dǎo)機(jī)器人執(zhí)行抓取操作,提高機(jī)器人抓取的準(zhǔn)確性。

      2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的第一個(gè)方面,提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法,該方法包括:

      3、獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;

      4、在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;

      5、融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;

      6、基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

      7、在一個(gè)示例性實(shí)施例中,所述基于sam模型得到所述待抓取對(duì)象的掩碼包括:

      8、確定預(yù)訓(xùn)練的所述sam模型對(duì)應(yīng)的sam生成掩碼模塊;

      9、依據(jù)所述目標(biāo)對(duì)象與所述sam掩碼生成模塊之間的交互方式,確定所述目標(biāo)場景中的待抓取對(duì)象的位置信息,其中,所述交互方式包括點(diǎn)擊選中,邊界框框選,自定義劃線,所述位置信息包括所述待抓取對(duì)象的位置、區(qū)域;

      10、基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼。

      11、在一個(gè)示例性實(shí)施例中,在所述基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼之后,所述方法還包括:

      12、采用alpha卷積網(wǎng)絡(luò)處理所述掩碼,提取所述掩碼的視覺特征,得到所述掩碼對(duì)應(yīng)的一系列視覺特征。

      13、在一個(gè)示例性實(shí)施例中,所述融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征包括:

      14、通過對(duì)位相加的特征融合方式,對(duì)所述rgb圖像的視覺特征與所述掩碼的視覺特征進(jìn)行融合,得到所述融合視覺特征。

      15、在一個(gè)示例性實(shí)施例中,所述對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果包括:

      16、將所述融合視覺特征與所述文本特征輸入至抓取投射器;

      17、所述抓取投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換,得到一系列的轉(zhuǎn)化視覺特征;

      18、所述抓取投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)化文本特征。

      19、在一個(gè)示例性實(shí)施例中,所述抓投射器包含視覺投射器、文本投射器,所述將所述融合視覺特征與所述文本特征輸入至抓取投射器包括:

      20、將所述融合視覺特征輸入至視覺投射器,將所述文本特征輸入至文本投射器;

      21、所述視覺投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換,得到一系列的所述轉(zhuǎn)化視覺特征;

      22、所述文本投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換,得到所述轉(zhuǎn)化文本特征。

      23、在一個(gè)示例性實(shí)施例中,在所述將所述融合視覺特征輸入至視覺投射器,將所述文本特征輸入至文本投射器之后,所述方法還包括:

      24、根據(jù)點(diǎn)乘相似性計(jì)算所述轉(zhuǎn)化視覺特征與所述轉(zhuǎn)化文本特征之間的相似度,在所述相似度達(dá)到預(yù)設(shè)值的情況下,得到所述對(duì)齊結(jié)果;

      25、基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

      26、按照本發(fā)明的第二個(gè)方面,還提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取裝置,其包括:

      27、獲取模塊,其被配置為獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;

      28、確定模塊,其被配置為在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;

      29、融合模塊,其被配置為融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;

      30、抓取模塊,其被配置為基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。

      31、按照本發(fā)明的第三個(gè)方面,還提供了一種電子設(shè)備,其包括至少一個(gè)處理單元、以及至少一個(gè)存儲(chǔ)單元,其中,所述存儲(chǔ)單元存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理單元執(zhí)行時(shí),使得所述處理單元執(zhí)行上述任一項(xiàng)所述方法的步驟。

      32、按照本發(fā)明的第四個(gè)方面,還提供了一種存儲(chǔ)介質(zhì),其存儲(chǔ)有可由訪問認(rèn)證設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在訪問認(rèn)證設(shè)備上運(yùn)行時(shí),使得所述訪問認(rèn)證設(shè)備執(zhí)行上述任一項(xiàng)所述方法的步驟。

      33、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:

      34、本發(fā)明提供的一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法,通過獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度,采用sam模型生成的物體掩碼更加準(zhǔn)確,結(jié)合用戶交互方式,達(dá)到使得目標(biāo)物體的定位更加精確的技術(shù)效果,解決了相關(guān)技術(shù)中僅通過語言指令無法指定未命名物體從而導(dǎo)致的抓取操作的準(zhǔn)確性較低的問題,提升了機(jī)器人抓取操作的抓取精度。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1