本技術(shù)涉及機(jī)器人抓取,更具體地,涉及一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置。
背景技術(shù):
1、目前,深度學(xué)習(xí)備受關(guān)注,被廣泛應(yīng)用到機(jī)器人抓取領(lǐng)域。機(jī)器人抓取利用視覺信息,主要方法為直接將深度圖像作為輸入,最后輸出抓取位姿和相應(yīng)的抓取質(zhì)量分?jǐn)?shù);提出了生成式殘差卷積神經(jīng)網(wǎng)絡(luò),充分利用rgb和深度圖像的信息,生成更準(zhǔn)確的抓取位姿。機(jī)器人抓取技術(shù)的最新進(jìn)展是整合了語言理解能力,使機(jī)器人能夠根據(jù)自然語言指令抓取物體。例如,提出聯(lián)合學(xué)習(xí)視覺和語言特征,并從rgb圖像中預(yù)測二維抓取框;提出端到端的視覺-自然語言抓取生成模型,預(yù)測雜亂場景中參照物體的二維抓取姿勢。在機(jī)器人視覺引導(dǎo)抓取任務(wù)中,準(zhǔn)確識(shí)別和抓取目標(biāo)物體是一個(gè)關(guān)鍵問題。如果僅使用單一模態(tài)(如僅rgb圖像)作為輸入,在復(fù)雜場景中可能無法可靠地執(zhí)行抓取任務(wù)。因此,結(jié)合視覺和自然語言引導(dǎo)機(jī)器人抓取很有必要,這種多模態(tài)引導(dǎo)的機(jī)器人抓取方法在復(fù)雜場景的抓取任務(wù)中能夠更準(zhǔn)確地識(shí)別和抓取物體。
2、但是,現(xiàn)有的抓取模型并不具備通用性,指定需要抓取的物體依賴于精確的語言指令,具體來說,必須知道物體的名稱。然而,在真實(shí)抓取場景中,無法識(shí)別某些物體或?qū)⑵浞Q為未命名的物體,因此無法通過指定物體名稱的語言指令來抓取這些物體,存在機(jī)器人抓取的準(zhǔn)確性低的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的至少一個(gè)缺陷或改進(jìn)需求,本發(fā)明提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法、裝置,將視覺和語言指令進(jìn)行結(jié)合從而引導(dǎo)機(jī)器人執(zhí)行抓取操作,提高機(jī)器人抓取的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的第一個(gè)方面,提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法,該方法包括:
3、獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;
4、在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;
5、融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;
6、基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。
7、在一個(gè)示例性實(shí)施例中,所述基于sam模型得到所述待抓取對(duì)象的掩碼包括:
8、確定預(yù)訓(xùn)練的所述sam模型對(duì)應(yīng)的sam生成掩碼模塊;
9、依據(jù)所述目標(biāo)對(duì)象與所述sam掩碼生成模塊之間的交互方式,確定所述目標(biāo)場景中的待抓取對(duì)象的位置信息,其中,所述交互方式包括點(diǎn)擊選中,邊界框框選,自定義劃線,所述位置信息包括所述待抓取對(duì)象的位置、區(qū)域;
10、基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼。
11、在一個(gè)示例性實(shí)施例中,在所述基于所述sam模型與所述位置信息生成所述待抓取對(duì)象的掩碼之后,所述方法還包括:
12、采用alpha卷積網(wǎng)絡(luò)處理所述掩碼,提取所述掩碼的視覺特征,得到所述掩碼對(duì)應(yīng)的一系列視覺特征。
13、在一個(gè)示例性實(shí)施例中,所述融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征包括:
14、通過對(duì)位相加的特征融合方式,對(duì)所述rgb圖像的視覺特征與所述掩碼的視覺特征進(jìn)行融合,得到所述融合視覺特征。
15、在一個(gè)示例性實(shí)施例中,所述對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果包括:
16、將所述融合視覺特征與所述文本特征輸入至抓取投射器;
17、所述抓取投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換,得到一系列的轉(zhuǎn)化視覺特征;
18、所述抓取投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)化文本特征。
19、在一個(gè)示例性實(shí)施例中,所述抓投射器包含視覺投射器、文本投射器,所述將所述融合視覺特征與所述文本特征輸入至抓取投射器包括:
20、將所述融合視覺特征輸入至視覺投射器,將所述文本特征輸入至文本投射器;
21、所述視覺投射器對(duì)所述融合視覺特征進(jìn)行轉(zhuǎn)換,得到一系列的所述轉(zhuǎn)化視覺特征;
22、所述文本投射器對(duì)所述文本特征進(jìn)行轉(zhuǎn)換,得到所述轉(zhuǎn)化文本特征。
23、在一個(gè)示例性實(shí)施例中,在所述將所述融合視覺特征輸入至視覺投射器,將所述文本特征輸入至文本投射器之后,所述方法還包括:
24、根據(jù)點(diǎn)乘相似性計(jì)算所述轉(zhuǎn)化視覺特征與所述轉(zhuǎn)化文本特征之間的相似度,在所述相似度達(dá)到預(yù)設(shè)值的情況下,得到所述對(duì)齊結(jié)果;
25、基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。
26、按照本發(fā)明的第二個(gè)方面,還提供了一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取裝置,其包括:
27、獲取模塊,其被配置為獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;
28、確定模塊,其被配置為在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;
29、融合模塊,其被配置為融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;
30、抓取模塊,其被配置為基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度。
31、按照本發(fā)明的第三個(gè)方面,還提供了一種電子設(shè)備,其包括至少一個(gè)處理單元、以及至少一個(gè)存儲(chǔ)單元,其中,所述存儲(chǔ)單元存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理單元執(zhí)行時(shí),使得所述處理單元執(zhí)行上述任一項(xiàng)所述方法的步驟。
32、按照本發(fā)明的第四個(gè)方面,還提供了一種存儲(chǔ)介質(zhì),其存儲(chǔ)有可由訪問認(rèn)證設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在訪問認(rèn)證設(shè)備上運(yùn)行時(shí),使得所述訪問認(rèn)證設(shè)備執(zhí)行上述任一項(xiàng)所述方法的步驟。
33、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
34、本發(fā)明提供的一種結(jié)合視覺和語言指令引導(dǎo)的機(jī)器人抓取方法,通過獲取目標(biāo)場景的rgb圖像以及對(duì)應(yīng)的視覺特征,獲取目標(biāo)對(duì)象輸入的語言指令以及所述語言指令對(duì)應(yīng)的文本特征;在所述目標(biāo)場景中的待抓取對(duì)象的語言指令無法匹配到目標(biāo)指令的情況下,基于sam模型得到所述待抓取對(duì)象的掩碼,其中,所述目標(biāo)指令為預(yù)先設(shè)置的自然語言指令;融合所述rgb圖像的視覺特征與所述掩碼的視覺特征得到融合視覺特征,對(duì)齊所述融合視覺特征與所述文本特征得到對(duì)齊結(jié)果;基于所述對(duì)齊結(jié)果生成抓取信息,控制機(jī)器人按照所述抓取信息執(zhí)行抓取操作,其中,所述抓取信息包括抓取點(diǎn)、抓取角度、抓取寬度,采用sam模型生成的物體掩碼更加準(zhǔn)確,結(jié)合用戶交互方式,達(dá)到使得目標(biāo)物體的定位更加精確的技術(shù)效果,解決了相關(guān)技術(shù)中僅通過語言指令無法指定未命名物體從而導(dǎo)致的抓取操作的準(zhǔn)確性較低的問題,提升了機(jī)器人抓取操作的抓取精度。