技術(shù)特征:1.一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,步驟s1包括:
3.根據(jù)權(quán)利要求1所述的基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,步驟s2包括:
4.根據(jù)權(quán)利要求1所述的基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,步驟s3包括:
5.根據(jù)權(quán)利要求1所述的基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,步驟s4包括:
6.根據(jù)權(quán)利要求1所述的基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,其特征在于,步驟s5包括:
技術(shù)總結(jié)本發(fā)明提供一種基于多模態(tài)逆強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航方法,包括:獲取機(jī)器人位姿數(shù)據(jù),采集激光雷達(dá)數(shù)據(jù),生成柵格地圖;激光雷達(dá)數(shù)據(jù)、柵格地圖和機(jī)器人位姿信息通過(guò)多模態(tài)融合網(wǎng)絡(luò)生成融合觀測(cè)表征;初始化網(wǎng)絡(luò)參數(shù),將融合觀測(cè)表征作為專家演示軌跡數(shù)據(jù),通過(guò)專家演示軌跡預(yù)訓(xùn)練生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)框架中的生成器和判別器,得到預(yù)訓(xùn)練模型;通過(guò)專家軌跡數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化;構(gòu)建生成式對(duì)抗逆強(qiáng)化學(xué)習(xí)整體框架,訓(xùn)練后得到智能控制模型,部署模型實(shí)現(xiàn)機(jī)器人的智能控制。本發(fā)明能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)融合與生成式對(duì)抗逆強(qiáng)化學(xué)習(xí),有效提升機(jī)器人在導(dǎo)航方面的表現(xiàn)。
技術(shù)研發(fā)人員:史豪斌,何自明,劉子航,楊北亞
受保護(hù)的技術(shù)使用者:西北工業(yè)大學(xué)
技術(shù)研發(fā)日:技術(shù)公布日:2024/12/19