1.一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境模型,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述無人機與障礙物之間的距離、危險區(qū)最大半徑設(shè)定值、所述危險區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值確定障礙物評估模型,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,構(gòu)建獎勵函數(shù)模型,采用所述獎勵函數(shù)模型對所述無人機的運行狀態(tài)進行獎勵,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,將所述歷史初始位置、所述歷史終止位置和所述無人機路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運算得到歷史無人機動作策略,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在采用歷史無人機動作策略控制無人機移動且在移動的過程中獲取歷史實時運行數(shù)據(jù),將所述歷史實時運行數(shù)據(jù)確定為樣本數(shù)據(jù)之后,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在根據(jù)所述損失函數(shù)優(yōu)化對偶策略學習網(wǎng)絡(luò)的所述目標網(wǎng)絡(luò)的參數(shù)和所述評估網(wǎng)絡(luò)的參數(shù)之后,所述方法還包括:
8.一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃裝置,其特征在于,包括:
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至7中任意一項所述的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法。
10.一種電子設(shè)備,其特征在于,包括:一個或多個處理器,存儲器,以及一個或多個程序,其中,所述一個或多個程序被存儲在所述存儲器中,并且被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序包括用于執(zhí)行權(quán)利要求1至7中任意一項所述的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法。