本發(fā)明涉及視覺定位領(lǐng)域,尤其涉及一種智能視覺定位方法。
背景技術(shù):
1、視覺定位作為計算機視覺的基本任務之一,已廣泛應用于自動駕駛、同步定位與地圖構(gòu)建、虛擬現(xiàn)實等領(lǐng)域。視覺定位旨在根據(jù)查詢圖像估計相機在已知場景下的6-dof位姿,即相機在世界坐標系下的三維位置坐標和三維角度偏轉(zhuǎn)。近年來,相關(guān)學者針對室內(nèi)或室外街道場景下的視覺定位進行了深入研究,取得了優(yōu)異的性能。然而,針對航空場景的視覺定位方法鮮有研究,嚴重限制了依賴導航的航空系統(tǒng)的發(fā)展。因此,探索一種智能視覺定位方法,以實現(xiàn)航空場景下相機的精確定位,具有重要的研究意義和應用價值。
2、傳統(tǒng)的視覺定位算法通?;谑止ぴO計的特征來估計相機位姿,主要可分為基于幾何結(jié)構(gòu)的方法和基于圖像檢索的方法。其中,基于幾何結(jié)構(gòu)的方法首先提取查詢圖像中的特征點,然后將提取到的2d特征點與場景模型中的3d坐標點進行匹配,最后根據(jù)得到的2d-3d匹配關(guān)系對相機位姿進行解算?;趫D像檢索的方法則需要先通過匹配圖像的全局特征檢索出查詢圖像的最近鄰圖像,然后對兩張圖像的2d特征點進行匹配,最后根據(jù)得到的2d-2d匹配關(guān)系對相機位姿進行解算。盡管傳統(tǒng)方法已經(jīng)取得了很大的進展,但受限于魯棒性差、泛化性低等問題,在一些光照變化劇烈、運動模糊等復雜場景中,可能會出現(xiàn)定位失敗的情況。
3、近年來,基于深度學習的視覺定位算法已經(jīng)逐漸展現(xiàn)出比傳統(tǒng)方法更加優(yōu)越的性能。kendall等人提出了基于卷積神經(jīng)網(wǎng)絡的視覺定位算法,通過卷積神經(jīng)網(wǎng)絡學習查詢圖像到相機位姿的映射關(guān)系,實現(xiàn)了視覺定位。然而,該方法僅在室內(nèi)或室外街道場景下取得了較好的性能,直接應用于復雜的航空場景時精度不佳。最近,yan等人提出了一種基于多模態(tài)合成數(shù)據(jù)的可擴展航空視覺定位算法,該方法通過學習跨模態(tài)的視覺表示,提升了航空場景下視覺定位的精度。然而,現(xiàn)有方法僅采用卷積神經(jīng)網(wǎng)絡提取航拍圖像的特征,并未有效探索場景的全局上下文信息。此外,現(xiàn)有方法僅利用彩色圖像提取特征,缺乏明確的空間信息,因此在處理航拍圖像中廣泛存在的視覺偽影時魯棒性欠佳,難以滿足實際應用的需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種智能視覺定位方法,本發(fā)明旨在有效探索航拍圖像的全局上下文信息,并通過挖掘深度圖像蘊含的空間信息,提升網(wǎng)絡對航拍圖像中廣泛存在的視覺偽影的魯棒性,從而實現(xiàn)有效的航空場景視覺定位,詳見下文描述:
2、一種智能視覺定位方法,所述方法包括:
3、通過特征序列提取模塊以獲取彩色圖像特征序列和深度圖像特征序列,并作為多級深度嵌入transformer模塊的輸入;
4、所述多級深度嵌入transformer模塊由多個深度嵌入單元和transformer層組成,每個深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強的特征序列;
5、將多級深度嵌入transformer模塊得到的場景特征表示送入預測頭得到場景坐標預測結(jié)果,水平梯度算子和垂直梯度算子分別作用于場景坐標預測結(jié)果,生成場景坐標預測結(jié)果的水平梯度和垂直梯度;水平梯度算子和垂直梯度算子也分別作用于深度圖像,生成深度圖像的水平梯度和垂直梯度;
6、使用深度引導的平滑約束、回歸損失和重投影損失訓練智能視覺定位網(wǎng)絡,構(gòu)建位姿求解器進行位姿采樣和位姿細化。
7、其中,所述每個深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強的特征序列為:
8、將輸入的特征序列和分別經(jīng)過卷積層處理,生成低維度的潛在嵌入和
9、將潛在嵌入經(jīng)過一個λ-平滑的空間softmax層,生成一個類空間注意力的掩膜,將生成的掩膜gfovea與潛在嵌入點乘,生成空間增強嵌入
10、潛在嵌入和空間增強嵌入經(jīng)加權(quán)融合后,通過卷積層得到空間感知增強的特征序列計算公式表示為:
11、
12、其中,g3(·)表示一個卷積層,α和β表示可學習的權(quán)重參數(shù)。
13、其中,所述深度引導的平滑約束為:通過對和施加l1懲罰,并使用和的邊緣感知項對該懲罰進行加權(quán)來實現(xiàn);如下:
14、
15、其中,dij表示查詢圖像在(i,j)位置的深度值,sij表示查詢圖像在(i,j)位置處由網(wǎng)絡預測的場景坐標值。
16、其中,所述低維度的潛在嵌入和為:
17、
18、其中,g1(·)和g2(·)都由一個卷積層組成。
19、其中,所述空間增強嵌入為:
20、
21、其中,表示中在(i,j)位置的特征向量,γl表示一個可學習的權(quán)重參數(shù),表示點乘操作。
22、本發(fā)明提供的技術(shù)方案的有益效果是:
23、1、本發(fā)明利用transformer建模長距離依賴關(guān)系的能力,挖掘航拍圖像的全局上下文信息;同時,考慮到深度圖像具有描述物體空間位置的特性,通過在網(wǎng)絡中引入深度線索以顯式地感知空間信息,從而提升網(wǎng)絡對于視覺偽影的魯棒性,進而提升航空場景視覺定位的性能;
24、2、本發(fā)明設計了多級深度嵌入transformer模塊,通過自適應地將深度圖像特征與彩色圖像特征融合,增強了網(wǎng)絡對航空場景空間結(jié)構(gòu)的感知能力,從而提升了網(wǎng)絡對于視覺偽影的魯棒性;此外,設計了深度引導的平滑損失,在深度信息的引導下,鼓勵網(wǎng)絡學習場景坐標分段平滑的幾何特性,進而提升場景坐標的預測精度;
25、3、本發(fā)明通過在兩個航空場景視覺定位的數(shù)據(jù)集上進行實驗驗證,可以獲得優(yōu)于現(xiàn)有航空場景視覺定位方法的性能。
1.一種智能視覺定位方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種智能視覺定位方法,其特征在于,所述每個深度嵌入單元以特征序列作為輸入,旨在輸出空間感知增強的特征序列為:
3.根據(jù)權(quán)利要求1所述的一種智能視覺定位方法,其特征在于,所述深度引導的平滑約束為:通過對和施加l1懲罰,并使用和的邊緣感知項對該懲罰進行加權(quán)來實現(xiàn);如下:
4.根據(jù)權(quán)利要求2所述的一種智能視覺定位方法,其特征在于,所述低維度的潛在嵌入和為:
5.根據(jù)權(quán)利要求2所述的一種智能視覺定位方法,其特征在于,所述空間增強嵌入為: