国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種具有多尺度注意力的視覺跟蹤系統(tǒng)及方法與流程

      文檔序號:40390069發(fā)布日期:2024-12-20 12:13閱讀:18來源:國知局
      一種具有多尺度注意力的視覺跟蹤系統(tǒng)及方法與流程

      本發(fā)明涉及計算機(jī)視覺和圖像處理領(lǐng)域,特別是一種具有多尺度注意力的視覺跟蹤系統(tǒng)及方法。


      背景技術(shù):

      1、隨著計算機(jī)視覺技術(shù)的快速發(fā)展,視覺對象跟蹤(visual?object?tracking,vot)作為其中的一項核心任務(wù),受到了廣泛的關(guān)注和研究。vot的目標(biāo)是在視頻序列中,僅基于目標(biāo)的初始位置信息,自動預(yù)測并跟蹤目標(biāo)在后續(xù)幀中的位置。這一技術(shù)在許多實際應(yīng)用場景中發(fā)揮著重要作用,如自動駕駛中的車輛和行人跟蹤、視頻監(jiān)控中的異常行為檢測、人機(jī)交互中的手勢識別等。

      2、傳統(tǒng)的視覺對象跟蹤方法通常依賴于手工設(shè)計的特征或淺層的機(jī)器學(xué)習(xí)模型。然而,這些方法在面對復(fù)雜多變的場景和目標(biāo)時,往往表現(xiàn)出較差的魯棒性和準(zhǔn)確性。近年來,隨著深度學(xué)習(xí)技術(shù)的興起,基于深度學(xué)習(xí)的視覺對象跟蹤方法取得了顯著的進(jìn)展。

      3、基于深度學(xué)習(xí)的視覺對象跟蹤方法通常采用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneural?networks,cnns)作為特征提取器,從視頻幀中提取目標(biāo)的特征表示。然后,通過比較目標(biāo)在相鄰幀之間的特征差異,實現(xiàn)目標(biāo)的跟蹤。目前主流的目標(biāo)跟蹤模型在面對復(fù)雜多變的場景和目標(biāo)時,往往表現(xiàn)出較差的魯棒性和準(zhǔn)確性。其中,siamese結(jié)構(gòu)是一種常用的網(wǎng)絡(luò)結(jié)構(gòu),它通過共享權(quán)重的雙胞胎網(wǎng)絡(luò)分別處理模板圖像和搜索區(qū)域圖像,從而提取出目標(biāo)的特征表示。盡管基于siamese結(jié)構(gòu)的視覺對象跟蹤方法取得了一定的成功,但仍存在一些挑戰(zhàn)和限制。其中,最主要的問題之一是長距離依賴的難題。在視頻序列中,目標(biāo)可能會經(jīng)歷快速的運(yùn)動、形變、遮擋等復(fù)雜情況,導(dǎo)致模板圖像和搜索區(qū)域圖像之間的特征差異較大。傳統(tǒng)的基于cnn的方法在處理這種情況時,往往難以捕獲到全局的特征依賴關(guān)系,從而影響跟蹤的準(zhǔn)確性。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明的目的在于提供一種具有多尺度注意力的視覺跟蹤系統(tǒng)及方法,該方法結(jié)合siamese結(jié)構(gòu)與注意力機(jī)制,解決傳統(tǒng)追蹤器在處理長距離依賴時的難題,提高視覺對象跟蹤的準(zhǔn)確性和魯棒性。

      2、實現(xiàn)本發(fā)明目的的技術(shù)解決方案為:

      3、一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),采用siamese框架,包括:

      4、線性投影層,基于模板圖像和搜索區(qū)域圖像的圖像塊序列生成對應(yīng)的圖像塊;

      5、特征提取模塊,用于從模板圖像和搜索區(qū)域圖像中提取不同尺度的特征信息;

      6、信息融合塊,通過注意力機(jī)制將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合,生成包含關(guān)鍵目標(biāo)位置信息的圖像塊;

      7、預(yù)測頭,根據(jù)包含關(guān)鍵目標(biāo)位置信息的圖像塊預(yù)測目標(biāo)的位置。

      8、進(jìn)一步地,注意力機(jī)制采用特征拼接或特征相加將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合,并通過卷積層進(jìn)一步提取融合后的特征,具體包括:

      9、將原始尺寸的搜索區(qū)域圖像塊es和模板圖像塊et進(jìn)行信息融合;

      10、將融合后的圖像塊通過兩個卷積操作,得到兩種不同尺寸的圖像塊和

      11、圖像塊和分別與模板圖像塊et進(jìn)行融合。

      12、進(jìn)一步地,所述通過注意力機(jī)制將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合的過程為:

      13、

      14、其中,e代表殘差連接后的輸出,residual是殘差連接操作,linearproj是線性投影層輸出,s1和s2表示兩個卷積步長,d表示路徑嵌入的維度,reducedim指的是特征維度減少操作,attn表示注意力機(jī)制輸出。

      15、進(jìn)一步地,所述兩個卷積操作步幅分別是2和4。

      16、進(jìn)一步地,所述特征提取模塊采用vit-base作為主干,使用mae預(yù)訓(xùn)練模型初始化特征提取模塊參數(shù)。

      17、進(jìn)一步地,所述預(yù)測頭包括中心分類、大小回歸和偏移回歸三個卷積分支,中心分類卷積分支用于估計跟蹤目標(biāo)的中心位置,大小回歸卷積分支用于預(yù)測目標(biāo)的大小,偏移回歸卷積分支用于補(bǔ)償離散化誤差,通過對三個卷積分支的輸出進(jìn)行積分,得到目標(biāo)的最終預(yù)測位置和大小。

      18、進(jìn)一步地,所述預(yù)測頭的損失函數(shù)為:

      19、

      20、其中,l1表示l1損失,liou表示廣義iou損失,lfocal表示加權(quán)焦點(diǎn)損失,λiou、λcenter表示對應(yīng)損失的權(quán)重。

      21、進(jìn)一步地,λiou=2,λcenter=2。

      22、一種具有多尺度注意力的視覺跟蹤方法,包括:

      23、步驟1,將模板圖像和搜索區(qū)域圖像劃分為圖像塊序列,通過線性投影層生成對應(yīng)的圖像塊;

      24、步驟2,通過特征提取模塊從模板圖像和搜索區(qū)域圖像中提取不同尺度的特征信息;

      25、步驟3,通過注意力機(jī)制將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合,生成包含關(guān)鍵目標(biāo)位置信息的圖像塊;

      26、步驟4,根據(jù)包含關(guān)鍵目標(biāo)位置信息的圖像塊預(yù)測目標(biāo)的位置。

      27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

      28、(1)通過結(jié)合siamese結(jié)構(gòu)與注意力機(jī)制,解決了傳統(tǒng)目標(biāo)跟蹤方法在處理長距離依賴時的難題;通過多尺度特征提取和特征融合,提高了特征的表示能力;通過實時單流跟蹤,實現(xiàn)了對目標(biāo)的快速、準(zhǔn)確跟蹤;

      29、(2)信息融合塊將模板嵌入與搜索區(qū)域嵌入進(jìn)行特征融合,以生成包含豐富上下文信息的融合特征,通過有效融合模板和搜索區(qū)域的信息,增強(qiáng)了跟蹤的準(zhǔn)確性;通過多尺度注意力機(jī)制從輸入圖像中提取并融合不同尺度的特征信息,以生成增強(qiáng)的特征表示,通過捕捉不同尺度的特征信息,提高了跟蹤器對尺度變化的敏感性和魯棒性。



      技術(shù)特征:

      1.一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),采用siamese框架,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述注意力機(jī)制采用特征拼接或特征相加將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合,并通過卷積層進(jìn)一步提取融合后的特征,具體包括:

      3.根據(jù)權(quán)利要求2所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述通過注意力機(jī)制將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合的過程為:

      4.根據(jù)權(quán)利要求2所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述兩個卷積操作步幅分別是2和4。

      5.根據(jù)權(quán)利要求1所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述特征提取模塊采用vit-base作為主干,使用mae預(yù)訓(xùn)練模型初始化特征提取模塊參數(shù)。

      6.根據(jù)權(quán)利要求1所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述預(yù)測頭包括中心分類、大小回歸和偏移回歸三個卷積分支,中心分類卷積分支用于估計跟蹤目標(biāo)的中心位置,大小回歸卷積分支用于預(yù)測目標(biāo)的大小,偏移回歸卷積分支用于補(bǔ)償離散化誤差,通過對三個卷積分支的輸出進(jìn)行積分,得到目標(biāo)的最終預(yù)測位置和大小。

      7.根據(jù)權(quán)利要求6所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,所述預(yù)測頭的損失函數(shù)為:

      8.根據(jù)權(quán)利要求7所述的一種多尺度注意力機(jī)制增強(qiáng)的實時目標(biāo)跟蹤系統(tǒng),其特征在于,λiou=2,λcenter=2。

      9.一種基于權(quán)利要求1-8任一所述實時目標(biāo)跟蹤系統(tǒng)的實時目標(biāo)跟蹤方法,其特征在于,包括:

      10.一種計算機(jī)存儲介質(zhì),其特征在于,所述計算機(jī)存儲介質(zhì)存儲有可執(zhí)行程序,所述可執(zhí)行程序被處理器執(zhí)行實現(xiàn)權(quán)利要求9所述的實時目標(biāo)跟蹤方法。


      技術(shù)總結(jié)
      本發(fā)明提出一種具有多尺度注意力的視覺跟蹤系統(tǒng)及方法,該系統(tǒng)采用Siamese框架,包括:線性投影層,基于模板圖像和搜索區(qū)域圖像的圖像塊序列生成對應(yīng)的圖像塊;特征提取模塊,用于從模板圖像和搜索區(qū)域圖像中提取不同尺度的特征信息;信息融合塊,通過注意力機(jī)制將模板圖像塊和搜索圖像塊在不同尺度特征上進(jìn)行融合,生成包含關(guān)鍵目標(biāo)位置信息的圖像塊;預(yù)測頭,根據(jù)包含關(guān)鍵目標(biāo)位置信息的圖像塊預(yù)測目標(biāo)的位置。本發(fā)明提出了一種新穎的多尺度注意力機(jī)制,該機(jī)制從各種尺寸的特征圖中捕獲模板和搜索區(qū)域之間的全局依賴,從而提高了跟蹤器對尺度變化的敏感性,在建模小尺寸特征依賴之前采用注意力引導(dǎo),有效地優(yōu)先關(guān)注主要目標(biāo)信息。

      技術(shù)研發(fā)人員:宋春林,姚雨,潘志國,歐陽昭暐,辛高鵬,陳超,鮑志勇,趙宇偉,張津瑞,陳志國,謝億,李吉,李金金,魏宇彤,牛犇
      受保護(hù)的技術(shù)使用者:杭州智元研究院有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1