本發(fā)明涉及偽裝感知檢測(cè)方法領(lǐng)域,具體是一種具有密集感受野的自注意力轉(zhuǎn)換網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法。
背景技術(shù):
1、偽裝目標(biāo)是指那些在顏色和紋理上與周圍環(huán)境高度相似,從而難以被人眼識(shí)別的目標(biāo)。這些目標(biāo)可以根據(jù)其形成方式被劃分為自然和人造兩大類。自然偽裝目標(biāo)通常是指那些通過利用自然環(huán)境如地形、植物或自身身體特征等自然條件來避免被捕食者發(fā)現(xiàn)的生物,例如沙漠中的變色龍、海洋深處的魚類、農(nóng)田中的綠色蝗蟲等。而人造偽裝目標(biāo)則是通過人為的技術(shù)手段,如迷彩涂裝等,來減少目標(biāo)的可探測(cè)性,例如穿戴迷彩服的軍事人員、涂裝隱蔽的軍事飛行器等。偽裝目標(biāo)檢測(cè)任務(wù)的目標(biāo)是從背景中識(shí)別并分離出這些偽裝目標(biāo),這一任務(wù)在多個(gè)領(lǐng)域都顯示出了其重要性。在軍事安全領(lǐng)域,它有助于提高戰(zhàn)場(chǎng)態(tài)勢(shì)的感知能力;在工業(yè)檢測(cè)中,它能夠輔助發(fā)現(xiàn)潛在的結(jié)構(gòu)性問題;在農(nóng)業(yè)害蟲的監(jiān)測(cè)中,它有助于精確識(shí)別和控制害蟲;在醫(yī)學(xué)成像中,它能夠提高對(duì)疾病標(biāo)志物的識(shí)別精度。因此,隱蔽目標(biāo)分割技術(shù)在實(shí)際應(yīng)用中具有廣泛的前景和重要的價(jià)值。
2、早期的非深度學(xué)習(xí)方法主要依賴于人工設(shè)計(jì)的特征來辨別圖像中的前景對(duì)象與背景,例如利用紋理特征、三維表面的凹凸信息、運(yùn)動(dòng)信息等。這些方法在處理非常簡(jiǎn)單的場(chǎng)景時(shí)或許有效,但在面對(duì)復(fù)雜多變的環(huán)境時(shí),它們的性能往往會(huì)受到限制,難以達(dá)到預(yù)期的效果。
3、隨著深度學(xué)習(xí)技術(shù)在視覺任務(wù)中的應(yīng)用日益廣泛,研究者們提出了多種創(chuàng)新框架和方法來應(yīng)對(duì)偽裝目標(biāo)檢測(cè)任務(wù)。最初,一種結(jié)合圖像分類和偽裝目標(biāo)分割的框架被成功提出,它能夠有效地識(shí)別和分割隱藏在復(fù)雜背景中的物體。隨后,為了進(jìn)一步提升分割的準(zhǔn)確性,對(duì)抗性攻擊的概念被引入到偽裝目標(biāo)檢測(cè)任務(wù)中,通過模擬可能的干擾來增強(qiáng)模型的魯棒性。同時(shí),一個(gè)大規(guī)模的偽裝目標(biāo)數(shù)據(jù)集被構(gòu)建,為深度學(xué)習(xí)時(shí)代偽裝目標(biāo)檢測(cè)的發(fā)展奠定了基礎(chǔ)?;谶@個(gè)數(shù)據(jù)集,研究者開發(fā)了一種新的網(wǎng)絡(luò)結(jié)構(gòu),專注于逐步定位和搜索偽裝物體。此外,有研究模擬了自然界中動(dòng)物捕食的過程,提出了一種仿生物學(xué)的架構(gòu),通過新的分心挖掘策略來提高對(duì)偽裝目標(biāo)的發(fā)現(xiàn)和移除能力。為了解決前景與背景難以區(qū)分的問題,一種互圖學(xué)習(xí)模型被設(shè)計(jì)出來,它將傳統(tǒng)的互圖學(xué)習(xí)思想擴(kuò)展到了圖域,提高了分割的準(zhǔn)確性。在顯著性對(duì)象與偽裝目標(biāo)的關(guān)系方面,一種新的范式被提出,它利用兩者之間的矛盾信息來增強(qiáng)顯著性對(duì)象的檢測(cè)和偽裝目標(biāo)的分割能力。同時(shí),一種基于排序的網(wǎng)絡(luò)被提出,能夠同時(shí)實(shí)現(xiàn)對(duì)偽裝目標(biāo)的定位、分割和排序,拓寬了偽裝目標(biāo)檢測(cè)的研究范圍。針對(duì)偽裝目標(biāo)外觀多變性和與環(huán)境的低對(duì)比度問題,一種新穎的上下文感知跨級(jí)別融合網(wǎng)絡(luò)被提出,它能夠有效地處理這些挑戰(zhàn)。此外,還有一種新穎的邊界引導(dǎo)網(wǎng)絡(luò)被提出,旨在更好地處理圖像邊緣,提高分割的精度和質(zhì)量。這些研究和方法的提出,共同推動(dòng)了偽裝目標(biāo)檢測(cè)技術(shù)的進(jìn)步。
4、然而,上述這些方法主要采用的是卷積神經(jīng)網(wǎng)絡(luò),采用編碼器-解碼器架構(gòu)。在這種架構(gòu)中,編碼器通常是由在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的cnn組成,負(fù)責(zé)將輸入圖像轉(zhuǎn)換成多層次的特征表示。隨后,解碼器會(huì)將這些特征進(jìn)行重組,以生成最終的二進(jìn)制分割圖。如圖1(a)所示,盡管卷積操作在提取局部特征方面表現(xiàn)出色,但它在捕捉全局依賴關(guān)系方面的能力有限。在偽裝目標(biāo)檢測(cè)任務(wù)中,由于偽裝目標(biāo)與其周圍背景在局部特征上的高相似性,全局依賴關(guān)系顯得尤為關(guān)鍵。僅使用卷積操作在局部窗口內(nèi)提取特征不僅難以識(shí)別偽裝,反而容易受到這些高度相似的局部特征的干擾。盡管一些方法嘗試通過全局池化層和非局部模塊來整合全局上下文信息,但這些方法僅在網(wǎng)絡(luò)的某些層中有效,并沒有根本改變基于卷積操作的標(biāo)準(zhǔn)架構(gòu)。因此,為了提高分割性能,特別是在處理偽裝目標(biāo)時(shí),需要進(jìn)一步探索能夠有效捕捉和利用全局依賴關(guān)系的新方法。
5、在近期的研究中,源自自然語言處理的深度自注意力轉(zhuǎn)換網(wǎng)絡(luò)因其卓越的全局建模能力而在計(jì)算機(jī)視覺領(lǐng)域逐漸取代了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),并實(shí)現(xiàn)了顯著的進(jìn)步。這種網(wǎng)絡(luò)的核心優(yōu)勢(shì)在于通過自注意力機(jī)制來獲取全局上下文信息,進(jìn)而形成長(zhǎng)距離的依賴關(guān)系,如圖1(b)所示。為了適應(yīng)視覺任務(wù)對(duì)圖像處理的需求,并降低密集注意力帶來的高內(nèi)存和計(jì)算開銷,研究者們開發(fā)了多種層級(jí)結(jié)構(gòu)的視覺深度自注意力轉(zhuǎn)換網(wǎng)絡(luò),例如pvt、swintransformer和mpvit等。這些網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)和語義分割等任務(wù)上展現(xiàn)出了超越傳統(tǒng)卷積網(wǎng)絡(luò)的性能。鑒于此,將深度自注意力轉(zhuǎn)換網(wǎng)絡(luò)應(yīng)用于偽裝目標(biāo)檢測(cè)任務(wù),利用其全局感知能力來提升分割性能,已成為一個(gè)值得探索的重要方向。通過這種方式,可以更有效地處理偽裝目標(biāo)與背景之間的復(fù)雜關(guān)系,從而在實(shí)際應(yīng)用中實(shí)現(xiàn)更準(zhǔn)確的分割結(jié)果。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種具有密集感受野的自注意力轉(zhuǎn)換網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,以解決現(xiàn)有技術(shù)采用卷積神經(jīng)網(wǎng)絡(luò)基于編碼器-解碼器架構(gòu)的偽裝目標(biāo)檢測(cè)方法存在的難以有效捕捉和利用全局依賴關(guān)系的問題。
2、為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為:
3、具有密集感受野的自注意力轉(zhuǎn)換網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,包括以下步驟:
4、步驟1、獲取待檢測(cè)圖像;
5、步驟2、將步驟1獲取的待檢測(cè)圖像輸入至基于自注意力轉(zhuǎn)換網(wǎng)絡(luò)的骨干特征提取器;
6、所述骨干特征提取器包括四個(gè)依次級(jí)聯(lián)的層級(jí)模塊,待檢測(cè)圖像首先輸入至第一級(jí)層級(jí)模塊,由第一個(gè)層級(jí)模型從圖像中提取得到第一級(jí)特征;第一級(jí)層級(jí)模塊得到的提取有第一級(jí)特征的張量輸出至第二級(jí)層級(jí)模塊,?由第二個(gè)層級(jí)模型提取得到第二級(jí)特征;第二級(jí)層級(jí)模塊得到的提取有第二級(jí)特征的張量輸出至第三級(jí)層級(jí)模塊,?由第三個(gè)層級(jí)模型提取得到第三級(jí)特征;第三級(jí)層級(jí)模塊得到的提取有第三級(jí)特征的張量輸出至第四個(gè)層級(jí)模塊,?由第四個(gè)層級(jí)模型提取得到第四級(jí)特征;
7、步驟3、令骨干特征提取器中四個(gè)層級(jí)模塊分別得到的提取有相應(yīng)級(jí)特征的張量,分別送入至并行分支密集感受野特征提取模塊;
8、所述并行分支密集感受野特征提取模塊包括四個(gè)并行的子模塊,每個(gè)子模塊分別包括局部分支和全局分支;?四個(gè)子模塊一一對(duì)應(yīng)接收骨干特征提取器中四個(gè)層級(jí)模塊輸出的提取有相應(yīng)級(jí)特征的張量;每個(gè)子模塊分別在自身局部分支和全局分支中利用密集遞進(jìn)相連的深度可分離卷積塊從提取有對(duì)應(yīng)級(jí)特征的張量中提取出對(duì)應(yīng)級(jí)多尺度上下文特征;
9、步驟4、令并行分支密集感受野特征提取模塊中四個(gè)子模塊分別得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量,?以及骨干特征提取器中第一級(jí)層級(jí)模塊、第二級(jí)層級(jí)模塊、第三級(jí)層級(jí)模塊分別得到的提取有相應(yīng)級(jí)特征的張量,分別送入至使用快速注意力引導(dǎo)的多級(jí)特征交互模塊;
10、所述多級(jí)特征交互模塊包括三級(jí)依次級(jí)聯(lián)的分模塊,其中:
11、第三級(jí)分模塊以并行分支密集感受野特征提取模塊中第三個(gè)子模塊得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量、第四個(gè)子模塊得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量,?以及骨干特征提取器中第三級(jí)層級(jí)模塊得到的提取有相應(yīng)級(jí)特征的張量作為輸入,?由第三級(jí)分模塊進(jìn)行特征融合后得到具有第三級(jí)融合特征的張量;
12、第二級(jí)分模塊以第三級(jí)分模塊得到的具有第三級(jí)融合特征的張量、并行分支密集感受野特征提取模塊中第二個(gè)子模塊得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量,?以及骨干特征提取器中第二級(jí)層級(jí)模塊得到的提取有相應(yīng)級(jí)特征的張量作為輸入,?由第二級(jí)分模塊進(jìn)行特征融合后得到具有第二級(jí)融合特征的張量;
13、第一級(jí)分模塊以第二級(jí)分模塊得到的具有第二級(jí)融合特征的張量、并行分支密集感受野特征提取模塊中第一個(gè)子模塊得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量,以及骨干特征提取器中第一級(jí)層級(jí)模塊得到的提取有相應(yīng)級(jí)特征的張量作為輸入,由第一級(jí)分模塊進(jìn)行特征融合后得到具有第一級(jí)融合特征的張量;
14、最終,由所述多級(jí)特征交互模塊輸出第一級(jí)分模塊得到的具有第一級(jí)融合特征的張量,由此完成待檢測(cè)圖像的目標(biāo)檢測(cè)。
15、進(jìn)一步的,步驟3中,所述并行分支密集感受野特征提取模塊的每個(gè)子模塊的局部分支中,首先通過兩個(gè)卷積層對(duì)輸入的提取有對(duì)應(yīng)級(jí)特征的張量進(jìn)行通道數(shù)的調(diào)整;接著采用四個(gè)深度可分離卷積塊分別從調(diào)整后的圖像中提取局部特征;最后采用兩個(gè)卷積層對(duì)四個(gè)深度可分離卷積塊提取的不同尺度的局部特征進(jìn)行融合,由此在圖像中得到最終的局部特征。
16、進(jìn)一步的,步驟3中,所述并行分支密集感受野特征提取模塊的每個(gè)子模塊的全局分支中,首先對(duì)提取有對(duì)應(yīng)級(jí)特征的張量進(jìn)行自適應(yīng)最大池化后,再通過卷積層進(jìn)行通道數(shù)的調(diào)整;然后通過四個(gè)深度可分離卷積塊分別從調(diào)整后的圖像中提取全局特征;接著采用兩個(gè)卷積層對(duì)四個(gè)深度可分離卷積塊提取的不同尺度的全局特征進(jìn)行融合;最后通過雙線性插值法擴(kuò)大融合的全局特征的分辨率,由此在圖像中得到最終的全局特征。
17、進(jìn)一步的,步驟3中,所述并行分支密集感受野特征提取模塊的每個(gè)子模塊中,局部分支得到的最終局部特征和全局分支得到的最終全局特征,通過在通道維度上的連接和卷積層融合后,形成對(duì)應(yīng)級(jí)多尺度上下文特征。
18、進(jìn)一步的,步驟4中,第三級(jí)分模塊將并行分支密集感受野特征提取模塊中第四個(gè)子模塊得到的提取有對(duì)應(yīng)級(jí)多尺度上下文特征的張量,采樣至與第三級(jí)分模塊對(duì)應(yīng)級(jí)特征同樣的分辨率大小后,再作為第三級(jí)分模塊的輸入;
19、第二級(jí)分模塊將第三級(jí)分模塊輸出的具有第三級(jí)融合特征的張量采樣至與第二級(jí)分模塊對(duì)應(yīng)級(jí)特征同樣的分辨率大小后,再作為第二級(jí)分模塊的輸入;
20、第一級(jí)分模塊將第二級(jí)分模塊輸出的具有第二級(jí)融合特征的張量采樣至與第一級(jí)分模塊對(duì)應(yīng)級(jí)特征同樣的分辨率大小后,再作為第一級(jí)分模塊的輸入。
21、進(jìn)一步的,步驟4中,第三級(jí)分模塊將骨干特征提取器中第三級(jí)層級(jí)模塊提取的相應(yīng)級(jí)特征通過三個(gè)卷積層進(jìn)行通道數(shù)調(diào)整后,再與并行分支密集感受野特征提取模塊中第四個(gè)子模塊提取的對(duì)應(yīng)級(jí)多尺度上下文特征進(jìn)行逐像素相加,并與并行分支密集感受野特征提取模塊中第三個(gè)子模塊提取的對(duì)應(yīng)級(jí)多尺度上下文特征在通道上進(jìn)行連接,由此得到第三級(jí)融合特征;
22、第二級(jí)分模塊將骨干特征提取器中第二級(jí)層級(jí)模塊提取的相應(yīng)級(jí)特征通過三個(gè)卷積層進(jìn)行通道數(shù)調(diào)整后,再與第三級(jí)分模塊提取的第三級(jí)融合特征進(jìn)行逐像素相加,并與并行分支密集感受野特征提取模塊中第二個(gè)子模塊提取的對(duì)應(yīng)級(jí)多尺度上下文特征在通道上進(jìn)行連接,由此得到第二級(jí)融合特征;
23、第一級(jí)分模塊將骨干特征提取器中第一級(jí)層級(jí)模塊提取的相應(yīng)級(jí)特征通過三個(gè)卷積層進(jìn)行通道數(shù)調(diào)整后,再與第二級(jí)分模塊提取的第二級(jí)融合特征進(jìn)行逐像素相加,并與并行分支密集感受野特征提取模塊中第一個(gè)子模塊提取的對(duì)應(yīng)級(jí)多尺度上下文特征在通道上進(jìn)行連接,由此得到第一級(jí)融合特征。
24、本發(fā)明提供了一種具有密集感受野的自注意力轉(zhuǎn)換網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,通過以自注意力轉(zhuǎn)換網(wǎng)絡(luò)作為骨干特征提取器獲取圖像的各級(jí)特征,并將提取的特征饋送到并行分支密集感受野特征提取模塊和快速注意力引導(dǎo)的多級(jí)特征交互模塊,從而將偽裝于背景中的目標(biāo)識(shí)別并分割出來。
25、在方法的初始階段,本發(fā)明采用分層的視覺深度自注意力網(wǎng)絡(luò)作為主要的特征提取器,以捕獲具有全局關(guān)聯(lián)性的特征。
26、為了擴(kuò)展特征的有效感受區(qū)域,本發(fā)明將這些特征輸入到并行分支密集感受野特征提取模塊中。該模塊結(jié)合了局部和全局兩個(gè)并行分支,通過一系列深度可分離的卷積塊來提取多層次的上下文信息。
27、本發(fā)明還設(shè)計(jì)快速注意力引導(dǎo)的多級(jí)特征交互模塊來整合不同層級(jí)的特征。這一步驟使得模型能夠?qū)⒆⒁饬Ω械刂赶騻窝b目標(biāo)的關(guān)鍵區(qū)域,同時(shí)排除那些非偽裝區(qū)域的干擾,從而得到更清晰的偽裝目標(biāo)表示。此外,本發(fā)明還利用每一層的特征來預(yù)測(cè)偽裝映射,并通過深度監(jiān)督確保不同層級(jí)間的空間一致性。
28、與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案的有益效果是:
29、1、本發(fā)明提出的具有密集感受野的自注意力轉(zhuǎn)換網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,能夠更為有效的捕捉和利用全局依賴關(guān)系,具有更強(qiáng)的魯棒性,在各種復(fù)雜困難場(chǎng)景下,能更準(zhǔn)確地檢測(cè)出偽裝目標(biāo)。
30、2、本技術(shù)在浮點(diǎn)運(yùn)算量和模型參數(shù)數(shù)量方面表現(xiàn)出顯著的優(yōu)勢(shì),使其在多種應(yīng)用場(chǎng)景中具有廣泛的適用性。根據(jù)特定任務(wù)對(duì)精度的需求以及多媒體設(shè)備處理能力的不同,用戶可以選擇合適的技術(shù)版本進(jìn)行部署。這種靈活性進(jìn)一步突顯了本技術(shù)在性能上的優(yōu)勢(shì)和適應(yīng)性。