本發(fā)明屬于圖像處理,具體涉及一種集成注意力機制的多尺度圖像處理方法。
背景技術:
1、在圖像處理技術領域,隨著深度學習的快速發(fā)展,越來越多的研究者關注如何有效提取和利用圖像中的特征信息。傳統(tǒng)的圖像處理方法往往依賴于手工設計的特征,難以應對復雜場景和多樣化的輸入數(shù)據(jù)。為了解決這一問題,研究人員引入了多尺度特征融合模塊,通過同時處理不同尺度的特征,從而獲得更全面的圖像信息。這種方法不僅可以捕捉到圖像中的細節(jié)特征,還能有效整合全局上下文信息,顯著提升模型的表現(xiàn)。
2、同時,注意力機制的引入進一步增強了特征提取的能力。通過動態(tài)調(diào)整特征權(quán)重,注意力模塊能夠自動關注圖像中最重要的部分,抑制不相關的信息。這種機制使得模型在處理復雜場景時,能夠更好地聚焦于關鍵特征,提升了目標檢測、圖像分割等任務的準確性。結(jié)合多尺度特征融合與注意力機制的優(yōu)勢,現(xiàn)代圖像處理系統(tǒng)在精度、魯棒性和效率上都有了顯著提升,為各種應用場景(如醫(yī)學影像分析、自動駕駛視覺系統(tǒng)等)提供了強大的技術支持。
3、本發(fā)明提出來一種新的特征提取方法,能同時捕捉不同尺度的特征,確保細節(jié)與全局信息并存,同時可以動態(tài)聚焦于關鍵信息,解決了信息丟失導致特征提取不全面的問題。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供出一種集成注意力機制的多尺度圖像處理方法,通過編碼器生成層次化特征圖,并將其依次傳輸至多尺度特征融合(sdi)模塊和注意力(resgam)模塊進行提煉,增強特征表達能力,從而提取全新的特征信息。
2、本發(fā)明通過以下技術方案實現(xiàn):
3、步驟一:輸入原始圖像,利用編碼器生成層次化特征圖,以提取相應的特征圖信息;
4、步驟二:將編碼器生成的特征集合傳輸至多尺度特征融合(sdi)模塊進行提煉,增強特征表達能力;
5、步驟三:將提煉好的特征圖輸入注意力(resgam)模塊,進一步提升模型的特征表達能力和決策準確性,從而提取全新的特征圖信息;
6、步驟四:將提取到的特征信息傳輸至解碼器得出輸出圖。
7、進一步,所述的步驟一具體為:將isic?2017數(shù)據(jù)集的70%劃分為訓練集,30%劃分為測試集,并采用u-netv2作為特征提取網(wǎng)絡,對訓練圖片進行訓練,以生成層次化特征圖并提取特征信息。
8、進一步,所述的步驟二具體為:將提取到的層次化特征分別輸入多尺度特征融合(sdi)模塊進行語義和細節(jié)的注入,它首先對于每個層級進行局部和全局信息加權(quán)處理,使特征圖能夠整合局部空間信息和全局通道信息,接著使用逐點卷積減少特征圖的通道數(shù),以適應網(wǎng)絡的后續(xù)處理。
9、進一步,所述的多尺度特征融合(sdi)模塊具體為:sdi模塊對特征信息進行五個步驟的處理,首先,sdi模塊接收由編碼器生成m層級的特征,第i層級的特征表示為特征集合表示為對每層級i的特征局部和全局信息加權(quán),得到具體的計算表達式如下:
10、
11、其中表示第i層處理后的特征圖,和分別表示第i層的全局和局部信息加權(quán)的參數(shù);
12、再使用逐點卷積減少的通道,得到特征圖其中其中hi、wi和c分別表示的寬度、高度和通道;
13、接下來,使用作為目標參考,將每個j層級的特征圖的尺寸大小調(diào)整到與相匹配,具體的計算表達式如下:
14、
15、其中d、i和u分別表示自適應平均池化、恒等映射和雙線性插值,將調(diào)整到hi×wi的尺寸大小,其中1≤i,j≤m;
16、然后,對調(diào)整尺寸大小后的特征圖應用平滑卷積,得到具體的計算表達式如下:
17、
18、其中θij表示平滑卷積的參數(shù),表示第i層的第j個平滑后的特征圖;
19、最后,將所有第i層的特征圖調(diào)整到相同尺寸大小后,對所有調(diào)整大小的特征圖應用逐元素的哈達瑪積,具體的計算表達式如下:
20、
21、其中h(·)表示哈達瑪積。
22、進一步,所述的步驟三具體為:將提煉好的特征圖輸入注意力(resgam)模塊,特征圖局部和全局信息進行加權(quán)處理,旨在減少信息損失,使之細節(jié)不易丟失,增強全局維度的交互特征。
23、進一步,所述的注意力(resgam)模塊具體為:將特征圖輸入resgam模塊,在resgam內(nèi)部的層之間添加跳躍連接,使得輸入能夠更快地向前傳播,具體的公式如下:
24、
25、其中ms,mc分別表示全局和局部信息加權(quán)處理;
26、對于全局信息,resgam最初使用3d排列來保留三維信息,隨后,它使用兩層前饋神經(jīng)網(wǎng)絡來放大跨緯度的通道-空間依賴性,具體的公式如下:
27、mc(f)=σ[reversepermutation(mlp(permutation(f)))]
28、其中mc(f)表示全局信息加權(quán),permutation表示3d排列,reversepermutation表示反向3d排列,σ表示sigmoid函數(shù);
29、對于局部信息,resgam使用兩個大卷積層來整合空間信息,具體的公式如下:
30、ms(f)=σ[bn(f7×7(bn+relu(f7×7(f))))]
31、其中ms(f)表示局部信息加權(quán),bn表示批量歸一化,relu表示一種激活函數(shù),f7×7表示大卷積層。
32、進一步,所述的步驟四具體為:通過sdi模塊對輸入的特征信息進行細致的提煉,該模塊旨在從不同的特征中捕捉到豐富的信息,接著,這些信息進入resgam進行進一步加工,生成處理后的輸出圖像,形成一個完整的圖像處理鏈,確保最終結(jié)果的質(zhì)量與精確度。
33、本發(fā)明的有益效果如下:
34、本發(fā)明通過將多尺度特征融合(sdi)模塊和注意力(resgam)模塊結(jié)合,增強了模型的特征表達能力,提高了決策準確性和模型魯棒性,減少了信息丟失并優(yōu)化了計算效率,為圖像特征信息的提取提供了創(chuàng)新的解決方法。
1.一種集成注意力機制的多尺度圖像處理方法,其特征在于,所述的一種集成注意力機制的多尺度圖像處理方法包括如下步驟:
2.如權(quán)利要求1中所述的方法,其特征在于,所述的步驟一具體為:將isic?2017數(shù)據(jù)集的70%劃分為訓練集,30%劃分為測試集,并采用u-netv2作為特征提取網(wǎng)絡,對訓練圖片進行訓練,以生成層次化特征圖并提取特征信息。
3.如權(quán)利要求1中所述的方法,其特征在于,所述的步驟二具體為:將提取到的層次化特征分別輸入多尺度特征融合(sdi)模塊進行語義和細節(jié)的注入,它首先對于每個層級進行局部和全局信息加權(quán)處理,使特征圖能夠整合局部空間信息和全局通道信息,接著使用逐點卷積減少特征圖的通道數(shù),以適應網(wǎng)絡的后續(xù)處理。
4.如權(quán)利要求3中所述的方法,其特征在于,所述的多尺度特征融合(sdi)模塊具體為:sdi模塊對特征信息進行五個步驟的處理,首先,sdi模塊接收由編碼器生成m層級的特征,第i層級的特征表示為fi0,特征集合表示為對每層級i的特征局部和全局信息加權(quán),得到具體的計算表達式如下:
5.如權(quán)利要求1中所述的方法,其特征在于,所述的步驟三具體為:將提煉好的特征圖輸入注意力(resgam)模塊,特征圖局部和全局信息進行加權(quán)處理,旨在減少信息損失,使之細節(jié)不易丟失,增強全局維度的交互特征。
6.如權(quán)利要求5中所述的方法,其特征在于,所述的注意力(resgam)模塊具體為:將特征圖輸入resgam模塊,在resgam內(nèi)部的層之間添加跳躍連接,使得輸入能夠更快地向前傳播,具體的公式如下:
7.如權(quán)利要求1中所述的方法,其特征在于,所述的步驟四具體為:通過sdi模塊對輸入的特征信息進行細致的提煉,該模塊旨在從不同的特征中捕捉到豐富的信息,接著,這些信息進入resgam進行進一步加工,生成處理后的輸出圖像,形成一個完整的圖像處理鏈,確保最終結(jié)果的質(zhì)量與精確度。