本發(fā)明屬于圖像處理處理、圖像超分辨率重建等,尤其涉及一種基于可靠注意力的立體圖像超分辨率重建方法,可應(yīng)用于工業(yè)檢測、醫(yī)學(xué)成像、洪水淹沒圖像識別和交通道路塌陷場景識別等場景。
背景技術(shù):
1、不同于單幅圖像超分辨率重建,立體圖像超分辨率重建旨在利用另一視角的補(bǔ)充信息,將一對低分辨率圖像恢復(fù)成高分辨率圖像。在現(xiàn)實(shí)場景中有很多應(yīng)用,如工業(yè)檢測中,準(zhǔn)確的立體圖像可以更精確地測量制造的零件,從而確保卓越的質(zhì)量控制;醫(yī)學(xué)成像中,更清晰、更詳細(xì)的圖像有助于準(zhǔn)確測量解剖結(jié)構(gòu)。但是,如何充分利用另一視角的補(bǔ)充信息是一項(xiàng)挑戰(zhàn)。
2、為了解決這一問題,現(xiàn)有技術(shù)提出了一些結(jié)合注意力機(jī)制的方法。例如,wang等引入了一種沿極線具有全局感受野的視差注意機(jī)制(pam),可以處理具有較大視差變化的不同立體圖像。隨后,ying等提出了一種通用的立體注意模塊(sam),可以將其集成到任意的單幅圖像超分辨率重建模型中,從而產(chǎn)生更清晰的立體圖像。song等人提出一種自視差注意機(jī)制(spam),可以同時(shí)聚合原始圖像和另一幅圖像中的信息。zhu等提出了一種跨視圖網(wǎng)絡(luò)(cvcnet),可以從全局視圖和極線中捕獲跨視圖信息。lin等提出了基于transformer的高效立體圖像超分辨率網(wǎng)絡(luò)(stereformer),巧妙地結(jié)合了卷積和transformer的優(yōu)點(diǎn),取得了顯著的性能。chu等開發(fā)了nafssr網(wǎng)絡(luò),該網(wǎng)絡(luò)使用非線性無激活塊進(jìn)行視圖內(nèi)特征提取,使用立體交叉注意模塊(scam)進(jìn)行跨視圖特征交互。gao等提出了一種混合尺度選擇性融合網(wǎng)絡(luò)(mssfnet),可以自適應(yīng)地從兩個(gè)角度選擇和融合最準(zhǔn)確的特征。
3、然而,并非所有來自另一個(gè)視角的特征都是可靠或有用的。一些特征在重建過程中受到退化、失真等不利影響,使得視差注意變得不可靠,會對圖像重建的性能產(chǎn)生不利影響。
4、單幅圖像超分辨率重建旨在將一張低分辨率圖像重建成高分辨率圖像,然而這種方法只能利用視圖內(nèi)信息,對立體圖像的超分辨率重建沒有太大提升。為了解決這一問題,研究人員提出了立體圖像超分辨率重建的方法,通過利用另一視角的補(bǔ)充信息來增強(qiáng)圖像恢復(fù)的性能。但是,從另一個(gè)角度學(xué)習(xí)所有信息非常耗時(shí),而且并非所有信息都有用。后續(xù),研究人員在左右視圖特征交互階段引入注意力機(jī)制,來減少學(xué)習(xí)不必要的信息,這讓立體圖像超分辨率的性能有了很大的提升。然而,通過注意力機(jī)制分配的權(quán)重是否絕對可靠,會不會因?yàn)樘卣魍嘶⑹д娴纫蛩氐挠绊懽屪⒁饬﹃P(guān)注到一些不可靠或者無用的特征,這是一個(gè)值得深思的問題。如說明書附圖1所示,通過可視化nafssr中的一張左視圖高分辨率圖像和真實(shí)圖像之間的差異以及訓(xùn)練過程中的不確定性,可以看到這些不確定性和差異非常接近,這表明在這些高不確定性區(qū)域中恢復(fù)的特征并不可靠。在特征交互階段,視差注意可能會關(guān)注不可靠的特征,這會對圖像重建的性能產(chǎn)生負(fù)面影響。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的以上問題,本發(fā)明提出了一種基于可靠注意力的立體圖像超分辨率網(wǎng)絡(luò)(rassr)。首先,提出了兩個(gè)模塊來實(shí)現(xiàn)特征質(zhì)量評估,同時(shí)保持特征提取能力:蒙特卡洛特征提取塊(mcfeblock)和特征補(bǔ)償模塊(fcm)。mcfeblock負(fù)責(zé)提取視圖間特征,并通過mcdropout方法為后續(xù)的特征篩選提供不確定性估計(jì)。fcm模塊通過包括大核卷積注意機(jī)制(lkca)在內(nèi)的一系列卷積操作彌補(bǔ)了由于dropout造成的信息丟失,從而豐富了圖像特征。此外,引入了一個(gè)特征調(diào)制模塊(fmm)來過濾掉不可靠的特征并對其進(jìn)行調(diào)制,確保它們的注意力和學(xué)習(xí)到的特征相對可靠。
2、本發(fā)明具體采用以下技術(shù)方案:
3、一種基于可靠注意力的立體圖像超分辨率重建方法;
4、通過不確定性估計(jì)篩選不可靠特征并對其進(jìn)行調(diào)制以改善低分辨率圖像的重建質(zhì)量;
5、通過蒙特卡洛特征提取塊mcfeblock提取深度特征和不確定性估計(jì);
6、通過mcdropout方法為特征篩選提供不確定性估計(jì);
7、通過特征調(diào)制模塊fmm過濾不可靠的特征并進(jìn)行調(diào)制。
8、進(jìn)一步地,所述蒙特卡洛特征提取塊mcfeblock包括深度信息提取器die和特征補(bǔ)償模塊fcm;所述特征補(bǔ)償模塊fcm用于補(bǔ)償mcdropout訓(xùn)練過程中神經(jīng)元丟失造成的特征損失。
9、進(jìn)一步地,采用基于可靠注意力的立體圖像超分辨率網(wǎng)絡(luò)進(jìn)行超分辨率重建,包括:初始特征提取、深度特征提取、特征交互和圖像重建四個(gè)部分;網(wǎng)絡(luò)的左右分支采用權(quán)重共享策略且特征提取過程相同:
10、首先,通過3×3卷積層從左右低分辨率圖像中提取其初始特征其中h×w表示空間維度,c表示通道數(shù),表示為:
11、
12、其中,和是左右低分辨率圖像,和是從左右低分辨率中提取的初始特征,c3x3是一個(gè)3×3的卷積操作;
13、然后,使用n個(gè)mcfeblocks和m個(gè)nafblocks進(jìn)行深度特征提??;每個(gè)mcfeblock和nafblock后面分別跟有fmm和scam,表述為:
14、
15、
16、
17、其中,和表示第i個(gè)mcfeblock和fmm,和表示第j個(gè)nafblock和scam,i∈(1,n),j∈(1,m),表示通過i個(gè)mcfeblock后的輸出,表示通過j個(gè)nafblock后的輸出,表示通過i+j個(gè)塊后的輸出之和;
18、最后,使用一個(gè)3×3的卷積層和shuffle層,以比例因子s對特征進(jìn)行上采樣;采用全局殘差學(xué)習(xí),僅預(yù)測雙線性上采樣的低分辨率圖像與真實(shí)圖像之間的殘差;表示為:
19、
20、其中,其中u↑表示雙線性插值,s↑表示shuffle層;表示左右高分辨率圖像。
21、進(jìn)一步地,所述深度信息提取器die表示為:
22、pre0=dro(ffn(dro(mvconv(fin)))
23、pre1=dro(ffn(dro(mbconv(fin)))
24、其中,fin表示輸入特征;pre0和pre1表示兩個(gè)不同的特征輸出;mbconv和ffn分別指nafblock中使用的移動卷積塊和前饋網(wǎng)絡(luò);dro表示隨機(jī)丟棄的神經(jīng)元層;
25、在訓(xùn)練階段,分別在每個(gè)mbconv層和前饋網(wǎng)絡(luò)ffn之后添加一個(gè)dropout層;通過循環(huán)兩次die獲得不同的輸出特征;再將兩個(gè)特征輸出連接起來,并計(jì)算它們的逐像素標(biāo)準(zhǔn)差作為近似不確定性估計(jì),將不確定性轉(zhuǎn)換為掩碼以過濾特征。
26、進(jìn)一步地,所述不確定性估計(jì)的具體方法為:
27、基于蒙特卡洛推理,通過使用隨機(jī)抽樣并反復(fù)運(yùn)行模型以估計(jì)模型不確定性;在預(yù)測過程中,對輸入樣本進(jìn)行多次前向傳遞,并根據(jù)這些預(yù)測的均值或方差估計(jì)不確定性;表示為:
28、
29、其中,unvertainty表示逐像素標(biāo)準(zhǔn)差;表示連接操作;mran和std表示平均值和標(biāo)準(zhǔn)差運(yùn)算。
30、進(jìn)一步地,將不確定性轉(zhuǎn)換為掩碼的方法為:在訓(xùn)練期間自適應(yīng)地使用每個(gè)不確定性估計(jì)的平均值+標(biāo)準(zhǔn)差作為閾值,將不確定性中的每個(gè)像素值與閾值進(jìn)行比較進(jìn)行賦值,表示如下:
31、
32、其中,m表示掩碼值,un表示不確定性的像素值;τ是在訓(xùn)練過程中自適應(yīng)獲得的閾值。
33、進(jìn)一步地,所述特征補(bǔ)償模塊fcm有兩個(gè)相同的分支,通過多卷積模塊mcm豐富視圖間特征,并將學(xué)習(xí)到的特征添加到對立特征中;
34、表示為:
35、
36、
37、
38、lkca=c5×5(c7×7(c1×1(sg(*))
39、其中,為最終補(bǔ)償后的特征,和為交互后的特征,avg為平均操作;
40、和是第一次和第二次預(yù)測的左右輸入特征,cn×n是n×n卷積運(yùn)算,sg為simplegate函數(shù),lkca是大核卷積注意力機(jī)制;
41、simplegate函數(shù)將輸入沿通道維度拆分為兩個(gè)特征x1,x2∈rh×w×c/2,
42、然后通過線性門計(jì)算輸出:
43、sg=x1⊙x2
44、其中,⊙是元素的乘積。
45、進(jìn)一步地,所述特征調(diào)制模塊fmm在賦予特征提取模塊質(zhì)量評估能力后,利用從mcfeblock獲得的不確定性掩碼以篩選待調(diào)制的特征:
46、在左視圖的調(diào)制過程中,對于不確定性較低的特征,直接輸出;對于不確定性較高的特征,通過n個(gè)循環(huán)交互模塊lim對特征進(jìn)行調(diào)制,然后輸出加權(quán)特征,如下所示:
47、
48、
49、
50、其中,是調(diào)制后的輸出特征,是低不確定性特征,是高不確定性特征,ml,r是高不確定性掩碼值;
51、然后,將左視圖的高不確定性特征和右視圖的低不確定性特征放入注意力交互模塊scam進(jìn)行學(xué)習(xí),得到有益于左視圖的右視圖可靠特征,左視圖逐漸將注意力轉(zhuǎn)移到可靠特征上;此外,利用通道注意力豐富左視圖中的特征;最后添加一個(gè)3×3的卷積塊;右視圖的注意力也通過相同機(jī)制以得到提升;過程如下:
52、
53、
54、
55、
56、
57、其中,limn表示lim模塊循環(huán)n次,c3×3為3×3卷積操作,為每次lim模塊調(diào)制后的輸出,為左視圖對右視圖有益的特征,為右視圖對左視圖有益的特征,ca為通道注意力機(jī)制。
58、進(jìn)一步地,所述注意力交互模塊scam用于融合左右視圖的特征以捕獲相似信息;采用scaled?dotproduct?attention,涉及計(jì)算查詢和鍵之間的點(diǎn)積,然后應(yīng)用softmax函數(shù)以生成分配給相應(yīng)值的權(quán)重:
59、
60、其中,是通過源跨視圖特征投影的查詢矩陣,是通過目標(biāo)跨視圖特征投影的鍵、值矩陣:
61、
62、
63、fl=γlfr→l+xl
64、fr=γrfl→r+xr
65、其中,和是投影矩陣,γl和γr是可學(xué)習(xí)的縮放參數(shù),att是scaled?dotproductattention。
66、進(jìn)一步地,所述立體圖像超分辨率網(wǎng)絡(luò)采用的損失函數(shù)如下:
67、
68、
69、其中,和表示左右真實(shí)圖像,和表示左右高分辨率圖像,λ為權(quán)重;
70、對于頻域損失,使用頻率charbonnier損失函數(shù),如下所示:
71、
72、其中,表示快速傅里葉變換。
73、由于本發(fā)明方法及模型一般以計(jì)算機(jī)程序的形式通過計(jì)算機(jī)系統(tǒng)進(jìn)行實(shí)現(xiàn),因此,本發(fā)明還提供一種終端設(shè)備,包括存儲器、處理器及存儲在存儲器中并能夠在處理器上運(yùn)行的計(jì)算機(jī)程序,存儲器中存儲有能夠在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器加載并執(zhí)行計(jì)算機(jī)程序時(shí),采用如上所述的方法。
74、與現(xiàn)有技術(shù)相比,本發(fā)明及其優(yōu)選方案引入不確定性的概念,通過不確定性估計(jì)值來篩選不可靠特征對其進(jìn)行調(diào)制以改善低分辨率圖像的重建質(zhì)量。具體來說,提出了一種基于可靠注意的立體圖像超分辨率網(wǎng)絡(luò)(rassr)。主要設(shè)計(jì)了三個(gè)模塊,即蒙特卡洛特征提取模塊(mcfeblock)、特征補(bǔ)償模塊(fcm)和特征調(diào)制模塊(fmm)。mcfeblock用于提取深度特征和不確定性估計(jì),fcm用于補(bǔ)償mcdropout訓(xùn)練期間的特征損失,而在特征交互過程中,fmm選擇高不確定性特征對其進(jìn)行調(diào)制以使其視差注意相對可靠。