本發(fā)明公開(kāi)一種基于大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法,屬于計(jì)算機(jī)視覺(jué)中的圖像分割。
背景技術(shù):
1、語(yǔ)義分割是一項(xiàng)至關(guān)重要的計(jì)算機(jī)視覺(jué)任務(wù),目前已廣泛應(yīng)用于自動(dòng)駕駛、醫(yī)學(xué)影像分析、視頻監(jiān)控和機(jī)器人視覺(jué)等領(lǐng)域,隨著深度神經(jīng)網(wǎng)絡(luò)和多模態(tài)大模型的高速發(fā)展,語(yǔ)義分割領(lǐng)域已經(jīng)取得了許多重要的突破。傳統(tǒng)的語(yǔ)義分割需要人工進(jìn)行像素級(jí)的標(biāo)注來(lái)預(yù)測(cè)圖像中每個(gè)像素的類(lèi)別,由于像素級(jí)標(biāo)注的費(fèi)時(shí)費(fèi)力,研究者們提出了弱監(jiān)督語(yǔ)義分割方法,通過(guò)使用稀疏的標(biāo)注如涂鴉、邊界框、點(diǎn)和圖像級(jí)標(biāo)簽來(lái)進(jìn)行分割訓(xùn)練,這極大地減輕了像素級(jí)標(biāo)注的成本。其中,圖像級(jí)標(biāo)簽僅需提供圖像的類(lèi)別信息,因最容易獲取而受到廣泛的研究,基于圖像級(jí)標(biāo)簽的弱監(jiān)督語(yǔ)義分割任務(wù)通常遵循以下三步流程:(1)首先使用圖像級(jí)標(biāo)簽訓(xùn)練一個(gè)分類(lèi)網(wǎng)絡(luò),以生成具有位置和類(lèi)別信息的類(lèi)激活映射;(2)然后使用條件隨機(jī)場(chǎng)和語(yǔ)義親和力等技術(shù)將類(lèi)激活映射細(xì)化為像素級(jí)的分割偽標(biāo)簽;(3)最后使用生成的分割偽標(biāo)簽作為像素級(jí)監(jiān)督訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)。
2、然而,類(lèi)激活映射提供的圖像級(jí)監(jiān)督信息與分割訓(xùn)練中需要的像素級(jí)監(jiān)督信息存在巨大的差距,遵循以上流程的弱監(jiān)督語(yǔ)義分割的主要問(wèn)題在于類(lèi)激活映射傾向于關(guān)注最具鑒別性的區(qū)域和錯(cuò)誤激活目標(biāo)類(lèi)別區(qū)域,這導(dǎo)致產(chǎn)生的分割偽標(biāo)簽不準(zhǔn)確,進(jìn)而為分割訓(xùn)練提供了不充足的監(jiān)督信息。為了緩解這個(gè)問(wèn)題,一些方法研究像素間的語(yǔ)義關(guān)系,使用相似性矩陣學(xué)習(xí)像素間的語(yǔ)義關(guān)聯(lián)性,并應(yīng)用隨機(jī)游走等方法來(lái)擴(kuò)散語(yǔ)義信息;另一些方法探究對(duì)語(yǔ)義信息的擦除或挖掘,使用區(qū)域擦除或挖掘技術(shù)去除或挖掘類(lèi)激活映射最具鑒別性的區(qū)域,促使其他目標(biāo)區(qū)域的激活,這類(lèi)方法一般存在過(guò)度擦除和過(guò)度挖掘的問(wèn)題,這將擾亂分類(lèi)網(wǎng)絡(luò)對(duì)目標(biāo)類(lèi)別的預(yù)測(cè)。其他一些更為直接的方法則是利用額外資源來(lái)增強(qiáng)監(jiān)督信息,這類(lèi)方法集中于有效地利用額外的易獲取資源,如顯著性圖、分布外數(shù)據(jù)、交叉圖像來(lái)縮短監(jiān)督差距。近年來(lái),多模態(tài)大模型如clip、sam等發(fā)展迅猛,其強(qiáng)大的零樣本泛化能力能夠很好的適應(yīng)如語(yǔ)義分割這樣的下游任務(wù),提高語(yǔ)義分割的性能,利用大模型進(jìn)行弱監(jiān)督語(yǔ)義分割為此受到大量研究且存在一定的挑戰(zhàn)性。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)以上技術(shù)問(wèn)題,本發(fā)明利用對(duì)比圖像文本對(duì)預(yù)訓(xùn)練模型(clip)作為額外的監(jiān)督信息,簡(jiǎn)單而有效。clip模型包含圖像和文本編碼器,在擁有4億個(gè)圖像文本對(duì)的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用對(duì)比學(xué)習(xí)在特征空間中對(duì)齊圖像和文本,能夠應(yīng)用于多種視覺(jué)任務(wù),展現(xiàn)出強(qiáng)大的零鏡頭分類(lèi)能力。通過(guò)clip提供更豐富的視覺(jué)和文本信息,緩解類(lèi)激活映射監(jiān)督信息不足的問(wèn)題,提升生成的偽標(biāo)簽的可靠性。
2、具體而言,本發(fā)明提供一種大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法,包括以下步驟:
3、s1、初始化視覺(jué)transformer和大模型clip,分別提取視覺(jué)特征;
4、s2、基于視覺(jué)transformer和clip的特征分別生成類(lèi)激活映射,并獲取視覺(jué)transformer的分類(lèi)結(jié)果;
5、s3、基于clip的多頭自注意力提取語(yǔ)義親和信息,生成輔助掩碼,從視覺(jué)transformer中獲取分割預(yù)測(cè),與掩碼計(jì)算輔助損失;
6、s4、使用高斯混合模型對(duì)輔助掩碼進(jìn)行噪聲檢測(cè),度量分布差異過(guò)濾噪聲像素;
7、s5、融合clip和視覺(jué)transformer的類(lèi)激活映射,利用后處理技術(shù)細(xì)化類(lèi)激活映射,得到偽標(biāo)簽,使用偽標(biāo)簽訓(xùn)練語(yǔ)義分割模型。
8、進(jìn)一步地,在步驟s1中,對(duì)于視覺(jué)transformer,使用imagenet預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù);對(duì)于clip,使用vit-b預(yù)訓(xùn)練模型。將圖像i∈rh×w×3和圖像級(jí)標(biāo)簽y∈r1×c同時(shí)輸入視覺(jué)transformer編碼器和clip模型中,分別提取類(lèi)別標(biāo)記tc∈rc×d、補(bǔ)丁標(biāo)記tp∈rn×d和clip視覺(jué)特征fc∈rh×w×d,對(duì)補(bǔ)丁標(biāo)記tp進(jìn)行重排列和卷積得到特征fv∈r(1+c)×h×w,過(guò)程如下:
9、fv=conv(reshape(tp∈rn×d))
10、fv可用作分割預(yù)測(cè),包含前景特征ffg∈rc×h×w和背景特征fbg∈r1×h×w。h和w分別是圖像的高度和寬度,n=h×w,c是類(lèi)別數(shù)目,d是特征維度。
11、進(jìn)一步地,在步驟s2中,對(duì)于視覺(jué)transformer,將步驟s1中提取的前景特征ffg經(jīng)過(guò)relu函數(shù)后得到初始的激活映射mv:
12、mv=relu(fv[1:,:,:])
13、將clip作為輔助網(wǎng)絡(luò),提取最后一層的特征fc∈rh×w×d,將特征的第k個(gè)通道上類(lèi)別c的權(quán)重與特征相乘求和再經(jīng)過(guò)relu函數(shù)得到初始的類(lèi)激活映射mc:
14、
15、計(jì)算視覺(jué)transformer中類(lèi)別標(biāo)記和補(bǔ)丁標(biāo)記的分類(lèi)結(jié)果,對(duì)于類(lèi)別標(biāo)記tc,進(jìn)行均值處理得到類(lèi)別c的預(yù)測(cè)概率pc;對(duì)于補(bǔ)丁標(biāo)記tp,使用全局平均池化得到類(lèi)別預(yù)測(cè)概率pp,然后對(duì)pc和pp計(jì)算多標(biāo)簽分類(lèi)損失,分別得到lcls_1和lcls_2,計(jì)算公式如下,其中σ(·)為sigmoid函數(shù):
16、
17、
18、進(jìn)一步地,在步驟s3中,基于clip中的多頭注意力機(jī)制得到注意力權(quán)重w∈rn×n,對(duì)w進(jìn)行正則化得到矩陣r,表示語(yǔ)義信息的最優(yōu)映射關(guān)系,對(duì)矩陣r進(jìn)行線性相加得到對(duì)稱的語(yǔ)義親和度矩陣a,t(·)代表轉(zhuǎn)置操作。然后將矩陣a進(jìn)行隨機(jī)游走傳播語(yǔ)義親和信息來(lái)改進(jìn)步驟s2中生成的mc得到對(duì)中每個(gè)像素的最大激活值進(jìn)行取反和計(jì)算冪次方,得到背景向量mbg,與拼接再使用argmax操作得到每個(gè)像素的類(lèi)別索引,將索引轉(zhuǎn)換為類(lèi)別標(biāo)簽得到最終的輔助掩碼yaux,具體過(guò)程如下:
19、
20、
21、將包含背景信息的特征fv用作分割預(yù)測(cè),使用交叉熵?fù)p失得到輔助掩碼yaux和分割預(yù)測(cè)fv的輔助損失,作為額外的監(jiān)督信息,公式如下:
22、
23、進(jìn)一步地,在步驟s4中,使用高斯混合模型對(duì)輔助掩碼進(jìn)行噪聲檢測(cè),度量分布差異過(guò)濾噪聲像素。建立包含兩個(gè)高斯分布的高斯混合模型擬合輔助損失值過(guò)高的像素,使用高斯概率密度函數(shù)實(shí)現(xiàn),公式如下:
24、
25、其中σ2為方差,μ為平均值,利用高斯混合分布的權(quán)重系數(shù)αk組合兩個(gè)分布,公式如下:
26、
27、對(duì)高斯混合模型進(jìn)行參數(shù)初始化,使用期望最大化算法估計(jì)分布情況,當(dāng)兩個(gè)分布的均值差大于設(shè)定閾值時(shí)認(rèn)為該像素存在噪聲,在期望步驟中計(jì)算此像素屬于噪聲的概率γk(x),將高噪聲概率的像素記為255,表示忽略此噪聲像素,不參與接下來(lái)的訓(xùn)練過(guò)程。然后在最大化步驟中使用γk(x)來(lái)更新所有高斯分布的參數(shù)μk、和αk,過(guò)程如下:
28、
29、
30、通過(guò)重復(fù)期望步驟和最大化步驟,當(dāng)兩個(gè)分布的參數(shù)變化小于預(yù)設(shè)值或達(dá)到最大迭代次數(shù)時(shí)結(jié)束建模。
31、進(jìn)一步地,在步驟s5中,使用clip生成的改進(jìn)類(lèi)激活映射作為指導(dǎo)信息,與視覺(jué)transformer生成的類(lèi)激活映射mv進(jìn)行權(quán)重相加,β作為權(quán)重系數(shù),得到最終的類(lèi)激活映射mfinal,過(guò)程如下:
32、
33、通過(guò)后處理技術(shù)傳播語(yǔ)義信息,得到最終的分割偽標(biāo)簽,使用偽標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)完成圖像的語(yǔ)義分割。
34、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
35、本發(fā)明利用大模型提供輔助監(jiān)督,有效解決了弱監(jiān)督語(yǔ)義分割存在的監(jiān)督差異問(wèn)題,利用凍結(jié)的clip模型生成的額外信息能夠幫助主干網(wǎng)絡(luò)獲得高質(zhì)量的像素級(jí)偽標(biāo)簽,為分割訓(xùn)練提供更精確的監(jiān)督。其次,設(shè)計(jì)了類(lèi)激活映射融合和掩碼降噪,提升了類(lèi)激活映射質(zhì)量,進(jìn)一步增強(qiáng)了輔助監(jiān)督,在分割性能方面有顯著提高。