一種基于大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法

文檔序號(hào)：40390026發(fā)布日期：2024-12-20 12:13閱讀：17來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明公開(kāi)一種基于大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法，屬于計(jì)算機(jī)視覺(jué)中的圖像分割。

背景技術(shù)：

1、語(yǔ)義分割是一項(xiàng)至關(guān)重要的計(jì)算機(jī)視覺(jué)任務(wù)，目前已廣泛應(yīng)用于自動(dòng)駕駛、醫(yī)學(xué)影像分析、視頻監(jiān)控和機(jī)器人視覺(jué)等領(lǐng)域，隨著深度神經(jīng)網(wǎng)絡(luò)和多模態(tài)大模型的高速發(fā)展，語(yǔ)義分割領(lǐng)域已經(jīng)取得了許多重要的突破。傳統(tǒng)的語(yǔ)義分割需要人工進(jìn)行像素級(jí)的標(biāo)注來(lái)預(yù)測(cè)圖像中每個(gè)像素的類(lèi)別，由于像素級(jí)標(biāo)注的費(fèi)時(shí)費(fèi)力，研究者們提出了弱監(jiān)督語(yǔ)義分割方法，通過(guò)使用稀疏的標(biāo)注如涂鴉、邊界框、點(diǎn)和圖像級(jí)標(biāo)簽來(lái)進(jìn)行分割訓(xùn)練，這極大地減輕了像素級(jí)標(biāo)注的成本。其中，圖像級(jí)標(biāo)簽僅需提供圖像的類(lèi)別信息，因最容易獲取而受到廣泛的研究，基于圖像級(jí)標(biāo)簽的弱監(jiān)督語(yǔ)義分割任務(wù)通常遵循以下三步流程：(1)首先使用圖像級(jí)標(biāo)簽訓(xùn)練一個(gè)分類(lèi)網(wǎng)絡(luò)，以生成具有位置和類(lèi)別信息的類(lèi)激活映射；(2)然后使用條件隨機(jī)場(chǎng)和語(yǔ)義親和力等技術(shù)將類(lèi)激活映射細(xì)化為像素級(jí)的分割偽標(biāo)簽；(3)最后使用生成的分割偽標(biāo)簽作為像素級(jí)監(jiān)督訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)。

2、然而，類(lèi)激活映射提供的圖像級(jí)監(jiān)督信息與分割訓(xùn)練中需要的像素級(jí)監(jiān)督信息存在巨大的差距，遵循以上流程的弱監(jiān)督語(yǔ)義分割的主要問(wèn)題在于類(lèi)激活映射傾向于關(guān)注最具鑒別性的區(qū)域和錯(cuò)誤激活目標(biāo)類(lèi)別區(qū)域，這導(dǎo)致產(chǎn)生的分割偽標(biāo)簽不準(zhǔn)確，進(jìn)而為分割訓(xùn)練提供了不充足的監(jiān)督信息。為了緩解這個(gè)問(wèn)題，一些方法研究像素間的語(yǔ)義關(guān)系，使用相似性矩陣學(xué)習(xí)像素間的語(yǔ)義關(guān)聯(lián)性，并應(yīng)用隨機(jī)游走等方法來(lái)擴(kuò)散語(yǔ)義信息；另一些方法探究對(duì)語(yǔ)義信息的擦除或挖掘，使用區(qū)域擦除或挖掘技術(shù)去除或挖掘類(lèi)激活映射最具鑒別性的區(qū)域，促使其他目標(biāo)區(qū)域的激活，這類(lèi)方法一般存在過(guò)度擦除和過(guò)度挖掘的問(wèn)題，這將擾亂分類(lèi)網(wǎng)絡(luò)對(duì)目標(biāo)類(lèi)別的預(yù)測(cè)。其他一些更為直接的方法則是利用額外資源來(lái)增強(qiáng)監(jiān)督信息，這類(lèi)方法集中于有效地利用額外的易獲取資源，如顯著性圖、分布外數(shù)據(jù)、交叉圖像來(lái)縮短監(jiān)督差距。近年來(lái)，多模態(tài)大模型如clip、sam等發(fā)展迅猛，其強(qiáng)大的零樣本泛化能力能夠很好的適應(yīng)如語(yǔ)義分割這樣的下游任務(wù)，提高語(yǔ)義分割的性能，利用大模型進(jìn)行弱監(jiān)督語(yǔ)義分割為此受到大量研究且存在一定的挑戰(zhàn)性。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)以上技術(shù)問(wèn)題，本發(fā)明利用對(duì)比圖像文本對(duì)預(yù)訓(xùn)練模型(clip)作為額外的監(jiān)督信息，簡(jiǎn)單而有效。clip模型包含圖像和文本編碼器，在擁有4億個(gè)圖像文本對(duì)的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練，使用對(duì)比學(xué)習(xí)在特征空間中對(duì)齊圖像和文本，能夠應(yīng)用于多種視覺(jué)任務(wù)，展現(xiàn)出強(qiáng)大的零鏡頭分類(lèi)能力。通過(guò)clip提供更豐富的視覺(jué)和文本信息，緩解類(lèi)激活映射監(jiān)督信息不足的問(wèn)題，提升生成的偽標(biāo)簽的可靠性。

2、具體而言，本發(fā)明提供一種大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法，包括以下步驟：

3、s1、初始化視覺(jué)transformer和大模型clip，分別提取視覺(jué)特征；

4、s2、基于視覺(jué)transformer和clip的特征分別生成類(lèi)激活映射，并獲取視覺(jué)transformer的分類(lèi)結(jié)果；

5、s3、基于clip的多頭自注意力提取語(yǔ)義親和信息，生成輔助掩碼，從視覺(jué)transformer中獲取分割預(yù)測(cè)，與掩碼計(jì)算輔助損失；

6、s4、使用高斯混合模型對(duì)輔助掩碼進(jìn)行噪聲檢測(cè)，度量分布差異過(guò)濾噪聲像素；

7、s5、融合clip和視覺(jué)transformer的類(lèi)激活映射，利用后處理技術(shù)細(xì)化類(lèi)激活映射，得到偽標(biāo)簽，使用偽標(biāo)簽訓(xùn)練語(yǔ)義分割模型。

8、進(jìn)一步地，在步驟s1中，對(duì)于視覺(jué)transformer，使用imagenet預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)；對(duì)于clip，使用vit-b預(yù)訓(xùn)練模型。將圖像i∈rh×w×3和圖像級(jí)標(biāo)簽y∈r1×c同時(shí)輸入視覺(jué)transformer編碼器和clip模型中，分別提取類(lèi)別標(biāo)記tc∈rc×d、補(bǔ)丁標(biāo)記tp∈rn×d和clip視覺(jué)特征fc∈rh×w×d，對(duì)補(bǔ)丁標(biāo)記tp進(jìn)行重排列和卷積得到特征fv∈r(1+c)×h×w，過(guò)程如下：

9、fv＝conv(reshape(tp∈rn×d))

10、fv可用作分割預(yù)測(cè)，包含前景特征ffg∈rc×h×w和背景特征fbg∈r1×h×w。h和w分別是圖像的高度和寬度，n＝h×w，c是類(lèi)別數(shù)目，d是特征維度。

11、進(jìn)一步地，在步驟s2中，對(duì)于視覺(jué)transformer，將步驟s1中提取的前景特征ffg經(jīng)過(guò)relu函數(shù)后得到初始的激活映射mv：

12、mv＝relu(fv[1:,:,:])

13、將clip作為輔助網(wǎng)絡(luò)，提取最后一層的特征fc∈rh×w×d，將特征的第k個(gè)通道上類(lèi)別c的權(quán)重與特征相乘求和再經(jīng)過(guò)relu函數(shù)得到初始的類(lèi)激活映射mc：

14、

15、計(jì)算視覺(jué)transformer中類(lèi)別標(biāo)記和補(bǔ)丁標(biāo)記的分類(lèi)結(jié)果，對(duì)于類(lèi)別標(biāo)記tc，進(jìn)行均值處理得到類(lèi)別c的預(yù)測(cè)概率pc；對(duì)于補(bǔ)丁標(biāo)記tp，使用全局平均池化得到類(lèi)別預(yù)測(cè)概率pp，然后對(duì)pc和pp計(jì)算多標(biāo)簽分類(lèi)損失，分別得到lcls_1和lcls_2，計(jì)算公式如下，其中σ(·)為sigmoid函數(shù)：

16、

17、

18、進(jìn)一步地，在步驟s3中，基于clip中的多頭注意力機(jī)制得到注意力權(quán)重w∈rn×n，對(duì)w進(jìn)行正則化得到矩陣r，表示語(yǔ)義信息的最優(yōu)映射關(guān)系，對(duì)矩陣r進(jìn)行線性相加得到對(duì)稱的語(yǔ)義親和度矩陣a，t(·)代表轉(zhuǎn)置操作。然后將矩陣a進(jìn)行隨機(jī)游走傳播語(yǔ)義親和信息來(lái)改進(jìn)步驟s2中生成的mc得到對(duì)中每個(gè)像素的最大激活值進(jìn)行取反和計(jì)算冪次方，得到背景向量mbg，與拼接再使用argmax操作得到每個(gè)像素的類(lèi)別索引，將索引轉(zhuǎn)換為類(lèi)別標(biāo)簽得到最終的輔助掩碼yaux，具體過(guò)程如下：

19、

20、

21、將包含背景信息的特征fv用作分割預(yù)測(cè)，使用交叉熵?fù)p失得到輔助掩碼yaux和分割預(yù)測(cè)fv的輔助損失，作為額外的監(jiān)督信息，公式如下：

22、

23、進(jìn)一步地，在步驟s4中，使用高斯混合模型對(duì)輔助掩碼進(jìn)行噪聲檢測(cè)，度量分布差異過(guò)濾噪聲像素。建立包含兩個(gè)高斯分布的高斯混合模型擬合輔助損失值過(guò)高的像素，使用高斯概率密度函數(shù)實(shí)現(xiàn)，公式如下：

24、

25、其中σ2為方差，μ為平均值，利用高斯混合分布的權(quán)重系數(shù)αk組合兩個(gè)分布，公式如下：

26、

27、對(duì)高斯混合模型進(jìn)行參數(shù)初始化，使用期望最大化算法估計(jì)分布情況，當(dāng)兩個(gè)分布的均值差大于設(shè)定閾值時(shí)認(rèn)為該像素存在噪聲，在期望步驟中計(jì)算此像素屬于噪聲的概率γk(x)，將高噪聲概率的像素記為255，表示忽略此噪聲像素，不參與接下來(lái)的訓(xùn)練過(guò)程。然后在最大化步驟中使用γk(x)來(lái)更新所有高斯分布的參數(shù)μk、和αk，過(guò)程如下：

28、

29、

30、通過(guò)重復(fù)期望步驟和最大化步驟，當(dāng)兩個(gè)分布的參數(shù)變化小于預(yù)設(shè)值或達(dá)到最大迭代次數(shù)時(shí)結(jié)束建模。

31、進(jìn)一步地，在步驟s5中，使用clip生成的改進(jìn)類(lèi)激活映射作為指導(dǎo)信息，與視覺(jué)transformer生成的類(lèi)激活映射mv進(jìn)行權(quán)重相加，β作為權(quán)重系數(shù)，得到最終的類(lèi)激活映射mfinal，過(guò)程如下：

32、

33、通過(guò)后處理技術(shù)傳播語(yǔ)義信息，得到最終的分割偽標(biāo)簽，使用偽標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)完成圖像的語(yǔ)義分割。

34、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

35、本發(fā)明利用大模型提供輔助監(jiān)督，有效解決了弱監(jiān)督語(yǔ)義分割存在的監(jiān)督差異問(wèn)題，利用凍結(jié)的clip模型生成的額外信息能夠幫助主干網(wǎng)絡(luò)獲得高質(zhì)量的像素級(jí)偽標(biāo)簽，為分割訓(xùn)練提供更精確的監(jiān)督。其次，設(shè)計(jì)了類(lèi)激活映射融合和掩碼降噪，提升了類(lèi)激活映射質(zhì)量，進(jìn)一步增強(qiáng)了輔助監(jiān)督，在分割性能方面有顯著提高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉偉鋒,高旭茹,張冰峰
技術(shù)所有人：中國(guó)石油大學(xué)（華東）
我是此專利的發(fā)明人

上一篇：一種水龍頭出水管的連接結(jié)構(gòu)的制作方法
上一篇：一種鹵制食品用真空包裝機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于大模型輔助監(jiān)督的弱監(jiān)督語(yǔ)義分割方法