本發(fā)明涉及計(jì)算機(jī)視覺(jué)領(lǐng)域,尤其是指一種視覺(jué)顯著性預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、人腦在對(duì)場(chǎng)景圖像進(jìn)行視覺(jué)信息處理時(shí),并非對(duì)所有區(qū)域信息都一視同仁,而是對(duì)某些局部信息分配更多的注意,從而大幅減少人腦信息處理的計(jì)算量。在任意時(shí)刻,人類視覺(jué)感知系統(tǒng)都會(huì)采用選擇性處理策略來(lái)感知環(huán)境,即注意力僅集中在有限的空間區(qū)域或視野內(nèi)的少量物體,這種機(jī)制被稱為視覺(jué)注意力機(jī)制。視覺(jué)顯著性預(yù)測(cè)是指模仿人類的視覺(jué)注意力機(jī)制,對(duì)圖像的每個(gè)像素位置進(jìn)行顯著性程度的預(yù)測(cè),應(yīng)用于廣告投放、視頻監(jiān)控與無(wú)障礙技術(shù)。
2、傳統(tǒng)的顯著性預(yù)測(cè)模型可以分為自底向上的計(jì)算模型和自上而下的計(jì)算模型。自底向上的計(jì)算模型從輸入圖片中提取三種特征信息,即顏色、亮度和朝向。在多尺度下,模仿人類視網(wǎng)膜,利用中心-環(huán)繞偏差機(jī)制得到不同特征對(duì)應(yīng)的顯著性圖,并采用多特征融合策略,將所有特征的顯著性圖歸一化,融合為最終的顯著性圖。另外,還有從信息理論、圖論、貝葉斯理論和頻域等角度設(shè)計(jì)算法進(jìn)行預(yù)測(cè)的模型。然而,這些自底向上的顯著性預(yù)測(cè)模型只能捕捉低層視覺(jué)特征,導(dǎo)致預(yù)測(cè)性能受限。因此,自上而下的高級(jí)視覺(jué)特征、輔助的中級(jí)特征和人類的視覺(jué)認(rèn)知先驗(yàn)也逐漸被融入到顯著性預(yù)測(cè)模型中。然而,傳統(tǒng)的顯著性預(yù)測(cè)模型依賴手工設(shè)計(jì)的特征,由于人工設(shè)計(jì)特征的表征能力有限,在處理復(fù)雜場(chǎng)景時(shí)往往難以獲得準(zhǔn)確的預(yù)測(cè)結(jié)果。
3、如今,基于深度學(xué)習(xí)的方法已經(jīng)成為主流。這些基于深度學(xué)習(xí)的方法通過(guò)深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取出圖像中更豐富、更高層次的特征表示,從而在顯著性預(yù)測(cè)性能上明顯超越傳統(tǒng)方法。現(xiàn)有的基于深度學(xué)習(xí)的顯著性預(yù)測(cè)模型大致可以分為基于卷積神經(jīng)網(wǎng)絡(luò)的方法、融入長(zhǎng)短期記憶網(wǎng)絡(luò)的方法和基于transformer的方法。融入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的方法可以模擬人類視覺(jué)注意力轉(zhuǎn)移的序列信息,通過(guò)對(duì)空間信息之間的相關(guān)性進(jìn)行建模來(lái)改進(jìn)顯著性預(yù)測(cè)模型的性能。基于transformer的方法能夠聚合全局特征點(diǎn)之間的相關(guān)性信息,從而捕獲長(zhǎng)范圍的特征信息。融入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的方法和基于transformer的方法雖然可以處理長(zhǎng)范圍視覺(jué)信息,提高顯著性預(yù)測(cè)的準(zhǔn)確性,但存在時(shí)間復(fù)雜度高、訓(xùn)練速度慢和權(quán)重參數(shù)多等問(wèn)題。根據(jù)特征尺度類型,基于卷積神經(jīng)網(wǎng)絡(luò)的方法可進(jìn)一步分為單尺度模型和多尺度模型。單尺度模型是只使用一種尺度提取特征進(jìn)行顯著性預(yù)測(cè)的模型,它們通常使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,然后將其輸入到反卷積網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)或其他結(jié)構(gòu)中以生成最終的顯著性預(yù)測(cè)結(jié)果,這些模型的優(yōu)點(diǎn)是計(jì)算效率高,實(shí)時(shí)性強(qiáng)。然而,單尺度模型的特征表達(dá)能力有限,在面對(duì)包含尺度差異較大的顯著物體時(shí)表現(xiàn)不佳。多尺度是一種讓模型在不同尺度下學(xué)習(xí)不同的特征,它利用不同尺度的信息來(lái)豐富模型的表示能力,這種方式已經(jīng)被證明可以有效的提高模型的性能。多尺度模型可進(jìn)一步分為多尺度輸入和多尺度特征提取兩種類型,多尺度輸入的工作輸入不同尺度的圖片,得到不同大小的特征圖,對(duì)生成的特征圖進(jìn)行拼接來(lái)得到最終的顯著性圖,但是,多尺度輸入的工作需要多個(gè)網(wǎng)絡(luò)來(lái)提取多尺度的特征,導(dǎo)致計(jì)算量的增加,此外,這些多尺度輸入模型并沒(méi)有設(shè)計(jì)更精細(xì)的卷積模塊與組件,來(lái)增強(qiáng)網(wǎng)絡(luò)本身的感知能力。
4、多尺度特征提取的工作是使用不同的感受野,捕捉不同尺度下的特征信息,然而,這些基于多尺度特征提取的顯著性預(yù)測(cè)模型仍然存在一些問(wèn)題,首先,這些模型缺少有效的長(zhǎng)距離依賴模塊,全局特征點(diǎn)之間的相關(guān)性信息丟失,難以捕獲長(zhǎng)范圍的特征信息,其次,這些模型大多使用固定的傳統(tǒng)卷積核來(lái)提取圖像特征,限制了感受野的多樣性和豐富性,導(dǎo)致多尺度特征表達(dá)能力受限,此外,這些模型通常通過(guò)增加網(wǎng)絡(luò)的深度和卷積層數(shù)來(lái)提高性能,隨著網(wǎng)絡(luò)變得更深、更復(fù)雜,模型在顯著性預(yù)測(cè)任務(wù)上可以獲得更精確的結(jié)果,卻難以有效平衡視覺(jué)顯著性預(yù)測(cè)精度和實(shí)時(shí)性。
技術(shù)實(shí)現(xiàn)思路
1、為此,本發(fā)明所要解決的技術(shù)問(wèn)題在于克服現(xiàn)有技術(shù)中基于多尺度特征提取的顯著性預(yù)測(cè)模型難以有效捕獲長(zhǎng)范圍的特征信息、多尺度特征表達(dá)能力受限,以及隨著網(wǎng)絡(luò)變得更深、更復(fù)雜,模型在顯著性預(yù)測(cè)任務(wù)上可以獲得更精確的結(jié)果,卻難以有效平衡視覺(jué)顯著性預(yù)測(cè)精度和實(shí)時(shí)性的問(wèn)題。
2、為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種視覺(jué)顯著性預(yù)測(cè)方法,包括以下步驟:
3、構(gòu)建第一視覺(jué)顯著性預(yù)測(cè)模型,所述第一視覺(jué)顯著性預(yù)測(cè)模型包括:小基數(shù)特征提取網(wǎng)絡(luò)、全局精煉模塊和解碼器模塊;
4、將待測(cè)圖像輸入所述小基數(shù)特征提取網(wǎng)絡(luò),對(duì)待測(cè)圖像提取特征,得到圖像特征;
5、將圖像特征輸入所述全局精煉模塊,提取圖像特征全局范圍內(nèi)的上下文信息,輸出全局精煉特征,包括:
6、將圖像特征沿著通道維度、高度維度和寬度維度分別進(jìn)行二維全局平均池化,得到通道維度向量、高度維度向量與寬度維度向量;
7、將通道維度向量、高度維度向量與寬度維度向量分別通過(guò)一維卷積塊,分解為多個(gè)子向量組成的通道維度向量組、高度維度向量組與寬度維度向量組;
8、基于通道維度向量組、高度維度向量組與寬度維度向量組,計(jì)算全局上下文精煉權(quán)重;
9、將圖像特征輸入三維卷積塊,得到圖像特征的原始?xì)埐睿?/p>
10、將圖像特征的原始?xì)埐钆c全局上下文精煉權(quán)重相乘,得到全局特征;
11、將全局特征與圖像特征進(jìn)行殘差連接,得到全局精煉特征;
12、將全局精煉特征輸入所述解碼器模塊,輸出最終的顯著性預(yù)測(cè)結(jié)果;
13、采用基于知識(shí)蒸餾的訓(xùn)練方法,對(duì)第一視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,通過(guò)目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,對(duì)實(shí)際待測(cè)圖像顯著性進(jìn)行預(yù)測(cè)。
14、優(yōu)選地,所述基于通道維度向量組、高度維度向量組與寬度維度向量組,計(jì)算全局上下文精煉權(quán)重,計(jì)算公式為:
15、,
16、其中,a為全局上下文精煉權(quán)重,表示向量外積,r為通道維度向量組或高度維度向量組或?qū)挾染S度向量組中子向量個(gè)數(shù);
17、表示通道維度向量組中第i個(gè)子向量,表示高度維度向量組第i個(gè)子向量,表示寬度維度向量組中第i個(gè)子向量。
18、優(yōu)選地,所述解碼器模塊包括:n個(gè)解碼器層與sigmoid激活函數(shù)層,其中,前n-1個(gè)解碼器層均包括依次連接的一個(gè)二維卷積塊與一個(gè)多尺度感知模塊,第n個(gè)解碼器層包括一個(gè)二維卷積塊;
19、所述多尺度感知模塊包括:四個(gè)并行的具有不同感受野的支路,以及第二可變形卷積支路,其中,四個(gè)并行的具有不同感受野的支路包括三個(gè)不同尺度、不同擴(kuò)張率的擴(kuò)張卷積支路與第一可變形卷積支路。
20、優(yōu)選地,將多尺度感知模塊的輸入特征輸入多尺度感知模塊,豐富多尺度感知模塊的輸入特征的感受野,得到多尺度感知模塊的輸出特征圖,包括以下步驟:
21、將多尺度感知模塊的輸入特征分別輸入四個(gè)并行的具有不同感受野的支路,將四個(gè)并行支路提取的特征沿通道維度進(jìn)行級(jí)聯(lián),得到級(jí)聯(lián)了各個(gè)感受野的綜合特征;
22、將級(jí)聯(lián)了各個(gè)感受野的綜合特征經(jīng)過(guò)所述第二可變形卷積支路,進(jìn)行融合與校正,得到綜合多感受野的混合特征;
23、將綜合多感受野的混合特征與多尺度感知模塊的輸入特征進(jìn)行殘差連接,得到多尺度感知模塊的輸出特征圖。
24、優(yōu)選地,所述小基數(shù)特征提取網(wǎng)絡(luò)為基于預(yù)訓(xùn)練resnet18的擴(kuò)張殘差網(wǎng)絡(luò)。
25、優(yōu)選地,所述采用基于知識(shí)蒸餾的訓(xùn)練方法,對(duì)第一視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,具體為:
26、構(gòu)建第二視覺(jué)顯著性預(yù)測(cè)模型,所述第二視覺(jué)顯著性預(yù)測(cè)模型包括:大基數(shù)特征提取網(wǎng)絡(luò)、全局精煉模塊和解碼器模塊;
27、將顯著性預(yù)測(cè)數(shù)據(jù)集輸入第二視覺(jué)顯著性預(yù)測(cè)模型,得到每個(gè)樣本的顯著性預(yù)測(cè)結(jié)果,對(duì)第二視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型;
28、將訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型作為教師模型,將第一視覺(jué)顯著性預(yù)測(cè)模型作為學(xué)生模型,通過(guò)教師模型指導(dǎo)學(xué)生模型進(jìn)行學(xué)習(xí),得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型。
29、優(yōu)選地,所述通過(guò)教師模型指導(dǎo)學(xué)生模型進(jìn)行學(xué)習(xí),得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,包括:
30、將當(dāng)前幀圖像輸入訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型,得到訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型解碼器模塊最后一個(gè)多尺度感知模塊的輸出特征圖,作為第一輸出特征圖;
31、將當(dāng)前幀圖像輸入第一視覺(jué)顯著性預(yù)測(cè)模型,得到第一視覺(jué)顯著性預(yù)測(cè)模型解碼器模塊最后一個(gè)多尺度感知模塊的輸出特征圖,作為第二輸出特征圖;
32、計(jì)算第一輸出特征圖的自注意力圖與第二輸出特征圖的自注意力圖之間的相似性,作為自注意力蒸餾損失;
33、計(jì)算訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型和第一視覺(jué)顯著性預(yù)測(cè)模型中每一個(gè)卷積層的一階統(tǒng)計(jì)信息與二階統(tǒng)計(jì)信息;
34、計(jì)算訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型和第一視覺(jué)顯著性預(yù)測(cè)模型中各個(gè)卷積層的一階統(tǒng)計(jì)信息之間的損失與二階統(tǒng)計(jì)信息之間的損失;
35、將訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型和第一視覺(jué)顯著性預(yù)測(cè)模型中各個(gè)卷積層的一階統(tǒng)計(jì)信息之間的損失與二階統(tǒng)計(jì)信息之間的損失加權(quán)求和,作為特征一致性蒸餾損失;
36、計(jì)算訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型輸出的顯著性預(yù)測(cè)結(jié)果與第一視覺(jué)顯著性預(yù)測(cè)模型輸出的顯著性預(yù)測(cè)結(jié)果之間的第一全變分距離損失;
37、計(jì)算第一視覺(jué)顯著性預(yù)測(cè)模型輸出的顯著性預(yù)測(cè)結(jié)果與已標(biāo)注圖像之間的第二全變分距離損失;
38、將第一全變分距離損失與第二全變分距離損失加權(quán)求和,作為顯著性預(yù)測(cè)值蒸餾損失;
39、將當(dāng)前幀的相鄰幀圖像輸入訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型,得到訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型解碼器模塊最后一個(gè)多尺度感知模塊的輸出特征圖,作為第三輸出特征圖;
40、將當(dāng)前幀的相鄰幀圖像輸入第一視覺(jué)顯著性預(yù)測(cè)模型,得到第一視覺(jué)顯著性預(yù)測(cè)模型解碼器模塊最后一個(gè)多尺度感知模塊的輸出特征圖,作為第四輸出特征圖;
41、基于第一輸出特征圖與第三輸出特征圖,計(jì)算第一輸出特征圖每個(gè)位置與第三輸出特征圖各個(gè)位置的相似性,得到第一輸出特征圖與第三輸出特征圖之間的相似性圖;
42、基于第二輸出特征圖與第四輸出特征圖,計(jì)算第二輸出特征圖每個(gè)位置與第四輸出特征圖各個(gè)位置的相似性,得到第二輸出特征圖與第四輸出特征圖之間的相似性圖;
43、基于第一輸出特征圖和第三輸出特征圖之間的相似性圖與第二輸出特征圖和第四輸出特征圖之間的相似性圖,計(jì)算訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型和第一視覺(jué)顯著性預(yù)測(cè)模型相似性圖之間的損失,作為幀間依賴性蒸餾損失;
44、將顯著性預(yù)測(cè)數(shù)據(jù)集輸入第一視覺(jué)顯著性預(yù)測(cè)模型,得到每個(gè)樣本的顯著性預(yù)測(cè)結(jié)果,對(duì)第一視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,訓(xùn)練時(shí)使用總損失函數(shù)最小化第一視覺(jué)顯著性預(yù)測(cè)模型輸出的顯著性預(yù)測(cè)結(jié)果與已標(biāo)注圖像之間的差異,得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型;
45、其中,所述總損失函數(shù)的計(jì)算公式為:
46、?,
47、其中,表示總損失函數(shù),為特征一致性蒸餾損失,為顯著性預(yù)測(cè)值蒸餾損失,為自注意力蒸餾損失,為幀間依賴性蒸餾損失,表示自注意力蒸餾損失對(duì)應(yīng)權(quán)重,表示幀間依賴性蒸餾損失對(duì)應(yīng)權(quán)重。
48、優(yōu)選地,所述大基數(shù)特征提取網(wǎng)絡(luò)為基于預(yù)訓(xùn)練resnet50的擴(kuò)張殘差網(wǎng)絡(luò)。
49、優(yōu)選地,所述對(duì)第二視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,包括:訓(xùn)練過(guò)程中計(jì)算第二視覺(jué)顯著性預(yù)測(cè)模型輸出顯著性預(yù)測(cè)結(jié)果與已標(biāo)注圖像之間帶有線性正則化的全變分距離損失函數(shù),對(duì)第二視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行全監(jiān)督訓(xùn)練。
50、本發(fā)明還提供了一種視覺(jué)顯著性預(yù)測(cè)系統(tǒng),包括:
51、模型構(gòu)建模塊,用于構(gòu)建第一視覺(jué)顯著性預(yù)測(cè)模型,所述第一視覺(jué)顯著性預(yù)測(cè)模型包括:小基數(shù)特征提取網(wǎng)絡(luò)、全局精煉模塊和解碼器模塊;
52、圖像特征提取模塊,用于將待測(cè)圖像輸入所述小基數(shù)特征提取網(wǎng)絡(luò),對(duì)待測(cè)圖像提取特征,得到圖像特征;
53、全局精煉特征獲取模塊,用于將圖像特征輸入所述全局精煉模塊,提取圖像特征全局范圍內(nèi)的上下文信息,輸出全局精煉特征,包括:
54、將圖像特征沿著通道維度、高度維度和寬度維度進(jìn)行二維全局平均池化,得到通道維度向量、高度維度向量與寬度維度向量;
55、將通道維度向量、高度維度向量與寬度維度向量分別通過(guò)一維卷積塊,分解為多個(gè)子向量組成的通道維度向量組、高度維度向量組與寬度維度向量組;
56、基于通道維度向量組、高度維度向量組與寬度維度向量組,計(jì)算全局上下文精煉權(quán)重;
57、將圖像特征輸入三維卷積塊,得到圖像特征的原始?xì)埐睿?/p>
58、將圖像特征的原始?xì)埐钆c全局上下文精煉權(quán)重相乘,將相乘后得到的全局特征與圖像特征進(jìn)行殘差連接,得到全局精煉特征;
59、顯著性預(yù)測(cè)結(jié)果模塊,用于將全局精煉特征輸入所述解碼器模塊,輸出最終的顯著性預(yù)測(cè)結(jié)果;
60、訓(xùn)練模塊,用于采用基于知識(shí)蒸餾的訓(xùn)練方法,對(duì)第一視覺(jué)顯著性預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,通過(guò)目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,對(duì)實(shí)際待測(cè)圖像顯著性進(jìn)行預(yù)測(cè)。
61、本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下有益效果:
62、本發(fā)明所述的一種視覺(jué)顯著性預(yù)測(cè)方法及系統(tǒng),將待測(cè)圖像輸入小基數(shù)特征提取網(wǎng)絡(luò),對(duì)待測(cè)圖像提取特征,得到圖像特征,將圖像特征輸入所述全局精煉模塊,提取圖像特征全局范圍內(nèi)的上下文信息,輸出全局精煉特征,全局精煉模塊以較低的計(jì)算代價(jià)為圖像特征提供了更為優(yōu)良的全局上下文增益,有效減少了全局特征點(diǎn)之間信息的丟失,為網(wǎng)絡(luò)賦予了優(yōu)異的全局感知能力,提高了視覺(jué)顯著性預(yù)測(cè)精度。
63、此外,將多尺度感知模塊輸入特征輸入多尺度感知模塊,通過(guò)四個(gè)并行的具有不同感受野的支路,分別提取特征,將四個(gè)并行的具有不同感受野的支路提取的特征沿通道維度進(jìn)行級(jí)聯(lián),得到級(jí)聯(lián)了各個(gè)感受野的綜合特征,將級(jí)聯(lián)了各個(gè)感受野的綜合特征經(jīng)過(guò)所述第二可變形卷積支路,進(jìn)行融合與細(xì)微校正,得到綜合多感受野的混合特征,將綜合多感受野的混合特征與多尺度感知模塊輸入特征進(jìn)行殘差連接,得到多尺度感知模塊的輸出特征圖,多尺度感知模塊為尺度感知模塊輸入特征提供了豐富多樣的感受野集合,有利于對(duì)不同范圍、不同強(qiáng)度的特征信號(hào)進(jìn)行感知,通過(guò)多次堆疊使用多尺度感知模塊,保證了感受野大小的多樣性,可以更好地處理和應(yīng)對(duì)物體多尺度的變化。
64、采用基于知識(shí)蒸餾的模型輕量化訓(xùn)練方法,將訓(xùn)練好的第二視覺(jué)顯著性預(yù)測(cè)模型作為教師模型,將第一視覺(jué)顯著性預(yù)測(cè)模型作為學(xué)生模型,通過(guò)教師模型指導(dǎo)學(xué)生模型進(jìn)行學(xué)習(xí),得到目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型,輕量級(jí)的學(xué)生模型可以從教師模型中學(xué)習(xí)到更全面更豐富的知識(shí),學(xué)生模型的顯著性預(yù)測(cè)精度進(jìn)一步得到提升,減少了目標(biāo)視覺(jué)顯著性預(yù)測(cè)模型參數(shù)量,在視覺(jué)顯著性預(yù)測(cè)精度和速度上取得了更好的平衡。