本發(fā)明屬于計算機視覺領(lǐng)域,涉及到圖像處理相關(guān)知識,特別涉及注視點檢測方法。
背景技術(shù):
在目前高速發(fā)展的社會中,監(jiān)控攝像頭在城市內(nèi)隨處可見,帶來了一個很嚴重的問題就是信息過載。計算機視覺技術(shù)面臨的任務(wù)就是在繁多的圖像、視頻文件中快速發(fā)現(xiàn)感興趣的目標,所以對于注視點檢測的研究是非常有意義的。注視點的成因是由于候選前景目標與場景中的背景在種特定的對比中形成了引起人眼注意的新奇刺激。圖像的注視點檢測是圖像處理中的一個重要分支。在圖像處理中,注視點檢測往往是作為一種前置操作,應(yīng)用于圖像分割,自適應(yīng)圖像壓縮,基于內(nèi)容的圖像編輯,目標檢測與識別,以及圖像檢索等領(lǐng)域。利用視覺顯著性對圖像進行分割,從而只關(guān)注顯著區(qū)域,可以很大程度上減少運算量,同時不遺漏較為重要的信息。
Itti L等人在文章“A model of saliency-based visual attention for rapid scene analysis.In PAMI,1998”中先提取原始圖像的顏色亮度特征圖,對亮度圖像進行濾波得到方向特征圖。對亮度特征、顏色特征、方向特征三幅圖像分別構(gòu)建高斯金字塔。每種特征經(jīng)過中央—周邊算子運算、歸一化、疊加得到顏色、強度、方向三幅顯著圖。對三幅顯著圖進行加權(quán)疊加得到最終的顯著圖。此方法能處理一些有著明顯的對比度的圖像,但缺乏對更加能吸引人眼注意的目標的檢測。
Hou X等人在文章“Saliency detection:A spectral residual approach.In CVPR,2017”中提出了SR模型,此模型的原理是一幅圖像中的信息可以分為兩部分:目標信息和冗余信息,人類的視覺系統(tǒng)可以自動過濾掉復(fù)雜環(huán)境中的冗余信息而保留目標信息?;诖嗽?,該算法先對圖像進行二維傅立葉變換得到頻域的幅度譜和相位譜。利用低通濾波器對幅度譜進行濾波操作得到冗余信息,之后去除原圖像中的這部分信息就得到了顯著圖。SR模型的優(yōu)點是運算速度較快,且結(jié)果對參數(shù)不敏感。但該算法存在一些缺點,如對噪聲敏感,而且僅能處理灰度圖像等。
Liang M等人在文章“Predicting eye fixations with higher-level visual features.In TIP,2015”中提出了一種利用更高層信息的注視點檢測模型。利用圖像的sift特征結(jié)合BOW模型計算顏色和形狀顯著圖。利用object bank目標檢測器獲得多張map訓(xùn)練SVM加權(quán)疊加高層信息顯著圖。此模型雖然提出了用目標檢測來輔助注視點檢測的思路,但是所采用的目標檢測器檢測效果非常有限,對注視點檢測結(jié)果幫助不大。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是:自然場景中的圖像多種多樣,采用單一特征信息的檢測方法無法取得較好的檢測效果,例如:圖像中有顏色對比度比較突出的區(qū)域,這樣利用底層的顏色特征信息就可以很好地檢測。若圖像中有一些能吸引人眼注意的目標如人臉文字等,則高層的目標級別的特征信息更加有效。若圖像顏色對比度不明顯,又沒有吸引人的目標,也就是說圖像內(nèi)容比較均勻單一,這樣人眼往往會看向圖像的中心,這樣空間位置信息又會起主導(dǎo)作用。本發(fā)明提出了一種檢測方法綜合利用這三種信息,并針對不同的圖像調(diào)節(jié)各種信息占的比重。
本發(fā)明的技術(shù)方案是:由顏色等底層信息得到底層信息檢測結(jié)果圖。利用像素點的空間位置得到中心先驗圖。對原始圖像提取候選目標框及其CNN深度特征,利用詞袋模型編碼,編碼后的視覺特征送入訓(xùn)練好的多示例RMI-SVM分類器中得到打分,對框中心高斯平滑后根據(jù)目標框的打分進行加權(quán)疊加得到目標級別的檢測結(jié)果圖。對原始圖像本身提取描述圖像整體內(nèi)容的特征,訓(xùn)練softmax回歸器得到融合權(quán)值,采用這個權(quán)值對上述結(jié)果圖進行加權(quán)融合。圖像圖1為本發(fā)明的系統(tǒng)框圖。
具體實現(xiàn)步驟包括:
(1)底層顏色信息檢測
Lab顏色空間是由CIE(國際照明委員會)制定的一種色彩模式。它致力于感知均勻性,它的L分量密切匹配人類亮度感知。因此可以被用來通過修改a和b分量的輸出色階來做精確的顏色平衡,或使用L分量來調(diào)整亮度對比,所以用來描述顯著性更加合適。在LAB顏色空間中,我們采用類似ITTI的檢測方法,用圖像金字塔的形式來模擬人類的視覺特性。利用“中央—周邊”算子計算差異圖來模擬人類視覺注意力系統(tǒng),視覺感受野的中央?yún)^(qū)域用高分辨率圖像代表,視覺感受野的周邊區(qū)域用低分辨率圖像代表,特征差異圖是不同分辨率圖像之前的差值。計算方式為
L(c,s)=|L(c)ΘL(s)| (1)
其中Θ為“中央一周邊”算子,代表跨尺度相減運算;c表示中央尺度,s表示周邊尺度。之后用一種非線性歸一化算子N(·)進行歸一化。理論依據(jù)是神經(jīng)學(xué)究表明當感受野的中心區(qū)和周邊區(qū)在同一特征維上時,周邊區(qū)對中心區(qū)產(chǎn)生的抑制的最強。N(·)算子的計算方式為
N(M(c,s))=[M(c,s)+M(c,s)*DOG-C] (2)
式中*表示卷積,C是引入的偏置,DOG為雙高斯差分函數(shù),模擬的是同心圓結(jié)構(gòu)的中心型感受野。DOG函數(shù)的表達式為
式中σex和σinh是興奮帶寬和抑制帶寬,cex和cinh是興奮常數(shù)和抑制常數(shù),DOG函數(shù)可使相鄰顯著點之間進行局部競爭。對LAB分量分別進行上述操作,最后根據(jù)得到底層信息檢測圖。
(2)圖像候選目標生成及其特征提取
首先用邊緣多尺度組合分組算法(Multiscale Combinatorial Grouping)提取圖像的目標候選框,一般的圖像大約可提取100到1000個目標框。這些目標框有的完整的框住了目標,但大部分只框住了目標的一部分或者沒有框住目標,接下來需要做的就是選出那些能吸引人眼關(guān)注的目標框。把這些候選框框住的圖像塊送入一個預(yù)先訓(xùn)練好的用于目標檢測的CNN網(wǎng)絡(luò)中,得到候選目標的CNN特征,以便后續(xù)訓(xùn)練。
(3)詞袋模型編碼
Bag-of-words model(BoW model)最早出現(xiàn)在神經(jīng)語言程序?qū)W(NLP)和信息檢索(IR)領(lǐng)域。該模型忽略掉文本的語法和語序,用一組無序的單詞(words)來表達一段文字或一個文檔。近年來,BoW模型被廣泛應(yīng)用于計算機視覺中.與應(yīng)用于文本的BoW類比,圖像的特征(feature)被當作單詞(Word),把圖像“文字化”之后,有助于大規(guī)模的圖像表達,圖像檢索以及提取特征。
利用詞袋模型進行圖像表達的基本步驟:
1、提取特征:根據(jù)數(shù)據(jù)集選取特征,形成特征數(shù)據(jù),統(tǒng)計圖像數(shù)據(jù)庫中出現(xiàn)的所有特征,去除冗余組成詞袋。
2、學(xué)習(xí)詞袋:把處理好的特征數(shù)據(jù)全部合并,再用聚類的方法把特征詞分為若干類,此若干類的數(shù)目由自己設(shè)定,每一個類相當于一個視覺詞。
3、利用視覺詞袋量化圖像特征:每一張圖像由很多視覺詞匯組成,利用統(tǒng)計的詞頻直方圖,可以更好地表達這一圖像。
本發(fā)明把詞袋模型應(yīng)用在注視點檢測中。
特征提取在上一步驟已經(jīng)完成,所有圖像的所有候選目標的特征構(gòu)成一個大的集合,利用混合高斯模型(GMM)進行聚類,聚類后得到N個聚類中心,這些中心構(gòu)成了視覺表示詞袋。把所有詞袋中心拼接成一個字典,作為注視點視覺詞匯字典。把所有候選目標的特征利用稀疏表示在此字典上進行分解,保留分解后的系數(shù)。這樣就得到了針對于候選目標的具有統(tǒng)計特性的N維視覺詞匯特征。
(4)訓(xùn)練多示例顯著目標檢測模型
得到每個候選目標的視覺詞匯特征之后,需要判定哪些目標能吸引人眼的關(guān)注。普通的分類器如SVM,都需要帶有確定標注的正負樣本,但是正樣本的選取存在一定問題。正樣本選取一般根據(jù)框內(nèi)注視點的密度,這就造成了我們選取的正樣本并不是全是真正的正樣本,但是根據(jù)真值注視點密度圖并無法判斷哪些樣本是真的正樣本。因此本發(fā)明中使用多示例分類檢測算法,來避開正樣本選擇的問題。
多示例學(xué)習(xí)的數(shù)據(jù)單元是包,每個包包含一個或者多個樣本,包的標記有兩個類別,正和負。如果一個bag里面所有樣本的標記都是負的,那么這個bag的標記為負。這個bag里面至少有一個樣本的標記為正,則這個bag標記為正。對于訓(xùn)練樣本僅知道包的標簽,但并不知道其中包含樣本的標簽,根據(jù)這樣的訓(xùn)練數(shù)據(jù)得到一個分類器,使得對新輸入的樣本,可以給出它的正負標記。
在注視點檢測中,對于圖像的每個位置都有若干個大小不一的目標框。圖像的顯著區(qū)域附近的所有候選目標框中有一部分是正樣本,圖像的非顯著區(qū)域附近的所有候選目標框都為負樣本,這剛好與多示例學(xué)習(xí)的思想吻合。圖像的顯著區(qū)域附近的框集合作為正包,非顯著區(qū)域附近的框集合作為負包,利用多示例學(xué)習(xí)算法RMISVM(Relaxed Multiple-Instance SVM)進行訓(xùn)練,可以避免之前所提到的正樣本選擇不準的問題。RMISVM的目標函數(shù)如下:
其中為第i個包損失項,為第i個包中第j個示例的損失項,sgn是符號函數(shù),m0是確定正負示例的閾值參數(shù)。
pij為第i個包中第j個示例標簽為正的概率,Pi為第i個包標簽為正的概率。
對其用隨機梯度下降算法求解,得到輸出[w,b]。
訓(xùn)練階段,根據(jù)注視點密度圖選取正負包,利用其視覺詞匯特征訓(xùn)練RMISVM分類器[w,b]。測試階段,給定測試圖像,先提取候選目標得到其CNN特征,轉(zhuǎn)換為視覺詞匯特征送入訓(xùn)練好的RMISVM分類器得到分數(shù),把這個分數(shù)作為權(quán)重對目標框中心位置進行加權(quán)疊加得到最終的目標級別的檢測結(jié)果圖。
(5)生成中心先驗圖
在注視點檢測中,很多研究表明:觀察者會根據(jù)圖的內(nèi)容,或多或少會傾向于看向圖像中心的位置。所以把中心先驗圖考慮進來是非常必要的。中心先驗圖的生成非常簡單,僅需要在圖像中心放置一個最大亮度為1的高斯分布即可。
(6)學(xué)習(xí)自適應(yīng)融合權(quán)重
經(jīng)過上述步驟,已經(jīng)得到了三張采用不同層次信息得到的檢測結(jié)果圖,分別是中心位置先驗圖、顯著目標檢測圖和底層顏色對比圖。自然場景中的圖像多種多樣,針對不同的圖像,這三種結(jié)果圖的檢測結(jié)果也各不相同。如果人工設(shè)定權(quán)重或者訓(xùn)練一個固定的融合權(quán)重都并不合適。例如:圖像中有顏色對比度比較突出的區(qū)域,這樣利用底層的顏色特征信息就可以很好地檢測。若圖像中有一些顯著吸引人眼注意的目標如人臉文字等,則高層的目標級別的特征信息更加有效。若圖像顏色對比度不明顯,又沒有吸引人的目標,這樣空間位置信息又會起主導(dǎo)作用。這可以看成一個多分類的問題,可以用分類的方法確定哪一種檢測結(jié)果圖更加可信,并賦予較大融合權(quán)重。
在訓(xùn)練權(quán)值分類器的階段,首先需要得到一個描述圖像整體信息的特征,VGG是一個比較完善的用于圖像分類的深度神經(jīng)網(wǎng)絡(luò)。把整張圖像送進網(wǎng)絡(luò)中,取其第19層的輸出作為描述整張圖像信息的特征,共4096維。其次,需要對三種檢測結(jié)果圖做評價,決定哪一種方法更適合當前圖像,S-AUC是注視點檢測領(lǐng)域中最常用的評價標準。本發(fā)明采用S-AUC的相對值取判斷哪一種方法的檢測效果更好,公式如下:
Si=max(0,si-max(sj,sk)) (9)
其中,是si為當前需要評價的結(jié)果圖的S-AUC,是sj和sk為其他兩種結(jié)果圖的S-AUC。S-AUC的相對值最高的方法編號作為當前圖像的訓(xùn)練標簽。用之前得到的整張圖的特征及對應(yīng)標簽訓(xùn)練softmax分類器,假設(shè)函數(shù)(hypothesis function)如下:
其中θ1,θ2,..θk∈Rn+1是模型的參數(shù),x(i)為第i個樣本的特征,k為樣本的總個數(shù),代價函數(shù)為:
使用迭代的算法,對θ進行優(yōu)化求解。
測試階段,把測試圖像的特征送入訓(xùn)練好的分類器中,得到屬于各類的概率w1,w2,w3,以此作為融合的權(quán)值。最終的融合結(jié)果為:
(7)語義信息的檢測
自然場景圖像中,包含著各種各樣的語義,其中有的語義可以明顯吸引人眼關(guān)注,如:人臉,文字,行人,告示牌,交通標志等等。對這些語義進行特定的檢測,可以大幅度提升最終的檢測效果。
本發(fā)明采用基于區(qū)域的用于目標檢測CNN網(wǎng)絡(luò)的輸出特征,進行三種語義檢測:人臉,文本,行人。在專門的做這三種目標檢測數(shù)據(jù)庫中,訓(xùn)練隨機森林分類器。語義檢測階段,與之前步驟相同,提取圖像中的目標框及其CNN特征,送入訓(xùn)練好的分類器中,得到框的打分,再對重疊的框進行合并得到最終的語義檢測結(jié)果。以往合并重疊框的方法是采用非極大值抑制(NMS)算法。抑制的過程是一個迭代-遍歷-消除的過程,將所有框的得分降序排列,選中最高分及其對應(yīng)的框。遍歷其余的框,如果和當前最高分框的重疊面積(IOU)大于一定閾值,我們就將框刪除。從未處理的框中繼續(xù)得到一個得分最高的,重復(fù)上述過程。但此方法的檢測位置完全由最高的幾個框,實驗過程中發(fā)現(xiàn)分數(shù)最高的框不一定能完全框住目標。本發(fā)明中對NMS算法進行了改進,讓被抑制的框也能起到一定的定位作用。思想是利用迭代更新策略,分數(shù)最高的框決定初始位置,其他每個被抑制的框都會對其位置進行更新,位置更新的方式為利用框的分數(shù)對框的位置進行加權(quán)疊加,直到所有的框都被遍歷完畢。
附圖說明
圖1是基于多層信息融合的注視點檢測方法的系統(tǒng)框圖。
具體實施方式
以下結(jié)合附圖和技術(shù)方案,進一步說明本發(fā)明的具體實施方式。
實施例
步驟一:對圖像的L、A、B通道分別生成金字塔,每一層圖像的尺度是上一層的一半。金字塔底部是原始的高分辨率圖像,隨著金字塔層數(shù)增高,圖像分辨率降低。每一層中的圖像是對上一層圖像進行濾波和降采樣之后得到的。本發(fā)明濾波部分采用高斯濾波,模板是[5*5],標準差為1.6的高斯模板。模型構(gòu)造了9層的高斯金字塔,以L分量為例,金字塔記為L(σ),σ∈[0,8]。利用“中央—周邊”算子計算差異圖,之后用非線性歸一化算子N(·)進行歸一化。最后對三個顏色通道進行疊加得到底層信息檢測圖。
步驟二:首先用邊緣多尺度組合分組算法提取圖像的目標候選框,把這些候選框送入一個預(yù)先訓(xùn)練好的用于目標檢測的CNN網(wǎng)絡(luò)中,得到候選目標的CNN特征。所有圖像中的所有候選目標的特征構(gòu)成一個大的集合,利用混合高斯模型(GMM)進行聚類,得到N個聚類中心,本發(fā)明中N=128。構(gòu)建視覺詞匯字典,所有候選目標的特征利用稀疏表示在此字典上進行分解,得到視覺詞匯特征。
步驟三:根據(jù)注視點密度圖選取正負包,真值極大值附近的N個目標框構(gòu)成正包,其他區(qū)域目標框利用空間位置聚類,每一類的所有目標框構(gòu)成負包。利用其視覺詞匯特征訓(xùn)練RMISVM分類器。
測試階段,給定測試圖像,先提取候選目標得到其CNN特征,轉(zhuǎn)換為視覺詞匯特征送入訓(xùn)練好的RMISVM分類器得到分數(shù)。每個目標中心位置為分類器得到的分數(shù),其他位置為0,采用高斯濾波的方式生顯著目標檢測結(jié)果圖,高斯濾波模板尺寸為[180*180],濾波標準差為30,單位為像素。
步驟四:初始化全0圖,尺寸400*400,圖像中心置1。采用高斯濾波生成中心先驗圖模板,模板尺寸為[400*400],濾波標準差為64。經(jīng)過插值和抽值調(diào)整尺寸為檢測圖像尺寸。
步驟五:把待檢測圖像送入VGG網(wǎng)絡(luò)中,取其第19層的輸出作為訓(xùn)練特征,共4096維。訓(xùn)練階段:用S-AUC的相對值對三種檢測圖進行評價,指標最高方法編號作為當前圖像的訓(xùn)練標簽。用特征和標簽訓(xùn)練softmax分類器。測試階段,把測試圖像的特征送入訓(xùn)練好的分類器中,得到對應(yīng)著三種檢測圖的概率w1,w2,w3。把此概率作為權(quán)值,對三種檢測圖進行加權(quán)融合。
步驟六:分別在人臉,文本,行人三種目標檢測數(shù)據(jù)庫上挑選正負樣本,用其CNN特征訓(xùn)練三種隨機森林分類器。語義檢測階段,提取檢測圖像中的目標框及其CNN特征,送入訓(xùn)練好的分類器中,得到框的打分,再采用改進的非極大值抑制算法對重疊的框進行合并,得到最終的語義檢測結(jié)果。在融合后的檢測結(jié)果圖上疊加語義檢測結(jié)果,即為最終的注視點檢測結(jié)果。
改進的非極大值抑制算法的具體步驟:
1、將所有框的得分降序排列,選中最高分的框為待輸出框,確定標號,保存位置;
2、對所有框進行遍歷,若當前與所有待輸出框重疊面積(IOU)均小于閾值當前框標記為待輸出框,保存其位置并賦予一個新的標號;若當前框只與一個待輸出框重疊大于閾值當前框標定為與之重疊待輸出框的標號,用此標號的所有框的位置對輸出框位置進行更新,更新方式采用根據(jù)分數(shù)加權(quán)和;否則對相關(guān)的輸出框進行標簽合并,并根據(jù)分數(shù)更新輸出框位置;
3、輸出所有待輸出框。
我們的方法可以處理顏色對比占主導(dǎo)的圖像,空間位置占主導(dǎo)的圖像,顯著目標占主導(dǎo)的圖像,還有含有明確語義信息的圖像。同時,圖像包含各種信息的情況下,本發(fā)明仍有較好的檢測效果。