專利名稱::一種快速的圖像序列特征顯著圖獲取方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于機器視覺和圖像處理
技術(shù)領(lǐng)域:
,具體涉及一種基于頻率域相位分析的圖像序列顯著圖獲取方法。技術(shù)背景隨著互聯(lián)網(wǎng)和IT相關(guān)技術(shù)的不斷發(fā)展,人類社會進入信息時代,人們每天通過各種手段(網(wǎng)絡(luò)、電視、廣播等等)獲得大量的信息。據(jù)統(tǒng)計,其中80%來源于圖像媒體,15%來源于語音??梢娨曈X信息是人類接收信息的主要手段,即圖像與視頻成了信息交流中最為重要的載體,也是蘊含信息量最大的媒體。其理所當(dāng)然的成為當(dāng)今通信和計算機系統(tǒng)中一種重要的處理對象,如何從大量的視頻圖像信息中獲得有用信息,是數(shù)據(jù)挖掘中的關(guān)鍵。其次圖像與視頻信息攜帶了巨大的信息量,其傳播與存儲對網(wǎng)絡(luò)通信的速度與容量提出了更高的要求。其爆炸性增長讓已經(jīng)非常緊張的網(wǎng)絡(luò)帶寬與存儲資源變得日益不堪重負。為了減少圖像與視頻在傳輸和存儲中的資源消耗,盡管各種壓縮算法不斷被提出,也起到了一定的效果,但其越來越趨向于設(shè)計的極限而顯得力不從心。同時對于圖像中的目標檢測、識別和跟蹤也是目前計算機視覺中十分重要的方面,它在軍事、航天和智能機器人等方面有廣泛的應(yīng)用價值,如何快速搜索到有用的目標進行跟蹤和識別,也是人們關(guān)心的問題。在這一背景下,人們更傾向于從另一個角度去解決以上問題——對人的視覺機能的研究和模擬。人對于視覺信息具有很強的去冗余的能力首先人眼視網(wǎng)膜中央凹的結(jié)構(gòu),使得人眼對視覺中央?yún)^(qū)域的分辨率較高,而周圍的分辨率逐漸降低;其次人腦只對視覺場景中有新穎信息的感興趣的部分分配較多的注意力[13][14][15],因而觀察也較為仔細,而對其余位置并不"關(guān)注",這種資源優(yōu)化配置的機制為人眼和人腦節(jié)省了大量資源,同時對于運動的目標和與場景中那些與它周邊明顯不同的區(qū)域眼睛也會特別關(guān)注,這是人的視覺能很快地搜索到目標的原因。受此啟發(fā),把以上稱之為注意力選擇的機制[1][2][3],將這種機制應(yīng)用于圖像、視頻的有用信息的挖掘、目標檢測、識別中,可節(jié)省其搜索時間,應(yīng)用于圖像和視頻的編解碼壓縮中,可在人眼能夠感受到的視覺質(zhì)量下降最少的情況下,大大減少圖像、視頻的容量大小,對緩解其傳輸、存儲的壓力將有很好的效果。要應(yīng)用以上注意力選擇機制就必須抽取圖像中人眼感興趣的區(qū)域,通常自然視頻場景中的顯著特征區(qū)域如強烈的顏色對比、形狀對比、運動變化和新穎物體的出現(xiàn)都將導(dǎo)致強烈的視覺刺激信號,引起注意力的選擇。因此,對顯著區(qū)域的提取技術(shù)成為解決以上問題的關(guān)鍵,同時也是后續(xù)目標識別與監(jiān)測的前提技術(shù)。對此,相關(guān)的研究持續(xù)了數(shù)十年,提出各種不同的模型[5][6][7]。但是,時至今日,它依然是機器視覺和圖像視頻處理領(lǐng)域中極具挑戰(zhàn)性的問題。基于靜態(tài)圖像的方法在過去的研究中取得了長足的進步,其中包括Itti等人提出的一種自下而上(bottom-up)的處理模型,并以此開發(fā)出了一套0++視覺工具集~NVT(NeuromorphicVisionToolkit)[4],以下簡稱為NVT算法。此種方法從一定意義模擬了生物對于復(fù)雜場景的視覺處理,具有較好的顯著特征抽取結(jié)果和抗噪聲的能力,但也存在著計算成本高,速度慢并且顯著特征抽取結(jié)果依賴于參數(shù)的選擇等不足。最近Hou等人提出了一種基于傅立葉變換的殘差對自然場景分析方法SR(SpectralResidual)[8],這種算法有計算成本低,運算速度快,結(jié)果不依賴于參數(shù)選取的優(yōu)點,但是其抗噪聲能力差,并僅局限于抽取視頻圖像灰度特征而不考慮顏色信息,對彩色圖像顯著特征抽取效果差。同時以上幾種方法都只是針對于靜態(tài)圖像,對于帶有重要運動信息的圖像序列無法做出準確的顯著特征抽取。當(dāng)前對于動態(tài)場景的顯著特征抽取方法還是一個空白。在[|2]中提出的彩色圖像的超復(fù)數(shù)傅立葉變換的基礎(chǔ)之上,本發(fā)明提出了一種基于頻率域相位顯著特征抽取的圖像序列顯著圖獲取方法[9],簡稱為PQFT(PhasespectrumofQuaternionFourierTransform)算法。該方法把相位信息作為模擬人眼注意力選擇的依據(jù),以此來快速、準確獲取原圖像顯著區(qū)域,此外該方法把圖像序列的時間信息和空間信息統(tǒng)一到四元數(shù)表示的圖像中,把對圖像顏色、形狀和運動的信息通道的運算處理統(tǒng)一到對一個四元數(shù)表示的圖像的運算處理,提高了運算效率與計算效果??赏瑫r對于靜態(tài)圖像和動態(tài)圖像的序列進行處理,最終使得顯著特征抽取效果強于只支持靜態(tài)彩色圖像的NVT算法和只考慮靜態(tài)灰度圖像特征的SR算法,而運算成本和運算時間同SR相當(dāng),比NVT小很多,因而可使這項技術(shù)用于實時的處理。下面介紹與本發(fā)明相關(guān)的一些概念1.NVT算法簡介依特(Itti)、柯希(Koch)在1998年提出基于顯著性特征的注意力選擇模型[4],并在2001年度自然(Nature)上對該模型理論作了進一步的完善[17]。這個注意力選擇模型是基于這樣的假設(shè)原始圖像輸入到模型后,通過多個通道的處理,考慮不同的尺度的分析和濾波的計算后獲得一個兩維的顯著特征映射圖,這個映射圖中幅度最強的區(qū)域部分,就為注意力選擇的焦點,其次強的區(qū)域為第二選擇,以此類推得到數(shù)個顯著特征區(qū)域,它可以為注意力的分配提供很好的策略。它的基本模型如圖l所示輸入的靜態(tài)圖像先通過一個線性濾波器濾去圖像中的噪聲,然后并行的分為三個通道獲取圖像的顏色、亮度、和方位的信息,然后并行地送到金字塔狀的高斯低通濾波器^^中(Overcompletesteerablepyramids)[16],對輸入圖像進行逐層低通濾波處理和降采樣,(具體見后面的介紹),產(chǎn)生一系列不同尺度的紅、藍、綠、黃四種顏色,亮度,以及四個方位(0度,45度,90度,135度)所對應(yīng)的兩維特征圖(9個尺度),呈金字塔狀輸出。然后分別對各個特征通道所對應(yīng)的不同尺度特征圖之間的"中心點-環(huán)繞區(qū)域"差異性的進行計算(center-surrounddifferences)和歸一化,顏色通道獲得紅綠特征、藍黃特征各6幅特征映射圖(共12幅),亮度通道6幅特征映射圖,方位信息四個方向各6幅映射圖(共24幅),然后通過個尺度特征圖的合并以及歸一化,獲得顏色、亮度和方向三個輸入通道各自對應(yīng)的綜合特征圖。它的金字塔顏色和亮度信息是這樣獲得的假定視覺信息輸入為靜止的彩色圖像,通過二維金字塔形高斯濾波器對輸入圖像進行逐層低通處理和降采樣,得到9個不同尺度的圖像,呈金字塔輸出[18],實現(xiàn)從l:l(第0層)到1:256(第8層)的尺度。設(shè)r,g和6分別代表輸入圖像的紅色、綠色和藍色通道,亮度信息/通過下式獲得/=0+g+6)/3(1)四個顏色通道紅、綠、藍、黃(i,G,5,F(xiàn))輸入分別通過以下式子獲取/=r—(g+6)/2G=g-(r+6)/27=(r+g)/2—|"g|/2—Z)(2)以上顏色通道輸出若有負值均設(shè)為O。假設(shè)^w為金字塔形高斯低通濾波器。通過這濾波器對/,及,G,B和y五個通道進行處理,詳見文獻[16,17],設(shè)原始的五個通道的圖像為/。,i。,G。,5。,;r。,把它們通過低通濾波器濾波后,再用長、寬兩點取一點的方法取得減小尺度的低一個分辨率的圖像,然后再不斷地濾波和減小尺度,取得9個不同尺度的亮度信息/和四個顏色通道的金字塔圖像/。,iCT,Gff,5CT,i;,其中0"={0,1,2,...8}。方位信息是用濾波器來實現(xiàn)的,用不同尺度的嘉柏(Gabor)方向濾波『w(CT;e)對輸入圖像進行處理得到輸出為(3)這里cre(O,1,2,...8}代表相應(yīng)的分辨率(尺度)的圖像層,^{0°,45°,90°,135°}對應(yīng)4個不同角度方向。而方向檢測的嘉柏(Gabor)濾波器『w是通過文獻[16]提出的帶有一組具有方向性的正弦波的拉普拉斯金字塔濾波器的調(diào)制得到。"中心點-環(huán)繞區(qū)域"的差異是求不同尺度圖像層(分辨率高和分辨率相對較低的兩層圖像)之間的差值。設(shè)c對應(yīng)經(jīng)濾波器后產(chǎn)生的不同尺度的圖像層,選取落在圖像ce{2,3,4}的像素點作為中心點,而環(huán)繞區(qū)域是對應(yīng)的在s二c+3的圖像層,這里^£{3,4}。兩層之間的差值計算是通過把相對低分辨率的圖像層s拉伸放大到和高分辨率圖像層c同樣大小然后進行逐點相減的運算,這樣可以通過計算,生成一系列特征映射圖,實現(xiàn)對不同尺度的圖像層特征的抽取。在亮度信息通道總共6幅特征映射圖/(c,",其中ce(2,3,勻,s=c+3,5e{3,4};顏色通道中把紅色為中心點綠色為環(huán)繞區(qū)域,為12幅(對應(yīng)紅綠特征、藍黃特征各6幅)而方位通道有24幅特征映射圖。把三個通道的特征圖通過線性相加獲得最終的兩維的綜合特征映射圖(Saliencymap)。如同輸入圖像的"地理"特征映射,該特征映射圖輸出越強的區(qū)域,對應(yīng)于輸入圖像中越顯著越容易吸引注意力的區(qū)域。同時,己經(jīng)分配注意力的顯著區(qū)域?qū)λ谔卣饔成鋱D的輸出進行抑制,這樣注意力不會一直集中在最顯著的區(qū)域,而會按照顯著性依次關(guān)注個對應(yīng)區(qū)域。所有的特征都純粹地通過自下而上的方式形成顯著性的映射,最后在整幅輸入圖像中形成對應(yīng)的"地理"特征映射圖,從而得到輸入圖像的顯著圖。整個流程見圖l。該模型模仿生物視覺的自下而上的預(yù)處理過程,實現(xiàn)對視覺區(qū)域中最為顯著的區(qū)域的計算,在現(xiàn)有的計算機實現(xiàn)的注意力選擇模型中得到廣泛的應(yīng)用。但由于該模型算法復(fù)雜,計算成本高,運算時間長。同時其運算結(jié)果嚴重依賴于參數(shù)的選取(各種濾波器參數(shù),不同尺度綜合參數(shù),線性迭加參數(shù)等)并且只針對靜態(tài)圖像。2.SR算法簡介SR方法是2007年赫(Hou)提出的一種得到圖像的顯著圖的方法[8]。他們認為,從信息論對編碼的要求來看,單幅圖像的信息/^藶像j可以看作由兩部分組成,即麟熟=邵纖教勸+//沐發(fā)鵬(5)其中/^先麥,/7^)為先驗信息部分而/^新^^^i^新穎信息部分,而新穎信息的部分可能就是輸入圖像的顯著圖。同時SR發(fā)現(xiàn),對輸入圖像/(;c,力進行二維傅立葉變換后,得到頻率域的振幅譜和相位譜為」(/)=iF(/(x,力)l,i5(/)=臟,g[/呵(F(/(x,力))/層/(F(/(x,力))](6)式(6)中的F為二維傅立葉變換,J(/)和尸(/)分別為圖像的振幅譜和相位譜。其頻率域的幅值v4(/)的對數(shù)形式為丄(/)-log04(/))經(jīng)過一個低通濾波器^(/)可以得到的S(/),如式(7)示:<formula>formulaseeoriginaldocumentpage8</formula>(7)赫(Hou)他們檢測很多圖像的5(/),發(fā)現(xiàn)幾乎所有圖像的B(/)都是類似的,這樣就可以把S(/)看作是圖像的先驗信息部分,而把丄(/)看作是單幅圖像總的信息,于是就可以把7(/)=丄(/)-5(/)來表示圖像中殘留信息的部分,稱為殘留譜(spectralresidual)。而殘留譜正好表達了原圖像中的新穎信息具有顯著性。因此把殘留譜i(/)的指數(shù)作為頻率域的幅值,保留原來的相位譜,經(jīng)過傅立葉逆變換就可以恢復(fù)出原圖像顯著圖來。該方法的具體步驟為下1.用式(6)得到圖像的振幅譜J(/)和相位譜戶(/)2.讓l(/)二log04(/)),利用式(7)得到圖像的先驗信息B(/)3.得到殘留譜=Z(/)-,新的振幅譜exp(7C0)4.原圖像顯著圖<formula>formulaseeoriginaldocumentpage8</formula>(8)(8)式中g(shù)Oc,力為濾波器,F(xiàn)爿為傅立葉逆變換。該方法得到的特征顯著圖的質(zhì)量可以與NVT得到的顯著圖相比,而且該算法計算速度快,運算效率高,結(jié)果不依賴于參數(shù)的設(shè)定,可以實時;但是該算法抗噪聲能力差,只利用了圖像灰度特征,卻忽略了圖像顏色等方面的信息,其效果不如NVT算法。同樣本算法也是只針對靜態(tài)的灰度圖像,不能處理彩色和動態(tài)圖像。3.四元數(shù)簡單介紹11()1'111[12|:四元數(shù)(Quaternion)是1843年數(shù)學(xué)家漢密爾頓(Hamilton)創(chuàng)造的,由四個數(shù)為一組來表示一個三維或四為一體的數(shù)。數(shù)字從有理數(shù)到實數(shù)再到復(fù)數(shù),數(shù)字的擴充就到頭了,復(fù)數(shù)是平面上一個點,如何再繼續(xù)擴充成空間中一個點,Hamilton從三元數(shù)推廣到四元數(shù)來表示帶有旋轉(zhuǎn)的空間坐標上的點,他用兩個復(fù)數(shù)的組合得到超復(fù)數(shù)表示的四元數(shù),后期的數(shù)學(xué)家對四元數(shù)的運算給出了很多法則。同時近年來由于在信息領(lǐng)域中往往碰到由多個因素決定的問題,四元數(shù)在信息領(lǐng)域尤其在圖像領(lǐng)域中的應(yīng)用開始發(fā)展起來,2007年在IEEE圖像處理期刊雜志上E11等人^,J提出用四元數(shù)的傅立葉變換來解彩色圖象的處理問題給本專利的發(fā)明有了很大啟發(fā),下面給出與本專利有關(guān)的四元數(shù)基本概念和運算。1.四元數(shù)基本概念定義一個四元數(shù)可以用如下超復(fù)數(shù)的形式表示9="+W+C7'+^:,其中a,6,C,J是實數(shù),/,,A是復(fù)數(shù)運算子。"為四元數(shù)的數(shù)量部分,也稱純量部分;6/+"+說為向量部分。它們滿足以下法則=/2=/=A:2=—1以及#==—=,汰=—,々'==—&所以四元數(shù)相乘不滿足乘法交換律。一個四元數(shù)的模和補可以表示為H=a/"2"2+C2W2,^"/-H模等于1的四元數(shù)被稱為單位四元數(shù),對于fl為零的單位四元數(shù)稱為單位純四元數(shù)。2.四元數(shù)的極數(shù)形式任何的四元數(shù)都可以表示為極數(shù)形式《=|M|e"、其中IM為四元數(shù)的模即幅值。根據(jù)歐拉公式,=cos0+//sin0,其中為單位純四元數(shù),稱為四元數(shù)的本征軸(dgenaxis),如《=a+W+g'+說,則//=(&/+q/+說)/+c2+c/2。<z>是四元數(shù)的本征相角(eigenangle)cos-=sin-=+c2+c2/||^|,-e[O,TT]。3.四元數(shù)的凱萊-狄克森(Cayley-Dickson)形式與偶對(symplectic)形式任意四元數(shù)《-"+W+g'+W,可以重寫為凱萊-狄克森形式9=」+場',其中」=a+6/,5=c+d,即《二0+W)+(c+^X/。按照以上思想可以把g重寫為偶對形式《=爿'+57/2,j'=a'+67v5^c'+^Vv其中^,/^為兩個單位純四元數(shù),且^丄/v4.四元數(shù)圖像傅立葉變換如果一幅圖像/的每個像素的值用四元數(shù)來表示,其離散傅立葉變換為v]=JJ]/M)+(""/W))/(",附)(丄0)V層m=0"=。其中A為單位純四元數(shù),1,/(",w)表示原始四元數(shù)圖像第n行m列的四元數(shù)值。M表示圖像的寬度,N表示圖像的高度。F[w,v]表示頻率域第u行v列的取值。四元數(shù)圖像的傅立葉逆變換為=yy,2一/m)+(附師,,v)(ii)四元數(shù)圖像快速傅立葉變換算法[12]:1)給定四元數(shù)圖像/(",w),重寫為四元數(shù)偶對形式/(",/m)=+/2(",/n)/i2(12)其中/(W,W)二d(",W)+A"'2(",W)//,,/2(",m)二r2,(",W)+r2,2(W,m)A(13)2)建立等效復(fù)數(shù)圖像,這一步只是簡單的把(13)中的M改寫為/乂'(,附)=ru(",m)+"2(",附)/,/2'(",m)=r2!(",附)+r22(",附)/對/(",w)和/20,w)進行二維復(fù)數(shù)傅立葉變換得到(14)[v,w]=+2[v,w]/,F(xiàn)2'[v,w3)將(15)中的/改寫為/^得到(15)A[v,w]=i(,[v,w]+i(2[v,w]/^,F(xiàn)2[v,w]![V,W]+2[V,W]//,(16)最后利用式(9)得到完整頻率域四元數(shù)形式為:_F[v,w]=fJ[v,w]+F2[v,w]//:(17)四元數(shù)圖像快速傅立葉逆變換同上類似,只是把第2步中的二維復(fù)數(shù)傅立葉變換改為二維復(fù)數(shù)傅立葉逆變換。1.R.Fergus,P.Perona,andA.Zisserman.Objectclassrecognitionbyunsupervisedscale-invariantlearning.Proc.CVPR,2,2003.2.TreismanandG.Gelade.AFeature-IntegrationTheoryofAttention.CognitivePsychology,12(1):97-136,1980.3.J.Wolfe.GuidedSearch2.0:ARevisedModelofGuidedSearch.PsychonomicBulletin&Review,1(2):202—238,1994.4.L.Itti,C.Koch,E.Niebur,etal.AModelofSaliency-BasedVisualAttentionforRapidSceneAnalysis.IEEETransactions,onPAMI,20(11):1254—1259,1998.5.R.Rensink.Seeing,sensing,andscrutinizing.VisionResearch,40(10-12》1469—87,2000.6.D.SrandC.Koch,Modelingattentiontosalientproto陽objects.NeuralNetworks.19,1395-1407,20067.D.Walther,L.Itti,M.Riesenhuber,T.Poggio,andC.Koch.AttentionalSelectionforObjectRecognition—aGentle^Vay.LectureNotesinComputerScience,2525(1):472479,2002.8.X.HouandLZhang,SaliencyDetection:ASpectralResidualApproach,Proc.CVPR,9.K.Castleman,DigitalImageProcessing.Prentice-Hall,NewYork,1996,10.T.EllandS.Sangwin,HypercomplexFourierTransformsofColorImages,IEEETransactionsonImageProcessing,16(1):22-35,200711.T.A.Ell,HypercomplexSpectralTransforms,Ph.D.dissertation,Univ.Minnesota,Minneapolis,1992.12.S.J.Sangwine,Fouriertransformsofcolourimagesusingquaternion,orhypercomplex:參考文獻2007.numbers,Electron.Lett,vol.32,no.21,pp.1979—1980,Oct.1996.'13.S.Engel,X.Zhang,andB.Wandell,ColourTuninginHumanVisualCortexMeasuredWithFunctionalMagneticResonanceImaging,Nature,vol.388,no.6,637,pp.68—71,My1997.14.MI.PosnerandY.Cohen,ComponentsofVisualOrienting,H.BoumaandD.G.Bouwhuis,eds.,AttentionandPerformance,vol.10,pp.531—556.Hilldale,N丄Erlbaum,1984.15.J.Wolfe.GuidedSearch2.0:ARevisedModelofGuidedSearch.PsychonomicBulletin&Review,1(2):202—238,1994.16.H.Greenspan,S.Belongie,R.Goodman,P.Perona,S.Rakshit,andC.H.Anderson,"OvercompleteSteerablePyramidFiltersandRotationInvariance,"Proc.IEEEComputerVisionandPatternRecognition,pp.222-228,Seattle,Wash.,June1994.17.L.IttiandC.Koch,"Computationalmodelingofvisualattention,,'NatureNeurosci.Rev.,vol.21,pp.314-329,2001.18.H.Greenspan,S.Belongie,R.Goodman,P,Perona,S.Rakshit,andC.H.Anderson,"OvercompleteSteerablePyramidFiltersandRotationInvariance,"Proc.IEEEComputerVisionandPatternRecognition,pp.222-228,Seattle,Wash.,June1994.
發(fā)明內(nèi)容本發(fā)明的目的在于提出一種提取圖像序列特征顯著圖的方法,用于提取場景中人眼感興趣的目標區(qū)域,進而提取顯著物體。雖然己有的NVT算法和SR算法都在一定程度上做到了這一點,但兩者都存在一定的局限性,有各自的不足與缺陷。本發(fā)明正是針對以上不足,提出了一種新的利用四元數(shù)運算,基于圖像相位信息來獲取圖像顯著圖的方法。從靜態(tài)圖像的特征顯著圖的獲取方法來分析,我們指出了SR方法的不合理性,并作了改進。對NVT而言,由于算法過于復(fù)雜,計算硬件成本高,運算時間長,并不適合對連續(xù)的視頻圖像序列進行在線的處理。而SR中基于圖像頻率域處理的算法,由于有快速傅立葉變換算法的存在,因而計算速度很快。但是仔細分析SR算法(上一節(jié)SR介紹中的步驟),在它的富理葉對數(shù)譜的殘留譜計算(步驟3)并不是很有道理,因為傅立葉變換的幅度譜只反映了圖像中每個頻率成分的比例,它不存在位置信息,但是圖像的特征顯著圖往往反映了圖像邊緣的位置信息,而相反,相位譜是反映邊緣位置信息的[91。用一維的傅立葉變換作為考察相位譜的例子如圖2示。圖2中左圖表示原始的信號,右圖為只通過相位譜的反傅立葉變換(保持幅度譜為非另常數(shù))恢復(fù)的信號??梢钥闯鐾ㄟ^相位恢復(fù)的信號,在原信號變化劇烈的位置(如方波的跳變上下緣)有較大的輸出,而對原信號平穩(wěn)部分或者是有周期性變化規(guī)律的位置,輸出很小(信號的起始和結(jié)束不考慮)。對于圖像而言,圖像中非周期性的紋理、邊緣變化劇烈的部分是相位信號恢復(fù)圖像輸出較大的對應(yīng)所在,同時這些部分往往是蘊藏信息量比較大的位置,攜有大量的新穎信息,因而也是人腦感興趣。所以可以簡單的以相位信息恢復(fù)的圖像看作是表征人眼注意力選擇區(qū)域的特征顯著圖。因此,我們認為之所以SR算法能得到比較好的結(jié)果是因為它保留了原圖像的相位譜(SR介紹中的步驟4)。我們把SR介紹中的步驟改為如下(1)用式(6)得到圖像的振幅譜^(/)和相位譜P(/);(2)將所有頻率上的振幅譜設(shè)為1。W^(/)=l,V/;(3)原圖像顯著圖/,(",OT)-g(",附)叫l(wèi)F-'[expC/2;r尸(/))]l;(18)在(18)式中g(shù)(",m)為低通濾波器,g(",附)52乂11111111111111111111F-'表示傅立葉逆變換。很明顯,在這里我們只考慮相位譜尸(/),把圖像的振幅譜定為l,濾波器是將突出的邊緣部分平滑為一個特征顯著區(qū)域,以便人們注意不是一個點,而是一個區(qū)域來得到感興趣的目標。上面這個方法我們稱為PFT。與SR方法相比,本發(fā)明減少了求對數(shù)譜、對數(shù)譜的濾波、計算對數(shù)殘留譜和恢復(fù)對數(shù)殘留譜為殘留譜的步驟。利用上面的PFT方法對三幅靜態(tài)圖像進行處理,并與SR進行對照,結(jié)果如圖3所示。其中左圖是原圖像,上兩幅為風(fēng)景圖,下一幅是三個長頸鹿,中間和右圖分別是本發(fā)明的方法和SR方法得到的特征顯著圖結(jié)果,亮的部分是該注意的地方,兩者幾乎相同。為了定量的分析,我們對分辨率為64x64,128x128,256x256和512x512的四組圖像的特征顯著圖進行了對比,用式(18)表示PFT和SR的特征顯著圖誤差1泌£'=7ZT藝Z(人(潛)("'附)_(",附))層f(19)這里見M為特征顯著圖的長和寬,m,"為圖像的編號。比較二者MSE的結(jié)果如圖4和表1所示圖像尺64x648.5138e-004128x1284.6235e-004256x2563.0836e-004512x5121.8690e-004表1基于相位的方法同SR算法顯著圖MSE比較從圖4和表1看,我們提出的PFT和SR二者的MSE差別非常小,兩種方法得到的顯著圖是很接近的,可見真正用于獲取圖像特征顯著信息的是圖像頻率域相位信息,而不是SR算法中提出的所謂殘留譜,SR算法之所以成功是因為其計算殘留譜的步驟在一定程度上模擬了幅度歸一化的步驟,保留了相位信息。對于彩色圖像,我們將圖像的每個像素上的色彩、亮度和運動信息作為一個四元數(shù),對視頻圖像序列進行四元數(shù)的傅立葉變換,同樣利用四元數(shù)的傅立葉變換的相位譜得到視頻圖像序列的特征顯著圖。令/時刻的輸入視頻幀為/w"ge(z;M:l…W,其中^為總的幀數(shù)。每幀包含有紅、綠、藍三個通道的信息,記為Kag(0,6(0。如同NVT對彩色圖像處理的方法(式(1)和(2))得到亮度為朋,)+g(,)+柳/3四種廣義調(diào)制的紅、綠、藍、黃顏色通道分別為<formula>formulaseeoriginaldocumentpage13</formula>貝'J紅綠double-opponent禾口藍黃double-opponent通道分另U為斷,H雄)-,(20),H5")-w)|記/(卜r)為時刻t的前第r幀圖像,則運動殘差圖像為M(0=/(0,-",(21)其中r為時延,在本發(fā)明中r一般取為2-4。將以上得到的/(0、iG(O、5r(r)、M(O組成四元數(shù)圖像<formula>formulaseeoriginaldocumentpage13</formula>《(O表示四元數(shù)圖像,為此圖像中n行m列的四元數(shù)。利用四元數(shù)圖像快速傅立葉變換算法(式(12)(17))對《(Z,",m)進行四元數(shù)的傅立葉變換處理。步驟為-把g(f,",w)寫成偶對sympkctic形式其中&(f,w,w)=r,,,(f,",m)+r1>2(f,",w)//,,g2(f,;7,附)=r2>1(r,",7)+r22(f,",)建立等效復(fù)數(shù)圖像,把/^改寫為;g',(>,",附)=rt,(y,",附)+。2,w,,g'2",=r2,(f,",wi)+r22(f,",m)i對《;0,",w)和&0,w,進行二維復(fù)數(shù)傅立葉變換得到g、v,w]=7d["v,w]+《217,v,w]/,2'21>,v,w]=0,v,w]+7;,21>,v,w]/將上式中的/改寫為/^得到Q|>,V,w]=《,v,w]+《2[Z1,V,w]〃,,込0,V,W]=|>,V,w]+《,2[/,V,最后得到完整頻率域四元數(shù)形式為W,v,w]=G["v,w]+込|Y,v,,則頻率域的四元數(shù)圖像可以用g()表示,其極數(shù)形式表示為2(0=|2W|e〃、設(shè)定振幅譜為固定值,一般取ll2(0hl(23),則此時2(0=^僅僅包含相角信息。同四元數(shù)圖像傅立葉變換類似計算g(O的四元數(shù)傅立葉逆變換,得到逆變換結(jié)果記為=a")+6(0'/+c(f)'/+壽)(24)此時,原圖像顯著圖即為^(0的模經(jīng)過低通濾波后的結(jié)果為sM",w,m)=g(;w,/w)*|r《0;)||(25)其中g(shù)(",w)定義同式(18)。十分明顯,四元數(shù)的PFT方法的步驟為(1)將圖像序列用公式(1),(2),(20)(22)寫為四元數(shù)形式(2)用四元數(shù)圖像的FFT(式(12)~(17))得到頻率域的四元數(shù)圖像,它的極坐標形式卯)=|^)|浐;(3)將所有頻率上的振幅譜設(shè)為1,即|2(/)|=1;(4)由四元數(shù)圖像傅立葉逆變換得到四元數(shù)圖像w(O(24式);(5)由式(25)得到sM(,",w)二g(",w)lw(Ol,即原圖像顯著圖。我們把用四元數(shù)FFT用于獲取圖像特征顯著圖的方法稱為PQFT方法,該方法原理簡單,計算開銷小,計算速度快,同時具有很好的顯著特征抽取效果。運用此種算法可以避免NVT算法計算量上的局限。同時NVT算法和SR算法都是針對靜態(tài)圖像的,對視頻,只是簡單的把其中的每幀圖像單獨處理。這樣就忽略了視頻場景中人眼注意力選擇的一個重要因素——運動,人眼對于運動的物體時非常敏感的。本發(fā)明把圖像序列中相隔r幀的圖像之差記為殘差圖像,看作圖像中物體運動信息,通過加入此通道可以很好的把握圖像序列的運動變化,把運動加入到注意力選擇中以避免NVT算法和SR算法不支持動態(tài)圖像的局限。此外原有的SR算法只利用了圖像的強度信號,即灰度信息而忽略了圖像的顏色信息,對于顏色特征顯著的圖像,其效果不佳,穩(wěn)定性差??梢婎伾盘柺欠治鰣D像顯著圖所需要的。而Itti的NVT的算法雖然用到了顏色、形狀、方位等信息,但需要對每個信息通道進行分別處理,并且每個通道都要計算大量高斯金字塔,計算量大,同時這還帶來一個通道融合的問題。因此NVT算法雖然很好的模仿了生物機理,但其信息處理的效率很差的。并且,由于算法運算步驟繁多,每一步又牽涉一定的參數(shù)選取工作。所以整個算法最后嚴重依賴于參數(shù)的選擇。本發(fā)明通過構(gòu)建四元數(shù)特征圖像來完成圖像空間信息和時間信息的綜合。將圖像的顏色、形狀和運動結(jié)合起來用于后續(xù)分析。具體而言,通過對圖像特征的分析,提取得到圖像的特征通道,分別為圖像的光強(灰度)信號,廣義紅綠對比信號,廣義藍黃對比信號和運動變化信號,把以上每個信號看作是四元數(shù)的一個元,組合成四元數(shù)的形式,稱之為四元數(shù)特征圖像。由于有計算四元數(shù)FFT算法的存在,后續(xù)的頻率域相位計算都在四元數(shù)特征圖像上進行,這樣就把圖像所有的特征統(tǒng)一到同一個載體上。大大提高算法的運算效率與顯著特征抽取效果。本發(fā)明的優(yōu)點本發(fā)明圖像序列特征顯著圖獲取時通過對簡單、有效的相位信息的還原來提取得到原圖像特征顯著特性。這樣算法復(fù)雜度低,易于實現(xiàn)。其次本發(fā)明綜合利用圖像序列的顏色、形狀的空間信息和運動、變化的時間信息。使得本算法準確度高,顯著特征抽取效果好。同時本算法把對圖像顏色、形狀和運動的信息每個通道的運算處理統(tǒng)一到對四元數(shù)特征圖像的運算處理,而四元數(shù)的傅立葉變換是有快速算法的,這樣就在提高算法的效果的同時加快了算法的運算速度。同SR算法相比,本發(fā)明可以應(yīng)用于彩色圖像的顯著特征抽取,并大大提高了抗噪聲能力。同NVT算法相比,本發(fā)明運算成本低,運算時間大大減少;算法穩(wěn)定性好,計算結(jié)果不依賴于參數(shù)的選?。黄湫Ч灿兴岣?。同時本發(fā)明通過加入運動信息的分析,增加了對動態(tài)圖像序列的支持,可以很好的找到其中人眼注意力選擇優(yōu)先級較高的運動物體。這是原有算法所不具備的。在動態(tài)視頻圖像顯著性的抽取中,本發(fā)明的效果要明顯優(yōu)于NVT和SR算法。圖1為NVT算法模型示意圖。圖2為一維信號相位信息功能說明圖,(a)、(c)、(e)為原始波形,(b)、(d)、(f)為對應(yīng)的相位譜恢復(fù)波形。圖3為基于相位的方法同SR算法顯著圖比較示意圖,(a)、(d)、(g)為原始圖像,(b)、(e)、(h)為通過PFT方法得到的顯著圖(c)、(f)、(i)為通過SR方法得到的顯著圖。圖4為基于相位的方法(PFT)同SR算法顯著圖MSE比較。圖5為本發(fā)明算法流程圖。圖6為三種方法對于靜態(tài)圖像的顯著目標抽取比較結(jié)果,其中,(a)行為三種方法對自然圖像一得到顯著圖的比較,(b)行為三種方法對自然圖像一選取目標的比較,(c)行為三種方法對自然圖像二得到顯著圖的比較,(d)行為三種方法對自然圖像二選取目標的比較。圖7為靜態(tài)圖像每一步正確檢測到的目標數(shù)的示意圖。圖8為三種方法對于動態(tài)圖像的顯著目標抽取比較結(jié)果,其中,(a)行為三種方法對第354視頻幀圖像得到顯著圖的比較,(b)行為三種方法對第354視頻幀圖像選取目標的比較,(c)行為三種方法對第369視頻幀圖像得到顯著圖的比較,(d)行為三種方法對第369視頻幀圖像選取目標的比較,(e)行為三種方法對第417視頻幀圖像得到顯著圖的比較,(f)行為三種方法對第417視頻幀圖像選取目標的比較。圖9為動態(tài)圖像每一步正確檢測目標數(shù)示意圖。圖IO為三種方法對白噪聲測試的示意圖,其中,(a)、(b)(c)為噪聲密度分別為O.l、0.4、0.7的圖像,(d)行為三種方法對噪聲密度為0.1的圖像得到顯著圖的比較,(e)行為三種方法對噪聲密度為0.1的圖像選取目標的比較,(f)行為三種方法對噪聲密度為0.4的圖像得到顯著圖的比較,(g)行為三種方法對噪聲密度為0.4的圖像選取目標的比較,(h)行為三種方法對噪聲密度為0.7的圖像得到顯著圖的比較,(i)行為三種方法對噪聲密度為0.7的圖像選取目標的比較。具體實驗方式本發(fā)明方法的具體實施分為3個階段1)圖像序列特征獲取2)四元數(shù)特征圖像傅立葉變換處理3)顯著圖的目標提取。圖5顯示了算法流程圖。給定需要處理的圖像序列,利用式(20)提取圖像顏色通道信息,以及式(21)分析圖像序列運動信息,并由式(22)把得到的顏色、運動信息組成四元數(shù)特征圖像。完成圖像序列特征的獲取。然后由上文介紹的四元數(shù)傅立葉變換方法對得到的四元數(shù)特征圖像進行傅立葉變換,根據(jù)式(23)設(shè)定頻率域振幅譜,保留相位信息。再對此四元數(shù)圖像傅立葉逆變換以及低通濾波后,完成四元數(shù)特征圖像傅立葉變換處理,得到原始圖像的顯著圖。此時設(shè)在顯著圖中前n個最大輸出為0"^,/e[1』],則第n個目標物體坐在的區(qū)域記為ig^={(",m)|a.OmaxSQ(",附)SCLJ,其中(w,w)表示圖像上的位置,a是區(qū)域選取閾值,本發(fā)明中a—般取0.75。^rM乍為第i個顯著物體所在區(qū)域。為了比較本發(fā)明與NVT以及SR算法的效果,設(shè)計兩組對比試驗。其中將本發(fā)明(PQFT)和SR的顯著圖分辨率設(shè)定為64x64,而NVT的分辯率由程序自行決定。NVT算法的參數(shù)選取默認值。所有的測試在Linux環(huán)境下的Matlab2007a平臺進行。測試電腦為帶有1G內(nèi)存的P43G主機。NVT算法為C程序?qū)崿F(xiàn),而SR和本發(fā)明為Matlab實現(xiàn)。測試一靜態(tài)圖像顯著特征圖抽取比較結(jié)果測試靜態(tài)圖像時,不考慮圖像物體運動信息,因此在運用本發(fā)明組成四元數(shù)特征圖像步驟中,去掉運動信息的部分,把四元數(shù)特征圖像表示為柳=0+/(0.w,+w2+.w3選取IOO張自然圖像為測試集,分別將三種算法應(yīng)用于這些圖像的特征顯著圖以及顯著物體的抽取,圖6列出了測試集中2幅典型圖像作為結(jié)果說明,其中每一列表示用相同的算法得到的結(jié)果,三列分別表示我們的PQFT方法和SR,NVT三種不同算法結(jié)果,"單行"表示每種算法的顯著圖結(jié)果。"雙行"為每種算法最后劃定的特征物體區(qū)域。對于每張圖,每種算法都根據(jù)特征顯著圖選取前5個具有顯著特性的目標物體,表2和圖7指出了三種方法每一步正確檢測到的目標數(shù),可見本發(fā)明在總目標的檢測率以及檢測目標反應(yīng)速度上都是三種算法中最好的,表3指出三種算法所用的時間對比。本發(fā)明在兼顧顏色信息的前提下與SR算法時間相當(dāng),比C語言實現(xiàn)的NVT快很多。<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>表2靜態(tài)圖像每一步正確檢測到的目標數(shù)<table>tableseeoriginaldocumentpage18</column></row><table>表3三種算法應(yīng)用于靜態(tài)圖像的運算時間對比測試二動態(tài)圖像序列顯著目標抽取結(jié)果本測試使用640x480分辨率的15f/s的1000多幀動態(tài)圖像序列。圖8顯示了三種算法在視頻序列中6幀圖像的顯著目標抽取結(jié)果??梢姳景l(fā)明由于加入了運動信息,可以很好的選取其中運動的行人的位置,這是其他兩種方法無法做到的。表4和圖9表示了三種算法對于動態(tài)圖像每一步正確檢測的目標數(shù),其中本發(fā)明每幀平均可以正確選取2.52個目標物體,是三種方法中最好的。表5給出三種算法所用的時間對比,結(jié)果同測試一類似。<table>tableseeoriginaldocumentpage18</column></row><table>算法平均運算時間(s)PQFT0.0565SR0.0141NVT0.4313表5三種算法應(yīng)用于動態(tài)圖像的運算時間對比測試三抗白噪聲測試本測試是用三種算法對不同程度白噪聲污染的自然圖像的顯著圖抽取效果。這里使用文獻[4]中的測試圖像。圖像中作為顯著物體的兩人站立在白色的雪山前。使用5X5的白色噪聲色塊對原始圖像進行污染,(T表示白色噪聲色塊的密度,(T等于0.1、0.4、0.7的噪聲圖像如圖IO(a)、(b)、(c)所示。PQFT、SR、NVT三種算法抽取圖像顯著圖的運算結(jié)果如圖10右三列所示??梢奡R算法對噪聲非常敏感,在有噪聲的情況下抽取效果非常不理想,而NVT算法在低噪聲情況下,可以正確找到圖像顯著區(qū)域,但需要較多迭代次數(shù),并且隨著白噪聲的增加抽取結(jié)果顯著下降,00.4以后也無法正確得到圖像顯著區(qū)域。而本發(fā)明提出的PQFT算法對所有的cr幾乎都能得到正確的抽取結(jié)果,即使在(7=0.7時也可以l步找到顯著區(qū)域——人站立的位置。本測試說明本發(fā)明抗白噪聲能力突出,遠在SR以及NVT算法之上。權(quán)利要求1.一種快速的圖像序列特征顯著圖獲取方法,其特征在于具體步驟如下(1)用下式(6)得到圖像的振幅譜A(f)和相位譜P(f)A(f)=‖F(xiàn)(I(x,y))‖,P(f)=arctg[imag(F(I(x,y)))/real(F(I(x,y)))](6)式(6)中的F為二維傅立葉變換,I(x,y)為輸入圖像;(2)將所有頻率上的振幅譜設(shè)為1,即<math-cwu><![CDATA[<math><mrow><mi>A</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>,</mo><mo>∀</mo><mi>f</mi><mo>;</mo></mrow></math>]]></math-cwu><!--imgid="icf0001"file="S2008100358622C00011.gif"wi="24"he="5"top="64"left="105"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->(3)原圖像顯著圖Is(n,m)=g(n,m)*‖F(xiàn)-1[exp(j2πp(f))]‖(18)在(18)式中g(shù)(n,m)為低通濾波器,<math-cwu><![CDATA[<math><mrow><mi>g</mi><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msup><mn>5</mn><mn>2</mn></msup></mfrac><mfencedopen='('close=')'><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></math-cwu><!--imgid="icf0002"file="S2008100358622C00012.gif"wi="49"he="30"top="84"left="93"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->F-1表示傅立葉逆變換。2、一種快速的圖像序列特征顯著圖獲取方法,對于彩色圖像,其特征在于具體步驟如下(l)令,時刻的輸入視頻幀為/wflge(0,,-l…W,其中7V為總的幀數(shù),每幀包含有紅、綠、藍三個通道的信息,記為根據(jù)NVT對彩色圖像處理的方法得到亮度/(t)為四種廣義調(diào)制的紅、綠、藍、黃顏色通道分別為22,J(,)(,))—卜(,);洲L柳則紅綠double-opponent禾卩藍黃double-opponent通道分別為卿)=|雄)-,=|邵),)|記/(卜r)為時刻t的前第r幀圖像,則運動殘差圖像為(20)M(,)=/(0_/0-r),(21)其中r為時延,r取2-4;將以上得到的/(0、iG(O、^y(0、M(O組成四元數(shù)圖像W)=/0)+■M!+57(0."2+WO"3(22)g(O表示四元數(shù)圖像,《("n,m)為此圖像中n行m列的四元數(shù);(2)利用四元數(shù)圖像快速傅立葉變換算法進行四元數(shù)的傅立葉變換處理,步驟為:把《^,《,0寫成偶對形式^,w,附)二&(y,",w)+^2(y,w,w)//2建立等效復(fù)數(shù)圖像,把/A改寫為z'《',(y,m,w)=^,(z1,",附)+^2w,w》',《'2(/■,",附)=r2i(y,w,w)+-22(t",附)/對A(r,w,w)和w)進行二維復(fù)數(shù)傅立葉變換得到g、V,M]=《',|Y,V,W]+《2[,,V,W]/,g'2V,W]=,["V,W]+及;,2o,V,W]/將上式中的/改寫為^得到q0,v,w]=/(t[f,v,w]+《2v,w]//,,込iy,v,w]=,iy,v,w]+i;,2iy,v,最后得到完整頻率域四元數(shù)形式為g0,V,W]二g,["V,M]+込iy,V,M]//2;則頻率域的四元數(shù)圖像用2(0表示,其極數(shù)形式表示為2(0=||2(0||,;(3)設(shè)定振幅譜為固定值,一般取||2(0|=1,(23)(4)計算2(0的四元數(shù)傅立葉逆變換,得到逆變換結(jié)果記為=a(/)+柳./+c(Oy.+.A:.(24)(5)原圖像顯著圖即為^(/)的模經(jīng)過低通濾波后的結(jié)果為式中g(shù)(",w)為低通濾波器,g(",w)=-(25)F一'表示傅立葉逆變換'全文摘要本發(fā)明屬于機器視覺和圖像處理
技術(shù)領(lǐng)域:
,具體為一種快速的圖像序列特征顯著圖獲取方法。本發(fā)明把輸入圖像序列的時間信息和空間信息綜合在四元數(shù)特征圖像中,將圖像的顏色、形狀和運動信息結(jié)合起來用于后續(xù)顯著目標抽取,同時該算法利用四元數(shù)特征圖像頻率域的相位信息作為原圖像序列顯著圖獲取的依據(jù),能快速準確的得到圖像中人眼感興趣的注意力選擇區(qū)域,從中可以進一步提取出圖像中的顯著物體。實驗表明本發(fā)明在自然視頻流場景中有著較高的運算效率和很好的顯著目標抽取結(jié)果。同時,方法本身復(fù)雜度較低,易于硬件實現(xiàn),在機器人視覺,目標跟蹤以及圖像分割,視頻壓縮、編碼、傳輸?shù)阮I(lǐng)域內(nèi)有很好的應(yīng)用前景。文檔編號G06K9/62GK101271525SQ20081003586公開日2008年9月24日申請日期2008年4月10日優(yōu)先權(quán)日2008年4月10日發(fā)明者張立明,過晨雷,奇馬申請人:復(fù)旦大學(xué)