回答,圖 中是否有一只動(dòng)物等問(wèn)題,觀察者只需要28ms就可W做出正確的回答。Gist是在大腦中優(yōu) 先相應(yīng)"位置"的區(qū)域中計(jì)算的,也就是對(duì)應(yīng)限制空間布局的視覺(jué)場(chǎng)景類型??臻g內(nèi)容和顏 色判斷會(huì)影響Gist的感知,運(yùn)就促進(jìn)了當(dāng)前??谘芯靠臻g分析的計(jì)算機(jī)模型的發(fā)展。
[0074] Gist廣義的屯、理學(xué)定義是觀察者看一眼獲取的圖像信息,此處討論的Gist表示是 建立與運(yùn)個(gè)定義的基礎(chǔ)上,指在一個(gè)短時(shí)間內(nèi)獲取的相對(duì)維度較低的場(chǎng)景圖。將Gist表示 為特征空間的向量,如果對(duì)應(yīng)某個(gè)給定圖像的Gist向量可W被分類到某個(gè)特定的場(chǎng)景類 另IJ,那么基于Gist的場(chǎng)景分類就是可實(shí)現(xiàn)的。
[0075] 目前研究的重屯、集中在通過(guò)多個(gè)域的功能從圖片中提取Gist,計(jì)算它的整體特 征,同時(shí)兼顧其大致的空間信息?,F(xiàn)有模型是根據(jù)Saliency模型提出的。
[0076] 經(jīng)過(guò)底層的center-surround進(jìn)行特征提取后,每個(gè)子通道都會(huì)提取一個(gè)相應(yīng)特 征圖的gist向量。將圖片分割為4X4的16個(gè)子區(qū)域,對(duì)每個(gè)字區(qū)域進(jìn)行均值計(jì)算。從獲取的 結(jié)果的角度看,Gist和Saliency是相對(duì)的,因?yàn)間ist是對(duì)圖像的子區(qū)域進(jìn)行特征提取,而 sal iency是對(duì)整個(gè)區(qū)域進(jìn)行特征提取。
[0077] 但是,人類只有一個(gè)大腦,同時(shí)要進(jìn)行Gist和Salien巧的計(jì)算,所W與sal ien巧相 同,在Saliency模型中,輸入圖像經(jīng)過(guò)一系列底層的視覺(jué)特征通道過(guò)濾,得到不同尺寸的色 彩、亮度、方向特征圖,有些通道有許多子通道。每個(gè)子通道都有9種不同尺寸的金字塔來(lái)表 示過(guò)濾后的輸出,在水平和豎直方向,比例都是從1:1到1:256,并且都要進(jìn)行5巧的高斯平 滑。對(duì)于每個(gè)子通道i,模型采用center-surround操作進(jìn)行標(biāo)準(zhǔn)化。
[007引色彩和灰度通道公式如下:
[0079]
[0080] Gist模型復(fù)用Saliency模型的方向、色彩和灰度通道,對(duì)于方向通道,對(duì)灰度輸入 圖像采用Gabor濾波器從四個(gè)不同的角度,四個(gè)空間尺度計(jì)算十六個(gè)子通道的和。需要注 意的是,Gabor濾波器不進(jìn)行center-surround因?yàn)檫\(yùn)些濾波器本身已經(jīng)各不相同了。
[0081] Mi(C) =Gabor(目i,c)
[0082] 對(duì)于色彩通道的處理,與Salien巧相似。
[0083] 每個(gè)子通道從各自的特征圖中都能提出一個(gè)Gist向量。
[0084]
[0085] 公式是對(duì)16個(gè)小的區(qū)域進(jìn)行亮度特征提取的方法,k和1分別是子區(qū)域在水平方向 上和豎直方向上的序號(hào)。W和H分別是整張圖片的寬度和高度。類似地,可W得到方向通道的 特征提取。盡管其他的數(shù)據(jù)統(tǒng)計(jì)可W提供不同的有效信息,然而它們的計(jì)算開(kāi)銷太高,而且 他們?cè)谏飳W(xué)上的解釋仍有爭(zhēng)議,因只進(jìn)行一階統(tǒng)計(jì)就可W進(jìn)行有效的分類。
[0086] 利用運(yùn)種基于統(tǒng)計(jì)的gist算法的優(yōu)點(diǎn)在于它的穩(wěn)定性可W屏蔽局部的或隨機(jī)的 噪聲干擾。在gist算法中更重要的是全局的特征,例如光線對(duì)整張圖片的改變。顏色恒常算 法例如gray world算法和white patch算法就假設(shè)場(chǎng)景中的光線是恒定的。然而,在現(xiàn)實(shí)場(chǎng) 景中光線并不一定會(huì)恒定。光線不僅會(huì)隨著時(shí)間的推移而改變,而且在同一場(chǎng)景中,光源也 不一定是單點(diǎn)光源。由于光源的不穩(wěn)定性,場(chǎng)景中的不同物體會(huì)在不同的時(shí)間被照亮。值得 注意的是,運(yùn)一步的目標(biāo)不是為了高精度地對(duì)色彩進(jìn)行識(shí)別或正規(guī)化,而是生成穩(wěn)定的顏 色亮度gist特征圖。也可W使用另一種正規(guī)化的方法,叫做Comprehensive Color Normalization(CCN),可用于全局和局部的正規(guī)化。
[0087] 當(dāng)光線飽和的時(shí)候(即當(dāng)攝像機(jī)捕捉的視頻太亮或太暗的時(shí)候),物體的紋理信息 會(huì)丟失,而且無(wú)論用多復(fù)雜的正規(guī)化方法都無(wú)法恢復(fù)。在運(yùn)種情況下,考慮到gist計(jì)算的特 性,最好的解決方就是在不同的光線條件下進(jìn)行g(shù)ist的識(shí)別。因此不應(yīng)該進(jìn)行任何處理,而 應(yīng)該在不同的光線條件下訓(xùn)練gist分類器。gist本身的特性(Garbor或center-curround) 就已經(jīng)將光照變化的影響降到了最低。通過(guò)分析在不同光線條件下的信號(hào)比峰值,底層特 征處理產(chǎn)生的信息對(duì)于光線是合理而且穩(wěn)定的。
[0088] 未經(jīng)處理的gist特征分為16個(gè)區(qū)域,每個(gè)區(qū)域都有34張?zhí)卣鲌D,因此維度總數(shù)是 544維。可 W使用principal component analysis(PCA)、Independent Component Analysis(ICA)和化StICA將維度降到80,并且對(duì)于3000張測(cè)試圖保留了97%的信息。
[0089] 在多元統(tǒng)計(jì)分析中,主成分分析是一種分析、簡(jiǎn)化數(shù)據(jù)集的技術(shù),用于分析數(shù)據(jù)及 建立數(shù)理模型。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中的對(duì)方差貢獻(xiàn) 最大的特征。運(yùn)是通過(guò)保留低階主成分,忽略高階主成分做到的。運(yùn)樣低階成分往往能夠保 留主數(shù)據(jù)的最重要的方面。
[0090] 其方法主要是通過(guò)對(duì)共變異數(shù)矩陣進(jìn)行特征分解,W得出數(shù)據(jù)的特征向量它們的 特征值。PCA是最簡(jiǎn)單的W特征量分析多元統(tǒng)計(jì)分布的方法,其結(jié)果可W理解為對(duì)源數(shù)據(jù) 中的方差作出解釋:哪一個(gè)方向上的數(shù)據(jù)值對(duì)方差的影響最大。換而言之,PCA提供了一種 降低數(shù)據(jù)維度的有效方法;如果分析者在源數(shù)據(jù)中除掉最小的特征值所對(duì)應(yīng)的成分,那么 所得的低締度數(shù)據(jù)必定是最優(yōu)化的,因?yàn)檫\(yùn)樣降低維度是失去信息最少的方法。
[0091] PCA是最簡(jiǎn)單的W特征量分析多元統(tǒng)計(jì)分布的方法。通常情況下,運(yùn)種運(yùn)算可W看 作是掲露數(shù)據(jù)的內(nèi)部結(jié)構(gòu),從而更好的解釋數(shù)據(jù)的變量的方法。如果一個(gè)多元數(shù)據(jù)集能夠 在一個(gè)高維數(shù)據(jù)空間坐標(biāo)系中被顯現(xiàn)出來(lái),那么PCA就能夠提供一副比較低維度的圖像,運(yùn) 幅圖像即為在訊息最多的點(diǎn)上原對(duì)象的一個(gè)"投影"。
[0092] PCA的數(shù)學(xué)定義是:一個(gè)正交化線性變換,把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使 得運(yùn)一數(shù)據(jù)的任何投影的第一大方差在第一個(gè)坐標(biāo)上,第二大方差在第二個(gè)坐標(biāo)上,W此 類推。
[0093] 定義一個(gè)nXm的矩陣,XT為去平均值(W平均值為中屯、移動(dòng)至原點(diǎn))的數(shù)據(jù),其行 為數(shù)據(jù)樣本,列為數(shù)據(jù)類別(注意,運(yùn)里定義的是XT而不是X)。貝化的奇異值分解為X = WS VT,其中mXm矩陣W是XXT的本征矢量矩陣,I:是mXn的非負(fù)矩形對(duì)角矩陣,V是n Xn的XTX的 本征矢量矩陣。據(jù)此,
[0094]
[00M]當(dāng)111<11-1時(shí),V在通常情況下不是唯一定義的,而Y則是唯一定義的。W是一個(gè)正交 矩陣,YT是xT的轉(zhuǎn)置,且YT的第一列由第一主成分組成,第二列由第二主成分組成,依此類 推。
[0096]為了得到一種降低數(shù)據(jù)維度的有效辦法,可W把別央射到一個(gè)只應(yīng)用前面L個(gè)向量 的低維空間中去,WU
[00971
identity matrix.
[009引X的單向量矩陣W相當(dāng)于協(xié)方差矩陣的本征矢量C=X XT,
[0099]
[0100] 在歐幾里得空間給定一組點(diǎn)數(shù),第一主成分對(duì)應(yīng)于通過(guò)多維空間平均點(diǎn)的一條 線,同時(shí)保證各個(gè)點(diǎn)到運(yùn)條直線距離的平方和最小。去除掉第一主成分后,用同樣的方法得 到第二主成分。依此類推。在I:中的奇異值均為矩陣XXT的本征值的平方根。每一個(gè)本征值 都與跟它們相關(guān)的方差是成正比的,而且所有本征值的總和等于所有點(diǎn)到它們的多維空間 平均點(diǎn)距離的平方和。PCA提供了一種降低維度的有效辦法,本質(zhì)上,它利用正交變換將圍 繞平均點(diǎn)的點(diǎn)集中盡可能多的變量投影到第一維中去,因此,降低維度必定是失去訊息最 少的方法。PCA具有保持子空間擁有最大方差的最優(yōu)正交變換的特性。然而,當(dāng)與離散余弦 變換相比時(shí),它需要更大的計(jì)算需求代價(jià)。非線性降維技術(shù)相對(duì)于PCA來(lái)說(shuō)則需要更高的計(jì) 算要求。
[0101] PCA對(duì)變量的縮放很敏感。如果只有兩個(gè)變量,而