一種基于單隱層神經(jīng)網(wǎng)絡的場景識別方法
【技術領域】
[0001 ]本發(fā)明涉及一種基于單隱層神經(jīng)網(wǎng)絡的場景識別方法。
【背景技術】
[0002] 場景識別指的是按照場景圖像相近的內(nèi)容如相同顏色特征識別出場景圖片中的 場景,目的是通過模仿人類的感知能力來挖掘圖像中的場景特征,從而自動地識別出圖像 所隸屬的場景。在場景識別過程中,整個圖像是作為一個整體被判別的,并不涉及具體目 標。因為具體目標只能作為場景分類中判定所屬類別的一個依據(jù),但與場景所屬類別卻不 一定完全相關。場景識別是計算機視覺和機器人領域中一個基礎的預處理過程,它在圖像 內(nèi)容檢索、模式識別和機器學習等的計算機智能領域中擔任重要的角色。
[0003] 近幾年來,場景識別研究已取得了較大進展,涌現(xiàn)出很多場景類別建模的方法。根 據(jù)場景類別建模方式將現(xiàn)有場景識別方法分成四類:
[0004] (1)基于全局特征的場景識別方法
[0005] 基于全局特征的場景識別方法大多通過顏色、紋理和形狀等圖像的全局可視化特 征來對場景進行描述,并成功應用于室外場景識別中。相比而言,顏色特征對于場景的尺 度、視角的變化以及圖像的旋轉(zhuǎn)均能取得更好的識別結果;而紋理與形狀特征對應于圖像 的結構和方向信息,這些恰好也是人類視覺系統(tǒng)所敏感的,因此紋理與形狀特征與人類的 視覺感知結果具有更好的一致性。然而,基于全局特征的場景識別方法通常需要搜索圖像 的所有像素點,且沒有考慮像素點的空間位置關系,因此它具有較差的實時性和通用性。
[0006] (2)基于目標的場景識別方法
[0007] -個特定地點可以通過其周圍一系列極具代表性的目標來準確地定位,基于此原 理,大多數(shù)場景識別方法也是根據(jù)圖像中目標識別的結果來辨識出圖像所對應的場景。于 是,該類場景識別方法需要經(jīng)歷圖像分割、多特征組合和目標識別等階段。當待識別的目 標距離視角很遠時,該目標就很有可能隱藏在那些缺乏分析價值的背景信息中,在分割階 段就己經(jīng)被忽略掉了,進而導致該目標識別工作無法實現(xiàn)。除此之外,為了簡化具體場景的 復染度,需要選取一組能夠代表該場景的目標,而這些可靠且穩(wěn)定的代表性目標的選取問 題成為了制約基于目標的場景識別的另一個瓶頸。
[0008] (3)基于區(qū)域的場景識別方法
[0009] 鑒于基于目標的場景識別方法所具有的局限性,一些研究者利用分割得到的區(qū)域 來代替場景代表性目標,并根據(jù)這些區(qū)域的結構關系進行特征組合從而形成場景標示。該 類場景識別方法的關鍵在于如何得到可信賴的區(qū)域分割算法。而這些區(qū)域信息的特征表示 方法有很多,例如:可以采用局部與全局相結合的方式來實現(xiàn),即提取區(qū)域內(nèi)部的全局統(tǒng)計 特征;也可以通過提取區(qū)域中的局部不變特征來對區(qū)域進行表征;還可以根據(jù)詞袋模型來 對區(qū)域信息進行表征。
[0010] (4)基于仿生特征的場景識別方法
[0011]考慮到場景識別的實時性與高效性,目前最好的計算機視覺系統(tǒng)與人類以及其他 動物的視覺系統(tǒng)之間仍然存在著無法彌補的差距。鑒于人和動物所具有的優(yōu)越的場景識別 能力,隨之產(chǎn)生了基于仿生特征的場景識別方法,該方法通過模擬生物視皮層的處理機制 來實現(xiàn)場景識別。其基本思路是針對某一種生物視覺機制或某一類生物視覺特性展開研 究,并通過細致的分析來建立有效的計算模型,從而獲取令人滿意的結果。例如,基于人類 視覺注意力選擇機制的方法可以將某些容易引起人注意的圖像區(qū)域信息作為優(yōu)先處理對 象,這種選擇性的機制能夠極大地提高場景識別方法對視覺信息的處理、分析與識別的效 率。
[0012] 現(xiàn)有場景識別中存在的各項難點,例如同一場景是動態(tài)變化的、同一場景的圖片 存在多變性、不同的類之間的圖像可能會有很多相似的點、不同場景的圖像可能會出現(xiàn)重 疊的情況等都導致的場景分類的精確度不高,本發(fā)明提供了一種基于單隱層神經(jīng)網(wǎng)絡的場 景識別方法,基于全局特征的場景識別,將整個場景圖像是作為一個整體被判別的,而不涉 及具體目標,可實現(xiàn)較高的場景圖像識別率。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明要解決的技術問題,在于提供一種基于單隱層神經(jīng)網(wǎng)絡的場景識別方法, 提高場景識別精確度。
[0014] 本發(fā)明是這樣實現(xiàn)的:一種基于單隱層神經(jīng)網(wǎng)絡的場景識別方法,包括訓練階段 和識別階段;
[0015] 所述訓練階段包括:對預先采集的用于訓練的樣本圖像集進行預處理,提取預處 理后的樣本圖像集的局部梯度統(tǒng)計特征,將所述局部梯度統(tǒng)計特征以及對應場景類別標簽 加入到單隱層神經(jīng)網(wǎng)絡分類器進行層級式監(jiān)督學習,得到復數(shù)個不同的多類單隱層神經(jīng)網(wǎng) 絡的最優(yōu)參數(shù),根據(jù)所述最優(yōu)參數(shù)構建多層級場景分類器;
[0016] 所述識別階段包括:對待識別的圖像集進行預處理,提取預處理后的待識別圖像 集的局部梯度統(tǒng)計特征,將提取到的所述待識別圖像的局部梯度統(tǒng)計特征向量送入所述多 層級場景分類器中進行識別,得到所屬場景類的類別標注。
[0017] 進一步的,所述預處理包括圖像對比度歸一化及Gamma校正處理,通過調(diào)節(jié)圖像的 對比度,減輕由于圖像局部的陰影和光照變化所造成的影響,抑制噪音的干擾。
[0018] 進一步的,所述圖像對比度歸一化具體包括:將圖像從RGB顏色空間轉(zhuǎn)到YUV顏色 空間以及對YUV顏色空間進行全局和局部對比歸一化處理,所述全局和局部對比歸一化處 理過程只對Y通道進行操作,而其他兩個通道保持不變,所述全局歸一化是將圖像像素值歸 一化到圖像像素均值附近,所述局部歸一化是對邊緣進行加強,通過圖像對比度的歸一化 處理,可顯著減輕由于圖像局部的陰影和光照變化所造成的影響。
[0019] 進一步的,所述局部梯度統(tǒng)計特征的提取具體如下:
[0020] 將圖像分為Y、U、V三通道,分別計算Y通道、U通道和V通道的一階梯度;
[0021] 將圖像劃分成不重疊的細胞單元,計算每個細胞單元的梯度直方圖;
[0022] 將相鄰的2X2的細胞單元組成重疊的塊,塊滑動大小為一個細胞單元的大小,在 每個塊里面進行梯度直方圖的二范數(shù)歸一化,疊加每個塊的直方圖信息得到Υ通道的特征 向量、U通道的特征向量以及V通道的特征向量;
[0023] 將三個通道的特征向量進行疊加得到最終的局部梯度統(tǒng)計特征。通過特征提取能 夠有效地將顏色信息融合到最終的特征中去,提高識別精度。
[0024] 進一步的,所述一階梯度的計算方式為:采用Sobel算子對原圖像進行卷積操作得 到X方向(水平方向)的梯度分類Gx(X,y)及Y方向(豎直方向)的梯度分量G y (X,y),求取圖像 中每個像素點的梯度大小G(x,y)和方向0(x,y):
[0025]
[0026]
[0027] 進一步的,所述最優(yōu)參數(shù)的獲得方式具體為:對于每個多類的單隱層神經(jīng)網(wǎng)絡,要 學習的參數(shù)包括正則項系數(shù)及隱層節(jié)點個數(shù),采用分別調(diào)參的策略:先隨機設置隱層節(jié)點 個數(shù),學習出最優(yōu)的正則項系數(shù),再將正則項系數(shù)設為最優(yōu)值,學習出最優(yōu)的隱層節(jié)點個 數(shù),得到最優(yōu)的正則項系數(shù)和隱層節(jié)點個數(shù),即最優(yōu)參數(shù)。
[0028] 進一步的,所述多層級場景分類器的層級數(shù)根據(jù)場景本身屬性的從屬關系進行劃 分,每一級包括至少一個多類的單隱層神經(jīng)網(wǎng)絡。
[0029]進一步的,所述單隱層神經(jīng)網(wǎng)絡的模型包括三層:輸入層、隱藏層和輸出層,所述 輸入層接收提取到的圖像的特征向量,經(jīng)過隱藏層進行數(shù)據(jù)處理后從輸出層輸出,根據(jù)輸 出量決定當前數(shù)據(jù)所屬的類型。
[0030] 本發(fā)明具有如下優(yōu)點:
[0031] 1、通過特征提取來應對場景圖片的動態(tài)變化,能較好地關注到場景圖片的除顏 色、光照、視角影響以外的其他一些不變性,提高識別的精度;
[0032] 2、通過預處理操作,顯著減輕由于圖像局部的陰影和光照變化所造成的影響;
[0033] 3、本發(fā)明基于單隱層神經(jīng)網(wǎng)絡的場景識別,針對場景圖片的多變性,采用多組不 同的數(shù)據(jù)加入實驗,減輕了因圖片可變性因素影響分類結果判定,由于采用的單隱層神經(jīng) 網(wǎng)絡具備很好的分類性能,學習速度極快從而可以滿足識別的實時性及精度。
【附圖說明】
[0034] 下面參照附圖結合實施例對本發(fā)明作進一步的說明。
[0035]圖1為本發(fā)明方法執(zhí)行流程圖。
[0036]圖2為本發(fā)明方法的處理過程示意圖。
[0037] 圖3為本發(fā)明方法特征提取流程圖。
[0038] 圖4為基于單隱層神經(jīng)網(wǎng)絡構建的層級式場景分類器模型示意圖。
[0039] 圖5為單隱層神經(jīng)網(wǎng)絡模型示意圖。
【具體實施方式】
[0040] 如圖1至5所示,一種基于單隱層神經(jīng)網(wǎng)絡的場景識別方法,包括訓練階段和識別 階段;
[0041] 所述訓練階段包括:
[0042] 步驟1、對預先采集的用于訓練基于單隱層神經(jīng)網(wǎng)絡的層級式場景分類器的樣本 圖像集進行預處理,所述樣本圖像在盡可能多的包含不同的模態(tài),且對應的不同類的場景 圖像盡可能保持均衡,以便更好的學習出場景分類器參數(shù);所述預處理包括圖像對比度歸 一化和Gamma校正處理,且所述圖像對比度歸一化具體包括:將圖像從RGB顏色空間轉(zhuǎn)到YUV 顏色空間以及對YUV顏色空間進行全局和局部對比歸一化處理,所述全局和局部對比歸一 化處理過程只對Y通道進行操作,而其他兩個通道保持不變,所述全局歸一化是將圖像像素 值歸一化到圖像像素均值附近,所述局部歸一化是對邊緣進行加強,通過圖像對比度的歸 一化處理,可顯著減輕由于圖像局部的陰影和光照變化所造成的影響;
[0043]步驟2、提取預處理后的樣本圖像集的局部梯度統(tǒng)計特征:
[0044] 將樣本圖像分為Y、U、V三通道,分別計算Y通道、U通道和V通道的一階梯度,每一通 道的一階梯度均通過以下方式計算得到:采用Sobel算子對原圖像進行卷積操作得到X方 向(水平方向)的梯度分類G x(X,y)及Y方向(豎直方向)的梯度分量Gy(X,y),求取圖像中每個 像素點的梯度大小G(x,y)和方向0 (X,y)的公式為:
[0045]
[0046] 纟權.>卩=抄仏江.)力,Sobel算子操作簡單,但是結果卻比其他復 雜算子效果好。
[0047] 將樣本圖像劃分成不重疊的細胞單元,計算每個細胞單元的梯度直方圖;每個滑 動窗口由復數(shù)個塊組成,每個塊再劃分成復數(shù)個細胞單元(每個細胞單元由多個像素組成 的),每個窗口對應的一維特征向量維數(shù)就等于窗口塊數(shù)乘以塊中細胞單元