基于卷積神經(jīng)網(wǎng)絡(luò)的快速目標(biāo)檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)視覺技術(shù),具體是涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的快速目標(biāo)檢測(cè) 方法。
【背景技術(shù)】
[0002] 人類感知世界的一個(gè)重要來(lái)源就是通過(guò)圖像信息,研宄表明,人類獲取外界信息 中大約有80%?90%的信息來(lái)自于人類眼睛獲取的圖像信息。人類對(duì)外界圖像信息感知 能力很高,可以快速定位目標(biāo)和分析目標(biāo)。計(jì)算機(jī)要具有強(qiáng)大的視覺感知和理解能力,就應(yīng) 該具備類似人類強(qiáng)大的目標(biāo)檢測(cè)和識(shí)別能力。目標(biāo)檢測(cè)是視覺感知和目標(biāo)理解的一個(gè)很重 要的前提工作,目標(biāo)獲取的效率和精度決定著視覺感知的速度和效果。一旦計(jì)算機(jī)具備類 似人類強(qiáng)大的目標(biāo)檢測(cè)盒感知能力,就可以更好的在各行業(yè)替代人力工作,大大節(jié)約生產(chǎn) 成本。另外它對(duì)日常智能服務(wù)行業(yè)也提供了強(qiáng)大的支撐。因此,對(duì)計(jì)算機(jī)視覺中的目標(biāo)檢 測(cè)技術(shù)進(jìn)行深入研宄,不斷提高檢測(cè)的準(zhǔn)確率,具有重要的現(xiàn)實(shí)意義。
[0003] 目前學(xué)術(shù)界中解決這兩個(gè)問(wèn)題的發(fā)展趨勢(shì)是從使用啟發(fā)式方法到使用機(jī)器學(xué)習(xí) 的方法。所用特征也從手工特征轉(zhuǎn)向基于任務(wù)自適應(yīng)提取的特征。目標(biāo)檢測(cè)和識(shí)別的模 型也開始出現(xiàn)從單一特定目標(biāo)檢測(cè)和識(shí)別到多目標(biāo)檢測(cè)和識(shí)別同時(shí)進(jìn)行的功能轉(zhuǎn)變。最 典型的例子就是深度學(xué)習(xí)模的出現(xiàn),解決了傳統(tǒng)目標(biāo)檢測(cè)和識(shí)別的模型只針對(duì)有限任務(wù)的 目標(biāo)檢測(cè)和識(shí)別任務(wù)有效的問(wèn)題。比如,在2001年,Viola-Jone提出的正面人臉檢測(cè)框架 基于Harr特征對(duì)人臉檢測(cè)相當(dāng)有效,但是對(duì)于側(cè)臉人臉以及行人檢測(cè)效果不是太好。直 到2005年,Dalai等人提出HOG特征并且使用SVM對(duì)每個(gè)平滑窗對(duì)應(yīng)的HOG (Histogram of Gradient)特征進(jìn)行分類的策略后,垂直行人檢測(cè)效果才有了一個(gè)質(zhì)的突破。然而,HOG這 一手工特征,對(duì)于圖像分類和識(shí)別以及任意姿態(tài)的行人、動(dòng)物、植物等目標(biāo)的檢測(cè)效果并不 令人滿意。接著形變模型(^Deformable Part Models:DPM)應(yīng)運(yùn)而生解決有形變的目標(biāo)檢 測(cè)問(wèn)題。形變模型雖然試著解決因形變導(dǎo)致目標(biāo)檢測(cè)不到的問(wèn)題,但是其模型中需要的形 變部件現(xiàn)實(shí)中很難理想的捕獲到,原因就沒有一個(gè)好的模型和好的特征來(lái)識(shí)別部件,因此 它在多類目標(biāo)檢測(cè)數(shù)據(jù)集(PASCAL VOC,ImageNet)上效果并不是太好。最近的一個(gè)突破性 工作是深度學(xué)習(xí)模型的出現(xiàn)。在最大的圖像分類和目標(biāo)檢測(cè)數(shù)據(jù)集ImageNet上,基于深度 學(xué)習(xí)t旲型之一卷積神經(jīng)網(wǎng)絡(luò)(CNN)做的目標(biāo)檢測(cè)和識(shí)別精度的提尚更是超過(guò)以往最尚精 度一倍之多。最近兩年ImageNet數(shù)據(jù)集分類和檢測(cè)性能出眾的算法幾乎全部采用卷積神 經(jīng)網(wǎng)絡(luò),不同的它們的網(wǎng)絡(luò)結(jié)構(gòu)不同。目前ImageNet數(shù)據(jù)集上圖像分類和目標(biāo)檢測(cè)最高的 精度分別為95 %和55%。
[0004] 盡管基于卷積神經(jīng)網(wǎng)絡(luò)的方法在目標(biāo)檢測(cè)和識(shí)別上提高了很高的精度,但是由于 卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)復(fù)雜且計(jì)算量大,應(yīng)用在目標(biāo)檢測(cè)上效率并不是很高,目前很多方法都 是基于GPU來(lái)對(duì)目標(biāo)檢測(cè)程序進(jìn)行加速。給定一張目標(biāo)圖像,使用平滑窗策略做目標(biāo)檢測(cè), 即使采用GPU加速,其算法復(fù)雜度仍然很大,效率極低。為了解決卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè) 上的效率問(wèn)題,目前學(xué)術(shù)界主流的解決方案可以分為三類。第一類是基于圖割的方法,先對(duì) 給定圖像進(jìn)行圖像分割,通過(guò)分割塊得到一些潛在的目標(biāo)區(qū)域。然后用卷積神經(jīng)網(wǎng)絡(luò)對(duì)這 些目標(biāo)區(qū)域進(jìn)行特征提取和分類,最終得到目標(biāo)的位置。這種方法的缺點(diǎn)就是很依賴于圖 像分割的好壞。第二類是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像提取特征,然后在特征圖上用平滑 窗策略做目標(biāo)位置的回歸和目標(biāo)的分類。這種方法在利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)大圖提取特征 時(shí),會(huì)丟失一些對(duì)分類和回歸有用的特征信息,因此最后的模型的性能無(wú)法達(dá)到最優(yōu)。第三 類方法則是用卷積神經(jīng)網(wǎng)絡(luò)分類的優(yōu)勢(shì)來(lái)尋找部件,進(jìn)而構(gòu)建形變模型,采用形變模型的 思想對(duì)目標(biāo)做檢測(cè)。但是這種把卷積神經(jīng)網(wǎng)絡(luò)的分類和形變模型中的目標(biāo)檢測(cè)分開執(zhí)行的 做法,使得整體框架的檢測(cè)效果不是很出眾,另外這種模型的效率也不是很高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的快速目標(biāo)檢測(cè)方法。
[0006] 本發(fā)明包括以下步驟:
[0007] A)準(zhǔn)備訓(xùn)練樣本集(Xi,yi),i = 1,……,N,N為訓(xùn)練樣本數(shù),N為自然數(shù),\表 示訓(xùn)練樣本對(duì)應(yīng)的固定大小的圖像,包含目標(biāo)且目標(biāo)充滿畫幅的圖像是正樣本,其他圖像 是負(fù)樣本%表示樣本類別向量:
[0008]
【主權(quán)項(xiàng)】
1.基于卷積神經(jīng)網(wǎng)絡(luò)的快速目標(biāo)檢測(cè)方法,其特征在于包括以下步驟: A) 準(zhǔn)備訓(xùn)練樣本集(Xi,yi),i= 1,……,N,N為訓(xùn)練樣本數(shù),N為自然數(shù),Xi表示訓(xùn) 練樣本對(duì)應(yīng)的固定大小的圖像,包含目標(biāo)且目標(biāo)充滿畫幅的圖像是正樣本,其他圖像是負(fù) 樣本;yi表示樣本類別向量:
B) 將所有訓(xùn)練樣本分m批,將m-2批樣本放進(jìn)設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)里用反向傳播算法 訓(xùn)練,2批樣本用于測(cè)試,所述卷積神經(jīng)網(wǎng)絡(luò)包含卷積層、最大池化層和局部對(duì)比歸一化層 三個(gè)成分,這三個(gè)成分扮演非線性函數(shù)的功能,目的是把位于流形上的原始圖像映射到歐 式空間,卷積的激活函數(shù)采用非線性校正單元,設(shè)計(jì)好包含這三個(gè)成分的網(wǎng)絡(luò)結(jié)構(gòu)模型后, 用反向傳播算法訓(xùn)練對(duì)模型進(jìn)行訓(xùn)練,得到參數(shù)W; C) 提取步驟B)中的訓(xùn)練好的參數(shù)W,采用擴(kuò)展圖的方式解決卷積神經(jīng)網(wǎng)絡(luò)中最大池化 丟失信息的問(wèn)題,給定測(cè)試圖像,針對(duì)2X2的卷積核中每個(gè)偏移,都保存一個(gè)對(duì)應(yīng)的特征 圖,稱為擴(kuò)展圖;對(duì)于每一層max-pooling核大小為K,整個(gè)卷積神經(jīng)網(wǎng)絡(luò)有p層,擴(kuò)展之后 每個(gè)最大池化的下采樣層特征圖數(shù)目擴(kuò)展至2K倍,整個(gè)網(wǎng)絡(luò)擴(kuò)展到〇 = (2K)1*,然后把參 數(shù)W用于任意大小的待檢測(cè)圖像,獲取全連接前的擴(kuò)展特征圖,稱它為判別完備特征;給定 輸入圖像X,已訓(xùn)練好的濾波器組K和偏移b,卷積層的輸出寫成公式一的形式: