使用擴(kuò)展surf特征的對象檢測的制作方法
【專利摘要】說明了包括從輸入圖像產(chǎn)生梯度圖像的系統(tǒng)、裝置和方法,其中,梯度圖像包括使用2D濾波器內(nèi)核創(chuàng)建的梯度圖像。隨后從梯度圖像產(chǎn)生特征描述符,并通過將描述符應(yīng)用于包括邏輯回歸基分類器的提升級聯(lián)分類器來執(zhí)行對象檢測。
【專利說明】使用擴(kuò)展SURF特征的對象檢測
【背景技術(shù)】
[0001]對象檢測目的在于定位目標(biāo)對象(例如,人臉、人體、汽車等等)出現(xiàn)在給定圖像或視頻幀中的何處(常常是按照特定矩形區(qū)域)。通常,對于對象檢測技術(shù)存在兩個主要目的。首先,該技術(shù)應(yīng)使得在不存在目標(biāo)對象區(qū)域中檢測到對象的正誤識檢測事件最少。對于具有實(shí)際應(yīng)用的對象檢測技術(shù),每一百萬個測試區(qū)域的正誤識檢測事件應(yīng)不大于一。換句話說,最佳對象檢測器的每個檢測窗口的正誤識(FPPW)系數(shù)可以小至1x10-6。其次,該技術(shù)對于目標(biāo)對象存在的幾乎所有區(qū)域應(yīng)提供真檢測。換句話說,最佳對象檢測器的命中率應(yīng)盡可能地接近100%。實(shí)際上,對象檢測中的最終目標(biāo)應(yīng)是盡可能接近這些基準(zhǔn)。
[0002]用于對象檢測技術(shù)的傳統(tǒng)方案在實(shí)現(xiàn)以上概述的基準(zhǔn)的嘗試中常常使用boosting Haar cascade (提升Haar級聯(lián))技術(shù)。但這種技術(shù)典型地包括基于一維(ID)哈爾特征(Haar-like feature)的提升分類器的長級聯(lián),并使用決策樹來提供基分類器。需要用于對象檢測的更準(zhǔn)確和迅速的技術(shù)。
【專利附圖】
【附圖說明】
[0003]在附圖中示例性而非限制性地示出了本文所述的材料。為了圖示的簡單和清楚,圖中所示的元件不一定按照比例繪制。例如,為了清楚,一些元件可以相對于其他要元件放大。此外,在認(rèn)為適當(dāng)?shù)那闆r下,在附圖中重復(fù)了附圖標(biāo)記,用以指示相應(yīng)的或相似的元件。在附圖中:
[0004]圖1是示例性對象檢測系統(tǒng)的示意圖;
[0005]圖2例示了幾個示例性濾波器內(nèi)核;
[0006]圖3例示了輸入圖像的示例性局部區(qū)域;
[0007]圖4是示例性對象檢測過程的流程圖;
[0008]圖5例示了示例性積分圖像坐標(biāo)標(biāo)示方案;
[0009]圖6是示例性提升分類器(boosting classifier)級聯(lián)的示意圖;
[0010]圖7例示了圖像的示例性局部區(qū)域;以及
[0011]圖8是示例性系統(tǒng)的示意圖,其全部按照本公開內(nèi)容的至少某些實(shí)施方案來布置。
【具體實(shí)施方式】
[0012]現(xiàn)在參考所包含的附圖來說明一個或多個實(shí)施例或?qū)嵤┓桨?。盡管論述了特定的配置和布置,但應(yīng)理解,這僅是出于說明性目的。相關(guān)領(lǐng)域技術(shù)人員會認(rèn)識到,在不脫離本說明的精神和范圍的情況下,可以使用其他配置和布置。對于相關(guān)領(lǐng)域技術(shù)人員來說,顯然,本文所述的技術(shù)和/或布置也可以用于除了本文所述的以外的各種其他系統(tǒng)和應(yīng)用中。
[0013]盡管以下說明闡述了多個實(shí)施方案,其可以在例如這種片上系統(tǒng)(SoC)架構(gòu)的架構(gòu)中加以證明,但本文所述技術(shù)和/或布置的實(shí)施方案不局限于特定架構(gòu)和/或計(jì)算系統(tǒng),可以由用于類似目的的任何架構(gòu)和/或計(jì)算系統(tǒng)來實(shí)施。例如,使用例如多個集成電路(IC)芯片和/或封裝、和/或多個計(jì)算設(shè)備和/或諸如機(jī)頂盒、智能電話等的消費(fèi)電子(CE)設(shè)備的多個架構(gòu)可以實(shí)施本文所述的技術(shù)和/或布置。此外,盡管以下說明可以闡述多個具體細(xì)節(jié),例如邏輯實(shí)施方案、系統(tǒng)組件的類型和相互關(guān)系、邏輯劃分/集成選擇等,但所要求的主題的實(shí)踐可以無需此類具體細(xì)節(jié)。在其他實(shí)例中,可以沒有詳細(xì)顯示諸如控制結(jié)構(gòu)和完整軟件指令序列等的一些材料,以避免使得本文公開的材料模糊不清。
[0014]本文所公開的材料可以以硬件、固件、軟件或其任意組合來實(shí)施。本文公開的材料也可以實(shí)施為存儲在機(jī)器可讀介質(zhì)上的指令,其可以由一個或多個處理器讀取并執(zhí)行。機(jī)器可讀介質(zhì)可以包括用于以機(jī)器(例如計(jì)算設(shè)備)可讀取的形式存儲或發(fā)送信息的任何介質(zhì)和/或機(jī)制。例如,機(jī)器可讀介質(zhì)可以包括只讀存儲器(ROM);隨機(jī)存取存儲器(RAM);磁盤儲存介質(zhì);光儲存介質(zhì);閃存設(shè)備;電、光、聲或其他形式的傳播信號(例如,載波、紅外信號、數(shù)字信號等)以及其他的。
[0015]在說明書中對“一個實(shí)施方案”、“實(shí)施方案” “示例性實(shí)施方案”等的提及指示所述的實(shí)施方案可以包括特定的特征、結(jié)構(gòu)或特性,但每一個實(shí)施方案不一定都包括所述特定的特征、結(jié)構(gòu)或特性。而且,這種術(shù)語不一定指代同一實(shí)施方案。此外,當(dāng)結(jié)合一個實(shí)施方案說明了特定特征、結(jié)構(gòu)或特性時,認(rèn)為結(jié)合無論本文是否明確說明的其他實(shí)施方案來實(shí)現(xiàn)這個特征、結(jié)構(gòu)或特性也在本領(lǐng)域技術(shù)人員的知識范圍內(nèi)。
[0016]圖1示出了根據(jù)本公開內(nèi)容的示例性系統(tǒng)100。在多個實(shí)施方案中,系統(tǒng)100可以包括特征提取模塊(FEM) 102和提升級聯(lián)分類器(boosting cascade classifier)模塊(BCCM) 104。如以下將更詳細(xì)解釋的,F(xiàn)EM102可以接收輸入圖像,并可以從圖像提取特征。同樣如以下將更詳細(xì)解釋的,提取的特征隨后可以受到借助BCCM104的處理,以在輸入圖像中識別對象。
[0017]FEM102可以采用公知的SURF(加速魯棒特征)特征檢測技術(shù)(例如參見Bay et al.,“Surf:Speeded up robust features”,Computer Vision and ImageUnderstanding(CVIU),110 (3),第346 — 359頁,2008年)來基于水平和垂直梯度圖像產(chǎn)生描述符特征,所述水平和垂直梯度圖像使用形式[_1,0,1]的水平濾波器內(nèi)核以從輸入圖像產(chǎn)生水平梯度圖像(dx),并使用形式[_1,0,1]τ的垂直濾波器內(nèi)核以從輸入圖像產(chǎn)生垂直梯度圖像(dy)。在標(biāo)準(zhǔn)SURF中,對應(yīng)于各自圖像dx和dy的絕對值| dx |和I dy | ,可以產(chǎn)生兩個額外的圖像。
[0018]在多個實(shí)施方案中,根據(jù)本公開內(nèi)容的濾波器內(nèi)核可以具有任意粒度(granularity)。例如,圖2示出了根據(jù)本公開內(nèi)容的幾個示例性濾波器內(nèi)核200。內(nèi)核200包括具有一個像素粒度的ID水平濾波器內(nèi)核202、具有三個像素粒度的ID水平濾波器內(nèi)核204、具有一個像素粒度的2D對角線濾波器內(nèi)核212、具有一個像素粒度的2D反對角線濾波器內(nèi)核218、和具有三個像素粒度的2D對角線濾波器內(nèi)核224。
[0019]關(guān)于圖2的示例,對于圖像中的像素位置(X,y),根據(jù)
[0020]d (x, y) = I (x+1, y) -1 (χ-l, y) (I)
[0021]水平濾波器內(nèi)核202可以產(chǎn)生梯度值d(x,y)。
[0022]其中,I (x-1, y)是相對于像素位置(x,y)的左側(cè)像素位置的值,I (x+1, y)是相對于像素位置(x,y)的右側(cè)像素位置的值。水平濾波器內(nèi)核204(三個像素粒度)可以根據(jù)以下的式(2)來產(chǎn)生梯度值d(x, y)。
[0023]d(x, y) = d(x_l,y) = d(x+l, y)
[0024]= {I (x+2, y) +I (x+3, y) +I (x+4, y)} - {I (x~2, y) +I (x~3, y) +I (x~4, y)} (2)
[0025]在根據(jù)本公開內(nèi)容的多個實(shí)施方案中,F(xiàn)EM102還可以產(chǎn)生擴(kuò)展的SURF(ExSURF)特征描述符,其在標(biāo)準(zhǔn)SURF特征上構(gòu)建,以包括使用二維(2D)濾波器內(nèi)核產(chǎn)生的特征。例如,F(xiàn)EM102可以通過將2D衷角線或主對角線濾波器內(nèi)核(diag[_l,0,I])應(yīng)用于輸入圖像以產(chǎn)生主對角線梯度圖像(du),并通過將2D反對角線濾波器內(nèi)核(antidiag[l,0,_l])應(yīng)用于輸入圖像以產(chǎn)生反對角線梯度圖像(dv),而基于對角線梯度圖像產(chǎn)生擴(kuò)展的描述符特征。
[0026]例如,再次參考圖2的示例性內(nèi)核200,對角線濾波器內(nèi)核212 (—個像素粒度)可以借助
[0027]du(x,y) = I (x+1, y-1)-1 (χ-l, y+1)(3)
[0028]來產(chǎn)生對角線梯度值du(x,y),對于反對角線濾波器內(nèi)核218 (三個像素粒度),可以由
[0029]dv(x, y) = I (x+1, y+1) -1 (χ-l, y-1)(4)
[0030]提供反對角線梯度值dv (X,y)。 [0031]最后,對于三個像素粒度對角線濾波器內(nèi)核224,可以通過從用于區(qū)域230的9個像素的值的總和中減去區(qū)域228的9個像素的值的總和來為區(qū)域226的9個像素位置的每一個提供對角線梯度值。
[0032]FEM102可以產(chǎn)生對應(yīng)于各自圖像du和dv的絕對值du和dv的兩個額外圖像。這樣,對于受到ExSURF處理的每一個輸入圖像,F(xiàn)EM102都可以產(chǎn)生總共8個梯度圖像:水平梯度圖像(dx)、絕對值水平梯度圖像(|dX|)、垂直梯度圖像(dy)、絕對值垂直梯度圖像(Idy |)、對角線梯度圖像(du)、絕對值對角線梯度圖像(|du |)、反對角線梯度圖像(dv)、和絕對值反對角線梯度圖像(IdvI)。
[0033]根據(jù)本公開內(nèi)容,F(xiàn)EM102可以使用已知的積分圖像技術(shù)(例如參見P.Viola andΜ.Jones, “Robust Real-Time Object Detection”,IEEE ICCV Workshop on Statisticaland Computational Theories of Vision, 2001 ;下文中為“Viola 和 Jones”)以產(chǎn)生對應(yīng)于8個梯度圖像的8個積分梯度圖像?;诜e分梯度圖像,可以如下為輸入圖像的一個空間單元計(jì)算八維ExSURF特征向量FVexs,作為該單元內(nèi)所有像素上的總和:
[0034]FVexs = (Σ dx, Σ dy, Σ I dx I,Σ I dy I,Σ du, Σ dv, Σ I du I,Σ I dv I)(5)
[0035]例如,圖3示出了輸入圖像的部分300中的示例性局部區(qū)域302,在此將局部區(qū)域302細(xì)分為空間單元304的2x2陣列。但本公開內(nèi)容不局限于局部區(qū)域的特定大小或形狀,和/或給定局部區(qū)域內(nèi)的空間單元的特定大小、形狀和/或數(shù)量。如以下更詳細(xì)解釋的,F(xiàn)EM102可以從八個積分梯度圖像產(chǎn)生積分八通道結(jié)構(gòu)陣列ExSURF圖像,并可以將積分ExSURF圖像提供給BCM104和/或可以將積分ExSURF圖像存儲在存儲器中(圖1中未示出)。
[0036]如以下進(jìn)一步詳細(xì)解釋的,在根據(jù)本公開內(nèi)容的多個實(shí)施方案中,BCCM104可以將弱分類器的提升分類器級聯(lián)(BCC)用于ExSURF圖像的多個部分。BCCM104的每一級都可以包括弱分類器的提升集合體,在此,每一個分類器都可以與圖像的不同局部區(qū)域相關(guān)聯(lián)。在多個實(shí)施方案中,每一個弱分類器都可以是邏輯回歸基分類器。例如,對于局部區(qū)域的八維ExSURF特征X,應(yīng)用的邏輯回歸模型可以將弱分類器f(x)的概率模型定義為
I
[0037]/(χ) = Hy =±l\xtw) = --j-X
L JI + cxp(-jw.jJ(6)
[0038]其中,y是用于局部區(qū)域的標(biāo)示(例如,如果是目標(biāo)則為正,如果不是目標(biāo)則為負(fù)),w是模型的權(quán)重向量參數(shù)。在多個實(shí)施方案中,BCCM104可以使用利用不同弱分類器的多個BCC。這樣,在一些非限制性示例中,BCCM104可以使用具有面部檢測分類器的BBC來識別局部區(qū)域中的面部特征,而在其他實(shí)施方案中,BCCM104可以使用具有車輛檢測分類器的BCC來識別對應(yīng)于轎車及其他車輛的特征,等等。
[0039]在多個實(shí)施方案中,F(xiàn)EM102和BCCM104可以由任意計(jì)算設(shè)備或系統(tǒng)提供。例如,微處理器的一個或多個處理器核心可以響應(yīng)于由軟件產(chǎn)生的指令而提供FEM102和BCCM104。通常,包括硬件、軟件和/或固件邏輯裝置的任意類型的邏輯裝置、或者其任意組合都可以提供 FEM102 和 BCCM104。
[0040]圖4示出了根據(jù)本公開內(nèi)容的多個實(shí)施方案的用于對象檢測的示例性過程400的流程圖。過程400可以包括一個或多個操作、功能或動作,如圖4的一個或多個塊402、404、406、408、410、412、414、416、和420所示的。過程400可以包括兩個子過程,特征提取子過程401和窗口掃描子過程407。作為非限制性示例,本文將參考圖1的示例性系統(tǒng)100來說明過程400。 [0041]過程400可以以特征提取子過程401開始,在此,在塊402處,可以接收輸入圖像。例如,塊402可以包括FEM102接收輸入圖像。在多個實(shí)施方案中,可以預(yù)處理在塊402處接收的圖像。例如,輸入圖像可以已經(jīng)經(jīng)過了強(qiáng)gamma壓縮、中心一周邊濾波、魯棒局部鏈標(biāo)準(zhǔn)化、聞売抑制等。
[0042]在塊404處,可以從輸入圖像產(chǎn)生梯度圖像。在多個實(shí)施方案中,塊404可以包括FEM102應(yīng)用包括水平、垂直、主對角線和反對角線濾波器內(nèi)核的一組ID和2D梯度濾波器來產(chǎn)生如上所述的總共8個梯度圖像dx、dy、I dx 1、I dy |、du、dv、| du |、和| dv |。FEM102隨后可以產(chǎn)生如上所述的對應(yīng)于梯度圖像的8個積分梯度圖像。
[0043]在塊406處,可以產(chǎn)生積分ExSURF圖像。在多個實(shí)施方案中,塊406可以包括FEM102使用積分梯度圖像來創(chuàng)建八通道積分ExSURF圖像,其使用了用于積分ExSURF圖像的結(jié)構(gòu)的以下偽代碼:
[0044]
【權(quán)利要求】
1.一種計(jì)算機(jī)實(shí)施的方法,包括: 接收輸入圖像; 產(chǎn)生所述輸入圖像的多個梯度圖像,其中,所述多個梯度圖像至少包括使用二維濾波器內(nèi)核創(chuàng)建的第一梯度圖像; 響應(yīng)于所述多個梯度圖像而產(chǎn)生所述輸入圖像的特征描述符;以及 通過將提升級聯(lián)分類器應(yīng)用于所述特征描述符來對所述輸入圖像執(zhí)行對象檢測,其中,所述提升級聯(lián)分類器包括多個邏輯回歸基分類器。
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 產(chǎn)生多個積分圖像,每一個積分圖像都對應(yīng)于所述多個梯度圖像中的單獨(dú)的一個梯度圖像。
3.根據(jù)權(quán)利要求2所述的方法,其中,產(chǎn)生特征描述符包括:從所述多個積分圖像產(chǎn)生多通道積分圖像。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述多個積分圖像包括八個積分圖像,并且其中,所述多通道積分圖像包括八通道積分圖像。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述二維濾波器內(nèi)核包括對角線梯度濾波器內(nèi)核或反對角線梯度濾波器內(nèi)核的至少其中之一。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述特征描述符包括特征向量,所述特征向量包括至少一個對角線梯度特征。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主對角線梯度值和反對角線梯度值。
8.一種包括計(jì)算機(jī)程序產(chǎn)品的制品,所述計(jì)算機(jī)程序產(chǎn)品中存儲有指令,所述指令如果被執(zhí)行,則導(dǎo)致如下操作: 接收輸入圖像; 產(chǎn)生所述輸入圖像的多個梯度圖像,其中,所述多個梯度圖像至少包括使用二維濾波器內(nèi)核創(chuàng)建的第一梯度圖像; 響應(yīng)于所述多個梯度圖像而產(chǎn)生所述輸入圖像的特征描述符;以及 通過將提升級聯(lián)分類器應(yīng)用于所述特征描述符來對所述輸入圖像執(zhí)行對象檢測,其中,所述提升級聯(lián)分類器包括多個邏輯回歸基分類器。
9.根據(jù)權(quán)利要求8所述的制品,進(jìn)一步包括指令,所述指令如果被執(zhí)行,則導(dǎo)致如下操作: 產(chǎn)生多個積分圖像,每一個積分圖像都對應(yīng)于所述多個梯度圖像中的單獨(dú)的一個梯度圖像。
10.根據(jù)權(quán)利要求9所述的制品,其中,產(chǎn)生特征描述符包括:從所述多個積分圖像產(chǎn)生多通道積分圖像。
11.根據(jù)權(quán)利要求10所述的制品,其中,所述多個積分圖像包括八個積分圖像,并且其中,所述多通道積分圖像包括八通道積分圖像。
12.根據(jù)權(quán)利要求8所述的制品,其中,所述二維濾波器內(nèi)核包括對角線梯度濾波器內(nèi)核或反對角線梯度濾波器內(nèi)核的至少其中之一。
13.根據(jù)權(quán)利要求12所述的制品,其中,所述特征描述符包括特征向量,所述特征向量包括至少一個對角線梯度特征。
14.根據(jù)權(quán)利要求13所述的制品,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主對角線梯度值和反對角線梯度值。
15.一種裝置,包括: 處理器,所述處理器被配置為: 接收輸入圖像; 產(chǎn)生所述輸入圖像的多個梯度圖像,其中,所述多個梯度圖像至少包括使用二維濾波器內(nèi)核創(chuàng)建的第一梯度圖像; 響應(yīng)于所述多個梯度圖像而產(chǎn)生所述輸入圖像的特征描述符;以及通過將提升級聯(lián)分類器應(yīng)用于所述特征描述符來對所述輸入圖像執(zhí)行對象檢測,其中,所述提升級聯(lián)分類器包括多個邏輯回歸基分類器。
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述處理器用于: 產(chǎn)生多個積分圖像,每一個積分圖像都對應(yīng)于所述多個梯度圖像中的單獨(dú)的一個梯度圖像。
17.根據(jù)權(quán)利要求16所述的裝置,其中,為了產(chǎn)生特征描述符,所述處理器從所述多個積分圖像產(chǎn)生多通道積分圖像。
18.根據(jù)權(quán)利要求17所述的裝置,其中,所述多個積分圖像包括八個積分圖像,并且其中,所述多通道積分圖像包括八通道積分圖像。
19.根據(jù)權(quán)利要求15所述的裝置,其中,所述二維濾波器內(nèi)核包括對角線梯度濾波器內(nèi)核或反對角線梯度濾波器內(nèi)核的至少其中之一。
20.根據(jù)權(quán)利要求19所述的裝置,其中,所述特征描述符包括特征向量,所述特征向量包括至少一個對角線梯度特征。
21.根據(jù)權(quán)利要求20所述的裝置,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主對角線梯度值和反對角線梯度值。
22.—種系統(tǒng),包括: 成像設(shè)備;以及 計(jì)算機(jī)系統(tǒng),其中,所述計(jì)算機(jī)系統(tǒng)通信地耦合到所述成像設(shè)備,并且其中,所述計(jì)算機(jī)系統(tǒng)用于: 從所述成像設(shè)備接收輸入圖像; 產(chǎn)生所述輸入圖像的多個梯度圖像,其中,所述多個梯度圖像至少包括使用二維濾波器內(nèi)核創(chuàng)建的第一梯度圖像; 響應(yīng)于所述多個梯度圖像而產(chǎn)生所述輸入圖像的特征描述符;以及通過將提升級聯(lián)分類器應(yīng)用于所述特征描述符來對所述輸入圖像執(zhí)行對象檢測,其中,所述提升級聯(lián)分類器包括多個邏輯回歸基分類器。
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述計(jì)算機(jī)系統(tǒng)用于: 產(chǎn)生多個積分圖像,每一個積分圖像都對應(yīng)于所述多個梯度圖像中的單獨(dú)的一個梯度圖像。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,為了產(chǎn)生特征描述符,所述計(jì)算機(jī)系統(tǒng)從所述多個積分圖像產(chǎn)生多通道積分圖像。
25.根據(jù)權(quán)利要求24所述的系統(tǒng),其中,所述多個積分圖像包括八個積分圖像,并且其中,所述多通道積分圖像包括八通道積分圖像。
26.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述二維濾波器內(nèi)核包括對角線梯度濾波器內(nèi)核或反對角線梯度濾波器內(nèi)核的至少其中之一。
27.根據(jù)權(quán)利要求26所述的系統(tǒng),其中,所述特征描述符包括特征向量,所述特征向量包括至少一個對角線梯度特征。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中,所述特征向量至少包括水平梯度值、垂直梯度值、主對角線 梯度值和反對角線梯度值。
【文檔編號】G06K9/00GK104025118SQ201180074623
【公開日】2014年9月3日 申請日期:2011年11月1日 優(yōu)先權(quán)日:2011年11月1日
【發(fā)明者】J·李, Y·張 申請人:英特爾公司