專利名稱:用于對象識別的直方圖方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本技術(shù)涉及圖像和視頻處理,并且更特別地涉及通過簡單特征(諸如顏色直方圖)表現(xiàn)圖像。
背景技術(shù):
在一個方面中,本說明書涉及用于將圖像(或視頻)識別為存儲在數(shù)據(jù)庫中的許多圖像(或視頻)之一的技術(shù)。本技術(shù)還能夠用于識別圖像中的對象。許多這樣的技術(shù)背后的一個基本概念是按照簡單特征表現(xiàn)圖像(或?qū)ο?,所述簡單特征相對于幾何變換、視角變化、噪聲、遮蔽(occlusion)、背景、亮度和照明變化不會發(fā)生改變或者隨著這些影響變化緩慢。一種這樣的表現(xiàn)形式是3D顏色直方圖(參看Swain 禾口 Ballard, "Color Indexing,,,International Journal of Computer Vision, 7 (1) 11-32,1991)。顏色直方圖能夠相對快速地得到計算并且已經(jīng)廣泛地用于識別和索引編制 (indexing)任務(wù)。然而,傳統(tǒng)的顏色直方圖有各種缺點,諸如對輝度、對比度和亮度變化以及照明變化敏感。
發(fā)明內(nèi)容
本技術(shù)的各方面涉及對顏色直方圖概念進(jìn)行擴(kuò)展以便產(chǎn)生對上述影響的敏感度更低的簡單表現(xiàn)形式。另外,公開了基于直方圖參數(shù)和集合論的簡單匹配技術(shù),以便提供在幾何變換下的更好的魯棒性。還詳述了使用直方圖表現(xiàn)形式進(jìn)行快速數(shù)據(jù)庫搜索并縮小搜索空間的技術(shù)。詳述的技術(shù)非常適合于在移動裝置或嵌入系統(tǒng)上工作,這主要是由于移動裝置或嵌入系統(tǒng)的簡單性和速度。根據(jù)參考附圖給出的以下詳細(xì)說明,上述內(nèi)容將更加明了。
圖IA示出第一參考圖像。圖IB示出圖IA圖像的3D直方圖,其中8個柄(bin)用于亮度,并且16個柄用于紅-綠和藍(lán)-黃對立顏色方向中的每一個(即2048個數(shù)據(jù)元素)。球體表示非零直方圖柄的數(shù)量。球體的尺寸表示每個柄中的像素數(shù)目。圖2A和2B類似于圖IA和1B,但是示出第二參考圖像。圖3示出在閾值處理為三個級別之后,圖IA的亮度的二階導(dǎo)數(shù)。圖4A和4B類似于圖IB和2B,但是對于量化成僅僅三個級別的亮度軸有類似二階導(dǎo)數(shù)的函數(shù),并且對各分量顏色(component color)軸有不均勻的量化。圖5A和5B是圖IA的參考圖像,示出照明的變化如何能夠引起顏色的變化。圖6是示出對縮小的圖像的候選部分進(jìn)行分割以便進(jìn)行直方圖或其它分析的流程圖。圖7是對所選的幾何變換和其它畸變(distortion)示出參考圖像和測試圖像之間的匹配的表格。圖8是適合與本技術(shù)一起使用的蜂窩電話的框圖。
具體實施例方式3D顏餼肓方圖(上文的)Swain和Ballard引入了利用用于表現(xiàn)色彩對象的顏色直方圖來完成識別任務(wù)。他們指出顏色直方圖能夠在存在遮蔽和視角變化的情況下提供穩(wěn)定的表現(xiàn),并且能夠在大量對象之間區(qū)分開來。他們引入了一種稱為直方圖交核(histogram intersection)的度量來比較測試和參考直方圖以便進(jìn)行匹配。顏色直方圖對給定顏色在圖像中出現(xiàn)的次數(shù)進(jìn)行計數(shù)??梢砸噪x散顏色空間表現(xiàn)形式(諸如RGB、HSV或者亮度和對立顏色的組合)指定各顏色。圖IA和IB示出一圖像及其3D顏色直方圖,其中3D顏色直方圖具有通過亮度(L)、紅-綠(RG)和藍(lán)-黃(BY)表現(xiàn)的顏色軸。亮度被量化成8柄,而其它顏色軸各自被量化成16柄(即跨越3D直方圖有 2048個數(shù)據(jù)元素)。從RGB值獲得L、R-G和B-Y顏色值如下L = O. 333* (R+G+B)RG = 0. 5* (R-G)BY = 0. 5*Β-0· 25* (R+G)圖2Α和2Β示出另一圖像及其對應(yīng)的顏色直方圖。圖1和圖2中的直方圖的比較表明,直方圖表征每幅圖像的區(qū)別顏色特征。對象識別、相似性和利用肓方圖進(jìn)行匹配3D直方圖(或顏色直方圖)測量圖像中每種顏色分量的量或比例。這提供了按照圖像的顏色來表征圖像的方式。例如,考慮包含紅、綠和藍(lán)分量作為3個直方圖軸的3D直方圖。于是,綠背景上的紅花的簡單圖像將會具有沿紅和綠軸的顯著顏色分量。假定25% 的像素為紅色,而剩余的像素為綠色。于是,其直方圖僅具有紅和綠分量的所有圖像可以被認(rèn)為“類似”于上述花圖像。其直方圖僅具有紅和綠色并且紅色與綠色的比例與花圖像大致相同(為1 3)的圖像可以被認(rèn)為與花圖像更加匹配。通過稍微不同的姿勢拍攝得到的綠背景上的花的圖像也可以得到識別。盲方圖交核直方圖交核提供了兩個直方圖之間的相似性的度量。包含N個柄的直方圖的直方圖交核度量是通過兩個直方圖共有的計數(shù)值的總和給出的。Swain和Ballard將直方圖交核定義為
權(quán)利要求
1.一種方法,其采用一系統(tǒng),所述系統(tǒng)具有配置成執(zhí)行所述方法的一個或更多動作的處理器以及用于捕捉圖像數(shù)據(jù)的攝像機(jī)部,所述方法包括以下動作所述系統(tǒng)處理器從所述圖像數(shù)據(jù)產(chǎn)生多維直方圖數(shù)據(jù),所述直方圖數(shù)據(jù)具有多個維度并且包括更多個直方圖柄,所述多個維度中的第一和第二維度與量化色調(diào)信息相對應(yīng),第三維度與利用二階導(dǎo)數(shù)函數(shù)處理的量化照明信息相對應(yīng);和基于所產(chǎn)生的直方圖數(shù)據(jù),處理與對應(yīng)于各種圖像的參考直方圖數(shù)據(jù)的集合相對應(yīng)的數(shù)據(jù),以識別與所捕捉的圖像數(shù)據(jù)相對應(yīng)的一個或更多候選圖像。
2.如權(quán)利要求1所述的方法,包括將所述照明信息量化為三個級別。
3.如權(quán)利要求1所述的方法,包括將所述照明信息量化為正好兩個級別。
4.如權(quán)利要求1所述的方法,包括將所產(chǎn)生的直方圖數(shù)據(jù)歸一化為參考直方圖數(shù)據(jù), 然后計算所述歸一化直方圖數(shù)據(jù)與多組參考直方圖數(shù)據(jù)中的每組參考直方圖數(shù)據(jù)之間的直方圖交核度量。
5.如權(quán)利要求1所述的方法,包括將所產(chǎn)生的直方圖數(shù)據(jù)歸一化為參考直方圖數(shù)據(jù), 然后計算所述歸一化直方圖數(shù)據(jù)與多組參考直方圖數(shù)據(jù)中的每組參考直方圖數(shù)據(jù)之間的直方圖匹配度量。
6.一種方法,其采用一系統(tǒng),所述系統(tǒng)具有配置成執(zhí)行所述方法的一個或更多動作的處理器以及用于捕捉圖像數(shù)據(jù)的攝像機(jī)部,所述方法包括從所述圖像數(shù)據(jù)產(chǎn)生多維直方圖數(shù)據(jù),以及通過參考所述多維直方圖數(shù)據(jù)來識別候選匹配圖像,所述方法的特征在于,歸一化所產(chǎn)生的多維直方圖數(shù)據(jù),并使用標(biāo)準(zhǔn)化直方圖數(shù)據(jù)計算直方圖交核運算。
7.一種方法,其采用一系統(tǒng),所述系統(tǒng)具有配置成執(zhí)行所述方法的一個或更多動作的處理器以及用于捕捉圖像數(shù)據(jù)的攝像機(jī)部,所述方法包括從所述圖像數(shù)據(jù)產(chǎn)生多維直方圖數(shù)據(jù),以及通過參考所述多維直方圖數(shù)據(jù)來識別候選匹配圖像,所述方法的特征在于,在識別候選匹配圖像時使用的所述多維直方圖數(shù)據(jù)包括與所述圖像數(shù)據(jù)的亮度的二階或更高階導(dǎo)數(shù)相對應(yīng)的量化導(dǎo)數(shù)數(shù)據(jù)。
8.如權(quán)利要求7所述的方法,包括通過參考與所述導(dǎo)數(shù)數(shù)據(jù)相對應(yīng)的符號數(shù)據(jù)來識別候選匹配圖像。
9.如權(quán)利要求7所述的方法,包括將所述導(dǎo)數(shù)數(shù)據(jù)量化成至少兩個柄超過閾值的正值;以及超過閾值的負(fù)值。
10.如權(quán)利要求9所述的方法,包括將所述導(dǎo)數(shù)數(shù)據(jù)量化成僅僅所述兩個柄,從而產(chǎn)生在識別候選匹配圖像時使用的雙極性數(shù)據(jù)。
11.如權(quán)利要求7所述的方法,包括將所述導(dǎo)數(shù)數(shù)據(jù)量化成至少三個柄超過閾值的正值;超過閾值的負(fù)值;以及其它值。
12.如權(quán)利要求7所述的方法,包括通過拉普拉斯算子、高斯-拉普拉斯算子或高斯差分公式產(chǎn)生所述導(dǎo)數(shù)數(shù)據(jù)。
13.—種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,包括產(chǎn)生第一圖像的顏色直方圖數(shù)據(jù),以及識別參考數(shù)據(jù)存儲庫中與其相對應(yīng)的顏色直方圖數(shù)據(jù),所述方法的特征在于所述顏色直方圖數(shù)據(jù)在至少一個顏色維度中是非均勻量化的。
14.如權(quán)利要求13所述的方法,其中所述顏色直方圖數(shù)據(jù)包括與顏色信息相對應(yīng)的量化二階導(dǎo)數(shù)數(shù)據(jù)。
15.如權(quán)利要求13所述的方法,其中所述顏色直方圖數(shù)據(jù)包括與顏色信息相對應(yīng)的量化色調(diào)數(shù)據(jù)。
16.一種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,包括產(chǎn)生第一圖像的顏色直方圖數(shù)據(jù),以及識別參考數(shù)據(jù)存儲庫中與其相對應(yīng)的顏色直方圖數(shù)據(jù),所述圖像包括像素,所述方法的特征在于,通過每個像素上的最大值和最小值之間的差值來歸一化對立顏色方向。
17.—種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,包括產(chǎn)生第一圖像的顏色直方圖數(shù)據(jù),以及識別參考數(shù)據(jù)存儲庫中與其相對應(yīng)的顏色直方圖數(shù)據(jù),所述方法的特征在于, 按照顏色對比度信息表示顏色信息。
18.—種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,所述方法包括在量化的柄中產(chǎn)生測試圖像的顏色直方圖數(shù)據(jù),以及識別量化的柄中與所述測試圖像相對應(yīng)的參考圖像顏色直方圖數(shù)據(jù),其中所述方法的特征在于,確定與所述匹配有關(guān)的以下度量中的一個或多個a.所述測試和參考圖像直方圖中被占用的柄的數(shù)目;b.所述測試圖像和參考圖像直方圖兩者共有的被占用的柄的數(shù)目;c.所述測試圖像和參考圖像直方圖之間組合起來的被占用的柄的數(shù)目;d.所述測試圖像和參考圖像直方圖兩者共有的像素的數(shù)目(直方圖交核);e.在所述參考圖像直方圖中被占用的所述測試圖像直方圖的被占用的柄的百分比;f.所述直方圖交核與所述測試圖像直方圖的被占用的柄的數(shù)目的比率;g.測試圖像直方圖的非零柄;h.參考圖像直方圖的非零柄;i.作為參考圖像直方圖的非零柄的子集的測試圖像直方圖的非零柄;j.作為參考圖像直方圖的非零柄的子集的測試圖像直方圖的非零柄的數(shù)目;k.作為測試圖像直方圖的非零柄的子集的參考圖像直方圖的非零柄;以及1.作為測試圖像直方圖的非零柄的子集的參考圖像直方圖的非零柄的數(shù)目。
19.如權(quán)利要求18所述的方法,包括組合與所述匹配有關(guān)的度量(a)-(l)中的兩個或更多個。
20.如權(quán)利要求18所述的方法,包括把具有小于閾值的值的任何柄作為空來對待。
21.一種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,所述方法包括在量化的柄中產(chǎn)生測試圖像的顏色直方圖數(shù)據(jù),以及識別量化的柄中與所述測試圖像相對應(yīng)的參考圖像顏色直方圖數(shù)據(jù),其中所述方法的特征在于,忽視在所述參考圖像直方圖中未被占用的所述測試圖像直方圖的柄,并在所述測試圖像直方圖的剩余柄和所述參考圖像直方圖的柄之間進(jìn)行比較。
22.如權(quán)利要求21所述的方法,包括把具有小于閾值的值的任何柄作為未被占用來對待。
23.一種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,所述方法包括在量化的柄中產(chǎn)生測試圖像的顏色直方圖數(shù)據(jù),以及識別量化的柄中與所述測試圖像相對應(yīng)的參考圖像顏色直方圖數(shù)據(jù),其中所述方法的特征在于(a)檢查所述測試圖像直方圖的至少大部分被占用的柄是否是所述參考圖像直方圖中被占用的柄的子集,以及(b)檢查所述測試圖像直方圖中的至少一些柄的計數(shù)值是否比所述參考圖像直方圖的相應(yīng)計數(shù)值大,其中無論是否被放大都能夠使圖像得到匹配。
24.如權(quán)利要求23所述的方法,包括把具有小于閾值的值的任何柄作為未被占用來對
25.如權(quán)利要求23所述的方法,還包括執(zhí)行回歸分析以便確定比例因子,所述比例因子表示所述測試圖像和參考圖像直方圖中的柄計數(shù)值之間的關(guān)系。
26.—種通過參考顏色直方圖數(shù)據(jù)來匹配圖像的方法,包括產(chǎn)生第一圖像的顏色直方圖數(shù)據(jù),以及識別參考數(shù)據(jù)存儲庫中與其相對應(yīng)的顏色直方圖數(shù)據(jù),所述方法的特征在于, 所述顏色直方圖數(shù)據(jù)按照所述第一圖像中的邊緣處存在的顏色而與所述邊緣的方向相獨立地表征所述第一圖像。
27.如前述權(quán)利要求中的任一項所述的方法,其中由移動電話中的處理器執(zhí)行產(chǎn)生第一圖像的顏色直方圖數(shù)據(jù)的操作。
28.一種系統(tǒng),包括蜂窩電話,其包括處理器、存儲器、攝像機(jī)系統(tǒng)和無線接口 ;以及遠(yuǎn)程計算機(jī),其包括處理器、存儲器、攝像機(jī)系統(tǒng)和允許與所述蜂窩電話交換數(shù)據(jù)的接Π ;所述存儲器存儲使所述處理器執(zhí)行以下操作的指令 從所述攝像機(jī)系統(tǒng)獲得圖像數(shù)據(jù)幀;從所獲得的圖像數(shù)據(jù)幀產(chǎn)生多維直方圖數(shù)據(jù),所述直方圖數(shù)據(jù)具有多個維度并且限定更多個直方圖柄,所述多個維度中的第一和第二維度與量化色調(diào)信息相對應(yīng),第三維度與利用二階導(dǎo)數(shù)函數(shù)處理的量化照明信息相對應(yīng);將所產(chǎn)生的直方圖數(shù)據(jù)與多組參考直方圖數(shù)據(jù)進(jìn)行比較;以及通過參考所述比較,識別與所捕捉的圖像相對應(yīng)的一個或更多候選匹配圖像。
全文摘要
多維直方圖被用于表征圖像(或?qū)ο?,并且被用于識別與一個或更多參考圖像(或?qū)ο?匹配的候選匹配者。示例性實現(xiàn)方案把色調(diào)信息用于兩個維度,并且把基于亮度的二階導(dǎo)數(shù)函數(shù)用于第三維。所詳述的配置的簡單性和速度使其非常適合與蜂窩電話和其它移動裝置一起使用,所述蜂窩電話和其它移動裝置可以使用本技術(shù)在例如視覺搜索應(yīng)用場合進(jìn)行圖像/對象識別。
文檔編號G06K9/00GK102460475SQ201080031946
公開日2012年5月16日 申請日期2010年5月19日 優(yōu)先權(quán)日2009年5月19日
發(fā)明者R.K.夏爾馬 申請人:數(shù)字標(biāo)記公司