專利名稱:用于圖像辨識的描述符小塊的快速子空間投影的制作方法
技術(shù)領(lǐng)域:
一個特征涉及計算機(jī)視覺,且更特定來說,涉及用于改進(jìn)圖像的辨識和檢索性能、處理和/或壓縮的方法和技術(shù)。
背景技術(shù):
各種應(yīng)用可受益于具有能夠識別視覺表示中的目標(biāo)(例如,圖像或圖片)的機(jī)器或處理器。計算機(jī)視覺的領(lǐng)域試圖提供準(zhǔn)許識別圖像中的目標(biāo)或特征的技術(shù)和/或算法,其中目標(biāo)或特征可通過識別一個或一個以上關(guān)鍵點的描述符而表征。這些技術(shù)和/或算法常常也適用于人臉辨識、目標(biāo)檢測、圖像匹配、3維結(jié)構(gòu)構(gòu)造、立體對應(yīng)和/或運(yùn)動追蹤,以及其它應(yīng)用。一般來說,出于特征識別、圖像檢索和/或目標(biāo)辨識的目的,目標(biāo)或特征辨識可涉及識別圖像中的興趣點(也稱作關(guān)鍵點)。優(yōu)選地,可選擇和/或處理關(guān)鍵點,使得其對于圖像尺度改變和/或旋轉(zhuǎn)為不變的并跨越失真的實質(zhì)性范圍、視點改變和/或噪聲和照度改變提供穩(wěn)健匹配(robust matching)。另外,為了良好地適合于例如圖像檢索和目標(biāo)辨識的任務(wù),特征描述符可優(yōu)選地在以下意義上有區(qū)別,單一特征可以高概率與來自多個目標(biāo)圖像的特征的大數(shù)據(jù)庫正確地匹配。在檢測和定位圖像中的關(guān)鍵點之后,可通過使用各種描述符來識別或描述所述關(guān)鍵點。舉例來說,描述符可表示圖像中的內(nèi)容的視覺特征,例如,形狀、顏色、紋理、旋轉(zhuǎn)和/或運(yùn)動,以及其它圖像特性。描述符可表示關(guān)鍵點和所述關(guān)鍵點周圍的局部鄰域。描述符提取的目的為獲得關(guān)鍵點周圍的局部信息的穩(wěn)健、無噪聲表示。此可通過將描述符投影到無噪聲主成分分析(PCA)子空間來完成。PCA涉及正交線性變換,所述正交線性變換將數(shù)據(jù)(例如,圖像中的關(guān)鍵點)變換為新坐標(biāo)系,使得通過數(shù)據(jù)的任何投影所產(chǎn)生的最大方差位于第一坐標(biāo)(稱作第一主成分)上,第二最大方差位于第二坐標(biāo)(第二主成分)上,等等。然而,到PCA子空間的這種投影需要計算上復(fù)雜的與高維投影向量的內(nèi)積。對應(yīng)于關(guān)鍵點且由描述符表示的個別特征與來自已知目標(biāo)的特征的數(shù)據(jù)庫匹配。因此,可將對應(yīng)搜索系統(tǒng)分離為三個模塊關(guān)鍵點檢測器、特征描述符和對應(yīng)定位器。在這三個邏輯模塊中,描述符的構(gòu)造復(fù)雜性和維數(shù)對特征匹配系統(tǒng)的性能具有直接和顯著影響。已提議多種描述符,其中每個描述符具有不同優(yōu)點。尺度不變特征變換(SIFT)開放12 0 X 12 0小塊,所述小塊與鄰域中的主定向?qū)?zhǔn)且經(jīng)大小設(shè)計以與所檢測關(guān)鍵點0的尺度層級成比例。此區(qū)中的梯度值在4X4單元中相加,其中每個單元中有8個頻率組定向直方圖。PCA-SIFT展示鄰域中的梯度值可以極小子空間表示。描述符提取程序中的大多數(shù)對減少維數(shù)以消除噪聲并改進(jìn)辨識準(zhǔn)確性的優(yōu)點意見一致。然而,與將描述符投影到低維子空間相關(guān)聯(lián)的大的計算復(fù)雜性妨礙了其實際使用。舉例來說,PCA-SIFT小塊大小為39 X 39,此導(dǎo)致在X方向和y方向上考慮梯度值的2*392維投影向量。因此,查詢圖像中的每個描述符針對到d維子空間的投影需要2*392*d次乘法和加法。盡管此對于大功率的服務(wù)器側(cè)機(jī)器可能不產(chǎn)生顯著低效率,但在具有有限處理資源的實施(例如,移動電話)中可能是瓶頸。這些特征描述符正越來越多地發(fā)現(xiàn)實時目標(biāo)辨識、3D重建、全景拼接、機(jī)器人映射、視頻跟蹤和類似任務(wù)中的應(yīng)用。取決于應(yīng)用,特征描述符(或等效物)的傳輸和/或存儲可限制目標(biāo)檢測的計算速度和/或圖像數(shù)據(jù)庫的大小。在移動裝置(例如,相機(jī)電話、移動電話等)或分布式相機(jī)網(wǎng)絡(luò)的情況下,可在節(jié)點之間的描述符提取中花費(fèi)顯著通信和處理資源。描述符提取的計算密集過程傾向于妨礙或復(fù)雜化其在資源有限裝置(例如,移動電話)上的應(yīng)用。 因此,存在對快速且有效地產(chǎn)生局部特征描述符的方式的需要。
發(fā)明內(nèi)容
以下內(nèi)容呈現(xiàn)一個或一個以上實施例的簡化概述以便提供對一些實施例的基本理解。此概述不是所有涵蓋實施例的廣泛綜述,且希望既不識別所有實施例的關(guān)鍵或臨界元素,也不描繪任何或所有實施例的范圍。其唯一目的為以簡化形式呈現(xiàn)一個或一個以上實施例的一些概念以作為稍后呈現(xiàn)的更詳細(xì)描述的序言。提供一種用于產(chǎn)生特征描述符的方法和裝置。獲得一組預(yù)產(chǎn)生的稀疏投影向量。稀疏投影向量可獨(dú)立于圖像而產(chǎn)生。每個稀疏投影向量可約束于用于圖像的平滑核的尺度。稀疏投影向量中的每一者可用以最大化或最小化目標(biāo)函數(shù)。目標(biāo)函數(shù)可為用于跨越用于一組訓(xùn)練圖像的多個尺度層級的像素信息的自相關(guān)矩陣的最大化。稀疏投影向量可包含大部分零元素和多個非零元素。非零元素通過方差最大化程序而獲得。還獲得用于圖像的尺度空間,其中尺度空間具有多個尺度層級。接著基于稀疏投影向量與用于跨越多個尺度層級的多個像素的稀疏取樣像素信息的組合而產(chǎn)生用于尺度空間中的關(guān)鍵點的描述符。像素信息可包含用于與關(guān)鍵點相關(guān)聯(lián)的小塊內(nèi)的每個像素的梯度信息。所述多個像素可與用于關(guān)鍵點的小塊相關(guān)聯(lián)??稍趯?yīng)于用于稀疏投影向量的非零系數(shù)的預(yù)定位置處選擇所述多個像素。小塊可具有m個像素乘n個像素的尺寸,且關(guān)鍵點描述符相比于小塊的m*n尺寸以較少操作產(chǎn)生。為了獲得像素,可從用于圖像的尺度空間獲得關(guān)鍵點且接著獲得用于關(guān)鍵點的小塊,其中小塊包含多個像素。多個稀疏投影向量可定義一組非零縮放系數(shù),每個非零縮放系數(shù)與小塊內(nèi)的對應(yīng)像素位置相關(guān)聯(lián)??赏ㄟ^組合多個描述符分量來產(chǎn)生描述符,每個描述符分量通過以下方式產(chǎn)生(a)基于用于第一稀疏投影向量的非零縮放系數(shù)位置識別像素位置;和/或(b)將來自小塊的像素位置的值與用于第一稀疏投影向量的對應(yīng)非零縮放系數(shù)相乘且將所得值加在一起以獲得第一描述符分量??色@得用于剩余的多個稀疏投影向量的額外描述符分量以獲得額外描述符分量,其中第一描述符分量與額外描述符分量組合為用以獲得關(guān)鍵點描述符的向量。
根據(jù)下文結(jié)合圖式進(jìn)行闡述的詳細(xì)描述,各種特征、性質(zhì)和優(yōu)點可變得顯而易見,在圖式中相同參考字符遍及全文對應(yīng)地識別。圖1(包括圖1A、1B和1C)是說明用于在目標(biāo)辨識中產(chǎn)生并使用快速子空間稀疏投影向量的各階段的框圖。圖2說明示范性圖像處理階段中的高斯尺度空間產(chǎn)生。
圖3說明示范性圖像處理階段中的特征檢測。圖4說明示范性圖像處理階段中的特征描述符提取。圖5說明可獲得PCA-SIFT描述符的方式。圖6 (包括圖6A和6B)說明可執(zhí)行稀疏PCA-SIFT算法的方式的實例。圖7(包括圖7A、7B和7C)說明用于估計或產(chǎn)生稀疏投影向量的過程。圖8說明用于使用稀疏PCA-SIFT迭代地產(chǎn)生稀疏投影矩陣的示范性算法。圖9說明具有多個八度(octave)的高斯尺度空間金字塔,每個八度具有多個尺度層級。圖10 (包括圖IOA和10B)說明可基于稀疏投影矩陣產(chǎn)生特征描述符的方式。圖11說明作為非零系數(shù)及其對應(yīng)小塊位置的稀疏投影矩陣的示范性表示。圖12說明用于通過使用預(yù)定義稀疏投影向量產(chǎn)生特征描述符的方法。圖13說明用于通過使用預(yù)定義稀疏投影向量產(chǎn)生特征描述符的另一方法。圖14說明用于相比于表征特征的小塊的尺寸以較少操作產(chǎn)生特征描述符的方法。圖15說明用于同一測試圖像的各種視圖,可從測試圖像測試使用稀疏PCA-SIFT算法產(chǎn)生的描述符的準(zhǔn)確性。圖16說明使用SIFT、PCA-SIFT和稀疏PCA-SIFT的描述符的匹配準(zhǔn)確性的實例,SIFT、PCA-SIFT和稀疏PCA-SIFT都使用x方向和y方向上的梯度層級獲得。圖17是說明SIFT、PCA-SIFT和稀疏PCA-SIFT算法的比較計算復(fù)雜性的表。圖18是說明可使用稀疏投影向量產(chǎn)生關(guān)鍵點描述符的圖像匹配裝置的實例的框圖。圖19是說明適合于出于圖像或目標(biāo)辨識目的而執(zhí)行圖像處理的示范性移動裝置的框圖。
具體實施例方式現(xiàn)參看圖式描述各種實施例,其中相同參考標(biāo)號遍及全文用以指代相同元件。在以下描述中,出于解釋目的,闡述許多特定細(xì)節(jié)以便提供對一個或一個以上實施例的詳盡理解。然而,可為明顯的是,這(些)實施例可在沒有這些特定細(xì)節(jié)的情況下實踐。在其它情況下,以框圖形式展示眾所熟知的結(jié)構(gòu)和裝置以便促進(jìn)描述一個或一個以上實施例。
示范性目標(biāo)辨識過程圖I (包括圖1A、1B和1C)是說明用于在目標(biāo)辨識中產(chǎn)生和使用快速子空間稀疏投影向量的各階段的框圖。圖IA是說明稀疏投影向量的估計的框圖。可獲得多個訓(xùn)練圖像107。對于每個圖像,執(zhí)行尺度空間產(chǎn)生110以獲得尺度空間金字塔(例如,高斯尺度空間金字塔)??山又鴮λa(chǎn)生尺度空間執(zhí)行特征/關(guān)鍵點檢測112。接著執(zhí)行梯度小塊金字塔提取115,借此,對于每個所檢測關(guān)鍵點,從尺度空間(例如,在關(guān)鍵點周圍)提取梯度小塊。此小塊通常相對于小塊中的主梯度的定向(在平面旋轉(zhuǎn)中)重新定向,這是實現(xiàn)旋轉(zhuǎn)不變性的一般已知方法。此過程可針對所有訓(xùn)練圖像重復(fù)。使用用于訓(xùn)練圖像中的多個關(guān)鍵點的產(chǎn)生的梯度小塊,來計算多個稀疏投影向量117。稀疏投影向量117中的每一者可包括具有對應(yīng)小塊位置的多個縮放系數(shù)。在一個表示中,稀疏投影向量117可經(jīng)組織為稀疏系數(shù)矩陣,其中稀疏系數(shù)矩陣的每一列定義一個稀疏投影向量。圖IB是說明可基于稀疏投影向量建立用于圖像數(shù)據(jù)庫的描述符庫的方式的框 圖。此處,獲得圖像的數(shù)據(jù)庫109,針對每個數(shù)據(jù)庫圖像產(chǎn)生尺度空間111,并從這些尺度空間檢測特征/關(guān)鍵點113。接著使用稀疏投影向量117執(zhí)行稀疏特征提取116以產(chǎn)生關(guān)鍵點描述符的數(shù)據(jù)庫121。圖IC是說明用于通過使用稀疏投影向量對所查詢圖像執(zhí)行目標(biāo)辨識的功能階段的框圖。在圖像捕獲階段102,可捕獲或以其它方式獲得查詢圖像108。舉例來說,查詢圖像108可由圖像捕獲裝置捕獲以獲得數(shù)字捕獲圖像,圖像捕獲裝置可包含一個或一個以上圖像傳感器和/或模擬到數(shù)字轉(zhuǎn)換器。圖像傳感器(例如,電荷耦合裝置(CCD)、互補(bǔ)金屬半導(dǎo)體(CMOS))可將光轉(zhuǎn)換為電子。電子可形成模擬信號,模擬信號接著由模擬到數(shù)字轉(zhuǎn)換器轉(zhuǎn)換為數(shù)值。以此方式,可以數(shù)字格式捕獲圖像108,數(shù)字格式可將圖像I (x,y)定義(例如)為具有對應(yīng)顏色、照度和/或其它特性的多個像素。在圖像處理階段104,接著通過產(chǎn)生對應(yīng)尺度空間120 (例如,高斯尺度空間),執(zhí)行特征/關(guān)鍵點檢測122,和基于稀疏投影向量117執(zhí)行稀疏特征提取126來處理所捕獲圖像108,從而獲得查詢描述符128。在圖像比較階段106,查詢描述符128用以執(zhí)行與已知描述符的數(shù)據(jù)庫121的特征匹配130??山又鴮﹃P(guān)鍵點匹配(例如,基于匹配描述符)執(zhí)行幾何驗證或一致性檢查132,以斷定正確特征匹配并提供匹配結(jié)果134。以此方式,查詢圖像可與目標(biāo)圖像的數(shù)據(jù)庫109比較和/或從目標(biāo)圖像的數(shù)據(jù)庫109識別。圖2說明示范性圖像處理階段104中的高斯尺度空間產(chǎn)生。已開發(fā)許多算法(例如,尺度不變特征變換(SIFT))以執(zhí)行圖像中的特征檢測。朝著圖像中的特定目標(biāo)的檢測的第一步驟是基于其局部特征而將所查詢目標(biāo)分類。目的是識別并選擇對(例如)照度、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點的小改變?yōu)椴蛔兒?或穩(wěn)健的特征。即,除了查詢圖像與比較目標(biāo)圖像之間的照度、圖像噪聲、旋轉(zhuǎn)、尺度和/或視點的差異之外,應(yīng)發(fā)現(xiàn)兩個圖像之間的匹配。實現(xiàn)此操作的一種方式為對圖像的小塊執(zhí)行極值檢測(例如,局部最大值或最小值),以識別區(qū)別較大的特征(例如,有區(qū)別的點、像素和/或圖像中的區(qū))。SIFT是用于檢測和提取對于照度的改變、圖像噪聲、旋轉(zhuǎn)、縮放和/或視點的小改變合理地不變的局部特征的一種方法。用于SIFT的圖像處理階段104可包含(a)尺度空間極值檢測、(b)關(guān)鍵點定位、(C)定向指派,和/或(d)關(guān)鍵點描述符的產(chǎn)生。SIFT將描述符建立為關(guān)鍵點的鄰域中的梯度直方圖。應(yīng)清楚,用于特征檢測的替代算法和后續(xù)特征描述符產(chǎn)生也可受益于本文中描述的特征,后續(xù)特征描述符產(chǎn)生包含加速穩(wěn)健特征(SURF)、梯度位置和定向直方圖(GLOH)、基于局部能量的形狀直方圖(LESH)、壓縮梯度直方圖(CHoG)以及其它。為了產(chǎn)生尺度空間金字塔202,逐步使數(shù)字圖像I(x,y)203(圖2)平滑/模糊以構(gòu)造尺度空間金字塔202。模糊(平滑)大體上涉及使原始圖像I (x,y)與尺度C。下的模糊/平滑函數(shù)G (X, y, c O )進(jìn)行卷積,使得尺度空間L(x, y, c O )定義為L(x, y, c o )=G(X,y,co)*I(X,y)。在一個實例中,尺度空間金字塔可為高斯尺度空間金字塔。因此,平滑/模糊函數(shù)G可為高斯核,co可表示用于模糊圖像I (x,y)的高斯函數(shù)G的標(biāo)準(zhǔn)偏差。當(dāng)乘數(shù)C變化時(cQ < C1 < C2 < C3 < C4),標(biāo)準(zhǔn)偏差c O變化且獲得圖像I (X, y)的逐步模糊/平滑。此處,O為基本尺度變數(shù)(例如,高斯核的寬度)。當(dāng)初始圖像I (x,y)遞增地與高斯函數(shù)G進(jìn)行卷積以產(chǎn)生模糊圖像尺度空間L時,模糊圖像尺度空間L由尺度空間中的常數(shù)因子c分離。隨著高斯模糊(平滑)圖像尺度空間L的數(shù)目增加且針對高斯金字塔 202提供的近似接近連續(xù)空間,兩個尺度也接近一個尺度。在一個實例中,經(jīng)卷積的圖像尺 度空間L可由八度分組,其中八度可對應(yīng)于標(biāo)準(zhǔn)偏差O的值的雙倍。此外,選擇乘數(shù)c的值(例如,Ctl < C1 < C2 < C3 < C4),使得每個八度獲得固定數(shù)目個圖像尺度空間L。縮放的每個八度可對應(yīng)于明確圖像調(diào)整大小。因此,當(dāng)原始圖像I(x,y)由逐步模糊/平滑函數(shù)G模糊/平滑時,像素的數(shù)目逐漸地減少??赏ㄟ^計算金字塔202中的任何兩個連續(xù)模糊圖像尺度空間的差來構(gòu)造差分尺度空間204(例如,高斯差分(DoG)金字塔)。在差分尺度空間204中,D(x,y,a) = L(x,y,cno )-L (x, y, Clri o )。差分圖像尺度空間D(x,y, o )為尺度cn o和Ciri o下的兩個鄰近平滑/模糊圖像L之間的差。差分尺度空間D(x,y,o)的尺度位于CnO和f之間的某處??蓮某叨瓤臻g202的每個八度的鄰近模糊圖像獲得用于差分尺度空間204的層級的圖像。在每個八度之后,圖像可降低取樣二(2)分之一且接著重復(fù)過程。以此方式,圖像可變換為對平移、旋轉(zhuǎn)、尺度和/或其它圖像參數(shù)和/或失真穩(wěn)健或不變的局部特征。一旦產(chǎn)生,用于查詢圖像的差分尺度空間204可用于極值檢測以識別興趣特征(例如,識別圖像中的區(qū)別較大的點)。這些區(qū)別較大的點在本文中稱作關(guān)鍵點。這些關(guān)鍵點可由小塊的特性或環(huán)繞每個關(guān)鍵點的局部區(qū)識別??舍槍γ總€關(guān)鍵點及其對應(yīng)小塊產(chǎn)生描述符,描述符可用于查詢圖像與存儲目標(biāo)圖像之間的關(guān)鍵點的比較?!疤卣鳌笨芍复枋龇?即,關(guān)鍵點及其對應(yīng)小塊)。特征的群組(即,若干關(guān)鍵點和對應(yīng)小塊)可稱作群集。圖3說明示范性圖像處理階段104中的特征檢測。在特征檢測中,差分尺度空間204(例如,高斯差分尺度空間)可用以識別用于查詢圖像I (x,y)的關(guān)鍵點。特征檢測設(shè)法確定圖像中的特定樣本點或像素周圍的局部區(qū)或小塊是否為潛在有趣的小塊(從幾何學(xué)來說)且因此應(yīng)視為用于與存儲特征匹配的候選者。一般來說,差分尺度空間204中的局部最大值和/或局部最小值被識別,且這些最大值和最小值的位置用作差分尺度空間204中的關(guān)鍵點位置。在圖3中說明的實例中,關(guān)鍵點308已識別有小塊306。發(fā)現(xiàn)局部最大值和最小值(也稱作局部極值檢測)可通過將差分尺度空間204中的每個像素(例如,用于關(guān)鍵點308的像素)與相同尺度下的其八個相鄰像素以及與關(guān)鍵點308兩側(cè)的相鄰尺度中的每一者中的九個相鄰像素(在鄰近小塊310和312)中,總共26個像素(9X2+8 = 26)作比較而實現(xiàn)。此處,小塊被定義為3 X 3像素區(qū)。如果用于關(guān)鍵點308的像素值在小塊306、310和312中所有二十六(26)個比較像素當(dāng)中為最大或最小的,那么其被選擇為關(guān)鍵點。可進(jìn)一步處理關(guān)鍵點,使得更準(zhǔn)確地識別其位置且可丟棄關(guān)鍵點中的一些(例如,低對比度關(guān)鍵點和邊緣關(guān)鍵點)。圖4說明示范性圖像處理階段104中的特征描述符提取。一般來說,特征(例如,關(guān)鍵點及其對應(yīng)小塊)可由描述符表示,此允許特征(來自查詢圖像)與存儲于目標(biāo)圖像的數(shù)據(jù)庫中的特征的有效比較。在特征描述符提取的一個實例中,可基于局部圖像梯度的方向指派每個關(guān)鍵點一個或一個以上定向或方向。通過基于局部圖像特性將一致定向指派給每個關(guān)鍵點,關(guān)鍵點描述符可相對于此定向來表示且因此實現(xiàn)對圖像旋轉(zhuǎn)的不變性??舍槍δ:龍D像尺度空間L和/或差分尺度空間中的關(guān)鍵點308周圍的相鄰區(qū)中的每個像素執(zhí)行幅值和方向計算。定位于(x,y)處的關(guān)鍵點308的梯度幅值可表示為m(x,y),且位置(X, y)處的關(guān)鍵點的梯度定向或方向可表不為r (X, y)。關(guān)鍵點的尺度用以選擇具有與關(guān)鍵點308的尺度最接近尺度的平滑圖像L,使得所有計算以尺度不變方式執(zhí)行。對于在此尺度下的每個圖像樣本L(x,y),使用像素差計算梯度幅值m(x,y)和定向r (x, y)。舉例來說,幅值m(x, y)可計算為 / (x,_v)=小J人x + I, v)- /.(A- - I, v))^ + (/.(.v,_v + l)- /.(.v,- I))"。(方程式 D方向或定向r (x,y)可計算為r(.v, v) = arctan+ 0~ ~ U :(方程式 2)
[/.U + 1, vj-/.(.V-L Vjj此處,L(x, y)為尺度o下的高斯模糊圖像L (x,y,o )的樣本,尺度o也是關(guān)鍵點的尺度。可針對尺度高于差分尺度空間中的關(guān)鍵點的平面的位于上方的尺度空間金字塔中的平面,或在尺度低于關(guān)鍵點的位于下方的尺度空間金字塔的平面中一致地計算關(guān)鍵點308的梯度。任一方式,對于每個關(guān)鍵點,均在一個相同尺度下在環(huán)繞關(guān)鍵點的矩形區(qū)域(例如,小塊)中計算梯度。此外,以模糊圖像的尺度反映圖像信號的頻率。然而,SIFT僅僅使用在小塊(例如,矩形區(qū)域)中的所有像素處的梯度值。小塊界定于關(guān)鍵點周圍;子塊界定于塊內(nèi);樣本界定于子塊內(nèi),且此結(jié)構(gòu)針對所有關(guān)鍵點保持相同,即使關(guān)鍵點的尺度不同。因此,盡管圖像信號的頻率隨著高斯平滑濾波器在同一八度中的連續(xù)應(yīng)用而改變,但可以相同數(shù)目的樣本對在不同尺度下識別的關(guān)鍵點取樣,而不管由尺度表示的圖像信號的頻率如何改變。為了表征關(guān)鍵點定向,可在關(guān)鍵點408的鄰域中(以SIFT)產(chǎn)生梯度定向的向量(使用與關(guān)鍵點的尺度最接近的尺度下的高斯圖像)。然而,關(guān)鍵點定向也可通過使用(例如)壓縮梯度直方圖(CHoG)由梯度定向直方圖(見圖4)來表示。每個相鄰像素的貢獻(xiàn)可由梯度幅值和高斯窗加權(quán)。直方圖中的峰值對應(yīng)于主定向??上鄬τ陉P(guān)鍵點定向測量關(guān)鍵點的所有特性,此提供對旋轉(zhuǎn)的不變性。在一個實例中,可針對每個塊計算高斯加權(quán)梯度的分布,其中每個塊為2個子塊乘2個子塊,總共4個子塊。為了計算高斯加權(quán)梯度的分布,形成具有若干頻率組的定向直方圖,其中每個頻率組覆蓋關(guān)鍵點周圍的區(qū)域的一部分。舉例來說,定向直方圖可具有36個頻率組,每個頻率組覆蓋360度定向范圍中的10度?;蛘?,直方圖可具有8個頻率組,每個頻率組覆蓋360度范圍中的45度。應(yīng)清楚,本文中描述的直方圖編碼技術(shù)可適用于任何數(shù)目個頻率組的直方圖。注意,也可使用最終產(chǎn)生直方圖的其它技術(shù)??梢愿鞣N方式獲得梯度分布和定向直方圖。舉例來說,二維梯度分布(dx,dy)(例如,塊406)轉(zhuǎn)換為一維分布(例如,直方圖414)。關(guān)鍵點408定位于環(huán)繞關(guān)鍵點408的小塊406 (也稱作單元或區(qū))的中心。針對金字塔的每個層級預(yù)計算的梯度展示為每個樣本位置408處的小箭頭。如圖展示,樣本408的4X4區(qū)形成子塊410,且子塊的2X2區(qū)形成塊406。塊406也可稱作描述符窗。高斯加權(quán)函數(shù)以圓402展示且用以將 權(quán)數(shù)指派給每個樣本點408的幅值。圓形窗402中的權(quán)數(shù)平滑地下降。高斯窗402的目的為避免描述符隨著窗的位置的小改變而突然改變,且較不強(qiáng)調(diào)遠(yuǎn)離描述符中心的梯度 。從2X2子 塊獲得定向直方圖的2X2 = 4陣列412,其中直方圖的每個頻率組中有8個定向,從而導(dǎo)致(2X2) X8=32維特征描述符向量。舉例來說,定向直方圖413和415可對應(yīng)于用于子塊410的梯度分布。然而,使用每個直方圖中有8個定向(8頻率組直方圖)的直方圖的4X4陣列,從而導(dǎo)致用于每個關(guān)鍵點的(4X4) X8 = 128向量元(即,特征描述符)可產(chǎn)生較好結(jié)果。注意,其它類型的量化頻率組星座(例如,具有不同沃羅諾伊(VOTonoi)單元結(jié)構(gòu))也可用以獲得梯度分布。如本文中使用,直方圖是計算落入稱為頻率組的各種不相交種類中的觀察、樣本或發(fā)生(例如,梯度)的加權(quán)和的映射h,其中權(quán)數(shù)對應(yīng)于觀察的重要性(例如,梯度幅值等)。直方圖的圖表僅為表示直方圖的一種方式。可連接來自子塊的直方圖以獲得用于關(guān)鍵點的特征描述符向量。如果使用來自16個子塊的8頻率組直方圖中的梯度,那么可產(chǎn)生128維特征描述符向量??烧?guī)化描述符
以獲得對照明強(qiáng)度變化的不變性,即,針對16個加權(quán)直方圖
權(quán)利要求
1.一種用于產(chǎn)生特征描述符的方法,其包括 獲得一組預(yù)產(chǎn)生的稀疏投影向量; 獲得用于圖像的尺度空間,所述尺度空間具有多個尺度層級;以及基于所述稀疏投影向量與用于跨越所述多個尺度層級的多個像素的稀疏取樣像素信息的組合產(chǎn)生用于所述尺度空間中的關(guān)鍵點的描述符。
2.根據(jù)權(quán)利要求I所述的方法,其中獨(dú)立于所述圖像而產(chǎn)生所述稀疏投影向量。
3.根據(jù)權(quán)利要求I所述的方法,其中將每個稀疏投影向量約束于用于所述圖像的平滑核的尺度。
4.根據(jù)權(quán)利要求I所述的方法,其中所述稀疏投影向量中的每一者使目標(biāo)函數(shù)最大化或最小化。
5.根據(jù)權(quán)利要求4所述的方法,其中所述目標(biāo)函數(shù)是用于跨越一組訓(xùn)練圖像的多個尺度層級的像素信息的自相關(guān)矩陣的最大化。
6.根據(jù)權(quán)利要求I所述的方法,其中稀疏投影向量包含大部分零元素和多個非零元素。
7.根據(jù)權(quán)利要求6所述的方法,其中通過方差最大化程序獲得所述非零元素。
8.根據(jù)權(quán)利要求I所述的方法,其中所述像素信息包含用于與所述關(guān)鍵點相關(guān)聯(lián)的小塊內(nèi)的每個像素的梯度信息。
9.根據(jù)權(quán)利要求I所述的方法,其中所述多個像素與用于所述關(guān)鍵點的小塊相關(guān)聯(lián)。
10.根據(jù)權(quán)利要求I所述的方法,其中在對應(yīng)于用于所述稀疏投影向量的非零系數(shù)的預(yù)定位置處選擇所述多個像素。
11.根據(jù)權(quán)利要求I所述的方法,其進(jìn)一步包括 從用于所述圖像的所述尺度空間獲得關(guān)鍵點;以及 獲得用于所述關(guān)鍵點的小塊,其中所述小塊包含所述多個像素。
12.根據(jù)權(quán)利要求11所述的方法,其中所述多個稀疏投影向量定義一組非零縮放系數(shù),每個非零縮放系數(shù)與所述小塊內(nèi)的對應(yīng)像素位置相關(guān)聯(lián)。
13.根據(jù)權(quán)利要求12所述的方法,其中通過組合多個描述符分量而產(chǎn)生所述描述符,每個描述符分量通過以下步驟產(chǎn)生 基于用于第一稀疏投影向量的所述非零縮放系數(shù)位置來識別像素位置; 將來自所述小塊的所述像素位置的值與用于所述第一稀疏投影向量的所述對應(yīng)非零縮放系數(shù)相乘且將所述所得值加在一起以獲得第一描述符分量。
14.根據(jù)權(quán)利要求13所述的方法,其進(jìn)一步包括 獲得用于多個剩余稀疏投影向量的額外描述符分量以獲得額外描述符分量,其中所述第一描述符分量與額外描述符分量組合為用以獲得所述關(guān)鍵點描述符的向量。
15.根據(jù)權(quán)利要求9所述的方法,其中所述小塊具有m個像素乘η個像素的尺寸,且 所述關(guān)鍵點描述符相比于所述小塊的所述m*n尺寸以較少操作產(chǎn)生。
16.一種裝置,其包括 存儲裝置,其用于存儲一組預(yù)產(chǎn)生的稀疏投影向量;以及 處理電路,其耦合到所述存儲裝置,所述處理電路適合于 獲得用于圖像的尺度空間,所述尺度空間具有多個尺度層級;以及基于所述稀疏投影向量與用于跨越所述多個尺度層級的多個像素的稀疏取樣像素信息的組合來產(chǎn)生用于所述尺度空間中的關(guān)鍵點的描述符。
17.根據(jù)權(quán)利要求16所述的裝置,其中所述稀疏投影向量獨(dú)立于所述圖像而產(chǎn)生。
18.根據(jù)權(quán)利要求16所述的裝置,其中每個稀疏投影向量被約束于用于所述圖像的平滑核的尺度。
19.根據(jù)權(quán)利要求16所述的裝置,其中所述稀疏投影向量中的每一者使目標(biāo)函數(shù)最大化或最小化。
20.根據(jù)權(quán)利要求19所述的裝置,其中所述目標(biāo)函數(shù)是用于跨越一組訓(xùn)練圖像的多個尺度層級的像素信息的自相關(guān)矩陣的最大化。
21.根據(jù)權(quán)利要求16所述的裝置,其中稀疏投影向量包含大部分零元素和多個非零元 素。
22.根據(jù)權(quán)利要求21所述的裝置,其中所述非零元素通過方差最大化程序獲得。
23.根據(jù)權(quán)利要求16所述的裝置,其中所述像素信息包含用于與所述關(guān)鍵點相關(guān)聯(lián)的小塊內(nèi)的每個像素的梯度信息。
24.根據(jù)權(quán)利要求16所述的裝置,其中所述多個像素與用于所述關(guān)鍵點的小塊相關(guān)聯(lián)。
25.根據(jù)權(quán)利要求16所述的裝置,其中所述多個像素是在對應(yīng)于用于所述稀疏投影向量的非零系數(shù)的預(yù)定位置處選擇的。
26.根據(jù)權(quán)利要求16所述的裝置,其中所述處理電路進(jìn)一步適合于 從用于所述圖像的所述尺度空間獲得關(guān)鍵點;以及 獲得用于所述關(guān)鍵點的小塊,其中所述小塊包含所述多個像素。
27.根據(jù)權(quán)利要求26所述的裝置,其中所述多個稀疏投影向量定義一組非零縮放系數(shù),每個非零縮放系數(shù)與所述小塊內(nèi)的對應(yīng)像素位置相關(guān)聯(lián)。
28.根據(jù)權(quán)利要求27所述的裝置,其中所述描述符通過組合多個描述符分量而產(chǎn)生,每個描述符分量通過以下步驟產(chǎn)生 基于用于第一稀疏投影向量的所述非零縮放系數(shù)位置來識別像素位置; 將來自所述小塊的所述像素位置的值與用于所述第一稀疏投影向量的所述對應(yīng)非零縮放系數(shù)相乘且將所述所得值加在一起以獲得第一描述符分量。
29.根據(jù)權(quán)利要求28所述的裝置,其中所述處理電路進(jìn)一步適合于 獲得用于多個剩余稀疏投影向量的額外描述符分量以獲得額外描述符分量,其中所述第一描述符分量與額外描述符分量組合為用以獲得所述關(guān)鍵點描述符的向量。
30.根據(jù)權(quán)利要求24所述的裝置,其中所述小塊具有m個像素乘η個像素的尺寸,且 所述關(guān)鍵點描述符相比于所述小塊的所述m*n尺寸以較少操作產(chǎn)生。
31.一種裝置,其包括 用于獲得一組預(yù)產(chǎn)生的稀疏投影向量的裝置; 用于獲得用于圖像的尺度空間的裝置,所述尺度空間具有多個尺度層級;以及用于基于所述稀疏投影向量與用于跨越所述多個尺度層級的多個像素的稀疏取樣像素信息的組合產(chǎn)生用于所述尺度空間中的關(guān)鍵點的描述符的裝置。
32.根據(jù)權(quán)利要求31所述的裝置,其中所述稀疏投影向量獨(dú)立于所述圖像而產(chǎn)生。
33.根據(jù)權(quán)利要求31所述的裝置,其中每個稀疏投影向量被約束于用于所述圖像的平滑核的尺度。
34.根據(jù)權(quán)利要求31所述的裝置,其中所述稀疏投影向量中的每一者使目標(biāo)函數(shù)最大化或最小化。
35.根據(jù)權(quán)利要求34所述的裝置,其中所述目標(biāo)函數(shù)是用于跨越一組訓(xùn)練圖像的多個尺度層級的像素信息的自相關(guān)矩陣的最大化。
36.根據(jù)權(quán)利要求31所述的裝置,其中稀疏投影向量包含大部分零元素和多個非零元素。
37.根據(jù)權(quán)利要求36所述的裝置,其中所述非零元素通過方差最大化程序獲得。
38.根據(jù)權(quán)利要求31所述的裝置,其中所述像素信息包含用于與所述關(guān)鍵點相關(guān)聯(lián)的小塊內(nèi)的每個像素的梯度信息。
39.根據(jù)權(quán)利要求31所述的裝置,其中所述多個像素與用于所述關(guān)鍵點的小塊相關(guān)聯(lián)。
40.根據(jù)權(quán)利要求31所述的裝置,其中所述多個像素是在對應(yīng)于用于所述稀疏投影向量的非零系數(shù)的預(yù)定位置處選擇的。
41.根據(jù)權(quán)利要求31所述的裝置,其進(jìn)一步包括 用于從用于所述圖像的所述尺度空間獲得關(guān)鍵點的裝置;以及 用于獲得用于所述關(guān)鍵點的小塊的裝置,其中所述小塊包含所述多個像素。
42.根據(jù)權(quán)利要求41所述的裝置,其中所述多個稀疏投影向量定義一組非零縮放系數(shù),每個非零縮放系數(shù)與所述小塊內(nèi)的對應(yīng)像素位置相關(guān)聯(lián)。
43.根據(jù)權(quán)利要求42所述的裝置,其中所述描述符通過組合多個描述符分量而產(chǎn)生,每個描述符分量通過以下裝置產(chǎn)生 用于基于用于第一稀疏投影向量的所述非零縮放系數(shù)位置來識別像素位置的裝置;用于將來自所述小塊的所述像素位置的值與用于所述第一稀疏投影向量的所述對應(yīng)非零縮放系數(shù)相乘且將所述所得值加在一起以獲得第一描述符分量的裝置。
44.根據(jù)權(quán)利要求43所述的裝置,其進(jìn)一步包括 用于獲得用于多個剩余稀疏投影向量的額外描述符分量以獲得額外描述符分量的裝置,其中所述第一描述符分量與額外描述符分量組合為用以獲得所述關(guān)鍵點描述符的向量。
45.根據(jù)權(quán)利要求39所述的裝置,其中所述小塊具有m個像素乘η個像素的尺寸,且所述關(guān)鍵點描述符相比于所述小塊的所述m*n尺寸以較少操作產(chǎn)生。
46.一種包括在裝置上操作的一個或一個以上指令的處理器可讀媒體,所述指令在由處理電路執(zhí)行時使所述處理電路執(zhí)行以下操作 獲得一組預(yù)產(chǎn)生的稀疏投影向量; 獲得用于圖像的尺度空間,所述尺度空間具有多個尺度層級;以及基于所述稀疏投影向量與用于跨越所述多個尺度層級的多個像素的稀疏取樣像素信息的組合而產(chǎn)生用于所述尺度空間中的關(guān)鍵點的描述符。
47.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述稀疏投影向量獨(dú)立于所述圖像而產(chǎn)生。
48.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中每個稀疏投影向量被約束于用于所述圖像的平滑核的尺度。
49.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述稀疏投影向量中的每一者使目標(biāo)函數(shù)最大化或最小化。
50.根據(jù)權(quán)利要求49所述的處理器可讀媒體,其中所述目標(biāo)函數(shù)是用于跨越一組訓(xùn)練圖像的多個尺度層級的像素信息的自相關(guān)矩陣的最大化。
51.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中稀疏投影向量包含大部分零元素和多個非零元素。
52.根據(jù)權(quán)利要求51所述的處理器可讀媒體,其中所述非零元素通過方差最大化程序獲得。
53.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述像素信息包含用于與所述關(guān)鍵點相關(guān)聯(lián)的小塊內(nèi)的每個像素的梯度信息。
54.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述多個像素與用于所述關(guān)鍵點的小塊相關(guān)聯(lián)。
55.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述多個像素是在對應(yīng)于用于所述稀疏投影向量的非零系數(shù)的預(yù)定位置處選擇的。
56.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其進(jìn)一步包括一個或一個以上指令,所述指令在由所述處理電路執(zhí)行時使所述處理電路執(zhí)行以下操作 從用于所述圖像的所述尺度空間獲得關(guān)鍵點;以及 獲得用于所述關(guān)鍵點的小塊,其中所述小塊包含所述多個像素。
57.根據(jù)權(quán)利要求46所述的處理器可讀媒體,其中所述多個稀疏投影向量定義一組非零縮放系數(shù),每個非零縮放系數(shù)與所述小塊內(nèi)的對應(yīng)像素位置相關(guān)聯(lián)。
58.根據(jù)權(quán)利要求57所述的處理器可讀媒體,其中所述描述符通過組合多個描述符分量而產(chǎn)生,每個描述符分量通過以下步驟產(chǎn)生 基于用于第一稀疏投影向量的所述非零縮放系數(shù)位置來識別像素位置; 將來自所述小塊的所述像素位置的值與用于所述第一稀疏投影向量的所述對應(yīng)非零縮放系數(shù)相乘且將所述所得值加在一起以獲得第一描述符分量。
59.根據(jù)權(quán)利要求58所述的處理器可讀媒體,其進(jìn)一步包括一個或一個以上指令,所述指令在由所述處理電路執(zhí)行時使所述處理電路執(zhí)行以下操作 獲得用于所述多個剩余稀疏投影向量的額外描述符分量以獲得額外描述符分量,其中所述第一描述符分量與額外描述符分量組合為用以獲得所述關(guān)鍵點描述符的向量。
60.根據(jù)權(quán)利要求54所述的處理器可讀媒體,其中所述小塊具有m個像素乘η個像素的尺寸,且所述關(guān)鍵點描述符相比于所述小塊的所述m*n尺寸以較少操作產(chǎn)生。
全文摘要
本發(fā)明提供一種用于產(chǎn)生特征描述符的方法。獲得一組預(yù)產(chǎn)生的稀疏投影向量。還獲得用于圖像的尺度空間,其中尺度空間具有多個尺度層級。接著基于稀疏投影向量與用于跨越多個尺度層級的多個像素的稀疏取樣像素信息的組合而產(chǎn)生用于所述尺度空間中的關(guān)鍵點的描述符。
文檔編號G06K9/46GK102782708SQ201080054401
公開日2012年11月14日 申請日期2010年12月2日 優(yōu)先權(quán)日2009年12月2日
發(fā)明者奧努爾·C·哈姆西奇, 尤里婭·列茲尼克, 桑迪普·瓦達(dá)迪, 約翰·H·洪, 重·U·李 申請人:高通股份有限公司