用于視覺搜索的直方圖映射的基于上下文的編碼的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于對從圖像的一組關(guān)鍵點的坐標(biāo)中確定的位置信息的地圖進 行編碼的方法并且涉及用于對位置信息的此類地圖進行編碼的編碼器。
[0002] 本發(fā)明具體涉及計算機視覺和視覺搜索或增強現(xiàn)實的領(lǐng)域。在視覺搜索和增強現(xiàn) 實應(yīng)用中,提取自圖像或圖像序列的信息被發(fā)送到服務(wù)器,在服務(wù)器中將所述信息與提取 自表示將被識別對象的模型的參考圖像的數(shù)據(jù)庫的信息進行比較。在此上下文中,本發(fā)明 涉及提取自發(fā)送到服務(wù)器的圖像或圖像序列的信息的壓縮,具體而言是需要發(fā)信號通知提 取自所述圖像或所述圖像序列的關(guān)注點位置的信息的壓縮。
【背景技術(shù)】
[0003] 視覺搜索(VS)被稱作自動系統(tǒng)識別在圖像或圖像的序列中所描繪的對象的能 力,方法是僅分析所述圖像或所述的圖像序列的視覺方面,而無需采用任何外部數(shù)據(jù),例 如,文本描述、元數(shù)據(jù)等。增強現(xiàn)實(AR)可以被認(rèn)為是視覺搜索的高級應(yīng)用。在圖像或圖 像的序列中所描繪的對象已經(jīng)被識別之后,額外內(nèi)容(例如,合成對象)疊加到由圖像或圖 像序列表示的真實場景,因此"增強"真實內(nèi)容;額外內(nèi)容的位置與實際對象中的一者一致。
[0004] VS的優(yōu)勢方法依賴于確定所謂的本地特征,本地特征在文獻以及下文中被稱作描 述符。最著名的方法是如D.Lowe在"計算機視覺的國際期刊(Int.JournalofComputer Vision) 60 (2) (2004) 91-110.H,來自尺度不變關(guān)鍵點的獨特的圖像特征"中所描述的尺度 不變特征轉(zhuǎn)換(Scale-InvariantFeatureTransform,SIFT)以及如Bay、T.Tuytelaars、 L.V.Gool在2006年奧地利的格拉茲的計算機視覺的歐洲會議(EuropeanConference onComputerVision,ECCV)的會議記錄中的 "SURF:加速強健特征(SpeededUpRobust Features) "中所描述的加速強健特征(SURF),http://www.vision,ee.ethz.ch/ ~surf/。 在文獻中有可能找到那些技術(shù)的許多變體,所述變體可以被視作那兩個原始技術(shù)的改進。
[0005] 如從圖7中可以看出,本地特征是在圖像701中圍繞關(guān)鍵點705的補丁 703的緊 湊描述,例如,用于SIFT中的每個本地特征的128字節(jié)。圖7示出了本地特征的提?。▓D7 的上部部分)和表示(圖7的下部部分)的實例。在圖7的上部部分,其中計算出本地特 征的點的位置是通過表示圖像701中的點705的圓表示的,所述圓由表示定向補丁 703的 正方形所圍繞。在圖7的下部部分,補丁 703的網(wǎng)格709細(xì)分包含本地特征的直方圖組分 711。為了計算本地特征,點705的主要取向707是在點705周圍基于主要梯度組分計算的。 從此取向707開始,提取朝向主要取向707定向的補丁 703。這個補丁 703隨后被細(xì)分成矩 形或徑向網(wǎng)格709。對于網(wǎng)格709的每個元素而言,要計算本地梯度的直方圖711。計算用 于網(wǎng)格709元素的直方圖711表示本地特征的組分。包含如圖7的下部部分所說明的網(wǎng)格 709元素的直方圖711的此類描述符713的特征在旋轉(zhuǎn)、照射和透視變形時將不變。
[0006] 在圖像701中,在其上計算出本地特征713的點705識別場景的不同元素,例如轉(zhuǎn) 角、特定模式等。這些點一般稱為關(guān)鍵點705,也稱為關(guān)注點705。在圖7的上部部分中所 描繪的圓示出示例性的關(guān)鍵點705。關(guān)鍵點705的圖像中的x/y位置將在下文中被稱作本 地特征的位置信息。
[0007] MPEG是目前定義MPEG-7的新部分(ISO/IEC15938-多媒體內(nèi)容描述接口)(部 分13)的用于專用于視覺搜索的標(biāo)準(zhǔn)的發(fā)展的視覺搜索的緊湊描述符(CDVS)。所述標(biāo)準(zhǔn) 旨在定義規(guī)范性方式來壓縮實現(xiàn)視覺搜索的信息的量,以使網(wǎng)絡(luò)延遲和總體比特率減到最 少。具體而言,所標(biāo)準(zhǔn)化的技術(shù)涵蓋了對于與個體關(guān)鍵點705相關(guān)的兩種信息而言的壓縮 機制,所述的兩種信息在下文中稱為特征信息,一方面是內(nèi)容信息,即本地特征或提供圍繞 關(guān)鍵點705的補丁 703的緊湊描述符的描述符,而另一方面是位置信息,即關(guān)鍵點705的位 置。
[0008] 在CDVS標(biāo)準(zhǔn)化過程中,出于測試目的定義了六個操作點。下文稱為比特率的操作 點具有每一圖像的以下數(shù)目的字節(jié):512、1024、2048、4096、8192和16384。每個操作點指示 用于表示提取自圖像的全部本地特征和它們的位置信息的總比特率。根據(jù)比特率,這意味 著僅可以編碼有限數(shù)目的本地特征。這一數(shù)目自512字節(jié)的最低操作點處的114個本地特 征跨越至16384字節(jié)的最高操作點處的970個本地特征。
[0009] 標(biāo)準(zhǔn)化過程目前達(dá)到實現(xiàn)基于參考模型(RM)的參考實施方案的核心實驗階段。
[0010] 如Tsai等人在2009年在Mobimedia中的"用于移動圖像檢索的位置編碼 (LocationCodingforMobileImageRetrieval)" 中所描述的以及如通過在 2012 年 10 月的"用于視覺搜索的緊湊描述符的測試模型(TestModelofCompactDescriptorfor VisualSearch) (MPEG文件wl3145) "中的標(biāo)準(zhǔn)化所定義的RM位置信息壓縮方法如下文中 所描述的工作。在第一步驟中,初始以浮點值形式計算的關(guān)鍵點坐標(biāo)縮減為特定分辨率,例 如,標(biāo)準(zhǔn)中的VGA,并且在新分辨率中取整到整數(shù)值。在此步驟之后,位置信息可以表示為非 常稀疏的矩陣,如從圖8中可以看到。在第二步驟中,具有預(yù)定義的塊大小的空間網(wǎng)格疊加 到矩陣,并且如從圖8中可以看到計算到每個塊中的非零值的出現(xiàn)的直方圖。通過此表示, 編碼兩個不同種類的信息。第一者是表示關(guān)于在每個塊中存在或不存在的關(guān)鍵點的二進制 信息的直方圖映射。第二者是表示在每個非零塊中多個出現(xiàn)的直方圖計數(shù)。
[0011] 關(guān)鍵點坐標(biāo)在初始非縮放圖像分辨率中以浮點值表示。由于應(yīng)用于每個圖像的第 一操作縮減到VGA分辨率,所以關(guān)鍵點坐標(biāo)取整到VGA分辨率中的整數(shù)值。因此,可能發(fā)生 若干點取整到相同坐標(biāo)的情況。還有可能的是使兩個描述符恰好在相同關(guān)鍵點上以兩個不 同取向計算。此第一次取整對檢索性能的影響是可忽略的。
[0012] 圖8描述此類取整操作的實例,其中每個正方形塊803在全分辨率下對應(yīng)于一個 1x1像素單元??梢孕纬?00圖像,其中非零像素對應(yīng)于關(guān)鍵點位置,并且隨后分割成可以 由矩陣表示802表示的塊表示801。這些正方形塊803、805的值,例如,如圖8中所描繪的 對于第一正方形塊803的2和對于第二正方形塊805的1,以矩陣802的形式表示,其中非 零元素807、809表示關(guān)鍵點的位置,例如對應(yīng)于第一塊803的第一非零元素807和對應(yīng)于 第二塊信元805的第二非零元素809。因此,問題可以重新表示為需要壓縮640x480元素的 矩陣802,這種壓縮具有極其稀疏的特征,S卩,具有小于1000非零信元,甚至在最高操作點 處。為了壓縮此矩陣需要表示兩個不同種類的信息,它們是直方圖映射(此處還稱為位置 信息的映射),也就是空和非空的信元的二進制映射,以及直方圖計數(shù),也就是包含在每個 非零信元中的出現(xiàn)的數(shù)目的向量。直方圖映射是由圖8中所描繪的塊表示801的二進制格 式表示的,并且直方圖計數(shù)是由通過圖8中所描繪的矩陣表示802的非零元素形成的向量 表示的。為了提高壓縮效率,在文獻中這兩個元素總是分開編碼的。
[0013] 在所述RM中,直方圖計數(shù)是通過普通單模型算術(shù)編碼進行編碼的。直方圖映射采 用所謂的基于總和的算術(shù)編碼:每個元素通過基于上下文的算術(shù)編碼進行編碼,所述上下 文由在待編碼元素的空間接近性中出現(xiàn)的非零元素的數(shù)目給出。一般地,采用矩形區(qū)域來 計算上下文。這種方法旨在采用本地特征的趨勢以集中在某些區(qū)域中。上下文根據(jù)塊大小 而改變,這是因為這造成不同特征濃度,并且上下文亦根據(jù)比特率而改變,這是因為對于不 同比特率而言編碼的特征的數(shù)目不同。作為基于上下文的算術(shù)編碼,基于總和的上下文需 要在特定的訓(xùn)練數(shù)據(jù)集上訓(xùn)練。
[0014] 所述的現(xiàn)有技術(shù)有兩個問題,即存儲器分配和對訓(xùn)練的需求。
[0015] 就存儲器分配而言,⑶VS標(biāo)準(zhǔn)化解決特有的存儲器約束環(huán)境,S卩,應(yīng)該是使用小于 128KB的存儲器大小的存儲器表可實施的,以便改進例如在移動設(shè)備上的硬件實施方案。在 RM中,對于基于總和的上下文而言矩形的大小是55個元素,亦即5乘11。因此,由基于總 和算術(shù)編碼使用