本發(fā)明涉及視頻監(jiān)控領(lǐng)域,特別涉及視屏對象相似度比較和檢索。
背景技術(shù):
目前市面上與本發(fā)明相似的現(xiàn)有技術(shù)有很多,這些技術(shù)或多或少都提到了三維模型檢索、多特征融合等關(guān)鍵技術(shù)流程。
CN101281545A提出了一種基于多特征相關(guān)反饋的三維模型檢索方法,方法中提到了服務(wù)器端對三維模型數(shù)據(jù)庫中的每個三維模型進(jìn)行處理。
CN101593205A提出了一種基于視頻的三維模型檢索方法,方法中提到了對三維模型數(shù)據(jù)庫進(jìn)行預(yù)處理,生成二維輪廓數(shù)據(jù)庫。
CN103116904A提出了一種三維模型的二維特征提取系統(tǒng),系統(tǒng)包括對輸入的三維模型數(shù)據(jù)文件進(jìn)行三維模型的建模。
但多數(shù)現(xiàn)有技術(shù)具有如下的差異與缺點:
(1)現(xiàn)有技術(shù)需要顯式地對待檢索對象進(jìn)行三維建模,即需要數(shù)據(jù)庫存儲有大量的對象三維模型,這一方面大大增加了存儲量,另一方面又需要浪費(fèi)大量精力搜集感興趣對象的模型;
(2)現(xiàn)有技術(shù)多使用三維模型在二維平面上的投影輪廓或者梯度特征,這些人工設(shè)計的特征無法完全囊括當(dāng)前視角下物體表面的所有有用信息;
(3)現(xiàn)有技術(shù)在計算兩個對象之間的相似度時,僅計算兩個對象對應(yīng)視角間的度量,而沒有考慮到物體各個視角間的關(guān)聯(lián)性及重要性,檢索正確 率有待提升。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于視頻的對象相似度比較方法和檢索方法及其系統(tǒng),根據(jù)參考點的曲率改變率選取視角重疊程度低的圖像中的參考點作為典型參考點來計算兩個對象的相似度,提高了計算效率和計算結(jié)果的準(zhǔn)確性。
為解決上述技術(shù)問題,本發(fā)明的實施方式公開了一種基于視頻的對象相似度比較方法,包括以下步驟:
從包含第一對象的第一圖像組中獲取第一對象的典型參考點,從包含第二對象的第二圖像組中獲取第二對象的典型參考點,并根據(jù)第一和第二對象的典型參考點計算第一和第二對象的相似度;其中,通過以下方式從包括一個對象的一個圖像組中獲取該對象的典型參考點:
在包括一個對象的一個圖像組的每一幀圖像中提取該對象的特征,以作為該對象在一個視角的特征;
將每一個視角的特征作為多維空間中的一個參考點,根據(jù)參考點擬合出平滑的超曲線;
計算超曲線上每個參考點的曲率,從這些參考點中選取多個參考點作為典型參考點,其中相鄰的典型參考點之間的曲率改變率大于預(yù)定閾值。
本發(fā)明的實施方式還公開了一種基于視頻的對象檢索方法,包括以下步驟:
根據(jù)對象相似度比較的方法計算待檢索對象與數(shù)據(jù)庫中對象之間的相似度;
將相似度大于閾值的對象作為待檢索對象的檢索結(jié)果。
本發(fā)明的實施方式還公開了一種基于視頻的對象相似度比較系統(tǒng),包括以下模塊:
典型參考點獲取模塊,用于從包含第一對象的第一圖像組中獲取第一對象的典型參考點,從包含第二對象的第二圖像組中獲取第二對象的典型參考點;
相似度計算模塊,用于根據(jù)第一和第二對象的典型參考點計算第一和第二對象的相似度;其中,
典型參考點獲取模塊通過以下方式從包括一個對象的一個圖像組中獲取該對象的典型參考點:
對象特征提取模塊,用于在包括一個對象的一個圖像組的每一幀圖像中提取該對象的特征,以作為該對象在一個視角的特征;
曲線擬合模塊,用于將每一個視角的特征作為多維空間中的一個參考點,根據(jù)參考點擬合出平滑的超曲線;
參考點選取模塊,用于計算超曲線上每個參考點的曲率,從這些參考點中選取多個參考點作為典型參考點,其中相鄰的典型參考點之間的曲率改變率大于預(yù)定閾值。
本發(fā)明的實施方式還公開了一種基于視頻的對象檢索系統(tǒng),包括以下模塊:
相似度比較模塊,用于根據(jù)上文的對象相似度比較系統(tǒng),計算待檢索對象與數(shù)據(jù)庫中對象之間的相似度;
檢索結(jié)果選取模塊,用于將相似度大于閾值的對象作為待檢索對象的檢索結(jié)果。
本發(fā)明實施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
本發(fā)明在包括對象的圖像組中的每一幀圖像中提取對象的特征作為一個視角下的參考點,并根據(jù)參考點的曲率改變率選取視角重疊程度低的圖像中的參考點作為典型參考點來計算兩個對象的相似度,提高了計算效率和計算結(jié)果的準(zhǔn)確性。
根據(jù)前述對象相似度比較的方法計算兩個對象的相似度以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
進(jìn)一步地,將對象的稠密關(guān)鍵點特征進(jìn)行降維可減少計算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價值信息,用于后續(xù)比對。
進(jìn)一步地,通過初步定位和精細(xì)化定位,能夠精確確定對象位置。
進(jìn)一步地,可直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計算相似度,而不需要任何三維模型;且在計算兩個對象的相似度時,不僅關(guān)注匹配上的特征點即相同視角的特征,也考慮了未匹配上的特征點即不同視角的特征,綜合同一對象各個視角間的關(guān)聯(lián)性及重要性,有效提升相似度計算正確率。
附圖說明
圖1是本發(fā)明第一實施方式中一種基于視頻的對象相似度比較方法的流程示意圖;
圖2是本發(fā)明第二實施方式中一種基于視頻的對象相似度比較方法的流程示意圖;
圖3是本發(fā)明第三實施方式中一種基于視頻的對象特征提取算法流程示意圖;
圖4是本發(fā)明第五實施方式中一種基于視頻的對象相似度比較系統(tǒng)的結(jié) 構(gòu)示意圖。
具體實施方式
在以下的敘述中,為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是,本領(lǐng)域的普通技術(shù)人員可以理解,即使沒有這些技術(shù)細(xì)節(jié)和基于以下各實施方式的種種變化和修改,也可以實現(xiàn)本申請各權(quán)利要求所要求保護(hù)的技術(shù)方案。
術(shù)語解釋:
CNN—卷積神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的一種常見結(jié)構(gòu),由多層神經(jīng)元組成,每層神經(jīng)元之間通過各種方式(卷積、池化、全連接等等)進(jìn)行連接。
稠密關(guān)鍵點特征—在圖像上以逐個像素的方式進(jìn)行特征的提取,將每個像素對應(yīng)的特征級聯(lián)起來所形成的高維特征,其中的代表有CDVS、SIFT、SURF等。
超曲線—位于維數(shù)大于2維的空間中的曲線。
KDE—核密度估計(Kernel Density Estimation),一種用于平滑函數(shù)的技術(shù)。
FV—Fisher Vector算法。
Hashing—哈希技術(shù),一種將特征向量通過哈希函數(shù)映射為二進(jìn)制碼的技術(shù)。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的實施方式作進(jìn)一步地詳細(xì)描述。
本發(fā)明第一實施方式涉及一種基于視頻的對象相似度比較方法。圖1是該基于視頻的對象相似度比較方法的流程示意圖。該基于視頻的對象相似度 比較方法包括以下步驟:
步驟101,從包含第一對象的第一圖像組中獲取第一對象的典型參考點,從包含第二對象的第二圖像組中獲取第二對象的典型參考點;
步驟102,根據(jù)第一和第二對象的典型參考點計算第一和第二對象的相似度。
待比較相似度的第一對象和第二對象是輸入的視頻序列或圖像集合中所包含的對象,既可以是數(shù)據(jù)庫中的也可以是新輸入的。
其中,如圖所示,在步驟101中,通過以下方式從包括一個對象的一個圖像組中獲取該對象的典型參考點:
步驟111,在包括一個對象的一個圖像組的每一幀圖像中提取該對象的特征,以作為該對象在一個視角的特征。
可以理解,包含對象的每一幀圖像對應(yīng)于對象的一個視角,因此在該幀圖像中提取的特征可作為對象在對應(yīng)視角下的特征。
步驟112,將每一個視角的特征作為多維空間中的一個參考點,根據(jù)參考點擬合出平滑的超曲線。
在該步驟中,根據(jù)參考點擬合出平滑的超曲線可以使用核密度估計方法進(jìn)行擬合,可可以根據(jù)插值法、最小二乘法等其它方法進(jìn)行擬合)。
步驟113,計算超曲線上每個參考點的曲率,從這些參考點中選取多個參考點作為典型參考點,其中相鄰的典型參考點之間的曲率改變率大于預(yù)定閾值。
參考點的曲率改變率反映了視角變化程度,相鄰的典型參考點之間的曲率改變率大于預(yù)定閾值則表示相鄰的典型參考點所對應(yīng)的圖像之間的視角變化程度較大。因此,選取曲率改變率大于預(yù)定閾值的參考點作為典型參考點,舍棄其余曲率改變率較小的參考點,最后選取的圖像視角重疊程度較低,一 方面減少了圖像冗余提高了計算效果,另一方面,對重疊視角的圖像不進(jìn)行重復(fù)計算,提高了計算的準(zhǔn)確性。
舉例來說,對象為人物,假設(shè)包含第一人物和第二人物的兩個圖像組中分別有三幀圖像是背面視角,只有一幀圖像是正面視角,且三個背面視角下的圖像非常相似,而正面視角下的圖像完全不同(第一人物和第二人物不是同一個人,而背影非常相似),如果不對重疊視角的圖像進(jìn)行篩選和刪除,則在計算第一人物和第二人物的相似度時,三個背面視角所占的權(quán)重肯定大于一個正面視角的權(quán)重,計算結(jié)果有可能是相似度較高,而第一人物和第二人物根本就不是同一個人,因此計算結(jié)果不準(zhǔn)確。所以,如上先從參考點中選取曲率改變率大于預(yù)定閾值的作為典型參考點,以使圖像視角重疊程度較低,有利于提高計算準(zhǔn)確度。
選取典型參考點可以有多種方法,在一個優(yōu)選例中,可以將參考點按照曲率改變率進(jìn)行分組,選取每組參考點中的第一個作為典型參考點,在另一優(yōu)選例中,也可以在每組參考點中隨機(jī)選取一個作為典型參考點。在本發(fā)明的其它實施方式中,也可以不對參考點進(jìn)行分組,而直接根據(jù)曲率改變率選取典型參考點。
本實施方式在包括對象的圖像組中的每一幀圖像中提取對象的特征作為一個視角下的參考點,并根據(jù)參考點的曲率改變率選取視角重疊程度低的圖像中的參考點作為典型參考點來計算兩個對象的相似度,提高了計算效率和計算結(jié)果的準(zhǔn)確性。
第二實施方式在第一實施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于如何提取對象的特征:將對象的稠密關(guān)鍵點特征進(jìn)行降維可減少計算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價值信息,用于后續(xù)比對;通過初步定位和精細(xì)化定位,能夠精確確定對象位置。具體地說:
步驟111包括以下子步驟:
對于每一幀圖像,確定在該幀圖像中對象的位置;
根據(jù)對象的位置對每一幀圖像進(jìn)行采樣;
根據(jù)采樣結(jié)果提取特征作為該對象在一個視角的特征。
此外,可以理解,在另一優(yōu)選例中,通過對對象位置加入一個隨機(jī)擾動值的方式進(jìn)行采樣,使得對象位置具有一定的偏移量,增加了樣本分布。
優(yōu)選地,上述根據(jù)采樣結(jié)果提取特征作為該對象在一個視角的特征的子步驟進(jìn)一步包括以下子步驟:
提取屬于該對象的稠密關(guān)鍵點特征,對稠密關(guān)鍵點特征進(jìn)行降維并映射為低維子空間特征;
提取屬于該對象的基于卷積神經(jīng)網(wǎng)絡(luò)的特征;
將降維后的稠密關(guān)鍵點特征與基于卷積神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行級聯(lián),形成對象在一個視角的特征。
上述稠密關(guān)鍵點特征可以為角點的對比度和梯度,包括但不限于DDVS,SIFT等。
優(yōu)選地,上述確定在該幀圖像中對象的位置的步驟,包括以下子步驟:
提取出對象的候選框,對于每個候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測方法對感興趣對象進(jìn)行初步定位;
使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化定位對象位置。
可以理解,提取對象的候選框時可使用圖像處理方法進(jìn)行自動提取。
在本發(fā)明的其它實施方式中,除了基于卷積神經(jīng)網(wǎng)絡(luò)的檢測方法,也可以使用其它方法對對象進(jìn)行初步定位,包括可變形部件模型DPM、AdaBoost等。
另外,在本發(fā)明的其它實施方式中,除了邊界框回歸技術(shù),也可以使用其它方法進(jìn)一步精細(xì)化對象位置,例如非極大值抑制等。
本發(fā)明第三實施方式涉及一種基于視頻的對象相似度比較方法,第三實施方式在第一實施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于:
直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計算相似度,而不需要任何三維模型;且在計算兩個對象的相似度時,不僅關(guān)注匹配上的特征點即相同視角的特征,也考慮了未匹配上的特征點即不同視角的特征,綜合同一對象各個視角間的關(guān)聯(lián)性及重要性,有效提升相似度計算正確率。具體地說:
步驟102包括以下子步驟:
將第一和第二對象每個典型參考點映射為二進(jìn)制串,作為第一和第二對象的特征碼;
將第一和第二對象的典型參考點對應(yīng)的特征碼看作二分圖中的兩組特征點集合,將兩組特征點集合進(jìn)行匹配得到每個特征點的最佳匹配特征點;
使用如下公式計算相似度:
其中,表示所有匹配上的特征點的集合,表示待檢索對象中沒有匹配上的特征點的集合,表示數(shù)據(jù)庫對象中沒有匹配上的特征點的集合;pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個特征碼的長度,|pv|表示集合中每個特征碼的長度,α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
可以理解,在將兩個對象不同視角的特征點進(jìn)行匹配后計算相似度,而不需要顯示地對對象進(jìn)行三維建模,不需要在數(shù)據(jù)庫中存儲大量的對象三維模型。
將每個典型參考點對應(yīng)的高維矢量映射為二進(jìn)制串,大大降低了計算高維空間點之間距離時的復(fù)雜度。映射為二進(jìn)制串時,可通過哈希技術(shù)進(jìn)行映 射(將任意數(shù)值映射為二進(jìn)制表示的方式稱為統(tǒng)稱為哈希技術(shù))。
此外,在本發(fā)明的其它實施方式中,將每個典型參考點映射為二進(jìn)制串作為當(dāng)前對象在當(dāng)前視角的特征碼的步驟并不是必須的,也可以直接使用高維矢量的典型參考點進(jìn)行計算。
在另一優(yōu)選例中,將兩組特征點集合進(jìn)行匹配時,可以應(yīng)用匈牙利算法求解得到最佳匹配。在本發(fā)明的其它實施方式中,也可以采用其它算法對兩組特征點集合進(jìn)行匹配。
作為第二實施方式和第三實施方式的優(yōu)選例,整個算法的流程圖如圖2和圖3所示,如圖2所示為基于視頻的對象相似度比較方法的流程示意圖,如圖3所示為基于視頻的對象特征提取算法流程示意圖。
圖2中,“輸入對象視頻序列或圖像集合(待檢索)”與“輸入對象視頻序列或圖像集合(數(shù)據(jù)庫)”分時輸入,生成各自的二元特征碼集合。
其中圖2特征提取部分的操作,針對每張圖片分別進(jìn)行,如圖3所示。
該優(yōu)選例具體步驟如下:
1.對于輸入的每一幀圖像,我們首先提取出候選框。對于每一個候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測方法確定感興趣對象的大致位置,然后使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化對象位置。
2.在確定每一幀的對象位置后,我們通過對對象位置加入一個隨機(jī)擾動值的方式來進(jìn)行采樣。經(jīng)采樣后在所有樣本的區(qū)域中提取屬于該對象當(dāng)前視角的稠密關(guān)鍵點特征(包括但不限于CDVS、SIFT等)以及CNN特征。對于關(guān)鍵點特征,我們使用Fisher Vector算法將其映射為64維的低維子空間特征。最后將關(guān)鍵點特征與CNN特征級聯(lián)起來形成該對象當(dāng)前視角的特征。
3.每一幀都進(jìn)行第2步操作。將每一幀中對象對應(yīng)視角的特征看作多維空間中的一個參考點,使用核密度估計(kernel density estimation)方法擬合出平滑的超曲線。
4.計算超曲線上每個參考點的曲率,通過設(shè)定閾值,來選取曲率改變率較大的參考點(以及第一個參考點)作為典型參考點,用來表示同一對象在不同視角下的特征。丟棄其余曲率改變率較小的參考點。
曲率改變率,是指當(dāng)前參考點曲率與相鄰參考點曲率的差的絕對值。相鄰參考點曲率,可以是當(dāng)前參考點的前一個參考點的曲率,也可以是當(dāng)前參考點的前后兩個參考點的曲率的平均值。
5.對于每個參考點,可以通過哈希技術(shù),將其映射為一個二進(jìn)制串,作為當(dāng)前對象在當(dāng)前視角的特征碼。在計算兩個不同對象之間的相似度時,我們使用了二分圖匹配算法。將欲計算相似度的兩個對象的每個參考點對應(yīng)的特征碼看成二分圖(bipartite graph)中的兩組節(jié)點集合,兩兩節(jié)點之間的權(quán)值為相應(yīng)特征碼的Hamming距。然后應(yīng)用經(jīng)典的匈牙利算法來求解,得到最佳匹配。最后相似度得分計算如下:
其中表示所有匹配上的特征點的集合,表示待檢索對象中沒有匹配上的特征點的集合,表示數(shù)據(jù)庫對象中沒有匹配上的特征點的集合。pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個特征碼的長度,|pv|表示集合中每個特征碼的長度。α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
本發(fā)明第四實施方式涉及一種基于視頻的對象檢索方法。該基于視頻的對象檢索方法包括以下步驟:
根據(jù)第一至第三實施方式中的對象相似度比較的方法計算待檢索對象與數(shù)據(jù)庫中對象之間的相似度;
將相似度大于閾值的對象作為待檢索對象的檢索結(jié)果。
根據(jù)前述實施方式中的對象相似度比較的方法計算兩個對象的相似度 以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
本發(fā)明的各方法實施方式均可以以軟件、硬件、固件等方式實現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實現(xiàn),指令代碼都可以存儲在任何類型的計算機(jī)可訪問的存儲器中(例如永久的或者可修改的,易失性的或者非易失性的,固態(tài)的或者非固態(tài)的,固定的或者可更換的介質(zhì)等等)。同樣,存儲器可以例如是可編程陣列邏輯(Programmable Array Logic,簡稱“PAL”)、隨機(jī)存取存儲器(Random Access Memory,簡稱“RAM”)、可編程只讀存儲器(Programmable Read Only Memory,簡稱“PROM”)、只讀存儲器(Read-Only Memory,簡稱“ROM”)、電可擦除可編程只讀存儲器(Electrically Erasable Programmable ROM,簡稱“EEPROM”)、磁盤、光盤、數(shù)字通用光盤(Digital Versatile Disc,簡稱“DVD”)等等。
本發(fā)明第五實施方式涉及一種基于視頻的對象相似度比較系統(tǒng),圖4是該基于視頻的對象相似度比較系統(tǒng)的結(jié)構(gòu)示意圖。該基于視頻的對象相似度比較系統(tǒng)包括以下模塊:
典型參考點獲取模塊,用于從包含第一對象的第一圖像組中獲取第一對象的典型參考點,從包含第二對象的第二圖像組中獲取第二對象的典型參考點。
相似度計算模塊,用于根據(jù)第一和第二對象的典型參考點計算第一和第二對象的相似度。其中,
典型參考點獲取模塊通過以下方式從包括一個對象的一個圖像組中獲取該對象的典型參考點:
對象特征提取模塊,用于在包括一個對象的一個圖像組的每一幀圖像中提取該對象的特征,以作為該對象在一個視角的特征。
曲線擬合模塊,用于將每一個視角的特征作為多維空間中的一個參考點,根據(jù)參考點擬合出平滑的超曲線。
參考點選取模塊,用于計算超曲線上每個參考點的曲率,從這些參考點中選取多個參考點作為典型參考點,其中相鄰的典型參考點之間的曲率改變率大于預(yù)定閾值。
本實施方式在包括對象的圖像組中的每一幀圖像中提取對象的特征作為一個視角下的參考點,并根據(jù)參考點的曲率改變率選取視角重疊程度低的圖像中的參考點作為典型參考點來計算兩個對象的相似度,提高了計算效率和計算結(jié)果的準(zhǔn)確性。
第一實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第一實施方式互相配合實施。第一實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第一實施方式中。
本發(fā)明第六實施方式涉及一種基于視頻的對象相似度比較系統(tǒng),第六實施方式在第五實施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于如何提取對象特征:
將對象的稠密關(guān)鍵點特征進(jìn)行降維可減少計算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價值信息,用于后續(xù)比對;通過初步定位和精細(xì)化定位,能夠精確確定對象位置。具體地說:
對象特征提取模塊包括以下子模塊:
對象位置確定子模塊,用于對每一幀圖像確定在該幀圖像中對象的位置;
采樣子模塊,用于根據(jù)對象的位置對每一幀圖像進(jìn)行采樣;
提取特征子模塊,用于根據(jù)采樣結(jié)果提取特征作為該對象在一個視角的特征。
優(yōu)選地,提取特征子模塊進(jìn)一步包括以下子模塊:
第一特征提取子模塊,用于提取屬于該對象的稠密關(guān)鍵點特征,對稠密關(guān)鍵點特征進(jìn)行降維并映射為低維子空間特征;
第二特征提取子模塊,用于提取屬于該對象的基于卷積神經(jīng)網(wǎng)絡(luò)的特征;
特征級聯(lián)子模塊,用于將降維后的稠密關(guān)鍵點特征與基于卷積神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行級聯(lián),形成對象在一個視角的特征。
優(yōu)選地,對象位置確定子模塊進(jìn)一步包括以下子模塊:
初步定位子模塊,用于提取出對象的候選框,對于每個候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測方法對感興趣對象進(jìn)行初步定位;
精細(xì)定位子模塊,用于使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化定位對象位置。
第二實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第二實施方式互相配合實施。第二實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第二實施方式中。
本發(fā)明第七實施方式涉及一種基于視頻的對象相似度比較系統(tǒng),第七實施方式在第五實施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于:
直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計算相似度,而不需要任何三維模型;且在計算兩個對象的相似度時,不僅關(guān)注匹配上的特征點即相同視角的特征,也考慮了未匹配上的特征點即不同視角的特征,綜合同一對象各個視角間的關(guān)聯(lián)性及重要性,有效提升相似度計算正確率。具體地說:
相似度計算模塊包括以下子模塊:
映射子模塊,用于將第一和第二對象每個典型參考點映射為二進(jìn)制串, 作為第一和第二對象的特征碼;
匹配子模塊,用于將第一和第二對象的典型參考點對應(yīng)的特征碼看作二分圖中的兩組特征點集合,將兩組特征點集合進(jìn)行匹配得到每個特征點的最佳匹配特征點;
計算子模塊,用于使用如下公式計算相似度:
其中,表示所有匹配上的特征點的集合,表示待檢索對象中沒有匹配上的特征點的集合,表示數(shù)據(jù)庫對象中沒有匹配上的特征點的集合;pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個特征碼的長度,|pv|表示集合中每個特征碼的長度,α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
第三實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第三實施方式互相配合實施。第三實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第三實施方式中。
本發(fā)明第八實施方式涉及一種基于視頻的對象檢索系統(tǒng),包括以下模塊:
相似度比較模塊,用于根據(jù)第五至第七實施方式中任一項的對象相似度比較系統(tǒng),計算待檢索對象與數(shù)據(jù)庫中對象之間的相似度。
檢索結(jié)果選取模塊,用于將相似度大于閾值的對象作為待檢索對象的檢索結(jié)果。
根據(jù)前述實施方式中的對象相似度比較的方法計算兩個對象的相似度以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
第四實施方式是與本實施方式相對應(yīng)的方法實施方式,本實施方式可與第四實施方式互相配合實施。第四實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實施 方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第四實施方式中。
本發(fā)明提出了一種基于視頻的對象特征多視角融合及檢索技術(shù)。
特征融合步驟:本發(fā)明以同一對象的連續(xù)時間幀或者多張多角度抓拍圖像做為輸入,輸出對于此對象的三維特征描述的方法。對于包含該對象的每一幀圖像,提取屬于該對象的關(guān)鍵點特征(包括但不限于CDVS、SIFT等);同時使用多視角回歸算法解析出每一幀所對應(yīng)的視角;接著盡可能地選擇視角重疊程度較低的圖像,將其中每一幀圖像上提取的關(guān)鍵點特征融合(包括但不限于CDVS、SIFT等)。
檢索步驟:根據(jù)待檢索對象的角度,選擇對應(yīng)的特征與數(shù)據(jù)庫中的對象進(jìn)行比較,計算相似度。
與本發(fā)明與相似的方案差異點:
CN101281545A提出了一種基于多特征相關(guān)反饋的三維模型檢索方法,方法中提到了服務(wù)器端對三維模型數(shù)據(jù)庫中的每個三維模型進(jìn)行處理。本發(fā)明不涉及任何對象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
CN101593205A提出了一種基于視頻的三維模型檢索方法,方法中提到了對三維模型數(shù)據(jù)庫進(jìn)行預(yù)處理,生成二維輪廓數(shù)據(jù)庫。本發(fā)明不涉及任何對象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
CN103116904A提出了一種三維模型的二維特征提取系統(tǒng),系統(tǒng)包括對輸入的三維模型數(shù)據(jù)文件進(jìn)行三維模型的建模。本發(fā)明不涉及任何對象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
本申請帶來的有益效果:
(1)現(xiàn)有技術(shù)需要顯示地對檢索對象進(jìn)行三維建模,即需要數(shù)據(jù)庫存儲有大量的對象三維模型,這一方面大大增加了存儲量,另一方面又需要浪 費(fèi)大量精力搜集感興趣對象的模型;而本發(fā)明無需任何三維模型,即可對不同視角的特征進(jìn)行融合;
(2)現(xiàn)有技術(shù)多使用三維模型在二維平面上的投影輪廓或者梯度特征,這些人工設(shè)計的特征無法完全囊括當(dāng)前視角下物體表面的所有有用信息;而基于卷積神經(jīng)網(wǎng)絡(luò)的方法可以最大限度地提取有價值特征用于后續(xù)比對;
(3)現(xiàn)有技術(shù)在計算兩個對象之間的相似度時,僅計算兩個對象對應(yīng)視角間的度量,而沒有考慮到同一物體各個視角間的關(guān)聯(lián)性及重要性,檢索正確率有待提升。本發(fā)明通盤考慮了物體所有視角之間的關(guān)聯(lián)性,大大提升了多視角對象檢索的正確率。
需要說明的是,本發(fā)明各設(shè)備實施方式中提到的各模塊都是邏輯模塊,在物理上,一個邏輯模塊可以是一個物理模塊,也可以是一個物理模塊的一部分,還可以以多個物理模塊的組合實現(xiàn),這些邏輯模塊本身的物理實現(xiàn)方式并不是最重要的,這些邏輯模塊所實現(xiàn)的功能的組合才是解決本發(fā)明所提出的技術(shù)問題的關(guān)鍵。此外,為了突出本發(fā)明的創(chuàng)新部分,本發(fā)明上述各設(shè)備實施方式并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的模塊引入,這并不表明上述設(shè)備實施方式并不存在其它的模塊。
需要說明的是,在本專利的權(quán)利要求和說明書中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
雖然通過參照本發(fā)明的某些優(yōu)選實施方式,已經(jīng)對本發(fā)明進(jìn)行了圖示和描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,可以在形式上和細(xì)節(jié)上對其作各種改變,而不偏離本發(fā)明的精神和范圍。