專利名稱:基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法
技術(shù)領(lǐng)域:
本發(fā)明涉及面向多媒體信息檢索領(lǐng)域,特別涉及基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法。
背景技術(shù):
隨著網(wǎng)絡(luò)上圖像、視頻等資源的日益豐富,從海量數(shù)據(jù)中快速準(zhǔn)確地獲取用戶所需的信息已經(jīng)越來越重要?;趦?nèi)容的圖像或視頻檢索是指通過對圖像或視頻內(nèi)容進(jìn)行分析提取圖像或視頻的視覺特征,從特定數(shù)據(jù)庫或網(wǎng)絡(luò)中查找到具有指定特征或含有特定內(nèi)容的圖像或視頻。但由于基于內(nèi)容的圖像或視頻檢索方法存在著計算量大,計算復(fù)雜度高,占用更多的存儲空間等不足,因此很難在網(wǎng)絡(luò)檢索中獲得實(shí)質(zhì)應(yīng)用。圖像或視頻搜索排序技術(shù)是利用視覺信息改進(jìn)初始查詢結(jié)果的過程,可以很好的解決上述問題。圖像或視頻搜索排序應(yīng)用中存在著大量排序信息。排序信息包括數(shù)據(jù)的相關(guān)性等級信息、數(shù)據(jù)的優(yōu)先級關(guān)系信息以及建立其之上的關(guān)系對、關(guān)系序列等信息。利用標(biāo)注信息進(jìn)行圖像或視頻排序是目前主要的方法之一,標(biāo)注信息的獲取可以通過相關(guān)反饋、偽相關(guān)反饋和隱相關(guān)反饋等途徑。其中,相關(guān)性等級信息廣泛應(yīng)用于信息檢索中的模型訓(xùn)練中。在大多數(shù)情況下,根據(jù)與查詢的相關(guān)性的高低手動地或自動地對每個文檔進(jìn)行不同相關(guān)性等級的標(biāo)注,例如“非常相關(guān)”、“一般相關(guān)”和“不相關(guān)”等。樣本的相關(guān)性等級信息不同于傳統(tǒng)的類標(biāo)號信息,前者是在信息檢索中用來衡量文檔與查詢之間相關(guān)程度的度量,后者指的是機(jī)器學(xué)習(xí)與模式識別領(lǐng)域中一類事物所共同具有的屬性。例如在傳統(tǒng)的模式分類任務(wù)中,同一類的事物會具有共同的特征,不同類的事物具有不同的特征。然而,在排序應(yīng)用中,由于樣本按照與查詢相關(guān)的程度分為不同的相關(guān)性等級,這樣即使不同相關(guān)性等級的樣本之間,也可能由于與查詢相關(guān)而存在不同程度的相關(guān)性,此外具有相同的相關(guān)性等級樣本之間,由于相關(guān)性等級的不同也會具有不同程度的相關(guān)性或者不具有相關(guān)性。因此并不能直接將樣本的相關(guān)性等級信息作為樣本的類別標(biāo)號信息對樣本進(jìn)行處理。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有圖像/視頻的搜索排序技術(shù)中存在以下問題圖像或視頻搜索排序中需要對圖像或視頻提取視覺特征,視覺特征具有高維特性。樣本的類別標(biāo)號不等同于樣本的相關(guān)性等級信息,傳統(tǒng)的維數(shù)約簡算法往往是針對分類任務(wù)提出的,而分類任務(wù)與排序任務(wù)并不相同,因此直接應(yīng)用于圖像或視頻搜索排序中并不合理。圖像或視頻搜索排序中的樣本數(shù)據(jù)與查詢主題存在著不同程度的相關(guān)性,樣本數(shù)據(jù)之間也存在著不同程度的相關(guān)性,而數(shù)據(jù)之間的這種復(fù)雜關(guān)系用超球體分布的形式可以很好的描述。超球體內(nèi)是與查詢最相關(guān)的樣本,靠近球體的位置是與查詢一般相關(guān)的樣本,最外面則是與查詢不相關(guān)的樣本。一方面,目前并沒有能解決這種數(shù)據(jù)分布的維數(shù)約簡方法。另一方面,傳統(tǒng)的圖像或視頻的搜索排序方法設(shè)計中并沒有考慮到數(shù)據(jù)呈現(xiàn)超球形分布這一特點(diǎn)。不同于傳統(tǒng)的一分器SVDD(Support Vector Data Description), SVDD是利用核變換的思想將樣本映射到高維空間里,認(rèn)為其在未知的高維空間中目標(biāo)樣本是具有超球體分布。因?yàn)楹俗儞Q具有不可控性及未知性,在實(shí)際中很難操作。
發(fā)明內(nèi)容
本發(fā)明提供了基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,本發(fā)明減少了用戶標(biāo)注負(fù)擔(dān),提高了檢索性能,提升用戶的搜索體驗(yàn),詳見下文描述基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,所述方法包括以下步驟(1)通過人工標(biāo)注或自動標(biāo)注從樣本的特征向量集合中選擇若干個與查詢最相關(guān)的樣本及與查詢不相關(guān)的樣本,組成訓(xùn)練樣本集合;(2)利用所述訓(xùn)練樣本集合,作為基于超球體分布的維數(shù)約簡模塊的輸入,獲取維數(shù)約簡模型;(3)利用所述維數(shù)約簡模型對所有樣本及訓(xùn)練樣本集合進(jìn)行變換,得到維數(shù)約簡后的所有樣本新特征矩陣 及訓(xùn)練樣本新特征矩陣L(4)利用所述訓(xùn)練樣本新特征矩陣t中與查詢最相關(guān)的樣本作為基于一分類器的排序?qū)W習(xí)模型的輸入,訓(xùn)練得到排序模型f(t);(5)將所述所有樣本新特征矩陣f中的任意一個樣本ti作為所述排序模型f (t)的輸入,由大到小排列輸出所有樣本排序后的結(jié)果。在步驟(I)之前所述本方法還包括1)獲取圖像或視頻數(shù)據(jù);2)對所述基于文本的搜索結(jié)果提取視覺特征獲取所有樣本的特征向量集合。所述利用所述訓(xùn)練樣本集合,作為基于超球體分布的維數(shù)約簡模塊的輸入,獲取維數(shù)約簡模型具體包括1)假設(shè)存在變換向量w e R11,對訓(xùn)練樣本集合中任意一個樣本Xi,使得變換后的新樣本為 Yi=W1Xi (1≤i ≤r+h);2)計算與查詢最相關(guān)的所有新樣本的中心向量;
權(quán)利要求
1.基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,其特征在于,所述方法包括以下步驟(1)通過人工標(biāo)注或自動標(biāo)注從樣本的特征向量集合中選擇若干個與查詢最相關(guān)的樣本及與查詢不相關(guān)的樣本,組成訓(xùn)練樣本集合;(2)利用所述訓(xùn)練樣本集合,作為基于超球體分布的維數(shù)約簡模塊的輸入,獲取維數(shù)約簡模型;(3)利用所述維數(shù)約簡模型對所有樣本及訓(xùn)練樣本集合進(jìn)行變換,得到維數(shù)約簡后的所有樣本新特征矩陣f及訓(xùn)練樣本新特征矩陣L ;(4)利用所述訓(xùn)練樣本新特征矩陣t中與查詢最相關(guān)的樣本作為基于一分類器的排序?qū)W習(xí)模型的輸入,訓(xùn)練得到排序模型f(t);(5)將所述所有樣本新特征矩陣 中的任意一個樣本ti作為所述排序模型f(t)的輸入,由大到小排列輸出所有樣本排序后的結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,其特征在于,在步驟(1)之前所述本方法還包括1)獲取圖像或視頻數(shù)據(jù);2)對所述基于文本的搜索結(jié)果提取視覺特征獲取所有樣本的特征向量集合。
3.根據(jù)權(quán)利要求1所述的基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,其特征在于,所述利用所述訓(xùn)練樣本集合,作為基于超球體分布的維數(shù)約簡模塊的輸入,獲取維數(shù)約簡模型具體包括1)假設(shè)存在變換向量we RD,對訓(xùn)練樣本集合中任意一個樣本Xi,使得變換后的新樣本為
4.根據(jù)權(quán)利要求3所述的基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,其特征在于,所述約束條件具體為構(gòu)造最相關(guān)樣本與中心向量的距離度量Sk,所述距離度量Sk越小越好,Se定義如下
5.根據(jù)權(quán)利要求4所述的基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,其特征在于,所述利用所述訓(xùn)練樣本新特征矩陣£中與查詢最相關(guān)的樣本作為基于一分類器的排序?qū)W習(xí)模型的輸入,訓(xùn)練得到排序模型f(t)具體為1)通過所述訓(xùn)練樣本新特征矩陣£構(gòu)建目標(biāo)函數(shù)Re(W);2)通過拉格朗日求解所述目標(biāo)函數(shù)Re(w),得到排序模型f (t)。
全文摘要
本發(fā)明公開了基于相關(guān)保持映射和一分類器的圖像視頻搜索排序方法,通過人工標(biāo)注或自動標(biāo)注從樣本的特征向量集合中選擇若干個與查詢最相關(guān)的樣本及與查詢不相關(guān)的樣本,組成訓(xùn)練樣本集合;利用所述訓(xùn)練樣本集合,作為基于超球體分布的維數(shù)約簡模塊的輸入,獲取維數(shù)約簡模型;利用所述維數(shù)約簡模型對所有樣本及訓(xùn)練樣本集合進(jìn)行變換,得到維數(shù)約簡后的所有樣本新特征矩陣及訓(xùn)練樣本新特征矩陣?yán)盟鲇?xùn)練樣本新特征矩陣中與查詢最相關(guān)的樣本作為基于一分類器的排序?qū)W習(xí)模型的輸入,訓(xùn)練得到排序模型f(t);將所述所有樣本新特征矩陣中的任意一個樣本ti作為所述排序模型f(t)的輸入,由大到小排列輸出所有樣本排序后的結(jié)果。提高了檢索性能,減少了用戶標(biāo)注負(fù)擔(dān),提升了用戶搜索體驗(yàn)。
文檔編號G06F17/30GK103049570SQ20121059485
公開日2013年4月17日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者冀中, 蘇育挺, 井佩光 申請人:天津大學(xué)