一種基于多模態(tài)隱性耦合表達的跨媒體排序方法
【專利摘要】本發(fā)明公開了一種基于多模態(tài)隱性耦合表達的跨媒體排序方法。包括如下步驟:1)將文本檢索圖像的排序樣本或圖像檢索文本的排序樣本構(gòu)建為訓練樣本;2)對構(gòu)建得到的訓練樣本進行基于隱性耦合表達的跨媒體排序?qū)W習,得到跨媒體數(shù)據(jù)的隱性耦合表達挖掘模型以及跨媒體排序模型;3)構(gòu)建查詢文檔和候選文檔之間的隱性耦合表達;4)基于隱性耦合表達,使用學習得到的跨媒體排序模型進行跨媒體檢索。本發(fā)明在排序模型中引入了多模態(tài)數(shù)據(jù)的隱性耦合表達,相比一般的多模態(tài)數(shù)據(jù)隱性表達具有更強判別性。由于同時訓練了隱性表達挖掘模型和排序模型,它在圖像檢索文本或文本檢索圖像中所取得性能較傳統(tǒng)的跨媒體排序模型方法更好。
【專利說明】一種基于多模態(tài)隱性耦合表達的跨媒體排序方法
【技術(shù)領域】
[0001] 本發(fā)明涉及跨媒體檢索,尤其涉及一種基于隱性耦合表達的跨媒體排序方法。
【背景技術(shù)】
[0002] 跨媒體數(shù)據(jù)檢索是具有現(xiàn)實意義的重要【技術(shù)領域】,而依據(jù)跨媒體數(shù)據(jù)的關聯(lián)性對 其進行排序是這一領域中的一項重要技術(shù)。這項技術(shù)在檢索過程中,對候選的跨媒體數(shù)據(jù) 按照與用戶查詢的關聯(lián)性大小進行排序,并將排序結(jié)果展現(xiàn)給用戶,在跨媒體數(shù)據(jù)的搜索 應用中有巨大的價值。
[0003] 傳統(tǒng)的跨媒體排序方法,一般先為多模態(tài)數(shù)據(jù)學習一個共享空間,再將查詢文檔 和候選文檔分別映射為共享空間中的特征向量,最后使用一個人工指定的相似性度量函數(shù) 計算查詢和候選文檔間的關聯(lián)性,最后再依照關聯(lián)性對多模態(tài)數(shù)據(jù)進行排序。這種方法將 共享空間中的向量作為多模態(tài)數(shù)據(jù)的表示,難以挖掘這一共同表示內(nèi)部本應存在的復雜依 賴關系;同時,由于排序模型的人工指定的相似性度量函數(shù),所以無法通過學習的方法發(fā)現(xiàn) 多模態(tài)的共同表示的不同部分對數(shù)據(jù)關聯(lián)性的影響大小。
[0004] 基于隱性耦合表示的跨媒體排序方法能夠有效彌補上述傳統(tǒng)方法的不足。隱性耦 合表不為每一對查詢文檔和候選文檔學習一個基于主題的共有表不,而不是分別為查詢和 候選文檔學習表不,這種表不方法能夠有效建模共有表不內(nèi)部的復雜依賴關系;同時排序 函數(shù)通過學習得到,而不是事先制定的相似性度量,這樣就能夠發(fā)現(xiàn)隱性耦合表示中不同 部分對關聯(lián)性的影響大小。
【發(fā)明內(nèi)容】
[0005] 基于多模態(tài)隱性耦合表達的跨媒體排序方法包括如下步驟:
[0006] 1)構(gòu)建排序用的訓練樣本:在文本檢索圖像的訓練樣本中,將文本作為查詢文 檔,將圖像作為候選文檔;在圖像檢索文本的訓練樣本中,將圖像作為查詢文檔,將文本作 為候選文檔;
[0007] 2)對構(gòu)建得到的訓練樣本進行基于隱性耦合表達的跨媒體排序?qū)W習,得到隱性耦 合表達挖掘模型以及跨媒體排序模型;
[0008] 3)用戶提交查詢文檔后,對于每一個候選文檔,使用隱性耦合表達挖掘模型構(gòu)建 其和查詢文檔間的隱性耦合表達;
[0009]4)使用學習得到的跨媒體排序模型進行跨媒體檢索:基于隱性耦合表達,使用排 序模型對查詢文檔和候選文檔的關聯(lián)性進行評分,根據(jù)關聯(lián)性評分的高低對候選文檔進行 排序,最后輸出這一跨媒體排序結(jié)果。
[0010] 所述的步驟1)包括:
[0011] 1)對訓練樣本里的所有文本利用詞袋模型進行特征表達,文本最終被表示為 f,其中D1為文本特征空間的維數(shù);
[0012] 2)將訓練樣本里的所有圖像利用視覺詞袋模型進行特征表達,圖像最終被表達為 ,其中D2為圖像特征空間的維數(shù);
[0013] 3)對文本檢索圖像方向而言,對每一個文本,構(gòu)建一個候選圖像的排序列表,其中 列表中的圖像被標記為與該文本語義相關或者語義不相關,因此每個文本檢索圖像的訓練 樣本被表示為三元組(4,朽,e丨1,...,#!,其中N為訓練樣本個數(shù),tk為檢索文本,pk為 圖像集合,乂er是圖像集合上的排序,Y表示整個排序空間;
[0014] 4)對圖像檢索文本方向而言,對每一個圖像,構(gòu)建一個文本的排序列表,其中列表 中的文本被標記為與該圖像語義相關或者語義不相關,每個圖像檢索文本的訓練樣本被表 示為三元組j'e彳1,...,#!,N為訓練樣本個數(shù),pk為檢索圖像,tk是文本文檔集合, 父er是文本文檔集合上的排序。
[0015] 所述的步驟2)包括:
[0016] 1)給定N個訓練樣本組成訓練集= = 是一個查詢文檔,=冰.}^是包含P個候選文檔的集合,P為文檔個數(shù),y(k)是對應查詢 文檔的排序,如式(1)構(gòu)建損失函數(shù),隱性耦合表示挖掘模型和排序模型的參數(shù)需要同時 滿足這一損失函數(shù):
【權(quán)利要求】
1. 一種基于多模態(tài)隱性耦合表達的跨媒體排序方法,其特征在于包括如下步驟: 1) 構(gòu)建排序用的訓練樣本:在文本檢索圖像的訓練樣本中,將文本作為查詢文檔,將 圖像作為候選文檔;在圖像檢索文本的訓練樣本中,將圖像作為查詢文檔,將文本作為候選 文檔; 2) 對構(gòu)建得到的訓練樣本進行基于隱性耦合表達的跨媒體排序?qū)W習,得到隱性耦合表 達挖掘模型以及跨媒體排序模型; 3) 用戶提交查詢文檔后,對于每一個候選文檔,使用隱性耦合表達挖掘模型構(gòu)建其和 查詢文檔間的隱性耦合表達; 4) 使用學習得到的跨媒體排序模型進行跨媒體檢索:基于隱性耦合表達,使用排序模 型對查詢文檔和候選文檔的關聯(lián)性進行評分,根據(jù)關聯(lián)性評分的高低對候選文檔進行排 序,最后輸出這一跨媒體排序結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種基于多模態(tài)隱性耦合表達的跨媒體排序方法,其特征在 于,所述的步驟1)包括: 1) 對訓練樣本里的所有文本利用詞袋模型進行特征表達,文本最終被表示為? 其中Di為文本特征空間的維數(shù); 2) 將訓練樣本里的所有圖像利用視覺詞袋模型進行特征表達,圖像最終被表達為 p 其中D2為圖像特征空間的維數(shù); 3) 對文本檢索圖像方向而言,對每一個文本,構(gòu)建一個候選圖像的排序列表,其中列表 中的圖像被標記為與該文本語義相關或者語義不相關,因此每個文本檢索圖像的訓練樣本 被表示為三元組Oi,U,!Ue{l,…,iV},其中N為訓練樣本個數(shù),tk為檢索文本,pk為圖像 集合,乂 e 7是圖像集合上的排序,Y表示整個排序空間; 4) 對圖像檢索文本方向而言,對每一個圖像,構(gòu)建一個文本的排序列表,其中列表中 的文本被標記為與該圖像語義相關或者語義不相關,每個圖像檢索文本的訓練樣本被表示 為三元組(K_,{1,...,},N為訓練樣本個數(shù),pk為檢索圖像,tk是文本文檔集合, 爻e F是文本文檔集合上的排序。
3. 根據(jù)權(quán)利要求1所述的一種基于多模態(tài)隱性耦合表達的跨媒體排序方法,其特征在 于,所述的步驟2)包括: 1)給定N個訓練樣本組成訓練集S = {(X(i),y(i),Dw) e尤x y J = 1,...,#},其中x(k)是 一個查詢文檔,是包含P個候選文檔的集合,P為文檔個數(shù),y(k)是對應查詢文 檔的排序,如式(1)構(gòu)建損失函數(shù),隱性耦合表示挖掘模型和排序模型的參數(shù)需要同時滿 足這一損失函數(shù):
%^, SF(x{k)/k\,V{k)) = F(x{k\y{k),V{k])~F{x(k),y,V (k') 其中,w是排序模型的參數(shù),0是隱性耦合表示挖掘模型的參數(shù);F( ?)是一個人工指 定的判別函數(shù),用來評估模型預測的排序、查詢和候選文檔之間的適配度,對于任意查詢文 檔x,其候選文檔P和排序y,F(xiàn)(_)定義如下:
其中,R和A分別是候選文檔集中與查詢文檔相關和不相關的文檔的子集;屯,dj分 別為候選文檔集中的第i個和第j個文檔;I ? I標記了集合中元素的個數(shù);s( ?)是一個評 分函數(shù),用來衡量查詢文檔和一個候選文檔之間的關聯(lián)程度,基于隱性耦合表示對查詢文 檔x和候選文檔d間的關聯(lián)性進行評分,關聯(lián)評分函數(shù)定義如下: s (x, d) = wtH (x, d) (3) 其中H(x,d)標記了查詢文檔和候選文檔之間的隱性耦合表示; 將查詢文檔和候選文檔共享的主題記為h = OOm = 1,. . .,M},h的每一維匕表示了 兩個多模態(tài)文檔共享第m個主題的程度,M表示主題個數(shù),隱性耦合表示被定義為,給定一 對查詢x和候選文檔d時,共享主題在條件概率分布p (h | X,d)下的期望: H(x, d) = Ep(h|x;d) (h). (4) 2)使用隨機梯度下降算法求解式(1),得到隱性耦合表示挖掘模型和排序模型的參 數(shù),式(1)等價于如下無約束優(yōu)化問題:
其中,Ep ( ?)是期望Ep&kd) ( ?)的簡寫形式,使用變分推理得到;f是指示文檔和主題 之間兼容性的特征向量。
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)隱性耦合表達的跨媒體排序方法,其特征在 于,所述的步驟3)包括: 1)如式(4)所示,查詢文檔和候選文檔間的隱性耦合表示被定義為兩者在概率分布 p(h|x,d)上的共享主題的期望; 給定一對查詢文檔X和候選文檔d,兩者共享的主題的條件概率分布建模如下:
特征函數(shù)fi和f2是指示主題和文檔間兼容性的特征向量;f3是指示兩個主題間關聯(lián) 性的特征向量;f4是主題h的先驗;< 是概率模型的參數(shù),它表示參數(shù)和第1個特征函數(shù) 關聯(lián)并以第m個主題hm作為函數(shù)輸入;m,n分別對應第m和n個主題的下標。式(9)中的 特征函數(shù)具體定義為如下形式:
2)共享主題的期望使用變分推理方法近似計算,即使用獨立高斯分布q(h)近似計算 條件概率分布P (h | X,d),近似分布定義為多個高斯分布的乘積形式:
其中q(hm| ii m)是均值為ii m方差為1的高斯分布,通過最小化q(h)和p (h | X,d)間的 KL距離,得到如下不動點方程:
通過迭代計算式(12)來得到易證共享主題的期望可用來近似: ^p(hm\^A)K, =J;I | X, d) - flm (13)。
5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)隱性耦合表達的跨媒體排序方法,其特征在 于,所述的步驟4)包括: 1) 給定查詢文檔和候選文檔的隱性耦合表達,使用式(1)對每個候選文檔進行評分; 2) 對根據(jù)評分結(jié)構(gòu)對候選文檔進行排序,其結(jié)果即為跨媒體排序結(jié)果y。
【文檔編號】G06F17/30GK104346450SQ201410593006
【公開日】2015年2月11日 申請日期:2014年10月29日 優(yōu)先權(quán)日:2014年10月29日
【發(fā)明者】吳飛, 李璽, 蔣忻洋, 湯斯亮, 邵健, 莊越挺 申請人:浙江大學