一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢索方法
【專(zhuān)利摘要】本發(fā)明提出了一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢索方法,該方法包括:利用特征提取方法分別獲得檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量;檢索目標(biāo)的初級(jí)向量分別與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量,通過(guò)對(duì)應(yīng)的深層信念網(wǎng)絡(luò)獲得檢索目標(biāo)的高級(jí)向量和檢索庫(kù)中每一個(gè)檢索成員的高級(jí)向量;利用檢索目標(biāo)的高級(jí)向量和檢索庫(kù)中每一個(gè)檢索成員的高級(jí)向量計(jì)算檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的距離;將檢索庫(kù)中與檢索目標(biāo)距離最近的至少一個(gè)檢索成員確定為與檢索目標(biāo)匹配的對(duì)象。
【專(zhuān)利說(shuō)明】一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體檢索技術(shù),特別是一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢 索方法。
【背景技術(shù)】
[0002] 近些年互聯(lián)網(wǎng)的發(fā)展使得多模態(tài)的數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。例如,電子商務(wù)網(wǎng)站上 的產(chǎn)品通常包含主干文字、簡(jiǎn)短的文本描述、以及相關(guān)的圖片;社交網(wǎng)站上分享的圖片通常 伴有標(biāo)記的描述詞;一些在線(xiàn)新聞上包含的圖片和視頻信息比單純的文字報(bào)道更具有吸引 力,多模態(tài)數(shù)據(jù)的快速增長(zhǎng)帶來(lái)了巨大的跨模態(tài)檢索需求。
[0003] 與傳統(tǒng)的單模態(tài)檢索不同,跨模態(tài)檢索更多關(guān)注不同模態(tài)間的關(guān)系。因此,跨模態(tài) 檢索問(wèn)題包含兩個(gè)挑戰(zhàn)問(wèn)題:一是來(lái)自不同模態(tài)的數(shù)據(jù)具有完全不同的統(tǒng)計(jì)特性,這使得 很難直接獲得不同模態(tài)數(shù)據(jù)的關(guān)聯(lián)關(guān)系;二是從不同模態(tài)數(shù)據(jù)中抽取的特征通常具有高維 的特性并且數(shù)據(jù)集的規(guī)模非常大,這使得高效的檢索不容易實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供了一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)(Correspondence Deep Belief Network, Corr-DBN)的跨模態(tài)檢索方法,應(yīng)用Corr-DBN解決跨模態(tài)數(shù)據(jù)的處理問(wèn) 題,使得經(jīng)Corr-DBN處理后的跨模態(tài)數(shù)據(jù)能夠高效的進(jìn)行距離計(jì)算,從而得到較優(yōu)的檢索 結(jié)果。本發(fā)明提出的技術(shù)方案是:
[0005] -種基于Corr-DBN的跨模態(tài)檢索方法,該方法包括:
[0006] 利用特征提取方法分別獲得檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量;
[0007] 所述檢索目標(biāo)的初級(jí)向量分別與所述檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量,通過(guò) 對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN獲得所述檢索目標(biāo)的高級(jí)表達(dá)向量和所述檢索庫(kù)中每一個(gè) 檢索成員的高級(jí)表達(dá)向量;
[0008] 利用所述檢索目標(biāo)的1?級(jí)表達(dá)向量和所述檢索庫(kù)中每一個(gè)檢索成員的1?級(jí)表達(dá) 向量計(jì)算所述檢索目標(biāo)與所述檢索庫(kù)中每一個(gè)檢索成員的距離;
[0009] 將所述檢索庫(kù)中與所述檢索目標(biāo)距離最近的至少一個(gè)檢索成員確定為與所述檢 索目標(biāo)匹配的對(duì)象。
[0010] 綜上所述,本發(fā)明技術(shù)方案提出了一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢 索方法,對(duì)于跨模態(tài)原始數(shù)據(jù)進(jìn)行特征提取獲得的初級(jí)向量,通過(guò)對(duì)應(yīng)的深層信念網(wǎng)絡(luò) Corr-DBN的處理,得到跨模態(tài)數(shù)據(jù)在相同表示空間中的低維高級(jí)表達(dá),進(jìn)而對(duì)跨模態(tài)數(shù)據(jù) 的低維高級(jí)表達(dá)進(jìn)行距離計(jì)算,根據(jù)距離確定檢索結(jié)果。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0011] 圖1為本發(fā)明技術(shù)方案的流程圖;
[0012] 圖2為本發(fā)明Corr-DBN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0013] 圖3為本發(fā)明雙受限波爾茲曼機(jī)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0014] 圖4為受限波爾茲曼機(jī)模型的結(jié)構(gòu)圖;
[0015] 圖5為對(duì)應(yīng)的受限波爾茲曼機(jī)模型的結(jié)構(gòu)圖;
[0016] 圖6為根據(jù)目標(biāo)函數(shù)Q確定O的方法流程圖;
[0017] 圖7為本發(fā)明實(shí)施例的流程圖。
【具體實(shí)施方式】
[0018] 為解決跨模態(tài)間的檢索問(wèn)題,本發(fā)明提出一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN 的跨模態(tài)檢索方法,本發(fā)明技術(shù)方案的流程圖如圖1所示,包括以下步驟:
[0019] 步驟101 :利用特征提取方法分別獲得檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的初 級(jí)向量。
[0020] 本步驟中,為在檢索庫(kù)中檢索與檢索目標(biāo)匹配的對(duì)象,首先需要對(duì)檢索目標(biāo)和檢 索庫(kù)中每一檢索成員進(jìn)行初級(jí)向量的獲取,而特征提取方法獲得的初級(jí)向量一般維數(shù)較 高,且不同模態(tài)的初級(jí)向量元素各異,一般不能直接用于檢索運(yùn)算。
[0021] 步驟102 :檢索目標(biāo)的初級(jí)向量分別與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量,通 過(guò)對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN獲得檢索目標(biāo)的高級(jí)向量和檢索庫(kù)中每一個(gè)檢索成員的 高級(jí)向量。
[0022] 本步驟中,將檢索目標(biāo)的初級(jí)向量分別與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量作 為一個(gè)組合,通過(guò)對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN獲得檢索目標(biāo)的高級(jí)向量和檢索庫(kù)中每 一個(gè)檢索成員的高級(jí)向量。通過(guò)對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN得到的檢索目標(biāo)的高級(jí)向 量和檢索庫(kù)中每一個(gè)檢索成員的1?級(jí)向量具有低維、空間兀素一致等特點(diǎn),能夠1?效的直 接進(jìn)行檢索運(yùn)算。
[0023] 具體地,可以將檢索目標(biāo)作為第一模態(tài),將任一個(gè)檢索成員作為第二模態(tài), Corr-DBN通過(guò)處理第一模態(tài)與第二模態(tài)的初級(jí)表達(dá),最終輸出第一模態(tài)與第二模態(tài)的高級(jí) 表達(dá)。
[0024] 步驟103 :利用檢索目標(biāo)的1?級(jí)表達(dá)和檢索庫(kù)中每一個(gè)檢索成員的1?級(jí)表達(dá)計(jì)算 檢索目標(biāo)與檢索庫(kù)中任一檢索成員的距離。
[0025] 具體地,可以用歐氏距離表示檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的距離。
[0026] 步驟104 :將檢索庫(kù)中與檢索目標(biāo)距離最近的至少一個(gè)檢索成員確定為與檢索目 標(biāo)匹配的對(duì)象。
[0027] 本步驟中,將檢索庫(kù)中每個(gè)檢索成員與檢索目標(biāo)的距離進(jìn)行排序,選擇距離檢索 目標(biāo)最近的至少一個(gè)檢索成員確定為與檢索目標(biāo)匹配的對(duì)象。
[0028] 本發(fā)明提出了一種使用對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN進(jìn)行跨模態(tài)檢索的方法, 圖2為本發(fā)明對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖2所示,Corr-DBN 首先對(duì)兩種模態(tài)的初級(jí)向量使用至少一層雙受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)模型獲得該兩種模態(tài)的中級(jí)向量,在Corr-DBN模型的頂層通過(guò)Corr-RBM模 型對(duì)兩種模態(tài)的中級(jí)向量進(jìn)行進(jìn)一步處理,最終獲得兩種模態(tài)的高級(jí)表達(dá)。下面分別對(duì)雙 RBM模型、Corr-RBM模型以及Corr-DBN模型進(jìn)行詳細(xì)介紹。
[0029] (一)雙 RBM 模型:
[0030] 圖3為雙RBM的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖3所示,雙RBM模型包括第一模態(tài)RBM模型 和第二模態(tài)RBM模型,第一模態(tài)RBM模型和第二模態(tài)RBM模型為相互獨(dú)立的兩個(gè)單RBM模 型,第一模態(tài)RBM模型對(duì)第一模態(tài)向量進(jìn)行處理,第二模態(tài)RBM模型對(duì)第二模態(tài)向量進(jìn)行處 理,且第一模態(tài)RBM模型和第二模態(tài)RBM模型之間無(wú)連接。下面僅對(duì)第一模態(tài)RBM模型進(jìn) 行介紹,第二模態(tài)RBM模型的結(jié)構(gòu)及參數(shù)設(shè)計(jì)與第一模態(tài)RBM結(jié)構(gòu)相同。
[0031] 圖4為第一模態(tài)RBM模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖4所示,第一模態(tài)RBM模型的可 見(jiàn)層V包含m個(gè)神經(jīng)單元V 1?Vm,每個(gè)神經(jīng)單元Vi的偏置為h,可見(jiàn)層神經(jīng)單元之間沒(méi)有 連接;隱藏層H包含s個(gè)神經(jīng)單元I ll?hs,每個(gè)神經(jīng)單元Ilj的偏置為Cj,可見(jiàn)層神經(jīng)單元 之間沒(méi)有連接;可見(jiàn)層神經(jīng)單元V i與隱藏層神經(jīng)單元hj的連接權(quán)值為Wij。為了便于理解, 圖4中僅畫(huà)出了部分可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元的連接權(quán)值。
[0032] 單RBM具有無(wú)向圖的結(jié)構(gòu),具有Logistic激活函數(shù)δ (X) = l/(l+exp(-x)),則可 見(jiàn)層V和隱藏層H神經(jīng)單元的聯(lián)合概率分布為:
[0033] = -^cxp(-E(v,h))
[0034] 其中,Z為歸一化常數(shù),E(v,h)是由RBM的可見(jiàn)層神經(jīng)單元、隱藏層神經(jīng)單元的不 同配置定義的能量函數(shù),根據(jù)可見(jiàn)層神經(jīng)單元、隱藏層神經(jīng)單元的不同配置,E (v,h)有不同 的表示,即只要RBM的可見(jiàn)層神經(jīng)單元配置與隱藏層神經(jīng)單元配置確定,就有相應(yīng)的能量 函數(shù),在此不作詳細(xì)介紹。
[0035] 雙RBM模型的參數(shù)包括:第一模態(tài)RBM的可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元之間 的連接權(quán)值參數(shù)集合、可見(jiàn)層神經(jīng)單元的偏置集合和隱藏層神經(jīng)單元的偏置集合,第二模 態(tài)RBM的可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合、可見(jiàn)層神經(jīng)單元的 偏置集合和隱藏層神經(jīng)單元的偏置集合,上述參數(shù)可通過(guò)比照散度估計(jì)算法進(jìn)行確定,t匕 照散度估記算法為現(xiàn)有技術(shù),在此不再詳細(xì)介紹。
[0036] (二)對(duì)應(yīng)的受限波爾茲曼機(jī)Corr-RBM模型:
[0037] 圖5為本發(fā)明Corr-RBM模型的結(jié)構(gòu)圖,如圖5所示,Corr-RBM模型包含第一模態(tài) Corr-RBM和第二模態(tài)Corr-RBM,第一模態(tài)Corr-RBM與第二模態(tài)Corr-RBM包含有相同的可 見(jiàn)層神經(jīng)單元數(shù)目,第一模態(tài)Corr-RBM與第二模態(tài)Corr-RBM包含有相同的隱藏層神經(jīng)單 元數(shù)目,并且第一模態(tài)Corr-RBM與所述第二模態(tài)Corr-RBM的隱藏層之間具有相關(guān)性約束。
[0038] 假定Θ表示Corr-RBM模型的參數(shù)集合,即Θ = {W1,C1,B1,WT,CT,Β τ},其中,上標(biāo) I表示第一模態(tài),上標(biāo)T表示第二模態(tài),具體地,W1為第一模態(tài)Corr-RBM的各可見(jiàn)層神經(jīng)單 元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合,C 1為第一模態(tài)Corr-RBM的可見(jiàn)層神經(jīng)單 元偏置參數(shù)集合,B1為第一模態(tài)Corr-RBM的隱藏層神經(jīng)單元偏置參數(shù)集合,W t為第二模態(tài) Corr-RBM的各可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合,Ct為第二模態(tài) Corr-RBM的可見(jiàn)層神經(jīng)單元偏置參數(shù)集合,Bt為第二模態(tài)Corr-RBM的隱藏層神經(jīng)單元偏 置參數(shù)集合。
[0039] Corr-RBM模型的參數(shù)集合Θ通過(guò)下面的參數(shù)學(xué)習(xí)算法進(jìn)行確定:
[0040] 根據(jù)下述原則定義目標(biāo)函數(shù)T :C〇rr-RBM模型的參數(shù)集合Θ能夠最小化第一模 態(tài)與第二模態(tài)在共享表示空間上的距離,以及最小化第一模態(tài)和第二模態(tài)的負(fù)對(duì)數(shù)似然函 數(shù)。目標(biāo)函數(shù)Q為Q = 1D+ct I1+β It,即Θ為令Q最小的參數(shù)集合。
[0041]其中,
【權(quán)利要求】
1. 一種基于對(duì)應(yīng)的深層信念網(wǎng)絡(luò)的跨模態(tài)檢索方法,其特征在于,該方法包括: 利用特征提取方法分別獲得檢索目標(biāo)與檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量; 所述檢索目標(biāo)的初級(jí)向量分別與所述檢索庫(kù)中每一個(gè)檢索成員的初級(jí)向量,通過(guò)對(duì)應(yīng) 的深層信念網(wǎng)絡(luò)獲得所述檢索目標(biāo)的高級(jí)向量和所述檢索庫(kù)中每一個(gè)檢索成員的高級(jí)向 量; 利用所述檢索目標(biāo)的高級(jí)向量和所述檢索庫(kù)中每一個(gè)檢索成員的高級(jí)向量計(jì)算所述 檢索目標(biāo)與所述檢索庫(kù)中每一個(gè)檢索成員的距離; 將所述檢索庫(kù)中與所述檢索目標(biāo)距離最近的至少一個(gè)檢索成員確定為與所述檢索目 標(biāo)匹配的對(duì)象。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)應(yīng)的深層信念網(wǎng)絡(luò)Corr-DBN的非 頂層為至少一層雙受限波爾茲曼機(jī)RBM結(jié)構(gòu),頂層為對(duì)應(yīng)的受限波爾茲曼機(jī)Corr-RBM結(jié) 構(gòu),所述雙RBM包括相互獨(dú)立的第一模態(tài)RBM和第二模態(tài)RBM,所述Corr-RBM包括具有相關(guān) 性約束的第一模態(tài)Corr-RBM和第二模態(tài)Corr-RBM。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一模態(tài)Corr-RBM與所述第二模 態(tài)Corr-RBM包含有相同的可見(jiàn)層神經(jīng)單元數(shù)目,所述第一模態(tài)Corr-RBM與所述第二模 態(tài)Corr-RBM包含有相同的隱藏層神經(jīng)單元數(shù)目,所述第一模態(tài)Corr-RBM與所述第二模態(tài) Corr-RBM的隱藏層之間具有相關(guān)性約束。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,該方法進(jìn)一步包括: 所述Corr-RBM的配置參數(shù)0 = {W1,C1,B1,WT,CT,Βτ},其中,上標(biāo)I表示第一模態(tài),上標(biāo)T表示第二模態(tài),具體地,W1為第一模態(tài)Corr-RBM的各可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元 之間的連接權(quán)值參數(shù)集合,C1為第一模態(tài)Corr-RBM的可見(jiàn)層神經(jīng)單元偏置參數(shù)集合,B1為 第一模態(tài)Corr-RBM的隱藏層神經(jīng)單元偏置參數(shù)集合,Wt為第二模態(tài)Corr-RBM的各可見(jiàn)層 神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合,Ct為第二模態(tài)Corr-RBM的可見(jiàn)層神 經(jīng)單元偏置參數(shù)集合,Bt為第二模態(tài)Corr-RBM的隱藏層神經(jīng)單元偏置參數(shù)集合; 所述Corr-RBM的配置參數(shù)Θ為令目標(biāo)函數(shù)Q=lD+ah+βIt最小的配置參數(shù),且
其中,a和β是常數(shù),且ae(〇, 1),βe(〇, 1) ;&( ·)是第一模態(tài)Corr-RBM可見(jiàn) 層到隱藏層的映射函數(shù),fT( ·)和第二模態(tài)Corr-RBM可見(jiàn)層到隱藏層的映射函數(shù);Pl( ·)為 第一模態(tài)Corr-RBM可見(jiàn)層和隱藏層神經(jīng)單元的聯(lián)合概率分布,ρτ(·)為第二模態(tài)Corr-RBM 可見(jiàn)層和隱藏層神經(jīng)單元的聯(lián)合概率分布;M·II為二范數(shù)映射。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)目標(biāo)函數(shù)Q確定0的算法為: A、第一模態(tài)Corr-RBM的可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集 合 <、可見(jiàn)層神經(jīng)單元v/的偏置和隱藏層神經(jīng)單元的偏置c;用Θ1統(tǒng)一表示,根 據(jù)公式y(tǒng)+r.a.A#進(jìn)行更新,其中τ為學(xué)習(xí)速率,且τe(〇,1);ae(〇,1); Δ# = ,Δ6/,Acj},并且,
其中,〈· >data為經(jīng)驗(yàn)分布下的數(shù)學(xué)期望,〈· >Π(Λ1為模型分布下的數(shù)學(xué)期望; Β、第二模態(tài)Corr-RBM的可見(jiàn)層神經(jīng)單元與隱藏層神經(jīng)單元之間的連接權(quán)值參數(shù)集合 <、可見(jiàn)層神經(jīng)單元vf的偏置和隱藏層神經(jīng)單元f的偏置 < 用θτ統(tǒng)一表示,根據(jù)公式θτ -θτ+τ ·β·ΛΘ7進(jìn)行更新,其中,βe(〇, 1) ;Δ6?Γ ={Δ4,ΔΖ^,Δ?^},并且,
C、枏據(jù)以下公式俥用梯度下降的方法審新L:
其中,δ'(·)=δ(·)(1-δ(·)),且δ(·)為L(zhǎng)ogistic激活函數(shù)δ(X) = 1/ (l+exp(-x)); 重復(fù)步驟A?C,直至該算法收斂。
【文檔編號(hào)】G06F17/30GK104462485SQ201410797791
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月18日 優(yōu)先權(quán)日:2014年12月18日
【發(fā)明者】李睿凡, 蘆效峰, 魯鵬, 馮方向, 李蕾, 劉詠彬, 王小捷 申請(qǐng)人:北京郵電大學(xué)