面向社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于跨媒體相關(guān)性學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及面向社會(huì)圖像的跨模態(tài)圖 像-標(biāo)簽相關(guān)度學(xué)習(xí)方法。 技術(shù)背景
[0002] 隨著web 2. 0技術(shù)的發(fā)展,特別是一些社交網(wǎng)站的流行,例如Flickr。普通用戶 更容易也更加愿意在互聯(lián)網(wǎng)上分享圖片資源。如何更好地處理這些海量的社會(huì)圖像數(shù)據(jù), 對(duì)其復(fù)雜的結(jié)構(gòu)進(jìn)行有效地組織和管理,進(jìn)而促進(jìn)針對(duì)這些圖像的跨媒體檢索已經(jīng)成為一 個(gè)重要的研宄熱點(diǎn)[1,2, 3, 4, 5, 6]。通常來說,每一幅社會(huì)圖像都會(huì)被標(biāo)注為一系列的標(biāo) 簽,而這些標(biāo)簽是由普通的用戶所提供的,而這些標(biāo)簽通常會(huì)帶有用戶主觀的觀點(diǎn)和傾向 [7]。然而,由于語義鴻溝的問題,在圖像的視覺內(nèi)容與相應(yīng)的標(biāo)簽之間可能存在著巨大的 不確定性,并且由于歧義,不完整以及過分主觀性等等問題,標(biāo)簽的質(zhì)量也不能令人滿意, 存在很多的噪音以及拼寫錯(cuò)誤,而且很多的標(biāo)簽是不相關(guān)的。根據(jù)現(xiàn)有的調(diào)查顯示,大概只 有50%左右的標(biāo)簽是與圖像內(nèi)容是相關(guān)的。因此,跨模態(tài)圖像與標(biāo)簽的相關(guān)度學(xué)習(xí)已經(jīng)成 為支持跨媒體檢索等應(yīng)用的一項(xiàng)十分重要的研宄問題。
[0003] 為了實(shí)現(xiàn)跨模態(tài)圖像與標(biāo)簽之間的相關(guān)度學(xué)習(xí),應(yīng)該同時(shí)解決三個(gè)相互關(guān)聯(lián)的問 題:
[0004] 1、通過對(duì)社會(huì)標(biāo)注圖像的多模態(tài)分析來發(fā)現(xiàn)有價(jià)值的多模態(tài)特征從而對(duì)視覺圖 像和文本標(biāo)注來進(jìn)行更好的描述與刻畫。
[0005] 2、針對(duì)圖像相關(guān)度與標(biāo)簽相關(guān)度分別進(jìn)行多模態(tài)分析從而得到相應(yīng)的相關(guān)度度 量方法和客觀標(biāo)準(zhǔn)。
[0006] 3、通過多模態(tài)相關(guān)度融合來得到更好的跨模態(tài)相關(guān)度,衡量圖像的視覺內(nèi)容以及 標(biāo)注中的語義標(biāo)簽的關(guān)系。
[0007] 為了解決第一個(gè)問題,充分挖掘和分析社會(huì)標(biāo)注圖像的視覺內(nèi)容以及相關(guān)標(biāo)注所 蘊(yùn)含的語義信息變得十分重要,通過這樣的分析進(jìn)而得到能夠更好地對(duì)標(biāo)注圖像進(jìn)行描述 的多模態(tài)特征。針對(duì)第二個(gè)問題,通過開發(fā)健壯的算法,針對(duì)圖像相關(guān)度與標(biāo)簽相關(guān)度分別 進(jìn)行考慮,從而使得得到的相關(guān)度準(zhǔn)確率高而且有較低的計(jì)算成本。最后一個(gè)問題,關(guān)鍵在 于開發(fā)新的算法來分析多模態(tài)的標(biāo)簽相關(guān)度與圖像相關(guān)度之間的關(guān)聯(lián),進(jìn)而對(duì)兩種相關(guān)度 進(jìn)行融合以得到更好的相關(guān)度。
[0008] 當(dāng)前已有一些研宄者針對(duì)圖像和標(biāo)簽的相關(guān)度學(xué)習(xí)提出了不同的方法,從建模的 角度來看,這些方法大致可以分為兩類,第一類是圖模型的方法,第二類是優(yōu)化方法。
[0009] (1)圖模型方法
[0010] 所謂的圖模型方法即是把整個(gè)標(biāo)注圖像數(shù)據(jù)集看成是一個(gè)圖,圖中的節(jié)點(diǎn)可以表 示圖像本身,也可以表示標(biāo)簽[8, 9, 10, 11,12, 13, 14, 15]。而圖節(jié)點(diǎn)之間的連接表示圖像之 間的相似度或者標(biāo)簽之間的相似度,進(jìn)而可以利用一些針對(duì)圖模型的算法來計(jì)算圖像與標(biāo) 簽之間的相關(guān)度。
[0011] 在此方法基礎(chǔ)上,Li通過對(duì)目標(biāo)圖像做k近鄰后,將近鄰圖像所包含的所有標(biāo)簽 聚合起來為目標(biāo)圖像中所包含的標(biāo)簽來進(jìn)行投票,通過投票的數(shù)量來計(jì)算目標(biāo)圖像與相應(yīng) 標(biāo)簽之間的相關(guān)度,對(duì)于一個(gè)標(biāo)簽來說,其所得到的票數(shù)越多,其與圖像的相關(guān)性越大。其 中圖像與圖像之間的相似度是通過計(jì)算底層視覺特征向量的相似度來得到的[9]。后來Li 又拓展了他的工作,考慮了不同種類的底層視覺特征的影響[15]。在Liu的工作中,則把標(biāo) 簽看作是圖像中的節(jié)點(diǎn),而邊的權(quán)重則表示標(biāo)簽之間的相似度,通過谷歌距離以及示例距 離來計(jì)算[8]。
[0012] ⑵優(yōu)化方法
[0013] 現(xiàn)有的優(yōu)化方法通常會(huì)把整個(gè)標(biāo)注圖像數(shù)據(jù)集映射為一個(gè)二維矩陣的形式,矩陣 的行與列分別表示圖像和標(biāo)簽,而矩陣中的值則表示對(duì)應(yīng)的圖像和標(biāo)簽的相關(guān)度,進(jìn)而可 以通過構(gòu)造不同的代價(jià)函數(shù)來優(yōu)化此矩陣進(jìn)而得到最終的相關(guān)度[16, 17, 18, 19, 20]。
[0014] 在此方法基礎(chǔ)上,Zhu在其工作中把用戶提供的矩陣D分解為一個(gè)低秩的矩陣A, 和稀疏錯(cuò)誤矩陣E [12],而優(yōu)化的原則主要考慮幾個(gè)方面,第一,視覺相似的圖片對(duì)應(yīng)的標(biāo) 簽向量也比較相似,第二,內(nèi)容連續(xù)性,即兩個(gè)標(biāo)簽的共現(xiàn)頻率需要在矩陣中有所體現(xiàn),如 果兩個(gè)標(biāo)簽在圖像集中經(jīng)常共現(xiàn),相應(yīng)地在矩陣中的兩個(gè)標(biāo)簽的共現(xiàn)頻率也就比較高,另 外兩個(gè)約束是矩陣A是低秩而且矩陣E是稀疏的。而在zhuang的工作中,則從兩個(gè)角度來 約束矩陣的學(xué)習(xí)[20],第一個(gè)是從圖像的角度,兩個(gè)圖像越相似,對(duì)應(yīng)矩陣中的兩個(gè)行向量 也就越相似。第二個(gè)是從標(biāo)簽的角度,兩個(gè)標(biāo)簽也越相似,對(duì)應(yīng)的矩陣中兩個(gè)列向量也就越 相似,其中圖像與圖像之間的相似度通過計(jì)算視覺向量的相似度來得到,而標(biāo)簽與標(biāo)簽之 間的相似度則通過谷歌距離來計(jì)算。另外,在Gao的工作中把整個(gè)數(shù)據(jù)集看作一個(gè)超圖,而 利用不同的圖像在超圖上的關(guān)系作為一個(gè)正則項(xiàng)加入到了優(yōu)化函數(shù)當(dāng)中[18]。
[0015] 通過以上分析可以看出,當(dāng)前的方法在計(jì)算圖像與標(biāo)簽的相關(guān)度時(shí)都取得了一些 進(jìn)展,然而,以上所有方法仍未充分考慮以下三個(gè)方面所帶來的影響:
[0016] (1)多模態(tài)特征表示與多模態(tài)信息挖掘,大多數(shù)現(xiàn)有的圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方 法通常只關(guān)注于傳統(tǒng)的視覺特征表示方法或者只是很簡(jiǎn)單地融合了有限的標(biāo)注信息。這些 方法忽視了多模態(tài)特征中的豐富信息對(duì)計(jì)算圖像與標(biāo)簽之間的相關(guān)度的價(jià)值,因此,找到 合適的算法來充分挖掘構(gòu)建多模態(tài)特征表示方法變得十分的必要[21,22, 23]。
[0017] (2)多模態(tài)相關(guān)度評(píng)估,現(xiàn)有的方法在計(jì)算相關(guān)度的時(shí)候通常只考慮了單模態(tài)的 信息,要么忽略了圖像本身的視覺信息,要么忽略了圖像所包含的語義信息。而沒有充分利 用多模態(tài)的信息來計(jì)算圖像與標(biāo)簽之間的相關(guān)度,而豐富的多模態(tài)信息加以利用來計(jì)算圖 像與標(biāo)簽之間的相關(guān)度。
[0018] (3)跨模態(tài)相關(guān)度融合,現(xiàn)有的方法在計(jì)算相關(guān)度的時(shí)候通常只考慮單向的相關(guān) 度,即要么只考慮了圖像相對(duì)于標(biāo)簽的相關(guān)度,要么只考慮了標(biāo)簽相對(duì)于圖像的相關(guān)度。而 忽視了這兩種相關(guān)度之間的關(guān)系,因此,找到合適的融合算法來對(duì)這兩種相關(guān)度進(jìn)行融合 得到雙向跨模態(tài)的相關(guān)度變得十分的重要。
[0019] 因此,非常有必要借鑒當(dāng)前已有的相關(guān)成熟技術(shù),同時(shí)從各方面考慮以上問題,更 加全面地分析與計(jì)算圖像和標(biāo)簽之間的相關(guān)度。本發(fā)明就是由此激發(fā),從局部到整體,設(shè)計(jì) 了一種新穎的技術(shù)框架(包括三個(gè)主要算法),使用相關(guān)的圖像/文本特征抽取方法,多模 態(tài)特征融合機(jī)制,結(jié)合具有問題針對(duì)性的圖模型算法,建立有效的圖像-標(biāo)簽學(xué)習(xí)計(jì)算方 法,并且利用排序聚合的方法來進(jìn)行跨模態(tài)的融合,最終為跨媒體圖像檢索性能進(jìn)行改進(jìn)。
【發(fā)明內(nèi)容】
[0020] 本發(fā)明的目的在于提出一種針對(duì)社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法, 以提高跨媒體社會(huì)圖像檢索性能。
[0021] 本發(fā)明提出的針對(duì)社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法,可在大規(guī)模的 社會(huì)標(biāo)注圖像中,更加精確和有效地學(xué)習(xí)圖像及其標(biāo)注之間的相關(guān)度。本發(fā)明以超圖為基 本模型對(duì)整個(gè)標(biāo)注數(shù)據(jù)集進(jìn)行描述,并分別將圖像和標(biāo)簽映射為超圖節(jié)點(diǎn)進(jìn)行處理,此得 到針對(duì)圖像的相關(guān)度和針對(duì)標(biāo)簽的相關(guān)度,進(jìn)而通過跨模態(tài)融合的方法將兩種不同的相關(guān) 度進(jìn)行融合,得到一種更好的相關(guān)度。本發(fā)明方法主要包括以下三方面:
[0022] (1)多模態(tài)特征融合(Multimodal Feature Fusion)--首先針對(duì)原始的社會(huì)圖 像及其標(biāo)注,分別進(jìn)行特征的提取。并且為了更好地進(jìn)行多模態(tài)特征的融合,使用類似的方 法來進(jìn)行特征提?。蝗缓筢槍?duì)圖像和文本的原始特征,通過挖掘不同模態(tài)之間特征的相關(guān) 性,將異構(gòu)的特征映射到同構(gòu)子空間中,進(jìn)行融合,從而得到融合了多模態(tài)信息的特征;
[0023] (2)雙向相關(guān)度度量(Bi-directional Relevance Measurement)--將標(biāo)注圖像 數(shù)據(jù)集合用超圖來進(jìn)行表示,利用在超圖上的隨機(jī)游走算法來度量圖像與標(biāo)簽之間的相關(guān) 度,并且分別從圖像作為節(jié)點(diǎn)和標(biāo)簽作為節(jié)點(diǎn)兩個(gè)角度,對(duì)圖像相關(guān)度和標(biāo)簽相關(guān)度分別 進(jìn)行計(jì)算。其中,圖像相關(guān)度考慮的是給定標(biāo)簽,圖像相對(duì)于標(biāo)簽的相關(guān)度;而標(biāo)簽相關(guān)度 則是指給定圖像,標(biāo)簽相對(duì)于圖像的相關(guān)度;
[0024] (3)跨模態(tài)相關(guān)度融合(Cross-modal Relevance Fusion)--挖掘圖像相關(guān)度與 標(biāo)簽相關(guān)度之間的關(guān)系,通過構(gòu)建恰當(dāng)?shù)娜诤蠙C(jī)制將融合問題轉(zhuǎn)換為優(yōu)化問題,并對(duì)此優(yōu) 化問題求解,以得到更好的相關(guān)度,其融合了不同相關(guān)度的特點(diǎn),可以適應(yīng)不同的應(yīng)用(圖 像檢索,標(biāo)簽精煉)等等。
[0025] 較之于當(dāng)前已有的相關(guān)圖像與標(biāo)簽相關(guān)度學(xué)習(xí)方法而言,本發(fā)明所提出的方法在 應(yīng)用中存在著兩大優(yōu)勢(shì),即準(zhǔn)確性高,適應(yīng)性強(qiáng)。第一,準(zhǔn)確度高,主要體現(xiàn)在:本方法一方 面對(duì)圖像和文本的特征進(jìn)行設(shè)計(jì)并利用算法進(jìn)行合并從而得到融合了不同信息的多模態(tài) 特征來進(jìn)行處理,另外本方法也考慮了不同相關(guān)度之間的關(guān)系,通過融合不同的相關(guān)度能 夠得到效果更好的相關(guān)度。第二,適應(yīng)性強(qiáng),因?yàn)樵诒痉椒ㄖ袑?duì)不同的相關(guān)度分別進(jìn)行了考 慮,即圖像相關(guān)度與標(biāo)簽相關(guān)度,通常來說,一種相關(guān)度只適用于一種應(yīng)用,而在本方法中 對(duì)兩種相關(guān)度進(jìn)行融合,使得最終得到的相關(guān)度能夠適用于不同的應(yīng)用場(chǎng)合,比如圖像檢 索,圖像識(shí)別等等。
[0026] 本發(fā)明提供的面向社會(huì)圖像的跨模態(tài)圖像_標(biāo)簽相關(guān)度學(xué)習(xí)方法,具體步驟如 下:
[0027] (1)數(shù)據(jù)預(yù)處理。從多媒體數(shù)據(jù)集中采集不同模態(tài)的數(shù)據(jù)圖像,得到圖像和圖像標(biāo) 注數(shù)據(jù),整理圖像標(biāo)注數(shù)據(jù)集中不常出現(xiàn)或者無用的標(biāo)注詞;
[0028] (2)提取多模態(tài)主題特征。提取圖像的底層視覺特征與圖像標(biāo)注的語義特征,并且 利用主題模型分別對(duì)視覺特征與語義特征進(jìn)行處理,得到背后隱藏的視覺主題特征與語義 主題特征;
[0029] (3)多模態(tài)特征融合。采用典型相關(guān)性分析算法,分析得到圖像視覺主題特征和語 義主題特征的典型相關(guān)性,并將這兩種主題特征向量映射到同煒度下的同構(gòu)子空間中,構(gòu) 建跨模態(tài)融合特征,實(shí)現(xiàn)媒體數(shù)據(jù)不同模態(tài)信息的統(tǒng)一表示;
[0030] (4)雙向相關(guān)度度量。利用在超圖上的隨機(jī)游走算法,分別計(jì)算圖像相對(duì)于標(biāo)簽的 相關(guān)度(圖像相關(guān)度)和標(biāo)簽相對(duì)于圖像的相關(guān)度(標(biāo)簽相關(guān)度),從兩個(gè)角度來度量圖像 與相關(guān)標(biāo)簽之間的關(guān)系;
[0031] (5)跨模態(tài)相關(guān)度融合。將得到的兩種相關(guān)度用相應(yīng)的置信度矩陣進(jìn)行表示,并且 通過跨模態(tài)融合優(yōu)化算法,得到一種新的跨模態(tài)的圖像-標(biāo)簽相關(guān)度;
[0032] (6)圖像排序與標(biāo)簽排序。將新的跨模態(tài)圖像-標(biāo)簽相關(guān)度應(yīng)用到圖像排序與標(biāo) 簽排序中,其中,圖像排序考慮的是給定標(biāo)簽,根據(jù)不同圖像相對(duì)于該標(biāo)簽的相關(guān)度,對(duì)所 有圖像進(jìn)行排序;標(biāo)簽排序考慮的是給定圖像,根據(jù)不同標(biāo)簽相對(duì)于該圖像的相關(guān)度,對(duì)所 有標(biāo)簽進(jìn)彳T排序。
[0033] 下面對(duì)以上各步驟進(jìn)行詳細(xì)的描述。
[0034] (1)數(shù)據(jù)預(yù)處理
[0035] 該步驟主要對(duì)采集不同模態(tài)的數(shù)據(jù)圖像進(jìn)行初步的預(yù)處理,具體來說,因?yàn)閳D像 所包含的標(biāo)注當(dāng)中包含了一些噪音,