面向社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法

文檔序號(hào)：8922620閱讀：263來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于跨媒體相關(guān)性學(xué)習(xí)技術(shù)領(lǐng)域，具體涉及面向社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法。技術(shù)背景
[0002] 隨著web 2. 0技術(shù)的發(fā)展，特別是一些社交網(wǎng)站的流行，例如Flickr。普通用戶更容易也更加愿意在互聯(lián)網(wǎng)上分享圖片資源。如何更好地處理這些海量的社會(huì)圖像數(shù)據(jù)，對(duì)其復(fù)雜的結(jié)構(gòu)進(jìn)行有效地組織和管理，進(jìn)而促進(jìn)針對(duì)這些圖像的跨媒體檢索已經(jīng)成為一個(gè)重要的研宄熱點(diǎn)[1，2, 3, 4, 5, 6]。通常來說，每一幅社會(huì)圖像都會(huì)被標(biāo)注為一系列的標(biāo) 簽，而這些標(biāo)簽是由普通的用戶所提供的，而這些標(biāo)簽通常會(huì)帶有用戶主觀的觀點(diǎn)和傾向 [7]。然而，由于語義鴻溝的問題，在圖像的視覺內(nèi)容與相應(yīng)的標(biāo)簽之間可能存在著巨大的不確定性，并且由于歧義，不完整以及過分主觀性等等問題，標(biāo)簽的質(zhì)量也不能令人滿意，存在很多的噪音以及拼寫錯(cuò)誤，而且很多的標(biāo)簽是不相關(guān)的。根據(jù)現(xiàn)有的調(diào)查顯示，大概只有50%左右的標(biāo)簽是與圖像內(nèi)容是相關(guān)的。因此，跨模態(tài)圖像與標(biāo)簽的相關(guān)度學(xué)習(xí)已經(jīng)成為支持跨媒體檢索等應(yīng)用的一項(xiàng)十分重要的研宄問題。
[0003] 為了實(shí)現(xiàn)跨模態(tài)圖像與標(biāo)簽之間的相關(guān)度學(xué)習(xí)，應(yīng)該同時(shí)解決三個(gè)相互關(guān)聯(lián)的問題：
[0004] 1、通過對(duì)社會(huì)標(biāo)注圖像的多模態(tài)分析來發(fā)現(xiàn)有價(jià)值的多模態(tài)特征從而對(duì)視覺圖像和文本標(biāo)注來進(jìn)行更好的描述與刻畫。
[0005] 2、針對(duì)圖像相關(guān)度與標(biāo)簽相關(guān)度分別進(jìn)行多模態(tài)分析從而得到相應(yīng)的相關(guān)度度量方法和客觀標(biāo)準(zhǔn)。
[0006] 3、通過多模態(tài)相關(guān)度融合來得到更好的跨模態(tài)相關(guān)度，衡量圖像的視覺內(nèi)容以及標(biāo)注中的語義標(biāo)簽的關(guān)系。
[0007] 為了解決第一個(gè)問題，充分挖掘和分析社會(huì)標(biāo)注圖像的視覺內(nèi)容以及相關(guān)標(biāo)注所蘊(yùn)含的語義信息變得十分重要，通過這樣的分析進(jìn)而得到能夠更好地對(duì)標(biāo)注圖像進(jìn)行描述的多模態(tài)特征。針對(duì)第二個(gè)問題，通過開發(fā)健壯的算法，針對(duì)圖像相關(guān)度與標(biāo)簽相關(guān)度分別進(jìn)行考慮，從而使得得到的相關(guān)度準(zhǔn)確率高而且有較低的計(jì)算成本。最后一個(gè)問題，關(guān)鍵在于開發(fā)新的算法來分析多模態(tài)的標(biāo)簽相關(guān)度與圖像相關(guān)度之間的關(guān)聯(lián)，進(jìn)而對(duì)兩種相關(guān)度進(jìn)行融合以得到更好的相關(guān)度。
[0008] 當(dāng)前已有一些研宄者針對(duì)圖像和標(biāo)簽的相關(guān)度學(xué)習(xí)提出了不同的方法，從建模的角度來看，這些方法大致可以分為兩類，第一類是圖模型的方法，第二類是優(yōu)化方法。
[0009] (1)圖模型方法
[0010] 所謂的圖模型方法即是把整個(gè)標(biāo)注圖像數(shù)據(jù)集看成是一個(gè)圖，圖中的節(jié)點(diǎn)可以表示圖像本身，也可以表示標(biāo)簽[8, 9, 10, 11，12, 13, 14, 15]。而圖節(jié)點(diǎn)之間的連接表示圖像之間的相似度或者標(biāo)簽之間的相似度，進(jìn)而可以利用一些針對(duì)圖模型的算法來計(jì)算圖像與標(biāo) 簽之間的相關(guān)度。
[0011] 在此方法基礎(chǔ)上，Li通過對(duì)目標(biāo)圖像做k近鄰后，將近鄰圖像所包含的所有標(biāo)簽聚合起來為目標(biāo)圖像中所包含的標(biāo)簽來進(jìn)行投票，通過投票的數(shù)量來計(jì)算目標(biāo)圖像與相應(yīng) 標(biāo)簽之間的相關(guān)度，對(duì)于一個(gè)標(biāo)簽來說，其所得到的票數(shù)越多，其與圖像的相關(guān)性越大。其中圖像與圖像之間的相似度是通過計(jì)算底層視覺特征向量的相似度來得到的[9]。后來Li 又拓展了他的工作，考慮了不同種類的底層視覺特征的影響[15]。在Liu的工作中，則把標(biāo) 簽看作是圖像中的節(jié)點(diǎn)，而邊的權(quán)重則表示標(biāo)簽之間的相似度，通過谷歌距離以及示例距離來計(jì)算[8]。
[0012] ⑵優(yōu)化方法
[0013] 現(xiàn)有的優(yōu)化方法通常會(huì)把整個(gè)標(biāo)注圖像數(shù)據(jù)集映射為一個(gè)二維矩陣的形式，矩陣的行與列分別表示圖像和標(biāo)簽，而矩陣中的值則表示對(duì)應(yīng)的圖像和標(biāo)簽的相關(guān)度，進(jìn)而可以通過構(gòu)造不同的代價(jià)函數(shù)來優(yōu)化此矩陣進(jìn)而得到最終的相關(guān)度[16, 17, 18, 19, 20]。
[0014] 在此方法基礎(chǔ)上，Zhu在其工作中把用戶提供的矩陣D分解為一個(gè)低秩的矩陣A，和稀疏錯(cuò)誤矩陣E [12]，而優(yōu)化的原則主要考慮幾個(gè)方面，第一，視覺相似的圖片對(duì)應(yīng)的標(biāo) 簽向量也比較相似，第二，內(nèi)容連續(xù)性，即兩個(gè)標(biāo)簽的共現(xiàn)頻率需要在矩陣中有所體現(xiàn)，如果兩個(gè)標(biāo)簽在圖像集中經(jīng)常共現(xiàn)，相應(yīng)地在矩陣中的兩個(gè)標(biāo)簽的共現(xiàn)頻率也就比較高，另外兩個(gè)約束是矩陣A是低秩而且矩陣E是稀疏的。而在zhuang的工作中，則從兩個(gè)角度來約束矩陣的學(xué)習(xí)[20]，第一個(gè)是從圖像的角度，兩個(gè)圖像越相似，對(duì)應(yīng)矩陣中的兩個(gè)行向量也就越相似。第二個(gè)是從標(biāo)簽的角度，兩個(gè)標(biāo)簽也越相似，對(duì)應(yīng)的矩陣中兩個(gè)列向量也就越相似，其中圖像與圖像之間的相似度通過計(jì)算視覺向量的相似度來得到，而標(biāo)簽與標(biāo)簽之間的相似度則通過谷歌距離來計(jì)算。另外，在Gao的工作中把整個(gè)數(shù)據(jù)集看作一個(gè)超圖，而利用不同的圖像在超圖上的關(guān)系作為一個(gè)正則項(xiàng)加入到了優(yōu)化函數(shù)當(dāng)中[18]。
[0015] 通過以上分析可以看出，當(dāng)前的方法在計(jì)算圖像與標(biāo)簽的相關(guān)度時(shí)都取得了一些進(jìn)展，然而，以上所有方法仍未充分考慮以下三個(gè)方面所帶來的影響：
[0016] (1)多模態(tài)特征表示與多模態(tài)信息挖掘，大多數(shù)現(xiàn)有的圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法通常只關(guān)注于傳統(tǒng)的視覺特征表示方法或者只是很簡(jiǎn)單地融合了有限的標(biāo)注信息。這些方法忽視了多模態(tài)特征中的豐富信息對(duì)計(jì)算圖像與標(biāo)簽之間的相關(guān)度的價(jià)值，因此，找到合適的算法來充分挖掘構(gòu)建多模態(tài)特征表示方法變得十分的必要[21，22, 23]。
[0017] (2)多模態(tài)相關(guān)度評(píng)估，現(xiàn)有的方法在計(jì)算相關(guān)度的時(shí)候通常只考慮了單模態(tài)的信息，要么忽略了圖像本身的視覺信息，要么忽略了圖像所包含的語義信息。而沒有充分利用多模態(tài)的信息來計(jì)算圖像與標(biāo)簽之間的相關(guān)度，而豐富的多模態(tài)信息加以利用來計(jì)算圖像與標(biāo)簽之間的相關(guān)度。
[0018] (3)跨模態(tài)相關(guān)度融合，現(xiàn)有的方法在計(jì)算相關(guān)度的時(shí)候通常只考慮單向的相關(guān) 度，即要么只考慮了圖像相對(duì)于標(biāo)簽的相關(guān)度，要么只考慮了標(biāo)簽相對(duì)于圖像的相關(guān)度。而忽視了這兩種相關(guān)度之間的關(guān)系，因此，找到合適的融合算法來對(duì)這兩種相關(guān)度進(jìn)行融合得到雙向跨模態(tài)的相關(guān)度變得十分的重要。
[0019] 因此，非常有必要借鑒當(dāng)前已有的相關(guān)成熟技術(shù)，同時(shí)從各方面考慮以上問題，更加全面地分析與計(jì)算圖像和標(biāo)簽之間的相關(guān)度。本發(fā)明就是由此激發(fā)，從局部到整體，設(shè)計(jì) 了一種新穎的技術(shù)框架（包括三個(gè)主要算法），使用相關(guān)的圖像/文本特征抽取方法，多模態(tài)特征融合機(jī)制，結(jié)合具有問題針對(duì)性的圖模型算法，建立有效的圖像-標(biāo)簽學(xué)習(xí)計(jì)算方法，并且利用排序聚合的方法來進(jìn)行跨模態(tài)的融合，最終為跨媒體圖像檢索性能進(jìn)行改進(jìn)。
【發(fā)明內(nèi)容】

[0020] 本發(fā)明的目的在于提出一種針對(duì)社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法，以提高跨媒體社會(huì)圖像檢索性能。
[0021] 本發(fā)明提出的針對(duì)社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法，可在大規(guī)模的社會(huì)標(biāo)注圖像中，更加精確和有效地學(xué)習(xí)圖像及其標(biāo)注之間的相關(guān)度。本發(fā)明以超圖為基本模型對(duì)整個(gè)標(biāo)注數(shù)據(jù)集進(jìn)行描述，并分別將圖像和標(biāo)簽映射為超圖節(jié)點(diǎn)進(jìn)行處理，此得到針對(duì)圖像的相關(guān)度和針對(duì)標(biāo)簽的相關(guān)度，進(jìn)而通過跨模態(tài)融合的方法將兩種不同的相關(guān) 度進(jìn)行融合，得到一種更好的相關(guān)度。本發(fā)明方法主要包括以下三方面：
[0022] (1)多模態(tài)特征融合（Multimodal Feature Fusion)--首先針對(duì)原始的社會(huì)圖像及其標(biāo)注，分別進(jìn)行特征的提取。并且為了更好地進(jìn)行多模態(tài)特征的融合，使用類似的方法來進(jìn)行特征提?。蝗缓筢槍?duì)圖像和文本的原始特征，通過挖掘不同模態(tài)之間特征的相關(guān) 性，將異構(gòu)的特征映射到同構(gòu)子空間中，進(jìn)行融合，從而得到融合了多模態(tài)信息的特征；
[0023] (2)雙向相關(guān)度度量（Bi-directional Relevance Measurement)--將標(biāo)注圖像數(shù)據(jù)集合用超圖來進(jìn)行表示，利用在超圖上的隨機(jī)游走算法來度量圖像與標(biāo)簽之間的相關(guān) 度，并且分別從圖像作為節(jié)點(diǎn)和標(biāo)簽作為節(jié)點(diǎn)兩個(gè)角度，對(duì)圖像相關(guān)度和標(biāo)簽相關(guān)度分別進(jìn)行計(jì)算。其中，圖像相關(guān)度考慮的是給定標(biāo)簽，圖像相對(duì)于標(biāo)簽的相關(guān)度；而標(biāo)簽相關(guān)度則是指給定圖像，標(biāo)簽相對(duì)于圖像的相關(guān)度；
[0024] (3)跨模態(tài)相關(guān)度融合（Cross-modal Relevance Fusion)--挖掘圖像相關(guān)度與標(biāo)簽相關(guān)度之間的關(guān)系，通過構(gòu)建恰當(dāng)?shù)娜诤蠙C(jī)制將融合問題轉(zhuǎn)換為優(yōu)化問題，并對(duì)此優(yōu) 化問題求解，以得到更好的相關(guān)度，其融合了不同相關(guān)度的特點(diǎn)，可以適應(yīng)不同的應(yīng)用（圖像檢索，標(biāo)簽精煉）等等。
[0025] 較之于當(dāng)前已有的相關(guān)圖像與標(biāo)簽相關(guān)度學(xué)習(xí)方法而言，本發(fā)明所提出的方法在應(yīng)用中存在著兩大優(yōu)勢(shì)，即準(zhǔn)確性高，適應(yīng)性強(qiáng)。第一，準(zhǔn)確度高，主要體現(xiàn)在：本方法一方面對(duì)圖像和文本的特征進(jìn)行設(shè)計(jì)并利用算法進(jìn)行合并從而得到融合了不同信息的多模態(tài) 特征來進(jìn)行處理，另外本方法也考慮了不同相關(guān)度之間的關(guān)系，通過融合不同的相關(guān)度能夠得到效果更好的相關(guān)度。第二，適應(yīng)性強(qiáng)，因?yàn)樵诒痉椒ㄖ袑?duì)不同的相關(guān)度分別進(jìn)行了考慮，即圖像相關(guān)度與標(biāo)簽相關(guān)度，通常來說，一種相關(guān)度只適用于一種應(yīng)用，而在本方法中對(duì)兩種相關(guān)度進(jìn)行融合，使得最終得到的相關(guān)度能夠適用于不同的應(yīng)用場(chǎng)合，比如圖像檢索，圖像識(shí)別等等。
[0026] 本發(fā)明提供的面向社會(huì)圖像的跨模態(tài)圖像_標(biāo)簽相關(guān)度學(xué)習(xí)方法，具體步驟如下：
[0027] (1)數(shù)據(jù)預(yù)處理。從多媒體數(shù)據(jù)集中采集不同模態(tài)的數(shù)據(jù)圖像，得到圖像和圖像標(biāo) 注數(shù)據(jù)，整理圖像標(biāo)注數(shù)據(jù)集中不常出現(xiàn)或者無用的標(biāo)注詞；
[0028] (2)提取多模態(tài)主題特征。提取圖像的底層視覺特征與圖像標(biāo)注的語義特征，并且利用主題模型分別對(duì)視覺特征與語義特征進(jìn)行處理，得到背后隱藏的視覺主題特征與語義主題特征；
[0029] (3)多模態(tài)特征融合。采用典型相關(guān)性分析算法，分析得到圖像視覺主題特征和語義主題特征的典型相關(guān)性，并將這兩種主題特征向量映射到同煒度下的同構(gòu)子空間中，構(gòu) 建跨模態(tài)融合特征，實(shí)現(xiàn)媒體數(shù)據(jù)不同模態(tài)信息的統(tǒng)一表示；
[0030] (4)雙向相關(guān)度度量。利用在超圖上的隨機(jī)游走算法，分別計(jì)算圖像相對(duì)于標(biāo)簽的相關(guān)度（圖像相關(guān)度）和標(biāo)簽相對(duì)于圖像的相關(guān)度（標(biāo)簽相關(guān)度），從兩個(gè)角度來度量圖像與相關(guān)標(biāo)簽之間的關(guān)系；
[0031] (5)跨模態(tài)相關(guān)度融合。將得到的兩種相關(guān)度用相應(yīng)的置信度矩陣進(jìn)行表示，并且通過跨模態(tài)融合優(yōu)化算法，得到一種新的跨模態(tài)的圖像-標(biāo)簽相關(guān)度；
[0032] (6)圖像排序與標(biāo)簽排序。將新的跨模態(tài)圖像-標(biāo)簽相關(guān)度應(yīng)用到圖像排序與標(biāo) 簽排序中，其中，圖像排序考慮的是給定標(biāo)簽，根據(jù)不同圖像相對(duì)于該標(biāo)簽的相關(guān)度，對(duì)所有圖像進(jìn)行排序；標(biāo)簽排序考慮的是給定圖像，根據(jù)不同標(biāo)簽相對(duì)于該圖像的相關(guān)度，對(duì)所有標(biāo)簽進(jìn)彳T排序。
[0033] 下面對(duì)以上各步驟進(jìn)行詳細(xì)的描述。
[0034] (1)數(shù)據(jù)預(yù)處理
[0035] 該步驟主要對(duì)采集不同模態(tài)的數(shù)據(jù)圖像進(jìn)行初步的預(yù)處理，具體來說，因?yàn)閳D像所包含的標(biāo)注當(dāng)中包含了一些噪音，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張玥杰;程勇;劉志鑫;金城;張濱;
技術(shù)所有人：復(fù)旦大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

面向社會(huì)圖像的跨模態(tài)圖像-標(biāo)簽相關(guān)度學(xué)習(xí)方法