一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法
【專(zhuān)利摘要】一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型:將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù);對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取,得到初始文本特征向量集;采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理得到初始圖像特征向量集;將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù);得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型,計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離,實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。本發(fā)明避免了多媒體數(shù)據(jù)的模態(tài)單一性,實(shí)現(xiàn)了基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)的主題提取。
【專(zhuān)利說(shuō)明】
一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種多模態(tài)媒體數(shù)據(jù)主題提取模型。特別是涉及一種基于地點(diǎn)的多模 態(tài)媒體數(shù)據(jù)主題提取模型。
【背景技術(shù)】
[0002] 現(xiàn)如今人類(lèi)生活已經(jīng)離不開(kāi)網(wǎng)絡(luò),人們可以通過(guò)多種多樣的社交軟件了解身邊發(fā) 生的大事小事。隨著信息技術(shù)的日益發(fā)展,多媒體數(shù)據(jù)的表現(xiàn)形式也由單一的文本逐漸豐 富為視頻、音頻、動(dòng)畫(huà)和圖形等,隨之而來(lái)的就是多媒體數(shù)據(jù)正呈現(xiàn)海量增長(zhǎng)的趨勢(shì)。如何 對(duì)這些媒體類(lèi)型的信息進(jìn)行快速準(zhǔn)確的檢索和分類(lèi)已經(jīng)成為人們迫切的需要(如參考文獻(xiàn)
[1]),并吸引了眾多科研工作者的目光,多媒體數(shù)據(jù)信息檢索順利成章的成為了當(dāng)下的研 究熱點(diǎn)。
[0003] 多媒體信息檢索與分類(lèi)是基于數(shù)字圖像處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等技術(shù),借 助于計(jì)算機(jī)處理技術(shù),對(duì)數(shù)據(jù)庫(kù)中的多媒體信息進(jìn)行分析比較的過(guò)程。目前,多媒體信息檢 索研究主要分為兩類(lèi):基于文本方式的信息檢索、基于內(nèi)容的多媒體信息檢索技術(shù)?;谖?本方式的信息檢索方法簡(jiǎn)單快速,但已經(jīng)無(wú)法滿(mǎn)足現(xiàn)如今多媒體數(shù)據(jù)檢索的需要(如參考 文獻(xiàn)[2])?;趦?nèi)容的多媒體信息檢索方法提取多媒體數(shù)據(jù)的語(yǔ)義信息形成數(shù)據(jù)的特征向 量,通過(guò)找到最大相似度的特征向量進(jìn)而完成檢索(如參考文獻(xiàn)[3])。但是多媒體數(shù)據(jù)的語(yǔ) 義層次越高,檢索所需的計(jì)算就越復(fù)雜。兩類(lèi)方法各有優(yōu)劣,但由于基于內(nèi)容的多媒體信息 檢索技術(shù)適用于如今多樣的多媒體數(shù)據(jù)的形式,因而得到了廣泛應(yīng)用 [4]。
[0004] 多媒體數(shù)據(jù)的主題提取目前面臨的主要挑戰(zhàn)為:多媒體數(shù)據(jù)具有多模態(tài)特性,而 且社交網(wǎng)絡(luò)的多樣性導(dǎo)致了多媒體數(shù)據(jù)之間的聯(lián)系也具有多樣性,如今大多數(shù)方法只能處 理單模態(tài)的多媒體數(shù)據(jù),限制了實(shí)際應(yīng)用范圍。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問(wèn)題是,提供一種實(shí)現(xiàn)了多媒體數(shù)據(jù)在不同模態(tài)和不同社 交網(wǎng)絡(luò)上的跨域?qū)W習(xí),提高了多模態(tài)媒體數(shù)據(jù)主題提取準(zhǔn)確度的基于地點(diǎn)的多模態(tài)媒體數(shù) 據(jù)主題提取模型
[0006] 本發(fā)明所采用的技術(shù)方案是:一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型,包 括以下步驟:
[0007] 1)采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集,將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù);
[0008] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中,對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋 模型得到文本中前1000~1500個(gè)單詞,對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯 概率模型的提取,去噪后得到初始文本特征向量集x 2
[0009] 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目,m2為特征的維度;
[0010] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)中,采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處 理,再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集4
[0011] 其中見(jiàn)為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目,特征的維度;
[0012] 4)將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合,將其定義 為多模態(tài)媒體數(shù)據(jù)特征庫(kù);
[0013] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入,初始化模型參數(shù),構(gòu)建多模態(tài)媒體 數(shù)據(jù)圖結(jié)構(gòu),得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;
[0014] 6)對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi),得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模 型,計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離,實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本 標(biāo)注。
[0015] 步驟5)包括:
[0016] (1)根據(jù)初始圖像特征向量集和初始文本特征向量集X_7 ,得到 多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式:
[0017] 0 = ^1^ -C/,^r|!> +l2j|X2 -C/2nr||>+//Tr((^ -P2V2 f D(PXVX ~P,V2)Ya,Tr(}\T 1^) + a2rr(^2F2) + r(||i71||^+||C/2||^+||^||^+||^||^)
[0018] 其中:
[0019] 設(shè)定12?172校,其中Reg-,£72^0_,1] 1是父1轉(zhuǎn)換到¥1的近似 的過(guò)渡矩陣,1]2是辦轉(zhuǎn)換到V 2的近似的過(guò)渡矩陣;
[0020] 巧=^"。、〇"。;^,1為單位矩陣,〇為零矩陣,11()為?11(^圖像數(shù) 據(jù)的數(shù)量,m為Foursquare圖像數(shù)據(jù)的數(shù)量,n2為Foursquare文本數(shù)據(jù)的數(shù)量,D為對(duì)角矩 陣;
代表圖像e和圖像s的相似度,(V〇A 圖像e的跨域特征,(V〇s為圖像s的跨域特征,U是拉普拉斯算子;
尼,(A2)es代表文本e和文本S的相似度,(V2)e 為文本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;
[0023] ^^、(^、(^和丫為模型參數(shù);
[0024] ,其中要得到的特征映射的維度;
[0025] (2)對(duì)誤差值關(guān)系式中的^^(^、(^、化和乂:^初始化;
[0026] (3)分別固定1]1、1]2、¥1和¥2并求導(dǎo),不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定 的最小值,此時(shí)的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間 下的特征向量集。
[0027] 本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型,具有的有益效果是:
[0028] 1、避免了多媒體數(shù)據(jù)的模態(tài)單一性,可以應(yīng)用于多種模態(tài)的多媒體數(shù)據(jù)庫(kù),即當(dāng) 多媒體數(shù)據(jù)庫(kù)中既有文本數(shù)據(jù)又有圖像數(shù)據(jù)時(shí),本方法依然可行;
[0029] 2、采用基于跨域?qū)W習(xí)的多媒體主題提取模型,通過(guò)某一社交網(wǎng)絡(luò)中多模態(tài)媒體數(shù) 據(jù)之間的聯(lián)系將其他多模態(tài)媒體數(shù)據(jù)映射到同一特征空間下,實(shí)現(xiàn)了基于地點(diǎn)的多模態(tài)媒 體數(shù)據(jù)的主題提?。?br>[0030] 3、結(jié)合使用上述模型對(duì)圖像數(shù)據(jù)進(jìn)行文本標(biāo)注,建立了圖像數(shù)據(jù)和文本數(shù)據(jù)的聯(lián) 系,實(shí)現(xiàn)了該模型的應(yīng)用。
【附圖說(shuō)明】
[0031] 圖1是本發(fā)明基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的流程圖;
[0032]圖2a是雅虎網(wǎng)站(Flickr)數(shù)據(jù)樣例,其文本標(biāo)注為"星巴克";
[0033]圖2b是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例,其文本標(biāo)注為"海灣風(fēng)景";
[0034]圖2c是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例,其文本標(biāo)注為"房間浴室";
[0035]圖3a是特征維數(shù)為10維的主題模型樣例,文本標(biāo)注為"舒服的房間";
[0036]圖3b是特征維數(shù)為100維的主題模型樣例,文本標(biāo)注為"沙灘";
[0037] 圖3c是特征維數(shù)為1000維的主題模型樣例,文本標(biāo)注為"周末夜景";
[0038] 圖4a是特征維數(shù)為10維的圖片標(biāo)注樣例,文本標(biāo)注為"燈光";
[0039] 圖4b是特征維數(shù)為100維的圖片標(biāo)注樣例,文本標(biāo)注為"聚會(huì)";
[0040] 圖4c是特征維數(shù)為1000維的圖片標(biāo)注樣例,文本標(biāo)注為"海鮮食品";
[0041 ]圖5是基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型的評(píng)估結(jié)果;
[0042] 圖6是圖片標(biāo)注的評(píng)估結(jié)果。
【具體實(shí)施方式】
[0043] 下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模 型做出詳細(xì)說(shuō)明。
[0044] 研究表明:多模態(tài)媒體數(shù)據(jù)的特征映射分布情況與其數(shù)據(jù)本身的故有特征有非常 緊密的聯(lián)系,可以通過(guò)最優(yōu)化主題模型得到同一特征空間下的多模態(tài)媒體數(shù)據(jù)特征向量進(jìn) 而計(jì)算數(shù)據(jù)之間的關(guān)系。本發(fā)明提出了一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型。
[0045] 如圖1所示,本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型,包括以下步 驟:
[0046] 1)采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集,將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù);
[0047] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中,對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋 模型(如參考文獻(xiàn)[5])得到文本中前1000~1500個(gè)單詞,對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù) 據(jù)進(jìn)行三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA(如參考文獻(xiàn)[6]))的提 取,去噪后得到初始文本特征向量集;
[0048] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)中,采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處 理,再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集;
[0049] 4)將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合,將其定義 為多模態(tài)媒體數(shù)據(jù)特征庫(kù);
[0050] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入,初始化模型參數(shù),構(gòu)建多模態(tài)媒體 數(shù)據(jù)圖結(jié)構(gòu),得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;包括:
[0051 ] (1)根據(jù)初始圖像特征向量集;€ 和初始文本特征向量集義e ,得到 多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式:
[0052] 0 = l.WX.-U^t+X.WX.-U^ ||;. + /iTr((^ -P2F2f Z)(^ -P2F2)) + ?irr(^Z1F1) + tt2rr(F/l2r2) + 7(||[/t||-;+||t/2||-;+||Ft||-;+||F 2||-;)
[0053] 其中:
[0054] 設(shè)定,其中(72€0¥/,.1]1是)(1轉(zhuǎn)換到1的近似 的過(guò)渡矩陣,1] 2是辦轉(zhuǎn)換到V2的近似的過(guò)渡矩陣;
-:£.,J圖像e的特征映射,(V〇s為圖像s的特征映射,U是拉普拉斯算子; ,1為單位矩陣,0為零矩陣,D為對(duì)角矩陣; 11],(&^代表圖像6和圖像8的相似度,(¥1)6為
,(A2)es代表文本e和文本s的相似度,(V2) e 為文本e的特征映射,(V2)s為文本s的特征映射,L2是拉普拉斯算子;
[0058] ^^,^,(^,(^,丫為模型參數(shù);
[0059] V^Q^d , V2^d其中d為要得到的特征映射的維度; .,:
[0060] (2)對(duì)誤差值關(guān)系式中的
[0061] (3)分別固定1]1、1]2、¥1和¥ 2并求導(dǎo),不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定 的最小值,此時(shí)的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間 下的特征向量集。
[0062] 6)對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi)(如參考文獻(xiàn)[7]),得到基于地點(diǎn)的多模態(tài) 媒體數(shù)據(jù)主題模型,計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離,實(shí)現(xiàn)對(duì)多媒體 圖像數(shù)據(jù)的文本標(biāo)注。
[0063] 下面結(jié)合具體的計(jì)算公式,對(duì)實(shí)施例1中的方案進(jìn)行詳細(xì)的介紹,詳見(jiàn)下文描述:
[0064] 1)采集S個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集m,將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體Milm1,!!!2, ...,ms}定義為基于地 點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù)MD(Multimedia Database);
[0065] 本發(fā)明實(shí)施例首先采集來(lái)自S個(gè)地點(diǎn)的雅虎網(wǎng)站(FI ickr)和四方網(wǎng)站 (Foursquare)媒體數(shù)據(jù)(本例中S = 41),過(guò)程如下:
[0066] 本發(fā)明是基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取,要收集數(shù)據(jù)的相關(guān)地點(diǎn)要比較熱 門(mén),所以我們要選擇比較受歡迎的地點(diǎn)。Foursquare中既有圖像數(shù)據(jù)又有文本數(shù)據(jù)而且它 們?cè)跀?shù)量和內(nèi)容上基本沒(méi)有聯(lián)系,有的地點(diǎn)主頁(yè)中用戶(hù)上傳的信息較少不具有代表性,所 以在選擇地點(diǎn)時(shí)要滿(mǎn)足三個(gè)條件:(1)擁有的用戶(hù)數(shù)量在1000以上;(2)地點(diǎn)主頁(yè)中用戶(hù)上 傳的圖像數(shù)目大于1000; (3)用戶(hù)對(duì)地點(diǎn)的相關(guān)評(píng)論在200條以上。由此,我們選擇了41個(gè)比 較受歡迎的地點(diǎn)。每個(gè)地點(diǎn)中所有的文本信息看成一個(gè)文本文檔,所以我們收集到的 Four square數(shù)據(jù)包含41個(gè)文本文檔和10631張圖像。
[0067]輔助域的數(shù)據(jù)主要從Flickr中獲取,F(xiàn)lickr作為一個(gè)專(zhuān)業(yè)級(jí)圖像分享網(wǎng)站,提供 的圖像數(shù)據(jù)包含豐富的信息,包括標(biāo)注信息和圖像的地理信息(如參考文獻(xiàn)[8])。在Flickr 數(shù)據(jù)的收集中,可以通過(guò)一些圖像標(biāo)注候選詞匯作為搜索關(guān)鍵詞在Flickr平臺(tái)上收集圖 像。對(duì)這41個(gè)地點(diǎn)我們均選擇搜集到的前60張圖像,共2460張。
[0068] 將S個(gè)地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集合并得到總初始視圖集M= {m1,!!!2, ...,ms},將其 定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù)MD;
[0069] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中,采用詞袋模型對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)L1,其中iG{l, 2, ...,S},進(jìn)行自然語(yǔ)言處理,得到文本中前1000~1500個(gè)單詞,對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的 文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取,去噪后得到初始文本特征向量集;
[0070] Flickr是多模態(tài)媒體數(shù)據(jù)結(jié)構(gòu)圖中的橋梁,所以如果Flickr的圖像標(biāo)注信息與主 題相差很大的話(huà)會(huì)嚴(yán)重影響多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)的形成,這就主要需要對(duì)Flickr的文本 信息進(jìn)行去噪。我們將收集到的每個(gè)地點(diǎn)的所有文本視為一個(gè)文本文件,這些文件經(jīng)過(guò)LDA 處理以后生成了一個(gè)文本主題模型. . .,rn},第t個(gè)主題rt有j個(gè)單詞 r, ={?...,〃丨,…0,〃(代表第t個(gè)主題的第k個(gè)單詞。經(jīng)過(guò)計(jì)算Flickr的文本和所有的主 題的相似度,去掉相似度較低的Flickr文本噪聲。Flickr的圖像F和每個(gè)文本主題r的相似 度計(jì)算公式為:
[0071 ] Sh,t; (r.F) = argmax(/?(//,; .//; }x P(u[ jr))
[0072] 是F1 i ckr的圖像F的文本標(biāo)注的第a個(gè)單詞,< 是主題t的單詞集合中的第k個(gè)單 詞。是兩個(gè)單詞之間的相似度,是單詞4出現(xiàn)在主題r的概率,相似度取兩 單詞間的最大值。如果相似度很低,就將該文本和對(duì)應(yīng)的圖像濾掉,提高Flickr數(shù)據(jù)對(duì)地點(diǎn) 描述的精確性。
[0073] 對(duì)Foursquare的文本數(shù)據(jù)而言,可以通過(guò)刪除掉文本中的冗雜單詞(stopwords) 實(shí)現(xiàn)數(shù)據(jù)的去噪。
[0074] 去噪后的Flickr文本數(shù)據(jù)為2086條,F(xiàn)oursquare文本數(shù)據(jù)為3331條,對(duì)這些數(shù)據(jù) 進(jìn)行LDA處理,得到初始文本特征向量集T= {t1,!:2, . . .,ts},定義為文本特征庫(kù)TFD(Text Feature Database)〇
[0075] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)MD(Multimedia Database)中,采用顏色特征(如參考文獻(xiàn)
[9])對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)B1,其中iG {1,2, ...,S}進(jìn)行處理,再經(jīng)過(guò)三層貝葉斯 概率模型處理、去噪后得到初始圖像特征向量集P;
[0076]對(duì)圖像數(shù)據(jù)進(jìn)行去噪同樣是將與地點(diǎn)相關(guān)性小的圖像濾掉。針對(duì)Flickr和 Foursquare數(shù)據(jù)的不同,要分別對(duì)其進(jìn)行處理。
[0077] Foursquare : Four square上的圖像是根據(jù)用戶(hù)上傳照片時(shí)所處的地理位置決定 的,所以按道理來(lái)說(shuō),來(lái)自同一地點(diǎn)的圖像應(yīng)該都反映相同的場(chǎng)景。比如同一地點(diǎn)的白天和 黑夜的圖像在顏色方面有很大的不同,這兩張圖像雖然差異很大,但反映的是同一地點(diǎn)的 場(chǎng)景。我們?cè)O(shè)定來(lái)自同一地點(diǎn)的圖像在特征空間具有一致性或者類(lèi)似性,利用上述假設(shè)就 可以濾除圖像噪聲。具體處理過(guò)程如下:
[0078]根據(jù)地點(diǎn)圖像經(jīng)常出現(xiàn)的幾種特征將圖像大概分為幾類(lèi),本算法使用K均值聚類(lèi) 將圖像分為5類(lèi);由于每一類(lèi)的圖像特征對(duì)地點(diǎn)的描述程度不同、數(shù)量不同,所以應(yīng)該對(duì)每 類(lèi)圖像賦予不同的權(quán)值。設(shè)定每類(lèi)的初始權(quán)重為
,(:=1,2,...,1],1]是生成的類(lèi)別的 個(gè)數(shù),n。是第c個(gè)子類(lèi)包含的圖像的數(shù)目,N是聚類(lèi)的所有圖像的數(shù)目,w。是每個(gè)子類(lèi)所占的 權(quán)重。然后采用隨機(jī)游走算法不斷對(duì)子類(lèi)的權(quán)重進(jìn)行更新,收斂后得到的結(jié)果即為最終的 子類(lèi)所占權(quán)重。我們選擇權(quán)重最大的前3個(gè)子類(lèi)作為訓(xùn)練數(shù)據(jù),剩余的2個(gè)子類(lèi)被作為噪聲 濾除掉。
[0079] FI i ckr: FI i ckr中的圖像都有文本標(biāo)注,所以可以直接計(jì)算文本標(biāo)注和地點(diǎn)主題 的相似度,濾除不相關(guān)圖像。與Four square的文本預(yù)處理相同,需要將FI i ckr的文本標(biāo)注中 一些與地點(diǎn)無(wú)關(guān)的單詞濾掉,比如'Nikon','Canon'等。在步驟202中已經(jīng)提取了每個(gè)地點(diǎn) 的LDA主題模型后,選擇Z個(gè)主題用來(lái)描述地點(diǎn)0={01,0 2,...,02}。文本標(biāo)注和主題之間的 相似度S(W,Topic)取所有文本標(biāo)注單詞和主題之間相似度的最大值。
[0080] 去噪后的Fli ckr圖像數(shù)據(jù)為2086條,F(xiàn)oursquare圖像數(shù)據(jù)為5536條,不失一般性 的,對(duì)去噪后的圖像特征進(jìn)行LDA處理,得到初始圖像特征向量集P= {p^p2, . . .,ps},定義 為圖像特征庫(kù)PFD(Picture Feature Database)。
[0081] 4)將所有地點(diǎn)的初始文本特征向量集T= {t1,!:2, ...,1/,...,ts}和初始圖像特征 向量集Pib1,#,... 41,...,PS}進(jìn)行集合,將其定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù);
[0082]去噪后的媒體數(shù)據(jù)示意圖如圖2。
[0083] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入,初始化模型參數(shù),構(gòu)建多模態(tài)媒體 數(shù)據(jù)圖結(jié)構(gòu),得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集巾=.....^ ;
[0084] 下面詳細(xì)介紹得到構(gòu)建多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)的具體過(guò)程:
[0085] 我們將需要處理的數(shù)據(jù)分為兩類(lèi):圖像數(shù)據(jù)和文本數(shù)據(jù)。所以可以先將圖像數(shù)據(jù) 和文本數(shù)據(jù)分開(kāi)處理,再進(jìn)行統(tǒng)一整合。
[0086] ; ,其中XHf表包含no張具有文本標(biāo)簽的Flickr圖像數(shù)據(jù)和m張不包含任 何文本信息的Foursquare圖像數(shù)據(jù)的特征矩陣。在上式中Ni = no+ni,即總的圖像數(shù)據(jù)的數(shù) 量,nu代表圖像的空間視覺(jué)特征維度。
[0087] Flickr的圖像數(shù)據(jù)和文本數(shù)據(jù)的數(shù)量都為no的原因是Flickr這個(gè)社交網(wǎng)絡(luò)的特 點(diǎn)是每張圖像都有一條文本標(biāo)簽。
[0088] 將Foursquare和Flickr的圖像和文本數(shù)據(jù)分別結(jié)合起來(lái)的目的是賦予來(lái)自不同 社交網(wǎng)絡(luò)的相同模式的數(shù)據(jù)相同的維數(shù)以便于計(jì)算,然后通過(guò)形成的數(shù)據(jù)特征矩陣的因子 分解得到圖像數(shù)據(jù)的特征映射。和文本數(shù)據(jù)的特征映射匕,在這兩個(gè)變量中 d為統(tǒng)一特征空間下的特征維數(shù)。具體實(shí)現(xiàn)過(guò)程如下:
[0089] 設(shè)定巧#和X2: ?,其中R ,:£/2 e ,山是心轉(zhuǎn)換到%的近似的 過(guò)渡矩陣,同樣地,1]2是心轉(zhuǎn)換到V2的近似的過(guò)渡矩陣。為了得到圖像數(shù)據(jù)和文本數(shù)據(jù)的特 征映射,就要將不同特征空間下的圖像特征和文本特征轉(zhuǎn)換到相同的特征空間下,通過(guò)上 述方法這些數(shù)據(jù)可以保持一致性和流形特征。內(nèi)部數(shù)據(jù)的一致性代表圖像和相關(guān)文本文檔 (比如圖像和文本標(biāo)簽)應(yīng)該具有類(lèi)似的或者是相同的特征映射,保持原有的特性代表圖像 和文本應(yīng)當(dāng)具有相同的特征映射。
[0090]如上所述,我們首先對(duì)得到no張具有標(biāo)簽的Flickr圖像數(shù)據(jù)和對(duì)應(yīng)的文本數(shù)據(jù)進(jìn) 行處理,由這些數(shù)據(jù)得到的圖像數(shù)據(jù)和文本數(shù)據(jù)的特征映射的之間應(yīng)當(dāng)比較接近。因此我 們定義了兩個(gè)選擇矩陣
[0093] 在上式中I為單位矩陣,0為零矩陣。由于Pi中前no列為單位矩陣,所以對(duì)應(yīng)Flickr 的相關(guān)圖像數(shù)據(jù)。由于P2中前no列為單位矩陣,所以對(duì)應(yīng)Flickr的相關(guān)文本數(shù)據(jù)。這些選擇 矩陣能夠分別WVjPV 2中得至Ijno張圖像的特征映射和no條文本的特征映射。PM和Flickr的 no張圖像的特征映射相對(duì)應(yīng),P 2V2和Flickr的no條文本標(biāo)簽的特征映射相對(duì)應(yīng)。Flickr中具 有文本標(biāo)簽的圖像可以被當(dāng)成聯(lián)系Four square圖像和文本文件間語(yǔ)義缺口的橋梁。為了使 內(nèi)部媒體數(shù)據(jù)之間具有一致性,不僅需要使用選擇矩陣,還需要對(duì)下式極小化。
[0094] Tr( (PiVi-P2V2)tD(PiVi-P2V2))
[0095] 上式中,Tr( ?)是矩陣的軌跡,即取對(duì)角線(xiàn)上的元素。Deg"%是對(duì)角元素為較大 的正數(shù)常量的對(duì)角矩陣。PiVi-PWs代表具有相關(guān)性的Flickr的圖像和文本的特征映射之間 的差值。當(dāng)VdPV 2的值最小時(shí),具有一致性和語(yǔ)義相似性的文本數(shù)據(jù)和圖像數(shù)據(jù)將會(huì)有類(lèi)似 的特征映射。
[0096] 特征映射可以保護(hù)數(shù)據(jù)的局部結(jié)構(gòu)信息比如流形特征。為了達(dá)到上述目的,我們 定義一個(gè)圖像類(lèi)同矩陣Vl和文本類(lèi)同矩陣為代表圖像e和圖像s的 相似度,(A 2)es代表文本文件e和文本文件s的相似度。
[0097] 根據(jù)上述的流形假設(shè),如果兩個(gè)數(shù)據(jù)點(diǎn)在固定的數(shù)據(jù)分布幾何學(xué)中非常接近,那 么這兩個(gè)點(diǎn)的特征映射之間也非常接近。就圖像而言,我們將其視為一個(gè)最小限度問(wèn)題:
[0099] 上式中(Vde為圖像e的特征映射,(Vi)s為圖像s的特征映射,U是一個(gè)圖像拉普拉 斯算子。
[0100] 我們對(duì)下面的函數(shù)進(jìn)行最小化來(lái)生成特征映射:
[0101] 0 = ^||^ -L/^r|!> + 12||X2-U2V7t ||> +//Tr((^ -F2F2 f D(P^-P2V? )) + ?//-(^1^) + a22>(I^Z,2) + 7(||t/邶+||f/2||》+n+r其)
[0102]上式中4是實(shí)際圖像數(shù)據(jù)XjP經(jīng)過(guò)跨域轉(zhuǎn)換后的圖像數(shù)據(jù)Rff之間的誤 差,Tr (() TD ())是VjPV2的最小化問(wèn)題,TV 是圖像和圖像之間的相 似度誤差。
[0103]由于上式中存在四個(gè)變量山、U2、VjPV2,所以該方程存在非球面的最優(yōu)化問(wèn)題。但 是當(dāng)固定其他三個(gè)矩陣變量時(shí),對(duì)另一個(gè)矩陣變量來(lái)說(shuō)該方程為球面的最優(yōu)化問(wèn)題。因此, 可以通過(guò)迭代的方式來(lái)解決上式的最優(yōu)化問(wèn)題。特別地,通過(guò)固定山^和^我們可以通過(guò)
時(shí)的極小值,我們可以得到山的值的更新,如下式所示:
求導(dǎo)得到 。因此,當(dāng)-的值等于零時(shí),上式存在山為變量 I.
[0105] U2的值也可以通過(guò)相似的方式得到更新。
[0106] 通過(guò)固定1]1、1]2和%,我們可以通過(guò)求導(dǎo)得到
因此,當(dāng)_
的值等于零時(shí),特征映射方程存在Vi為變量時(shí)的極小值,我們也可以得到 乂:的更新值:
[0107] +yl + P;DP])V] +P"
[0108] 將求導(dǎo)公式簡(jiǎn)化為西爾維斯特方程AVi+ViB = C,在本式中
[0109] A = + vi + P]T DP,
[0110] B = AlU{Ul
[0111] C = A.XlUl+PlrDP2V 2
[0112] 若要想得到%的更新值,求導(dǎo)公式必須要有唯一解。當(dāng)且僅當(dāng)固有值A(chǔ)和B各自滿(mǎn) 足:對(duì)所有的i和j,Pi+qj辛〇,其中Pi和qj分別代表A和B的固有值。經(jīng)過(guò)計(jì)算可以發(fā)現(xiàn)A是對(duì) 稱(chēng)的半正定矩陣之和,I是一個(gè)正定值。同樣地,如果Y為足夠大的值,A就為一正定矩陣并 且對(duì)所有的i來(lái)說(shuō)都有 ?1>〇。我們同樣注意到B是半正定的格拉姆矩陣。同樣地,對(duì)所有的j 來(lái)說(shuō)都有W0。因此,滿(mǎn)足上述的Pi+qfO這一條件并且通過(guò)解西爾維斯特方程可以 得到特征映射映射最優(yōu)化的唯一解。
[0113] V2的更新值也可以通過(guò)相同的方法得到。
[0114] 數(shù)據(jù)經(jīng)過(guò)多模態(tài)媒體數(shù)據(jù)圖后得到最終的特征向量集合,其中 特征向量的維數(shù)分別為1 〇,50和100,示例圖如圖3;
[0115] 6)對(duì)得到的向量集進(jìn)行K均值聚類(lèi),得到1000個(gè)基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題 模型〇={ 01,02,. . .,01QQQ},基于該主題模型計(jì)算圖像特征和文本特征之間的歐氏距離 <.=' j: + (nl .實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。
[0116] 將多模態(tài)媒體數(shù)據(jù)映射到同一特征空間后文本數(shù)據(jù)和圖像數(shù)據(jù)之間就具有一定 的聯(lián)系,不失一般性的,采用歐氏距離(如參考文獻(xiàn)[10])為例,可以得到與圖像數(shù)據(jù)最相似 的文本數(shù)據(jù),從而實(shí)現(xiàn)多媒體圖像數(shù)據(jù)的文本標(biāo)注,示例圖如圖4。
[0117] 實(shí)驗(yàn)
[0118] 本實(shí)驗(yàn)使用的數(shù)據(jù)庫(kù)為由步驟1)構(gòu)建的多模態(tài)媒體數(shù)據(jù)庫(kù)MD。這是來(lái)自?xún)蓚€(gè)社交 網(wǎng)絡(luò)的多模態(tài)媒體數(shù)據(jù)庫(kù),共包含來(lái)自41個(gè)地點(diǎn)的2086條Flickr圖像數(shù)據(jù),2086條Flickr 文本數(shù)據(jù),5536條Foursquare圖像數(shù)據(jù),3331條Foursquare文本數(shù)據(jù)。
[0119] 不失一般性的,采用三個(gè)評(píng)估標(biāo)準(zhǔn):每一類(lèi)中圖像和文本的一致性;文本對(duì)圖像描 述的完整性;用戶(hù)對(duì)分類(lèi)結(jié)果的滿(mǎn)意度。為了評(píng)估的有效性,選擇15人,每人在10維、50維、 100維的文件夾中分別隨機(jī)抽取20類(lèi),對(duì)每一類(lèi)中的內(nèi)容進(jìn)行評(píng)判,形成用戶(hù)評(píng)判結(jié)果的百 分比并求得平均值。
[0120] 用戶(hù)對(duì)圖像標(biāo)注的評(píng)判是對(duì)算法性能的另一種評(píng)估。圖像標(biāo)注的結(jié)果中每一張圖 像都有其對(duì)應(yīng)的文本描述。通過(guò)圖像和文本的匹配度作出對(duì)標(biāo)注結(jié)果的評(píng)判。由于圖像標(biāo) 注中圖像來(lái)自Foursquare,文本則來(lái)自FI i ckr和Foursquare,并且有的文本內(nèi)容為空,所以 會(huì)導(dǎo)致文本標(biāo)注的不完整性。在評(píng)估時(shí),將評(píng)估標(biāo)準(zhǔn)分為三個(gè)等級(jí),2表示文本基本完整描 述了圖像,1表示文本中有些單詞與圖像相關(guān),〇為其他情況。
[0121] 實(shí)驗(yàn)結(jié)果
[0122] 多模態(tài)媒體數(shù)據(jù)庫(kù)MD中主題模型和圖片評(píng)估的評(píng)估結(jié)果分別如圖5,6所示。評(píng)估 結(jié)果越高,性能越優(yōu)良。
[0123] 由圖5可知,本方法中最終的特征向量集合維數(shù)為100時(shí)結(jié)果最好,并且由圖6可 知,當(dāng)最終的特征向量為100維時(shí)圖片標(biāo)注的效果也是最好的。這是由于特征維數(shù)越大能夠 描述的圖片的信息就越多,分類(lèi)效果就越好。
[0124] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施例的示意圖,上述本發(fā)明實(shí)施例 序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0125] 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
[0126] 參考文獻(xiàn):
[0127] [1]莊越挺,潘云鶴,吳飛,等.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學(xué)出 版社,2002:4-20.
[0128] [2]Salton G,Fox E A,ffu H.Extended Boolean Information Retrieval[J] .Commun.ACM,1983,26(11):1022-1036.
[0129] [3]張治國(guó).中文文本分類(lèi)反饋學(xué)習(xí)研究[D].西安:西安電子科技大學(xué),2009.
[0130] [4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal Mach Intell,2010,32(9):1627-1645.
[0131] [5]Belani A . Vandal i sm Detection in Wikipedia : a Bag-〇f-ffords Classifier Approach[J].CoRR,2010,abs/1001.0700.
[0132] [6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montreal:NIPS, 2001.32-439.
[0133] [7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[0134] [8]鄭伯川,彭維,張引,等.3D模型檢索技術(shù)綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué) 報(bào),2004,16(7):873-881.
[0135] [9]Stricker M,0rengo M.Similarity of Color Images[C].Nagova?Japan: 1995.381-392 .[10]Bradley P S,Reina C,Fayyad U M.Clustering Very Large Databases Using EM Mixture Models[C].Barcelona:ICPR,2000.198-208.
【主權(quán)項(xiàng)】
1. 一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型,其特征在于,包括以下步驟: 1) 采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù),得到各地點(diǎn)的初始多模態(tài)媒體數(shù)據(jù) 集,將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù); 2) 在多模態(tài)媒體數(shù)據(jù)庫(kù)中,對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋模型 得到文本中前1000~1500個(gè)單詞,對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率 模型的提取,去噪后得到初始文本特征向量集I 2 e 0"^ 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目,m2為特征的維度; 3) 在多模態(tài)媒體數(shù)據(jù)庫(kù)中,采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理,再 經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集不 其中見(jiàn)為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目,特征的維度; 4) 將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合,將其定義為多 模態(tài)媒體數(shù)據(jù)特征庫(kù); 5) 以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入,初始化模型參數(shù),構(gòu)建多模態(tài)媒體數(shù)據(jù) 圖結(jié)構(gòu),得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集; 6) 對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi),得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型,計(jì) 算主題模型中圖像特征和文本特征之間的歐氏距離,實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。2. 根據(jù)權(quán)利要求1所述的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型,其特征在于, 步驟5)包括: (1)根據(jù)初始圖像特征向量集A 和初始文本特征向量集義'得到多模 態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式:其中: 設(shè)定不X,其中[Z1 ,(/2 e0n-,山是父:轉(zhuǎn)換到V1的近似的過(guò) 渡矩陣,1]2是辦轉(zhuǎn)換到V2的近似的過(guò)渡矩陣;? I為單位矩陣,O為零矩陣,no為Flickr圖像數(shù)據(jù)的 數(shù)量,m為Foursquare圖像數(shù)據(jù)的數(shù)量,m為Foursquare文本數(shù)據(jù)的數(shù)量,D為對(duì)角矩陣;II^(A1)e3s代表圖像e和圖像s的相似度,(V 1)e3為圖像 e的跨域特征,(V1)s為圖像s的跨域特征,L1是拉普拉斯算子;H(A2)es代表文本e和文本s的相似度,(V 2)e為文 本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;數(shù); 中d為要得到的特征映射的維度; ⑵對(duì)誤差值關(guān)系式中的 (3)分別固定1]1、1]2、¥1和%并求導(dǎo),不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定的最 小值,此時(shí)的化和%即為多模態(tài)媒體數(shù)據(jù)的特征映射,即不同模態(tài)數(shù)據(jù)在同一特征空間下的 特征向量集。
【文檔編號(hào)】G06F17/30GK105893573SQ201610202586
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】劉安安, 師陽(yáng), 聶為之, 蘇育挺
【申請(qǐng)人】天津大學(xué)