一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法

文檔序號(hào)：10535023閱讀：309來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法
【專(zhuān)利摘要】一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型：將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù)；對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取，得到初始文本特征向量集；采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理得到初始圖像特征向量集；將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù)；得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集；得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型，計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離，實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。本發(fā)明避免了多媒體數(shù)據(jù)的模態(tài)單一性，實(shí)現(xiàn)了基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)的主題提取。
【專(zhuān)利說(shuō)明】
一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種多模態(tài)媒體數(shù)據(jù)主題提取模型。特別是涉及一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型。
【背景技術(shù)】
[0002] 現(xiàn)如今人類(lèi)生活已經(jīng)離不開(kāi)網(wǎng)絡(luò)，人們可以通過(guò)多種多樣的社交軟件了解身邊發(fā) 生的大事小事。隨著信息技術(shù)的日益發(fā)展，多媒體數(shù)據(jù)的表現(xiàn)形式也由單一的文本逐漸豐富為視頻、音頻、動(dòng)畫(huà)和圖形等，隨之而來(lái)的就是多媒體數(shù)據(jù)正呈現(xiàn)海量增長(zhǎng)的趨勢(shì)。如何對(duì)這些媒體類(lèi)型的信息進(jìn)行快速準(zhǔn)確的檢索和分類(lèi)已經(jīng)成為人們迫切的需要(如參考文獻(xiàn)
[1])，并吸引了眾多科研工作者的目光，多媒體數(shù)據(jù)信息檢索順利成章的成為了當(dāng)下的研究熱點(diǎn)。
[0003] 多媒體信息檢索與分類(lèi)是基于數(shù)字圖像處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等技術(shù)，借助于計(jì)算機(jī)處理技術(shù)，對(duì)數(shù)據(jù)庫(kù)中的多媒體信息進(jìn)行分析比較的過(guò)程。目前，多媒體信息檢索研究主要分為兩類(lèi):基于文本方式的信息檢索、基于內(nèi)容的多媒體信息檢索技術(shù)?；谖?本方式的信息檢索方法簡(jiǎn)單快速，但已經(jīng)無(wú)法滿(mǎn)足現(xiàn)如今多媒體數(shù)據(jù)檢索的需要(如參考文獻(xiàn)[2])?；趦?nèi)容的多媒體信息檢索方法提取多媒體數(shù)據(jù)的語(yǔ)義信息形成數(shù)據(jù)的特征向量，通過(guò)找到最大相似度的特征向量進(jìn)而完成檢索(如參考文獻(xiàn)[3])。但是多媒體數(shù)據(jù)的語(yǔ) 義層次越高，檢索所需的計(jì)算就越復(fù)雜。兩類(lèi)方法各有優(yōu)劣，但由于基于內(nèi)容的多媒體信息檢索技術(shù)適用于如今多樣的多媒體數(shù)據(jù)的形式，因而得到了廣泛應(yīng)用 [4]。
[0004] 多媒體數(shù)據(jù)的主題提取目前面臨的主要挑戰(zhàn)為：多媒體數(shù)據(jù)具有多模態(tài)特性，而且社交網(wǎng)絡(luò)的多樣性導(dǎo)致了多媒體數(shù)據(jù)之間的聯(lián)系也具有多樣性，如今大多數(shù)方法只能處理單模態(tài)的多媒體數(shù)據(jù)，限制了實(shí)際應(yīng)用范圍。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問(wèn)題是，提供一種實(shí)現(xiàn)了多媒體數(shù)據(jù)在不同模態(tài)和不同社交網(wǎng)絡(luò)上的跨域?qū)W習(xí)，提高了多模態(tài)媒體數(shù)據(jù)主題提取準(zhǔn)確度的基于地點(diǎn)的多模態(tài)媒體數(shù) 據(jù)主題提取模型
[0006] 本發(fā)明所采用的技術(shù)方案是：一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型，包括以下步驟：
[0007] 1)采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù)，得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集，將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù)；
[0008] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中，對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋模型得到文本中前1000~1500個(gè)單詞，對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取，去噪后得到初始文本特征向量集x 2
[0009] 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目，m2為特征的維度；
[0010] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)中，采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理，再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集4
[0011] 其中見(jiàn)為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目，特征的維度；
[0012] 4)將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合，將其定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù)；
[0013] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入，初始化模型參數(shù)，構(gòu)建多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集；
[0014] 6)對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi)，得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型，計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離，實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。
[0015] 步驟5)包括：
[0016] (1)根據(jù)初始圖像特征向量集和初始文本特征向量集X_7 ，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式：
[0017] 0 = ^1^ -C/,^r|!> +l2j|X2 -C/2nr||>+//Tr((^ -P2V2 f D(PXVX ~P,V2)Ya,Tr(}\T 1^) + a2rr(^2F2) + r(||i71||^+||C/2||^+||^||^+||^||^)
[0018] 其中：
[0019] 設(shè)定12?172校，其中Reg-，￡72^0_，1] 1是父1轉(zhuǎn)換到￥1的近似的過(guò)渡矩陣，1]2是辦轉(zhuǎn)換到V 2的近似的過(guò)渡矩陣；
[0020] 巧=^"。、〇"。;^，1為單位矩陣，〇為零矩陣，11()為？11(^圖像數(shù) 據(jù)的數(shù)量，m為Foursquare圖像數(shù)據(jù)的數(shù)量，n2為Foursquare文本數(shù)據(jù)的數(shù)量，D為對(duì)角矩陣；
代表圖像e和圖像s的相似度，（V〇A 圖像e的跨域特征，（V〇s為圖像s的跨域特征，U是拉普拉斯算子；
尼，(A2)es代表文本e和文本S的相似度，（V2)e 為文本e的跨域特征，（V2)s為文本s的跨域特征，L2是拉普拉斯算子；
[0023] ^^、(^、(^和丫為模型參數(shù)；
[0024] ，其中要得到的特征映射的維度；
[0025] (2)對(duì)誤差值關(guān)系式中的^^(^、(^、化和乂:^初始化；
[0026] (3)分別固定1]1、1]2、￥1和￥2并求導(dǎo)，不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定的最小值，此時(shí)的化和％即為多模態(tài)媒體數(shù)據(jù)的特征映射，即不同模態(tài)數(shù)據(jù)在同一特征空間下的特征向量集。
[0027] 本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型，具有的有益效果是：
[0028] 1、避免了多媒體數(shù)據(jù)的模態(tài)單一性，可以應(yīng)用于多種模態(tài)的多媒體數(shù)據(jù)庫(kù)，即當(dāng) 多媒體數(shù)據(jù)庫(kù)中既有文本數(shù)據(jù)又有圖像數(shù)據(jù)時(shí)，本方法依然可行；
[0029] 2、采用基于跨域?qū)W習(xí)的多媒體主題提取模型，通過(guò)某一社交網(wǎng)絡(luò)中多模態(tài)媒體數(shù) 據(jù)之間的聯(lián)系將其他多模態(tài)媒體數(shù)據(jù)映射到同一特征空間下，實(shí)現(xiàn)了基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)的主題提?。?br>[0030] 3、結(jié)合使用上述模型對(duì)圖像數(shù)據(jù)進(jìn)行文本標(biāo)注，建立了圖像數(shù)據(jù)和文本數(shù)據(jù)的聯(lián) 系，實(shí)現(xiàn)了該模型的應(yīng)用。
【附圖說(shuō)明】
[0031] 圖1是本發(fā)明基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的流程圖；
[0032]圖2a是雅虎網(wǎng)站(Flickr)數(shù)據(jù)樣例，其文本標(biāo)注為"星巴克"；
[0033]圖2b是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例，其文本標(biāo)注為"海灣風(fēng)景"；
[0034]圖2c是四方網(wǎng)站(Foursquare)數(shù)據(jù)樣例，其文本標(biāo)注為"房間浴室"；
[0035]圖3a是特征維數(shù)為10維的主題模型樣例，文本標(biāo)注為"舒服的房間"；
[0036]圖3b是特征維數(shù)為100維的主題模型樣例，文本標(biāo)注為"沙灘"；
[0037] 圖3c是特征維數(shù)為1000維的主題模型樣例，文本標(biāo)注為"周末夜景"；
[0038] 圖4a是特征維數(shù)為10維的圖片標(biāo)注樣例，文本標(biāo)注為"燈光"；
[0039] 圖4b是特征維數(shù)為100維的圖片標(biāo)注樣例，文本標(biāo)注為"聚會(huì)"；
[0040] 圖4c是特征維數(shù)為1000維的圖片標(biāo)注樣例，文本標(biāo)注為"海鮮食品"；
[0041 ]圖5是基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型的評(píng)估結(jié)果；
[0042] 圖6是圖片標(biāo)注的評(píng)估結(jié)果。
【具體實(shí)施方式】
[0043] 下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型做出詳細(xì)說(shuō)明。
[0044] 研究表明：多模態(tài)媒體數(shù)據(jù)的特征映射分布情況與其數(shù)據(jù)本身的故有特征有非常緊密的聯(lián)系，可以通過(guò)最優(yōu)化主題模型得到同一特征空間下的多模態(tài)媒體數(shù)據(jù)特征向量進(jìn) 而計(jì)算數(shù)據(jù)之間的關(guān)系。本發(fā)明提出了一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型。
[0045] 如圖1所示，本發(fā)明的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型，包括以下步驟：
[0046] 1)采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù)，得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集，將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù)；
[0047] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中，對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋模型（如參考文獻(xiàn)[5])得到文本中前1000~1500個(gè)單詞，對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù) 據(jù)進(jìn)行三層貝葉斯概率模型（Latent Dirichlet Allocation，LDA(如參考文獻(xiàn)[6]))的提取，去噪后得到初始文本特征向量集；
[0048] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)中，采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理，再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集；
[0049] 4)將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合，將其定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù)；
[0050] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入，初始化模型參數(shù)，構(gòu)建多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集;包括：
[0051 ] (1)根據(jù)初始圖像特征向量集；€ 和初始文本特征向量集義e ，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式：
[0052] 0 = l.WX.-U^t+X.WX.-U^ ||；. + /iTr((^ -P2F2f Z)(^ -P2F2)) + ?irr(^Z1F1) + tt2rr(F/l2r2) + 7(||[/t||-；+||t/2||-；+||Ft||-；+||F 2||-；)
[0053] 其中：
[0054] 設(shè)定，其中（72€0￥/，.1]1是)(1轉(zhuǎn)換到1的近似的過(guò)渡矩陣，1] 2是辦轉(zhuǎn)換到V2的近似的過(guò)渡矩陣；
-:￡.，J圖像e的特征映射，（V〇s為圖像s的特征映射，U是拉普拉斯算子；，1為單位矩陣，0為零矩陣，D為對(duì)角矩陣； 11]，(&^代表圖像6和圖像8的相似度，（￥1)6為
，（A2)es代表文本e和文本s的相似度，（V2) e 為文本e的特征映射，（V2)s為文本s的特征映射，L2是拉普拉斯算子；
[0058] ^^，^，(^，(^，丫為模型參數(shù)；
[0059] V^Q^d , V2^d其中d為要得到的特征映射的維度； .，：
[0060] (2)對(duì)誤差值關(guān)系式中的
[0061] (3)分別固定1]1、1]2、￥1和￥ 2并求導(dǎo)，不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定的最小值，此時(shí)的化和％即為多模態(tài)媒體數(shù)據(jù)的特征映射，即不同模態(tài)數(shù)據(jù)在同一特征空間下的特征向量集。
[0062] 6)對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi)(如參考文獻(xiàn)[7])，得到基于地點(diǎn)的多模態(tài) 媒體數(shù)據(jù)主題模型，計(jì)算主題模型中圖像特征和文本特征之間的歐氏距離，實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。
[0063] 下面結(jié)合具體的計(jì)算公式，對(duì)實(shí)施例1中的方案進(jìn)行詳細(xì)的介紹，詳見(jiàn)下文描述：
[0064] 1)采集S個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù)，得到各地點(diǎn)的初始多模態(tài)媒體數(shù) 據(jù)集m，將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體Milm1，!!!2, ...，ms}定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù)MD(Multimedia Database);
[0065] 本發(fā)明實(shí)施例首先采集來(lái)自S個(gè)地點(diǎn)的雅虎網(wǎng)站（FI ickr)和四方網(wǎng)站 (Foursquare)媒體數(shù)據(jù)(本例中S = 41)，過(guò)程如下：
[0066] 本發(fā)明是基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取，要收集數(shù)據(jù)的相關(guān)地點(diǎn)要比較熱門(mén)，所以我們要選擇比較受歡迎的地點(diǎn)。Foursquare中既有圖像數(shù)據(jù)又有文本數(shù)據(jù)而且它們?cè)跀?shù)量和內(nèi)容上基本沒(méi)有聯(lián)系，有的地點(diǎn)主頁(yè)中用戶(hù)上傳的信息較少不具有代表性，所以在選擇地點(diǎn)時(shí)要滿(mǎn)足三個(gè)條件：（1)擁有的用戶(hù)數(shù)量在1000以上；（2)地點(diǎn)主頁(yè)中用戶(hù)上傳的圖像數(shù)目大于1000; (3)用戶(hù)對(duì)地點(diǎn)的相關(guān)評(píng)論在200條以上。由此，我們選擇了41個(gè)比較受歡迎的地點(diǎn)。每個(gè)地點(diǎn)中所有的文本信息看成一個(gè)文本文檔，所以我們收集到的 Four square數(shù)據(jù)包含41個(gè)文本文檔和10631張圖像。
[0067]輔助域的數(shù)據(jù)主要從Flickr中獲取，F(xiàn)lickr作為一個(gè)專(zhuān)業(yè)級(jí)圖像分享網(wǎng)站，提供的圖像數(shù)據(jù)包含豐富的信息，包括標(biāo)注信息和圖像的地理信息(如參考文獻(xiàn)[8])。在Flickr 數(shù)據(jù)的收集中，可以通過(guò)一些圖像標(biāo)注候選詞匯作為搜索關(guān)鍵詞在Flickr平臺(tái)上收集圖像。對(duì)這41個(gè)地點(diǎn)我們均選擇搜集到的前60張圖像，共2460張。
[0068] 將S個(gè)地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集合并得到總初始視圖集M= {m1，!!!2, ...，ms}，將其定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)庫(kù)MD;
[0069] 2)在多模態(tài)媒體數(shù)據(jù)庫(kù)中，采用詞袋模型對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)L1，其中iG{l， 2, ...，S}，進(jìn)行自然語(yǔ)言處理，得到文本中前1000~1500個(gè)單詞，對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取，去噪后得到初始文本特征向量集；
[0070] Flickr是多模態(tài)媒體數(shù)據(jù)結(jié)構(gòu)圖中的橋梁，所以如果Flickr的圖像標(biāo)注信息與主題相差很大的話(huà)會(huì)嚴(yán)重影響多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)的形成，這就主要需要對(duì)Flickr的文本信息進(jìn)行去噪。我們將收集到的每個(gè)地點(diǎn)的所有文本視為一個(gè)文本文件，這些文件經(jīng)過(guò)LDA 處理以后生成了一個(gè)文本主題模型. . .，rn}，第t個(gè)主題rt有j個(gè)單詞 r, ={?...,〃丨，…0，〃(代表第t個(gè)主題的第k個(gè)單詞。經(jīng)過(guò)計(jì)算Flickr的文本和所有的主題的相似度，去掉相似度較低的Flickr文本噪聲。Flickr的圖像F和每個(gè)文本主題r的相似度計(jì)算公式為：
[0071 ] Sh,t； (r.F) = argmax(/?(//,； .//； }x P(u[ jr))
[0072] 是F1 i ckr的圖像F的文本標(biāo)注的第a個(gè)單詞，< 是主題t的單詞集合中的第k個(gè)單詞。是兩個(gè)單詞之間的相似度，是單詞4出現(xiàn)在主題r的概率，相似度取兩單詞間的最大值。如果相似度很低，就將該文本和對(duì)應(yīng)的圖像濾掉，提高Flickr數(shù)據(jù)對(duì)地點(diǎn) 描述的精確性。
[0073] 對(duì)Foursquare的文本數(shù)據(jù)而言，可以通過(guò)刪除掉文本中的冗雜單詞（stopwords) 實(shí)現(xiàn)數(shù)據(jù)的去噪。
[0074] 去噪后的Flickr文本數(shù)據(jù)為2086條，F(xiàn)oursquare文本數(shù)據(jù)為3331條，對(duì)這些數(shù)據(jù) 進(jìn)行LDA處理，得到初始文本特征向量集T= {t1，!:2, . . .，ts}，定義為文本特征庫(kù)TFD(Text Feature Database)〇
[0075] 3)在多模態(tài)媒體數(shù)據(jù)庫(kù)MD(Multimedia Database)中，采用顏色特征（如參考文獻(xiàn)
[9])對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)B1，其中iG {1，2, ...，S}進(jìn)行處理，再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集P;
[0076]對(duì)圖像數(shù)據(jù)進(jìn)行去噪同樣是將與地點(diǎn)相關(guān)性小的圖像濾掉。針對(duì)Flickr和 Foursquare數(shù)據(jù)的不同，要分別對(duì)其進(jìn)行處理。
[0077] Foursquare : Four square上的圖像是根據(jù)用戶(hù)上傳照片時(shí)所處的地理位置決定的，所以按道理來(lái)說(shuō)，來(lái)自同一地點(diǎn)的圖像應(yīng)該都反映相同的場(chǎng)景。比如同一地點(diǎn)的白天和黑夜的圖像在顏色方面有很大的不同，這兩張圖像雖然差異很大，但反映的是同一地點(diǎn)的場(chǎng)景。我們?cè)O(shè)定來(lái)自同一地點(diǎn)的圖像在特征空間具有一致性或者類(lèi)似性，利用上述假設(shè)就可以濾除圖像噪聲。具體處理過(guò)程如下：
[0078]根據(jù)地點(diǎn)圖像經(jīng)常出現(xiàn)的幾種特征將圖像大概分為幾類(lèi)，本算法使用K均值聚類(lèi) 將圖像分為5類(lèi)；由于每一類(lèi)的圖像特征對(duì)地點(diǎn)的描述程度不同、數(shù)量不同，所以應(yīng)該對(duì)每類(lèi)圖像賦予不同的權(quán)值。設(shè)定每類(lèi)的初始權(quán)重為
，(：=1，2，...，1]，1]是生成的類(lèi)別的個(gè)數(shù)，n。是第c個(gè)子類(lèi)包含的圖像的數(shù)目，N是聚類(lèi)的所有圖像的數(shù)目，w。是每個(gè)子類(lèi)所占的權(quán)重。然后采用隨機(jī)游走算法不斷對(duì)子類(lèi)的權(quán)重進(jìn)行更新，收斂后得到的結(jié)果即為最終的子類(lèi)所占權(quán)重。我們選擇權(quán)重最大的前3個(gè)子類(lèi)作為訓(xùn)練數(shù)據(jù)，剩余的2個(gè)子類(lèi)被作為噪聲濾除掉。
[0079] FI i ckr: FI i ckr中的圖像都有文本標(biāo)注，所以可以直接計(jì)算文本標(biāo)注和地點(diǎn)主題的相似度，濾除不相關(guān)圖像。與Four square的文本預(yù)處理相同，需要將FI i ckr的文本標(biāo)注中一些與地點(diǎn)無(wú)關(guān)的單詞濾掉，比如'Nikon'，'Canon'等。在步驟202中已經(jīng)提取了每個(gè)地點(diǎn) 的LDA主題模型后，選擇Z個(gè)主題用來(lái)描述地點(diǎn)0={01，0 2，...，02}。文本標(biāo)注和主題之間的相似度S(W，Topic)取所有文本標(biāo)注單詞和主題之間相似度的最大值。
[0080] 去噪后的Fli ckr圖像數(shù)據(jù)為2086條，F(xiàn)oursquare圖像數(shù)據(jù)為5536條，不失一般性的，對(duì)去噪后的圖像特征進(jìn)行LDA處理，得到初始圖像特征向量集P= {p^p2, . . .，ps}，定義為圖像特征庫(kù)PFD(Picture Feature Database)。
[0081] 4)將所有地點(diǎn)的初始文本特征向量集T= {t1，!:2, ...，1/，...，ts}和初始圖像特征向量集Pib1，#，... 41，...，PS}進(jìn)行集合，將其定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù)；
[0082]去噪后的媒體數(shù)據(jù)示意圖如圖2。
[0083] 5)以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入，初始化模型參數(shù)，構(gòu)建多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集巾=.....^ ；
[0084] 下面詳細(xì)介紹得到構(gòu)建多模態(tài)媒體數(shù)據(jù)圖結(jié)構(gòu)的具體過(guò)程：
[0085] 我們將需要處理的數(shù)據(jù)分為兩類(lèi)：圖像數(shù)據(jù)和文本數(shù)據(jù)。所以可以先將圖像數(shù)據(jù) 和文本數(shù)據(jù)分開(kāi)處理，再進(jìn)行統(tǒng)一整合。
[0086] ; ，其中XHf表包含no張具有文本標(biāo)簽的Flickr圖像數(shù)據(jù)和m張不包含任何文本信息的Foursquare圖像數(shù)據(jù)的特征矩陣。在上式中Ni = no+ni，即總的圖像數(shù)據(jù)的數(shù) 量，nu代表圖像的空間視覺(jué)特征維度。
[0087] Flickr的圖像數(shù)據(jù)和文本數(shù)據(jù)的數(shù)量都為no的原因是Flickr這個(gè)社交網(wǎng)絡(luò)的特點(diǎn)是每張圖像都有一條文本標(biāo)簽。
[0088] 將Foursquare和Flickr的圖像和文本數(shù)據(jù)分別結(jié)合起來(lái)的目的是賦予來(lái)自不同社交網(wǎng)絡(luò)的相同模式的數(shù)據(jù)相同的維數(shù)以便于計(jì)算，然后通過(guò)形成的數(shù)據(jù)特征矩陣的因子分解得到圖像數(shù)據(jù)的特征映射。和文本數(shù)據(jù)的特征映射匕，在這兩個(gè)變量中 d為統(tǒng)一特征空間下的特征維數(shù)。具體實(shí)現(xiàn)過(guò)程如下：
[0089] 設(shè)定巧#和X2: ?，其中R ，:￡/2 e ，山是心轉(zhuǎn)換到％的近似的過(guò)渡矩陣，同樣地，1]2是心轉(zhuǎn)換到V2的近似的過(guò)渡矩陣。為了得到圖像數(shù)據(jù)和文本數(shù)據(jù)的特征映射，就要將不同特征空間下的圖像特征和文本特征轉(zhuǎn)換到相同的特征空間下，通過(guò)上述方法這些數(shù)據(jù)可以保持一致性和流形特征。內(nèi)部數(shù)據(jù)的一致性代表圖像和相關(guān)文本文檔 (比如圖像和文本標(biāo)簽)應(yīng)該具有類(lèi)似的或者是相同的特征映射，保持原有的特性代表圖像和文本應(yīng)當(dāng)具有相同的特征映射。
[0090]如上所述，我們首先對(duì)得到no張具有標(biāo)簽的Flickr圖像數(shù)據(jù)和對(duì)應(yīng)的文本數(shù)據(jù)進(jìn) 行處理，由這些數(shù)據(jù)得到的圖像數(shù)據(jù)和文本數(shù)據(jù)的特征映射的之間應(yīng)當(dāng)比較接近。因此我們定義了兩個(gè)選擇矩陣
[0093] 在上式中I為單位矩陣，0為零矩陣。由于Pi中前no列為單位矩陣，所以對(duì)應(yīng)Flickr 的相關(guān)圖像數(shù)據(jù)。由于P2中前no列為單位矩陣，所以對(duì)應(yīng)Flickr的相關(guān)文本數(shù)據(jù)。這些選擇矩陣能夠分別WVjPV 2中得至Ijno張圖像的特征映射和no條文本的特征映射。PM和Flickr的 no張圖像的特征映射相對(duì)應(yīng)，P 2V2和Flickr的no條文本標(biāo)簽的特征映射相對(duì)應(yīng)。Flickr中具有文本標(biāo)簽的圖像可以被當(dāng)成聯(lián)系Four square圖像和文本文件間語(yǔ)義缺口的橋梁。為了使內(nèi)部媒體數(shù)據(jù)之間具有一致性，不僅需要使用選擇矩陣，還需要對(duì)下式極小化。
[0094] Tr( (PiVi-P2V2)tD(PiVi-P2V2))
[0095] 上式中，Tr( ?)是矩陣的軌跡，即取對(duì)角線(xiàn)上的元素。Deg"%是對(duì)角元素為較大的正數(shù)常量的對(duì)角矩陣。PiVi-PWs代表具有相關(guān)性的Flickr的圖像和文本的特征映射之間的差值。當(dāng)VdPV 2的值最小時(shí)，具有一致性和語(yǔ)義相似性的文本數(shù)據(jù)和圖像數(shù)據(jù)將會(huì)有類(lèi)似的特征映射。
[0096] 特征映射可以保護(hù)數(shù)據(jù)的局部結(jié)構(gòu)信息比如流形特征。為了達(dá)到上述目的，我們定義一個(gè)圖像類(lèi)同矩陣Vl和文本類(lèi)同矩陣為代表圖像e和圖像s的相似度，(A 2)es代表文本文件e和文本文件s的相似度。
[0097] 根據(jù)上述的流形假設(shè)，如果兩個(gè)數(shù)據(jù)點(diǎn)在固定的數(shù)據(jù)分布幾何學(xué)中非常接近，那么這兩個(gè)點(diǎn)的特征映射之間也非常接近。就圖像而言，我們將其視為一個(gè)最小限度問(wèn)題：
[0099] 上式中（Vde為圖像e的特征映射，（Vi)s為圖像s的特征映射，U是一個(gè)圖像拉普拉斯算子。
[0100] 我們對(duì)下面的函數(shù)進(jìn)行最小化來(lái)生成特征映射：
[0101] 0 = ^||^ -L/^r|!> + 12||X2-U2V7t ||> +//Tr((^ -F2F2 f D(P^-P2V? )) + ?//-(^1^) + a22>(I^Z，2) + 7(||t/邶+||f/2||》+n+r其）
[0102]上式中4是實(shí)際圖像數(shù)據(jù)XjP經(jīng)過(guò)跨域轉(zhuǎn)換后的圖像數(shù)據(jù)Rff之間的誤差，Tr (() TD ())是VjPV2的最小化問(wèn)題，TV 是圖像和圖像之間的相似度誤差。
[0103]由于上式中存在四個(gè)變量山、U2、VjPV2，所以該方程存在非球面的最優(yōu)化問(wèn)題。但是當(dāng)固定其他三個(gè)矩陣變量時(shí)，對(duì)另一個(gè)矩陣變量來(lái)說(shuō)該方程為球面的最優(yōu)化問(wèn)題。因此，可以通過(guò)迭代的方式來(lái)解決上式的最優(yōu)化問(wèn)題。特別地，通過(guò)固定山^和^我們可以通過(guò)
時(shí)的極小值，我們可以得到山的值的更新，如下式所示：
求導(dǎo)得到。因此，當(dāng)-的值等于零時(shí)，上式存在山為變量 I.
[0105] U2的值也可以通過(guò)相似的方式得到更新。
[0106] 通過(guò)固定1]1、1]2和％，我們可以通過(guò)求導(dǎo)得到
因此，當(dāng)_
的值等于零時(shí)，特征映射方程存在Vi為變量時(shí)的極小值，我們也可以得到乂:的更新值：
[0107] +yl + P；DP])V] +P"
[0108] 將求導(dǎo)公式簡(jiǎn)化為西爾維斯特方程AVi+ViB = C，在本式中
[0109] A = + vi + P]T DP,
[0110] B = AlU{Ul
[0111] C = A.XlUl+PlrDP2V 2
[0112] 若要想得到％的更新值，求導(dǎo)公式必須要有唯一解。當(dāng)且僅當(dāng)固有值A(chǔ)和B各自滿(mǎn) 足:對(duì)所有的i和j，Pi+qj辛〇,其中Pi和qj分別代表A和B的固有值。經(jīng)過(guò)計(jì)算可以發(fā)現(xiàn)A是對(duì) 稱(chēng)的半正定矩陣之和，I是一個(gè)正定值。同樣地，如果Y為足夠大的值，A就為一正定矩陣并且對(duì)所有的i來(lái)說(shuō)都有 ?1>〇。我們同樣注意到B是半正定的格拉姆矩陣。同樣地，對(duì)所有的j 來(lái)說(shuō)都有W0。因此，滿(mǎn)足上述的Pi+qfO這一條件并且通過(guò)解西爾維斯特方程可以得到特征映射映射最優(yōu)化的唯一解。
[0113] V2的更新值也可以通過(guò)相同的方法得到。
[0114] 數(shù)據(jù)經(jīng)過(guò)多模態(tài)媒體數(shù)據(jù)圖后得到最終的特征向量集合，其中特征向量的維數(shù)分別為1 〇，50和100，示例圖如圖3;
[0115] 6)對(duì)得到的向量集進(jìn)行K均值聚類(lèi)，得到1000個(gè)基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型〇={ 01，02，. . .，01QQQ}，基于該主題模型計(jì)算圖像特征和文本特征之間的歐氏距離 <.=' j: + (nl .實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。
[0116] 將多模態(tài)媒體數(shù)據(jù)映射到同一特征空間后文本數(shù)據(jù)和圖像數(shù)據(jù)之間就具有一定的聯(lián)系，不失一般性的，采用歐氏距離(如參考文獻(xiàn)[10])為例，可以得到與圖像數(shù)據(jù)最相似的文本數(shù)據(jù)，從而實(shí)現(xiàn)多媒體圖像數(shù)據(jù)的文本標(biāo)注，示例圖如圖4。
[0117] 實(shí)驗(yàn)
[0118] 本實(shí)驗(yàn)使用的數(shù)據(jù)庫(kù)為由步驟1)構(gòu)建的多模態(tài)媒體數(shù)據(jù)庫(kù)MD。這是來(lái)自?xún)蓚€(gè)社交網(wǎng)絡(luò)的多模態(tài)媒體數(shù)據(jù)庫(kù)，共包含來(lái)自41個(gè)地點(diǎn)的2086條Flickr圖像數(shù)據(jù)，2086條Flickr 文本數(shù)據(jù)，5536條Foursquare圖像數(shù)據(jù)，3331條Foursquare文本數(shù)據(jù)。
[0119] 不失一般性的，采用三個(gè)評(píng)估標(biāo)準(zhǔn):每一類(lèi)中圖像和文本的一致性;文本對(duì)圖像描述的完整性；用戶(hù)對(duì)分類(lèi)結(jié)果的滿(mǎn)意度。為了評(píng)估的有效性，選擇15人，每人在10維、50維、 100維的文件夾中分別隨機(jī)抽取20類(lèi)，對(duì)每一類(lèi)中的內(nèi)容進(jìn)行評(píng)判，形成用戶(hù)評(píng)判結(jié)果的百分比并求得平均值。
[0120] 用戶(hù)對(duì)圖像標(biāo)注的評(píng)判是對(duì)算法性能的另一種評(píng)估。圖像標(biāo)注的結(jié)果中每一張圖像都有其對(duì)應(yīng)的文本描述。通過(guò)圖像和文本的匹配度作出對(duì)標(biāo)注結(jié)果的評(píng)判。由于圖像標(biāo) 注中圖像來(lái)自Foursquare，文本則來(lái)自FI i ckr和Foursquare，并且有的文本內(nèi)容為空，所以會(huì)導(dǎo)致文本標(biāo)注的不完整性。在評(píng)估時(shí)，將評(píng)估標(biāo)準(zhǔn)分為三個(gè)等級(jí)，2表示文本基本完整描述了圖像，1表示文本中有些單詞與圖像相關(guān)，〇為其他情況。
[0121] 實(shí)驗(yàn)結(jié)果
[0122] 多模態(tài)媒體數(shù)據(jù)庫(kù)MD中主題模型和圖片評(píng)估的評(píng)估結(jié)果分別如圖5,6所示。評(píng)估結(jié)果越高，性能越優(yōu)良。
[0123] 由圖5可知，本方法中最終的特征向量集合維數(shù)為100時(shí)結(jié)果最好，并且由圖6可知，當(dāng)最終的特征向量為100維時(shí)圖片標(biāo)注的效果也是最好的。這是由于特征維數(shù)越大能夠描述的圖片的信息就越多，分類(lèi)效果就越好。
[0124] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施例的示意圖，上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述，不代表實(shí)施例的優(yōu)劣。
[0125] 以上所述僅為本發(fā)明的較佳實(shí)施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
[0126] 參考文獻(xiàn)：
[0127] [1]莊越挺，潘云鶴，吳飛，等.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學(xué)出版社，2002:4-20.
[0128] [2]Salton G,Fox E A,ffu H.Extended Boolean Information Retrieval[J] .Commun.ACM，1983，26(11):1022-1036.
[0129] [3]張治國(guó).中文文本分類(lèi)反饋學(xué)習(xí)研究[D].西安:西安電子科技大學(xué)，2009.
[0130] [4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal Mach Intell,2010,32(9)：1627-1645.
[0131] [5]Belani A . Vandal i sm Detection in Wikipedia : a Bag-〇f-ffords Classifier Approach[J].CoRR,2010,abs/1001.0700.
[0132] [6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montreal:NIPS, 2001.32-439.
[0133] [7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[0134] [8]鄭伯川，彭維，張引，等.3D模型檢索技術(shù)綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué) 報(bào)，2004，16(7):873-881.
[0135] [9]Stricker M，0rengo M.Similarity of Color Images[C].Nagova?Japan： 1995.381-392 .[10]Bradley P S,Reina C,Fayyad U M.Clustering Very Large Databases Using EM Mixture Models[C].Barcelona:ICPR,2000.198-208.
【主權(quán)項(xiàng)】
1. 一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型，其特征在于，包括以下步驟： 1) 采集各個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)和文本數(shù)據(jù)，得到各地點(diǎn)的初始多模態(tài)媒體數(shù)據(jù) 集，將所有地點(diǎn)的多模態(tài)媒體數(shù)據(jù)集和文本數(shù)據(jù)總體定義為基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù) 庫(kù)； 2) 在多模態(tài)媒體數(shù)據(jù)庫(kù)中，對(duì)每個(gè)地點(diǎn)的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理后采用詞袋模型得到文本中前1000~1500個(gè)單詞，對(duì)經(jīng)過(guò)自然語(yǔ)言處理后的文本數(shù)據(jù)進(jìn)行三層貝葉斯概率模型的提取，去噪后得到初始文本特征向量集I 2 e 0"^ 其中N2為初始文本特征向量集中文本數(shù)據(jù)的數(shù)目，m2為特征的維度； 3) 在多模態(tài)媒體數(shù)據(jù)庫(kù)中，采用顏色特征對(duì)每個(gè)地點(diǎn)的多媒體圖像數(shù)據(jù)進(jìn)行處理，再經(jīng)過(guò)三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集不其中見(jiàn)為初始圖像特征向量集中圖像數(shù)據(jù)的數(shù)目，特征的維度； 4) 將所有地點(diǎn)的初始文本特征向量集和初始圖像特征向量集進(jìn)行集合，將其定義為多模態(tài)媒體數(shù)據(jù)特征庫(kù)； 5) 以多模態(tài)媒體數(shù)據(jù)特征庫(kù)作為模型的輸入，初始化模型參數(shù)，構(gòu)建多模態(tài)媒體數(shù)據(jù) 圖結(jié)構(gòu)，得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集； 6) 對(duì)得到的特征向量集進(jìn)行K均值聚類(lèi)，得到基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題模型，計(jì) 算主題模型中圖像特征和文本特征之間的歐氏距離，實(shí)現(xiàn)對(duì)多媒體圖像數(shù)據(jù)的文本標(biāo)注。2. 根據(jù)權(quán)利要求1所述的一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型，其特征在于，步驟5)包括： (1)根據(jù)初始圖像特征向量集A 和初始文本特征向量集義'得到多模態(tài)媒體數(shù)據(jù)在同一空間下的特征向量集和特征映射之間的誤差值關(guān)系式：其中：設(shè)定不X，其中[Z1 ，（/2 e0n-，山是父:轉(zhuǎn)換到V1的近似的過(guò) 渡矩陣，1]2是辦轉(zhuǎn)換到V2的近似的過(guò)渡矩陣；? I為單位矩陣，O為零矩陣，no為Flickr圖像數(shù)據(jù)的數(shù)量，m為Foursquare圖像數(shù)據(jù)的數(shù)量，m為Foursquare文本數(shù)據(jù)的數(shù)量，D為對(duì)角矩陣；II^(A1)e3s代表圖像e和圖像s的相似度，（V 1)e3為圖像 e的跨域特征，（V1)s為圖像s的跨域特征，L1是拉普拉斯算子；H(A2)es代表文本e和文本s的相似度，（V 2)e為文本e的跨域特征，（V2)s為文本s的跨域特征，L2是拉普拉斯算子；數(shù)；中d為要得到的特征映射的維度； ⑵對(duì)誤差值關(guān)系式中的 (3)分別固定1]1、1]2、￥1和％并求導(dǎo)，不斷重復(fù)求導(dǎo)過(guò)程直到誤差值關(guān)系式具有設(shè)定的最小值，此時(shí)的化和％即為多模態(tài)媒體數(shù)據(jù)的特征映射，即不同模態(tài)數(shù)據(jù)在同一特征空間下的特征向量集。
【文檔編號(hào)】G06F17/30GK105893573SQ201610202586
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】劉安安, 師陽(yáng), 聶為之, 蘇育挺
【申請(qǐng)人】天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉安安;師陽(yáng);聶為之;蘇育挺;
技術(shù)所有人：天津大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多媒體教室講臺(tái)3d模型相關(guān)技術(shù)

社交媒體傳播模型相關(guān)技術(shù)

多媒體講臺(tái)3d模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于地點(diǎn)的多模態(tài)媒體數(shù)據(jù)主題提取模型的制作方法