基于空間依賴性度量的數(shù)字圖像多語義標注方法
【專利摘要】本發(fā)明屬于數(shù)字圖像多語義標注方法,其特征在于依次包括如下步驟:(1)輸入語義已知的若干數(shù)字圖像以及待標注的所有數(shù)字圖像至計算機;(2)通過特征提取,得到所有圖像的特征向量集;(2)構(gòu)造已標注圖像的標簽向量和所有圖像最終標簽向量集;(3)計算特征向量集的Gram矩陣;(4)利用空間依賴性度量方法得到特征向量集和標簽向量集之間依賴性程度的度量值;(6)迭代過程中逐步提高依賴性度量值至最大,得到待標注圖像屬于各語義類的置信值;(7)設(shè)定閾值,判斷待標注圖像語義。本發(fā)明具有如下優(yōu)點:1)可利用大量未語義標注圖像提高標注效果;2)適用于多語義標注情況;3)較快的運算速度。
【專利說明】基于空間依賴性度量的數(shù)字圖像多語義標注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于空間依賴性度量的數(shù)字圖像半監(jiān)督多語義標注方法,屬于電 子信息【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 圖像語義標注旨在使用語義關(guān)鍵詞來表示一幅圖像的語義內(nèi)容,它對于圖像分析 理解和圖像檢索都具有非常重要的意義。早期的圖像語義標注需要專業(yè)人員根據(jù)每幅圖像 的語義人工標出關(guān)鍵詞,費時且具有主觀性。為了克服人工標注的這些缺陷,研究者在近年 提出了許多自動標注圖像語義內(nèi)容的方法,包括基于生成模型的翻譯模型,跨媒體相關(guān)模 型等方法,以及基于判別模型的非對稱支持向量機和層次分類等方法。一般地,這些方法本 質(zhì)上都可以看成是機器學(xué)習的過程:在已標注圖像組成的樣本數(shù)據(jù)集上學(xué)習并構(gòu)造出一個 統(tǒng)計分類模型,并利用該模型得到待標注圖像的語義類別。
[0003] 盡管眾多自動語義標注技術(shù)的提出為海量圖像數(shù)據(jù)的分析和理解提供了一個有 益的基礎(chǔ)和前提,但是該技術(shù)仍存在著不少瓶頸問題亟需解決。其中,圖像多語義和已標注 圖像過于稀少這兩類問題日益引起了研究者的廣泛關(guān)注。圖像多語義指一副圖像通常具 有多個不同語義,比如在風景圖中,一幅圖像可以同時擁有"天空"、"白云"、"草原"等主題; 在醫(yī)學(xué)圖像中,一張醫(yī)學(xué)圖像可同時包含與"腫瘤"、"結(jié)石"等疾病相關(guān)的信息。傳統(tǒng)機器 學(xué)習方法,包括近鄰法、決策樹、神經(jīng)網(wǎng)絡(luò)和支持向量機等,多屬于單標簽學(xué)習方法,不能直 接用于多語義情況下的圖像語義標注。這種單樣本擁有多類屬的情況在機器學(xué)習領(lǐng)域稱 為多標簽學(xué)習。目前,多標簽學(xué)習問題有Binary Relevance,Classifier Chains,MLKNN和 Rank-SVM等解決方法。這些方法是單標簽方法通過問題轉(zhuǎn)換或算法改進得到,在實際應(yīng)用 中各有優(yōu)劣。
[0004] 除多語義問題之外,自動語義標注技術(shù)還存在著已標注圖像過于稀少的問題。造 成這一問題的主要原因是因為已標注圖像的獲得通常都需要耗費大量的人力和物力。尤其 是多語義情況下,隨著語義類別的增加,各類已標注圖像數(shù)目相對減少,這一問題就顯得尤 其尖銳。已標注樣本過于稀少會導(dǎo)致分類模型泛化性能的下降,進而影響語義標注的準確 率。解決這一問題的一個有效途徑就是發(fā)展半監(jiān)督語義標注方法。目前,盡管半監(jiān)督學(xué)習 方法已有很大發(fā)展,提出了包括TSVM,圖半監(jiān)督學(xué)習等多種方法,但是可應(yīng)用于多語義(多 標簽)學(xué)習問題的半監(jiān)督學(xué)習方法仍比較罕見。
[0005] 針對上述兩個問題,本發(fā)明公布了一種基于空間依賴性度量的數(shù)字圖像半監(jiān)督多 語義標注方法。它的理論基礎(chǔ)是空間依賴性度量,利用所有樣本,包括已標注和未標注樣 本,對特征集和語義類別集的依賴性進行估計,并將已標注圖像樣本作為邊界約束,最后通 過迭代技術(shù)逐步提高該估計值至最大,從而得到待標注圖像的所有語義類別。本發(fā)明具有 良好的技術(shù)效果。首先,本發(fā)明以基于統(tǒng)計理論的依賴性作為基礎(chǔ),可以通過增加樣本數(shù) 目,包括未標注樣本數(shù)目提高依賴性估計的準確性,因此它首先是一種可利用未標注圖像 提高標注準確率的半監(jiān)督標注方法;其次,無論圖像同時具有多少個語義類別,本發(fā)明都將 該圖像的語義組合看做語義集合中一個點并映射至再生核希爾伯特空間,所以它同時也是 多語義圖像標注方法;最后本發(fā)明在可行方向法的基礎(chǔ)上通過迭代完成圖像標注,取得了 與現(xiàn)有技術(shù)可比的計算速度。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種準確高效的數(shù)字圖像半監(jiān)督多語義標注方法。
[0007] 本發(fā)明的技術(shù)方案是:接收語義已知的若干數(shù)字圖像以及待標注的所有數(shù)字圖 像并提取圖像特征得到特征向量集,構(gòu)造已標注圖像的標簽向量和所有圖像最終標簽向量 集,計算特征向量集的Gram矩陣并根據(jù)空間依賴性度量得到圖像屬于各語義類置信值以 及圖像最終語義,具體由以下步驟組成: 步驟1,輸入若干語義已知的數(shù)字圖像以及需要進行語義標注的所有數(shù)字圖像至計算 機;將所有圖像格式統(tǒng)一為RGB格式,并對所有圖像進行尺寸歸一化; 步驟2,利用Gist描述符提取圖像的全局紋理特征,將上述所有數(shù)字圖像 均轉(zhuǎn)換成向量,一幅圖對應(yīng)一個列向量,并將這些特征向量組成向量集,記為 if=[Ixy+1.1.,],其中a(1ASv)對應(yīng)已標注圖像,其余對應(yīng)待標注圖像; 步驟3,令《為樣本可能的語義類別總數(shù),構(gòu)造初始狀態(tài)下已標注圖像々(ISMv)的 標簽向量為分,分是,@維列向量,其中:
【權(quán)利要求】
1. 一種基于空間依賴性度量的數(shù)字圖像多語義標注方法,其特征在于依次包括以下步 驟: 步驟1,輸入若干語義已知的數(shù)字圖像以及需要進行語義標注的所有數(shù)字圖像至計算 機;將所有圖像格式統(tǒng)一為RGB格式,并對所有圖像進行尺寸歸一化; 步驟2,利用Gist描述符提取圖像的全局紋理特征,將上述所有數(shù)字圖像 均轉(zhuǎn)換成向量,一幅圖對應(yīng)一個列向量,并將這些特征向量組成向量集,記為 if = [4 為,Av+1?s ],其中;T; (1 ☆ S V)對應(yīng)已標注圖像,其余對應(yīng)待標注圖像; 步驟3,令《為樣本可能的語義類別總數(shù),構(gòu)造初始狀態(tài)下已標注圖像力(1力SV)的 標簽向量為)f ,乂是.呢維列向量,其中:
令《維列向量乃表示圖像的最終標簽向量,構(gòu)造標簽向量集 步驟4,選定特征向量集Z上的核函數(shù)為,通過核函數(shù)計算出Z的Gram矩陣, 記為K ; 步驟5,利用空間依賴性度量方法得到特征向量集和標簽向量集之間依賴性程度的度 量值如下:
? = v+a表示圖像樣本總數(shù); 步驟6,保證7滿足條件4 = [>^...,乂]以及的情況下,利用迭代技術(shù)更新 4的值,逐步提高^〇〇至最大,從而得到待標注圖像屬于各語義類的置信值A(chǔ) ;其中, r 4和4分別是7的前v列和后u列,分別對應(yīng)于語義已知和未知部分,111^是 Frobenius范數(shù),T>0是預(yù)先給定比較小的常數(shù),用于避免4尺度過大減弱A對于依賴性 程度的貢獻率; 步驟7,對任意一副待標注圖像力(v+ISjSv + 4,設(shè)定該圖像的置信閾值力為該圖 像所有語義置信值的平均值,即:
對任意待標注圖像待標注圖像~卜+ 1€』$¥ + 4以及任意給定的語義類別 1(1 A ,如果4(1 J) > 5,則判斷樣本具有第i個語義類別,否則判斷樣本不具有第i 語義。
2. 根據(jù)權(quán)利要求1所述的基于空間依賴性度量的數(shù)字圖像多語義標注方法,其特征在 于:所述步驟3中的核函數(shù)包括徑向基核,線性核,多項式核,sigmoid核。
3. 根據(jù)權(quán)利要求1所述的基于空間依賴性度量的數(shù)字圖像多語義標注方法,其特征在 于:所述步驟6的具體步驟包括: 步驟6. 1,記A=HKH ,將A和H按照已標注和待標注劃分成四部分:
其中,Ay和對應(yīng)圖像中的已標注部分,Ap?和Hjj?則對應(yīng)圖像中待標注部分,且 Atv = Ayjj , 11抓=;令
將跡比值扒7)轉(zhuǎn)換成關(guān)于A的函數(shù)/( IV )/g(心); 步驟6. 2,給定閾值f > 〇為很小的數(shù);隨機初始化},使得Tr (拉)1 = T,令 爐=/(拉)/g(拉); 步驟6. 3,令- fgjjp,求解得到新的.
步驟 6. 4,令,=# , f = /(拉)/ g(ll); 步驟6.5,當Y# <r,輸出A =瑢,rtr中每一列(J = u# )的第i個數(shù) 表示第J個樣本屬于第i類的置信度;否則跳轉(zhuǎn)至步驟6. 3,繼續(xù)循環(huán)執(zhí)行步驟6. 3 至步驟6. 5。
4. 根據(jù)權(quán)利要求3所述的基于空間依賴性度量的數(shù)字圖像多語義標注方法,其特征在 于:所述步驟6. 3的具體步驟包括: 步驟6. 3. 1,指定閾值5 > 0為很小的數(shù),令 N = 27F(AWf-^Hrer) 構(gòu)造 max||ytf|k 這一優(yōu)化問題的同解問題如下: m?ax FiY^ = Tr[ l^MY^ ]+Tr [NI^ ] s-t- 步驟6.丄2,令(』C=-,妒;如果p|fF且歹(拉)<i?( 7X即為最優(yōu)解,輸出 <為新的拉;否則,最優(yōu)解在邊界上,此時轉(zhuǎn)入下一步; 步驟6. 3. 3,初始化點g作為新的計算起點;如果I拉! = r,令;^ =拉;否則,隨機初 始化拉,使得埒滿足Tr] = r ; 步驟6. 3. 4,初始化w2為給定常數(shù),令Wl = -w2 / 2 ;其中,w3用于表示下一可行方向的 Frobenius 范數(shù); 步驟6. 3. 5,計算當前點埒的可行方向如下:
步驟6. 3. 6,令M , w2 = , a < 1是給定正常數(shù); 步驟6. 3. 7,當乏-5 ,令埒=埒;否則跳轉(zhuǎn)至步驟6. 3. 5,繼續(xù)循環(huán)執(zhí) 行6. 3. 5至步驟6. 3. 7 ; 步驟6. 3. 8,當Tr[W^(坨)刃< 5 ,輸出埒為新的拎;否則跳轉(zhuǎn)至步驟6. 3. 4,繼續(xù)循環(huán) 執(zhí)行步驟6. 3. 4至步驟6. 3. 8。
【文檔編號】G06F17/30GK104346456SQ201410599268
【公開日】2015年2月11日 申請日期:2014年10月31日 優(yōu)先權(quán)日:2014年10月31日
【發(fā)明者】張晨光, 張燕 申請人:海南大學(xué)