一種基于深度學習與典型相關(guān)分析的圖像自動標注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像自動標注與檢索技術(shù),特別涉及一種基于深度學習與典型相關(guān)分析的圖像自動標注方法。
【背景技術(shù)】
[0002]隨著圖像數(shù)據(jù)呈現(xiàn)出幾何級數(shù)的增長,如何對這些圖像數(shù)據(jù)進行有效管理與檢索成為了信息化建設(shè)中的研宄熱點。雖然目前基于內(nèi)容的圖像檢索技術(shù)已經(jīng)有了長足的發(fā)展,并且也有了多種民用的原型、技術(shù)和檢索產(chǎn)品,但由于最主要問題一 “語義鴻溝”沒有根本突破,導(dǎo)致其檢索效果和方式依然不夠理想。為克服這些問題,最好的解決方案是向圖像添加與圖像內(nèi)容相關(guān)的文本語義信息,即圖像標注。鑒于人工標注存在著主觀性強、標注效率低等問題,自動圖像標注逐漸成為了圖像標注領(lǐng)域的研宄熱點。
[0003]成熟的深度學習模型首先開始于2002年Hinton等人提出的深度信念網(wǎng)絡(luò),該模型通過多層特征提取機制實現(xiàn)了數(shù)據(jù)信息的抽象表達。作為強大的概率生成模型,深度學習模型不斷發(fā)展,先后出現(xiàn)了深度波爾茲曼機、深度自動編碼器等多種形式,而且成功應(yīng)用于語音識別、網(wǎng)絡(luò)態(tài)勢感知以及高維時間序列建模等領(lǐng)域。在圖像處理方面,Google的Google Brain使用深度神經(jīng)網(wǎng)絡(luò)在圖像識別上取得巨大的成功,已經(jīng)可以實現(xiàn)部分人腦功能的模擬;在大規(guī)模目標識別上,基于深度學習模型的5層卷積網(wǎng)絡(luò)在2012年的ImageNet測評中得到了最高準確率;在圖像標注和分類上,Srivastava等人通過構(gòu)建多模態(tài)深度波爾茲曼機也同樣取得了較好的成績。作為2013年十大突破技術(shù)之首,深度學習模型在機器學習領(lǐng)域展示出了強大的生命力和巨大的能量。
[0004]目前,基于深度學習模型對圖像生成標注詞匯已經(jīng)取得了較好的效果。多模態(tài)深度玻爾茲曼機較好地解決了圖像與文本的多模態(tài)學習問題,并在圖像檢索和標注進行了應(yīng)用。從實驗結(jié)果來看,相較于其他深度學習模型,該模型效果較好,但是與經(jīng)典的自動圖像標注算法相比仍然存在差距,原因在于詞匯模型和頂層特征融合機制不適合于自動圖像標注任務(wù)。針對這兩個問題,結(jié)合經(jīng)典圖像自動標注算法思路,提出基于深度玻爾茲曼機與典型相關(guān)分析的自動圖像標注方法,采用能夠較好處理圖像特征和生成高層抽象語義概念的深度玻爾茲曼機模型,結(jié)合典型相關(guān)分析,設(shè)計圖像自動標注模型,能夠有效提高大規(guī)模圖像的管理、檢索效率,并加快圖像信息的處理速度,具有很好的應(yīng)用前景以及重要的實用、經(jīng)濟效益。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種能夠克服圖像語義標注的“語義鴻溝”問題,實現(xiàn)較為準確的語義標注的基于深度學習與典型相關(guān)分析的圖像自動標注方法。
[0006]一種基于深度學習與典型相關(guān)分析的圖像自動方法,包括:
[0007](I)構(gòu)建模型訓(xùn)練數(shù)據(jù)集;
[0008](2)提取待標注圖像的底層特征向量構(gòu)建得到相應(yīng)圖像的視覺特征向量;
[0009](3)將所述的視覺特征向量輸入訓(xùn)練好的深度玻爾茲曼機模型1-DBM得到相應(yīng)的圖像高層特征向量;
[0010](4)將所述的圖像高層特征投影到建立好的典型變量空間內(nèi),查找與之相鄰的模型標注數(shù)據(jù)集的圖像,并生成標注詞匯高層特征向量;
[0011](5)將所述的標注詞匯高層特征向量輸入訓(xùn)練好的深度玻爾茲曼機模型T-DBM得到相應(yīng)的標注詞匯。
[0012]所述步驟(I)的模型訓(xùn)練數(shù)據(jù)集通過以下步驟得到:
[0013](Sll)創(chuàng)建包含若干個文本標注詞匯的標注詞典;
[0014](S12)根據(jù)標注詞典選擇相應(yīng)類別的已標注的圖像作為模型訓(xùn)練數(shù)據(jù)集;
[0015]所述步驟(3)中訓(xùn)練好的深度玻爾茲曼機1-DBM通過以下步驟得到:
[0016](S31)提取訓(xùn)練數(shù)據(jù)集中每幅圖像的底層特征向量構(gòu)成得到相應(yīng)圖像的視覺特征向量,并根據(jù)標注詞典和標注詞匯確定每幅圖像的標注詞匯特征向量;
[0017](S32)構(gòu)建深度玻爾茲曼機模型1-DBM,所述的深度玻爾茲曼機模型從下至上依次包括可見層、第一隱單元層、第二隱單元層,各層中的任意兩個節(jié)點無連接,相鄰層之間的任意兩個節(jié)點雙向連接;
[0018](S33)利用模型訓(xùn)練數(shù)據(jù)集中所有圖像的視覺特征向量對所述的深度玻爾茲曼機模型進行訓(xùn)練,得到訓(xùn)練好的深度玻爾茲曼機模型。
[0019]所述步驟(4)中建立好的典型變量空間通過以下步驟得到:
[0020](S41)提取訓(xùn)練數(shù)據(jù)集中所有圖像的1-DBM高層特征向量;
[0021](S42)提取訓(xùn)練集中所有圖像對應(yīng)的標注詞的T-DBM高層特征向量;
[0022](S43)將所述的1-DBM高層特征向量與T-DBM高層特征向量進行典型相關(guān)分析,得到投影矩陣。
[0023]所述步驟(5)以及(S42)中訓(xùn)練好的深度玻爾茲曼機T-DBM通過以下步驟得到:
[0024](S51)根據(jù)標注詞典和標注詞匯確定每幅圖像的標注詞匯特征向量;
[0025](S52)構(gòu)建深度玻爾茲曼機模型T-DBM,所述的深度玻爾茲曼機模型從下至上依次包括可見層、第一隱單元層、第二隱單元層,各層中的任意兩個節(jié)點無連接,相鄰層之間的任意兩個節(jié)點雙向連接;
[0026](S53)利用模型訓(xùn)練數(shù)據(jù)集中所有圖像的標注詞匯特征向量對所述的深度玻爾茲曼機模型進行訓(xùn)練,得到訓(xùn)練好的深度玻爾茲曼機模型。
[0027]本發(fā)明的基于深度學習與典型相關(guān)分析的圖像自動標注方法中首先提取待標注圖像的底層特征,并根據(jù)所有的底層特征構(gòu)建得到圖像的視覺特征向量,然后直接將視覺特征向量作為深度玻爾茲曼機模型1-DBM的可見層輸入,將1-DBM的第二隱單元層狀態(tài)作為高層特征向量,將其投影到典型變量空間內(nèi),查找距離馬氏距離最近的前N個圖像,依據(jù)距離加權(quán)生成新的深度玻爾茲曼機T-DBM第二隱單元層狀態(tài),最后由T-DBM生成新的標注詞匯向量作為圖像的標注詞匯。
[0028]在深度玻爾茲曼機模型中,高層語義由底層特征抽象得到,由于底層特征很難過渡到高層語義,因此會產(chǎn)生“語義鴻溝”。鑒于實際應(yīng)用中隱單元層層數(shù)過多會導(dǎo)致訓(xùn)練速度過慢,因此,本發(fā)明所使用的深度玻爾茲曼機模型中包含兩個隱單元層(分別為第一隱單元層和第二隱單元層),設(shè)置兩個隱單元層提高深度玻爾茲曼機的中間抽象能力,跨越圖像語義標注過程中的“語義鴻溝”,提高標注準確率。
[0029]所述步驟(S51)中的文本特征向量為一個0-1向量(即向量中所有元素只能為O或I),所述的文本特征向量根據(jù)以下步驟確定各個圖像的標注詞匯特征向量:
[0030](S51-1)初始化一個全零向量,使每一維對應(yīng)的一個標注詞匯;
[0031](S51-2)根據(jù)圖像的標注詞,將對應(yīng)維數(shù)的元素賦值為1,即得到該圖像的標注詞匯向量。
[0032]所述步驟構(gòu)建的深度玻爾茲曼機模型,各層中的任意兩個節(jié)點無連接,相鄰層之間的任意兩個節(jié)點之雙向連接。
[0033]所述的基于深度學習與典型相關(guān)分析的圖像自動標注方法,其特征在于,所述步驟(S33) (S53)中的深度玻爾茲曼機模型的訓(xùn)練過程如下:
[0034](S53-1)以視覺特征向量或者標注詞匯特征向量作為可見層;
[0035](S53-2)將可見層和第一隱單元層作為受限玻爾茲曼機,以視覺特征向量作為可見層的輸入,使用對比散度算法對該受限玻爾茲曼機進行訓(xùn)練得到可見層和第一隱單元層之間的連接權(quán)值以及第一隱單元層的最終狀態(tài);
[0036](S53-3)將第一隱單元層和第二隱單元層作為受限玻爾茲曼機,以第一隱單元層的最終狀態(tài)作為第一隱單元層的最終狀態(tài)作為第一隱單元層的輸入,使用對比散度算法對該受限玻爾茲曼機進行訓(xùn)練得到第一隱單元層和第二隱單元層之間的連接權(quán)值和第二隱單元層的最終狀態(tài)。
[0037]所述步驟(S43)中的典型相關(guān)分析過程如下:
[0038](S43-1)將所述的1-DBM高層特征向量與T-DBM高層特征向量標準化,計算協(xié)差陣;
[0039](S43-2)計算協(xié)差陣的特征值和特征向量,進行排序并且判斷是否相等;
[0040](S43-3)將特征值按照從大到小的排序,并依照此順序?qū)μ卣飨蛄窟M行排序;
[0041](S43-4)將特征向量作為矩陣的行向量,得到典型相關(guān)分析結(jié)果。
[0042]所述1-DBM模型可見層節(jié)點個數(shù)與視覺特征向量的維數(shù)相同。
[0043]在識別和訓(xùn)練過程中,均以視覺特征向量作為1-DBM可見層的輸入,因此1-DBM可見層的各個節(jié)點必須與視覺特征向量中每一維的元素相互對應(yīng),則1-DBM可見層的節(jié)點個數(shù)與視覺特征向量的維數(shù)相同。
[0044]所述T-DBM模型可見層節(jié)點個數(shù)與標注詞典內(nèi)詞匯數(shù)目相同。
[0045]在識別和訓(xùn)練過程中,均以圖像的標注詞匯向量作為T-DBM可見層的輸入,因此T-DBM可見層的各個節(jié)點必須與標注詞典內(nèi)詞匯相互對應(yīng),則T-DBM可見層的節(jié)點個數(shù)與標注詞典內(nèi)詞匯數(shù)目相同。
[0046]所述1-DBM的第一隱單元層與第二隱單元層節(jié)點個數(shù)依據(jù)經(jīng)驗設(shè)定,通常為400?500,在實際應(yīng)用中可以根據(jù)實驗效果進行調(diào)整。
[0047]所述的圖像底層特征向量包括所述的底層圖像特征向量包括顏色布局描述向量、顏色結(jié)構(gòu)描述向量、可伸縮顏色描述向量、邊緣直方圖描述向量、GIST特征向量和基于SIFT特征的視覺詞袋向量。
[0048]所述的基于深度學習與典型相關(guān)分析的圖像自動標注方法,其特征在于,基于SIFT特征的視覺詞袋向量通過以下步驟得到:
[0049](a)計算得到所述模型訓(xùn)練數(shù)據(jù)集中所有圖像的SIFT特征向量;
[0050](b)對所有的SIFT特征向量進行聚類得到500個聚類中心;
[0051](c)以各個聚類中心作為視覺單詞,統(tǒng)計每幅圖像的SIFT特征向量中各個視覺單詞出現(xiàn)次數(shù)并形成基于SIFT的特征的視覺詞袋向量。
【具體實施方式】
[0052]以下結(jié)合具體實例對本發(fā)明作進一步的詳細說明。
[0053]一種基于深度學習與典型相關(guān)分析的圖像自動標注方法,包括:
[0054](I)提取待標注圖像的底層特征向量構(gòu)建得到相應(yīng)圖像的視覺特征向量;
[0055]本實施中底層特征向量包括顏色布局描述向量、顏色結(jié)構(gòu)描述向量、可伸縮顏色描述向量、邊緣直方圖描述向量、GIST特征向量和基于SI