一種基于多層分割的圖像語義標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明主要涉及圖像語義標(biāo)注領(lǐng)域,具體設(shè)計(jì)一種基于多層分割的圖像語義標(biāo)注 方法。
【背景技術(shù)】
[0002] 圖像語義標(biāo)注是指對一副圖像的不同語義信息匹配對應(yīng)語義關(guān)鍵詞的過程。圖像 的語義概念即圖像的含義,對于自然圖像來說,每一幅圖像中都有多個不同視覺特征對象, 相應(yīng)地對應(yīng)了多個語義概念,圖像標(biāo)注在圖像檢索領(lǐng)域有著重要的應(yīng)用,高效和準(zhǔn)確的標(biāo) 注算法是建立精確的檢索系統(tǒng)的前提。
[0003] 圖像標(biāo)注領(lǐng)域的研宄已經(jīng)進(jìn)行了許多年,也取得了一定的成果,但是實(shí)際應(yīng)用的 不多,目前主流的圖像標(biāo)注方法分為兩個方面,基于全局信息的圖像語義標(biāo)注,基于區(qū)域劃 分的圖像語義標(biāo)注。前者免去了對圖像進(jìn)行區(qū)域分割,區(qū)域聚類等多個過程,但是只適用于 簡單的圖像或背景單一的圖像,不能反映圖像豐富的細(xì)節(jié)語義;基于區(qū)域的語義標(biāo)注則首 先需要對圖片進(jìn)行區(qū)域分割,分割結(jié)果的好壞直接影響標(biāo)注結(jié)果。由于語義概念通常不會 孤立而存在,它們總會與其他語義概念有共生或互斥關(guān)系,圖像的語義上下文有豐富的語 義信息,所以僅從提高分割精度來提高標(biāo)注算法的準(zhǔn)確性,也存在一定的局限性。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種基于多層分割的圖像內(nèi)容表示的多標(biāo)簽自動標(biāo)注方 法,此方法基于多層分割的圖像內(nèi)容表示方法提高表示的準(zhǔn)確性,這種方法包含了多層分 割和基于區(qū)域的"詞袋"模型;同時利用二階條件隨機(jī)場引入一幅圖像上各標(biāo)簽之間的上下 文關(guān)系進(jìn)彳丁多標(biāo)簽標(biāo)注。
[0005] 本發(fā)明的技術(shù)方案如下:
[0006] (1)多層分割:第一層分割利用基于多特征的顯著性分析算法(Multi-feature based saliency analysis,MFBSA)和N-Cut分割算法將圖像分為若干個獨(dú)立的語義區(qū)域; 第二層分割是將第一層分割得到的語義區(qū)域進(jìn)一步劃分為10*10像素的小格子
[0007] (2)特征提?。禾崛D像的三種特征來進(jìn)行圖像的表示,包括:HSV顏色直方圖 (HSV color histogram, HSVH),顏色矩(color moments, CM),和 Gabor 紋理特征。
[0008] (3)構(gòu)建視覺詞(visual words)表示圖像區(qū)域的內(nèi)容:利用基于區(qū)域的"詞袋"模 型為圖像的每一個區(qū)域構(gòu)建一個視覺詞用于表示該區(qū)域的視覺內(nèi)容,使得圖像內(nèi)容的表示 更加接近于高層語義。
[0009] (4)訓(xùn)練標(biāo)注模型:對一幅圖片,將區(qū)域標(biāo)號以蛇型的順序錄入,并錄入對應(yīng)的語 義信息標(biāo)號,對所有的訓(xùn)練圖像執(zhí)行此操作,從而得到視覺詞和語義標(biāo)簽之間的關(guān)系。
[0010] (5)圖像多標(biāo)簽標(biāo)注:將測試圖像的視覺詞和模型參數(shù)輸入上述訓(xùn)練模型,得到 標(biāo)注結(jié)果,并對標(biāo)注結(jié)果的準(zhǔn)確性進(jìn)行檢查。
【附圖說明】
[0011] 圖1為本發(fā)明的算法流程圖
[0012] 圖2為本發(fā)明的第一層分割流程圖
[0013] 圖3為本發(fā)明的第二層分割流程圖
[0014] 圖4為本發(fā)明的特征提取流程圖
[0015] 圖5為本發(fā)明的基于區(qū)域的BoW模型
[0016] 圖6為本發(fā)明的CRF模型訓(xùn)練流程圖
[0017] 圖7為本發(fā)明的圖像標(biāo)注流程圖
[0018] 圖8為本發(fā)明的一階鏈?zhǔn)紺RF模型
【具體實(shí)施方式】
[0019] 下面結(jié)合附圖通過實(shí)施過程對本發(fā)明做進(jìn)一步的詳細(xì)說明。
[0020] 本發(fā)明所述的多層分割語義標(biāo)注模型的流程如圖1所示,圖1包括5個單元。
[0021] 單元100為對初始圖像集進(jìn)行預(yù)處理的單元。得到標(biāo)準(zhǔn)圖像集。
[0022] 單元101為對圖像進(jìn)行多層分割的單元。其具體分割過程如圖2和圖3所示。
[0023] 單元102為對圖像集進(jìn)行特征提取的單元,其具體特征提取過程如圖4所示。
[0024] 單元103為對圖像集進(jìn)行區(qū)域BoW模型的單元,其具體過程如圖5所示。
[0025] 單元104為訓(xùn)練CRF模型的處理單元,其具體過程如圖6所示。
[0026] 單元105為輸出CRF模型參數(shù)單元。根據(jù)104單元的訓(xùn)練過程,得到訓(xùn)練結(jié)果。
[0027] 本發(fā)明所用的多層分割算法分為第一層分割和第二層分割,第一層分割流程如圖 2所示,圖2包含7個單元,根據(jù)第一層的分割結(jié)果,進(jìn)行第二層分割,流程如圖3所示,圖3 包含4個單元。
[0028] 第一層分割包含的具體步驟如下:
[0029] 對原始圖像集合進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)圖像集,通過N-cut算法和 MFBSA(Multi-feature based saliency analysis)顯著性算法結(jié)合起來對圖像進(jìn)行第一 層分割,MFBSA通過分析像素間的關(guān)系來提取圖像中的顯著性對象,首先從對可視化內(nèi)容分 析中獲得的三種不同可視化特征:多尺度對比特征,顏色空間分布特征以及中間-四周直 方圖,然后對著三種特征進(jìn)行線性結(jié)合計(jì)算顯著圖。最后通過大量實(shí)驗(yàn)分析得到的相關(guān)閾 值進(jìn)行比較,最終得到顯著對象。
[0030] 單元106為將得到的標(biāo)準(zhǔn)圖像集中的一幅圖像作為輸入的單元。
[0031] 單元 107 為將米用 MFBSA(Multi-feature based saliency analysis)方法計(jì)算 得到圖像的顯著性區(qū)域的單元,顯著性區(qū)域記為%。
[0032] 單元108為利用N-⑶T分割算法將圖像^分割為若干區(qū)域的單元,分割結(jié)果記為
[0033] 單元109將顯著性區(qū)域與初始分割結(jié)果進(jìn)行合并的單元,得到新的分割結(jié)果,記 為Q]。
[0034] 單元110是統(tǒng)計(jì)0中每個區(qū)域的像素個數(shù),將其與預(yù)定閾值進(jìn)行比較,將像素與 相鄰區(qū)域合并。
[0035] 單元111是計(jì)算每一對相鄰區(qū)域之間的歐式距離,將相似的相鄰區(qū)域進(jìn)行區(qū)域合 并。
[0036] 單元112是得到第一層分割得到的分割結(jié)果。
[0037] 第二層分割以第一層的分割結(jié)果作為輸入,其具體過程如下:
[0038] 單元113是將第一層分割的結(jié)果和標(biāo)準(zhǔn)圖像作為輸入。
[0039] 單元114將標(biāo)準(zhǔn)圖像劃分為10*10像素的小格。
[00