一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像檢索領(lǐng)域,尤其涉及一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分 類方法。
【背景技術(shù)】
[0002] 圖像分類技術(shù)在諸多現(xiàn)實(shí)場景中有著廣泛的應(yīng)用,如何構(gòu)建準(zhǔn)確、高效的分類模 型是圖像分類技術(shù)中的最重要的一步?,F(xiàn)有的分類器構(gòu)建方法主要是基于有監(jiān)督學(xué)習(xí),即 先由人工收集大量的目標(biāo)類別的有標(biāo)注的訓(xùn)練數(shù)據(jù),再用這些訓(xùn)練數(shù)據(jù)為目標(biāo)類別構(gòu)建分 類模型。近年來,隨著場景的復(fù)雜化和數(shù)據(jù)的海量化,時(shí)常需要解決大量類別的圖像分類問 題。然而,按照現(xiàn)有的有監(jiān)督學(xué)習(xí)方法,為這些目標(biāo)類別收集足量的有標(biāo)注的訓(xùn)練數(shù)據(jù)的成 本非常高。例如對于自然物體分類,就有數(shù)以萬記的類別,為它們都收集有標(biāo)注的訓(xùn)練數(shù)據(jù) 可能需要人們準(zhǔn)確地標(biāo)注上億的圖像,這幾乎是不可能的。所以,如何在缺乏有標(biāo)注圖像的 條件下為目標(biāo)類別構(gòu)建分類模型,即零鏡頭學(xué)習(xí)(Zero-shot learning),成為了一個(gè)重要 問題。
[0003] 現(xiàn)有的零鏡頭圖像分類方法主要利用類別之間所共享的屬性(Attribute)信息作 為橋梁進(jìn)行知識迀移。類別的屬性是指在語義上可以描述類別的特征的信息。為了在沒有 有標(biāo)注圖像的情況下為目標(biāo)類別構(gòu)建分類模型,零鏡頭學(xué)習(xí)將利用一些擁有豐富有標(biāo)注數(shù) 據(jù)的源類別的知識,借助類別屬性作為介質(zhì),將信息傳遞到目標(biāo)類別中?,F(xiàn)有的零鏡頭學(xué)習(xí) 方法一般采用了 "特征-屬性-類別"的二級識別框架來進(jìn)行知識迀移。具體來說,利用源類 別的圖像特征與給定的類別屬性信息構(gòu)建出屬性的識別模型。由于這些屬性是在源類別和 目標(biāo)類別之間共享的,所以對于目標(biāo)類別的圖像,這些屬性識別模型也有效。對于目標(biāo)類 另IJ,可以很容易地得到類別與屬性之間的關(guān)系。在進(jìn)行分類時(shí),只需將利用在源類別上得到 的屬性識別模型識別出圖像所包含的屬性信息,再將圖像的屬性信息與各個(gè)目標(biāo)類別之間 的屬性信息進(jìn)行對比,找出最相似的類別作為分類結(jié)果。這樣,就在目標(biāo)類別沒有有標(biāo)注數(shù) 據(jù)的情況下為其構(gòu)建出了分類模型。比較有代表性的工作之一有直接屬性預(yù)測模型 (Direct Attribute Prediction),該方法通過在圖像特征與屬性之間構(gòu)建多路分類器來 實(shí)現(xiàn)屬性的識別。另一個(gè)是跨模態(tài)知識迀移(Cross-modal Transfer),該方法通過源類別 的有標(biāo)注數(shù)據(jù)與類別屬性訓(xùn)練出一個(gè)線性回歸模型來實(shí)現(xiàn)屬性的識別。
[0004] 從目前的研究來看,現(xiàn)有的利用屬性進(jìn)行知識迀移以實(shí)現(xiàn)零鏡頭分類的方法都使 用屬性作為識別的中間結(jié)果。但是這種框架將圖像分類過程拆解為兩步,從而增加了分類 過程中的信息損失,以至于得到的分類模型不夠準(zhǔn)確,分類精度低,不能滿足實(shí)際應(yīng)用的需 求。所以,如何更好地利用類別的屬性信息來進(jìn)行知識迀移、在沒有有標(biāo)注數(shù)據(jù)的情況下為 目標(biāo)類別構(gòu)建更準(zhǔn)確的分類模型,仍需要進(jìn)一步的研究。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在提供一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分類方法,解決在圖像 分類中目標(biāo)類別沒有有標(biāo)注數(shù)據(jù)的情況下,利用源類別進(jìn)行知識迀移以構(gòu)建準(zhǔn)確的分類模 型的問題。
[0006] 本發(fā)明的發(fā)明目的是通過下述技術(shù)方案來實(shí)現(xiàn)的:
[0007] 一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分類方法,包括如下步驟:
[0008] 步驟S1:分別對源類別數(shù)據(jù)中的有標(biāo)注圖像與目標(biāo)類別數(shù)據(jù)中的無標(biāo)注圖像進(jìn)行 向量化特征表示,得到源類別圖像特征向量和目標(biāo)類別圖像特征向量;
[0009] 步驟S2:分別針對源類別數(shù)據(jù)和目標(biāo)類別數(shù)據(jù)構(gòu)建出源類別屬性表示和目標(biāo)類別 屬性表示;
[0010] 步驟S3:利用步驟S1中得到的源類別圖像特征向量和目標(biāo)類別圖像特征向量,以 及步驟S2中得到的源類別屬性表示和目標(biāo)類別屬性表示構(gòu)造零鏡頭學(xué)習(xí)函數(shù);
[0011] 步驟S4:利用迭代式的優(yōu)化方法求解步驟S3中得到的零鏡頭學(xué)習(xí)函數(shù),并得到共 享模型空間;
[0012] 步驟S5:利用上一步得到的共享模型空間以及步驟S2中得到的目標(biāo)類別屬性表 示,直接產(chǎn)生各個(gè)目標(biāo)類別對應(yīng)的一級分類模型;
[0013] 步驟S6:利用步驟S5中得到的一級分類模型以及步驟S1中得到的目標(biāo)類別圖像特 征向量產(chǎn)生最終的目標(biāo)類別分類結(jié)果。
[0014] 進(jìn)一步的,所述步驟S3中構(gòu)造出的零鏡頭學(xué)習(xí)函數(shù)為:
[0015]
[0016]其中,α和β是控制各部分在零鏡頭學(xué)習(xí)函數(shù)中權(quán)重的超參數(shù);
[0017] ||M:| If = Σ"甽表示一個(gè)矩陣所有元素的平方和;
[0018] xs =[成略…,4S]:為步驟S1中所述的源類別圖像特征向量Xf構(gòu)成的矩陣;
[0019] = [X丨,4為步驟S1中所述的目標(biāo)類別圖像特征向量X丨構(gòu)成的矩陣;
[0020] Ys = [yl,尨…:成]為源類別數(shù)據(jù)中每個(gè)圖像所對應(yīng)的類別向量yf構(gòu)成的矩陣;
[0021] 鳥=[aLaLmak ]為源類別數(shù)據(jù)中每個(gè)源類別屬性向量3丨構(gòu)成的矩陣,所述源 類別屬性向量a丨為所述步驟S2中源類別屬性表示的一種表示方法;
[0022] At =⑷名ay為目標(biāo)類別數(shù)據(jù)中每個(gè)目標(biāo)類別屬性向量構(gòu)成的矩陣,所 述目標(biāo)類別屬性向量a丨為所述步驟S2中目標(biāo)類別屬性表示的一種表示方法;
[0023] Yt = [ytyLyi1t]為目標(biāo)類別數(shù)據(jù)中每個(gè)無標(biāo)注圖像所對應(yīng)的類別向量:^構(gòu)成 的矩陣;
[0024] V為共享模型空間。
[0025] 進(jìn)一步的,所述步驟S4:利用迭代式的優(yōu)化方法求解步驟S3中得到的零鏡頭學(xué)習(xí) 函數(shù),并得到共享模型空間,具體包括如下步驟:
[0026] (1)初始化共享模型空間V和目標(biāo)類別矩陣Yt;
[0027] (2)利用初始化后的共享模型空間V,優(yōu)化目標(biāo)類別矩陣Yt,具體步驟為:
[0028]初始化后的共享模型空間V已經(jīng)給定,優(yōu)化目標(biāo)類別矩陣Yt的過程為行解耦,對矩 陣形式的零鏡頭學(xué)習(xí)函數(shù)的每一行進(jìn)行單獨(dú)的處理,該零鏡頭學(xué)習(xí)函數(shù)對于yi的部分如 下:
[0030]優(yōu)化目標(biāo)類別矩陣Yt的公式如下:
[0032] 其中表示目標(biāo)類別數(shù)據(jù)中第i個(gè)無標(biāo)注圖像是否屬于目標(biāo)類別c;
[0033] (3)利用初始化后的目標(biāo)類別矩陣Yt,優(yōu)化共享模型空間V,具體步驟為:
[0034]初始化后的目標(biāo)類別矩陣Yt已經(jīng)固定,進(jìn)行如下定義:
[0036]對零鏡頭學(xué)習(xí)函數(shù)進(jìn)行如下近似:
[0040] 再令上述導(dǎo)數(shù)為0,可以得到優(yōu)化共享模型空間V的公式如下:
[0041] ν=(χ7 ι+^?Τ^?Ηλ?Τ1
[0042] 不斷迭代優(yōu)化共享模型空間V和Yt直至零鏡頭學(xué)習(xí)函數(shù)的值收斂,即可得到共享 模型空間V。
[0043] 進(jìn)一步的,所述步驟S5中的一級分類模型fjx)計(jì)算方法為:
[0044] fc(x)=xVa/c
[0045] 其中只二乂]1,:ac. = af。
[0046] 本發(fā)明的有益效果:
[0047] (1)本發(fā)明提出了一種新的類別屬性的使用方式,利用源類別的有標(biāo)注數(shù)據(jù)學(xué)習(xí) 出類別之間共享的模型空間,而非共享屬性空間,利用屬性作為輸入?yún)?shù),通過共享的模型 空間產(chǎn)生相應(yīng)類別的一級分類模型,直接從圖像特征得到分類結(jié)果,而無需利用屬性作為 中間結(jié)果來進(jìn)行二級分類,減少了分類過程中的信息損失,從而提高了分類模型的準(zhǔn)確性。 [0048] (2)本發(fā)明在分類模型訓(xùn)練過程中,采用"直推式"的學(xué)習(xí)方法,將目標(biāo)類別的無標(biāo) 注數(shù)據(jù)所提供的一些無監(jiān)督信息應(yīng)用到零鏡頭學(xué)習(xí)函數(shù)學(xué)習(xí)中,這樣可以使得學(xué)習(xí)到的共 享模型空間能反映目標(biāo)類別的信息。并通過一種聯(lián)合學(xué)習(xí)框架將源類別數(shù)據(jù)中的有標(biāo)注數(shù) 據(jù)與目標(biāo)類別的無標(biāo)注數(shù)據(jù)結(jié)合在一起進(jìn)行學(xué)習(xí),使在沒有有標(biāo)數(shù)據(jù)的情況下學(xué)習(xí)到的共 享模型空間能夠更好地描述目標(biāo)類別的特征。
【附圖說明】
[0049] 圖1為本發(fā)明所述的一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分類方法流程圖。
【具體實(shí)施方式】
[0050] 以下參照附圖1,結(jié)合具體的實(shí)施方式對本發(fā)明作進(jìn)一步的說明。
[0051] 本發(fā)明所述的一種基于共享模型空間學(xué)習(xí)的零鏡頭圖像分類方法,包括如下步 驟:
[0052]步驟S1:利用特征抽取工具分別對源類別數(shù)據(jù)中的有標(biāo)注圖像與目標(biāo)類別數(shù)據(jù)中 的無標(biāo)注圖像進(jìn)行向量化特征表示,得到源類別圖像特征向量和目標(biāo)類別圖像特征向量。 [0053]利用Lire或DeCAF圖像特征提取工具對圖像抽取一種或多種特征向量,并拼合為 一個(gè)整體向量Xi=(Xll,X12,···,Xlnl,···,Xkl,Xk2,…,Xknk,…,Xml,Xm2,…,Xmnm)f I = (Pi, P2,……,pn),其中PxXkj表示第k種特征向量中的第j個(gè)分量,而^^則表示第k種特征向量中 的最后一個(gè)分量。同時(shí),記(1 = !1^表示圖像特征的總維度。以下,用xf表示各個(gè)源類別圖像 特征向量,用X〗表示各個(gè)目標(biāo)類別圖像特征向量。
[0054] 步驟S2:分別針對源類別數(shù)據(jù)和目標(biāo)類別數(shù)據(jù)構(gòu)建出源類別屬性表示和目標(biāo)類別 屬性表示;
[0055] 對于任一種類別c,其屬性表示為&。= (ac^a。% ···#"),其中a。謙示該屬性表示的 第j個(gè)分量。本發(fā)明使用單詞表示(Word representation)來作為類別屬性表示。單詞表示 是從在一個(gè)大規(guī)模的文本數(shù)據(jù)庫中,利用自然語言處理(Natural language processing) 等相關(guān)方法挖掘出的單詞的一種r維的向量化表示,單詞之間的潛在的聯(lián)系可以用該向量 很好地描述。本發(fā)明利用在維基百科(Wikipedia)上學(xué)習(xí)出的單詞表示作為類別屬性表示。 由于幾乎所有的英文詞匯都會(huì)出現(xiàn)在維基百科中,所以可以為任何一個(gè)類別,找到對應(yīng)單 詞表示作為它的屬性表示。對于任意源類別和目標(biāo)類別,都可以用該方法得到其屬性表示。 以下,用a〖表示源類別屬性表示,用a〗表示目標(biāo)類別屬性表示。
[0056] 步驟S3:利用步驟S1中得到的源類別圖像特征向量和目標(biāo)類別圖像特征向量,以 及步驟S2中得到的源類別屬性表示和目標(biāo)類別屬性表示構(gòu)造零鏡頭學(xué)習(xí)函數(shù),本發(fā)明構(gòu)造 的零鏡頭學(xué)習(xí)函數(shù)如下:
[0058]其中,α和β是控制各部分在零鏡頭學(xué)習(xí)函數(shù)中權(quán)重的超參數(shù);
[0059] |_丨|〖=Σ? rn〗表示一個(gè)矩陣所有元素的平方和;