基于主動學(xué)習(xí)和多標(biāo)簽多示例學(xué)習(xí)的場景圖像標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及場景圖像標(biāo)注技術(shù)領(lǐng)域,特別是涉及一種基于主動學(xué)習(xí)和多標(biāo)簽多示 例學(xué)習(xí)的場景圖像標(biāo)注方法。
[0002]
【背景技術(shù)】: 隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)服務(wù)的進(jìn)步,新聞、社交和商品交易等各類網(wǎng)站得到了 長足的發(fā)展,互聯(lián)網(wǎng)每天都產(chǎn)生海量的場景圖片。這些場景圖片具有以下兩個基本特點(diǎn)。一 方面,單幅場景圖像不僅僅反映一個內(nèi)容,可能涉及多個主題,語義比較復(fù)雜。例如,一副關(guān) 于街道的圖像,可能涉及行人、馬路、車輛、樹木、天空、建筑物等多個不同的主題。 另一方面,互聯(lián)網(wǎng)所產(chǎn)生的大量場景圖像,不具有能夠充分描述圖片內(nèi)容的分類標(biāo)簽。 譬如,用戶可能在社交網(wǎng)絡(luò)上傳了一個風(fēng)景照片,但是照片內(nèi)容并沒有詳細(xì)的文字描述。對 于這些語義復(fù)雜,并且不具備分類標(biāo)簽的海量場景圖像,如何利用這些圖片,為互聯(lián)網(wǎng)用戶 提供相關(guān)的服務(wù),這是場景圖像標(biāo)注的核心任務(wù)。場景圖像標(biāo)注的目的是,通過有標(biāo)簽場景 圖像的學(xué)習(xí),給無標(biāo)簽場景圖像賦予精確的分類標(biāo)簽,使它們能夠?yàn)榛ヂ?lián)網(wǎng)用戶提供服務(wù)。
[0003] 傳統(tǒng)的圖像標(biāo)注方法在互聯(lián)網(wǎng)場景圖像標(biāo)注方面存在一些局限性。首先,傳統(tǒng)的 圖像標(biāo)注方法把一幅圖像看作單一的向量。如上所述,一副場景圖像可能包含若干個主題, 如果把一幅圖像轉(zhuǎn)化為單一的向量,可能無法準(zhǔn)確描述場景圖像的語義,也無法精確對場 景圖像進(jìn)行標(biāo)記。其次,傳統(tǒng)的圖像標(biāo)注方法需要大量的有標(biāo)簽場景圖像來學(xué)習(xí)分類模型。 為了建立高精確度的分類模型,往往需要專家通過人工標(biāo)注方式,標(biāo)注相當(dāng)數(shù)量的場景圖 像來訓(xùn)練分類模型。人工標(biāo)注大量的場景圖像,需要耗費(fèi)巨大的人力和物力資源。因此,一 種基于少量有標(biāo)簽圖像的高效自動場景圖像標(biāo)注技術(shù)亟待提出。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于解決針對場景圖像的兩個基本特點(diǎn),場景圖像可能包含多個內(nèi) 容區(qū)域,語義復(fù)雜,把它轉(zhuǎn)化為單一向量無法精確表示場景圖像主題,以及互聯(lián)網(wǎng)的大量場 景圖片不具備分類標(biāo)簽,標(biāo)注成本昂貴等問題的一種基于多示例多標(biāo)記學(xué)習(xí)和主動學(xué)習(xí)的 場景圖像標(biāo)注方法。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下的技術(shù)方案: 基于主動學(xué)習(xí)和多標(biāo)簽多示例學(xué)習(xí)的場景圖像標(biāo)注方法,包括如下步驟, (1) 獲取一批無標(biāo)簽的場景圖像。隨機(jī)抽取少量場景圖像,通過專家人工標(biāo)注方式,賦 予這些場景圖像分類標(biāo)簽; (2) 把有標(biāo)簽場景圖像和無標(biāo)簽場景圖像轉(zhuǎn)化為多示例數(shù)據(jù),每幅圖像看作一個多示 例包,每個區(qū)域看成多示例包的一個示例; (3) 把少量有標(biāo)簽場景圖像看作訓(xùn)練集,根據(jù)場景圖像的標(biāo)簽數(shù)量,訓(xùn)練若干個初始分 類模型; (4) 利用已建立的分類模型,對樣本集中的無標(biāo)簽場景圖像進(jìn)行標(biāo)注,每個圖像可能具 有多個標(biāo)簽; (5) 根據(jù)無標(biāo)簽場景圖像的標(biāo)注結(jié)果,計算每個分類模型的可信度; (6) 結(jié)合分類模型的可信度,從無標(biāo)簽場景圖像中挑選一個不確定性最大的圖像,并交 給專家對該場景圖像進(jìn)行標(biāo)注; (7) 把經(jīng)過專家標(biāo)注的場景圖像從無標(biāo)簽圖像數(shù)據(jù)集中移除,放入有標(biāo)簽場景圖像數(shù) 據(jù)集,并重新訓(xùn)練分類模型; (8) 判斷該模型的精確度是否達(dá)到用戶所要求的精確度,或者迭代輪數(shù)是否達(dá)到用戶 指定的次數(shù),如果沒有達(dá)到要求則返回(3);否則結(jié)束并輸出分類模型。
[0006] 本發(fā)明利用主動學(xué)習(xí)策略,在保證分類模型精確度的同時,大大減少了需要人工 標(biāo)注的場景圖像數(shù)量,從而降低了標(biāo)注成本。同時,本發(fā)明把圖像轉(zhuǎn)化為多標(biāo)簽多示例數(shù) 據(jù),使圖像復(fù)雜語義得到合理表示,提高了圖像標(biāo)注的精確度。
【附圖說明】
[0007] 圖1為本發(fā)明實(shí)施例的訓(xùn)練標(biāo)注模型的流程圖。
【具體實(shí)施方式】
[0008] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0009] 圖1為本發(fā)明實(shí)施例的基于主動學(xué)習(xí)和多標(biāo)簽多示例學(xué)習(xí)的場景圖像標(biāo)注方法 模型的流程圖。如圖1所示,本發(fā)明涉及到的場景圖像標(biāo)注方法包括下述過程: 第一步,獲取一批無標(biāo)簽的場景圖像。隨機(jī)抽取少量場景圖像,通過專家人工標(biāo)注方 式,賦予這些場景圖像分類標(biāo)簽。由于一副場景圖像可能包含不同的內(nèi)容,涉及多個主題, 因此一幅圖像可能具有若干個分類標(biāo)簽。在圖像集合中,假設(shè)分類標(biāo)簽的最大數(shù)目為k。通 過上述步驟,原來的場景圖像集合被重新分為兩個集合,一個集合包含少量有標(biāo)簽場景圖 像,另外一個集合包括剩下的大量無標(biāo)簽場景圖像。
[0010] 第二步,把有標(biāo)簽場景圖像和無標(biāo)簽場景圖像轉(zhuǎn)化為多示例數(shù)據(jù)。由于場景圖像 可能涉及多個主題,語義復(fù)雜,如果把一副場景圖像轉(zhuǎn)化為單一的向量,難以準(zhǔn)確地描述圖 像的復(fù)雜語義。因此,需要把場景圖像轉(zhuǎn)化為多示例數(shù)據(jù)。具體來說,可以使用圖像識別領(lǐng) 域的經(jīng)典方法,如Blobworld System等,把圖像根據(jù)不同的內(nèi)容切割成若干個區(qū)域。然后, 對每個圖像區(qū)域提取顏色、紋理、形狀等特征,把一個圖像區(qū)域轉(zhuǎn)化為一個示例向量。通過 這種方式,一副圖像被切割成了若干個區(qū)域。一副圖像看作一個多示例包,一個區(qū)域看作多 示例包的示例。
[0011] 第三步,把少量有標(biāo)簽場景圖像看作訓(xùn)練集,根據(jù)場景圖像的k個分類標(biāo)簽,訓(xùn)練 k個初始分類模型。對于每一個分類標(biāo)簽,把具有該標(biāo)簽的圖像看作正類數(shù)據(jù),把不具有該 標(biāo)簽的圖像看作負(fù)類數(shù)據(jù),訓(xùn)練一個初始的多示例分類模型。
[0012] 第四步,利用已建立的k個分類模型,對無標(biāo)簽場景圖像的標(biāo)簽進(jìn)行預(yù)測。經(jīng)過k 個分類模型,每一副無標(biāo)簽場景圖像將獲得k個分類標(biāo)簽。對于第i個分類模型,如果分類 標(biāo)簽的值為1,表示該場景圖像包含第i類的圖像內(nèi)容;如果分類標(biāo)簽的值為〇,表示該場景 圖像不包含第i類的圖像內(nèi)容。
[0013] 第五步,根據(jù)無標(biāo)簽場景圖像的標(biāo)注結(jié)果,計算每個分類模型的可信度。參照直 推式支持向量機(jī)(Transductive Support Vector Machine, TSVM)的思想,給定一組獨(dú) 立同分布的有標(biāo)簽的訓(xùn)練樣本和另一組來自同一分布的無標(biāo)簽樣本,在樣本足夠多的情 況下,根據(jù)有標(biāo)簽樣本中的正標(biāo)簽樣本所占比例可相應(yīng)估計無標(biāo)簽樣本中正標(biāo)簽樣本的 比例。為此,無標(biāo)簽樣本中正標(biāo)簽樣本所占比例應(yīng)與有標(biāo)簽樣本中的正標(biāo)簽樣本所占的 比例相近?;谶@一思想,提出一種分類模型對預(yù)測標(biāo)簽可信度的衡量標(biāo)準(zhǔn),首先利用有 標(biāo)簽多示例包訓(xùn)練A個分類器,再利用得到的A個分類器對無標(biāo)簽多示例包進(jìn)行分類, 得到其預(yù)測標(biāo)簽。假定#示示例空間,?表示標(biāo)簽集空間,給定M個有標(biāo)簽多示例包
和% 個無標(biāo)簽多示例包
。目標(biāo)是學(xué)習(xí)得到目標(biāo)函數(shù)乂其中,;對應(yīng)一個示例集合,
為尤對應(yīng)的一組標(biāo)簽集合 {j^,h…,r,/},{〇, 1} 2,…,/),這里,λ,表示多示例包中含有示例的個數(shù),7 表示多示例包中的標(biāo)簽個數(shù)。在此基礎(chǔ)上,第々個分類模型的可信度G可以定義為:
上式中,是一個指示函數(shù)(indicator function),滿足[·]給定條件則其值為1,否 則取值為〇 示第A個分類器中第i個有標(biāo)簽多示例包的標(biāo)簽,/,廣示第^個分類器 中第i個無標(biāo)簽多示例包的標(biāo)簽。
€示無標(biāo)簽多示例包在第A