基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法,包括以下步驟:提供訓(xùn)練數(shù)據(jù)集;根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造特征矩陣和標(biāo)注矩陣;根據(jù)特征矩陣得到降維矩陣與特征矩陣的最優(yōu)相關(guān)函數(shù),并根據(jù)標(biāo)注矩陣得到降維矩陣與標(biāo)注矩陣的最優(yōu)恢復(fù)誤差函數(shù);根據(jù)最優(yōu)相關(guān)函數(shù)和最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù);應(yīng)用目標(biāo)函數(shù)優(yōu)化降維矩陣,并根據(jù)優(yōu)化后的降維矩陣求解出解碼矩陣;利用優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型;提取測試實(shí)例特征,并利用預(yù)測模型預(yù)測測試實(shí)例在潛語義空間中的表示;以及利用解碼矩陣對(duì)測試實(shí)例在潛語義空間中的表示進(jìn)行解碼,以獲取測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。本發(fā)明的方法,壓縮率大、穩(wěn)定性好、普適性強(qiáng)。
【專利說明】基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)軟件技術(shù),尤其涉及一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法及系統(tǒng)。
【背景技術(shù)】
[0002]多標(biāo)簽分類技術(shù)(Mult1-label classification)主要用于將某個(gè)實(shí)例劃分到一個(gè)或者多個(gè)類別之中,從而能更加完整、細(xì)致地描述實(shí)例的特征,而實(shí)例所歸屬的類別亦被稱為其所對(duì)應(yīng)的標(biāo)簽(Label)。多標(biāo)簽分類技術(shù)在現(xiàn)實(shí)中有著十分廣泛的應(yīng)用,諸如多標(biāo)簽文本分類、圖像語義標(biāo)注、音頻情感分析等等。近年來,隨著網(wǎng)絡(luò)應(yīng)用的大量涌現(xiàn)與迅猛發(fā)展,多標(biāo)簽分類應(yīng)用開始面臨數(shù)據(jù)量膨脹所帶來的諸多挑戰(zhàn)和困難,其中包括標(biāo)簽空間的快速增長等。例如,在圖片分享網(wǎng)站Flickr上,用戶在上傳圖片時(shí)可以從數(shù)以百萬計(jì)甚至更多的詞匯表中選擇若干用于描述圖片的內(nèi)容。對(duì)于諸如網(wǎng)絡(luò)圖像語義標(biāo)注等借助于Flickr數(shù)據(jù)的多標(biāo)簽分類應(yīng)用而言,這些文本詞匯將被視為不同的標(biāo)簽,從而如此龐大的標(biāo)簽數(shù)量將給這些應(yīng)用底層的算法學(xué)習(xí)過程帶來成本上的極大提升。對(duì)于多標(biāo)簽分類而言,目前大量方法的基本思想仍然是將其分解為多個(gè)二分類問題,即為每一個(gè)標(biāo)簽訓(xùn)練相應(yīng)的預(yù)測模型(Predictive model)用于判斷一個(gè)實(shí)例是否屬于該標(biāo)簽,最終將該實(shí)例所歸屬的所有標(biāo)簽作為其對(duì)應(yīng)的多個(gè)描述。當(dāng)標(biāo)簽空間急速膨脹,即標(biāo)簽數(shù)量十分龐大時(shí),這些方法所需要訓(xùn)練的預(yù)測模型數(shù)量也急速增加,從而導(dǎo)致其訓(xùn)練成本極大上升。
[0003]標(biāo)簽空間降維的出現(xiàn)為解決標(biāo)簽數(shù)量龐大情況下的多標(biāo)簽分類問題指出了一個(gè)可行的探索方向,并提供了技術(shù)支撐,近幾年來逐步成為了研究界的一個(gè)熱點(diǎn),并涌現(xiàn)出了若干優(yōu)秀的降維方法。例如,利用原始標(biāo)簽空間的稀疏性,通過借助壓縮感知(Compressedsensing)方法進(jìn)行標(biāo)簽空間的降維,并利用其對(duì)應(yīng)的解碼算法進(jìn)行從潛語義空間到原始標(biāo)簽空間的恢復(fù)。在此方案的基礎(chǔ)上有研究者進(jìn)一步將降維過程與預(yù)測模型的學(xué)習(xí)過程統(tǒng)一到同一個(gè)概率模型框架下,進(jìn)而通過同時(shí)優(yōu)化上述兩個(gè)過程獲得分類性能的提升。另夕卜,有些研究也將主成分分析方法(Principal component analysis)應(yīng)用到標(biāo)簽空間降維上,稱為Principal label space transformation方法。進(jìn)一步地,有研究者將特征空間與潛語義空間之間的相關(guān)性考慮進(jìn)來,提出了 Feature-ware conditional principallabel space transformation方法,獲得了較為明顯的性能提升。另有研究者也提出了利用線性的高斯隨機(jī)投影方向?qū)υ紭?biāo)簽空間進(jìn)行映射,并保留映射后的符號(hào)值作為降維結(jié)果,而解碼過程則是利用一系列基于KL散度(Kullback-Leibler divergence)的假設(shè)測試來實(shí)現(xiàn)。還有研究者直接通過對(duì)訓(xùn)練數(shù)據(jù)的標(biāo)注矩陣進(jìn)行布爾矩陣分解(Boolean matrixdecomposition),得到降維矩陣和解碼矩陣,其中,降維矩陣即為降維結(jié)果,而解碼矩陣則是將潛語義空間恢復(fù)到原始標(biāo)簽空間的線性映射。
[0004]從目前的研究來看,主要的解決方案是預(yù)先假定一個(gè)顯式編碼函數(shù),并且通常取為線性函數(shù)。但由于高維空間結(jié)構(gòu)的復(fù)雜性,顯式編碼函數(shù)可能無法精確地描述原始標(biāo)簽空間到最優(yōu)的潛語義空間之間的映射關(guān)系,從而影響最終的降維結(jié)果。此外,盡管有少量工作可以不假定顯式編碼函數(shù),而是直接學(xué)習(xí)降維結(jié)果,但目前這些工作卻沒有將潛語義空間與特征空間的相關(guān)性考慮進(jìn)來,可能導(dǎo)致最終得到的降維結(jié)果難以被從特征空間上學(xué)習(xí)到的預(yù)測模型所描述,從而導(dǎo)致最終的分類性能不佳。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個(gè)目的在于提出一種具有信息考慮充分、分類性能保持度高、標(biāo)簽空間壓縮率大、穩(wěn)定性好、普適性強(qiáng)的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法。
[0006]本發(fā)明的另一個(gè)目的在于提出一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維系統(tǒng)。
[0007]本發(fā)明第一方面實(shí)施例提出了一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法,包括以下步驟:提供訓(xùn)練數(shù)據(jù)集;根據(jù)所述訓(xùn)練數(shù)據(jù)集構(gòu)造特征矩陣和標(biāo)注矩陣;根據(jù)所述特征矩陣得到降維矩陣與所述特征矩陣的最優(yōu)相關(guān)函數(shù),并根據(jù)所述標(biāo)注矩陣得到所述降維矩陣與所述標(biāo)注矩陣的最優(yōu)恢復(fù)誤差函數(shù);根據(jù)所述最優(yōu)相關(guān)函數(shù)和所述最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù);應(yīng)用所述目標(biāo)函數(shù)優(yōu)化所述降維矩陣,并根據(jù)優(yōu)化后的降維矩陣求解出解碼矩陣;利用所述優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型;提取測試實(shí)例特征,并利用所述預(yù)測模型預(yù)測所述測試實(shí)例在潛語義空間中的表示;以及利用所述解碼矩陣對(duì)所述測試實(shí)例在所述潛語義空間中的表示進(jìn)行解碼,以獲取所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。
[0008]根據(jù)本發(fā)明實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法,在學(xué)習(xí)降維結(jié)果的過程中也充分考慮了其與標(biāo)注矩陣的恢復(fù)誤差以及與特征空間的相關(guān)性,通過優(yōu)化的過程保證了降維結(jié)果能夠良好地恢復(fù)到標(biāo)注矩陣,同時(shí)也能夠被特征空間上學(xué)習(xí)到的預(yù)測模型所描述,從而能夠在較低的訓(xùn)練成本下取得較好的多標(biāo)簽分類性能。
[0009]在一些示例中,所述潛語義空間的各個(gè)維度相互正交。
[0010]在一些示例中,對(duì)所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果進(jìn)行二值化處理。
[0011]在一些示例中,所述潛語義空間的維數(shù)小于所述原始標(biāo)簽空間的維數(shù)。
[0012]本發(fā)明第二方面的實(shí)施例提出一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維系統(tǒng),包括:訓(xùn)練模塊,用于根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型;預(yù)測模塊,用于根據(jù)所述預(yù)測模型獲取測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。
[0013]根據(jù)本發(fā)明實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維系統(tǒng),在學(xué)習(xí)降維結(jié)果的過程中也充分考慮了其與標(biāo)注矩陣的恢復(fù)誤差以及與特征空間的相關(guān)性,通過優(yōu)化的過程保證了降維結(jié)果能夠良好地恢復(fù)到標(biāo)注矩陣,同時(shí)也能夠被特征空間上學(xué)習(xí)到的預(yù)測模型所描述,從而能夠在較低的訓(xùn)練成本下取得較好的多標(biāo)簽分類性能。
[0014]在一些示例中,所述訓(xùn)練模塊具體包括:構(gòu)造模塊,用于根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)造特征矩陣和標(biāo)注矩陣;優(yōu)化模塊,用于根據(jù)所述特征矩陣得到降維矩陣與所述特征矩陣間的最優(yōu)相關(guān)函數(shù),并且根據(jù)所述標(biāo)注矩陣得到降維矩陣與所述標(biāo)注矩陣間的最優(yōu)恢復(fù)誤差函數(shù);建模模塊,用于根據(jù)所述最優(yōu)相關(guān)函數(shù)和所述最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù),并應(yīng)用所述目標(biāo)函數(shù)優(yōu)化所述降維矩陣后,利用優(yōu)化后的降維矩陣求解出解碼矩陣;學(xué)習(xí)模塊,用于利用所述優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型。
[0015]在一些示例中,所述潛語義空間的各個(gè)維度相互正交。[0016]在一些示例中,對(duì)所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果進(jìn)行二值化處理。
[0017]在一些示例中,所述潛語義空間的維數(shù)小于所述原始標(biāo)簽空間的維數(shù)。
[0018]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】
[0019]圖1是根據(jù)本發(fā)明實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法的流程圖;
[0020]圖2是本發(fā)明一個(gè)實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法的原理圖;
[0021]圖3是根據(jù)本發(fā)明實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維系統(tǒng)的結(jié)構(gòu)框圖;和
[0022]圖4是本發(fā)明一個(gè)實(shí)施例的訓(xùn)練模塊的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0024]事實(shí)上,標(biāo)簽空間降維,其主要目的是壓縮高維的原始標(biāo)簽空間(Original labelspace),在保持可接受的算法性能的前提下,將其編碼到一個(gè)低維的潛語義空間(Latentsemantic space),從而將原來的模型訓(xùn)練過程由從特征空間(Feature space)到原始標(biāo)簽空間的預(yù)測模型的學(xué)習(xí)過程,分解成從特征空間到潛語義空間的預(yù)測模型的學(xué)習(xí)過程以及從潛語義空間到原始標(biāo)簽空間的解碼過程。通過降維,從特征空間到潛語義空間所需的預(yù)測模型數(shù)量,和降維前所需的數(shù)量相比,將大幅度減少。并且,如果預(yù)測模型足夠精確,同時(shí),從潛語義空間到原始標(biāo)簽空間的解碼過程也足夠精確和高效,那么最終得到的多標(biāo)簽分類性能理論上講應(yīng)該仍是可接受的,而與此同時(shí)訓(xùn)練成本卻得以極大地降低。
[0025]本發(fā)明一方面的實(shí)施例中提出了一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法,包括以下步驟:提供訓(xùn)練數(shù)據(jù)集;根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造特征矩陣和標(biāo)注矩陣;根據(jù)特征矩陣得到降維矩陣與特征矩陣的最優(yōu)相關(guān)函數(shù),并根據(jù)標(biāo)注矩陣得到降維矩陣與標(biāo)注矩陣的最優(yōu)恢復(fù)誤差函數(shù);根據(jù)最優(yōu)相關(guān)函數(shù)和最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù);應(yīng)用目標(biāo)函數(shù)優(yōu)化降維矩陣,并根據(jù)優(yōu)化后的降維矩陣求解出解碼矩陣;利用優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型;提取測試實(shí)例特征,并利用預(yù)測模型預(yù)測測試實(shí)例在潛語義空間中的表示;以及利用解碼矩陣對(duì)測試實(shí)例在潛語義空間中的表示進(jìn)行解碼,以獲取測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。
[0026]圖1是根據(jù)本發(fā)明實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法的流程圖,圖2是本發(fā)明一個(gè)實(shí)施例的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法的原理框架圖。結(jié)合圖1和圖2具體描述本發(fā)明的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法。
[0027]步驟SlOl:提供訓(xùn)練數(shù)據(jù)集。
[0028]如圖2所示的基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法的原理框架圖,本發(fā)明的方法包括了訓(xùn)練過程和預(yù)測過程。在訓(xùn)練過程中,需要給定一定數(shù)量的訓(xùn)練數(shù)據(jù)集。
[0029]步驟S102:根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造特征矩陣和標(biāo)注矩陣。
[0030]具體地,對(duì)給定的包含m個(gè)測試實(shí)例的訓(xùn)練數(shù)據(jù)集,根據(jù)數(shù)據(jù)本身的屬性選擇合適的特征類型,并為其中每一個(gè)測試實(shí)例抽取相應(yīng)的特征向量X=IiX1, χ2,...,Xd],其中,Xi是特征向量X的第i維。在得到所有測試實(shí)例的特征向量后,可以以任意順序按行將其拼接成所需的特征矩陣X,X是mXd的矩陣,其中,d是特征向量的維度。
[0031]與此同時(shí),對(duì)包含m個(gè)測試實(shí)例的訓(xùn)練數(shù)據(jù)集,統(tǒng)計(jì)其中出現(xiàn)的不同標(biāo)簽的數(shù)量值k,并根據(jù)每一個(gè)測試實(shí)例的標(biāo)簽歸屬情況,為其構(gòu)造出相應(yīng)的標(biāo)簽向量y=[yi, y2,..., yk],其中,y」表示該實(shí)例是否屬于第j個(gè)標(biāo)簽。如果是,則取值為1,反之,取值為0,以此類推。同樣地,在得到所有測試實(shí)例的標(biāo)簽向量后,可以按行將其拼接成標(biāo)注矩陣Y,這里與特征矩陣的拼接順序一致,Y是mXk的矩陣。
[0032]步驟S103:根據(jù)特征矩陣得到降維矩陣與特征矩陣的最優(yōu)相關(guān)函數(shù),并根據(jù)標(biāo)注矩陣得到降維矩陣與標(biāo)注矩陣的最優(yōu)恢復(fù)誤差函數(shù)。
[0033]具體地,一方面根據(jù)特征矩陣得到降維矩陣與特征矩陣的最優(yōu)相關(guān)函數(shù)。
[0034]在實(shí)際操作過程中,結(jié)合隱式編碼的方法,假定存在降維矩陣C。降維矩陣C與特征矩陣X之間的相關(guān)性可以分解為降維矩陣C的各個(gè)列與特征矩陣X之間的相關(guān)性之和。對(duì)于降維矩陣C中的任意一個(gè)列C,其與特征矩陣X之間的相關(guān)性可以通過余弦相關(guān)性來描述,表達(dá)成函數(shù)形式如下:
[0035]
【權(quán)利要求】
1.一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維方法,其特征在于,包括以下步驟: 提供訓(xùn)練數(shù)據(jù)集; 根據(jù)所述訓(xùn)練數(shù)據(jù)集構(gòu)造特征矩陣和標(biāo)注矩陣; 根據(jù)所述特征矩陣得到降維矩陣與所述特征矩陣的最優(yōu)相關(guān)函數(shù),并根據(jù)所述標(biāo)注矩陣得到所述降維矩陣與所述標(biāo)注矩陣的最優(yōu)恢復(fù)誤差函數(shù); 根據(jù)所述最優(yōu)相關(guān)函數(shù)和所述最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù); 應(yīng)用所述目標(biāo)函數(shù)優(yōu)化所述降維矩陣,并根據(jù)優(yōu)化后的降維矩陣求解出解碼矩陣; 利用所述優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型;提取測試實(shí)例特征,并利用所述預(yù)測模型預(yù)測所述測試實(shí)例在潛語義空間中的表示;以及 利用所述解碼矩陣對(duì)所述測試實(shí)例在所述潛語義空間中的表示進(jìn)行解碼,以獲取所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述潛語義空間的各個(gè)維度相互正交。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果進(jìn)行二值化處理。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述潛語義空間的維數(shù)小于所述原始標(biāo)簽空間的維數(shù)。
5.一種基于特征相關(guān)隱式編碼的標(biāo)簽空間降維系統(tǒng),其特征在于,包括: 訓(xùn)練模塊,用于根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型; 預(yù)測模塊,用于根據(jù)所述預(yù)測模型獲取測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述訓(xùn)練模塊具體包括: 構(gòu)造模塊,用于根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)造特征矩陣和標(biāo)注矩陣; 優(yōu)化模塊,用于根據(jù)所述特征矩陣得到降維矩陣與所述特征矩陣間的最優(yōu)相關(guān)函數(shù),并且根據(jù)所述標(biāo)注矩陣得到降維矩陣與所述標(biāo)注矩陣間的最優(yōu)恢復(fù)誤差函數(shù); 建模模塊,用于根據(jù)所述最優(yōu)相關(guān)函數(shù)和所述最優(yōu)恢復(fù)誤差函數(shù)構(gòu)造目標(biāo)函數(shù),并應(yīng)用所述目標(biāo)函數(shù)優(yōu)化所述降維矩陣后,利用優(yōu)化后的降維矩陣求解出解碼矩陣; 學(xué)習(xí)模塊,用于利用所述優(yōu)化后的降維矩陣學(xué)習(xí)訓(xùn)練以獲取預(yù)測模型。
7.根據(jù)權(quán)利要求5或6任一項(xiàng)所述的系統(tǒng),其特征在于,所述潛語義空間的各個(gè)維度相互正交。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,對(duì)所述測試實(shí)例在原始標(biāo)簽空間的分類結(jié)果進(jìn)行二值化處理。
9.根據(jù)權(quán)利要求5或6任一項(xiàng)所述的系統(tǒng),其特征在于,所述潛語義空間的維數(shù)小于所述原始標(biāo)簽空間的維數(shù)。
【文檔編號(hào)】G06K9/62GK103761532SQ201410024964
【公開日】2014年4月30日 申請日期:2014年1月20日 優(yōu)先權(quán)日:2014年1月20日
【發(fā)明者】丁貴廣, 林梓佳, 林運(yùn)禎 申請人:清華大學(xué)