一種向量化降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)降維的技術(shù)領(lǐng)域,具體地涉及一種向量化降維方法。
【背景技術(shù)】
[0002] 多模態(tài)數(shù)據(jù)和高維數(shù)據(jù)在現(xiàn)代計算機視覺的研究中隨處可見。數(shù)據(jù)的高維度不僅 增加了算法的復(fù)雜性和存儲的開銷,而且也降低了算法在實際應(yīng)用中的廣泛性。然而,高維 數(shù)據(jù)往往是均勻分布在一個低維空間或流行空間上。所以,找到高維觀測數(shù)據(jù)在低維空間 中的一種映射關(guān)系已成為機器學(xué)習(xí)研究的一個具有挑戰(zhàn)性的問題。在過去的幾十年中,關(guān) 于數(shù)據(jù)降維的算法已取得很大進展。
[0003] 主成分分析(PrincipalComponentAnalysis,PCA)是一種廣泛應(yīng)用于模式識別 和機器學(xué)習(xí)的降維方法。眾所周知,PCA方法是一種向量化的降維方法,它可以將向量數(shù)據(jù) 表示成一組基向量的線性組合形式。由于基向量的正交性,因此降維后的系數(shù)可以用來代 表原始的向量數(shù)據(jù)。然而,今天的數(shù)據(jù)一般擁有更復(fù)雜的結(jié)構(gòu),例如,圖像可以看做是2D數(shù) 據(jù)。在2D數(shù)據(jù)上應(yīng)用PCA方法,需要首先將數(shù)據(jù)向量化,而向量化不僅會產(chǎn)生維度災(zāi)難的 問題,而且還會破壞高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu),從而忽略高維數(shù)據(jù)中的空間信息。與PCA不同的 是,2DPCA算法是直接在2D數(shù)據(jù)上降維,即分別對行和列方向降維,降維后的系數(shù)仍是2D數(shù) 據(jù)。
[0004] 對于高階張量數(shù)據(jù),一種典型的降維方法是Tucker分解。WangandAhuja將高維 的數(shù)據(jù)看成是張量,而不是矩陣或向量,并且提出了一種秩為1的分解算法(TROD),這種分 解方式是將張量分解成一組秩為1的張量和的形式。這種算法是對張量的每個維度降維, 并且是通過對一個張量數(shù)據(jù)降維得到。
[0005] 高階張量的降維目前是一個具有挑戰(zhàn)性的問題。經(jīng)典的方法都是將張量數(shù)據(jù)向量 化或是利用Tucker分解對高維數(shù)據(jù)降維,這樣會得到較低階張量或破壞原始張量數(shù)據(jù)的 內(nèi)部結(jié)構(gòu),從而識別率較低。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種向量化降維方法,其識 別率大大提尚。
[0007] 本發(fā)明的技術(shù)解決方案是:這種向量化降維方法,所述方法包括以下步驟:
[0008] (1)根據(jù)公式(1)的向量化降維模型,將張量數(shù)據(jù)表示成若干個基張量的線性組 合
[0009]
(1)
[0010] 其中給定樣本集{e鬏&χβΜ=I.、;射包含Μ個獨立同分布的樣 本,這些樣本可以組成一個三階張量:,此張量3;的每一面是一個樣本 YiW€ 二h€妒,κ表示降維后的維度;
[0011] (2)將張量數(shù)據(jù)直接降維到一個向量數(shù)據(jù)
[0012] ζ2.)
[0013] 公式⑵中表示hi的第k個元素,Wk是張量W的第k個面,將樣本I重新寫 成投影基底wk(k= 1,. . .,Κ)的線性組合,投影基底Wk與樣本Υρ有相同的維度,得到2D 數(shù)據(jù)的向量化的降維;
[0014] (3)假設(shè)噪聲滿足矩陣高斯分布Ei的每個元素efΑ滿足正態(tài)分布 .ΑΤ((Μ#),為了應(yīng)用以上模型,根據(jù)公式(3)給定隱變量一個先驗分布:[0015]
C3)
[0016] 假設(shè):表滿足Gamma分布:
[0017]
[0018] 對于公式(1),假設(shè)handP是模型的隱變量,W是參數(shù);根據(jù)公式(4)對于給定 的樣本兄極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值,
[0020] 其中聯(lián)合分布為:[0021]
[0019] C4)
[0022] 其中,Yi代表第i個樣本,}..ve是降維基底,私€竅&是樣本Yi在降維 基底下的系數(shù)。
[0023] 本發(fā)明引入了一種基于張量數(shù)據(jù)的概率方法的向量化降維模型,應(yīng)用此模型可以 將張量數(shù)據(jù)可以表示成若干個基張量的線性組合,這樣它可以提供一種方法可以將張量數(shù) 據(jù)直接降維到一個向量數(shù)據(jù),所以其識別率大大提高。
【附圖說明】
[0024] 圖la是本方法和PCA的比較結(jié)果,這兩種方法都是將數(shù)據(jù)映射到向量上。圖lb 是本方法和GLRAM,TUCKER的重構(gòu)誤差結(jié)果。
[0025] 圖2是GLRAM,B2DPCA和本方法在Yale數(shù)據(jù)庫上的人臉識別率。
【具體實施方式】
[0026] 這種向量化降維方法,所述方法包括以下步驟:
[0027] (1)根據(jù)公式(1)的向量化降維模型,將張量數(shù)據(jù)表示成若干個基張量的線性組 合
[0028] (1)
[0029] 其中給定樣本集€發(fā)巧= 1;、.y包含Μ個獨立同分布的樣 本,這些樣本可以組成一個三階張量,此張量y的每一面是一個樣本Yi :敎訪成冰泎二丨:μ匕,bef,κ表示降維后的維度;
[0030] (2)將張量數(shù)據(jù)直接降維到一個向量數(shù)據(jù)
[0031] ⑵
[0032] 公式⑵中表示h的第k個元素,Wk是張量W的第k個面,將樣本\重新寫 成投影基底Wk(k= 1,. . .,K)的線性組合,投影基底Wk與樣本Yp有相同的維度,得到2D 數(shù)據(jù)的向量化的降維;
[0033](3)假設(shè)噪聲滿足矩陣高斯分布Ei的每個元素ef^滿足正態(tài)分布 為了應(yīng)用以上模型,根據(jù)公式(3)給定隱變量一個先驗分布:
[0034] ⑶
[0035] 假設(shè): 満足Gamma分布:
[0036]
個v
[0037]對于公式(1),假設(shè)handP是模型的隱變量,VV是參數(shù);根據(jù)公式(4)對于給定 的樣本又極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值,
[0039] 其中聯(lián)合分布為:[0040]
[0038] (4)
[0041] 其中,Yi代表第i個樣本,+w€默~-抓是降維基底,.+? €狡1是樣本Yi在降維 基底下的系數(shù)。
[0042] 本發(fā)明引入了一種基于張量數(shù)據(jù)的概率方法的向量化降維模型,應(yīng)用此模型可以 將張量數(shù)據(jù)可以表示成若干個基張量的線性組合,這樣它可以提供一種方法可以將張量數(shù) 據(jù)直接降維到一個向量數(shù)據(jù),所以其識別率大大提高。
[0043]優(yōu)選地,所述方法還包括步驟(4),假設(shè)基底滿足CP分解的結(jié)構(gòu),應(yīng)用基于變分EM 算法的貝葉斯推斷對公式(1)求解。
[0044] 優(yōu)選地,所述步驟(4)中,根據(jù)公式(5)求解¥的CP分解:
[0045] >'
(5)
[0046] 利用上次迭代的W(1),W(2)和W(3)作為下一次的初始值,當(dāng)?shù)玫絎(3)后,利用公式(6) 求解w(h)
[0047] W⑶=MVh) (6)
[0048] 進而可以將上述二階數(shù)據(jù)的模型推廣到高階張量數(shù)據(jù)的降維中。
[0049] 下面更詳細地說明本方法。
[0050] 1.張量數(shù)據(jù)貝葉斯方法的向量化降維模型
[0051]給定樣本集(me竅:,射;K包含Μ個獨立同分布的樣本。這些樣 本可以組成一個三階張量:F€ 此張量少的每一面是一個樣本I。假設(shè)每個樣本 I可以分解成一個隱變量的線性組合,即
[0052] (I)
[0053] 其中VVe 6鱸以及K表示降維后的維度。換句話說, 模型⑴可以表示成
[0054]
[0055] 其中表示h的第k個元素,以及Wk是張量W的第k個面。在這種情況下,可 以將樣本Υι重新寫成投影基底Wk(k= 1,. . .,K)的線性組合.投影基底Wk與樣本Yi.有 相同的維度。這樣可以得到2D數(shù)據(jù)的向量化的降維。
[0056] 假設(shè)噪聲滿足矩陣高斯分布即Ei的每個元素#&滿足正態(tài)分布 #).為了應(yīng)用貝葉斯模型,進一步給定隱變量一個先驗分布:
[0057]
[0058] 為了方便,假設(shè)P:二去.滿足Gamma分布:
[0059]
[0060] 對于給定的模型(1),為了引入變分的學(xué)習(xí)算法,假設(shè)handp是模型的隱變量,W是參數(shù)。對于給定的樣本X極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值,
[0061]
[0062] 其中聯(lián)合分布為:
[0063]
[0064] 2模型求解
[0065] 對于上述模型,任務(wù)是求解模型參數(shù)評使得似然函數(shù)極大。利用任意分布Q0M0, 可以得到aw)的下界函數(shù):
[0066]
[0067] 上面的不等式成立是基于詹森不等式成立。第二個等式成立是基于假設(shè):0你泌有 分離的