一種混合二維概率主成分分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于特征提取及數(shù)據(jù)降維的技術(shù)領(lǐng)域,具體地涉及一種混合二維概率主成 分分析方法。
【背景技術(shù)】
[0002] 高維和多模態(tài)數(shù)據(jù)在現(xiàn)代計算機(jī)視覺的研究中隨處可見。數(shù)據(jù)的高維度不僅增加 了算法的復(fù)雜性和存儲的開銷,而且也降低了算法在實(shí)際應(yīng)用中的廣泛性。然而,高維數(shù)據(jù) 往往是均勻分布在一個低維空間或流行空間上。所以,找到高維觀測數(shù)據(jù)在低維空間中的 一種映射關(guān)系已成為機(jī)器學(xué)習(xí)研究的一個具有挑戰(zhàn)性的問題。在過去的幾十年中,關(guān)于數(shù) 據(jù)降維的算法已取得很大進(jìn)展。
[0003] 主成分分析(Principal Component Analysis,PCA)是一種廣泛應(yīng)用于模式識別 和機(jī)器學(xué)習(xí)的降維方法。PCA有很多種解釋,其中一種是假設(shè)觀測到的高維數(shù)據(jù)是低維空間 中數(shù)據(jù)的一種線性映射。實(shí)際中得到的數(shù)據(jù)往往具有內(nèi)部相關(guān)結(jié)構(gòu),例如,圖像。為了在二 維數(shù)據(jù)上應(yīng)用PCA,最直接的辦法是將二維數(shù)據(jù)向量化。但向量化后的數(shù)據(jù)一般都是高維數(shù) 據(jù),這樣不僅會導(dǎo)致維度災(zāi)難的問題而且忽略了二維數(shù)據(jù)的空間結(jié)構(gòu)信息。所以,數(shù)據(jù)向量 化的PCA并不是一種最優(yōu)的特征提取方法。因此提出了一種二維數(shù)據(jù)的PCA(2DPCA)。與傳統(tǒng) 的PCA相比,2DPCA直接對2D數(shù)據(jù)矩陣進(jìn)行降維運(yùn)算,因此保留了數(shù)據(jù)間的結(jié)構(gòu)關(guān)系,并且取 得了優(yōu)于PCA的實(shí)驗(yàn)結(jié)果。
[0004] 這些非概率的PCA只依賴原始數(shù)據(jù),并沒有假設(shè)任何參數(shù),也沒有將觀測數(shù)據(jù)的先 驗(yàn)知識應(yīng)用到預(yù)測結(jié)果中。為了克服這個不足,Tipping and Bishop提出了一種概率的PCA 模型(PPCA)。這個模型同樣是將數(shù)據(jù)表示成一維向量,并且假設(shè)噪聲服從均值是0,斜方差 為單位矩陣的高斯分布。與傳統(tǒng)的PCA相比,PPCA是應(yīng)用概率的理論達(dá)到對數(shù)據(jù)降維,模型 的參數(shù)可通過極大似然估計(MLE)得出。進(jìn)而,Zhao et al.提出了基于二維數(shù)據(jù)的概率PCA (2DPPCA),這是傳統(tǒng)PPCA到2D模型的一個突破。2DPPCA在圖像空間只定義了樣本的全局投 影,為了更好地表示樣本的局部信息,Wang et al.基于人臉數(shù)據(jù)提出了混合概率PCA (MP2DPCA)〇
[0005] -組二維數(shù)據(jù)的概率分布是相當(dāng)復(fù)雜的,大多數(shù)情況下它不能由某一特定概率分 布表示,所以需要使用混合高斯分布進(jìn)行近似。根據(jù)Bishop,通過使用足夠多的高斯分布, 并且調(diào)節(jié)它們的均值和方差以及線性組合的系數(shù),幾乎所有的連續(xù)概率密度都能夠以任意 的精度近似。多個高斯分布的線性組合稱為混合高斯(mixture of Gaussians)分布。 Rasmussen提出了高斯混合模型(GMM),Zivkovic將GMM應(yīng)用于圖片背景提取,Li et al.使 用混合高斯回歸分析進(jìn)行子空間聚類。二階數(shù)據(jù)的概率分布使用多個高斯分布的混合模 擬,即是將二階高維數(shù)據(jù)在多個主方向上降維,需要計算的參數(shù)較多,因此可以利用變分最 大期望算法(Variational Expectation Maximization,Variational EM)解此模型。
[0006] 但是,以上方法均不能對二維數(shù)據(jù)進(jìn)行行和列兩個方向上的降維。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種混合二維概率主成分 分析方法,其能夠?qū)ΧS數(shù)據(jù)在行和列兩個方向上進(jìn)行降維,重構(gòu)效果更好。
[0008] 本發(fā)明的技術(shù)解決方案是:這種混合二維概率主成分分析方法,樣本服從矩陣變 量的混合高斯分布,該方法包括以下步驟:
[0009] (1)根據(jù)公式(1)構(gòu)建概率的二階主成分分析模型2DPCA
[0010] Xn = LBnRT+M+En; (1)
[0011] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣;Bn(rXc)是樣本知的隱變量核, 稱為系數(shù)矩陣;r < p,c < q是降維后的行和列數(shù);M(pXq)是均值矩陣,En是滿足矩陣高斯分布的噪 聲它的每個分量滿足%~機(jī)= !,2.… [0012] (2)根據(jù)公式(2)構(gòu)建混合的2DPCA
[0013]
(2)
[0014] 其中分離的均值項Mk是第k類樣本集的均值,Lk和Rk是樣本集得到的第k類降維,耶 是混合比例> 〇; m 7? = 1,喊是第k個高斯分布的方差;
[0015] (3)通過公式(4)的極大似然函數(shù)對公式(2)中的參數(shù)進(jìn)行估計
[0016] (4)
[0017] znk取值為1或0,代表第η個樣本是否屬于第k個高斯分布。
[0018] (4)在求解公式⑷時,利用變分最大期望EM算法來優(yōu)化參數(shù)在EM 算法的E步中,對隱變量:Bf.求解其后驗(yàn)分布:其中1是均值, 1^:;.>0,蘇&)>、0::分別是行和列方向的協(xié)方差矩陣,經(jīng)計算得到公式(9)-(11) :
[0019]
[0020]
[0021]
[0022]
[0023] Μ步更新公式(4)中的參數(shù),得到公式(12)-(14):
[0024]
[0025]
[0027] 其中yn,k表示第η個樣本屬于第k個高斯分布的后驗(yàn)概率;
[0028] 迭代進(jìn)行E步和Μ步,使似然函數(shù)值增大并趨于穩(wěn)定。
[0029] 本發(fā)明基于混合高斯模型對二維數(shù)據(jù)進(jìn)行降維,通過引入隱變量,使用變分最大 期望算法求解模型參數(shù),以及降維后的系數(shù)矩陣,達(dá)到對二維數(shù)據(jù)進(jìn)行壓縮的效果,使用降 維矩陣和系數(shù)矩陣重構(gòu)圖像,與原始圖像比較得到損失較小的圖像,將降維后的系數(shù)矩陣 看作是樣本的特征,使用系數(shù)矩陣對樣本進(jìn)行分類,所以能夠?qū)ΧS數(shù)據(jù)在行和列兩個方 向上進(jìn)行降維,重構(gòu)效果更好。
【附圖說明】
[0030] 圖1示出了麗1ST數(shù)據(jù)庫上不同算法的重構(gòu)誤差,圖la中Κ = 2,圖lb中Κ = 5,圖lc中 K = 10〇
[0031] 圖2a是在Yale數(shù)據(jù)庫上的重構(gòu)誤差曲線圖,圖2b是在AR數(shù)據(jù)庫上的重構(gòu)誤差曲線 圖,兩圖中K = 5。
【具體實(shí)施方式】
[0032] 這種混合二維概率主成分分析方法,樣本服從矩陣變量的混合高斯分布,該方法 包括以下步驟:
[0033] (1)根據(jù)公式(1)構(gòu)建概率的二階主成分分析模型2DPCA
[0034] Xn = LBnRT+M+En; (1)
[0035] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣;Bn(rXc)是樣本知的隱變量核, 稱為系數(shù)矩陣;r < p,c < q是降維后的行和列數(shù);M(pXq)是均值矩陣,En是滿足矩陣高斯分布的噪 聲,口:%^^).,.它的每個分量滿足%
[0036] (2)根據(jù)公式(2)構(gòu)建混合的2DPCA
[0037] Λ"-!
[0038] 其中分離的均值項Mk是第k類樣本集的均值,Lk和Rk是樣本集得到的第k類降維,耶 是混合比例,% >0, = 1,喊是第k個高斯分布的方差;
[0039] (3)通過公式(4)的極大似然函數(shù)對公式(2)中的參數(shù)進(jìn)行估計
[0040]
[0041 ] Znk取值為1或0,代表第η個樣本是否屬于第k個高斯分布。
[0042] (4)在求解公式⑷時,利用變分最大期望EM算法來優(yōu)化參數(shù)11卜仏#:,在EM 算法的E步中,對隱變量:滅 :)」求解其后驗(yàn)分布:,其中獻(xiàn);):是均值, M),>.0:·分別是行和列方向的協(xié)方差矩陣,經(jīng)計算得到公式(9)-(11):
[0043]
[0044]
[0045]
[0046]
[0047] Μ步更新公式(4)中的參數(shù),得到公式(12)-(14):
[0048]
[0051] 其中yn,k表示第η個樣本屬于第k個高斯分布的后驗(yàn)概率;
[0052] 迭代進(jìn)行E步和Μ步,使似然函數(shù)值增大并趨于穩(wěn)定。
[0053] 本發(fā)明基于混合高斯模型對二維數(shù)據(jù)進(jìn)行降維,通過引入隱變量,使用變分最大 期望算法求解模型參數(shù),以及降維后的系數(shù)矩陣,達(dá)到對二維數(shù)據(jù)進(jìn)行壓縮的效果,使用降 維矩陣和系數(shù)矩陣重構(gòu)圖像,與原始圖像比較得到損失較小的圖像,將降維后的系數(shù)矩陣 看作是樣本的特征,使用系數(shù)矩陣對樣本進(jìn)行分類,所以能夠?qū)ΧS數(shù)據(jù)在行和列兩個方 向上進(jìn)行降維,重構(gòu)效果更好。
[0054] 現(xiàn)在更詳細(xì)地說明本發(fā)明。
[0055] 為了求解公式(2),利用變分近似算法求解模型中所有變量的后驗(yàn)分布的密度函 數(shù)。
[0056] 1 概率的二階 PCA(PSOPCA)
[0057] 令x= {Xi,X2, . . .,XN}是一組獨(dú)立同分布隨機(jī)變量的N個樣本,其中每個樣本的大 小為1Ρ::氣2D主成分分析可以表示成如下形式:
[0058] Xn = LBnRT+M+En; (1)
[0059] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣,Bn(rXc)是樣本Xn的隱變量核,即 系數(shù)矩陣。r < p,c < q是降維后的行和列數(shù)。M(pXq)是均值矩陣,En是滿足矩陣高斯分布的噪聲,即, 私.創(chuàng)#(0;辦%,%}。也就是它的每個分量滿足句~。m; j。i a 則模型(1)就是標(biāo)準(zhǔn)的概率2DPCA。
[0060] 2MixB2DPPCA 模型
[0061] 對于更加復(fù)雜的數(shù)據(jù)集,單單用一個主成分模型很難擬合原來的樣本集,因?yàn)檫@ 種主成分分析是一種全局降維模型,對于一些數(shù)據(jù)分布復(fù)雜的樣本,僅僅找到一個主方向 顯然是不合理的。因此,提出一種局部2DPCA模型,利用多個2DPCA的混合形式找到一組降維 方向,從而可以更好的表示原始數(shù)據(jù)的主成分。
[0062] 在本項目中,考慮混合的2DPCA,目的是對復(fù)雜的二維樣本數(shù)據(jù)在得到分類后,并 求解每一類的降維矩陣。假設(shè)樣本Xn服從由K個高斯分布組成的高斯混合模型(GMM),即
[0063] +i.
[0064] 值得注意的是,一個分離的均值項Mk是與K個混合成分相聯(lián)系的,實(shí)際上它是第k 類樣本集的均值,Lk和Rk是樣本集得到的第k類降維。耶是混合比例,巧> (λ. 恥=1。
[0065] 引入一個Κ維二進(jìn)制隨機(jī)變量ζ,Κ個元素中只有一個元素抑等于1,其他元素為0. 也就是zke {〇,1}且Hi %二1,所以p(zk= 1)=取,則ζ的后驗(yàn)分布定義為: