一種混合二維概率主成分分析方法

文檔序號：9708793閱讀：999來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種混合二維概率主成分分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于特征提取及數(shù)據(jù)降維的技術(shù)領(lǐng)域，具體地涉及一種混合二維概率主成分分析方法。
【背景技術(shù)】
[0002] 高維和多模態(tài)數(shù)據(jù)在現(xiàn)代計算機(jī)視覺的研究中隨處可見。數(shù)據(jù)的高維度不僅增加了算法的復(fù)雜性和存儲的開銷，而且也降低了算法在實(shí)際應(yīng)用中的廣泛性。然而，高維數(shù)據(jù) 往往是均勻分布在一個低維空間或流行空間上。所以，找到高維觀測數(shù)據(jù)在低維空間中的一種映射關(guān)系已成為機(jī)器學(xué)習(xí)研究的一個具有挑戰(zhàn)性的問題。在過去的幾十年中，關(guān)于數(shù) 據(jù)降維的算法已取得很大進(jìn)展。
[0003] 主成分分析(Principal Component Analysis，PCA)是一種廣泛應(yīng)用于模式識別和機(jī)器學(xué)習(xí)的降維方法。PCA有很多種解釋，其中一種是假設(shè)觀測到的高維數(shù)據(jù)是低維空間中數(shù)據(jù)的一種線性映射。實(shí)際中得到的數(shù)據(jù)往往具有內(nèi)部相關(guān)結(jié)構(gòu)，例如，圖像。為了在二維數(shù)據(jù)上應(yīng)用PCA，最直接的辦法是將二維數(shù)據(jù)向量化。但向量化后的數(shù)據(jù)一般都是高維數(shù) 據(jù)，這樣不僅會導(dǎo)致維度災(zāi)難的問題而且忽略了二維數(shù)據(jù)的空間結(jié)構(gòu)信息。所以，數(shù)據(jù)向量化的PCA并不是一種最優(yōu)的特征提取方法。因此提出了一種二維數(shù)據(jù)的PCA(2DPCA)。與傳統(tǒng) 的PCA相比，2DPCA直接對2D數(shù)據(jù)矩陣進(jìn)行降維運(yùn)算，因此保留了數(shù)據(jù)間的結(jié)構(gòu)關(guān)系，并且取得了優(yōu)于PCA的實(shí)驗(yàn)結(jié)果。
[0004] 這些非概率的PCA只依賴原始數(shù)據(jù)，并沒有假設(shè)任何參數(shù)，也沒有將觀測數(shù)據(jù)的先驗(yàn)知識應(yīng)用到預(yù)測結(jié)果中。為了克服這個不足，Tipping and Bishop提出了一種概率的PCA 模型(PPCA)。這個模型同樣是將數(shù)據(jù)表示成一維向量，并且假設(shè)噪聲服從均值是0,斜方差為單位矩陣的高斯分布。與傳統(tǒng)的PCA相比，PPCA是應(yīng)用概率的理論達(dá)到對數(shù)據(jù)降維，模型的參數(shù)可通過極大似然估計(MLE)得出。進(jìn)而，Zhao et al.提出了基于二維數(shù)據(jù)的概率PCA (2DPPCA)，這是傳統(tǒng)PPCA到2D模型的一個突破。2DPPCA在圖像空間只定義了樣本的全局投影，為了更好地表示樣本的局部信息，Wang et al.基于人臉數(shù)據(jù)提出了混合概率PCA (MP2DPCA)〇
[0005] -組二維數(shù)據(jù)的概率分布是相當(dāng)復(fù)雜的，大多數(shù)情況下它不能由某一特定概率分布表示，所以需要使用混合高斯分布進(jìn)行近似。根據(jù)Bishop，通過使用足夠多的高斯分布，并且調(diào)節(jié)它們的均值和方差以及線性組合的系數(shù)，幾乎所有的連續(xù)概率密度都能夠以任意的精度近似。多個高斯分布的線性組合稱為混合高斯(mixture of Gaussians)分布。 Rasmussen提出了高斯混合模型(GMM)，Zivkovic將GMM應(yīng)用于圖片背景提取，Li et al.使用混合高斯回歸分析進(jìn)行子空間聚類。二階數(shù)據(jù)的概率分布使用多個高斯分布的混合模擬，即是將二階高維數(shù)據(jù)在多個主方向上降維，需要計算的參數(shù)較多，因此可以利用變分最大期望算法（Variational Expectation Maximization，Variational EM)解此模型。
[0006] 但是，以上方法均不能對二維數(shù)據(jù)進(jìn)行行和列兩個方向上的降維。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的技術(shù)解決問題是：克服現(xiàn)有技術(shù)的不足，提供一種混合二維概率主成分分析方法，其能夠?qū)ΧS數(shù)據(jù)在行和列兩個方向上進(jìn)行降維，重構(gòu)效果更好。
[0008] 本發(fā)明的技術(shù)解決方案是:這種混合二維概率主成分分析方法，樣本服從矩陣變量的混合高斯分布，該方法包括以下步驟：
[0009] (1)根據(jù)公式(1)構(gòu)建概率的二階主成分分析模型2DPCA
[0010] Xn = LBnRT+M+En； (1)
[0011] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣;Bn(rXc)是樣本知的隱變量核，稱為系數(shù)矩陣;r < p，c < q是降維后的行和列數(shù);M(pXq)是均值矩陣，En是滿足矩陣高斯分布的噪聲它的每個分量滿足％~機(jī)= !，2.… [0012] (2)根據(jù)公式(2)構(gòu)建混合的2DPCA
[0013]
(2)
[0014] 其中分離的均值項Mk是第k類樣本集的均值，Lk和Rk是樣本集得到的第k類降維，耶是混合比例> 〇; m 7? = 1，喊是第k個高斯分布的方差；
[0015] (3)通過公式(4)的極大似然函數(shù)對公式(2)中的參數(shù)進(jìn)行估計
[0016] (4)
[0017] znk取值為1或0,代表第η個樣本是否屬于第k個高斯分布。
[0018] (4)在求解公式⑷時，利用變分最大期望EM算法來優(yōu)化參數(shù)在EM 算法的E步中，對隱變量:Bf.求解其后驗(yàn)分布：其中1是均值， 1^:;.>0，蘇&)>、0：：分別是行和列方向的協(xié)方差矩陣，經(jīng)計算得到公式(9)-(11) :
[0019]
[0020]
[0021]
[0022]
[0023] Μ步更新公式(4)中的參數(shù)，得到公式(12)-(14):
[0024]
[0025]
[0027] 其中yn,k表示第η個樣本屬于第k個高斯分布的后驗(yàn)概率；
[0028] 迭代進(jìn)行E步和Μ步，使似然函數(shù)值增大并趨于穩(wěn)定。
[0029] 本發(fā)明基于混合高斯模型對二維數(shù)據(jù)進(jìn)行降維，通過引入隱變量，使用變分最大期望算法求解模型參數(shù)，以及降維后的系數(shù)矩陣，達(dá)到對二維數(shù)據(jù)進(jìn)行壓縮的效果，使用降維矩陣和系數(shù)矩陣重構(gòu)圖像，與原始圖像比較得到損失較小的圖像，將降維后的系數(shù)矩陣看作是樣本的特征，使用系數(shù)矩陣對樣本進(jìn)行分類，所以能夠?qū)ΧS數(shù)據(jù)在行和列兩個方向上進(jìn)行降維，重構(gòu)效果更好。
【附圖說明】
[0030] 圖1示出了麗1ST數(shù)據(jù)庫上不同算法的重構(gòu)誤差，圖la中Κ = 2,圖lb中Κ = 5,圖lc中 K = 10〇
[0031] 圖2a是在Yale數(shù)據(jù)庫上的重構(gòu)誤差曲線圖，圖2b是在AR數(shù)據(jù)庫上的重構(gòu)誤差曲線圖，兩圖中K = 5。
【具體實(shí)施方式】
[0032] 這種混合二維概率主成分分析方法，樣本服從矩陣變量的混合高斯分布，該方法包括以下步驟：
[0033] (1)根據(jù)公式(1)構(gòu)建概率的二階主成分分析模型2DPCA
[0034] Xn = LBnRT+M+En； (1)
[0035] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣;Bn(rXc)是樣本知的隱變量核，稱為系數(shù)矩陣;r < p，c < q是降維后的行和列數(shù);M(pXq)是均值矩陣，En是滿足矩陣高斯分布的噪聲，口:％^^).，.它的每個分量滿足％
[0036] (2)根據(jù)公式(2)構(gòu)建混合的2DPCA
[0037] Λ"-!
[0038] 其中分離的均值項Mk是第k類樣本集的均值，Lk和Rk是樣本集得到的第k類降維，耶是混合比例，％ >0, = 1,喊是第k個高斯分布的方差；
[0039] (3)通過公式(4)的極大似然函數(shù)對公式(2)中的參數(shù)進(jìn)行估計
[0040]
[0041 ] Znk取值為1或0,代表第η個樣本是否屬于第k個高斯分布。
[0042] (4)在求解公式⑷時，利用變分最大期望EM算法來優(yōu)化參數(shù)11卜仏#:，在EM 算法的E步中，對隱變量:滅 :)」求解其后驗(yàn)分布：，其中獻(xiàn);):是均值， M)，>.0:·分別是行和列方向的協(xié)方差矩陣，經(jīng)計算得到公式(9)-(11):
[0043]
[0044]
[0045]
[0046]
[0047] Μ步更新公式(4)中的參數(shù)，得到公式(12)-(14):
[0048]
[0051] 其中yn,k表示第η個樣本屬于第k個高斯分布的后驗(yàn)概率；
[0052] 迭代進(jìn)行E步和Μ步，使似然函數(shù)值增大并趨于穩(wěn)定。
[0053] 本發(fā)明基于混合高斯模型對二維數(shù)據(jù)進(jìn)行降維，通過引入隱變量，使用變分最大期望算法求解模型參數(shù)，以及降維后的系數(shù)矩陣，達(dá)到對二維數(shù)據(jù)進(jìn)行壓縮的效果，使用降維矩陣和系數(shù)矩陣重構(gòu)圖像，與原始圖像比較得到損失較小的圖像，將降維后的系數(shù)矩陣看作是樣本的特征，使用系數(shù)矩陣對樣本進(jìn)行分類，所以能夠?qū)ΧS數(shù)據(jù)在行和列兩個方向上進(jìn)行降維，重構(gòu)效果更好。
[0054] 現(xiàn)在更詳細(xì)地說明本發(fā)明。
[0055] 為了求解公式(2)，利用變分近似算法求解模型中所有變量的后驗(yàn)分布的密度函數(shù)。
[0056] 1 概率的二階 PCA(PSOPCA)
[0057] 令x= {Xi，X2, . . .，XN}是一組獨(dú)立同分布隨機(jī)變量的N個樣本，其中每個樣本的大小為1Ρ::氣2D主成分分析可以表示成如下形式：
[0058] Xn = LBnRT+M+En； (1)
[0059] 其中L(pXr)和R(qXc)分別是行和列方向的降維矩陣，Bn(rXc)是樣本Xn的隱變量核，即系數(shù)矩陣。r < p，c < q是降維后的行和列數(shù)。M(pXq)是均值矩陣，En是滿足矩陣高斯分布的噪聲，即，私.創(chuàng)#(0;辦％，％}。也就是它的每個分量滿足句~。m; j。i a 則模型（1)就是標(biāo)準(zhǔn)的概率2DPCA。
[0060] 2MixB2DPPCA 模型
[0061] 對于更加復(fù)雜的數(shù)據(jù)集，單單用一個主成分模型很難擬合原來的樣本集，因?yàn)檫@ 種主成分分析是一種全局降維模型，對于一些數(shù)據(jù)分布復(fù)雜的樣本，僅僅找到一個主方向顯然是不合理的。因此，提出一種局部2DPCA模型，利用多個2DPCA的混合形式找到一組降維方向，從而可以更好的表示原始數(shù)據(jù)的主成分。
[0062] 在本項目中，考慮混合的2DPCA，目的是對復(fù)雜的二維樣本數(shù)據(jù)在得到分類后，并求解每一類的降維矩陣。假設(shè)樣本Xn服從由K個高斯分布組成的高斯混合模型(GMM)，即
[0063] +i.
[0064] 值得注意的是，一個分離的均值項Mk是與K個混合成分相聯(lián)系的，實(shí)際上它是第k 類樣本集的均值，Lk和Rk是樣本集得到的第k類降維。耶是混合比例，巧> (λ. 恥=1。
[0065] 引入一個Κ維二進(jìn)制隨機(jī)變量ζ，Κ個元素中只有一個元素抑等于1，其他元素為0. 也就是zke {〇，1}且Hi %二1，所以p(zk= 1)=取，則ζ的后驗(yàn)分布定義為：

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫艷豐;劉思萌;句福嬌;胡永利;尹寶才;
技術(shù)所有人：北京工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：車輛行駛信息記錄方法及裝置的制造方法
上一篇：基于深度學(xué)習(xí)的皮膚活檢圖像病理特性識別方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

二維主成分分析相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種混合二維概率主成分分析方法