一種向量化降維方法

文檔序號：9631571閱讀：679來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種向量化降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)降維的技術(shù)領(lǐng)域，具體地涉及一種向量化降維方法。
【背景技術(shù)】
[0002] 多模態(tài)數(shù)據(jù)和高維數(shù)據(jù)在現(xiàn)代計算機視覺的研究中隨處可見。數(shù)據(jù)的高維度不僅增加了算法的復(fù)雜性和存儲的開銷，而且也降低了算法在實際應(yīng)用中的廣泛性。然而，高維數(shù)據(jù)往往是均勻分布在一個低維空間或流行空間上。所以，找到高維觀測數(shù)據(jù)在低維空間中的一種映射關(guān)系已成為機器學(xué)習(xí)研究的一個具有挑戰(zhàn)性的問題。在過去的幾十年中，關(guān) 于數(shù)據(jù)降維的算法已取得很大進展。
[0003] 主成分分析（PrincipalComponentAnalysis,PCA)是一種廣泛應(yīng)用于模式識別和機器學(xué)習(xí)的降維方法。眾所周知，PCA方法是一種向量化的降維方法，它可以將向量數(shù)據(jù) 表示成一組基向量的線性組合形式。由于基向量的正交性，因此降維后的系數(shù)可以用來代表原始的向量數(shù)據(jù)。然而，今天的數(shù)據(jù)一般擁有更復(fù)雜的結(jié)構(gòu)，例如，圖像可以看做是2D數(shù) 據(jù)。在2D數(shù)據(jù)上應(yīng)用PCA方法，需要首先將數(shù)據(jù)向量化，而向量化不僅會產(chǎn)生維度災(zāi)難的問題，而且還會破壞高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，從而忽略高維數(shù)據(jù)中的空間信息。與PCA不同的是，2DPCA算法是直接在2D數(shù)據(jù)上降維，即分別對行和列方向降維，降維后的系數(shù)仍是2D數(shù) 據(jù)。
[0004] 對于高階張量數(shù)據(jù)，一種典型的降維方法是Tucker分解。WangandAhuja將高維的數(shù)據(jù)看成是張量，而不是矩陣或向量，并且提出了一種秩為1的分解算法（TROD)，這種分解方式是將張量分解成一組秩為1的張量和的形式。這種算法是對張量的每個維度降維，并且是通過對一個張量數(shù)據(jù)降維得到。
[0005] 高階張量的降維目前是一個具有挑戰(zhàn)性的問題。經(jīng)典的方法都是將張量數(shù)據(jù)向量化或是利用Tucker分解對高維數(shù)據(jù)降維，這樣會得到較低階張量或破壞原始張量數(shù)據(jù)的內(nèi)部結(jié)構(gòu)，從而識別率較低。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的技術(shù)解決問題是：克服現(xiàn)有技術(shù)的不足，提供一種向量化降維方法，其識別率大大提尚。
[0007] 本發(fā)明的技術(shù)解決方案是：這種向量化降維方法，所述方法包括以下步驟：
[0008] (1)根據(jù)公式（1)的向量化降維模型，將張量數(shù)據(jù)表示成若干個基張量的線性組合
[0009]
(1)
[0010] 其中給定樣本集{e鬏&χβΜ=I.、；射包含Μ個獨立同分布的樣本，這些樣本可以組成一個三階張量:，此張量3；的每一面是一個樣本 YiW€ 二h€妒，κ表示降維后的維度；
[0011] (2)將張量數(shù)據(jù)直接降維到一個向量數(shù)據(jù)
[0012] ζ2.)
[0013] 公式⑵中表示hi的第k個元素，Wk是張量W的第k個面，將樣本I重新寫成投影基底wk(k= 1，. . .，Κ)的線性組合，投影基底Wk與樣本Υρ有相同的維度，得到2D 數(shù)據(jù)的向量化的降維；
[0014] (3)假設(shè)噪聲滿足矩陣高斯分布Ei的每個元素efΑ滿足正態(tài)分布 .ΑΤ((Μ#)，為了應(yīng)用以上模型，根據(jù)公式（3)給定隱變量一個先驗分布：[0015]
C3)
[0016] 假設(shè):表滿足Gamma分布：
[0017]
[0018] 對于公式（1)，假設(shè)handP是模型的隱變量，W是參數(shù)；根據(jù)公式（4)對于給定的樣本兄極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值，
[0020] 其中聯(lián)合分布為：[0021]
[0019] C4)
[0022] 其中，Yi代表第i個樣本，}..ve是降維基底，私€竅&是樣本Yi在降維基底下的系數(shù)。
[0023] 本發(fā)明引入了一種基于張量數(shù)據(jù)的概率方法的向量化降維模型，應(yīng)用此模型可以將張量數(shù)據(jù)可以表示成若干個基張量的線性組合，這樣它可以提供一種方法可以將張量數(shù) 據(jù)直接降維到一個向量數(shù)據(jù)，所以其識別率大大提高。
【附圖說明】
[0024] 圖la是本方法和PCA的比較結(jié)果，這兩種方法都是將數(shù)據(jù)映射到向量上。圖lb 是本方法和GLRAM，TUCKER的重構(gòu)誤差結(jié)果。
[0025] 圖2是GLRAM，B2DPCA和本方法在Yale數(shù)據(jù)庫上的人臉識別率。
【具體實施方式】
[0026] 這種向量化降維方法，所述方法包括以下步驟：
[0027] (1)根據(jù)公式（1)的向量化降維模型，將張量數(shù)據(jù)表示成若干個基張量的線性組合
[0028] (1)
[0029] 其中給定樣本集€發(fā)巧= 1;、.y包含Μ個獨立同分布的樣本，這些樣本可以組成一個三階張量，此張量y的每一面是一個樣本Yi :敎訪成冰泎二丨：μ匕，bef，κ表示降維后的維度；
[0030] (2)將張量數(shù)據(jù)直接降維到一個向量數(shù)據(jù)
[0031] ⑵
[0032] 公式⑵中表示h的第k個元素，Wk是張量W的第k個面，將樣本\重新寫成投影基底Wk(k= 1，. . .，K)的線性組合，投影基底Wk與樣本Yp有相同的維度，得到2D 數(shù)據(jù)的向量化的降維；
[0033](3)假設(shè)噪聲滿足矩陣高斯分布Ei的每個元素ef^滿足正態(tài)分布為了應(yīng)用以上模型，根據(jù)公式（3)給定隱變量一個先驗分布：
[0034] ⑶
[0035] 假設(shè): 満足Gamma分布：
[0036]
個v
[0037]對于公式（1)，假設(shè)handP是模型的隱變量，VV是參數(shù)；根據(jù)公式（4)對于給定的樣本又極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值，
[0039] 其中聯(lián)合分布為：[0040]
[0038] (4)
[0041] 其中，Yi代表第i個樣本，+w€默~-抓是降維基底，.+? €狡1是樣本Yi在降維基底下的系數(shù)。
[0042] 本發(fā)明引入了一種基于張量數(shù)據(jù)的概率方法的向量化降維模型，應(yīng)用此模型可以將張量數(shù)據(jù)可以表示成若干個基張量的線性組合，這樣它可以提供一種方法可以將張量數(shù) 據(jù)直接降維到一個向量數(shù)據(jù)，所以其識別率大大提高。
[0043]優(yōu)選地，所述方法還包括步驟（4)，假設(shè)基底滿足CP分解的結(jié)構(gòu)，應(yīng)用基于變分EM 算法的貝葉斯推斷對公式（1)求解。
[0044] 優(yōu)選地，所述步驟（4)中，根據(jù)公式（5)求解￥的CP分解：
[0045] >'
(5)
[0046] 利用上次迭代的W(1)，W(2)和W(3)作為下一次的初始值，當(dāng)?shù)玫絎(3)后，利用公式（6) 求解w(h)
[0047] W⑶=MVh) (6)
[0048] 進而可以將上述二階數(shù)據(jù)的模型推廣到高階張量數(shù)據(jù)的降維中。
[0049] 下面更詳細地說明本方法。
[0050] 1.張量數(shù)據(jù)貝葉斯方法的向量化降維模型
[0051]給定樣本集(me竅:，射;K包含Μ個獨立同分布的樣本。這些樣本可以組成一個三階張量:F€ 此張量少的每一面是一個樣本I。假設(shè)每個樣本 I可以分解成一個隱變量的線性組合，即
[0052] (I)
[0053] 其中VVe 6鱸以及K表示降維后的維度。換句話說，模型⑴可以表示成
[0054]
[0055] 其中表示h的第k個元素，以及Wk是張量W的第k個面。在這種情況下，可以將樣本Υι重新寫成投影基底Wk(k= 1，. . .，K)的線性組合.投影基底Wk與樣本Yi.有相同的維度。這樣可以得到2D數(shù)據(jù)的向量化的降維。
[0056] 假設(shè)噪聲滿足矩陣高斯分布即Ei的每個元素#&滿足正態(tài)分布 #).為了應(yīng)用貝葉斯模型，進一步給定隱變量一個先驗分布：
[0057]
[0058] 為了方便，假設(shè)P:二去.滿足Gamma分布：
[0059]
[0060] 對于給定的模型（1)，為了引入變分的學(xué)習(xí)算法，假設(shè)handp是模型的隱變量，W是參數(shù)。對于給定的樣本X極大化似然函數(shù)等價于極大化似然函數(shù)的對數(shù)值，
[0061]
[0062] 其中聯(lián)合分布為：
[0063]
[0064] 2模型求解
[0065] 對于上述模型，任務(wù)是求解模型參數(shù)評使得似然函數(shù)極大。利用任意分布Q0M0，可以得到aw)的下界函數(shù)：
[0066]
[0067] 上面的不等式成立是基于詹森不等式成立。第二個等式成立是基于假設(shè):0你泌有分離的

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫艷豐;句福嬌;胡永利;尹寶才;
技術(shù)所有人：北京工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：一種自助式查新方法及系統(tǒng)的制作方法
上一篇：一種數(shù)據(jù)庫訪問工具、系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

降維方法相關(guān)技術(shù)

數(shù)據(jù)降維方法相關(guān)技術(shù)

高維數(shù)據(jù)降維方法相關(guān)技術(shù)

圖像降維方法相關(guān)技術(shù)

特征降維的方法相關(guān)技術(shù)

特征降維方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種向量化降維方法