例外點(diǎn)抑制的數(shù)據(jù)判別降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理領(lǐng)域,更具體地,設(shè)及一種例外點(diǎn)抑制的數(shù)據(jù)判別降維方法。
【背景技術(shù)】
[0002] 基于子空間學(xué)習(xí)的數(shù)據(jù)降維方法在智能分析與認(rèn)知系統(tǒng)中得到了充分的重視。線 性判別分析(LDA)及其各種改進(jìn)方式因?yàn)槠溆斜O(jiān)督的學(xué)習(xí)方式和簡(jiǎn)單的實(shí)現(xiàn)過(guò)程受到了 更加廣泛的關(guān)注和研究。
[0003] 然而在現(xiàn)實(shí)場(chǎng)景中,兩個(gè)方面的缺陷限制了LDA的進(jìn)一步應(yīng)用及推廣。首先,獨(dú)立 同分布的基本假設(shè)顯得過(guò)于苛刻。對(duì)于那些不滿足該一基本假設(shè)的數(shù)據(jù),就無(wú)法從理論上 保證得到最優(yōu)解。并且對(duì)于高維數(shù)據(jù)而言,怎樣判別獨(dú)立同分布假設(shè)本身就是十分困難的 問(wèn)題。其次,現(xiàn)實(shí)環(huán)境中采集到的數(shù)據(jù)往往帶有一定程度的噪音和例外點(diǎn),它們的存在將導(dǎo) 致子空間不夠穩(wěn)健,并且獨(dú)立同分布的數(shù)據(jù)分布假設(shè)使得模型帶有較大的誤差。在該兩種 情況下,使用傳統(tǒng)的均值與協(xié)方差矩陣估計(jì)方法將損失子空間的判別信息。
[0004] 科研人員在數(shù)據(jù)建模與數(shù)值計(jì)算過(guò)程中發(fā)現(xiàn),部分?jǐn)?shù)據(jù)在判別子空間學(xué)習(xí)過(guò)程中 起了較之其他數(shù)據(jù)更加積極的作用。該樣,如果對(duì)于所有數(shù)據(jù)都不加任何區(qū)分的統(tǒng)計(jì)量估 計(jì),不僅顯得不夠合理,也在實(shí)際應(yīng)用過(guò)程中有著較弱的表現(xiàn)。因此很有必要重新提煉數(shù)據(jù) 的局部結(jié)構(gòu)特征,對(duì)數(shù)據(jù)樣本進(jìn)行合理區(qū)分,對(duì)那些起了積極作用的樣本賦予更大的權(quán)值, 才能更加有效的挖掘數(shù)據(jù)蘊(yùn)含的判別信息。通過(guò)對(duì)費(fèi)歇爾線性判別分析與局部保持投影基 本思想的組合,LFDA能夠?qū)W習(xí)出帶有局部結(jié)構(gòu)保持特性的判別子空間。Ll-Gra地將稀疏表 示方法引入到局部近鄰樣本刻畫過(guò)程,從而有效挖掘出樣本之間的稀疏表達(dá)特性,然而在 此基礎(chǔ)上得到有助于分類的子空間。哈爾濱工業(yè)大學(xué)的徐勇教授提出了兩步驟的LLDA方 法。首先對(duì)于任意給定的測(cè)試樣本y,在訓(xùn)練集中通過(guò)稀疏表示的方法選出y的一組相關(guān) (近鄰)樣本,然后基于該些相關(guān)樣本執(zhí)行經(jīng)典的費(fèi)歇爾判別準(zhǔn)則,該樣可W進(jìn)一步淘汰冗 余樣本,從而減小了計(jì)算復(fù)雜度。最近,Muetal.提出了自適應(yīng)的嵌入框架處理多類別數(shù) 據(jù)降維問(wèn)題。
[0005] 值得注意的是,W上算法或方法都可W歸結(jié)為"關(guān)系加權(quán)"的基本思路。換言之,通 過(guò)對(duì)樣本之間的"近鄰關(guān)系"(近鄰,非近鄰)進(jìn)行再次估計(jì)與分析,任意一組樣本之間的關(guān) 系(有監(jiān)督的類屬關(guān)系與無(wú)監(jiān)督的近鄰關(guān)系)得到了基于局部幾何結(jié)構(gòu)的調(diào)整,從而更加 有助于判別分析。然而,該類算法的一個(gè)主要缺陷在于,如果數(shù)據(jù)存在一定程度的例外點(diǎn), 那么例外點(diǎn)與正常數(shù)據(jù)點(diǎn)之間的關(guān)系也將因此而放大,從而影響判別子空間的學(xué)習(xí)。
【發(fā)明內(nèi)容】
[0006] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提出一種例外點(diǎn)抑制的數(shù)據(jù)判別降維方 法。該方法能夠有效的求解最優(yōu)判別子空間,估計(jì)出各個(gè)樣本在學(xué)習(xí)過(guò)程中的貢獻(xiàn)值,能夠 較好的處理帶有遮擋和例外點(diǎn)的數(shù)據(jù)。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
[000引一種例外點(diǎn)抑制的數(shù)據(jù)判別降維方法,包括w下步驟:
[0009] S1.輸入帶有類別標(biāo)簽1、2、…、C的原始數(shù)據(jù),C是類別總數(shù);
[0010] S2.在第k個(gè)類別內(nèi)部,1《k《C,求出其中每一對(duì)數(shù)據(jù)點(diǎn)xf與x/之間的關(guān)系權(quán) 值
其中0是一個(gè)先驗(yàn)參數(shù);然后求出該類別中第i個(gè)數(shù)據(jù)點(diǎn)xf與其 它數(shù)據(jù)點(diǎn)之間的權(quán)值
其中的rik表示第k個(gè)類別 中數(shù)據(jù)點(diǎn)個(gè)數(shù);
[0011] S3.列出第k類的數(shù)據(jù)點(diǎn)xf與所有同類別數(shù)據(jù)點(diǎn)之間的權(quán)值,統(tǒng)一使用S2步驟 中的權(quán)值之和
敝歸一化處理,得到xf的最終權(quán)值
k= 1,2,…,C;i= 1,2,…,rik,
[0012] S4.對(duì)第k個(gè)類別中的數(shù)據(jù)點(diǎn),依據(jù)各自的樣本權(quán)值計(jì)算出該類別的樣本均值向 量和協(xié)方差矩陣:
[0015] S5.對(duì)所有類別中的數(shù)據(jù),分別計(jì)算不同類別之間的散度矩陣&二
巧所有類別的類內(nèi)散度矩醉
[0016] S6.為了提取間距和判別特征,需要求解出最優(yōu)的正交投影矩陣A,使其滿足SbA =入S,A。該個(gè)過(guò)程可W轉(zhuǎn)化為馬1而的矩陣分解,其中是S,的逆矩陣,A是待求解的 mX(C-l)維度矩陣,A是由特征值構(gòu)成的對(duì)角矩陣。
[0017] 進(jìn)一步的,所述步驟S6中包括:
[0018] 1)S,^S,+P1,其中P是一個(gè)很小的正數(shù),I表示單位矩陣;
[001引。求解S,的逆矩陣S戶,令5 = &;旬;
[0020] 3)將S分解為QSQT的形式,其中Q是mXm的正交矩陣,S是mXm的對(duì)角矩陣, 其對(duì)角元素均為非負(fù)實(shí)數(shù)且按從大到小的順序排列;
[0021] 4)取矩陣Q的前C-1列構(gòu)成新的矩陣A。
[0022] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為;(1)所有數(shù)據(jù)點(diǎn)都假設(shè)依據(jù)在判別子空 間學(xué)習(xí)過(guò)程中的貢獻(xiàn)賦予權(quán)值,其中起到積極作用的數(shù)據(jù)點(diǎn)賦予較大樣本權(quán)值;據(jù)此,例外 點(diǎn)在子空間學(xué)習(xí)過(guò)程中將自適應(yīng)地得到衰減。
[002引 似基于給定的類別標(biāo)簽,獨(dú)立估計(jì)出每個(gè)類別的均值向量與協(xié)方差矩陣,然后提 出基于新的統(tǒng)計(jì)量的線性判別準(zhǔn)則;該種樣本加權(quán)的新模式也可W用于其他基于協(xié)方差矩 陣的算法當(dāng)中。
[0024] 本發(fā)明提出了新的樣本加權(quán)方法和數(shù)據(jù)降維方法,用于改善判別子空間的穩(wěn)健性 能,在抑制噪音與例外點(diǎn)等方面有著十分重要的作用和廣泛的應(yīng)用空間。
【附圖說(shuō)明】
[00巧]圖1為常規(guī)的近鄰關(guān)系示意圖。
[0026] 圖2為新的均值估計(jì)方法模型示意圖。
[0027] 圖3為本發(fā)明方法的流程圖。
【具體實(shí)施方式】
[0028] 下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的描述,但本發(fā)明的實(shí)施方式并不限于此。
[0029] 圖1為常規(guī)的圖嵌入模型,同一類別的所有數(shù)據(jù)點(diǎn)都賦予相同權(quán)值。
[0030] 圖2為基于重要性采樣的均值估計(jì)方法,其中實(shí)屯、圓表示賦予較大權(quán)值的重要數(shù) 據(jù)點(diǎn),它們用于估計(jì)類內(nèi)的加權(quán)均值。
[0031] 圖3為本發(fā)明方法的流程圖,其中包含數(shù)據(jù)輸入、權(quán)值估計(jì)、均值估計(jì)、類內(nèi)/類間 散度矩陣估計(jì)、子空間計(jì)算等主要過(guò)程。
[0032] 例外點(diǎn)抑制的數(shù)據(jù)判別降維方法,包括W下步驟:
[003引S1.輸入帶有類別標(biāo)簽1、2、…、C的原始數(shù)據(jù),C是類別總數(shù);
[0034] S2.在第k個(gè)類別內(nèi)部,1《k《C,求出其中每一對(duì)數(shù)據(jù)點(diǎn);rf與x/之間的關(guān)系權(quán) 值
其中0是一個(gè)先驗(yàn)參數(shù);然后求出該類別中第i個(gè)數(shù)據(jù)點(diǎn)與其 它數(shù)據(jù)點(diǎn)之間的權(quán)值
其中的%表示第k個(gè)類別 中數(shù)據(jù)點(diǎn)個(gè)數(shù);
[003引S3.列出第k類的數(shù)據(jù)點(diǎn)非與所有同類別數(shù)據(jù)點(diǎn)之間的權(quán)值,統(tǒng)一使用S2步驟 中的權(quán)值之和
敝歸一化處理,得到xf的最終權(quán)值
k= 1,2,…,C;i= 1,2,…,rik,
[0036]