一種例外點抑制的快速回歸分類方法
【技術領域】
[0001] 本發(fā)明涉及大規(guī)模數據分析與模式分類領域,更具體地,涉及一種基于例外點抑 制機理與可并行計算設計的快速數據回歸分類方法。
【背景技術】
[0002] 字典學習與稀疏表示方法最近在機器學習與模式識別領域受到廣泛的關注,并在 一些具體應用問題上得到了卓越的表現性能。在限制等距條件下,任何一個測試樣本都可 以表示為一組訓練樣本的線性組合,這為基于極小重構誤差原理的分類器設計提供了新的 發(fā)展思路。美國伊利諾伊大學香檳分校Wright博士于2009年提出稀疏表示分類器(SRC)并 成功應用于人像識別,該方法隨后被廣泛引用并用于解決其他相關問題。
[0003] 然而,盡管SRC在一些帶有光線變化和局部遮擋的數據庫上得到了不錯的結果,它 仍然不能很好的解決帶有戶外光線和其他例外點的數據分類問題。同時,SRC算法具有較高 的計算復雜度,不能高效的處理大規(guī)模數據實時分類。香港理工大學張磊教授提出了基于 Gabor變換的快速字典學習算法,北京郵電大學鄧偉洪博士針對具體的遮擋情形也提出了 新的算法用于改善分類精度??紤]到損失函數對例外點的敏感程度,深圳大學楊猛博士提 出迭代重加權的新方式用以衰減部分遮擋像素的不利影響,中科院自動化所赫然博士提出 極大化相關熵方法實現了對例外點更加有效的抑制方式,然而這些方法由于需要用到較大 規(guī)模的訓練數據,使得計算復雜度依然較高,無法滿足大規(guī)模運算與實時處理需求。
【發(fā)明內容】
[0004] 為了克服上述現有技術的不足,本發(fā)明提出一種基于例外點抑制機理的數據快速 分類方法。該方法能夠有效的抑制數據例外點對回歸系數的不利影響,在數據帶有例外點 的前提下逐類別估計出穩(wěn)健的回歸系數,能夠較快的處理大規(guī)模數據分類問題。
[0005] 為了實現上述目的,本發(fā)明的技術方案為:
[0006] -種例外點抑制的快速回歸分類方法,包括以下步驟:
[0007] S1.輸入數據,并進入循環(huán)體;
[0008] S2.設置參數,進行數據更新;
[0009] S3.構建回歸模型,進行數值優(yōu)化;
[0010] S4.對測試樣本進行分類;求得最優(yōu)類標k'使得測試樣本?中關于訓練數據Z的表 示向量,在最大熵的情況下 fc*與?最相關;
[0011] 步驟S1中輸入的數據包括Zk,nk,《d,P,γ 0;
[0012] 其中[Ζ1',···,ΖΚ]=Ζ是一組帶有類別屬性或標簽的數據,Zk表示第k個類別的數 據矩陣,n k表示第k類的樣本數,1?=1,2,···,Κ;?表示測試樣本,d表示數據維數,P是回歸模 型(見下面式(1))的正則化參數,γ〇表示初始化誤差向量;
[0013] 步驟S2中設置的參數包括:
[0014]
[0015] 其中t表示迭代指標,rt是第t步迭代所得誤差向量,γ η是第t-1步所得回歸系數 向量,σ是高斯函數對應的標準差,.Pt ^ <9*01:).表示第t步對應的相關熵,W是由向量做對 角化處理之后得到的對角矩陣;
[0016] 步驟S2中按照下式進行數據更新:= l47Zfc,;! = M/i,之〃表示對數據矩陣Zk左乘 W(行變換)得到的規(guī)范化矩陣,f表示對測試樣本i左乘W的結果;
[0017] 步驟S3中構建的回歸模型為:
[0018]
[0019] 其中與表示向量g的第j個分量,Zi表示第i個訓練樣本,Zij是Zi的第j個元素;
[0020] 進行數值優(yōu)化的過程為:
[0021] 根據共輒凸函數的優(yōu)化原理,存在g( ·)的一個共輒凸函數φ(·),使得
υ… pf V " ,一^且對一個固定的δ,在p'=-g(5)處能達到最大值;設p =
[P!,P2,…,Pd ] 7是一個輔助向量,建立新的回歸模型:
[0022]
[0023]是權值向量,P是非負的正則化參數,使用交叉驗證方法確定P 的經驗極優(yōu)值;
[0024] 下面考慮回歸模型(2)的數值優(yōu)化問題;
[0025] 當變量γ固定時,maYx/ = 最大化f等同于最大化增廣函數/(y,P); 顯然,使用交替優(yōu)化的方式能夠計算出公式(2)的一組局部最優(yōu)值(γ,P);
[0026]
[0027]
[0028] 其中k表示類別指標,上標t和t+1分別表示第t和t+1次的迭代結果,Ω =diag(P) 表示由向量P得到的對角矩陣;輔助向量-p的值是公式(4)的權重;公式(4)的目標函數可重 新表示成下面的二次規(guī)劃:
[0029] t
^ γ
[0030] 其中
?于矩陣刃 藝+pi是正定的,公式 (5)對應的二次規(guī)劃是一個凸問題,用活動集方法求解;
[0031] 從公式(3)到公式(5)找到極優(yōu)的γ去最大化目標函數的變量pt;公式(3)更新了 輔助變量;交替優(yōu)化公式(3)和(4)直到公式(2)的目標函數達到收斂;
[0032] 判斷更新迭代條件,并由此判斷是否返回循環(huán)體,如返回循環(huán)體,則跳轉到步驟 S2,否則輸出γ$=γ?;
[0033] 對測試樣本i進行分類的過程為:
[0034] 對每一個類別k,設yk是回歸向量系數,則測試樣本?由? = 重構出來;如果 在含和I之間存在最大的相關熵或最小的非線性重構誤差,即
[0035]
[0036] 則將i歸類到k*。
[0037] 與現有技術相比,本發(fā)明的有益效果為:(1)相關熵函數對任意兩個特征向量計算 逐點相似度之和,自然對局部遮擋或例外點有著非常敏感的判斷和抑制。(2)回歸系數的非 負約束進一步加強了模型的解釋性,模型可以轉化為標準的二次規(guī)劃問題求解。(3)新方法 針對不同類別的數據做分片(逐類)回歸,處理速度較快并且能夠對大規(guī)模數據做并行處 理。
[0038]本發(fā)明提出了新的逐類魯棒回歸分類方法,用于改善已有分類器的穩(wěn)健性和實效 性,在抑制例外點和噪音等方面有著十分重要的作用和廣泛的應用空間。
【附圖說明】
[0039] 圖1為基于相關熵函數的回歸模型。
[0040] 圖2為基于極大重構相似度量的分類方法。
[0041 ]圖3為本發(fā)明方法的流程圖。
【具體實施方式】
[0042]附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附 圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;
[0043]對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解 的。下面結合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
[0044] 圖1為基于相關熵函數的回歸模型,同一類別的訓練數據用于構建回歸模型的預 測矩陣,測試樣本用作響應向量,使用相關熵做為回歸誤差函數?;貧w模型可以表示為帶有 非負約束的二次規(guī)劃問題求解。
[0045] 圖2為基于極大重構相似度量的分類方法,其中柱狀圖的高度表示不同類別的相 似度量,極大相似度對應的類別即為預測結果。
[0046] 圖3為本發(fā)明方法的流程圖與主要算法步驟,其中包含數據輸入、參數初始化與調 優(yōu)、目標函數迭代優(yōu)化、逐類分類預測等主要過程。
[00