基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法
【專利摘要】本發(fā)明提供一種基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法,首先利用核函數(shù)計(jì)算訓(xùn)練樣本在核空間中相互之間的距離,接著通過所得的結(jié)果計(jì)算訓(xùn)練樣本的聚簇中心樣本并通過每個(gè)樣本到聚簇中心的距離計(jì)算樣本權(quán)重,然后設(shè)計(jì)一種加權(quán)的支持向量數(shù)據(jù)描述方法得到所需的超球體作為決策邊界,之后對(duì)測(cè)試樣本進(jìn)行判別,若測(cè)試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本,反之則判為異常類樣本。相較于傳統(tǒng)的支持向量數(shù)據(jù)描述算法,本發(fā)明的基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法通過該權(quán)重因子引入了基于樣本分布信息的簇中心算法,根據(jù)樣本到簇中心的距離計(jì)算得到權(quán)重因子,實(shí)現(xiàn)了對(duì)原始支持向量數(shù)據(jù)描述方法決策邊界優(yōu)化的改進(jìn),能夠有效地對(duì)單類的數(shù)據(jù)集有更加準(zhǔn)確的數(shù)據(jù)分類描述。
【專利說明】
基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算 法。
【背景技術(shù)】
[0002] 支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)是由Tax在2001 年 提出的一種基于邊界的單類分類算法,其應(yīng)用領(lǐng)域在不斷被推廣,單類分類能夠區(qū)分異常 樣本的情況,故此SVDD比較適合異常檢測(cè)的問題,其在各種異常檢測(cè)應(yīng)用中有著非常顯著 地效果。
[0003] SVDD算法在對(duì)目標(biāo)數(shù)據(jù)進(jìn)行描述時(shí),首先將樣本通過核函數(shù)映射到和空間中,然 后用一個(gè)超球體去包含盡量多的目標(biāo)數(shù)據(jù),并要求最終的超球體半徑盡可能小。在進(jìn)行分 類判斷時(shí),若測(cè)試數(shù)據(jù)點(diǎn)位于超球體外,則此數(shù)據(jù)點(diǎn)視做異常點(diǎn),反之,則為目標(biāo)數(shù)據(jù)。
[0004] SVDD分類器是一種廣泛使用的單類分類分類器。SVDD利用樣本在核空間中樣本到 球形邊界的距離,而沒有考慮樣本的分布密度信息,這有可能會(huì)導(dǎo)致聚簇中心附近的樣本 沒有包含于超球體的情況,即出現(xiàn)較低分類精度的情況。為了解決這個(gè)缺陷,我們提出了一 種基于聚簇的加權(quán)SVDD算法,該算法在原始的SVDD訓(xùn)練過程中考慮樣本的分布密度,并利 用聚簇中心對(duì)樣本進(jìn)行加權(quán)處理,提高了原始的SVDD算法的分類精度。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明要解決的技術(shù)問題在于針對(duì)SVDD算法沒有充分利用樣本信息的特點(diǎn)而提 出的一種基于聚簇的支持向量數(shù)據(jù)描述算法。
[0006] 本算法的目標(biāo)是盡量在原有的支持向量數(shù)據(jù)描述方法中提高對(duì)樣本信息的利用 從而達(dá)到提高分類精度的目的,主要步驟是: 步驟1:利用樣本之間的相互距離計(jì)算訓(xùn)練樣本在核空間中的聚簇中心樣本; 步驟2:根據(jù)樣本到聚簇中心樣本的距離對(duì)訓(xùn)練樣本進(jìn)行加權(quán)處理; 步驟3:對(duì)原始的支持向量數(shù)據(jù)描述方法進(jìn)行加權(quán)設(shè)計(jì),利用步驟2所得樣本權(quán)重計(jì)算 得到支持向量的決策邊界,即一個(gè)封閉的超球體; 步驟4:對(duì)測(cè)試樣本進(jìn)行目標(biāo)類的判別,若測(cè)試樣本位于超球體之內(nèi)則判為目標(biāo)類樣 本,反之則判為異常類樣本。
[0007] 本發(fā)明解決的技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。本方法中所提出的 利用全局的密度信息方法得到的聚簇中心,而在考慮密度的情況時(shí)可以進(jìn)一步引入局部的 密度信息,得到某一局部的聚簇中心點(diǎn),在利用各個(gè)局部聚簇中心對(duì)樣本進(jìn)行加權(quán)處理,從 而有效的加入局部密度信息。
[0008] 本發(fā)明的有益效果是:利用原始訓(xùn)練樣本的密度信息所得到的聚簇中心樣本對(duì)每 個(gè)訓(xùn)練樣本進(jìn)行加權(quán)處理,并且對(duì)原始支持向量數(shù)據(jù)描述方法進(jìn)行引入權(quán)重因子的改進(jìn), 使用該方法能在不影響訓(xùn)練時(shí)空復(fù)雜度的情況下提高算法的分類準(zhǔn)確度,使得原始的SVDD 算法能在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中有進(jìn)一步的提高。
【附圖說明】
[0009] 圖1是本發(fā)明的基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法的流程圖。
【具體實(shí)施方式】
[0010] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步介紹:本發(fā)明的方法共分為四大步驟。
[0011] 第一步:計(jì)算訓(xùn)練樣本相互之間的空間距離和聚簇中心樣本。
[0012] 1)根據(jù)支持向量數(shù)據(jù)描述算法,樣本通過核函數(shù)|〇映射到高維的特征空間(也稱 作核空間)來對(duì)數(shù)據(jù)進(jìn)行更好的描述,為保證算法的時(shí)間復(fù)雜度不會(huì)有太大改變,計(jì)算訓(xùn)練 樣本相互之間的空間距離在核空間中進(jìn)行,核函數(shù)有多種選擇,例如高斯核函數(shù)
設(shè)訓(xùn)練樣本的數(shù)據(jù)集為為訓(xùn)練樣本數(shù)目),則第i個(gè)樣本與第j個(gè)樣 本在核空間中的距離的計(jì)算公式如下 disSi ? -? 4-K(ss,^) - (y ? (D 其中disij為樣本i和樣本j通過核映射之后相互之間的距離矩陣。
[0013] 2)計(jì)算每個(gè)樣本的局部密度值第i個(gè)樣本的密度值為
%為樣本到樣本之間的距離的平均值,即通過所有樣本到某個(gè)樣本的距離小于%的樣 本數(shù)目表示該個(gè)樣本的密度值,通過密度值得最大的樣本為聚簇的中心樣本點(diǎn)|。
[0014]第二步:計(jì)算每個(gè)訓(xùn)練樣本的權(quán)重。
[0015] 本發(fā)明為每個(gè)數(shù)據(jù)樣本賦予不同的權(quán)重,權(quán)重大小取值范圍為[0,1],第i個(gè)樣本巧 的權(quán)重網(wǎng)公式計(jì)算如下:
該權(quán)重等于1減去_到中心樣本點(diǎn)||的距離減去離中心樣本點(diǎn)疆最近的樣本的距離之差 除以離中心樣本點(diǎn)職最遠(yuǎn)的樣本距離減去離中心樣本點(diǎn)|最近的樣本的距離之差的商。
[0016] 第三步:基于對(duì)原始SVDD進(jìn)行加權(quán)改進(jìn)。
[0017] 1)對(duì)懲罰因子進(jìn)行改進(jìn)的SVDD目標(biāo)函數(shù)如下 斑_(dá)袞2'+.嫌匕!'儉表 ? <; R* 4- > 0 V,(5) 其中C代表可接受的野值點(diǎn)在目標(biāo)數(shù)據(jù)中的比值。
[0018] 2)通過在松弛變量I乘以權(quán)重因子使得權(quán)重作用于每一個(gè)樣本,改變正則化 參數(shù)C對(duì)每一個(gè)樣本的作用,引入拉格朗日因子,構(gòu)造拉格朗日函數(shù): I=:!: ^ i %: is ~ I? ^ ^~ 11 _ 31 %: ^ (6) 上式中拉格朗日因子通:1,篇美:0。
[0019] 3)通過拉格朗日求解方法,即使得i對(duì)變量|y和R的偏微分為零,得 a ^ 1 ."一 鋒(7)。
[0020] 4)通過(7)式的結(jié)果,帶入拉格朗日函數(shù)可得下面的對(duì)偶規(guī)劃函數(shù)
通過如上的對(duì)偶規(guī)劃可以得到拉格朗日因子爾的值。
[0021 ]第四步:對(duì)測(cè)試樣本進(jìn)行判別。
[0022]判斷樣本z是否屬于目標(biāo)類樣本可由以下決策函數(shù)判斷,若樣本z到球心的距離小 于球半徑,樣本z判為目標(biāo)類 決策函數(shù)知3於、=〗(b .、V! (9) 上式中超球體的球心|可以通過(8)式所得的1值來確定,超球體半徑 R=|x廣域,其中i滿足轉(zhuǎn)=0。
[0023]實(shí)驗(yàn)結(jié)果 為了驗(yàn)證我們所提方法的有效性,實(shí)驗(yàn)選取UCI數(shù)據(jù)集進(jìn)行試驗(yàn)。實(shí)驗(yàn)環(huán)境為: CHJ1.80GHZ,8GRAM,Intel(R) Xeon(R),WIN7,Matlab2010b。試驗(yàn)中,選擇高斯核函數(shù) _落翁其中|取值為原始訓(xùn)練集中所有樣本空間距離(即 )的均值。每次的試驗(yàn)中依次討論了 f值取值來自集合[0.1,0.2,0.3,0.4,0.5,0.6,0.7, 0.8,0.9],依次帶入取其中每個(gè)值的情況。SVDD的目標(biāo)函數(shù)中參數(shù)C從[10~-3,10~-2,10~_ 1,l(T0,1(T 1,1(T 2,1(T 3]中選擇。
[0024] 利用UCI數(shù)據(jù)集進(jìn)行比較,數(shù)據(jù)集可以從http://archive ? ics.uci .edu/ml/ index.html網(wǎng)站中下載獲得,表1給出了實(shí)驗(yàn)數(shù)據(jù)特征屬性。
[0025]表1 UCI實(shí)驗(yàn)數(shù)據(jù)集特征
表2 UCI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 其中TPR為目標(biāo)類準(zhǔn)確率,TNR表示非目標(biāo)類準(zhǔn)確率,()中為五次交叉驗(yàn)證的平方差,G-Mean是一種不平衡數(shù)據(jù)集的判斷標(biāo)準(zhǔn)。
[0026]實(shí)驗(yàn)結(jié)果表明,本方法能夠相對(duì)于原始的支持向量數(shù)據(jù)描述方法能夠使得識(shí)別率 升高,表明了該方法有效性。
【主權(quán)項(xiàng)】
1. 基于聚簇的支持向量數(shù)據(jù)描述改進(jìn)算法,其特征在于,包括以下步驟: 利用核函數(shù)計(jì)算訓(xùn)練樣本在核空間中相互之間的距離,通過所得的結(jié)果計(jì)算訓(xùn)練樣本 的聚簇中心樣本并通過每個(gè)樣本到聚簇中心的距離計(jì)算樣本權(quán)重,設(shè)計(jì)一種加權(quán)的支持向 量數(shù)據(jù)描述方法得到所需的超球體作為決策邊界,之后對(duì)測(cè)試樣本進(jìn)行判別,若測(cè)試樣本 位于超球體之內(nèi)則判為目標(biāo)類樣本,反之則判為異常類樣本。2. 權(quán)利要求1種所描述的訓(xùn)練樣本在核空間中相互之間的距離,其特征在于是指訓(xùn)練 樣本在通過核函數(shù)進(jìn)行映射之后的空間中計(jì)算樣本之間的距離,其特征在于通過核函數(shù)求 得樣本間的相互距離。3. 權(quán)利要求1所述的一種基于聚簇的樣本加權(quán)方法,其特征在于計(jì)算樣本相互之間的 距離,通過相互之間的距離得到所有樣本的局部密度,最后計(jì)算每個(gè)樣本局部密度與其到 大于其密度的所有樣本中的最小距離的乘積,通過最后的乘積判斷是否為聚簇中心樣本。4. 權(quán)利要求3所述的局部密度,其特征在于通過利用所有樣本到某個(gè)樣本的距離小于 樣本到樣本之間的距離的平均值的樣本數(shù)目代表該個(gè)樣本的密度值。5. 權(quán)利要求1所述的一種加權(quán)支持向量數(shù)據(jù)描述方法,其特征在于增加權(quán)重因子w對(duì)原 始支持向量數(shù)據(jù)描述算法進(jìn)行改進(jìn)。6. 權(quán)利要求1所述的一種對(duì)樣本進(jìn)行加權(quán)的方法,其特征在于利用樣本到聚簇中心樣 本的距離進(jìn)行權(quán)重設(shè)計(jì)。
【文檔編號(hào)】G06K9/62GK105894023SQ201610194147
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】王喆, 李冬冬, 劉宇, 高大啟
【申請(qǐng)人】華東理工大學(xué)