一種基于Chernoff距離和SVM的高光譜數(shù)據(jù)多分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于模式識別領(lǐng)域,涉及一種優(yōu)化訓(xùn)練數(shù)據(jù)的基于Chernoff距離的SVM分 類方法。
【背景技術(shù)】
[0002] 高光譜圖像數(shù)據(jù)通常由數(shù)百個連續(xù)分布的波段構(gòu)成。把整個數(shù)據(jù)看成一個三個 維度數(shù)據(jù)長方體,其中兩維確定對象在觀測平面中的位置,第三維確定對象在光譜波長中 的位置。以AVIRIS(AirborneVisible/InfraredImagingSpectrometer)高光譜數(shù)據(jù)為 例,相鄰兩個波段之間一般僅相隔l〇nm左右。由于圖像空間相鄰波段的波段間相關(guān)性非常 強,使得傳統(tǒng)分類方法必須進(jìn)行降維之后才能繼續(xù)處理數(shù)據(jù),常用的方法為波段選擇。因為 核方法(kernelmethod)受輸入空間高維數(shù)的影響很小,所以越來越多的研究者選擇核方 法。無論是否選擇波段選擇,核方法都具有優(yōu)良的分類性能,例如我們非常熟悉的支持向量 機(jī)(SupportVectorMachines,SVM)分類器。但是,很少有研究致力于擴(kuò)展SVM方法使其 更適合高光譜數(shù)據(jù)的多分類應(yīng)用。
[0003] 分類錯誤概率是模式識別中特征有效性的最佳度量,特征選擇的理想目標(biāo)使達(dá)到 分類錯誤概率最小。但這點往往難于做到。因此錯誤概率上界最小常常是一種合理的選擇。 Chernoff提出的錯誤概率上界是最小的,稱Chernoff上界。Chernoff上界可以有效提高 單個核分類器的分類精度,且對于核分類器的分類策略有一定的指導(dǎo)作用。
[0004] 由于SVM在本質(zhì)上只能完成二分類任務(wù),高光譜數(shù)據(jù)的典型多分類應(yīng)用往往需要 借助多個SVM及一定的策略來構(gòu)建多分類器。目前利用高光譜數(shù)據(jù)第三維信息對SVM進(jìn)行 改進(jìn)的工作主要集中在以下兩個方面:一是對高光譜輸入數(shù)據(jù)進(jìn)行濾波處理,二是生成定 制化的核函數(shù)。但是這些方法都只針對統(tǒng)一的SVM。對于組建多分類器的各SVM,以往的研 究都采取了一致對待的簡單方案。更加精確的方法是采取一種更為有利的多分類方案,BP 根據(jù)各子分類器所處理的兩類對象的特點對其進(jìn)行核函數(shù)的單獨定制。在多分類策略上, 廣泛應(yīng)用的是 0AA(0ne-Against_All,一對多)和 0A0(0ne-Against_0ne,一對一)兩種策 略,他們各有優(yōu)缺點,前者的子分類器數(shù)量較少,但各子分類器的訓(xùn)練時間較長,后者的子 分類器數(shù)量較多,但各子分類器的訓(xùn)練時間較短。而分類精度方面,二者在經(jīng)過參數(shù)尋優(yōu)之 后差別并不大。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提出一種改進(jìn)的基于Chernoff距離的SVM分類方法,通過引 入Chernoff距離加權(quán)矩陣,使得分類器在訓(xùn)練的過程中充分利用樣本的類間信息,且利用 Chernoff距離對0ΑΑ策略分類順序選擇給予指導(dǎo),不僅提高了傳統(tǒng)的SVM方法的精確度,而 且對小樣本類別的分類精度有較大的提高,適用于基于0ΑΑ分類策略的高光譜圖像模式識 別應(yīng)用。
[0006] 本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0007] -種基于Chernoff距離和SVM的高光譜數(shù)據(jù)多分類方法,包括如下五個步驟:
[0008] -、對輸入數(shù)據(jù)進(jìn)行預(yù)處理,得到歸一化數(shù)據(jù);
[0009] 二、計算任意兩個類別之間的Chernoff距離,得到Chernoff距離矩陣;
[0010] 三、確定多分類任務(wù)0ΑΑ策略下的執(zhí)行順序表,得到每個波段以及全波段的可分 性度量;
[0011] 四、構(gòu)建基于Chernoff距離的子分類器指導(dǎo)系數(shù);
[0012] 五、采用基于Chernoff距離的加權(quán)SVM分類器執(zhí)行整個0ΑΑ策略所確定的分類任 務(wù),直到得到各個測試樣本的最終單一類別屬性。
[0013] 本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點:
[0014] 1、在傳統(tǒng)的SVM分類方法中,引入Chernoff距離加權(quán)矩陣,使得分類器在訓(xùn)練的 過程中充分利用樣本的類間信息,從而改善分類效率。由于本方法在各子分類器的優(yōu)化上 采取了更具有針對性的做法,因而能夠有效地提高各子分類器的分類精度,從而提高多分 類器的最終分類精度。
[0015] 2、與傳統(tǒng)的0ΑΑ分類策略相比,本方法中利用對0ΑΑ策略下的各子分類器執(zhí)行順 序給予指導(dǎo),具體是通過利用Chernoff計算得到的總體可分性度量來確定該執(zhí)行順序表, 這就使得可分性好的類別首先從測試樣本中分出去,可分性不好的類別則依次放在最后進(jìn) 行區(qū)分。而且,在每次子分類器進(jìn)行分類的時候,所采用的加權(quán)系數(shù),即分類指導(dǎo)系數(shù),都是 根據(jù)剩下的類別來綜合計算的,已經(jīng)分出的類別并沒有考慮,這也增強了加權(quán)分類的針對 性,從而將每個子分類器的分類誤差進(jìn)一步降低。
【附圖說明】
[0016] 圖1為本發(fā)明的流程圖;
[0017] 圖2為高光譜圖像數(shù)據(jù)原始圖;
[0018] 圖3為高光譜圖像數(shù)據(jù)標(biāo)簽圖;
[0019] 圖4為標(biāo)準(zhǔn)SVM核函數(shù)分類效果圖;
[0020] 圖5為基于Chernoff距離的核函數(shù)分類效果圖。
【具體實施方式】
[0021] 下面結(jié)合附圖對本發(fā)明的技術(shù)方案作進(jìn)一步的說明,但并不局限于此,凡是對本 發(fā)明技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,均應(yīng)涵蓋 在本發(fā)明的保護(hù)范圍中。
【具體實施方式】 [0022] 一:本實施方式提供了一種基于Chernoff距離和SVM的高光譜數(shù) 據(jù)多分類方法,通過預(yù)處理將輸入數(shù)據(jù)正規(guī)化,計算任意兩個類別之間的Chernoff距離并 利用可分性度量指導(dǎo)0AA(0ne-Against-All,一對多)策略分類順序以提高分類精度,利用 Chernoff距離向量對單個子分類器進(jìn)行加權(quán),接著多次使用加權(quán)SVM分類器對樣本分類。
[0023] 如圖1所示,共分為五個步驟,具體步驟如下:
[0024] 步驟一:設(shè)置訓(xùn)練樣本與測試樣本。
[0025]1)對于拍攝的多光譜遙感圖像...其中Row,Co1 umn表示多光譜遙感圖 像的寬和長,B表示多光譜遙感圖像的波段數(shù)目,設(shè)xzeRB,z= 1,2, ...,N是B維樣本,yze{1,2, . . .,L}是與X2相關(guān)的類別標(biāo)簽,其中N是樣本數(shù)目,L是類別數(shù)目。
[0026] 2)將同一類別的像素全部集中到一起,對所有像素中涉及到分類類別的像素都這 樣處理。
[0027] 3)給分組系數(shù)Group賦值,同時該系數(shù)也就是常說的"幾折交叉驗證"的折數(shù)。
[0028] 4)將原始樣本分為訓(xùn)練樣本與測試樣本,分別用二維矩陣TrainSamples和 TestSamples來表示,列向量對應(yīng)單一像素的各波段的光譜信息數(shù)據(jù),其中訓(xùn)練樣本占總樣 本的Ι/Group,其余(1-Group)/Group剩余樣本為測試樣本。
[0029] 5)對訓(xùn)練樣本和測試樣本進(jìn)行歸一化處理。
[0030] 步驟二:計算兩個不同類別之間的Chernoff距離。
[0031] 1)選擇兩個不同的類別,設(shè)為第p類和第q類。
[0032] 設(shè)np和nq分別為訓(xùn)練樣本中第p類和第q類樣本的個數(shù)。對于樣本的第k-1、k 和k+1三個波段,首先將這三個波段的數(shù)據(jù)進(jìn)行歸一化處理,接著將這三個波段上的第p類 和第q類樣本的數(shù)據(jù)按照列向量的形式存到兩個臨時變量矩陣Dp和Dq中,其中Dp為ηpX3 維的矩陣,Dq為nqX3維的矩陣。
[0033] 2)計算Dp與Dq每一列的均值,得到兩個1X3的均值矩陣Meanp與Meanq〇
[0034] 3)計算Dp與Dq的協(xié)方差,得到兩個3X3的協(xié)方差矩陣Covp與Covq。
[0035] 4)對所有兩兩不相同的類別進(jìn)行Chernoff距離計算:
[0036]
[0037] 其中,Qkq,q為第p類和第q類之間的Chernoff距離,k為當(dāng)前波段號,Meanp與 Meanq分別為第p類和第q類在第k-1、k和k+Ι三個波段上的均值矩陣,Covp與Covq分別 為第P類和第q類在第k-1、k和k+1三個波段上的協(xié)方差矩陣,β為Chernoff距離調(diào)節(jié) 參數(shù),且0 <β< 1。多次改變β可以為分類器找到合適的誤差上界。
[0038] 5)通過4)中計算的Chernoff距離構(gòu)建Chernoff距離矩陣:
[0039]
[0040] 由于Chernoff距離為兩個不同類別之間的參數(shù),所以對角線上的元素為0,Cp,q為 BX1 的向量,,p= {1,2, · · ·,L},q= {1,2, · · ·,L}且p辛q。 將第P類和第q類之間的距離與第q類和第P類之間的距離合并成一個距離。
[0041] 6)重復(fù)第1)到第5)步,直到對訓(xùn)練樣本任意兩個類別的所有維度都進(jìn)行了 Chernoff距離的計算過程為止。
[0042] 步驟三:確定多分類任務(wù)0ΑΑ策略下的執(zhí)行順序表。
[0043] 多分類任務(wù)考慮類別總數(shù)大于等于3的情況。不同于普通的0ΑΑ策略,本方法利 用Chernoff距離指導(dǎo)0ΑΑ分類順序。
[0044] 1)對第p類訓(xùn)練樣本與其他類別的Chernoff距離向量求和,得到每個波段上對其 他所有類別的Chernoff距離向
+作為子分類器的指導(dǎo)系數(shù)。每個波段上第 P類訓(xùn)練樣本與其他類別的Chernoff距離為
[0045] 2)將|中每個波段相加,得到第p類在所有波段上對其他所有類別的總體可分性 度量之=|>^ 7=1
[0046] 3)將所有類別的總體可分性度量按數(shù)值大小遞減的順序排列,則0ΑΑ策略下的執(zhí) 行順序表即為該排列順序,用有序集〈ClassyClass2,. . .Class:,. . .,ClassJ表示,其中 CIbss^^ {1,2,· · ·,L},1 - 1,2,· · ·,L〇
[0047] 步驟四:構(gòu)建基于Chernoff距離的子分類器指導(dǎo)系數(shù)。
[0048] 當(dāng)0ΑΑ策略下的執(zhí)行順序確定之后,我們即可通過L個子分類器(每個子分類都 是二分類器)來完成所有L類的分類任務(wù),具體執(zhí)行順序為:首先通過ClaSSl和所有剩余 類別的二分類來確定出測試樣本中標(biāo)簽序號等于ClasSl的樣本,接著通過Class2和所有剩 余類別(注意此時已經(jīng)不含有ClasSl類別)的二分類來確定出測試樣本中標(biāo)簽序號等于 Class2的樣本,依次執(zhí)行下去,最后一個二分類器將判斷Class^i和Class^的類別歸屬。
[0049] 具體每一個子分類器都將含有一個基于Chernoff距離的子分類器指導(dǎo)系數(shù),用 于提高各子分類器的分類性能,獲得置信率更高的分類結(jié)果,該子分類器指導(dǎo)系數(shù)的計算 過程具體如下:
[0050] 1)對于最先分類的類別Class!,若Class!:i,其中ie{1,2, · · ·,L},即Classi 對應(yīng)的類別為第i類,位于Chernoff矩陣中的第i行,則子分類器指導(dǎo)系數(shù)為:
[0051]
[0052] 其中,C1>q為Chernoff矩陣中第i行,第q列的元素。
[0053] 2)按照 0ΑΑ策略下的執(zhí)行順序表〈Class^Class;;,· · ·Alassp. · ·,ClassL>,進(jìn)行 到Classj^時候,若Class:=j,其中je{1,2,. . .,L},計算時把已分類類別的Cherno