国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于粗糙支持矢量機(jī)的模式分類(lèi)識(shí)別方法

      文檔序號(hào):6572343閱讀:258來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):基于粗糙支持矢量機(jī)的模式分類(lèi)識(shí)別方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于模式分類(lèi)識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于支持矢量機(jī)(support vectormachine SVM)的模式分類(lèi)識(shí)別方法。
      背景技術(shù)
      模式識(shí)別的目的是將對(duì)象進(jìn)行分類(lèi),其應(yīng)用領(lǐng)域非常廣泛,例如,計(jì)算機(jī)輔助診斷、字符識(shí)別、語(yǔ)音識(shí)別等等。支持矢量機(jī)[1][2]是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別的方法。傳統(tǒng)的基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法如基于貝葉斯決策理論的分類(lèi)器是根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小來(lái)訓(xùn)練分類(lèi)器。但經(jīng)驗(yàn)風(fēng)險(xiǎn)只有當(dāng)樣本數(shù)無(wú)窮大才趨近于期望風(fēng)險(xiǎn)。因此,基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類(lèi)器不能保證有較高的推廣能力。如果訓(xùn)練樣本數(shù)較少,基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類(lèi)器性能可能較差。支持矢量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原則,在特征空間中尋找一個(gè)最優(yōu)分界面,使得該分界面能夠盡可能多的將兩類(lèi)數(shù)據(jù)點(diǎn)正確的分開(kāi),同時(shí)使分開(kāi)的兩類(lèi)數(shù)據(jù)點(diǎn)距離分界面最遠(yuǎn),即找到經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和推廣能力最大之間的平衡點(diǎn)。已有的研究結(jié)果表明,對(duì)較小的訓(xùn)練樣本集,支持矢量機(jī)是各種分類(lèi)器中性能最好的。
      由于傳統(tǒng)的支持矢量機(jī)所獲得的最優(yōu)分界面僅僅取決于少量的支持矢量,當(dāng)訓(xùn)練樣本中存在噪聲或離群數(shù)據(jù)時(shí),傳統(tǒng)的支持矢量機(jī)仍可能出現(xiàn)過(guò)學(xué)習(xí)問(wèn)題[3]。針對(duì)該問(wèn)題,今年來(lái)出現(xiàn)了不少支持矢量機(jī)的改進(jìn)方法,如模糊支持矢量機(jī)[4]、total margin SVM[5]、scaledSVM[6]等。本發(fā)明將粗糙集理論[7]引入支持矢量機(jī),以克服有噪聲或離群數(shù)據(jù)時(shí)的過(guò)學(xué)習(xí)問(wèn)題。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提出一種基于粗糙支持矢量機(jī)的模式分類(lèi)識(shí)別方法,以解決傳統(tǒng)支持矢量機(jī)在存在噪聲樣本或離群樣本下出現(xiàn)的過(guò)學(xué)習(xí)問(wèn)題。
      本發(fā)明提出的基于粗糙支持矢量機(jī)的模式識(shí)別方法步驟是首先由已知類(lèi)別樣本訓(xùn)練粗糙支持矢量機(jī),即在特征空間中尋找一最優(yōu)分界面,使得兩類(lèi)之間的粗糙分類(lèi)間隔最大。然后對(duì)待識(shí)樣本,用該最優(yōu)分界面判別其所屬類(lèi)別。下面對(duì)本發(fā)明內(nèi)容作進(jìn)一步介紹相關(guān)概念支持矢量機(jī)分類(lèi)器設(shè){(xi,yi),i=1,2,...,l}為包含l個(gè)樣本的訓(xùn)練集,其中第i個(gè)樣本xi∈Rd為d維的特征矢量,yi∈{+1,-1}為xi的類(lèi)別;支持矢量機(jī)尋找兩類(lèi)間的最優(yōu)分界面使分類(lèi)間隔最大;對(duì)于訓(xùn)練樣本為線性不可分的情況,支持矢量機(jī)通過(guò)非線性映射φ將輸入特征空間映射到更高維的特征空間Z,使兩類(lèi)樣本在此高維特征空間中線性可分,以尋找兩類(lèi)間的最優(yōu)分界面;在高維特征空間中,位于分界面上的樣本點(diǎn)φ(x)滿足w·φ(x)+b=0,其中w∈Z,b∈R,w和b分別為加權(quán)矢量和偏移量,兩者定義了高維特征空間中的分界面;某樣本xi通過(guò)決策函數(shù)sgn(w·φ(xi)+b)判為兩類(lèi)之一(sgn為符號(hào)函數(shù))。在傳統(tǒng)的v-支持矢量機(jī)中,對(duì)應(yīng)于最優(yōu)分界面的w和b為以下優(yōu)化問(wèn)題(原問(wèn)題)的解minw,b,&xi;,&rho;12||w||2-v&rho;+1l&Sigma;i=1l&xi;i]]>subject to yi(w·φ(xi)+b)≥ρ-ξi,ξi≥0,i=1,...,l,ρ≥0,(1)其中w,b,ξ,ρ為優(yōu)化變量,由w和ρ決定訓(xùn)練所得分類(lèi)間隔的寬度為 ξi為松弛因子,對(duì)應(yīng)于ξi>0的訓(xùn)練樣本點(diǎn)為被sgn(w·φ(xi)+b)分錯(cuò)的樣本點(diǎn)或位于兩個(gè)超平面w·φ(xi)+b=ρ和w·φ(xi)+b=-ρ形成的分類(lèi)間隔內(nèi)的點(diǎn),稱(chēng)為間隔錯(cuò)誤樣本點(diǎn)。上述原問(wèn)題可通過(guò)引入拉格朗日乘子并根據(jù)Karush-Kuhn-Tucker(KKT)條件[8]轉(zhuǎn)換為其對(duì)偶問(wèn)題min&alpha;12&Sigma;i=1l&Sigma;j=1lyiyj&alpha;i&alpha;j&phi;(xi)&CenterDot;&phi;(xj)=min&alpha;12&Sigma;i=1l&Sigma;j=1lyiyj&alpha;i&alpha;jK(xi,xj)]]>subjectto&Sigma;i=1lyi&alpha;i=0,0&le;&alpha;i&le;1l,&Sigma;i=1l&alpha;i&GreaterEqual;v,---(2)]]>其中αi為與限制條件yi(w·φ(xi)+b)≥ρ-ξi相對(duì)應(yīng)的拉格朗日乘子,K(xi,xj)表示核函數(shù),直接給出了高維空間中的點(diǎn)積φ(xi)·φ(xj)。對(duì)偶問(wèn)題的最優(yōu)解(α1*,...,αl*)T顯示了訓(xùn)練樣本在在高維空間中的位置對(duì)應(yīng)于&alpha;i*=0]]>的樣本點(diǎn)在分類(lèi)間隔之外,滿足yi(w·φ(xi)+b)>ρ;對(duì)應(yīng)于&alpha;i*>0]]>的樣本點(diǎn)稱(chēng)為支持矢量,其中對(duì)應(yīng)于0&lt;&alpha;i*&lt;1/l]]>的樣本點(diǎn)恰位于分類(lèi)間隔邊界線上滿足yi(w·φ(xi)+b)=ρ,而對(duì)應(yīng)于ai*=1/l]]>的樣本點(diǎn)位于分類(lèi)間隔內(nèi),滿足yi(w·φ(xi)+b)=ρ-ξi,其中ξi>0.
      訓(xùn)練完成后,在分類(lèi)識(shí)別階段,未知樣本 的類(lèi)別由下式給出y~=sgn(w*&CenterDot;&phi;(x~)+b*)=sgn(&Sigma;i=1l&alpha;i*yiK(x~,xi)+b*),---(3)]]>其中b*=-12&Sigma;i=1l&alpha;i*yi(K(xi,xj)+K(xi,xk)),---(4)]]>其中j&Element;{i|&alpha;i*&Element;(0,1/l),yi=1},]]>k&Element;{i|&alpha;i*&Element;(0,1/l),yi=-1}.]]>
      支持矢量機(jī)使兩類(lèi)間的分類(lèi)間隔最大,同時(shí)使錯(cuò)分樣本數(shù)最小,通過(guò)參數(shù)v平衡兩個(gè)矛盾目標(biāo)。v是間隔錯(cuò)誤樣本數(shù)占總樣本數(shù)的比例的上界,是支持矢量數(shù)占總樣本數(shù)的比例的下界。
      1、粗糙分類(lèi)間隔粗糙集理論通過(guò)上、下近似來(lái)描述不確定對(duì)象。對(duì)于論域U中某集合X,設(shè)R為U上的等價(jià)關(guān)系,U/R為U上的R的等價(jià)類(lèi)集合,當(dāng)X能表示成R的等價(jià)類(lèi)的并時(shí),X為R可定義的,否則,X為R不可定義的或X為R粗糙集。對(duì)粗糙集可用上近似和下近似來(lái)描述粗糙集X的R上近似RX=∪{Y∈U/R|YX}粗糙集X的R下近似R-X=&cup;{Y&Element;U/R|Y&cap;X&NotEqual;&phi;}]]>粗糙集X的R邊界R-X-R-X]]>根據(jù)粗糙集理論,本發(fā)明定義一個(gè)粗糙分類(lèi)間隔,該粗糙分類(lèi)間隔由上粗糙間隔和下粗糙間隔來(lái)表示,參數(shù)ρu,ρl和w決定上粗糙寬度為 下粗糙間隔寬度為 (ρu>ρl)。在尋找最優(yōu)分界面的過(guò)程中,位于下粗糙間隔中的樣本點(diǎn)或訓(xùn)練誤分樣本點(diǎn),被認(rèn)為是離群數(shù)據(jù),將賦予較大的風(fēng)險(xiǎn)值,位于上粗糙間隔之外的樣本點(diǎn)是完全能夠正確分類(lèi)的,而位于粗糙邊界內(nèi)(粗糙邊界為屬于上間隔但不屬于下間隔的區(qū)域)的樣本點(diǎn)可能是誤分樣本點(diǎn)或正確分類(lèi)的樣本點(diǎn),將給予較小的風(fēng)險(xiǎn)值。類(lèi)似于傳統(tǒng)的支持矢量機(jī),粗糙支持矢量機(jī)在高維特征空間中尋找兩類(lèi)間的最優(yōu)分界面,使兩類(lèi)間粗糙分類(lèi)間隔最大。這樣,在確定最優(yōu)分界面的過(guò)程中,將有更多的樣本點(diǎn)信息被考慮,而不僅僅是少數(shù)的支持矢量。
      2、粗糙支持矢量機(jī)的訓(xùn)練階段粗糙支持矢量機(jī)原問(wèn)題定義如下minw,b,&xi;,&xi;&prime;,&rho;l,&rho;u12||w||2-v&rho;l-v&rho;u+1l&Sigma;i=1l&xi;i+&delta;l&Sigma;i=1l&xi;i&prime;]]>subject to yi(w·φ(xi)+b)≥ρu-ξi-ξi′,0≤ξi≤ρu-ρl,ξi′≥0,ρl≥0,ρu≥0,(5)其中δ>1。
      為求解該最優(yōu)問(wèn)題,構(gòu)建拉格朗日函數(shù)
      Lp=12||w||2-v&rho;l-v&rho;u+1l&Sigma;i=1l&xi;i+&delta;l&Sigma;i=1l&xi;i&prime;-]]>&Sigma;i=1l&alpha;i[yi(w&CenterDot;&phi;(xi)+b)-&rho;u+&xi;i+&xi;i&prime;]-]]>&Sigma;i=1l&beta;i&xi;i-&Sigma;i=1l&lambda;i(&rho;u-&rho;l-&xi;i)-&Sigma;i=1l&eta;i&xi;i&prime;-&mu;1&rho;l-&mu;2&rho;u---(6)]]>其中αi≥0,βi≥0,λi≥0,ηi≥0,μ1≥0,μ2≥0為拉格朗日乘子。根據(jù)KKT條件,最優(yōu)參數(shù)滿足如下條件&PartialD;Lp&PartialD;w=w-&Sigma;i=1l&alpha;iyi&phi;(xi)=0,]]>&PartialD;Lp&PartialD;b=&Sigma;i=1l&alpha;iyi=0,]]>&PartialD;Lp&PartialD;&xi;i=1l-&alpha;i-&beta;i+&lambda;i=0,]]>&PartialD;Lp&PartialD;&xi;i&prime;=&delta;l-&alpha;i-&eta;i=0,]]>&PartialD;Lp&PartialD;&rho;l=-v+&Sigma;i=1l&lambda;i-&mu;1=0,]]>&PartialD;Lp&PartialD;&rho;u=-v+&Sigma;i=1l&alpha;i-&Sigma;i=1l&lambda;i-&mu;2=0,]]>αi[yi(w·φ(xi)+b)-ρu+ξi+ξi′]=0,βiξi=0,λi(ρu-ρl-ξi)=0,ηiξi′=0,μ1ρl=0,μ2ρu=0.(7)將上述公式代入公式(6),對(duì)偶問(wèn)題(2)可寫(xiě)為min&alpha;12&Sigma;i=1l&Sigma;j=1l&alpha;i&alpha;jyiyjK(xi,xj)]]>subjectto&Sigma;i=1l&alpha;iyi=0,]]>0&le;&alpha;i&le;&delta;l,]]>&Sigma;i=1l&alpha;i&GreaterEqual;2v.---(8)]]>當(dāng)獲得對(duì)偶問(wèn)題的最優(yōu)解(α1*,...,αl*)T,某訓(xùn)練樣本點(diǎn)在粗糙分類(lèi)間隔中的位置由對(duì)應(yīng)的αi*的值確定樣本點(diǎn)對(duì)應(yīng)于1.&alpha;i*=0,]]>在粗糙分類(lèi)間隔外,滿足yi(w·φ(xi)+b)>ρu;2.0&lt;&alpha;i*&lt;1l,]]>在上粗糙間隔的邊界線上,滿足yi(w·φ(xi)+b)=ρu;
      3.&alpha;i*=1l,]]>在粗糙邊界內(nèi),滿足yi(w·φ(xi)+b)=ρu-ξi,其中ξi>0;4.1l&lt;&alpha;i*&lt;&delta;l,]]>在下粗糙間隔的邊界線上,滿足yi(w·φ(xi)+b)=ρl;5.&alpha;i*=&delta;l,]]>在下粗糙間隔內(nèi),稱(chēng)為間隔錯(cuò)誤樣本點(diǎn),滿足yi(w·φ(xi)+b)=ρl-ξi′,其中ξi′>0。
      由&Sigma;i=1l&alpha;i=2v(&rho;l>0)]]>可得間隔錯(cuò)誤樣本點(diǎn)數(shù)目(即下粗糙間隔內(nèi)支持矢量的數(shù)目)為m&lt;2vl&delta;,]]>即 是下粗糙間隔內(nèi)的樣本數(shù)占總樣本數(shù)比例的上界。當(dāng)δ=1時(shí),m<2vl為滿足yi(w·φ(xi)+b)<ρu的樣本點(diǎn)數(shù),即2v為上間隔內(nèi)的樣本數(shù)占總樣本數(shù)比例的上界。因此參數(shù)v和δ一起控制了上、下粗糙間隔內(nèi)的樣本數(shù)目和粗糙邊界的寬度。一般地,v選取范圍為0~1,δ的選取范圍為2-10。所定義的粗糙分類(lèi)間隔對(duì)確定最優(yōu)分界面產(chǎn)生的影響如圖2所示圖2(a)、(b)為傳統(tǒng)支持矢量機(jī)所得分界面((a)中v=0.1(b)中v=0.5),可見(jiàn),離群數(shù)據(jù)對(duì)分界面的干擾較大,尤其當(dāng)v較小時(shí)(如圖2(a)所示)。當(dāng)采用粗糙支持矢量機(jī)時(shí)(圖2(c)、(d)),離群數(shù)據(jù)的影響減弱。
      3、分類(lèi)識(shí)別階段未知樣本 的類(lèi)別同樣可由公式(3)計(jì)算出。此時(shí),公式(3)中b*=-12&Sigma;i=1l&alpha;i*yi(K(xi,xj)+K(xi,xk)),---(9)]]>其中j&Element;{i|&alpha;i*&Element;(0,1l),yi=1},]]>k&Element;{i|&alpha;i*&Element;(0,1l),yi=-1},]]>或者j&Element;{i|&alpha;i*&Element;(1l,&delta;l),yi=1},]]>k&Element;{i|&alpha;i*&Element;(1l,&delta;l),yi=-1}.]]>本發(fā)明方法的具體步驟歸納如下(5)定義粗糙分類(lèi)間隔由上粗糙間隔和下粗糙間隔表示,其中上粗糙間隔寬度為 下粗糙間隔寬度為 ρu>ρl;(6)用粗糙支持矢量機(jī)最大化粗糙間隔來(lái)確定最優(yōu)分類(lèi)面,這一優(yōu)化問(wèn)題表示為公式(5);(7)為求解步驟(2)定義的優(yōu)化問(wèn)題,將其轉(zhuǎn)換為由公式(8)表示的對(duì)偶問(wèn)題來(lái)求解;(8)求解對(duì)偶問(wèn)題(8)獲得其最優(yōu)解(α1*,...,αl*)T,則原優(yōu)化問(wèn)題(公式(5))的最優(yōu)解之一,即b*由公式(9)獲得。至此完成粗糙間隔支持矢量機(jī)的訓(xùn)練;(9)分類(lèi)識(shí)別,未知樣本 的類(lèi)別由公式(3)計(jì)算得到,公式(3)中的b*已由步驟4獲得。


      圖1、最優(yōu)分界面示意圖。
      圖2、粗糙分類(lèi)間隔對(duì)訓(xùn)練分界面的作用圖示。其中(a)、(b)為傳統(tǒng)支持矢量機(jī)所得分界面(a)中參數(shù)v=0.1,(b)中參數(shù)v=0.5,(c)、(d)為粗糙支持矢量機(jī)所得分界面(c)中參數(shù)v=0.1,(d)中參數(shù)v=0.5。
      具體實(shí)施例方式
      以下以3個(gè)基準(zhǔn)醫(yī)學(xué)數(shù)據(jù)庫(kù)肝病數(shù)據(jù)庫(kù),心臟病數(shù)據(jù)庫(kù)和乳腺癌數(shù)據(jù)庫(kù)為例,介紹分類(lèi)識(shí)別過(guò)程。這3個(gè)數(shù)據(jù)庫(kù)可從[9]中獲得。
      肝病數(shù)據(jù)庫(kù)包括345個(gè)樣本,其中200個(gè)陰性,145個(gè)陽(yáng)性,每個(gè)樣本由6個(gè)特征描述。心臟病數(shù)據(jù)庫(kù)包括270個(gè)樣本,其中150個(gè)陰性,120個(gè)陽(yáng)性,每個(gè)樣本由13個(gè)特征描述。乳腺癌數(shù)據(jù)庫(kù)包括683個(gè)樣本,其中444個(gè)良性,239個(gè)惡性,每個(gè)樣本由10個(gè)特征描述。所有樣本都?xì)w一化到[-1,1]。
      對(duì)每個(gè)實(shí)驗(yàn)數(shù)據(jù)庫(kù),本方法采用5分交叉驗(yàn)證方法對(duì)算法進(jìn)行測(cè)試(即將數(shù)據(jù)集平均分為5份,并使每份數(shù)據(jù)中兩類(lèi)樣本的比例保持一致,每次用其中的4份作為訓(xùn)練集,剩下的1份作為測(cè)試集,依次將5份都分別作為測(cè)試集,取5次實(shí)驗(yàn)結(jié)果的平均值為最終實(shí)驗(yàn)結(jié)果)。由于支持矢量機(jī)的最終分類(lèi)結(jié)果和參數(shù)v和δ的設(shè)置有關(guān),為選擇合適的參數(shù),本方法用訓(xùn)練樣本采用3分交叉驗(yàn)證方法確定最優(yōu)參數(shù)v和δ(即訓(xùn)練樣本中2/3的數(shù)據(jù)用于訓(xùn)練,剩余的1/3數(shù)據(jù)用于驗(yàn)證)。參數(shù)v的選擇范圍為0.05到1.0,步長(zhǎng)0.05;參數(shù)δ的選擇范圍為2.0到15.0,步長(zhǎng)1.0。通過(guò)3分交叉驗(yàn)證獲得參數(shù)v和δ的最優(yōu)值后,用該參數(shù)值訓(xùn)練粗糙支持矢量機(jī)以獲得最優(yōu)分界面,最后用此分界面對(duì)未知數(shù)據(jù)的類(lèi)別進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)中核函數(shù)采用高斯核,其參數(shù)σ取1.0。
      作為例子這里給出對(duì)肝病數(shù)據(jù)庫(kù)的分類(lèi)識(shí)別過(guò)程肝病數(shù)據(jù)庫(kù)包括345個(gè)樣本以{(xi,yi)}表示,其中200個(gè)陰性yi=1,145個(gè)陽(yáng)性yi=-1,每個(gè)樣本由6個(gè)特征描述xi=[fi1,fi2,...,fi6]。在訓(xùn)練階段,根據(jù)公式(8)構(gòu)造其對(duì)偶問(wèn)題,并根據(jù)訓(xùn)練樣本求解對(duì)偶問(wèn)題(因采用5分交叉驗(yàn)證,每次訓(xùn)練集的樣本數(shù)為276個(gè),即公式(8)中l(wèi)=276),獲得最優(yōu)解(α1*,...,αl*)T,后由公式(9)獲得偏移量b*。至此完成粗糙間隔支持矢量機(jī)的訓(xùn)練。則對(duì)測(cè)試集中得樣本,分別根據(jù)公式(3)判斷其類(lèi)別。
      結(jié)果分析對(duì)于肝病數(shù)據(jù)庫(kù),傳統(tǒng)支持矢量機(jī)的正確識(shí)別率為66.96%,粗糙支持矢量機(jī)的正確識(shí)別率為68.41%。對(duì)于心臟病數(shù)據(jù)庫(kù),傳統(tǒng)支持矢量機(jī)的正確識(shí)別率為83.70%,粗糙支持矢量機(jī)的正確識(shí)別率為84.81%。對(duì)乳腺癌數(shù)據(jù)庫(kù),傳統(tǒng)支持矢量機(jī)的正確識(shí)別率為96.74%,粗糙支持矢量機(jī)的正確識(shí)別率為96.88%。(可參見(jiàn)表1-3中實(shí)驗(yàn)結(jié)果的第一列)。由于這3個(gè)數(shù)據(jù)庫(kù)中,并無(wú)過(guò)多的離群數(shù)據(jù),粗糙支持矢量機(jī)的識(shí)別率和傳統(tǒng)支持矢量機(jī)的識(shí)別率接近。
      為研究粗糙支持矢量機(jī)對(duì)消除離群數(shù)據(jù)干擾的作用,本實(shí)施方法在3個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)中人為地加入離群數(shù)據(jù),即按一定比例隨機(jī)地將-1類(lèi)樣本當(dāng)作最+1類(lèi)樣本。
      對(duì)三個(gè)數(shù)據(jù)庫(kù)加入不同比例的離群數(shù)據(jù)的實(shí)驗(yàn)結(jié)果分別列于表1-3中,由結(jié)果可見(jiàn),當(dāng)離群數(shù)據(jù)的比例由10%上升到30%時(shí),傳統(tǒng)的支持矢量機(jī)的正確識(shí)別率明顯下降,尤其對(duì)于肝病數(shù)據(jù)庫(kù)。而粗糙支持矢量機(jī)的性能更穩(wěn)定,3個(gè)數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果都表明當(dāng)樣本中存在離群數(shù)據(jù)時(shí),粗糙支持矢量機(jī)的正確識(shí)別率要明顯高于傳統(tǒng)的支持矢量機(jī)。這說(shuō)明了當(dāng)訓(xùn)練樣本中存在離群數(shù)據(jù)或噪聲時(shí),粗糙支持矢量機(jī)抗干擾能力優(yōu)于傳統(tǒng)的支持矢量機(jī),即其推廣能力優(yōu)于傳統(tǒng)的支持矢量機(jī)。
      表1肝病數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果(F表示所加入的離群數(shù)據(jù)比例)

      表2心臟病數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果

      表3乳腺癌數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果


      綜上所述,通過(guò)將粗糙集理論引入支持矢量機(jī)分類(lèi)器,使得在尋找最優(yōu)分界面的時(shí)候,有更多的樣本點(diǎn)信息可以自適應(yīng)地考慮進(jìn)去,而不僅僅是少數(shù)支持矢量。由用戶定義的參數(shù)v和δ共同控制了高維特征空間中的粗糙邊界區(qū)的寬度,以及上、下粗糙間隔中的支持矢量數(shù)目。而且實(shí)現(xiàn)粗糙支持矢量機(jī)所需的計(jì)算量和傳統(tǒng)支持矢量機(jī)的相同。
      參考文獻(xiàn)1.C.Cortes and V.Vapnik,“Support-vector networks,”Mach.Learn.20(1995)273-297.
      2.B.Schlkopf,A.J.Smola,R.C.Williamson and P.L.Bartlett,“New support vectoralgorithms,”Neural Computation 12(2000)1207-1245.
      3.X.G.Zhang,“Using class-center vectors to build support vector machines,”P(pán)roc.IEEENNSP IX,Madison,WI,USA,Aug.1999,pp.3-11.
      4.C.F.Lin and S.D.Wang,“Fuzzy support vector machine,”IEEE Trans.Neural Netw.13(2002)464-471.
      5.M.Yoon,Y.Yun and H.Nakayama,“A role of total margin in support vector machines,”P(pán)roc.of the Int.Joint Conf.Neural Networks,Piscataway,NJ,USA,July 2003,pp.2049-2053.
      6.J.Feng and P.Williams,“The generalization error of the symmetric and scaled supportvector machines,”IEEE Trans.Neural Netw.12(2001)1255-1260.
      7.Z.Pawlak,“Rough sets,”Int.J.Comput.Inform.Sci.11(1982)341-356.
      8.W.Karush,“Minima of functions of several variables with inequalities as side constraints,”Master’s Thesis,Department of Mathematics,University of Chicago 1939.
      9.D.J.Newman,S.Hettich,C.L.Blake and C.J.Merz,UCI repository of machine learningdatabases,Irvine,CAUniversity of California,Department of Information and ComputerScience(1998).[http://www.ics.uci.edu/~mlearn/MLRepository.html].
      權(quán)利要求
      1.一種基于粗糙支持矢量機(jī)的模式分類(lèi)識(shí)別方法。設(shè){(xi,yi),i=1,2,...,l}為包含l個(gè)樣本的訓(xùn)練集,其中第i個(gè)樣本xi∈Rd為d維的特征矢量,yi∈{+1,-1}為xi的類(lèi)別;支持矢量機(jī)尋找兩類(lèi)間的最優(yōu)分界面使分類(lèi)間隔最大;對(duì)于訓(xùn)練樣本為線性不可分的情況,支持矢量機(jī)通過(guò)非線性映射φ將輸入特征空間映射到更高維的特征空間Z,使兩類(lèi)樣本在此高維特征空間中線性可分,以尋找兩類(lèi)間的最優(yōu)分界面;在高維特征空間中,位于分界面上的樣本點(diǎn)φ(x)滿足w·φ(x)+b=0,其中w∈Z,b∈R,w和b分別為加權(quán)矢量和偏移量,兩者定義了高維特征空間中的分界面;某樣本xi通過(guò)決策函數(shù)sgn(w·φ(xi)+b)判為兩類(lèi)之一;其特征在于本方法的具體步驟如下(1)定義粗糙分類(lèi)間隔由上粗糙間隔和下粗糙間隔表示,其中上粗糙間隔寬度為 下粗糙間隔寬度為 ρu>ρl;(2)用粗糙支持矢量機(jī)最大化粗糙間隔來(lái)確定最優(yōu)分類(lèi)面,這一優(yōu)化問(wèn)題表示為公式(5);minw,b,&xi;,&xi;&prime;,&rho;l,&rho;u12||w||2-v&rho;l-v&rho;u+1l&Sigma;i=1l&xi;i+&delta;l&Sigma;i=1l&xi;i&prime;]]>subject to yi(w·φ(xi)+b)≥ρu-ξi-ξi′,0≤ξi≤ρu-ρl,ξl′≥0,ρl≥0,ρu≥0,(5)其中δ>1;(3)為求解步驟(2)定義的優(yōu)化問(wèn)題,將其轉(zhuǎn)換為由公式(8)表示的對(duì)偶問(wèn)題來(lái)求解;min&alpha;12&Sigma;i=1l&Sigma;j=1l&alpha;i&alpha;jyiyjK(xi,xj)]]>subjectto&Sigma;i=1l&alpha;iyi=0,0&le;&alpha;i&le;&delta;l,&Sigma;l=1l&alpha;i&GreaterEqual;2v,---(8)]]>其中,v的選取范圍為0~1,δ的選取范圍為2~10;(4)求解對(duì)偶問(wèn)題(8)獲得其最優(yōu)解(α1*,...,αl*)T,并由公式(9)計(jì)算b*b*=-12&Sigma;l=1l&alpha;i*yi(K(xi,xj)+K(xi,xk)),---(9)]]>其中j&Element;{i|&alpha;i*&Element;(0,1l),yi=1},]]>k&Element;{i|&alpha;i*&Element;(0,1l),yi=-1},]]>或者j&Element;{i|&alpha;i*&Element;(1l,&delta;l),yi=1},]]>k&Element;{i|&alpha;i*&Element;(1l,&delta;l),yi=-1},]]>至此完成粗糙間隔支持矢量機(jī)訓(xùn)練;(5)分類(lèi)識(shí)別,未知樣本 的類(lèi)別由公式(3)計(jì)算得到y(tǒng)~=sgn(w*&CenterDot;&phi;(x~)+b*)=sgn(&Sigma;l=1l&alpha;i*yiK(x~,xi)+b*),---(3)]]>(α1*,...,αl*)T和b*已由步驟(4)求得,其中,K(xi,xj)=φ(xi)·φ(xj)。
      全文摘要
      本發(fā)明屬于模式分類(lèi)識(shí)別技術(shù)領(lǐng)域,具體為一種基于支持矢量機(jī)的模式分類(lèi)識(shí)別方法。本發(fā)明將粗糙集理論引入支持矢量機(jī),定義支持矢量機(jī)的分類(lèi)間隔為一粗糙分類(lèi)間隔,在訓(xùn)練支持矢量機(jī)時(shí),使該粗糙分類(lèi)間隔最大,來(lái)確定兩類(lèi)間的最優(yōu)分界面。本發(fā)明克服了傳統(tǒng)支持矢量機(jī)在訓(xùn)練樣本中存在噪聲或離群數(shù)據(jù)情況下出現(xiàn)的過(guò)學(xué)習(xí)問(wèn)題,從而提高了支持矢量機(jī)的推廣能力。而且所需計(jì)算時(shí)間和傳統(tǒng)支持矢量機(jī)相當(dāng)。
      文檔編號(hào)G06F19/00GK101025729SQ20071003863
      公開(kāi)日2007年8月29日 申請(qǐng)日期2007年3月29日 優(yōu)先權(quán)日2007年3月29日
      發(fā)明者汪源源, 張俊華 申請(qǐng)人:復(fù)旦大學(xué)
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1