105] 所述水庫(kù)抽樣方法為:隨機(jī)地從緩存中的3個(gè)樣本中挑選出一個(gè)樣本(假設(shè)是 x4),則把x4扔掉,替換成xt,更新緩存后是(xt,x5, x6);
[0106] 所述先進(jìn)先出方法為:假設(shè)X4,x5,x6是按先后循序放入緩存的,則把最先放入的 x4扔掉,將xt放入緩存,B卩(x5, x6, xt)。
[0107] 根據(jù)所述其中一個(gè)流式不平衡數(shù)據(jù)的類別,在緩存中找到與所述其中一個(gè)流式不 平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù),并將所述其中一個(gè)流式不平衡數(shù)據(jù)的權(quán)重增加到所述 與所述其中一個(gè)流式不平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù)的權(quán)重上。
[0108] 具體的,通過(guò)核函數(shù)(kernel function)計(jì)算兩個(gè)樣本數(shù)據(jù)之間的相似性(0~ 1),0表不最不像,1表不最像。
[0109] 假設(shè)x4要被扔掉且x4的權(quán)重是a4,通過(guò)核函數(shù)(kernel function)計(jì)算兩個(gè)樣 本數(shù)據(jù)之間的相似性,假設(shè)可得k(x4, x5) = 0. 9, k(x4, x6) = 0. 2,則說(shuō)明x5與x4更相 近。假設(shè)x5的權(quán)重是a5,扔掉x4之后,將x4的權(quán)重加到x5的權(quán)重上,則x5的權(quán)重變成 了 a5+a4〇
[oho] 本發(fā)明實(shí)施例提供一種訓(xùn)練不平衡數(shù)據(jù)的方法,所述方法通過(guò)獲取當(dāng)前流式不平 衡數(shù)據(jù)的第一類別,比較預(yù)先存儲(chǔ)的第二類別的流式不平衡數(shù)據(jù)的預(yù)測(cè)值和所述第一類別 的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值,在所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測(cè)值和所述第一 類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值相差小于預(yù)先設(shè)置的比較閾值的情況下,通過(guò)預(yù)先設(shè) 置的第一算法對(duì)目標(biāo)函數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重,根據(jù)獲取的所 述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置的第二算法獲取所述第二類別的流式不平衡數(shù) 據(jù)的權(quán)重,從而實(shí)現(xiàn)處理不平衡數(shù)據(jù),通過(guò)非線性的核函數(shù)提高非線性數(shù)據(jù)之間的區(qū)分度, 并且提高少數(shù)類數(shù)據(jù)的分類準(zhǔn)確率,使得模型對(duì)于不平衡數(shù)據(jù)的預(yù)測(cè)值更加準(zhǔn)確。
[0111] 同時(shí),本發(fā)明在其中一個(gè)流式不平衡數(shù)據(jù)被替換的情況下,通過(guò)更新存儲(chǔ)的其他 的流式不平衡數(shù)據(jù)的權(quán)重,可以避免替換支持向量減少學(xué)習(xí)非平衡數(shù)據(jù)準(zhǔn)確度的情況,從 而提高非平衡數(shù)據(jù)的準(zhǔn)確度,防止丟失數(shù)據(jù)的有效信息等。
[0112] 參考圖2,圖2是本發(fā)明實(shí)施例提供的一種訓(xùn)練流式不平衡數(shù)據(jù)的設(shè)備結(jié)構(gòu)圖。所 述設(shè)備包括以下單元:
[0113] 第一獲取單元201,用于獲取當(dāng)前流式不平衡數(shù)據(jù)的第一類別;
[0114] 其中,流式不平衡數(shù)據(jù)(online imbalanced data)共有2種類別,根據(jù)樣本數(shù)量 的多少分為少數(shù)類及多數(shù)類。所述第一類別為少數(shù)類或者多數(shù)類。
[0115] 具體的,在醫(yī)學(xué)圖像中有兩種類別的細(xì)胞:腫瘤細(xì)胞及正常細(xì)胞。根據(jù)這兩種類別 的細(xì)胞的數(shù)量大小劃分,腫瘤細(xì)胞是少數(shù)類,正常細(xì)胞是多數(shù)類。假設(shè)將某醫(yī)院每天采集的 醫(yī)學(xué)圖像稱為流式不平衡數(shù)據(jù)。對(duì)采集的醫(yī)學(xué)圖像通過(guò)圖片分割使得每張醫(yī)學(xué)圖片只有一 個(gè)細(xì)胞,將分割后的每張醫(yī)學(xué)圖片稱為樣本數(shù)據(jù),每個(gè)樣本數(shù)據(jù)均被標(biāo)記為腫瘤細(xì)胞或者 正常細(xì)胞,將帶有標(biāo)記的數(shù)據(jù)稱為流式不平衡數(shù)據(jù)。
[0116] 比較單元202,用于比較預(yù)先存儲(chǔ)的第二類別的流式不平衡數(shù)據(jù)的預(yù)測(cè)值和所述 第一類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值,所述預(yù)測(cè)值用于標(biāo)識(shí)預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測(cè) 所述流式不平衡數(shù)據(jù)的準(zhǔn)確度;
[0117] 具體的,假設(shè)用+1標(biāo)識(shí)預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測(cè)所述少數(shù)類樣本的流式不平衡 數(shù)據(jù)的準(zhǔn)確度,用-1標(biāo)識(shí)預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測(cè)所述多數(shù)類樣本的流式不平衡數(shù)據(jù)的 準(zhǔn)確度。假設(shè)用所述預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測(cè)一個(gè)少數(shù)類樣本的流式不平衡數(shù)據(jù)的準(zhǔn)確度 越接近+1,則說(shuō)明所述預(yù)先設(shè)置的學(xué)習(xí)模型對(duì)于所述少數(shù)類樣本的流式不平衡數(shù)據(jù)的預(yù)測(cè) 越準(zhǔn)確。同理,假設(shè)用所述預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測(cè)一個(gè)多數(shù)類樣本的流式不平衡數(shù)據(jù)的 準(zhǔn)確度越接近-1,則說(shuō)明所述預(yù)先設(shè)置的學(xué)習(xí)模型對(duì)于所述多數(shù)類樣本的流式不平衡數(shù)據(jù) 的預(yù)測(cè)越準(zhǔn)確。
[0118] 假設(shè)當(dāng)前的樣本(Xt)的類別是少數(shù)類(即腫瘤細(xì)胞),通過(guò)預(yù)先設(shè)置的學(xué)習(xí)模 型獲得一個(gè)預(yù)測(cè)值(假設(shè)是f(xt) =0.8),將所述當(dāng)前樣本跟緩存中與其相反類別的樣 本(即正常細(xì)胞)進(jìn)行比較。假設(shè)現(xiàn)在緩存中有3個(gè)正常細(xì)胞(樣本xl、x2、x3),并且我 們的學(xué)習(xí)模型對(duì)這3個(gè)正常細(xì)胞的預(yù)測(cè)值分別是(f (xl) = -0. 1、f (x2) = -0. 15、f (x3) =-〇· 9)。
[0119] 具體比較方法為:在假設(shè)預(yù)先設(shè)置的比較閾值為1的情況下,通過(guò)兩個(gè)預(yù)測(cè)值相 減,可以獲得:
[0120] ΔΠ = 0. 8-(-0. 1) = 0. 9 ;
[0121] Af2 = 0. 8-(-0. 15) = 0. 95 ;
[0122] Af3 = 0. 8-(-0. 9) = I. 7
[0123] 通過(guò)將Λ Π、Λ f2、Λ f3與閥值1進(jìn)行比較可得,
[0124] 樣本xl、x2與xt的距離小于1,所以xl、x2和xt的區(qū)分度不高,則需要更新xl、 x2的權(quán)重。
[0125] 第二獲取單元203,用于在所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測(cè)值和所述第一 類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值相差小于預(yù)先設(shè)置的比較閾值的情況下,通過(guò)預(yù)先設(shè) 置的第一算法對(duì)目標(biāo)函數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重;
[0126] 具體的,所述預(yù)先設(shè)置的第一算法可以為所述隨機(jī)梯度下降法(stochastic gradient descent)是標(biāo)準(zhǔn)算法;所述目標(biāo)函數(shù)是 pairwise hinge loss function。
[0127] 所述目標(biāo)函數(shù)的具體形式為:
[0129] 其中f為判定函數(shù),可以表示為:
[0131] 其中,a+1>t和a、,t分別是在i時(shí)刻放入緩存中正負(fù)類支持向量在t時(shí)刻的權(quán)重; I+t和I '分別是緩存中正負(fù)類支持向量的檢索下標(biāo);Zl = (Xl,Y1)表示一個(gè)樣本數(shù)據(jù)的特 征向量X1和該樣本的類別標(biāo)簽 yi. C是錯(cuò)誤分類的懲罰系數(shù);Ih (f,Zl,Z1)是樣本Z1和Z1在 判定函數(shù)f下的成對(duì)鉸鏈函數(shù);k( Xl,X1)是數(shù)據(jù)的特征向量X1和X1的相似度函數(shù);
[0132] 將公式2代入公式1后對(duì)公式1求a+和a的偏導(dǎo),并使用隨機(jī)梯度下降算法獲取 當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重。
[0133] 由公式1可見(jiàn),若預(yù)先存儲(chǔ)的所述第二類別的流式不平衡數(shù)據(jù)中,預(yù)測(cè)值和所述 第一類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值之差小于1的個(gè)數(shù)越大,則所述第一類別的當(dāng)前 流式不平衡數(shù)據(jù)的權(quán)重越大。理由如下:
[0134] 該樣本數(shù)據(jù)預(yù)測(cè)值和所述第一類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值之差小于1 的個(gè)數(shù)越大,說(shuō)明該樣本數(shù)據(jù)對(duì)于當(dāng)前的學(xué)習(xí)系統(tǒng)具有一定信息量,是當(dāng)前系統(tǒng)所缺乏的, 所以應(yīng)該賦予該樣本數(shù)據(jù)較大的權(quán)重。
[0135] 可選地,所述設(shè)備還包括:
[0136] 設(shè)置單元,用于在預(yù)先存儲(chǔ)的所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測(cè)值和所述第 一類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測(cè)值相差都不小于預(yù)先設(shè)置的比較閾值的情況下,將所 述流式不平衡數(shù)據(jù)的權(quán)重設(shè)置為〇 ;
[0137] 若預(yù)先存儲(chǔ)的所述第二類別的流式不平衡數(shù)據(jù)中,預(yù)測(cè)值和所述第一類別的當(dāng)前 流式不平衡數(shù)據(jù)的預(yù)測(cè)值之差小于1的個(gè)數(shù)越大,則所述第一類別的當(dāng)前流式不平衡數(shù)據(jù) 的權(quán)重越大。
[0138] 具體的,假設(shè)當(dāng)前的樣本(Xt)的類別是少數(shù)類(即腫瘤細(xì)胞),通過(guò)預(yù)先設(shè)置的 學(xué)習(xí)模型獲得一個(gè)預(yù)測(cè)值(假設(shè)是f (xt) = 0. 8),假設(shè)現(xiàn)在緩存中有3個(gè)正常細(xì)胞(樣本 xl、x2、x3),并且我們的學(xué)習(xí)模型對(duì)這3個(gè)正常細(xì)胞的預(yù)測(cè)值分別是(f(xl) =-0.3、f(x2) =-〇· 4、f (x3) = -〇· 5)。
[0139] 具體比較方法為:在假設(shè)預(yù)先設(shè)置的比較閾值為1的情況下,通過(guò)兩個(gè)預(yù)測(cè)值相 減,可以獲得:
[0140] ΔΠ = 0. 8-(-0. 3) = I, 1 ;
[0141] Af2 = 0. 8-(-0. 4) = 1. 2 ;
[0142] Af3 = 0. 8-(-0. 5) = I. 3
[0143] 通過(guò)將Λ Π、Λ f2、Λ f3與閥值1進(jìn)行比較可得,
[0144] 樣本xl、x2、x3與xt的距離都大于1,所以xl、x2、x3和xt的區(qū)分度高,則不需要 更新xl、x2、x3與xt的權(quán)重。
[0145] 第三獲取單元204,用于根據(jù)獲取的所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置 的第二算法獲取所述第二類別的流式不平衡數(shù)據(jù)的權(quán)重。
[0146] 其中,所述預(yù)先設(shè)置的第二算法為核函數(shù)(kernel function),通過(guò)核函數(shù) (kernel function)計(jì)算兩個(gè)樣本數(shù)據(jù)之間的相似性(0~I),0表示最不相似,1表示最相 似。比如,k(xl,xt) =0. 1,所以樣本xl與xt不相似;k(x2,xt) =0. 8,所以樣本x2與xt 相似。
[0147] 具體的,假設(shè)所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重為:
[0148] 根據(jù)所述核函數(shù)求出xl和xt的相似度為:k(xl,xt) = 0. 1
[0149] 所述第三獲取單元204具體用于:
[0151] 其中,B1,t是在i時(shí)刻放入緩存中支持向量在t時(shí)刻的權(quán)重;y t是t時(shí)刻樣本數(shù)據(jù) 的類別標(biāo)簽,yt取值為+1或者一 I ;C是錯(cuò)誤分類的懲罰系數(shù);和I '分別是緩存中正 負(fù)類支持向量的檢索下標(biāo);Vt是與第t時(shí)刻的樣本類別相反且與第t時(shí)刻樣本區(qū)分度不高 的前k個(gè)支持向量的集合;η是學(xué)習(xí)速率;^是Vt的補(bǔ)集。
[0152] 作為一種可選的實(shí)施例,所述設(shè)備還包括處理單元205,所述處理單元205具體用 于:
[0153] 判斷緩存中是否能存儲(chǔ)新的支持向量;<