国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種訓(xùn)練流式不平衡數(shù)據(jù)的方法及設(shè)備的制造方法

      文檔序號:9564602閱讀:382來源:國知局
      一種訓(xùn)練流式不平衡數(shù)據(jù)的方法及設(shè)備的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,尤其涉及到一種訓(xùn)練流式不平衡數(shù)據(jù)的方法及設(shè)備
      【背景技術(shù)】
      [0002] 目前,現(xiàn)有的在線學(xué)習(xí)系統(tǒng)大部分沒有考慮訓(xùn)練流式不平衡數(shù)據(jù)對于訓(xùn)練系統(tǒng)的 影響,比如,現(xiàn)有技術(shù)中通常采用在線觀察曲線下面積最大化(Online AUC Maximization, 0AM)、單層曲線下面積(One-Pass AUC,0PAUC)、樸素在線正則化最小化算法(Naive Online Reg Minimisation Algorithm,NORMA)、映射感知器(Projectron)的方法學(xué)習(xí)非線性數(shù)據(jù), 有相應(yīng)的局限性。
      [0003] 在OAM方法中,使用線性的分類模型,使用基于ROC曲線下面積的目標(biāo)函數(shù)來在線 訓(xùn)練線性分類器模型,對于線性的流式不平衡數(shù)據(jù)具有良好的分類效果。但如果流式不平 衡數(shù)據(jù)具有非線性特征,則其分類效果嚴(yán)重下降。
      [0004] 在OPAUC方法中,使用線性的分類模型,使用基于ROC曲線下面積的二次目標(biāo)函數(shù) 來在線訓(xùn)練線性分類器模型,對于線性的流式不平衡數(shù)據(jù)具有良好的分類效果。但是同樣 對于非線性數(shù)據(jù),效果欠佳。
      [0005] 在NORM方法中,使用核函數(shù)模型,使用基于Hinge損失函數(shù)來在線訓(xùn)練模型,對 于非線性的數(shù)據(jù)具有良好的分類效果。但是該方法處理流式不平衡數(shù)據(jù)時,容易將少數(shù)類 數(shù)據(jù)錯誤劃分為多數(shù)類數(shù)據(jù)。而少數(shù)類的數(shù)據(jù)錯分代價通常比多數(shù)類數(shù)據(jù)的錯分代價高, 不能很好地適用于實(shí)際場景中的需求。另一方面,該方法沒有提供支持向量集合的替換方 法,一旦數(shù)據(jù)量增大,難以應(yīng)對大數(shù)據(jù)的處理。
      [0006] 在Projectron方法中,使用核函數(shù)模型,使用基于鉸鏈損失函數(shù)來在線訓(xùn)練模 型,與NORM同樣存在不能處理流式不平衡數(shù)據(jù)的問題。

      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明實(shí)施例提供了一種訓(xùn)練流式不平衡數(shù)據(jù)的方法及設(shè)備,旨在解決現(xiàn)有技術(shù) 中無法處理流式不平衡數(shù)據(jù)以及在處理流式不平衡數(shù)據(jù)時容易忽略少數(shù)類別樣本數(shù)據(jù)的 準(zhǔn)確度的問題。
      [0008] 第一方面,一種訓(xùn)練流式不平衡數(shù)據(jù)的方法,所述方法包括:
      [0009] 獲取當(dāng)前流式不平衡數(shù)據(jù)的第一類別;
      [0010] 比較預(yù)先存儲的第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別的當(dāng)前流 式不平衡數(shù)據(jù)的預(yù)測值,所述預(yù)測值用于標(biāo)識預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測所述流式不平衡數(shù) 據(jù)的準(zhǔn)確度,所述第二類別與所述第一類別相反;
      [0011] 在所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別的當(dāng)前流式不平衡 數(shù)據(jù)的預(yù)測值相差小于預(yù)先設(shè)置的比較閾值的情況下,通過預(yù)先設(shè)置的第一算法對目標(biāo)函 數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重;
      [0012] 根據(jù)獲取的所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置的第二算法獲取所述第 二類別的流式不平衡數(shù)據(jù)的權(quán)重。
      [0013] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述目標(biāo)函數(shù)為:
      [0016] 其中,《和aQ分別是在i時刻放入緩存中正負(fù)類支持向量在t時刻的權(quán)重;1\和 I'分別是緩存中正負(fù)類支持向量的檢索下標(biāo);Zi = (Xi, y;)表示一個樣本數(shù)據(jù)的特征向量 X1和該樣本的類別標(biāo)簽Y1. C是錯誤分類的懲罰系數(shù);Ih (f,Zl,Z1)是樣本Z1和Z1在判定函 數(shù)f下的成對鉸鏈函數(shù);k( Xl,X1)是數(shù)據(jù)的特征向量X1和X1的相似度函數(shù);
      [0017] 所述通過預(yù)先設(shè)置的第一算法對目標(biāo)函數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù) 據(jù)的權(quán)重,包括:
      [0018] 將公式2代入公式1后對公式1求a+和a的偏導(dǎo),并使用隨機(jī)梯度下降算法獲取 當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重。
      [0019] 結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式 中,所述方法還包括:
      [0020] 在預(yù)先存儲的所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別的當(dāng)前 流式不平衡數(shù)據(jù)的預(yù)測值相差都不小于預(yù)先設(shè)置的比較閾值的情況下,將所述流式不平衡 數(shù)據(jù)的權(quán)重設(shè)置為0 ;
      [0021] 若預(yù)先存儲的所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別的當(dāng)前 流式不平衡數(shù)據(jù)的預(yù)測值之差小于1的個數(shù)越多,則所述第一類別的當(dāng)前流式不平衡數(shù)據(jù) 的權(quán)重越大。
      [0022] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式 中,所述根據(jù)獲取的所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置的第二算法獲取所述第二 類別的流式不平衡數(shù)據(jù)的權(quán)重,包括:
      [0024] 其中,Bli t是在i時刻放入緩存中支持向量在t時刻的權(quán)重;yt是t時刻樣本數(shù)據(jù) 的類別標(biāo)簽,yt取值為+1或者一 I ;C是錯誤分類的懲罰系數(shù);I+t和I 一 t分別是緩存中 正負(fù)類支持向量的檢索下標(biāo);Vt是與第t時刻的樣本類別相反且與第t時刻樣本區(qū)分度不 高的前k個支持向量的集合;η是學(xué)習(xí)速率;^是Vt的補(bǔ)集。
      [0025] 結(jié)合第一方面或者第一方面的第一種可能的實(shí)現(xiàn)方式或者第一方面的第二種可 能的實(shí)現(xiàn)方式或者第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方 式中,所述方法還包括:
      [0026] 判斷緩存中是否能存儲新的支持向量;
      [0027] 若緩存中未能存儲新的支持向量,使用抽樣算法將緩存中的其中一個流式不平衡 數(shù)據(jù)替換為所述新的流式不平衡數(shù)據(jù);
      [0028] 根據(jù)所述其中一個流式不平衡數(shù)據(jù)的類別,在緩存中找到與所述其中一個流式不 平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù),并將所述其中一個流式不平衡數(shù)據(jù)的權(quán)重增加到所述 與所述其中一個流式不平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù)的權(quán)重上。
      [0029] 第二方面,一種訓(xùn)練流式不平衡數(shù)據(jù)的設(shè)備,所述設(shè)備包括:
      [0030] 第一獲取單元,用于獲取當(dāng)前流式不平衡數(shù)據(jù)的第一類別;
      [0031] 比較單元,用于比較預(yù)先存儲的第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一 類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測值,所述預(yù)測值用于標(biāo)識預(yù)先設(shè)置的學(xué)習(xí)模型預(yù)測所述 流式不平衡數(shù)據(jù)的準(zhǔn)確度,所述第二類別與所述第一類別相反;
      [0032] 第二獲取單元,用于在所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別 的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測值相差小于預(yù)先設(shè)置的比較閾值的情況下,通過預(yù)先設(shè)置的 第一算法對目標(biāo)函數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重;
      [0033] 第三獲取單元,用于根據(jù)獲取的所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置的第 二算法獲取所述第二類別的流式不平衡數(shù)據(jù)的權(quán)重。
      [0034] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述目標(biāo)函數(shù)為:
      [0037] 其中,<,和(分別是在i時刻放入緩存中正負(fù)類支持向量在t時刻的權(quán)重;1\和 I'分別是緩存中正負(fù)類支持向量的檢索下標(biāo);Zi = (Xi, y;)表示一個樣本數(shù)據(jù)的特征向量 X1和該樣本的類別標(biāo)簽yi,C是錯誤分類的懲罰系數(shù);Ih (f,Zl,Z1)是樣本Z1和Z1在判定函 數(shù)f下的成對鉸鏈函數(shù);k( Xl,X1)是數(shù)據(jù)的特征向量X1和X1的相似度函數(shù);
      [0038] 所述第二獲取單元,具體用于:
      [0039] 將公式2代入公式1后對公式1求a+和a的偏導(dǎo),并使用隨機(jī)梯度下降算法即可 得到當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重。
      [0040] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式 中,所述設(shè)備還包括:
      [0041] 設(shè)置單元,用于在預(yù)先存儲的所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第 一類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測值相差都不小于預(yù)先設(shè)置的比較閾值的情況下,將所 述流式不平衡數(shù)據(jù)的權(quán)重設(shè)置為〇 ;
      [0042] 若預(yù)先存儲的所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別的當(dāng)前 流式不平衡數(shù)據(jù)的預(yù)測值之差小于1的個數(shù)越多,則所述第一類別的當(dāng)前流式不平衡數(shù)據(jù) 的權(quán)重越大。
      [0043] 結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式 中,所述第三獲取單元,包括 :
      [0045] 其中,Bli t是在i時刻放入緩存中支持向量在t時刻的權(quán)重;yt是t時刻樣本數(shù)據(jù) 的類別標(biāo)簽,yt取值為+1或者一 I ;C是錯誤分類的懲罰系數(shù);I+t和I 一 t分別是緩存中 正負(fù)類支持向量的檢索下標(biāo);Vt是與第t時刻的樣本類別相反且與第t時刻樣本區(qū)分度不 高的前k個支持向量的集合;η是學(xué)習(xí)速率;f是Vt的補(bǔ)集。
      [0046] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可 能的實(shí)現(xiàn)方式或者第二方面的第三種可能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí)現(xiàn)方 式中,所述設(shè)備還包括處理單元,所述處理單元具體用于:
      [0047] 判斷緩存中是否能存儲新的支持向量;
      [0048] 若緩存中未能存儲新的支持向量,使用抽樣算法將緩存中的其中一個流式不平衡 數(shù)據(jù)替換為所述新的流式不平衡數(shù)據(jù);
      [0049] 根據(jù)所述其中一個流式不平衡數(shù)據(jù)的類別,在緩存中找到與所述其中一個流式不 平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù),并將所述其中一個流式不平衡數(shù)據(jù)的權(quán)重增加到所述 與所述其中一個流式不平衡數(shù)據(jù)最相似的流式不平衡數(shù)據(jù)的權(quán)重上。
      [0050] 本發(fā)明實(shí)施例提供一種訓(xùn)練不平衡數(shù)據(jù)的方法,所述方法通過獲取當(dāng)前流式不平 衡數(shù)據(jù)的第一類別,比較預(yù)先存儲的第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一類別 的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測值,在所述第二類別的流式不平衡數(shù)據(jù)的預(yù)測值和所述第一 類別的當(dāng)前流式不平衡數(shù)據(jù)的預(yù)測值相差小于預(yù)先設(shè)置的比較閾值的情況下,通過預(yù)先設(shè) 置的第一算法對目標(biāo)函數(shù)進(jìn)行求導(dǎo),獲取所述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重,根據(jù)獲取的所 述當(dāng)前流式不平衡數(shù)據(jù)的權(quán)重和預(yù)先設(shè)置的第二算法獲
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1