国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多次投票的迭代式標(biāo)簽噪聲識別算法

      文檔序號:9327410閱讀:1191來源:國知局
      一種基于多次投票的迭代式標(biāo)簽噪聲識別算法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體是基于多次投票的迭代式標(biāo)簽噪 聲識別算法。
      【背景技術(shù)】
      [0002] 機(jī)器學(xué)習(xí)在實(shí)際應(yīng)用當(dāng)中使用的很多訓(xùn)練數(shù)據(jù)都是帶有噪聲的,其中導(dǎo)致的原因 包括人為的錯誤,硬件設(shè)備的錯誤,數(shù)據(jù)收集過程的錯誤等。傳統(tǒng)的做法就是在應(yīng)用那些機(jī) 器學(xué)習(xí)算法前,通過人工對源數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理工作,獲得純凈源數(shù)據(jù),然而,這些人工 的工作費(fèi)力、繁瑣、耗時,而且不能保證數(shù)據(jù)的完全正確性,這對后續(xù)的算法應(yīng)用造成了不 可忽視的影響。數(shù)據(jù)噪聲通常包括兩類:屬性噪聲和類別噪聲,屬性噪聲指的是樣本屬性值 不準(zhǔn)確,類別噪聲指的是樣本的標(biāo)簽不準(zhǔn)確[1]。相比于屬性噪聲,類別噪聲的影響更大。
      [0003] 對類別噪聲的處理方法包括:設(shè)計健壯的算法[2,3]以及噪聲檢測算法 [4, 5, 6, 7]。設(shè)計健壯的算法主要是改進(jìn)已有算法,使已有算法受類別噪聲的影響更小。而 噪聲檢測算法是在使用包含噪聲的數(shù)據(jù)之前檢測并刪除噪聲。相比之下,類噪聲檢測算法 的效果和通用性更強(qiáng)。
      [0004] 已有類噪聲檢測算法主要包含兩類:基于k近鄰[4]和基于集成學(xué)習(xí)[5, 6, 7]。 基于k近鄰的基本思想是比較一個樣本和其鄰居樣本的類別標(biāo)簽,如果這些標(biāo)簽明顯不一 致,則認(rèn)為該樣本標(biāo)簽為噪聲。這種方法受k近鄰算法的局限性影響,并不是所有的數(shù)據(jù)分 布都適合基于k緊鄰的方法。相比之下,基于集成學(xué)習(xí)的算法使用更廣泛。這一類算法的 代表是大多數(shù)過濾和一致性過濾[7]。在這些算法中,訓(xùn)練數(shù)據(jù)首先被隨機(jī)的分成多個子 集,然后每個子集會被單獨(dú)的進(jìn)行噪聲檢測。檢測的基本思想是通過以剩余子集為訓(xùn)練樣 本獲得的多個分類器的投票。這類算法主要包括兩個步驟:樣本劃分和多分類器投票。因 為樣本劃分和多分類器投票只執(zhí)行一次,因此屬于基于單次投票的標(biāo)簽噪聲檢測方法。
      [0005] 已有的基于單次投票的標(biāo)簽噪聲檢測方法存在兩個不足:單次投票的結(jié)果受樣本 劃分的影響較大,并且遺漏噪聲的可能性較大。
      [0006] 參考文獻(xiàn):
      [0007] [1] Zhu, Xingquan, and Xindong Wu.''Class noise vs. attribute noise : A quantitative study. "Artificial Intelligence Review 22. 3(2004):177-210.
      [0008] [2]J. Bootkrajang, A.Kaban, Classification of mislabelled microarrays using robust sparse logistic regression, Bioinformatics 29 (7) (2013)870 - 877.
      [0009] [3] J. Saez, M. Galar, J. Luengo, F. Herrera, A first study on decomposition strategies with data with class noise using decision trees, in:Hybrid Artificial Intelligent Systems, Lecture Notes in Computer Science, vol. 7209, 2012, pp. 25 - 35.
      [0010] [4]D. L. Wilson, Asymptotic properties of nearest neighbor rules using edited data, IEEE Trans. Syst. Man Cybernet. 2(3)(1992)431 - 433.
      [0011] [5] J. Young, J. Ashburner, S. Ourselin, Wrapper methods to correct mislabeled training data, in:3rd International Workshop on Pattern Recognition in Neuroimaging, 2013, pp. 170 - 173.
      [0012] [6]D. Guan, ff. Yuan, et al. , Identifying mislabeled training data with the aid of unlabeled data, Appl. Intell. 35 (3) (2011)345 - 358.
      [0013] [7] C. E. Brodley, M. A. Friedl, Identifying mislabeled training data, J. Artif. Intell. Res. 11 (1999) 131 - 167.

      【發(fā)明內(nèi)容】

      [0014] 本發(fā)明要解決的問題是提供是一種基于多次投票的迭代式標(biāo)簽噪聲識別算法,該 算法該方法采用多次投票的方式,在多次投票和單次投票環(huán)節(jié)可以根據(jù)實(shí)際數(shù)據(jù)集情況設(shè) 置相應(yīng)的參數(shù)和策略,避免了單次投票的結(jié)果受樣本劃分的影響較大的問題,可以有效提 高識別的準(zhǔn)確率,用迭代的方式,能更加徹底的發(fā)現(xiàn)噪聲數(shù)據(jù)。
      [0015] 如本發(fā)明公開的基于多次投票的迭代式標(biāo)簽噪聲識別算法,包括以下步驟:
      [0016] 步驟1)確定算法輸入變量,包括待處理樣本集D,最大迭代次數(shù)maxlter,多次投 票次數(shù)numVote,最終噪聲識別所需最小投票次數(shù)numFinalPass,隨機(jī)分塊數(shù)numCross,單 次投票分類器次數(shù)numClassifier,單次噪聲識別所需最小投票次數(shù)numPass,初始化多次 投票迭代次數(shù)t = 1,外圍迭代次數(shù)m = 1,初始化待處理樣本集E = D ;
      [0017] 步驟2)將E隨機(jī)分成numCross個大小一致的子集CO =1':?) .,. 霉=:五初始化 參數(shù)i = 1 ;
      [0018] 步驟3)用£ \ f集合中樣本做訓(xùn)練數(shù)據(jù),選擇numClassif ier個不同的分類算法, 訓(xùn)練numClassifier個不同的分類器H1, H2,…, HnumClassif ier,
      [0019] 步驟4)用H1, H2, . . .,H_aasslflCT對樣本集f中樣本分類,統(tǒng)計每一個樣本被錯誤 分類的次數(shù)numWrong,如果numWrong大于或等于指定閾值numPass,則該次投票將該樣本 列為可疑噪聲;
      [0020] 步驟5)迭代執(zhí)行步驟2)至4),每次迭代后i值加1,直到i值等于numCross,停 止迭代,生成可疑噪聲集合;
      [0021] 步驟6)迭代執(zhí)行步驟2)至5),每次迭代后t值加1,直到t = numVote為止,生 成numVote個可疑噪聲集合;
      [0022] 步驟7)綜合分析numVote個可疑噪聲集合,如果一個樣本在numVote個集合中出 現(xiàn)的次數(shù)numExist大于或等于指定閾值numFinalPass,則根據(jù)多次投票結(jié)果,認(rèn)定該樣本 是噪聲,設(shè)基于第m次迭代,產(chǎn)生的噪聲集合為;
      [0023] 步驟8) £ = £ - ,迭代執(zhí)行步驟2)至7),每次迭代后,m值加1,直到=[] 或 m = maxlter 為止;
      [0024] 步驟9)返回E值,E為刪除噪聲后的純凈樣本集,算法結(jié)束。
      [0025] 進(jìn)一步,所述步驟3)中,numClassifier選定為奇數(shù),選擇奇數(shù)有利于投票表決 的實(shí)現(xiàn)。分類算法為k緊鄰,決策樹,貝葉斯,神經(jīng)網(wǎng)絡(luò),支撐向量機(jī)中的一個或多個。且 numClassifier的選定受數(shù)據(jù)集影響。小樣本數(shù)據(jù)集時,為保證多分類器之間差異性,應(yīng) 采取較大numClassifier值。在樣本集標(biāo)簽噪聲較高時,也應(yīng)采取較大numClassifier 值。較大numClassifier即可以保證每次迭代的高標(biāo)簽噪聲識別率,又有助于減少迭代次 數(shù),提高算法效率。另一方面,在樣本集數(shù)目較大且樣本標(biāo)簽噪聲比較低時,可以選擇較小 numClassifier。如可設(shè)置 numClassifier = 3〇
      [0026] 另一種改進(jìn),所述步驟4)中,所述numPass值選定為numClassifier/2或 numClassifier。numPass值設(shè)置的越大,檢測越嚴(yán)格。相應(yīng)的,檢測越嚴(yán)格,把好數(shù)據(jù)當(dāng)作 噪聲的可能性越小,把標(biāo)簽噪聲當(dāng)作好數(shù)據(jù)的可能性越大。
      [0027] 另一種改進(jìn),所述步驟7)中numFinalPass值即可選定一些常規(guī)值,如numVote/2 或numVote。也可以通過獨(dú)立的校驗(yàn)樣本,計算優(yōu)化的numFinalPass數(shù)值。具體步驟包括: a)根據(jù)先驗(yàn)知識估計待處理噪聲數(shù)據(jù)的噪聲比,b)在校驗(yàn)樣本中加入隨機(jī)噪聲,c)遍歷所 有可能numFinalPass數(shù)值并計算該數(shù)值下本算法對校驗(yàn)樣本中噪聲的識別準(zhǔn)確度,d)選 擇具有最高識別準(zhǔn)確度的numFinalPass。numVote值設(shè)置的越大,檢測越嚴(yán)格,相應(yīng)的,把 好數(shù)據(jù)當(dāng)作噪聲的可能性越小,把標(biāo)簽噪聲當(dāng)作好數(shù)據(jù)的可能性越大。此處numFinalPass 值應(yīng)和numPass呼應(yīng),如果numPass過小,則 numFinalPass應(yīng)加大,以免過多好樣本被當(dāng)作 噪聲,同理,如果numPass值過大,則 numFinalPass應(yīng)減小,以免過多噪聲樣本被當(dāng)作好樣 本。
      [0028] 本發(fā)明的有益效果是:本發(fā)明的基于多次投票的迭代式標(biāo)簽噪聲識別算法采用多 次投票方式進(jìn)行噪聲識別,每次投票前,隨機(jī)打亂樣本順序,因此保證了投票的差異性,同 傳統(tǒng)的單次投票方式相比,多次投票方法更具靈活性和準(zhǔn)確性,單次投票策略往往是過送 或者過緊,而多次投票可以在另一個層面對單次投票結(jié)果
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1