一種類不平衡對分類模型性能影響程度的評價(jià)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域,涉及一種分類模型的評價(jià)方法,且特別是 關(guān)于一種類不平衡對分類模型性能影響程度的評價(jià)方法。
【背景技術(shù)】
[0002] 分類是數(shù)據(jù)挖據(jù)領(lǐng)域中的重要技術(shù),是指在已知類別的數(shù)據(jù)上,通過學(xué)習(xí)構(gòu)建一 個(gè)分類模型,然后對其他未知類別的數(shù)據(jù)進(jìn)行預(yù)測的過程。在構(gòu)建分類模型的過程中,往往 需要結(jié)合機(jī)器學(xué)習(xí)中的算法或模型來提高分類的準(zhǔn)確度。
[0003] 隨著數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,類不平衡問題也逐步成為這些領(lǐng)域的 研究熱點(diǎn)。一般地,類不平衡是指不同類別間樣本數(shù)量分布的不均衡現(xiàn)象。對于二分類問 題,數(shù)據(jù)集中往往包含正類樣本和負(fù)類樣本,且一般情況下,正類樣本屬于少數(shù)類,而負(fù)類 樣本屬于多數(shù)類,其中正類樣本(少數(shù)類)為待檢測類。因此,當(dāng)負(fù)類樣本數(shù)遠(yuǎn)遠(yuǎn)高于正類 樣本數(shù)時(shí),就表現(xiàn)出類不平衡問題。
[0004] 在實(shí)際應(yīng)用中,類不平衡問題是普遍存在的,如文本分類、欺詐檢測和醫(yī)學(xué)診斷等 領(lǐng)域。然而,因類不平衡問題的存在,傳統(tǒng)分類模型的性能可能會受到一定的影響。目前,解 決類不平衡問題的方法也有很多,主要分為兩大類:一類是從數(shù)據(jù)集分布角度,通過改變數(shù) 據(jù)集的樣本分布狀態(tài)來降低類不平衡產(chǎn)生的影響,主要通過采樣法來實(shí)現(xiàn);另一類是從學(xué) 習(xí)算法角度,針對不同算法在處理類不平衡問題時(shí)的不足加以改進(jìn),從而取得更好的分類 性能,這類方法主要有代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)等。然而,在解決分類不平衡問題的同時(shí), 往往需要與特定的分類模型相結(jié)合或者在某些分類模型下進(jìn)行驗(yàn)證,上述方法未充分考慮 到類不平衡問題對分類模型本身產(chǎn)生的影響。在類不平衡情況下,不同分類模型的性能可 能會受到不同程度的影響,即有的分類模型的性能極易受到影響,而有的分類模型的性能 保持相對穩(wěn)定。因此,掌握不同分類模型在類不平衡情況下的穩(wěn)定性,可在實(shí)際應(yīng)用中有針 對性地選擇合理的分類模型,對類不平衡問題的研究具有指導(dǎo)意義。
【發(fā)明內(nèi)容】
[0005] 為了探究類不平衡對不同分類模型性能的影響程度,本發(fā)明提供一種類不平衡對分 類模型性能影響程度的評價(jià)方法。首先,采用機(jī)器學(xué)習(xí)中典型的分類算法構(gòu)建分類模型庫;然 后,選取類不平衡數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集,并在此基礎(chǔ)上構(gòu)建一組不平衡率依次遞增的新數(shù) 據(jù)集,選取不同的分類模型對這組新數(shù)據(jù)集分別進(jìn)行分類和預(yù)測;最后,采用變異系數(shù)來評價(jià) 分類模型的性能變異程度并劃分等級,從而評價(jià)類不平衡對不同分類模型性能的影響程度。
[0006] 為了達(dá)成上述目的,本發(fā)明提供一種類不平衡對分類模型性能影響程度的評價(jià)方 法。具體步驟如下。
[0007] (1)分類模型庫構(gòu)建,采用機(jī)器學(xué)習(xí)中典型的分類算法來構(gòu)建分類模型庫,包括 C4. 5、K近鄰、樸素貝葉斯和RIPPER四種基本模型,其中C4. 5是一種典型的決策樹算法,而 RIPPER是一種基于規(guī)則的分類方法,同時(shí)還包括AdaBoost和Bagging兩種集成模型。初始 化分類模型并對各模型的運(yùn)行參數(shù)進(jìn)行設(shè)置。特別地,該分類模型庫并不僅包含以上6種 分類模型,其具有可更新性,可實(shí)現(xiàn)分類模型的增加、修改和刪除等功能。
[0008] (2)新數(shù)據(jù)集構(gòu)造,選取類不平衡數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集。對于一個(gè)原始的類不平 衡數(shù)據(jù)集Λ即基準(zhǔn)數(shù)據(jù)集Λ定義不平衡率(ImbalanceRatio,IR),其計(jì)算如公式①所示: IR=[n2 / ① 其中,A表示正類樣本數(shù),巧表示負(fù)類樣本數(shù),且巧遠(yuǎn)遠(yuǎn)大于A。
[0009] 設(shè)計(jì)一種新數(shù)據(jù)集構(gòu)造算法,通過該算法將原始的類不平衡數(shù)據(jù)集席?;癁橐唤M 不平衡率依次遞增的新數(shù)據(jù)集
[0010] (3)分類模型對新數(shù)據(jù)集進(jìn)行預(yù)測,假設(shè)原始數(shù)據(jù)集的不平衡率IR的值為r。在 步驟(1)中的分類模型庫中選取待評價(jià)的分類模型,對步驟(2)中得到的每個(gè)新數(shù)據(jù)集 汾別進(jìn)行分類和預(yù)測,并采用AUC(AreaUndertheCurve)指標(biāo)來評價(jià)各個(gè)分類模型 的預(yù)測結(jié)果,從而得到一組不同不平衡率下的AUC值,記為集合S= {AUC,},i=l,2,…,r。其 中,AUC指標(biāo)是評價(jià)分類模型性能的最常用指標(biāo),AUC值越大,說明該分類模型的性能越好, 預(yù)測結(jié)果也越準(zhǔn)確。特別地,為了降低步驟(2)中新數(shù)據(jù)集構(gòu)造帶來的隨機(jī)誤差,集合S中 每個(gè)AUC取100次重復(fù)實(shí)驗(yàn)的平均值。
[0011] (4)分類模型性能評價(jià),根據(jù)步驟(3)得到的預(yù)測結(jié)果,計(jì)算集合S={AUC,}中所 有AUC值的平均值#和標(biāo)準(zhǔn)差〃,計(jì)算過程如公式②③所示。同時(shí),采用標(biāo)準(zhǔn)差α與平 均值々的比值,即變異系數(shù)(CoefficientofVariation),來衡量不同不平衡率下AUC 值的變異程度,消除了平均值不同對變異程度比較的影響,從而更好地評價(jià)類不平衡對不 同分類模型性能的影響程度。變異系數(shù)十算如公式④所示:
變異系數(shù)Of直越大,說明在類不平衡情況下,該分類模型性能的變異程度越大。
[0012] 在步驟(1)構(gòu)建的分類模型庫基礎(chǔ)上,選取Camel-1. 0和JEdit-4. 3這兩個(gè)類不 平衡數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),這兩個(gè)數(shù)據(jù)集的不平衡率IR分別為25和43。通過 實(shí)驗(yàn)得到各分類模型的平均值#、標(biāo)準(zhǔn)差〃和變異系數(shù)如表1所示: 表1各分類模型的平均值#、標(biāo)準(zhǔn)差〃和變異系數(shù)
由表1中的結(jié)果可得,變異系數(shù)of直是不同的,說明類不平衡對不同分類模型性能的 影響程度是不同的,也就是說,在類不平衡情況下,不同分類模型性能的穩(wěn)定程度是有差異 的。
[0013] (5)影響程度等級評定,變異系數(shù)Of直越大,說明類不平衡問題對該分類模型性 能的影響程度越大。根據(jù)步驟(4)中的實(shí)驗(yàn)結(jié)果劃分為A,B,C,D四個(gè)等級: A. 0%〈 6Υ〈= 5%,基本無影響; B. 5%〈 6Υ〈= 10%,有一定影響; c.?ο% <^y〈=2〇%,有明顯影響; D. 6Υ> 20%,有強(qiáng)烈影響。
[0014]由表1中各分類模型的變異系數(shù)Ο?和步驟(5)中的等級劃分可得,類不平衡問 題對K近鄰算法、樸素貝葉斯、AdaBoost和Bagging這四種分類模型的性能基本無影響,即 在類不平衡情況下這四種模型的性能相對穩(wěn)定,對RIPPER模型的性能有一定的影響,而對 C4. 5模型的性能有明顯影響。
[0015] 本發(fā)明方法不僅能夠評價(jià)分類模型庫中列舉的6種分類模型的穩(wěn)定程度,同樣 地,對于其他分類模型也是普遍適用的。因此,對于不同的分類模型來說,本發(fā)明方法具有 較高的普適性。
[0016] 綜上所述,本發(fā)明提供并實(shí)施了一種類不平衡對分類模型性能影響程度的評價(jià)方 法,有效地衡量了類不平衡情況下不同分類模型性能的穩(wěn)定性,從而在實(shí)際應(yīng)用中可以有 針對性地選擇合理的分類模型,對于類不平衡問題的研究具有指導(dǎo)意義。
[0017] 進(jìn)一步,其中上述步驟(1)的具體步驟如下: 步驟(1) _1 :起始狀態(tài); 步驟(1) -2 :選取一個(gè)待評定的分類模型; 步驟(1) -3:初始化分類模型,并對各模型的運(yùn)行參數(shù)進(jìn)行設(shè)置; 步驟(1) -4:繼續(xù)增加分類模型,重復(fù)步驟(1) -2和步驟(1) -3,直至所有分類模型 增加完畢; 步驟(1) -5 :分類模型庫構(gòu)建完畢。
[0018] 進(jìn)一步,其中上述步驟(2)的具體步驟如下: 步驟(2) -1 :起始狀態(tài); 步驟(2) -2 :選取類不平衡數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集; 步驟(2) -3:對于一個(gè)原始的類不平衡數(shù)據(jù)集Λ即基準(zhǔn)數(shù)據(jù)集Λ定義不平衡率IR=L刀2 /A」,A表示正類樣本數(shù),巧表示負(fù)類樣本數(shù); 步驟(2) -4:設(shè)計(jì)一種新數(shù)據(jù)集構(gòu)造算法,具體算法如圖3所示。通過該算法將原始 的類不平衡數(shù)據(jù)集席?;癁橐唤M不平衡率依次遞增(即IR=1,2,···,r)的新數(shù)據(jù)集獲 步驟(2) -5 :新數(shù)據(jù)集構(gòu)造完畢。
[0019] 進(jìn)一步,其中上述步驟(3)的具體步驟如下: 步驟(3) -1 :起始狀態(tài); 步驟(3) -2 :在步驟(1)中的分類模型庫中選取待評價(jià)的分類模型,對步驟(2)中得 到的每個(gè)新數(shù)據(jù)集進(jìn)行分類和預(yù)測; 步驟(3) -3:采用AUC(AreaUndertheCurve)指標(biāo)來評價(jià)各個(gè)分類模型的預(yù)測結(jié)果, 并取100次重復(fù)實(shí)驗(yàn)的平均值作為最終的預(yù)測結(jié)果,記為集合S={AUC,};; 步驟(3) -4:分類模型對新數(shù)據(jù)集進(jìn)行預(yù)測完畢。
[0020] 進(jìn)一步,其中上述步驟(4)的具體步驟如下: 步驟(4) -1 :起始狀態(tài); 步驟(4) -2:根據(jù)步驟(3)得到的預(yù)測結(jié)果,計(jì)算集合S={AUCJ中所有AUC值的的平 均值#和標(biāo)準(zhǔn)差〃,計(jì)算過程如公式②③所示:
步驟(4) -3:采用標(biāo)準(zhǔn)差σ與平均值#的比值,即變異系數(shù)(Coefficientof Variation),來衡量不同不平衡率下AUC值的變異程度。計(jì)算過程如公式④所示:
步驟(4) -4:分類模型性能評價(jià)完畢。
[0021] 進(jìn)一步,其中上述步驟(5)的具體步驟如下: 步驟(5) -1:起始狀態(tài); 步驟(5) -2 :等級劃分,根據(jù)變異系數(shù)Ο?劃分為A,B,C,D四個(gè)等級: A. 0%〈 6Υ〈= 5%,基本無影響; B. 5%〈 6Υ〈= 10%,有一定影響;c.?ο%〈 ^y〈=2〇%,有明顯影響; D. 6Υ>20%,有強(qiáng)烈影響; 步驟(5) -3:根據(jù)變異系數(shù)Of直來評定類不平衡對不同分類模型性能的影響程度; 步驟(5) -4:影響程度等級劃分完畢。
[0022] 本發(fā)明通過構(gòu)建分類模型庫以及在類不平衡數(shù)據(jù)集上構(gòu)建新數(shù)據(jù)集,然后選取不 同的分類模型對所有的新數(shù)據(jù)集分別進(jìn)行分類和預(yù)測,并采用變異系數(shù)來評價(jià)分類模型的 性能變異程度,最后根據(jù)不同分類模型在新數(shù)據(jù)集上的性能變異程度劃分等級,從而更好 地探究類不平衡情況下不同分類模型性能的變化趨勢。同時(shí),針對不同的分類模型,本發(fā)明 提供的類不平衡對分類模型性能影響程度的評價(jià)方法具有較高的普適性。
【附圖說明】
[0023]圖1為本發(fā)明實(shí)施例