一種基于信息增益率的屬性選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性選擇方法,屬于人工智能數(shù)據(jù)挖掘分類技 術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類器因為其簡單性和高效性經(jīng)常被用來處理文本分類問題,但 是它的屬性獨立假設(shè)在使它變得高效的同時在一定程度上影響了它的分類性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式<Wl,w2,…,w,,多項式樸素貝葉斯(MNB),補集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來分類文檔d。
【主權(quán)項】
1. 一種基于信息增益率的屬性選擇方法,用于從一個訓(xùn)練文檔集中得到最好的屬性子 集,其特征在于包括以下步驟: (1) 對于一個已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量 形式d =〈w。W2, ... wm>,其中Wi為文檔d中的第i個單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計算該訓(xùn)練文檔集D中的各個屬性的信息增益率:
其中,GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率,Gain(D^i)表示 單詞力劃分訓(xùn)練文檔集D的信息增益,SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的 分裂信息; Gain(Dji)通過以下公式計算:
其中,IDvI是訓(xùn)練文檔集D中單詞力的取值為V的文檔數(shù)目,V e {〇, 〇} ;Entropy (D) 是訓(xùn)練文檔集D的熵,通過以下公式計算:
其中,C是類標記的集合,c是C中的一個類標記,p(C)是訓(xùn)練文檔集D中類別為c的 概率;P (c)通過以下公式計算得到:
其中,η是訓(xùn)練文檔集D中的文檔數(shù)目,s是文檔的類別的數(shù)目,(^是第j篇文檔的類 標記,δ (h c)表示一個二元函數(shù),當(dāng)它的兩個參數(shù)相同時值為1否則為〇 ; SplitInfo(Dji)通過以下公式計算得到:
(2) 根據(jù)訓(xùn)練文檔集D中的各個單詞的信息增益率對各屬性進行從大到小排序,一個 單詞各自對應(yīng)一個屬性; (3) 初始化一個空集為最好的屬性子集,利用最好的屬性子集構(gòu)建最好的分類器,則最 好的分類器的分類精度為0 ; (4) 重復(fù)步驟(4-1)到步驟(4-4) k次,k為大于5且小于10的整數(shù): (4-1)按照信息增益率排序后,選擇位于排序前百分之q的屬性組成當(dāng)前的屬性子集, 0〈q〈100 ; (4-2)利用當(dāng)前的屬性子集構(gòu)建當(dāng)前的分類器,并利用5折交叉驗證法評估當(dāng)前的分 類器的分類精度; (4-3)如果當(dāng)前的分類器的分類精度高于最好的分類器,則更新當(dāng)前最好的分類器和 最好的屬性子集,以當(dāng)前的分類器為最好的分類器,同時以當(dāng)前的屬性子集為最好的屬性 子集; (4-4)增加 q的數(shù)值,更新后的q小于100 ; (5)返回最好的屬性子集。
2.根據(jù)權(quán)利要求1所述的基于信息增益率的屬性選擇方法,其特征在于:步驟⑷所 述的k為9,步驟(4-1)所述的q為10,步驟(4-4) q的增量為q。
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性選擇方法,首先根據(jù)每個屬性的信息增益率大小對屬性進行排序,然后通過9次執(zhí)行5折交叉驗證的方法來確定選擇屬性的數(shù)目即百分比,最后在所選擇的屬性子集上構(gòu)建樸素貝葉斯文本分類器。本發(fā)明提出的基于信息增益率的屬性選擇方法集成了過濾法和包裝法兩類方法的優(yōu)點,是一種混合的屬性選擇方法,在大量標準的文本分類數(shù)據(jù)集上的實驗結(jié)果表明,本發(fā)明提出的基于信息增益率的屬性選擇方法在大多數(shù)情況下可以提高樸素貝葉斯文本分類器的分類精度,同時沒有招致太大的時間開銷。
【IPC分類】G06F17-30
【公開號】CN104750850
【申請?zhí)枴緾N201510173354
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請人】中國地質(zhì)大學(xué)(武漢)
【公開日】2015年7月1日
【申請日】2015年4月14日