一種基于信息增益率的屬性選擇方法

文檔序號：8430881閱讀：563來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于信息增益率的屬性選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性選擇方法，屬于人工智能數(shù)據(jù)挖掘分類技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類器因為其簡單性和高效性經(jīng)常被用來處理文本分類問題，但是它的屬性獨立假設(shè)在使它變得高效的同時在一定程度上影響了它的分類性能。給定一篇文檔d，該文檔被表示成單詞向量的形式<Wl，w2，…，w，，多項式樸素貝葉斯（MNB)，補集樸素貝葉斯（CNB)和兩者的結(jié)合模型（0VA)分別用公式1，2和3來分類文檔d。
【主權(quán)項】
1. 一種基于信息增益率的屬性選擇方法，用于從一個訓(xùn)練文檔集中得到最好的屬性子集，其特征在于包括以下步驟： (1) 對于一個已知的訓(xùn)練文檔集D，訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量形式d =〈w。W2, ... wm>，其中Wi為文檔d中的第i個單詞，m為文檔d中單詞的數(shù)目；利用以下公式計算該訓(xùn)練文檔集D中的各個屬性的信息增益率：
其中，GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率，Gain(D^i)表示單詞力劃分訓(xùn)練文檔集D的信息增益，SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的分裂信息； Gain(Dji)通過以下公式計算：
其中，IDvI是訓(xùn)練文檔集D中單詞力的取值為V的文檔數(shù)目，V e {〇, 〇} ;Entropy (D) 是訓(xùn)練文檔集D的熵，通過以下公式計算：
其中，C是類標記的集合，c是C中的一個類標記，p(C)是訓(xùn)練文檔集D中類別為c的概率；P (c)通過以下公式計算得到：
其中，η是訓(xùn)練文檔集D中的文檔數(shù)目，s是文檔的類別的數(shù)目，（^是第j篇文檔的類標記，δ (h c)表示一個二元函數(shù)，當(dāng)它的兩個參數(shù)相同時值為1否則為〇 ; SplitInfo(Dji)通過以下公式計算得到：
(2) 根據(jù)訓(xùn)練文檔集D中的各個單詞的信息增益率對各屬性進行從大到小排序，一個單詞各自對應(yīng)一個屬性； (3) 初始化一個空集為最好的屬性子集，利用最好的屬性子集構(gòu)建最好的分類器，則最好的分類器的分類精度為0 ; (4) 重復(fù)步驟（4-1)到步驟（4-4) k次，k為大于5且小于10的整數(shù)： (4-1)按照信息增益率排序后，選擇位于排序前百分之q的屬性組成當(dāng)前的屬性子集， 0〈q〈100 ; (4-2)利用當(dāng)前的屬性子集構(gòu)建當(dāng)前的分類器，并利用5折交叉驗證法評估當(dāng)前的分類器的分類精度； (4-3)如果當(dāng)前的分類器的分類精度高于最好的分類器，則更新當(dāng)前最好的分類器和最好的屬性子集，以當(dāng)前的分類器為最好的分類器，同時以當(dāng)前的屬性子集為最好的屬性子集； (4-4)增加 q的數(shù)值，更新后的q小于100 ; (5)返回最好的屬性子集。
2.根據(jù)權(quán)利要求1所述的基于信息增益率的屬性選擇方法，其特征在于：步驟⑷所述的k為9,步驟（4-1)所述的q為10,步驟（4-4) q的增量為q。
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性選擇方法，首先根據(jù)每個屬性的信息增益率大小對屬性進行排序，然后通過9次執(zhí)行5折交叉驗證的方法來確定選擇屬性的數(shù)目即百分比，最后在所選擇的屬性子集上構(gòu)建樸素貝葉斯文本分類器。本發(fā)明提出的基于信息增益率的屬性選擇方法集成了過濾法和包裝法兩類方法的優(yōu)點，是一種混合的屬性選擇方法，在大量標準的文本分類數(shù)據(jù)集上的實驗結(jié)果表明，本發(fā)明提出的基于信息增益率的屬性選擇方法在大多數(shù)情況下可以提高樸素貝葉斯文本分類器的分類精度，同時沒有招致太大的時間開銷。
【IPC分類】G06F17-30
【公開號】CN104750850
【申請?zhí)枴緾N201510173354
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請人】中國地質(zhì)大學(xué)（武漢）
【公開日】2015年7月1日
【申請日】2015年4月14日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣良孝;張倫干;李超群;
技術(shù)所有人：中國地質(zhì)大學(xué)（武漢）;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息增益率相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于信息增益率的屬性選擇方法