一種基于決策樹的屬性加權(quán)方法及文本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于決策樹的屬性加權(quán)方法及文本分類方法,屬于人工智能數(shù)據(jù) 挖掘分類技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類器因為其簡單性和高效性經(jīng)常被用來處理文本分類問題,但 是它的屬性獨立假設(shè)在使它變得高效的同時在一定程度上影響了它的分類性能。給定一篇 文檔山該文檔被表示成單詞向量的形式<Wl,w2,…,w,,多項式樸素貝葉斯(MNB),補集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來分類文檔d。
【主權(quán)項】
1. 一種基于決策樹的屬性加權(quán)方法,其特征在于包括以下步驟: (1) 對于一個已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量 形式d =〈w。w2, . . . wm>,其中Wi為文檔d中的第i個單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計算該訓(xùn)練文檔集D中的各個屬性的信息增益率:
其中,GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率,Gain(D^i)表示 單詞力劃分訓(xùn)練文檔集D的信息增益,SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的 分裂信息; Gain(Dji)通過以下公式計算:
其中,|DV|是訓(xùn)練文檔集D中單詞~的取值為V的文檔數(shù)目,V E {〇,〇}; Entropy (D) 是訓(xùn)練文檔集D的熵,通過以下公式計算:
其中,C是類標記的集合,c是C中的一個類標記,p(C)是訓(xùn)練文檔集D中類別為c的 概率;P (c)通過以下公式計算得到:
其中,n是訓(xùn)練文檔集D中的文檔數(shù)目,s是文檔的類別的數(shù)目,(^是第j篇文檔的類 標記,S (h c)表示一個二元函數(shù),當它的兩個參數(shù)相同時值為1否則為〇 ; SplitInfo(Dji)通過以下公式計算得到:
(2) 用信息增益率作為劃分標準建立決策樹,所述決策樹為二叉樹,二叉樹在生長的 每一步選擇具有最大信息增益率的單詞作為測試屬性,單詞出現(xiàn)的頻率為〇或者非〇作為 測試結(jié)果; (3) 遍歷決策樹,記錄每個單詞^在決策樹中測試的的最小深度d i; (4) 對于訓(xùn)練文檔集D中的每個單詞Wi,若其在決策樹中出現(xiàn),則將它的權(quán)值Wi設(shè)置為
2. -種依托于權(quán)利要求1所述基于決策樹的屬性加權(quán)方法的多項式樸素貝葉斯文本 分類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞W i在文檔d中出現(xiàn)的頻率,為已知量;P (w i I C)表示條件概率,通過以 下公式計算得到:
其中,G表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞W 4勺頻率,n為訓(xùn)練文檔集D中 文檔的數(shù)目,G和n均為已知量。
3. -種依托于權(quán)利要求1所述基于決策樹的屬性加權(quán)方法的補集樸素貝葉斯文本分 類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞Wi在文檔d中出現(xiàn)的頻率,為已知量;p(幻通過以下公式計算得到:
其中,S(C|,幻表示一個二元函數(shù),當它的兩個參數(shù)相同時值為1否則為〇 ; P(W, I幻表示條件概率,通過以下公式計算得到:
4. 一種依托于權(quán)利要求1所述基于決策樹的屬性加權(quán)方法的多項式與補集相結(jié)合的 樸素貝葉斯文本分類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞w i在文檔d中出現(xiàn)的頻率,為已知量;p(幻通過以下公式計算得到:
其中,KU)表示一個二元函數(shù),當它的兩個參數(shù)相同時值為丄否則為〇 ;p (Wi |c)表 示條件概率,通過以下公式計算得到:
其中,G表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞w ^勺頻率,n為訓(xùn)練文檔集D中 文檔的數(shù)目,G和n均為已知量;p(w, I幻表示條件概率,通過以下公式計算得到:
【專利摘要】本發(fā)明提供了一種基于決策樹的屬性加權(quán)方法,首先用信息增益率標準構(gòu)建決策樹,然后根據(jù)各屬性在決策樹中測試的最小深度來計算權(quán)值。本發(fā)明同時提供了依托于該基于決策樹的屬性加權(quán)方法的多項式樸素貝葉斯文本分類方法、依托于該基于決策樹的屬性加權(quán)方法的補集樸素貝葉斯文本分類方法,以及依托于該基于決策樹的屬性加權(quán)方法的多項式與補集相結(jié)合的樸素貝葉斯文本分類方法。本發(fā)明改善了原來的樸素貝葉斯文本分類器分類精度,同時維持了原來樸素貝葉斯算法的簡潔性和時間復(fù)雜度。
【IPC分類】G06F17-30
【公開號】CN104820702
【申請?zhí)枴緾N201510237748
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請人】中國地質(zhì)大學(xué)(武漢)
【公開日】2015年8月5日
【申請日】2015年5月12日