一種基于信息增益率的屬性加權方法及文本分類方法
【技術領域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性加權方法及文本分類方法,屬于人工智能 數(shù)據(jù)挖掘分類技術領域。
【背景技術】
[0002] 樸素貝葉斯文本分類器因為其簡單性和高效性經常被用來處理文本分類問題,但 是它的屬性獨立假設在使它變得高效的同時在一定程度上影響了它的分類性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式< Wl,w2,…,w,,多項式樸素貝葉斯(MNB),補集樸 素貝葉斯(CNB)和兩者的結合模型(0VA)分別用公式1,2和3來分類文檔d。
【主權項】
1. 一種基于信息增益率的屬性加權方法,其特征在于包括以下步驟: (1) 對于一個已知的訓練文檔集D,訓練文檔集D中的任意一篇文檔d表示為單詞向量 形式d=〈w。w2, . . .wm>,其中&為文檔d中的第i個單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計算該訓練文檔集D中的各個屬性的信息增益率:
其中,GainRatio^Wi)表示單詞力劃分訓練文檔集D的信息增益率,Gain^Wi)表示 單詞力劃分訓練文檔集D的信息增益,Splitlnfo(D,w)表示訓練文檔集D關于單詞力的 分裂信息; Gain(D,Wi)通過以下公式計算:
其中,|DV|是訓練文檔集D中單詞力的取值為v的文檔數(shù)目,vE彳〇,〇丨;Entropy(D) 是訓練文檔集D的熵,通過以下公式計算:
其中,C是類標記的集合,c是C中的一個類標記,p(c)是訓練文檔集D中類別為c的 概率;P(c)通過以下公式計算得到:
其中,n是訓練文檔集D中的文檔數(shù)目,s是文檔的類別的數(shù)目,(^是第j篇文檔的類 標記,S(Cpc)表示一個二元函數(shù),當它的兩個參數(shù)相同時值為1否則為〇 ; Splitlnfo^Wi)通過以下公式計算得到:
(2) 通過以下公式計算各個單詞的權值: 其中1表示單詞w^勺權值。
2. -種依托于權利要求1所述基于信息增益率的屬性加權方法的多項式樸素貝葉斯 文本分類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞wi在文檔d中出現(xiàn)的頻率,為已知量;p(wi|c)表示條件概率,通過以 下公式計算得到:
其中,G表示訓練文檔集D中第j篇文檔中出現(xiàn)單詞w^勺頻率,n為訓練文檔集D中 文檔的數(shù)目,G和n均為已知量。
3. -種依托于權利要求1所述基于信息增益率的屬性加權方法的補集樸素貝葉斯文 本分類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞^在文檔d中出現(xiàn)的頻率,為已知量;p(U)通過以下公式計算得到:
其中,5(1,幻表示一個二元函數(shù),當它的兩個參數(shù)相同時值為1否則為0 ;p(Wi |句表示條件概率,通過以下公式計算得到:
4. 一種依托于權利要求1所述基于信息增益率的屬性加權方法的多項式與補集相結 合的樸素貝葉斯文本分類方法,其特征在于:通過以下公式對文檔d進行分類:
其中,fi表示單詞Wi在文檔d中出現(xiàn)的頻率,為已知量;p(c)通過以下公式計算得到:
其中,6(C^)表示一個二元函數(shù),當它的兩個參數(shù)相同時值為1否則為〇 ;p(Wi|c)表 示條件概率,通過以下公式計算得到:
其中,G表示訓練文檔集D中第j篇文檔中出現(xiàn)單詞w^勺頻率,n為訓練文檔集D中 文檔的數(shù)目,fM和n均為已知量;P(wi |刃表示條件概率,通過以下公式計算得到:
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性加權方法,首先計算每個屬性的信息增益率,然后利用信息增益率計算各個屬性的權值。本發(fā)明同時提供了依托于該基于信息增益率的屬性加權方法的多項式樸素貝葉斯文本分類方法、依托于該基于信息增益率的屬性加權方法的補集樸素貝葉斯文本分類方法,以及依托于該基于信息增益率的屬性加權方法的多項式與補集相結合的樸素貝葉斯文本分類方法。本發(fā)明改善了原來的樸素貝葉斯文本分類器分類精度,同時維持了原來樸素貝葉斯算法的簡潔性和時間復雜度。
【IPC分類】G06F17-30, G06K9-62
【公開號】CN104809233
【申請?zhí)枴緾N201510236644
【發(fā)明人】張倫干, 蔣良孝, 李超群
【申請人】中國地質大學(武漢)
【公開日】2015年7月29日
【申請日】2015年5月12日