一種基于信息增益率的屬性加權方法及文本分類方法

文檔序號：8487898閱讀：278來源：國知局

一種基于信息增益率的屬性加權方法及文本分類方法
【技術領域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性加權方法及文本分類方法，屬于人工智能數(shù)據(jù)挖掘分類技術領域。
【背景技術】
[0002] 樸素貝葉斯文本分類器因為其簡單性和高效性經常被用來處理文本分類問題，但是它的屬性獨立假設在使它變得高效的同時在一定程度上影響了它的分類性能。給定一篇文檔d，該文檔被表示成單詞向量的形式< Wl，w2，…，w，，多項式樸素貝葉斯（MNB)，補集樸素貝葉斯（CNB)和兩者的結合模型（0VA)分別用公式1，2和3來分類文檔d。
【主權項】
1. 一種基于信息增益率的屬性加權方法，其特征在于包括以下步驟： (1) 對于一個已知的訓練文檔集D，訓練文檔集D中的任意一篇文檔d表示為單詞向量形式d=〈w。w2, . . .wm>，其中&為文檔d中的第i個單詞，m為文檔d中單詞的數(shù)目；利用以下公式計算該訓練文檔集D中的各個屬性的信息增益率：
其中，GainRatio^Wi)表示單詞力劃分訓練文檔集D的信息增益率，Gain^Wi)表示單詞力劃分訓練文檔集D的信息增益，Splitlnfo(D,w)表示訓練文檔集D關于單詞力的分裂信息； Gain(D,Wi)通過以下公式計算：
其中，|DV|是訓練文檔集D中單詞力的取值為v的文檔數(shù)目，vE彳〇,〇丨；Entropy(D) 是訓練文檔集D的熵，通過以下公式計算：
其中，C是類標記的集合，c是C中的一個類標記，p(c)是訓練文檔集D中類別為c的概率；P(c)通過以下公式計算得到：
其中，n是訓練文檔集D中的文檔數(shù)目，s是文檔的類別的數(shù)目，（^是第j篇文檔的類標記，S(Cpc)表示一個二元函數(shù)，當它的兩個參數(shù)相同時值為1否則為〇 ; Splitlnfo^Wi)通過以下公式計算得到：
(2) 通過以下公式計算各個單詞的權值：其中1表示單詞w^勺權值。
2. -種依托于權利要求1所述基于信息增益率的屬性加權方法的多項式樸素貝葉斯文本分類方法，其特征在于：通過以下公式對文檔d進行分類：
其中，fi表示單詞wi在文檔d中出現(xiàn)的頻率，為已知量；p(wi|c)表示條件概率，通過以下公式計算得到：
其中，G表示訓練文檔集D中第j篇文檔中出現(xiàn)單詞w^勺頻率，n為訓練文檔集D中文檔的數(shù)目，G和n均為已知量。
3. -種依托于權利要求1所述基于信息增益率的屬性加權方法的補集樸素貝葉斯文本分類方法，其特征在于：通過以下公式對文檔d進行分類：
其中，fi表示單詞^在文檔d中出現(xiàn)的頻率，為已知量；p(U)通過以下公式計算得到：
其中，5(1，幻表示一個二元函數(shù)，當它的兩個參數(shù)相同時值為1否則為0 ;p(Wi |句表示條件概率，通過以下公式計算得到：
4. 一種依托于權利要求1所述基于信息增益率的屬性加權方法的多項式與補集相結合的樸素貝葉斯文本分類方法，其特征在于：通過以下公式對文檔d進行分類：
其中，fi表示單詞Wi在文檔d中出現(xiàn)的頻率，為已知量；p(c)通過以下公式計算得到：
其中，6(C^)表示一個二元函數(shù)，當它的兩個參數(shù)相同時值為1否則為〇 ;p(Wi|c)表示條件概率，通過以下公式計算得到：
其中，G表示訓練文檔集D中第j篇文檔中出現(xiàn)單詞w^勺頻率，n為訓練文檔集D中文檔的數(shù)目，fM和n均為已知量；P(wi |刃表示條件概率，通過以下公式計算得到：
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性加權方法，首先計算每個屬性的信息增益率，然后利用信息增益率計算各個屬性的權值。本發(fā)明同時提供了依托于該基于信息增益率的屬性加權方法的多項式樸素貝葉斯文本分類方法、依托于該基于信息增益率的屬性加權方法的補集樸素貝葉斯文本分類方法，以及依托于該基于信息增益率的屬性加權方法的多項式與補集相結合的樸素貝葉斯文本分類方法。本發(fā)明改善了原來的樸素貝葉斯文本分類器分類精度，同時維持了原來樸素貝葉斯算法的簡潔性和時間復雜度。
【IPC分類】G06F17-30, G06K9-62
【公開號】CN104809233
【申請?zhí)枴緾N201510236644
【發(fā)明人】張倫干, 蔣良孝, 李超群
【申請人】中國地質大學（武漢）
【公開日】2015年7月29日
【申請日】2015年5月12日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張倫干;蔣良孝;李超群;
技術所有人：中國地質大學（武漢）;
我是此專利的發(fā)明人

上一篇：瀏覽器書簽的處理方法及終端的制作方法
上一篇：一種基于句子間情緒轉移概率的句子級情緒分類方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息增益率相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于信息增益率的屬性加權方法及文本分類方法