一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法

文檔序號(hào)：9304617閱讀：534來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法，屬于人工智能數(shù) 據(jù)挖掘分類(lèi)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類(lèi)器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類(lèi)問(wèn)題，但是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類(lèi)性能。給定一篇文檔d，該文檔被表示成單詞向量的形式〈Wi,w2，…，wm>，多項(xiàng)式樸素貝葉斯（MNB)，補(bǔ)集樸素貝葉斯（CNB)和兩者的結(jié)合模型（0VA)分別用公式1，2和3來(lái)分類(lèi)文檔d。
[0006] 上述公式中符號(hào)C是類(lèi)標(biāo)記的集合，石是類(lèi)別c的補(bǔ)集（即除類(lèi)別c以外的其他類(lèi)），m是單詞的數(shù)目，Wi(i= 1，2,…m)是文檔d中出現(xiàn)的第i個(gè)單詞，fi是單詞w;在文檔d中出現(xiàn)的頻率，先驗(yàn)概率p(c)和p(幻能夠分別用公式4和5進(jìn)行估計(jì)，條件概率p(Wl |c) 和p(Wt |瑪分別用公式6和7來(lái)估計(jì)。
[0011] 上述公式中n是訓(xùn)練文檔的數(shù)目，s是文檔的類(lèi)別的數(shù)目，c]是第j篇文檔的類(lèi)標(biāo) 記，匕是第j篇文檔中單詞wi的頻率，并且S(?)是一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)為1否則為0。
[0012] 盡管這些文本分類(lèi)算法已經(jīng)被證明了較高的性能，他們的條件獨(dú)立性假設(shè)在現(xiàn)實(shí) 中很少成立。因此通過(guò)釋放它們的條件獨(dú)立性來(lái)提高文本分類(lèi)器的分類(lèi)精度是很自然的。許多方法已經(jīng)被提出了，例如實(shí)例加權(quán)、局部學(xué)習(xí)、屬性選擇和屬性加權(quán)。但是，目前已有的算法都是以損失模型的簡(jiǎn)潔性和時(shí)間復(fù)雜度為代價(jià)來(lái)提高樸素貝葉斯文本分類(lèi)器的性能。
[0013] 如何學(xué)習(xí)實(shí)例的權(quán)值在構(gòu)建一個(gè)實(shí)例加權(quán)的樸素貝葉斯文本分類(lèi)器中是一個(gè)關(guān) 鍵的問(wèn)題。為了學(xué)習(xí)實(shí)例的權(quán)值，出現(xiàn)了一種基于判別學(xué)習(xí)的實(shí)例加權(quán)方法。這種方法在每一次迭代過(guò)程中，根據(jù)估測(cè)的條件概率損失有判別地給每個(gè)不同的訓(xùn)練實(shí)例賦予不同的權(quán)值。這種實(shí)例加權(quán)的學(xué)習(xí)方法是一種判別學(xué)習(xí)方法，在學(xué)習(xí)過(guò)程中需要反復(fù)構(gòu)建分類(lèi)器，并依據(jù)估測(cè)的條件概率損失迭代更新實(shí)例的權(quán)值，具有較高的時(shí)間復(fù)雜度，同時(shí)模型的簡(jiǎn) 潔性受損。

【發(fā)明內(nèi)容】

[0014] 為了解決現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法，改善了原來(lái)樸素貝葉斯文本分類(lèi)器的分類(lèi)精度，同時(shí)維持了原來(lái)樸素貝葉斯文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間復(fù)雜度。
[0015] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法，包括以下步驟：
[0016] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D，訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量形式d= <w^w；；，. . .wm>，其中Wi為文檔d中的第i個(gè)單詞，m為文檔d的詞庫(kù)的大小，即文檔d中所有不同單詞的數(shù)目；訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例；
[0017] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度：
[0018]
[0019]其中，dl,表示D中第j篇文檔的長(zhǎng)度，fm是第j篇文檔中單詞w滿(mǎn)頻率；
[0020] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值：
[0021]
[0022] 其中，Wj表示第j篇文檔的權(quán)值，dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大值。
[0023] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法，通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi)：
[0024]
[0025]其中，C是類(lèi)標(biāo)記的集合；c是C中的一個(gè)類(lèi)標(biāo)記；匕表示單詞wi在文檔d中出現(xiàn) 的頻率，為已知量；p(c)通過(guò)以下公式計(jì)算得到：
[0026]
[0027] 其中，n是訓(xùn)練文檔集D中的文檔數(shù)目；s是文檔的類(lèi)別的數(shù)目，C]是第j篇文檔的類(lèi)標(biāo)記，S(c]，c)表示一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0028]p(Wl |c)表示條件概率，通過(guò)以下公式計(jì)算得到：
[0029]
[0030] 其中，匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率，為已知量。
[0031] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法，通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi)：
[0032]
[0033] 其中，匕表示單詞^在文檔d中出現(xiàn)的頻率，為已知量；p疾)通過(guò)以下公式計(jì)算得到：
[0034]
[0035] 其中，沖表示一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為！否則為〇 ;
[0036] P(W;|刁表示條件概率，通過(guò)以下公式計(jì)算得到：
[0037]
[0038] 其中，匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率，為已知量。
[0039] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ) 集相結(jié)合的樸素貝葉斯文本分類(lèi)方法，通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi)：
[0040]
[0041] 其中，仁表示單詞W;在文檔d中出現(xiàn)的頻率，為已知量；p(c)通過(guò)以下公式計(jì)算得到：
[0042]
[0043] 其中，S(c]，c)表示一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0044] 1?伊)通過(guò)以下公式計(jì)算得到：
[0045]
[0046] 其中，外',.刀表示一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為0 ;
[0047] p(Wl |c)表示條件概率，通過(guò)以下公式計(jì)算得到：
[0048]
[0049] 其中，&表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率，為已知量； P(M) |幻表示條件概率，通過(guò)以下公式計(jì)算得到：
[0050]
[0051] 本發(fā)明基于其技術(shù)方案所具有的有益效果在于：本發(fā)明直接根據(jù)文檔長(zhǎng)度來(lái)定義每個(gè)訓(xùn)練實(shí)例的權(quán)值，有利于增強(qiáng)利用該權(quán)值進(jìn)行文本分類(lèi)的精度；不僅可以改善現(xiàn)有樸素貝葉斯文本分類(lèi)器的分類(lèi)性能，而且維持了現(xiàn)有樸素貝葉斯文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間復(fù)雜度。利用依托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法、依托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法，以及依托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ)集相結(jié)合的樸素貝葉斯文本分類(lèi)方法分別對(duì)文本進(jìn)行分類(lèi)，與現(xiàn)有的基于判別學(xué)習(xí)的實(shí)例加權(quán)方法相比，不僅具有更低的時(shí)間復(fù)雜度，同時(shí)具有更好的分類(lèi)精度。在大量標(biāo)準(zhǔn)且廣泛使用的文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本發(fā)明提出的方法的有效性。
【具體實(shí)施方式】
[0052] 下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0053] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法，包括以下步驟：
[0054] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D，訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量形式d= <w^w；；，. . .wm>，其中Wi為文檔d中的第i個(gè)單詞，m為文檔d的詞庫(kù)的大小，即文檔d中所有不同單詞的數(shù)目；訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例；
[0055] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度：
[0056]
[0057] 其中，dl,表示D中第j篇文檔的長(zhǎng)度，fm是第j篇文檔中單詞w^勺頻率；
[0058] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值：
[0059]
[0060] 其中，Wj表示第j篇文檔的權(quán)值，dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大值。
[0061] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法，通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi)：
[0062] '
[0063] 其中，C是類(lèi)標(biāo)記的集合；c是C中的一個(gè)類(lèi)標(biāo)記；匕表示單詞wi在文檔d中出現(xiàn) 的頻率，為已知量；P(C)通過(guò)以下公式計(jì)算得到：
[0064]
[0065] 其中，n是訓(xùn)練文檔集D中的文檔數(shù)目；s是文檔的類(lèi)別的數(shù)目，C]是第j篇文檔的類(lèi)標(biāo)記，S(c]，c)表示一個(gè)二元函數(shù)，當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0066] p(Wl |c)表示條件概率，通過(guò)以下公式計(jì)算得到：
[0067]
[0068] 其中，匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率，為已知量。
[0069] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法，通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi)：

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣良孝;王沙沙;李超群;
技術(shù)所有人：中國(guó)地質(zhì)大學(xué)（武漢）;
我是此專(zhuān)利的發(fā)明人

上一篇：一種可配置的多維動(dòng)態(tài)關(guān)聯(lián)數(shù)據(jù)圖組方法
上一篇：一種菜譜生成方法及終端的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

刀具長(zhǎng)度補(bǔ)償實(shí)例相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法