一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法,屬于人工智能數(shù) 據(jù)挖掘分類(lèi)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類(lèi)器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類(lèi)問(wèn)題,但 是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類(lèi)性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式〈Wi,w2,…,wm>,多項(xiàng)式樸素貝葉斯(MNB),補(bǔ)集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來(lái)分類(lèi)文檔d。
[0006] 上述公式中符號(hào)C是類(lèi)標(biāo)記的集合,石是類(lèi)別c的補(bǔ)集(即除類(lèi)別c以外的其他 類(lèi)),m是單詞的數(shù)目,Wi(i= 1,2,…m)是文檔d中出現(xiàn)的第i個(gè)單詞,fi是單詞w;在文檔d中出現(xiàn)的頻率,先驗(yàn)概率p(c)和p(幻能夠分別用公式4和5進(jìn)行估計(jì),條件概率p(Wl |c) 和p(Wt |瑪分別用公式6和7來(lái)估計(jì)。
[0011] 上述公式中n是訓(xùn)練文檔的數(shù)目,s是文檔的類(lèi)別的數(shù)目,c]是第j篇文檔的類(lèi)標(biāo) 記,匕是第j篇文檔中單詞wi的頻率,并且S(?)是一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同 時(shí)為1否則為0。
[0012] 盡管這些文本分類(lèi)算法已經(jīng)被證明了較高的性能,他們的條件獨(dú)立性假設(shè)在現(xiàn)實(shí) 中很少成立。因此通過(guò)釋放它們的條件獨(dú)立性來(lái)提高文本分類(lèi)器的分類(lèi)精度是很自然的。 許多方法已經(jīng)被提出了,例如實(shí)例加權(quán)、局部學(xué)習(xí)、屬性選擇和屬性加權(quán)。但是,目前已有的 算法都是以損失模型的簡(jiǎn)潔性和時(shí)間復(fù)雜度為代價(jià)來(lái)提高樸素貝葉斯文本分類(lèi)器的性能。
[0013] 如何學(xué)習(xí)實(shí)例的權(quán)值在構(gòu)建一個(gè)實(shí)例加權(quán)的樸素貝葉斯文本分類(lèi)器中是一個(gè)關(guān) 鍵的問(wèn)題。為了學(xué)習(xí)實(shí)例的權(quán)值,出現(xiàn)了一種基于判別學(xué)習(xí)的實(shí)例加權(quán)方法。這種方法在 每一次迭代過(guò)程中,根據(jù)估測(cè)的條件概率損失有判別地給每個(gè)不同的訓(xùn)練實(shí)例賦予不同的 權(quán)值。這種實(shí)例加權(quán)的學(xué)習(xí)方法是一種判別學(xué)習(xí)方法,在學(xué)習(xí)過(guò)程中需要反復(fù)構(gòu)建分類(lèi)器, 并依據(jù)估測(cè)的條件概率損失迭代更新實(shí)例的權(quán)值,具有較高的時(shí)間復(fù)雜度,同時(shí)模型的簡(jiǎn) 潔性受損。
【發(fā)明內(nèi)容】
[0014] 為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文 本分類(lèi)方法,改善了原來(lái)樸素貝葉斯文本分類(lèi)器的分類(lèi)精度,同時(shí)維持了原來(lái)樸素貝葉斯 文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間復(fù)雜度。
[0015] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法,包括以下步驟:
[0016] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞 向量形式d= <w^w;;,. . .wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d的詞庫(kù)的大 小,即文檔d中所有不同單詞的數(shù)目;訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例;
[0017] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度:
[0018]
[0019]其中,dl,表示D中第j篇文檔的長(zhǎng)度,fm是第j篇文檔中單詞w滿(mǎn)頻率;
[0020] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值:
[0021]
[0022] 其中,Wj表示第j篇文檔的權(quán)值,dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大 值。
[0023] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素 貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
[0024]
[0025]其中,C是類(lèi)標(biāo)記的集合;c是C中的一個(gè)類(lèi)標(biāo)記;匕表示單詞wi在文檔d中出現(xiàn) 的頻率,為已知量;p(c)通過(guò)以下公式計(jì)算得到:
[0026]
[0027] 其中,n是訓(xùn)練文檔集D中的文檔數(shù)目;s是文檔的類(lèi)別的數(shù)目,C]是第j篇文檔 的類(lèi)標(biāo)記,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0028]p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
[0029]
[0030] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
[0031] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝 葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
[0032]
[0033] 其中,匕表示單詞^在文檔d中出現(xiàn)的頻率,為已知量;p疾)通過(guò)以下公式計(jì)算得 到:
[0034]
[0035] 其中,沖表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為!否則為〇 ;
[0036] P(W;|刁表示條件概率,通過(guò)以下公式計(jì)算得到:
[0037]
[0038] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
[0039] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ) 集相結(jié)合的樸素貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
[0040]
[0041] 其中,仁表示單詞W;在文檔d中出現(xiàn)的頻率,為已知量;p(c)通過(guò)以下公式計(jì)算 得到:
[0042]
[0043] 其中,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0044] 1?伊)通過(guò)以下公式計(jì)算得到:
[0045]
[0046] 其中,外',.刀表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為0 ;
[0047] p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
[0048]
[0049] 其中,&表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量; P(M) |幻表示條件概率,通過(guò)以下公式計(jì)算得到:
[0050]
[0051] 本發(fā)明基于其技術(shù)方案所具有的有益效果在于:本發(fā)明直接根據(jù)文檔長(zhǎng)度來(lái)定義 每個(gè)訓(xùn)練實(shí)例的權(quán)值,有利于增強(qiáng)利用該權(quán)值進(jìn)行文本分類(lèi)的精度;不僅可以改善現(xiàn)有樸 素貝葉斯文本分類(lèi)器的分類(lèi)性能,而且維持了現(xiàn)有樸素貝葉斯文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間 復(fù)雜度。利用依托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法、依 托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法,以及依托于基于文檔 長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ)集相結(jié)合的樸素貝葉斯文本分類(lèi)方法分別對(duì)文本進(jìn)行 分類(lèi),與現(xiàn)有的基于判別學(xué)習(xí)的實(shí)例加權(quán)方法相比,不僅具有更低的時(shí)間復(fù)雜度,同時(shí)具有 更好的分類(lèi)精度。在大量標(biāo)準(zhǔn)且廣泛使用的文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本發(fā)明提出的 方法的有效性。
【具體實(shí)施方式】
[0052] 下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0053] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法,包括以下步驟:
[0054] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞 向量形式d= <w^w;;,. . .wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d的詞庫(kù)的大 小,即文檔d中所有不同單詞的數(shù)目;訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例;
[0055] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度:
[0056]
[0057] 其中,dl,表示D中第j篇文檔的長(zhǎng)度,fm是第j篇文檔中單詞w^勺頻率;
[0058] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值:
[0059]
[0060] 其中,Wj表示第j篇文檔的權(quán)值,dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大 值。
[0061] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素 貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
[0062] '
[0063] 其中,C是類(lèi)標(biāo)記的集合;c是C中的一個(gè)類(lèi)標(biāo)記;匕表示單詞wi在文檔d中出現(xiàn) 的頻率,為已知量;P(C)通過(guò)以下公式計(jì)算得到:
[0064]
[0065] 其中,n是訓(xùn)練文檔集D中的文檔數(shù)目;s是文檔的類(lèi)別的數(shù)目,C]是第j篇文檔 的類(lèi)標(biāo)記,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
[0066] p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
[0067]
[0068] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
[0069] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝 葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):