国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法

      文檔序號(hào):9304617閱讀:534來(lái)源:國(guó)知局
      一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文本分類(lèi)方法,屬于人工智能數(shù) 據(jù)挖掘分類(lèi)技術(shù)領(lǐng)域。
      【背景技術(shù)】
      [0002] 樸素貝葉斯文本分類(lèi)器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類(lèi)問(wèn)題,但 是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類(lèi)性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式〈Wi,w2,…,wm>,多項(xiàng)式樸素貝葉斯(MNB),補(bǔ)集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來(lái)分類(lèi)文檔d。
      [0006] 上述公式中符號(hào)C是類(lèi)標(biāo)記的集合,石是類(lèi)別c的補(bǔ)集(即除類(lèi)別c以外的其他 類(lèi)),m是單詞的數(shù)目,Wi(i= 1,2,…m)是文檔d中出現(xiàn)的第i個(gè)單詞,fi是單詞w;在文檔d中出現(xiàn)的頻率,先驗(yàn)概率p(c)和p(幻能夠分別用公式4和5進(jìn)行估計(jì),條件概率p(Wl |c) 和p(Wt |瑪分別用公式6和7來(lái)估計(jì)。
      [0011] 上述公式中n是訓(xùn)練文檔的數(shù)目,s是文檔的類(lèi)別的數(shù)目,c]是第j篇文檔的類(lèi)標(biāo) 記,匕是第j篇文檔中單詞wi的頻率,并且S(?)是一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同 時(shí)為1否則為0。
      [0012] 盡管這些文本分類(lèi)算法已經(jīng)被證明了較高的性能,他們的條件獨(dú)立性假設(shè)在現(xiàn)實(shí) 中很少成立。因此通過(guò)釋放它們的條件獨(dú)立性來(lái)提高文本分類(lèi)器的分類(lèi)精度是很自然的。 許多方法已經(jīng)被提出了,例如實(shí)例加權(quán)、局部學(xué)習(xí)、屬性選擇和屬性加權(quán)。但是,目前已有的 算法都是以損失模型的簡(jiǎn)潔性和時(shí)間復(fù)雜度為代價(jià)來(lái)提高樸素貝葉斯文本分類(lèi)器的性能。
      [0013] 如何學(xué)習(xí)實(shí)例的權(quán)值在構(gòu)建一個(gè)實(shí)例加權(quán)的樸素貝葉斯文本分類(lèi)器中是一個(gè)關(guān) 鍵的問(wèn)題。為了學(xué)習(xí)實(shí)例的權(quán)值,出現(xiàn)了一種基于判別學(xué)習(xí)的實(shí)例加權(quán)方法。這種方法在 每一次迭代過(guò)程中,根據(jù)估測(cè)的條件概率損失有判別地給每個(gè)不同的訓(xùn)練實(shí)例賦予不同的 權(quán)值。這種實(shí)例加權(quán)的學(xué)習(xí)方法是一種判別學(xué)習(xí)方法,在學(xué)習(xí)過(guò)程中需要反復(fù)構(gòu)建分類(lèi)器, 并依據(jù)估測(cè)的條件概率損失迭代更新實(shí)例的權(quán)值,具有較高的時(shí)間復(fù)雜度,同時(shí)模型的簡(jiǎn) 潔性受損。

      【發(fā)明內(nèi)容】

      [0014] 為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法及文 本分類(lèi)方法,改善了原來(lái)樸素貝葉斯文本分類(lèi)器的分類(lèi)精度,同時(shí)維持了原來(lái)樸素貝葉斯 文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間復(fù)雜度。
      [0015] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法,包括以下步驟:
      [0016] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞 向量形式d= <w^w;;,. . .wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d的詞庫(kù)的大 小,即文檔d中所有不同單詞的數(shù)目;訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例;
      [0017] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度:
      [0018]
      [0019]其中,dl,表示D中第j篇文檔的長(zhǎng)度,fm是第j篇文檔中單詞w滿(mǎn)頻率;
      [0020] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值:
      [0021]
      [0022] 其中,Wj表示第j篇文檔的權(quán)值,dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大 值。
      [0023] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素 貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
      [0024]
      [0025]其中,C是類(lèi)標(biāo)記的集合;c是C中的一個(gè)類(lèi)標(biāo)記;匕表示單詞wi在文檔d中出現(xiàn) 的頻率,為已知量;p(c)通過(guò)以下公式計(jì)算得到:
      [0026]
      [0027] 其中,n是訓(xùn)練文檔集D中的文檔數(shù)目;s是文檔的類(lèi)別的數(shù)目,C]是第j篇文檔 的類(lèi)標(biāo)記,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
      [0028]p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
      [0029]
      [0030] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
      [0031] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝 葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
      [0032]
      [0033] 其中,匕表示單詞^在文檔d中出現(xiàn)的頻率,為已知量;p疾)通過(guò)以下公式計(jì)算得 到:
      [0034]
      [0035] 其中,沖表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為!否則為〇 ;
      [0036] P(W;|刁表示條件概率,通過(guò)以下公式計(jì)算得到:
      [0037]
      [0038] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
      [0039] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ) 集相結(jié)合的樸素貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
      [0040]
      [0041] 其中,仁表示單詞W;在文檔d中出現(xiàn)的頻率,為已知量;p(c)通過(guò)以下公式計(jì)算 得到:
      [0042]
      [0043] 其中,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
      [0044] 1?伊)通過(guò)以下公式計(jì)算得到:
      [0045]
      [0046] 其中,外',.刀表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為0 ;
      [0047] p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
      [0048]
      [0049] 其中,&表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量; P(M) |幻表示條件概率,通過(guò)以下公式計(jì)算得到:
      [0050]
      [0051] 本發(fā)明基于其技術(shù)方案所具有的有益效果在于:本發(fā)明直接根據(jù)文檔長(zhǎng)度來(lái)定義 每個(gè)訓(xùn)練實(shí)例的權(quán)值,有利于增強(qiáng)利用該權(quán)值進(jìn)行文本分類(lèi)的精度;不僅可以改善現(xiàn)有樸 素貝葉斯文本分類(lèi)器的分類(lèi)性能,而且維持了現(xiàn)有樸素貝葉斯文本分類(lèi)器的簡(jiǎn)潔性和時(shí)間 復(fù)雜度。利用依托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法、依 托于基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法,以及依托于基于文檔 長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式與補(bǔ)集相結(jié)合的樸素貝葉斯文本分類(lèi)方法分別對(duì)文本進(jìn)行 分類(lèi),與現(xiàn)有的基于判別學(xué)習(xí)的實(shí)例加權(quán)方法相比,不僅具有更低的時(shí)間復(fù)雜度,同時(shí)具有 更好的分類(lèi)精度。在大量標(biāo)準(zhǔn)且廣泛使用的文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本發(fā)明提出的 方法的有效性。
      【具體實(shí)施方式】
      [0052] 下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
      [0053] 本發(fā)明提供了一種基于文檔長(zhǎng)度的實(shí)例加權(quán)方法,包括以下步驟:
      [0054] (1)對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞 向量形式d= <w^w;;,. . .wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d的詞庫(kù)的大 小,即文檔d中所有不同單詞的數(shù)目;訓(xùn)練文檔集D中的一個(gè)文檔即一個(gè)實(shí)例;
      [0055] 利用以下公式計(jì)算該訓(xùn)練文檔集D中各個(gè)文檔的長(zhǎng)度:
      [0056]
      [0057] 其中,dl,表示D中第j篇文檔的長(zhǎng)度,fm是第j篇文檔中單詞w^勺頻率;
      [0058] (2)通過(guò)以下公式計(jì)算訓(xùn)練文檔集D中各個(gè)文檔的權(quán)值:
      [0059]
      [0060] 其中,Wj表示第j篇文檔的權(quán)值,dl_表示訓(xùn)練文檔集D中所有文檔長(zhǎng)度的最大 值。
      [0061] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的多項(xiàng)式樸素 貝葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
      [0062] '
      [0063] 其中,C是類(lèi)標(biāo)記的集合;c是C中的一個(gè)類(lèi)標(biāo)記;匕表示單詞wi在文檔d中出現(xiàn) 的頻率,為已知量;P(C)通過(guò)以下公式計(jì)算得到:
      [0064]
      [0065] 其中,n是訓(xùn)練文檔集D中的文檔數(shù)目;s是文檔的類(lèi)別的數(shù)目,C]是第j篇文檔 的類(lèi)標(biāo)記,S(c],c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ;
      [0066] p(Wl |c)表示條件概率,通過(guò)以下公式計(jì)算得到:
      [0067]
      [0068] 其中,匕表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞Wl的頻率,為已知量。
      [0069] 本發(fā)明同時(shí)提供了一種依托于所述基于文檔長(zhǎng)度的實(shí)例加權(quán)方法的補(bǔ)集樸素貝 葉斯文本分類(lèi)方法,通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1