專利名稱:一種基于特征項選擇與權(quán)重計算的文本分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息資源管理中的文本分類技術(shù)領(lǐng)域,具體來講,涉及一種基于特征項選擇及權(quán)重計算的文本分類方法。
背景技術(shù):
在爆炸式增長的互聯(lián)網(wǎng)信息資源中,文本信息是應(yīng)用最為廣泛的一種形式,這是因為文本是信息的載體,而多數(shù)其他的形式的信息(圖像、聲音)均可以用文本進行標(biāo)注。為了迅速有效的發(fā)現(xiàn)信息和資源,文本分類技術(shù)作為有效地組織和管理文本信息的重要手段應(yīng)運而生。文本分類是在給定分類類別的情況下,根據(jù)文本的內(nèi)容或?qū)傩詫⑵浞值揭粋€或多個預(yù)定義類別。目前,文本分類領(lǐng)域中主要采用的文本表示方式是VSM(向量空間模型),即在對語料集的文本進行分詞、去除停用詞后,經(jīng)過特征項選擇和權(quán)重計算,最終將語料集文本表示成N維的向量空間。在實際應(yīng)用中,特征項的維數(shù)常常高達萬維,而如此高維的特征項對于文本分類未必是有益和必要的。因此,為了提高文本分類的效率和精度,如何降低特征項的維數(shù)以及特征項的權(quán)重如何計算成為文本分類中首要解決的問題?,F(xiàn)有技術(shù)的文本分類方法在進行特征項的選擇和權(quán)重計算時采用TF-IDF(TermFrequency - Inverse Document Frequency,詞頻-逆文本)函數(shù)。由于該函數(shù)綜合考慮了特征項在文本中出現(xiàn)的次數(shù)和在整個訓(xùn)練文本集的分布情況,加之其計算簡單并有較高的準(zhǔn)確率,在文本分類技術(shù)領(lǐng)域得到了應(yīng)用廣泛。但在實際應(yīng)用中,傳統(tǒng)的TF-IDF函數(shù)仍存在明顯的不足DTF-IDF認為在特征項詞頻數(shù)相同情況下,若語料集中包含某個特征項的文本數(shù)越大,則IDF值越小,即權(quán)重也越小。但事實上,若特征項不是均勻的出現(xiàn)在語料集各個類的文本中而是集中地出現(xiàn)在某一類別的文本中,則說明該特征項能很好的表征該類的特征,權(quán)重應(yīng)該越大而不是越?。?) TF-IDF認為若特征項詞頻數(shù)越大,包含特征項的文本數(shù)越小,則特征項權(quán)重越大。但若特征項集中地出現(xiàn)在某一個類別的某個文本中,它就不能表征該類別的特征,特征項權(quán)重就應(yīng)該越小。可見,傳統(tǒng)TF-IDF僅考慮了特征項在文本集中的分布情況,而忽略特征項在不同文本類別之間的分布比例以及特征項在某一類別內(nèi)部的分布情況,因此在采用傳統(tǒng)TF-IDF根據(jù)特征項及權(quán)重進行文本分類時可能會出現(xiàn)誤判。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)不足,提供一種基于特征項選擇及權(quán)重計算的文本分類方法,以提高特征項選擇的準(zhǔn)確度,有效降低特征項維數(shù),從而提高文本分類的效率和精度。
4
為實現(xiàn)上述發(fā)明目的,本發(fā)明基于特征項選擇及權(quán)重計算的文本分類方法,包括以下步驟(I)、收集不同類別文本,分析整理后按類別歸入語料訓(xùn)練集;(2)、對語料訓(xùn)練集的文本進行預(yù)處理,包括分詞、去除停用詞、統(tǒng)計特征項詞頻數(shù);(3)、利用改進TF-IDF函數(shù)計算語料訓(xùn)練集各文本特征項權(quán)重,改進TF-IDF函數(shù)公式為w (tk, Tj) = tf (tk, Tj) X idf (tk) X x 2 (tk, Ci) X H (tk, Ci)其中w(tk, Tj)表示文本Tj中特征項tk的權(quán)重值;tf (tk, Tj)表示特征項tk在文本Tj中的詞頻數(shù);
權(quán)利要求
1.一種基于特征項選擇及權(quán)重計算的文本分類方法,包括以下步驟 (1)、收集不同類別文本,分析整理后按類別歸入語料訓(xùn)練集; (2)、對語料訓(xùn)練集的文本進行預(yù)處理,包括分詞、去除停用詞、統(tǒng)計特征項詞頻數(shù)等; (3)、利用改進TF-IDF函數(shù)計算各文本特征項權(quán)重,改進TF-IDF函數(shù)公式為 w (tk, Tj) =tf (tk, Tj) X idf (tk) X X 2 (tk, Ci) X H (tk, Ci) 其中 w(tk, Tj)表示文本L中特征項tk的權(quán)重值; tf (tk, Tj)表示特征項tk在文本Tj中的詞頻數(shù)MfW) = loy(— + 00i),表示特征項tk的逆文本頻率,其中N表示語料訓(xùn)練集中文本總數(shù),Nk表示訓(xùn)練集中包含特征項tk的文本數(shù); A.,(::) =,表示特征項^與類別咖的相關(guān)度,其巾A為包含特征項tk且屬于類別Ci的文本數(shù),B為包含特征項tk但不屬于類別Ci的文本數(shù),C為不包含特征項tk但屬于類別Ci的文本數(shù),D為不包含特征項tk也不屬于類別Ci的文本η數(shù),N表示語料訓(xùn)練集中文本總數(shù);例~工',)=乙/仏/,(: )//:>(廣(/0(',.)),表示特征項4在 J=I類別C1內(nèi)的分布信息熵,其中/%·,()) =表示類別C1內(nèi)特征項tk在文本Tj中的分 η布概率,tf (tk,Tj)表示特征項tk在文本Tj中的詞頻數(shù),認,= Σ扒々,G)表示類別Ci內(nèi)J=I特征項tk的總詞頻,η表示類別Ci的文本總數(shù); (4)、計算特征項類間差,評估特征項,特征項評估函數(shù)公式為 Q (tk) =Max (w (tk, Ci)) -IessMax (w (tk, Ci)) (i = I. . . S) 其中,Q(tk)表示特征項類間權(quán)重最大值與次大值之差,S表示語料訓(xùn)練集中文本 η分為S個類別,塒仏,是類別Ci中所有η篇文本中特征項tk的權(quán)重之和, J=IMax (w(tk, Ci))與IessMax(WUbCi))分別求出S個W(ICi)中的最大值和次大值; 根據(jù)實際需要設(shè)置特征項評估差值的閾值P,若Q(tk) ^ P,則將特征項tk加入特征子空間;若Q(tk) < P,將此特征項tk舍棄,完成對文本特征空間的降維操作,形成特征子空間; (5)、構(gòu)建分類器,將語料訓(xùn)練集文本表示為向量形式Tj(G)jl,qJ2, Qjk..., ω>),其中ω Jk為文本L中特征子空間包含的特征項tk的權(quán)重,m表示特征子空間包含的特征項個數(shù);對待分類文本Ti進行分詞、去除停用詞處理,統(tǒng)計特征子空間中所有特征項在文本Ti中的詞頻,采用改進TF-IDF函數(shù)計算各特征項權(quán)重,將Ti也表示成向量的形式Ti (ωη,ω i2, ω ik...,ω im); 計算 Τ (ωη,ω 2, coik···,ω ω)與所有 Tj (COjl, ω J2, Qjk-, Qjm)的夾角余弦值,當(dāng)夾角余弦值最大,說明文本Ti與文本L的相似度最大,則將文本Ti歸入該文本L所屬的類別中。
2.根據(jù)權(quán)利要求I所述的文本分類方法,其特征在于,步驟(5)中,分類器采用KNN最近鄰居算法構(gòu)建分類器,計算待分類文本Ti與測試集所有文本的相似度,按相似度從高到低將訓(xùn)練集文本排序,選取前K篇訓(xùn)練集文本,按照這K篇文本的類別對待分類文本進行歸類;其中K值根據(jù)實際情況設(shè)定。
全文摘要
本發(fā)明公開了一種基于特征項選擇及權(quán)重計算的文本分類方法,對分析整理得到的語料訓(xùn)練集,在傳統(tǒng)的TF-IDF特征項權(quán)重計算基礎(chǔ)上,根據(jù)CHI卡方統(tǒng)計考慮特征項與不同類別之間的相關(guān)度、特征項的信息熵考慮特征項類內(nèi)的平均分布情況對特征項的權(quán)重進行調(diào)整。再根據(jù)特征項類間權(quán)重差對特征項進行評估、選擇。將訓(xùn)練集文本與待分類文本分別以特征子空間中的特征項表示成向量的形式。計算待分類文本和訓(xùn)練集文本之間的相似度,來確定待分類文本的類別。由于在特征項選擇及權(quán)重計算過程中,在TF-IDF基礎(chǔ)上綜合考慮了特征項在類間類內(nèi)的分布情況,提高了特征項選擇的準(zhǔn)確度,有效降低特征項維數(shù),從而提高文本分類的效率和精度。
文檔編號G06F17/30GK102930063SQ20121051605
公開日2013年2月13日 申請日期2012年12月5日 優(yōu)先權(quán)日2012年12月5日
發(fā)明者孫健, 梁雪芬, 艾麗麗, 隆克平, 徐杰, 王曉麗, 張毅, 姚洪哲, 李乾坤, 陳小英, 陳旭 申請人:電子科技大學(xué)