本發(fā)明涉及一種數(shù)據(jù)挖掘處理技術(shù)領(lǐng)域,尤其是一種融合雙信息源的文本多標簽分類方法。
背景技術(shù):
分類問題是數(shù)據(jù)挖掘、機器學習、自然語言處理等領(lǐng)域的重要問題,然而多標簽分類問題相對于單標簽分類更貼近實際需要,例如,對新聞文本讀者情緒分類,不同的讀者在閱讀新聞文本后可能產(chǎn)生不同的情緒甚至同一個讀者也可能同時產(chǎn)生多種情緒,如“悲傷”、“憤怒”等多個標簽,文本多標簽分類有很多實際應用需求,例如:對文章的主題分類可以用于個性化推薦,對新聞、微博等文本的情緒分類有利于輿情監(jiān)控,對產(chǎn)品評論的分類有益于產(chǎn)品的銷售等,對這些文本數(shù)據(jù)分類需要利用和挖掘盡量多的信息,融合多種信息有利于提高分類器的準確率,對于文本多標簽分類,主要存在以下問題:
1、由于文本數(shù)據(jù)有成千上萬個詞匯,高維度數(shù)據(jù)處理相對復雜;
2、由于這些文本數(shù)據(jù)往往具有多種信息源,具有不同的特點和特征,從不同的角度解讀著標簽信息,例如,針對新聞的讀者情緒分類,不僅有新聞文本信息,同時還有評論信息、主題信息等,現(xiàn)有技術(shù)中對于融合多類型信息效果不明顯,分類器分類效果較差;
3、特征的提取對分類器性能提升有著至關(guān)重要的作用,現(xiàn)有技術(shù)對于有效特征的提取不準確。
4、由于真實的數(shù)據(jù)的多標簽特性往往隱含著標簽之間的特殊相關(guān)性,同時也導致了不同標簽間數(shù)據(jù)的不平衡性,某些標簽語料充足,某些標簽語料則十分少,多標簽特性對傳統(tǒng)分類器依賴性較大。
現(xiàn)有的方法,一般是針對不同信息源分別構(gòu)建分類器,通過采用加權(quán)求和和規(guī)則來融合兩個分類器的輸出,即通過求后驗概率的加權(quán)和來實現(xiàn)兩個分類器的融合,但該方法無法有效利用不同信息源、以及不同標簽之間的相關(guān)性,還有通過直接將多種信息源文本簡單的拼接在一起作為特征輸入進行分類,然而這種方法忽略了不同的信息源有不同的特征空間,過于簡單粗暴,無法將兩種文本信息源的特征、標簽相關(guān)信息進行有機融合、實現(xiàn)高效的多標簽分類。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種能夠有效融合雙信息源的文本多標簽分類方法。
本發(fā)明的技術(shù)方案為:一種融合雙信息源的文本多標簽分類方法,其特征在于,包括以下步驟:
s1)、從網(wǎng)絡(luò)爬取文本數(shù)據(jù)作為訓練文本數(shù)據(jù);
s2)、并對獲取的訓練文本數(shù)據(jù)進行預處理,踢除不需要的數(shù)據(jù),保留有用的文本,將每篇文本數(shù)據(jù)按不同信息源分成信息源一和信息源二,然后分別將n篇文本數(shù)據(jù)的信息源一存入訓練信息源一中,將信息源二存入訓練信息源二中;
s3)、采用空間向量模型將每篇文本數(shù)據(jù)的信息源一和信息源二分別采用所需的特征項及其對應的特征項權(quán)重表示,即:
rk=(t1,w1;t2,w2;...tn,wn),
tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分別表示第k篇文本數(shù)據(jù)的信息源一的第i個特征項和對應的權(quán)重,si、vi表示第k篇文本數(shù)據(jù)的信息源二的第i個特征項和對應的權(quán)重,
然后將特征項、特征項權(quán)重表示的訓練信息源一和訓練信息源二向量化得到特征矩陣x1、x2;
s4)、基于將數(shù)據(jù)映射到低維空間最小化重構(gòu)誤差保留盡可能多的信息的原理,同時結(jié)合標簽和標簽之間的相關(guān)性,構(gòu)建融合不同視角和特點與多個信息源融合的文本多標簽分類模型,即優(yōu)化如下帶約束目標函數(shù):
min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2,
其中,y為多標簽矩陣,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)是調(diào)節(jié)參數(shù),a、b、c、d、v1、v2均為線性映射過程中的參數(shù),t為轉(zhuǎn)置,i為單位矩陣,并且令c*=γc,d*=(1-γ)d;
s5)、將a、b、c、d的最優(yōu)解代入到模型中,并加入線性約束和正則項,將s3)中的目標函數(shù)等價變換成以下計算式,計算前k個最大的特征值對應的特征向量,具體為:
其中,
從而得到訓練信息源一前k個特征向量組成的矩陣w1=(w1,w2,...wk)和訓練信息源二的前j個特征向量組成的矩陣w2=(v1,v2,...vj),從而得到訓練好的雙信息源的文本多標簽分類模型;
s6)、獲取需要預測的測試文本數(shù)據(jù),并按照步驟s2、s3)進行對待預測數(shù)據(jù)進行預處理和向量化得到相應的特征矩陣,然后輸入到訓練好的雙信息源的文本多標簽分類模型,預測得到測試文本數(shù)據(jù)的分類標簽結(jié)果。
本發(fā)明的有益效果為:設(shè)計合理、計算簡單、預測準確,通過將具有不同視角和特點的兩種信息源融合在模型中,提高了分類的準確性,避免了現(xiàn)有技術(shù)中分別對數(shù)據(jù)源構(gòu)建分類器,再對多標簽分類結(jié)果進行融合,導致忽略不同信息源之間、不同標簽的相關(guān)性的問題,以及直接將信息源拼接作為特征輸入,導致忽略了不同信息源有著不同的特征空間的問題,另外,通過將模型的求解過程轉(zhuǎn)換成特征值的求解,不僅進一步簡化了計算過程,而且還進一步提高了模型訓練效率。
附圖說明
圖1為本發(fā)明的流程示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式作進一步說明:
如圖1所示,一種融合雙信息源的文本多標簽分類方法,其特征在于,包括以下步驟:
s1)、從網(wǎng)絡(luò)爬取所需要的文本數(shù)據(jù)作為訓練文本數(shù)據(jù);
s2)、并對獲取的訓練文本數(shù)據(jù)進行預處理,踢除不必要的數(shù)據(jù),保留所需文本,將每篇文本數(shù)據(jù)按不同信息源分成信息源一和信息源二,將然后分別將n篇文本數(shù)據(jù)的信息源一存入訓練信息源一中,將信息源二存入訓練信息源二中;
例如,若獲取的文本數(shù)據(jù)為新聞數(shù)據(jù),數(shù)據(jù)中既有新聞內(nèi)容也有新聞評論,其中新聞內(nèi)容和信息評論即為兩個不同的數(shù)據(jù)源,將新聞內(nèi)容劃分為信息源一,將新聞評論劃分為信息源二,然后將n篇新聞的新聞內(nèi)容存入訓練信息源一中,將n篇新聞的新聞評論存入訓練信息源二中;
s3)、采用空間向量模型將每篇文本數(shù)據(jù)的信息源一和信息源二分別采用所需的特征項及其對應的特征項權(quán)重表示,即:
rk=(t1,w1;t2,w2;...tn,wn),
tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分別表示第k篇文本數(shù)據(jù)的信息源一的第i個特征項和對應的權(quán)重,si、vi表示第k篇文本數(shù)據(jù)的信息源二的第i個特征項和對應的權(quán)重,
然后將特征項、特征項權(quán)重表示的訓練信息源一和訓練信息源二向量化得到特征矩陣x1、x2;
s4)、基于將數(shù)據(jù)映射到低維空間最小化重構(gòu)誤差保留盡可能多的信息的原理,同時結(jié)合標簽和標簽之間的相關(guān)性,構(gòu)建融合不同視角和特點的多個信息源融合的文本多標簽分類模型,即優(yōu)化如下帶約束目標函數(shù):
min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2,
其中,y為多標簽矩陣,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)為調(diào)節(jié)參數(shù),a、b、c、d、v1、v2為均為線性映射過程中的參數(shù),t為轉(zhuǎn)置,i為單位矩陣,令c*=γc,d*=(1-γ)d;
s5)、將a、b、c、d的最優(yōu)解代入到模型中,并加入線性約束和正則項,從而將s3)中的目標函數(shù)等價變換成以下計算式,計算前k個最大的特征值對應的特征向量,具體為:
其中,
從而得到訓練信息源一前k個特征向量組成的矩陣w1=(w1,w2,...wk)和訓練信息源二的前j個特征向量組成的矩陣w2=(v1,v2,...vj),從而得到訓練好的雙信息源的文本多標簽分類模型;
s6)、獲取需要預測的測試文本數(shù)據(jù),并按照步驟s2、s3)對待預測數(shù)據(jù)進行預處理和向量化得到相應的測試數(shù)據(jù)源一、測試數(shù)據(jù)源二對應的特征矩陣x1test、x2test,并根據(jù)ypredit=x1test×w1×c*+x2test×w2×d*,得到待預測文本數(shù)據(jù)的預測結(jié)果ypredit;
根據(jù)預測結(jié)果ypredit判斷待測試文本數(shù)據(jù)的類別,其中,包括8個類別,每個預測文本數(shù)據(jù)可包括多個類別,若在相應類別下的預測結(jié)果為正,則判定該預測文本屬于該相應類別,若在相應類別下的預測結(jié)果為負,則判定該預測文本不屬于該相應類別,例如:若8個類別分別記為[1、2、3、4、5、6、7、8],若一個預測文本數(shù)據(jù)的預測結(jié)果ypredit在類別1、4、5、6、7下均為正數(shù),在類別2、3、8下均為負數(shù),則該預測文本數(shù)據(jù)的類別為類別1、4、5、6、7。
進一步地,所述的權(quán)重可以是詞頻,也可以是tf-idf值;
進一步地,所述的特征項為經(jīng)過χ2統(tǒng)計量、互信息等刷選后的特征項;
進一步地,根據(jù)
進一步地,根據(jù)特征向量矩陣w1和w2,得到參數(shù)v1、v2,具體為:v1=x1w1,v2=x2w2;
進一步地,根據(jù)參數(shù)v1、v2,得到c*、d*,具體為
上述實施例和說明書中描述的只是說明本發(fā)明的原理和最佳實施例,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。