專(zhuān)利名稱(chēng):基于海量網(wǎng)絡(luò)輿情信息的pl聚類(lèi)處理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)信息安全技術(shù)領(lǐng)域,具體包括對(duì)各輿情信息進(jìn)行分詞預(yù)處理、輿情信息的特征分詞選取、輿情信息的向量化和基于PL算法的聚類(lèi)。本發(fā)明可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每ー類(lèi)消費(fèi)者的消費(fèi)模式或者消費(fèi)習(xí)慣。·
ニ、
背景技術(shù):
在網(wǎng)絡(luò)和通信技術(shù)迅速發(fā)展的今天,Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫(kù)和全球范圍內(nèi)傳播信息最主要的渠道,人們?cè)絹?lái)越感受到了信息的沖擊,而文本是信息的重要載體,70%以上的網(wǎng)絡(luò)信息均以文本形式體現(xiàn)。信息內(nèi)容和格式的多樣化、復(fù)雜化,信息更新速度之快,使為管理收集到的文本信息進(jìn)行文本分類(lèi)變得越來(lái)越困難。這就需要對(duì)文本進(jìn)行聚類(lèi)處理,聚類(lèi)處理主要包括三個(gè)部分特征分詞選取、權(quán)重計(jì)算和文本聚類(lèi)。
I.特征詞提取技術(shù) 由于文本數(shù)據(jù)具有半結(jié)構(gòu)化甚至無(wú)結(jié)構(gòu)化的特點(diǎn),致使文本數(shù)據(jù)的特征向量的維數(shù)高達(dá)幾萬(wàn)甚至幾十萬(wàn)維。即使經(jīng)過(guò)初始的篩選處理,還會(huì)有很高維數(shù)的特征向量。在這些多維特征中,并不是都對(duì)文本分類(lèi)有用,反而增加了機(jī)器運(yùn)算的負(fù)擔(dān),増加計(jì)算時(shí)間。因此,在研究文本分類(lèi)過(guò)程中,特征詞提取是非常關(guān)鍵的環(huán)節(jié),具有降低向量空間維數(shù)、簡(jiǎn)化計(jì)算、防止過(guò)分?jǐn)M合以及去除噪聲等作用,特征選擇的好壞將直接影響著文本分類(lèi)的準(zhǔn)確率。特征選擇并沒(méi)有改變?cè)继卣骺臻g的性質(zhì),只是從原始特征空間選擇了一部分重要的特征,組成ー個(gè)新的低維空間。評(píng)價(jià)函數(shù)的好壞是影響特征選擇的關(guān)鍵問(wèn)題。目前比較成熟的特征選擇方法主要有文本頻率(document frequency, DF)、信息增益(informationgain, IG)、互信息(mutual information,Ml)、期望交叉熵(Expected CrossEntropy ECE)、開(kāi)方校驗(yàn)(X 2test, CHI)等下面將對(duì)DF、IG進(jìn)行簡(jiǎn)單介紹 ①、文檔頻率DF(Document Frequency DF) 文檔頻率DF是指在所有的訓(xùn)練文本中某一特征詞出現(xiàn)的文檔頻率。在使用DF時(shí)是基于如下基本假設(shè)DF值低于某個(gè)事先確定的閾值的詞條是低頻詞,它們不含有類(lèi)別信息,將這樣的詞條從原始特征空間中移除后能夠降低特征空間的維數(shù),不會(huì)對(duì)分類(lèi)器的性能造成影響。如果低頻詞恰好是噪音詞,還有可能提高分類(lèi)器的正確率。
文檔頻率DF是最簡(jiǎn)單的ー種評(píng)估函數(shù)。文檔頻率的計(jì)算復(fù)雜度較低,隨著訓(xùn)練集的增加而線(xiàn)性增加,能夠適用于大規(guī)模語(yǔ)料庫(kù)。但是在信息抽取(InformationExtraction)研究中卻通常認(rèn)為DF值低的詞條相對(duì)于DF值高的詞條具有較多的信息量,將這些詞條從特征空間中移除會(huì)降低分類(lèi)器的準(zhǔn)確率,因此,該方法通常用作輔助的特征提取方法。
②、信息增益方法IG(Information Gain :IG) 信息増益被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域,它是信息論中的ー個(gè)重要概念,表示某個(gè)特征項(xiàng)的存在與否對(duì)類(lèi)別預(yù)測(cè)的影響。在文本特征選擇中,對(duì)于詞條t和類(lèi)別C,信息增益IG通過(guò)考察C中出現(xiàn)和不出現(xiàn)t的文檔頻率來(lái)衡量t對(duì)于C的信息増益。信息増益的計(jì)算公式如下
其中。為第i類(lèi)文檔,t表示特征t不出現(xiàn),其中i = 1,2,…,m。
P(Ci)表示Ci類(lèi)文檔在語(yǔ)料集合中出現(xiàn)的概率,P(t)表示語(yǔ)料集合中特征t出現(xiàn)的概率,P (Ci It)表示特征t在Ci類(lèi)文檔集合中出現(xiàn)的條件概率;P(t)表示語(yǔ)料集合特征t不出現(xiàn)的概率,P (Ci 11)表示Ci類(lèi)中不包含特征t的文檔的概率;m為類(lèi)別個(gè)數(shù)。
特征項(xiàng)的信息増益值越大,在分類(lèi)中起的作用就越大,越重要。因此,在進(jìn)行特征選擇時(shí),應(yīng)該選取信息増益值大的若干特征項(xiàng)來(lái)構(gòu)造文檔的特征向量。
信息増益的不足之處在于它考慮了特征不出現(xiàn)的情況,雖然某個(gè)特征不出現(xiàn)也可能對(duì)判斷文本類(lèi)別有貢獻(xiàn),但實(shí)驗(yàn)證明這種貢獻(xiàn)往往遠(yuǎn)小于考慮特征不出現(xiàn)情況所帯來(lái)的干擾。特別是在類(lèi)分布和特征分布高度不平衡的情況下,在多數(shù)類(lèi)中絕大多數(shù)特征都是“不出現(xiàn)”的,此時(shí)信息増益值大的特征主要是信息増益公式中后一部分(代表特征項(xiàng)不出現(xiàn)的情況),而非前一部分(代表特征項(xiàng)出現(xiàn)的情況)大,這樣信息増益的效果就會(huì)大大降低了。
而本專(zhuān)利中所采用的改進(jìn)過(guò)后的信息増益算法,是在事先沒(méi)有分類(lèi)的情況下,將每ー個(gè)信息文檔作為ー個(gè)類(lèi)別進(jìn)行處理的,井根據(jù)特征提取過(guò)后得出的特征向量數(shù)據(jù)中包含了過(guò)多的零向量或過(guò)多的零元素,提出了修正函數(shù)f(t),目的就是要消除過(guò)多的零向量和零元素。
特征詞提取的主要用于排除文本中的一些在特征空間中被認(rèn)為是無(wú)關(guān)的或者是相關(guān)性不大的ー些特征。主要應(yīng)用如下 I)、垃圾郵件過(guò)濾 2)、數(shù)字圖像處理分析 3)、模式識(shí)別(包括人臉識(shí)別) 2、特征詞權(quán)重計(jì)算 目前常用的特征詞權(quán)重計(jì)算函數(shù)有以下幾種布爾函數(shù)、TF函數(shù)、IDF函數(shù)和TFIDF公式法。
①、布爾函數(shù) Wi ={q,其中,TF(tj是特征項(xiàng)h在文本中的出現(xiàn)次數(shù)。布爾權(quán)重是ー種最簡(jiǎn)單的賦值方法,如果特征項(xiàng)h的出現(xiàn)次數(shù)為0,則權(quán)重Wi為0,否則權(quán)重Wi為I。
②、TF權(quán)值(Term Frequency) TF (Term Frequency)是詞頻,或稱(chēng)為特征詞頻率,它是文本分類(lèi)的重要參考之一。一般來(lái)講,如果ー個(gè)特征詞在某類(lèi)文檔中經(jīng)常出現(xiàn),即其出現(xiàn)頻率高,TF很大,說(shuō)明這個(gè)特征詞對(duì)該類(lèi)文檔具有很強(qiáng)的代表性,該特征詞在該類(lèi)文檔中應(yīng)該賦予較高的權(quán)重。TF越大,其權(quán)重就越大,表示這個(gè)特征詞對(duì)文檔越重要。如“計(jì)算機(jī)”這個(gè)詞在計(jì)算機(jī)類(lèi)的文檔中出現(xiàn)的頻率顯然要高于政治類(lèi)的文檔。TF的計(jì)算公式為^i = TFUi)=特征項(xiàng)t在類(lèi)c文本中出現(xiàn)的次數(shù)。
由于TF權(quán)值僅考慮了詞頻信息,這樣會(huì)造成對(duì)高頻詞的過(guò)度依賴(lài),從而拋棄了那些帶有很大信息量的低頻詞。
③、IDF權(quán)值(Inverse Document Frequency 反文檔頻率) 反文檔頻率IDF是特征詞在文檔集分布情況的量化,以出現(xiàn)特征詞的文檔數(shù)為參數(shù),構(gòu)建特征詞的權(quán)重。反文檔頻率IDF的出發(fā)點(diǎn)是一個(gè)特征詞的文檔數(shù)越高,其包含的類(lèi)別信息就越低,就越不重要。應(yīng)用時(shí)經(jīng)常采用對(duì)數(shù)形式,其計(jì)算方法為=IDFai) = log(N/rii+L) 其中,L的取值通過(guò)實(shí)驗(yàn)來(lái)確定(通常取0. 01)。N文檔集中的總文檔數(shù),Iii為出現(xiàn)特征詞h的文檔數(shù)。
IDF算法的核心思想是,出現(xiàn)在大多數(shù)文檔中的特征詞不如只在小部分文檔中出現(xiàn)的特征詞重要,即如果一個(gè)詞在一篇文檔中出現(xiàn),同時(shí)它也出現(xiàn)在其它很多文檔中,則該詞缺乏類(lèi)別區(qū)分能力,其重要性較低。IDF算法能夠弱化ー些在大多數(shù)文檔中都出現(xiàn)的高頻特征詞的重要度,同時(shí)增強(qiáng)一些在小部分文檔中出現(xiàn)的低頻特征詞的重要度。
④、TFIDF公式 一個(gè)有效的特征詞應(yīng)既能體現(xiàn)所屬類(lèi)別的內(nèi)容,又能將該類(lèi)別同其它類(lèi)別相區(qū)分開(kāi)。所以,在實(shí)際應(yīng)用中TF與IDF通常是聯(lián)合使用的。TF與IDF的聯(lián)合公式TFIDF⑴=TF (t) XIDF(t) 本專(zhuān)利中的權(quán)重計(jì)算公式不但包含了 TFIDF公式的優(yōu)點(diǎn),還將信息增益結(jié)合了起來(lái),從多方面對(duì)信息文本的信息進(jìn)行了提取。
3、文本聚類(lèi)技術(shù) 文檔聚類(lèi)主要是依據(jù)著名的聚類(lèi)假設(shè)同類(lèi)的文檔相似度較大,而不同類(lèi)的文檔相似度較小。作為ー種無(wú)監(jiān)瞀的機(jī)器學(xué)習(xí)方法,聚類(lèi)由于不需要訓(xùn)練過(guò)程,以及不需要預(yù)先對(duì)文檔手工標(biāo)注類(lèi)別,因此具有一定的靈活性和較高的自動(dòng)化處理能力,已經(jīng)成為對(duì)文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段,為越來(lái)越多的研究人員所關(guān)注。其主要應(yīng)用如下 I)、文檔聚類(lèi)可以作為多文檔自動(dòng)文摘等自然語(yǔ)言處理應(yīng)用的預(yù)處理步驟,比較典型的例子是哥倫比亞大學(xué)開(kāi)發(fā)的多文檔文摘系統(tǒng)Newsblaster。
2)、對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類(lèi),使用戶(hù)迅速定位到所需要的信息。
3)、對(duì)用戶(hù)感興趣的文檔(如用戶(hù)瀏覽器cache中的網(wǎng)頁(yè))聚類(lèi),從而發(fā)現(xiàn)用戶(hù)的興趣模式并用于信息過(guò)濾和信息主動(dòng)推薦等服務(wù)。
4)、聚類(lèi)技術(shù)還可以用來(lái)改善文本分類(lèi)的結(jié)果,如俄亥俄州立大學(xué)的Y. C. Fang,S. Parthasarathy 和 F. Schwartz 等人的工作。
5)、數(shù)字圖書(shū)館服務(wù)。
6)、文檔集合的自動(dòng)整理。
涉及文本聚類(lèi)的主要算法有 ①、K-means 算法 k-means算法接受輸入量k ;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類(lèi)以便使得所獲得的聚類(lèi)滿(mǎn)足同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲得ー個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。其處理流程為 (I)、從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心; (2)、循環(huán)(3)到(4)直到每個(gè)聚類(lèi)不再發(fā)生變化為止; (3)、根據(jù)每個(gè)聚類(lèi)對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分; (4)、重新計(jì)算每個(gè)(有變化)聚類(lèi)的均值(中心對(duì)象); ②、層次凝聚法 創(chuàng)建ー個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合井)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類(lèi)方法相結(jié)合,如循環(huán)定位。對(duì)于給定的文件集合D= ((I1, d2,…,dn},層次凝聚法的具體過(guò)程如下 (I)、將D中的姆個(gè)文件di看成ー個(gè)具有單個(gè)成員的簇ci = {di},這些簇構(gòu)成了D 的一個(gè)聚類(lèi) C = Ic1, C2,,cn}; (2)、計(jì)算C中姆對(duì)簇(Ci, Cj)之間的相似度sin^Ci, Cj); (3)、選取具有最大相似度的簇對(duì)(Ci,Cj)將Ci和ち合并為ー個(gè)新的簇Ck =Ci U Cj,從而構(gòu)成了 D的ー個(gè)新的聚類(lèi)C = Ic1, C2,,cn_J ; (4)、重復(fù)上述步驟,直至C中剩下ー個(gè)簇為止。該過(guò)程構(gòu)造出ー棵生成樹(shù),其中包含了簇的層次信息以及所有簇內(nèi)和簇間的相似度. 在專(zhuān)利中所采用的PL算法,是將K-means與層次凝聚法相結(jié)合的結(jié)果,不但回避了 K-means要事先確定聚類(lèi)個(gè)數(shù)K的問(wèn)題,繼承了其聚類(lèi)速度快的優(yōu)點(diǎn),在聚類(lèi)準(zhǔn)確度方面還保留了層次凝聚法的優(yōu)點(diǎn)??傊?,PL算法速度更快、靈活性也更高。
三、發(fā)明內(nèi)容及實(shí)施步驟 本發(fā)明針對(duì)目前基于海量網(wǎng)絡(luò)輿情信息進(jìn)行特征提取技術(shù),并進(jìn)行聚類(lèi)的不足, 提出了一系列對(duì)中間過(guò)程的改進(jìn)算法。在網(wǎng)絡(luò)和通信技術(shù)迅速發(fā)展的今天,Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫(kù)和全球范圍內(nèi)傳播信息最主要的渠道,人們?cè)絹?lái)越感受到了信息的沖擊,而文本是信息的重要載體,70%以上的網(wǎng)絡(luò)信息均以文本形式體現(xiàn)。信息內(nèi)容和格式的多祥化、復(fù)雜化,信息更新速度之快,使為管理收集到的文本信息進(jìn)行文本分類(lèi)變得越來(lái)越困難。本發(fā)明將特征提取、權(quán)重計(jì)算、聚類(lèi)算法都分別進(jìn)行了改進(jìn),從而在對(duì)海量網(wǎng)絡(luò)信息進(jìn)行處理時(shí),不管是從效率還是從結(jié)果的準(zhǔn)確度來(lái)說(shuō),都得到了很大的提高。
本發(fā)明詳細(xì)技術(shù)方案如下 基于海量網(wǎng)絡(luò)輿情信息的聚類(lèi)處理,它包括如下步驟 一、對(duì)各輿情信息進(jìn)行分詞預(yù)處理,包括以下步驟 I)、利用分詞工具(中科院的ICTCLAS)對(duì)各個(gè)輿情信息分別進(jìn)行分詞I ; 2)、除去分詞里面的常用停用詞; 3)、對(duì)每個(gè)輿情信息的分詞進(jìn)行初步篩選,選取其中的名詞和動(dòng)詞(名詞和動(dòng)詞更能體現(xiàn)出輿情的信息),并對(duì)這些分詞進(jìn)行詞頻統(tǒng)計(jì),保存在Map〈K,V〉里面,其中K是分詞,而V為K所對(duì)應(yīng)的詞頻; 4)、將各輿情信息統(tǒng)計(jì)出的Map添加到VectoKMap〉里面保存’; ニ、輿情信息的特征分詞選取(目的是實(shí)現(xiàn)降維),包括以下步驟 I)、利用改進(jìn)過(guò)后的信息増益算法,計(jì)算各分詞的信息增益值,改進(jìn)后的公式如下 IG (t) = f (t) X (H (C) -H (C | T)) IG (t):表示分詞t對(duì)整個(gè)信息所產(chǎn)生的信息增益值 H(C):表示整個(gè)輿情信息的信息熵,
其中C表示類(lèi)別,
在這里我們把每個(gè)輿情信息作為ー個(gè)分類(lèi),P (Ci)表示類(lèi)別Ci (即第i個(gè)輿情信息)在整個(gè)輿情信息里面出現(xiàn)的概率。
H(C|T):表示分詞的條件熵,
其中,k為包含分詞t的類(lèi)別個(gè)數(shù),P (t)表示分詞t出現(xiàn)的概率,P (t)=包含分詞t的輿情信息個(gè)數(shù)+N P(Ci|t)表示分詞t出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率, P(Ci|t) = Ci中的分詞總數(shù)+包含有分詞t的所有類(lèi)別的分詞總數(shù),Ci是含有分詞t的類(lèi)別, P (t)表示分詞t不出現(xiàn)的概率,P (t) = I-P⑴, P(CiIt)表示分詞t不出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率, P(CiIt) = Ci中的分詞總數(shù)+不包含分詞t的所有類(lèi)別的分詞總數(shù),Ci是不包含分詞t的類(lèi)別, f (t)表示ー個(gè)修正函數(shù),f (t) = Iog2 (nt+0. 01),其中nt為包含分詞t的類(lèi)別個(gè)數(shù),函數(shù)的作用是為了避免將輿情信息轉(zhuǎn)化為向量時(shí)得到零向量,或向量中出現(xiàn)過(guò)多的零。
2)、將分詞的信息増益值進(jìn)行快速排序(從大到小),結(jié)果保存到數(shù)組IG[]里面; 3)、將排序結(jié)果的前M= 100 (M可以自己設(shè)定)個(gè)分詞作為特征分詞; 三、輿情信息的向量化,包括以下步驟 I)、利用改進(jìn)過(guò)后的權(quán)重公式對(duì)M個(gè)特征分詞分別在每個(gè)輿情信息中進(jìn)行權(quán)重計(jì)算,改進(jìn)后的公式如下 Wij = TFijX IDF*X IG (i) Wij表示第i個(gè)特征分詞在第j個(gè)輿情信息中的權(quán)重 TFij表示第i個(gè)特征分詞在第j個(gè)輿情信息出現(xiàn)的次數(shù),即詞頻 IDF*表示改進(jìn)后的反文檔頻率,IDF* = Iog2 (N/n^k),其中Iii指所有輿情信息中出現(xiàn)過(guò)第i個(gè)特征分詞的信息個(gè)數(shù),k是ー個(gè)修正常數(shù),這里取值為k = 0. 01,目的是為了防止第i個(gè)特征分詞在每個(gè)信息中都出現(xiàn)過(guò),從而導(dǎo)致反文檔頻率出現(xiàn)0的現(xiàn)象 IG(i)表示第i個(gè)特征分詞的信息增益值 2)、得到第j個(gè)輿情信息通過(guò)特征分詞所對(duì)應(yīng)的向量 Vectorj = (Wlj, W2j, Wmj); 3)、向量歸ー化處理,Vectorj = (W1/, W2/, ,Wm/),其中,
四、在平面劃分方法與層次凝聚方法基礎(chǔ)上提出了新的聚類(lèi)方法(PL算法),PL算法結(jié)合了兩者的優(yōu)點(diǎn),具體實(shí)現(xiàn)步驟如下 對(duì)于給定的向量集合V = IVector1, Vector2, ......, VectorJ ,其中 Vectori 是第
i個(gè)輿情信息所對(duì)應(yīng)的特征向量。
I)、將V中的姆個(gè)特征向量Vectori作為具有ー個(gè)成員的簇Ci = {VectorJ ; 2)、任意選取其中ー個(gè)簇Ci作為聚類(lèi)的起始點(diǎn),給定ー個(gè)初始閾值d(d = 0. 7); 3)、在其余未聚類(lèi)的向量中,找到
,將Vectorj歸入Ci形成一個(gè)新的簇; Ci = Ci U Vectorj,計(jì)算新的閾值 d 4)、重復(fù)步驟3),直至與Ci*距離最近的向量到Ci*的距離超過(guò)閾值d,此時(shí)認(rèn)為已經(jīng)聚完ー類(lèi); 5)、選擇ー個(gè)未聚類(lèi)的單個(gè)成員簇,重復(fù)步驟3)和4),開(kāi)始新的一輪聚類(lèi),直至所有的單個(gè)成員簇Ci都參與了聚類(lèi);
表示這兩向量之間的歐幾里德距離,則dist(Ffec叫,ルCto0)=[乙( -凡)2]1/2 ; 若簇Ci與Vectorj合并,則產(chǎn)生新的簇中心ぐ,Ci*為簇Ci中心所對(duì)應(yīng)的向量,
若 Ci 中包含了 K 個(gè)向量,即「ectoな,Fectoり2,,其中 I く= i1; i2,,ik く= N,則
,而新的閾值
四
圖I :基于海量網(wǎng)絡(luò)輿情信息特征向量產(chǎn)生方法的流程圖; 圖2 PL聚類(lèi)方法的流程圖。
權(quán)利要求
1.基于海量網(wǎng)絡(luò)輿情信息的聚類(lèi)處理,它包括如下步驟 一、對(duì)各輿情信息進(jìn)行分詞預(yù)處理,包括以下步驟 1)、利用分詞工具(中科院的ICTCLAS)對(duì)各個(gè)輿情信息分別進(jìn)行分詞; 2)、除去分詞里面的常用停用詞; 3)、對(duì)每個(gè)輿情信息的分詞進(jìn)行初步篩選,選取其中的名詞和動(dòng)詞(名詞和動(dòng)詞更能體現(xiàn)出輿情的信息),并對(duì)這些分詞進(jìn)行詞頻統(tǒng)計(jì),保存在Map〈K,V〉里面,其中K是分詞,而V為K所對(duì)應(yīng)的詞頻; 4)、將各輿情信息統(tǒng)計(jì)出的Map添加到VectoKMap〉里面保存; 二、輿情信息的特征分詞選取(目的是實(shí)現(xiàn)降維),包括以下步驟 1)、利用改進(jìn)過(guò)后的信息增益算法,計(jì)算各分詞的信息增益值,改進(jìn)后的公式如下IG (t) = f (t) X (H(C) -H(C|T)) IG (t):表示分詞t對(duì)整個(gè)信息所產(chǎn)生的信息增益值 H(C):表示整個(gè)輿情信息的信息熵,
其中C表示類(lèi)別,在這 里我們把每個(gè)輿情信息作為一個(gè)分類(lèi),P (Ci)表示類(lèi)別Ci (即第i個(gè)輿情信息)在整個(gè)輿情信息里面出現(xiàn)的概率。
N為輿情信息總的個(gè)數(shù) H(C|T):表示分詞的條件熵,
其中,k為包含分詞t的類(lèi)別個(gè)數(shù),p(t)表示分詞t出現(xiàn)的概率,P(t)=包含分詞t的輿情信息個(gè)數(shù)+N P(CiIt)表示分詞t出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率, P(Ci|t) = Ci中的分詞總數(shù)+包含有分詞t的所有類(lèi)別的分詞總數(shù),Ci是含有分詞t的類(lèi)別, P(t)表示分詞t不出現(xiàn)的概率,P ( ) = I-P (t), P(cjt)表示分詞t不出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率, P(cjt) = Ci中的分詞總數(shù)+不包含分詞t的所有類(lèi)別的分詞總數(shù),Ci是不包含分詞t的類(lèi)別, f (t)表示一個(gè)修正函數(shù),f (t) = Iog2 (nt+0. 01),其中nt為包含分詞t的類(lèi)別個(gè)數(shù),函數(shù)的作用是為了避免將輿情信息轉(zhuǎn)化為向量時(shí)得到零向量,或向量中出現(xiàn)過(guò)多的零。
2)、將分詞的信息增益值進(jìn)行快速排序(從大到小),結(jié)果保存到數(shù)組IG[]里面; 3)、將排序結(jié)果的前M=100 (M可以自己設(shè)定)個(gè)分詞作為特征分詞; 三、輿情信息的向量化,包括以下步驟 I)、利用改進(jìn)過(guò)后的權(quán)重公式對(duì)M個(gè)特征分詞分別在每個(gè)輿情信息中進(jìn)行權(quán)重計(jì)算,改進(jìn)后的公式如下 Wij = TFij. X IDF*X IG (i) Wij表示第i個(gè)特征分詞在第j個(gè)輿情信息中的權(quán)重TFij表示第i個(gè)特征分詞在第j個(gè)輿情信息出現(xiàn)的次數(shù),即詞頻IDF*表示改進(jìn)后的反文檔頻率,IDF* = log2(N/ni+k),其中Iii指所有輿情信息中出現(xiàn)過(guò)第i個(gè)特征分詞的信息個(gè)數(shù),k是一個(gè)修正常數(shù),這里取值為k = O. 01,目的是為了防止第i個(gè)特征分詞在每個(gè)信息中都出現(xiàn)過(guò),從而導(dǎo)致反文檔頻率出現(xiàn)O的現(xiàn)象IG (i)表示第i個(gè)特征分詞的信息增益值·2)、得到第j個(gè)輿情信息通過(guò)特征分詞所對(duì)應(yīng)的向量Vectorj= (Wlj, W2j, ···, Wmj); ·3)、向量歸一化處理,Vectorj= (W1/, W2/,…,Wm/),其中,< =% +(Σ ”的; 四、在平面劃分方法與層次凝聚方法基礎(chǔ)上提出了新的聚類(lèi)方法(PL算法),PL算法結(jié)合了兩者的優(yōu)點(diǎn),具體實(shí)現(xiàn)步驟如下對(duì)于給定的向量集合V= (Vector1, Vector2, ......, VectorJ ,其中Vectori是第i個(gè)輿情信息所對(duì)應(yīng)的特征向量。
·1)、將V中的每個(gè)特征向量Vectori作為具有一個(gè)成員的簇
;·2)、任意選取其中一個(gè)簇Ci作為聚類(lèi)的起始點(diǎn),給定一個(gè)初始閾值d(d= O. 7); ·3)、在其余未聚類(lèi)的向量中,找到dist( C*,Vector- ) <d,將Vectorj歸入Ci形成一個(gè)新的簇; Ci = Ci U Vector」,計(jì)算新的閾值d ·4)、重復(fù)步驟3),直至與Ci*距離最近的向量到Ci*的距離超過(guò)閾值d,此時(shí)認(rèn)為已經(jīng)聚完一類(lèi); ·5)、選擇一個(gè)未聚類(lèi)的單個(gè)成員簇,重復(fù)步驟3)和4),開(kāi)始新的一輪聚類(lèi),直至所有的單個(gè)成員簇Ci都參與了聚類(lèi);Vectori = (X1, X2,…,xM), Vectorj. = (Y1, y2,…,yM), dist (Vectori, Vector」)表示這兩向量之間的歐幾里德距離,則dist(Fectodecto^) = £( - JA)2f2 ; 若簇Ci與Vectoi^合并,則產(chǎn)生新的簇中心Ci' Ci*為簇Ci中心所對(duì)應(yīng)的向量,若Ci中包含了 K個(gè)向量,
其中 I < = i1; i2,…,ik < = N,貝IJ C* = YjVectorij^k,而新的閾值
全文摘要
基于海量網(wǎng)絡(luò)輿情信息的PL聚類(lèi)處理方法,包括對(duì)各輿情信息進(jìn)行分詞預(yù)處理、輿情信息的特征分詞選取、輿情信息的向量化和基于PL算法的聚類(lèi)。其實(shí)質(zhì)是用分詞工具對(duì)文本進(jìn)行分詞,通過(guò)改進(jìn)的信息增益算法進(jìn)行特征分詞選取,對(duì)特征分詞向量化后用PL算法進(jìn)行聚類(lèi)的過(guò)程。本發(fā)明對(duì)海量網(wǎng)絡(luò)輿情處理時(shí)可有效過(guò)濾噪聲數(shù)據(jù),擁有較低的時(shí)間、空間復(fù)雜度。本發(fā)明可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每一類(lèi)消費(fèi)者的消費(fèi)模式或者消費(fèi)習(xí)慣。
文檔編號(hào)G06Q30/00GK101763431SQ20101002803
公開(kāi)日2010年6月30日 申請(qǐng)日期2010年1月6日 優(yōu)先權(quán)日2010年1月6日
發(fā)明者佘堃, 王馳, 崔鴻, 朱夢(mèng)龍 申請(qǐng)人:電子科技大學(xué)