基于海量網(wǎng)絡(luò)輿情信息的pl聚類(lèi)處理方法

文檔序號(hào)：6597373閱讀：184來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于海量網(wǎng)絡(luò)輿情信息的pl聚類(lèi)處理方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)信息安全技術(shù)領(lǐng)域，具體包括對(duì)各輿情信息進(jìn)行分詞預(yù)處理、輿情信息的特征分詞選取、輿情信息的向量化和基于PL算法的聚類(lèi)。本發(fā)明可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái)，并且概括出每ー類(lèi)消費(fèi)者的消費(fèi)模式或者消費(fèi)習(xí)慣。·
ニ、
背景技術(shù)：
在網(wǎng)絡(luò)和通信技術(shù)迅速發(fā)展的今天，Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫(kù)和全球范圍內(nèi)傳播信息最主要的渠道，人們?cè)絹?lái)越感受到了信息的沖擊，而文本是信息的重要載體，70%以上的網(wǎng)絡(luò)信息均以文本形式體現(xiàn)。信息內(nèi)容和格式的多樣化、復(fù)雜化，信息更新速度之快，使為管理收集到的文本信息進(jìn)行文本分類(lèi)變得越來(lái)越困難。這就需要對(duì)文本進(jìn)行聚類(lèi)處理，聚類(lèi)處理主要包括三個(gè)部分特征分詞選取、權(quán)重計(jì)算和文本聚類(lèi)。
I.特征詞提取技術(shù) 由于文本數(shù)據(jù)具有半結(jié)構(gòu)化甚至無(wú)結(jié)構(gòu)化的特點(diǎn)，致使文本數(shù)據(jù)的特征向量的維數(shù)高達(dá)幾萬(wàn)甚至幾十萬(wàn)維。即使經(jīng)過(guò)初始的篩選處理，還會(huì)有很高維數(shù)的特征向量。在這些多維特征中，并不是都對(duì)文本分類(lèi)有用，反而增加了機(jī)器運(yùn)算的負(fù)擔(dān)，増加計(jì)算時(shí)間。因此，在研究文本分類(lèi)過(guò)程中，特征詞提取是非常關(guān)鍵的環(huán)節(jié)，具有降低向量空間維數(shù)、簡(jiǎn)化計(jì)算、防止過(guò)分?jǐn)M合以及去除噪聲等作用，特征選擇的好壞將直接影響著文本分類(lèi)的準(zhǔn)確率。特征選擇并沒(méi)有改變?cè)继卣骺臻g的性質(zhì)，只是從原始特征空間選擇了一部分重要的特征，組成ー個(gè)新的低維空間。評(píng)價(jià)函數(shù)的好壞是影響特征選擇的關(guān)鍵問(wèn)題。目前比較成熟的特征選擇方法主要有文本頻率(document frequency, DF)、信息增益(informationgain, IG)、互信息(mutual information,Ml)、期望交叉熵(Expected CrossEntropy ECE)、開(kāi)方校驗(yàn)(X 2test, CHI)等下面將對(duì)DF、IG進(jìn)行簡(jiǎn)單介紹 ①、文檔頻率DF(Document Frequency DF) 文檔頻率DF是指在所有的訓(xùn)練文本中某一特征詞出現(xiàn)的文檔頻率。在使用DF時(shí)是基于如下基本假設(shè)DF值低于某個(gè)事先確定的閾值的詞條是低頻詞，它們不含有類(lèi)別信息，將這樣的詞條從原始特征空間中移除后能夠降低特征空間的維數(shù)，不會(huì)對(duì)分類(lèi)器的性能造成影響。如果低頻詞恰好是噪音詞，還有可能提高分類(lèi)器的正確率。
文檔頻率DF是最簡(jiǎn)單的ー種評(píng)估函數(shù)。文檔頻率的計(jì)算復(fù)雜度較低，隨著訓(xùn)練集的增加而線(xiàn)性增加，能夠適用于大規(guī)模語(yǔ)料庫(kù)。但是在信息抽取(InformationExtraction)研究中卻通常認(rèn)為DF值低的詞條相對(duì)于DF值高的詞條具有較多的信息量，將這些詞條從特征空間中移除會(huì)降低分類(lèi)器的準(zhǔn)確率，因此，該方法通常用作輔助的特征提取方法。
②、信息增益方法IG(Information Gain :IG) 信息増益被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域，它是信息論中的ー個(gè)重要概念，表示某個(gè)特征項(xiàng)的存在與否對(duì)類(lèi)別預(yù)測(cè)的影響。在文本特征選擇中，對(duì)于詞條t和類(lèi)別C，信息增益IG通過(guò)考察C中出現(xiàn)和不出現(xiàn)t的文檔頻率來(lái)衡量t對(duì)于C的信息増益。信息増益的計(jì)算公式如下
其中。為第i類(lèi)文檔，t表示特征t不出現(xiàn)，其中i = 1，2，…，m。
P(Ci)表示Ci類(lèi)文檔在語(yǔ)料集合中出現(xiàn)的概率，P(t)表示語(yǔ)料集合中特征t出現(xiàn)的概率，P (Ci It)表示特征t在Ci類(lèi)文檔集合中出現(xiàn)的條件概率；P(t)表示語(yǔ)料集合特征t不出現(xiàn)的概率，P (Ci 11)表示Ci類(lèi)中不包含特征t的文檔的概率;m為類(lèi)別個(gè)數(shù)。
特征項(xiàng)的信息増益值越大，在分類(lèi)中起的作用就越大，越重要。因此，在進(jìn)行特征選擇時(shí)，應(yīng)該選取信息増益值大的若干特征項(xiàng)來(lái)構(gòu)造文檔的特征向量。
信息増益的不足之處在于它考慮了特征不出現(xiàn)的情況，雖然某個(gè)特征不出現(xiàn)也可能對(duì)判斷文本類(lèi)別有貢獻(xiàn)，但實(shí)驗(yàn)證明這種貢獻(xiàn)往往遠(yuǎn)小于考慮特征不出現(xiàn)情況所帯來(lái)的干擾。特別是在類(lèi)分布和特征分布高度不平衡的情況下，在多數(shù)類(lèi)中絕大多數(shù)特征都是“不出現(xiàn)”的，此時(shí)信息増益值大的特征主要是信息増益公式中后一部分(代表特征項(xiàng)不出現(xiàn)的情況)，而非前一部分(代表特征項(xiàng)出現(xiàn)的情況)大，這樣信息増益的效果就會(huì)大大降低了。
而本專(zhuān)利中所采用的改進(jìn)過(guò)后的信息増益算法，是在事先沒(méi)有分類(lèi)的情況下，將每ー個(gè)信息文檔作為ー個(gè)類(lèi)別進(jìn)行處理的，井根據(jù)特征提取過(guò)后得出的特征向量數(shù)據(jù)中包含了過(guò)多的零向量或過(guò)多的零元素，提出了修正函數(shù)f(t)，目的就是要消除過(guò)多的零向量和零元素。
特征詞提取的主要用于排除文本中的一些在特征空間中被認(rèn)為是無(wú)關(guān)的或者是相關(guān)性不大的ー些特征。主要應(yīng)用如下 I)、垃圾郵件過(guò)濾 2)、數(shù)字圖像處理分析 3)、模式識(shí)別(包括人臉識(shí)別) 2、特征詞權(quán)重計(jì)算目前常用的特征詞權(quán)重計(jì)算函數(shù)有以下幾種布爾函數(shù)、TF函數(shù)、IDF函數(shù)和TFIDF公式法。
①、布爾函數(shù) Wi ={q，其中，TF(tj是特征項(xiàng)h在文本中的出現(xiàn)次數(shù)。布爾權(quán)重是ー種最簡(jiǎn)單的賦值方法，如果特征項(xiàng)h的出現(xiàn)次數(shù)為0，則權(quán)重Wi為0，否則權(quán)重Wi為I。
②、TF權(quán)值(Term Frequency) TF (Term Frequency)是詞頻,或稱(chēng)為特征詞頻率,它是文本分類(lèi)的重要參考之一。一般來(lái)講，如果ー個(gè)特征詞在某類(lèi)文檔中經(jīng)常出現(xiàn)，即其出現(xiàn)頻率高，TF很大，說(shuō)明這個(gè)特征詞對(duì)該類(lèi)文檔具有很強(qiáng)的代表性，該特征詞在該類(lèi)文檔中應(yīng)該賦予較高的權(quán)重。TF越大，其權(quán)重就越大，表示這個(gè)特征詞對(duì)文檔越重要。如“計(jì)算機(jī)”這個(gè)詞在計(jì)算機(jī)類(lèi)的文檔中出現(xiàn)的頻率顯然要高于政治類(lèi)的文檔。TF的計(jì)算公式為^i = TFUi)=特征項(xiàng)t在類(lèi)c文本中出現(xiàn)的次數(shù)。
由于TF權(quán)值僅考慮了詞頻信息，這樣會(huì)造成對(duì)高頻詞的過(guò)度依賴(lài)，從而拋棄了那些帶有很大信息量的低頻詞。
③、IDF權(quán)值(Inverse Document Frequency 反文檔頻率) 反文檔頻率IDF是特征詞在文檔集分布情況的量化，以出現(xiàn)特征詞的文檔數(shù)為參數(shù)，構(gòu)建特征詞的權(quán)重。反文檔頻率IDF的出發(fā)點(diǎn)是一個(gè)特征詞的文檔數(shù)越高，其包含的類(lèi)別信息就越低，就越不重要。應(yīng)用時(shí)經(jīng)常采用對(duì)數(shù)形式，其計(jì)算方法為=IDFai) = log(N/rii+L) 其中，L的取值通過(guò)實(shí)驗(yàn)來(lái)確定(通常取0. 01)。N文檔集中的總文檔數(shù)，Iii為出現(xiàn)特征詞h的文檔數(shù)。
IDF算法的核心思想是，出現(xiàn)在大多數(shù)文檔中的特征詞不如只在小部分文檔中出現(xiàn)的特征詞重要，即如果一個(gè)詞在一篇文檔中出現(xiàn)，同時(shí)它也出現(xiàn)在其它很多文檔中，則該詞缺乏類(lèi)別區(qū)分能力，其重要性較低。IDF算法能夠弱化ー些在大多數(shù)文檔中都出現(xiàn)的高頻特征詞的重要度，同時(shí)增強(qiáng)一些在小部分文檔中出現(xiàn)的低頻特征詞的重要度。
④、TFIDF公式一個(gè)有效的特征詞應(yīng)既能體現(xiàn)所屬類(lèi)別的內(nèi)容，又能將該類(lèi)別同其它類(lèi)別相區(qū)分開(kāi)。所以，在實(shí)際應(yīng)用中TF與IDF通常是聯(lián)合使用的。TF與IDF的聯(lián)合公式TFIDF⑴=TF (t) XIDF(t) 本專(zhuān)利中的權(quán)重計(jì)算公式不但包含了 TFIDF公式的優(yōu)點(diǎn)，還將信息增益結(jié)合了起來(lái)，從多方面對(duì)信息文本的信息進(jìn)行了提取。
3、文本聚類(lèi)技術(shù) 文檔聚類(lèi)主要是依據(jù)著名的聚類(lèi)假設(shè)同類(lèi)的文檔相似度較大，而不同類(lèi)的文檔相似度較小。作為ー種無(wú)監(jiān)瞀的機(jī)器學(xué)習(xí)方法，聚類(lèi)由于不需要訓(xùn)練過(guò)程，以及不需要預(yù)先對(duì)文檔手工標(biāo)注類(lèi)別，因此具有一定的靈活性和較高的自動(dòng)化處理能力，已經(jīng)成為對(duì)文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段，為越來(lái)越多的研究人員所關(guān)注。其主要應(yīng)用如下 I)、文檔聚類(lèi)可以作為多文檔自動(dòng)文摘等自然語(yǔ)言處理應(yīng)用的預(yù)處理步驟，比較典型的例子是哥倫比亞大學(xué)開(kāi)發(fā)的多文檔文摘系統(tǒng)Newsblaster。
2)、對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類(lèi)，使用戶(hù)迅速定位到所需要的信息。
3)、對(duì)用戶(hù)感興趣的文檔(如用戶(hù)瀏覽器cache中的網(wǎng)頁(yè))聚類(lèi)，從而發(fā)現(xiàn)用戶(hù)的興趣模式并用于信息過(guò)濾和信息主動(dòng)推薦等服務(wù)。
4)、聚類(lèi)技術(shù)還可以用來(lái)改善文本分類(lèi)的結(jié)果，如俄亥俄州立大學(xué)的Y. C. Fang,S. Parthasarathy 和 F. Schwartz 等人的工作。
5)、數(shù)字圖書(shū)館服務(wù)。
6)、文檔集合的自動(dòng)整理。
涉及文本聚類(lèi)的主要算法有 ①、K-means 算法 k-means算法接受輸入量k ;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類(lèi)以便使得所獲得的聚類(lèi)滿(mǎn)足同一聚類(lèi)中的對(duì)象相似度較高；而不同聚類(lèi)中的對(duì)象相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲得ー個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。其處理流程為 (I)、從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心； (2)、循環(huán)(3)到(4)直到每個(gè)聚類(lèi)不再發(fā)生變化為止； (3)、根據(jù)每個(gè)聚類(lèi)對(duì)象的均值(中心對(duì)象)，計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離；并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分； (4)、重新計(jì)算每個(gè)(有變化)聚類(lèi)的均值(中心對(duì)象)； ②、層次凝聚法創(chuàng)建ー個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合井)兩種操作方式。為彌補(bǔ)分解與合并的不足，層次合并經(jīng)常要與其它聚類(lèi)方法相結(jié)合，如循環(huán)定位。對(duì)于給定的文件集合D= ((I1, d2,…，dn}，層次凝聚法的具體過(guò)程如下 (I)、將D中的姆個(gè)文件di看成ー個(gè)具有單個(gè)成員的簇ci = {di},這些簇構(gòu)成了D 的一個(gè)聚類(lèi) C = Ic1, C2,，cn}； (2)、計(jì)算C中姆對(duì)簇(Ci, Cj)之間的相似度sin^Ci, Cj)； (3)、選取具有最大相似度的簇對(duì)(Ci，Cj)將Ci和ち合并為ー個(gè)新的簇Ck =Ci U Cj,從而構(gòu)成了 D的ー個(gè)新的聚類(lèi)C = Ic1, C2,，cn_J ； (4)、重復(fù)上述步驟，直至C中剩下ー個(gè)簇為止。該過(guò)程構(gòu)造出ー棵生成樹(shù)，其中包含了簇的層次信息以及所有簇內(nèi)和簇間的相似度. 在專(zhuān)利中所采用的PL算法，是將K-means與層次凝聚法相結(jié)合的結(jié)果，不但回避了 K-means要事先確定聚類(lèi)個(gè)數(shù)K的問(wèn)題，繼承了其聚類(lèi)速度快的優(yōu)點(diǎn)，在聚類(lèi)準(zhǔn)確度方面還保留了層次凝聚法的優(yōu)點(diǎn)?？傊?，PL算法速度更快、靈活性也更高。
三、發(fā)明內(nèi)容及實(shí)施步驟本發(fā)明針對(duì)目前基于海量網(wǎng)絡(luò)輿情信息進(jìn)行特征提取技術(shù)，并進(jìn)行聚類(lèi)的不足，提出了一系列對(duì)中間過(guò)程的改進(jìn)算法。在網(wǎng)絡(luò)和通信技術(shù)迅速發(fā)展的今天，Internet已經(jīng)發(fā)展為當(dāng)今世界上最大的信息庫(kù)和全球范圍內(nèi)傳播信息最主要的渠道，人們?cè)絹?lái)越感受到了信息的沖擊，而文本是信息的重要載體，70%以上的網(wǎng)絡(luò)信息均以文本形式體現(xiàn)。信息內(nèi)容和格式的多祥化、復(fù)雜化，信息更新速度之快，使為管理收集到的文本信息進(jìn)行文本分類(lèi)變得越來(lái)越困難。本發(fā)明將特征提取、權(quán)重計(jì)算、聚類(lèi)算法都分別進(jìn)行了改進(jìn)，從而在對(duì)海量網(wǎng)絡(luò)信息進(jìn)行處理時(shí)，不管是從效率還是從結(jié)果的準(zhǔn)確度來(lái)說(shuō)，都得到了很大的提高。
本發(fā)明詳細(xì)技術(shù)方案如下基于海量網(wǎng)絡(luò)輿情信息的聚類(lèi)處理，它包括如下步驟一、對(duì)各輿情信息進(jìn)行分詞預(yù)處理，包括以下步驟 I)、利用分詞工具(中科院的ICTCLAS)對(duì)各個(gè)輿情信息分別進(jìn)行分詞I ; 2)、除去分詞里面的常用停用詞； 3)、對(duì)每個(gè)輿情信息的分詞進(jìn)行初步篩選，選取其中的名詞和動(dòng)詞(名詞和動(dòng)詞更能體現(xiàn)出輿情的信息)，并對(duì)這些分詞進(jìn)行詞頻統(tǒng)計(jì)，保存在Map〈K，V〉里面，其中K是分詞，而V為K所對(duì)應(yīng)的詞頻； 4)、將各輿情信息統(tǒng)計(jì)出的Map添加到VectoKMap〉里面保存’；ニ、輿情信息的特征分詞選取(目的是實(shí)現(xiàn)降維)，包括以下步驟 I)、利用改進(jìn)過(guò)后的信息増益算法，計(jì)算各分詞的信息增益值，改進(jìn)后的公式如下 IG (t) = f (t) X (H (C) -H (C | T)) IG (t):表示分詞t對(duì)整個(gè)信息所產(chǎn)生的信息增益值 H(C):表示整個(gè)輿情信息的信息熵，

其中C表示類(lèi)別，
在這里我們把每個(gè)輿情信息作為ー個(gè)分類(lèi)，P (Ci)表示類(lèi)別Ci (即第i個(gè)輿情信息)在整個(gè)輿情信息里面出現(xiàn)的概率。

H(C|T):表示分詞的條件熵，
其中，k為包含分詞t的類(lèi)別個(gè)數(shù)，P (t)表示分詞t出現(xiàn)的概率，P (t)=包含分詞t的輿情信息個(gè)數(shù)+N P(Ci|t)表示分詞t出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率， P(Ci|t) = Ci中的分詞總數(shù)+包含有分詞t的所有類(lèi)別的分詞總數(shù)，Ci是含有分詞t的類(lèi)別， P (t)表示分詞t不出現(xiàn)的概率，P (t) = I-P⑴， P(CiIt)表示分詞t不出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率， P(CiIt) = Ci中的分詞總數(shù)+不包含分詞t的所有類(lèi)別的分詞總數(shù)，Ci是不包含分詞t的類(lèi)別， f (t)表示ー個(gè)修正函數(shù)，f (t) = Iog2 (nt+0. 01),其中nt為包含分詞t的類(lèi)別個(gè)數(shù)，函數(shù)的作用是為了避免將輿情信息轉(zhuǎn)化為向量時(shí)得到零向量，或向量中出現(xiàn)過(guò)多的零。
2)、將分詞的信息増益值進(jìn)行快速排序(從大到小)，結(jié)果保存到數(shù)組IG[]里面； 3)、將排序結(jié)果的前M= 100 (M可以自己設(shè)定)個(gè)分詞作為特征分詞；三、輿情信息的向量化，包括以下步驟 I)、利用改進(jìn)過(guò)后的權(quán)重公式對(duì)M個(gè)特征分詞分別在每個(gè)輿情信息中進(jìn)行權(quán)重計(jì)算，改進(jìn)后的公式如下 Wij = TFijX IDF*X IG (i) Wij表示第i個(gè)特征分詞在第j個(gè)輿情信息中的權(quán)重 TFij表示第i個(gè)特征分詞在第j個(gè)輿情信息出現(xiàn)的次數(shù)，即詞頻 IDF*表示改進(jìn)后的反文檔頻率，IDF* = Iog2 (N/n^k)，其中Iii指所有輿情信息中出現(xiàn)過(guò)第i個(gè)特征分詞的信息個(gè)數(shù)，k是ー個(gè)修正常數(shù)，這里取值為k = 0. 01，目的是為了防止第i個(gè)特征分詞在每個(gè)信息中都出現(xiàn)過(guò)，從而導(dǎo)致反文檔頻率出現(xiàn)0的現(xiàn)象 IG(i)表示第i個(gè)特征分詞的信息增益值 2)、得到第j個(gè)輿情信息通過(guò)特征分詞所對(duì)應(yīng)的向量 Vectorj = (Wlj, W2j, Wmj)； 3)、向量歸ー化處理，Vectorj = (W1/, W2/, ，Wm/)，其中，
四、在平面劃分方法與層次凝聚方法基礎(chǔ)上提出了新的聚類(lèi)方法(PL算法)，PL算法結(jié)合了兩者的優(yōu)點(diǎn)，具體實(shí)現(xiàn)步驟如下對(duì)于給定的向量集合V = IVector1, Vector2, ......, VectorJ ,其中 Vectori 是第
i個(gè)輿情信息所對(duì)應(yīng)的特征向量。
I)、將V中的姆個(gè)特征向量Vectori作為具有ー個(gè)成員的簇Ci = {VectorJ ； 2)、任意選取其中ー個(gè)簇Ci作為聚類(lèi)的起始點(diǎn)，給定ー個(gè)初始閾值d(d = 0. 7)； 3)、在其余未聚類(lèi)的向量中，找到

，將Vectorj歸入Ci形成一個(gè)新的簇； Ci = Ci U Vectorj,計(jì)算新的閾值 d 4)、重復(fù)步驟3)，直至與Ci*距離最近的向量到Ci*的距離超過(guò)閾值d，此時(shí)認(rèn)為已經(jīng)聚完ー類(lèi)； 5)、選擇ー個(gè)未聚類(lèi)的單個(gè)成員簇，重復(fù)步驟3)和4)，開(kāi)始新的一輪聚類(lèi)，直至所有的單個(gè)成員簇Ci都參與了聚類(lèi)；

表示這兩向量之間的歐幾里德距離，則dist(Ffec叫,ルCto0)=[乙( -凡)2]1/2 ；若簇Ci與Vectorj合并，則產(chǎn)生新的簇中心ぐ，Ci*為簇Ci中心所對(duì)應(yīng)的向量，
若 Ci 中包含了 K 個(gè)向量，即「ectoな,Fectoり2,，其中 I く= i1； i2,，ik く= N,則
，而新的閾值

四

圖I :基于海量網(wǎng)絡(luò)輿情信息特征向量產(chǎn)生方法的流程圖；圖2 PL聚類(lèi)方法的流程圖。
權(quán)利要求
1.基于海量網(wǎng)絡(luò)輿情信息的聚類(lèi)處理，它包括如下步驟一、對(duì)各輿情信息進(jìn)行分詞預(yù)處理，包括以下步驟 1)、利用分詞工具(中科院的ICTCLAS)對(duì)各個(gè)輿情信息分別進(jìn)行分詞； 2)、除去分詞里面的常用停用詞； 3)、對(duì)每個(gè)輿情信息的分詞進(jìn)行初步篩選，選取其中的名詞和動(dòng)詞(名詞和動(dòng)詞更能體現(xiàn)出輿情的信息)，并對(duì)這些分詞進(jìn)行詞頻統(tǒng)計(jì)，保存在Map〈K，V〉里面，其中K是分詞，而V為K所對(duì)應(yīng)的詞頻； 4)、將各輿情信息統(tǒng)計(jì)出的Map添加到VectoKMap〉里面保存；二、輿情信息的特征分詞選取(目的是實(shí)現(xiàn)降維)，包括以下步驟 1)、利用改進(jìn)過(guò)后的信息增益算法，計(jì)算各分詞的信息增益值，改進(jìn)后的公式如下IG (t) = f (t) X (H(C) -H(C|T)) IG (t):表示分詞t對(duì)整個(gè)信息所產(chǎn)生的信息增益值 H(C):表示整個(gè)輿情信息的信息熵，
其中C表示類(lèi)別，在這里我們把每個(gè)輿情信息作為一個(gè)分類(lèi)，P (Ci)表示類(lèi)別Ci (即第i個(gè)輿情信息)在整個(gè)輿情信息里面出現(xiàn)的概率。
N為輿情信息總的個(gè)數(shù) H(C|T):表示分詞的條件熵，
其中，k為包含分詞t的類(lèi)別個(gè)數(shù)，p(t)表示分詞t出現(xiàn)的概率，P(t)=包含分詞t的輿情信息個(gè)數(shù)+N P(CiIt)表示分詞t出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率， P(Ci|t) = Ci中的分詞總數(shù)+包含有分詞t的所有類(lèi)別的分詞總數(shù)，Ci是含有分詞t的類(lèi)別， P(t)表示分詞t不出現(xiàn)的概率，P ( ) = I-P (t)， P(cjt)表示分詞t不出現(xiàn)時(shí)類(lèi)別Ci出現(xiàn)的條件概率， P(cjt) = Ci中的分詞總數(shù)+不包含分詞t的所有類(lèi)別的分詞總數(shù)，Ci是不包含分詞t的類(lèi)別， f (t)表示一個(gè)修正函數(shù)，f (t) = Iog2 (nt+0. 01)，其中nt為包含分詞t的類(lèi)別個(gè)數(shù)，函數(shù)的作用是為了避免將輿情信息轉(zhuǎn)化為向量時(shí)得到零向量，或向量中出現(xiàn)過(guò)多的零。
2)、將分詞的信息增益值進(jìn)行快速排序(從大到小)，結(jié)果保存到數(shù)組IG[]里面； 3)、將排序結(jié)果的前M=100 (M可以自己設(shè)定)個(gè)分詞作為特征分詞；三、輿情信息的向量化，包括以下步驟 I)、利用改進(jìn)過(guò)后的權(quán)重公式對(duì)M個(gè)特征分詞分別在每個(gè)輿情信息中進(jìn)行權(quán)重計(jì)算，改進(jìn)后的公式如下 Wij = TFij. X IDF*X IG (i) Wij表示第i個(gè)特征分詞在第j個(gè)輿情信息中的權(quán)重TFij表示第i個(gè)特征分詞在第j個(gè)輿情信息出現(xiàn)的次數(shù)，即詞頻IDF*表示改進(jìn)后的反文檔頻率，IDF* = log2(N/ni+k)，其中Iii指所有輿情信息中出現(xiàn)過(guò)第i個(gè)特征分詞的信息個(gè)數(shù)，k是一個(gè)修正常數(shù)，這里取值為k = O. 01，目的是為了防止第i個(gè)特征分詞在每個(gè)信息中都出現(xiàn)過(guò)，從而導(dǎo)致反文檔頻率出現(xiàn)O的現(xiàn)象IG (i)表示第i個(gè)特征分詞的信息增益值·2)、得到第j個(gè)輿情信息通過(guò)特征分詞所對(duì)應(yīng)的向量Vectorj= (Wlj, W2j, ···, Wmj)； ·3)、向量歸一化處理，Vectorj= (W1/, W2/,…，Wm/)，其中，< =% +(Σ ”的; 四、在平面劃分方法與層次凝聚方法基礎(chǔ)上提出了新的聚類(lèi)方法(PL算法)，PL算法結(jié)合了兩者的優(yōu)點(diǎn)，具體實(shí)現(xiàn)步驟如下對(duì)于給定的向量集合V= (Vector1, Vector2, ......, VectorJ ,其中Vectori是第i個(gè)輿情信息所對(duì)應(yīng)的特征向量。
·1)、將V中的每個(gè)特征向量Vectori作為具有一個(gè)成員的簇
；·2)、任意選取其中一個(gè)簇Ci作為聚類(lèi)的起始點(diǎn)，給定一個(gè)初始閾值d(d= O. 7)； ·3)、在其余未聚類(lèi)的向量中，找到dist( C*，Vector- ) <d,將Vectorj歸入Ci形成一個(gè)新的簇； Ci = Ci U Vector」,計(jì)算新的閾值d ·4)、重復(fù)步驟3)，直至與Ci*距離最近的向量到Ci*的距離超過(guò)閾值d，此時(shí)認(rèn)為已經(jīng)聚完一類(lèi); ·5)、選擇一個(gè)未聚類(lèi)的單個(gè)成員簇，重復(fù)步驟3)和4)，開(kāi)始新的一輪聚類(lèi)，直至所有的單個(gè)成員簇Ci都參與了聚類(lèi)；Vectori = (X1, X2,…，xM), Vectorj. = (Y1, y2,…，yM), dist (Vectori, Vector」)表示這兩向量之間的歐幾里德距離，則dist(Fectodecto^) = ￡( - JA)2f2 ；若簇Ci與Vectoi^合并，則產(chǎn)生新的簇中心Ci' Ci*為簇Ci中心所對(duì)應(yīng)的向量，若Ci中包含了 K個(gè)向量，
其中 I < = i1; i2，…，ik < = N，貝IJ C* = YjVectorij^k,而新的閾值
全文摘要
基于海量網(wǎng)絡(luò)輿情信息的PL聚類(lèi)處理方法，包括對(duì)各輿情信息進(jìn)行分詞預(yù)處理、輿情信息的特征分詞選取、輿情信息的向量化和基于PL算法的聚類(lèi)。其實(shí)質(zhì)是用分詞工具對(duì)文本進(jìn)行分詞，通過(guò)改進(jìn)的信息增益算法進(jìn)行特征分詞選取，對(duì)特征分詞向量化后用PL算法進(jìn)行聚類(lèi)的過(guò)程。本發(fā)明對(duì)海量網(wǎng)絡(luò)輿情處理時(shí)可有效過(guò)濾噪聲數(shù)據(jù)，擁有較低的時(shí)間、空間復(fù)雜度。本發(fā)明可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái)，并且概括出每一類(lèi)消費(fèi)者的消費(fèi)模式或者消費(fèi)習(xí)慣。
文檔編號(hào)G06Q30/00GK101763431SQ20101002803
公開(kāi)日2010年6月30日申請(qǐng)日期2010年1月6日優(yōu)先權(quán)日2010年1月6日
發(fā)明者佘堃, 王馳, 崔鴻, 朱夢(mèng)龍申請(qǐng)人:電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：佘堃;王馳;崔鴻;朱夢(mèng)龍
技術(shù)所有人：電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種工業(yè)在線(xiàn)實(shí)時(shí)監(jiān)測(cè)方法
上一篇：一種基于通用搜索引擎的版權(quán)檢定方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聚類(lèi)分析相關(guān)技術(shù)

聚類(lèi)算法相關(guān)技術(shù)

聚類(lèi)相關(guān)技術(shù)

kmeans聚類(lèi)算法相關(guān)技術(shù)

層次聚類(lèi)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于海量網(wǎng)絡(luò)輿情信息的pl聚類(lèi)處理方法