本發(fā)明屬于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘領(lǐng)域,更具體地,涉及一種結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別方法和系統(tǒng)。
背景技術(shù):
:伴隨著微博平臺影響力的不斷擴(kuò)大,微博平臺上出現(xiàn)了大量帶有廣告營銷性質(zhì)、惡意攻擊言語的垃圾評論信息。這些垃圾評論信息在沒有其他監(jiān)管措施的情況下,會不斷的充斥在正常用戶發(fā)表的正常信息當(dāng)中,對平臺中正常用戶的用戶體驗(yàn)產(chǎn)生很不好的影響,甚至?xí){到微博網(wǎng)絡(luò)平臺發(fā)展的穩(wěn)定與和諧。目前國內(nèi)外針對微博垃圾評論識別的方法主要有兩類:基于評論內(nèi)容的垃圾評論識別和基于垃圾用戶的垃圾評論識別。基于評論內(nèi)容的垃圾評論識別主要是從評論本身的文本特征出發(fā),挖掘其中潛在的垃圾評論特征,其中有從評論文本與原博文的文本相似角度判斷,也有單純的從評論文本本身包含的垃圾信息特征出發(fā)進(jìn)行挖掘。該方法的不足為:在只有幾個字符的短評論文本中文本特征相當(dāng)不明顯,并且從評論與對應(yīng)博文的文本相似角度出發(fā)對于垃圾評論的判定會存在比較大的誤差,因此垃圾識別準(zhǔn)確度低?;诶脩舻睦u論識別主要是利用垃圾用戶發(fā)表垃圾評論概率更大的性質(zhì)對平臺中的垃圾用戶先進(jìn)行識別,常用的社交蜜罐技術(shù)可以主動引導(dǎo)垃圾用戶靠近,用戶行為分析技術(shù)包括用戶url使用率、非空轉(zhuǎn)發(fā)比等。該方法的不足為:由于該方法并沒有對評論本身做一定的分析,而是直接基于垃圾用戶一定會發(fā)表垃圾評論這樣的判定來進(jìn)行識別,導(dǎo)致垃圾識別準(zhǔn)確率低。技術(shù)實(shí)現(xiàn)要素:針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別方法和系統(tǒng),其目的在于,解決現(xiàn)有微博平臺垃圾評論識別方法中存在的垃圾評論整體識別率低、正常/垃圾評論誤判率高的問題。為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別方法,包括如下步驟:(1)從微博平臺爬取訓(xùn)練集、測試集、以及博文語料庫,根據(jù)與微博平臺中的微博評論相關(guān)的主體以及主體之間的關(guān)系構(gòu)建評論關(guān)系網(wǎng)絡(luò)圖模型,并根據(jù)爬取的訓(xùn)練集和測試集對構(gòu)建的評論關(guān)系網(wǎng)絡(luò)圖進(jìn)行處理,以生成基于neo4j開源軟件的評論關(guān)系網(wǎng)絡(luò)圖;(2)使用開源的全文搜索引擎為爬取的博文語料集建立索引,使用建立的索引執(zhí)行博文語料集的搜索,并根據(jù)搜索返回的結(jié)果計算文本詞之間的相關(guān)度值;(3)對評論關(guān)系網(wǎng)絡(luò)圖中的評論文本節(jié)點(diǎn)與博文文本節(jié)點(diǎn)進(jìn)行基于結(jié)構(gòu)信息的數(shù)據(jù)預(yù)處理操作,提取數(shù)據(jù)預(yù)處理操作結(jié)果中評論文本節(jié)點(diǎn)的基本元數(shù)據(jù),并使用該基本元數(shù)據(jù)為相應(yīng)節(jié)點(diǎn)設(shè)置節(jié)點(diǎn)屬性值;(4)針對評論關(guān)系網(wǎng)絡(luò)圖中的每個評論文本節(jié)點(diǎn),計算其評論文本與對應(yīng)博文之間的文本相關(guān)度,并根據(jù)該文本相關(guān)度值在評論關(guān)系網(wǎng)絡(luò)圖中為該評論文本節(jié)點(diǎn)的相關(guān)度屬性設(shè)置對應(yīng)的相關(guān)度屬性值;(5)根據(jù)步驟(1)中爬取的訓(xùn)練集和步驟(4)得到的相關(guān)度屬性值構(gòu)建初始評論文本分類器;(6)根據(jù)步驟(5)構(gòu)建的初始評論文本分類器對每個測試集中的評論文本進(jìn)行類別判定,并將最終的判定結(jié)果增量反饋至初始評論文本分類器中繼續(xù)學(xué)習(xí)。優(yōu)選地,評論關(guān)系網(wǎng)絡(luò)圖中的節(jié)點(diǎn)包括用戶節(jié)點(diǎn)、博文文本節(jié)點(diǎn)、評論文本節(jié)點(diǎn)、以及文本詞節(jié)點(diǎn);評論關(guān)系網(wǎng)絡(luò)圖中的節(jié)點(diǎn)關(guān)系包括關(guān)注關(guān)系、交互關(guān)系、發(fā)表關(guān)系、擁有關(guān)系以及相關(guān)關(guān)系。優(yōu)選地,步驟(2)具體為,首先從微博平臺收集博文語料集,然后為語料集中的每條博文文本創(chuàng)建一個獨(dú)立的文件,并使用lucence全文搜索引擎為這些文件創(chuàng)建索引并提供全文搜索功能,以利用搜索返回的文件數(shù)目來計算文本詞之間的相關(guān)度。優(yōu)選地,計算文本詞之間的相關(guān)度具體是采用以下公式:其中u和v均表示文本詞,textnum(u,v)表示同時包含文本詞u和v的博文數(shù)目,textnum(u)表示包含文本詞u的博文數(shù)目,textnum(v)表示包含文本詞v的博文數(shù)目。優(yōu)選地,結(jié)構(gòu)信息包括已經(jīng)結(jié)構(gòu)化的表情符號,評論文本節(jié)點(diǎn)的基本元數(shù)據(jù)包括評論文本的字重復(fù)率、url鏈接、特殊字符數(shù)目以及連續(xù)數(shù)字等。優(yōu)選地,步驟(4)包括如下子步驟:(4.1)對評論關(guān)系網(wǎng)路圖中的所有評論文本和博文文本進(jìn)行中文分詞,對中文分詞得到的詞集列表進(jìn)行實(shí)詞提取,并在評論關(guān)系網(wǎng)絡(luò)圖中對實(shí)詞提取的結(jié)果進(jìn)行文本詞節(jié)點(diǎn)創(chuàng)建操作,以得到評論詞集列表和博文詞集列表;(4.2)根據(jù)評論詞集列表和博文詞集列表構(gòu)建評論文本與對應(yīng)博文之間的文本相關(guān)度矩陣mrv:該矩陣中任意一個元素ρij表示評論詞集列表中第i個文本詞與博文詞集列表中第j個文本詞之間的相關(guān)度,a表示評論詞集列表的長度,b表示博文詞集列表的長度,i為1到a之間的任意整數(shù),j為1到b之間的任意整數(shù);(4.3)從步驟(4.2)得到的文本相關(guān)度矩陣中的每個行向量(ρi1,ρi2,…,ρij,...,ρib)中選擇最大值組成最大值集合(ρ1max,ρ2max,...,ρa(bǔ)max),并根據(jù)該最大值集合得到評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值rv(x,y)為:其中x表示評論詞集列表,y表示博文詞集列表,f表示文本詞在文本中的詞頻。優(yōu)選地,步驟(5)包括如下子步驟:(5.1)對訓(xùn)練集進(jìn)行初始樸素貝葉斯的訓(xùn)練,以得到各個類別c的先驗(yàn)概率p(c)、以及特征詞x在各個類別下的條件概率p(x∣c);(5.2)將訓(xùn)練集中正常訓(xùn)練集中評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值全部取出組成正常評論中心向量hamcentalvector,并將將訓(xùn)練集中垃圾訓(xùn)練集中評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值全部取出組成垃圾評論中心向量spamcentalvector;(5.3)根據(jù)訓(xùn)練集中的正常評論和垃圾評論,訓(xùn)練得到布爾向量因子包括評論文本字重復(fù)率的闕值δ、評論文本特殊字符數(shù)目的闕值ε,垃圾連續(xù)數(shù)字集spamserialset以及垃圾url集spamurlset。優(yōu)選地,對訓(xùn)練集進(jìn)行初始樸素貝葉斯的訓(xùn)練具體為:首先初始化闕值δ、ε為0,spamserialset集和spamurlset集為空,然后針對訓(xùn)練集中的每個評論文本,判斷其是正常評論文本還是垃圾評論文本,如果是垃圾評論文本,則判斷該垃圾評論文本中是否包含url鏈接和連續(xù)數(shù)字,若包含則向相應(yīng)的spamurlset垃圾url集或spamserialset垃圾連續(xù)數(shù)字集添加新的url鏈接或連續(xù)數(shù)字,之后再提取該垃圾評論文本的基本元數(shù)據(jù)包括文本字重復(fù)率和特殊字符數(shù)目并分別置于臨時集合中;如果是正常評論文本,則判斷該評論文本的字重復(fù)率是否大于闕值δ,若大于則更新δ,并判斷該評論文本的特殊字符數(shù)目是否大于闕值ε,若大于則更新ε;當(dāng)訓(xùn)練集中的評論文本全部處理完畢,再將得到的字重復(fù)率和特殊字符數(shù)目兩個臨時集合中分別大于闕值δ、ε的數(shù)值集合抽取出來并分別取平均值,最后用這兩個平均值分別重置δ、ε,得到最終的字重復(fù)率闕值δ以及特殊字符數(shù)目闕值ε。優(yōu)選地,步驟(6)包括如下子步驟:(6.1)根據(jù)步驟(5.1)得到的各個類別的先驗(yàn)概率以及每個特征詞在各個類別下的條件概率,使用以下公式對測試集中的評論文本經(jīng)過步驟(3)的數(shù)據(jù)預(yù)處理及步驟(5)的初始樸素貝葉斯訓(xùn)練之后得到的特征詞集列表xcomment={x1,x2,……,xa}進(jìn)行處理,以得到評論文本分別為正常評論的概率和垃圾評論的概率;(6.2)獲取測試集中每個評論文本由步驟(4.3)得到的文本相關(guān)度值rv,并計算該文本相關(guān)度值rv與由步驟(5.2)得到的正常/垃圾評論中心向量的平均歐式距離distanceham和distancespam,就是相關(guān)度值rv與向量中每個元素的歐式距離組成的列向量平均值;(6.3)構(gòu)建測試評論文本布爾向量boolvectortest=(l,m,n,o,p,q),其中l(wèi)表示評論文本是否被回復(fù)、m表示評論文本是否被點(diǎn)贊、n表示評論文本是否字重復(fù)率高于某一闕值δ、o表示評論文本中的特殊字符數(shù)目是否高于某一闕值ε、p表示評論文本中是否包含垃圾url、q表示評論文本中是否包含垃圾連續(xù)數(shù)字,l、m、n、o、p、q的取值為1或者0。(6.4)綜合步驟(6.1)、(6.2)和(6.3)的結(jié)果判斷測試集中的評論文本是否為垃圾評論,具體是采用以下公式計算得到結(jié)果值commclass,若該值大于0,則表示評論文本是垃圾評論文本,反之,則為正常評論文本:(6.5)將步驟(6.4)的判斷結(jié)果增量反饋至初始評論文本分類器中繼續(xù)學(xué)習(xí),不斷更新樸素貝葉斯訓(xùn)練階段的先驗(yàn)概率和條件概率,以及垃圾連續(xù)數(shù)字集spamserialset和垃圾url集spamurlset,并不斷修正布爾因子δ和ε。按照本發(fā)明的另一方面,提供了一種結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別系統(tǒng),包括:第一模塊,用于從微博平臺爬取訓(xùn)練集、測試集、以及博文語料庫,根據(jù)與微博平臺中的微博評論相關(guān)的主體以及主體之間的關(guān)系構(gòu)建評論關(guān)系網(wǎng)絡(luò)圖模型,并根據(jù)爬取的訓(xùn)練集和測試集對構(gòu)建的評論關(guān)系網(wǎng)絡(luò)圖進(jìn)行處理,以生成基于neo4j開源軟件的評論關(guān)系網(wǎng)絡(luò)圖;第二模塊,用于使用開源的全文搜索引擎為爬取的博文語料集建立索引,使用建立的索引執(zhí)行博文語料集的搜索,并根據(jù)搜索返回的結(jié)果計算文本詞之間的相關(guān)度值;第三模塊,用于對評論關(guān)系網(wǎng)絡(luò)圖中的評論文本節(jié)點(diǎn)與博文文本節(jié)點(diǎn)進(jìn)行基于結(jié)構(gòu)信息的數(shù)據(jù)預(yù)處理操作,提取數(shù)據(jù)預(yù)處理操作結(jié)果中評論文本節(jié)點(diǎn)的基本元數(shù)據(jù),并使用該基本元數(shù)據(jù)為相應(yīng)節(jié)點(diǎn)設(shè)置節(jié)點(diǎn)屬性值;第四模塊,用于針對評論關(guān)系網(wǎng)絡(luò)圖中的每個評論文本節(jié)點(diǎn),計算其評論文本與對應(yīng)博文之間的文本相關(guān)度,并根據(jù)該文本相關(guān)度值在評論關(guān)系網(wǎng)絡(luò)圖中為該評論文本節(jié)點(diǎn)的相關(guān)度屬性設(shè)置對應(yīng)的相關(guān)度屬性值;第五模塊,用于根據(jù)第一模塊中爬取的訓(xùn)練集和第四模塊得到的相關(guān)度屬性值構(gòu)建初始評論文本分類器;第六模塊,用于根據(jù)第五模塊構(gòu)建的初始評論文本分類器對每個測試集中的評論文本進(jìn)行類別判定,并將最終的判定結(jié)果增量反饋至初始評論文本分類器中繼續(xù)學(xué)習(xí)。總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:(1)本發(fā)明由于采用了步驟(4)、步驟(5)和步驟(6),能夠在傳統(tǒng)樸素貝葉斯的基礎(chǔ)上不僅從評論文本與原博文相關(guān)角度,對單純基于文本概率統(tǒng)計模型的垃圾評論識別方法進(jìn)行改進(jìn)優(yōu)化,同時引進(jìn)了由垃圾評論特征包括是否包含垃圾連續(xù)數(shù)字、是否字重復(fù)率高于一定闕值等構(gòu)成的評論布爾向量,因此綜合性的提高了垃圾評論整體的識別率。(2)本發(fā)明中采用文本相關(guān)度計算模型代替?zhèn)鹘y(tǒng)嚴(yán)苛的文本相似度計算模型得到評論文本與原博文文本的文本相關(guān)度,能夠有效降低正常相關(guān)評論的誤判率。(3)本發(fā)明選擇基于模型的圖數(shù)據(jù)庫neo4j來存儲和管理評論關(guān)系網(wǎng)絡(luò)圖,能夠提升垃圾評論識別算法的性能。(4)本發(fā)明每次測試集的識別結(jié)果還會增量反饋至評論文本分類器中繼續(xù)學(xué)習(xí),這樣的增量學(xué)習(xí)機(jī)制進(jìn)一步提高了垃圾評論整體的識別率并降低了誤判率。附圖說明圖1是本發(fā)明結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別方法的流程圖。圖2是本發(fā)明構(gòu)建的評論關(guān)系網(wǎng)絡(luò)圖的示意圖。圖3是本發(fā)明評論文本布爾向量因子確定方法的流程圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。本發(fā)明的基本思路如下,首先將與評論相關(guān)的主體以及主體之間的關(guān)系抽取出來,建立評論關(guān)系網(wǎng)絡(luò)圖模型;其次使用lucence全文搜索引擎為爬取到的博文語料庫集創(chuàng)建索引并提供全文搜索功能;然后采用文本相關(guān)度模型代替?zhèn)鹘y(tǒng)的文本相似度計算模型得到評論與原博文的相關(guān)度,能夠在傳統(tǒng)樸素貝葉斯的基礎(chǔ)上不僅從評論文本與原博文相關(guān)角度,對單純基于文本概率統(tǒng)計模型的垃圾評論識別方法進(jìn)行改進(jìn)優(yōu)化,同時引進(jìn)了由垃圾評論特征包括是否包含垃圾連續(xù)數(shù)字、是否字重復(fù)率高于一定闕值等構(gòu)成的評論布爾向量,因此綜合性地提高了垃圾評論整體的識別率;最后根據(jù)訓(xùn)練集進(jìn)行評論文本分類器的構(gòu)建,并對測試集中的測試評論進(jìn)行識別,識別后的結(jié)果會反饋到分類器中繼續(xù)學(xué)習(xí)。如圖1所示,本發(fā)明結(jié)合評論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評論識別方法包括如下步驟:(1)從微博平臺爬取訓(xùn)練集、測試集、以及博文語料庫,根據(jù)與微博平臺中的微博評論相關(guān)的主體以及主體之間的關(guān)系構(gòu)建評論關(guān)系網(wǎng)絡(luò)圖模型,并根據(jù)爬取的訓(xùn)練集和測試集對構(gòu)建的評論關(guān)系網(wǎng)絡(luò)圖進(jìn)行處理,以生成基于neo4j開源軟件的評論關(guān)系網(wǎng)絡(luò)圖,其中該評論關(guān)系網(wǎng)絡(luò)圖中的其中一些節(jié)點(diǎn)或節(jié)點(diǎn)關(guān)系具有對應(yīng)的屬性。評論關(guān)系網(wǎng)絡(luò)圖中的節(jié)點(diǎn)包括用戶(user)節(jié)點(diǎn)、博文文本(microblog)節(jié)點(diǎn)、評論文本(comment)節(jié)點(diǎn)、以及文本詞(word)節(jié)點(diǎn)。評論關(guān)系網(wǎng)絡(luò)圖中節(jié)點(diǎn)關(guān)系主要包括關(guān)注關(guān)系、交互關(guān)系、發(fā)表關(guān)系、擁有關(guān)系以及相關(guān)關(guān)系,其中,交互關(guān)系和相關(guān)關(guān)系是重要的、存在關(guān)系屬性的節(jié)點(diǎn)關(guān)系,本發(fā)明中將用戶之間的各種交互行為包括評論、轉(zhuǎn)發(fā)、@、點(diǎn)贊、刪除等匯總為一個交互關(guān)系,以鍵值對(key-value)的形式作為屬性存放在用戶之間的交互關(guān)系中。具體而言,如圖2所示,生成的評論關(guān)系網(wǎng)絡(luò)圖中每種類型的節(jié)點(diǎn)及其節(jié)點(diǎn)屬性的對應(yīng)關(guān)系如下表1所示:表1評論關(guān)系網(wǎng)絡(luò)圖中的節(jié)點(diǎn)關(guān)系主要包括關(guān)注關(guān)系、交互關(guān)系、發(fā)表關(guān)系、擁有關(guān)系以及相關(guān)關(guān)系,其中,交互關(guān)系是一個重要的存在關(guān)系屬性的節(jié)點(diǎn)關(guān)系,本發(fā)明中將用戶之間的各種交互行為包括評論、轉(zhuǎn)發(fā)、@、點(diǎn)贊、刪除等匯總會一個交互關(guān)系,以key-value的形式作為屬性存放在用戶之間的交互關(guān)系中。(2)使用開源的全文搜索引擎為爬取的博文語料集建立索引,使用建立的索引執(zhí)行博文語料集的搜索,并根據(jù)搜索返回的結(jié)果計算文本詞之間的相關(guān)度值;在本實(shí)施方式中,使用的開源的全文搜索引擎是lucence全文搜索引擎,目的在于提供基于博文語料庫的全文搜索功能。舉例而言,本步驟首先會從新浪微博平臺收集博文語料集,主要抓取了包含娛樂、社會、經(jīng)濟(jì)、it互聯(lián)網(wǎng)等熱門類目下的百萬條博文內(nèi)容作為本發(fā)明的語料集。接著會為語料集中的每條博文文本創(chuàng)建一個獨(dú)立的文件,并使用lucence全文搜索引擎為這些文件創(chuàng)建索引并提供全文搜索功能,這樣就可以利用搜索返回的文件數(shù)目來計算文本詞之間的相關(guān)度。計算文本詞之間的相關(guān)度具體是采用以下公式:其中u和v均表示文本詞,textnum(u,v)表示同時包含文本詞u和v的博文數(shù)目,textnum(u)表示包含文本詞u的博文數(shù)目,textnum(v)表示包含文本詞v的博文數(shù)目。在全文搜索庫的基礎(chǔ)之上,搜索返回僅包含文本詞u的博文數(shù)據(jù)textnum(u),僅包含文本詞v的博文數(shù)據(jù)textnum(v)以及同時包含文本詞u、文本詞v的博文數(shù)目textnum(u,v),那么文本詞u和文本詞v之間基于微博語料全文搜索庫的詞語相關(guān)度計算如上公式所示。(3)對評論關(guān)系網(wǎng)絡(luò)圖中的評論文本節(jié)點(diǎn)與博文文本節(jié)點(diǎn)進(jìn)行基于結(jié)構(gòu)信息(參見下表2所示)的數(shù)據(jù)預(yù)處理操作,提取數(shù)據(jù)預(yù)處理操作結(jié)果中評論文本節(jié)點(diǎn)的基本元數(shù)據(jù),并使用該基本元數(shù)據(jù)為相應(yīng)節(jié)點(diǎn)設(shè)置節(jié)點(diǎn)屬性值;表2結(jié)構(gòu)信息操作正則表達(dá)式“[]”表情符號過濾[[\u4e00-\u9fa5_a-za-z0-9]+]“//@”轉(zhuǎn)發(fā)保留//@[^@|^//@|^#|.]+“@”其他用戶過濾@[\u4e00-\u9fa5a-za-z0-9_-]{2,30}“#”話題保留#[^#]+#具體而言,結(jié)構(gòu)信息主要包括已經(jīng)結(jié)構(gòu)化的表情符號,如“[微笑]”、“[愛心]”、兩個“#”字符之間的話題、以及“//@”轉(zhuǎn)發(fā)標(biāo)記等,本發(fā)明中采用正則表達(dá)式對這些結(jié)構(gòu)信息采取過濾或保留操作,評論文本節(jié)點(diǎn)的基本元數(shù)據(jù)主要包括評論文本的字重復(fù)率、url鏈接、特殊字符數(shù)目以及連續(xù)數(shù)字。(4)針對評論關(guān)系網(wǎng)絡(luò)圖中的每個評論文本節(jié)點(diǎn),計算其評論文本與對應(yīng)博文之間的文本相關(guān)度,并根據(jù)該文本相關(guān)度值在評論關(guān)系網(wǎng)絡(luò)圖中為該評論文本節(jié)點(diǎn)的相關(guān)度屬性設(shè)置對應(yīng)的相關(guān)度屬性值;具體而言,本步驟包括如下子步驟:(4.1)對評論關(guān)系網(wǎng)路圖中的所有評論文本和博文文本進(jìn)行中文分詞,對中文分詞得到的詞集列表進(jìn)行實(shí)詞提取,并在評論關(guān)系網(wǎng)絡(luò)圖中對實(shí)詞提取的結(jié)果進(jìn)行文本詞節(jié)點(diǎn)創(chuàng)建操作,以得到評論詞集列表和博文詞集列表;鑒于步驟(3)中博文文本和評論文本一般都是短文本的特性,因此需要將轉(zhuǎn)發(fā)文本和話題文本等相關(guān)內(nèi)容保留,在文本分詞前需要作一定的文本合并操作,然后在經(jīng)中文分詞后得到的詞集列表中進(jìn)行實(shí)詞提取、以及評論關(guān)系網(wǎng)絡(luò)圖中的文本詞節(jié)點(diǎn)創(chuàng)建操作。(4.2)根據(jù)評論詞集列表和博文詞集列表構(gòu)建評論文本與對應(yīng)博文之間的文本相關(guān)度矩陣mrv:該矩陣中任意一個元素ρij表示評論詞集列表中第i個文本詞與博文詞集列表中第j個文本詞之間的相關(guān)度,a表示評論詞集列表的長度,b表示博文詞集列表的長度,i為1到a之間的任意整數(shù),j為1到b之間的任意整數(shù);本步驟中計算文本詞之間相關(guān)度的方法和上述步驟(2)完全相同,在此不再贅述。(4.3)從步驟(4.2)得到的文本相關(guān)度矩陣中的每個行向量(ρi1,ρi2,…,ρij,...,ρib)中選擇最大值組成最大值集合(ρ1max,ρ2max,...,ρa(bǔ)max),并根據(jù)該最大值集合得到評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值rv(x,y)為:其中x表示評論詞集列表,y表示博文詞集列表,f表示文本詞在文本中的詞頻。(5)根據(jù)步驟(1)中爬取的訓(xùn)練集和步驟(4)得到的相關(guān)度屬性值構(gòu)建初始評論文本分類器;本步驟中的構(gòu)建過程主要包括初始樸素貝葉斯的訓(xùn)練、正常/垃圾評論中心向量的構(gòu)建以及布爾向量因子的確定,其中正常/垃圾評論中心向量由步驟(4)得到的評論文本與對應(yīng)博文文本之間的文本相關(guān)度值rv組成。具體的,本步驟包括如下子步驟:(5.1)對訓(xùn)練集進(jìn)行初始樸素貝葉斯的訓(xùn)練,以得到各個類別(其包括正常評論類和垃圾評論類兩種)c的先驗(yàn)概率p(c)、以及特征詞x在各個類別下的條件概率p(x∣c);(5.2)將訓(xùn)練集中正常訓(xùn)練集中評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值全部取出組成正常評論中心向量hamcentalvector,并將將訓(xùn)練集中垃圾訓(xùn)練集中評論文本節(jié)點(diǎn)的相關(guān)度屬性所對應(yīng)的屬性值全部取出組成垃圾評論中心向量spamcentalvector;(5.3)根據(jù)訓(xùn)練集中的正常評論和垃圾評論,訓(xùn)練得到布爾向量因子包括評論文本字重復(fù)率的闕值δ、評論文本特殊字符數(shù)目的闕值ε,垃圾連續(xù)數(shù)字集spamserialset以及垃圾url集spamurlset。具體的訓(xùn)練流程如圖3所示,首先初始化闕值δ、ε為0,spamserialset集和spamurlset集為空,然后針對訓(xùn)練集中的每個評論文本,判斷其是正常評論文本還是垃圾評論文本。如果是垃圾評論文本,那么需要判斷該垃圾評論文本中是否包含url鏈接和連續(xù)數(shù)字,若包含則向相應(yīng)的spamurlset垃圾url集或spamserialset垃圾連續(xù)數(shù)字集添加新的url鏈接或連續(xù)數(shù)字,之后再提取該垃圾評論文本的基本元數(shù)據(jù)包括文本字重復(fù)率和特殊字符數(shù)目并分別置于臨時集合中。如果是正常評論文本,判斷該評論文本的字重復(fù)率是否大于闕值δ,若大于則更新δ,并判斷該評論文本的特殊字符數(shù)目是否大于闕值ε,若大于則更新ε。當(dāng)訓(xùn)練集中的評論文本全部處理完畢,再將得到的字重復(fù)率和特殊字符數(shù)目兩個臨時集合中分別大于闕值δ、ε的數(shù)值集合抽取出來并分別取平均值,最后用這兩個平均值分別重置δ、ε,得到最終的字重復(fù)率闕值δ以及特殊字符數(shù)目闕值ε。(6)根據(jù)步驟(5)構(gòu)建的初始評論文本分類器對每個測試集中的評論文本進(jìn)行類別判定,并將最終的判定結(jié)果增量反饋至初始評論文本分類器中繼續(xù)學(xué)習(xí)。具體地,本步驟包括如下子步驟:(6.1)根據(jù)步驟(5.1)得到的各個類別的先驗(yàn)概率以及每個特征詞在各個類別下的條件概率,使用以下公式對測試集中的評論文本經(jīng)過步驟(3)的數(shù)據(jù)預(yù)處理及步驟(5)的初始樸素貝葉斯訓(xùn)練之后得到的特征詞集列表xcomment={x1,x2,……,xa}進(jìn)行處理,以得到評論文本分別為正常評論的概率和垃圾評論的概率;(6.2)獲取測試集中每個評論文本由步驟(4.3)得到的文本相關(guān)度值rv,并計算該文本相關(guān)度值rv與由步驟(5.2)得到的正常/垃圾評論中心向量的平均歐式距離distanceham和distancespam,就是相關(guān)度值rv與向量中每個元素的歐式距離組成的列向量平均值;(6.3)構(gòu)建測試評論文本布爾向量boolvectortest=(l,m,n,o,p,q),其中l(wèi)表示評論文本是否被回復(fù)、m表示評論文本是否被點(diǎn)贊、n表示評論文本是否字重復(fù)率高于某一闕值δ、o表示評論文本中的特殊字符數(shù)目是否高于某一闕值ε、p表示評論文本中是否包含垃圾url、q表示評論文本中是否包含垃圾連續(xù)數(shù)字,l、m、n、o、p、q的取值為1或者0。評論文本是否被回復(fù)或點(diǎn)贊可以從評論關(guān)系網(wǎng)絡(luò)圖中該節(jié)點(diǎn)的相應(yīng)屬性中直接獲取,因此可以直接根據(jù)節(jié)點(diǎn)中的是否被回復(fù)屬性值和是否被點(diǎn)贊屬性值設(shè)置布爾因子l和m的值。再根據(jù)步驟(5.3)得到的布爾因子δ、ε以及垃圾連續(xù)數(shù)字集spamserialset和垃圾url集spamurlset,判斷評論文本的字重復(fù)率是否大于δ,若大于則將n賦值為1,否則就賦值為0、判斷評論文本的中的特殊字符數(shù)目是否大于ε,若大于則將o賦值為1,否則就賦值為0、判斷評論文本中是否包含垃圾url集spamurlset中的某個垃圾·,若包含則將p賦值為1,不包含則賦值為0、判斷評論文本中是否包含垃圾連續(xù)數(shù)字集spamserialset中的某個垃圾連續(xù)數(shù)字,若包含則將q賦值為1,不包含則賦值為0。根據(jù)正常評論與垃圾評論在上述幾個布爾向量因子取值的相反性性質(zhì),構(gòu)建正常評論布爾向量boolvectorham=(1,1,0,0,0,0),垃圾評論布爾向量boolvectorspam=(0,0,1,1,1,1),再分別計算boolvectortest與正常評論布爾向量boolvectorham和垃圾評論布爾向量boolvectorspam之間的余弦距離得到boolsimham和boolsimspam;(6.4)綜合步驟(6.1)、(6.2)和(6.3)的結(jié)果判斷測試集中的評論文本是否為垃圾評論,具體是采用以下公式計算得到結(jié)果值commclass,若該值大于0,則表示評論文本是垃圾評論文本,反之,則為正常評論文本:(6.5)將步驟(6.4)的判斷結(jié)果增量反饋至初始評論文本分類器中繼續(xù)學(xué)習(xí),不斷更新樸素貝葉斯訓(xùn)練階段的先驗(yàn)概率和條件概率,以及垃圾連續(xù)數(shù)字集spamserialset和垃圾url集spamurlset,并不斷修正幾個布爾因子δ和ε。本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12