基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法
【專(zhuān)利摘要】本發(fā)明涉及基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法,有效解決微博炒作群體的發(fā)現(xiàn),防止虛假惡意炒作的問(wèn)題,方法是,以炒作微博的相關(guān)性為線索,基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合;以單個(gè)微博為事務(wù),參與微博傳播的賬戶為項(xiàng),構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù);對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù),找出所有事務(wù)中包含的最大頻繁項(xiàng)集,計(jì)算每個(gè)最大頻繁項(xiàng)集間的重疊率,將規(guī)模小的項(xiàng)集歸并到大項(xiàng)集中,減少交集次數(shù),事務(wù)間取交集時(shí),用二分查找法判斷事務(wù)中是否包含某項(xiàng)目,提高挖掘最大頻繁項(xiàng)集的效率,發(fā)現(xiàn)微博炒作群體,本發(fā)明方法簡(jiǎn)單,能準(zhǔn)確發(fā)現(xiàn)惡意微博炒作群體,防止給社會(huì)造成的不良影響。
【專(zhuān)利說(shuō)明】基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及微博輿情監(jiān)控領(lǐng)域,特別是一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]微博作為一種新興的社會(huì)媒體形式,兼具博客、媒體、即時(shí)通訊功能于一身。微博自身的即時(shí)性、草根性、移動(dòng)性、互動(dòng)性等特點(diǎn)使其成為網(wǎng)絡(luò)輿情傳播的天然載體。在網(wǎng)絡(luò)輿情中,微博不僅成為輿論傳播的中心和渠道,同時(shí)也參與輿論的形成、發(fā)展與引導(dǎo)過(guò)程。
[0003]微博傳播是一把雙刃劍:一方面,微博為一些社會(huì)事件中的信息公開(kāi)提供了一個(gè)快速響應(yīng)的平臺(tái),它在一定程度上彌補(bǔ)了傳統(tǒng)媒體和其他網(wǎng)絡(luò)工具的不足;另一方面,微博不同于傳統(tǒng)新聞媒體,其新聞的發(fā)布存在重復(fù)性,且真實(shí)性無(wú)法保證,可能會(huì)被利用成為謠言傳播的載體、不滿情緒的導(dǎo)火索,甚至給國(guó)家安全和社會(huì)穩(wěn)定造成極壞的后果。網(wǎng)絡(luò)不實(shí)信息始于其制造者,擴(kuò)散于其傳播者。
[0004]惠普公司旗下的社交計(jì)算研究團(tuán)隊(duì)在最新報(bào)告中稱(chēng),新浪微博存在異常嚴(yán)重的話題炒作問(wèn)題,圍繞熱門(mén)話題轉(zhuǎn)發(fā)的微博中有半數(shù)都是由炒作用戶發(fā)送的。研究發(fā)現(xiàn),熱門(mén)話題傳播中人為操縱的虛假轉(zhuǎn)發(fā)數(shù)量極大,1%的垃圾消息發(fā)送者創(chuàng)造了 49%的轉(zhuǎn)發(fā)量。自2013年8月以來(lái),政府部門(mén)加大了對(duì)網(wǎng)絡(luò)輿論引導(dǎo)的力度,根據(jù)對(duì)“秦火火”、“立二拆四”等所在網(wǎng)絡(luò)推手公司的調(diào)查結(jié)果來(lái)看,網(wǎng)絡(luò)中存在著大量有組織的推手團(tuán)隊(duì),他們伙同少數(shù)“意見(jiàn)領(lǐng)袖”組織網(wǎng)絡(luò)“水軍”,長(zhǎng)期在網(wǎng)上炮制虛假新聞、故意歪曲事實(shí),制造事端,混淆是非,嚴(yán)重?cái)_亂了網(wǎng)絡(luò)輿論秩序,其行為已經(jīng)受到國(guó)家輿情管控的高度關(guān)注,相關(guān)人等也因涉嫌犯罪被依法刑事拘留。
[0005]因此,面向新興媒體,針對(duì)各種隱藏的輿論煽動(dòng)行為,開(kāi)展對(duì)炒作微博的識(shí)別,分析其傳播群體特征,收集虛假推送行為的識(shí)別證據(jù),甄別人為制造的炒作熱點(diǎn),對(duì)于發(fā)現(xiàn)、預(yù)測(cè)、弓I導(dǎo)網(wǎng)絡(luò)輿論,提高政府輿論監(jiān)管能力,維護(hù)社會(huì)和諧穩(wěn)定具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
[0006]隨著微博的爆炸式發(fā)展,針對(duì)微博賬戶的研究吸引了國(guó)內(nèi)外學(xué)者的廣泛興趣,一些研究成果近年來(lái)在WWW、KDD等重要會(huì)議上發(fā)表。目前對(duì)微博賬戶的研究可以大致分為以下三類(lèi):1)特征分析,包括賬戶屬性特征和行為特征等;2)影響力分析,包括影響力評(píng)價(jià)體系構(gòu)建及度量方法等;3)賬戶間關(guān)系網(wǎng)絡(luò)分析,包括賬戶關(guān)系網(wǎng)絡(luò)的基本屬性、生成與演進(jìn)等。
[0007]然而,目前國(guó)內(nèi)外對(duì)炒作群體研究的文獻(xiàn)相對(duì)較少,主要相關(guān)文獻(xiàn)有對(duì)垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶的識(shí)別。垃圾賬戶是指經(jīng)常發(fā)布垃圾信息的賬戶,Z.Yi等人從多個(gè)角度分析了垃圾賬戶的特征,并采用機(jī)器學(xué)習(xí)的方式自動(dòng)識(shí)別垃圾賬戶。Chao Yang等人深入分析了垃圾賬戶間的社會(huì)關(guān)系,提出了一種根據(jù)賬戶間親密度來(lái)發(fā)現(xiàn)垃圾賬戶的方法。馬甲賬戶是指通過(guò)注冊(cè)多個(gè)賬號(hào)進(jìn)行發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為的虛假賬戶,Xueling Zheng等人提出了一種利用文本內(nèi)容、相似度匹配來(lái)識(shí)別馬甲賬戶的方法。僵尸賬戶是指為了進(jìn)行粉絲買(mǎi)賣(mài)而惡意注冊(cè)的賬戶,方明等提出了一種基于微博注冊(cè)賬戶名特征提取的智能分類(lèi)方法,具有較高的準(zhǔn)確率。但這些方法并未解決如何發(fā)現(xiàn)微博炒作群體,防止虛假炒作,炒作賬戶與以上幾類(lèi)賬戶之間最大的區(qū)別是,炒作賬戶側(cè)重于其“炒作”行為,參與炒作的賬戶較為分散且直接關(guān)系不明顯,隱蔽性和組織性更強(qiáng),也更加難以發(fā)現(xiàn)。
[0008]群體炒作與普通微博類(lèi)似,傳播人群的發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為表面上是孤立的,但是非常規(guī)的惡意傳播往往不是單個(gè)人的行為,而是有組織的群體行為,但是這種群體行為是隱蔽的,難以察覺(jué)。因此,如何發(fā)現(xiàn)微博炒作群體,防止虛假惡意炒作給社會(huì)造成的不良影響和不必要的經(jīng)濟(jì)損失,是必需認(rèn)真解決的技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0009]針對(duì)上述情況,為克服現(xiàn)有技術(shù)之缺陷,本發(fā)明之目的就是提供一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法,可有效解決微博炒作群體的發(fā)現(xiàn),防止虛假惡意炒作的問(wèn)題。
[0010]本發(fā)明解決的技術(shù)方案是,基于最大頻繁項(xiàng)集挖掘的微博炒作賬戶發(fā)現(xiàn)方法包括如下步驟:
[0011](I)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索,基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合;
[0012](2)事務(wù)數(shù)據(jù)庫(kù)構(gòu)建:以單個(gè)微博為事務(wù),參與微博傳播的賬戶為項(xiàng),構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù);
[0013](3)最大頻繁項(xiàng)集挖掘:對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù),利用迭代交集法找出所有事務(wù)中包含的最大頻繁項(xiàng)集,得到若干最大頻繁項(xiàng)集集合;
[0014]由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì),直接在原始事務(wù)數(shù)據(jù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率,利用二分查找法,快速剔除事務(wù)中的非頻繁項(xiàng)目,找出最大頻繁項(xiàng)集的候選集合,縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模;
[0015](4)最大頻繁項(xiàng)集歸并:對(duì)每個(gè)最大頻繁項(xiàng)集,計(jì)算項(xiàng)集間的重疊率,對(duì)最大頻繁項(xiàng)集進(jìn)行合并,盡量將規(guī)模較小的項(xiàng)集歸并到較大項(xiàng)集中,并保證歸并后項(xiàng)集中的賬戶依然具有一定的關(guān)聯(lián)性;通過(guò)縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模,減少交集次數(shù),事務(wù)間取交集時(shí),采用二分查找法判斷事務(wù)中是否包含某項(xiàng)目,以提高挖掘最大頻繁項(xiàng)集的效率,從而發(fā)現(xiàn)微博炒作群體。
[0016]本發(fā)明方法簡(jiǎn)單,易操作,能準(zhǔn)確發(fā)現(xiàn)惡意微博炒作群體,防止給社會(huì)造成的不良影響和不必要的經(jīng)濟(jì)損失,具有實(shí)際的應(yīng)用價(jià)值。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0017]圖1為本發(fā)明流程框示圖。
[0018]圖2為本發(fā)明的炒作微博事務(wù)數(shù)據(jù)庫(kù)示意圖。
[0019]圖3為本發(fā)明炒作微博事務(wù)數(shù)據(jù)庫(kù)截圖。
[0020]圖4為本發(fā)明算法在Mushroom數(shù)據(jù)集上執(zhí)行時(shí)間對(duì)比圖。
[0021]圖5為本發(fā)明算法在炒作微博數(shù)據(jù)集上執(zhí)行時(shí)間對(duì)比圖。[0022]圖6為本發(fā)明MFS中項(xiàng)集個(gè)數(shù)變化圖。
[0023]圖7為本發(fā)明MFS中項(xiàng)集的最大長(zhǎng)度變化圖。
【具體實(shí)施方式】
[0024]以下結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作詳細(xì)說(shuō)明。
[0025]由圖1給出,本發(fā)明包括炒作微博事務(wù)庫(kù)、最大頻繁項(xiàng)集挖掘以及最大頻繁項(xiàng)集歸并部分,炒作微博事務(wù)庫(kù)構(gòu)建模塊主要負(fù)責(zé)采集數(shù)據(jù)并進(jìn)行預(yù)處理,構(gòu)建事務(wù)數(shù)據(jù)庫(kù)D ;最大頻繁項(xiàng)集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項(xiàng)集,然后基于迭代交集方法從事務(wù)數(shù)據(jù)庫(kù)D中挖掘出最大頻繁項(xiàng)集MFS ;最大頻繁項(xiàng)集歸并模塊主要對(duì)MFS進(jìn)行歸并處理,以盡可能還原真實(shí)的炒作群體,具體步驟是:
[0026]I)、搜集炒作微博樣本
[0027]炒作微博樣本搜集實(shí)現(xiàn)本發(fā)明的最初步驟,微博樣本的選擇應(yīng)具有相關(guān)性,若某個(gè)炒作賬戶曾經(jīng)參與的若干微博,或與某個(gè)主題相關(guān)的若干微博,微博樣本的判定應(yīng)借鑒已有的成熟判別方法或?qū)<蚁到y(tǒng),炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲(chóng)技術(shù),從微博網(wǎng)頁(yè)下載網(wǎng)頁(yè)、解析頁(yè)面結(jié)構(gòu)并提取微博傳播賬戶的信息;另一種方法是調(diào)用微博公共開(kāi)放平臺(tái),調(diào)用微博官方對(duì)外提供的API函數(shù)獲取微博傳播賬戶的信息,為了有利于對(duì)炒作群體的發(fā)現(xiàn),在選取炒作微博樣本時(shí)還應(yīng)遵循以下原則:
[0028]a、選取轉(zhuǎn)發(fā)數(shù)相對(duì)較高的熱門(mén)微博;
[0029]b、微博發(fā)布 時(shí)間跨度〈180天;
[0030]按照待挖掘炒作賬戶的算法分析條件,樣本搜集的內(nèi)容應(yīng)包括微博標(biāo)識(shí)號(hào)、微博賬戶標(biāo)識(shí)號(hào)、微博賬戶的基本信息;
[0031]2)構(gòu)建事務(wù)數(shù)據(jù)庫(kù)
[0032]將炒作群體發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項(xiàng)集挖掘,在炒作微博樣本搜集的基礎(chǔ)上,將炒作微博對(duì)應(yīng)事務(wù),參與微博轉(zhuǎn)發(fā)的賬戶對(duì)應(yīng)事務(wù)中的項(xiàng),構(gòu)建事務(wù)數(shù)據(jù)庫(kù),如圖2所示;
[0033]3)基于二分查找的候選最大頻繁項(xiàng)集篩選
[0034]由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì),直接在原始事務(wù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率,基于二分查找的方法,能夠快速剔除事務(wù)中的非頻繁項(xiàng)目,找出最大頻繁項(xiàng)集的候選集合,縮減事務(wù)庫(kù)規(guī)模,給定事務(wù)數(shù)據(jù)庫(kù)D,最小支持?jǐn)?shù)S,進(jìn)行候選最大頻繁項(xiàng)集篩選,方法是:
[0035](I)將事務(wù)庫(kù)D中的事務(wù)按項(xiàng)目個(gè)數(shù)從大到小排序
[0036](2)記頻繁項(xiàng)目集合EI = 0,非頻繁項(xiàng)目集合NFI = 0 ;從i = I開(kāi)始,按順序遍歷D中的每個(gè)事務(wù)TiQ ( i ( |D|),對(duì)事務(wù)Ti中的每個(gè)項(xiàng)目u:
[0037]a)若 u e FI,則保留 u ;
[0038]b)若u e NFI,則從Ti中剔除u ;
[0039]c)若u € FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項(xiàng)目;
[0040](3)、從」=i+1開(kāi)始遍歷剩余的事務(wù),并利用二分查找法判斷Tj, i〈j≤D|中是否包含u,終止條件為:
[0041]a)當(dāng)包含u的事務(wù)個(gè)數(shù)達(dá)到S時(shí),說(shuō)明u是頻繁項(xiàng)目,將u加入到FI中;[0042]b)當(dāng)剩余的事務(wù)個(gè)數(shù)與包含了 U的事務(wù)個(gè)數(shù)之和小于S時(shí),說(shuō)明U是非頻繁項(xiàng)目,從Ti中剔除U。若此時(shí)包含了 u的事務(wù)個(gè)數(shù)大于1,說(shuō)明u還出現(xiàn)在Ti之外的事務(wù)中,則將u加入到NFI中;
[0043](4)剔除完D中所有事務(wù)中的非頻繁項(xiàng)目后,即可得到縮減后的事務(wù)庫(kù)D1 ;
[0044]4)基于迭代交集的最大頻繁項(xiàng)集挖掘:
[0045]通過(guò)對(duì)事務(wù)迭代取交集的方式挖掘最大頻繁項(xiàng)集,給定縮減后的事務(wù)庫(kù)D1,最小支持?jǐn)?shù)S,最大頻繁項(xiàng)集挖掘的方法如下:
[0046](1)將事務(wù)庫(kù)D1中的事務(wù)按項(xiàng)的個(gè)數(shù)從大到小排序,以盡早發(fā)現(xiàn)最大頻繁項(xiàng)集,為縮減事務(wù)庫(kù)規(guī)模,合并事務(wù)庫(kù)中重復(fù)的事務(wù),并對(duì)事務(wù)個(gè)數(shù)計(jì)數(shù);
[0047](2)為減少取交集的次數(shù),對(duì)于事務(wù)Ti, 1≤ i ≤M1-S+1,從i = 1開(kāi)始,首先找出包含了 Ti中任意項(xiàng)的事務(wù)集合TjITj至少包含了 Ti中的一個(gè)項(xiàng)目;j>i),Ti依次與Tj取交集,將兩者的交集移入新的事務(wù)庫(kù)D2,同時(shí)剔除Tp T,
[0048](3)對(duì)于新事務(wù)庫(kù)D2中的事務(wù)T,如果T是由不小于S個(gè)事務(wù)取交集而得,則將T移入最大頻繁候選項(xiàng)集集合MFCS中,同時(shí)剔除T在D2中的子事務(wù);
[0049](4)如果新事務(wù)庫(kù)D2中的剩余事務(wù)個(gè)數(shù)小于S,則結(jié)束對(duì)事務(wù)庫(kù)D2的處理,返回到上層事務(wù)庫(kù);否則,對(duì)D2從第I步開(kāi)始再進(jìn)行此過(guò)程;
[0050](5)當(dāng)事務(wù)庫(kù)D1中剩余的事務(wù)數(shù)小于S時(shí),即DlD11-S+1,結(jié)束對(duì)當(dāng)前事務(wù)庫(kù)DJA處理;
[0051](6)對(duì)MFCS中的項(xiàng)集進(jìn)行合并同時(shí)剔除非最大頻繁項(xiàng)集,最后的結(jié)果即為所求的最大頻繁項(xiàng)集集合MFS ;
[0052]5)最大頻繁項(xiàng)集歸并:
[0053]由于最小支持?jǐn)?shù)的限制,使得MFS中最大頻繁項(xiàng)集規(guī)模較小,而且有些項(xiàng)集之間存在大量的重疊項(xiàng),這些項(xiàng)集代表的賬戶群很可能從屬于同一個(gè)炒作群體,為解決這一問(wèn)題,使用重疊率來(lái)反映兩個(gè)項(xiàng)集之間的相似性,設(shè)項(xiàng)集X1, X2 e MFS,將X1和X2的重疊率記為:
[0054]
【權(quán)利要求】
1.一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,包括如下步驟: (1)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索,基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合; (2)事務(wù)數(shù)據(jù)庫(kù)構(gòu)建:以單個(gè)微博為事務(wù),參與微博傳播的賬戶為項(xiàng),構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù); (3)最大頻繁項(xiàng)集挖掘:對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù),利用迭代交集法找出所有事務(wù)中包含的最大頻繁項(xiàng)集,得到若干最大頻繁項(xiàng)集集合; 由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì),直接在原始事務(wù)數(shù)據(jù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率,利用二分查找法,快速剔除事務(wù)中的非頻繁項(xiàng)目,找出最大頻繁項(xiàng)集的候選集合,縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模; (4)最大頻繁項(xiàng)集歸并:對(duì)每個(gè)最大頻繁項(xiàng)集,計(jì)算項(xiàng)集間的重疊率,對(duì)最大頻繁項(xiàng)集進(jìn)行合并,盡量將規(guī)模 較小的項(xiàng)集歸并到較大項(xiàng)集中,并保證歸并后項(xiàng)集中的賬戶依然具有一定的關(guān)聯(lián)性;通過(guò)縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模,減少交集次數(shù),事務(wù)間取交集時(shí),采用二分查找法判斷事務(wù)中是否包含某項(xiàng)目,以提高挖掘最大頻繁項(xiàng)集的效率,從而發(fā)現(xiàn)微博炒作群體。
2.根據(jù)權(quán)利要求1所述的基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,包括炒作微博事務(wù)庫(kù)、最大頻繁項(xiàng)集挖掘以及最大頻繁項(xiàng)集歸并部分,炒作微博事務(wù)庫(kù)構(gòu)建模塊主要負(fù)責(zé)采集數(shù)據(jù)并進(jìn)行預(yù)處理,構(gòu)建事務(wù)數(shù)據(jù)庫(kù)D ;最大頻繁項(xiàng)集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項(xiàng)集,然后基于迭代交集方法從事務(wù)數(shù)據(jù)庫(kù)D中挖掘出最大頻繁項(xiàng)集MFS ;最大頻繁項(xiàng)集歸并模塊主要對(duì)MFS進(jìn)行歸并處理,還原真實(shí)的炒作群體,具體步驟是: 1)、搜集炒作微博樣本 炒作微博樣本搜集實(shí)現(xiàn)本發(fā)明的最初步驟,微博樣本的選擇應(yīng)具有相關(guān)性,若某個(gè)炒作賬戶曾經(jīng)參與的若干微博,或與某個(gè)主題相關(guān)的若干微博,微博樣本的判定應(yīng)借鑒已有的成熟判別方法或?qū)<蚁到y(tǒng),炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲(chóng)技術(shù),從微博網(wǎng)頁(yè)下載網(wǎng)頁(yè)、解析頁(yè)面結(jié)構(gòu)并提取微博傳播賬戶的信息;另一種方法是調(diào)用微博公共開(kāi)放平臺(tái),調(diào)用微博官方對(duì)外提供的API函數(shù)獲取微博傳播賬戶的信息; 按照待挖掘炒作賬戶的算法分析條件,樣本搜集的內(nèi)容應(yīng)包括微博標(biāo)識(shí)號(hào)、微博賬戶標(biāo)識(shí)號(hào)、微博賬戶的基本信息; 2)構(gòu)建事務(wù)數(shù)據(jù)庫(kù) 將炒作群體發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項(xiàng)集挖掘,在炒作微博樣本搜集的基礎(chǔ)上,將炒作微博對(duì)應(yīng)事務(wù),參與微博轉(zhuǎn)發(fā)的賬戶對(duì)應(yīng)事務(wù)中的項(xiàng),構(gòu)建事務(wù)數(shù)據(jù)庫(kù),如圖2所示; 3)基于二分查找的候選最大頻繁項(xiàng)集篩選 由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì),直接在原始事務(wù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率,基于二分查找的方法,能夠快速剔除事務(wù)中的非頻繁項(xiàng)目,找出最大頻繁項(xiàng)集的候選集合,縮減事務(wù)庫(kù)規(guī)模,給定事務(wù)數(shù)據(jù)庫(kù)D,最小支持?jǐn)?shù)S,進(jìn)行候選最大頻繁項(xiàng)集篩選,方法是:(1)將事務(wù)庫(kù)D中的事務(wù)按項(xiàng)目個(gè)數(shù)從大到小排序 (2)記頻繁項(xiàng)目集合FI= 0,非頻繁項(xiàng)目集合NKl = 0 ;從i = I開(kāi)始,按順序遍歷D中的每個(gè)事務(wù)TiQ ≤ i ≤ |D|),對(duì)事務(wù)Ti中的每個(gè)項(xiàng)目u: a)若ue FI,則保留u; b)若ue NFI,則從Ti中剔除u ; c)若M€ FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項(xiàng)目; (3)、從」_= i+1開(kāi)始遍歷剩余的事務(wù),并利用二分查找法判斷Tj, i〈j ≤|D|中是否包含u,終止條件為: a)當(dāng)包含u的事務(wù)個(gè)數(shù)達(dá)到S時(shí),說(shuō)明u是頻繁項(xiàng)目,將u加入到FI中; b)當(dāng)剩余的事務(wù)個(gè)數(shù)與包含了u的事務(wù)個(gè)數(shù)之和小于S時(shí),說(shuō)明u是非頻繁項(xiàng)目,從Ti中剔除U,若此時(shí)包含了 u的事務(wù)個(gè)數(shù)大于1,說(shuō)明u還出現(xiàn)在Ti之外的事務(wù)中,則將u加入到NFI中; (4)剔除完D中所有事務(wù)中的非頻繁項(xiàng)目后,即可得到縮減后的事務(wù)庫(kù)D1; 4)基于迭代交集的最大頻繁項(xiàng)集挖掘: 通過(guò)對(duì)事務(wù)迭代取交集的方式挖掘最大頻繁項(xiàng)集,給定縮減后的事務(wù)庫(kù)D1,最小支持?jǐn)?shù)S,最大頻繁項(xiàng)集挖掘的方法如下: (1)將事務(wù)庫(kù)D1中的事務(wù)按項(xiàng)的個(gè)數(shù)從大到小排序,以盡早發(fā)現(xiàn)最大頻繁項(xiàng)集,為縮減事務(wù)庫(kù)規(guī)模,合并事務(wù)庫(kù)中重復(fù)的事務(wù),并對(duì)事務(wù)個(gè)數(shù)計(jì)數(shù); (2)為減少取交集的次數(shù),對(duì)于事務(wù)Ti;l≤i≤^+^|土二丄開(kāi)始’首先找出包含了 Ti中任意項(xiàng)的事務(wù)集合1?, TjITj至少包含了 Ti中的一個(gè)項(xiàng)目;j>i),Ti依次與Tj取交集,將兩者的交集移入新的事務(wù)庫(kù)D2,同時(shí)剔除TjCTl , (3)對(duì)于新事務(wù)庫(kù)D2中的事務(wù)T,如果T是由不小于S個(gè)事務(wù)取交集而得,則將T移入最大頻繁候選項(xiàng)集集合MFCS中,同時(shí)剔除T在D2中的子事務(wù); (4)如果新事務(wù)庫(kù)D2中的剩余事務(wù)個(gè)數(shù)小于S,則結(jié)束對(duì)事務(wù)庫(kù)D2的處理,返回到上層事務(wù)庫(kù);否則,對(duì)D2從第I步開(kāi)始再進(jìn)行此過(guò)程; (5)當(dāng)事務(wù)庫(kù)D1中剩余的事務(wù)數(shù)小于S時(shí),即DlDil-S+Ι,結(jié)束對(duì)當(dāng)前事務(wù)庫(kù)D1的處理; (6)對(duì)MFCS中的項(xiàng)集進(jìn)行合并同時(shí)剔除非最大頻繁項(xiàng)集,最后的結(jié)果即為所求的最大頻繁項(xiàng)集集合MFS ; 5)最大頻繁項(xiàng)集歸并: 由于最小支持?jǐn)?shù)的限制,使得MFS中最大頻繁項(xiàng)集規(guī)模較小,而且有些項(xiàng)集之間存在大量的重疊項(xiàng),這些項(xiàng)集代表的賬戶群很可能從屬于同一個(gè)炒作群體,為解決這一問(wèn)題,使用重疊率來(lái)反映兩個(gè)項(xiàng)集之間的相似性,設(shè)項(xiàng)集X1, X2 e MFSJf X1和X2的重疊率記為:
3.根據(jù)權(quán)利要求2所述的基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,所述的步驟1)中,搜集炒作微博樣本應(yīng)符合如下條件: a、選取轉(zhuǎn)發(fā)數(shù)相對(duì)較高的熱門(mén)微博; b、微博發(fā)布時(shí)間跨度〈180天;以利于對(duì)炒作群體的發(fā)現(xiàn)。
【文檔編號(hào)】G06F17/30GK103927398SQ201410188004
【公開(kāi)日】2014年7月16日 申請(qǐng)日期:2014年5月7日 優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】劉琰, 張進(jìn), 羅軍勇, 羅向陽(yáng), 董雨辰, 陳靜, 常斌 申請(qǐng)人:中國(guó)人民解放軍信息工程大學(xué)