基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法

文檔序號(hào)：6545694閱讀：233來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法
【專(zhuān)利摘要】本發(fā)明涉及基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法，有效解決微博炒作群體的發(fā)現(xiàn)，防止虛假惡意炒作的問(wèn)題，方法是，以炒作微博的相關(guān)性為線索，基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合；以單個(gè)微博為事務(wù)，參與微博傳播的賬戶為項(xiàng)，構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù)；對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)，找出所有事務(wù)中包含的最大頻繁項(xiàng)集，計(jì)算每個(gè)最大頻繁項(xiàng)集間的重疊率，將規(guī)模小的項(xiàng)集歸并到大項(xiàng)集中，減少交集次數(shù)，事務(wù)間取交集時(shí)，用二分查找法判斷事務(wù)中是否包含某項(xiàng)目，提高挖掘最大頻繁項(xiàng)集的效率，發(fā)現(xiàn)微博炒作群體，本發(fā)明方法簡(jiǎn)單，能準(zhǔn)確發(fā)現(xiàn)惡意微博炒作群體，防止給社會(huì)造成的不良影響。
【專(zhuān)利說(shuō)明】基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及微博輿情監(jiān)控領(lǐng)域，特別是一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]微博作為一種新興的社會(huì)媒體形式，兼具博客、媒體、即時(shí)通訊功能于一身。微博自身的即時(shí)性、草根性、移動(dòng)性、互動(dòng)性等特點(diǎn)使其成為網(wǎng)絡(luò)輿情傳播的天然載體。在網(wǎng)絡(luò)輿情中，微博不僅成為輿論傳播的中心和渠道，同時(shí)也參與輿論的形成、發(fā)展與引導(dǎo)過(guò)程。
[0003]微博傳播是一把雙刃劍:一方面，微博為一些社會(huì)事件中的信息公開(kāi)提供了一個(gè)快速響應(yīng)的平臺(tái)，它在一定程度上彌補(bǔ)了傳統(tǒng)媒體和其他網(wǎng)絡(luò)工具的不足；另一方面，微博不同于傳統(tǒng)新聞媒體，其新聞的發(fā)布存在重復(fù)性，且真實(shí)性無(wú)法保證，可能會(huì)被利用成為謠言傳播的載體、不滿情緒的導(dǎo)火索，甚至給國(guó)家安全和社會(huì)穩(wěn)定造成極壞的后果。網(wǎng)絡(luò)不實(shí)信息始于其制造者，擴(kuò)散于其傳播者。
[0004]惠普公司旗下的社交計(jì)算研究團(tuán)隊(duì)在最新報(bào)告中稱(chēng)，新浪微博存在異常嚴(yán)重的話題炒作問(wèn)題，圍繞熱門(mén)話題轉(zhuǎn)發(fā)的微博中有半數(shù)都是由炒作用戶發(fā)送的。研究發(fā)現(xiàn)，熱門(mén)話題傳播中人為操縱的虛假轉(zhuǎn)發(fā)數(shù)量極大，1%的垃圾消息發(fā)送者創(chuàng)造了 49%的轉(zhuǎn)發(fā)量。自2013年8月以來(lái)，政府部門(mén)加大了對(duì)網(wǎng)絡(luò)輿論引導(dǎo)的力度，根據(jù)對(duì)“秦火火”、“立二拆四”等所在網(wǎng)絡(luò)推手公司的調(diào)查結(jié)果來(lái)看，網(wǎng)絡(luò)中存在著大量有組織的推手團(tuán)隊(duì)，他們伙同少數(shù)“意見(jiàn)領(lǐng)袖”組織網(wǎng)絡(luò)“水軍”，長(zhǎng)期在網(wǎng)上炮制虛假新聞、故意歪曲事實(shí)，制造事端，混淆是非，嚴(yán)重?cái)_亂了網(wǎng)絡(luò)輿論秩序，其行為已經(jīng)受到國(guó)家輿情管控的高度關(guān)注，相關(guān)人等也因涉嫌犯罪被依法刑事拘留。
[0005]因此，面向新興媒體，針對(duì)各種隱藏的輿論煽動(dòng)行為，開(kāi)展對(duì)炒作微博的識(shí)別，分析其傳播群體特征，收集虛假推送行為的識(shí)別證據(jù)，甄別人為制造的炒作熱點(diǎn)，對(duì)于發(fā)現(xiàn)、預(yù)測(cè)、弓I導(dǎo)網(wǎng)絡(luò)輿論，提高政府輿論監(jiān)管能力，維護(hù)社會(huì)和諧穩(wěn)定具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
[0006]隨著微博的爆炸式發(fā)展，針對(duì)微博賬戶的研究吸引了國(guó)內(nèi)外學(xué)者的廣泛興趣，一些研究成果近年來(lái)在WWW、KDD等重要會(huì)議上發(fā)表。目前對(duì)微博賬戶的研究可以大致分為以下三類(lèi):1)特征分析，包括賬戶屬性特征和行為特征等；2)影響力分析，包括影響力評(píng)價(jià)體系構(gòu)建及度量方法等；3)賬戶間關(guān)系網(wǎng)絡(luò)分析，包括賬戶關(guān)系網(wǎng)絡(luò)的基本屬性、生成與演進(jìn)等。
[0007]然而，目前國(guó)內(nèi)外對(duì)炒作群體研究的文獻(xiàn)相對(duì)較少，主要相關(guān)文獻(xiàn)有對(duì)垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶的識(shí)別。垃圾賬戶是指經(jīng)常發(fā)布垃圾信息的賬戶，Z.Yi等人從多個(gè)角度分析了垃圾賬戶的特征，并采用機(jī)器學(xué)習(xí)的方式自動(dòng)識(shí)別垃圾賬戶。Chao Yang等人深入分析了垃圾賬戶間的社會(huì)關(guān)系，提出了一種根據(jù)賬戶間親密度來(lái)發(fā)現(xiàn)垃圾賬戶的方法。馬甲賬戶是指通過(guò)注冊(cè)多個(gè)賬號(hào)進(jìn)行發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為的虛假賬戶，Xueling Zheng等人提出了一種利用文本內(nèi)容、相似度匹配來(lái)識(shí)別馬甲賬戶的方法。僵尸賬戶是指為了進(jìn)行粉絲買(mǎi)賣(mài)而惡意注冊(cè)的賬戶，方明等提出了一種基于微博注冊(cè)賬戶名特征提取的智能分類(lèi)方法，具有較高的準(zhǔn)確率。但這些方法并未解決如何發(fā)現(xiàn)微博炒作群體，防止虛假炒作，炒作賬戶與以上幾類(lèi)賬戶之間最大的區(qū)別是，炒作賬戶側(cè)重于其“炒作”行為，參與炒作的賬戶較為分散且直接關(guān)系不明顯，隱蔽性和組織性更強(qiáng)，也更加難以發(fā)現(xiàn)。
[0008]群體炒作與普通微博類(lèi)似，傳播人群的發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論等行為表面上是孤立的，但是非常規(guī)的惡意傳播往往不是單個(gè)人的行為，而是有組織的群體行為，但是這種群體行為是隱蔽的，難以察覺(jué)。因此，如何發(fā)現(xiàn)微博炒作群體，防止虛假惡意炒作給社會(huì)造成的不良影響和不必要的經(jīng)濟(jì)損失，是必需認(rèn)真解決的技術(shù)問(wèn)題。

【發(fā)明內(nèi)容】

[0009]針對(duì)上述情況，為克服現(xiàn)有技術(shù)之缺陷，本發(fā)明之目的就是提供一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法，可有效解決微博炒作群體的發(fā)現(xiàn)，防止虛假惡意炒作的問(wèn)題。
[0010]本發(fā)明解決的技術(shù)方案是，基于最大頻繁項(xiàng)集挖掘的微博炒作賬戶發(fā)現(xiàn)方法包括如下步驟:
[0011](I)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索，基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合；
[0012](2)事務(wù)數(shù)據(jù)庫(kù)構(gòu)建:以單個(gè)微博為事務(wù)，參與微博傳播的賬戶為項(xiàng)，構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù)；
[0013](3)最大頻繁項(xiàng)集挖掘:對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)，利用迭代交集法找出所有事務(wù)中包含的最大頻繁項(xiàng)集，得到若干最大頻繁項(xiàng)集集合；
[0014]由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì)，直接在原始事務(wù)數(shù)據(jù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率，利用二分查找法，快速剔除事務(wù)中的非頻繁項(xiàng)目，找出最大頻繁項(xiàng)集的候選集合，縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模；
[0015](4)最大頻繁項(xiàng)集歸并:對(duì)每個(gè)最大頻繁項(xiàng)集，計(jì)算項(xiàng)集間的重疊率，對(duì)最大頻繁項(xiàng)集進(jìn)行合并，盡量將規(guī)模較小的項(xiàng)集歸并到較大項(xiàng)集中，并保證歸并后項(xiàng)集中的賬戶依然具有一定的關(guān)聯(lián)性；通過(guò)縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模，減少交集次數(shù)，事務(wù)間取交集時(shí)，采用二分查找法判斷事務(wù)中是否包含某項(xiàng)目，以提高挖掘最大頻繁項(xiàng)集的效率，從而發(fā)現(xiàn)微博炒作群體。
[0016]本發(fā)明方法簡(jiǎn)單，易操作，能準(zhǔn)確發(fā)現(xiàn)惡意微博炒作群體，防止給社會(huì)造成的不良影響和不必要的經(jīng)濟(jì)損失，具有實(shí)際的應(yīng)用價(jià)值。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0017]圖1為本發(fā)明流程框示圖。
[0018]圖2為本發(fā)明的炒作微博事務(wù)數(shù)據(jù)庫(kù)示意圖。
[0019]圖3為本發(fā)明炒作微博事務(wù)數(shù)據(jù)庫(kù)截圖。
[0020]圖4為本發(fā)明算法在Mushroom數(shù)據(jù)集上執(zhí)行時(shí)間對(duì)比圖。
[0021]圖5為本發(fā)明算法在炒作微博數(shù)據(jù)集上執(zhí)行時(shí)間對(duì)比圖。[0022]圖6為本發(fā)明MFS中項(xiàng)集個(gè)數(shù)變化圖。
[0023]圖7為本發(fā)明MFS中項(xiàng)集的最大長(zhǎng)度變化圖。
【具體實(shí)施方式】
[0024]以下結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作詳細(xì)說(shuō)明。
[0025]由圖1給出，本發(fā)明包括炒作微博事務(wù)庫(kù)、最大頻繁項(xiàng)集挖掘以及最大頻繁項(xiàng)集歸并部分，炒作微博事務(wù)庫(kù)構(gòu)建模塊主要負(fù)責(zé)采集數(shù)據(jù)并進(jìn)行預(yù)處理，構(gòu)建事務(wù)數(shù)據(jù)庫(kù)D ；最大頻繁項(xiàng)集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項(xiàng)集，然后基于迭代交集方法從事務(wù)數(shù)據(jù)庫(kù)D中挖掘出最大頻繁項(xiàng)集MFS ;最大頻繁項(xiàng)集歸并模塊主要對(duì)MFS進(jìn)行歸并處理，以盡可能還原真實(shí)的炒作群體，具體步驟是:
[0026]I)、搜集炒作微博樣本
[0027]炒作微博樣本搜集實(shí)現(xiàn)本發(fā)明的最初步驟，微博樣本的選擇應(yīng)具有相關(guān)性，若某個(gè)炒作賬戶曾經(jīng)參與的若干微博，或與某個(gè)主題相關(guān)的若干微博，微博樣本的判定應(yīng)借鑒已有的成熟判別方法或?qū)＜蚁到y(tǒng)，炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲(chóng)技術(shù)，從微博網(wǎng)頁(yè)下載網(wǎng)頁(yè)、解析頁(yè)面結(jié)構(gòu)并提取微博傳播賬戶的信息；另一種方法是調(diào)用微博公共開(kāi)放平臺(tái)，調(diào)用微博官方對(duì)外提供的API函數(shù)獲取微博傳播賬戶的信息，為了有利于對(duì)炒作群體的發(fā)現(xiàn)，在選取炒作微博樣本時(shí)還應(yīng)遵循以下原則:
[0028]a、選取轉(zhuǎn)發(fā)數(shù)相對(duì)較高的熱門(mén)微博；
[0029]b、微博發(fā)布時(shí)間跨度〈180天；
[0030]按照待挖掘炒作賬戶的算法分析條件，樣本搜集的內(nèi)容應(yīng)包括微博標(biāo)識(shí)號(hào)、微博賬戶標(biāo)識(shí)號(hào)、微博賬戶的基本信息；
[0031]2)構(gòu)建事務(wù)數(shù)據(jù)庫(kù)
[0032]將炒作群體發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項(xiàng)集挖掘，在炒作微博樣本搜集的基礎(chǔ)上，將炒作微博對(duì)應(yīng)事務(wù)，參與微博轉(zhuǎn)發(fā)的賬戶對(duì)應(yīng)事務(wù)中的項(xiàng)，構(gòu)建事務(wù)數(shù)據(jù)庫(kù)，如圖2所示；
[0033]3)基于二分查找的候選最大頻繁項(xiàng)集篩選
[0034]由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì)，直接在原始事務(wù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率，基于二分查找的方法，能夠快速剔除事務(wù)中的非頻繁項(xiàng)目，找出最大頻繁項(xiàng)集的候選集合，縮減事務(wù)庫(kù)規(guī)模，給定事務(wù)數(shù)據(jù)庫(kù)D，最小支持?jǐn)?shù)S，進(jìn)行候選最大頻繁項(xiàng)集篩選，方法是:
[0035](I)將事務(wù)庫(kù)D中的事務(wù)按項(xiàng)目個(gè)數(shù)從大到小排序
[0036](2)記頻繁項(xiàng)目集合EI = 0,非頻繁項(xiàng)目集合NFI = 0 ;從i = I開(kāi)始,按順序遍歷D中的每個(gè)事務(wù)TiQ ( i ( |D|)，對(duì)事務(wù)Ti中的每個(gè)項(xiàng)目u:
[0037]a)若 u e FI，則保留 u ;
[0038]b)若u e NFI，則從Ti中剔除u ；
[0039]c)若u € FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項(xiàng)目；
[0040](3)、從」=i+1開(kāi)始遍歷剩余的事務(wù),并利用二分查找法判斷Tj, i〈j≤D|中是否包含u,終止條件為:
[0041]a)當(dāng)包含u的事務(wù)個(gè)數(shù)達(dá)到S時(shí),說(shuō)明u是頻繁項(xiàng)目，將u加入到FI中；[0042]b)當(dāng)剩余的事務(wù)個(gè)數(shù)與包含了 U的事務(wù)個(gè)數(shù)之和小于S時(shí)，說(shuō)明U是非頻繁項(xiàng)目，從Ti中剔除U。若此時(shí)包含了 u的事務(wù)個(gè)數(shù)大于1，說(shuō)明u還出現(xiàn)在Ti之外的事務(wù)中，則將u加入到NFI中；
[0043](4)剔除完D中所有事務(wù)中的非頻繁項(xiàng)目后，即可得到縮減后的事務(wù)庫(kù)D1 ；
[0044]4)基于迭代交集的最大頻繁項(xiàng)集挖掘:
[0045]通過(guò)對(duì)事務(wù)迭代取交集的方式挖掘最大頻繁項(xiàng)集，給定縮減后的事務(wù)庫(kù)D1，最小支持?jǐn)?shù)S，最大頻繁項(xiàng)集挖掘的方法如下:
[0046](1)將事務(wù)庫(kù)D1中的事務(wù)按項(xiàng)的個(gè)數(shù)從大到小排序，以盡早發(fā)現(xiàn)最大頻繁項(xiàng)集，為縮減事務(wù)庫(kù)規(guī)模，合并事務(wù)庫(kù)中重復(fù)的事務(wù)，并對(duì)事務(wù)個(gè)數(shù)計(jì)數(shù)；
[0047](2)為減少取交集的次數(shù)，對(duì)于事務(wù)Ti, 1≤ i ≤M1-S+1，從i = 1開(kāi)始，首先找出包含了 Ti中任意項(xiàng)的事務(wù)集合TjITj至少包含了 Ti中的一個(gè)項(xiàng)目；j>i)，Ti依次與Tj取交集，將兩者的交集移入新的事務(wù)庫(kù)D2,同時(shí)剔除Tp T,
[0048](3)對(duì)于新事務(wù)庫(kù)D2中的事務(wù)T，如果T是由不小于S個(gè)事務(wù)取交集而得，則將T移入最大頻繁候選項(xiàng)集集合MFCS中，同時(shí)剔除T在D2中的子事務(wù)；
[0049](4)如果新事務(wù)庫(kù)D2中的剩余事務(wù)個(gè)數(shù)小于S，則結(jié)束對(duì)事務(wù)庫(kù)D2的處理，返回到上層事務(wù)庫(kù)；否則，對(duì)D2從第I步開(kāi)始再進(jìn)行此過(guò)程；
[0050](5)當(dāng)事務(wù)庫(kù)D1中剩余的事務(wù)數(shù)小于S時(shí)，即DlD11-S+1，結(jié)束對(duì)當(dāng)前事務(wù)庫(kù)DJA處理；
[0051](6)對(duì)MFCS中的項(xiàng)集進(jìn)行合并同時(shí)剔除非最大頻繁項(xiàng)集，最后的結(jié)果即為所求的最大頻繁項(xiàng)集集合MFS ；
[0052]5)最大頻繁項(xiàng)集歸并:
[0053]由于最小支持?jǐn)?shù)的限制，使得MFS中最大頻繁項(xiàng)集規(guī)模較小，而且有些項(xiàng)集之間存在大量的重疊項(xiàng)，這些項(xiàng)集代表的賬戶群很可能從屬于同一個(gè)炒作群體，為解決這一問(wèn)題，使用重疊率來(lái)反映兩個(gè)項(xiàng)集之間的相似性，設(shè)項(xiàng)集X1, X2 e MFS,將X1和X2的重疊率記為:
[0054]
【權(quán)利要求】
1.一種基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法，其特征在于，包括如下步驟: (1)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索，基于爬蟲(chóng)技術(shù)或微博公共開(kāi)放平臺(tái)獲取參與炒作微博傳播的賬戶集合； (2)事務(wù)數(shù)據(jù)庫(kù)構(gòu)建:以單個(gè)微博為事務(wù)，參與微博傳播的賬戶為項(xiàng)，構(gòu)建炒作微博事務(wù)數(shù)據(jù)庫(kù)； (3)最大頻繁項(xiàng)集挖掘:對(duì)待檢測(cè)微博組所對(duì)應(yīng)的事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)，利用迭代交集法找出所有事務(wù)中包含的最大頻繁項(xiàng)集，得到若干最大頻繁項(xiàng)集集合；由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì)，直接在原始事務(wù)數(shù)據(jù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率，利用二分查找法，快速剔除事務(wù)中的非頻繁項(xiàng)目，找出最大頻繁項(xiàng)集的候選集合，縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模； (4)最大頻繁項(xiàng)集歸并:對(duì)每個(gè)最大頻繁項(xiàng)集，計(jì)算項(xiàng)集間的重疊率，對(duì)最大頻繁項(xiàng)集進(jìn)行合并，盡量將規(guī)模較小的項(xiàng)集歸并到較大項(xiàng)集中，并保證歸并后項(xiàng)集中的賬戶依然具有一定的關(guān)聯(lián)性；通過(guò)縮減事務(wù)數(shù)據(jù)庫(kù)規(guī)模，減少交集次數(shù)，事務(wù)間取交集時(shí)，采用二分查找法判斷事務(wù)中是否包含某項(xiàng)目，以提高挖掘最大頻繁項(xiàng)集的效率，從而發(fā)現(xiàn)微博炒作群體。
2.根據(jù)權(quán)利要求1所述的基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法，其特征在于，包括炒作微博事務(wù)庫(kù)、最大頻繁項(xiàng)集挖掘以及最大頻繁項(xiàng)集歸并部分，炒作微博事務(wù)庫(kù)構(gòu)建模塊主要負(fù)責(zé)采集數(shù)據(jù)并進(jìn)行預(yù)處理，構(gòu)建事務(wù)數(shù)據(jù)庫(kù)D ;最大頻繁項(xiàng)集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項(xiàng)集，然后基于迭代交集方法從事務(wù)數(shù)據(jù)庫(kù)D中挖掘出最大頻繁項(xiàng)集MFS ;最大頻繁項(xiàng)集歸并模塊主要對(duì)MFS進(jìn)行歸并處理，還原真實(shí)的炒作群體，具體步驟是: 1)、搜集炒作微博樣本炒作微博樣本搜集實(shí)現(xiàn)本發(fā)明的最初步驟，微博樣本的選擇應(yīng)具有相關(guān)性，若某個(gè)炒作賬戶曾經(jīng)參與的若干微博，或與某個(gè)主題相關(guān)的若干微博，微博樣本的判定應(yīng)借鑒已有的成熟判別方法或?qū)＜蚁到y(tǒng)，炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲(chóng)技術(shù)，從微博網(wǎng)頁(yè)下載網(wǎng)頁(yè)、解析頁(yè)面結(jié)構(gòu)并提取微博傳播賬戶的信息；另一種方法是調(diào)用微博公共開(kāi)放平臺(tái)，調(diào)用微博官方對(duì)外提供的API函數(shù)獲取微博傳播賬戶的信息；按照待挖掘炒作賬戶的算法分析條件，樣本搜集的內(nèi)容應(yīng)包括微博標(biāo)識(shí)號(hào)、微博賬戶標(biāo)識(shí)號(hào)、微博賬戶的基本信息； 2)構(gòu)建事務(wù)數(shù)據(jù)庫(kù) 將炒作群體發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項(xiàng)集挖掘，在炒作微博樣本搜集的基礎(chǔ)上，將炒作微博對(duì)應(yīng)事務(wù)，參與微博轉(zhuǎn)發(fā)的賬戶對(duì)應(yīng)事務(wù)中的項(xiàng)，構(gòu)建事務(wù)數(shù)據(jù)庫(kù)，如圖2所示； 3)基于二分查找的候選最大頻繁項(xiàng)集篩選由于炒作微博事務(wù)庫(kù)中每個(gè)事務(wù)包含的項(xiàng)目大都數(shù)以萬(wàn)計(jì)，直接在原始事務(wù)庫(kù)中挖掘最大頻繁項(xiàng)集將會(huì)影響算法執(zhí)行的效率，基于二分查找的方法，能夠快速剔除事務(wù)中的非頻繁項(xiàng)目，找出最大頻繁項(xiàng)集的候選集合，縮減事務(wù)庫(kù)規(guī)模，給定事務(wù)數(shù)據(jù)庫(kù)D，最小支持?jǐn)?shù)S，進(jìn)行候選最大頻繁項(xiàng)集篩選，方法是:(1)將事務(wù)庫(kù)D中的事務(wù)按項(xiàng)目個(gè)數(shù)從大到小排序 (2)記頻繁項(xiàng)目集合FI= 0，非頻繁項(xiàng)目集合NKl = 0 ;從i = I開(kāi)始，按順序遍歷D中的每個(gè)事務(wù)TiQ ≤ i ≤ |D|)，對(duì)事務(wù)Ti中的每個(gè)項(xiàng)目u: a)若ue FI，則保留u; b)若ue NFI，則從Ti中剔除u ; c)若M€ FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項(xiàng)目； (3)、從」_= i+1開(kāi)始遍歷剩余的事務(wù)，并利用二分查找法判斷Tj, i〈j ≤|D|中是否包含u,終止條件為: a)當(dāng)包含u的事務(wù)個(gè)數(shù)達(dá)到S時(shí)，說(shuō)明u是頻繁項(xiàng)目，將u加入到FI中； b)當(dāng)剩余的事務(wù)個(gè)數(shù)與包含了u的事務(wù)個(gè)數(shù)之和小于S時(shí)，說(shuō)明u是非頻繁項(xiàng)目，從Ti中剔除U，若此時(shí)包含了 u的事務(wù)個(gè)數(shù)大于1，說(shuō)明u還出現(xiàn)在Ti之外的事務(wù)中，則將u加入到NFI中； (4)剔除完D中所有事務(wù)中的非頻繁項(xiàng)目后，即可得到縮減后的事務(wù)庫(kù)D1； 4)基于迭代交集的最大頻繁項(xiàng)集挖掘: 通過(guò)對(duì)事務(wù)迭代取交集的方式挖掘最大頻繁項(xiàng)集，給定縮減后的事務(wù)庫(kù)D1，最小支持?jǐn)?shù)S，最大頻繁項(xiàng)集挖掘的方法如下: (1)將事務(wù)庫(kù)D1中的事務(wù)按項(xiàng)的個(gè)數(shù)從大到小排序，以盡早發(fā)現(xiàn)最大頻繁項(xiàng)集，為縮減事務(wù)庫(kù)規(guī)模，合并事務(wù)庫(kù)中重復(fù)的事務(wù)，并對(duì)事務(wù)個(gè)數(shù)計(jì)數(shù)； (2)為減少取交集的次數(shù)，對(duì)于事務(wù)Ti;l≤i≤^+^|土二丄開(kāi)始’首先找出包含了 Ti中任意項(xiàng)的事務(wù)集合1?, TjITj至少包含了 Ti中的一個(gè)項(xiàng)目；j>i)，Ti依次與Tj取交集，將兩者的交集移入新的事務(wù)庫(kù)D2,同時(shí)剔除TjCTl , (3)對(duì)于新事務(wù)庫(kù)D2中的事務(wù)T，如果T是由不小于S個(gè)事務(wù)取交集而得，則將T移入最大頻繁候選項(xiàng)集集合MFCS中，同時(shí)剔除T在D2中的子事務(wù)； (4)如果新事務(wù)庫(kù)D2中的剩余事務(wù)個(gè)數(shù)小于S，則結(jié)束對(duì)事務(wù)庫(kù)D2的處理，返回到上層事務(wù)庫(kù)；否則，對(duì)D2從第I步開(kāi)始再進(jìn)行此過(guò)程； (5)當(dāng)事務(wù)庫(kù)D1中剩余的事務(wù)數(shù)小于S時(shí)，即DlDil-S+Ι，結(jié)束對(duì)當(dāng)前事務(wù)庫(kù)D1的處理； (6)對(duì)MFCS中的項(xiàng)集進(jìn)行合并同時(shí)剔除非最大頻繁項(xiàng)集，最后的結(jié)果即為所求的最大頻繁項(xiàng)集集合MFS ； 5)最大頻繁項(xiàng)集歸并: 由于最小支持?jǐn)?shù)的限制，使得MFS中最大頻繁項(xiàng)集規(guī)模較小，而且有些項(xiàng)集之間存在大量的重疊項(xiàng)，這些項(xiàng)集代表的賬戶群很可能從屬于同一個(gè)炒作群體，為解決這一問(wèn)題，使用重疊率來(lái)反映兩個(gè)項(xiàng)集之間的相似性，設(shè)項(xiàng)集X1, X2 e MFSJf X1和X2的重疊率記為:
3.根據(jù)權(quán)利要求2所述的基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法，其特征在于，所述的步驟1)中，搜集炒作微博樣本應(yīng)符合如下條件: a、選取轉(zhuǎn)發(fā)數(shù)相對(duì)較高的熱門(mén)微博； b、微博發(fā)布時(shí)間跨度〈180天；以利于對(duì)炒作群體的發(fā)現(xiàn)。
【文檔編號(hào)】G06F17/30GK103927398SQ201410188004
【公開(kāi)日】2014年7月16日申請(qǐng)日期:2014年5月7日優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】劉琰, 張進(jìn), 羅軍勇, 羅向陽(yáng), 董雨辰, 陳靜, 常斌申請(qǐng)人:中國(guó)人民解放軍信息工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉琰;張進(jìn);羅軍勇;羅向陽(yáng);董雨辰;陳靜;常斌
技術(shù)所有人：中國(guó)人民解放軍信息工程大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

頻繁項(xiàng)集挖掘算法相關(guān)技術(shù)

頻繁模式挖掘相關(guān)技術(shù)

頻繁項(xiàng)集挖掘相關(guān)技術(shù)

頻繁子圖挖掘算法相關(guān)技術(shù)

頻繁子圖挖掘相關(guān)技術(shù)

頻繁模式挖掘算法相關(guān)技術(shù)

頻繁序列挖掘相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法