一種基于微博平臺的事件可視化方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息抽取及可視化技術(shù),特別涉及一種基于微博平臺的事件可視化方 法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展,近年來各種社交媒體應(yīng)運而生,常見的有Facebook(臉 書)、Twitter (推特)、新浪微博、人人網(wǎng),其中以Twitter、新浪微博為代表的微博平臺以其 開放的信息分享及傳播特性成為當(dāng)前熱門的互聯(lián)網(wǎng)應(yīng)用。
[0003] 微博,即微博客(Microblog)的簡稱,用戶可以在平臺上隨時隨地發(fā)布140字以內(nèi) 的文字、圖片、視頻等信息。微博具有原創(chuàng)性、時效性、碎片性、重復(fù)性等特點。在微博平臺 當(dāng)中,用戶可以搜索查看自己感興趣的話題,瀏覽話題相關(guān)的內(nèi)容并參與話題內(nèi)容的討論。 但是由于在微博平臺當(dāng)中,充斥著大量關(guān)于某一個事件的相關(guān)微博,同時因為微博的短文 本特性,這帶來了發(fā)布信息碎片化、難理解等問題。發(fā)布信息參差不齊在微博平臺是一個十 分顯著的現(xiàn)象。正是因為上述的各種原因,使得用戶對很難在短時間內(nèi)快速了解一個事件 的發(fā)展動態(tài),使用戶交互體驗變差。
[0004] 在現(xiàn)有微博事件可視化的技術(shù)當(dāng)中,一般簡單對事件相關(guān)的微博按時間進行排 序,將最近時間段內(nèi)的微博展示給用戶,也有按微博的熱度進行排序,將熱門的微博展示給 用戶,另外還有方法通過選擇一定時間范圍內(nèi)的微博進行時間或者熱度排序的展示。以上 這些展示方法均為對原始微博內(nèi)容的直接展示,具有多方面的不足之處。第一,由于網(wǎng)絡(luò)信 息量呈爆炸式增長,傳統(tǒng)的對原始微博進行可視化展示的方法很難讓用戶快速的獲取事件 相關(guān)的信息內(nèi)容;第二,由于微博的短文本特性,微博發(fā)布信息質(zhì)量參差不齊,微博口語化 的問題使得用戶很難快速理解微博的內(nèi)容,而要從微博文本中挖掘關(guān)于事件的重要信息更 是大海攜針。
[0005] 在事件可視化方法當(dāng)中,有一類是對事件的所有文本信息,進行關(guān)鍵詞抽取,然后 對抽取的關(guān)鍵詞通過一個詞云來展示。這種方式,可以讓微博用戶從主要的關(guān)鍵詞當(dāng)中了 解事件主要的話題,但是微博用戶并不能對事件的各個子事件及事件的發(fā)展演變有一個直 觀的了解。
[0006] 另外一些可視化的方式通過抽取事件當(dāng)中的人物、地點、事件摘要句,將它們作為 事件發(fā)展的節(jié)點信息,以它們之間的關(guān)聯(lián)關(guān)系為邊,對事件進行可視化的展示。但是這種基 于人物、地點、事件摘要句的可視化展示方式對于微博事件來說具有很大的局限性,因為微 博不像正式的新聞報道具有規(guī)范的人物、地點、組織機構(gòu)等信息,所以從微博中很難獲取這 些信息。因此這種可視化方式對于微博來說具有很大的局限性。
[0007] 發(fā)明專利"基于用戶興趣挖掘的微博詞云生成方法及訪問支持系統(tǒng)",該發(fā)明公開 一種基于用戶興趣挖掘的微博詞云生成方法及微博消息訪問支持系統(tǒng),該方法包括:給定 當(dāng)前登錄用戶所關(guān)注用戶新發(fā)布的微博消息集,從中抽取出關(guān)鍵詞集;分別基于用戶關(guān)系、 基于關(guān)鍵詞的相似度計算當(dāng)前登錄用戶對該關(guān)鍵詞集中關(guān)鍵詞的興趣度,并將兩種計算所 得的興趣度融合,計算最終興趣度;從所述關(guān)鍵詞集中選擇興趣度最高的k個關(guān)鍵詞;在一 個區(qū)域內(nèi)顯示所選擇出的k個關(guān)鍵詞。該系統(tǒng)包括用戶信息獲取模塊、詞云生成器等關(guān)鍵 模塊。該發(fā)明能夠使用戶更加高效地從微博消息中獲取其感興趣的信息。但是本發(fā)明與該 發(fā)明研宄對象不同:該發(fā)明以微博用戶為研宄對象,分析微博用戶的微博內(nèi)容,通過提取 關(guān)鍵詞進行詞云展示。而本發(fā)明以新聞事件為研宄對象;可視化的不同:該發(fā)明僅對微博 進行關(guān)鍵詞抽取以詞云方式進行展示。而本發(fā)明以事件的子事件進行關(guān)鍵詞抽取,進行組 合詞云的多維度展示。
[0008] 發(fā)明專利"基于微博的事件特征演化挖掘方法及系統(tǒng)",該發(fā)明公開一種基于微博 的事件特征演化挖掘方法,包括:在微博時序序列中選取演化起始文檔集,并在微博文檔集 合上基于詞匯的共現(xiàn)特征構(gòu)造文檔的圖模型以得到事件的知識網(wǎng)絡(luò)結(jié)構(gòu);依據(jù)詞匯的字面 特征,詞匯傾向性的相容性特征將微博圖模型進行合并,構(gòu)造事件特征的微觀演化圖;在事 件的微觀演化圖上進行剪枝、切分和轉(zhuǎn)化,形成事件特征的宏觀演化圖。該方法在挖掘事件 特征的演化規(guī)律過程中采用了基于事件的知識網(wǎng)絡(luò)的圖挖掘方法,使得整個事件特征演化 挖掘方法在知識的繼承性方面得到提升,挖掘結(jié)果的可解釋性更強。但是本發(fā)明與該發(fā)明 特征抽取不同:該發(fā)明主要從詞匯結(jié)構(gòu)上進行特征抽取,通過構(gòu)建知識網(wǎng)絡(luò)結(jié)構(gòu)進行事件 的演化展示。本發(fā)明主要對事件聚類,挖掘事件的子話題特征信息進行演化展示。
【發(fā)明內(nèi)容】
[0009] 針對現(xiàn)有技術(shù)不足,本發(fā)明提出了一種基于微博平臺的事件可視化方法及系統(tǒng), 以解決以上技術(shù)問題。
[0010] 本發(fā)明提出了一種基于微博平臺的事件可視化方法,包括:
[0011] 步驟1,根據(jù)該事件的關(guān)鍵詞和時間范圍,通過該微博平臺的事件搜索接口,檢索 與該事件相關(guān)的該時間范圍內(nèi)的微博;
[0012] 步驟2,將該微博按照時間進行排序,生成一個微博集合;
[0013] 步驟3,該微博集合通過聚類算法,生成多個聚類子集;
[0014] 步驟4,對該多個聚類子集進行關(guān)鍵詞抽取,生成多個詞云,并將重復(fù)出現(xiàn)在該多 個詞云中的該關(guān)鍵詞賦予相同的顏色、位置、旋轉(zhuǎn)方式;
[0015] 步驟5,通過將每個該聚類子集和與其相對應(yīng)的該詞云進行展示的方式,將該事件 進行可視化展示。
[0016] 所述的基于微博平臺的事件可視化方法,該步驟2之前還包括:
[0017] 步驟21,過濾該時間范圍內(nèi)的該微博中字數(shù)小于某閾值的微博;
[0018] 步驟22,過濾該時間范圍內(nèi)的該微博中熱度小于某閾值的微博;
[0019] 步驟23,過濾該時間范圍內(nèi)的該微博中非文本格式的信息;
[0020] 步驟24,過濾該時間范圍內(nèi)的該微博中的用戶名"。
[0021] 所述的基于微博平臺的事件可視化方法,該步驟22中該熱度的計算公式為:
【主權(quán)項】
1. 一種基于微博平臺的事件可視化方法,其特征在于,包括: 步驟1,根據(jù)該事件的關(guān)鍵詞和時間范圍,通過該微博平臺的事件搜索接口,檢索與該 事件相關(guān)的該時間范圍內(nèi)的微博; 步驟2,將該微博按照時間進行排序,生成一個微博集合; 步驟3,該微博集合通過聚類算法,生成多個聚類子集; 步驟4,對該多個聚類子集進行關(guān)鍵詞抽取,生成多個詞云,并將重復(fù)出現(xiàn)在該多個詞 云中的該關(guān)鍵詞賦予相同的顏色、位置、旋轉(zhuǎn)方式; 步驟5,通過將每個該聚類子集和與其相對應(yīng)的該詞云進行展示的方式,將該事件進行 可視化展示。
2. 如權(quán)利要求1所述的基于微博平臺的事件可視化方法,其特征在于,該步驟2之前還 包括: 步驟21,過濾該時間范圍內(nèi)的該微博中字數(shù)小于某閾值的微博; 步驟22,過濾該時間范圍內(nèi)的該微博中熱度小于某閾值的微博; 步驟23,過濾該時間范圍內(nèi)的該微博中非文本格式的信息; 步驟24,過濾該時間范圍內(nèi)的該微博中的用戶名"。
3. 如權(quán)利要求2所述的基于微博平臺的事件可視化方法,其特征在于,該步驟22中該 熱度的計筧公式為:
其中retweets代表微博轉(zhuǎn)發(fā)數(shù)量,comments代表微博的評論數(shù),Heat代表微博熱度。
4. 如權(quán)利要求1所述的基于微博平臺的事件可視化方法,其特征在于,該步驟4中對每 個該聚類子集進行關(guān)鍵詞抽取,生成組合詞云的具體步驟包括: 步驟41,對每個該聚類子集進行分詞處理,生成詞語集合; 步驟42,通過維基百科詞條與網(wǎng)絡(luò)熱詞對該詞語集合進行合并,生成該組合詞云。
5. 如權(quán)利要求1所述的基于微博平臺的事件可視化方法,其特征在于,該步驟4還包 括:根據(jù)逆文檔頻率,將該詞語賦予高透明度。
6. -種基于微博平臺的事件可視化系統(tǒng),其特征在于,包括: 檢索模塊,用于根據(jù)該事件的關(guān)鍵詞和時間范圍,通過該微博平臺的事件搜索接口,檢 索與該事件相關(guān)的該時間范圍內(nèi)的微博; 排序模塊,用于將該微博按照時間進行排序,生成一個微博集合; 聚類模塊,用于該微博集合通過聚類算法,生成多個聚類子集; 生成組合詞云模塊,用于對該多個聚類子集進行關(guān)鍵詞抽取,生成多個詞云,并將重復(fù) 出現(xiàn)在該多個詞云中的該關(guān)鍵詞賦予相同的顏色、位置、旋轉(zhuǎn)方式; 展示模塊,用于通過將每個該聚類子集和與其相對應(yīng)的該詞云進行展示的方式,將該 事件進行可視化展示。
7. 如權(quán)利要求6所述的基于微博平臺的事件可視化系統(tǒng),其特征在于,還包括過濾模 塊,用于過濾該時間范圍內(nèi)的該微博中字數(shù)小于某閾值的微博;過濾該時間范圍內(nèi)的該微 博中熱度小于某閾值的微博;過濾該時間范圍內(nèi)的該微博中非文本格式的信息;過濾該時 間范圍內(nèi)的該微博中的" @用戶名"。
8. 如權(quán)利要求7所述的基于微博平臺的事件可視化系統(tǒng),其特征在于,該過濾模塊中 該熱度的計算公式為:
其中retweets代表微博轉(zhuǎn)發(fā)數(shù)量,comments代表微博的評論數(shù),Heat代表微博熱度。
9. 如權(quán)利要求6所述的基于微博平臺的事件可視化系統(tǒng),其特征在于,該生成組合詞 云模塊中對每個該聚類子集進行關(guān)鍵詞抽取,生成組合詞云的具體步驟包括:對每個該聚 類子集進行分詞處理,生成詞語集合;通過維基百科詞條與網(wǎng)絡(luò)熱詞對該詞語集合進行合 并,生成該組合詞云。
10. 如權(quán)利要求6所述的基于微博平臺的事件可視化系統(tǒng),其特征在于,該展示模塊還 用于:根據(jù)逆文檔頻率,將該詞語賦予高透明度。
【專利摘要】本發(fā)明公開了一種基于微博平臺的事件可視化方法及系統(tǒng),本發(fā)明涉及信息抽取及可視化技術(shù),該方法包括根據(jù)該事件的關(guān)鍵詞和時間范圍,通過該微博平臺的事件搜索接口,檢索與該事件相關(guān)的該時間范圍內(nèi)的微博;將該微博按照時間進行排序,生成一個微博集合;該微博集合通過聚類算法,生成多個聚類子集;對該多個聚類子集進行關(guān)鍵詞抽取,生成多個詞云,并將重復(fù)出現(xiàn)在該多個詞云中的該關(guān)鍵詞賦予相同的顏色、位置、旋轉(zhuǎn)方式;通過將每個該聚類子集和與其相對應(yīng)的該詞云進行展示的方式,將該事件進行可視化展示。依托微博平臺,通過事件關(guān)鍵詞對相關(guān)的微博進行采集,可以全面的獲取關(guān)于某個事件的微博信息。
【IPC分類】G06F17-30
【公開號】CN104536956
【申請?zhí)枴緾N201410354273
【發(fā)明人】曹娟, 儲達峰, 周興, 張勇東, 謝菲, 蘇宇
【申請人】中國科學(xué)院計算技術(shù)研究所, 新華通訊社
【公開日】2015年4月22日
【申請日】2014年7月23日