社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是涉及一種社交網(wǎng)絡(luò)突發(fā)事件的層次分析 方法。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)在人們的生活中扮演著越來(lái)越重要的角色,比如微博,國(guó)內(nèi)最大的兩大 微博平臺(tái)新浪和騰訊的注冊(cè)人數(shù)早已超過(guò)5億。CNNIC第33次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查 統(tǒng)計(jì)報(bào)告截至2013年12月,我國(guó)微博用戶(hù)規(guī)模為2. 81億,網(wǎng)民中微博使用率為45. 5%。
[0003] 對(duì)于突發(fā)事件或者說(shuō)熱點(diǎn)事件來(lái)說(shuō),微博的影響規(guī)模和傳播速度超越了普通博客 和傳統(tǒng)的新聞媒體。2008年5月12日,中國(guó)四川汶川發(fā)生大地震,Twitter在約14時(shí)35 分33秒披露首條消息。包括臨武瓜農(nóng)事件、校車(chē)超載事故,以及2014年4月起在全國(guó)產(chǎn)生 巨大影響的"幼童香港小便事件"也是通過(guò)微博平臺(tái)在社會(huì)人群中迅速傳播,進(jìn)而引起廣泛 討論,微博已經(jīng)成為不可小覷的輿論平臺(tái)。
[0004] 微博能夠及時(shí)反映輿論情況,及時(shí)地從微博獲取實(shí)時(shí)信息,判斷突發(fā)事件,找到相 關(guān)微博具有重大的意義。目前從大量微博中檢測(cè)突發(fā)事件的方式多種多樣,比如采用基于 聚類(lèi)的方法、采用主題模型的方法等來(lái)實(shí)現(xiàn)突發(fā)事件的檢測(cè)。但是,這些方法一般依據(jù)由各 微博數(shù)據(jù)文本中包含的關(guān)鍵詞構(gòu)成的圖結(jié)構(gòu)來(lái)進(jìn)行檢測(cè),由于該圖結(jié)構(gòu)的詞語(yǔ)中具有很多 對(duì)事件檢測(cè)冗余的詞語(yǔ),表現(xiàn)力不夠,從而使得微博中突發(fā)事件的檢測(cè)結(jié)果不佳。而且現(xiàn)有 的事件檢測(cè)結(jié)果是以關(guān)鍵詞集合的形式羅列出每個(gè)事件對(duì)應(yīng)的所有詞語(yǔ),不能揭示出每個(gè) 事件中包含的子事件層次,從而不能實(shí)現(xiàn)更細(xì)粒度的事件分析。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述存在的問(wèn)題,本發(fā)明提供一種社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法,用以 準(zhǔn)確檢測(cè)出社交網(wǎng)絡(luò)中的突發(fā)事件以及各突發(fā)事件對(duì)應(yīng)的不同子事件,從而實(shí)現(xiàn)突發(fā)事件 的精細(xì)粒度分析。
[0006] 本發(fā)明提供了一種社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法,包括:
[0007] 獲取突發(fā)熱詞共現(xiàn)圖;其中,所述突發(fā)熱詞共現(xiàn)圖的節(jié)點(diǎn)集包括各突發(fā)熱詞節(jié)點(diǎn) 以及分別與每個(gè)突發(fā)熱詞節(jié)點(diǎn)存在共現(xiàn)關(guān)系的各共現(xiàn)詞節(jié)點(diǎn),所述突發(fā)熱詞共現(xiàn)圖的邊集 包括所述各突發(fā)熱詞節(jié)點(diǎn)與所述各突發(fā)熱詞節(jié)點(diǎn)分別對(duì)應(yīng)的共現(xiàn)詞節(jié)點(diǎn)間的邊;其中,所 述突發(fā)熱詞共現(xiàn)圖為對(duì)關(guān)鍵詞共現(xiàn)圖進(jìn)行突發(fā)熱詞檢測(cè)后得到的,所述關(guān)鍵詞共現(xiàn)圖根據(jù) 所述社交網(wǎng)絡(luò)中的待處理數(shù)據(jù)文本中包含的共現(xiàn)關(guān)鍵詞得到,所述共現(xiàn)關(guān)鍵詞是指同時(shí)出 現(xiàn)在同一個(gè)數(shù)據(jù)文本中的關(guān)鍵詞;
[0008] 確定與所述突發(fā)熱詞共現(xiàn)圖對(duì)應(yīng)的二分圖,所述二分圖的節(jié)點(diǎn)集合由所述突發(fā)熱 詞共現(xiàn)圖中的突發(fā)熱詞節(jié)點(diǎn)組成,所述二分圖的邊集合中的邊根據(jù)所述突發(fā)熱詞共現(xiàn)圖中 各突發(fā)熱詞節(jié)點(diǎn)間的邊確定,且所述二分圖的邊集合中的邊為無(wú)權(quán)邊;
[0009] 對(duì)所述二分圖進(jìn)行k派系過(guò)濾處理,得到各個(gè)k派系社團(tuán)以及每個(gè)k派系社團(tuán)對(duì) 應(yīng)的各最大派系,其中,每個(gè)k派系社團(tuán)中包含的突發(fā)熱詞節(jié)點(diǎn)構(gòu)成一個(gè)突發(fā)事件,每個(gè)k派系社團(tuán)對(duì)應(yīng)的每個(gè)最大派系構(gòu)成突發(fā)事件的一個(gè)方面,k取大于或等于3的整數(shù);
[0010] 分別以所述各個(gè)k派系社團(tuán)中的每個(gè)k派系社團(tuán)作為待處理k派系社團(tuán),根據(jù)預(yù) 設(shè)節(jié)點(diǎn)重要性度量指標(biāo),分別對(duì)所述待處理k派系社團(tuán)對(duì)應(yīng)的每個(gè)最大派系中包含的突發(fā) 熱詞節(jié)點(diǎn)進(jìn)行降序排列,得到經(jīng)過(guò)所述降序排列處理的各最大派系;
[0011] 根據(jù)經(jīng)過(guò)所述降序排列處理的各最大派系中突發(fā)熱詞節(jié)點(diǎn)的排列順序,構(gòu)建突發(fā) 事件特征樹(shù),其中,所述突發(fā)事件特征樹(shù)中節(jié)點(diǎn)間的父子關(guān)系是根據(jù)所述各最大派系中突 發(fā)熱詞節(jié)點(diǎn)的排列順序確定的;
[0012] 對(duì)所述突發(fā)事件特征樹(shù)進(jìn)行樹(shù)深度為k的廣度優(yōu)先遍歷,確定所述突發(fā)事件特征 樹(shù)中樹(shù)深度不超過(guò)所述k時(shí)對(duì)應(yīng)的各k深度分支;
[0013] 確定每個(gè)k深度分支對(duì)應(yīng)的子分支,其中,每個(gè)k深度分支對(duì)應(yīng)的子分支包括承接 在所述k深度分支的葉子節(jié)點(diǎn)下的各子分支;
[0014] 確定與每個(gè)k深度分支以及所述每個(gè)k深度分支對(duì)應(yīng)的子分支對(duì)應(yīng)的最大派系中 所包含的突發(fā)熱詞節(jié)點(diǎn)構(gòu)成所述待處理k派系社團(tuán)對(duì)應(yīng)的突發(fā)事件的一個(gè)子事件。
[0015] 本發(fā)明提供的社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法,在獲得包含有各待處理數(shù)據(jù)文 本中的突發(fā)熱詞以及與各突發(fā)熱詞分別共現(xiàn)連接的各共現(xiàn)詞的熱詞共現(xiàn)圖之后,基于由該 熱詞共現(xiàn)圖得到的二分圖進(jìn)行k派系過(guò)濾處理,以得到各個(gè)k派系社團(tuán)即各突發(fā)事件以及 每個(gè)k派系社團(tuán)對(duì)應(yīng)的各最大派系即每個(gè)突發(fā)事件的各不同方面。為了進(jìn)一步得到每個(gè)突 發(fā)事件所包含的各子事件,對(duì)一個(gè)k派系社團(tuán)的各最大派系分別進(jìn)行突發(fā)熱詞節(jié)點(diǎn)重要性 排序處理,以構(gòu)建由各最大派系中的突發(fā)熱詞節(jié)點(diǎn)組成的突發(fā)事件特征樹(shù),從而基于該特 征樹(shù)得到每個(gè)子事件對(duì)應(yīng)的分支。通過(guò)該方案,不但能夠準(zhǔn)確檢測(cè)出社交網(wǎng)絡(luò)中包含的各 個(gè)突發(fā)事件,還能夠檢測(cè)出每個(gè)突發(fā)事件包含的各子事件,從而實(shí)現(xiàn)精細(xì)粒的度突發(fā)事件 檢測(cè)分析。
【附圖說(shuō)明】
[0016] 圖1為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法實(shí)施例一的流程圖;
[0017] 圖2為圖1所示實(shí)施例一中步驟101的具體實(shí)現(xiàn)流程圖;
[0018] 圖3為關(guān)鍵詞共現(xiàn)圖的不意圖;
[0019] 圖4為突發(fā)熱詞共現(xiàn)圖的示意圖;
[0020] 圖5為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法實(shí)施例二的流程圖。
【具體實(shí)施方式】
[0021] 圖1為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的層次分析方法實(shí)施例一的流程圖,如圖1所示, 該方法包括:
[0022] 步驟101、獲取突發(fā)熱詞共現(xiàn)圖;
[0023] 其中,所述突發(fā)熱詞共現(xiàn)圖Gk(t)的節(jié)點(diǎn)集包括各突發(fā)熱詞節(jié)點(diǎn)以及分別與每個(gè) 突發(fā)熱詞節(jié)點(diǎn)存在共現(xiàn)關(guān)系的各共現(xiàn)詞節(jié)點(diǎn),所述突發(fā)熱詞共現(xiàn)圖的邊集包括所述各突發(fā) 熱詞節(jié)點(diǎn)與所述各突發(fā)熱詞節(jié)點(diǎn)分別對(duì)應(yīng)的共現(xiàn)詞節(jié)點(diǎn)間的邊;其中,所述突發(fā)熱詞共現(xiàn) 圖為對(duì)關(guān)鍵詞共現(xiàn)圖進(jìn)行突發(fā)熱詞檢測(cè)后得到的,所述關(guān)鍵詞共現(xiàn)圖根據(jù)所述社交網(wǎng)絡(luò)中 的待處理數(shù)據(jù)文本中包含的共現(xiàn)關(guān)鍵詞得到,所述共現(xiàn)關(guān)鍵詞是指同時(shí)出現(xiàn)在同一個(gè)數(shù)據(jù) 文本中的關(guān)鍵詞。
[0024] 本實(shí)施例中的社交網(wǎng)絡(luò)比如可以是微博、論壇等社交網(wǎng)絡(luò),本實(shí)施例中的所述待 處理數(shù)據(jù)文本相應(yīng)的比如可以是微博數(shù)據(jù)文本。值得說(shuō)明的是,本實(shí)施例中主要是針對(duì)文 本類(lèi)型的數(shù)據(jù)信息進(jìn)行處理,稱(chēng)之為數(shù)據(jù)文本。微博數(shù)據(jù)具有數(shù)據(jù)質(zhì)量低、文本短、用語(yǔ)非 正式、非事件噪音文本多等特點(diǎn)。為了能夠準(zhǔn)確檢測(cè)出眾多微博數(shù)據(jù)文本中所包含的突發(fā) 事件,即在很短時(shí)間段內(nèi)被廣泛討論、傳播的熱點(diǎn)事件,首先,需要從各個(gè)數(shù)據(jù)文本中確定 共現(xiàn)關(guān)鍵詞,其中,共現(xiàn)關(guān)鍵詞是指同時(shí)出現(xiàn)在同一個(gè)數(shù)據(jù)文本中的關(guān)鍵詞,即同一個(gè)數(shù)據(jù) 文本中的關(guān)鍵詞存在共現(xiàn)關(guān)系。
[0025] 本實(shí)施例中,社會(huì)網(wǎng)絡(luò)比如微博中的一個(gè)事件被表示成一組緊密相關(guān)的關(guān)鍵詞集 合。但是實(shí)際上,盡管描述一件事件的數(shù)據(jù)文本多種多樣,但是其核心的關(guān)鍵詞會(huì)有一致的 傾向。對(duì)于突發(fā)事件來(lái)說(shuō),其核心關(guān)鍵詞在使用量上會(huì)有突發(fā)性特征。本實(shí)施例中使用關(guān) 鍵詞與關(guān)鍵詞的共現(xiàn)關(guān)系,建模關(guān)鍵詞與關(guān)