基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法
【專利摘要】本發(fā)明公開了一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法。包括如下步驟:1)采用HCCG模型對事件建模,定義實體關(guān)系生成規(guī)則,刻畫事件屬性,利用詞級別與流級別的上下文對事件進(jìn)行多粒度抽??;2)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計算;3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類,在聚類過程中逐漸突出新聞的事件要素;4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件。本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測結(jié)果,相比傳統(tǒng)的社交媒體事件抽取方法有更強的泛化應(yīng)用能力以及更高的精確性。
【專利說明】
基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息查詢與檢索領(lǐng)域,尤其設(shè)及一種基于社交媒體圖表示模型的社會 風(fēng)險事件抽取的方法。
【背景技術(shù)】
[0002] 隨著信息社會消息的傳播速度大大提升,社會風(fēng)險事件的輿論影響日益突出,對 社會風(fēng)險事件進(jìn)行實時監(jiān)控和社會性分析有了越來越廣泛的應(yīng)用需求。在網(wǎng)絡(luò)環(huán)境下,真 實世界和虛擬世界具有相互映射的便利性,用戶持續(xù)并大量地匯集到網(wǎng)絡(luò)社交平臺。社交 媒體的實時數(shù)據(jù)從側(cè)面反映了現(xiàn)實世界事件的發(fā)展動向,對于社會風(fēng)險事件的抽取與分析 有著巨大的價值。
[0003] 現(xiàn)有基于互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行事件感知技術(shù)的研究主要可分為兩大類,一是利用自然 語言處理方法在句子級別上進(jìn)行原子事件的抽取進(jìn)而支持摘要的生成,如歐盟項目 NewsReader,商業(yè)系統(tǒng)Recorde加'uture;二是利用聚類方法實現(xiàn)文檔級別的主題事件檢測 進(jìn)而支持主題演化分析,如歐盟聯(lián)合研究中屯、(JRC)研制的肥XUS系統(tǒng)。為了支持社會風(fēng)險 事件的多粒度感知,往往需要有機整合兩大類技術(shù),形成多階段的處理框架,典型的有JRC 后續(xù)研發(fā)的Frontex框架。運類框架一般在數(shù)據(jù)匯聚的基礎(chǔ)上,通過語義分析、事件檢測、信 息融合等多個階段實現(xiàn)事件的感知。
[0004] 傳統(tǒng)的互聯(lián)網(wǎng)新聞是由權(quán)威機構(gòu)發(fā)布的報道性長文本,通常具備完整的新聞五要 素,在組織結(jié)構(gòu)上有比較固定的表達(dá),而且長文本本身自帶豐富的上下文信息。相比之下, 社交媒體上的數(shù)據(jù)是海量、冗雜且缺乏組織的短文本,并常常伴隨著新詞語的大量出現(xiàn)、詞 義纏變、詞語拼寫錯誤W及句子語法不符合規(guī)范等情況。同時,社交媒體中發(fā)表的內(nèi)容也不 具備傳統(tǒng)新聞媒體的嚴(yán)謹(jǐn)性,在進(jìn)行事件抽取時,判斷結(jié)果的正確性尤其重要。上述的運些 特點為基于社交媒體的社會風(fēng)險事件抽取帶來了許多新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于社交媒體圖表示模型的社會 風(fēng)險事件抽取的方法。
[0006] 基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法包括如下步驟:
[0007] 1)采用HCCG模型對事件建模,定義實體關(guān)系生成規(guī)則,刻畫事件屬性,利用詞級 別(word-level)與流級別(steam-level)的上下文對事件進(jìn)行多粒度抽取;
[0008] 2)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計算;
[0009] 3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類,在聚類過程中逐漸突出新 聞的事件要素;
[0010] 4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事 件。
[0011]所述的步驟I)具體為:
[0012] 1)使用HCCG模型對事件建模,則HCCG可表示為一個無向有權(quán)圖,圖中的節(jié)點代表 社交媒體文本中出現(xiàn)的實體;圖中的邊對應(yīng)在統(tǒng)一文本中W鄰近次序出現(xiàn),語義上相關(guān)聯(lián) 的兩個實體之間的聯(lián)系。模型中將節(jié)點分為六類,分別是災(zāi)難中屯、,參與者,地點,事件,動 作和普通實體。前五類實體作為關(guān)鍵節(jié)點,W災(zāi)難中屯、節(jié)點為中屯、緊密圍繞。普通實體分布 在離災(zāi)難中屯、較遠(yuǎn)的位置。實體距離的遠(yuǎn)近由邊權(quán)重刻畫,權(quán)重越高,實體距離越近。
[0013] 2)HCCG是無向有權(quán)圖,因為每個實體之間的語義關(guān)聯(lián)強弱并不相同。對于某社交 媒體文本轉(zhuǎn)化而來的圖G = (V,E),定義關(guān)聯(lián)邊e G E的權(quán)重weight (e)由3部分組成,分別為: 基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei,j)、第S部分的權(quán)值scw(ei,j);
[0014] 基本權(quán)重bw(e)即反應(yīng)了兩實體在原文中的距離,有如下公式:
[001 引
(1)
[0016] 對distance (Vi,Vj)的定義即為兩個實體之間間隔的分詞數(shù)加一。
[0017]第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來,如果構(gòu)成e的兩個節(jié)點vi,v屬于時 間,參與者,動作,地點要素中的一項,運條關(guān)連邊e有額外的權(quán)值分。
[001 引
口)
[0019] 累加兩端節(jié)點的關(guān)鍵要素判定分得到kw(ey),如公式3所示。
[0020] kw(ei, j) = Ekei, jKvai(vk) ,VkGV (3)
[0021] 第S部分的權(quán)值scw(ei,j)來自兩級上下文,反應(yīng)了該實體對在災(zāi)難事件中有持續(xù) 的關(guān)注度。本模型運用信號處理中的方法檢測本文流中的關(guān)聯(lián)實體在統(tǒng)計上的脈沖,將在 一天內(nèi)出現(xiàn)脈沖的實體對作為局部上下文信息,將在一個月內(nèi)持續(xù)出現(xiàn)脈沖的實體對作 為全局上下文信息。對于社交媒體文本解析的實體對,查看其是否是全局或局部上下文信 息,如果是則額外增加權(quán)重S,如公式4所示。
[0022]
(4)
[0023] 將運=部分權(quán)重相加,得到邊e的最終權(quán)重。
[0024] wei 曲 t(ei, j) =bw(ei, j)+kw(ei, j)+scw(ei, j) (5)
[0025] 由于HCCG中不同屬性的節(jié)點的重要程度不同,模型對節(jié)點也定義了權(quán)重,節(jié)點權(quán) 重由該點在圖中的度乘W系數(shù)得來。
[00%] wei 曲 t(v) =Odegree(V) (6)
[0027] 本模型定義對不同屬性節(jié)點定義的系數(shù)是,災(zāi)難中屯、為3,新聞要素實體為2,普通 節(jié)點為1。在W上權(quán)重的設(shè)置下,圖的重屯、將位于災(zāi)難中屯、和新聞要素實體上,并且所有實 體將形成向災(zāi)難中屯、匯聚的趨勢,對社會風(fēng)險事件本身有十分直觀的表達(dá)。
[0028] 所述的步驟2)具體為:
[0029] 1)首先定義肥CG的信息量infos皿(G)計算方法
[0030] infosum(G) = ZeeEweight(Vi) ? Weight(Vj) ? weight(ei'j),Vi,Vj G V (7)
[0031] 算法的執(zhí)行流程為:對圖G中的每條邊e進(jìn)行遍歷,根據(jù)公式5、6介紹的邊和點權(quán)重 的計算法則將邊和兩個節(jié)點的權(quán)重分別相乘,并將圖G中所有邊e累加。
[0032] 2)在計算兩圖相似度前需要先獲得兩圖的交集和并集,即最大公共子圖Gsub和最 小公共超圖Gsup。
[0033] /A井8給m兩巧相仙化撕估化的A管/A井
[0034]
觀
[0035] 最大公共子圖表達(dá)了兩源相似性,故放在分子;最小公共超圖表達(dá)了兩源涵蓋元 素的廣度,放在分母起歸一化作用。當(dāng)兩圖信息完全相同時,diff(Gi,G2)=0,diff(Gi,G2) 的數(shù)值越大,兩源數(shù)據(jù)越不相似。
[0036] 所述的對肥CG進(jìn)行增量式聚類的步驟為:
[0037] 在HCCG的事件聚類過程中,對于某社交媒體上發(fā)表的文本,將其與現(xiàn)有的事件簇 進(jìn)行相似度計算,取diff最小的聚類,查看運個diff是否達(dá)到認(rèn)為其屬于已存在事件的闊 值e。如果達(dá)到闊值則將它們的HCCG做合并處理。沒有達(dá)到則將其作為一個新的事件保存。 為了保持diff闊值e的有效性,合并后的新HCCG需要根據(jù)實際情況做一定的剪枝處理,去 掉不太重要的邊和節(jié)點,使事件圖保持在一個相對合理的大小。在運個階段,爆發(fā)性出現(xiàn)的 被監(jiān)控實體對的流級別上下文信息將被匯聚到增長的肥CG圖中。
[0038] 所述的通過基于肥CG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的 事件的步驟為:
[0039] 在經(jīng)過增量式聚類后,形成很多聚類每個聚類都WHCCG的形式表達(dá)。組成HCCG的 實體有災(zāi)難中屯、,時間,地點,參與者和動作運些新聞要素,還有作為語義補充的普通實體, W及連接運些實體的有權(quán)邊。圖中的節(jié)點被作為預(yù)測肥CG所表達(dá)的事件是社會風(fēng)險事件的 主要依據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同 的權(quán)重,使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算,根據(jù)訓(xùn)練樣本集上得 出的先驗最佳闊值過濾非事件類,得出目標(biāo)事件類。
[0040] 對于社會風(fēng)險事件形成的HCCG,一般具有最顯著的事件特征便是有明確的時間地 點參與者動作等要素的描寫,由于HCCG在構(gòu)建時已經(jīng)將各節(jié)點根據(jù)屬性和與HCCG中其他實 體的關(guān)聯(lián)度計算了權(quán)重,直接抽取HCCG中的時間、地點、參與者、動作,累加其權(quán)重所謂關(guān)鍵 要素信息量,并計算運個信息量占全部節(jié)點累加權(quán)重后的比重,將運一比重作為貝葉斯分 類器的輸入特征。
[0041 ]本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實體關(guān)系模型多粒度地表達(dá) 中間和最終的事件探測結(jié)果,因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確, 應(yīng)用場景也更加廣泛。
【附圖說明】
[0042] 圖1是基于社交媒體圖的社會風(fēng)險事件抽取任務(wù)框架。
[0043] 圖2是單條微博形成的肥CG實例圖。
[0044] 圖3是不同相似度闊值下的聚類結(jié)果。
[0045] 圖4是不同上下文附加權(quán)重下的聚類結(jié)果。
【具體實施方式】
[0046] 基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法包括如下步驟:
[0047] 1)采用HCCG模型對事件建模,定義實體關(guān)系生成規(guī)則,刻畫事件屬性,利用詞級別 (word-level)與流級別(steam-level)的上下文對事件進(jìn)行多粒度抽?。?br>[0048] 2)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計算;
[0049] 3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類,在聚類過程中逐漸突出 新聞的事件要素;
[0050] 4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事 件。
[0051] 所述的步驟1)的結(jié)果如圖2所示
[0052] 1)對輸入的社交媒體文本進(jìn)行分詞、詞性標(biāo)注等自然語言處理;
[0053] 2)對文本中的實體進(jìn)行識別、標(biāo)引,抽取時間、人名、地名、機構(gòu)名等;
[0054] 3)抽取社會風(fēng)險事件中屯、,將實體節(jié)點與事件中屯、節(jié)點進(jìn)行語義上的關(guān)聯(lián),
[0055] 計算關(guān)聯(lián)邊的權(quán)重;
[0056] 4)根據(jù)節(jié)點的度數(shù)計算節(jié)點權(quán)重,最后得到的無向有權(quán)圖即對單條社交媒體建模 的肥CG圖。
[0057] 所述的步驟2)具體為:
[005引1)定義肥CG圖的信息量計算方法為
[0059] infosum(G)=玄eeEwei邑ht(vi) ? wei邑ht(vj) ? wei邑ht(ei'j),Vi,VjGV
[0060] 算法執(zhí)行過程中,對圖G中的每條邊e進(jìn)行遍歷,根據(jù)邊和點權(quán)重的計算法則將邊 和兩個節(jié)點的權(quán)重分別相乘,并將圖G中所有邊e累加;
[0061] 2)計算待比較兩圖的交集和并集,即最大公共子圖和最小公共超圖;
[0062] 3)兩圖相似性數(shù)值化的計算公式
[0063]
[0064] 最大公共子圖表達(dá)了兩源相似性,故放在分子;最小公共超圖表達(dá)了兩源涵蓋元 素的廣度,放在分母起歸一化作用。當(dāng)兩圖信息完全相同時,diff(Gi,G2)=0,diff(Gi,G2) 的數(shù)值越大,兩源數(shù)據(jù)越不相似。
[0065] 所述的基于肥CG進(jìn)行增量式聚類具體說明如下:
[0066] 1)對于輸入的社交媒體文本,用肥CG對其建模;
[0067] 2)將得到的HCCG與現(xiàn)有的事件簇進(jìn)行相似度計算,取diff最小的聚類,查看運個 diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理, 并更新事件簇的時間戳。沒有達(dá)到則將其作為一個新的事件保存。
[0068] 3)為了保持diff闊值e的有效性,對肥CG進(jìn)行合并后,需要根據(jù)實際情況做一定的 剪枝處理,去掉不太重要的邊和節(jié)點,使事件圖保持在一個相對合理的大?。?br>[0069] 4)現(xiàn)有事件簇每次與新輸入HCCG作比較時,檢查時間戳與當(dāng)前時間之差是否超過 預(yù)先設(shè)置的時間窗口,如果超出則將事件類視為穩(wěn)定狀態(tài),并從臨時存儲轉(zhuǎn)為持久存儲。
[0070] 所述的基于肥CG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件 的步驟:
[0071] 1)在經(jīng)過增量式聚類后,形成很多聚類每個聚類都WHCCG的形式表達(dá)。組成HCCG 的實體有災(zāi)難中屯、,時間,地點,參與者和動作運些新聞要素,還有作為語義補充的普通實 體,W及連接運些實體的有權(quán)邊。圖中的節(jié)點被作為預(yù)測HCCG所表達(dá)的事件是社會風(fēng)險事 件的主要依據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其 不同的權(quán)重,使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算,訓(xùn)練得到分類器 W及最佳先驗過濾闊值。
[0072] 2)對于所有進(jìn)入穩(wěn)定狀態(tài)的聚類結(jié)果,直接抽取HCCG中的時間、地點、參與者、動 作,累加其權(quán)重所謂關(guān)鍵要素信息量,并計算信息量占全部節(jié)點累加權(quán)重后的比重,輸入分 類器,并利用最佳先驗過濾闊值對結(jié)果進(jìn)行過濾,通過過濾的聚類結(jié)果即可W有較高的置 信度被認(rèn)為是真正的事件。
[0073] 實施例
[0074] 由于在社交媒體平臺事件檢測領(lǐng)域沒有標(biāo)準(zhǔn)的衡量準(zhǔn)則。實驗采用新浪微博平臺 上的真實數(shù)據(jù)檢測本發(fā)明的方法。在爬取微博時,用基于關(guān)鍵詞捜索的方式,向微博大數(shù)據(jù) 投入災(zāi)難中屯、關(guān)鍵詞,在返回的數(shù)據(jù)中選取最新發(fā)布的微博。使用"埃博拉"作為災(zāi)難中屯、 詞通過新浪API,共獲得了13538微博,它們的發(fā)布日期在2014年1月1號到2014年1月30號之 間。在對微博數(shù)據(jù)進(jìn)行清洗后,剩下總計10452條微博。運些微博信息是埃博拉話題下吸引 了較多關(guān)注的微博。2)系統(tǒng)首先對微博進(jìn)行原發(fā)轉(zhuǎn)發(fā)判斷,噪音判斷等等的前期清洗工作。 對于原發(fā)微博,噪音判斷的標(biāo)準(zhǔn)是當(dāng)原文字?jǐn)?shù)少于10或NPL處理后識別的實體數(shù)少于3則不 作為事件微博進(jìn)行分析,直接從流中濾除;轉(zhuǎn)發(fā)微博作為原發(fā)微博的加權(quán)處理。
[0075] 接下來利用TF-IDF聚類結(jié)合人工標(biāo)注的方法獲取標(biāo)準(zhǔn)集。在標(biāo)注工作完成之后, 我們得到1056個事件聚類,聚類大小從1條微博到70條微博不等。為了獲得一個更加平衡的 標(biāo)準(zhǔn)集,刪除那些聚類大小少于5條微博的事件類。最終剩下的895個事件聚類組成了聚類 實驗的標(biāo)準(zhǔn)集。
[0076] 分類實驗的目標(biāo)是將災(zāi)難事件從非事件中區(qū)分出來。分類實驗的基礎(chǔ)數(shù)據(jù)在基于 HCCG聚類的最佳結(jié)果上進(jìn)行。由志愿者對聚類結(jié)果進(jìn)行標(biāo)注,區(qū)分聚類事件是否反映了真 實世界的災(zāi)難事件。根據(jù)微博發(fā)布的時間,將運895個聚類分為1月份上半月和1月份下半月 兩部分,分別包含400和495個事件聚類。
[0077] 在對聚類性能進(jìn)行評估時,選用正確率,召回率和Fl分?jǐn)?shù)作為性能度量。正確率、 召回率和Fl值是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的=個度量值,用來評價結(jié)果的質(zhì) 量。
[0078] 圖1是本發(fā)明進(jìn)行事件抽取的任務(wù)框架。圖2給出了對單條微博進(jìn)行的社會風(fēng)險事 件抽取的一個具體例子。圖3是不同相似度闊值下的HCCG聚類結(jié)果。圖4是不同上下文附加 權(quán)重下的肥CG聚類結(jié)果。
[0079] 為了驗證本發(fā)明的有效性,我們實現(xiàn)了基于詞向量的TF-IDF方法并用余弦距離計 算文本相似度,W此作為比較基準(zhǔn)。聚類實驗結(jié)果由表1給出。其中HCCG表示基于圖的建模 方法,HCCGc表示在加入全局和局部上下文附加權(quán)的建模方法。
[0080] 表1 £=6時的聚類結(jié)果 rn〇Ri1
[0082] 結(jié)果顯示出本發(fā)明的HCCG建模是一種更好的短文本表示方法,因為模型考慮到文 本互信息和文本結(jié)構(gòu)兩個方面并突出了事件的新聞特征。當(dāng)將上下文附加權(quán)加入HCCG中, 召回率得到明顯改善,F(xiàn)值超過了 TF-IDF和HCCG,分別提升了 14.3 %和8.6 %。運個結(jié)果表明 信息的歷史上下文對事件聚類性能有明顯的改善作用。
[0083] 分類的目標(biāo)是將社會風(fēng)險事件從非事件中區(qū)分出來。在評價HCCG模型下的事件分 類時,關(guān)鍵點在于對事件特征的選取。我們用傳統(tǒng)的基于文本的特征選取作為比較基準(zhǔn),運 種特征是將所有在文本中出現(xiàn)的詞作為特征并不計權(quán)重。本發(fā)明的HCCG特征則是選取圖中 的新聞要素節(jié)點并將各節(jié)點的權(quán)重一并考慮進(jìn)來。分類實驗的結(jié)果如表2所示
[0084] 表2分類實驗的正確率
[0086] 實驗結(jié)果說明,本發(fā)明提出的HCCG模型下提煉的特征比基于本文的方法在兩個標(biāo) 注集上都有更好的表現(xiàn)。運證明了 HCCG特征組合在選取表達(dá)事件的特征時有很高的效率, 因為運些特征本身就是描述事件的關(guān)鍵實體。在另一個層面,模型在積累過程中的剪枝操 作去除了集合中與事件不相關(guān)的噪音信息,運也是提升事件特征質(zhì)量的一個關(guān)鍵。
[0087] 實驗結(jié)果表明,本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實體關(guān)系模 型多粒度地表達(dá)中間和最終的事件探測結(jié)果,因此比傳統(tǒng)的社交媒體事件抽取方法所得到 的結(jié)果更準(zhǔn)確,應(yīng)用場景也更加廣泛。
【主權(quán)項】
1. 一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法,其特征在于包括如下步 驟: 1) 采用HCCG模型對事件建模,定義實體關(guān)系生成規(guī)則,刻畫事件屬性,利用詞級別與流 級別的上下文對事件進(jìn)行多粒度抽??; 2) 根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相 似度計算; 3) 通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類,在聚類過程中逐漸突出新聞的 事件要素; 4) 通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件。2. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法, 其特征在于,所述的步驟1)具體為: 1) 使用HCCG模型對事件建模,HCCG表示為一個無向有權(quán)圖,圖中的節(jié)點代表社交媒體 文本中出現(xiàn)的實體;圖中的邊對應(yīng)在統(tǒng)一文本中以鄰近次序出現(xiàn)、語義上相關(guān)聯(lián)的兩個實 體之間的聯(lián)系,模型中將節(jié)點分為六類,分別是災(zāi)難中心,參與者,地點,事件,動作和普通 實體,前五類實體作為關(guān)鍵節(jié)點,以災(zāi)難中心節(jié)點為中心緊密圍繞,普通實體分布在離災(zāi)難 中心較遠(yuǎn)的位置,實體距離的遠(yuǎn)近由邊權(quán)重刻畫,權(quán)重越高,實體距離越近; 2. HCCG是無向有權(quán)圖,因為每個實體之間的語義關(guān)聯(lián)強弱并不相同,對于某社交媒體 文本轉(zhuǎn)化而來的圖G=(V,E),定義關(guān)聯(lián)邊eeE的權(quán)重weight(e)由三部分的權(quán)重計算組成, 分別為:基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei, j)、第三部分的權(quán)值scw(ei, j); 基本權(quán)重bw(e)即反應(yīng)了兩實體在原文中的距離,有如下公式:(1) 對di stance (Vi,Vj)的定義即為兩個實體之間間隔的分詞數(shù)加一; 第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來,如果構(gòu)成e的兩個節(jié)點Vi, Vj屬于時間, 參與者,動作,地點要素中的一項,這條關(guān)連邊e有額外的權(quán)值分;(2) 累加兩端節(jié)點的關(guān)鍵要素判定分得到kw(elu),如公式(3)所示; kw( Θi, j )- Σ kei, jKval ( Vk) j Vk ^ V ( 3 ) 第三部分的權(quán)值sCW ( ei, j )來自兩級上下文,反應(yīng)了該實體對在災(zāi)難事件中有持續(xù)的關(guān) 注度,運用信號處理中的方法檢測本文流中的關(guān)聯(lián)實體在統(tǒng)計上的脈沖,將在一天內(nèi)出現(xiàn) 脈沖的實體對作為局部上下文信息,將在一個月內(nèi)持續(xù)出現(xiàn)脈沖的實體對作為全局上下文 信息,對于社交媒體文本解析的實體對,查看其是否是全局或局部上下文信息,如果是則額 外增加權(quán)重S,如公式(4)所示,將這三部分權(quán)重相加,得到邊e的最終權(quán)重: weight (ei, j) =bw(ei,j)+kw(ei,j)+scw(ei,j) (5)由于HCCG中不同屬性的節(jié)點的 重要程度不同,模型對節(jié)點也定義了權(quán)重,節(jié)點權(quán)重由該點在圖中的度乘以系數(shù)C得來: weight (v) =C*degree(v) (6)。3. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法, 其特征在于,所述的步驟2)具體為: 1) 首先定義HCCG的信息量infosum(G)計算方法 infosum(G) = EeeEweight(vi) · weight(vj) · weight(ei,j) ,Vi,VjeV (7) 算法的執(zhí)行流程為:對圖G中的每條邊e進(jìn)行遍歷,根據(jù)公式(5)、(6)計算邊和節(jié)點權(quán) 重,將邊和兩個節(jié)點的權(quán)重分別相乘,并將圖G中所有邊e累加; 2) 在計算兩圖相似度前需要先獲得兩圖的交集和并集,即最大公共子圖Gsub和最小公 共超圖Gsup ; 公式8給出兩圖相似性數(shù)值化的計算公式(8) 最大公開于圖表迖J兩源相似性,故取在分于;最小公共超圖表達(dá)了兩源涵蓋元素的 廣度,放在分母起歸一化作用,當(dāng)兩圖信息完全相同時, 值越大,兩源數(shù)據(jù)越不相似。4. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法, 其特征在于,所述的對HCCG進(jìn)行增量式聚類的步驟為: 在HCCG的事件聚類過程中,對于某社交媒體上發(fā)表的文本,將其與現(xiàn)有的事件簇進(jìn)行 相似度計算,取diff最小的聚類,查看這個diff是否達(dá)到認(rèn)為其屬于已存在事件的閾值ε, 如果達(dá)到閾值則將它們的HCCG做合并處理,沒有達(dá)到則將其作為一個新的事件保存,為了 保持diff閾值ε的有效性,合并后的新HCCG需要根據(jù)實際情況做一定的剪枝處理,去掉不太 重要的邊和節(jié)點,使事件圖保持在一個相對合理的大小,在這個階段,爆發(fā)性出現(xiàn)的被監(jiān)控 實體對的流級別上下文信息將被匯聚到增長的HCCG圖中。5. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法, 其特征在于,所述的通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真 正的事件的步驟為: 在經(jīng)過增量式聚類后,形成很多聚類,每個聚類都以HCCG的形式表達(dá),組成HCCG的實體 有災(zāi)難中心,時間,地點,參與者和動作這些新聞要素,還有作為語義補充的普通實體,以及 連接這些實體的有權(quán)邊,圖中的節(jié)點被作為預(yù)測HCCG所表達(dá)的事件是社會風(fēng)險事件的依 據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性以及與災(zāi)難中心的關(guān)聯(lián)度賦予其不同的權(quán) 重,使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算,根據(jù)訓(xùn)練樣本集上得出的 先驗最佳閾值過濾非事件類,得出目標(biāo)事件類; 對于社會風(fēng)險事件形成的HCCG,一般具有最顯著的事件特征便是有明確的時間地點參 與者動作等要素的描寫,由于HCCG在構(gòu)建時已經(jīng)將各節(jié)點根據(jù)屬性和與HCCG中其他實體的 關(guān)聯(lián)度計算了權(quán)重,直接抽取HCCG中的時間、地點、參與者、動作,累加其權(quán)重所謂關(guān)鍵要素 信息量,并計算這個信息量占全部節(jié)點累加權(quán)重后的比重,將這一比重作為貝葉斯分類器 的輸入特征。
【文檔編號】G06F17/30GK105956197SQ201610438133
【公開日】2016年9月21日
【申請日】2016年6月15日
【發(fā)明人】凌立剛, 朱海鵬
【申請人】杭州量知數(shù)據(jù)科技有限公司