基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法

文檔序號：10594218閱讀：336來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法
【專利摘要】本發(fā)明公開了一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法。包括如下步驟：1)采用HCCG模型對事件建模，定義實體關(guān)系生成規(guī)則，刻畫事件屬性，利用詞級別與流級別的上下文對事件進(jìn)行多粒度抽??；2)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計算；3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類，在聚類過程中逐漸突出新聞的事件要素；4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測結(jié)果，相比傳統(tǒng)的社交媒體事件抽取方法有更強的泛化應(yīng)用能力以及更高的精確性。
【專利說明】
基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息查詢與檢索領(lǐng)域，尤其設(shè)及一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法。
【背景技術(shù)】
[0002] 隨著信息社會消息的傳播速度大大提升，社會風(fēng)險事件的輿論影響日益突出，對社會風(fēng)險事件進(jìn)行實時監(jiān)控和社會性分析有了越來越廣泛的應(yīng)用需求。在網(wǎng)絡(luò)環(huán)境下，真實世界和虛擬世界具有相互映射的便利性，用戶持續(xù)并大量地匯集到網(wǎng)絡(luò)社交平臺。社交媒體的實時數(shù)據(jù)從側(cè)面反映了現(xiàn)實世界事件的發(fā)展動向，對于社會風(fēng)險事件的抽取與分析有著巨大的價值。
[0003] 現(xiàn)有基于互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行事件感知技術(shù)的研究主要可分為兩大類，一是利用自然語言處理方法在句子級別上進(jìn)行原子事件的抽取進(jìn)而支持摘要的生成，如歐盟項目 NewsReader,商業(yè)系統(tǒng)Recorde加'uture;二是利用聚類方法實現(xiàn)文檔級別的主題事件檢測進(jìn)而支持主題演化分析，如歐盟聯(lián)合研究中屯、(JRC)研制的肥XUS系統(tǒng)。為了支持社會風(fēng)險事件的多粒度感知，往往需要有機整合兩大類技術(shù)，形成多階段的處理框架，典型的有JRC 后續(xù)研發(fā)的Frontex框架。運類框架一般在數(shù)據(jù)匯聚的基礎(chǔ)上，通過語義分析、事件檢測、信息融合等多個階段實現(xiàn)事件的感知。
[0004] 傳統(tǒng)的互聯(lián)網(wǎng)新聞是由權(quán)威機構(gòu)發(fā)布的報道性長文本，通常具備完整的新聞五要素，在組織結(jié)構(gòu)上有比較固定的表達(dá)，而且長文本本身自帶豐富的上下文信息。相比之下，社交媒體上的數(shù)據(jù)是海量、冗雜且缺乏組織的短文本，并常常伴隨著新詞語的大量出現(xiàn)、詞義纏變、詞語拼寫錯誤W及句子語法不符合規(guī)范等情況。同時，社交媒體中發(fā)表的內(nèi)容也不具備傳統(tǒng)新聞媒體的嚴(yán)謹(jǐn)性，在進(jìn)行事件抽取時，判斷結(jié)果的正確性尤其重要。上述的運些特點為基于社交媒體的社會風(fēng)險事件抽取帶來了許多新的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法。
[0006] 基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法包括如下步驟：
[0007] 1)采用HCCG模型對事件建模，定義實體關(guān)系生成規(guī)則，刻畫事件屬性，利用詞級別(word-level)與流級別（steam-level)的上下文對事件進(jìn)行多粒度抽取；
[0008] 2)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計算；
[0009] 3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類，在聚類過程中逐漸突出新聞的事件要素；
[0010] 4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。
[0011]所述的步驟I)具體為：
[0012] 1)使用HCCG模型對事件建模，則HCCG可表示為一個無向有權(quán)圖，圖中的節(jié)點代表社交媒體文本中出現(xiàn)的實體；圖中的邊對應(yīng)在統(tǒng)一文本中W鄰近次序出現(xiàn)，語義上相關(guān)聯(lián) 的兩個實體之間的聯(lián)系。模型中將節(jié)點分為六類，分別是災(zāi)難中屯、，參與者，地點，事件，動作和普通實體。前五類實體作為關(guān)鍵節(jié)點，W災(zāi)難中屯、節(jié)點為中屯、緊密圍繞。普通實體分布在離災(zāi)難中屯、較遠(yuǎn)的位置。實體距離的遠(yuǎn)近由邊權(quán)重刻畫，權(quán)重越高，實體距離越近。
[0013] 2)HCCG是無向有權(quán)圖，因為每個實體之間的語義關(guān)聯(lián)強弱并不相同。對于某社交媒體文本轉(zhuǎn)化而來的圖G = (V，E)，定義關(guān)聯(lián)邊e G E的權(quán)重weight (e)由3部分組成，分別為：基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei,j)、第S部分的權(quán)值scw(ei,j);
[0014] 基本權(quán)重bw(e)即反應(yīng)了兩實體在原文中的距離，有如下公式：
[001 引
（1)
[0016] 對distance (Vi，Vj)的定義即為兩個實體之間間隔的分詞數(shù)加一。
[0017]第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來，如果構(gòu)成e的兩個節(jié)點vi，v屬于時間，參與者，動作，地點要素中的一項，運條關(guān)連邊e有額外的權(quán)值分。
[001 引
口）
[0019] 累加兩端節(jié)點的關(guān)鍵要素判定分得到kw(ey)，如公式3所示。
[0020] kw(ei, j) = Ekei, jKvai(vk) ,VkGV (3)
[0021] 第S部分的權(quán)值scw(ei,j)來自兩級上下文，反應(yīng)了該實體對在災(zāi)難事件中有持續(xù) 的關(guān)注度。本模型運用信號處理中的方法檢測本文流中的關(guān)聯(lián)實體在統(tǒng)計上的脈沖，將在一天內(nèi)出現(xiàn)脈沖的實體對作為局部上下文信息，將在一個月內(nèi)持續(xù)出現(xiàn)脈沖的實體對作為全局上下文信息。對于社交媒體文本解析的實體對，查看其是否是全局或局部上下文信息，如果是則額外增加權(quán)重S，如公式4所示。
[0022]
(4)
[0023] 將運=部分權(quán)重相加，得到邊e的最終權(quán)重。
[0024] wei 曲 t(ei, j) =bw(ei, j)+kw(ei, j)+scw(ei, j) (5)
[0025] 由于HCCG中不同屬性的節(jié)點的重要程度不同，模型對節(jié)點也定義了權(quán)重，節(jié)點權(quán) 重由該點在圖中的度乘W系數(shù)得來。
[00%] wei 曲 t(v) =Odegree(V) (6)
[0027] 本模型定義對不同屬性節(jié)點定義的系數(shù)是，災(zāi)難中屯、為3,新聞要素實體為2,普通節(jié)點為1。在W上權(quán)重的設(shè)置下，圖的重屯、將位于災(zāi)難中屯、和新聞要素實體上，并且所有實體將形成向災(zāi)難中屯、匯聚的趨勢，對社會風(fēng)險事件本身有十分直觀的表達(dá)。
[0028] 所述的步驟2)具體為：
[0029] 1)首先定義肥CG的信息量infos皿(G)計算方法
[0030] infosum(G) = ZeeEweight(Vi) ? Weight(Vj) ? weight(ei'j)，Vi，Vj G V (7)
[0031] 算法的執(zhí)行流程為:對圖G中的每條邊e進(jìn)行遍歷，根據(jù)公式5、6介紹的邊和點權(quán)重的計算法則將邊和兩個節(jié)點的權(quán)重分別相乘，并將圖G中所有邊e累加。
[0032] 2)在計算兩圖相似度前需要先獲得兩圖的交集和并集，即最大公共子圖Gsub和最小公共超圖Gsup。
[0033] /A井8給m兩巧相仙化撕估化的A管/A井
[0034]
觀
[0035] 最大公共子圖表達(dá)了兩源相似性，故放在分子;最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用。當(dāng)兩圖信息完全相同時，diff(Gi，G2)=0，diff(Gi，G2) 的數(shù)值越大，兩源數(shù)據(jù)越不相似。
[0036] 所述的對肥CG進(jìn)行增量式聚類的步驟為：
[0037] 在HCCG的事件聚類過程中，對于某社交媒體上發(fā)表的文本，將其與現(xiàn)有的事件簇進(jìn)行相似度計算，取diff最小的聚類，查看運個diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理。沒有達(dá)到則將其作為一個新的事件保存。為了保持diff闊值e的有效性，合并后的新HCCG需要根據(jù)實際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點，使事件圖保持在一個相對合理的大小。在運個階段，爆發(fā)性出現(xiàn)的被監(jiān)控實體對的流級別上下文信息將被匯聚到增長的肥CG圖中。
[0038] 所述的通過基于肥CG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟為：
[0039] 在經(jīng)過增量式聚類后，形成很多聚類每個聚類都WHCCG的形式表達(dá)。組成HCCG的實體有災(zāi)難中屯、，時間，地點，參與者和動作運些新聞要素，還有作為語義補充的普通實體， W及連接運些實體的有權(quán)邊。圖中的節(jié)點被作為預(yù)測肥CG所表達(dá)的事件是社會風(fēng)險事件的主要依據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同的權(quán)重，使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算，根據(jù)訓(xùn)練樣本集上得出的先驗最佳闊值過濾非事件類，得出目標(biāo)事件類。
[0040] 對于社會風(fēng)險事件形成的HCCG，一般具有最顯著的事件特征便是有明確的時間地點參與者動作等要素的描寫，由于HCCG在構(gòu)建時已經(jīng)將各節(jié)點根據(jù)屬性和與HCCG中其他實體的關(guān)聯(lián)度計算了權(quán)重，直接抽取HCCG中的時間、地點、參與者、動作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計算運個信息量占全部節(jié)點累加權(quán)重后的比重，將運一比重作為貝葉斯分類器的輸入特征。
[0041 ]本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實體關(guān)系模型多粒度地表達(dá) 中間和最終的事件探測結(jié)果，因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確，應(yīng)用場景也更加廣泛。
【附圖說明】
[0042] 圖1是基于社交媒體圖的社會風(fēng)險事件抽取任務(wù)框架。
[0043] 圖2是單條微博形成的肥CG實例圖。
[0044] 圖3是不同相似度闊值下的聚類結(jié)果。
[0045] 圖4是不同上下文附加權(quán)重下的聚類結(jié)果。
【具體實施方式】
[0046] 基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法包括如下步驟：
[0047] 1)采用HCCG模型對事件建模，定義實體關(guān)系生成規(guī)則，刻畫事件屬性，利用詞級別 (word-level)與流級別（steam-level)的上下文對事件進(jìn)行多粒度抽?。?br>[0048] 2)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計算；
[0049] 3)通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類，在聚類過程中逐漸突出新聞的事件要素；
[0050] 4)通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。
[0051] 所述的步驟1)的結(jié)果如圖2所示
[0052] 1)對輸入的社交媒體文本進(jìn)行分詞、詞性標(biāo)注等自然語言處理；
[0053] 2)對文本中的實體進(jìn)行識別、標(biāo)引，抽取時間、人名、地名、機構(gòu)名等；
[0054] 3)抽取社會風(fēng)險事件中屯、，將實體節(jié)點與事件中屯、節(jié)點進(jìn)行語義上的關(guān)聯(lián)，
[0055] 計算關(guān)聯(lián)邊的權(quán)重；
[0056] 4)根據(jù)節(jié)點的度數(shù)計算節(jié)點權(quán)重，最后得到的無向有權(quán)圖即對單條社交媒體建模的肥CG圖。
[0057] 所述的步驟2)具體為：
[005引1)定義肥CG圖的信息量計算方法為
[0059] infosum(G)=玄eeEwei邑ht(vi) ? wei邑ht(vj) ? wei邑ht(ei'j)，Vi，VjGV
[0060] 算法執(zhí)行過程中，對圖G中的每條邊e進(jìn)行遍歷，根據(jù)邊和點權(quán)重的計算法則將邊和兩個節(jié)點的權(quán)重分別相乘，并將圖G中所有邊e累加；
[0061] 2)計算待比較兩圖的交集和并集，即最大公共子圖和最小公共超圖；
[0062] 3)兩圖相似性數(shù)值化的計算公式
[0063]
[0064] 最大公共子圖表達(dá)了兩源相似性，故放在分子;最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用。當(dāng)兩圖信息完全相同時，diff(Gi，G2)=0，diff(Gi，G2) 的數(shù)值越大，兩源數(shù)據(jù)越不相似。
[0065] 所述的基于肥CG進(jìn)行增量式聚類具體說明如下：
[0066] 1)對于輸入的社交媒體文本，用肥CG對其建模；
[0067] 2)將得到的HCCG與現(xiàn)有的事件簇進(jìn)行相似度計算，取diff最小的聚類，查看運個 diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理，并更新事件簇的時間戳。沒有達(dá)到則將其作為一個新的事件保存。
[0068] 3)為了保持diff闊值e的有效性，對肥CG進(jìn)行合并后，需要根據(jù)實際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點，使事件圖保持在一個相對合理的大?。?br>[0069] 4)現(xiàn)有事件簇每次與新輸入HCCG作比較時，檢查時間戳與當(dāng)前時間之差是否超過預(yù)先設(shè)置的時間窗口，如果超出則將事件類視為穩(wěn)定狀態(tài)，并從臨時存儲轉(zhuǎn)為持久存儲。
[0070] 所述的基于肥CG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟：
[0071] 1)在經(jīng)過增量式聚類后，形成很多聚類每個聚類都WHCCG的形式表達(dá)。組成HCCG 的實體有災(zāi)難中屯、，時間，地點，參與者和動作運些新聞要素，還有作為語義補充的普通實體，W及連接運些實體的有權(quán)邊。圖中的節(jié)點被作為預(yù)測HCCG所表達(dá)的事件是社會風(fēng)險事件的主要依據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同的權(quán)重，使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算，訓(xùn)練得到分類器 W及最佳先驗過濾闊值。
[0072] 2)對于所有進(jìn)入穩(wěn)定狀態(tài)的聚類結(jié)果，直接抽取HCCG中的時間、地點、參與者、動作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計算信息量占全部節(jié)點累加權(quán)重后的比重，輸入分類器，并利用最佳先驗過濾闊值對結(jié)果進(jìn)行過濾，通過過濾的聚類結(jié)果即可W有較高的置信度被認(rèn)為是真正的事件。
[0073] 實施例
[0074] 由于在社交媒體平臺事件檢測領(lǐng)域沒有標(biāo)準(zhǔn)的衡量準(zhǔn)則。實驗采用新浪微博平臺上的真實數(shù)據(jù)檢測本發(fā)明的方法。在爬取微博時，用基于關(guān)鍵詞捜索的方式，向微博大數(shù)據(jù) 投入災(zāi)難中屯、關(guān)鍵詞，在返回的數(shù)據(jù)中選取最新發(fā)布的微博。使用"埃博拉"作為災(zāi)難中屯、詞通過新浪API,共獲得了13538微博，它們的發(fā)布日期在2014年1月1號到2014年1月30號之間。在對微博數(shù)據(jù)進(jìn)行清洗后，剩下總計10452條微博。運些微博信息是埃博拉話題下吸引了較多關(guān)注的微博。2)系統(tǒng)首先對微博進(jìn)行原發(fā)轉(zhuǎn)發(fā)判斷，噪音判斷等等的前期清洗工作。對于原發(fā)微博，噪音判斷的標(biāo)準(zhǔn)是當(dāng)原文字?jǐn)?shù)少于10或NPL處理后識別的實體數(shù)少于3則不作為事件微博進(jìn)行分析，直接從流中濾除;轉(zhuǎn)發(fā)微博作為原發(fā)微博的加權(quán)處理。
[0075] 接下來利用TF-IDF聚類結(jié)合人工標(biāo)注的方法獲取標(biāo)準(zhǔn)集。在標(biāo)注工作完成之后，我們得到1056個事件聚類，聚類大小從1條微博到70條微博不等。為了獲得一個更加平衡的標(biāo)準(zhǔn)集，刪除那些聚類大小少于5條微博的事件類。最終剩下的895個事件聚類組成了聚類實驗的標(biāo)準(zhǔn)集。
[0076] 分類實驗的目標(biāo)是將災(zāi)難事件從非事件中區(qū)分出來。分類實驗的基礎(chǔ)數(shù)據(jù)在基于 HCCG聚類的最佳結(jié)果上進(jìn)行。由志愿者對聚類結(jié)果進(jìn)行標(biāo)注，區(qū)分聚類事件是否反映了真實世界的災(zāi)難事件。根據(jù)微博發(fā)布的時間，將運895個聚類分為1月份上半月和1月份下半月兩部分，分別包含400和495個事件聚類。
[0077] 在對聚類性能進(jìn)行評估時，選用正確率，召回率和Fl分?jǐn)?shù)作為性能度量。正確率、召回率和Fl值是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的=個度量值，用來評價結(jié)果的質(zhì) 量。
[0078] 圖1是本發(fā)明進(jìn)行事件抽取的任務(wù)框架。圖2給出了對單條微博進(jìn)行的社會風(fēng)險事件抽取的一個具體例子。圖3是不同相似度闊值下的HCCG聚類結(jié)果。圖4是不同上下文附加權(quán)重下的肥CG聚類結(jié)果。
[0079] 為了驗證本發(fā)明的有效性，我們實現(xiàn)了基于詞向量的TF-IDF方法并用余弦距離計算文本相似度，W此作為比較基準(zhǔn)。聚類實驗結(jié)果由表1給出。其中HCCG表示基于圖的建模方法，HCCGc表示在加入全局和局部上下文附加權(quán)的建模方法。
[0080] 表1 ￡=6時的聚類結(jié)果 rn〇Ri1
[0082] 結(jié)果顯示出本發(fā)明的HCCG建模是一種更好的短文本表示方法，因為模型考慮到文本互信息和文本結(jié)構(gòu)兩個方面并突出了事件的新聞特征。當(dāng)將上下文附加權(quán)加入HCCG中，召回率得到明顯改善，F(xiàn)值超過了 TF-IDF和HCCG，分別提升了 14.3 %和8.6 %。運個結(jié)果表明信息的歷史上下文對事件聚類性能有明顯的改善作用。
[0083] 分類的目標(biāo)是將社會風(fēng)險事件從非事件中區(qū)分出來。在評價HCCG模型下的事件分類時，關(guān)鍵點在于對事件特征的選取。我們用傳統(tǒng)的基于文本的特征選取作為比較基準(zhǔn)，運種特征是將所有在文本中出現(xiàn)的詞作為特征并不計權(quán)重。本發(fā)明的HCCG特征則是選取圖中的新聞要素節(jié)點并將各節(jié)點的權(quán)重一并考慮進(jìn)來。分類實驗的結(jié)果如表2所示
[0084] 表2分類實驗的正確率
[0086] 實驗結(jié)果說明，本發(fā)明提出的HCCG模型下提煉的特征比基于本文的方法在兩個標(biāo) 注集上都有更好的表現(xiàn)。運證明了 HCCG特征組合在選取表達(dá)事件的特征時有很高的效率，因為運些特征本身就是描述事件的關(guān)鍵實體。在另一個層面，模型在積累過程中的剪枝操作去除了集合中與事件不相關(guān)的噪音信息，運也是提升事件特征質(zhì)量的一個關(guān)鍵。
[0087] 實驗結(jié)果表明，本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測結(jié)果，因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確，應(yīng)用場景也更加廣泛。
【主權(quán)項】
1. 一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法，其特征在于包括如下步驟： 1) 采用HCCG模型對事件建模，定義實體關(guān)系生成規(guī)則，刻畫事件屬性，利用詞級別與流級別的上下文對事件進(jìn)行多粒度抽??； 2) 根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計算； 3) 通過社交媒體的上下文信息對HCCG進(jìn)行增量式聚類，在聚類過程中逐漸突出新聞的事件要素； 4) 通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。2. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法，其特征在于，所述的步驟1)具體為： 1) 使用HCCG模型對事件建模，HCCG表示為一個無向有權(quán)圖，圖中的節(jié)點代表社交媒體文本中出現(xiàn)的實體；圖中的邊對應(yīng)在統(tǒng)一文本中以鄰近次序出現(xiàn)、語義上相關(guān)聯(lián)的兩個實體之間的聯(lián)系，模型中將節(jié)點分為六類，分別是災(zāi)難中心，參與者，地點，事件，動作和普通實體，前五類實體作為關(guān)鍵節(jié)點，以災(zāi)難中心節(jié)點為中心緊密圍繞，普通實體分布在離災(zāi)難中心較遠(yuǎn)的位置，實體距離的遠(yuǎn)近由邊權(quán)重刻畫，權(quán)重越高，實體距離越近； 2. HCCG是無向有權(quán)圖，因為每個實體之間的語義關(guān)聯(lián)強弱并不相同，對于某社交媒體文本轉(zhuǎn)化而來的圖G=(V，E)，定義關(guān)聯(lián)邊eeE的權(quán)重weight(e)由三部分的權(quán)重計算組成，分別為:基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei, j)、第三部分的權(quán)值scw(ei, j); 基本權(quán)重bw(e)即反應(yīng)了兩實體在原文中的距離，有如下公式：(1) 對di stance (Vi，Vj)的定義即為兩個實體之間間隔的分詞數(shù)加一；第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來，如果構(gòu)成e的兩個節(jié)點Vi, Vj屬于時間，參與者，動作，地點要素中的一項，這條關(guān)連邊e有額外的權(quán)值分；(2) 累加兩端節(jié)點的關(guān)鍵要素判定分得到kw(elu)，如公式(3)所示； kw( Θi, j )- Σ kei, jKval ( Vk) j Vk ^ V ( 3 ) 第三部分的權(quán)值sCW ( ei, j )來自兩級上下文，反應(yīng)了該實體對在災(zāi)難事件中有持續(xù)的關(guān) 注度，運用信號處理中的方法檢測本文流中的關(guān)聯(lián)實體在統(tǒng)計上的脈沖，將在一天內(nèi)出現(xiàn) 脈沖的實體對作為局部上下文信息，將在一個月內(nèi)持續(xù)出現(xiàn)脈沖的實體對作為全局上下文信息，對于社交媒體文本解析的實體對，查看其是否是全局或局部上下文信息，如果是則額外增加權(quán)重S，如公式(4)所示，將這三部分權(quán)重相加，得到邊e的最終權(quán)重： weight (ei, j) =bw(ei,j)+kw(ei,j)+scw(ei,j) (5)由于HCCG中不同屬性的節(jié)點的重要程度不同，模型對節(jié)點也定義了權(quán)重，節(jié)點權(quán)重由該點在圖中的度乘以系數(shù)C得來： weight (v) =C*degree(v) (6)。3. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法，其特征在于，所述的步驟2)具體為： 1) 首先定義HCCG的信息量infosum(G)計算方法 infosum(G) = EeeEweight(vi) · weight(vj) · weight(ei,j) ,Vi,VjeV (7) 算法的執(zhí)行流程為：對圖G中的每條邊e進(jìn)行遍歷，根據(jù)公式（5)、（6)計算邊和節(jié)點權(quán) 重，將邊和兩個節(jié)點的權(quán)重分別相乘，并將圖G中所有邊e累加； 2) 在計算兩圖相似度前需要先獲得兩圖的交集和并集，即最大公共子圖Gsub和最小公共超圖Gsup ; 公式8給出兩圖相似性數(shù)值化的計算公式(8) 最大公開于圖表迖J兩源相似性，故取在分于；最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用，當(dāng)兩圖信息完全相同時，值越大，兩源數(shù)據(jù)越不相似。4. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法，其特征在于，所述的對HCCG進(jìn)行增量式聚類的步驟為：在HCCG的事件聚類過程中，對于某社交媒體上發(fā)表的文本，將其與現(xiàn)有的事件簇進(jìn)行相似度計算，取diff最小的聚類，查看這個diff是否達(dá)到認(rèn)為其屬于已存在事件的閾值ε，如果達(dá)到閾值則將它們的HCCG做合并處理，沒有達(dá)到則將其作為一個新的事件保存，為了保持diff閾值ε的有效性，合并后的新HCCG需要根據(jù)實際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點，使事件圖保持在一個相對合理的大小，在這個階段，爆發(fā)性出現(xiàn)的被監(jiān)控實體對的流級別上下文信息將被匯聚到增長的HCCG圖中。5. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會風(fēng)險事件抽取的方法，其特征在于，所述的通過基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟為：在經(jīng)過增量式聚類后，形成很多聚類，每個聚類都以HCCG的形式表達(dá)，組成HCCG的實體有災(zāi)難中心，時間，地點，參與者和動作這些新聞要素，還有作為語義補充的普通實體，以及連接這些實體的有權(quán)邊，圖中的節(jié)點被作為預(yù)測HCCG所表達(dá)的事件是社會風(fēng)險事件的依據(jù):將圖中的節(jié)點作為特征并根據(jù)節(jié)點的屬性以及與災(zāi)難中心的關(guān)聯(lián)度賦予其不同的權(quán) 重，使用樸素貝葉斯分類方法對選定的特征進(jìn)行條件概率計算，根據(jù)訓(xùn)練樣本集上得出的先驗最佳閾值過濾非事件類，得出目標(biāo)事件類；對于社會風(fēng)險事件形成的HCCG，一般具有最顯著的事件特征便是有明確的時間地點參與者動作等要素的描寫，由于HCCG在構(gòu)建時已經(jīng)將各節(jié)點根據(jù)屬性和與HCCG中其他實體的關(guān)聯(lián)度計算了權(quán)重，直接抽取HCCG中的時間、地點、參與者、動作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計算這個信息量占全部節(jié)點累加權(quán)重后的比重，將這一比重作為貝葉斯分類器的輸入特征。
【文檔編號】G06F17/30GK105956197SQ201610438133
【公開日】2016年9月21日
【申請日】2016年6月15日
【發(fā)明人】凌立剛, 朱海鵬
【申請人】杭州量知數(shù)據(jù)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌立剛;朱海鵬;
技術(shù)所有人：杭州量知數(shù)據(jù)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

社交媒體傳播模型相關(guān)技術(shù)

社交媒體相關(guān)技術(shù)

社交媒體營銷相關(guān)技術(shù)

2017社交媒體分析報告相關(guān)技術(shù)

社交媒體的特點相關(guān)技術(shù)

社交媒體廣告相關(guān)技術(shù)

中國社交媒體相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于社交媒體圖表示模型的社會風(fēng)險事件抽取方法