題進行檢測。而短期內(nèi)的話題檢測也 恰恰能夠滿足本發(fā)明用于突發(fā)事件預(yù)警的需求。
[0178] 在突發(fā)事件預(yù)測上,使用增長率預(yù)測方法對2014年3月1日到7日的新聞進行突發(fā) 預(yù)警,得到如表4所示的結(jié)果。
[0179] 表4使用增長率預(yù)測突發(fā)事件
[0180]
[0181]使用自檢測方案來評估預(yù)測的準(zhǔn)確性,由實驗結(jié)果可W看到,在預(yù)警出的5個事件 中,有3個在后來的發(fā)展過程中成為突發(fā)事件,并且有一定的提前量。表中的預(yù)測提前量是 指對突發(fā)事件的報警時間與該事件成為突發(fā)事件的時間之間的間隔。
【主權(quán)項】
1. 一種基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征是,步驟如下: 步驟一:定制網(wǎng)絡(luò)爬蟲,爬取網(wǎng)絡(luò)新聞文檔; 步驟二:對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理; 步驟三:對文檔中的詞語進行詞語權(quán)重計算; 步驟四:文本表示及相似度計算; 步驟五:對文檔進行聚類; 步驟六:選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子; 步驟七:突發(fā)事件檢測與預(yù)警。2. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟二在步驟一的基礎(chǔ)上對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理,具體步 驟如下:降噪處理,刪除爬取到的垃圾信息;去重處理,去除完全相同的新聞報道;去停用 詞,停用詞沒有任何實際意義,對此進行過濾處理;中文分詞處理,將中文句子分成單獨的 一個一個詞。3. 如權(quán)利要求2所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟三在步驟二的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算,具體步驟如下: 在增量TF-IDF計算詞語w的權(quán)重時,需要對在i時刻包含w的文檔個數(shù)dfi(w)以及當(dāng)前獲 取的文檔總數(shù)&進行更新,其更新的公式如1和2所示;其中表示在第i個時間段內(nèi)新 加入的包含w的文檔個數(shù),具,表示在第i個時間段內(nèi)新加入的總的文檔個數(shù),dMw)表示前i 個時間窗內(nèi)包含詞語w的文檔數(shù),dfVKw)表示前i-1個時間窗內(nèi)包含詞語w的文檔數(shù),化表 示前i個時間窗內(nèi)文檔總數(shù):利用公式(3)計算詞語w的增量TF-IDF值,其中tf idf '(w,d)表示文檔d中詞語w的權(quán)重, count(w,d)表示文檔d中詞語w出現(xiàn)的次數(shù),count(w',d)表示文檔d中詞語w'出現(xiàn)的次數(shù), l〇g()是以10為底的對數(shù)函數(shù): V .眺 e/將詞語的位置信息考慮到詞語的權(quán)重計算中,對表示地點、人物等名詞加大權(quán)重,得到 加權(quán)TF-IDF計算方法,如公式4所示。其中tf idf"(w,d)表示詞語w在文檔d中的加權(quán)權(quán)重, Wheadline和Wentity權(quán)重因子: tf idf'' (w,d) = (1.0+ffheadline+ffentity)*tf idf ' (w,d) (4)4. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,加入時間距離因子,時間距離因子TIF的計算方法如公式8所示,其中docuPublish代表 當(dāng)前文檔的發(fā)布時間,topi cUpdate則表示話題中的文檔集合最后一次更新的時間,時間單 位為秒,結(jié)合時間距離因子后,計算文檔和話題的相似度Sim(d,t)的方法如公式9所示。 Sim(d,t) = similarity,(d,t)*TIF (9) 〇5. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟四在步驟三的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算,具體步驟如下:采用空間 向量模型來表示話題和文檔,對每一個文檔D,都可以將其表示為一個由η個關(guān)鍵詞組成的η 維向量,而后就可以將文檔中的內(nèi)容轉(zhuǎn)換為向量空間中的向量進行運算,在將話題和文檔 使用向量空間模型表示為向量以后,就可以使用向量夾角來對文檔與話題之間的相似度進 行量化;在將話題和文檔使用向量空間模型表示為向量以后,使用向量夾角來對文檔與話 題之間的相似度進行量化,如公式7所示,其中similarity'(d,t)表示文檔d和話題t的相似 度,tf i df (w,d)表示詞語w在文檔d中的權(quán)重,tf i df (w,t)表示詞語w在話題t的權(quán)重,6. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟五在步驟四的基礎(chǔ)上對文檔進行聚類,具體步驟如下:使用Single-Pass作為在線 話題檢測的增量聚類方法,利用該方法并結(jié)合時間距離因子將新聞文檔進行分類,具體是: (1) 輸入一篇網(wǎng)絡(luò)文檔d; (2) 計算文檔d與當(dāng)前已有話題中的各個話題中的每一篇文檔的相似度,并選取其中的 最大值作為與該話題的相似度; (3) 在所有話題中選出與文檔d相似度最大的一個話題,并記錄此時的相似度值S; (4) 如果S大于聚類閾值Tc,文檔d被分配給這個話題模型的文本類,跳轉(zhuǎn)至(6); (5) 如果S小于聚類閾值Tc,說明文檔d不屬于當(dāng)前已有的話題集合中的任意話題,創(chuàng)建 新話題并將文檔d加入該新話題; (6) 聚類結(jié)束,等待新文檔的到來。7. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟六在步驟五的基礎(chǔ)上選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子,具體步驟如下:對一個話 題V,記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和為 Xt,設(shè)置營養(yǎng)轉(zhuǎn) 換因子a(Nutrition Transferred Factor)和營養(yǎng)衰減因子P(Nutrition Decayed Factor),α決定了新聞文檔能夠貢獻給話題的營養(yǎng)值,β則代表每一個時間窗口話題的營養(yǎng) 衰減值。通過設(shè)定相關(guān)函數(shù),并通過機器學(xué)習(xí)的方法獲得最佳的營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減 因子。根據(jù)實際情況,網(wǎng)絡(luò)新聞發(fā)布數(shù)量不是按時間均勻分布的,在新聞報道重量較少的情 況下,話題的能量值會衰減過快,因此考慮實際情況在計算能量衰減因子β時乘上一個與該 時間窗內(nèi)文檔數(shù)量有關(guān)的函數(shù);同時在新話題建立初期,營養(yǎng)值會出現(xiàn)增長過快的情況,在 計算當(dāng)前文檔對話題的影響時乘上一個與該話題當(dāng)前文檔數(shù)相關(guān)的函數(shù)以進行抑制。8. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,步驟六進一步具體形式是: 對于一個話題V,記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和為 xt,在t時刻話題的能量值可記為一個與α和β以及每一個時間段內(nèi)的加入話題的文檔相似 度的累加和(X1, X2,.. .xt)相關(guān)的聯(lián)合函數(shù)如式10所示: yt = g(xi, . . . ,Χ?,α,β) (10) 定義一個能量函數(shù)F(y)用于計算話題的熱度值,該函數(shù)的參數(shù)是該文檔的營養(yǎng)值,函 數(shù)需滿足以下屬性,如式11所示: 〇<F(y)<l 嚴(yán)格單調(diào)遞增 (11) F(0)=0,F(xiàn)-) = 1 對能量函數(shù)進行更為具體的定義如式12所示:(12) 其中,r指的是營養(yǎng)值的系數(shù),s是一個常量,T是時間窗口的數(shù)目,r和s均由用戶進行選 擇; 考慮一種極端的情況,話題的能量值不隨著時間有所衰減,即衰減因子為〇,這樣話題 的營養(yǎng)值就僅僅與營養(yǎng)轉(zhuǎn)換因子有關(guān),在T時刻話題的能量值就可以表示為式13:(13) 由于F是一個嚴(yán)格單調(diào)遞增函數(shù),該式的兩邊取反可得式14:(14) ψ. 通過兩邊同時除以1QTX,來計算α,得式15: (15)/-上 定義一個營養(yǎng)衰減因子來表示每個時間段內(nèi)話題能量的衰減值,因此可使用公式16計 算t時刻話題的營養(yǎng)值:(16) 選取兩組不同的參數(shù)(n,si)和(r2,S2),即可獲得轉(zhuǎn)換因子及衰減因子的計算公式17和 式18:礦={ri[t2F-HsiptiF-Hs2) ]/(rit2_r2ti)-F-Hsi)} (18) 使用的營養(yǎng)衰減因子的計算方法如式19所示: 0i = 0*log( 1 · O+m/avg) (19) 其中,隊指的是在第i個時間窗口內(nèi)的動態(tài)衰減閾值,m指在第i個時間窗口內(nèi)總的新聞 報道數(shù)目,avg是一個常量經(jīng)驗值,代表在一個時間窗口內(nèi)平均發(fā)布的新聞報道數(shù)目; 一篇文檔對當(dāng)前話題貢獻的營養(yǎng)值的計算方法可以表示如式20所示: ANutrition = a*sim*logEnum(Tnum) (20) 其中Tnum表示當(dāng)前話題中的文檔數(shù)目,Enum為經(jīng)驗值,s im表示當(dāng)前文檔與該話題的相 似度。9.如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,其特征 是,通過計算一階增長率,二階增長率,并設(shè)置相應(yīng)的閾值,通過對事件的增長率與閾值進 行比較,判斷一個時間是否可能成為熱點事件或者突發(fā)事件。
【專利摘要】本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和網(wǎng)絡(luò)信息處理領(lǐng)域,為實現(xiàn):(1)選取符合需求的聚類方法,從而得到較為準(zhǔn)確的聚類結(jié)果。(2)使得事件模型更契合實際情況。(3)進行熱點事件以及突發(fā)事件的檢測及預(yù)警并保證較高的準(zhǔn)確率。本發(fā)明采用的技術(shù)方案是,基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法,步驟如下:步驟一:定制網(wǎng)絡(luò)爬蟲,爬取網(wǎng)絡(luò)新聞文檔;步驟二:對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理;步驟三:對文檔中的詞語進行詞語權(quán)重計算;步驟四:文本表示及相似度計算;步驟五:對文檔進行聚類;步驟六:選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子;步驟七:突發(fā)事件檢測與預(yù)警。本發(fā)明主要應(yīng)用于網(wǎng)絡(luò)通信和處理信息。
【IPC分類】G06F17/27, G06Q10/04, G06F17/30
【公開號】CN105718598
【申請?zhí)枴緾N201610127898
【發(fā)明人】于瑞國, 林榆旺, 趙滿坤, 喻梅, 王建榮, 于健
【申請人】天津大學(xué)
【公開日】2016年6月29日
【申請日】2016年3月7日