基于at的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法_4

文檔序號：9929642閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于at的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法

題進行檢測。而短期內(nèi)的話題檢測也恰恰能夠滿足本發(fā)明用于突發(fā)事件預(yù)警的需求。
[0178] 在突發(fā)事件預(yù)測上，使用增長率預(yù)測方法對2014年3月1日到7日的新聞進行突發(fā) 預(yù)警，得到如表4所示的結(jié)果。
[0179] 表4使用增長率預(yù)測突發(fā)事件
[0180]
[0181]使用自檢測方案來評估預(yù)測的準(zhǔn)確性，由實驗結(jié)果可W看到，在預(yù)警出的5個事件中，有3個在后來的發(fā)展過程中成為突發(fā)事件，并且有一定的提前量。表中的預(yù)測提前量是指對突發(fā)事件的報警時間與該事件成為突發(fā)事件的時間之間的間隔。
【主權(quán)項】
1. 一種基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟如下：步驟一:定制網(wǎng)絡(luò)爬蟲，爬取網(wǎng)絡(luò)新聞文檔；步驟二:對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理；步驟三:對文檔中的詞語進行詞語權(quán)重計算；步驟四：文本表示及相似度計算；步驟五:對文檔進行聚類；步驟六:選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子；步驟七:突發(fā)事件檢測與預(yù)警。2. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟二在步驟一的基礎(chǔ)上對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理，具體步驟如下：降噪處理，刪除爬取到的垃圾信息；去重處理，去除完全相同的新聞報道；去停用詞，停用詞沒有任何實際意義，對此進行過濾處理；中文分詞處理，將中文句子分成單獨的一個一個詞。3. 如權(quán)利要求2所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟三在步驟二的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算，具體步驟如下：在增量TF-IDF計算詞語w的權(quán)重時，需要對在i時刻包含w的文檔個數(shù)dfi(w)以及當(dāng)前獲取的文檔總數(shù)&進行更新，其更新的公式如1和2所示;其中表示在第i個時間段內(nèi)新加入的包含w的文檔個數(shù)，具，表示在第i個時間段內(nèi)新加入的總的文檔個數(shù)，dMw)表示前i 個時間窗內(nèi)包含詞語w的文檔數(shù)，dfVKw)表示前i-1個時間窗內(nèi)包含詞語w的文檔數(shù)，化表示前i個時間窗內(nèi)文檔總數(shù)：利用公式(3)計算詞語w的增量TF-IDF值，其中tf idf '（w，d)表示文檔d中詞語w的權(quán)重， count(w，d)表示文檔d中詞語w出現(xiàn)的次數(shù)，count(w'，d)表示文檔d中詞語w'出現(xiàn)的次數(shù)， l〇g()是以10為底的對數(shù)函數(shù)： V .眺 e/將詞語的位置信息考慮到詞語的權(quán)重計算中，對表示地點、人物等名詞加大權(quán)重，得到加權(quán)TF-IDF計算方法，如公式4所示。其中tf idf"（w，d)表示詞語w在文檔d中的加權(quán)權(quán)重， Wheadline和Wentity權(quán)重因子： tf idf'' (w,d) = (1.0+ffheadline+ffentity)*tf idf ' (w,d) (4)4. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，加入時間距離因子，時間距離因子TIF的計算方法如公式8所示，其中docuPublish代表當(dāng)前文檔的發(fā)布時間，topi cUpdate則表示話題中的文檔集合最后一次更新的時間，時間單位為秒，結(jié)合時間距離因子后，計算文檔和話題的相似度Sim(d，t)的方法如公式9所示。 Sim(d，t) = similarity，（d，t)*TIF (9) 〇5. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟四在步驟三的基礎(chǔ)上對文檔中的詞語進行詞語權(quán)重計算，具體步驟如下:采用空間向量模型來表示話題和文檔，對每一個文檔D，都可以將其表示為一個由η個關(guān)鍵詞組成的η 維向量，而后就可以將文檔中的內(nèi)容轉(zhuǎn)換為向量空間中的向量進行運算，在將話題和文檔使用向量空間模型表示為向量以后，就可以使用向量夾角來對文檔與話題之間的相似度進行量化;在將話題和文檔使用向量空間模型表示為向量以后，使用向量夾角來對文檔與話題之間的相似度進行量化，如公式7所示，其中similarity'（d，t)表示文檔d和話題t的相似度，tf i df (w，d)表示詞語w在文檔d中的權(quán)重，tf i df (w，t)表示詞語w在話題t的權(quán)重，6. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟五在步驟四的基礎(chǔ)上對文檔進行聚類，具體步驟如下:使用Single-Pass作為在線話題檢測的增量聚類方法，利用該方法并結(jié)合時間距離因子將新聞文檔進行分類，具體是： (1) 輸入一篇網(wǎng)絡(luò)文檔d; (2) 計算文檔d與當(dāng)前已有話題中的各個話題中的每一篇文檔的相似度，并選取其中的最大值作為與該話題的相似度； (3) 在所有話題中選出與文檔d相似度最大的一個話題，并記錄此時的相似度值S; (4) 如果S大于聚類閾值Tc，文檔d被分配給這個話題模型的文本類，跳轉(zhuǎn)至(6); (5) 如果S小于聚類閾值Tc，說明文檔d不屬于當(dāng)前已有的話題集合中的任意話題，創(chuàng)建新話題并將文檔d加入該新話題； (6) 聚類結(jié)束，等待新文檔的到來。7. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟六在步驟五的基礎(chǔ)上選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子，具體步驟如下:對一個話題V，記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和為 Xt，設(shè)置營養(yǎng)轉(zhuǎn) 換因子a(Nutrition Transferred Factor)和營養(yǎng)衰減因子P(Nutrition Decayed Factor)，α決定了新聞文檔能夠貢獻給話題的營養(yǎng)值，β則代表每一個時間窗口話題的營養(yǎng) 衰減值。通過設(shè)定相關(guān)函數(shù)，并通過機器學(xué)習(xí)的方法獲得最佳的營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子。根據(jù)實際情況，網(wǎng)絡(luò)新聞發(fā)布數(shù)量不是按時間均勻分布的，在新聞報道重量較少的情況下，話題的能量值會衰減過快，因此考慮實際情況在計算能量衰減因子β時乘上一個與該時間窗內(nèi)文檔數(shù)量有關(guān)的函數(shù)；同時在新話題建立初期，營養(yǎng)值會出現(xiàn)增長過快的情況，在計算當(dāng)前文檔對話題的影響時乘上一個與該話題當(dāng)前文檔數(shù)相關(guān)的函數(shù)以進行抑制。8. 如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，步驟六進一步具體形式是：對于一個話題V，記在一個時間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和為 xt，在t時刻話題的能量值可記為一個與α和β以及每一個時間段內(nèi)的加入話題的文檔相似度的累加和(X1， X2,.. .xt)相關(guān)的聯(lián)合函數(shù)如式10所示： yt = g(xi, . . . ,Χ?,α,β) (10) 定義一個能量函數(shù)F(y)用于計算話題的熱度值，該函數(shù)的參數(shù)是該文檔的營養(yǎng)值，函數(shù)需滿足以下屬性，如式11所示：〇<F(y)<l 嚴(yán)格單調(diào)遞增（11) F(0)=0，F(xiàn)-) = 1 對能量函數(shù)進行更為具體的定義如式12所示：(12) 其中，r指的是營養(yǎng)值的系數(shù)，s是一個常量，T是時間窗口的數(shù)目，r和s均由用戶進行選擇；考慮一種極端的情況，話題的能量值不隨著時間有所衰減，即衰減因子為〇,這樣話題的營養(yǎng)值就僅僅與營養(yǎng)轉(zhuǎn)換因子有關(guān)，在T時刻話題的能量值就可以表示為式13:(13) 由于F是一個嚴(yán)格單調(diào)遞增函數(shù)，該式的兩邊取反可得式14:(14) ψ. 通過兩邊同時除以1QTX,來計算α，得式15: (15)/-上定義一個營養(yǎng)衰減因子來表示每個時間段內(nèi)話題能量的衰減值，因此可使用公式16計算t時刻話題的營養(yǎng)值：(16) 選取兩組不同的參數(shù)(n，si)和(r2，S2)，即可獲得轉(zhuǎn)換因子及衰減因子的計算公式17和式18:礦={ri[t2F-HsiptiF-Hs2) ]/(rit2_r2ti)-F-Hsi)} (18) 使用的營養(yǎng)衰減因子的計算方法如式19所示： 0i = 0*log( 1 · O+m/avg) (19) 其中，隊指的是在第i個時間窗口內(nèi)的動態(tài)衰減閾值，m指在第i個時間窗口內(nèi)總的新聞報道數(shù)目，avg是一個常量經(jīng)驗值，代表在一個時間窗口內(nèi)平均發(fā)布的新聞報道數(shù)目；一篇文檔對當(dāng)前話題貢獻的營養(yǎng)值的計算方法可以表示如式20所示： ANutrition = a*sim*logEnum(Tnum) (20) 其中Tnum表示當(dāng)前話題中的文檔數(shù)目，Enum為經(jīng)驗值，s im表示當(dāng)前文檔與該話題的相似度。9.如權(quán)利要求1所述的基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，其特征是，通過計算一階增長率，二階增長率，并設(shè)置相應(yīng)的閾值，通過對事件的增長率與閾值進行比較，判斷一個時間是否可能成為熱點事件或者突發(fā)事件。
【專利摘要】本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和網(wǎng)絡(luò)信息處理領(lǐng)域，為實現(xiàn)：(1)選取符合需求的聚類方法，從而得到較為準(zhǔn)確的聚類結(jié)果。(2)使得事件模型更契合實際情況。(3)進行熱點事件以及突發(fā)事件的檢測及預(yù)警并保證較高的準(zhǔn)確率。本發(fā)明采用的技術(shù)方案是，基于AT的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法，步驟如下：步驟一：定制網(wǎng)絡(luò)爬蟲，爬取網(wǎng)絡(luò)新聞文檔；步驟二：對爬取的網(wǎng)絡(luò)新聞文檔進行中文分詞和其它預(yù)處理；步驟三：對文檔中的詞語進行詞語權(quán)重計算；步驟四：文本表示及相似度計算；步驟五：對文檔進行聚類；步驟六：選取營養(yǎng)轉(zhuǎn)換因子和營養(yǎng)衰減因子；步驟七：突發(fā)事件檢測與預(yù)警。本發(fā)明主要應(yīng)用于網(wǎng)絡(luò)通信和處理信息。
【IPC分類】G06F17/27, G06Q10/04, G06F17/30
【公開號】CN105718598
【申請?zhí)枴緾N201610127898
【發(fā)明人】于瑞國, 林榆旺, 趙滿坤, 喻梅, 王建榮, 于健
【申請人】天津大學(xué)
【公開日】2016年6月29日
【申請日】2016年3月7日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第4頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

突發(fā)事件預(yù)警級別顏色相關(guān)技術(shù)

突發(fā)事件預(yù)警相關(guān)技術(shù)

突發(fā)事件預(yù)警系統(tǒng)相關(guān)技術(shù)

突發(fā)事件預(yù)警信息發(fā)布相關(guān)技術(shù)

突發(fā)事件預(yù)警級別相關(guān)技術(shù)

突發(fā)事件預(yù)警信息相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于at的時間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法_4