基于at的時(shí)間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘、自然語(yǔ)言處理和信息檢索領(lǐng)域,設(shè)及網(wǎng)絡(luò)突發(fā)事件模型構(gòu) 建和發(fā)展分析,用于對(duì)網(wǎng)絡(luò)文檔流進(jìn)行建模,并通過(guò)對(duì)模型計(jì)算得到的結(jié)果做進(jìn)一步處理, 對(duì)可能的突發(fā)事件進(jìn)行預(yù)警。具體講,設(shè)及基于AT的時(shí)間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù) 警方法。
【背景技術(shù)】
[0002] 文本分類技術(shù)首次出現(xiàn)在上世紀(jì)50年代末,Luhn提出了一種基于詞頻的文本自動(dòng) 分類方法。隨著近年來(lái)信息技術(shù)的迅猛發(fā)展,文本分類已經(jīng)成為信息檢索領(lǐng)域內(nèi)的研究熱 點(diǎn)。
[0003] 話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)與文本分類技術(shù)一脈相 承,是文本分類技術(shù)的一種更為具體的應(yīng)用,它最早由美國(guó)國(guó)防高級(jí)研究計(jì)劃署(DARPA)提 出,是一種能在沒(méi)有人工干預(yù)的情況下自動(dòng)判斷新聞數(shù)據(jù)流的主題的新技術(shù)。主要設(shè)及準(zhǔn) 確地進(jìn)行話題檢測(cè)和跟蹤已知話題的動(dòng)態(tài)演化過(guò)程。
[0004] 為話題和文檔建立計(jì)算機(jī)可W表示的模型是TDT中最為基礎(chǔ)的研究?jī)?nèi)容,目前文 本表示模型主要有向量空間模型(Vector Space Model,VSM)、概率檢索模型(Probability Retrieval Model)、詞匯鏈模型和圖模型(Gra地S Models,GM)。
[0005] 在文本表示模型中需要對(duì)文檔進(jìn)行特征提取,而權(quán)重計(jì)算是特征提取的最重要一 環(huán),目前最為廣泛的權(quán)重計(jì)算方法為T(mén)F-IDF(詞頻-逆文檔頻率)。近年來(lái),研究人員在其基 礎(chǔ)上改進(jìn),提出了解決短期內(nèi)熱點(diǎn)發(fā)現(xiàn)的TF-PDF方法。
[0006] 話題檢測(cè)算法在本質(zhì)上是對(duì)文檔庫(kù)中的文檔進(jìn)行聚類,將描述較為相似的、很可 能屬于同一個(gè)話題的文檔聚類到一個(gè)文本簇中,而運(yùn)個(gè)文本簇就是話題的原型。文本聚類 是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,其主要依據(jù)運(yùn)樣一個(gè)著名的聚類假設(shè):同類的文檔相似度 較大,不同類的文檔相似度較小,也就是說(shuō),兩個(gè)文檔的相似度越大,它們屬于同一個(gè)類的 概率越大,反之亦然。在話題檢測(cè)技術(shù)中常用的文本聚類方法包括層次聚類方法,基于劃分 的聚類方法W及增量聚類方法。
[0007] 生物成長(zhǎng)理論(Aging化eo巧,AT)可W使用微生物在培養(yǎng)基上的生長(zhǎng)情況為代表 來(lái)進(jìn)行說(shuō)明。如圖2所示,為微生物的生長(zhǎng)曲線。微生物的生長(zhǎng)需要經(jīng)歷四個(gè)過(guò)程,首先是調(diào) 整期,此時(shí)微生物剛剛接種到培養(yǎng)基之上,其代謝系統(tǒng)需要適應(yīng)新的環(huán)境,同時(shí)要合成酶、 輔酶、其他代謝中間代謝產(chǎn)物等,所W此時(shí)期的細(xì)胞數(shù)目沒(méi)有明顯增加;然后進(jìn)入對(duì)數(shù)增長(zhǎng) 期,經(jīng)過(guò)調(diào)整期的準(zhǔn)備,為此時(shí)期的微生物生長(zhǎng)提供了足夠的物質(zhì)基礎(chǔ),同時(shí)外界環(huán)境也是 最佳狀態(tài);第=個(gè)階段是穩(wěn)定期,由于營(yíng)養(yǎng)的消耗使?fàn)I養(yǎng)物比例失調(diào)、有害代謝產(chǎn)物積累、 PH值EH值等理化條件不適宜,使得細(xì)胞數(shù)目保持相對(duì)穩(wěn)定,總細(xì)菌數(shù)達(dá)到最高水平,細(xì)胞代 謝產(chǎn)物積累達(dá)到最高峰;最后是衰亡期,在此階段,主要是外界環(huán)境對(duì)繼續(xù)生長(zhǎng)越來(lái)越不 利、細(xì)胞的分解代謝大于合成代謝、繼而導(dǎo)致大量細(xì)菌死亡。類似于生物生長(zhǎng)的自然規(guī)律, 一個(gè)事件在網(wǎng)絡(luò)中被討論的熱度,也會(huì)隨著時(shí)間的推移呈現(xiàn)出類似于微生物生長(zhǎng)的趨勢(shì)變 化曲線。
【發(fā)明內(nèi)容】
[0008] 為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在:
[0009] (1)利用最前沿的話題檢測(cè)技術(shù),改進(jìn)檢測(cè)方案,選取符合需求的聚類方法,從而 得到較為準(zhǔn)確的聚類結(jié)果。
[0010] (2)改進(jìn)的生長(zhǎng)理論為話題構(gòu)建生命周期模型,考慮諸多因素使得事件模型更契 合實(shí)際情況。
[0011] (3)在已構(gòu)建的生命周期模型的基礎(chǔ)上進(jìn)行熱點(diǎn)事件W及突發(fā)事件的檢測(cè)及預(yù)警 并保證較高的準(zhǔn)確率。
[0012] 本發(fā)明采用的技術(shù)方案是,基于AT的時(shí)間模型構(gòu)建方法與網(wǎng)絡(luò)突發(fā)事件預(yù)警方 法,步驟如下:
[0013] 步驟一:定制網(wǎng)絡(luò)爬蟲(chóng),爬取網(wǎng)絡(luò)新聞文檔;
[0014] 步驟二:對(duì)爬取的網(wǎng)絡(luò)新聞文檔進(jìn)行中文分詞和其它預(yù)處理;
[0015] 步驟=:對(duì)文檔中的詞語(yǔ)進(jìn)行詞語(yǔ)權(quán)重計(jì)算;
[0016] 步驟四:文本表示及相似度計(jì)算;
[0017] 步驟五:對(duì)文檔進(jìn)行聚類;
[0018] 步驟六:選取營(yíng)養(yǎng)轉(zhuǎn)換因子和營(yíng)養(yǎng)衰減因子.
[0019] 步驟屯:突發(fā)事件檢測(cè)與預(yù)警。
[0020] 步驟二在步驟一的基礎(chǔ)上對(duì)爬取的網(wǎng)絡(luò)新聞文檔進(jìn)行中文分詞和其它預(yù)處理,具 體步驟如下:降噪處理,刪除爬取到的垃圾信息;去重處理,去除完全相同的新聞報(bào)道;去停 用詞,停用詞沒(méi)有任何實(shí)際意義,對(duì)此進(jìn)行過(guò)濾處理;中文分詞處理,將中文句子分成單獨(dú) 的一個(gè)一個(gè)詞。
[0021] 步驟=在步驟二的基礎(chǔ)上對(duì)文檔中的詞語(yǔ)進(jìn)行詞語(yǔ)權(quán)重計(jì)算,具體步驟如下:
[0022] 在增量TF-IDF計(jì)算詞語(yǔ)W的權(quán)重時(shí),需要對(duì)在i時(shí)刻包含W的文檔個(gè)數(shù)壯i(W) W及 當(dāng)前獲取的文檔總數(shù)Ni進(jìn)行更新,其更新的公式如1和2所示;其中成'(vr)表示在第i個(gè)時(shí)間 段內(nèi)新加入的包含W的文檔個(gè)數(shù),W,,表示在第i個(gè)時(shí)間段內(nèi)新加入的總的文檔個(gè)數(shù),dfi(W) 表示前i個(gè)時(shí)間窗內(nèi)包含詞語(yǔ)W的文檔數(shù),壯i-i(w)表示前i-1個(gè)時(shí)間窗內(nèi)包含詞語(yǔ)W的文檔 數(shù),N康示前i個(gè)時(shí)間窗內(nèi)文檔總數(shù):
[0023] (1)
[0024] (2)
[0025] 利用公式(3)計(jì)算詞語(yǔ)W的增量TF-IDF值,其中tfidf/ (w,d)表示文檔d中詞語(yǔ)W的 權(quán)重,count (W,d)表示文檔d中詞語(yǔ)W出現(xiàn)的次數(shù),count (,d)表示文檔d中詞語(yǔ)W'出現(xiàn)的 次數(shù),IogO是WlO為底的對(duì)數(shù)函數(shù):
[0026]
(引'
[0027] 將詞語(yǔ)的位置信息考慮到詞語(yǔ)的權(quán)重計(jì)算中,對(duì)表示地點(diǎn)、人物等名詞加大權(quán)重, 得到加權(quán)TF-IDF計(jì)算方法,如公式4所示。其中tf idf" (W,d)表示詞語(yǔ)W在文檔d中的加權(quán)權(quán) 重,Wheadline和Wentity權(quán)重因子。
[002引
(4)
[00巧]Wheadline和Wentity計(jì)算方式如公式5所不。
[0030]
巧
[0031] 加入時(shí)間距離因子,時(shí)間距離因子TIF的計(jì)算方法如公式8所示,其中doc證Ublish 代表當(dāng)前文檔的發(fā)布時(shí)間,topic化date則表示話題中的文檔集合最后一次更新的時(shí)間,時(shí) 間單位為秒,
[0032] 微
[0033] 結(jié)合時(shí)間距離因子后,計(jì)算文檔和話題的相似度Sim(d,t)的方法如公式9所示:
[0034] Sim(d,t) =Similarity'(d,t)*TIF (9)。
[0035] 步驟四在步驟=的基礎(chǔ)上對(duì)文檔中的詞語(yǔ)進(jìn)行詞語(yǔ)權(quán)重計(jì)算,具體步驟如下:
[0036] 采用空間向量模型來(lái)表示話題和文檔,對(duì)每一個(gè)文檔D,都可W將其表示為一個(gè)由 n個(gè)關(guān)鍵詞組成的n維向量,而后就可W將文檔中的內(nèi)容轉(zhuǎn)換為向量空間中的向量進(jìn)行運(yùn) 算,在將話題和文檔使用向量空間模型表示為向量W后,就可W使用向量夾角來(lái)對(duì)文檔與 話題之間的相似度進(jìn)行量化;在將話題和文檔使用向量空間模型表示為向量W后,使用向 量夾角來(lái)對(duì)文檔與話題之間的相似度進(jìn)行量化,如公式7所示,其中SimiIarit/ (d,t)表示 文檔d和話題t的相似度,tfi壯(w,d)表示詞語(yǔ)W在文檔d中的權(quán)重,tfi壯(w,t)表示詞語(yǔ)W在 話題t的權(quán)重。
[0037]
(7)。
[0038] 步驟五在步驟四的基礎(chǔ)上對(duì)文檔進(jìn)行聚類,具體步驟如下:使用Single-Pass作為 在線話題檢測(cè)的增量聚類方法,利用該方法并結(jié)合時(shí)間距離因子將新聞文檔進(jìn)行分類,具 體是:
[0039] (1)輸入一篇網(wǎng)絡(luò)文檔d;
[0040] (2)計(jì)算文檔d與當(dāng)前已有話題中的各個(gè)話題中的每一篇文檔的相似度,并選取其 中的最大值作為與該話題的相似度;
[0041] (3)在所有話題中選出與文檔d相似度最大的一個(gè)話題,并記錄此時(shí)的相似度值S;
[0042] (4)如果S大于聚類闊值Tc,文檔d被分配給運(yùn)個(gè)話題模型的文本類,跳轉(zhuǎn)至(6);
[0043] (5)如果S小于聚類闊值Tc,說(shuō)明文檔d不屬于當(dāng)前已有的話題集合中的任意話題, 創(chuàng)建新話題并將文檔d加入該新話題;
[0044] (6)聚類結(jié)束,等待新文檔的到來(lái)。
[0045] 步驟六在步驟五的基礎(chǔ)上選取營(yíng)養(yǎng)轉(zhuǎn)換因子和營(yíng)養(yǎng)衰減因子,具體步驟如下:
[0046] 對(duì)一個(gè)話題V,記在一個(gè)時(shí)間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加和 為Xt,設(shè)置營(yíng)養(yǎng)轉(zhuǎn)換因子a (Nutrition Transferred Factor)和營(yíng)養(yǎng)衰減因子0(Nut;r it ion Decayed Factor),a決定了新聞文檔能夠貢獻(xiàn)給話題的營(yíng)養(yǎng)值,e則代表營(yíng)養(yǎng)衰減因子,通 過(guò)設(shè)定相關(guān)函數(shù),并通過(guò)機(jī)器學(xué)習(xí)的方法獲得最佳的營(yíng)養(yǎng)轉(zhuǎn)換因子和營(yíng)養(yǎng)衰減因子,根據(jù) 實(shí)際情況,網(wǎng)絡(luò)新聞發(fā)布數(shù)量不是按時(shí)間均勻分布的,在新聞報(bào)道重量較少的情況下,話題 的能量值會(huì)衰減過(guò)快,因此考慮實(shí)際情況在計(jì)算即寸乘上一個(gè)與該時(shí)間窗內(nèi)文檔數(shù)量有關(guān) 的函數(shù);同時(shí)在新話題建立初期,營(yíng)養(yǎng)值會(huì)出現(xiàn)增長(zhǎng)過(guò)快的情況,在計(jì)算當(dāng)前文檔對(duì)話題的 影響時(shí)乘上一個(gè)與該話題當(dāng)前文檔數(shù)相關(guān)的函數(shù)W進(jìn)行抑制。
[0047] 步驟六進(jìn)一步具體形式是:
[0048] 對(duì)于一個(gè)話題V,記在一個(gè)時(shí)間窗t內(nèi)所有的屬于該話題的文檔與其相似度的累加 和為Xt,在t時(shí)刻話題的能量值可記為一個(gè)與a和PW及每