)p(wd | c,w-d,z ,n)
[0039]
[0040] 其中,Cd代表當(dāng)前事件,c-d代表其他事件,f為衰減函數(shù),w,z分別代表詞項(xiàng)與主題, Di 為事件之間的相似度,其余為模型超參數(shù)。
[0041 ]根據(jù)本發(fā)明的一種實(shí)施方式,步驟S4包括:
[0042] 將所述熱點(diǎn)主題的分布形態(tài)在時(shí)間軸上動(dòng)態(tài)展示,以刻畫每一個(gè)熱點(diǎn)專題隨時(shí)間 的變化狀況。
[0043] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0044] 圖1是本發(fā)明實(shí)施例提供的基于遙感數(shù)據(jù)的熱點(diǎn)主題展示方法的流程圖,如圖1所 示,方法包括:
[0045] 步驟S101:在遙感數(shù)據(jù)中進(jìn)行時(shí)空事件元素提取,主要有以下幾個(gè)步驟:
[0046] 1.1遙感數(shù)據(jù)預(yù)處理;
[0047]對(duì)遙感數(shù)據(jù)進(jìn)行分詞,去停用詞等,其中分詞采用計(jì)算所的中文分詞工具,去停用 詞采用通用的停用詞表;
[0048] 1.2實(shí)體識(shí)別;
[0049] 運(yùn)用Stanford NLP tool進(jìn)行實(shí)體識(shí)別,識(shí)別出原始數(shù)據(jù)遙感數(shù)據(jù)中的時(shí)間、地 點(diǎn)、人物、國(guó)家、組織等事件元素作為事件的觀測(cè)對(duì)象;
[0050] 步驟S102:關(guān)聯(lián)聚類推理;
[0051] 對(duì)事件及抽取得到的事件元素進(jìn)行關(guān)聯(lián)分析,采用的方法為基于改進(jìn)的層級(jí)主題 模型聚類;
[0052] 層次主題模型是一個(gè)比平面結(jié)構(gòu)主題模型(如LDA)更高級(jí)的模型,采用層級(jí)樹(shù)形 結(jié)構(gòu)來(lái)描述主題之間的層次關(guān)系,樹(shù)上的每個(gè)節(jié)點(diǎn)代表一個(gè)主題;對(duì)于每篇文檔,該模型首 先通過(guò)中餐館過(guò)程(CRP)為每一個(gè)文檔選擇一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑,該路徑指定 了一系列主題,然后針對(duì)文檔中的每個(gè)字選擇路徑上的一個(gè)主題,然后根據(jù)該主題生成字; 層級(jí)主題模型可以建立主題的層級(jí)樹(shù),不同層級(jí)的主題反映了不同粒度的主題,越上層的 主題越寬泛,越下層的主題越具體,從粗到細(xì),實(shí)現(xiàn)主題的逐層分析;針對(duì)事件中的時(shí)間特 征,對(duì)數(shù)據(jù)進(jìn)行聚類分析;主要步驟如下:
[0053] 2.1將時(shí)間信息引入主題模型中進(jìn)行聯(lián)合建模,得到聚類結(jié)果,每一個(gè)聚類對(duì)應(yīng)一 個(gè)熱點(diǎn)主題;
[0054]建模時(shí)間信息時(shí)選擇某時(shí)間上的函數(shù)(或某隨機(jī)過(guò)程)來(lái)刻畫熱點(diǎn)主題的強(qiáng)度變 化;Beta分布相對(duì)于其他分布具有不對(duì)稱性,能夠更加靈活地?cái)M合主題在時(shí)間上的演變,因 此被用來(lái)建模時(shí)間信息;
[0055] Beta分布的概率密度函數(shù): "χ^α-χΓ1π 丨
[0056] "(p,q) ^ 0 ,χ<0?||χ>1
[0057] 2.2利用層級(jí)模型nCRP建模不同層級(jí)的熱點(diǎn)主題;
[0058] 采樣層級(jí)按照以下條件概率設(shè)定:
[0059] p(zd,n| Z-(d,n) ,C,W,m,3T,n) °°ρ(Ζ(?,η| Zd,-n,m,3T)p(wd,n| Z ,C,W-(d,n) ,n)
[0060]
[0061] 從"代表當(dāng)前詞的主題分配情況,Zd,-n代表排除了所要采樣的主題之后的其余觀 測(cè)數(shù)據(jù)的當(dāng)前主題分配情況,k為主題索引, C,W,m,3i,n為超參數(shù);
[0062]步驟S103:任務(wù)驅(qū)動(dòng)的熱點(diǎn)專題追蹤;
[0063] 利用話題演化模型ddCRP刻畫各層主題的全局發(fā)展過(guò)程,并歸納和總結(jié)發(fā)展規(guī)律, 得到主題分布形態(tài)。
[0064] 其中,ddCRP的概率密度函數(shù): r 1 , ·1η、[州山"
[0065] p(c, = j A ^ 1 L d=:j
[0066] 采樣路徑按照以下條件分布選?。?br>[0067] p (cd | w,c-d,z,η,a,f,Di: l-1) 00 p (Cd | c-d,a,f,Di:l-1) p (Wd | c,w-d,z,η)
[0068]
[0069] 其中,Cd代表當(dāng)前事件,c-d代表其他事件,f為衰減函數(shù),w,z分別代表事件元素與 主題,Di 為事件之間的相似度,其余為模型超參數(shù);
[0070] 步驟S104:融合動(dòng)態(tài)可視化;
[0071 ]將熱點(diǎn)主題的分布形態(tài)在時(shí)間軸上動(dòng)態(tài)展示,刻畫每一個(gè)熱點(diǎn)專題隨時(shí)間的變化 狀況。
[0072]以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳 細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡 在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保 護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于遙感數(shù)據(jù)的熱點(diǎn)主題展示方法,熱點(diǎn)主題包括至少一個(gè)事件,遙感數(shù)據(jù)具 有所述事件的事件元素,其特征在于,方法包括: S1,從遙感數(shù)據(jù)中提取出事件元素; 52, 根據(jù)所述事件元素,對(duì)所述事件進(jìn)行分層聚類,得到分布在不同層次的事件聚類, 每個(gè)事件聚類對(duì)應(yīng)于一個(gè)熱點(diǎn)主題; 53, 對(duì)各個(gè)層次的熱點(diǎn)主題進(jìn)行統(tǒng)計(jì)分析,得到熱點(diǎn)主題的分布形態(tài); 54, 對(duì)所述熱點(diǎn)主題的分布形態(tài)進(jìn)行展示。2. 根據(jù)權(quán)利要求1所述的基于遙感數(shù)據(jù)的事件預(yù)測(cè)方法,其特征在于,所述步驟S1包 括: 對(duì)所述遙感數(shù)據(jù)進(jìn)行分詞,并去除停用詞,接著,采用Stanford NLP tool識(shí)別出所述 遙感數(shù)據(jù)中的事件元素,其中,所述事件元素包括時(shí)間信息、地點(diǎn)信息、人物信息、國(guó)家信息 和組織信息。3. 根據(jù)權(quán)利要求2所述的基于遙感數(shù)據(jù)的事件預(yù)測(cè)方法,其特征在于,所述步驟S2包 括: 采用Beta分布對(duì)所述時(shí)間信息進(jìn)行建模,得到事件聚類,其中,Beta分布的表達(dá)式為:其中,P為Beta分布β的概率密度函數(shù),X為隨機(jī)變量,p,q是兩個(gè)大于零的參數(shù),B(p,q) 定義如下;利用層級(jí)模型建模不同層級(jí)的專題,其中,采樣層級(jí)按照以下條件概率設(shè)定: p(zd,n| Z-(d,n) ,C,W,m,3T,n)ocp(zd,n| Zd,-n,m,3T)p(wd,n| Z,C,W-(d,n) ,η),' 其中,Zd,nR表當(dāng)前事件元素的主題分配情況,Zd,-n代表排除了所要采樣的主題之后的 其余觀測(cè)數(shù)據(jù)的當(dāng)前主題分配情況,k為主題索引,C,W,m,3T,n為超參數(shù)。4. 根據(jù)權(quán)利要求3所述的基于遙感數(shù)據(jù)的事件預(yù)測(cè)方法,其特征在于,所述步驟S3包 括: 利用話題演化模型對(duì)各個(gè)層次的熱點(diǎn)主題進(jìn)行統(tǒng)計(jì)分析,得到熱點(diǎn)主題的分布形態(tài), 其中,話題演化模型的概率密度函數(shù)為:其中,Cl代表第i個(gè)事件,D表示事件相似度,α為模型超參數(shù),f為衰減函數(shù),du表示主題 i和j的相似度; 采樣路徑按照以下條件分布選取:其中,Cd代表當(dāng)前事件,C-d代表其他事件,f為衰減函數(shù),w,z分別代表詞項(xiàng)與主題,Dm 為事件之間的相似度,其余為模型超參數(shù)。5.根據(jù)權(quán)利要求4所述的基于遙感數(shù)據(jù)的事件預(yù)測(cè)方法,其特征在于,所述步驟S4包 括: 將所述熱點(diǎn)主題的分布形態(tài)在時(shí)間軸上動(dòng)態(tài)展示,以刻畫每一個(gè)熱點(diǎn)專題隨時(shí)間的變 化狀況。
【專利摘要】本發(fā)明提供了一種基于遙感數(shù)據(jù)的熱點(diǎn)主題展示方法,首先從遙感數(shù)據(jù)中提取出事件元素,然后根據(jù)事件元素對(duì)事件進(jìn)行分層聚類,得到分布在不同層次的事件聚類,再對(duì)各個(gè)層次的熱點(diǎn)主題進(jìn)行統(tǒng)計(jì)分析,得到熱點(diǎn)主題的分布形態(tài),最后對(duì)熱點(diǎn)主題的分布形態(tài)進(jìn)行展示。本發(fā)明能夠按照特定任務(wù)空間、時(shí)間和偵察對(duì)象的關(guān)聯(lián)性實(shí)現(xiàn)不同來(lái)源情報(bào)素材的關(guān)聯(lián),顯著提高與地理空間信息的融合精度,最終實(shí)現(xiàn)熱點(diǎn)專題的動(dòng)態(tài)可視化展示,具備更高的效率。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105608217
【申請(qǐng)?zhí)枴緾N201511029483
【發(fā)明人】付琨, 許光鑾, 孫顯, 黃宇, 王磊, 閆夢(mèng)龍, 鄭歆慰
【申請(qǐng)人】中國(guó)科學(xué)院電子學(xué)研究所
【公開(kāi)日】2016年5月25日
【申請(qǐng)日】2015年12月31日