一種基于遙感數據的熱點主題展示方法
【技術領域】
[0001] 本發(fā)明屬于地理時空數據處理與挖掘技術領域,尤其涉及一種基于遙感數據的熱 點主題展示方法。
【背景技術】
[0002] 文本挖掘的主要方法是將非結構化的文本數據轉化為結構化的數據形式來分析, 這就是如何對文本建模的問題。當前文本建模的主要范式是概率主題模型,概率主題模型 的基本思想是將文本視作無順序的詞的集合,用概率圖模型來表示文本集的產生過程,并 通過參數估計來定位文本集中的低維的多項式分布集合,每個多項式分布稱為一個主題 (Topic),用來捕捉詞與詞之間的相關性。主題模型可以在不需要計算機真正理解自然語言 的情況下,提取可被人理解的、相對穩(wěn)定的隱含語義結構,為大規(guī)模數據集中的文檔尋找一 個相對短的描述。主題模型最開始的時候被當作一種降維工具使用,據LDA的作者Blei介紹 其在英文文本分類上降維幅度達到99.6%的情況下依然獲得良好的分類效果。此后,由于 其自身有著比較堅實的統(tǒng)計學基礎,且保留了豐富的語義特征,因而其在信息檢索、文本分 類、文本聚類等文本挖掘任務中開始發(fā)揮越來越重要的作用。
[0003] 針對開放數據集,通過用貝葉斯方法為可變層次結構指定一個生成概率模型實現 結構學習。這樣的層次是隨機變量,并且在數據可用情況下根據一個構建層次的算法指定, 這就用到著名的嵌套中國餐館過程。為了學習層次結構和參數,將把hLDA和嵌套中國餐館 過程相結合。一個文檔的生成通過在餐館中選一條路徑,然后把詞語分布到與路徑相關聯 的主題分布的餐館中。所有文檔共享和根餐館相關聯的主題分布。隨后的新文檔也將依賴 原始語料和所有出現在它們之前的新文檔。任何新文檔都可以選擇樹中任何層次先前沒有 訪問過的餐館。
[0004] hLDA是一個層次化的主題模型,不僅能夠從無結構、開放式數據中學習層次主題, 而且主題的個數是不需要人工設定的,可以隨著數據集的增長自動的調整。層次主題模型 是純數據驅動的方式不僅實現了深層次的語義分析,而且能夠識別主題間的關系,即抽象 和具體的主題,促進了自然語言處理技術的發(fā)展,為使計算機更好的理解文本語言打下了 堅實的基礎。層次主題模型是一個比平面結構主題模型(如LDA)更高級的模型,它能夠從文 檔集中發(fā)現潛在主題并組織成分層結構,更適合在摘要領域的應用。hLDA模型是LDA的無參 化模型。在LDA模型中,需要確定主題的個數K,然后根據狄利克雷分布來確定文檔中這K個 主題的權重,然后確定主題,根據主題中詞的概率,選擇具體的詞。而在hLDA中,不需要事先 確定主題的個數,也就是主題的個數可以隨著數據的變化而改變。層級主題模型可以建立 主題的層級樹,不同層級的主題反映了不同粒度的主題,越上層的主題越寬泛,越下層的主 題越具體,從粗到細,實現主題的逐層分析。
【發(fā)明內容】
[0005] (一)要解決的技術問題
[0006] 本發(fā)明的目的在于,提供一種基于遙感數據的熱點主題展示方法,能夠自動提取 時空事件元素、推理關聯聚類、生成熱點專題并對其進行動態(tài)可視化展示。
[0007] (二)技術方案
[0008] 本發(fā)明提供一種基于遙感數據的熱點主題展示方法,熱點主題包括至少一個事 件,遙感數據具有所述事件的事件元素,方法包括:
[0009] s 1,從遙感數據中提取出事件元素;
[0010] S2,根據所述事件元素,對事件進行分層聚類,得到分布在不同層次的事件聚類, 每個事件聚類對應于一個熱點主題;
[0011] S3,對各個層次的熱點主題進行統(tǒng)計分析,得到熱點主題的分布形態(tài);
[0012] S4,對熱點主題的分布形態(tài)進行展示。
[0013](三)有益效果
[0014] 本發(fā)明提供了一種基于遙感數據的熱點主題展示方法,相比現有技術,其通過時 空事件要素自動提取,在關聯聚類推理的基礎上,針對面向應用的指向性要求,能夠按照特 定任務空間、時間和偵察對象的關聯性實現不同來源情報素材的關聯,顯著提高與地理空 間信息的融合精度,最終實現熱點專題的動態(tài)可視化展示,具備更高的效率。
【附圖說明】
[0015] 圖1是本發(fā)明實施例提供的基于遙感數據的熱點主題展示方法的流程圖。
【具體實施方式】
[0016] 本發(fā)明提供了一種基于遙感數據的熱點主題展示方法,首先從遙感數據中提取出 事件元素,然后根據事件元素對事件進行分層聚類,得到分布在不同層次的事件聚類,再對 各個層次的熱點主題進行統(tǒng)計分析,得到熱點主題的分布形態(tài),最后對熱點主題的分布形 態(tài)進行展示。本發(fā)明能夠按照特定任務空間、時間和偵察對象的關聯性實現不同來源情報 素材的關聯,顯著提高與地理空間信息的融合精度,最終實現熱點專題的動態(tài)可視化展示, 具備更高的效率。
[0017] 根據本發(fā)明的一種實施方式,熱點主題包括一個或多個事件,遙感數據具有事件 的事件元素。例如,新聞的欄目分類中,一個欄目對應一個主題,如"娛樂"、"體育"欄目,每 個欄目下可以包含有多個新聞,每個新聞即可看作一個事件。方法包括:
[0018] S1,從遙感數據中提取出事件元素;遙感數據多帶有時空屬性,隸屬于地理空間數 據,隨著遙感數據生產、獲取技術的發(fā)展,數據的數量迅速膨脹,事件的分析以時間的屬性、 內容為基礎,具體有數據本身的時間、空間、偵查對象等要素,通過自然語言理解領域的實 體識別技術,運用通用的識別工具,并制定相應的規(guī)則,可以實現時空時間要素的提取。
[0019] S2,根據所述事件元素,對所述事件進行分層聚類,得到分布在不同層次的事件聚 類,每個事件聚類對應于一個熱點主題;
[0020] S3,對各個層次的熱點主題進行統(tǒng)計分析,得到熱點主題的分布形態(tài);
[0021] S4,對所述熱點主題的分布形態(tài)進行展示。
[0022] 根據本發(fā)明的一種實施方式,步驟S1包括:
[0023] 對所述遙感數據進行分詞,并去除停用詞,接著,采用Stanford NLP tool識別出 所述遙感數據中的事件元素,其中,所述事件元素包括時間信息、地點信息、人物信息、國家 ?目息和組織?目息。
[0024]根據本發(fā)明的一種實施方式,步驟S2包括:
[0025]采用Beta分布對所述時間信息進行建模,得到事件聚類,其中,Beta分布的表達式 為:
[0026]
[0027]其中,P為Beta分布β的概率密度函數,X為隨機變量,p,q是兩個大于零的參數,B (P,q)定義如下;
[0028]
[0029] 利用層級模型建模不同層級的專題,其中,采樣層級按照以下條件概率設定:
[0030] p(zd,n | Z-(d,n) ,C ,W,m,3T ,η) °°ρ(Ζ(?,ηI Zd,-η , Ι? , 3Τ ) Ρ (Wd, η | Ζ , C , W-(d, η) ,η)
[0031]
[0032] 其中,Zd,nR表當前事件元素的主題分配情況,Zd,-nR表排除了所要采樣的主題之 后的其余觀測數據的當前主題分配情況,k為主題索引, C,W,m,3T,n為超參數。
[0033] 根據本發(fā)明的一種實施方式,步驟S3包括:
[0034] 利用話題演化模型對各個層次的熱點主題進行統(tǒng)計分析,得到熱點主題的分布形 態(tài),其中,話題演化模型的概率密度函數為:
[0035] p(ct = ]\D,a) °^ \ , 1 ? ,i = j
[0036] 其中,Cl代表第i個事件,D表示事件相似度,α為模型超參數,f為衰減函數,du表示 主題i和j的相似度;
[0037] 采樣路徑按照以下條件分布選取:
[0038] p(cd | w,c-d,z,n,a,f ,〇ι:?-ι)°°ρ(〇(? | c-d,a,f ,Di:L-i