国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法

      文檔序號:10656694閱讀:507來源:國知局
      一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法
      【專利摘要】本發(fā)明公布了一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,針對存在缺失的級聯(lián)數(shù)據(jù),通過估計在網(wǎng)絡(luò)中添加不同邊所帶來似然值的邊際增益的大小,得到逐步添加邊的順序,每次添加似然值最大的邊,直至所有邊添加完成,由此補全所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu);包括:初始化待推斷網(wǎng)絡(luò)G、進行循環(huán)迭代計算邊際收益和取邊際收益最大的邊添加到Gi?1中得到新的網(wǎng)絡(luò),完成迭代即得到推斷出的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。本發(fā)明方法適用性廣,尤其可以應(yīng)用于級聯(lián)數(shù)據(jù)缺失情形;本發(fā)明技術(shù)方案在保持較高的時間效率基礎(chǔ)上,顯著提升了網(wǎng)絡(luò)推斷結(jié)果的準確率,可以成為真實世界中推斷隱藏網(wǎng)絡(luò)結(jié)構(gòu)的有效手段。
      【專利說明】
      -種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明屬于社交網(wǎng)絡(luò)分析領(lǐng)域,設(shè)及社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,尤其設(shè)及一 種根據(jù)缺失信息傳播級聯(lián)數(shù)據(jù)推斷網(wǎng)絡(luò)拓撲結(jié)構(gòu)的方法。
      【背景技術(shù)】
      [0002] 社交網(wǎng)絡(luò)平臺的流行,使得對社交網(wǎng)絡(luò)分析的顯得尤為必要。通常情況下,人們往 往可W觀察到信息在社交網(wǎng)絡(luò)上傳播過程中的激活時間數(shù)據(jù),但社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)往往 無法直接觀測到。例如,我們可W觀察到某一網(wǎng)站發(fā)布消息的級聯(lián)傳播的過程,但卻并沒有 注明消息傳播的途徑;又如某微信用戶訂閱了公眾號,然而向他推薦的用戶信息卻不得而 知。在大量的真實社交網(wǎng)絡(luò)場景中,人們往往只能獲取信息在社交網(wǎng)絡(luò)上傳播過程中所激 活節(jié)點的時間信息(簡稱級聯(lián)數(shù)據(jù)),但是信息傳播的路徑卻無法直接獲得。運些級聯(lián)數(shù)據(jù) 集為社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷提供了重要的潛在信息,因此,如何利用運些級聯(lián)數(shù)據(jù)推斷 出潛在的網(wǎng)絡(luò)拓撲結(jié)構(gòu),對社交網(wǎng)絡(luò)研究和諸多領(lǐng)域的應(yīng)用(如傳染病傳播途徑推斷、謠言 的追蹤溯源等)有著重要意義。
      [0003] 當前,國際上所有已提出的社交網(wǎng)路拓撲推斷方法都假設(shè)所觀測到的級聯(lián)數(shù)據(jù)是 完整的,不存在任何缺失。運是一種要求條件非常嚴格的假設(shè),而真實世界中所采集到的級 聯(lián)數(shù)據(jù)很難完全覆蓋所有被激活節(jié)點,不可避免的存在缺失疏漏,必然存在缺失現(xiàn)象。截止 目前國際上已經(jīng)提出的網(wǎng)絡(luò)拓撲推斷方法(如化trate、化tinfo、MMrate等)都忽視了運一 現(xiàn)實特點?,F(xiàn)有的基于級聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)推斷方法不考慮級聯(lián)數(shù)據(jù)缺失的問題,因 而不能很好的適用于現(xiàn)實場景。如果將運些方法直接在缺失的級聯(lián)數(shù)據(jù)上推斷網(wǎng)絡(luò)拓撲結(jié) 構(gòu),已有研究表明,其推斷出的網(wǎng)絡(luò)拓撲精度存在很大偏差,嚴重影響了現(xiàn)實社交網(wǎng)絡(luò)的挖 掘分析和應(yīng)用。

      【發(fā)明內(nèi)容】

      [0004] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法, 面向缺失級聯(lián)數(shù)據(jù)的、基于貪屯、思路的網(wǎng)絡(luò)拓撲結(jié)構(gòu)推斷方法,W解決網(wǎng)絡(luò)推斷問題在現(xiàn) 實情形下的精度保證和適用性問題。
      [0005] 本發(fā)明的原理是:本發(fā)明基于貪屯、的網(wǎng)絡(luò)推斷框架、基于仿真的缺失級聯(lián)數(shù)據(jù)補 全、缺失級聯(lián)數(shù)據(jù)的邊際收益計算W及最大級聯(lián)傳播樹的合并,解決網(wǎng)絡(luò)推斷問題在缺失 級聯(lián)數(shù)據(jù)現(xiàn)實情形下的精度保證和適用性問題。首先,初始化網(wǎng)絡(luò)邊集為空;然后,循環(huán)迭 代m次,每次向網(wǎng)絡(luò)中添加一條邊際收益最大的邊,直至m條邊添加完畢,即得到推斷出的邊 數(shù)為m的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。其中,邊際收益計算如下:執(zhí)行迭代過程中,基于已觀測節(jié)點模擬信 息傳播過程,實現(xiàn)缺失級聯(lián)數(shù)據(jù)的補全,進而計算補全級聯(lián)數(shù)據(jù)的邊際收益。本發(fā)明能夠準 確高效的給出網(wǎng)絡(luò)推斷結(jié)果,解決缺失級聯(lián)下的網(wǎng)絡(luò)推斷問題,滿足實際應(yīng)用需求。網(wǎng)絡(luò)推 斷問題是一個NP難的問題,所W只能采用近似的推斷方法實現(xiàn)。本發(fā)明提出的基于貪屯、的 推斷方法,可W在理論上保證該方法推斷結(jié)果的精度的下界為l-1/e。
      [0006] 其中,基于貪屯、的網(wǎng)絡(luò)推斷框架是網(wǎng)絡(luò)推斷的總體架構(gòu),其基本思路是基于觀測 到的級聯(lián)傳播數(shù)據(jù),通過推斷(估計)在網(wǎng)絡(luò)中添加不同邊所帶來似然值的邊際增益的大 小,來確定逐步添加邊的順序,每次添加似然值最大的邊,直至所有邊添加完成,就完成了 網(wǎng)絡(luò)結(jié)構(gòu)的推斷;在此過程中,本發(fā)明對缺失的級聯(lián)數(shù)據(jù)采用蒙特卡洛方法進行補全。本發(fā) 明提出基于仿真的缺失級聯(lián)數(shù)據(jù)補全方法,解決級聯(lián)數(shù)據(jù)缺失情形下網(wǎng)絡(luò)結(jié)構(gòu)推斷問題, 如何在當前觀測到的級聯(lián)數(shù)據(jù)之上估計出缺失的級聯(lián)傳播數(shù)據(jù)是本發(fā)明的核屯、之一。采用 的基本方法是蒙特卡洛仿真,仿真過程按照信息傳播的機理重現(xiàn)網(wǎng)絡(luò)信息傳播過程,在當 前網(wǎng)絡(luò)拓撲結(jié)構(gòu)上估計出缺失的級聯(lián)數(shù)據(jù)。運是由于信息傳播過程中每個節(jié)點激活鄰居節(jié) 點都是獨立進行的,因此在仿真過程中讓觀測到的級聯(lián)數(shù)據(jù)中的每個節(jié)點都按照信息傳播 的機制在當前網(wǎng)絡(luò)上進行傳播,每個節(jié)點都可W得到一棵傳播樹,把運些傳播樹進行合并, 可W得到一棵最大級聯(lián)傳播樹。根據(jù)級聯(lián)傳播樹的合并機制,該樹就是在當前網(wǎng)絡(luò)結(jié)構(gòu)下, 使當前缺失級聯(lián)傳播數(shù)據(jù)取得最大傳播似然值的樹。
      [0007] 本發(fā)明提出缺失級聯(lián)數(shù)據(jù)的邊際收益計算方法,邊際收益計算的目的是確定在當 前已推斷出的網(wǎng)絡(luò)拓撲結(jié)構(gòu)的基礎(chǔ)上,再添加哪條邊,可W使得觀測到的級聯(lián)傳播數(shù)據(jù)的 似然值增益最大。此過程需要枚舉當前網(wǎng)絡(luò)中所有沒有出現(xiàn)的邊,然后計算他們似然值的 邊際收益。似然值的計算依賴于缺失級聯(lián)數(shù)據(jù)的蒙特卡洛仿真所產(chǎn)生的最大合并樹,基于 該最大合并樹可得到該傳播級聯(lián)數(shù)據(jù)在當前網(wǎng)絡(luò)上的傳播似然值,也就得到了該邊添加后 的傳播似然值的邊際收益。最大級聯(lián)傳播樹的合成方法是對當前缺失級聯(lián)傳播樹中的每個 節(jié)點通過蒙特卡洛仿真得到的傳播樹,使每棵樹的根節(jié)點按照傳播級聯(lián)的概率最大化原 貝1J,在其他傳播樹結(jié)構(gòu)中找到其父節(jié)點。在合并的過程中,由于每個節(jié)點傳播是獨立進行 的,因此在不同樹結(jié)構(gòu)中會出現(xiàn)節(jié)點重復(fù)激活的現(xiàn)象。那么對于重復(fù)的節(jié)點我們只保留激 活時間最早的節(jié)點,激活時間晚的所有節(jié)點及其對應(yīng)的子樹全部刪除。運樣就得到一棵沒 有重復(fù)節(jié)點的最大傳播生成樹。
      [0008] 本發(fā)明提供的技術(shù)方案是:
      [0009] -種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,針對存在缺失的級聯(lián)數(shù)據(jù),通過估計在所述 網(wǎng)絡(luò)中添加不同邊所帶來似然值的邊際增益的大小,得到逐步添加邊的順序,每次添加似 然值最大的邊,直至所有邊添加完成,由此補全所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu);包括如下步驟:
      [0010] 1)初始化社交網(wǎng)絡(luò)為邊集為空的待推斷網(wǎng)絡(luò)G,所述初始的待推斷網(wǎng)絡(luò)G中僅有節(jié) 點,節(jié)點之間沒有邊相連;
      [0011] 在社交網(wǎng)絡(luò)中,每次消息的傳播過程構(gòu)成一個級聯(lián)數(shù)據(jù),信息的多次傳播過程構(gòu) 成一個級聯(lián)傳播數(shù)據(jù)集。每個完整的級聯(lián)數(shù)據(jù)包含了本次信息傳播所有激活節(jié)點的集合W 及每個節(jié)點被激活的時間信息;信息缺失的級聯(lián)數(shù)據(jù)僅僅是完整的級聯(lián)數(shù)據(jù)的子集,其中 的部分激活節(jié)點及其時間信息缺失。缺失級聯(lián)數(shù)據(jù)集,構(gòu)成了本發(fā)明進行網(wǎng)絡(luò)推斷的數(shù)據(jù) 基礎(chǔ)。
      [0012] 2)缺失級聯(lián)數(shù)據(jù)集設(shè)為日,包含多個獨立的缺失級聯(lián)數(shù)據(jù)6;所述缺失級聯(lián)數(shù)據(jù)£是 完整級聯(lián)數(shù)據(jù)的子集,其中缺失部分激活節(jié)點和節(jié)點時間信息;設(shè)定迭代次數(shù)為m次,將缺 失級聯(lián)數(shù)據(jù)集作為輸入,進行循環(huán)迭代,每次迭代執(zhí)行步驟3)~步驟4);
      [0013] 3)計算邊際收益,所述邊際收益是網(wǎng)絡(luò)Gi-I中添加一條候選邊ei變成網(wǎng)絡(luò)Gi時,對 缺失級聯(lián)數(shù)據(jù)集巧中的每個缺失級聯(lián)數(shù)據(jù)所帶來的概率值的邊際增益;計算得到在網(wǎng)絡(luò)Gi-I 中添加所有候選邊的邊際收益;
      [0014] 4)通過貪屯、算法對網(wǎng)絡(luò)進行加邊,具體是在第3)步計算在網(wǎng)絡(luò)Gi-I中添加所有候 選邊的邊際收益計算得到的結(jié)果中,取邊際收益最大的邊添加到Gi-I中,得到網(wǎng)絡(luò)Gi;
      [001引5)完成循環(huán)迭代m次,得到包含m條邊的圖G,即得至雌斷出的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。
      [0016] 針對上述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,進一步地,步驟2)迭代次數(shù)m等于最終推 斷出的網(wǎng)絡(luò)中邊的數(shù)目。
      [0017] 針對上述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,進一步地,步驟3)所述計算邊際收益的 步驟如下:
      [0018] 31)初始化:對于缺失級聯(lián)數(shù)據(jù)集S的每個缺失級聯(lián)數(shù)據(jù)斬執(zhí)行M次蒙塔卡羅模擬 仿真,對缺失級聯(lián)數(shù)據(jù)中的缺失值進行估計,得到估計值;每次蒙塔卡羅模擬仿真過程執(zhí)行 如下步驟32);
      [0019] 32)對在f中被激活的每個激活節(jié)點U,在當前網(wǎng)絡(luò)Gi中執(zhí)行一次蒙塔卡羅傳播模 擬仿真,得到一棵仿真?zhèn)鞑銽(U);將所有激活節(jié)點對應(yīng)傳播樹T(U)進行合并,構(gòu)造得到最 大級聯(lián)傳播合并樹T*,T*中激活節(jié)點的集合為補全的級聯(lián)數(shù)據(jù)t;由此得到缺失級聯(lián)數(shù)據(jù)中 的缺失值的估計值;
      [0020] 33)通過式2計算補令級聯(lián)數(shù)據(jù)t在合并樹T*上的傳播概率:
      [0021]
      (式 2)
      [0022] 式2中,f(t;T^為補全級聯(lián)t在合并樹T*上的傳播概率;P(u,v)是節(jié)點U和V之間的 傳播概率,y是設(shè)定的節(jié)點激活概率;
      [0023] 34)用步驟33)所述補全級聯(lián)數(shù)據(jù)t在T*上的傳播概率代替補全級聯(lián)數(shù)據(jù)t在當前 網(wǎng)絡(luò)Gi上的最大傳播概率f (t ;Gi-i U ei);
      [0024] 35)對缺失級聯(lián)數(shù)據(jù)集6的傳播概率進行估計:
      [00巧]通過對缺失級聯(lián)數(shù)據(jù)f的M次仿真估計似然值取均值,作為補全缺失級聯(lián)數(shù)據(jù)E的 傳播概率似然值的估計值;對缺失級聯(lián)數(shù)據(jù)集巧中的每個缺失級聯(lián)數(shù)據(jù)執(zhí)行步驟32),對級 聯(lián)數(shù)據(jù)f的缺失進行仿真估計,然后對每個級聯(lián)的概率似然值求積,得到缺失級聯(lián)數(shù)據(jù)集O 的概率似然值f (日,Gi)估計,表示為式4:
      [0026]
      (式 4)
      [0027] 式4中,ti'巧O中第i個缺失級聯(lián)巧在第j次仿真中得到的補全級聯(lián)。
      [002引36)計算邊際收益:將缺失級聯(lián)數(shù)據(jù)集g在網(wǎng)絡(luò)Gi-I Uei上的概率值減去S在網(wǎng)絡(luò) Gi-I上的概率值,作為本次添加候選邊ei的邊際收益。
      [0029] 針對上述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,進一步地,步驟32)所述蒙塔卡羅傳播模 擬仿真過程包括如下步驟:
      [0030] 321)初始化得到缺失級聯(lián)數(shù)據(jù)f和當前網(wǎng)絡(luò)Gi-iUei;
      [0031] 322) 中的每個觀測節(jié)點U為根節(jié)點,對Gi-I U ei中的鄰居節(jié)點W設(shè)定概率丫嘗試 激活Gi-I U ei中不在f中的鄰居節(jié)點;如果激活不成功則停止,再去激活其他Gi-I U ei中不在t 中的鄰居節(jié)點;當激活成功時,設(shè)定概率值區(qū)間,從區(qū)間中隨機采樣一個值作為節(jié)點U到節(jié) 點V之間的傳播概率值Puv ;
      [0032] 323)賦予所述激活節(jié)點V-個激活時間;
      [0033] 324)按照步驟322)~323)嘗試激活所述激活節(jié)點V的鄰居節(jié)點;當沒有新節(jié)點被 激活時,Wu為種子節(jié)點的傳播過程結(jié)束,得到一棵Wu為根的傳播樹T(U)。
      [0034] 更進一步地,步驟322)所述設(shè)定概率值區(qū)間為[0,1]。
      [0035] 更進一步地,步驟323)所述賦予所述激活節(jié)點V-個激活時間tv,具體根據(jù)式5采 樣得到:
      [0036]
      (式 5)
      [0037] 式帥,Puv為節(jié)點巧Ij節(jié)點V之間的傳播概率值;a是設(shè)定概率值區(qū)間中的一個值。
      [0038] 針對上述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,進一步地,步驟32)所述通過構(gòu)造得到最 大級聯(lián)傳播合并樹T*,補全級聯(lián)數(shù)據(jù)t;具體包括如下步驟:
      [0039] 341)初始化T*為空;
      [0040] 342)將每個已觀測節(jié)點U的仿真?zhèn)鞑銽(U),對當前T*中每個激活時間早于U的節(jié) 點V,計算兩點間傳播概率P(V,U),計算公式如式6:
      [0041 ]
      (式巧
      [0042] 式6中,A tvu為節(jié)點U與節(jié)點V之間的傳播時延。
      [0043] 343)將傳播概率最大的節(jié)點V作為U的父節(jié)點,并將邊(v,u)加入到T*中;
      [0044] 344)對T(U)中的每個節(jié)點W,如果在T*存在相同的節(jié)點W',比較節(jié)點W和W'的激活 時間,將激活時間大的節(jié)點連同其級聯(lián)傳播樹一同刪除;
      [0045] 345)直至當前缺失級聯(lián)數(shù)據(jù)f中的所有節(jié)點按照上述步驟342)~343)處理完畢, 得到最大級聯(lián)傳播樹T*,樹中的所有節(jié)點及其激活時間即為補全的級聯(lián)數(shù)據(jù)t。
      [0046] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
      [0047] 本發(fā)明提供一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,針對存在缺失的級聯(lián)數(shù)據(jù),通過 估計在所述網(wǎng)絡(luò)中添加不同邊所帶來似然值的邊際增益的大小,得到逐步添加邊的順序, 每次添加似然值最大的邊,直至所有邊添加完成,由此補全所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)。本發(fā)明 的優(yōu)點是:
      [004引(一)本發(fā)明方法適用性廣,尤其可W應(yīng)用于級聯(lián)數(shù)據(jù)缺失情形;
      [0049] (二)本發(fā)明技術(shù)方案在保持較高的時間效率基礎(chǔ)上,顯著提升了網(wǎng)絡(luò)推斷結(jié)果的 準確率,可W成為真實世界中推斷隱藏網(wǎng)絡(luò)結(jié)構(gòu)的有效手段。
      【附圖說明】
      [0050] 圖1是本發(fā)明提供的社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法的流程框圖。
      [0051 ]圖2是本發(fā)明提供的計算邊際收益方法的流程框圖。
      [0052] 圖3是本發(fā)明提供的仿真?zhèn)鞑ミ^程的流程框圖。
      [0053] 圖4是本發(fā)明提供的生成最大合并樹過程的流程框圖
      【具體實施方式】
      [0054] 下面結(jié)合附圖,通過實施例進一步描述本發(fā)明,但不W任何方式限制本發(fā)明的范 圍。
      [0055] 圖1是本發(fā)明提供的社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法的流程框圖,包括如下步驟:
      [0056] I)初始化:邊集為空的待推斷網(wǎng)絡(luò)G,即初始的網(wǎng)絡(luò)中僅有節(jié)點,而節(jié)點之間沒有 任何邊相連;
      [0057] 級聯(lián)信息缺失的數(shù)據(jù)集設(shè)為巧,包含多個獨立的缺失級聯(lián)傳播數(shù)據(jù)?;將級聯(lián)信息 缺失的數(shù)據(jù)集巧作為輸入,利用本發(fā)明提供的推斷方法進行推斷估計,輸出結(jié)果為完成推斷 的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。在社交網(wǎng)絡(luò)中,每次消息的傳播過程構(gòu)成一個級聯(lián)數(shù)據(jù),信息的多次傳播 過程構(gòu)成一個級聯(lián)傳播數(shù)據(jù)集。每個完整的級聯(lián)數(shù)據(jù)包含了本次信息傳播所有激活節(jié)點的 集合W及每個節(jié)點被激活的時間信息;信息缺失的級聯(lián)數(shù)據(jù)僅僅是完整的級聯(lián)數(shù)據(jù)的子 集,其中的部分激活節(jié)點及其時間信息缺失。缺失級聯(lián)數(shù)據(jù)集,構(gòu)成了本發(fā)明進行網(wǎng)絡(luò)推斷 的數(shù)據(jù)基礎(chǔ)。
      [0058] 2)貪屯、循環(huán)迭代:執(zhí)行m次迭代(迭代次數(shù)m與最終推斷出的網(wǎng)絡(luò)中邊的數(shù)目相等, 取值由用戶指定),每次迭代執(zhí)行步驟3)和步驟4);
      [0059] 3)邊際收益計算:在第i次迭代過程中,需要對當前已推斷出的網(wǎng)絡(luò)Gi-I中添加一 條候選邊61,并對缺失級聯(lián)數(shù)據(jù)集O中的每個缺失級聯(lián)數(shù)據(jù)I,計算該候選邊ei加入Gi-I后 (記做Gi)所帶來的概率值的邊際增益(具體邊際增益計算方法見方法)表示如下:
      [0060]
      (式 1)
      [0061] 4)貪屯、思路加邊:在第3)步計算在網(wǎng)絡(luò)Gi-I中添加所有候選邊的邊際收益計算結(jié) 果中,取邊際收益最大的邊添加到Gi-I中;
      [0062] 5)循環(huán)迭代m次:重復(fù)步驟3)和步驟4),直至迭代結(jié)束;
      [0063] 6)網(wǎng)絡(luò)推斷結(jié)果:包含m條邊的圖G即為推斷出的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。
      [0064] 方法A,計算邊際收益
      [0065] 進一步地,步驟3)計算邊際收益,圖2是本發(fā)明提供的計算邊際收益方法的流程框 圖;邊際收益具體指的是確定在向當前網(wǎng)絡(luò)Gi-I中添加一條選定的候選邊ei得到Gi時,所帶 來的概率值的邊際收益增益;計算邊際收益步驟如下:
      [0066] 31)初始化:對于缺失級聯(lián)數(shù)據(jù)集3的每個缺失級聯(lián)數(shù)據(jù)I,執(zhí)行M次(M次數(shù)由用戶 設(shè)定,一般取1000次)蒙塔卡羅模擬仿真,實現(xiàn)對級聯(lián)數(shù)據(jù)中缺失值的估計,每次仿真過程 執(zhí)行如下步驟32);
      [0067] 32)缺失級聯(lián)數(shù)據(jù)f的缺失仿真估計:對f中的每個時間戳不等于-的節(jié)點U,即U在 玄中被激活,在當前網(wǎng)絡(luò)Gi中執(zhí)行一次蒙塔卡羅傳播模擬仿真(具體方法見方法B),可W得 到一棵仿真?zhèn)鞑銽(U);所有激活節(jié)點對應(yīng)傳播樹的合并可W得到最大級聯(lián)傳播合并樹 T*,樹T*中激活節(jié)點(包含相應(yīng)的激活時間)的集合即為補全的級聯(lián)數(shù)據(jù)t;
      [0068] 33)計算t在合并樹T*上傳播的概率:計算補全級聯(lián)t在合并樹T*上傳播概率的方 法具體如下:
      [0069]
      (式巧
      [0070] 其中,f(t;T^為補全級聯(lián)t在合并樹T*上的傳播概率;P(v,u)是節(jié)點U和V之間的 傳播概率,丫是用戶指定的節(jié)點激活概率(丫值一般取0到0.1左右)。
      [0071] 34)計算t在當前圖Gi上傳播的概率:由于許多傳播樹均可產(chǎn)生相同的t,但是根據(jù) 最大合并樹的構(gòu)造方法(具體方法步驟見方法C),補全級聯(lián)數(shù)據(jù)t在當前網(wǎng)絡(luò)Gi上的最大傳 播概率可用t在最大合并傳播樹T*上的傳播概率替代,即:
      [0072] f(t;Gi-iUei) = f(t;T*)(式 3)
      [0073] 35)缺失級聯(lián)數(shù)據(jù)集0的傳播概率估計:對于缺失級聯(lián)數(shù)據(jù)i的M次仿真估計似然值 取均值,即為對缺失級聯(lián)數(shù)據(jù)1在考慮補全情形下的傳播概率似然值估計;對缺失級聯(lián)數(shù)據(jù) 集竊中的每個缺失級聯(lián)數(shù)據(jù)執(zhí)行上述步驟32)中的級聯(lián)數(shù)據(jù)缺失仿真估計過程,然后對每個 級聯(lián)的概率似然值求積,則得到缺失級聯(lián)數(shù)據(jù)集日的概率似然值f(8, Gi)估計,即:
      [0074]
      (式 4)
      [00巧]36)邊際收益的計算:缺失級聯(lián)數(shù)據(jù)集6在網(wǎng)絡(luò)Gi-I Uei上的概率值減去6在網(wǎng)絡(luò) Gi-I上的概率值,即^5化-山61)寸巧化-1)為本次添加候選邊61的邊際收益。
      [0076] 方法B,缺失級聯(lián)數(shù)據(jù)的蒙塔卡羅仿真
      [0077] 圖3是本發(fā)明提供的仿真?zhèn)鞑ミ^程的流程框圖;在當前缺失級聯(lián)數(shù)據(jù)的基礎(chǔ)上,執(zhí) 行蒙特卡洛模擬傳播仿真,對缺失節(jié)點值進行估計。主要步驟如下:
      [0078] 325)初始化:缺失級聯(lián)數(shù)據(jù)L W及當前網(wǎng)絡(luò)Gi-I U 61,執(zhí)行如下仿真?zhèn)鞑ミ^程;
      [0079] 326) 中的每個觀測節(jié)點U為根節(jié)點,對Gi-I Uei中的鄰居節(jié)點W某一指定概率 丫(丫的取值由用戶指定)嘗試激活Gi-iUei中不在t中的鄰居節(jié)點;如果激活不成功則停 止,再去激活其他Gi-I Uei中不在i中的其它鄰居節(jié)點;如果激活成功,則從[0,1]區(qū)間隨機 采樣一個值作為節(jié)點U到節(jié)點V之間的傳播概率值0UV,并賦予激活節(jié)點V-個激活時間;
      [0080] 327)v的激活時間tv按如下方法采樣得到:
      [0081 ]
      (式 5)
      [0082] 其中,a是用戶設(shè)置的介于[0,1]之間的參數(shù)值。
      [0083] 328)對于被激活的缺失節(jié)點V,則按照322)、323)的方法嘗試激活其鄰居節(jié)點;
      [0084] 當沒有新節(jié)點被激活時,Wu為種子節(jié)點的傳播過程結(jié)束,得到一棵Wu為根的傳 播樹T(U)。
      [0085] 方法C,生成最大級聯(lián)傳播合并樹T*:
      [0086] 對于當前缺失級聯(lián)數(shù)據(jù)?中的每個節(jié)點U對應(yīng)的Wu為根節(jié)點的傳播樹T(U),合并 后生成最大級聯(lián)傳播合并樹T*。圖4是本發(fā)明提供的生成最大合并樹過程的流程框圖,主要 步驟如下:
      [0087] 341)初始化T*為空;
      [008引 342)將每個已觀測節(jié)點U的仿真?zhèn)鞑銽(U),對當前T*中每個激活時間早于U的節(jié) 點V,計算兩點間傳播概率P(v,u),計算公式如下:
      [0089]
      (式 6)
      [0090] 343)將傳播概率最大的節(jié)點V作為U的父節(jié)點,并將邊(v,u)加入到T*中;
      [0091] 344)同時,對T(U)中的每個節(jié)點W,如果在T*存在相同的節(jié)點W',此時則進一步比 較他們的激活時間,將激活時間大的節(jié)點連同其級聯(lián)傳播樹一同刪除;
      [0092] 345)直至當前缺失級聯(lián)數(shù)據(jù)^中的所有節(jié)點按照上述步驟342)、343)處理完畢即 得到最大級聯(lián)傳播樹T*,樹中的所有節(jié)點及其激活時間即為補全的級聯(lián)數(shù)據(jù)t。
      [0093] 本發(fā)明一實施例針對某一社交網(wǎng)絡(luò)平臺,通過多次觀測,可W得到該社交網(wǎng)絡(luò)信 息傳播節(jié)點被激活時間的歷史級聯(lián)數(shù)據(jù)集,構(gòu)成了進行網(wǎng)絡(luò)推斷的數(shù)據(jù)基礎(chǔ)。每次消息的 傳播過程構(gòu)成一個級聯(lián)數(shù)據(jù),信息的多次傳播過程構(gòu)成一個級聯(lián)傳播數(shù)據(jù)集。每個完整的 級聯(lián)數(shù)據(jù)包含了本次信息傳播所有激活節(jié)點的集合W及每個節(jié)點被激活的時間信息。需要 指出的是,本發(fā)明重點考慮的是對于每次信息傳播觀測到的級聯(lián)數(shù)據(jù)而言,我們所能獲取 到的僅僅是完整級聯(lián)數(shù)據(jù)的子集,部分激活節(jié)點及其時間信息缺失,即缺失的級聯(lián)數(shù)據(jù)。運 種缺失可能有由于人為的原因,或者是由于系統(tǒng)的原因,級聯(lián)數(shù)據(jù)缺失是現(xiàn)實情形下的最 可能的狀態(tài)。直接應(yīng)用現(xiàn)有的基于完全級聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)推斷方法應(yīng)用到缺失級聯(lián)數(shù)據(jù)上進 行網(wǎng)絡(luò)推斷,推斷精度大大降低。目前針對缺失級聯(lián)數(shù)據(jù)進行網(wǎng)絡(luò)推斷的方法尚未提出。本 發(fā)明就是要基于運種觀測級聯(lián)數(shù)據(jù)不完全情形下的如何準確的把網(wǎng)絡(luò)拓撲結(jié)構(gòu)推斷出來。
      [0094] 首先,我們獲取到MemeTracker平臺上的缺失級聯(lián)數(shù)據(jù)集和節(jié)點集合(沒有邊信 息)。在MemeTracker平臺中,我們W每個網(wǎng)站作為網(wǎng)絡(luò)中的一個節(jié)點,構(gòu)建初始網(wǎng)絡(luò)G。一則 新聞(包含特定短語)在網(wǎng)絡(luò)中傳播,所有發(fā)布(轉(zhuǎn)發(fā))該新聞的網(wǎng)站及其發(fā)布時間構(gòu)成一條 完整的級聯(lián)數(shù)據(jù)。然而現(xiàn)實中可能存在運樣的情況,某網(wǎng)站參與了傳播過程,但過后自我刪 除了相關(guān)文章,致使爬取數(shù)據(jù)時無法觀察到該網(wǎng)站的時間信息,即缺失的級聯(lián)數(shù)據(jù)集。在本 實施例中,網(wǎng)絡(luò)中含有500節(jié)點和3000條邊。按照如下步驟對MemeTracker網(wǎng)絡(luò)拓撲結(jié)構(gòu)(即 節(jié)點之間的邊)進行推斷:
      [0095] 步驟一:提取出尚未在當前社交網(wǎng)絡(luò)G中出現(xiàn)的潛在邊(初始時有500*(500-1)條 有向邊)的集合,并從該集合中抽取一條潛在邊e,然后添加到當前網(wǎng)絡(luò)中得到新的網(wǎng)絡(luò),記 做G+;
      [0096] 步驟二:從缺失級聯(lián)數(shù)據(jù)集中提取出一條缺失級聯(lián)數(shù)據(jù),記做i;
      [0097] 步驟在當前網(wǎng)絡(luò)G+上,對缺失級聯(lián)數(shù)據(jù)i上的每個激活節(jié)點U,利用蒙特卡洛仿 真方法構(gòu)造級聯(lián)傳播樹T(U);
      [0098] 步驟四:把缺失級聯(lián)數(shù)據(jù)i上的每個激活節(jié)點U產(chǎn)生的級聯(lián)傳播樹T(U)進行合并, 生成最大級聯(lián)傳播合并樹T*;
      [0099] 步驟五:基于T*計算該樹對應(yīng)的傳播級聯(lián)概率值,該值即為缺失級聯(lián)補全后的級 聯(lián)傳播數(shù)據(jù)在當前網(wǎng)絡(luò)G+上對應(yīng)的最大級聯(lián)傳播概率值;
      [0100] 步驟六:對于每個缺失級聯(lián)數(shù)據(jù)1,按照步驟=至步驟五,計算出M=1000 個最大級 聯(lián)傳播概率值,并求出運個1000個值的均值,即為該缺失級聯(lián)數(shù)據(jù)在當前網(wǎng)絡(luò)上的最大傳 播概率值的估計;
      [0101] 步驟屯:對缺失級聯(lián)數(shù)據(jù)集中的每個缺失級聯(lián)數(shù)據(jù),按照步驟二到步驟六,計算出 所有缺失級聯(lián)傳播數(shù)據(jù)的概率值,然后進行乘積,即為該缺失級聯(lián)傳播數(shù)據(jù)集在當前網(wǎng)絡(luò)G +上的概率值估計;
      [0102] 步驟八:當前網(wǎng)絡(luò)護上的缺失級聯(lián)數(shù)據(jù)集的概率估計值,減去在網(wǎng)絡(luò)G上對缺失級 聯(lián)數(shù)據(jù)集的概率值(即上一步迭代得到的估計值),即為在網(wǎng)絡(luò)G中加上邊e所帶來的概率值 的邊際增益;
      [0103] 步驟九:對當前網(wǎng)絡(luò)G中的所有潛在的邊都執(zhí)行步驟二到步驟八,我們可W得到在 當前網(wǎng)絡(luò)G上添加每條邊所能夠得到的概率值的邊際增益;
      [0104] 步驟十:從所有潛在邊的概率值邊際增益中選擇一個增益值最大的邊,添加到當 前網(wǎng)絡(luò)G中,即為我們本步驟所應(yīng)該添加的邊,實現(xiàn)了網(wǎng)絡(luò)的增長;
      [0105] 步驟十一:按照步驟一到步驟十,按照貪屯、方法執(zhí)行m = 5000步,每一步在當前網(wǎng) 絡(luò)中挑選出下一條可W添加的邊,循環(huán)5000次就實現(xiàn)了從最初的空網(wǎng)絡(luò)(只有點,沒有邊) 到添加了 5000條邊的網(wǎng)絡(luò),完成了網(wǎng)絡(luò)結(jié)構(gòu)的推斷;
      [0106] 步驟十二:輸出推斷出的網(wǎng)絡(luò),算法結(jié)束。
      [0107] 需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領(lǐng)域的技 術(shù)人員可W理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是 可能的。因此,本發(fā)明不應(yīng)局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍W權(quán)利要求 書界定的范圍為準。
      【主權(quán)項】
      1. 一種社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,針對存在缺失的級聯(lián)數(shù)據(jù),通過估計 在所述網(wǎng)絡(luò)中添加不同邊所帶來似然值的邊際增益的大小,得到逐步添加邊的順序,每次 添加似然值最大的邊,直至所有邊添加完成,由此補全所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu);包括如下步 驟: 1) 初始化社交網(wǎng)絡(luò)為邊集為空的待推斷網(wǎng)絡(luò)G,所述初始的待推斷網(wǎng)絡(luò)G中僅有節(jié)點, 節(jié)點之間沒有邊相連; 2) 缺失級聯(lián)數(shù)據(jù)集設(shè)為S,包含多個獨立的缺失級聯(lián)數(shù)據(jù)石所述缺失級聯(lián)數(shù)據(jù)f是完整 級聯(lián)數(shù)據(jù)的子集,其中缺失部分激活節(jié)點和節(jié)點時間信息;設(shè)定迭代次數(shù)為m次,將缺失級 聯(lián)數(shù)據(jù)集作為輸入,進行循環(huán)迭代,每次迭代執(zhí)行步驟3)~步驟4); 3) 計算邊際收益,所述邊際收益是網(wǎng)絡(luò)Gh中添加一條候選邊^(qū)變成網(wǎng)絡(luò)Gdt,對缺失 級聯(lián)數(shù)據(jù)集S中的每個缺失級聯(lián)數(shù)據(jù)所帶來的概率值的邊際增益;計算在網(wǎng)絡(luò)Gh中添加所 有候選邊的邊際收益; 4) 通過貪心算法加邊,在第3)步計算結(jié)果中,取邊際收益最大的邊添加到Gh中,得到 網(wǎng)絡(luò)Gi; 5) 完成循環(huán)迭代m次,得到包含m條邊的網(wǎng)絡(luò)結(jié)構(gòu),即得到推斷出的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。2. 如權(quán)利要求1所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟2)所述次數(shù)m等于 最終推斷出的網(wǎng)絡(luò)中邊的數(shù)目。3. 如權(quán)利要求1所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟3)所述計算邊際收 益的步驟如下: 31) 初始化:對于缺失級聯(lián)數(shù)據(jù)集S的每個缺失級聯(lián)數(shù)據(jù)f,執(zhí)行M次蒙塔卡羅模擬仿真, 對缺失級聯(lián)數(shù)據(jù)中的缺失值進行估計,得到估計值;每次蒙塔卡羅模擬仿真過程執(zhí)行如下 步驟32); 32) 對在g中被激活的每個激活節(jié)點u,在當前網(wǎng)絡(luò)G1中執(zhí)行一次蒙塔卡羅傳播模擬仿 真,得到一棵仿真?zhèn)鞑銽(u);將所有激活節(jié)點對應(yīng)傳播樹T(U)進行合并,構(gòu)造得到最大級 聯(lián)傳播合并樹T*,T*中激活節(jié)點的集合為補全的級聯(lián)數(shù)據(jù)t;由此得到缺失級聯(lián)數(shù)據(jù)中的缺 失值的估計值; 33) 通過式2計算補全級聯(lián)數(shù)據(jù)t在合并樹T*上的傳播概率:(式2) 式2中,f (t; f")為補全級聯(lián)t在合并樹T*上的傳播概率;P (u,V)是節(jié)點u和V之間的傳播 概率,γ是設(shè)定的節(jié)點激活概率; 34) 用步驟33)所述補全級聯(lián)數(shù)據(jù)t在Τ*上的傳播概率代替補全級聯(lián)數(shù)據(jù)t在當前網(wǎng)絡(luò)G1 上的最大傳播概率f (t ;Gi-! U ei); 35) 對缺失級聯(lián)數(shù)據(jù)集S的傳播概率進行估計: 通過對缺失級聯(lián)數(shù)據(jù)?的1次仿真估計似然值取均值,作為補全缺失級聯(lián)數(shù)據(jù)?的傳播概 率似然值的估計值;對缺失級聯(lián)數(shù)據(jù)集O中的每個缺失級聯(lián)數(shù)據(jù)執(zhí)行步驟32 ),對級聯(lián)數(shù)據(jù)t 的缺失進行仿真估計,然后對每個級聯(lián)的概率似然值求積,得到缺失級聯(lián)數(shù)據(jù)集S的概率 似然值Γ ( a Gi)估計,表示為式4:式4中,中第i個缺失級聯(lián)P在第j次仿真中得到的補全級聯(lián); 36)計算邊際收益:將缺失級聯(lián)數(shù)據(jù)集δ在網(wǎng)絡(luò)Gp1 U &上的概率值減去δ在網(wǎng)絡(luò)Gh上 的概率值,作為本次添加候選邊ei的邊際收益。4. 如權(quán)利要求3所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟32)所述蒙塔卡羅 傳播模擬仿真過程包括如下步驟: 321) 初始化得到缺失級聯(lián)數(shù)據(jù)f和當前網(wǎng)絡(luò)Gh Ue1; 322) 以i中的每個觀測節(jié)點u為根節(jié)點,對Gh U ei中的鄰居節(jié)點以設(shè)定概率γ嘗試激活 Gi-i U ei中不在f中的鄰居節(jié)點;如果激活不成功則停止,再去激活其他Gi-i U ei中不在f中的 鄰居節(jié)點;當激活成功時,設(shè)定概率值區(qū)間,從區(qū)間中隨機采樣一個值作為節(jié)點u到節(jié)點V之 間的傳播概率值 323) 賦予所述激活節(jié)點V-個激活時間; 324) 按照步驟322)~323)嘗試激活所述激活節(jié)點V的鄰居節(jié)點;當沒有新節(jié)點被激活 時,以u為種子節(jié)點的傳播過程結(jié)束,得到一棵以u為根的傳播樹T(u)。5. 如權(quán)利要求4所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟322)所述設(shè)定概率 值區(qū)間為[〇,1]。6. 如權(quán)利要求4所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟323)所述賦予所述 激活節(jié)點V-個激活時間tv,具體根據(jù)式5采樣得到:(式5) 式5中,βυν為節(jié)點u到節(jié)點V之間的傳播概率值;α是設(shè)定概率值區(qū)間中的一個值。7. 如權(quán)利要求3所述社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推斷方法,其特征是,步驟34)所述通過構(gòu)造 得到最大級聯(lián)傳播合并樹Τ*,補全級聯(lián)數(shù)據(jù)t;具體包括如下步驟: 341) 初始化T*為空; 342) 將每個已觀測節(jié)點u的仿真?zhèn)鞑銽(U),對當前T*中每個激活時間早于u的節(jié)點V, 計算兩點間傳播概率P (V,u ),計算公式如式6:Ab屮,δ tvu73節(jié)Hu與節(jié)H仏剛,、」1專憤H、J臟; 343) 將傳播概率最大的節(jié)點V作為u的父節(jié)點,并將邊(V,u)加入到T*中; 344) 對T(u)中的每個節(jié)點w,如果在T*存在相同的節(jié)點w',比較節(jié)點w和w'的激活時間, 將激活時間大的節(jié)點連同其級聯(lián)傳播樹一同刪除; 345) 直至當前缺失級聯(lián)數(shù)據(jù)?中的所有節(jié)點按照上述步驟342)~343)處理完畢,得到最 大級聯(lián)傳播樹Τ*,樹中的所有節(jié)點及其激活時間即為補全的級聯(lián)數(shù)據(jù)t。
      【文檔編號】H04L12/24GK106022937SQ201610365770
      【公開日】2016年10月12日
      【申請日】2016年5月27日
      【發(fā)明人】宋國杰, 竇芃, 趙彤
      【申請人】北京大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1