国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法

      文檔序號(hào):10535087閱讀:536來源:國知局
      大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法
      【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,提供一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,該方法包括:按預(yù)設(shè)策略對(duì)用戶進(jìn)行過;從網(wǎng)絡(luò)中抽取若干鏈接,正例集合為ET,負(fù)例集合為EF;在E?ET?EF網(wǎng)絡(luò)中計(jì)算ET∪EF中所有節(jié)點(diǎn)的特征以及鏈接的特征,并將節(jié)點(diǎn)的特征轉(zhuǎn)換為鏈接關(guān)系的特征;將EF∪ET分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上選擇使預(yù)測(cè)結(jié)果最優(yōu)的模型超參數(shù),得到最終模型hθ(x)和閾值θ;將測(cè)試集中任意一條鏈接關(guān)系帶入模型,即可得到該鏈接關(guān)系產(chǎn)生的概率P。實(shí)驗(yàn)表明本發(fā)明提供的方法較基于局部信息相似性和路徑相似性的方法的曲線下面積和F值有明顯提升,且具備更好的最大K準(zhǔn)確率穩(wěn)定性。
      【專利說明】
      大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù) 測(cè)方法。
      【背景技術(shù)】
      [0002] 目前,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,搜索引擎、門戶媒體、社交網(wǎng)絡(luò)等的廣泛應(yīng)用, 互聯(lián)網(wǎng)已逐步成為一個(gè)包含海量信息的平臺(tái)。新浪微博是國內(nèi)最廣泛使用的微博系統(tǒng),自 2009年上線起,注冊(cè)用戶數(shù)已突破5億。用戶在微博系統(tǒng)中可以發(fā)微博(類似一條消息,字?jǐn)?shù) 為140以內(nèi))、評(píng)論微博、轉(zhuǎn)發(fā)微博等。微博中的鏈接關(guān)系包含好友關(guān)系、關(guān)注關(guān)系、@關(guān)系等。 這些關(guān)系均為有向關(guān)系,可表示為一個(gè)有向圖。微博是一種典型的異構(gòu)信息網(wǎng)絡(luò)。用戶和微 博可看作網(wǎng)絡(luò)中的節(jié)點(diǎn),用戶間、用戶與微博間可有不同類型的鏈接關(guān)系。不同類型的邊代 表不同的鏈接類型,人像圖為用戶,圓角矩形為微博。
      [0003] 鏈接預(yù)測(cè)是當(dāng)前信息網(wǎng)絡(luò)研究中的熱點(diǎn)問題,旨在關(guān)注如何通過已知的網(wǎng)絡(luò)結(jié)構(gòu) 等信息預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個(gè)節(jié)點(diǎn)之間產(chǎn)生鏈接的概率。鏈接預(yù)測(cè)在不同的場(chǎng)景 中有不同的應(yīng)用和價(jià)值。例如,在犯罪份子網(wǎng)絡(luò)中,鏈接預(yù)測(cè)可用來發(fā)現(xiàn)潛在的犯罪分子; 在社交網(wǎng)絡(luò)中,鏈接預(yù)測(cè)可指示用戶間建立好友關(guān)系的可能性,為用戶提供好友推薦。另 外,鏈接的產(chǎn)生隱含著網(wǎng)絡(luò)結(jié)構(gòu)的演化,抓住鏈接關(guān)系產(chǎn)生規(guī)律往往能揭示網(wǎng)絡(luò)的演化趨 勢(shì)。
      [0004] 常用的鏈接預(yù)測(cè)方法多是基于節(jié)點(diǎn)相似性進(jìn)行鏈接預(yù)測(cè),這些相似性包括用戶屬 性相似性、局部拓?fù)浣Y(jié)構(gòu)相似性和路徑相似性等。節(jié)點(diǎn)間的相似性越高,鏈接關(guān)系的產(chǎn)生概 率越大。然而,在微博這類在線社交網(wǎng)絡(luò)中系統(tǒng)中,僅憑借相似性很難刻畫用戶間鏈接關(guān)系 產(chǎn)生的普遍規(guī)律。這主要因?yàn)?br>[0005] (1)網(wǎng)絡(luò)中的信息傳播會(huì)對(duì)鏈接關(guān)系的產(chǎn)生有巨大影響,微博中用戶鏈接關(guān)系的 產(chǎn)生往往是基于微博的發(fā)出與轉(zhuǎn)發(fā),微博被轉(zhuǎn)發(fā)的次數(shù)與該微博的發(fā)出者被其他用戶看到 的概率成正比。
      [0006] (2)社會(huì)學(xué)中的重要規(guī)律現(xiàn)象,如馬太效應(yīng)、二八定律等,很難用相似性簡(jiǎn)單表征。 在社會(huì)網(wǎng)絡(luò)中占據(jù)較多資源或者處于較核心地位的人,會(huì)利用資源優(yōu)勢(shì)擴(kuò)充自己的資源。 對(duì)微博中的鏈接關(guān)系而言,粉絲較多的用戶,會(huì)吸收更多的粉絲。
      [0007]傳統(tǒng)鏈接預(yù)測(cè)方法多基于網(wǎng)絡(luò)中節(jié)點(diǎn)的相似性,如節(jié)點(diǎn)屬性相似性、局部拓?fù)浣Y(jié) 構(gòu)中相關(guān)節(jié)點(diǎn)的相似性或路徑相似性等。然而,這些相似性僅能刻畫網(wǎng)絡(luò)某些方面的特征, 且與網(wǎng)絡(luò)節(jié)點(diǎn)間新鏈接關(guān)系的產(chǎn)生無已證實(shí)的直接相關(guān)性。

      【發(fā)明內(nèi)容】

      [0008] 【要解決的技術(shù)問題】
      [0009] 本發(fā)明的目的是提供一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,該方法綜 合基于相似性的特征和用戶質(zhì)量,而且能適用于大數(shù)據(jù)場(chǎng)景。
      [0010] 【技術(shù)方案】
      [0011] 本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的。
      [0012] 本發(fā)明涉及一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,該方法包括步驟:
      [0013] A、按預(yù)設(shè)策略對(duì)用戶進(jìn)行過濾,過濾后網(wǎng)絡(luò)中邊的集合為E;
      [0014] B、從網(wǎng)絡(luò)中抽取若干鏈接,其中正例集合為Et,負(fù)例集合為Ef ;
      [0015] C、在E-Et-Ef網(wǎng)絡(luò)中計(jì)算Et U Ef中所有節(jié)點(diǎn)的特征以及鏈接的特征,并將節(jié)點(diǎn)的特 征轉(zhuǎn)換為鏈接關(guān)系的特征,最終鏈接關(guān)系的特征集為X;
      [0016] D、將EfUEt分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上選擇 使預(yù)測(cè)結(jié)果最優(yōu)的模型超參數(shù),得到最終模型he(x)和閾值0;
      [0017] E、將測(cè)試集中任意一條鏈接關(guān)系帶入最終模型he(x),即可得到該鏈接關(guān)系產(chǎn)生 的概率P,當(dāng)P>0時(shí),預(yù)測(cè)該鏈接關(guān)系將會(huì)產(chǎn)生,否則預(yù)測(cè)該鏈接關(guān)系不會(huì)產(chǎn)生。
      [0018] 作為一種優(yōu)選的實(shí)施方式,所述步驟A按照用戶關(guān)注人數(shù)、關(guān)注人數(shù)與粉絲數(shù)比率 和頁面排序值對(duì)用戶進(jìn)行過濾。
      [0019] 作為另一種優(yōu)選的實(shí)施方式,所述步驟C中節(jié)點(diǎn)特征包括入度和出度方向的杰卡 得系數(shù)、鏈接關(guān)系強(qiáng)度。
      [0020] 作為另一種優(yōu)選的實(shí)施方式,所述步驟C采用Spark計(jì)算入度和出度方向的杰卡得 系數(shù)、鏈接關(guān)系強(qiáng)度。
      [0021] 作為另一種優(yōu)選的實(shí)施方式,所述步驟D中求解最終模型he(x)和閾值0的方法為: 初始化決策邊界和損失函數(shù),其中決策邊界為:
      [0023]損失函數(shù)為:

      ,其中m為訓(xùn)練集的大小,n為回歸參數(shù)的數(shù)量,x(1)為第i個(gè)訓(xùn)練數(shù)據(jù),為第j個(gè) 回歸參數(shù),A為正則化參數(shù);采用隨機(jī)梯度下降法對(duì)損失函數(shù)進(jìn)行求解得到最終模型he(x) 和閾值9。
      [0025]下面對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
      [0026]問題定義與數(shù)據(jù)描述
      [0027]屬性圖是對(duì)異構(gòu)信息網(wǎng)絡(luò)圖結(jié)構(gòu)的一種靈活的表示,其定義如下:
      [0028]定義 1.(屬性圖)(Property Graph)G(P) = (V;E;P)是一個(gè)三元組,其中,
      [0029] (l)V={l,2,3,~n}表示圖中節(jié)點(diǎn)的集合,E為圖中有向邊的集合。
      [0030] ⑵有向邊(i,j) G E將源點(diǎn)i G V與終點(diǎn)j G V連接起來。
      [0031] (3)Pv(i)為節(jié)點(diǎn)iGV的屬性,PE(i,j)為邊(i,j)GE的屬性,所有屬性的集合用P = (Pv,Pe)表不。
      [0032] 屬性可以為任何類型的數(shù)據(jù)(圖像,文本以及對(duì)象等),而且可在使用相同圖結(jié)構(gòu) 組合不同屬性而得到不同的圖。例如,原始圖表示為G(V;E;P),對(duì)屬性作一個(gè)映射f(P) - P',產(chǎn)生一個(gè)新的圖它和原始圖保持相同的圖結(jié)構(gòu)。在微博異構(gòu)信息網(wǎng)絡(luò)中可 以通過對(duì)節(jié)點(diǎn)類型過濾,將微博節(jié)點(diǎn)過濾掉,從而高效利用原圖的索引存儲(chǔ)結(jié)構(gòu),構(gòu)建關(guān)于 用戶的同構(gòu)信息網(wǎng)絡(luò)屬性圖。圖1為一個(gè)屬性圖示例。
      [0033] 數(shù)據(jù)描述
      [0034] 本發(fā)明研究的數(shù)據(jù)取自 WISE(Web Information System Engineering) 2012Challenge中的新浪微博數(shù)據(jù)集。該數(shù)據(jù)集包括用戶關(guān)系數(shù)據(jù)(約13G)和用戶微博數(shù)據(jù) (約63G),包含58,478,875個(gè)用戶,265,580,802條鏈接關(guān)系和369,797,719條微博。用戶關(guān) 系數(shù)據(jù)以(A,B)形式表示,代表一條由A指向B的邊,即A關(guān)注B。通過對(duì)微博數(shù)據(jù)進(jìn)行初步抽 取,得到微博屬性詳見表1。
      [0035]表1.微博數(shù)據(jù)的特征表
      [0037]鏈接預(yù)測(cè)的形式化定義
      [0038] 定義G(V;E;P)為一個(gè)屬性圖,其中V為節(jié)點(diǎn)集合,E為有向邊集合,P為節(jié)點(diǎn)和邊的 屬性集合。網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù)為N,邊數(shù)為M。網(wǎng)絡(luò)共有N*(N-1)條有向邊,即全集U。通過一種鏈路 預(yù)測(cè)的方法,對(duì)節(jié)點(diǎn)對(duì)(x,y) G (U\E)所表示的有向邊賦予一個(gè)分?jǐn)?shù)值Sxy,分值越大表示有 向邊產(chǎn)生的概率越大。
      [0039] 針對(duì)微博異構(gòu)信息網(wǎng)絡(luò),可描述為:設(shè)G(V;E;P)為一個(gè)微博屬性圖,其中V為節(jié)點(diǎn) 集合,包括微博和用戶這兩類;E為有向邊的集合,包括用戶與微博的鏈接關(guān)系(用戶發(fā)微 博、用戶轉(zhuǎn)發(fā)微博)以及用戶與用戶的鏈接關(guān)系(關(guān)注);P為各類節(jié)點(diǎn)與連邊的屬性。預(yù)測(cè)不 存在的鏈接關(guān)系(用戶與微博,或者用戶與用戶)產(chǎn)生的概率。
      [0040] 本發(fā)明研究目標(biāo)為探索預(yù)測(cè)用戶間鏈接關(guān)系的方法。因此,需對(duì)微博屬性圖進(jìn)行 一次映射),微博異構(gòu)信息網(wǎng)絡(luò)映射為用戶信息網(wǎng)絡(luò),映射后V' 為用戶集合,E'為用戶鏈接關(guān)系集合,P'為用戶的屬性與用戶間鏈接關(guān)系的屬性集合,其中 P'并非對(duì)P進(jìn)行簡(jiǎn)單過濾,而是要將用戶與微博間的鏈接屬性以及微博屬性映射為用戶的 屬性或者用戶間鏈接關(guān)系的屬性。
      [0041] 本發(fā)明中的大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法具體為有向?qū)傩赃吇貧w 算法(DPLR)。
      [0042] DPLR算法,主要包括數(shù)據(jù)處理、特征計(jì)算、執(zhí)行預(yù)測(cè)這三部分,下面分別介紹。
      [0043] 數(shù)據(jù)處理
      [0044] King-wa Fu的研究表明在微博系統(tǒng)中存在大量的"僵尸用戶"。這些"僵尸用戶"多 為營(yíng)銷公司注冊(cè),用來操縱關(guān)注人數(shù)獲取利益。這類用戶通常會(huì)關(guān)注大量用戶或者關(guān)注用 戶數(shù)遠(yuǎn)大于其粉絲數(shù)。另一類是活躍度較低的用戶,這類用戶很少使用微博,通常關(guān)注的用 戶很少。本發(fā)明將這兩類用戶看作噪聲用戶。為減少噪聲用戶對(duì)鏈接預(yù)測(cè)方法的影響,對(duì)用 戶進(jìn)行過濾顯得十分必要。過濾條件如下:
      [0045] 規(guī)則(1):過濾關(guān)注人數(shù)小于5或者關(guān)注人數(shù)大于800的用戶。
      [0046] 規(guī)則(2):過濾關(guān)注人數(shù)大于粉絲數(shù)20倍的用戶。
      [0047] 規(guī)則(3):過濾前兩步處理后頁面排序值較小的1 %的用戶。
      [0048] 在用戶信息網(wǎng)絡(luò)中,節(jié)點(diǎn)的入度和出度分別代表了用戶的粉絲數(shù)和關(guān)注人數(shù)。統(tǒng) 計(jì)節(jié)點(diǎn)入度采用Spark實(shí)現(xiàn)(出度類似),具體地,該算法主要運(yùn)用MapReduce的核心思想,示 例執(zhí)行過程如圖2,不同的方框代表不同集群節(jié)點(diǎn)。
      [0049] 得到節(jié)點(diǎn)入度與出度后,便可得到按規(guī)則(1)和規(guī)則(2)的待過濾節(jié)點(diǎn)集。對(duì)用戶 信息網(wǎng)絡(luò)屬性圖G1執(zhí)行過濾映射f,將G1中在過濾節(jié)點(diǎn)集中的點(diǎn)以及與這些點(diǎn)相連的邊都 從G1中移除,得到過濾后的用戶信息網(wǎng)絡(luò)屬性圖G2。按規(guī)則(3)過濾的方法與之類似,下面 只列出頁面排序?qū)崿F(xiàn)。頁面排序同樣采用Spark實(shí)現(xiàn),具體地,主要運(yùn)用Pregel的核心思 想一一(1)在一個(gè)超步內(nèi),節(jié)點(diǎn)間通過相互發(fā)送消息(起點(diǎn)發(fā)向終點(diǎn))傳遞數(shù)據(jù);(2)在隨后 的一個(gè)超步內(nèi)每個(gè)節(jié)點(diǎn)對(duì)收到的消息進(jìn)行處理;(3)重復(fù)以上過程,直到達(dá)到停止條件(無 任何消息產(chǎn)生或達(dá)到指定迭代次數(shù))。對(duì)于頁面排序即(1)將節(jié)點(diǎn)自身頁面排序值均分給鄰 居節(jié)點(diǎn);(2)將收到的頁面排序值求匯總并計(jì)算新頁面排序值;(3)重復(fù)步驟(1)、(2),執(zhí)行N 次。
      [0050] 執(zhí)行過濾后,從網(wǎng)絡(luò)中抽取50000節(jié)點(diǎn)的入度和出度統(tǒng)計(jì)信息,統(tǒng)計(jì)信息如圖3、圖 4所示,均服從長(zhǎng)尾分布。
      [0051 ] 特征定義
      [0052]在微博這種弱關(guān)系網(wǎng)絡(luò)中,用戶間以相同的興趣聚合在一起,兩個(gè)用戶間共同關(guān) 注的用戶數(shù),可表征這兩個(gè)用戶興趣的相似性;而兩用戶共同粉絲數(shù),則可表征在其他用戶 眼中他們的相似性。杰卡得系數(shù)在考慮共同鄰居的同時(shí)也考慮了這兩個(gè)用戶的所有鄰居, 能較合理的刻畫兩個(gè)用戶的結(jié)構(gòu)相似性。杰卡得系數(shù)表示如下:
      [0054] 其中,r (X) r (y)分別為X和y鄰居節(jié)點(diǎn)的集合。將入度方向和出度方向的杰卡得 系數(shù)作為(X,y)鏈接關(guān)系特征。在用Spark計(jì)算入度(出度)方向杰卡得系數(shù)時(shí),需執(zhí)行兩個(gè) MapReduce過程,第一個(gè)MapReduce計(jì)算節(jié)點(diǎn)的入度(出度)方向鄰居集合作為節(jié)點(diǎn)屬性;第 二個(gè)MapReduce過程,只有Map階段,用來計(jì)算杰卡得系數(shù)作為邊的屬性。
      [0055] 通常用路徑相似性來衡量網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)之間關(guān)系的強(qiáng)弱。設(shè)網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn) x和y,要衡量x到y(tǒng)這條鏈接關(guān)系的強(qiáng)弱,可以通過計(jì)算網(wǎng)絡(luò)中從x經(jīng)過任意一個(gè)中間節(jié)點(diǎn)z 到達(dá)y的路徑的條數(shù)。在圖5中鏈接(x,y)的強(qiáng)度為2,而(y,x)強(qiáng)度為1。
      [0056] 在用Spark計(jì)算鏈接關(guān)系強(qiáng)度時(shí),需執(zhí)行兩個(gè)MapReduce過程,第一個(gè)MapReduce用 來執(zhí)行Join操作,得到(中間節(jié)點(diǎn),(起點(diǎn),二階終點(diǎn)))的元組,第二個(gè)MapReduce用來統(tǒng)計(jì)每 個(gè)(起點(diǎn),二階終點(diǎn))的頻數(shù)。具體執(zhí)行流程如圖6所示。圖7為抽取50000條鏈接關(guān)系,將強(qiáng)度 歸一化后的分布圖,基本服從長(zhǎng)尾分布。
      [0057] 在信息傳播理論當(dāng)中,網(wǎng)絡(luò)中的核心節(jié)點(diǎn)往往占有更多的資源,即二八定律。在微 博網(wǎng)絡(luò)中,一些權(quán)威或影響力較高的用戶往往會(huì)擁有更多的粉絲。他們所發(fā)的微博會(huì)被更 多其他用戶轉(zhuǎn)發(fā)。從而有了更多機(jī)會(huì)被其他用戶關(guān)注,即會(huì)產(chǎn)生馬太效應(yīng)。此外,權(quán)威或影 響力較高的用戶往往互相關(guān)注,即富人倶樂部現(xiàn)象。因此,對(duì)于一條待預(yù)測(cè)的用戶鏈接關(guān) 系,兩個(gè)用戶會(huì)具有不同的影響力和權(quán)威值,他們的影響力和權(quán)威值,對(duì)這條鏈接關(guān)系會(huì)產(chǎn) 生一定的影響,而這種影響又無法簡(jiǎn)單的通過規(guī)則描述。因此,準(zhǔn)確合理的衡量微博系統(tǒng)中 用戶的影響力與權(quán)威,以及其對(duì)鏈接關(guān)系產(chǎn)生的影響,將對(duì)鏈接預(yù)測(cè)起到至關(guān)重要的作用。
      [0058] 常用的衡量網(wǎng)絡(luò)中用戶權(quán)威的度量為頁面排序值,但在微博系統(tǒng)中,微博本身又 能體現(xiàn)發(fā)微博的用戶的權(quán)威性。Manish Gupta指出,包含鏈接的微博更權(quán)威,從而該微博發(fā) 出者的權(quán)威也會(huì)相應(yīng)提高;用戶微博的被轉(zhuǎn)發(fā)情況,一定程度上能表征該用戶的影響力。 [0059]定義2.(用戶質(zhì)量)(U Ser Quality)設(shè)T表示用戶發(fā)出的微博數(shù),R表示用戶被轉(zhuǎn)發(fā) 的微博數(shù),L表示用戶發(fā)出的包含鏈接的微博數(shù),PR為用戶在微博系統(tǒng)中的頁面排序值,則 用戶質(zhì)量可表示為:
      [0060] Q(u)=PR*(y*TL+(l-y)*TR)
      [0061] 其中,
      [0062] TL=log(10+L*log(10+L)/T)TR=log(10+R0' 9/T)
      [0063] 表2.取若干T、L、R值時(shí)對(duì)應(yīng)TL、TR值
      [0065] 表2為若干T、R、L取值時(shí)TL和TR值。在表2中,一個(gè)用戶發(fā)出的微博中平均包含的鏈 接數(shù)越多,TL越大,并且在平均包含鏈接數(shù)相同的情況下發(fā)出的微博越多,TL越大。在微博 系統(tǒng)中,發(fā)出包含鏈接微博的用戶多為在線媒體或企業(yè)帳號(hào),這類用戶發(fā)微博較為頻繁;一 個(gè)用戶發(fā)出的微博平均被轉(zhuǎn)發(fā)的次數(shù)越大,TR越大。并且在平均被轉(zhuǎn)發(fā)次數(shù)相同的情況下 發(fā)出的微博越多,TR越小。在微博系統(tǒng)中,被大量轉(zhuǎn)發(fā)的微博,往往出自名人或者媒體人和 企業(yè)帳號(hào),而名人發(fā)出的微博量通常少于媒體人和企業(yè)帳號(hào)。而名人通常擁有大量的粉絲, 其影響力高于在線媒體和企業(yè)帳號(hào)。圖8為根據(jù)用戶質(zhì)量的定義統(tǒng)計(jì)出的用戶質(zhì)量分布圖, 基本服從長(zhǎng)尾分布。
      [0066] 特征轉(zhuǎn)換
      [0067]將上述所提到的特征,與一條待預(yù)測(cè)的鏈接關(guān)系關(guān)聯(lián)起來。在用戶屬性圖中,執(zhí)行 變換,將節(jié)點(diǎn)特征轉(zhuǎn)換為鏈接關(guān)系的特征。最后得到的是一條鏈接關(guān)系上同時(shí)擁有多個(gè)特 征。圖9中將起點(diǎn)和終點(diǎn)這兩個(gè)用戶的質(zhì)量,轉(zhuǎn)換為這條鏈接關(guān)系的兩個(gè)特征。
      [0068]預(yù)測(cè)方法
      [0069] 邏輯回歸是數(shù)據(jù)挖掘中常用的分類方法,通過訓(xùn)練得到模型后,可預(yù)測(cè)待分類的 樣例為正例的概率。通過設(shè)定一個(gè)閾值,可判斷大于該閾值為正例,否則為負(fù)例。在DPLR中, 利用邏輯回歸可以計(jì)算出一條鏈接關(guān)系產(chǎn)生的概率P。將概率大于閾值9的鏈接關(guān)系預(yù)測(cè)為 將會(huì)產(chǎn)生,否則預(yù)測(cè)為不會(huì)產(chǎn)生。邏輯回歸的一般性表示如下:
      [0070] 決策邊界:
      [0072]損失函數(shù):
      [0074] 其中m為訓(xùn)練集的大小,n為回歸參數(shù)的數(shù)量,x(1 >為第i個(gè)訓(xùn)練數(shù)據(jù),9 j為第j個(gè)回 歸參數(shù),入為正則化參數(shù)。優(yōu)化求解時(shí),采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)。由此,得到DPLR算法具體過程為:
      [0075] (1)按上述的方法過濾后得到的網(wǎng)絡(luò)中邊的集合為E。
      [0076] (2)隨機(jī)抽取若干網(wǎng)絡(luò)中的鏈接Et作為正例。
      [0077] (3)隨機(jī)抽取若干不存在于網(wǎng)絡(luò)中的鏈接Ef作為負(fù)例。
      [0078] (4)在E-Et-Ef的網(wǎng)絡(luò)中計(jì)算上述所提到Et U Ef中所有節(jié)點(diǎn)的特征以及鏈接的特 征,并將節(jié)點(diǎn)的特征轉(zhuǎn)換為鏈接關(guān)系的特征,最終鏈接關(guān)系的特征集為X。
      [0079] (5)將Ef U Et分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
      [0080] (6)在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上選擇使預(yù)測(cè)結(jié)果最優(yōu)的模型超參數(shù)(0、入、 SGD百分比和SGD學(xué)習(xí)率),得到最終模型he(x)和閾值0。
      [0081] (7)將測(cè)試集中任意一條鏈接關(guān)系帶入模型,即可得到該鏈接關(guān)系產(chǎn)生的概率P。 當(dāng)P>9時(shí),預(yù)測(cè)該鏈接關(guān)系將會(huì)產(chǎn)生,否則,預(yù)測(cè)該鏈接關(guān)系不會(huì)產(chǎn)生。
      [0082]【有益效果】
      [0083] 本發(fā)明提出的技術(shù)方案具有以下有益效果:
      [0084] (1)從信息傳播的角度結(jié)合頁面排序和用戶的微博相關(guān)統(tǒng)計(jì)量定義用戶質(zhì)量這一 指標(biāo),該指標(biāo)能夠度量用戶在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與網(wǎng)絡(luò)信息傳播這兩方面的綜合影響力與權(quán)威 性。
      [0085] (2)將用戶質(zhì)量以及其他用戶特征轉(zhuǎn)換為用戶間鏈接關(guān)系特征,轉(zhuǎn)換后的鏈接關(guān) 系特征包括:(a)出度方向杰卡得系數(shù)、(b)入度方向杰卡得系數(shù)、(c)用戶間二步可達(dá)路徑 數(shù)、(d)起點(diǎn)用戶質(zhì)量、(e)終點(diǎn)用戶質(zhì)量等。最后,利用邏輯回歸(Logistic regression)方 法計(jì)算鏈接關(guān)系產(chǎn)生的概率。
      [0086] (3)本發(fā)明基于Spark大數(shù)據(jù)處理框架進(jìn)行DPLR算法設(shè)計(jì),該方法較基于局部信息 相似性和路徑相似性的方法的曲線下面積和F值有明顯提升,且具備更好的最大K準(zhǔn)確率穩(wěn) 定性。
      【附圖說明】
      [0087]圖1為屬性圖示例;
      [0088]圖2為入度統(tǒng)計(jì)Spark實(shí)現(xiàn);
      [0089]圖3為執(zhí)行過濾后50000節(jié)點(diǎn)入度分布;
      [0090]圖4為執(zhí)行過濾后50000節(jié)點(diǎn)出度分布;
      [0091]圖5為鏈接關(guān)系強(qiáng)度不意圖;
      [0092 ]圖6為Spark計(jì)算鏈接關(guān)系強(qiáng)度流程;
      [0093]圖7為50000條鏈接關(guān)系強(qiáng)度分布;
      [0094] 圖8為50000個(gè)用戶的質(zhì)量分布圖;
      [0095] 圖9為微博用戶屬性圖中的節(jié)點(diǎn)特征與邊特征的轉(zhuǎn)換示意圖。
      【具體實(shí)施方式】
      [0096] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對(duì)本發(fā)明的【具體實(shí)施方式】 進(jìn)行清楚、完整的描述。
      [0097] 實(shí)施例一
      [0098] 實(shí)施例一提供一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,該方法包括步驟 (1)至步驟(5)。
      [0099] 步驟(1)、按預(yù)設(shè)策略對(duì)用戶進(jìn)行過濾,過濾后網(wǎng)絡(luò)中邊的集合為E;步驟(1)按照 用戶關(guān)注人數(shù)、關(guān)注人數(shù)與粉絲數(shù)比率和頁面排序值對(duì)用戶進(jìn)行過濾。
      [0100] 步驟(2)、從網(wǎng)絡(luò)中抽取若干鏈接,其中正例集合為Et,負(fù)例集合為Ef。
      [0101] 步驟(3)、在E-Et-Ef網(wǎng)絡(luò)中計(jì)算Et U Ef中所有節(jié)點(diǎn)的特征以及鏈接的特征,并將節(jié) 點(diǎn)的特征轉(zhuǎn)換為鏈接關(guān)系的特征,最終鏈接關(guān)系的特征集為X。
      [0102] 步驟(4)、將EfUEt分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集 上選擇使預(yù)測(cè)結(jié)果最優(yōu)的模型超參數(shù),得到最終模型he(x)和閾值0。
      [0103]步驟(5)、將測(cè)試集中任意一條鏈接關(guān)系帶入模型,即可得到該鏈接關(guān)系產(chǎn)生的概 率P,當(dāng)P>0時(shí),預(yù)測(cè)該鏈接關(guān)系將會(huì)產(chǎn)生,否則預(yù)測(cè)該鏈接關(guān)系不會(huì)產(chǎn)生。
      [0104] 下面采用實(shí)施例一中的方法進(jìn)行實(shí)驗(yàn)。
      [0105] 實(shí)驗(yàn)分析
      [0106] 為衡量DFLR算法的有效性,本發(fā)明與基于局部結(jié)構(gòu)相似性和路徑相似性的鏈接預(yù) 測(cè)方法進(jìn)行比較。
      [0107] 實(shí)驗(yàn)在Spark集群上進(jìn)行,集群總共包含6臺(tái)計(jì)算機(jī),總內(nèi)存為72G,具體環(huán)境如下 表:
      [0108] 表3.實(shí)驗(yàn)軟硬件環(huán)境

      [0110] 按上述實(shí)施例一中的步驟(1)過濾后的用戶數(shù)為1317842,鏈接關(guān)系為30499609, 微博數(shù)為109633259。雖然過濾了大量的用戶,但是鏈接關(guān)系與微博數(shù)量并未按比例減少。 少數(shù)的用戶與大量鏈接關(guān)系相關(guān)而且發(fā)出了絕大多數(shù)的微博,即符合二八定律。
      [0111] 在上述步驟(3)和步驟(4)中,抽取出的正負(fù)例樣本數(shù)分別為91338和100000,將其 分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中驗(yàn)證集和測(cè)試集均包含10000正例和10000負(fù)例,剩余的 作為訓(xùn)練集。訓(xùn)練集、驗(yàn)證集以及測(cè)試集比例約為8:1:1。這里雖然只隨機(jī)抽取了約19萬條 鏈接關(guān)系數(shù)據(jù),但是這19萬條鏈接關(guān)系數(shù)據(jù)的特征都是基于整個(gè)大的網(wǎng)絡(luò)計(jì)算的特征。例 如考慮抽取出的鏈接關(guān)系中的一條為(x,y),在計(jì)算鏈接關(guān)系(x,y)的入度方向杰卡得系數(shù) 時(shí),是通過全圖計(jì)算節(jié)點(diǎn)x和節(jié)點(diǎn)y的入度方向的杰卡得系數(shù),而不是通過這19萬條鏈接關(guān) 系所組成的子圖計(jì)算。
      [0112] 最常用的預(yù)測(cè)模型精度衡量指標(biāo)為F值。F值是對(duì)單純的準(zhǔn)確率(預(yù)測(cè)結(jié)果中正確 的比例)和召回率(正確的結(jié)果被預(yù)測(cè)出的比率)作為評(píng)價(jià)指標(biāo)的折中,因?yàn)闇?zhǔn)確率和召回 率通常是此消彼長(zhǎng)的關(guān)系,而他們都能刻畫模型的某一方面的特性。F值定義為:
      [0114] 在DFLR中模型的訓(xùn)練與驗(yàn)證階段,先按在驗(yàn)證集上F值最大的得到上述提到的超 參數(shù),再將學(xué)習(xí)率縮小為原來的一半,迭代不同的次數(shù)得到驗(yàn)證集上不同的F值。
      [0115] 在F值最高的五個(gè)模型中,選出F值、準(zhǔn)確率以及召回率最高的三個(gè)模型H1、H2、H3, 以一定的比例參數(shù)對(duì)它們進(jìn)行組合。得到最終的預(yù)測(cè)模型:
      [0116] H(x) = PiHl (x)+P2H2 (x) + ( 1_Pi_P2)H3 (x)
      [0117] 經(jīng)過加權(quán)組合后,模型的F值由0.8983提高到0.8999。
      [0118] 在計(jì)算基于局部結(jié)構(gòu)相似性時(shí),定義兩個(gè)節(jié)點(diǎn)的局部結(jié)構(gòu)相似性為他們?nèi)攵群统?度方向杰卡得系數(shù)的平均值。即
      [0120]在計(jì)算基于路徑的相似性時(shí),直接選取上述計(jì)算節(jié)點(diǎn)關(guān)系強(qiáng)度的特征,定義為 TwoStep?;诰植拷Y(jié)構(gòu)相似性與基于路徑的相似性的方法中,都需要確定一個(gè)閾值來作為 分界線,大于該閾值,則預(yù)測(cè)鏈接關(guān)系會(huì)產(chǎn)生;否則,鏈接關(guān)系不會(huì)產(chǎn)生。閾值的確定與計(jì)算 DFLR中超參數(shù)確定類似,當(dāng)訓(xùn)練集中的F值最大時(shí),即為閾值。
      [0121 ] 在測(cè)試集上,通過比較DFLR、SS與TwoStep的準(zhǔn)確率,召回率以及F值可以得到SS與 TwoSt印的準(zhǔn)確率比DPLR略微高,但召回率約為DPLR的一半,F(xiàn)值也遠(yuǎn)低于DPLR。
      [0122]曲線下面積為預(yù)測(cè)模型精度的另一衡量指標(biāo)。用于表示在測(cè)試集中的邊的分?jǐn)?shù)值 有比隨機(jī)選擇的一個(gè)不存在的邊的分?jǐn)?shù)值高的概率。計(jì)算方法為每次隨機(jī)從測(cè)試集中選取 一條邊與隨機(jī)選擇的不存在的邊進(jìn)行比較,如果測(cè)試集中的邊的分?jǐn)?shù)值大于不存在的邊的 分?jǐn)?shù)值,就加1分;如果兩個(gè)分?jǐn)?shù)值相等,就加0.5分。獨(dú)立地比較n次,如果有n '次測(cè)試集中 的邊的分?jǐn)?shù)值大于不存在的邊的分?jǐn)?shù),有n''次兩分?jǐn)?shù)值相等,曲線下面積定義為:
      [0124] 如果所有分?jǐn)?shù)都是隨機(jī)產(chǎn)生的,曲線下面積= 0.5。因此曲線下面積大于0.5的程 度衡量了算法在多大程度上比隨機(jī)選擇的方法精確。通過比較三種方法的曲線下面積可以 看出得到,DPLR比SS與TwoSt印的曲線下面積高0.2左右。
      [0125] 最大K評(píng)價(jià)指標(biāo),是指預(yù)測(cè)鏈接關(guān)系產(chǎn)生概率最大的前K個(gè)中,實(shí)際上是正例的數(shù) 目,形式化表示為:
      [0127] 在測(cè)試集上DPLR的可以得到最大K精度。
      [0128] 在測(cè)試集中,共有10000條正例,可以得到,雖然隨著K值的增大,三種方法的最大K 的精度有所下降,但DPLR整體還是保持在一個(gè)較高的水平(>88%),具備更好的最大K穩(wěn)定 性。當(dāng)KM000后,SS與TwoSt印的下降顯著。到10000后接近0 ? 5。
      [0129] 通過三種評(píng)價(jià)指標(biāo)可以發(fā)現(xiàn),DPLR較SS和TwoStep有明顯效果提升。其主要原因在 于社交網(wǎng)絡(luò)具有高度稀疏性,絕大多數(shù)用戶間都沒有共同好友或好友間二步之內(nèi)不可達(dá), DPLR綜合了結(jié)構(gòu)相似性與路徑相似性作為特征并且額外加入起點(diǎn)和終點(diǎn)用戶質(zhì)量作為特 征,更細(xì)致的刻畫了用戶間鏈接關(guān)系的產(chǎn)生因素。
      [0130] 需要說明,上述描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例,也不 是對(duì)本發(fā)明的限制?;诒景l(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)前提 下所獲得的所有其他實(shí)施例,都屬于本發(fā)明的保護(hù)范圍。
      【主權(quán)項(xiàng)】
      1. 一種大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,其特征在于包括步驟: A、 按預(yù)設(shè)策略對(duì)用戶進(jìn)行過濾,過濾后網(wǎng)絡(luò)中邊的集合為E; B、 從網(wǎng)絡(luò)中抽取若干鏈接,其中正例集合為Et,負(fù)例集合為Ef ; C、 在E-Et-Ef網(wǎng)絡(luò)中計(jì)算Et U Ef中所有節(jié)點(diǎn)的特征以及鏈接的特征,并將節(jié)點(diǎn)的特征轉(zhuǎn) 換為鏈接關(guān)系的特征,最終鏈接關(guān)系的特征集為X; D、 將EfUEt分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上選擇使預(yù) 測(cè)結(jié)果最優(yōu)的模型超參數(shù),得到最終模型以(1)和閾值Θ; E、 將測(cè)試集中任意一條鏈接關(guān)系帶入最終模型匕(1),即可得到該鏈接關(guān)系產(chǎn)生的概率 P,當(dāng)Ρ>θ時(shí),預(yù)測(cè)該鏈接關(guān)系將會(huì)產(chǎn)生,否則預(yù)測(cè)該鏈接關(guān)系不會(huì)產(chǎn)生。2. 根據(jù)權(quán)利要求1所述的大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,其特征在于所 述步驟A按照用戶關(guān)注人數(shù)、關(guān)注人數(shù)與粉絲數(shù)比率和頁面排序值對(duì)用戶進(jìn)行過濾。3. 根據(jù)權(quán)利要求1所述的大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,其特征在于所 述步驟C中節(jié)點(diǎn)特征包括入度和出度方向的杰卡得系數(shù)、鏈接關(guān)系強(qiáng)度。4. 根據(jù)權(quán)利要求3所述的大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,其特征在于所 述步驟C采用Spark計(jì)算入度和出度方向的杰卡得系數(shù)、鏈接關(guān)系強(qiáng)度。5. 根據(jù)權(quán)利要求1所述的大規(guī)模微博異構(gòu)信息網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法,其特征在于所 述步驟D中求解最終模型^(1)和閾值Θ的方法為:初始化決策邊界和損失函數(shù),其中決策邊 界為:回歸參數(shù),λ為正則化參數(shù);采用隨機(jī)梯度下降法對(duì)損失函數(shù)進(jìn)行求解得到最終模型he(x) 和閾值Θ。
      【文檔編號(hào)】G06F17/30GK105893637SQ201610478367
      【公開日】2016年8月24日
      【申請(qǐng)日】2016年6月24日
      【發(fā)明人】李川, 李旺龍
      【申請(qǐng)人】四川大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1