本發(fā)明涉及網(wǎng)絡(luò)與鏈路預(yù)測領(lǐng)域,特別是指一種基于二階局部社團和節(jié)點度信息的預(yù)測網(wǎng)絡(luò)未知連邊的方法。
背景技術(shù):
隨著科學(xué)飛速發(fā)展,人類進入了網(wǎng)絡(luò)時代。各類以互聯(lián)網(wǎng)為載體的技術(shù)與產(chǎn)業(yè)也應(yīng)運而生,極大地改善了人們的學(xué)習(xí)與生活。我們生活在形形色色的網(wǎng)絡(luò)中。與人交往就會出現(xiàn)關(guān)系網(wǎng),出行則會有交通網(wǎng)絡(luò)。自然科學(xué)的快速發(fā)展,使得我們對世界的認識越來越多。人類研究的網(wǎng)絡(luò)越來越龐大且復(fù)雜,在如今大數(shù)據(jù)的背景下,隨著需要處理的單個數(shù)據(jù)規(guī)模和數(shù)據(jù)總規(guī)模的增大,數(shù)據(jù)的平均質(zhì)量卻是在下降,而數(shù)據(jù)的不完整性造成的影響變得更加突出。這時就可使用鏈路預(yù)測來預(yù)測或重構(gòu)接近真實且較完整的數(shù)據(jù)。鏈路預(yù)測技術(shù)可應(yīng)用于任何可以將實體及其間接關(guān)系抽象成網(wǎng)絡(luò)形式的系統(tǒng)中,如在線社交網(wǎng)絡(luò)、電子商務(wù)網(wǎng)站等,從而產(chǎn)生可觀的商業(yè)價值。因此,鏈路預(yù)測的研究顯得十分有必要。
網(wǎng)絡(luò)的鏈路預(yù)測包括對未知連邊的預(yù)測,還包括對未來的連邊預(yù)測。出于某種原因網(wǎng)絡(luò)的信息會存在少量丟失的情況,利用網(wǎng)絡(luò)中已知的信息去分析,最終還原缺失信息,這種就屬于前者。考慮到網(wǎng)絡(luò)的變化,節(jié)點及節(jié)點間的聯(lián)系均存在變化,根據(jù)現(xiàn)有信息對網(wǎng)絡(luò)中未來信息(現(xiàn)在不存在,但未來可能會存在)的預(yù)測則是后者。鏈路預(yù)測簡單的說就是通過已知的節(jié)點信息去預(yù)測其他還未直接相連或未知狀態(tài)的節(jié)點間產(chǎn)生連接的概率。近些年來,對于鏈路預(yù)測的研究主要是基于節(jié)點相似性,分別基于節(jié)點與路徑對真實網(wǎng)絡(luò)數(shù)據(jù)進行測試,如:AA指標,CN指標。周濤等在此基礎(chǔ)上提出兩種新指標:資源分配指標和局部路徑指標。劉偉平和呂琳媛提出了兩種局部隨機游走指標。有限步的隨機游走有時會比全局收斂后的預(yù)測精度要高,而最優(yōu)的游走步數(shù)受到網(wǎng)絡(luò)平均距離的強烈影響。傳統(tǒng)上人們在解決問題時,往往考慮一階共同鄰居節(jié)點并對二階共同鄰居節(jié)點對整個網(wǎng)絡(luò)的鏈路預(yù)測的重要作用考慮的不夠多,本發(fā)明提出了一種基于二階局部社團和節(jié)點度信息的預(yù)測網(wǎng)絡(luò)未知連邊的方法,考慮了種子節(jié)點的共同鄰居節(jié)點之間的聯(lián)系,同時還考慮到了邊聚類系數(shù)、平均最短路徑和局部社團內(nèi)部節(jié)點度信息的影響。充分利用網(wǎng)絡(luò)中的局部信息是提高鏈路預(yù)測算法準確性的一種新的有效手段。本發(fā)明針對相似性算法進行了擴展,種子節(jié)點的社團信息由原來的一階鄰居節(jié)點擴展到二階鄰居節(jié)點。
技術(shù)實現(xiàn)要素:
為了克服已有鏈路預(yù)測算法準確率低,信息利用率低的不足,本發(fā)明提出一種準確率高、預(yù)測效果良好的基于二階局部社團和節(jié)點度信息的鏈路預(yù)測方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)具體步驟是:
一種基于二階局部社團和節(jié)點度信息的預(yù)測網(wǎng)絡(luò)未知連邊的方法,包括如下步驟:
步驟一:在保證整個網(wǎng)絡(luò)保持連通的條件下建立網(wǎng)絡(luò)模型G(V,E),其中V為網(wǎng)絡(luò)中的節(jié)點,E為網(wǎng)絡(luò)中的邊;
步驟二:選取網(wǎng)絡(luò)中一對沒有連邊的節(jié)點i和j作為兩個種子節(jié)點,提取所有i和j的一階共同鄰居節(jié)點和二階共同鄰居節(jié)點以及這些節(jié)點之間的連邊,構(gòu)成二階局部社團,其中i和j之間長度為2的路徑的中間的一個節(jié)點為一階共同鄰居,長度為3的路徑的中間2個節(jié)點為二階共同鄰居;
步驟三:遍歷整個二階局部社團,節(jié)點總數(shù)記為CNij,總連邊數(shù)量記為LCLij,每個節(jié)點在整體網(wǎng)絡(luò)中的度記為kg,每個節(jié)點在二階局部社團中的度記為γg,其中g(shù)表示二階局部社團中的一個節(jié)點;
步驟四:計算二階局部社團的度系數(shù):
步驟五:計算二階局部社團的邊聚類系數(shù):
步驟六:計算二階局部社團的簡諧平均距離:
其中
上式中,g和h表示二階局部社團中任意兩個節(jié)點,dgh為g和h兩個節(jié)點之間的路徑長度;
步驟七:計算二階局部社團系數(shù):
步驟八:計算節(jié)點i,j之間的相似性分數(shù)指標:
LCRAij=λij*TLCCij;
步驟九:遍歷整個網(wǎng)絡(luò),對任意兩個未連接節(jié)點,重復(fù)步驟二至步驟八,計算相應(yīng)的LCRA指標作為節(jié)點對之間的相似性分數(shù)指標,相似性分數(shù)越高,相應(yīng)的節(jié)點對之間出現(xiàn)連邊的可能性越大,將所有的未連接節(jié)點對之間的相似性分數(shù)按降序排列,取前m個指標對應(yīng)的節(jié)點對為預(yù)測連邊,m≦M,M為整個網(wǎng)絡(luò)中所有未連接節(jié)點對的總數(shù)。
本發(fā)明的技術(shù)構(gòu)思為:網(wǎng)絡(luò)的二階鄰居節(jié)點對整個網(wǎng)絡(luò)的鏈路預(yù)測有著不可忽視的影響,本發(fā)明在考慮二階局部社團的簡諧平均距離和邊聚類系數(shù)時,同時考慮了局部社團節(jié)點度在整體網(wǎng)絡(luò)度中所占的比例,充分利用網(wǎng)絡(luò)中的局部信息,在具有局部特性結(jié)構(gòu)的網(wǎng)絡(luò)中有很好的預(yù)測效果,可以提高鏈路預(yù)測算法準確性。
本發(fā)明的有益效果為:本發(fā)明將局部社團從一階鄰居擴展到二階鄰居,同時考慮了局部社團節(jié)點度在整體網(wǎng)絡(luò)度中所占的比例,充分利用了已知的網(wǎng)絡(luò)節(jié)點以及網(wǎng)絡(luò)局部結(jié)構(gòu)信息,算法的精確度高。
附圖說明
圖1為二階局部社團描述圖,黑色圓點為種子節(jié)點,白色圓點為共同鄰居節(jié)點,虛線為鄰居節(jié)點之間存在的連邊,實線為種子節(jié)點與共同鄰居之間的連邊,白色圓點和虛線構(gòu)成了二階局部社團。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步說明。
參照圖1,一種基于二階局部社團和節(jié)點度信息的預(yù)測網(wǎng)絡(luò)未知連邊的方法,包括以下步驟:
步驟一:在保證整個網(wǎng)絡(luò)保持連通的條件下建立網(wǎng)絡(luò)模型G(V,E),其中V為網(wǎng)絡(luò)中的節(jié)點,E為網(wǎng)絡(luò)中的邊;
步驟二:選取網(wǎng)絡(luò)中一對沒有連邊的節(jié)點i和j作為兩個種子節(jié)點,即圖1中黑色圓點,提取所有i和j的一階共同鄰居節(jié)點和二階共同鄰居節(jié)點以及這些節(jié)點之間的連邊,如圖1中的白色圓點及其連邊,構(gòu)成二階局部社團,其中i和j之間長度為2的路徑的中間的一個節(jié)點為一階共同鄰居,長度為3的路徑的中間2個節(jié)點為二階共同鄰居;
步驟三:遍歷整個二階局部社團,節(jié)點總數(shù)記為CNij,總連邊數(shù)量記為LCLij,每個節(jié)點在整體網(wǎng)絡(luò)中的度記為kg,每個節(jié)點在二階局部社團中的度記為γg,其中g(shù)表示二階局部社團中的一個節(jié)點;
步驟四:計算二階局部社團的度系數(shù):
步驟五:計算二階局部社團的邊聚類系數(shù):
步驟六:計算二階局部社團的簡諧平均距離:
其中
上式中,g和h表示二階局部社團中任意兩個節(jié)點,dgh為g和h兩個節(jié)點之間的路徑長度;
步驟七:計算二階局部社團系數(shù):
步驟八:計算節(jié)點i,j之間的相似性分數(shù)指標:
LCRAij=λij*TLCCij;
步驟九:遍歷整個網(wǎng)絡(luò),對任意兩個未連接節(jié)點,重復(fù)步驟二至步驟八,計算相應(yīng)的LCRA指標作為節(jié)點對之間的相似性分數(shù)指標,相似性分數(shù)越高,相應(yīng)的節(jié)點對之間出現(xiàn)連邊的可能性越大,將所有的未連接節(jié)點對之間的相似性分數(shù)按降序排列,取前m個指標對應(yīng)的節(jié)點對為預(yù)測連邊,m≦M,M為整個網(wǎng)絡(luò)中所有未連接節(jié)點對的總數(shù)。
如上所述,本專利實施的具體實現(xiàn)步驟使本發(fā)明更加清晰。在本發(fā)明的精神和權(quán)利要求的保護范圍內(nèi),對本發(fā)明作出的任何修改和改變,都落入本發(fā)明的保護范圍。