本發(fā)明屬于異質(zhì)網(wǎng)絡(luò)領(lǐng)域,特別涉及一種異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)以及社團(tuán)尋找方法。
背景技術(shù):
隨著網(wǎng)絡(luò)的不斷發(fā)展,其規(guī)模已經(jīng)增長到了一個非常龐大的數(shù)量級。在這些大規(guī)模網(wǎng)絡(luò)中,以往小規(guī)模網(wǎng)絡(luò)研究中的重要問題,諸如移除某個結(jié)點(diǎn)或某條邊對整個網(wǎng)絡(luò)結(jié)構(gòu)的影響這類問題,已不再有重要的研究價值,因?yàn)橐粋€結(jié)點(diǎn)或一條邊的移除對大型網(wǎng)絡(luò)的結(jié)構(gòu)影響是可以忽略不計的。人們往往更關(guān)心關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的一些統(tǒng)計特征的研究,例如整個網(wǎng)絡(luò)的結(jié)點(diǎn)度的取值分布的形態(tài),要破壞多大比例的網(wǎng)絡(luò)結(jié)點(diǎn)或邊才能使整個網(wǎng)絡(luò)結(jié)構(gòu)被破壞等等。以往認(rèn)為研究一個復(fù)雜系統(tǒng),只需將系統(tǒng)的組成要素的性質(zhì)單獨(dú)研究清楚,就能得到整個復(fù)雜系統(tǒng)的行為特性,但是研究表明,復(fù)雜系統(tǒng)的行為特性不能靠僅僅獨(dú)立研究其各組成要素,而應(yīng)將各組成要素當(dāng)一個整體來進(jìn)行研究。在這種大背景下,隨著網(wǎng)絡(luò)研究的不斷深入,人們發(fā)現(xiàn)在不同類型的網(wǎng)絡(luò)中得到的反映網(wǎng)絡(luò)結(jié)構(gòu)的性質(zhì)和行為機(jī)制往往是一致的,在一個網(wǎng)絡(luò)上得到的規(guī)律可以很容易地映射到另一個網(wǎng)絡(luò)的研究中。這種不同網(wǎng)絡(luò)具有一致或相似的結(jié)構(gòu)性質(zhì)或行為特征的現(xiàn)象,推動著網(wǎng)絡(luò)研究以一個前所未有的速度向前發(fā)展,這類研究的對象——大規(guī)模網(wǎng)絡(luò),常常被稱作復(fù)雜網(wǎng)絡(luò)。
研究表明,實(shí)際的復(fù)雜網(wǎng)絡(luò)是具有一定組織特性的網(wǎng)絡(luò)結(jié)構(gòu),如小世界性,聚集性和結(jié)點(diǎn)度的分布不均勻性等等。這種組織結(jié)構(gòu)特性可以用網(wǎng)絡(luò)社團(tuán)來描述。從直觀上講,社團(tuán)是指由網(wǎng)絡(luò)節(jié)點(diǎn)組成的一個個節(jié)點(diǎn)子集合,子集合內(nèi)部節(jié)點(diǎn)之間連接緊密,而各子集合之間節(jié)點(diǎn)連接稀疏。網(wǎng)絡(luò)社團(tuán)的這種直觀意義表明社團(tuán)內(nèi)的節(jié)點(diǎn)通常是一組具有某種共同屬性或起某種相似作用的節(jié)點(diǎn)集合。
模塊度是衡量網(wǎng)絡(luò)社團(tuán)劃分質(zhì)量的標(biāo)準(zhǔn),其基本想法是把社團(tuán)劃分后的網(wǎng)絡(luò)與相應(yīng)的零模型進(jìn)行比較,以度量社團(tuán)劃分的質(zhì)量。模塊度值的大小主要取決于網(wǎng)絡(luò)的社團(tuán)劃分情況,可以用來定量的衡量網(wǎng)絡(luò)社團(tuán)劃分質(zhì)量,其值越接近1,表示網(wǎng)絡(luò)劃分出的社團(tuán)結(jié)構(gòu)的強(qiáng)度越強(qiáng),也就是劃分質(zhì)量越好。因此可以通過最大化模塊度Q來獲得最優(yōu)的網(wǎng)絡(luò)社團(tuán)劃分。
傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)大多針對同質(zhì)網(wǎng)絡(luò),而復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)類型不同且邊類型不同的網(wǎng)絡(luò)稱為多關(guān)系異質(zhì)網(wǎng)絡(luò),即通常所說的異質(zhì)網(wǎng)絡(luò)。在現(xiàn)實(shí)社會中,由于節(jié)點(diǎn)類型、節(jié)點(diǎn)關(guān)系多種多樣,致使異質(zhì)網(wǎng)絡(luò)模型更加符合網(wǎng)絡(luò)的實(shí)際形態(tài),加之異質(zhì)網(wǎng)絡(luò)自身具有的復(fù)雜性及信息的多樣性,分析異質(zhì)網(wǎng)絡(luò)模型對理解現(xiàn)實(shí)社會中的實(shí)際網(wǎng)絡(luò)具有重要作用。因此,采用異質(zhì)網(wǎng)絡(luò)構(gòu)建實(shí)際網(wǎng)絡(luò)模型,并對異質(zhì)網(wǎng)絡(luò)進(jìn)行社團(tuán)發(fā)現(xiàn),能夠準(zhǔn)確挖掘?qū)嶋H網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。與同質(zhì)網(wǎng)絡(luò)社團(tuán)劃分方法類似,異質(zhì)網(wǎng)絡(luò)的社團(tuán)發(fā)現(xiàn)首先需要提出衡量異質(zhì)網(wǎng)絡(luò)社團(tuán)的參數(shù),即異質(zhì)網(wǎng)絡(luò)模塊度。
由于當(dāng)今網(wǎng)絡(luò)趨向于復(fù)雜化,多種不同類型的對象之間存在各種潛在關(guān)系,所以異質(zhì)網(wǎng)絡(luò)的引入,為復(fù)雜網(wǎng)絡(luò)的分析提供了一種新的重要的手段。在對復(fù)雜網(wǎng)絡(luò)的分析中,往往可以發(fā)現(xiàn)其社團(tuán)結(jié)構(gòu),模塊度是衡量社團(tuán)劃分結(jié)果的一種評判標(biāo)準(zhǔn),可以利用模塊度最大的方式對網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分。
2006年,M.E.J.Newman提出了基于模塊度的社團(tuán)發(fā)現(xiàn)方法,作者研究了圖的矩陣表示,并基于模塊度進(jìn)行社團(tuán)發(fā)現(xiàn)。文章首先介紹了傳統(tǒng)的圖劃分方法,而后提出模塊度的概念,并構(gòu)建模塊度矩陣,最后講述了用模塊度進(jìn)行社團(tuán)發(fā)現(xiàn)。這里作者只提出同質(zhì)網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),其方法并不適用于異質(zhì)網(wǎng)絡(luò),沒有考慮到異質(zhì)網(wǎng)絡(luò)中的異質(zhì)連接問題。
2010年,Peter J.Mucha等人提出了針對多片網(wǎng)絡(luò)進(jìn)行社團(tuán)發(fā)現(xiàn),作者提出已有模塊度算法只適用于單網(wǎng)絡(luò)情況,并不適用于多網(wǎng)絡(luò)分析,而后主要研究了多片網(wǎng)絡(luò)下的模塊度計算方法,該方法可以應(yīng)用于多特征網(wǎng)絡(luò)的研究,從而為在更大網(wǎng)絡(luò)范圍內(nèi)研究社團(tuán)結(jié)構(gòu)提供了可能。同樣,作者提出的多網(wǎng)絡(luò)模塊度也是基于多個同質(zhì)網(wǎng)絡(luò)的,并不適合異質(zhì)網(wǎng)絡(luò)分析。
2012年,Comar P M等人對異質(zhì)網(wǎng)絡(luò)進(jìn)行了社團(tuán)發(fā)現(xiàn)與圖分類,通過研究異質(zhì)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)方法,從一個異質(zhì)網(wǎng)絡(luò)中導(dǎo)出兩個同質(zhì)網(wǎng)絡(luò)的子網(wǎng)絡(luò),一個子網(wǎng)絡(luò)用于分類,一個子網(wǎng)絡(luò)用于社團(tuán)劃分。通過兩個子網(wǎng)絡(luò)在異質(zhì)網(wǎng)絡(luò)中的關(guān)聯(lián)性,對二者同時進(jìn)行了分類和社團(tuán)劃分,并通過實(shí)驗(yàn)證明這樣的準(zhǔn)確率要遠(yuǎn)高于獨(dú)立的分類與社團(tuán)劃分。作者提出的異質(zhì)網(wǎng)絡(luò)社團(tuán)劃分方法,并沒有從異質(zhì)網(wǎng)絡(luò)社團(tuán)的自身結(jié)構(gòu)出發(fā),準(zhǔn)確率較差。
基于以上的研究,在異質(zhì)網(wǎng)絡(luò)的分析方面可以引入模塊度對其進(jìn)行社團(tuán)檢測,針對異質(zhì)網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu),做出更深入的分析。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決上述技術(shù)問題,提出了一種異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)以及基于該結(jié)構(gòu)的社團(tuán)發(fā)現(xiàn)方法;通過定義異質(zhì)網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),并提出了基于異質(zhì)網(wǎng)絡(luò)模塊度最大化的異質(zhì)網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法,有效地發(fā)現(xiàn)了異質(zhì)網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。
本發(fā)明采用的技術(shù)方案為:一種異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu),包括:
A1、建立異質(zhì)網(wǎng)絡(luò),具體為:將不同類型的對象作為節(jié)點(diǎn),不同對象之間的不同關(guān)系作為邊生成的網(wǎng)絡(luò),即為異質(zhì)網(wǎng)絡(luò);
A2、采用鄰接矩陣表示異質(zhì)網(wǎng)絡(luò),具體為:
HW={AS,…,HSR,…},SR∈T;
其中,HW表示異質(zhì)網(wǎng)絡(luò),T表示節(jié)點(diǎn)類型集合,表示異質(zhì)網(wǎng)絡(luò)中同質(zhì)節(jié)點(diǎn)的鄰接矩陣,i、j′表示S類中的節(jié)點(diǎn),NS表示S類的節(jié)點(diǎn)個數(shù),表示第S類節(jié)點(diǎn)與第R類節(jié)點(diǎn)的鄰接矩陣,i表示S類中的節(jié)點(diǎn),j表示R類中的節(jié)點(diǎn),NR表示R類的節(jié)點(diǎn)個數(shù);
A3、采用隨機(jī)游走過程建立異質(zhì)網(wǎng)絡(luò)的1階零模型;
A4、基于異質(zhì)網(wǎng)絡(luò)的零模型建立異質(zhì)網(wǎng)絡(luò)模塊度,具體為:異質(zhì)網(wǎng)絡(luò)模塊度Qh=(異質(zhì)網(wǎng)絡(luò)中社團(tuán)實(shí)際連邊數(shù)量-1階零模型中的期望連邊數(shù)),并以進(jìn)行歸一化處理;
A5、定義異質(zhì)網(wǎng)絡(luò)社團(tuán),具體為:給定一個異質(zhì)網(wǎng)絡(luò)HW=[AS,…,HSR,…],S,R∈T,一個異質(zhì)網(wǎng)絡(luò)社團(tuán)HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子圖,通過將HW劃分為不同的子圖HW′,使得異質(zhì)網(wǎng)絡(luò)模塊度Qh最大時劃分出的子圖HW′即為異質(zhì)網(wǎng)絡(luò)社團(tuán)HC。
進(jìn)一步地,所述矩陣AS中的元素取值確定過程為:當(dāng)存在從S類中的節(jié)點(diǎn)i指向S類中的節(jié)點(diǎn)j′的邊,則否則
進(jìn)一步地,所述矩陣HSR中的元素取值確定過程為:當(dāng)存在從S類中的節(jié)點(diǎn)i指向R類中的節(jié)點(diǎn)j的邊,則否則
進(jìn)一步地,步驟A3所述1階零模型,具體為:與原網(wǎng)絡(luò)具有相同的節(jié)點(diǎn)類型集合T、每一類節(jié)點(diǎn)數(shù)NS,S∈T、同質(zhì)節(jié)點(diǎn)度分布P(k)以及異質(zhì)節(jié)點(diǎn)度分布P(hk)的隨機(jī)化網(wǎng)絡(luò);且該隨機(jī)化網(wǎng)絡(luò)的成邊概率為:
其中,表示R類節(jié)點(diǎn)j與R類節(jié)點(diǎn)連接的同質(zhì)度數(shù);表示S類節(jié)點(diǎn)i與S類節(jié)點(diǎn)連接的同質(zhì)度數(shù);表示R類節(jié)點(diǎn)j與非R類節(jié)點(diǎn)連接的異質(zhì)度數(shù);表示S類節(jié)點(diǎn)i與非S類節(jié)點(diǎn)連接的異質(zhì)度數(shù);δSR表示沖擊函數(shù);表示反沖擊函數(shù);HM表示一個變量,表示異質(zhì)連接的邊數(shù)量,MS表示S類中的同質(zhì)邊數(shù)量,Si表示S類中的節(jié)點(diǎn)i,Rj表示R類中的節(jié)點(diǎn)j。
進(jìn)一步地,步驟A4所述異質(zhì)網(wǎng)絡(luò)模塊度Qh,具體為:
其中,E(Si,Rj)表示實(shí)際異質(zhì)網(wǎng)絡(luò)中社團(tuán)實(shí)際連邊數(shù)量,且P(Si,Rj)表示1階零模型中的期望連邊數(shù),且Si表示S類中的節(jié)點(diǎn)i,Rj表示R類中的節(jié)點(diǎn)j。
本申請還提出一種基于該異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的社團(tuán)發(fā)現(xiàn)方法,包括:
B1、將異質(zhì)網(wǎng)絡(luò)中每個節(jié)點(diǎn)初始化為一個社團(tuán);
B2、遍歷異質(zhì)網(wǎng)絡(luò)中每個節(jié)點(diǎn)z,找出所有與節(jié)點(diǎn)z相連的節(jié)點(diǎn),并對每個相連的節(jié)點(diǎn)計算模塊度增量;
B3、找出模塊度增量最大值所對應(yīng)的相連的節(jié)點(diǎn),將節(jié)點(diǎn)z添加至該相連的節(jié)點(diǎn)所在社團(tuán);
B4、重復(fù)步驟B2、B3得到若干新的社團(tuán),將每個新的社團(tuán)作為一個新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn),得到若干新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn);
B5、重復(fù)步驟B2-B4,直到所有節(jié)點(diǎn)的模塊度增量小于或等于0時,社團(tuán)劃分完成。
進(jìn)一步地,步驟B2所述模塊度增量的計算式為:
其中,ΔQij表示模塊度增量,表示在S類中節(jié)點(diǎn)z′與節(jié)點(diǎn)i′的連接關(guān)系,若是節(jié)點(diǎn)z′與節(jié)點(diǎn)i′相連,則否則表示在S類中節(jié)點(diǎn)z′與R類中節(jié)點(diǎn)x的連接關(guān)系,若節(jié)點(diǎn)z′與節(jié)點(diǎn)x相連,則否則
本發(fā)明的有益效果:本申請?zhí)岢隽水愘|(zhì)網(wǎng)絡(luò)的零模型,并在其基礎(chǔ)上進(jìn)一步提出了適用于異質(zhì)網(wǎng)絡(luò)的,一種全新的衡量異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的功能函數(shù)——異質(zhì)網(wǎng)絡(luò)的模塊度;并在異質(zhì)網(wǎng)絡(luò)模塊度的基礎(chǔ)上,定義了異質(zhì)網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),提出了基于異質(zhì)網(wǎng)絡(luò)模塊度最大化的異質(zhì)網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法,并驗(yàn)證了該方法的有效性,本申請的方法具有如下優(yōu)點(diǎn):
(1)采用同質(zhì)、異質(zhì)鄰接矩陣全面、有效地描述異質(zhì)網(wǎng)絡(luò)連接關(guān)系;
(2)提出異質(zhì)網(wǎng)絡(luò)的零模型,為研究復(fù)雜網(wǎng)絡(luò)中異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)提供了基礎(chǔ)的隨機(jī)化網(wǎng)絡(luò)模型;
(3)提出異質(zhì)網(wǎng)絡(luò)模塊度,一種全新的衡量異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的功能函數(shù),為異質(zhì)網(wǎng)絡(luò)社團(tuán)評價提供了新方法;
(4)在異質(zhì)網(wǎng)絡(luò)模塊度的基礎(chǔ)上,定義了新的異質(zhì)網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),提出了基于異質(zhì)網(wǎng)絡(luò)模塊度最大化的異質(zhì)網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法,有效地發(fā)現(xiàn)了異質(zhì)網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。
附圖說明
圖1為本申請的建立異質(zhì)網(wǎng)絡(luò)流程圖。
圖2為本申請的基于異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的社團(tuán)發(fā)現(xiàn)方法流程圖。
具體實(shí)施方式
為便于本領(lǐng)域技術(shù)人員理解本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合附圖對本發(fā)明內(nèi)容進(jìn)一步闡釋。
如圖1所示為本申請的建立異質(zhì)網(wǎng)絡(luò)流程圖,本申請的技術(shù)方案之一為:一種異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu),包括:
A1、建立異質(zhì)網(wǎng)絡(luò),具體為:
定義1:異質(zhì)網(wǎng)絡(luò):在本發(fā)明中,異質(zhì)網(wǎng)絡(luò)指的是將不同類型的對象作為節(jié)點(diǎn),不同對象之間的不同關(guān)系作為邊生成的網(wǎng)絡(luò)。
根據(jù)異質(zhì)網(wǎng)絡(luò)的定義,能夠?qū)?fù)雜網(wǎng)絡(luò)中網(wǎng)絡(luò)存在的基本模式納為以下三種:
(1)單一關(guān)系同質(zhì)網(wǎng)絡(luò):網(wǎng)絡(luò)中節(jié)點(diǎn)類型相同有且僅有一種類型的邊;
(2)多關(guān)系同質(zhì)網(wǎng)絡(luò):網(wǎng)絡(luò)中節(jié)點(diǎn)類型相同,存在表示多種關(guān)系的多類型的邊;
(3)多關(guān)系異質(zhì)網(wǎng)絡(luò):網(wǎng)絡(luò)中節(jié)點(diǎn)類型不同且邊類型不同。
A2、為了便于計算,采用網(wǎng)絡(luò)鄰接矩陣表示異質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)鄰接矩陣A=(aij)N×N是一個N階方陣,N表示網(wǎng)絡(luò)中節(jié)點(diǎn)個數(shù),網(wǎng)絡(luò)鄰接矩陣中的元素aij取值確定過程為:如果有從節(jié)點(diǎn)i指向節(jié)點(diǎn)j的邊,則aij=1;如果沒有從節(jié)點(diǎn)i指向節(jié)點(diǎn)j的邊,則aij=0;根據(jù)網(wǎng)絡(luò)鄰接矩陣的定義,本申請的異質(zhì)網(wǎng)絡(luò)HW具體為:
HW={AS,…,HSR,…},SR∈T;
其中,HW表示異質(zhì)網(wǎng)絡(luò),T表示節(jié)點(diǎn)類型集合,表示異質(zhì)網(wǎng)絡(luò)中同質(zhì)節(jié)點(diǎn)的鄰接矩陣,i、j′表示S類中的節(jié)點(diǎn),NS表示S類的節(jié)點(diǎn)個數(shù),表示第S類節(jié)點(diǎn)與第R類節(jié)點(diǎn)的鄰接矩陣,i表示S類中的節(jié)點(diǎn),j表示R類中的節(jié)點(diǎn),NR表示R類的節(jié)點(diǎn)個數(shù);
矩陣AS中的元素取值確定過程為:當(dāng)存在從S類中的節(jié)點(diǎn)i指向S類中的節(jié)點(diǎn)j′的邊,則否則
矩陣HSR中的元素取值確定過程為:當(dāng)存在從S類中的節(jié)點(diǎn)i指向R類中的節(jié)點(diǎn)j的邊,則否則
A3、采用隨機(jī)游走過程建立異質(zhì)網(wǎng)絡(luò)的1階零模型;
一般地,把與一個實(shí)際網(wǎng)絡(luò)具有相同節(jié)點(diǎn)數(shù)和相同的某些性質(zhì)B的隨機(jī)網(wǎng)絡(luò)稱為該實(shí)際網(wǎng)絡(luò)的隨機(jī)網(wǎng)絡(luò)。這里的“某些性質(zhì)B”可以是平均度,度分布,聚類系數(shù),同配系數(shù)等等,或者是他們的某種組合。從統(tǒng)計學(xué)角度看,“具有性質(zhì)B的網(wǎng)絡(luò)G也具有某一性質(zhì)P”是一個零假設(shè),而為了要驗(yàn)證這一假設(shè)是否成立,就需要與原網(wǎng)絡(luò)G具有相同規(guī)模和相同性質(zhì)B的隨機(jī)網(wǎng)絡(luò)作為參照系,以判別性質(zhì)P是否為這類隨機(jī)網(wǎng)絡(luò)的典型特征。這類隨機(jī)網(wǎng)絡(luò)模型在統(tǒng)計學(xué)上稱為零模型。
按照約束條件從少到多,可以定義不同階次的零模型:
(1)0階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點(diǎn)數(shù)N和邊數(shù)M的隨機(jī)化網(wǎng)絡(luò)。
(2)1階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點(diǎn)數(shù)N和度分布P(k)的隨機(jī)化網(wǎng)絡(luò),通常做法是每個節(jié)點(diǎn)的度值都保持不變,即度序列保持不變。
(3)2階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點(diǎn)數(shù)N和二階度相關(guān)特性P(k,k’)的隨機(jī)化網(wǎng)絡(luò)。
以此類推,還可以定義更高階的零模型。
同理,在異質(zhì)網(wǎng)絡(luò)中,本發(fā)明對異質(zhì)網(wǎng)絡(luò)的零模型定義如下:
異質(zhì)網(wǎng)絡(luò)的零模型:與原異質(zhì)網(wǎng)絡(luò)HW具有相同規(guī)模和相同性質(zhì)B的隨機(jī)網(wǎng)絡(luò)。
由于異質(zhì)網(wǎng)絡(luò)中異質(zhì)連接的存在,按照約束條件不同,可以定義不同階次的異質(zhì)網(wǎng)絡(luò)零模型如下:
(1)0階零模型:與原異質(zhì)網(wǎng)絡(luò)具有相同的節(jié)點(diǎn)類型T、同質(zhì)節(jié)點(diǎn)數(shù)N、異質(zhì)節(jié)點(diǎn)數(shù)HN、同質(zhì)邊數(shù)M以及異質(zhì)邊數(shù)HM的隨機(jī)化異質(zhì)網(wǎng)絡(luò)。
(2)1階零模型:與原網(wǎng)絡(luò)具具有相同的節(jié)點(diǎn)類型T、同質(zhì)節(jié)點(diǎn)數(shù)N、異質(zhì)節(jié)點(diǎn)數(shù)HN、同質(zhì)節(jié)點(diǎn)度分布P(k)以及異質(zhì)節(jié)點(diǎn)度分布P(hk)的隨機(jī)化網(wǎng)絡(luò)
(3)2階零模型:與原網(wǎng)絡(luò)具有相同的節(jié)點(diǎn)類型T、同質(zhì)節(jié)點(diǎn)數(shù)N、異質(zhì)節(jié)點(diǎn)數(shù)HN、同質(zhì)節(jié)點(diǎn)二階度相關(guān)特性P(k,k’)以及異質(zhì)節(jié)點(diǎn)二階度相關(guān)特性P(hk,hk’)的隨機(jī)化網(wǎng)絡(luò)。
在本發(fā)明中,選用異質(zhì)網(wǎng)絡(luò)1階零模型構(gòu)建異質(zhì)網(wǎng)絡(luò)的模塊度,因?yàn)?階異質(zhì)網(wǎng)絡(luò)零模型同時具有一定的隨機(jī)性以及與原網(wǎng)絡(luò)相同的度特性。構(gòu)造的零模型首先是一個不具有社團(tuán)結(jié)構(gòu)的隨機(jī)化網(wǎng)絡(luò),而零模型階數(shù)越高,其社團(tuán)結(jié)構(gòu)越明顯。同時,在社團(tuán)劃分中,對于度越大的節(jié)點(diǎn)之間的單一連接,對于其端點(diǎn)的連接緊密度貢獻(xiàn)越小,這一社團(tuán)結(jié)構(gòu)規(guī)律在零模型中應(yīng)該得到反映,因此,本發(fā)明使用1階零模型同時滿足隨機(jī)性以及網(wǎng)絡(luò)度特性的要求,未做特殊說明,本發(fā)明中異質(zhì)網(wǎng)絡(luò)零模型均指異質(zhì)網(wǎng)絡(luò)的1階零模型。
本發(fā)明采用隨機(jī)游走過程建立異質(zhì)網(wǎng)絡(luò)的零模型。首先考慮一個實(shí)際的同質(zhì)網(wǎng)絡(luò):若節(jié)點(diǎn)i到節(jié)點(diǎn)j有存在連邊,則說明節(jié)點(diǎn)i到節(jié)點(diǎn)j可達(dá),一個行者在網(wǎng)絡(luò)中隨機(jī)找點(diǎn)游走,該過程可視為一個馬爾科夫過程,即行者每次游走是完全獨(dú)立隨機(jī)的,與上次游走結(jié)果無關(guān),那么行者從第n個狀態(tài)在節(jié)點(diǎn)j游走至節(jié)點(diǎn)i的概率為:
其中,aij表示節(jié)點(diǎn)i與節(jié)點(diǎn)j的連接關(guān)系,kj表示節(jié)點(diǎn)j的度數(shù),pi表示行者在節(jié)點(diǎn)j的概率。
現(xiàn)在考慮一個異質(zhì)網(wǎng)絡(luò),在異質(zhì)網(wǎng)絡(luò)中,節(jié)點(diǎn)分為同質(zhì)節(jié)點(diǎn)與異質(zhì)節(jié)點(diǎn),因此行者游走時,應(yīng)分別考慮其在同質(zhì)節(jié)點(diǎn)之間游走以及在異質(zhì)節(jié)點(diǎn)之間游走的過程,因此,行者從第n個狀態(tài)在R類節(jié)點(diǎn)j游走至S類節(jié)點(diǎn)i的概率為:
其中,表示當(dāng)節(jié)點(diǎn)i與節(jié)點(diǎn)j均屬于S類時其之間的連接關(guān)系;表示S類節(jié)點(diǎn)i與R類節(jié)點(diǎn)j之間的連接關(guān)系;δSR表示沖擊函數(shù),即當(dāng)S=R時,δSR=1;表示反沖擊函數(shù),即當(dāng)S≠R時,表示行者在R類節(jié)點(diǎn)j的概率;指R類節(jié)j的總度數(shù),即同質(zhì)度數(shù)與異質(zhì)度數(shù)之和,具體表示為:
其中,表示R類節(jié)點(diǎn)j與R類節(jié)點(diǎn)連接的同質(zhì)度數(shù),異質(zhì)度表示R類節(jié)點(diǎn)j與非R類節(jié)點(diǎn)連接的異質(zhì)度數(shù)。
因此,在異質(zhì)網(wǎng)絡(luò)零模型中,行者從R類的節(jié)點(diǎn)j走到S類的節(jié)點(diǎn)i的條件概率為:
其中,MS表示S類中的邊數(shù),HM表示異質(zhì)邊數(shù)。
在隨意游走馬爾科夫過程達(dá)到穩(wěn)態(tài)時,可以得到行者在R類節(jié)點(diǎn)j的穩(wěn)態(tài)概率為:
其中,M表示異質(zhì)網(wǎng)絡(luò)的總邊數(shù)。因此,在隨機(jī)游走過程中,本申請異質(zhì)網(wǎng)絡(luò)零模型中S類節(jié)點(diǎn)i和R類節(jié)點(diǎn)j的聯(lián)合成邊概率p(Si,Rj)為:
A4、基于異質(zhì)網(wǎng)絡(luò)的零模型建立異質(zhì)網(wǎng)絡(luò)模塊度;
在2006年,Newman將模塊度Q定義為Q=(社團(tuán)中的實(shí)際連邊數(shù)量-這些邊的期望數(shù)量)。同理,在構(gòu)建異質(zhì)網(wǎng)絡(luò)模塊度時,本專利使用異質(zhì)網(wǎng)絡(luò)的1階零模型作為網(wǎng)絡(luò)模型,即與原網(wǎng)絡(luò)具有相同的節(jié)點(diǎn)類型T、同質(zhì)節(jié)點(diǎn)數(shù)N、異質(zhì)節(jié)點(diǎn)數(shù)HN、同質(zhì)節(jié)點(diǎn)度分布P(k)以及異質(zhì)節(jié)點(diǎn)度分布P(hk)的隨機(jī)化網(wǎng)絡(luò)。通過第2.2.2節(jié)分析,該網(wǎng)絡(luò)模型的成邊概率為:
因此,本申請網(wǎng)絡(luò)模型中的期望連邊數(shù)為:
本申請實(shí)際異質(zhì)網(wǎng)絡(luò)的連邊數(shù)為:
因此,本發(fā)明對異質(zhì)網(wǎng)絡(luò)的模塊度定義如下:
異質(zhì)網(wǎng)絡(luò)模塊度:具體為:異質(zhì)網(wǎng)絡(luò)模塊度Qh=(異質(zhì)網(wǎng)絡(luò)中社團(tuán)實(shí)際連邊數(shù)量-1階零模型中的期望連邊數(shù)),并以進(jìn)行歸一化處理;即:
根據(jù)異質(zhì)網(wǎng)絡(luò)模塊度的定義,公式中分為同質(zhì)模塊度與異質(zhì)模塊度兩部分,可以理解為異質(zhì)網(wǎng)絡(luò)中的模塊度Qh是網(wǎng)絡(luò)中同質(zhì)部分模塊度與異質(zhì)部分模塊度之和,能夠全面反映出異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)性質(zhì)。
A5、定義異質(zhì)網(wǎng)絡(luò)社團(tuán),與同質(zhì)網(wǎng)絡(luò)類似,異質(zhì)網(wǎng)絡(luò)中同樣存在社團(tuán)結(jié)構(gòu),即聯(lián)系緊密的多類型節(jié)點(diǎn)的集合。本發(fā)明采用異質(zhì)網(wǎng)絡(luò)中的模塊度衡量異質(zhì)社團(tuán)聯(lián)系的緊密程度,當(dāng)異質(zhì)模塊度最大時,異質(zhì)網(wǎng)絡(luò)的社團(tuán)劃分結(jié)果最為理想。異質(zhì)社團(tuán)的定義如下:
給定一個異質(zhì)網(wǎng)絡(luò)HW=[AS,…,HSR,…],S,R∈T,一個異質(zhì)網(wǎng)絡(luò)社團(tuán)HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子圖,通過將HW劃分為不同的子圖HW′,使得異質(zhì)網(wǎng)絡(luò)模塊度Qh最大時劃分出的子圖HW′即為異質(zhì)網(wǎng)絡(luò)社團(tuán)HC。
如圖2所示為本申請的基于異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的社團(tuán)發(fā)現(xiàn)方法流程圖,本申請的另一技術(shù)方案為:一種基于該異質(zhì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的社團(tuán)發(fā)現(xiàn)方法,包括:
B1、將異質(zhì)網(wǎng)絡(luò)中每個節(jié)點(diǎn)初始化為一個社團(tuán),得到社團(tuán)數(shù)量為∑b Nb,∑b Nb表示將各節(jié)點(diǎn)類型所包含節(jié)點(diǎn)個數(shù)相加,Nb表示序號為b的節(jié)點(diǎn)類型所包含的節(jié)點(diǎn)個數(shù),b表示節(jié)點(diǎn)類型的序號;
B2、遍歷異質(zhì)網(wǎng)絡(luò)中每個節(jié)點(diǎn)z,找出所有與節(jié)點(diǎn)i相連的節(jié)點(diǎn),并對每個相連的節(jié)點(diǎn)計算模塊度增量;
其中,ΔQij表示模塊度增量,表示在S類中節(jié)點(diǎn)z′與節(jié)點(diǎn)i′的連接關(guān)系,若是節(jié)點(diǎn)z′與節(jié)點(diǎn)i′相連,則否則表示在S類中節(jié)點(diǎn)z′與R類中節(jié)點(diǎn)x的連接關(guān)系,若節(jié)點(diǎn)z′與節(jié)點(diǎn)x相連,則否則
B3、找出模塊度增量最大值所對應(yīng)的相連的節(jié)點(diǎn),將節(jié)點(diǎn)i添加至該相連的節(jié)點(diǎn)所在社團(tuán);
B4、重復(fù)步驟B2、B3得到若干新的社團(tuán),將每個新的社團(tuán)作為一個新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn),得到若干新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn),將新的社團(tuán)內(nèi)部的連接作為新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn)的自環(huán),權(quán)重為新的社團(tuán)內(nèi)部連接關(guān)系總和;將新的社團(tuán)之間的連接作為新的異質(zhì)網(wǎng)絡(luò)節(jié)點(diǎn)之間的邊,邊的權(quán)重為兩個新的社團(tuán)中所有節(jié)點(diǎn)連接關(guān)系總和;
B5、重復(fù)步驟B2-B4,直到所有節(jié)點(diǎn)的模塊度增量小于或等于0時,社團(tuán)劃分完成。
本領(lǐng)域的普通技術(shù)人員將會意識到,這里所述的實(shí)施例是為了幫助讀者理解本發(fā)明的原理,應(yīng)被理解為本發(fā)明的保護(hù)范圍并不局限于這樣的特別陳述和實(shí)施例。對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。