專利名稱:基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘技術(shù)領(lǐng)域,具體涉及一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,是一種利用計算機技術(shù)、遺傳算法等實現(xiàn)復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法。
背景技術(shù):
復(fù)雜網(wǎng)絡(luò)是復(fù)雜系統(tǒng)的典型表現(xiàn)形式,社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)最重要的結(jié)構(gòu)特征之一。在復(fù)雜網(wǎng)絡(luò)中檢測出有意義的社區(qū),對網(wǎng)絡(luò)建模和分析作用重大。社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)的一種介于宏觀和微觀之間的結(jié)構(gòu)特性,是網(wǎng)絡(luò)結(jié)點的一種相似性組織方式。社區(qū)內(nèi)部結(jié)點間的連接密度高于社區(qū)之間的連接密度是社區(qū)結(jié)構(gòu)的關(guān)鍵特征。在復(fù)雜網(wǎng)絡(luò)中探測出社區(qū)結(jié)構(gòu),在復(fù)雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)分析、功能分析和行為預(yù)測方面都具有重要的理論和實用價值,并在生物網(wǎng)、科技網(wǎng)和社會網(wǎng)中具有廣泛的應(yīng)用前景,已被應(yīng)用于恐怖組織識別、新陳代謝途徑預(yù)測、蛋白質(zhì)相互作用網(wǎng)絡(luò)分析、Web社區(qū)挖掘等眾多領(lǐng)域。社區(qū)結(jié)構(gòu)發(fā)現(xiàn)就是辨識網(wǎng)絡(luò)社區(qū)的過程,網(wǎng)絡(luò)中的社區(qū)通常具有某種存在于該社區(qū)結(jié)點之間的相似性。在萬維網(wǎng)中,通過某一社區(qū)少數(shù)Web頁面信息的獲取,就可以推測該社區(qū)其他Web頁面的信息;在社會網(wǎng)絡(luò)中,人們按照職業(yè)、興趣、居住地址等特征形成自然的團體,團體內(nèi)部成員擁有相對密切的相互關(guān)系;在生物分子相互作用網(wǎng)絡(luò)中,將結(jié)點劃分成功能模塊有助于辨識單個分子的功能。發(fā)現(xiàn)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu),能夠幫助人們深刻地理解和認識網(wǎng)絡(luò)結(jié)構(gòu)與其功能之間的關(guān)系。如何快速、高效地在大規(guī)模復(fù)雜網(wǎng)絡(luò)上探測出潛在的社區(qū)成為當前研究復(fù)雜網(wǎng)絡(luò)的熱點問題。關(guān)于復(fù)雜網(wǎng)絡(luò)挖掘技術(shù),比較經(jīng)典的傳統(tǒng)算法有KL(Kernighan-Lin)算法,GN(Girvan-Newman)算法,模擬退火算法(Simulated Annealing,簡稱SA算法)、快速Newman算法(簡稱FN算法),這些算法有效率太低、需要先驗知識、收斂速度很慢、易陷入局部最優(yōu)解等缺點。2004年Newman網(wǎng)絡(luò)模塊度函數(shù)的提出,將復(fù)雜網(wǎng)絡(luò)挖掘問題轉(zhuǎn)化為一種優(yōu)化問題,諸多以網(wǎng)絡(luò)模塊度作為目標函數(shù)的優(yōu)化算法出現(xiàn),然而它卻是一種完全NP問題(Nondeterministic Polynomial Time-Complete Problem,多項式復(fù)雜程度的非確定性問題),難以實現(xiàn)。遺傳算法(Genetic Algorithm,簡稱GA算法)作為一種優(yōu)化算法,很好地解決了這個問題。當前具有代表性的算法是何東曉提出的CCGA算法,在此算法中,全局搜索算子使用聚類融合的交叉算子,局部搜索算子采用迫使變異結(jié)點與其大多數(shù)鄰居結(jié)點在同一社區(qū)內(nèi)的變異算子,獲得了不錯的效果,然而其算法的時間復(fù)雜度較高,為O (η2),不太適用于大規(guī)模復(fù)雜網(wǎng)絡(luò)。
發(fā)明內(nèi)容
為了解決復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘方法中存在的時間復(fù)雜度高、收斂速度慢等問題,本發(fā)明提供了一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘(GeneticAlgorithm with Local Modularity for Community Detecting,簡稱 LMGACD)的新方法。本發(fā)明采用的技術(shù)方案如下:在遺傳算法的變異算子中,根據(jù)弱社區(qū)的定義引入了局部模塊度,選擇使變異結(jié)點變異為能使局部模塊度增加最大的鄰居結(jié)點,強化了變異算子的局部搜索能力,有針對性地縮小了候選解空間,提高了遺傳算法的搜索性能。另外,在有利于搜索空間遷移的均勻交叉算子中加入輪盤賭選擇,確保適應(yīng)度高的個體具有優(yōu)先選擇權(quán),加速最優(yōu)解的產(chǎn)生,提高了算法的搜索效率。一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘方法,其特征在于包括以下步驟:步驟一,對網(wǎng)絡(luò)社區(qū)劃分進行編碼,方法如下:使用基于基因座鄰接的編碼來表示由若干個網(wǎng)絡(luò)社區(qū)劃分組成的種群中的一個個體,即用一個個體的編碼表示一個網(wǎng)絡(luò)社區(qū)劃分的結(jié)果。 在基于基因座鄰接的編碼表示中,每個基因型g都有η個基因,每個基因都代表了網(wǎng)絡(luò)N中的一個結(jié)點。每個基因i都可以取一個j(j e (1,2,...η))作為它的等位基因,即i和j之間存在一條連接?;诨蜃徑拥木幋a表示是一種圖表示方法,基因型g所表示的圖中若i和j之間存在一條邊,同時說明了基因型g解碼后結(jié)點i與j在同一個社區(qū)。步驟二,種群初始化,方法如下:在確定表示網(wǎng)絡(luò)社區(qū)劃分的編碼后,如果個體中的基因隨機選擇網(wǎng)絡(luò)內(nèi)的一個結(jié)點作為它的等位基因,將會生成很多無效的社區(qū)劃分結(jié)果,降低算法的搜索效率。因此本算法中,個體中的任意一個基因選擇它的鄰居結(jié)點作為其等位基因生成種群的個體,在很大程度上減少了社區(qū)劃分解的搜索空間。初始化種群Pop中的每個個體Pop (i)的具體步驟如下:①每個個體初始化為一個η (編碼長度)位等位基因全部為O的編碼。②對個體的每個基因位j,找到網(wǎng)絡(luò)中結(jié)點j的鄰居結(jié)點。③隨機選擇結(jié)點j的一個鄰居結(jié)點作為基因位j的等位基因,重復(fù)步驟②③,完成每個個體的初始化。對初始化種群個體的步驟進行循環(huán)Popsize (種群規(guī)模)次,完成種群初始化。步驟三,計算適應(yīng)度函數(shù),方法如下:復(fù)雜網(wǎng)絡(luò)可以建模為圖G = (V,E),其中,V表示網(wǎng)絡(luò)的結(jié)點集合,E表示邊的集合。網(wǎng)絡(luò)中社區(qū)是具有“組內(nèi)連接稠密,組間連接相對稀疏”特點的結(jié)點集合。復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘就是要探測出復(fù)雜網(wǎng)絡(luò)中潛在的社區(qū)結(jié)構(gòu)。遺傳算法在進化搜索過程中不需要借助任何外部信息,僅僅依靠適應(yīng)度函數(shù)來對候選解進行評估,并以此作為后繼遺傳操作的依據(jù)。個體的適應(yīng)度(Fitness)應(yīng)該能體現(xiàn)出該個體所代表的社區(qū)劃分結(jié)果的好壞程度,能對其給出的社區(qū)結(jié)構(gòu)的好壞做出合理的評價。為了定量地刻畫網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)劃分的優(yōu)劣,本發(fā)明采用被廣泛認可的網(wǎng)絡(luò)模塊度函數(shù)(Q函數(shù))作為群體中個體的適應(yīng)度函數(shù)。Q函數(shù)定義為社區(qū)內(nèi)實際連接數(shù)目在網(wǎng)絡(luò)中所占的比例與隨機連接情況下社區(qū)內(nèi)期望連接數(shù)目在網(wǎng)絡(luò)中所占比例之差,Q函數(shù)的表達式為:
權(quán)利要求
1.一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,其特征在于包括以下步驟: 步驟一,對網(wǎng)絡(luò)社區(qū)劃分進行編碼,方法如下: 使用基于基因座鄰接的編碼來表示由若干個網(wǎng)絡(luò)社區(qū)劃分組成的種群中的一個個體,即用一個個體的編碼表示一個網(wǎng)絡(luò)社區(qū)劃分的結(jié)果; 在基于基因座鄰接的編碼表示中,每個基因型g都有η個基因,每個基因都代表了網(wǎng)絡(luò)N中的一個結(jié)點;每個基因i都可以取一個j (j e (1,2,...η))作為它的等位基因,即i和j之間存在一條連接;基于基因座鄰接的編碼表示是一種圖表示方法,基因型g所表示的圖中若i和j之間存在一條邊,同時說明了基因型g解碼后結(jié)點i與j在同一個社區(qū); 步驟二,種群初始化,方法如下: ①將每個個體初始化為一個η(編碼長度)位等位基因全部為O的編碼; ②對個體的每個基因位j,找到網(wǎng)絡(luò)中結(jié)點j的鄰居結(jié)點; ③隨機選擇結(jié)點j的一個鄰居結(jié)點作為基因位j的等位基因,重復(fù)步驟②、③,完成個體的初始化; ④重復(fù)① ③Popsize(種群規(guī)模)次,完成種群初始化; 步驟三,計算適應(yīng)度函數(shù),方法如下: 個體的適應(yīng)度能對其給出的社區(qū)結(jié)構(gòu)的好壞做出合理的評價,為了定量地刻畫網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)劃分的優(yōu)劣,采用網(wǎng)絡(luò)模塊度函數(shù)(Q函數(shù))作為群體中個體的適應(yīng)度函數(shù);Q函數(shù)定義為社區(qū)內(nèi)實際連接數(shù)目在網(wǎng)絡(luò)中所占的比例與隨機連接情況下社區(qū)內(nèi)期望連接數(shù)目在網(wǎng)絡(luò)中所占比例之差,其表達式為:
2.根據(jù)權(quán)利要求1所述的一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,其特征在于所述步驟四中,為使交叉?zhèn)€體具有較高的適應(yīng)度值,加大搜索候選解空間的遷移性,加快最優(yōu)劃分的產(chǎn)生,在均勻交叉操作中加入輪盤賭選擇,交叉操作的具體步驟如下: ①使用輪盤賭選擇策略選擇兩個個體; ②對選擇的兩個個體進行均勻交叉操作,交叉概率取0.8。
3.根據(jù)權(quán)利要求1或2所述的一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,其特征在于所述步驟四中,為使變異后的候選解更接近最優(yōu)解,強化變異算子的局部搜索能力,在變異算子中引入局部模塊度函數(shù),變異操作的具體步驟如下: ①對要實現(xiàn)變異操作的個體g解碼,得到其社區(qū)劃分結(jié)果; ②判斷個體g的基因位i是否小于編碼長度t,若成立,判斷變異概率Pm是否小于給定的值,若成立,找到基因位i上的等位基因的鄰居結(jié)點并獲得它們的社區(qū)標簽V;否則,返回并繼續(xù)判斷下一個基因位;若基因位i不小于編碼長度t,則退出; ③遍歷所有的社區(qū)標簽V,并求該等位基因j屬于社區(qū)V時的局部模塊度; ④尋找能使模塊度最大的社區(qū)標簽,隨機取該社區(qū)的一個結(jié)點作為變異值;重復(fù)執(zhí)行②,直到所有基因位都遍歷后結(jié)束。
4.根據(jù)權(quán)利要求3所述的一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,其特征在于所述局部模塊度函數(shù)為:edSe- 其中,M1表示社區(qū)內(nèi)部總的邊數(shù)之和與社區(qū)和網(wǎng)絡(luò)其他部分相連接的邊數(shù)之和的比例,edgein代表社區(qū)內(nèi)部的連接數(shù),edge-代表本社區(qū)與網(wǎng)絡(luò)其他部分的連接數(shù)之和; M1值越大,此社區(qū)越 合理。
全文摘要
一種基于局部模塊度的遺傳算法用于大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘的方法,屬于復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘技術(shù)領(lǐng)域,包括對網(wǎng)絡(luò)社區(qū)劃分進行編碼;種群初始化;計算適應(yīng)度函數(shù);進行遺傳操作交叉、變異、選擇;解碼,得到最佳社區(qū)劃分。本發(fā)明通過在交叉算子中加入輪盤賭選擇,而不是隨機選擇種群中的個體進行交叉操作,使高適應(yīng)度個體具有優(yōu)先選擇性,可以加快最優(yōu)劃分的產(chǎn)生;在變異算子中引入局部模塊度函數(shù),使變異后的候選解更接近最優(yōu)解,強化了變異算子的局部搜索能力,更具針對性,提高了算法的搜索性能;利用LMGACD算法進行復(fù)雜網(wǎng)絡(luò)社區(qū)挖掘可以取得好的劃分效果,且時間復(fù)雜度較低。
文檔編號G06N3/12GK103208027SQ201310080090
公開日2013年7月17日 申請日期2013年3月13日 優(yōu)先權(quán)日2013年3月13日
發(fā)明者楊新武, 李 瑞 申請人:北京工業(yè)大學