專利名稱:動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘和復(fù)雜網(wǎng)絡(luò)分析領(lǐng)域,特別是動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖 掘方法。
背景技術(shù):
隨著計算機科學(xué)和網(wǎng)絡(luò)技術(shù)的發(fā)展,來自各個領(lǐng)域的網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)級增長。在 網(wǎng)絡(luò)數(shù)據(jù)分析的相關(guān)研究中,圖是一種非常重要的建模工具,把個體抽象成節(jié)點、把個體之 間的聯(lián)系抽象成邊就構(gòu)成了圖結(jié)構(gòu)。圖可以對很多復(fù)雜系統(tǒng)進行建模,包括生物系統(tǒng)、物理 系統(tǒng)、軟件系統(tǒng)和社會系統(tǒng)等。運用圖挖掘算法對復(fù)雜網(wǎng)絡(luò)進行分析,可以增強人們對大規(guī) 模網(wǎng)絡(luò)的認(rèn)識和理解,有助于相關(guān)領(lǐng)域做出正確的決策和專家對相關(guān)領(lǐng)域進行更深入的研 究。然而,由于問題規(guī)模的巨大和圖挖掘本身的復(fù)雜性,從海量數(shù)據(jù)中抽取有用的知識和信 息成為擺在人們面前的重大難題。頻繁模式挖掘是一種典型的具有很高計算復(fù)雜性的圖挖掘問題,它可以分成圖集 合挖掘(Graph dataset mining)和大圖挖掘(large graph mining)。圖集合挖掘是從一 組圖的集合中,搜索頻繁出現(xiàn)的子圖,這些子圖在該組圖的集合中出現(xiàn)的次數(shù)不少于某個 閾值。大圖挖掘是從單個大圖中搜索頻繁出現(xiàn)的子圖。頻繁模式挖掘可以廣泛應(yīng)用在Web 挖掘、網(wǎng)絡(luò)入侵檢測、藥物發(fā)現(xiàn)、化合物合成等領(lǐng)域。聚類作為另一種非常重要的圖挖掘問 題,是將物理或抽象對象的集合分成由類似的對象組成的多個社團(community)結(jié)構(gòu)的過 程。屬于同一社團的內(nèi)部成員間連接緊密,不同社團之間的成員連接松散。通過對網(wǎng)絡(luò)進 行聚類分析,可以得到網(wǎng)絡(luò)的功能模塊或者興趣相同的工作組等,方便人們進行決策,具有 重要意義。例如,在商務(wù)上,聚類能幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群, 并且用購買模式來刻畫不同的客戶群的特征。在生物學(xué)上,聚類能用于推導(dǎo)植物和動物的 分類,對基因進行分類,獲得對種群中固有結(jié)構(gòu)的認(rèn)識?,F(xiàn)實世界中的網(wǎng)絡(luò)數(shù)據(jù)大多具有隨時間緩慢變化的特征,這樣的網(wǎng)絡(luò)數(shù)據(jù)稱之為 動態(tài)復(fù)雜網(wǎng)絡(luò)。然而,當(dāng)前的圖挖掘方法主要集中在對靜態(tài)網(wǎng)絡(luò)的分析,這些靜態(tài)網(wǎng)絡(luò)是動 態(tài)復(fù)雜網(wǎng)絡(luò)中多個時刻的數(shù)據(jù)的簡單集成或動態(tài)復(fù)雜網(wǎng)絡(luò)在某一時刻的快照。單純的對靜 態(tài)網(wǎng)絡(luò)進行分析,忽略動態(tài)復(fù)雜網(wǎng)絡(luò)不斷演化的特性,那么這些分析是有局限的。隨著動態(tài) 復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)越來越豐富,許多學(xué)者開始將靜態(tài)網(wǎng)絡(luò)中的問題擴展到動態(tài)網(wǎng)絡(luò),并在動態(tài) 網(wǎng)絡(luò)上進行頻繁模式挖掘和聚類等研究。一些用于靜態(tài)網(wǎng)絡(luò)的方法也已經(jīng)被擴展到動態(tài)網(wǎng) 絡(luò)上,例如,Wackersreuther等人提出了一個用靜態(tài)圖上的圖挖掘技術(shù)來解決動態(tài)網(wǎng)絡(luò)中 的頻繁模式挖掘問題的框架,首先將動態(tài)網(wǎng)絡(luò)中多個時刻的數(shù)據(jù)整合為一個大圖,然后用 靜態(tài)網(wǎng)絡(luò)中的經(jīng)典方法在大圖上搜索頻繁子圖,最后用后綴樹從這些頻繁子圖中搜索動態(tài) 網(wǎng)絡(luò)的頻繁模式。Chakrabarti等人第一次提出了進化聚類的框架該框架在對每一個時 刻的網(wǎng)絡(luò)數(shù)據(jù)進行聚類時,既要求聚類結(jié)果符合當(dāng)前時刻的網(wǎng)絡(luò)拓?fù)涮卣鳎忠缶垲惤Y(jié) 果和前一時刻的聚類結(jié)果盡量保持一致。將兩個目標(biāo)結(jié)合起來,尋求一個最佳的平衡點,這 是符合動態(tài)復(fù)雜網(wǎng)絡(luò)是緩慢變化這一基本特征的。基于這一框架,學(xué)者們又提出了一些運用傳統(tǒng)的聚類算法來解決動態(tài)網(wǎng)絡(luò)聚類問題的策略。上述基于動態(tài)復(fù)雜網(wǎng)絡(luò)的頻繁模式挖掘和聚類分析方法能夠幫助我們理解復(fù)雜 系統(tǒng),然而,對動態(tài)復(fù)雜網(wǎng)絡(luò)的演化規(guī)則和保守子結(jié)構(gòu)的挖掘也具有重要的意義。這些演化 規(guī)則包括進化模式(evolving patterns)和進化系統(tǒng)的發(fā)展趨勢(Development trendof the evolving systems)等。Lahiri等人運用頻繁子圖和模式樹的方法來挖掘具有周期 性的模式。You和Cook運用圖重寫規(guī)則(graph-rewriting rules)來刻畫網(wǎng)絡(luò)隨時間的 變化情況,用描述規(guī)則(description rules)來表示在結(jié)構(gòu)變化中的時序模式(temporal patterns) 0本發(fā)明的方法要解決和他們相似的問題,但也存在不同(1)模式的定義不同。本發(fā)明中定義的模式更通用,Lahiri等人定義的模式是本 發(fā)明中定義的模式的特例。(2)考慮到了現(xiàn)實世界復(fù)雜系統(tǒng)的演化規(guī)律具有某種程度的不確定性,以及收集 到的網(wǎng)絡(luò)數(shù)據(jù)具有噪聲的特點,因此本發(fā)明還發(fā)現(xiàn)近似模式,更具有現(xiàn)實意義。(3)本發(fā)明中的方法還能夠在動態(tài)復(fù)雜網(wǎng)絡(luò)中搜索保守(conserved)子結(jié)構(gòu)。保 守子結(jié)構(gòu)是動態(tài)復(fù)雜網(wǎng)絡(luò)變化過程中比較穩(wěn)定的部分,在不同應(yīng)用中具有不同的含義。例 如蛋白質(zhì)相互作用網(wǎng)絡(luò)中的保守子結(jié)構(gòu)代表著具有一定功能的單元,科學(xué)家合作網(wǎng)絡(luò)中的 保守子結(jié)構(gòu)代表著比較穩(wěn)定的研究團體。(4)解決問題的方法完全不同。本發(fā)明中的方法避免了常規(guī)頻繁模式挖掘方法中 產(chǎn)生候選子集和子圖同構(gòu)的復(fù)雜計算,大大降低了方法的時間和空間復(fù)雜度,具有非常高 的效率,可以解決大規(guī)模動態(tài)復(fù)雜網(wǎng)絡(luò)中局部拓?fù)浣Y(jié)構(gòu)演化特征的分析問題。
發(fā)明內(nèi)容
鑒于上述分析,本發(fā)明定義了一種在動態(tài)復(fù)雜網(wǎng)絡(luò)中比較通用的模式,并提出了 一種用于挖掘該模式的方法,通過對這類模式進行挖掘,得到動態(tài)復(fù)雜網(wǎng)絡(luò)演化過程中的 局部變化特征,用來預(yù)測網(wǎng)絡(luò)的變化和發(fā)展趨勢。本發(fā)明的關(guān)鍵在于進化模式的定義。所謂進化模式,就是在動態(tài)復(fù)雜網(wǎng)絡(luò)演化過 程中頻繁出現(xiàn)的、具有一定出現(xiàn)規(guī)則的模式。本發(fā)明的主要技術(shù)問題是如何高效的完成規(guī)則邊(regular edge)的篩選和進化 模式的搜索。對動態(tài)復(fù)雜網(wǎng)絡(luò)中多個時刻的圖,在不丟失數(shù)據(jù)有效信息的前提下,構(gòu)造成總 和圖,把多個圖上的模式挖掘問題轉(zhuǎn)化到單個圖上,從而大大降低了方法的時間和空間復(fù) 雜度。運用一種策略來判斷并標(biāo)記在動態(tài)網(wǎng)絡(luò)變化過程中存在出現(xiàn)規(guī)則的邊,也就是規(guī)則 邊,得到由規(guī)則邊構(gòu)成的總和圖的一個子圖。在搜索進化模式時,僅對該子圖中的規(guī)則邊進 行,從而進一步降低了算法的計算復(fù)雜性。一、本發(fā)明的標(biāo)準(zhǔn)的進化模式挖掘方法的具體步驟表達如下第一步、輸入動態(tài)復(fù)雜網(wǎng)絡(luò)G = <G1;G2,…,GT>和閾值S,構(gòu)造總和圖Gs。給Gs中 的每一條邊e加上長度為T的“ 0” “1”字符串,作為e的標(biāo)簽,記為le,在標(biāo)簽的位置t,如 果字符為“0”,表示邊e在第t個圖中不出現(xiàn);如果字符為“1”,表示邊e在第t個圖中出 現(xiàn)。刪除不頻繁的邊,也就是邊標(biāo)簽中字符“1”的個數(shù)小于閾值S的邊。第二步、判斷并標(biāo)記規(guī)則邊,刪除無規(guī)則邊。對&中的每一條邊e,如果Ie的所有 字符全為“ 1 ”或者前t (用戶定義的數(shù)值)個字符全為“0”,則e為非規(guī)則邊,這里t = T/2
4或者t = 3T/4,當(dāng)然也可以根據(jù)先驗知識設(shè)置t的值。否則,假設(shè)規(guī)則r的長度為d,表示 為Ie (1. . d),取d等于2到T/2,比較r和剩下的T/d段字符串,如果每一段都和r相同,則 認(rèn)為e是規(guī)則邊,否則e為非規(guī)則邊。標(biāo)記規(guī)則邊,刪除非規(guī)則邊,得到僅包含規(guī)則邊的有 標(biāo)記圖G1。第三步、將規(guī)則邊的規(guī)則映射為權(quán)重,得到帶權(quán)圖。本發(fā)明中用二元組(d, rule)代表規(guī)則序列,其中d是規(guī)則的長度,rule是對應(yīng)的規(guī)則。假設(shè)一個標(biāo)簽字符串為 “001101001101001101”,則 rule 為 “001101”,d 為 6,用二元組(6, "001101")來表示。這 樣,就可以將二元組映射為一個6位整數(shù)。方法如下最高位為d,其它5位是規(guī)則的十進 制表示。(6,“001101”)被映射為整數(shù)600013。第四步、在第三步得到的帶權(quán)圖上搜索進化模式。搜索過程從任意一條規(guī)則邊開 始,搜索與其權(quán)重相等的鄰邊,得到一個具有相等權(quán)重的規(guī)則邊構(gòu)成的連通子圖,作為進化 模式。重復(fù)上述過程,直到所有規(guī)則邊都已經(jīng)訪問過,則得到了全部進化模式。通過以上步驟,就能夠以較小的時間和空間復(fù)雜度獲得動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模 式。二、本發(fā)明中方法的潛在應(yīng)用之一是預(yù)測動態(tài)復(fù)雜網(wǎng)絡(luò)的演化行為。由于動態(tài)復(fù) 雜網(wǎng)絡(luò)中的很多進化模式并非一定是在前幾個時刻就出現(xiàn)的。為了找到網(wǎng)絡(luò)變化過程中新 產(chǎn)生的進化模式,本發(fā)明擴展了標(biāo)準(zhǔn)的進化模式挖掘方法。在判斷一條邊是否為規(guī)則邊時, 忽略前導(dǎo)“0”,從標(biāo)簽的第一個“1”開始檢查出現(xiàn)規(guī)則。此外,由于演化規(guī)律具有某種不確 定性,而且存在噪聲,真實網(wǎng)絡(luò)中的進化模式并不完美,本發(fā)明引入了抖動(jitter)的概 念,在判斷一個邊是否為規(guī)則邊時,定義了一個閾值來限制抖動的范圍。例如邊e的標(biāo)簽Ie 為“0111001110111101”,若設(shè)定抖動的閾值為1,則可以判定e是一個具有規(guī)則“11101”的 規(guī)則邊。另一種情形是,一個子圖是進化模式,并不要求該子圖的所有邊都是規(guī)則邊。本發(fā) 明認(rèn)為,如果一個子圖是進化模式,則該子圖至少存在一條規(guī)則邊。為了搜索實際中的近似 模式,本發(fā)明擴展了標(biāo)準(zhǔn)的進化模式挖掘方法。具體步驟如下第一步、構(gòu)造總和圖,和標(biāo)準(zhǔn)的進化模式挖掘方法一致。第二步、判斷并標(biāo)記規(guī)則邊,但保留頻繁的非規(guī)則邊。第三步、將規(guī)則邊的規(guī)則映射為權(quán)重。第四步、搜索進化模式。隨機選擇一條未訪問過的規(guī)則邊,擴展該邊的鄰邊。如果 該鄰邊是規(guī)則邊,則比較它們的權(quán)重;否則,將該邊的標(biāo)簽中為“1”的位置與其鄰邊的對應(yīng) 位置進行比較,如果全為“1”,則將該鄰邊放入結(jié)果中,并將所有訪問過的規(guī)則邊記上已經(jīng) 訪問過的標(biāo)記。重復(fù)這樣的擴展,直到?jīng)]有新的鄰邊加進來。這樣,一個進化模式就形成了。 直到搜索完所有的規(guī)則邊,就得到了該動態(tài)復(fù)雜網(wǎng)絡(luò)的全部近似進化模式。三、保守子結(jié)構(gòu)是上述進化模式的特例,是指在動態(tài)復(fù)雜網(wǎng)絡(luò)的演化過程中一直 存在的連通子圖。對這種模式的挖掘,可以發(fā)現(xiàn)動態(tài)復(fù)雜網(wǎng)絡(luò)變化過程中非常穩(wěn)定的部分, 方便人們根據(jù)實際應(yīng)用,做出相關(guān)的分析和決策。本發(fā)明中保守子結(jié)構(gòu)挖掘方法的具體步 驟如下第一步、構(gòu)造總和圖,和標(biāo)準(zhǔn)的進化模式挖掘方法一致。第二步、刪除標(biāo)簽不全為“1”的邊。第三步、定義某種規(guī)則,從第二步得到的圖中搜索符合規(guī)則的連通子圖,即得到動態(tài)復(fù)雜網(wǎng)絡(luò)中的保守子結(jié)構(gòu)。優(yōu)點和積極效果使用本發(fā)明中的方法實現(xiàn)進化模式的挖掘具有如下優(yōu)點(1)本發(fā)明中的方法找到的進化模式具有更好的通用性。(2)本發(fā)明中的方法能夠發(fā)現(xiàn)近似模式,并且模式可以是在動態(tài)復(fù)雜網(wǎng)絡(luò)的發(fā)展 過程中出現(xiàn)的,而不一定要在第一個時刻就出現(xiàn),這樣的模式更符合現(xiàn)實世界事物的發(fā)展規(guī)律。(3)本發(fā)明中的方法能夠在動態(tài)復(fù)雜網(wǎng)絡(luò)中搜索保守子結(jié)構(gòu)。(4)本發(fā)明中的方法的效率非常高,適用于大規(guī)模動態(tài)復(fù)雜網(wǎng)絡(luò)中進化模式的挖 掘。
圖1是標(biāo)準(zhǔn)的進化模式挖掘方法的流程圖。圖2是擴展的進化模式挖掘方法的流程圖。圖2與圖1的主要區(qū)別是判斷一條邊是否為規(guī)則邊時,圖2中的方法首先去掉前 導(dǎo)“0”;對頻繁的非規(guī)則邊的處理不同,圖2中的方法保留非規(guī)則邊,圖1中的方法直接刪除 非規(guī)則邊;根據(jù)帶權(quán)圖搜索進化模式的方法不同,圖2中的方法根據(jù)權(quán)重和標(biāo)簽進行搜索, 圖1中的方法僅根據(jù)權(quán)重進行搜索。圖3是R)0tkill數(shù)據(jù)中規(guī)則為“1100”的進化模式。圖4是R)0tkill數(shù)據(jù)中規(guī)則為“0011”的進化模式。圖5是Enron E-mail數(shù)據(jù)中規(guī)則為“ 1111110”的近似進化模式。圖6是Enron E-mail數(shù)據(jù)中規(guī)則為“11110”的近似進化模式。圖7是DBLP合作網(wǎng)絡(luò)數(shù)據(jù)中具有4個節(jié)點的保守子結(jié)構(gòu)。
具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明做進一步說明。實施例1利用本發(fā)明中標(biāo)準(zhǔn)的進化模式挖掘方法完成i^ootkill數(shù)據(jù)的進化模式挖掘。 i^ootkill數(shù)據(jù)是美國大學(xué)生體育協(xié)會足球比賽的日程安排表,其中每個節(jié)點代表一支足球 隊,每條邊代表兩個足球隊之間有一場比賽。本發(fā)明中使用的是從2000年到2009年的數(shù) 據(jù),按年為單位,構(gòu)成具有10個時刻的動態(tài)網(wǎng)絡(luò)。利用標(biāo)準(zhǔn)的進化模式挖掘方法對i^ootkill數(shù)據(jù)進行模式挖掘的實施步驟如下 (工作流程見附圖1)第一步、輸入動態(tài)網(wǎng)絡(luò)G = <G1,G2,…,G10>,構(gòu)造總和圖Gs,給(is中的每一條邊 e加上標(biāo)簽,記為le。刪除不頻繁的邊,此時閾值S設(shè)為2。第二步、判斷并標(biāo)記規(guī)則邊,刪除非規(guī)則邊。對Gs中的每一條邊e,根據(jù)e的標(biāo)簽, 判斷e是否為規(guī)則邊。對規(guī)則邊,將其規(guī)則用二元組來保存;對非規(guī)則邊,直接從Gs中刪除。第三步、將規(guī)則邊的規(guī)則映射為權(quán)重。首先得到代表每條規(guī)則邊的規(guī)則序列的二 元組(d,rUle)。按標(biāo)準(zhǔn)的進化模式挖掘方法的映射規(guī)則,將每個二元組映射為整數(shù)權(quán)重。
第四步、在第三步得到的帶權(quán)圖上搜索進化模式。從任意一條規(guī)則邊開始擴展,例 如從科羅拉多州(Colorado)到得克薩斯州(Texas)的這條邊開始搜索,擴展與其權(quán)重相等 的邊,得到一個進化模式。直到全部規(guī)則邊都已經(jīng)被訪問過,就找到了 i^ootkill數(shù)據(jù)的全 部進化模式。通過以上步驟,就完成了對R)0tkill數(shù)據(jù)的標(biāo)準(zhǔn)進化模式挖掘。圖3展示的是一 個具有12個節(jié)點、16條邊、從第1個時刻開始、規(guī)則為“1100”的進化模式;圖4展示的是 一個具有12個節(jié)點、15條邊、從第1個時刻開始、規(guī)則為“0011”的進化模式。實施例2利用本發(fā)明中擴展的進化模式挖掘方法完成Enron E-mail數(shù)據(jù)的近似進化模式 挖掘。Enron E-mail數(shù)據(jù)是Enron公司內(nèi)部員工收發(fā)E-mail的記錄,兩個員工之間有過 E-mail聯(lián)系,則兩者直接存在一條邊。本發(fā)明中使用的是從1999年12月到2002年3月的 數(shù)據(jù),按月為單位,構(gòu)成具有觀個時刻的動態(tài)網(wǎng)絡(luò)。利用本發(fā)明完成Enron E-mail數(shù)據(jù)的近似進化模式挖掘的實施步驟如下(工作 流程見附圖2)第一步、輸入動態(tài)網(wǎng)絡(luò)G = <G1,G2,…,,構(gòu)造總和圖Gs,給(is中的每一條邊 e加上標(biāo)簽,記為le。刪除不頻繁的邊,此時閾值S設(shè)為2。第二步、判斷并標(biāo)記規(guī)則邊,同時保留非規(guī)則邊。在判斷一條邊是否為規(guī)則邊時, 去掉前導(dǎo)“0”,以發(fā)現(xiàn)在動態(tài)復(fù)雜網(wǎng)絡(luò)變化過程中新出現(xiàn)的模式。第三步、將規(guī)則邊的規(guī)則映射為權(quán)重。首先得到代表每條規(guī)則邊的規(guī)則序列的二 元組(d,rUle)。按著標(biāo)準(zhǔn)的進化模式挖掘方法中的映射規(guī)則,將每個二元組映射為整數(shù)權(quán)重。第四步、在第三步得到的帶權(quán)圖上搜索進化模式,此時令jitter等于1,以得到近 似的進化模式。通過以上步驟,就完成了對Enron-E-mail數(shù)據(jù)的近似進化模式挖掘。圖5展示的 是一個具有9個節(jié)點、8條邊、從第12個時刻開始、規(guī)則為“1111110”的進化模式;圖6展 示的是一個具有23個節(jié)點、22條邊、從第18個時刻開始、規(guī)則為“11110”的進化模式。這 兩個進化模式都是非常稀疏的,并且呈星形或類星形結(jié)構(gòu)。如果認(rèn)為這兩個模式分別是一 個小的工作組,可以推斷出兩個中心節(jié)點分別代表著各自工作組中的關(guān)鍵領(lǐng)導(dǎo),他們定期 和各自的組員進行溝通。這些信息能夠用來預(yù)測動態(tài)復(fù)雜網(wǎng)絡(luò)未來的行為和發(fā)展趨勢。實施例3利用本發(fā)明中方法完成DBLP合作網(wǎng)絡(luò)數(shù)據(jù)的保守子結(jié)構(gòu)挖掘。DBLP數(shù)據(jù)是計算 機科學(xué)領(lǐng)域的出版物的參考目錄信息,本發(fā)明從該數(shù)據(jù)中提取了 2000年到2009年間在數(shù) 據(jù)庫、數(shù)據(jù)挖掘和人工智能領(lǐng)域比較重要的觀個會議的論文的合作關(guān)系,按年為單位,構(gòu) 成具有10個時刻的動態(tài)網(wǎng)絡(luò),其中每個節(jié)點代表一位作者,每條邊代表兩個作者至少合作 發(fā)表過一篇論文。利用本發(fā)明完成DBLP合作網(wǎng)絡(luò)數(shù)據(jù)的保守子結(jié)構(gòu)的實施步驟如下第一步、輸入動態(tài)網(wǎng)絡(luò)G = <G1,G2,…,G10>,構(gòu)造總和圖Gs,給(is中的每一條邊 e加上標(biāo)簽,記為Ie。第二步、刪除標(biāo)簽不全為“1”的邊。
7
第三步、從第二步得到的圖中搜索連通子圖,即得到動態(tài)復(fù)雜網(wǎng)絡(luò)中的保守子結(jié) 構(gòu)。圖7展示的是一個具有4個節(jié)點、6條邊、從第1個時刻開始,一直保留到最后時刻 的一個保守子結(jié)構(gòu)。該完全子圖表示對應(yīng)的四位作者,從2000年到2009年間的每一年,任 意兩者之間都至少合作發(fā)表過一篇論文。實施例4本發(fā)明定義了幾種評價進化模式和動態(tài)網(wǎng)絡(luò)的標(biāo)準(zhǔn)。由于一個動態(tài)系統(tǒng)中不同的進化模式具有不同的重要性,本發(fā)明定義了進化模式 g 的強度(Strength)
權(quán)利要求
1.動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖掘方法,其特征在于,具體步驟如下(1)輸入動態(tài)復(fù)雜網(wǎng)絡(luò)G= W1A2,…,GT>和閾值S,構(gòu)造總和圖Gs ;給Gs中的每一條 邊e加上長度為T的“0” “1”字符串,作為e的標(biāo)簽,記為le,在標(biāo)簽的位置t,如果字符為 “0”,表示邊e在第t個圖中不出現(xiàn);如果字符為“1”,表示邊e在第t個圖中出現(xiàn)。刪除不 頻繁的邊,也就是邊標(biāo)簽中字符“1”的個數(shù)小于閾值S的邊;(2)判斷并標(biāo)記規(guī)則邊,刪除非規(guī)則邊;對Gs中的每一條邊e,如果Ie的所有字符全為 “1”或者前t個字符全為“0”,則e為非規(guī)則邊,這里t = T/2或者t = 3T/4,當(dāng)然也可以 根據(jù)先驗知識設(shè)置t的值。否則,假設(shè)規(guī)則r的長度為d,表示為I6 (1. . d),取d等于2到 T/2,比較r和剩下的T/d段字符串,如果每一段都和r相同,則認(rèn)為邊e是規(guī)則邊,否則e 為非規(guī)則邊;標(biāo)記規(guī)則邊,刪除非規(guī)則邊,得到僅包含規(guī)則邊的有標(biāo)記圖G1 ;(3)將規(guī)則邊的規(guī)則映射為權(quán)重,得到帶權(quán)圖;(4)在步驟C3)得到的帶權(quán)圖上搜索進化模式。
2.動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖掘方法,其特征在于,具體步驟如下(1)輸入動態(tài)復(fù)雜網(wǎng)絡(luò)G= W1A2,…,GT>和閾值S,構(gòu)造總和圖Gs ;給Gs中的每一條 邊e加上長度為T的“0” “1”字符串,作為e的標(biāo)簽,記為le,在標(biāo)簽的位置t,如果字符為 “0”,表示邊e在第t個圖中不出現(xiàn);如果字符為“1”,表示邊e在第t個圖中出現(xiàn)。刪除不 頻繁的邊,也就是邊標(biāo)簽中字符“1”的個數(shù)小于閾值S的邊;(2)判斷并標(biāo)記規(guī)則邊,但保留頻繁的非規(guī)則邊;(3)將規(guī)則邊的規(guī)則映射為權(quán)重;(4)搜索進化模式;隨機選擇一條未訪問過的規(guī)則邊,擴展該邊的鄰邊。如果該鄰邊是 規(guī)則邊,則比較它們的權(quán)重;否則,將該邊的標(biāo)簽中為“1”的位置與其鄰邊的對應(yīng)位置進行 比較,如果全為“1”,則將該鄰邊放入結(jié)果中,并將所有訪問過的規(guī)則邊記上已經(jīng)訪問過的 標(biāo)記。重復(fù)這樣的擴展,直到?jīng)]有新的鄰邊加進來。這樣,一個進化模式就形成了。直到搜 索完所有的規(guī)則邊,就得到了該動態(tài)復(fù)雜網(wǎng)絡(luò)所有的近似進化模式。
3.動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖掘方法,其特征在于,具體步驟如下(1)輸入動態(tài)復(fù)雜網(wǎng)絡(luò)G= W1A2,…,GT>和閾值S,構(gòu)造總和圖Gs ;給Gs中的每一條 邊e加上長度為T的“0” “1”字符串,作為e的標(biāo)簽,記為le,在標(biāo)簽的位置t,如果字符為 “0”,表示邊e在第t個圖中不出現(xiàn);如果字符為“1”,表示邊e在第t個圖中出現(xiàn);(2)刪除標(biāo)簽不全為“1”的邊;(3)定義某種規(guī)則,從第二步得到的圖中搜索符合規(guī)則的連通子圖,即得到動態(tài)復(fù)雜網(wǎng) 絡(luò)中的保守子結(jié)構(gòu)。
全文摘要
本發(fā)明公開了一種動態(tài)復(fù)雜網(wǎng)絡(luò)中的進化模式挖掘方法,用于解決大規(guī)模動態(tài)復(fù)雜網(wǎng)絡(luò)中局部拓?fù)浣Y(jié)構(gòu)演化特征的分析,方便用戶對復(fù)雜系統(tǒng)的行為和發(fā)展趨勢進行預(yù)測。本發(fā)明將動態(tài)復(fù)雜網(wǎng)絡(luò)中多個時刻的網(wǎng)絡(luò)數(shù)據(jù),在保留有用信息的前提下,構(gòu)造成邊上帶有標(biāo)簽的總和圖;在總和圖上,通過字符串匹配來搜索規(guī)則邊,并記錄每條規(guī)則;根據(jù)規(guī)則邊,構(gòu)造權(quán)重圖,完成進化模式的搜索。本發(fā)明中模式的定義具有通用性,可以處理噪聲數(shù)據(jù),發(fā)現(xiàn)近似模式和保守子結(jié)構(gòu);模式挖掘方法簡單靈活,避免了常規(guī)頻繁模式挖掘方法中產(chǎn)生候選子集和子圖同構(gòu)的復(fù)雜計算,具有非常高的效率。
文檔編號G06F17/30GK102148706SQ20111002774
公開日2011年8月10日 申請日期2011年1月26日 優(yōu)先權(quán)日2011年1月26日
發(fā)明者楊建業(yè), 熊站營, 覃桂敏, 高琳 申請人:西安電子科技大學(xué)