一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖挖掘技術(shù),特別地,涉及一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方 法。
【背景技術(shù)】
[0002] 不確定性在現(xiàn)實(shí)應(yīng)用中,無論是對(duì)內(nèi)源還是外源,都是一種固有的屬性。例如,在 一個(gè)合作社交網(wǎng)絡(luò)中,利用目前掌握的信息,我們未必能明確斷言比爾和馬修兩人具有很 好的合作關(guān)系,通常我們使用概率來衡量這種合作關(guān)系的可能性。假設(shè)這種關(guān)系存在的概 率為P,P的值由本領(lǐng)域?qū)<彝ㄟ^可用信息人工確定,或者由信息抽取或生成規(guī)則自動(dòng)產(chǎn) 生。在大數(shù)據(jù)時(shí)代的今天,對(duì)于管理不確定數(shù)據(jù)有更為強(qiáng)烈的需求,因此目前出現(xiàn)了各種質(zhì) 量不一的數(shù)據(jù)。特別地,我們專注于不確定圖,尤其是圖的邊上具有存在概率的不確定圖。 不確定圖模型具有廣泛的應(yīng)用領(lǐng)域,除了社會(huì)網(wǎng)絡(luò),不確定圖模型還被應(yīng)用于通信網(wǎng)絡(luò),無 線傳感器網(wǎng)絡(luò),蛋白質(zhì)交互網(wǎng)絡(luò)以及生物學(xué)中的調(diào)控網(wǎng)絡(luò)等。
[0003] 另一方面,頻繁模式挖掘作為數(shù)據(jù)挖掘領(lǐng)域高度關(guān)注的主題,一直持續(xù)了近十年, 相關(guān)研宄也取得了長(zhǎng)足的進(jìn)展,其中頻繁子圖引起了特別的研宄興趣。所謂頻繁子圖是指 從多個(gè)小確定圖的集合或者單個(gè)大確定圖中發(fā)現(xiàn)的支持度不小于用戶給定閾值的子圖。頻 繁子圖再刻畫確定圖的數(shù)據(jù)特征、分類、聚類以及建立索引方面具有重要作用。
[0004] 雖然目前對(duì)于頻繁子圖及其在確定圖上挖掘的方法已經(jīng)具有很好的理解,但在不 確定圖上,這一問題變得更加有趣但也更少被研宄。一個(gè)不確定圖時(shí)特殊的邊加權(quán)圖,其中 每條邊(u,v)上的權(quán)重是其存在的概率。最近,研宄工作致力于在多個(gè)小的不確定圖的圖 集上挖掘頻繁子圖。但是,該問題在單個(gè)大型不確定圖中雖然同等重要,因?yàn)楝F(xiàn)實(shí)生活中的 大型網(wǎng)絡(luò)越來越多地出現(xiàn)了不確定性一一比如,在社會(huì)網(wǎng)絡(luò)中一個(gè)人對(duì)另一個(gè)人的影響是 具有概率的;在生物網(wǎng)絡(luò)中的蛋白質(zhì)交互情況也有一定測(cè)量誤差一一但現(xiàn)有技術(shù)在本方面 是一片空白。
[0005] 針對(duì)現(xiàn)有技術(shù)中缺乏針對(duì)單個(gè)不確定圖的頻繁子圖挖掘技術(shù)方案的問題,目前尚 缺乏有效的解決方案。
【發(fā)明內(nèi)容】
[0006] 針對(duì)現(xiàn)有技術(shù)中缺乏針對(duì)單個(gè)不確定圖的頻繁子圖挖掘技術(shù)方案的問題,本發(fā)明 的目的在于提出一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,能允許針對(duì)單個(gè)不確定圖進(jìn) 行頻繁子圖挖掘,填補(bǔ)了本領(lǐng)域的技術(shù)空白。
[0007] 基于上述目的,本發(fā)明提供的技術(shù)方案如下:
[0008] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,包 括:
[0009] 獲取單個(gè)不確定圖;
[0010] 根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖;
[0011] 分別計(jì)算每個(gè)子圖在單個(gè)不確定圖上的期望支持度;
[0012] 根據(jù)每個(gè)子圖在單個(gè)不確定圖上的期望支持度判定該子圖是否為頻繁子圖;
[0013] 輸出所有頻繁子圖。
[0014] 其中,根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖包括:
[0015] 從單個(gè)不確定圖提取出多個(gè)蘊(yùn)含圖,每個(gè)蘊(yùn)含圖都是單個(gè)不確定圖可能的存在方 式;
[0016] 分別計(jì)算每個(gè)蘊(yùn)含圖所包含的所有子圖。
[0017] 并且,提取出多個(gè)蘊(yùn)含圖的個(gè)數(shù)為2的單個(gè)不確定圖中邊的個(gè)數(shù)次冪。
[0018] 并且,分別計(jì)算每個(gè)子圖在單個(gè)不確定圖上的期望支持度包括:
[0019] 根據(jù)單個(gè)不確定圖中每條邊的概率,計(jì)算出每個(gè)蘊(yùn)含圖的存在概率;
[0020] 指定單個(gè)不確定圖的所有子圖中的一個(gè);
[0021] 分別計(jì)算被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度;
[0022] 根據(jù)每個(gè)蘊(yùn)含圖的存在概率、被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度,計(jì)算被指 定的子圖在每個(gè)蘊(yùn)含圖上的期望支持度;
[0023] 繼續(xù)從單個(gè)不確定圖中指定下一個(gè)子圖并計(jì)算其在每個(gè)蘊(yùn)含圖上的期望支持度, 直到單個(gè)不確定圖的所有子圖都被指定;
[0024] 根據(jù)每個(gè)子圖在每個(gè)蘊(yùn)含圖上的期望支持度,計(jì)算每個(gè)子圖在單個(gè)不確定圖上的 期望支持度。
[0025] 并且,分別計(jì)算被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度,為使用最大獨(dú)立集法計(jì) 算被指定的子圖在每個(gè)蘊(yùn)含圖上的基于最小像的支持度。
[0026] 上述根據(jù)每個(gè)子圖的期望支持度判定該子圖是否為頻繁子圖包括:
[0027] 獲取期望支持度閾值;
[0028] 將期望支持度閾值分別與每個(gè)子圖在單個(gè)不確定圖上的期望支持度進(jìn)行對(duì)比;
[0029] 將所有子圖在單個(gè)不確定圖上的期望支持度大于期望支持度閾值的子圖判定為 頻繁子圖。
[0030] 從上面所述可以看出,本發(fā)明提供的技術(shù)方案通過將單個(gè)不確定圖劃分為多個(gè)蘊(yùn) 含的確定圖并將蘊(yùn)含圖視作確定圖計(jì)算子圖的期望支持度的手段,能在單個(gè)不確定圖上使 用頻繁子圖挖掘技術(shù),填補(bǔ)了本領(lǐng)域的技術(shù)空白。
【附圖說明】
[0031] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所 需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
[0032] 圖1為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法的流程 圖;
[0033] 圖2為根據(jù)本發(fā)明實(shí)施例的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法中,單個(gè) 不確定圖、確定圖與子圖的一個(gè)實(shí)施例。
【具體實(shí)施方式】
[0034] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面將結(jié)合本發(fā)明實(shí)施例中 的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)一步進(jìn)行清楚、完整、詳細(xì)地描述,顯然,所描述的 實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域 普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0035] 一個(gè)確定圖G是一個(gè)元組(Ve,Ee,le,2e),其中,是節(jié)點(diǎn)集合,
【主權(quán)項(xiàng)】
1. 一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,其特征在于,包括: 獲取單個(gè)不確定圖; 根據(jù)所述單個(gè)不確定圖枚舉出所述單個(gè)不確定圖的所有子圖; 分別計(jì)算所述每個(gè)子圖在所述單個(gè)不確定圖上的期望支持度; 根據(jù)所述每個(gè)子圖在所述單個(gè)不確定圖上的期望支持度判定該子圖是否為頻繁子 圖; 輸出所有頻繁子圖。
2. 根據(jù)權(quán)利要求1所述的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,其特征在于, 根據(jù)所述單個(gè)不確定圖枚舉出所述單個(gè)不確定圖的所有子圖包括: 從所述單個(gè)不確定圖提取出多個(gè)蘊(yùn)含圖,所述每個(gè)蘊(yùn)含圖都是所述單個(gè)不確定圖可能 的存在方式; 分別計(jì)算所述每個(gè)蘊(yùn)含圖所包含的所有子圖。
3. 根據(jù)權(quán)利要求2所述的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,其特征在于, 所述提取出多個(gè)蘊(yùn)含圖的個(gè)數(shù)為2的所述單個(gè)不確定圖中邊的個(gè)數(shù)次冪。
4. 根據(jù)權(quán)利要求3所述的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,其特征在于, 分別計(jì)算所述每個(gè)子圖在所述單個(gè)不確定圖上的期望支持度包括: 根據(jù)所述單個(gè)不確定圖中每條邊的概率,計(jì)算出所述每個(gè)蘊(yùn)含圖的存在概率; 指定所述單個(gè)不確定圖的所有子圖中的一個(gè); 分別計(jì)算所述被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度; 根據(jù)所述每個(gè)蘊(yùn)含圖的存在概率、所述被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度,計(jì)算 所述被指定的子圖在每個(gè)蘊(yùn)含圖上的期望支持度; 繼續(xù)從所述單個(gè)不確定圖中指定下一個(gè)子圖并計(jì)算其在每個(gè)蘊(yùn)含圖上的期望支持度, 直到所述單個(gè)不確定圖的所有子圖都被指定; 根據(jù)所述每個(gè)子圖在每個(gè)蘊(yùn)含圖上的期望支持度,計(jì)算所述每個(gè)子圖在所述單個(gè)不確 定圖上的期望支持度。
5. 根據(jù)權(quán)利要求4所述的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,其特征在于, 分別計(jì)算所述被指定的子圖在每個(gè)蘊(yùn)含圖上的支持度,為使用最大獨(dú)立集法計(jì)算所述被指 定的子圖在每個(gè)蘊(yùn)含圖上的基于最小像的支持度。
6. 根據(jù)權(quán)利要求1-5中任意一項(xiàng)所述的一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法, 其特征在于,根據(jù)所述每個(gè)子圖的期望支持度判定該子圖是否為頻繁子圖包括: 獲取期望支持度閾值; 將所述期望支持度閾值分別與所述每個(gè)子圖在所述單個(gè)不確定圖上的期望支持度進(jìn) 行對(duì)比; 將所有所述子圖在所述單個(gè)不確定圖上的期望支持度大于所述期望支持度閾值的子 圖判定為頻繁子圖。
【專利摘要】本發(fā)明公開了一種針對(duì)單個(gè)不確定圖的頻繁子圖挖掘方法,包括:獲取單個(gè)不確定圖;根據(jù)單個(gè)不確定圖枚舉出單個(gè)不確定圖的所有子圖;分別計(jì)算每個(gè)子圖在單個(gè)不確定圖上的期望支持度;根據(jù)每個(gè)子圖在單個(gè)不確定圖上的期望支持度判定該子圖是否為頻繁子圖;輸出所有頻繁子圖。本發(fā)明通過將單個(gè)不確定圖劃分為多個(gè)蘊(yùn)含的確定圖并將蘊(yùn)含圖視作確定圖計(jì)算子圖的期望支持度的手段,能在單個(gè)不確定圖上使用頻繁子圖挖掘技術(shù),填補(bǔ)了本領(lǐng)域的技術(shù)空白。
【IPC分類】G06F17-30
【公開號(hào)】CN104850646
【申請(qǐng)?zhí)枴緾N201510282848
【發(fā)明人】陳一帆, 趙翔, 葛斌, 肖衛(wèi)東
【申請(qǐng)人】中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)
【公開日】2015年8月19日
【申請(qǐng)日】2015年5月28日