基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及遺傳算法技術(shù)領(lǐng)域,尤其涉及一種基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘 方法。
【背景技術(shù)】
[0002] 隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的快速發(fā)展,知識(shí)經(jīng)濟(jì)的挑戰(zhàn)和全球信息化的趨勢,信息資源 的共享和協(xié)同已成為時(shí)代的主旋律。而對(duì)于海量異構(gòu)式的數(shù)據(jù)信息資源,對(duì)其進(jìn)行必要的 挖掘和相應(yīng)的分析處理,對(duì)其規(guī)律和潛在的聯(lián)系進(jìn)行挖掘,為用戶提供有價(jià)值的信息,以此 指導(dǎo)其做出相應(yīng)的技術(shù)決策和經(jīng)營管理。而海量的數(shù)據(jù)積累到一定程度時(shí),普通的窮舉搜 索算法顯然已經(jīng)不能滿足需求,不僅效率低,而且搜索的信息也不一定具有多少價(jià)值,對(duì)數(shù) 據(jù)挖掘的效果不是那么有效和明顯。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題在于,提供一種基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘方 法,提高了挖掘的效率和有效性。
[0004] 為了解決上述技術(shù)問題,本發(fā)明提供了一種基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘方 法,包括:
[0005] 步驟1 :根據(jù)經(jīng)預(yù)處理的樣本數(shù)據(jù)隨機(jī)生成初始群體;
[0006] 步驟2 :對(duì)初始群體中的個(gè)體進(jìn)行編碼,根據(jù)用戶需求確定屬性數(shù)據(jù)參數(shù)以及設(shè) 定屬性閥值;
[0007] 步驟3 :計(jì)算個(gè)體的適應(yīng)度和濃度;
[0008] 步驟4 :根據(jù)個(gè)體的適應(yīng)度和濃度計(jì)算個(gè)體的選擇概率,根據(jù)選擇概率對(duì)個(gè)體進(jìn) 行選擇,若個(gè)體滿足條件:沒有小于用戶設(shè)定的最小置信度和興趣度閥值,則停止計(jì)算,執(zhí) 行步驟11 ;若不滿足則執(zhí)行步驟5 ;
[0009] 步驟5 :去除適應(yīng)度和濃度低于閾值的個(gè)體;
[0010] 步驟6 :保留復(fù)制中、適應(yīng)度高于閾值和濃度值高于閾值的個(gè)體到交配池;
[0011] 步驟7 :隨機(jī)從交配池中選擇兩個(gè)個(gè)體,隨機(jī)選取交叉概率對(duì)選擇的兩個(gè)個(gè)體進(jìn) 行交叉操作,生成新個(gè)體;
[0012] 步驟8 :判斷新個(gè)體和父個(gè)體適應(yīng)度和濃度的大?。蝗粜∮诟競€(gè)體,則保留父個(gè)體 執(zhí)行步驟10 ;反之,則執(zhí)行步驟9 ;
[0013] 步驟9 :基于Metropolis準(zhǔn)則,以接收概率接收新個(gè)體;
[0014] 步驟10 :隨機(jī)選擇變異概率進(jìn)行變異操作,生成新個(gè)體,返回執(zhí)行步驟3 ;
[0015] 步驟11 :將滿足條件的個(gè)體作為解輸入到優(yōu)化器中,根據(jù)置信度和興趣度進(jìn)行關(guān) 聯(lián)規(guī)則提??;
[0016] 步驟12 :對(duì)提取的關(guān)聯(lián)規(guī)則進(jìn)行解碼,即為挖掘后得到關(guān)聯(lián)規(guī)則。
[0017] 進(jìn)一步的,所述步驟1中預(yù)處理的具體過程包括:
[0018] 對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)選樣;
[0019] 將數(shù)據(jù)選樣得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,其中,所述數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)聚類、分類以 及維規(guī)約技術(shù)處理;
[0020] 對(duì)數(shù)據(jù)轉(zhuǎn)換后得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗操作;
[0021] 對(duì)數(shù)據(jù)清洗早作后得到的樣本數(shù)據(jù)進(jìn)行無量綱化處理定量屬性數(shù)據(jù),然后基于模 糊隸屬度法,將樣本數(shù)據(jù)進(jìn)行模糊處理,然后再將處理后的屬性值劃分不同的重要等級(jí);
[0022] 建立數(shù)據(jù)虛擬倉庫,存儲(chǔ)模糊處理后的樣本數(shù)據(jù),并劃分為基礎(chǔ)數(shù)據(jù)、目標(biāo)數(shù)據(jù)和 細(xì)節(jié)數(shù)據(jù),其中,基礎(chǔ)數(shù)據(jù)D= {山,d2,d3, . . .,dk,. . .,dj為事務(wù)數(shù)據(jù)倉庫,目標(biāo)數(shù)據(jù)dk = {p!,p2, · · ·,Pi, · · ·,pj,dk(k= 1,2, · · ·,t)為事務(wù),細(xì)節(jié)數(shù)據(jù)Pi(1 = 1,2, · · ·,W)為項(xiàng)目。
[0023] 實(shí)施本發(fā)明,具有如下有益效果:本發(fā)明是一種基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖 掘方法,不僅去除了樣本數(shù)據(jù)中的噪聲、干擾因素以及不相關(guān)的屬性等,還可以提高數(shù)據(jù)全 局搜索的能力,還能較好的處理各屬性間的相互關(guān)系,實(shí)現(xiàn)快速有效的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘 過程,提高了挖掘的效率和有效性。
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0025] 圖1是本發(fā)明實(shí)施例提供的基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法的一個(gè)實(shí)施 例的流程示意圖。
【具體實(shí)施方式】
[0026] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0027] 圖1是本發(fā)明實(shí)施例提供的基于改進(jìn)遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法的一個(gè)實(shí)施 例的流程示意圖,如圖1所示,包括:
[0028] 步驟1 :根據(jù)經(jīng)預(yù)處理的樣本數(shù)據(jù)隨機(jī)生成初始群體。
[0029] 其中,預(yù)處理的具體過程包括:
[0030] 對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)選樣;
[0031 ] 將數(shù)據(jù)選樣得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,其中,所述數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)聚類、分類以 及維規(guī)約技術(shù)處理;
[0032] 對(duì)數(shù)據(jù)轉(zhuǎn)換后得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗操作;
[0033] 對(duì)數(shù)據(jù)清洗早作后得到的樣本數(shù)據(jù)進(jìn)行無量綱化處理定量屬性數(shù)據(jù),然后基于模 糊隸屬度法,將樣本數(shù)據(jù)進(jìn)行模糊處理,然后再將處理后的屬性值劃分不同的重要等級(jí);
[0034] 建立數(shù)據(jù)虛擬倉庫,存儲(chǔ)模糊處理后的樣本數(shù)據(jù),并劃分為基礎(chǔ)數(shù)據(jù)、目標(biāo)數(shù)據(jù)和 細(xì)節(jié)數(shù)據(jù),其中,基礎(chǔ)數(shù)據(jù)D= {山,d2,d3, . . .,dk,. . .,dj為事務(wù)數(shù)據(jù)倉庫,目標(biāo)數(shù)據(jù)dk = {p!,p2, · · ·,Pi,· · ·,pj,dk(k= 1,2, · · ·,t)為事務(wù),細(xì)節(jié)數(shù)據(jù)Pi(1 = 1,2, · · ·,W)為項(xiàng)目。
[0035] 步驟2 :對(duì)初始群體中的個(gè)體進(jìn)行編碼,根據(jù)用戶需求確定屬性數(shù)據(jù)參數(shù)以及設(shè) 定屬性閥值。
[0036] 其中,所述的編碼方法采用實(shí)數(shù)數(shù)組編碼方法。
[0037] 步驟3 :計(jì)算個(gè)體的適應(yīng)度和濃度。
[0038] 其中,個(gè)體的適應(yīng)度和濃度的計(jì)算過程分別為:
[0039] 個(gè)體的適應(yīng)度為函數(shù)
?中,s(x)表示一個(gè)個(gè)體關(guān)聯(lián)規(guī)則的支持 度,值越大,關(guān)系規(guī)則就越重要,s_表示設(shè)定的最小言持麼.縣一個(gè)丨種值;
[0040] 個(gè)體的濃殘
>體的濃度概率
式中,Μ為群體規(guī)模, &表示具有相同屬性的第j類數(shù)目,η為具有相同屬性的類數(shù)。
[0041] 步驟4:根據(jù)個(gè)體的適應(yīng)度和濃度計(jì)算個(gè)體的選擇概率,根據(jù)選擇概率對(duì)個(gè)體進(jìn) 行選擇,若個(gè)體滿足條件:沒有小于用戶設(shè)定的最小置信度和興趣度閥值,則停止計(jì)算,執(zhí) 行步驟11;若不滿足則執(zhí)行步驟5。
[0042] 其中,個(gè)體的選擇概率為:
[0043]
式中,f (C為個(gè)體C。的適應(yīng)度值;α 為選擇權(quán)重系數(shù)。
[0044] 步驟5 :去除適應(yīng)度和濃度低于閾值的個(gè)體。
[0045] 步驟6 :保留復(fù)制中、適應(yīng)度高于閾值和濃度值高于閾值的個(gè)體到交配池。