專利名稱:一種基于半監(jiān)督學(xué)習(xí)的ga-som聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于半監(jiān)督學(xué)習(xí)的GA-SOM聚類方法,涉及數(shù)據(jù)挖掘、模式識 別、網(wǎng)頁分類、入侵檢測、業(yè)務(wù)識別等相關(guān)領(lǐng)域。
背景技術(shù):
隨著信息技術(shù)不斷發(fā)展,當(dāng)前網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,網(wǎng)絡(luò)信息量龐大,對網(wǎng)絡(luò)的規(guī)劃 管理刻不容緩。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)并不是偶然,它是信息時代的產(chǎn)物,它能充分挖掘 網(wǎng)絡(luò)數(shù)據(jù)中隱藏的未知數(shù)據(jù),幫助管理者做出有價值的決策。數(shù)據(jù)挖掘產(chǎn)生于90年代, 涉及范圍較廣,聚類分析是其中的熱點(diǎn)研究之一。聚類就是將樣本對象分成多個類或 簇,同一類樣本具有較高相似度,不同類樣本相似度較差。聚類是無監(jiān)督的、無人指導(dǎo) 的,類別的產(chǎn)生是隨機(jī)的不可預(yù)知的。一些經(jīng)典的聚類算法包括K-means、CURE、 G-HAC> SOM等。SOM作為其中之一,在WEB文檔分類上有其優(yōu)越性。
自組織映射 Melf-Organization Map, SOM)是由芬蘭人 Kohonen 于 I982 年提 出,SOM來源于對生物神經(jīng)元的啟發(fā)。在生物中,自組織現(xiàn)象表現(xiàn)為不同區(qū)域的神經(jīng)元 具有不同的能力,這種能力來源于后天的學(xué)習(xí)。在SOM學(xué)習(xí)過程中,不同的樣本空間 產(chǎn)生的聚類也不同,因?yàn)樽越M織的過程是一種無指導(dǎo)的學(xué)習(xí),它受樣本類別約束較大。 SOM采用神經(jīng)元競爭方式,在不改變競爭層(輸出節(jié)點(diǎn))拓?fù)涮匦栽瓌t下,將任意維數(shù) 的輸入信號轉(zhuǎn)變?yōu)橐痪S或二維的離散映射。SOM的這些特性使其在聚類問題上表現(xiàn)卓 越,但類別的產(chǎn)生具有較大盲目性。發(fā)明內(nèi)容
發(fā)明目的
本發(fā)明的所要解決的技術(shù)問題是針對上述背景技術(shù)的缺陷,提供一種基于半監(jiān) 督學(xué)習(xí)的GA-SOM聚類方法,立足于原SOM理論,重點(diǎn)解決初始樣本的選取及神經(jīng)元 競爭方式的改善,進(jìn)一步提高SOM網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的泛化能力。用來解決當(dāng)前在業(yè)務(wù) 識別、網(wǎng)頁分類等相關(guān)領(lǐng)域中遇到的問題。
技術(shù)方案
本發(fā)明為實(shí)現(xiàn)上述發(fā)明目的采用如下技術(shù)方案
一種基于半監(jiān)督學(xué)習(xí)的GA-SOM聚類方法,包括如下步驟
步驟1),對樣本數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理過程包括空值處理、歸一化數(shù) 據(jù);
步驟幻,采用半監(jiān)督學(xué)習(xí)策略對預(yù)處理后的樣本數(shù)據(jù)進(jìn)行初始化,具體步驟 為
2)-A,根據(jù)歷史數(shù)據(jù)及專家?guī)扈b定,去除樣本中冗余信息,設(shè)樣本X= (X1, X2,…,X' J,其中m為樣本總數(shù),經(jīng)由專家?guī)旒皻v史數(shù)據(jù)產(chǎn)生一個關(guān)鍵數(shù)據(jù)比例權(quán)值 β,β ∈ (0,1),所述關(guān)鍵數(shù)據(jù)由專家?guī)旒皻v史數(shù)據(jù)對樣本數(shù)據(jù)進(jìn)行查詢匹配得出,該數(shù)據(jù)代表某種類別,β即為關(guān)鍵數(shù)據(jù)占總數(shù)據(jù)的比例;
2)-Β、初始化t = 0,t是指循環(huán)次數(shù);
2)_C、對樣本數(shù)據(jù)按照從小至大的順序進(jìn)行標(biāo)記,標(biāo)記數(shù)為Numtag = ιηβ + σ ,其中 σ e {1,2,…,m-ιηβ };
2)-D,采用SOM網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)樣本訓(xùn)練;
2)-E,令 t = t+Ι,返回執(zhí)行 2)-C 步驟;
2)_F、當(dāng)滿足條件Numtag = m時,訓(xùn)練結(jié)束,樣本數(shù)據(jù)初始化完成;
步驟3),確定網(wǎng)絡(luò)輸入模式令X1= (Xl,x2,…,xn),其中i表示第i個樣 本,η為輸入層節(jié)點(diǎn)數(shù),即為樣本總數(shù);
步驟4),根據(jù)以下公式計算輸入模式X1與所有輸出節(jié)點(diǎn)間權(quán)向量的歐式距離η]/Α,;=(Σ(4-%)2)/2 。其中,η表示輸入層節(jié)點(diǎn)數(shù)、y表示輸出層節(jié)點(diǎn)4=1,7'e {1,2,...,;;};數(shù)、i表示輸入節(jié)點(diǎn)、j表示輸出節(jié)點(diǎn),Wu表示輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的連接權(quán)值,4 表示第i個輸入節(jié)點(diǎn)下的第k個樣本,n、y、i、j、k均為正整數(shù);
步驟5),取最小歐式距離作為獲勝節(jié)點(diǎn)C ;
步驟6),計算獲勝節(jié)點(diǎn)C的適應(yīng)度值,選出具有最小聚類中心的最大節(jié)點(diǎn)權(quán)值 Wmax,進(jìn)而更新獲勝節(jié)點(diǎn)c的權(quán)值;其中Wmax = dmin(C,,Cr ),即計算C1,、Cr這兩 個類的聚類中心距離,距離最小適應(yīng)度最好;具體步驟為
參數(shù)定義用Y表示獲勝節(jié)點(diǎn)C的所有樣本空間,’表示不同的特征元,即Y ={y, |i' =1,...m' },m'為獲勝節(jié)點(diǎn)c的樣本總數(shù),過程如下
6)_a步,另t' =0,t'指循環(huán)次數(shù),根據(jù)步驟幻所述的步驟初始化特征子 集
G(t' ) = {y1 y2,…,yn, };
6)_b步,根據(jù)適應(yīng)值函數(shù)評價特征元;所述適應(yīng)值函數(shù)采用優(yōu)化問題的目標(biāo)函 數(shù)選取,即^^=^<^’,<::/)、^^(;>(巧,/5/)唭中(^、 ,表示兩個不同聚類,4、&表示個體被選中的概率,Wmax表示最大權(quán)值,dmn表示與Wmax對應(yīng)的最小聚集中心;
6)-C步,進(jìn)化體系,具體步驟為
6)-C-I,初始化計數(shù)器Γ =1,判斷i'是否小于m',當(dāng)Γ小于m',進(jìn)入下一步;否則終止迭代進(jìn)入步驟7);
6)-c-2,母體選擇通過該個體的適應(yīng)度與群體其他成員的適應(yīng)度比值進(jìn)行選Piv ι=f^y^/·擇,個體被選中的概率P1,與它的適應(yīng)度比值成正比,
權(quán)利要求
1. 一種基于半監(jiān)督學(xué)習(xí)的GA-SOM聚類方法,其特征在于,包括如下步驟 步驟1),對樣本數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理過程包括空值處理、歸一化數(shù)據(jù); 步驟2),采用半監(jiān)督學(xué)習(xí)策略對預(yù)處理后的樣本數(shù)據(jù)進(jìn)行初始化,具體步驟為 2)-A,根據(jù)歷史數(shù)據(jù)及專家?guī)扈b定,去除樣本中冗余信息,設(shè)樣本X=Oc1, x2,…,xj,其中m為樣本總數(shù),經(jīng)由專家?guī)旒皻v史數(shù)據(jù)產(chǎn)生一個關(guān)鍵數(shù)據(jù)比例權(quán)值 β,β e (0,1),所述關(guān)鍵數(shù)據(jù)由專家?guī)旒皻v史數(shù)據(jù)對樣本數(shù)據(jù)進(jìn)行查詢匹配得出,該 數(shù)據(jù)代表某種類別,β即為關(guān)鍵數(shù)據(jù)占總數(shù)據(jù)的比例; 2) -B、初始化t = 0,t是指循環(huán)次數(shù);2)-C、對樣本數(shù)據(jù)按照從小至大的順序進(jìn)行標(biāo)記,標(biāo)記數(shù)為Numtag = ιηβ + σ,其 中 σ G {1,2,…,m-ιηβ };2)-D,采用SOM網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)樣本訓(xùn)練; 2)-E,令t = t+l,返回執(zhí)行2)-C步驟;2)-F、當(dāng)滿足條件Numtag = m時,訓(xùn)練結(jié)束,樣本數(shù)據(jù)初始化完成; 步驟3),確定網(wǎng)絡(luò)輸入模式令X1= (xi; x2,…,xn),其中i表示第i個樣本,η 為輸入層節(jié)點(diǎn)數(shù),即為樣本總數(shù);步驟4),根據(jù)以下公式計算輸入模式&與所有輸出節(jié)點(diǎn)間權(quán)向量的歐式距離ηW υ=(ΣΚ)/2 (。、其中,η表示輸入層節(jié)點(diǎn)數(shù)、y表示輸出層節(jié)點(diǎn)數(shù)、i表示輸入節(jié)點(diǎn)、j表示輸出節(jié)點(diǎn),w,表示輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的連接權(quán)值,4 表示第i個輸入節(jié)點(diǎn)下的第k個樣本,n、y、i、j、k均為正整數(shù); 步驟5),取最小歐式距離作為獲勝節(jié)點(diǎn)c ;步驟6),計算獲勝節(jié)點(diǎn)c的適應(yīng)度值,選出具有最小聚類中心的最大節(jié)點(diǎn)權(quán)值 Wmax,進(jìn)而更新獲勝節(jié)點(diǎn)c的權(quán)值;其中Wmax = dmin(C,,Cr ),即計算C1,、Cr這兩 個類的聚類中心距離,距離最小適應(yīng)度最好;具體步驟為參數(shù)定義用Y表示獲勝節(jié)點(diǎn)c的所有樣本空間,&表示不同的特征元,即Y = {y, |i' =1,...m' },m'為獲勝節(jié)點(diǎn)c的樣本總數(shù),過程如下6)-a步,另t' =0,t'指循環(huán)次數(shù),根據(jù)步驟2)所述的步驟初始化特征子集 G(t' ) = {y1; y2, yn, };6)_b步,根據(jù)適應(yīng)值函數(shù)評價特征元;所述適應(yīng)值函數(shù)采用優(yōu)化問題的目標(biāo)函數(shù)選取,即^^^&^^ ^^^⑷,盡^其中仏、 ,表示兩個不同聚類,&、Pr表示個體被選中的概率,Wmax表示最大權(quán)值,dmm表示與Wmax對應(yīng)的最小聚集中心; 6)_c步,進(jìn)化體系,具體步驟為6)-C-I,初始化計數(shù)器i' =1,判斷Γ是否小于m',當(dāng)i'小于m',進(jìn)入下一 步;否則終止迭代進(jìn)入步驟7);6)-c-2,母體選擇通過該個體的適應(yīng)度與群體其他成員的適應(yīng)度比值進(jìn)行選擇,Pfv ) =個體被選中的概率P1,與它的適應(yīng)度比值成正比,"Μ / YZef(yk.) ■‘其中)為介的適應(yīng)度值,group_Size表示種群大小;yk,與&均表示獲勝節(jié)點(diǎn)c某個子代 個體;6)-c-3,母體經(jīng)過交叉產(chǎn)生η'個中間個體(O1, O2,…,On, ) ; η'為正整數(shù); 6)-c-4, η'個中間個體(O1, O2,…,On,)經(jīng)過變異產(chǎn)生η'個全新的子代,即特 征子集;6_d步,將新產(chǎn)生的子代加入G(t'),并計算適應(yīng)度值;6-e步,選出適應(yīng)度從高至低的m'個個體,作為下一次的訓(xùn)練樣本,即 G(t' )—G(t' +1),并轉(zhuǎn)至 6-b 步驟;6-f步,當(dāng)6-e步的迭代次數(shù)超過樣本總數(shù)m'的2倍時終止迭代;步驟7),確定獲勝節(jié)點(diǎn)c的鄰域范圍Ne,Ne取高斯函數(shù)表示,根據(jù)以下公式調(diào)整獲勝節(jié)點(diǎn)。的權(quán)向量I =沖'XO^-MVy,);其中,表示權(quán)值的調(diào)整大小,ε (t')隨時間t'呈衰減趨勢;W1, ^表示獲勝節(jié)點(diǎn)C與輸入節(jié)點(diǎn)之間的連接權(quán)值,<表 示獲勝節(jié)點(diǎn)c的第i'個輸入節(jié)點(diǎn)下的第k'個樣本;以上i'、j'、k'均為正整數(shù);步驟8),判斷ε (t')是否為O或迭代達(dá)到指定的最大次數(shù),當(dāng)結(jié)果為是,訓(xùn)練結(jié) 束,分類不再改變,聚類過程終止;否則轉(zhuǎn)至步驟3),繼續(xù)執(zhí)行。
全文摘要
本發(fā)明提供一種基于半監(jiān)督學(xué)習(xí)的GA-SOM聚類方法,該方法在自組織特征映射(Self-Organization Map,SOM)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合半監(jiān)督學(xué)習(xí)方式,并利用遺傳算法(GeneticAlgorithm,GA)優(yōu)化,彌補(bǔ)了SOM網(wǎng)絡(luò)存在的弊端。該聚類方法主要分為三個部分(1)半監(jiān)督學(xué)習(xí)模塊,負(fù)責(zé)初始化訓(xùn)練樣本;(2)GA模塊,負(fù)責(zé)訓(xùn)練過程的參數(shù)優(yōu)化;(3)SOM模塊,作為訓(xùn)練機(jī)進(jìn)行樣本聚類。該方法在分類問題上具有良好靈活性和擴(kuò)展性,能夠完成大量未知樣本的特征聚類,并提高了原SOM網(wǎng)絡(luò)的學(xué)習(xí)速度和分類精度,且聚類學(xué)習(xí)過程不容易發(fā)生振蕩。
文檔編號G06N3/12GK102024179SQ20101057619
公開日2011年4月20日 申請日期2010年12月7日 優(yōu)先權(quán)日2010年12月7日
發(fā)明者亓?xí)x, 孫雁飛, 張順頤, 朱偉春, 王攀, 顧成杰 申請人:南京郵電大學(xué)