基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)聚類技術(shù)領(lǐng)域,具體涉及一種基于密度搜索與快速劃分的混合數(shù) 據(jù)聚類方法。
【背景技術(shù)】
[0002] 隨著通信技術(shù)和硬件設(shè)備的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)在實時監(jiān)控系統(tǒng)、氣象衛(wèi)星 遙感、網(wǎng)絡(luò)通信量監(jiān)測等方面有著巨大應(yīng)用前景,針對數(shù)據(jù)快速連續(xù)到達(dá)、持續(xù)增長的特 點,傳統(tǒng)聚類算法無法適用于數(shù)據(jù)對象,數(shù)據(jù)對聚類算法提出了如下新的要求對自然 簇個數(shù)無須假設(shè);2.能夠發(fā)現(xiàn)任意形狀的簇;3.具有處理離群點的能力。而且面對現(xiàn)實中 的大部分?jǐn)?shù)據(jù)都是混合屬性數(shù)據(jù),其中既包含了數(shù)值屬性數(shù)據(jù)和分類屬性數(shù)據(jù),如何有效 的從這種混合屬性的數(shù)據(jù)中挖掘出具有價值的信息已顯得尤為重要。
[0003] 近年來數(shù)據(jù)聚類研宄工作廣泛展開,但現(xiàn)有的數(shù)據(jù)聚類算法大部分局限于處理只 具有數(shù)值屬性的數(shù)據(jù),另外有少量算法局限于處理只有分類屬性的數(shù)據(jù),針對混合屬性數(shù) 據(jù)的算法較少。Aggarwal等人提出了進(jìn)化數(shù)據(jù)聚類框架CluStream,該算法首次采用了兩 階段處理框架:在線的微聚類和離線的宏聚類。在線階段算法提出了微簇結(jié)構(gòu),不斷對到達(dá) 的數(shù)據(jù)點進(jìn)行維護(hù),生成概要信息。離線階段算法負(fù)責(zé)相應(yīng)的用戶請求,根據(jù)概要數(shù)據(jù)生成 最終聚類結(jié)果。但是CluStream算法也存在一些缺點:首先該算法不能處理任意形狀的簇; 其次對于噪聲的適應(yīng)性較差;最后需要人為指定聚類微簇的數(shù)量,嚴(yán)重影響了原始數(shù)據(jù)聚 類的形狀分布。曹峰等人提出了Den-Stream算法,該算法沿用了CluStream的兩階段處理 框架,并將微簇分為潛在核心微簇和孤立點微簇結(jié)構(gòu),能夠支持任意形狀的聚類。但是由于 Den-Stream算法采用全局一致的絕對密度作為參數(shù),所以使得聚類結(jié)果對參數(shù)的選擇非常 敏感。針對Den-Stream算法問題,MuhammedZR等人提出了HECES算法,采用橢球型聚類 集群,能夠處理變密度數(shù)據(jù)。張建朋等人提出了StrDenAP算法,該算法在StrAP算法的基 礎(chǔ)上,借鑒了CluStream的兩階段框架,采用近鄰傳播算法,能夠取得較好的聚類效果。
[0004] 鑒于現(xiàn)實中大部分?jǐn)?shù)據(jù)都是混合屬性數(shù)據(jù)這一問題,研宄學(xué)者也提出了一些直接 處理混合屬性數(shù)據(jù)的算法。楊春宇等人提出了HCluSteam算法,該算法在CluStream的基 礎(chǔ)上,對混合屬性的分類屬性部分,提出了微聚類的直方圖表示方式,并利用泊松過程對樣 本到達(dá)的時間進(jìn)行建模。該算法存在的問題是是不能夠處理任意形狀的簇。在HCluStrea 的基礎(chǔ)上提出的MCStream算法,使用兩階段框架,在在線微聚類中使用面向維度的距離來 度量對象之間的距離,宏聚類中使用改進(jìn)的M-DBSCAN密度聚類算法進(jìn)行最終聚類。該算法 能夠處理任意形狀的簇,但存在的問題是面向維度的距離的參數(shù)是用戶給出,且需要的參 數(shù)較多。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有聚類在處理混合屬性數(shù)據(jù)中出現(xiàn)的幾個問題:(1)無法直接有效處理混 合數(shù)據(jù)類型數(shù)據(jù)距離計算方法;(2)無法確定距離計算方法是否合理,沒有相應(yīng)的評價方 法;(3)傳統(tǒng)基于密度的數(shù)據(jù)計算復(fù)雜度高,準(zhǔn)確率不穩(wěn)定。本發(fā)明提供了一種基于密度搜 索與快速劃分的混合數(shù)據(jù)聚類方法。
[0006] -種基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,包括如下步驟:
[0007] S1 :確定混合屬性數(shù)據(jù)集中混合數(shù)據(jù)的占優(yōu)類型,具體基于如下原則確認(rèn):
[0008]
【主權(quán)項】
1. 一種基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于,包括如下步驟: 51 :確定混合屬性數(shù)據(jù)集中混合數(shù)據(jù)的占優(yōu)類型; 52 :根據(jù)混合數(shù)據(jù)的占優(yōu)類型計算混合數(shù)據(jù)集中任意兩個混合數(shù)據(jù)之間的距離; 53 :根據(jù)任意兩個混合數(shù)據(jù)之間的距離,基于密度搜索算法在預(yù)設(shè)的聚類半徑取值范 圍內(nèi)對聚類半徑進(jìn)行優(yōu)化,并以最優(yōu)的聚類半徑對應(yīng)聚類結(jié)果作為最終聚類結(jié)果。
2. 如權(quán)利要求1所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S1通過如下原則確定混合屬性數(shù)據(jù)集中混合數(shù)據(jù)的占優(yōu)類型: ^
,則認(rèn)為混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為數(shù)值占優(yōu)型數(shù)據(jù); a ^
則認(rèn)為混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為分類占優(yōu)型數(shù)據(jù); 否則,認(rèn)為混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為均衡型混合屬性數(shù)據(jù); 其中,d為混合數(shù)據(jù)的屬性維度,m為混合數(shù)據(jù)中數(shù)值屬性的維度,n為混合數(shù)據(jù)中分類 屬性的維度。
3. 如權(quán)利要求2所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S2中當(dāng)混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為數(shù)值占優(yōu)型數(shù)據(jù)時,通過如下方法計算 任意兩個混合數(shù)據(jù)之間的距離: (al)計算任意兩個混合數(shù)據(jù)X,.,X沖數(shù)值屬性部分的距離d(Xi,乂人為:
采用二元化的方法計算任意兩個混合數(shù)據(jù)乂」中的分類屬性部分在每一維上距離, 如混合數(shù)據(jù)Xi,Xj在第p維上的距離為:
則混合數(shù)據(jù)Xi,X」中分類屬性部分的距離d(Xi,Xj)。為:
(a2)利用數(shù)值屬性部分的距離和分類屬性部分的距離計算混合數(shù)據(jù)XpXj的距離cKX^Xj): cKx^Xj) = cKx^Xj^+cKx^Xj)^
4. 如權(quán)利要求2所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S2中當(dāng)混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為分類占優(yōu)型數(shù)據(jù)時,通過如下方法計算 任意兩個混合數(shù)據(jù)之間的距離: (bl)對任意一個混合型數(shù)據(jù)的數(shù)值屬性部分的每一維均進(jìn)行標(biāo)準(zhǔn)化處理得到各數(shù)值 屬性的標(biāo)準(zhǔn)值,其中混合型數(shù)據(jù)\的第p個數(shù)值屬性的標(biāo)準(zhǔn)值為:
其中,Xf:為混合數(shù)據(jù)Xi的第p個數(shù)值屬性的取值,4a:為所有混合數(shù)據(jù)中該維的最 大值,為所有混合數(shù)據(jù)中該維的最小值,為混合數(shù)據(jù)i中該維取值; 則數(shù)值屬性部分的距離為:
任意兩個對象Xi,Xj的分類屬性部分每一維的距離則采用二元化的方法,即Xi,Xj的 第P維之間的距離為:
則分類屬性部分的距離為:
(b2)利用所述的數(shù)值屬性部分的距離和分類屬性部分的距離計算D(Xi,Xj): D(Xi,XJ) =cKX^Xj^+cKX^Xj)^
5. 如權(quán)利要求2所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S2中當(dāng)混合屬性數(shù)據(jù)集中的混合數(shù)據(jù)為均衡型混合屬性數(shù)據(jù)時,通過如下公式 計算任意兩個混合數(shù)據(jù)之間的距離:
其中,dH,xp表示混合型數(shù)據(jù)\和X」在第p維上的距離,根據(jù)如下公式計算:
dpq(X" Xj表示Xi和Xj在第p維上相對于第q維的距離(實際上為條件概率),根據(jù) 如下公式計算:
其中,為混合數(shù)據(jù)Xi在第P維上的取值,I;為混合數(shù)據(jù)乂」在P維上的取值,以混合 數(shù)據(jù)在第p維上的取值為I/'時第q維上所有可能取值的組成的集合作為全集,Z是該全集 的子集,Ze為Z的補(bǔ)集,P(z|xf)表示當(dāng)混合數(shù)據(jù)X^p維上的取值是#時,在q維上的 取值屬于z的概率,|Xf)表示當(dāng)混合數(shù)據(jù)^在p維上的取值是巧時,在q維上的取值 屬于P的概率。
6. 如權(quán)利要求2所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S3包括如下步驟: S3-1 :設(shè)定粒子群算法的粒子數(shù)、最大迭代次數(shù),并根據(jù)預(yù)設(shè)的聚類半徑對粒子群進(jìn)行 初始化以對各個粒子賦予速度和位置; S3-2 :在當(dāng)前密度半徑下計算各個混合數(shù)據(jù)的密度,并根據(jù)所有混合數(shù)據(jù)的密度以及 任意兩個混合數(shù)據(jù)的距離確定該數(shù)據(jù)混合數(shù)據(jù)的距離; S3-3 :對所有混合數(shù)據(jù)的密度和距離進(jìn)行擬合得到當(dāng)前密度半徑下的聚類中心集; S3-4 :根據(jù)聚類中心,基于距離對所述的混合屬性數(shù)據(jù)集進(jìn)行快速劃分得到若干個簇, 簇的個數(shù)與聚類中心集中聚類中心的個數(shù)相同; S3-5 :根據(jù)如下公式計算當(dāng)前快速劃分結(jié)果的適應(yīng)度Fitness :
其中,k為聚類中心的總數(shù),nk表示第k個簇中混合數(shù)據(jù)的總數(shù),i為混合數(shù)據(jù)的標(biāo)號, 4為第1個聚類中心,d(x i,Cl)表示混合數(shù)據(jù)Xi到聚類中心c ^勺距離; S3-6 :針對任意一個粒子,以該粒子的當(dāng)前的適應(yīng)度為該粒子的最優(yōu)個體極值,當(dāng)前的 位置為最優(yōu)位置,并根據(jù)各個粒子的個體極值確定全局最優(yōu)極值和全局最優(yōu)位置,更新迭 代次數(shù) iter = iter+1 ; S3-7 :當(dāng)?shù)螖?shù)iter〈 =Maxiter時根據(jù)如下公式更新各個粒子位置和速度,然后轉(zhuǎn) 向步驟S3-3 ;否則轉(zhuǎn)向步驟S3-8,其中Maxiter為最大迭代次數(shù),第m個離子的粒子位置和 速度根據(jù)如下公式更新: vm (t+1) = w*vm (t) + a 1* 0 1* (pbestd_dcm (t)) + a 2* 0 2*gbestd_dcm (t)), dCm(t+l) = dcm(t)+vm(t+l), 其中,vm(t)表示第m個粒子在t代(即第t次迭代)的飛行速度,vm(t+l)表示第m個 粒子在t+1代的速度,w是慣性權(quán)重,a 1和a 2是常量系數(shù),pbestd是第m個粒子第t次 進(jìn)化迭代的得到的最優(yōu)位置,gbestd是第t次進(jìn)化迭代得到的全局最優(yōu)位置,M和0 2是 [〇,1]的隨機(jī)數(shù),dM(t)表示第m個粒子在第t代的位置,dM(t+l)表示粒子在t+1代的位 置; S3-8 :輸出全局極值和全局極值位置,以此時的輸出的全局極值作為當(dāng)前最優(yōu)密度半 徑,并以最優(yōu)密度半徑對應(yīng)聚類結(jié)果作為最終聚類結(jié)果。
7. 如權(quán)利要求6所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S3-2根據(jù)如下公式計算第i個混合數(shù)據(jù)的密度P i:
d。為當(dāng)前密度半徑。
8. 如權(quán)利要求6所述的基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于, 所述步驟S3-2根據(jù)如下公式計算第i個混合數(shù)據(jù)的距離S i:
其中,p i為第i個混合數(shù)據(jù)的密度,p」第j個混合數(shù)據(jù)的密度。
【專利摘要】本發(fā)明公開了一種基于密度搜索與快速劃分的混合數(shù)據(jù)聚類方法,其特征在于,包括如下步驟:確定混合屬性數(shù)據(jù)集中混合數(shù)據(jù)的占優(yōu)類型;根據(jù)混合數(shù)據(jù)的占優(yōu)類型計算混合數(shù)據(jù)集中任意兩個混合數(shù)據(jù)之間的距離;根據(jù)任意兩個混合數(shù)據(jù)之間的距離,基于密度搜索算法在預(yù)設(shè)的聚類半徑取值范圍內(nèi)對聚類半徑進(jìn)行優(yōu)化,并以最優(yōu)的聚類半徑對應(yīng)的對應(yīng)聚類結(jié)果作為最終聚類結(jié)果。本發(fā)明對混合數(shù)據(jù)進(jìn)行占優(yōu)分析方法確定混合數(shù)據(jù)的專有類型,針對不同的混合數(shù)據(jù)采用不同距離計算方法,能有效發(fā)揮屬性占優(yōu)的數(shù)據(jù)維度信息在整體數(shù)據(jù)信息的重要性并準(zhǔn)確計算數(shù)據(jù)的距離;且采用基于密度搜索與快速劃分的數(shù)據(jù)聚類算法,速度快、準(zhǔn)確率高。
【IPC分類】G06F17-30
【公開號】CN104615722
【申請?zhí)枴緾N201510063814
【發(fā)明人】陳晉音, 何輝豪, 楊東勇, 陳軍敢, 盧瑾, 顧東袁, 張健
【申請人】浙江工業(yè)大學(xué)
【公開日】2015年5月13日
【申請日】2015年2月6日