一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
【專利摘要】本發(fā)明提出一個(gè)新的基于策略權(quán)重的K?means數(shù)據(jù)聚類方法,包括以下步驟:Step1:執(zhí)行K?Means數(shù)據(jù)聚類算法五次;Step2:求最小平方差的中心點(diǎn);Step3:執(zhí)行分群動(dòng)作;Step4:重新計(jì)算新的中心點(diǎn);Step5:分群終止條件。本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低,即分群的速度很快,可以有效改善處理大量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形,可以得到整體最佳解。所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非常快速。對(duì)于大量數(shù)據(jù)聚類效果明顯,具有良好的實(shí)用價(jià)值。
【專利說(shuō)明】
一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘中數(shù)據(jù)聚類技術(shù)領(lǐng)域,具體涉及一種基于權(quán)重策略的K-Means聚類方法。 技術(shù)背景
[0002] 處于信息爆炸的今日,數(shù)據(jù)不斷的大量增加,因此如何將大量數(shù)據(jù)作快速的數(shù)據(jù) 挖掘及知識(shí)獲取,已成為現(xiàn)代信息管理領(lǐng)域中最重要的議題之一。而在這些數(shù)據(jù)挖掘的議 題中,數(shù)據(jù)聚類是最常被使用的方法之一。因?yàn)閿?shù)據(jù)聚類不僅是一個(gè)單獨(dú)的數(shù)據(jù)挖掘程序, 而且它也是數(shù)據(jù)獲取的預(yù)先處理步驟。因?yàn)閿?shù)據(jù)聚類可以先分出不同的群體,然后再針對(duì) 個(gè)別的群體去做進(jìn)一步的分析,以便獲得有用的信息。
[0003] 數(shù)據(jù)聚類(Data Clustering)是數(shù)據(jù)挖掘領(lǐng)域中非常熱門而且重要的研究主題。 數(shù)據(jù)聚類能讓數(shù)據(jù)更簡(jiǎn)化、建立分類規(guī)范以及挖掘未知的假設(shè),使用范圍十分廣泛。由于數(shù) 據(jù)的特質(zhì)不盡相同,因此,到目前為止,并沒(méi)有一種數(shù)據(jù)聚類算法能夠?qū)λ蟹N類的數(shù)據(jù)產(chǎn) 生最佳的聚類效果。數(shù)據(jù)聚類運(yùn)作時(shí)會(huì)遇到一些問(wèn)題,例如群組分布圖的傾向、群組數(shù)的選 定、噪聲數(shù)據(jù)及高維度的大量數(shù)據(jù)等問(wèn)題,也使得數(shù)據(jù)聚類的應(yīng)用受到限制,數(shù)據(jù)聚類的結(jié) 果也發(fā)生誤差。
[0004] 近幾年來(lái)許多研究都是把重點(diǎn)放在解決數(shù)據(jù)聚類的問(wèn)題上,讓數(shù)據(jù)聚類的結(jié)果更 有效能、效率,應(yīng)用層面更廣。傳統(tǒng)的階層式(Hierarchical)及分割式(Partitional)聚類 技術(shù)、類神經(jīng)網(wǎng)絡(luò)(Artif icial Neural Network)、演化式(Evolutionary)算法都被研究者 直接或間接的加以改良,而應(yīng)用在解決數(shù)據(jù)聚類的問(wèn)題上。但是,數(shù)據(jù)聚類的結(jié)果不是正確 性不佳,就是聚類動(dòng)作所需耗費(fèi)的時(shí)間成本太高,在數(shù)據(jù)聚類效能以及效率上仍有待加強(qiáng)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處,提出一種能夠減少聚類錯(cuò)誤率而且 執(zhí)行數(shù)據(jù)聚類時(shí)速度非??焖俚拇罅繑?shù)據(jù)聚類方法,特別是適用解決大量數(shù)據(jù)的聚類問(wèn) 題。
[0006] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括以下步驟:
[0007] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并 記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示:
[0008]
(1)
[0009] 其中,X1S所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),(^為群組,K為群組數(shù),Zj屬于該C j群的中 心點(diǎn)。
[0010] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Zi,Z 2, ...,ZK}取代之,作為本方法的初始 中心點(diǎn)。
[0011] Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi,i = l,2, . . .,N與各中心點(diǎn)計(jì)算距離,并將 各數(shù)據(jù)點(diǎn)分配到群組Cj J = I,2,...,K中,其分群規(guī)則如下:
[0012] IXi-ZjI I < I IXi-ZpI I , j = l,2,. . . ,K;P=1,2,. . . ,K; j^p (2)
[0013] 當(dāng)數(shù)據(jù)點(diǎn)乂1與中心點(diǎn)Zj的距離比其它中心點(diǎn)Zp的距離小于或等于時(shí),則數(shù)據(jù)點(diǎn)X 1 分配到該群1中。其中距離公式如下:
[0014]
[0015]
[0016]
[0017]
[0018] 其中,Nj為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。
[0019] Step5:分群終止條件。假如產(chǎn)生K個(gè)新的中心點(diǎn)與舊的中心點(diǎn)相同時(shí),即終止分群 動(dòng)作。亦
?則終止分群;否則跳到Step3繼續(xù)做分群。
[0020] 本發(fā)明的有益效果如下:
[0021] 本發(fā)明加入最小平方差的概念,由K-Means所產(chǎn)生最小平方差的中心點(diǎn),作為本發(fā) 明第一階段求取初始中心點(diǎn)的依據(jù)。接著,對(duì)于不同群組使用減少或增加權(quán)重的策略來(lái)計(jì) 算數(shù)據(jù)對(duì)象的距離,將有效改善各數(shù)據(jù)維度的權(quán)重關(guān)系。
[0022] 本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低,即分群的速度很快。可以有效改善處理大 量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形,可以得到整體最佳解。
[0023] 本發(fā)明所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非 ??焖?。對(duì)于大量數(shù)據(jù)聚類效果明顯,具有良好的實(shí)用價(jià)值。
【附圖說(shuō)明】
[0024] 圖1是本發(fā)明方法的具體實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0025] 下面結(jié)合【附圖說(shuō)明】和【具體實(shí)施方式】對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
[0026] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括以下步驟:
[0027] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并 記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示:
[0028;
(1)
[0029]其中,X1S所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),(^為群組,K為群組數(shù),Zj屬于該C j群的中 心點(diǎn)。
[0030] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Z^Zs,. . .,Ζκ}取代之,作為本方法的初始 中心點(diǎn)。
[0031] 各數(shù)據(jù)W
[0032]
[0033] 分配到?
[0034]
[0035]
[0036]
[0037]
[0038]
[0039] 動(dòng)作。亦
【主權(quán)項(xiàng)】
1.本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括w下步驟: Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并記錄 執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中屯、點(diǎn)。平方差SE的計(jì)算如公式(1)所示:其中,X功所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),C功群組,K為群組數(shù),&屬于該C滿的中屯、點(diǎn)。 Step2:求最小平方差的中屯、點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù)據(jù)聚 類的各群組中屯、點(diǎn)W最小平方差的中屯、點(diǎn){Zi,Z2, ...,Ζκ}取代之,作為本方法的初始中屯、 點(diǎn)。 Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi,i = l,2,. . .,Ν與各中屯、點(diǎn)計(jì)算距離,并將各數(shù) 據(jù)點(diǎn)分配到群組Cj,j = l,2,. . .,Κ中,其分群規(guī)則如下: |Xi-Zj|| 引 |Χ 廣Ζρ||,j = l,2,...,K;p = l,2,...,K;j^p (2) 當(dāng)數(shù)據(jù)點(diǎn)Xi與中屯、點(diǎn)Zj的距離比其它中屯、點(diǎn)卻的距離小于或等于時(shí),則數(shù)據(jù)點(diǎn)Xi分配 到該群Zj中。其中距離公式如下:D 其中,叫為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。 steps:分群終止條件。假如產(chǎn)生K個(gè)新的中屯、點(diǎn)與舊的中屯、點(diǎn)相同時(shí),即終止分群動(dòng) 作。亦即Z;二2/.,./ = 1,2,...乂剛終止分群;否則跳至化*6口3繼續(xù)做分群。
【文檔編號(hào)】G06K9/62GK105844293SQ201610160801
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月21日
【發(fā)明人】周玉強(qiáng), 陳巖
【申請(qǐng)人】杭州熙浪信息技術(shù)股份有限公司