一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法

文檔序號(hào)：10489408閱讀：1215來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
【專利摘要】本發(fā)明提出一個(gè)新的基于策略權(quán)重的K?means數(shù)據(jù)聚類方法，包括以下步驟：Step1：執(zhí)行K?Means數(shù)據(jù)聚類算法五次；Step2：求最小平方差的中心點(diǎn)；Step3：執(zhí)行分群動(dòng)作；Step4：重新計(jì)算新的中心點(diǎn)；Step5：分群終止條件。本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低，即分群的速度很快，可以有效改善處理大量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形，可以得到整體最佳解。所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非常快速。對(duì)于大量數(shù)據(jù)聚類效果明顯，具有良好的實(shí)用價(jià)值。
【專利說(shuō)明】
一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘中數(shù)據(jù)聚類技術(shù)領(lǐng)域，具體涉及一種基于權(quán)重策略的K-Means聚類方法。技術(shù)背景
[0002] 處于信息爆炸的今日，數(shù)據(jù)不斷的大量增加，因此如何將大量數(shù)據(jù)作快速的數(shù)據(jù) 挖掘及知識(shí)獲取，已成為現(xiàn)代信息管理領(lǐng)域中最重要的議題之一。而在這些數(shù)據(jù)挖掘的議題中，數(shù)據(jù)聚類是最常被使用的方法之一。因?yàn)閿?shù)據(jù)聚類不僅是一個(gè)單獨(dú)的數(shù)據(jù)挖掘程序，而且它也是數(shù)據(jù)獲取的預(yù)先處理步驟。因?yàn)閿?shù)據(jù)聚類可以先分出不同的群體，然后再針對(duì) 個(gè)別的群體去做進(jìn)一步的分析，以便獲得有用的信息。
[0003] 數(shù)據(jù)聚類(Data Clustering)是數(shù)據(jù)挖掘領(lǐng)域中非常熱門而且重要的研究主題。數(shù)據(jù)聚類能讓數(shù)據(jù)更簡(jiǎn)化、建立分類規(guī)范以及挖掘未知的假設(shè)，使用范圍十分廣泛。由于數(shù) 據(jù)的特質(zhì)不盡相同，因此，到目前為止，并沒(méi)有一種數(shù)據(jù)聚類算法能夠?qū)λ蟹N類的數(shù)據(jù)產(chǎn) 生最佳的聚類效果。數(shù)據(jù)聚類運(yùn)作時(shí)會(huì)遇到一些問(wèn)題，例如群組分布圖的傾向、群組數(shù)的選定、噪聲數(shù)據(jù)及高維度的大量數(shù)據(jù)等問(wèn)題，也使得數(shù)據(jù)聚類的應(yīng)用受到限制，數(shù)據(jù)聚類的結(jié) 果也發(fā)生誤差。
[0004] 近幾年來(lái)許多研究都是把重點(diǎn)放在解決數(shù)據(jù)聚類的問(wèn)題上，讓數(shù)據(jù)聚類的結(jié)果更有效能、效率，應(yīng)用層面更廣。傳統(tǒng)的階層式(Hierarchical)及分割式(Partitional)聚類技術(shù)、類神經(jīng)網(wǎng)絡(luò)(Artif icial Neural Network)、演化式(Evolutionary)算法都被研究者直接或間接的加以改良，而應(yīng)用在解決數(shù)據(jù)聚類的問(wèn)題上。但是，數(shù)據(jù)聚類的結(jié)果不是正確性不佳，就是聚類動(dòng)作所需耗費(fèi)的時(shí)間成本太高，在數(shù)據(jù)聚類效能以及效率上仍有待加強(qiáng)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處，提出一種能夠減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非?？焖俚拇罅繑?shù)據(jù)聚類方法，特別是適用解決大量數(shù)據(jù)的聚類問(wèn) 題。
[0006] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法，包括以下步驟：
[0007] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次，并記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示：
[0008]
(1)
[0009] 其中，X1S所有數(shù)據(jù)點(diǎn)，N為數(shù)據(jù)點(diǎn)總數(shù)，(^為群組，K為群組數(shù)，Zj屬于該C j群的中心點(diǎn)。
[0010] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合，讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Zi，Z 2, ...，ZK}取代之，作為本方法的初始中心點(diǎn)。
[0011] Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi，i = l，2, . . .，N與各中心點(diǎn)計(jì)算距離，并將各數(shù)據(jù)點(diǎn)分配到群組Cj J = I，2,...，K中，其分群規(guī)則如下：
[0012] IXi-ZjI I < I IXi-ZpI I , j = l,2,. . . ,K;P=1,2,. . . ,K； j^p (2)
[0013] 當(dāng)數(shù)據(jù)點(diǎn)乂1與中心點(diǎn)Zj的距離比其它中心點(diǎn)Zp的距離小于或等于時(shí)，則數(shù)據(jù)點(diǎn)X 1 分配到該群1中。其中距離公式如下：
[0014]
[0015]
[0016]
[0017]
[0018] 其中，Nj為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。
[0019] Step5:分群終止條件。假如產(chǎn)生K個(gè)新的中心點(diǎn)與舊的中心點(diǎn)相同時(shí)，即終止分群動(dòng)作。亦
?則終止分群;否則跳到Step3繼續(xù)做分群。
[0020] 本發(fā)明的有益效果如下：
[0021] 本發(fā)明加入最小平方差的概念，由K-Means所產(chǎn)生最小平方差的中心點(diǎn)，作為本發(fā) 明第一階段求取初始中心點(diǎn)的依據(jù)。接著，對(duì)于不同群組使用減少或增加權(quán)重的策略來(lái)計(jì) 算數(shù)據(jù)對(duì)象的距離，將有效改善各數(shù)據(jù)維度的權(quán)重關(guān)系。
[0022] 本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低，即分群的速度很快。可以有效改善處理大量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形，可以得到整體最佳解。
[0023] 本發(fā)明所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非 ?？焖?。對(duì)于大量數(shù)據(jù)聚類效果明顯，具有良好的實(shí)用價(jià)值。
【附圖說(shuō)明】
[0024] 圖1是本發(fā)明方法的具體實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0025] 下面結(jié)合【附圖說(shuō)明】和【具體實(shí)施方式】對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
[0026] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法，包括以下步驟：
[0027] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次，并記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示：
[0028；
(1)
[0029]其中，X1S所有數(shù)據(jù)點(diǎn)，N為數(shù)據(jù)點(diǎn)總數(shù)，(^為群組，K為群組數(shù)，Zj屬于該C j群的中心點(diǎn)。
[0030] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合，讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Z^Zs，. . .，Ζκ}取代之，作為本方法的初始中心點(diǎn)。
[0031] 各數(shù)據(jù)W
[0032]
[0033] 分配到?
[0034]
[0035]
[0036]
[0037]
[0038]
[0039] 動(dòng)作。亦
【主權(quán)項(xiàng)】
1.本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法，包括w下步驟： Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次，并記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中屯、點(diǎn)。平方差SE的計(jì)算如公式（1)所示：其中，X功所有數(shù)據(jù)點(diǎn)，N為數(shù)據(jù)點(diǎn)總數(shù)，C功群組，K為群組數(shù)，&屬于該C滿的中屯、點(diǎn)。 Step2:求最小平方差的中屯、點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合，讓數(shù)據(jù)聚類的各群組中屯、點(diǎn)W最小平方差的中屯、點(diǎn){Zi，Z2, ...，Ζκ}取代之，作為本方法的初始中屯、點(diǎn)。 Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi，i = l，2,. . .，Ν與各中屯、點(diǎn)計(jì)算距離，并將各數(shù) 據(jù)點(diǎn)分配到群組Cj，j = l，2,. . .，Κ中，其分群規(guī)則如下： |Xi-Zj|| 引 |Χ 廣Ζρ||，j = l，2，...，K;p = l，2，...，K;j^p (2) 當(dāng)數(shù)據(jù)點(diǎn)Xi與中屯、點(diǎn)Zj的距離比其它中屯、點(diǎn)卻的距離小于或等于時(shí)，則數(shù)據(jù)點(diǎn)Xi分配到該群Zj中。其中距離公式如下：D 其中，叫為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。 steps:分群終止條件。假如產(chǎn)生K個(gè)新的中屯、點(diǎn)與舊的中屯、點(diǎn)相同時(shí)，即終止分群動(dòng) 作。亦即Z;二2/.，./ = 1，2，...乂剛終止分群;否則跳至化*6口3繼續(xù)做分群。
【文檔編號(hào)】G06K9/62GK105844293SQ201610160801
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月21日
【發(fā)明人】周玉強(qiáng), 陳巖
【申請(qǐng)人】杭州熙浪信息技術(shù)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周玉強(qiáng);陳巖;
技術(shù)所有人：杭州熙浪信息技術(shù)股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法