專利名稱:基于特征權(quán)重的全局k-均值聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)統(tǒng)計領(lǐng)域,涉及一種聚類方法。具體地說是提出了一種基于特征權(quán)重的全局K-均值聚類方法,用于解決聚類中常見的K-均值類方法的聚類結(jié)果不穩(wěn)定的問題,在提高了方法的聚類準(zhǔn)確度的同時得到了很穩(wěn)定的聚類結(jié)果。
背景技術(shù):
聚類就是將一組數(shù)據(jù)劃分到各個類中的一個過程,從而使得類內(nèi)距離最小化,類間距離最大化,即同一類中的數(shù)據(jù)盡可能的相似,而不同類中的數(shù)據(jù)盡可能的不同。聚類在數(shù)據(jù)挖掘,統(tǒng)計學(xué),機器學(xué)習(xí),空間數(shù)據(jù)庫技術(shù),生物學(xué)以及市場營銷中起著很重要的作用。近些年,在聚類的很多應(yīng)用領(lǐng)域中數(shù)據(jù)變得越來越復(fù)雜。一個目標(biāo)經(jīng)常會用很多個屬性特征來描述,而對于聚類而言,有些屬性起著比較重要的作用,而另外一些屬性則只有很小的作用,甚至不影響對目標(biāo)的聚類。目前很多(基于距離的)聚類方法對于這些復(fù)雜的多維數(shù)據(jù)的聚類不是很有效。這是因為K-均值的方法采用的是單純的歐式距離度量方法,即計算每個對象到各個聚類中心的距離,離哪個聚類中心的距離最短則屬于哪一類, 很明顯這種計算方法將目標(biāo)的每個屬性對聚類的重要性簡單的視為相等的,而實際上是各不相同的,所以特別當(dāng)處理的是多維復(fù)雜數(shù)據(jù)的時候,這種傳統(tǒng)的K-均值方法就不是很有效了。為了解決這個問題,目前主要有兩種技術(shù)1.特征轉(zhuǎn)移技術(shù);2.特征權(quán)重或者特征選擇技術(shù)。一般來說,特征轉(zhuǎn)移技術(shù)對于存在大量屬性對于聚類無關(guān)的這種情況并不適應(yīng)。特征權(quán)重技術(shù)意即不同屬性對于聚類的重要性和不同目標(biāo)對于每一類所起的作用都是不同的。它主要涉及兩個方向有監(jiān)督的方法和無監(jiān)督的方法。在早期,提出了很多有監(jiān)督特征權(quán)重方法的方法。近些年來,很多無監(jiān)督的特征權(quán)重方法被提了出來。因為這些方法很多都是基于K-均值的處理過程,所以基本都是K-均值類方法。不同的是,在K-均值的每次迭代中,都引入了計算屬性權(quán)重值的步驟來優(yōu)化權(quán)值和建立類別。我們主要研究了無監(jiān)督的特征權(quán)重技術(shù),以其中一種經(jīng)典的LAW-K-均值(局部屬性權(quán)值K-均值)方法作為代表進(jìn)行研究。LAW-K-均值方法是在K-均值基礎(chǔ)上的一種局部屬性權(quán)重方法。為了確定目標(biāo)屬于哪一類,該方法采用權(quán)重差異測試方法來對每一類的重要屬性組。之后又有一些學(xué)者對該方法進(jìn)行了一些改進(jìn)。H. Friguiand和0. Nasraoui 引入了每一個目標(biāo)屬于每一類的程度以及每一類的每一個屬性對于聚類的作用。Liping Jing,, Michael K. Ng,等人提出了一種熵權(quán)重K-均值方法,該方法采用屬性權(quán)重的熵來表示屬性對于識別每一類所起的作用。Tao ying Li和Yan Chen通過對目標(biāo)函數(shù)的修改而拓展了熵屬性權(quán)重方法。下面深入地介紹兩種主要的相關(guān)方法。LLAW-K-均值通過以上的介紹和分析,我們可以看出,LAff-K-均值方法是一種基于K-均值的方法,通過在該方法中引入局部屬性權(quán)重,使得方法的性能有了一定的提高,但是二者都是隨機的選擇初始的聚類中心,所以聚類結(jié)果的好壞依賴于初始聚類中心的選擇,所以依然存在K-均值類方法本身所固有的缺陷,即因為對初始聚類中心敏感而導(dǎo)致其聚類結(jié)果不是很穩(wěn)定。而且,LAW-K-均值方法中屬性權(quán)重的確定也取決于初始點的選擇,這就使得該方法的聚類結(jié)果更易受到初始聚類中心的影響而變得更加的不穩(wěn)定。所以我們要想使聚類的效果既保持很高的準(zhǔn)確度,同時又很穩(wěn)定,就要試圖使聚類中心的選擇不再是隨機確定的, 而是根據(jù)一定的數(shù)學(xué)原理推導(dǎo)出來的合理的初始中心的選擇方法。2.全局K-均值2002年A. Likas等人提出了全局K-均值方法。該方法與K-均值方法的不同之處在于初始聚類中心點的選擇,但都采用K-均值進(jìn)行聚類中心的更新。全局K-均值采用一種確定性地方法而不是隨機選取來產(chǎn)生初始聚類中心,所以全局K-均值方法不依賴于任何的初始參數(shù)值。Global開始只確定一個聚類中心,通過選取所有點的中心作為第一個初始的聚類中心,再通過K-均值更新,直到不再變好而停止更新,然后再選出第二個聚類中心,選取所有點中對應(yīng)的聚類錯誤最小的那個點作為第二個聚類中心,再采用K-均值進(jìn)行更新,直到找到K個聚類中心方法就會結(jié)束。這種方法因為其初始中心選取的改變使得方法非常穩(wěn)定,因為所有初始點的選擇都是根據(jù)同樣的原理,所以都是確定性的操作,得到的聚類結(jié)果有所改善的同時也非常的穩(wěn)定。通過上面的分析可以看出,LAW-K-均值方法可以得到較好的聚類結(jié)果,但是其穩(wěn)定性比較差,而全局K-均值得到的結(jié)果非常的穩(wěn)定。如果將全局K-均值初始聚類中心選取的方法引入到LAW-K-均值方法中,通過確定性的選取初始聚類中心的方法可以解決對初始點敏感的瓶頸問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,針對LAW-K-均值方法使用時穩(wěn)定性比較差的不足,為了提高多維數(shù)據(jù)聚類的準(zhǔn)確度,并增強聚類結(jié)果的穩(wěn)定性,針對多維數(shù)據(jù)聚類的特點,利用LAW-K-均值方法具有較好的聚類結(jié)果和全局K-均值具有結(jié)果穩(wěn)定的特點,將兩者結(jié)合,提出了一種基于特征權(quán)重的全局K-均值聚類方法,能夠獲得更高的聚類正確率和穩(wěn)定性。本發(fā)明的技術(shù)方案是首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心就是所有數(shù)據(jù)的質(zhì)心,接著將所有數(shù)據(jù)點都看成下一類聚類中心,將使得目標(biāo)函數(shù)最小的數(shù)據(jù)點作為下一類的初始聚類中心,再利用帶有特征權(quán)重的K-均值方法迭代更新得到聚為兩類時的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行更新迭代直到聚完K類(K為設(shè)定的聚類個數(shù))為止,這樣就完成了將所有數(shù)據(jù)點聚到K類的整個過程,其具體實現(xiàn)步驟如下1、輸入多維數(shù)據(jù)Xij, 1彡i彡N,1彡j彡D和聚類個數(shù)K,其中N表示數(shù)據(jù)的個數(shù), D表示數(shù)據(jù)的特征屬性個數(shù),Xij表示第i個數(shù)據(jù)點的第j個屬性;2、初始化聚類個數(shù)k=l 初始化第k類的特征權(quán)重值為
權(quán)利要求
1. 一種基于特征權(quán)重的全局K-均值聚類方法,其特征在于首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心為所有數(shù)據(jù)的質(zhì)心,接著通過計算求出目標(biāo)函數(shù)最小的數(shù)據(jù)點并將該數(shù)據(jù)點作為下一類的初始聚類中心,再利用帶有特征權(quán)重的“K-均值方法”迭代更新得到聚為兩類的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行聚類,直到聚為設(shè)定的K類為止,從而完成將所有數(shù)據(jù)點聚為K類的整個過程,其具體實現(xiàn)步驟如下(1)輸入多維數(shù)據(jù)Xij,1 ^ i ^ N, 1 ^ j ^ D和聚類個數(shù)K,其中N表示數(shù)據(jù)的個數(shù),D 表示數(shù)據(jù)的特征屬性個數(shù),Xij表示第j個屬性的第i個數(shù)據(jù)點;(2)初始化聚類個數(shù)k = 1初始化第k類的特征權(quán)重值為
2.根據(jù)權(quán)利要求1所述的基于特征權(quán)重的全局K-均值聚類方法,其特征在于,所述步驟1)找出的下一個類的最優(yōu)初始中心,是所有數(shù)據(jù)點中使目標(biāo)函數(shù)J達(dá)到最小值的數(shù)據(jù)點,將該數(shù)據(jù)點作為下一個類的初始聚類中心,從而使得聚集程度最優(yōu)。
全文摘要
一種基于特征權(quán)重的全局K-均值聚類方法,其實現(xiàn)過程為首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心為所有數(shù)據(jù)的質(zhì)心,接著通過計算求出目標(biāo)函數(shù)最小的數(shù)據(jù)點并將該數(shù)據(jù)點作為下一類的初始聚類中心,再利用帶有特征權(quán)重的K-均值方法迭代更新得到聚為兩類時的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行更新迭代直到聚完設(shè)定的K類為止,這樣就完成了將所有數(shù)據(jù)點聚到K類的整個過程。本發(fā)明將全局K-均值方法與帶有特征屬性的K-均值相結(jié)合,構(gòu)造了一種新的基于特征權(quán)值的全局K-均值聚類方法,聚類結(jié)果十分穩(wěn)定,通過與幾種K-均值類聚類方法的實驗結(jié)果比較,證明本發(fā)明的聚類方法的有效性和魯棒性。
文檔編號G06F17/30GK102254020SQ20111020861
公開日2011年11月23日 申請日期2011年7月22日 優(yōu)先權(quán)日2011年7月22日
發(fā)明者于昕, 劉芳, 吳建設(shè), 惠轉(zhuǎn)妮, 曹宇, 李陽陽, 焦李成, 王爽, 王達(dá) 申請人:西安電子科技大學(xué)