專利名稱:稀疏模糊c均值聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種稀疏模糊C均值聚類方法。
背景技術(shù):
模糊C均值聚類算法(FCM)是一種重要的聚類算法。該方法在1973年由Dunn首先提出,并在1981年由Bezdek改進(jìn)。此后,F(xiàn)CM在模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、生物信息學(xué)等領(lǐng)域得到了非常廣泛的應(yīng)用,成為一種經(jīng)典的聚類算法。然而,近十幾年來,隨著信息技術(shù)的發(fā)展,高維數(shù)據(jù)變得越來越普遍。高維數(shù)據(jù)因其固有的特點(diǎn),如信息冗余、無用信息多等,使得很多傳統(tǒng)的聚類方法(如K均值聚類、層次聚類、模糊C均值聚類等)在高維數(shù)據(jù)上的聚類效果較差,常常不能得到好的聚類結(jié)果。圖I展示了一個(gè)FCM不能得到較好的聚類結(jié)果的例子。在該例子中,數(shù)據(jù)是一個(gè)簡(jiǎn)單的二維數(shù)據(jù)。該數(shù)據(jù)只在Xl方向上有區(qū)分能力,在x2方向上無區(qū)分能力。圖I (a)是該數(shù)據(jù)的真實(shí)分類情況。圖I (b)是FCM在該數(shù)據(jù)上的聚類結(jié)果??梢钥吹?,F(xiàn)CM在這個(gè)數(shù)據(jù)集上聚類結(jié)果較差,因?yàn)閤2方向上無用的信息干擾了真正起作用的Xl方向上的信息。如果只將FCM作用于xl方向而忽略x2方向,F(xiàn)CM的聚類效果較好,如
圖1(c)所示。從這個(gè)例子中可以看到,如果高維數(shù)據(jù)中有許多無用的信息(對(duì)聚簇沒有區(qū)分能力的維度),那些無用的信息會(huì)干擾有用信息,從而使傳統(tǒng)的FCM算法聚類效果變差。另外,高維數(shù)據(jù)屬性很多,其中不乏無用信息或冗余信息,這些不利于聚類結(jié)果的解釋。
發(fā)明內(nèi)容
本發(fā)明的目的在于改進(jìn)FCM在高維數(shù)據(jù)上的聚類能力,克服高維數(shù)據(jù)中無用信息對(duì)聚類信息的干擾,提出了一種稀疏模糊C均值聚類方法(SFCM),通過特征選擇來更好地對(duì)高維數(shù)據(jù)進(jìn)行聚類,提高了聚類結(jié)果的可解釋性。本發(fā)明的目的通過下述技術(shù)方案實(shí)現(xiàn)稀疏模糊C均值聚類方法,包括以下步驟(I)、設(shè){x1; x2,. . . , xn}, Xi e Rp 為 η 個(gè)待聚類的點(diǎn),V=Iv1, V2, , νκ}為當(dāng)前的 K個(gè)類中心,U= (Uik)為隸屬度矩陣,Uik表示Xi屬于第k類的隸屬度;(2)、將FCM算法的最小化類內(nèi)方差的目標(biāo)函數(shù)改寫為若干函數(shù)項(xiàng)的和的形式,其中每一函數(shù)項(xiàng)只跟一個(gè)屬性有關(guān);(3)、將步驟(2)得到的若干函數(shù)項(xiàng)的和改寫為對(duì)應(yīng)的最大化類間方差;(4)、給每一個(gè)屬性賦予一個(gè)權(quán)重Wj,P個(gè)權(quán)重值構(gòu)成權(quán)重w ;將步驟(3)中對(duì)應(yīng)的函數(shù)項(xiàng)乘以該權(quán)重Wp最大化類間方差的目標(biāo)函數(shù)變成一個(gè)對(duì)屬性加權(quán)后的類間方差,并給權(quán)重以LI和L2范數(shù)約束,得到加權(quán)后的函數(shù);(5)通過輪流固定隸屬度Uik和權(quán)重Wj的迭代求解步驟(4)加權(quán)后的目標(biāo)函數(shù),迭代終止時(shí)得到聚類結(jié)果和選擇出的屬性集。優(yōu)選地,步驟(2)所述若干函數(shù)項(xiàng)的和為
權(quán)利要求
1.稀疏模糊C均值聚類方法,其特征在于,包括以下步驟 (1)、設(shè)(X1,X2,...,xj , Xi e Rp為η個(gè)待聚類的點(diǎn),V=Iv1, V2,, νκ}為當(dāng)前的K個(gè)類中心,U=(Uik)為隸屬度矩陣,Uik表不Xi屬于第k類的隸屬度; (2)、將FCM算法的最小化類內(nèi)方差的目標(biāo)函數(shù)改寫為若干函數(shù)項(xiàng)的和的形式,其中每一函數(shù)項(xiàng)只跟一個(gè)屬性有關(guān); (3)、將步驟(2)得到的若干函數(shù)項(xiàng)的和改寫為對(duì)應(yīng)的最大化類間方差; (4)、給每一個(gè)屬性賦予一個(gè)權(quán)重P個(gè)權(quán)重值構(gòu)成權(quán)重w;將步驟(3)中對(duì)應(yīng)的函數(shù)項(xiàng)乘以該權(quán)重Wp最大化類間方差的目標(biāo)函數(shù)變成一個(gè)對(duì)屬性加權(quán)后的類間方差,并給權(quán)重以LI和L2范數(shù)約束,得到加權(quán)后的函數(shù); (5)通過輪流固定隸屬度Uik和權(quán)重%的迭代求解步驟(4)加權(quán)后的目標(biāo)函數(shù),迭代終止時(shí)得到聚類結(jié)果和選擇出的屬性集。
2.根據(jù)權(quán)利要求I所述的稀疏模糊C均值聚類方法,其特征在于,步驟(2)所述若干函數(shù)項(xiàng)的和為
3.根據(jù)權(quán)利要求2所述的稀疏模糊C均值聚類方法,其特征在于,步驟(5)所述迭代求解的過程如下 (51)、迭代直至收斂 (511)、固定權(quán)重W,用FCM算法對(duì)下式求解隸屬度矩陣U和類中心V:
全文摘要
本發(fā)明提供了一種基于Witten的稀疏聚類框架的稀疏模糊C聚類方法;將FCM目標(biāo)函數(shù)改寫成各個(gè)函數(shù)項(xiàng)的和的形式,每一函數(shù)項(xiàng)都只跟一個(gè)屬性有關(guān);再給每一個(gè)屬性賦予一個(gè)權(quán)重,并進(jìn)一步改寫為加權(quán)的各項(xiàng)函數(shù)和形式;對(duì)權(quán)重進(jìn)行L1和L2正則化約束,通過輪流固定權(quán)重和隸屬度的迭代求解得到稀疏解。與傳統(tǒng)的FCM算法相比,本發(fā)明提高了聚類能力,比FCM更適合高維數(shù)據(jù)的聚類,可方便應(yīng)用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、生物信息學(xué)等領(lǐng)域。
文檔編號(hào)G06F17/30GK102855301SQ20121029643
公開日2013年1月2日 申請(qǐng)日期2012年8月20日 優(yōu)先權(quán)日2012年8月20日
發(fā)明者馮國燦, 黎培興, 丘憲恩, 邱燕藝, 湯鑫 申請(qǐng)人:中山大學(xué)