一種基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì) 分方法。
【背景技術(shù)】
[0002] 隨著我國(guó)加入世界貿(mào)易組織后,面對(duì)外資銀行的進(jìn)入和金融改革的深化,金融競(jìng) 爭(zhēng)愈發(fā)激烈,優(yōu)質(zhì)客戶逐漸成為銀行競(jìng)爭(zhēng)的焦點(diǎn)。不同類型客戶給銀行所帶來(lái)的價(jià)值差異 是十分明顯的,銀行可通過(guò)識(shí)別、區(qū)分這種差異,指導(dǎo)其更合理地配置市場(chǎng)銷售、服務(wù)和管 理資源,以較少的投入獲取更大的收益,解決這一問(wèn)題就需要進(jìn)行客戶細(xì)分。銀行客戶細(xì)分 是指銀行在明確的戰(zhàn)略、業(yè)務(wù)模式和特定的市場(chǎng)中,根據(jù)客戶的屬性、行為、需求、偏好以及 價(jià)值等因素對(duì)于客戶進(jìn)行分類,并提供針對(duì)的產(chǎn)品、服務(wù)和營(yíng)銷模式的過(guò)程。
[0003]目前,傳統(tǒng)上對(duì)銀行客戶細(xì)分有經(jīng)驗(yàn)分類方法和基于統(tǒng)計(jì)分析法。經(jīng)驗(yàn)法的銀行 客戶細(xì)分是最原始的劃分方法,一般由決策者根據(jù)自己經(jīng)驗(yàn)對(duì)客戶進(jìn)行類別劃分,具有很 強(qiáng)的主觀性,細(xì)分的結(jié)果不客觀,缺少說(shuō)服力?;诮y(tǒng)計(jì)方法的客戶細(xì)分是一種量化研宄, 根據(jù)對(duì)客戶屬性特征統(tǒng)計(jì)結(jié)果進(jìn)行客戶類別劃分,細(xì)分的結(jié)果往往與分類標(biāo)準(zhǔn)具有極強(qiáng)的 關(guān)聯(lián)性,如果分類標(biāo)準(zhǔn)不合理,分類的結(jié)果也不合理。隨著我國(guó)銀行化信息化建設(shè)的不斷深 入,銀行已經(jīng)積累了大量的個(gè)人歷史交易數(shù)據(jù)和客戶資料,同時(shí)隨著網(wǎng)絡(luò)的發(fā)展,將會(huì)積累 越來(lái)越多的客戶數(shù)據(jù),面對(duì)海量的客戶數(shù)據(jù),傳統(tǒng)的客戶細(xì)分方法更將顯得力不從心。近年 來(lái)。數(shù)據(jù)挖掘技術(shù)得到了迅速的發(fā)展,其融合了數(shù)據(jù)庫(kù)、人工智能、和統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域技 術(shù),能夠從大量的、不完全的、有噪聲的、模糊的原始數(shù)據(jù)中,挖掘出有用、可信、新穎的信息 和知識(shí)的過(guò)程,其中K-means聚類是一種最重要的數(shù)據(jù)挖掘方法,其在銀行客戶細(xì)分中得 到了廣泛的應(yīng)用。
[0004] K-means算法是數(shù)據(jù)挖掘技術(shù)中基于分裂法的一個(gè)經(jīng)典的聚類算法,因其理論可 靠、算法簡(jiǎn)單、收斂速度快而被廣泛應(yīng)用。K-means算法采用迭代更新的思想,首先隨機(jī)地選 擇K個(gè)對(duì)象初始的代表聚類或簇的中心,再對(duì)剩下的每個(gè)對(duì)象根據(jù)其與各個(gè)簇的中心的距 離將它重新賦給最近的簇,然后重新計(jì)算每個(gè)簇的中心作為下一次迭代的聚類中心。不斷 重復(fù)這個(gè)過(guò)程,直到各聚類中心不再變化時(shí)終止。迭代使得選取的聚類中心越來(lái)越接近真 實(shí)的簇中心,所以聚類效果越來(lái)越好,最后把所有對(duì)象劃分為K個(gè)簇。
[0005] 傳統(tǒng)的K-means算法的具體步驟:
[0006] 輸入:聚類樹木K和包含N個(gè)對(duì)象的數(shù)據(jù)集X= {xl,x2,x3,x4, . . .xn}。
[0007] 輸出:K個(gè)聚類簇{Sl,s2,s3…sk},使目標(biāo)函數(shù)最小。
[0008] 具體步驟:
[0009] (1)從數(shù)據(jù)集X中隨機(jī)選擇K個(gè)對(duì)象作為初始聚類中心cl,c2,c3,…,ck;
[0010] (2)逐個(gè)將對(duì)象xi(i= 1,2, 3,…,n)按照歐式距離分配給最近的一個(gè)聚類中心cj,l^j^K;
[0011] (3)重新計(jì)算每個(gè)簇中新的聚類中心cj,
[0012] (4)直到K個(gè)聚類中心不再變化,準(zhǔn)則函數(shù)收斂。
[0013] 圖1為傳統(tǒng)的K-means算法的基本流程圖。
[0014] K-means算法是解決聚類問(wèn)題的經(jīng)典算法,這種算法簡(jiǎn)單快速。但是,傳統(tǒng)的 K-means算法有著對(duì)孤立點(diǎn)敏感的致命缺點(diǎn),如果數(shù)據(jù)集中存在孤立點(diǎn),那么k-means算法 的聚類效果就不是很理想。并且在聚類過(guò)程中對(duì)每一個(gè)屬性都同等對(duì)待,這樣就區(qū)分不出 不同的屬性對(duì)聚類結(jié)果的影響。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種基于k-means和 神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,在第一步只是抽取少數(shù)樣本,這樣在樣本中抽取到孤立點(diǎn) 的概率就很低,可以忽略不計(jì),并且采用BP神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性的權(quán)值,避免了每個(gè) 屬性對(duì)結(jié)果影響一樣。
[0016] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0017] -種基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,包括以下步驟:
[0018] (1)從總體數(shù)據(jù)中隨機(jī)抽樣,抽取部分?jǐn)?shù)據(jù)作為樣本數(shù)據(jù);
[0019] (2)對(duì)步驟⑴抽取的樣本數(shù)據(jù)進(jìn)行k-means聚類,計(jì)算出每個(gè)樣本數(shù)據(jù)所屬的類 別;
[0020] (3)將步驟(2)的聚類結(jié)果作為訓(xùn)練樣本,采用神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性每一層 的權(quán)值,并得到一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);
[0021] (4)將總體數(shù)據(jù)輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,計(jì)算出其所屬的類別。
[0022] 優(yōu)選的,所述神經(jīng)網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò)。
[0023] 優(yōu)選的,所述BP神經(jīng)網(wǎng)絡(luò)為3層或大于3層的前饋型BP網(wǎng)絡(luò)。
[0024] 優(yōu)選的,所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的30%。
[0025] 優(yōu)選的,所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的15%。
[0026] 優(yōu)選的,所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的5%。
[0027] 優(yōu)選的,所述k-means聚類的聚類數(shù)目為5。
[0028] 優(yōu)選的,所述步驟(1)中總體數(shù)據(jù)在隨機(jī)抽樣前先進(jìn)行數(shù)據(jù)預(yù)處理。
[0029] 優(yōu)選的,所述數(shù)據(jù)預(yù)處理采用中心化與標(biāo)準(zhǔn)化變換方法。
[0030] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
[0031] 1.本發(fā)明的方法在第一步只是隨機(jī)抽取總體數(shù)據(jù)中的少數(shù)樣本,這樣在樣本中抽 取到孤立點(diǎn)的概率就很低,可以忽略不計(jì),提高了聚類的正確率;
[0032] 2.本發(fā)明的方法采用BP神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性的權(quán)值,避免了每個(gè)屬性對(duì)結(jié) 果影響一樣,聚類效果更切合客戶細(xì)分的實(shí)際需求。
【附圖說(shuō)明】
[0033] 圖1為傳統(tǒng)的K-means算法的基本流程圖
[0034] 圖2為本發(fā)明客戶細(xì)分方法的具體流程圖
【具體實(shí)施方式】
[0035]下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0036] 本發(fā)明的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法具體實(shí)現(xiàn)步驟如下:
[0037] (1)從總體數(shù)據(jù)中隨機(jī)抽樣,抽取少部分?jǐn)?shù)據(jù)作為樣本;
[0038] (2)對(duì)第一步抽取的樣本數(shù)據(jù)進(jìn)行k-means聚類,計(jì)算出每個(gè)樣本所屬的類別;
[0039] (3)將第二步的聚類結(jié)果作為訓(xùn)練樣本,采用BP神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性每一層 的權(quán)值,并得到一個(gè)訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)。
[0040] (4)將總體數(shù)據(jù)輸入到第三步訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)中,計(jì)算出其所屬的類。
[0041] 作為本具體實(shí)施例的總體數(shù)據(jù)來(lái)自國(guó)內(nèi)某市銀行的個(gè)人理財(cái)業(yè)務(wù)系統(tǒng)中的客戶 分類數(shù)據(jù)。輸入有2000個(gè)銀行客戶樣本,每條記錄包括的屬性字段有:客戶編號(hào)、年齡、工 作年限、客戶月薪、本銀行存款數(shù)目、銀行使用次數(shù)、借貸狀況及住房情況,總共八個(gè)字段。 將銀行客戶客戶輸出為5大類,即高級(jí)客戶,大客戶,一般客戶,小客戶,潛在客戶。
[0042] 本發(fā)明的方法對(duì)客戶細(xì)分的具體流程圖如圖2所示,首先對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù) 處理。原始數(shù)據(jù)收集過(guò)程中可能因?yàn)槿藶榈钠?,?shù)據(jù)庫(kù)含有著不完整、含噪聲的數(shù)據(jù),同 時(shí)數(shù)據(jù)庫(kù)中記錄的各個(gè)字段代表不同特征,往往使用不同的度量單位,其值相差十分懸殊。 因此,必要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以提高數(shù)據(jù)質(zhì)量,從而使數(shù)據(jù)挖掘過(guò)程更加有效、分類更 加準(zhǔn)確。本發(fā)明方法的數(shù)據(jù)預(yù)處理采用中心化與標(biāo)準(zhǔn)化變換方法。中心化目的為了各字段 值都有相同的基點(diǎn),具體執(zhí)行按照下式進(jìn)行:
【主權(quán)項(xiàng)】
1. 一種基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于,包括以下步驟: (1) 從總體數(shù)據(jù)中隨機(jī)抽樣,抽取部分?jǐn)?shù)據(jù)作為樣本數(shù)據(jù); (2) 對(duì)步驟(1)抽取的樣本數(shù)據(jù)進(jìn)行k-means聚類,計(jì)算出每個(gè)樣本數(shù)據(jù)所屬的類別; (3) 將步驟(2)的聚類結(jié)果作為訓(xùn)練樣本,采用神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性每一層的權(quán) 值,并得到一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò); (4) 將總體數(shù)據(jù)輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,計(jì)算出其所屬的類別。
2. 根據(jù)權(quán)利要求1所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述神經(jīng)網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò)。
3. 根據(jù)權(quán)利要求2所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述BP神經(jīng)網(wǎng)絡(luò)為3層或大于3層的前饋型BP網(wǎng)絡(luò)。
4. 根據(jù)權(quán)利要求1所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的30%。
5. 根據(jù)權(quán)利要求4所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 其特征在于,所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的15%。
6. 根據(jù)權(quán)利要求5所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 其特征在于,所述部分?jǐn)?shù)據(jù)不大于總體數(shù)據(jù)的5%。
7. 根據(jù)權(quán)利要求1所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述k-means聚類的聚類數(shù)目為5。
8. 根據(jù)權(quán)利要求1所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述步驟(1)中總體數(shù)據(jù)在隨機(jī)抽樣前先進(jìn)行數(shù)據(jù)預(yù)處理。
9. 根據(jù)權(quán)利要求8所述的基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,其特征在于, 所述數(shù)據(jù)預(yù)處理采用中心化與標(biāo)準(zhǔn)化變換方法。
【專利摘要】本發(fā)明公開了一種基于k-means和神經(jīng)網(wǎng)絡(luò)聚類的客戶細(xì)分方法,包括步驟:(1)從總體數(shù)據(jù)中隨機(jī)抽樣,抽取部分?jǐn)?shù)據(jù)作為樣本數(shù)據(jù);(2)對(duì)步驟(1)抽取的樣本數(shù)據(jù)進(jìn)行k-means聚類,計(jì)算出每個(gè)樣本數(shù)據(jù)所屬的類別;(3)將步驟(2)的聚類結(jié)果作為訓(xùn)練樣本,采用神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性每一層的權(quán)值,并得到一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);(4)將總體數(shù)據(jù)輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,計(jì)算出其所屬的類別。本發(fā)明的方法在第一步只是抽取少數(shù)樣本,抽取到孤立點(diǎn)的概率很低,并且采用BP神經(jīng)網(wǎng)絡(luò)計(jì)算出每個(gè)屬性的權(quán)值,避免了每個(gè)屬性對(duì)結(jié)果影響一樣,從而克服了傳統(tǒng)的K-means聚類算法的缺點(diǎn),聚類效果更切合客戶細(xì)分的實(shí)際需求。
【IPC分類】G06N3-08, G06K9-62
【公開號(hào)】CN104850868
【申請(qǐng)?zhí)枴緾N201510323644
【發(fā)明人】劉念
【申請(qǐng)人】四川友聯(lián)信息技術(shù)有限公司
【公開日】2015年8月19日
【申請(qǐng)日】2015年6月12日