數(shù)據(jù)挖掘及分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘及分類方法,更具體地,涉及基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
【背景技術(shù)】
[0002]目前,隨著計算機和網(wǎng)絡(luò)應(yīng)用的日益廣泛以及不同領(lǐng)域的業(yè)務(wù)種類的日益豐富,對特定的對象進行有效的分類以便針對不同類別的對象實施不同的處理方案。
[0003]在現(xiàn)有的技術(shù)方案中,通常根據(jù)與目標對象相關(guān)聯(lián)的單一屬性數(shù)據(jù)來對目標對象進行分類,即基于每個目標對象的某個特定的屬性數(shù)據(jù)的值對目標對象進行分類。
[0004]然而,現(xiàn)有的技術(shù)方案存在如下問題:由于僅僅基于單一屬性數(shù)據(jù)對目標對象進行分類,故分類結(jié)果的精確度較低。
[0005]因此,存在如下需求:提供能夠根據(jù)目標對象的多個屬性數(shù)據(jù)的值來挖掘和分類目標對象的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
【發(fā)明內(nèi)容】
[0006]為了解決上述現(xiàn)有技術(shù)方案所存在的問題,本發(fā)明提出了能夠根據(jù)目標對象的多個屬性數(shù)據(jù)的值來挖掘和分類目標對象的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
[0007]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
一種數(shù)據(jù)挖掘及分類方法,所述數(shù)據(jù)挖掘及分類方法包括下列步驟:
(Al)基于預(yù)定規(guī)則從目標數(shù)據(jù)集中收集目標對象的至少一個屬性數(shù)據(jù)的值,并且隨之針對每個目標對象,將與該目標對象對應(yīng)的至少一個屬性數(shù)據(jù)的值表示為屬性向量;
(A2)針對所述屬性向量執(zhí)行基于聚類處理的分類操作,以獲得所述屬性向量的分類結(jié)果,所述分類結(jié)果指示每個屬性向量所對應(yīng)的目標對象的分類。
[0008]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進一步包括:(BI)規(guī)范化初始的屬性向量,以消除屬性向量中的不同屬性的取值差異所引入的數(shù)據(jù)偏移。
[0009]在上面所公開的方案中,優(yōu)選地,所述步驟(BI)進一步包括:使用z-score規(guī)范化過程對初始的屬性向量進行規(guī)范化,其包括:針對屬性向量中的任一屬性值A(chǔ),使得規(guī)范化后的值A(chǔ)nrat是該屬性值A(chǔ)與該屬性值的均值之差除以該屬性值的標準差而得到的商值。
[0010]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進一步包括:(B2)針對規(guī)范化后的屬性向量進行2-類聚類處理,其包括:(Cl)確定兩個類別的“種子”向量以將其作為聚類中心;(C2)利用所確定的聚類中心并以Kmeans聚類處理過程對所述規(guī)范化后的屬性向量進行迭代聚類。
[0011]在上面所公開的方案中,優(yōu)選地,所述步驟(Cl)進一步包括:將所有已知的第一類目標對象所對應(yīng)的屬性向量在向量空間中的幾何中心作為第一聚類中心,并且將所有已知的第二類目標對象所對應(yīng)的屬性向量在向量空間中的幾何中心作為第二聚類中心。
[0012]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進一步包括:(B3)從被聚類到第一聚類中心的屬性向量群中挑選出其所對應(yīng)的目標對象原本屬于第二類目標對象的屬性向量,以構(gòu)成第一部分的潛在對應(yīng)于第一類目標對象的屬性向量。
[0013]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進一步包括:(B4)對被聚類到第二聚類中心的屬性向量進行離群點分析,所述離群點分析包括:(1)將距所述第二聚類中心的距離大于預(yù)定的離群距離閾值的屬性向量確定為離群點;(2)以如下方式篩選所確定的離群點:將位于以第一聚類中心和第二聚類中心之間的距離為直徑并且所述第一聚類中心和第二聚類中心在其表面上的向量空間內(nèi)的離群點構(gòu)成第二部分的潛在對應(yīng)于第一類目標對象的屬性向量。
[0014]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進一步包括:(B5)合并所述第一部分的潛在對應(yīng)于第一類目標對象的屬性向量和所述第二部分的潛在對應(yīng)于第一類目標對象的屬性向量以獲得分類結(jié)果。
[0015]在上面所公開的方案中,優(yōu)選地,所述數(shù)據(jù)挖掘及分類方法以分布式計算的方式被實現(xiàn)。
[0016]本發(fā)明所公開的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法具有以下優(yōu)點:能夠根據(jù)目標對象的多個屬性數(shù)據(jù)的值來挖掘和分類目標對象并且具有良好地可擴展性,從而顯著的提高了分類準確性。
【附圖說明】
[0017]結(jié)合附圖,本發(fā)明的技術(shù)特征以及優(yōu)點將會被本領(lǐng)域技術(shù)人員更好地理解,其中:
圖1是根據(jù)本發(fā)明的實施例的數(shù)據(jù)挖掘及分類方法的流程圖。
[0018]圖2是根據(jù)本發(fā)明的實施例的數(shù)據(jù)挖掘及分類方法中的離群點分析及篩選基本原理的示意圖。
【具體實施方式】
[0019]圖1是根據(jù)本發(fā)明的實施例的數(shù)據(jù)挖掘及分類方法的流程圖。如圖1所示,本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法包括下列步驟:(Al)基于預(yù)定規(guī)則從目標數(shù)據(jù)集(例如金融領(lǐng)域中的交易記錄集合)中收集目標對象(例如金融卡用戶)的至少一個屬性數(shù)據(jù)(例如消費金額、消費次數(shù)、消費場景等等)的值,并且隨之針對每個目標對象,將與該目標對象對應(yīng)的至少一個屬性數(shù)據(jù)的值表示為屬性向量(例如,屬性向量的每一位代表可以描述金融卡消費行為的不同含義,如金融卡的消費金額、消費次數(shù)、消費時間等等,并且屬性向量的位數(shù)可以任意定制和擴展,即可以采用任意多的指標來描述金融卡的消費行為);(A2)針對所述屬性向量執(zhí)行基于聚類處理的分類操作,以獲得所述屬性向量的分類結(jié)果,所述分類結(jié)果指示每個屬性向量所對應(yīng)的目標對象的分類。
[0020]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述屬性向量的位數(shù)能夠根據(jù)實際需求而被任意擴展。
[0021]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述基于聚類處理的分類操作進一步包括:(BI)規(guī)范化初始的屬性向量,以消除屬性向量中的不同屬性的取值差異所引入的數(shù)據(jù)偏移(這也可以提高后續(xù)處理步驟的迭代速率)。
[0022]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述步驟(BI)進一步包括:使用Z-score規(guī)范化過程對初始的屬性向量進行規(guī)范化,其包括:針對屬性向量中的任一屬性值A(chǔ),使得規(guī)范化后的值A(chǔ)nrat是該屬性值A(chǔ)與該屬性值的均值之差除以該屬性值的標準差而得到的商值(其中,所述均值和所述標準差是針對所有屬性向量中對應(yīng)該屬性值的位的值而言的)。
[0023]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述基于聚類處理的分類操作進一步包括:(B2)針對規(guī)范化后的屬性向量進行2-類聚類處理,其包括:(C1)確定兩個類別的“種子”向量以將其作為聚類中心;(C2)利用所確定的聚類中心并以Kmeans聚類處理過程對所述規(guī)范化后的屬性向量進行迭代聚類。
[0024]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述步驟(Cl)進一步包括:將所有已知的第一類目標對象(例如金融領(lǐng)域中的高端持卡人,諸如白金卡持卡人)所對應(yīng)