本發(fā)明屬于大數(shù)據(jù)聚類算法技術領域,特別是基于分布式計算平臺的層次聚類方法。
背景技術:
birch(balancediterativereducingandclusteringusinghierarchies)自其產(chǎn)生就受到了廣泛的關注,它克服了凝聚聚類方法所面臨的兩個困難:(1)可伸縮性;(2)不能撤銷先前步驟所做的工作。聚類算法birch來源于zhang、ramakrishnan和livny的工作,他們創(chuàng)建的birch算法的最終結(jié)果是建立一棵類似b樹的聚類特征樹。聚類特征cf(clusterfeature)是birch算法的核心概念。cf正是采用三元組(n,ls,ss)的方式才達到了壓縮數(shù)據(jù)集的效果,從而使birch算能夠在有限的內(nèi)存和低io開銷的情況下得以運行。也正是源于birch算法的這些優(yōu)勢,越來越多的研究者也將目光投向了birch算法的并行化研究。
隨著大數(shù)據(jù)技術的快速發(fā)展和日漸成熟,目前的birch算法還是無法解決將散列數(shù)據(jù)聚合成統(tǒng)一的簇,仍依賴于輸入數(shù)據(jù)的順序,亟待一個良好的算法來解決這個存在的問題。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種適用于對大數(shù)據(jù)聚類的性能提高的有效執(zhí)行方法,以實現(xiàn)在當今大數(shù)據(jù)時代對大數(shù)據(jù)挖掘聚類進行更精準性的操作,對以前的birch聚類算法輸入數(shù)據(jù)的處理,保證聚類的準確及離群點處理。
基于分布式計算平臺的層次聚類改進方法,包括,
s1、主節(jié)點和從節(jié)點上分別安裝有hadoop和spark集群,通過hdfs獲取數(shù)據(jù);
s2、采用k-均值算法將數(shù)據(jù)聚類為n個簇,n的范圍為3~5的正整數(shù);
s3、對n個簇進行全排列,形成順序不同的n!個序列,再利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進行計算;
s4、對s3的計算結(jié)果根據(jù)數(shù)據(jù)簇的緊密性進行篩選,保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù),所述數(shù)據(jù)簇的緊密性指計算數(shù)據(jù)簇的中心點到數(shù)據(jù)簇各個點的距離和。
s3中所述利用birch算法在spark平臺上計算的具體過程為:程序被提交到spark平臺后,為程序分配資源,將程序轉(zhuǎn)換并執(zhí)行,程序中有多個任務,每個任務根據(jù)數(shù)據(jù)集的寬依賴關系切分為若干stage,每個stage中包含一組task,每個task對應一個分區(qū),最后task被封裝好后放入executor的線程池中進行并行化計算。
本發(fā)明是一種適用于數(shù)據(jù)挖掘算法中層次聚類算法的改進優(yōu)化方案,該方案基于k-均值算法和birch算法,首先對聚類數(shù)據(jù)使用k-均值算法進行聚合分類,然后對處理后的數(shù)據(jù)進行分簇排序,最后再利用birch算法進行聚合,從而增強數(shù)據(jù)聚合的質(zhì)量,提高聚合效率。為大數(shù)據(jù)聚類再次打下基礎。
附圖說明
圖1為本發(fā)明基于分布式計算平臺的層次聚類改進方法流程圖;
圖2為圖1實施例中并行化處理流程圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
該基于spark平臺的針對于birch算法進行改進的方案,包含在以下具體步驟中:
步驟1、數(shù)據(jù)來源:平臺包括安裝有ubuntu系統(tǒng)的虛擬機集群,共三臺主機,一個主節(jié)點,兩個從節(jié)點。
步驟2、主節(jié)點和從節(jié)點分別安裝hadoop和spark集群,程序從hdfs上獲取給定的實驗數(shù)據(jù)。
步驟3、針對讀取的數(shù)據(jù),首先利用k-均值算法,將數(shù)據(jù)粗略的聚類為n個簇,其中n為引入的參數(shù),對于n的取值,取3,4,5最合適。
步驟4、針對n個簇,對數(shù)據(jù)進行全排列,形成順序不同的n!個序列。
步驟5、將n!個序列依次利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進行計算。
步驟6、記錄計算后的結(jié)果,進行比較篩選。保留聚類效果最好的一組數(shù)據(jù)。
步驟2-2中對k-均值算法的結(jié)果進行全排列,獲取到數(shù)據(jù)的所有排列序列,最后利用birch算法來處理,總能找到最優(yōu)的一組數(shù)據(jù),有效的提高了聚類的質(zhì)量。