基于分布式計算平臺的層次聚類改進方法與流程

文檔序號：12034732閱讀：649來源：國知局

本發(fā)明屬于大數(shù)據(jù)聚類算法技術領域，特別是基于分布式計算平臺的層次聚類方法。

背景技術：

birch(balancediterativereducingandclusteringusinghierarchies)自其產(chǎn)生就受到了廣泛的關注，它克服了凝聚聚類方法所面臨的兩個困難：(1)可伸縮性；(2)不能撤銷先前步驟所做的工作。聚類算法birch來源于zhang、ramakrishnan和livny的工作，他們創(chuàng)建的birch算法的最終結(jié)果是建立一棵類似b樹的聚類特征樹。聚類特征cf(clusterfeature)是birch算法的核心概念。cf正是采用三元組(n，ls，ss)的方式才達到了壓縮數(shù)據(jù)集的效果，從而使birch算能夠在有限的內(nèi)存和低io開銷的情況下得以運行。也正是源于birch算法的這些優(yōu)勢，越來越多的研究者也將目光投向了birch算法的并行化研究。

隨著大數(shù)據(jù)技術的快速發(fā)展和日漸成熟，目前的birch算法還是無法解決將散列數(shù)據(jù)聚合成統(tǒng)一的簇，仍依賴于輸入數(shù)據(jù)的順序，亟待一個良好的算法來解決這個存在的問題。

技術實現(xiàn)要素：

本發(fā)明的目的是提供一種適用于對大數(shù)據(jù)聚類的性能提高的有效執(zhí)行方法，以實現(xiàn)在當今大數(shù)據(jù)時代對大數(shù)據(jù)挖掘聚類進行更精準性的操作，對以前的birch聚類算法輸入數(shù)據(jù)的處理，保證聚類的準確及離群點處理。

基于分布式計算平臺的層次聚類改進方法，包括，

s1、主節(jié)點和從節(jié)點上分別安裝有hadoop和spark集群，通過hdfs獲取數(shù)據(jù)；

s2、采用k-均值算法將數(shù)據(jù)聚類為n個簇，n的范圍為3～5的正整數(shù)；

s3、對n個簇進行全排列，形成順序不同的n！個序列，再利用birch算法在spark平臺上計算，spark平臺利用分區(qū)的調(diào)配，并行化進行計算；

s4、對s3的計算結(jié)果根據(jù)數(shù)據(jù)簇的緊密性進行篩選，保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)，所述數(shù)據(jù)簇的緊密性指計算數(shù)據(jù)簇的中心點到數(shù)據(jù)簇各個點的距離和。

s3中所述利用birch算法在spark平臺上計算的具體過程為：程序被提交到spark平臺后，為程序分配資源，將程序轉(zhuǎn)換并執(zhí)行，程序中有多個任務，每個任務根據(jù)數(shù)據(jù)集的寬依賴關系切分為若干stage，每個stage中包含一組task，每個task對應一個分區(qū)，最后task被封裝好后放入executor的線程池中進行并行化計算。

本發(fā)明是一種適用于數(shù)據(jù)挖掘算法中層次聚類算法的改進優(yōu)化方案，該方案基于k-均值算法和birch算法，首先對聚類數(shù)據(jù)使用k-均值算法進行聚合分類，然后對處理后的數(shù)據(jù)進行分簇排序，最后再利用birch算法進行聚合，從而增強數(shù)據(jù)聚合的質(zhì)量，提高聚合效率。為大數(shù)據(jù)聚類再次打下基礎。

附圖說明

圖1為本發(fā)明基于分布式計算平臺的層次聚類改進方法流程圖；

圖2為圖1實施例中并行化處理流程圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

該基于spark平臺的針對于birch算法進行改進的方案，包含在以下具體步驟中：

步驟1、數(shù)據(jù)來源：平臺包括安裝有ubuntu系統(tǒng)的虛擬機集群，共三臺主機，一個主節(jié)點，兩個從節(jié)點。

步驟2、主節(jié)點和從節(jié)點分別安裝hadoop和spark集群，程序從hdfs上獲取給定的實驗數(shù)據(jù)。

步驟3、針對讀取的數(shù)據(jù)，首先利用k-均值算法，將數(shù)據(jù)粗略的聚類為n個簇，其中n為引入的參數(shù)，對于n的取值，取3,4,5最合適。

步驟4、針對n個簇，對數(shù)據(jù)進行全排列，形成順序不同的n！個序列。

步驟5、將n！個序列依次利用birch算法在spark平臺上計算，spark平臺利用分區(qū)的調(diào)配，并行化進行計算。

步驟6、記錄計算后的結(jié)果，進行比較篩選。保留聚類效果最好的一組數(shù)據(jù)。

步驟2-2中對k-均值算法的結(jié)果進行全排列，獲取到數(shù)據(jù)的所有排列序列，最后利用birch算法來處理，總能找到最優(yōu)的一組數(shù)據(jù)，有效的提高了聚類的質(zhì)量。

技術特征：

技術總結(jié)
本發(fā)明公開一種基于分布式計算平臺的層次聚類改進方法，采用K?均值算法將數(shù)據(jù)聚類為N個簇，對N個簇進行全排列，形成順序不同的N！個序列，再利用BIRCH算法在Spark平臺上計算，Spark平臺利用分區(qū)的調(diào)配，并行化進行計算；根據(jù)數(shù)據(jù)簇的緊密性對結(jié)果進行篩選，保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)。本發(fā)明增強數(shù)據(jù)聚合的質(zhì)量，提高了聚合效率。

技術研發(fā)人員：肖甫;劉磊;王少輝;沙樂天;王汝傳
受保護的技術使用者：南京郵電大學
技術研發(fā)日：2017.06.01
技術公布日：2017.10.24

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：肖甫;劉磊;王少輝;沙樂天;王汝傳
技術所有人：南京郵電大學
我是此專利的發(fā)明人

上一篇：分布式光伏遠程設計SaaS系統(tǒng)及方法與流程
上一篇：基于軌跡編碼的軌跡查詢方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于分布式計算平臺的層次聚類改進方法與流程