国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于分布式計算平臺的層次聚類改進方法與流程

      文檔序號:12034732閱讀:649來源:國知局
      基于分布式計算平臺的層次聚類改進方法與流程

      本發(fā)明屬于大數(shù)據(jù)聚類算法技術領域,特別是基于分布式計算平臺的層次聚類方法。



      背景技術:

      birch(balancediterativereducingandclusteringusinghierarchies)自其產(chǎn)生就受到了廣泛的關注,它克服了凝聚聚類方法所面臨的兩個困難:(1)可伸縮性;(2)不能撤銷先前步驟所做的工作。聚類算法birch來源于zhang、ramakrishnan和livny的工作,他們創(chuàng)建的birch算法的最終結(jié)果是建立一棵類似b樹的聚類特征樹。聚類特征cf(clusterfeature)是birch算法的核心概念。cf正是采用三元組(n,ls,ss)的方式才達到了壓縮數(shù)據(jù)集的效果,從而使birch算能夠在有限的內(nèi)存和低io開銷的情況下得以運行。也正是源于birch算法的這些優(yōu)勢,越來越多的研究者也將目光投向了birch算法的并行化研究。

      隨著大數(shù)據(jù)技術的快速發(fā)展和日漸成熟,目前的birch算法還是無法解決將散列數(shù)據(jù)聚合成統(tǒng)一的簇,仍依賴于輸入數(shù)據(jù)的順序,亟待一個良好的算法來解決這個存在的問題。



      技術實現(xiàn)要素:

      本發(fā)明的目的是提供一種適用于對大數(shù)據(jù)聚類的性能提高的有效執(zhí)行方法,以實現(xiàn)在當今大數(shù)據(jù)時代對大數(shù)據(jù)挖掘聚類進行更精準性的操作,對以前的birch聚類算法輸入數(shù)據(jù)的處理,保證聚類的準確及離群點處理。

      基于分布式計算平臺的層次聚類改進方法,包括,

      s1、主節(jié)點和從節(jié)點上分別安裝有hadoop和spark集群,通過hdfs獲取數(shù)據(jù);

      s2、采用k-均值算法將數(shù)據(jù)聚類為n個簇,n的范圍為3~5的正整數(shù);

      s3、對n個簇進行全排列,形成順序不同的n!個序列,再利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進行計算;

      s4、對s3的計算結(jié)果根據(jù)數(shù)據(jù)簇的緊密性進行篩選,保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù),所述數(shù)據(jù)簇的緊密性指計算數(shù)據(jù)簇的中心點到數(shù)據(jù)簇各個點的距離和。

      s3中所述利用birch算法在spark平臺上計算的具體過程為:程序被提交到spark平臺后,為程序分配資源,將程序轉(zhuǎn)換并執(zhí)行,程序中有多個任務,每個任務根據(jù)數(shù)據(jù)集的寬依賴關系切分為若干stage,每個stage中包含一組task,每個task對應一個分區(qū),最后task被封裝好后放入executor的線程池中進行并行化計算。

      本發(fā)明是一種適用于數(shù)據(jù)挖掘算法中層次聚類算法的改進優(yōu)化方案,該方案基于k-均值算法和birch算法,首先對聚類數(shù)據(jù)使用k-均值算法進行聚合分類,然后對處理后的數(shù)據(jù)進行分簇排序,最后再利用birch算法進行聚合,從而增強數(shù)據(jù)聚合的質(zhì)量,提高聚合效率。為大數(shù)據(jù)聚類再次打下基礎。

      附圖說明

      圖1為本發(fā)明基于分布式計算平臺的層次聚類改進方法流程圖;

      圖2為圖1實施例中并行化處理流程圖。

      具體實施方式

      為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

      該基于spark平臺的針對于birch算法進行改進的方案,包含在以下具體步驟中:

      步驟1、數(shù)據(jù)來源:平臺包括安裝有ubuntu系統(tǒng)的虛擬機集群,共三臺主機,一個主節(jié)點,兩個從節(jié)點。

      步驟2、主節(jié)點和從節(jié)點分別安裝hadoop和spark集群,程序從hdfs上獲取給定的實驗數(shù)據(jù)。

      步驟3、針對讀取的數(shù)據(jù),首先利用k-均值算法,將數(shù)據(jù)粗略的聚類為n個簇,其中n為引入的參數(shù),對于n的取值,取3,4,5最合適。

      步驟4、針對n個簇,對數(shù)據(jù)進行全排列,形成順序不同的n!個序列。

      步驟5、將n!個序列依次利用birch算法在spark平臺上計算,spark平臺利用分區(qū)的調(diào)配,并行化進行計算。

      步驟6、記錄計算后的結(jié)果,進行比較篩選。保留聚類效果最好的一組數(shù)據(jù)。

      步驟2-2中對k-均值算法的結(jié)果進行全排列,獲取到數(shù)據(jù)的所有排列序列,最后利用birch算法來處理,總能找到最優(yōu)的一組數(shù)據(jù),有效的提高了聚類的質(zhì)量。



      技術特征:

      技術總結(jié)
      本發(fā)明公開一種基于分布式計算平臺的層次聚類改進方法,采用K?均值算法將數(shù)據(jù)聚類為N個簇,對N個簇進行全排列,形成順序不同的N!個序列,再利用BIRCH算法在Spark平臺上計算,Spark平臺利用分區(qū)的調(diào)配,并行化進行計算;根據(jù)數(shù)據(jù)簇的緊密性對結(jié)果進行篩選,保留數(shù)據(jù)簇緊密性最好且離群點個數(shù)最少的一組數(shù)據(jù)。本發(fā)明增強數(shù)據(jù)聚合的質(zhì)量,提高了聚合效率。

      技術研發(fā)人員:肖甫;劉磊;王少輝;沙樂天;王汝傳
      受保護的技術使用者:南京郵電大學
      技術研發(fā)日:2017.06.01
      技術公布日:2017.10.24
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1