国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于MapReduce的大數(shù)據(jù)聚類集成方法

      文檔序號:6624316閱讀:204來源:國知局
      一種基于MapReduce的大數(shù)據(jù)聚類集成方法
      【專利摘要】本發(fā)明公開了一種基于MapReduce的大數(shù)據(jù)聚類集成方法,包括如下步驟:步驟1,大數(shù)據(jù)切分和管理;步驟2,采用多重K的聚類集成算法生成多個基聚類;步驟3,獲取集成關(guān)系;步驟4,確定最終聚類。本發(fā)明首先對原始數(shù)據(jù)進行分割,用切分好的非空小數(shù)據(jù)塊代替原數(shù)據(jù)中的點集進行聚類,減少數(shù)據(jù)規(guī)模和數(shù)據(jù)處理所耗費時間。本發(fā)明采用云計算MapReduce編程模型,使得聚類過程在分布式集群上并行完成,克服了單機算法在存儲和計算性能上的限制,從而有效處理大數(shù)據(jù),不斷地從中挖掘出有價值信息,為用戶提供可定制性和可擴展性,并優(yōu)化了算法執(zhí)行效率,適用處理大數(shù)據(jù)環(huán)境下的數(shù)據(jù)處理、分析與計算,能夠滿足不同用戶的需求。
      【專利說明】-種基于MapReduce的大數(shù)據(jù)聚類集成方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于大數(shù)據(jù)處理和挖掘【技術(shù)領(lǐng)域】,尤其是涉及一種基于MapReduce的大數(shù) 據(jù)聚類集成方法。

      【背景技術(shù)】
      [0002] 隨著云計算大數(shù)據(jù)時代的到來,社會信息化和網(wǎng)絡(luò)化的高速發(fā)展導致數(shù)據(jù)呈爆炸 式增長。據(jù)統(tǒng)計,平均每一秒都有200萬用戶在使用Google搜索,F(xiàn)acebook用戶每天共享 的數(shù)量超過40億。同時,各種監(jiān)測、感應設(shè)備也源源不斷的產(chǎn)生數(shù)據(jù),科學計算、醫(yī)療衛(wèi)生、 金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)不斷產(chǎn)生。這些數(shù)據(jù)背后隱藏著許多有價值的信息和 知識可被廣泛用于各種應用,如市場分析、欺詐檢測、顧客保有、產(chǎn)品控制和科學探索等。因 此對大數(shù)據(jù)進行快速有效的處理是十分必要的,具有廣闊的市場應用前景。
      [0003] 大數(shù)據(jù)是規(guī)模非常巨大和復雜的數(shù)據(jù)集,數(shù)據(jù)量達到PB、EB或ZB的級別,如果采 用傳統(tǒng)數(shù)據(jù)庫管理工具處理大數(shù)據(jù)(例如獲取、存儲、檢索、共享、分析和可視化)則會面臨 很多問題,如對數(shù)據(jù)庫高并發(fā)讀寫要求、對海量數(shù)據(jù)的高效率存儲和訪問需求、對數(shù)據(jù)庫高 可擴展性和高可用性的需求,傳統(tǒng)SQL等數(shù)據(jù)處理與分析方法在面臨大數(shù)據(jù)處理時沒有用 武之地,性能極低。


      【發(fā)明內(nèi)容】

      [0004] 為解決上述問題,本發(fā)明公開了一種基于MapReduce的大數(shù)據(jù)聚類集成方法,采 用MapReduce編程模型結(jié)合Kmeans聚類算法實現(xiàn)了大數(shù)據(jù)的快速有效處理,能夠不斷地從 數(shù)據(jù)中挖掘出有價值信息。
      [0005] 集成學習 (Ensemble Learning)是為某個問題訓練一組學習器,并將這些學習器 聯(lián)合起來執(zhí)行一定預測任務(wù)的一種機器學習技術(shù)。集成學習技術(shù)已經(jīng)廣泛的應用于生物 認證、傳感器故障容錯、字符識別、輻射源識別、語言學、醫(yī)學、交通、管理學等各個領(lǐng)域。聚 類分析是在一個數(shù)據(jù)集中,根據(jù)元素之間的相似性來將相似的元素劃分到同一組的一個過 程。因此,高質(zhì)量的聚類意味著,組(也可稱為"簇")內(nèi)的元素相似性達到最大,而組間元 素的相似性達到最小?,F(xiàn)有的集成學習算法中,當訓練集的規(guī)模較小時,集成學習的效果并 不明顯,有時還低于單個學習器的泛化性能。我們發(fā)現(xiàn),對于大數(shù)據(jù)環(huán)境下,采用集成學習 將具有較高的泛化性能?;诖?,本發(fā)明提供了基于MapReduce編程模型上的大數(shù)據(jù)集成 聚類學習方法:該方法對原始數(shù)據(jù)進行分割,用切分好的非空小數(shù)據(jù)塊代替原數(shù)據(jù)中的點 集進行聚類,減少數(shù)據(jù)規(guī)模和數(shù)據(jù)處理所耗費時間。
      [0006] MapReduce是Google開發(fā)的主要用于大規(guī)模(TB級)數(shù)據(jù)文件處理的編程模型, 執(zhí)行方式如圖1所示。其主要思想是通過"Map (映射)"和"Reduce (化簡)"的概念來構(gòu)成 運算基本單元,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計算機處 理,達到分布式運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯總輸出,即可并行處理海量數(shù)據(jù)。 它的一般形式如下:
      [0007] Map (k1; ->list (k2, v2)
      [0008] Reduce (k2, list (v2))->list (v2)
      [0009] 簡而言之,Map-Reduce編程模式將輸入數(shù)據(jù)文件劃分為M個獨立的數(shù)據(jù)分片 (split);然后分配給多個Worker啟動Μ個Map函數(shù)并行地執(zhí)行輸出到中間文件(本地 寫)、并將計算結(jié)果以key/value對形式輸出中間結(jié)果。中間結(jié)果key/value按照key分 組,執(zhí)行Reduce函數(shù),根據(jù)從Master獲得的中間文件位置信息,將Reduce命令發(fā)送給中間 文件所在節(jié)點執(zhí)行,計算并輸出最終結(jié)果,MapReduce的輸出存放在R個輸出文件中,可進 一步減少了傳送中間文件對帶寬的需求。
      [0010] MapReduce是依賴于HDFS實現(xiàn)的。通常MapReduce會將被計算的數(shù)據(jù)分為很多 小塊,HDFS會將每個塊復制若干份以確保系統(tǒng)的可靠性,同時它按照一定的規(guī)則將數(shù)據(jù)塊 放置在集群中的不同機器上,以便MapReduce在數(shù)據(jù)宿主機器上進行最便捷的計算。HDFS 是Google GFS的開源版本,一個高度容錯的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù) 訪問,適合存儲海量(PB級)的大文件(通常超過64M)。
      [0011] 雖然基于聚合方式的集成學習算法在大規(guī)模數(shù)據(jù)時具有良好的性能,但在實際應 用中如果每個數(shù)據(jù)塊Dj都用i種聚類算法學習集成(i = 1,2,···,πι,j = 1,2,…,n),由于 計算機內(nèi)在資源有限,當m,η值較大時,選擇的算法較多,數(shù)據(jù)集聚類較多時,僅用一臺機 器運算聚類集成算法效率極其低下。因此,本發(fā)明利用Map Reduce編程模型設(shè)計一種多重 K聚類集成算法,設(shè)計模型如圖2所示,將大數(shù)據(jù)切塊存儲到云平臺的分布式文件系統(tǒng)HDFS 中,Hadoop負責管理切塊數(shù)據(jù),其key值為所屬數(shù)據(jù)塊Dp計算集群中的計算機%對本地 存儲的相應切塊得采用η個聚類算法得到基聚類結(jié)果Q,對同機器各聚類結(jié)果采用一致性 方案進行Reduce過程(key值為機器號,value值為聚類結(jié)果)得到該機器的最終集成聚 類結(jié)果,從而達到并行有效處理大數(shù)據(jù)的目的,能進一步提高的數(shù)據(jù)處理性能和效率。
      [0012] 為了達到上述目的,本發(fā)明提供如下技術(shù)方案:
      [0013] -種基于MapReduce的大數(shù)據(jù)聚類集成方法,包括如下步驟:
      [0014] 步驟1,大數(shù)據(jù)切分和管理:將大數(shù)據(jù)切塊后,存儲到云平臺的分布式文件系統(tǒng) HDFS中,Hadoop負責管理切分后的數(shù)據(jù)塊,其key值為所屬數(shù)據(jù)塊Dp i = 1,2,…η,η為 劃分后的數(shù)據(jù)塊的數(shù)量;
      [0015] 步驟2,采用多重Κ的聚類集成算法生成多個基聚類:將Kmeans算法應用到大數(shù) 據(jù)集上Μ次,每次運算時都從一個預先定義好的k的分布S中隨機采樣一個數(shù)h,用&作 為kmeans的預定義簇的數(shù)目,從而得到η個基聚類結(jié)果,其中S為兩個整數(shù)之間的均勻分 布,S被置為(min(5, [N/4],min(20, [Ν/2])),Ν為數(shù)據(jù)點的數(shù)目,[X]表示對X四舍五入取 整;
      [0016] 步驟3,獲取集成關(guān)系:構(gòu)造共協(xié)關(guān)系矩陣,統(tǒng)計Μ個基聚類結(jié)果中兩個數(shù)據(jù)點被 劃分到同一簇中的次數(shù),用該次數(shù)作為權(quán)值賦給關(guān)系矩陣中對應的元素;
      [0017] 步驟4,確定最終聚類:對同機器各聚類結(jié)果采用一致性方案進行Reduce,得到該 機器的最終集成聚類結(jié)果。
      [0018] 具體的,所述步驟3中的共協(xié)關(guān)系矩陣通過以下公式獲得:
      [0019] WiXj = (i與j屬于同一簇的次數(shù))/基聚類的總數(shù);
      [0020] 任意兩個數(shù)據(jù)點i和j只要被劃分到同一組中時,關(guān)系矩陣對應的元素就自增1。
      [0021] 具體的,所述步驟4中采用一致性方案進行Reduce的過程如下:
      [0022] 將標準化后的關(guān)系矩陣轉(zhuǎn)化為一個無向帶權(quán)圖,所有數(shù)據(jù)點作為圖的頂點,關(guān)系 矩陣中每個元素的值轉(zhuǎn)化為其對應的兩個頂點之間的權(quán)值上;通過一個迭代,每次迭代的 過程中,對每個權(quán)值減去一個單位閾值,為負的權(quán)值則用0替代,頂點之間的權(quán)值為0則表 示該對頂點之間不連通,通過重復的對所有權(quán)值減去單位閾值,然后求該圖的連通子圖,當 某種連通子圖保持最多次數(shù)不變時,就認為該拓撲關(guān)系最穩(wěn)定,連通子圖的個數(shù)就是最終 簇的數(shù)目,該連通子圖就是最終的聚類結(jié)果。
      [0023] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點和有益效果:
      [0024] 本發(fā)明首先對原始數(shù)據(jù)進行分割,用切分好的非空小數(shù)據(jù)塊代替原數(shù)據(jù)中的點集 進行聚類,減少數(shù)據(jù)規(guī)模和數(shù)據(jù)處理所耗費時間。本發(fā)明采用云計算MapReduce編程模型, 使得聚類過程在分布式集群上并行完成,克服了單機算法在存儲和計算性能上的限制,從 而有效處理大數(shù)據(jù),不斷地從中挖掘出有價值信息,為用戶提供可定制性和可擴展性,并優(yōu) 化了算法執(zhí)行效率,適用處理大數(shù)據(jù)環(huán)境下的數(shù)據(jù)處理、分析與計算,能夠滿足不同用戶的 需求。

      【專利附圖】

      【附圖說明】
      [0025] 圖1為Google的MapReduce執(zhí)行流程圖;
      [0026] 圖2為本發(fā)明提供的基于MapReduce的大數(shù)據(jù)聚類集成方法模型圖;
      [0027] 圖3為基于MapReduce的大數(shù)據(jù)聚類集成方法的整體流程圖;
      [0028] 圖4為基于多重K的聚類集成算法原理示意圖。

      【具體實施方式】
      [0029] 以下將結(jié)合具體實施例對本發(fā)明提供的技術(shù)方案進行詳細說明,應理解下述具體 實施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
      [0030] 本發(fā)明提供了一種基于MapReduce的大數(shù)據(jù)聚類集成方法,流程圖如圖3所示, 首先將大數(shù)據(jù)切塊存儲到云平臺的分布式文件系統(tǒng)HDFS中,然后不斷地在數(shù)據(jù)集上應用 傳統(tǒng)Kmeans算法,通過隨機選擇一個聚類數(shù)據(jù)目k(k有一定的選取范圍,在參數(shù)設(shè)置中給 出),然后對原始數(shù)據(jù)應用kmeans聚類算法,不同的k值會得到不同的基聚類結(jié)果,不同的 基聚類結(jié)果是通過將數(shù)據(jù)集投影到不同的子空間而計算得到的,所有數(shù)據(jù)點和所有特征都 參與運算。在得到不同基聚類的基礎(chǔ)上,還需要通過一致性函數(shù)或共識函數(shù)將聚類集體中 的多個聚類結(jié)果進行結(jié)合以生成一個統(tǒng)一的聚類結(jié)果,本發(fā)明通過生成的不同基聚類結(jié)果 來構(gòu)建一個描述兩兩數(shù)據(jù)點之間關(guān)系的共協(xié)關(guān)系矩陣,最后再對得到關(guān)系矩陣確定最終聚 類集成結(jié)果。具體地說,本發(fā)明包括如下步驟:
      [0031] 步驟1,將大數(shù)據(jù)切塊成數(shù)據(jù)塊Dp并將這些數(shù)據(jù)塊切分至小數(shù)據(jù)片4后,存儲到 云平臺的分布式文件系統(tǒng)HDFS中,Hadoop負責管理切分后的數(shù)據(jù)塊,其key值為所屬數(shù)據(jù) 塊Dp i = 1,2,…η, η為劃分后的數(shù)據(jù)塊的數(shù)量。Hadoop作為Google的MapReduce算法 開源實現(xiàn),能夠把應用程序分割成許多很小的工作單元,每個單元可以在任何集群節(jié)點上 執(zhí)行或重復執(zhí)行。此外,Hadoop還提供一個分布式文件系統(tǒng)用來在各個計算節(jié)點上存儲數(shù) 據(jù),并提供了對數(shù)據(jù)讀寫的高吞吐率。許多單機算法都在Hadoop上予以重新實現(xiàn),為各種 算法處理海量數(shù)據(jù)提供了高可用性和可擴展性。
      [0032] 步驟2,采用多重K的聚類集成算法生成多個基聚類:多重K聚類算法原理如圖4 所示。
      [0033] 將Kmeans算法應用到大數(shù)據(jù)集(存儲在HDFS上的經(jīng)過切塊的大數(shù)據(jù))上Μ次, 即計算集群中的各個處理單元(這里的處理單元實質(zhì)為能夠獨立實現(xiàn)運算、存儲功能的單 元,并不限制為具體的計算機)針對本地存儲的數(shù)據(jù)塊并行地應用多次Kmeans算法進行運 算,每次運算時都從一個預先定義好的k的分布S中隨機采樣一個數(shù)kp用作為kmeans 的預定義簇的數(shù)目,運行Kmeans算法直至得到基聚類結(jié)果Q,從而得到η個基聚類結(jié)果。其 中S為兩個整數(shù)之間的均勻分布,S被置為(min(5, [N/4],min(20, [Ν/2])),Ν為數(shù)據(jù)點的 數(shù)目,[X]表示對X四舍五入取整。
      [0034] Kmeans算法的具體過程如下:首先接受輸入量k ;然后將η個數(shù)據(jù)對象(定點集 Ρ)劃分為k個聚類以便使得所獲得的聚類滿足以下條件:同一聚類中的對象相似度較高; 而不同聚類中的對象相似度較小。其中聚類相似度是利用各聚類中對象的均值所獲得一個 "中心點" (mean point)來進行計算的,優(yōu)化目標為給定點到其所屬子集中心點距離平方和 最小。
      [0035] 步驟3,獲取集成關(guān)系:構(gòu)造共協(xié)關(guān)系矩陣,統(tǒng)計Μ個基聚類結(jié)果中兩個數(shù)據(jù)點被 劃分到同一簇中的次數(shù),用該次數(shù)作為權(quán)值賦給關(guān)系矩陣中對應的元素。任意兩個數(shù)據(jù)點 只要被劃分到同一組中,關(guān)系矩陣對應的元素就自增1。
      [0036] 如果用i和j來代表兩個數(shù)據(jù)點,則共協(xié)關(guān)系矩陣Wi>Q_可以由下列公式表示 :
      [0037] Wi>Q_ = (i與j屬于同一簇的次數(shù))/基聚類的總數(shù)
      [0038] 步驟4,確定最終聚類:對同機器各聚類結(jié)果采用一致性方案進行Reduce (key值 為機器號,value值為聚類結(jié)果),得到該機器的最終集成聚類結(jié)果。
      [0039] Reduce過程將標準化后的關(guān)系矩陣轉(zhuǎn)化為一個無向帶權(quán)圖,所有數(shù)據(jù)點作為圖的 頂點,關(guān)系矩陣中每個元素的值轉(zhuǎn)化為其對應的兩個頂點之間的權(quán)值上。通過一個迭代,每 次迭代的過程中,對每個權(quán)值減去一個單位閾值(該閾值一般設(shè)為〇. 5左右,可根據(jù)需要調(diào) 整),為負的權(quán)值則用〇替代,頂點之間的權(quán)值為〇則表示該對頂點之間不連通。在這個迭 代過程中,最初的無向圖被劃分為多個子圖,連通子圖中數(shù)據(jù)點被認為劃分到同一簇中,圖 中的多個連通子圖便認為是數(shù)據(jù)的多個劃分。通過重復的對所有權(quán)值減去單位閾值,然后 求該圖的連通子圖,當某種連通子圖保持最多次數(shù)不變時,就認為該拓撲關(guān)系最穩(wěn)定,連通 子圖的個數(shù)就是最終簇的數(shù)目,該連通子圖就是最終的聚類結(jié)果。
      [0040] 本發(fā)明還提供了可行的具體實現(xiàn)方式,通過下述EPMap方法完成切塊數(shù)據(jù)的基聚 類學習,通過EPReduce方法生成同機器中Kmeans多重K算法最終聚類結(jié)果。必須說明的 是,EPMap方法和EPReduce方法的具體實現(xiàn)過程僅僅為一種示例,在具體實現(xiàn)本發(fā)明提供 的大數(shù)據(jù)聚類集成方法時,本領(lǐng)域內(nèi)技術(shù)人員在不違背本發(fā)明提供的整體思路的基礎(chǔ)上, 可以通過對具體的函數(shù)進行常規(guī)變形,這也屬于本發(fā)明的保護范圍。
      [0041] EPMap方法的輸入數(shù)據(jù)為:
      [0042] 數(shù)據(jù)集S ;分塊D (key),標記訓練實例;
      [0043] 產(chǎn)生基聚類的數(shù)目Μ ;
      [0044] Kmeans算法中k值的分布S ;
      [0045] 主要實現(xiàn)步驟如下:
      [0046] 初始化關(guān)系矩陣WnXn,矩陣內(nèi)元素初值為0 ;
      [0047] 循環(huán)Μ次;
      [0048] 從S中隨機取出一個值d ;
      [0049] 初始化閾值Θ用于創(chuàng)建基聚類;
      [0050] 將分塊i中訓練好的實例φ賦值給Vtrain并存儲于HDFS中的;
      [0051] 從HDFS中讀取所有測試實例,
      [0052] 用聚類算法Kmeans建立一個基聚類Cp
      [0053] Kmeans算法將S聚為d組;
      [0054] 如果聚類結(jié)果準確度大于事先設(shè)定的閾值Θ,
      [0055] 增值計算關(guān)系矩陣WnXn;
      [0056] 則保存這個基聚類用于預測實際數(shù)據(jù);
      [0057] 結(jié)束循環(huán)
      [0058] 通過EPMap方法,最終得到基聚類結(jié)果;
      [0059] EPReduce方法的輸入數(shù)據(jù)為:驗證集Lval,基聚類集合T = IA,C2,…,CT}
      [0060] 主要實現(xiàn)步驟如下:
      [0061]歸一化關(guān)系矩陣1>^;
      [0062] L從1到Μ循環(huán):
      [0063] 創(chuàng)建圖 G:V(G) = S,E(G)為 W[i][j]>l/M;
      [0064] 計算圖G的連通子圖數(shù)目c ;
      [0065] 將點(1/M, C)加入變量 f_cut ;
      [0066] 計算:
      [0067] = -Ef=1C|Cij/N)iog2(lC1l/N)
      [0068] 循環(huán)結(jié)束
      [0069] 對于 X: 1/M〈x〈(1+1) /M, f (X) = f (1/M)和 Η (X) = Η (1/M)
      [0070] 創(chuàng)建新圖,圖的邊滿足W[i] [j]>C
      [0071] C的選擇滿足f = f(c)關(guān)1且f = f(c)關(guān)1長度最長。
      [0072] 重新計算新圖的連通子圖。計算結(jié)果即為最終的聚類結(jié)果。
      [0073] 算法結(jié)束
      [0074] 通過EPReduce方法即可得到最終聚類結(jié)果。
      [0075] 本發(fā)明方案所公開的技術(shù)手段不僅限于上述實施方式所公開的技術(shù)手段,還包括 由以上技術(shù)特征任意組合所組成的技術(shù)方案。應當指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員 來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為 本發(fā)明的保護范圍。
      【權(quán)利要求】
      1. 一種基于MapReduce的大數(shù)據(jù)聚類集成方法,其特征在于,包括如下步驟: 步驟1,大數(shù)據(jù)切分和管理:將大數(shù)據(jù)切塊后,存儲到云平臺的分布式文件系統(tǒng)HDFS 中,Hadoop負責管理切分后的數(shù)據(jù)塊,其key值為所屬數(shù)據(jù)塊Dp i = 1,2, ···]!, η為劃分后 的數(shù)據(jù)塊的數(shù)量; 步驟2,采用多重Κ的聚類集成算法生成多個基聚類:將Kmeans算法應用到大數(shù)據(jù) 集上Μ次,每次運算時都從一個預先定義好的k的分布S中隨機采樣一個數(shù)h,用&作為 kmeans的預定義簇的數(shù)目,從而得到η個基聚類結(jié)果,其中S為兩個整數(shù)之間的均勻分布, S被置為(min(5, [N/4],min(20, [Ν/2])),Ν為數(shù)據(jù)點的數(shù)目,[X]表示對X四舍五入取整; 步驟3,獲取集成關(guān)系:構(gòu)造共協(xié)關(guān)系矩陣,統(tǒng)計Μ個基聚類結(jié)果中兩個數(shù)據(jù)點被劃分 到同一簇中的次數(shù),用該次數(shù)作為權(quán)值賦給關(guān)系矩陣中對應的元素; 步驟4,確定最終聚類:對同機器各聚類結(jié)果采用一致性方案進行Reduce,得到該機器 的最終集成聚類結(jié)果。
      2. 根據(jù)權(quán)利要求1所述的基于MapReduce的大數(shù)據(jù)聚類集成方法,其特征在于,所述步 驟3中的共協(xié)關(guān)系矩陣通過以下公式獲得: WiXj = (i與j屬于同一簇的次數(shù))/基聚類的總數(shù); 任意兩個數(shù)據(jù)點i和j只要被劃分到同一組中時,關(guān)系矩陣對應的元素就自增1。
      3. 根據(jù)權(quán)利要求1或2所述的基于MapReduce的大數(shù)據(jù)聚類集成方法,其特征在于,所 述步驟4中采用一致性方案進行Reduce的過程如下: 將標準化后的關(guān)系矩陣轉(zhuǎn)化為一個無向帶權(quán)圖,所有數(shù)據(jù)點作為圖的頂點,關(guān)系矩陣 中每個元素的值轉(zhuǎn)化為其對應的兩個頂點之間的權(quán)值上;通過一個迭代,每次迭代的過程 中,對每個權(quán)值減去一個單位閾值,為負的權(quán)值則用〇替代,頂點之間的權(quán)值為〇則表示該 對頂點之間不連通,通過重復的對所有權(quán)值減去單位閾值,然后求該圖的連通子圖,當某種 連通子圖保持最多次數(shù)不變時,就認為該拓撲關(guān)系最穩(wěn)定,連通子圖的個數(shù)就是最終簇的 數(shù)目,該連通子圖就是最終的聚類結(jié)果。
      【文檔編號】G06F17/30GK104156463SQ201410416065
      【公開日】2014年11月19日 申請日期:2014年8月21日 優(yōu)先權(quán)日:2014年8月21日
      【發(fā)明者】方巍, 文學志 申請人:南京信息工程大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1