国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于最大最小距離和K-means的自適應(yīng)聚類方法

      文檔序號:6633404閱讀:2236來源:國知局
      一種基于最大最小距離和K-means的自適應(yīng)聚類方法
      【專利摘要】本發(fā)明公開了一種基于最大最小距離和K-means的自適應(yīng)聚類方法,該方法解決了傳統(tǒng)K-means聚類算法存在的對初始中心敏感,以及簇個數(shù)需事先確定的問題。本發(fā)明是一種策略性方法。本發(fā)明對初始中心以及新增簇的初始中心的選擇都不是隨機的,而是經(jīng)過計算得到的,以數(shù)據(jù)(子)集中分別與相距最大的兩個點相距最小的兩個點作為初始中心,能夠有效地避免選取到孤立點作為初始中心,同時能有效地減少聚類過程的迭代次數(shù),并得到較好的聚類結(jié)果;本發(fā)明針對各簇SSE(誤差平方和)情況和總的SSE變化趨勢決定是否增加簇以及是否結(jié)束聚類,從而能自適應(yīng)確定簇數(shù),特別適合那些簇數(shù)難以確定的應(yīng)用場景。
      【專利說明】-種基于最大最小距離和K-means的自適應(yīng)聚類方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種基于最大最小距離和K-means聚類算法的自適應(yīng)聚類方法,屬于 數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。

      【背景技術(shù)】
      [0002] 聚類分析將數(shù)據(jù)劃分成有意義或有用的組(簇),其目標(biāo)為:組內(nèi)的對象相互之間 是相似的,而不同組中的對象是不同的。組內(nèi)的相似性越大,組間差別越大,聚類就越好。在 某種意義下,聚類分析只是解決其他問題的起點。在信息檢索方面,萬維網(wǎng)包含數(shù)以億計的 Web頁面,網(wǎng)絡(luò)搜索引擎可能返回數(shù)以千計的頁面。可以使用聚類將搜索結(jié)果分成若干簇, 每個簇捕獲查詢的某個特定方面,每個類別(簇)又可以劃分成若干子類別(子簇),從而 產(chǎn)生一個層次結(jié)構(gòu),幫助用戶進一步探索查詢結(jié)果。在氣候方面,聚類分析已經(jīng)用來發(fā)現(xiàn)對 陸地氣候具有顯著影響的極地和海洋大氣壓力模式。在心里學(xué)和醫(yī)學(xué)方面,聚類已經(jīng)用來 識別不同類型的抑郁癥,同時聚類分析也可以用來檢測疾病的時間和空間分布模式。因此 無論是旨在理解還是實用,聚類分析在諸多領(lǐng)域都扮演著重要的角色,這些領(lǐng)域包括:統(tǒng)計 學(xué)、模式識別、信息檢索、機器學(xué)習(xí)和數(shù)據(jù)挖掘。
      [0003] 國際權(quán)威學(xué)術(shù)會議;[EEE International Conference on Data Mining (ICDM) 2006 年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法,K-means聚類算法是其中之一。K-means 算法比較簡單,首先,選擇K個初始中心,其中K是用戶指定的參數(shù),即所期望的簇的個數(shù)。 將每個點劃分到最近的中心,而劃分到一個中心的點集為一個簇。然后,計算各簇的質(zhì)心, 將其作為各簇的中心。重復(fù)劃分點和更新簇中心步驟,直到簇不再發(fā)生變化,或者等價地, 直到中心不發(fā)生變化。然而,隨機地選擇K-means聚類算法初始中心,不僅會使聚類陷入局 部最優(yōu)解,而且可能得不到最優(yōu)的聚類結(jié)果。選擇合適的初始中心,不僅可以減少聚類過程 的迭代次數(shù),而且可以提高聚類的效果,而且隨機選取初始中心可能會選取到孤立點作為 初始中心,導(dǎo)致迭代次數(shù)過多,抑或得到不合理的聚類結(jié)果。K-means聚類算法不僅對初始 中心敏感,同時簇個數(shù)的選擇也是影響聚類結(jié)果的重要因素。而本發(fā)明能夠較好地解決上 面的問題。


      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明目的在于提供一種基于最大最小距離和K-means聚類算法的自適應(yīng)聚類 方法,該方法解決了傳統(tǒng)K-means聚類算法存在的對初始中心敏感,以及簇個數(shù)需事先確 定的問題。該方法能有效地避免選取到孤立點作為初始中心,同時能有效地減少聚類過程 的迭代次數(shù),并且能得到較好的聚類結(jié)果。
      [0005] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:本發(fā)明是一種策略性方法。K-means 是基于原型的、劃分的聚類技術(shù),以其簡單的算法、較快的聚類速度和穩(wěn)定的聚類結(jié)果得到 了廣泛應(yīng)用,然而基本K-means算法還存在一些問題,比如K-means難處理非球形的簇和不 同大小的簇,并且受噪聲和離群點的影響。同時聚類結(jié)果也很受聚類中心個數(shù)和初始中心 選擇的影響。
      [0006] 本發(fā)明針對K-means聚類算法的缺點提出了一個基于最大最小距離和K-means算 法,以數(shù)據(jù)集總的SSE(Sum of Square Error,誤差平方和)出現(xiàn)拐點作為聚類結(jié)束條件的 自適應(yīng)聚類方法。該方法對初始中心的選擇不是隨機的,而是經(jīng)過計算得到的,可以較有效 地避免選取到孤立點作為初始中心,同時能有效地減少聚類過程的迭代次數(shù),并得到較好 的聚類結(jié)果;此外針對各簇SSE情況和總的SSE變化趨勢決定是否增加簇以及是否結(jié)束聚 類,從而能自適應(yīng)確定簇數(shù),特別適合那些簇數(shù)難以確定的應(yīng)用場景。
      [0007] 傳統(tǒng)K-means聚類算法是將n個數(shù)據(jù)點劃分到K個簇中,使每個數(shù)據(jù)點到其簇中 心的距離之和最小,算法處理過程:
      [0008] (1)隨機選擇K個數(shù)據(jù)點作為初始中心
      [0009] (2)將每個數(shù)據(jù)點劃分到最近的中心,形成K個簇
      [0010] (3)計算每個簇的質(zhì)心,將其作為簇的中心
      [0011] (4)重復(fù)步驟(2)和(3)直到中心不再發(fā)生變化
      [0012] 本發(fā)明中使用如下的定義和計算公式:
      [0013] (1)數(shù)據(jù)點之間的相似程度可以通過計算兩兩數(shù)據(jù)之間的距離來確定,歐氏距離 是最為人所知的距離測度,在n維歐式空間中,每個點都是n維實數(shù)向量,空間中X和y兩 點之間的歐幾里得距離定義為:
      [0014]

      【權(quán)利要求】
      1. 一種基于最大最小距離和κ-means聚類算法的自適應(yīng)聚類方法,其特征在于,所述 方法對數(shù)據(jù)集S = Ix1, x2, ...,xn}的聚類包括如下步驟: 步驟1 :計算數(shù)據(jù)集S中任意兩個數(shù)據(jù)點之間的歐幾里得距離; 步驟2 :找到數(shù)據(jù)集S中相距最遠的兩個點Xi和Xj,再找到距離Xi最近的點X p和距離 Xj最近的點Xtl ; 步驟3:將Xp和Xq作為初始聚類(簇)中心,此時聚類(簇)中心集合Cw = {Xp,X(1}, 另設(shè) t = 1,SSE(〇); 步驟4 :采用K-means聚類算法,劃分?jǐn)?shù)據(jù)集S、更新各個簇中心,得到新的簇中心集合 c(t)和 |c(t)| 個簇,此時 S = Lk ; k=l 步驟5:分別計算各個簇中各點到簇中心的距離平方和XWf,hl,2,...,|C^|,并累加 得到總的誤差平方和SSEh
      ? ,其中S為閾值,轉(zhuǎn)步驟9 ;否則繼續(xù); 步驟6 :選擇&4η/|&|最大的簇,記為Smax,其中心記為Cmax,去除C (t)中該簇的聚類中 心,即令 Cw =Cw-IcmaJ ; 步驟7 :找到數(shù)據(jù)子集Smax中相距最遠的兩個點Xi和Xj,再找到距離X i最近的點Xp和 距離Xj最近的點Xtl ; 步驟8 :將Xp和Xq并入Cw,即令Cw = C(t) U {Xp,Xj,再令t = t+Ι,轉(zhuǎn)步驟4 ; 步驟9 :取上一次聚類結(jié)果為最終聚類結(jié)果,即最終的聚類中心集C = C(w)。
      2. 根據(jù)權(quán)利要求1所述的一種基于最大最小距離和K-means聚類算法的自適應(yīng)聚類方 法,其特征在于:所述方法對初始中心以及新增簇的初始中心的選擇都不是隨機的,而是經(jīng) 過計算得到的。
      3. 根據(jù)權(quán)利要求1所述的一種基于最大最小距離和K-means聚類算法的自適應(yīng)聚類方 法,其特征在于:所述方法應(yīng)用于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
      【文檔編號】G06F17/30GK104376057SQ201410621601
      【公開日】2015年2月25日 申請日期:2014年11月6日 優(yōu)先權(quán)日:2014年11月6日
      【發(fā)明者】成衛(wèi)青, 盧艷紅, 仲偉偉 申請人:南京郵電大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1