国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法

      文檔序號(hào):10489408閱讀:1215來(lái)源:國(guó)知局
      一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
      【專利摘要】本發(fā)明提出一個(gè)新的基于策略權(quán)重的K?means數(shù)據(jù)聚類方法,包括以下步驟:Step1:執(zhí)行K?Means數(shù)據(jù)聚類算法五次;Step2:求最小平方差的中心點(diǎn);Step3:執(zhí)行分群動(dòng)作;Step4:重新計(jì)算新的中心點(diǎn);Step5:分群終止條件。本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低,即分群的速度很快,可以有效改善處理大量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形,可以得到整體最佳解。所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非常快速。對(duì)于大量數(shù)據(jù)聚類效果明顯,具有良好的實(shí)用價(jià)值。
      【專利說(shuō)明】
      一種基于權(quán)重策略的K-Means數(shù)據(jù)聚類方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及數(shù)據(jù)挖掘中數(shù)據(jù)聚類技術(shù)領(lǐng)域,具體涉及一種基于權(quán)重策略的K-Means聚類方法。 技術(shù)背景
      [0002] 處于信息爆炸的今日,數(shù)據(jù)不斷的大量增加,因此如何將大量數(shù)據(jù)作快速的數(shù)據(jù) 挖掘及知識(shí)獲取,已成為現(xiàn)代信息管理領(lǐng)域中最重要的議題之一。而在這些數(shù)據(jù)挖掘的議 題中,數(shù)據(jù)聚類是最常被使用的方法之一。因?yàn)閿?shù)據(jù)聚類不僅是一個(gè)單獨(dú)的數(shù)據(jù)挖掘程序, 而且它也是數(shù)據(jù)獲取的預(yù)先處理步驟。因?yàn)閿?shù)據(jù)聚類可以先分出不同的群體,然后再針對(duì) 個(gè)別的群體去做進(jìn)一步的分析,以便獲得有用的信息。
      [0003] 數(shù)據(jù)聚類(Data Clustering)是數(shù)據(jù)挖掘領(lǐng)域中非常熱門而且重要的研究主題。 數(shù)據(jù)聚類能讓數(shù)據(jù)更簡(jiǎn)化、建立分類規(guī)范以及挖掘未知的假設(shè),使用范圍十分廣泛。由于數(shù) 據(jù)的特質(zhì)不盡相同,因此,到目前為止,并沒(méi)有一種數(shù)據(jù)聚類算法能夠?qū)λ蟹N類的數(shù)據(jù)產(chǎn) 生最佳的聚類效果。數(shù)據(jù)聚類運(yùn)作時(shí)會(huì)遇到一些問(wèn)題,例如群組分布圖的傾向、群組數(shù)的選 定、噪聲數(shù)據(jù)及高維度的大量數(shù)據(jù)等問(wèn)題,也使得數(shù)據(jù)聚類的應(yīng)用受到限制,數(shù)據(jù)聚類的結(jié) 果也發(fā)生誤差。
      [0004] 近幾年來(lái)許多研究都是把重點(diǎn)放在解決數(shù)據(jù)聚類的問(wèn)題上,讓數(shù)據(jù)聚類的結(jié)果更 有效能、效率,應(yīng)用層面更廣。傳統(tǒng)的階層式(Hierarchical)及分割式(Partitional)聚類 技術(shù)、類神經(jīng)網(wǎng)絡(luò)(Artif icial Neural Network)、演化式(Evolutionary)算法都被研究者 直接或間接的加以改良,而應(yīng)用在解決數(shù)據(jù)聚類的問(wèn)題上。但是,數(shù)據(jù)聚類的結(jié)果不是正確 性不佳,就是聚類動(dòng)作所需耗費(fèi)的時(shí)間成本太高,在數(shù)據(jù)聚類效能以及效率上仍有待加強(qiáng)。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處,提出一種能夠減少聚類錯(cuò)誤率而且 執(zhí)行數(shù)據(jù)聚類時(shí)速度非??焖俚拇罅繑?shù)據(jù)聚類方法,特別是適用解決大量數(shù)據(jù)的聚類問(wèn) 題。
      [0006] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括以下步驟:
      [0007] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并 記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示:
      [0008]
      (1)
      [0009] 其中,X1S所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),(^為群組,K為群組數(shù),Zj屬于該C j群的中 心點(diǎn)。
      [0010] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Zi,Z 2, ...,ZK}取代之,作為本方法的初始 中心點(diǎn)。
      [0011] Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi,i = l,2, . . .,N與各中心點(diǎn)計(jì)算距離,并將 各數(shù)據(jù)點(diǎn)分配到群組Cj J = I,2,...,K中,其分群規(guī)則如下:
      [0012] IXi-ZjI I < I IXi-ZpI I , j = l,2,. . . ,K;P=1,2,. . . ,K; j^p (2)
      [0013] 當(dāng)數(shù)據(jù)點(diǎn)乂1與中心點(diǎn)Zj的距離比其它中心點(diǎn)Zp的距離小于或等于時(shí),則數(shù)據(jù)點(diǎn)X 1 分配到該群1中。其中距離公式如下:
      [0014]
      [0015]
      [0016]
      [0017]
      [0018] 其中,Nj為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。
      [0019] Step5:分群終止條件。假如產(chǎn)生K個(gè)新的中心點(diǎn)與舊的中心點(diǎn)相同時(shí),即終止分群 動(dòng)作。亦
      ?則終止分群;否則跳到Step3繼續(xù)做分群。
      [0020] 本發(fā)明的有益效果如下:
      [0021] 本發(fā)明加入最小平方差的概念,由K-Means所產(chǎn)生最小平方差的中心點(diǎn),作為本發(fā) 明第一階段求取初始中心點(diǎn)的依據(jù)。接著,對(duì)于不同群組使用減少或增加權(quán)重的策略來(lái)計(jì) 算數(shù)據(jù)對(duì)象的距離,將有效改善各數(shù)據(jù)維度的權(quán)重關(guān)系。
      [0022] 本發(fā)明對(duì)于聚類的運(yùn)行時(shí)間成本很低,即分群的速度很快。可以有效改善處理大 量數(shù)據(jù)聚類時(shí)結(jié)果不穩(wěn)定的情形,可以得到整體最佳解。
      [0023] 本發(fā)明所提出的聚類方法能夠有效減少聚類錯(cuò)誤率而且執(zhí)行數(shù)據(jù)聚類時(shí)速度非 ??焖?。對(duì)于大量數(shù)據(jù)聚類效果明顯,具有良好的實(shí)用價(jià)值。
      【附圖說(shuō)明】
      [0024] 圖1是本發(fā)明方法的具體實(shí)現(xiàn)流程圖。
      【具體實(shí)施方式】
      [0025] 下面結(jié)合【附圖說(shuō)明】和【具體實(shí)施方式】對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
      [0026] 本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括以下步驟:
      [0027] Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并 記錄執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中心點(diǎn)。平方差SE的計(jì)算如公式(1)所示:
      [0028;
      (1)
      [0029]其中,X1S所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),(^為群組,K為群組數(shù),Zj屬于該C j群的中 心點(diǎn)。
      [0030] Step2:求最小平方差的中心點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù) 據(jù)聚類的各群組中心點(diǎn)以最小平方差的中心點(diǎn){Z^Zs,. . .,Ζκ}取代之,作為本方法的初始 中心點(diǎn)。
      [0031] 各數(shù)據(jù)W
      [0032]
      [0033] 分配到?
      [0034]
      [0035]
      [0036]
      [0037]
      [0038]
      [0039] 動(dòng)作。亦
      【主權(quán)項(xiàng)】
      1.本發(fā)明所述的基于權(quán)重策略的K-Means聚類方法,包括w下步驟: Stepl:執(zhí)行K-Means數(shù)據(jù)聚類算法五次。分別執(zhí)行K-Means數(shù)據(jù)聚類算法五次,并記錄 執(zhí)行K-Means數(shù)據(jù)聚類算法的平方差、各群組中屯、點(diǎn)。平方差SE的計(jì)算如公式(1)所示:其中,X功所有數(shù)據(jù)點(diǎn),N為數(shù)據(jù)點(diǎn)總數(shù),C功群組,K為群組數(shù),&屬于該C滿的中屯、點(diǎn)。 Step2:求最小平方差的中屯、點(diǎn)。根據(jù)Stepl求取最小平方差的最佳分群組合,讓數(shù)據(jù)聚 類的各群組中屯、點(diǎn)W最小平方差的中屯、點(diǎn){Zi,Z2, ...,Ζκ}取代之,作為本方法的初始中屯、 點(diǎn)。 Step3:執(zhí)行分群動(dòng)作。將所有數(shù)據(jù)點(diǎn)Xi,i = l,2,. . .,Ν與各中屯、點(diǎn)計(jì)算距離,并將各數(shù) 據(jù)點(diǎn)分配到群組Cj,j = l,2,. . .,Κ中,其分群規(guī)則如下: |Xi-Zj|| 引 |Χ 廣Ζρ||,j = l,2,...,K;p = l,2,...,K;j^p (2) 當(dāng)數(shù)據(jù)點(diǎn)Xi與中屯、點(diǎn)Zj的距離比其它中屯、點(diǎn)卻的距離小于或等于時(shí),則數(shù)據(jù)點(diǎn)Xi分配 到該群Zj中。其中距離公式如下:D 其中,叫為屬于該Cj群的數(shù)據(jù)點(diǎn)總數(shù)。 steps:分群終止條件。假如產(chǎn)生K個(gè)新的中屯、點(diǎn)與舊的中屯、點(diǎn)相同時(shí),即終止分群動(dòng) 作。亦即Z;二2/.,./ = 1,2,...乂剛終止分群;否則跳至化*6口3繼續(xù)做分群。
      【文檔編號(hào)】G06K9/62GK105844293SQ201610160801
      【公開(kāi)日】2016年8月10日
      【申請(qǐng)日】2016年3月21日
      【發(fā)明人】周玉強(qiáng), 陳巖
      【申請(qǐng)人】杭州熙浪信息技術(shù)股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1