国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向微信營(yíng)銷的消費(fèi)者聚類方法

      文檔序號(hào):10725171閱讀:931來(lái)源:國(guó)知局
      一種面向微信營(yíng)銷的消費(fèi)者聚類方法
      【專利摘要】本發(fā)明涉及社交網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種面向微信營(yíng)銷的消費(fèi)者聚類處理方法,該方法包括以下的步驟:1)對(duì)數(shù)據(jù)全集進(jìn)行搜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣次;2)對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k?means算法聚類,獲得一組聚類中心,次取樣,共可獲得組聚類中心;3)利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類中心,并輸出;4)以步驟3)尋找到的最優(yōu)聚類中心為初始聚類中心,為輸入?yún)?shù)(),對(duì)數(shù)據(jù)全集執(zhí)行k?means算法;5)在產(chǎn)生的組聚類中,合并距離最近的兩組,重新計(jì)算合并后的聚類中心;直到聚類數(shù)目減少到,停止合并;整個(gè)算法結(jié)束。該方法提高了消費(fèi)者數(shù)據(jù)聚類過(guò)程的速率與穩(wěn)定性。
      【專利說(shuō)明】
      一種面向微信營(yíng)銷的消費(fèi)者聚類方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及社交網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種面向微信營(yíng)銷的消費(fèi)者聚類處 理方法。
      【背景技術(shù)】
      [0002] k-means算法作為最常用數(shù)據(jù)聚類算法之一,其原理是預(yù)先設(shè)定好需要?jiǎng)澐诸悇e 的個(gè)數(shù)ir作為輸入?yún)?shù),將數(shù)據(jù)集劃分為it個(gè)簇,根據(jù)每一個(gè)數(shù)據(jù)對(duì)象與每一個(gè)簇聚類中心 的歐式距離來(lái)判定這個(gè)數(shù)據(jù)對(duì)象應(yīng)該歸并到哪一個(gè)簇中去。在同一簇內(nèi)數(shù)據(jù)對(duì)象彼此有較 高相似度,而不同簇之間的數(shù)據(jù)對(duì)象相似度較低。k-means算法的具體步驟是:首先依據(jù)輸 入?yún)?shù)i:,在數(shù)據(jù)集隨機(jī)選擇Jt個(gè)數(shù)據(jù)對(duì)象分別作為每個(gè)簇的聚類中心,計(jì)算余下的每一個(gè) 數(shù)據(jù)對(duì)象到每個(gè)聚類中心的歐式距離4,對(duì)所有4比較大小,將數(shù)據(jù)對(duì)象歸類到最小t所對(duì) 應(yīng)的簇中去;然后重新計(jì)算每個(gè)簇的聚類中心,再次計(jì)算每個(gè)數(shù)據(jù)對(duì)象到每個(gè)聚類中心的 歐式距離4,依據(jù)4最小原則,對(duì)數(shù)據(jù)對(duì)象重新歸類到對(duì)應(yīng)簇中去,反復(fù)進(jìn)行這一過(guò)程。最后 直到每個(gè)簇的聚類中心不再變化或者變化很小為止,迭代計(jì)算結(jié)束,輸出最后的Jt個(gè)聚類 簇,完成對(duì)數(shù)據(jù)集的聚類。
      [0003] 傳統(tǒng)k-means聚類算法過(guò)程圖如圖1所示。
      [0004] 傳統(tǒng)k-means聚類算法的缺點(diǎn): 對(duì)初始聚類中心極為敏感。由于k-means算法對(duì)初始聚類中心的選擇是隨機(jī)選擇,如果 初始聚類中心選擇不當(dāng),算法很容易陷入局部最優(yōu)解,而非全局最優(yōu)解。特別是當(dāng)數(shù)據(jù)集分 布不均勻時(shí),邊緣點(diǎn)、極值點(diǎn)有可能會(huì)被選為初始點(diǎn),造成迭代收斂速度緩慢,聚類效果不 明顯等情況。

      【發(fā)明內(nèi)容】

      [0005] 為了解決現(xiàn)有技術(shù)中,消費(fèi)者數(shù)據(jù)處理效率緩慢,聚類過(guò)程容易出現(xiàn)局部最優(yōu)狀 況從而導(dǎo)致失敗的問(wèn)題本發(fā)明提出了一種面向微信營(yíng)銷的消費(fèi)者聚類處理方法,該方法提 高了消費(fèi)者數(shù)據(jù)聚類過(guò)程的速率與穩(wěn)定性。
      [0006] 為了解決以上技術(shù)問(wèn)題,本發(fā)明通過(guò)以下技術(shù)方案實(shí)現(xiàn): 一種面向微信營(yíng)銷的消費(fèi)者聚類處理方法,該方法處理的信息為來(lái)自微信采集的消費(fèi) 者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操作記錄信息, 購(gòu)買行為信息和意見(jiàn)反饋信息,該方法包括以下的步驟: 1) 對(duì)數(shù)據(jù)全集S進(jìn)行搜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣J次; 2) 對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k-means算法聚類,獲得一組聚類中心,J次取 樣,共可獲得/組聚類中心; 3) 利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類中心,并輸出; 4) 以步驟3)尋找到的最優(yōu)聚類中心為初始聚類中心,為輸入?yún)?shù)(JT>J·),對(duì)數(shù)據(jù)全 集執(zhí)行k-means算法; 5)在產(chǎn)生的JT組聚類中,合并距離最近的兩組,重新計(jì)算合并后的聚類中心;直到聚類 數(shù)目減少到及,停止合并;整個(gè)算法結(jié)束。
      [0007] 本發(fā)明由于采用了上述的技術(shù)方案,與現(xiàn)有技術(shù)相比本發(fā)明的優(yōu)點(diǎn)是: (1) 提高了消費(fèi)者數(shù)據(jù)聚類過(guò)程的速率與穩(wěn)定性; (2) 由于聚類過(guò)程中,數(shù)據(jù)子集為多個(gè)(大于3),能夠目前比較流行的分布式計(jì)算。
      【附圖說(shuō)明】
      [0008] 圖1為傳統(tǒng)k-means算法流程圖。
      [0009] 圖2為本發(fā)明改進(jìn)后的k-means算法流程圖。
      [0010] 圖3樣本仿真數(shù)據(jù)集D。
      [0011] 圖4為兩種算法執(zhí)行結(jié)果圖。
      【具體實(shí)施方式】
      [0012] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明: 本發(fā)明設(shè)計(jì)適合大數(shù)據(jù)環(huán)境的改進(jìn)型k-means算法,算法流程圖如圖2所示。某一段時(shí) 間(一個(gè)月)的客戶數(shù)據(jù)按照利潤(rùn)貢獻(xiàn)值為屬性進(jìn)行聚類。在每一類客戶中共有#個(gè)數(shù)據(jù)對(duì) 象?%<%?,每一個(gè)數(shù)據(jù)對(duì)象具有Μ個(gè)價(jià)值屬性表示客戶數(shù)據(jù)集中的 第》個(gè)客戶的第*個(gè)屬性。
      [0013] 對(duì)某一個(gè)時(shí)間期采集到的客戶數(shù)據(jù)集合D進(jìn)行聚類的目的是得到根據(jù)客戶價(jià)值貢 獻(xiàn)度,獲得Ji個(gè)客戶聚類集。
      [0014] 算法基本步驟描述如下: $對(duì)數(shù)據(jù)集合0進(jìn)行J次取樣,每次均抽取相同客戶對(duì)象的數(shù)目,形成數(shù)據(jù)集合向量 ②設(shè)置聚類個(gè)數(shù)JST,且JST>1,對(duì)II中每個(gè)抽樣集合;Dj,執(zhí)行k-means算法,獲取J組尤個(gè) _根據(jù)抽樣集合縳中每一個(gè)聚類集中客戶數(shù)目巧,計(jì)算抽樣集合g中每 個(gè)聚類的誤差平方和計(jì)算公式如下:
      其中\(zhòng)指的是聚類集值第η個(gè)客戶的第m個(gè)屬性值,&指的是此聚類中心屬性I?的 值。
      [0015] 瘍利用誤差平方和準(zhǔn)則函數(shù),計(jì)算抽樣集合的誤差平方和$,其計(jì)算公式如 下:
      選擇$-最小值所對(duì)應(yīng)的那一組聚類中心C1,作為初始聚類中心輸出。
      [0016] ·':!:以CT作為初始聚類中心,JT為聚類個(gè)數(shù),對(duì)數(shù)據(jù)集合D的全域執(zhí)行k-means算 法,獲得夏個(gè)聚類
      [0017] _在中分別計(jì)算每?jī)蓚€(gè)聚類的距離(聚類中心之間的歐式距離)& ,其計(jì)算公式如下:
      其中,-指的是第?個(gè)聚類的聚類中心屬性?的值。選取最小的兩個(gè)聚類合并,并重 新計(jì)算合并后的聚類中心,直到聚類集合中聚類數(shù)目減少到【=及時(shí),停止合 并,輸出?個(gè)聚類集合。整個(gè)改進(jìn)型k-means算法結(jié)束,獲得根據(jù)客戶價(jià)值貢獻(xiàn)度指標(biāo),對(duì)數(shù) 據(jù)集合D的聚類。
      [0018] 本發(fā)明將運(yùn)用計(jì)算機(jī)軟件進(jìn)行仿真實(shí)驗(yàn),對(duì)比傳統(tǒng)k-means算法與本文中改進(jìn)后 的k-means算法的聚類效果。在本次仿真實(shí)驗(yàn)程序中采用Visual C++實(shí)現(xiàn),計(jì)算機(jī)硬件配置 為,CPU:Inter i5處理器2.5GHz;內(nèi)存:4GB。相關(guān)數(shù)據(jù)樣本參數(shù)設(shè)置如表1所示:
      本次仿真實(shí)驗(yàn)的數(shù)據(jù)選取了如圖3所示的二維樣本仿真數(shù)據(jù)集ZJ,分別計(jì)算出圖4中四 個(gè)數(shù)據(jù)子集的均指矢量為(0.6509,0 ·9582)、(3 ·4821,1 · 1241)、(3.9587,3.0213)、 (1.7424,4.2508)。首先采用傳統(tǒng)k-means算法,對(duì)原始數(shù)據(jù)集Ζ)進(jìn)行聚類,共執(zhí)行30次傳統(tǒng) k-means算法。在每次執(zhí)行傳統(tǒng)k-means算法時(shí),打亂輸入數(shù)據(jù)的順序。同理,在對(duì)原始數(shù)據(jù) 集D執(zhí)行30次改進(jìn)后的k-means算法時(shí),也是打亂讀入數(shù)據(jù)的順序。這樣做的目的是為了檢 驗(yàn)算法的穩(wěn)定性。
      [0019] 在對(duì)兩種算法的執(zhí)行結(jié)果中各選擇一組具有代表性的聚類結(jié)果,如圖4(a)、(b)所 示,其中圖中紅色的小點(diǎn)表示每個(gè)聚類中,聚類中心的位置。使用傳統(tǒng)k-means算法的聚類 結(jié)果中類似圖4(a)共出現(xiàn)了 23次。圖4(a)所反映的情況是比較典型地陷入了局部最小的情 況。而在執(zhí)行本文中設(shè)計(jì)的改進(jìn)型k-means算法后都能穩(wěn)定得到類似圖4(b)所示的聚類結(jié) 果。
      [0020] 接下來(lái)通過(guò)對(duì)聚類結(jié)果中,30組聚類中心的平均值與經(jīng)過(guò)計(jì)算產(chǎn)生的聚類中心 對(duì)比分析,說(shuō)明兩種算法的優(yōu)劣,如表2所示:
      通過(guò)表2中聚類中心平均值之間的比較,可以明顯看出改進(jìn)型k-means算法得出的聚類 中心值與經(jīng)過(guò)計(jì)算后產(chǎn)生的聚類中心值更加接近。結(jié)合圖4(a)、(b),我們可以做進(jìn)一步分 析:由于原始數(shù)據(jù)分布不均勾,每個(gè)簇的形狀大小也不一致,傳統(tǒng)k-means算法隨機(jī)選擇初 始聚類中心的做法,很容易選擇到邊緣數(shù)據(jù)點(diǎn)作為初始聚類中心。一旦遇到這種情況,傳統(tǒng) k-means算法最后得出的聚類中心極有可能陷入局部最優(yōu)解,圖4(a)反映的就是這類現(xiàn)象 典型情況。改進(jìn)型k-means算法,對(duì)原始數(shù)據(jù)先進(jìn)行20次等值平均抽樣(每組抽樣樣本包含 250個(gè)元素),利用誤差平方和準(zhǔn)則函數(shù),在這20組抽樣樣本中優(yōu)選出最能反映數(shù)據(jù)全集D 形狀、密度特征的聚類中心作為初始聚類中心代入k-means算法中運(yùn)算,并設(shè)置初始聚類數(shù) 目最后合并聚類結(jié)果。這樣做既能使聚類結(jié)果與讀入數(shù)據(jù)順序無(wú)關(guān),又能避免聚 類被割裂形成局部?jī)?yōu)解的情況發(fā)生。
      [0021] 本發(fā)明提出的面向微信營(yíng)銷的消費(fèi)者聚類方法,穩(wěn)定性更強(qiáng),準(zhǔn)確度更高,特別適 合處理分布不均勻、數(shù)據(jù)量大的大數(shù)據(jù)源。
      [0022] 以上所述僅為本發(fā)明的具體實(shí)施例,但本發(fā)明的技術(shù)特征并不局限于此,任何本 領(lǐng)域的技術(shù)人員在本發(fā)明的領(lǐng)域內(nèi),所作的變化或修飾皆涵蓋在本發(fā)明的專利范圍之中。
      【主權(quán)項(xiàng)】
      1. 一種面向微信營(yíng)銷的消費(fèi)者聚類處理方法,其特征在于該方法處理的信息為來(lái)自微 信采集的消費(fèi)者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操 作記錄信息,購(gòu)買行為信息和意見(jiàn)反饋信息,該方法包括W下的步驟: 1) 對(duì)數(shù)據(jù)全集及進(jìn)行捜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣J次; 2) 對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k-means算法聚類,獲得一組聚類中屯、,J次取 樣,共可獲得/組聚類中屯、; 3) 利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類中屯、,并輸出; 4. W步驟3)尋找到的最優(yōu)聚類中屯、為初始聚類中屯、,為輸入?yún)?shù)對(duì)數(shù)據(jù)全 集執(zhí)行k-means算法; 5) 在產(chǎn)生的組聚類中,合并距離最近的兩組,重新計(jì)算合并后的聚類中屯、;直到聚類 數(shù)目減少到及,停止合并;整個(gè)算法結(jié)束。2. -種面向微信營(yíng)銷的消費(fèi)者聚類處理方法,其特征在于該方法處理的信息為來(lái)自微 信采集的消費(fèi)者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操 作記錄信息,購(gòu)買行為信息和意見(jiàn)反饋信息;在每一類客戶中共有W個(gè)數(shù)據(jù)對(duì)象 機(jī)A,·.、毎i,每一個(gè)數(shù)據(jù)對(duì)象具有Μ個(gè)價(jià)值屬性拍拓-.、如$,咕表示客戶數(shù)據(jù)集中的第 W個(gè)客戶的第"?個(gè)屬性;該方法包括W下的步驟: 宏對(duì)數(shù)據(jù)集合凸進(jìn)行J次取樣,每次均抽取相同客戶對(duì)象的數(shù)目,形成數(shù)據(jù)集合向量 凸[]{馬,Uj,…,jDj·}; 愛(ài)設(shè)置聚類個(gè)數(shù),且油1,對(duì)B中每個(gè)抽樣集合巧,執(zhí)行k-means算法,獲取J組個(gè) 聚類中屯、fc心·---· Cj.正I; 畫(huà)根據(jù)抽樣集合巧中每一個(gè)聚類集中客戶數(shù)目巧,Jt二l·玄^取計(jì)算抽樣集合巧中每 個(gè)聚類的誤差平方和巧-_?,計(jì)算公式如下:其中咕*指的是聚類集值第η個(gè)客戶的第m個(gè)屬性值,指的是此聚類中屯、?:-.*屬性m的 值; 至利用誤差平方和準(zhǔn)則函數(shù),計(jì)算抽樣集合巧J-的誤差平方和馬-,其計(jì)算公式如下:選擇Ej-最小值所對(duì)應(yīng)的那一組聚類中屯、C·,作為初始聚類中屯、輸出; 荀we'作為初始聚類中屯、,為聚類個(gè)數(shù),對(duì)數(shù)據(jù)集合曲的全域執(zhí)行k-means算法,獲得 個(gè)聚類?巧,巧,…,巧 篡在{嗎,馬,…,eg中分別計(jì)算每?jī)蓚€(gè)聚類的距離(聚類中屯、之間的歐式距離)d胃,其 計(jì)算公式如下:其中,&指的是第?個(gè)聚類的聚類中屯、屬性m的值;選取dw最小的兩個(gè)聚類合并,并重 新計(jì)算合并后的聚類中屯、,直到聚類集合灼,旬,.…,<y中聚類數(shù)目減少到i::=及時(shí),停止合 并,輸出及個(gè)聚類集合;整個(gè)改進(jìn)型k-means算法結(jié)束,獲得根據(jù)客戶價(jià)值貢獻(xiàn)度指標(biāo),對(duì)數(shù) 據(jù)集合B的聚類。
      【文檔編號(hào)】G06Q30/02GK106096052SQ201610497893
      【公開(kāi)日】2016年11月9日
      【申請(qǐng)日】2016年6月25日
      【發(fā)明人】高揚(yáng)華, 陸海良, 單宇翔, 郁鋼
      【申請(qǐng)人】浙江中煙工業(yè)有限責(zé)任公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1