国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種不完整數(shù)據(jù)混合填充方法

      文檔序號(hào):8543776閱讀:1084來源:國(guó)知局
      一種不完整數(shù)據(jù)混合填充方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及計(jì)算機(jī)技術(shù)領(lǐng)域,具體設(shè)及一種基于找式深度學(xué)習(xí)網(wǎng)絡(luò)和增量聚類實(shí) 現(xiàn)不完整數(shù)據(jù)混合填充的方法。
      【背景技術(shù)】
      [0002] 隨著物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)及電子商務(wù)的發(fā)展,數(shù)據(jù)W前所未有的速度增長(zhǎng)、積累,不 完整數(shù)據(jù)也隨之而來,導(dǎo)致數(shù)據(jù)質(zhì)量嚴(yán)重降低。在實(shí)際的數(shù)據(jù)分析過程中,對(duì)缺失數(shù)據(jù)進(jìn)行 高效填充預(yù)處理是當(dāng)前學(xué)術(shù)界與工業(yè)界面臨的又一主要問題。
      [0003] 較早的方法利用數(shù)據(jù)集中屬性值的平均值對(duì)缺失數(shù)據(jù)進(jìn)行填充,另一種方法則是 直接刪除含有缺失值的記錄。與直接刪除缺失記錄相比,平均值填充產(chǎn)生更多的錯(cuò)誤分 析結(jié)果,但是,簡(jiǎn)單的數(shù)據(jù)刪除將會(huì)嚴(yán)重影響在數(shù)據(jù)統(tǒng)計(jì)分析與挖掘過程中數(shù)據(jù)集的可用 性。雖然在之后的一些研究中,提出很多不完整數(shù)據(jù)填充算法,如最大期望估計(jì)法,K個(gè)最 近鄰數(shù)據(jù)填充方法,本地權(quán)重線性近似填充算法,貝葉斯主成分分析方法,基于支持向量回 歸技術(shù)填充方法和利用神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)填充,W及多種技術(shù)結(jié)合的混合算法等。但該些 方法都在整個(gè)數(shù)據(jù)集上對(duì)缺失數(shù)據(jù)值進(jìn)行填充處理,沒有很好的考慮局部數(shù)據(jù)的內(nèi)在相似 特性。因此,Rahman等人提出DMI算法,利用決策樹方法將數(shù)據(jù)進(jìn)行分類,再在同一類中對(duì) 缺失數(shù)據(jù)屬性值進(jìn)行優(yōu)化填充。另外,一些基于K-means和化zzyC-means的缺失數(shù)據(jù)聚 類填充算法也相繼被提出來,該些算法的整體思想就是利用聚類方法將不完整數(shù)據(jù)集進(jìn)行 分類,然后在每一類中對(duì)缺失數(shù)據(jù)進(jìn)行填充處理。但在該些方法中,數(shù)據(jù)分類結(jié)果對(duì)缺失數(shù) 據(jù)填充精度影響很大。雖然之后許多方法針對(duì)數(shù)據(jù)分類過程可能產(chǎn)生不準(zhǔn)確等情況,提出 一些基于聚類的混合數(shù)據(jù)填充算法,如Azim等人利用多層神經(jīng)網(wǎng)絡(luò)和模糊C-means聚類 算法對(duì)不完整數(shù)據(jù)進(jìn)行訓(xùn)練填充,I.B.Aydilek等利用基于支持向量機(jī)和遺傳算法的模糊 c-means算法對(duì)缺失數(shù)據(jù)填充。但是沒有一種聚類能夠保證劃分結(jié)果的100%正確,所W在 得到的簇中選取候選填充數(shù)據(jù)成為關(guān)鍵。此外現(xiàn)有數(shù)據(jù)填充用到的聚類算法大多需要指定 聚類結(jié)果數(shù)目,沒有一定的通用性。不但如此,在數(shù)據(jù)量不斷擴(kuò)張的今天,算法的實(shí)際應(yīng)用 中,非監(jiān)督數(shù)據(jù)學(xué)習(xí)與快速的數(shù)據(jù)分析對(duì)數(shù)據(jù)價(jià)值的開發(fā)帶來更大挑戰(zhàn)。
      [0004] 綜上所述,考慮數(shù)據(jù)集中數(shù)據(jù)的局部相似特性,數(shù)據(jù)聚類的精確性,類中數(shù)據(jù)填充 的準(zhǔn)確性,W及算法實(shí)際應(yīng)用的非監(jiān)督性與時(shí)效性,本發(fā)明提出一種基于找式自動(dòng)編碼機(jī) 與增量聚類的不完整數(shù)據(jù)混合填充方法。

      【發(fā)明內(nèi)容】

      [0005] 考慮到數(shù)據(jù)集中數(shù)據(jù)間的局部相似性,基于數(shù)據(jù)先聚類后填充的思想,本發(fā)明提 出一種不完整數(shù)據(jù)混合填充方法。為了保證該方法的填充精度和執(zhí)行速度,本發(fā)明利用特 殊值填充預(yù)處理、找式自動(dòng)編碼機(jī)、增量聚類、類內(nèi)前k%相似對(duì)象加權(quán)填充等方法對(duì)不完 整數(shù)據(jù)集進(jìn)行分析處理。具體包括如下步驟:
      [0006] (1)特殊值填充預(yù)處理:
      [0007] 由于本發(fā)明提出方法不斷迭代更新,缺失數(shù)據(jù)初始填充值對(duì)最終填充精度影響很 小,因此在利用找式自動(dòng)編碼機(jī)對(duì)缺失數(shù)據(jù)進(jìn)行特征深度提取之前,將缺失數(shù)據(jù)值設(shè)置為 不同于所有數(shù)據(jù)集中數(shù)據(jù)的特殊值,減少缺失數(shù)據(jù)初始值設(shè)置的時(shí)間。
      [000引 (2)找式自動(dòng)編碼機(jī)特征提?。?br>[0009] W自動(dòng)編碼機(jī)為基礎(chǔ)模塊構(gòu)建自底向上的找式自動(dòng)編碼機(jī)深度學(xué)習(xí)網(wǎng)絡(luò),并根據(jù) 逐層訓(xùn)練思想和反向傳播算法計(jì)算、更新網(wǎng)絡(luò)參數(shù),提取數(shù)據(jù)對(duì)象的重要特征。在自動(dòng)編碼 機(jī)訓(xùn)練的過程中,輸入數(shù)據(jù)經(jīng)過隱藏層,在輸出層重構(gòu),然后通過反向傳播算法更新網(wǎng)路參 數(shù),當(dāng)訓(xùn)練穩(wěn)定時(shí),就在隱藏層保留了重構(gòu)數(shù)據(jù)的重要特征。每一層自動(dòng)編碼機(jī)提取的數(shù)據(jù) 特征都將作為上一層的輸入,繼續(xù)完成訓(xùn)練過程,最上層提取的特征即為整個(gè)找式學(xué)習(xí)網(wǎng) 絡(luò)的輸出。
      [0010] (3)增量聚類數(shù)據(jù)劃分:
      [ocm] 在找式深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定之后,利用增量數(shù)據(jù)聚類方法,對(duì)得到的數(shù)據(jù)特征 值聚類。在聚類初始階段讀取數(shù)據(jù)特征集的前k條數(shù)據(jù)作為初始聚類中屯、,并維護(hù)各中屯、 點(diǎn)和中屯、點(diǎn)間相似度矩陣,從第k+i條數(shù)據(jù)特征開始,計(jì)算其與現(xiàn)有各聚類中屯、間的相似 度,得到相似度最大值maxValue,值越大越相似;如果maxValue小于等于中屯、點(diǎn)間相似度 矩陣的最小值,將當(dāng)前數(shù)據(jù)點(diǎn)設(shè)定為聚類中屯、;如果maxValue大于等于中屯、點(diǎn)間相似度矩 陣的最大值,將當(dāng)前數(shù)據(jù)點(diǎn)劃分到與其最相似的中屯、點(diǎn)代表的簇中;如果maxValue小于中 屯、點(diǎn)間相似度矩陣最大值,同時(shí)大于中屯、點(diǎn)間相似度矩陣的最小值,合并中屯、點(diǎn)最相似的 兩個(gè)簇,并將當(dāng)前數(shù)據(jù)點(diǎn)設(shè)定為新的聚類中屯、點(diǎn)。更新中屯、點(diǎn)和中屯、點(diǎn)間相似度矩陣,繼續(xù) 讀取下一條數(shù)據(jù)直到處理結(jié)束。
      [0012] (4)類內(nèi)前k%最相似數(shù)據(jù)加權(quán)填充;
      [0013] 得到不完整數(shù)據(jù)聚類結(jié)果后,在每一類中判斷含有缺失屬性值的數(shù)據(jù)對(duì)象比例, 如果其超過給定闊值C,將類中數(shù)據(jù)劃分到與其最相似的中屯、點(diǎn)所代表的其他簇中,再在 對(duì)應(yīng)類中完成缺失數(shù)據(jù)填充。如果缺失數(shù)據(jù)比例小于闊值I,則在類中計(jì)算含有缺失數(shù)據(jù) 對(duì)象與其他對(duì)象的相似度,選取相似度最大且對(duì)應(yīng)屬性值不缺失的前k%個(gè)數(shù)據(jù)對(duì)象,利用 其對(duì)應(yīng)屬性值進(jìn)行相似度加權(quán)填充。
      [0014] (5)填充收斂判斷;
      [0015] 對(duì)數(shù)據(jù)集中所有缺失數(shù)據(jù)屬性值填充結(jié)束后,通過比較連續(xù)兩次填充結(jié)果的誤差 判斷算法是否收斂。如果滿足算法收斂條件,當(dāng)前填充結(jié)果為算法執(zhí)行填充最終結(jié)果,否 貝1J,更新缺失數(shù)據(jù)填充值,重新執(zhí)行缺失值填充算法。
      [0016] 本發(fā)明提供了一種不完整數(shù)據(jù)混合填充方法,該方法采用先聚類后填充的思想對(duì) 不完整數(shù)據(jù)填充處理,并針對(duì)現(xiàn)有方法不能對(duì)缺失數(shù)據(jù)進(jìn)行直接聚類,提出特殊值填充方 法在初始階段對(duì)缺失數(shù)據(jù)值統(tǒng)一填充處理;然后利用找式深度學(xué)習(xí)網(wǎng)絡(luò)提取數(shù)據(jù)主要特 征,提高數(shù)據(jù)聚類精度,同時(shí)降低數(shù)據(jù)屬性維度;針對(duì)提取的數(shù)據(jù)特征,采用增量聚類方法 對(duì)數(shù)據(jù)一遍式處增量處理,加快算法執(zhí)行速度;然而聚類分析算法不能百分之百準(zhǔn)確劃分 數(shù)據(jù),所W在得到的聚類結(jié)果中利用與缺失數(shù)據(jù)對(duì)象最相似的前k%個(gè)數(shù)據(jù)對(duì)缺失值進(jìn)行 加權(quán)填充,保證填充值的準(zhǔn)確性;對(duì)所有類中缺失值填充處理后,比較本次填充與上一次填 充的誤差,迭代上述過程直至誤差最小。相比于現(xiàn)有一些缺失數(shù)據(jù)填充方法,本發(fā)明在填充 精度和時(shí)間性能方面都有一定的優(yōu)越性。
      【附圖說明】
      [0017] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W 根據(jù)該些附圖獲得其它的附圖。
      [0018] 圖1是本發(fā)明實(shí)施例中的一種不完整數(shù)據(jù)混合填充方法
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1