一種基于偏移量高效模板替換算法方案的制作方法

文檔序號：10594165閱讀：311來源：國知局

一種基于偏移量高效模板替換算法方案的制作方法
【專利摘要】本發(fā)明公開了一種基于偏移量高效模板替換算法方案，利用屬性維上的局部稀疏程度，重新定義了相關(guān)子空間，從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征；其次，利用局部數(shù)據(jù)集的概率密度，給出了局部離群因子計算公式，有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的程度，并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法，在計算稀疏度因子和離群因子Factor時由Map來實現(xiàn)；在按Factor大小進行全排序時，使用一個Map對Factor進行取樣，進而實現(xiàn)決定各個(K2，V2)分配到哪個結(jié)點的函數(shù)，從而有效地解決了數(shù)據(jù)分配不均勻問題和局部有序但全局無序問題。
【專利說明】
-種基于偏移量高效模板替換算法方案
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設及一種基于偏移量高效模板替換算法方案。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)(outlier)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)，蘊含著大量的不易被人類發(fā)現(xiàn)卻很有價值的信息.離群挖掘作為數(shù)據(jù)挖掘的一個重要分支，已廣泛的應用在天文光譜數(shù)據(jù)分析、信用卡詐騙、網(wǎng)絡入侵挖掘、數(shù)據(jù)清洗等領(lǐng)域.
[0003] 在高維海量數(shù)據(jù)中，由于數(shù)據(jù)量大和維度高，嚴重地影響了離群數(shù)據(jù)挖掘效果和效率，可能無法發(fā)現(xiàn)隱藏在子空間中的一些離群數(shù)據(jù).在大多數(shù)情況下，離群數(shù)據(jù)是與局部數(shù)據(jù)集的分布特征明顯不一致的數(shù)據(jù)對象.但在有些屬性維上，可W提供不一致的有價值信息，而在其他屬性維上，無法提供有價值的信息。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對高維海量數(shù)據(jù)，在MapReduce編程模型下，提出了一種基于并行計算的離群數(shù)據(jù)挖掘方法，該算法利用屬性維上的局部稀疏程度，重新定義了相關(guān)子空間，從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征；其次，利用局部數(shù)據(jù)集的概率密度，給出了局部離群因子計算公式，有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的程度，并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。
[0005] 本發(fā)明所采用的技術(shù)方案是：
[0006] -種基于偏移量高效模板替換算法方案，包括W下步驟：
[0007] Sl、執(zhí)行LSH中的MapReduce任務，生成Kobj ,LDS(Obj) )}，并行計算數(shù)據(jù)對象Obj 的LDS(Obj);
[000引 S2、W {(ob j，LDS(ob j))}作為輸入，執(zhí)行MapReduce任務，生成{(ob j，又）}，確定DS 中每個數(shù)據(jù)對象Obj對應的稀疏度因子；
[0009] S3、W {(Ob j，義）}作為輸入，執(zhí)行L甜中的MapReduce任務，生成{(Ob j，（口Lk]kxd (o)(〇GLDS(obj i))))}，確定DS中每個數(shù)據(jù)對象Obj的LDS(Obj)對應的局部稀疏因子矩陣口Lk]kxd(o)(〇GLDS(obji));
[0010] S4、W {(ob j，（ [ZUc]kxd(o) (0 E LDS(ob ji))))}作為輸入，執(zhí)行MapReduce任務，生成{(objJactoHobj))}，確定DS中每個數(shù)據(jù)對象obj對應的離群因子F'actoHobj);
[0011] S5、W {(obj Jactor(Obj))}作為輸入，執(zhí)行MapReduce任務，對{(obj ,Factor (obj))}按化Ctor大小進行全排序，確定DS中每個數(shù)據(jù)對象obj按對應的離群因子化Ctor (Obj)的大小進行全排序；
[0012] S6、在步驟5的輸出中找離群程度最大的n個數(shù)據(jù)對象，選取Top(N)作為離群數(shù)據(jù)。
[0013] 其中，離群因子計算過程為：
[0014] (1)采用分布式策略，確定各個數(shù)據(jù)對象的LDS(Obji);
[00巧](2)采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的稀疏度因子又：
[0016] (3)采用分布式策略，確定LDS(O) (0 G LDS(Obji))對應的局部稀疏因子矩陣：口Lk]kxd(o)(〇GLDS(obji));;
[0017] (4)采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的子空間定義向量Vi，結(jié)合[Z化] 1〇?1(〇)(〇￡〇)5(〇13^';〇)計算對應的離群因子化(31:〇1';
[0018] (5)采用一個Map函數(shù)和一個Reduce函數(shù)，將各個數(shù)據(jù)對象按對應的離群因子化Ctor進行全排序并輸出結(jié)果。
[0019] 本發(fā)明的有益效果是，
[0020] 本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法，在計算稀疏度因子和離群因子化Ctor時由Map來實現(xiàn)，在按化Ctor大小進行全排序時，使用一個Map對化Ctor進行取樣，進而實現(xiàn)決定各個化2，V2)分配到哪個結(jié)點的函數(shù)，從而有效地解決了數(shù)據(jù)分配不均勻問題和局部有序但全局無序問題；同時，設計一個Reduce來對分配到各個結(jié)點的化2，V2)進行排序。
[0021] 下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
【附圖說明】
[0022] 圖1為傳統(tǒng)算法的離群因子的計算過程示意圖。
【具體實施方式】
[0023] 為了加深對本發(fā)明的理解，下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細的說明。W下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案，而不能W此來限制本發(fā)明的保護范圍。
[0024] 傳統(tǒng)算法：
[0025] 設DS是任意一個d維數(shù)據(jù)集，屬性集FS= {A1，A2，? ? 'Ad}，Xi j (i = 1，2，…，n; j = 1， 2,…，d)表示第i個數(shù)據(jù)對象obji在第j個屬性上的取值。如果第i個對象obj的子空間定義向量V各維值都是0,表明Obj與局部分布特征一致;如果第i個對象Obj存在著相關(guān)子空間，表明Obj與局部分布特征不一致。通常我們用化Ctor(Obj)來描述離群程度：
[0026]
[0027]
[002引
[0029] 由公式可知，數(shù)據(jù)集DS中的任意數(shù)據(jù)對象ObjiQ = I, 2，...，n;n= DS )的離群因子化Ctor(Obji)的計算步驟是：
[0030] 首先，確定obji的LDS(Obji)，并利用公式計算obji對應的稀疏度因子XL從而生成DS的稀疏因子矩陣[Zk]n X d;其次，根據(jù)[Zk]n X d，參照LDS(0 KLDS (Ob j i))，生成對應的局部稀疏因子矩陣[Z化化Xd(O) (0 GLDS(Obji)),然后生成Obji對應的子空間定義向量 vi;最后，確定obji對應的離群因數(shù)化Ctor(Obji)D
[0031] 因此在DS中，任意數(shù)據(jù)對象的離群因子計算過程可由圖1所示。
[0032] 圖1刻畫和描述了離群因子的計算過程，當數(shù)據(jù)集DS較小時，表A與表B都較小，可 W首先生成表A，并將其保存在內(nèi)存中；然后由表A通過生成表B，并將其也保存在內(nèi)存中。由于表A與表B中都在內(nèi)存，可采用索引技術(shù)，從表B中的對應項對應到表A的相應項來生成表 C。當數(shù)據(jù)集DS大到一定程度時，表A與表騎時目當大。在生成表別寸，需將表A中的每一個數(shù)據(jù) 對象和對應局部數(shù)據(jù)集LDS(Obji)逐項輸入，W及在表B中查找LDS(Obji)對應的稀疏度因子，因此，表B必須被保留在各計算結(jié)點上的內(nèi)存中。當B表太大時，會耗盡各個計算結(jié)點的內(nèi)存資源。
[0033] 因此，為了生成表C，不再采用索引策略對應生成，而是從表B中查找LDS(Obji)對應的局部稀疏因子，采用類似于表A中生成LDS(Obji)的操作。
[0034] 由圖1可W看出：生成表A時，需要遍歷DS中的全部數(shù)據(jù)對象;生成表別寸，需要遍歷表A中的全部數(shù)據(jù)對象。因此，生成表A和表C是全局相關(guān)的，其他過程都與全局無關(guān)，各數(shù)據(jù) 對象對應操作彼此之間不存在通信。
[0035] 在MapReduce編程模型中，離群因子計算過程為：
[0036] 1.采用分布式策略，確定各個數(shù)據(jù)對象的LDS(Obji);
[0037] 2.采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的稀疏度因子義；
[0038] 3.采用分布式策略，確定LDS (0)(0 G LDS (Ob j i))對應的局部稀疏因子矩陣：口 Lk ] kxd(o)(〇GLDS(obji))；
[0039] 4.采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的子空間定義向量vi，結(jié)合[Z化]kxd (0) (0 GLDS(Obji))計算對應的離群因子F'actor;
[0040] 5.采用一個Map函數(shù)和一個Reduce函數(shù)，將各個數(shù)據(jù)對象按對應的離群因子化Ctor進行全排序并輸出結(jié)果。
[0041] 輸入:數(shù)據(jù)集DS(屬性個數(shù)為d)、近鄰數(shù)K、稀疏度差異因子闊值；
[0042] 輸出：n個離群數(shù)據(jù)。
[0043] 1、執(zhí)行LSH中的MapReduce任務，生成{(obj ,LDS(Obj) )}，并行計算數(shù)據(jù)對象obj的 LDS(Obj);
[0044] 2、W {(obj ,LDS(Obj))}作為輸入，執(zhí)行MapReduce任務，生成{(obj，?〇}，確定DS中每個數(shù)據(jù)對象Obj對應的稀疏度因子；
[0045] 3、W {(ob j，義）}作為輸入，執(zhí)行LSH中的MapReduce任務，生成{(ob j，（ [ZLk]kxd(o) (0 G LDS(obj i )))) }，確定DS中每個數(shù)據(jù)對象obj的LDS(ob j)對應的局部稀疏因子矩陣口Lk]kxd(o)(〇GLDS(obji));
[004引 4、WKobj, (口Lk]kxd(o)(〇GLDS(obji))))}作為輸入，執(zhí)行MapReduce任務，生成Kobj Jactor(Obj) )}，確定DS中每個數(shù)據(jù)對象obj對應的離群因子F'actor(obj);
[0047] 5、W {(obj ,Factor (obj))}作為輸入，執(zhí)行 MapReduce任務，對{(obj ,Factor (obj))}按化Ctor大小進行全排序，確定DS中每個數(shù)據(jù)對象obj按對應的離群因子化Ctor (Obj)的大小進行全排序；
[004引6、在步驟5的輸出中找離群程度最大的n個數(shù)據(jù)對象，選取Top(N)作為離群數(shù)據(jù)。 [0049]要說明的是，W上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制，所屬技術(shù)領(lǐng) 域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改，只要沒超出本發(fā)明技術(shù)方案的思路和范圍，均應包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
【主權(quán)項】
1. 一種基于偏移量高效模板替換算法方案，其特征在于:包括以下步驟： 51、執(zhí)行LSH中的MapReduce任務，生成{(ob j，LDS(ob j))}，并行計算數(shù)據(jù)對象ob j的LDS (〇bj)； 52、以{(ob j，LDS( ob j))}作為輸入，執(zhí)行MapReduce任務，生成{(ob j, λ)}，確定DS中每個數(shù)據(jù)對象obj對應的稀疏度因子； 53、以{(obj,久)}作為輸入，執(zhí)行LSH中的MapReduce任務，生成{(obj，（ [ZLk]kxd(o) (〇 eLDS(obj i))))}，確定DS中每個數(shù)據(jù)對象obj的LDS(obj)對應的局部稀疏因子矩陣[ZLk] kxd(o)(〇eLDS(obji))； 54、以{(obj，（ [ZLk]kxd(o) (oeLDS(obji))))}作為輸入，執(zhí)行MapReduce任務，生成 {(obj，F(xiàn)actor(obj))}，確定DS中每個數(shù)據(jù)對象obj對應的離群因子Factor(obj); 55、以{(obj，F(xiàn)actor(ob j))}作為輸入，執(zhí)行MapReduce任務，對{(ob j，F(xiàn)actor(ob j))} 按Factor大小進行全排序，確定DS中每個數(shù)據(jù)對象obj按對應的離群因子Factor (obj)的大小進彳丁全排序； 56、在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象，選取Top(N)作為離群數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法，其特征在于：其中，離群因子計算過程為： (1) 采用分布式策略，確定各個數(shù)據(jù)對象的LDS(ob ji); (2) 采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的稀疏度因子久； (3) 采用分布式策略，確定1^5(〇)(〇￡〇^(〇1^1))對應的局部稀疏因子矩陣：[21^]1?(1 (o)(〇eLDS(obji)) ; (4) 采用一個Map函數(shù)，計算各個數(shù)據(jù)對象對應的子空間定義向量vi，結(jié)合[ZLk]kxd(〇) (o eLDS(obji))計算對應的離群因子Factor; (5) 采用一個Map函數(shù)和一個Reduce函數(shù)，將各個數(shù)據(jù)對象按對應的離群因子Factor進行全排序并輸出結(jié)果。3. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法，其特征在于:所述數(shù) 據(jù)集DS的屬性個數(shù)為d。
【文檔編號】G06F17/30GK105956065SQ201610273094
【公開日】2016年9月21日
【申請日】2016年4月29日
【發(fā)明人】陳勇, 司良省, 李志魁
【申請人】江蘇馬上游科技股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳勇;司良省;李志魁;
技術(shù)所有人：江蘇馬上游科技股份有限公司;
我是此專利的發(fā)明人

上一篇：一種褶皺地貌類型的自動化識別方法
上一篇：一種基于lcs的自定義元素順序優(yōu)化方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

模板匹配算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于偏移量高效模板替換算法方案的制作方法