一種基于偏移量高效模板替換算法方案的制作方法
【專利摘要】本發(fā)明公開了一種基于偏移量高效模板替換算法方案,利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群因子Factor時由Map來實現(xiàn);在按Factor大小進行全排序時,使用一個Map對Factor進行取樣,進而實現(xiàn)決定各個(K2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻問題和局部有序但全局無序問題。
【專利說明】
-種基于偏移量高效模板替換算法方案
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設及一種基于偏移量高效模板替換算法方案。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)(outlier)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存 在的其他數(shù)據(jù)不一致的數(shù)據(jù),蘊含著大量的不易被人類發(fā)現(xiàn)卻很有價值的信息.離群挖掘 作為數(shù)據(jù)挖掘的一個重要分支,已廣泛的應用在天文光譜數(shù)據(jù)分析、信用卡詐騙、網(wǎng)絡入侵 挖掘、數(shù)據(jù)清洗等領(lǐng)域.
[0003] 在高維海量數(shù)據(jù)中,由于數(shù)據(jù)量大和維度高,嚴重地影響了離群數(shù)據(jù)挖掘效果和 效率,可能無法發(fā)現(xiàn)隱藏在子空間中的一些離群數(shù)據(jù).在大多數(shù)情況下,離群數(shù)據(jù)是與局部 數(shù)據(jù)集的分布特征明顯不一致的數(shù)據(jù)對象.但在有些屬性維上,可W提供不一致的有價值 信息,而在其他屬性維上,無法提供有價值的信息。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對高維海量數(shù)據(jù),在MapReduce編程模型下,提出了一種基于并 行計算的離群數(shù)據(jù)挖掘方法,該算法利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空 間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密 度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的 程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。
[0005] 本發(fā)明所采用的技術(shù)方案是:
[0006] -種基于偏移量高效模板替換算法方案,包括W下步驟:
[0007] Sl、執(zhí)行LSH中的MapReduce任務,生成Kobj ,LDS(Obj) )},并行計算數(shù)據(jù)對象Obj 的LDS(Obj);
[000引 S2、W {(ob j,LDS(ob j))}作為輸入,執(zhí)行MapReduce任務,生成{(ob j,又)},確定DS 中每個數(shù)據(jù)對象Obj對應的稀疏度因子;
[0009] S3、W {(Ob j,義)}作為輸入,執(zhí)行L甜中的MapReduce任務,生成{(Ob j,(口Lk]kxd (o)(〇GLDS(obj i))))},確定DS中每個數(shù)據(jù)對象Obj的LDS(Obj)對應的局部稀疏因子矩陣 口Lk]kxd(o)(〇GLDS(obji));
[0010] S4、W {(ob j,( [ZUc]kxd(o) (0 E LDS(ob ji))))}作為輸入,執(zhí)行MapReduce任務,生 成{(objJactoHobj))},確定DS中每個數(shù)據(jù)對象obj對應的離群因子F'actoHobj);
[0011] S5、W {(obj Jactor(Obj))}作為輸入,執(zhí)行MapReduce任務,對{(obj ,Factor (obj))}按化Ctor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子化Ctor (Obj)的大小進行全排序;
[0012] S6、在步驟5的輸出中找離群程度最大的n個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。
[0013] 其中,離群因子計算過程為:
[0014] (1)采用分布式策略,確定各個數(shù)據(jù)對象的LDS(Obji);
[00巧](2)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子又:
[0016] (3)采用分布式策略,確定LDS(O) (0 G LDS(Obji))對應的局部稀疏因子矩陣: 口Lk]kxd(o)(〇GLDS(obji));;
[0017] (4)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量Vi,結(jié)合[Z化] 1〇?1(〇)(〇£〇)5(〇13^';〇)計算對應的離群因子化(31:〇1';
[0018] (5)采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子 化Ctor進行全排序并輸出結(jié)果。
[0019] 本發(fā)明的有益效果是,
[0020] 本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群 因子化Ctor時由Map來實現(xiàn),在按化Ctor大小進行全排序時,使用一個Map對化Ctor進行取 樣,進而實現(xiàn)決定各個化2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻 問題和局部有序但全局無序問題;同時,設計一個Reduce來對分配到各個結(jié)點的化2,V2)進 行排序。
[0021] 下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
【附圖說明】
[0022] 圖1為傳統(tǒng)算法的離群因子的計算過程示意圖。
【具體實施方式】
[0023] 為了加深對本發(fā)明的理解,下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細的說 明。W下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能W此來限制本發(fā)明的保 護范圍。
[0024] 傳統(tǒng)算法:
[0025] 設DS是任意一個d維數(shù)據(jù)集,屬性集FS= {A1,A2,? ? 'Ad},Xi j (i = 1,2,…,n; j = 1, 2,…,d)表示第i個數(shù)據(jù)對象obji在第j個屬性上的取值。如果第i個對象obj的子空間定義 向量V各維值都是0,表明Obj與局部分布特征一致;如果第i個對象Obj存在著相關(guān)子空間, 表明Obj與局部分布特征不一致。通常我們用化Ctor(Obj)來描述離群程度:
[0026]
[0027]
[002引
[0029] 由公式可知,數(shù)據(jù)集DS中的任意數(shù)據(jù)對象ObjiQ = I, 2,...,n;n= DS )的離群因 子化Ctor(Obji)的計算步驟是:
[0030] 首先,確定obji的LDS(Obji),并利用公式計算obji對應的稀疏度因子XL從而生 成DS的稀疏因子矩陣[Zk]n X d;其次,根據(jù)[Zk]n X d,參照LDS(0 KLDS (Ob j i)),生成對應的 局部稀疏因子矩陣[Z化化Xd(O) (0 GLDS(Obji)),然后生成Obji對應的子空間定義向量 vi;最后,確定obji對應的離群因數(shù)化Ctor(Obji)D
[0031] 因此在DS中,任意數(shù)據(jù)對象的離群因子計算過程可由圖1所示。
[0032] 圖1刻畫和描述了離群因子的計算過程,當數(shù)據(jù)集DS較小時,表A與表B都較小,可 W首先生成表A,并將其保存在內(nèi)存中;然后由表A通過生成表B,并將其也保存在內(nèi)存中。由 于表A與表B中都在內(nèi)存,可采用索引技術(shù),從表B中的對應項對應到表A的相應項來生成表 C。當數(shù)據(jù)集DS大到一定程度時,表A與表騎時目當大。在生成表別寸,需將表A中的每一個數(shù)據(jù) 對象和對應局部數(shù)據(jù)集LDS(Obji)逐項輸入,W及在表B中查找LDS(Obji)對應的稀疏度因 子,因此,表B必須被保留在各計算結(jié)點上的內(nèi)存中。當B表太大時,會耗盡各個計算結(jié)點的 內(nèi)存資源。
[0033] 因此,為了生成表C,不再采用索引策略對應生成,而是從表B中查找LDS(Obji)對 應的局部稀疏因子,采用類似于表A中生成LDS(Obji)的操作。
[0034] 由圖1可W看出:生成表A時,需要遍歷DS中的全部數(shù)據(jù)對象;生成表別寸,需要遍歷 表A中的全部數(shù)據(jù)對象。因此,生成表A和表C是全局相關(guān)的,其他過程都與全局無關(guān),各數(shù)據(jù) 對象對應操作彼此之間不存在通信。
[0035] 在MapReduce編程模型中,離群因子計算過程為:
[0036] 1.采用分布式策略,確定各個數(shù)據(jù)對象的LDS(Obji);
[0037] 2.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子義;
[0038] 3.采用分布式策略,確定LDS (0)(0 G LDS (Ob j i))對應的局部稀疏因子矩陣:口 Lk ] kxd(o)(〇GLDS(obji));
[0039] 4.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量vi,結(jié)合[Z化]kxd (0) (0 GLDS(Obji))計算對應的離群因子F'actor;
[0040] 5.采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子 化Ctor進行全排序并輸出結(jié)果。
[0041] 輸入:數(shù)據(jù)集DS(屬性個數(shù)為d)、近鄰數(shù)K、稀疏度差異因子闊值;
[0042] 輸出:n個離群數(shù)據(jù)。
[0043] 1、執(zhí)行LSH中的MapReduce任務,生成{(obj ,LDS(Obj) )},并行計算數(shù)據(jù)對象obj的 LDS(Obj);
[0044] 2、W {(obj ,LDS(Obj))}作為輸入,執(zhí)行MapReduce任務,生成{(obj,?〇},確定DS中 每個數(shù)據(jù)對象Obj對應的稀疏度因子;
[0045] 3、W {(ob j,義)}作為輸入,執(zhí)行LSH中的MapReduce任務,生成{(ob j,( [ZLk]kxd(o) (0 G LDS(obj i )))) },確定DS中每個數(shù)據(jù)對象obj的LDS(ob j)對應的局部稀疏因子矩陣 口Lk]kxd(o)(〇GLDS(obji));
[004引 4、WKobj, (口Lk]kxd(o)(〇GLDS(obji))))}作為輸入,執(zhí)行MapReduce任務,生 成Kobj Jactor(Obj) )},確定DS中每個數(shù)據(jù)對象obj對應的離群因子F'actor(obj);
[0047] 5、W {(obj ,Factor (obj))}作為輸入,執(zhí)行 MapReduce任務,對{(obj ,Factor (obj))}按化Ctor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子化Ctor (Obj)的大小進行全排序;
[004引6、在步驟5的輸出中找離群程度最大的n個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。 [0049]要說明的是,W上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制,所屬技術(shù)領(lǐng) 域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改,只要沒超出本發(fā)明技術(shù)方 案的思路和范圍,均應包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
【主權(quán)項】
1. 一種基于偏移量高效模板替換算法方案,其特征在于:包括以下步驟: 51、 執(zhí)行LSH中的MapReduce任務,生成{(ob j,LDS(ob j))},并行計算數(shù)據(jù)對象ob j的LDS (〇bj); 52、 以{(ob j,LDS( ob j))}作為輸入,執(zhí)行MapReduce任務,生成{(ob j, λ)},確定DS中每個 數(shù)據(jù)對象obj對應的稀疏度因子; 53、 以{(obj,久)}作為輸入,執(zhí)行LSH中的MapReduce任務,生成{(obj,( [ZLk]kxd(o) (〇 eLDS(obj i))))},確定DS中每個數(shù)據(jù)對象obj的LDS(obj)對應的局部稀疏因子矩陣[ZLk] kxd(o)(〇eLDS(obji)); 54、 以{(obj,( [ZLk]kxd(o) (oeLDS(obji))))}作為輸入,執(zhí)行MapReduce任務,生成 {(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應的離群因子Factor(obj); 55、 以{(obj,F(xiàn)actor(ob j))}作為輸入,執(zhí)行MapReduce任務,對{(ob j,F(xiàn)actor(ob j))} 按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子Factor (obj)的大 小進彳丁全排序; 56、 在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:其中, 離群因子計算過程為: (1) 采用分布式策略,確定各個數(shù)據(jù)對象的LDS(ob ji); (2) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子久; (3) 采用分布式策略,確定1^5(〇)(〇£〇^(〇1^1))對應的局部稀疏因子矩陣:[21^]1?(1 (o)(〇eLDS(obji)) ; (4) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量vi,結(jié)合[ZLk]kxd(〇) (o eLDS(obji))計算對應的離群因子Factor; (5) 采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子Factor進 行全排序并輸出結(jié)果。3. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:所述數(shù) 據(jù)集DS的屬性個數(shù)為d。
【文檔編號】G06F17/30GK105956065SQ201610273094
【公開日】2016年9月21日
【申請日】2016年4月29日
【發(fā)明人】陳勇, 司良省, 李志魁
【申請人】江蘇馬上游科技股份有限公司