国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種高并發(fā)數(shù)據(jù)緩存解決方案的制作方法

      文檔序號:10612832閱讀:301來源:國知局
      一種高并發(fā)數(shù)據(jù)緩存解決方案的制作方法
      【專利摘要】本發(fā)明公開了一種高并發(fā)數(shù)據(jù)緩存解決方案,利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群因子Factor時由Map來實現(xiàn);在按Factor大小進行全排序時,使用一個Map對Factor進行取樣,進而實現(xiàn)決定各個(K2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻問題和局部有序但全局無序問題。
      【專利說明】
      一種高并發(fā)數(shù)據(jù)緩存解決方案
      技術(shù)領(lǐng)域
      [0001 ]本發(fā)明涉及一種高并發(fā)數(shù)據(jù)緩存解決方案。
      【背景技術(shù)】
      [0002] 離群數(shù)據(jù)(outlier)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存 在的其他數(shù)據(jù)不一致的數(shù)據(jù),蘊含著大量的不易被人類發(fā)現(xiàn)卻很有價值的信息.離群挖掘 作為數(shù)據(jù)挖掘的一個重要分支,已廣泛的應(yīng)用在天文光譜數(shù)據(jù)分析、信用卡詐騙、網(wǎng)絡(luò)入侵 挖掘、數(shù)據(jù)清洗等領(lǐng)域.
      [0003] 在高維海量數(shù)據(jù)中,由于數(shù)據(jù)量大和維度高,嚴(yán)重地影響了離群數(shù)據(jù)挖掘效果和 效率,可能無法發(fā)現(xiàn)隱藏在子空間中的一些離群數(shù)據(jù).在大多數(shù)情況下,離群數(shù)據(jù)是與局部 數(shù)據(jù)集的分布特征明顯不一致的數(shù)據(jù)對象.但在有些屬性維上,可以提供不一致的有價值 信息,而在其他屬性維上,無法提供有價值的信息。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明的目的是針對高維海量數(shù)據(jù),在MapReduce編程模型下,提出了一種基于并 行計算的離群數(shù)據(jù)挖掘方法,該算法利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空 間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密 度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的 程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。
      [0005] 本發(fā)明所采用的技術(shù)方案是:
      [0006] -種高并發(fā)數(shù)據(jù)緩存解決方案,包括以下步驟:
      [0007] S1、執(zhí)行LSH中的MapReduce任務(wù),生成{(obj,LDS(obj) )},并行計算數(shù)據(jù)對象obj 的LDS(obj);
      [0008] 32、以{(〇13」,1^)5(〇1^))}作為輸入,執(zhí)行1&1口1^(111〇6任務(wù),生成{(〇1^,瓦)},確定05 中每個數(shù)據(jù)對象obj對應(yīng)的稀疏度因子;
      [0009] S3、以{(obj,λ)}作為輸入,執(zhí)行LSH中的MapReduce任務(wù),生成{(obj,( [ZLk]kxd (ο) (o e LDS(ob j i))))},確定DS中每個數(shù)據(jù)對象ob j的LDS(ob j)對應(yīng)的局部稀疏因子矩陣 [ZLk]kxd(o)(〇eLDS(obji));
      [0010] S4、以{(ob j,( [ZLk]kxd(o) (o G LDS(ob ji))))}作為輸入,執(zhí)行MapReduce任務(wù),生 成{(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應(yīng)的離群因子Factor(obj);
      [0011] S5、以{(obj,F(xiàn)actor (obj ))}作為輸入,執(zhí)行MapReduce 任務(wù),對{(obj,F(xiàn)actor (obj))}按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應(yīng)的離群因子Factor (obj)的大小進彳丁全排序;
      [0012] S6、在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。
      [0013] 其中,離群因子計算過程為:
      [0014] (1)采用分布式策略,確定各個數(shù)據(jù)對象的LDS(obji);
      [0015] (2)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的稀疏度因子久;
      [0016] (3)采用分布式策略,確定1^3(〇)(〇£1^3(〇1^_1))對應(yīng)的局部稀疏因子矩陣: [ZLk]kxd(o)(〇eLDS(obji));;
      [0017] (4)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的子空間定義向量vi,結(jié)合[ZLk] kxd(o)(〇eLDS(obji))計算對應(yīng)的離群因子Factor;
      [0018] (5)采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應(yīng)的離群因子 Factor進行全排序并輸出結(jié)果。
      [0019] 本發(fā)明的有益效果是,
      [0020] 本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群 因子Factor時由Map來實現(xiàn),在按Factor大小進行全排序時,使用一個Map對Factor進行取 樣,進而實現(xiàn)決定各個(K2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻 問題和局部有序但全局無序問題;同時,設(shè)計一個Reduce來對分配到各個結(jié)點的(K2,V2)進 行排序。
      [0021] 下面結(jié)合附圖對本發(fā)明作進一步詳細(xì)描述。
      【附圖說明】
      [0022] 圖1為傳統(tǒng)算法的離群因子的計算過程示意圖。
      【具體實施方式】
      [0023] 為了加深對本發(fā)明的理解,下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細(xì)的說 明。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保 護范圍。
      [0024]傳統(tǒng)算法:
      [0025] 設(shè)DS是任意一個d維數(shù)據(jù)集,屬性集FS= {A1,A2, ."Ad},xi j(i = l,2,…,n; j = 1, 2,···,d)表示第i個數(shù)據(jù)對象obji在第j個屬性上的取值。如果第i個對象obj的子空間定義 向量v各維值都是〇,表明〇bj與局部分布特征一致;如果第i個對象obj存在著相關(guān)子空間, 表明obj與局部分布特征不一致。通常我們用Fact 〇r(〇bj)來描述離群程度:
      [0026]
      [0027] 其中,LDS(obj)是obj局部數(shù)據(jù)集,PL0F是局部異常因子:
      [0028]
      [0029]由公式可知,數(shù)據(jù)集DS中的任意數(shù)據(jù)對象obji(i = l,2, · · ·,n;n = |DS| )的離群因 子Factor (obj i)的計算步驟是:
      [0030]首先,確定obji的LDS(obji),并利用公式計算obji對應(yīng)的稀疏度因子Xi,從而生 成DS的稀疏因子矩陣[Zk]η X d;其次,根據(jù)[Zk]η X d,參照LDS(〇) (LDS(ob ji)),生成對應(yīng)的 局部稀疏因子矩陣[ZLk]kXd(〇)(〇eLDS(〇bji)),然后生成obji對應(yīng)的子空間定義向量 vi;最后,確定obji對應(yīng)的離群因數(shù)Factor(obji)。
      [0031] 因此在DS中,任意數(shù)據(jù)對象的離群因子計算過程可由圖1所示。
      [0032] 圖1刻畫和描述了離群因子的計算過程,當(dāng)數(shù)據(jù)集DS較小時,表A與表B都較小,可 以首先生成表A,并將其保存在內(nèi)存中;然后由表A通過生成表B,并將其也保存在內(nèi)存中。由 于表A與表B中都在內(nèi)存,可采用索引技術(shù),從表B中的對應(yīng)項對應(yīng)到表A的相應(yīng)項來生成表 C。當(dāng)數(shù)據(jù)集DS大到一定程度時,表A與表哺卩相當(dāng)大。在生成表C時,需將表A中的每一個數(shù)據(jù) 對象和對應(yīng)局部數(shù)據(jù)集LDS(obji)逐項輸入,以及在表B中查找LDS(obji)對應(yīng)的稀疏度因 子,因此,表B必須被保留在各計算結(jié)點上的內(nèi)存中。當(dāng)B表太大時,會耗盡各個計算結(jié)點的 內(nèi)存資源。
      [0033] 因此,為了生成表C,不再采用索引策略對應(yīng)生成,而是從表B中查找LDS(ob j i)對 應(yīng)的局部稀疏因子,采用類似于表A中生成LDS(obji)的操作。
      [0034]由圖1可以看出:生成表A時,需要遍歷DS中的全部數(shù)據(jù)對象;生成表C時,需要遍歷 表A中的全部數(shù)據(jù)對象。因此,生成表A和表C是全局相關(guān)的,其他過程都與全局無關(guān),各數(shù)據(jù) 對象對應(yīng)操作彼此之間不存在通信。
      [0035] 在MapReduce編程模型中,離群因子計算過程為:
      [0036] 1.采用分布式策略,確定各個數(shù)據(jù)對象的LDS(obji);
      [0037] 2.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的稀疏度因子久;
      [0038] 3.采用分布式策略,確定1^5(〇)(〇£〇^( 〇1^1))對應(yīng)的局部稀疏因子矩陣:[21^] kxd(o)(〇eLDS(obji));
      [0039] 4.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的子空間定義向量vi,結(jié)合[ZLk]kxd (〇)(〇eLDS(obji))計算對應(yīng)的離群因子Factor;
      [0040] 5.采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應(yīng)的離群因子 Factor進行全排序并輸出結(jié)果。
      [0041] 輸入:數(shù)據(jù)集DS(屬性個數(shù)為d)、近鄰數(shù)K、稀疏度差異因子閾值;
      [0042]輸出:η個離群數(shù)據(jù)。
      [0043] 1、執(zhí)行LSH中的MapReduce任務(wù),生成{(obj,LDS(obj))},并行計算數(shù)據(jù)對象obj的 LDS(obj);
      [0044] 2、以{(〇13」,0)3(〇1^))}作為輸入,執(zhí)行1&^|1^(11^6任務(wù),生成{(〇13」,久:)},確定03中 每個數(shù)據(jù)對象obj對應(yīng)的稀疏度因子;
      [0045] 3、以{(obj,λ:)}作為輸入,執(zhí)行LSH中的MapReduce任務(wù),生成{(obj,([ZLk]kxd(o) (o e LDS (obj i)))) },確定DS中每個數(shù)據(jù)對象obj的LDS (ob j)對應(yīng)的局部稀疏因子矩陣 [ZLk]kxd(o)(〇eLDS(obji));
      [0046] 4、以{(obj,([ZLk]kxd(o)(〇eLDS(obji))))}作為輸入,執(zhí)行MapReduce任務(wù),生 成{(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應(yīng)的離群因子Factor(obj);
      [0047] 5、以{(〇13]_,卩&(:1:〇1'(〇13]_))}作為輸入,執(zhí)行]\^卩1^(111〇6任務(wù),對{(〇13]_,卩&(31:〇『 (obj))}按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應(yīng)的離群因子Factor (obj)的大小進彳丁全排序;
      [0048] 6、在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。
      [0049] 要說明的是,以上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制,所屬技術(shù)領(lǐng) 域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改,只要沒超出本發(fā)明技術(shù)方 案的思路和范圍,均應(yīng)包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
      【主權(quán)項】
      1. 一種高并發(fā)數(shù)據(jù)緩存解決方案,其特征在于:包括W下步驟: 51、 執(zhí)行LSH中的MapReduce任務(wù),生成{(ob j,LDS(ob j))},并行計算數(shù)據(jù)對象ob j的LDS (obj); 52、 W {(ob j,LDS(ob j))}作為輸入,執(zhí)行MapReduce任務(wù),生成{ (ob j,義)},確定DS中每個 數(shù)據(jù)對象obj對應(yīng)的稀疏度因子; 53、 W {(ob j, 乂)}作為輸入,執(zhí)行 L細(xì)中的 MapReduce任務(wù),生成{(ob j,(口Lk]kxd(o) (0 eLDS(obj i))))},確定DS中每個數(shù)據(jù)對象obj的LDS(obj)對應(yīng)的局部稀疏因子矩陣[Z化] kxd(o)(〇eLDS(obji)); 54、 W {(obj,(口Lk化xd(o) (oeLDS(obji))))}作為輸入,執(zhí)行MapReduce任務(wù),生成 {(objJactoHobj))},確定DS中每個數(shù)據(jù)對象obj對應(yīng)的離群因子F'actoHobj); 55、 W {(obj JactoHobj))}作為輸入,執(zhí)行MapReduce任務(wù),對{(obj JactoHobj))} 按化ctor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應(yīng)的離群因子化ctor (obj)的大 小進行全排序; 56、 在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:其中, 離群因子計算過程為: (1) 采用分布式策略,確定各個數(shù)據(jù)對象的LDS(ob ji); (2) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的稀疏度因子又; (3) 采用分布式策略,確定0)5(〇)(〇£〇)5(〇叫1))對應(yīng)的局部稀疏因子矩陣:[化^1?(1 (〇)(〇eLDS(obji)); (4) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應(yīng)的子空間定義向量Vi,結(jié)合[Z化]kxd(o) (〇£〇)5(〇13^';0)計算對應(yīng)的離群因子化(31:〇1·; (5) 采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應(yīng)的離群因子化ctor進 行全排序并輸出結(jié)果。3. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:所述數(shù) 據(jù)集DS的屬性個數(shù)為d。
      【文檔編號】G06F17/30GK105975505SQ201610273093
      【公開日】2016年9月28日
      【申請日】2016年4月29日
      【發(fā)明人】陳勇, 司良省, 李志魁
      【申請人】江蘇馬上游科技股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1