国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      大數(shù)據(jù)異常點檢測方法及其系統(tǒng)與流程

      文檔序號:11407416閱讀:4566來源:國知局
      大數(shù)據(jù)異常點檢測方法及其系統(tǒng)與流程

      本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其涉及一種大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。



      背景技術:

      在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量直接影響大數(shù)據(jù)分析處理方法的效果,也影響決策過程。通過分析海量數(shù)據(jù),可以從中發(fā)現(xiàn)數(shù)據(jù)集中隱含的模式和規(guī)律。但數(shù)據(jù)集中的異常數(shù)據(jù)會對分析過程產(chǎn)生重大干擾,因此通過數(shù)據(jù)挖掘方法對大數(shù)據(jù)進行利用的研究領域中,數(shù)據(jù)異常檢測已成為熱門研究。

      在大數(shù)據(jù)中的異常數(shù)據(jù)存在如下特點:1.與正常數(shù)據(jù)的表現(xiàn)有明顯的差異;2.其產(chǎn)生機制與正常數(shù)據(jù)不同,可能為未知方式;3.數(shù)據(jù)維度較高,異常數(shù)據(jù)與正常數(shù)據(jù)一樣,都是高維數(shù)據(jù)。

      由于高維數(shù)據(jù)集中的數(shù)據(jù)點在高維空間內(nèi)的分布有著稀疏性。因此,傳統(tǒng)方法無法處理大數(shù)據(jù)中的異常數(shù)據(jù)檢測問題。在現(xiàn)有高維異常數(shù)據(jù)檢測方法中,通??梢圆捎脭?shù)據(jù)點間的歐氏空間距離作為指標來判斷數(shù)據(jù)的異常性,是否屬于異常數(shù)據(jù)。

      但由于高維數(shù)據(jù)在高維空間上的距離無法作為有效指標來進行衡量。進一步的,有些方案則引入余弦角度來代替歐氏距離作為指標,但這個方法的時間復雜度隨著數(shù)據(jù)集的增大,急劇增大,同時通常的角度對比方法在非圓的數(shù)據(jù)集上不能很好地工作。

      因此,現(xiàn)有技術還有待發(fā)展。



      技術實現(xiàn)要素:

      鑒于上述現(xiàn)有技術的不足之處,本發(fā)明的目的在于提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng),旨在解決現(xiàn)有技術中數(shù)據(jù)異常點檢測效果不佳的問題。

      為了達到上述目的,本發(fā)明采取了以下技術方案:

      一種大數(shù)據(jù)異常點檢測方法,其中,所述方法包括:

      計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;

      移除所述維度屬性權(quán)重低于第一預定閾值的維度屬性;

      在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標準切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關的劃分結(jié)果;

      將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應的二維平面區(qū)塊;

      在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預定閾值時,確定為正常區(qū)塊;

      計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;

      在所述角度方差因子大于第三預定閾值時,標記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

      所述的方法,其中,所述第二預定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

      所述的方法,其中,所述方法還包括:

      確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;

      根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;

      將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標準切塊。

      所述的方法,其中,所述計算高維數(shù)據(jù)的維度屬性權(quán)重,具體包括:

      使用如下算式計算所述維度屬性權(quán)重:

      其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關關系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

      所述的方法,其中,使用如下算式計算所述獨立權(quán)重:

      其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

      使用如下算式計算所述聯(lián)合權(quán)重:

      其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

      一種大數(shù)據(jù)異常點檢測系統(tǒng),其中,包括:

      約簡降維模塊,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預定閾值的維度屬性;

      數(shù)據(jù)集切分模塊,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標準切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預定閾值時,確定為正常區(qū)塊;

      異常數(shù)據(jù)判斷模塊,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預定閾值時,標記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

      所述的系統(tǒng),其中,所述第二預定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

      所述的系統(tǒng),其中,所述數(shù)據(jù)集切分模塊還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標準切塊。

      所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述維度屬性權(quán)重:

      其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關關系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

      所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述獨立權(quán)重:

      其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

      使用如下算式計算所述聯(lián)合權(quán)重:

      其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

      有益效果:本發(fā)明提供的大數(shù)據(jù)異常點檢測方法及其系統(tǒng),基于數(shù)據(jù)區(qū)域切分和約簡降維的思想,有效克服了現(xiàn)有異常數(shù)據(jù)檢測方法,在處理大規(guī)模高維數(shù)據(jù)時,時間復雜度過高及效果不理想的弊端,處理大規(guī)模高維數(shù)據(jù)集中的異常點檢測這樣的復雜問題具有較好的效果。

      附圖說明

      圖1為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測方法的方法流程圖;

      圖2為本發(fā)明實施例提供的二維平面區(qū)塊圖;

      圖3為本發(fā)明實施例提供的相鄰數(shù)據(jù)區(qū)塊圖;

      圖4為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測系統(tǒng)的功能框圖。

      具體實施方式

      本發(fā)明提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。為使本發(fā)明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

      如圖1所示,為本發(fā)明實施例提供的一種大數(shù)據(jù)異常點檢測方法的方法流程圖。所述方法包括如下步驟:

      100、計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性。

      200、移除所述維度屬性權(quán)重低于第一預定閾值的維度屬性。

      步驟100和200屬于預處理的過程,大數(shù)據(jù)通常包含高維數(shù)據(jù),其特性是維度屬性較多。令pi表示第i維上的屬性,根據(jù)分析需要的不同,各維度屬性的重要性也不相同。因此,在進行異常點檢測前,可以首先根據(jù)屬性的權(quán)重來去除一些冗余屬性,進行約簡降維。

      基于在高維數(shù)據(jù)中,維度屬性間存在著一定的相關關系,不同維度屬性之間的權(quán)重會受其它屬性的影響的考慮,在本發(fā)明實施例中,具體可以采用如下方法計算維度屬性權(quán)重:

      設對于高維數(shù)據(jù)集d,p={p1,p2,…,pi,…,pn}為其維度屬性集合,n為長度,對于維度屬性集合中的某個維度屬性pi的權(quán)重r(pi)可以通過算式(1)計算獲得:

      其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性。ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關關系時的獨立權(quán)重,rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

      對于獨立權(quán)重,可以使用算式(2)計算獲得:

      其中,ei為pi的熵值,為維度屬性pi的第j個屬性值。

      對于聯(lián)合權(quán)重,可以使用算式(3)計算獲得:

      其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

      在計算獲得所述維度屬性權(quán)重后,可以根據(jù)實際情況的需要,設置合適的閾值用以篩選或者移除一些維度屬性,實現(xiàn)約簡降維。對于小于閾值的維度屬性,將其移出集合,降低后續(xù)操作的開銷。較佳的,第一預定閾值η設置為η∈[0.2,0.25]時,具有較為理想的篩選效果。

      300、在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標準切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關的劃分結(jié)果。

      進一步的,對于該數(shù)據(jù)集d,各個維度屬性上均會存在有數(shù)據(jù)相對集中的區(qū)間可以令整個數(shù)據(jù)集d的數(shù)據(jù)密集,在一些實施例中,可以選擇r中體積最小的超矩形作為標準切塊,按照標準切塊各個維度的長度li對于數(shù)據(jù)集d進行劃分。

      400、將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應的二維平面區(qū)塊。在劃分后,可以通過將數(shù)據(jù)投射到二維平面的方法,獲得對應的二維平面區(qū)塊reci。

      500、在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預定閾值時,確定為正常區(qū)塊。

      圖2為本發(fā)明實施例提供的二維平面區(qū)塊的示意圖。如圖2所示,不同的二維平面區(qū)塊的數(shù)據(jù)密度情況有異??梢酝ㄟ^算式(4)計算某個二維平面區(qū)塊的數(shù)據(jù)密度:

      其中,count(reci),acr(reci)分別為reci包含的數(shù)據(jù)點數(shù)量和區(qū)塊面積。當數(shù)據(jù)密度大于一定閾值時,將該區(qū)塊標記為正常區(qū)塊。在一些實施例中,所述閾值可以取所有區(qū)塊的平均數(shù)據(jù)密度。

      在獲得至少一個正常區(qū)塊后,可以使用一定的策略完成對于數(shù)據(jù)集區(qū)塊的判斷(即擴展正常區(qū)塊)。例如,如圖3所示,若正常區(qū)塊的相鄰區(qū)塊密度也滿足上述條件,則可以將其加入到連續(xù)的正常區(qū)塊隊列中。

      600、計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子。

      在步驟500的正常區(qū)塊劃分完成后,在數(shù)據(jù)集d中可以得到多個連續(xù)的正常數(shù)據(jù)區(qū)塊。確定不在這些正常數(shù)據(jù)區(qū)塊內(nèi)的數(shù)據(jù)點并回到高維空間,計算這些數(shù)據(jù)點的角度方差因子。

      在一些實施例中,可以通過算式(5)計算所述角度方差因子:

      其中,xixk為數(shù)據(jù)點xi和xk的向量差,xi和xj落在正常數(shù)據(jù)區(qū)塊reci內(nèi),xk落在正常數(shù)據(jù)區(qū)塊外。

      700、在所述角度方差因子大于第三預定閾值時,標記所述高維數(shù)據(jù)為異常數(shù)據(jù)。計算獲得角度方差因子后,同樣也可以通過設置第三預定閾值,確定是否屬于異常數(shù)據(jù)。

      本發(fā)明實施例還提供了一種大數(shù)據(jù)異常點檢測系統(tǒng)。如圖4所示,所述系統(tǒng)包括:約簡降維模塊100,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預定閾值的維度屬性。數(shù)據(jù)集切分模塊200,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標準切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預定閾值時,確定為正常區(qū)塊。異常數(shù)據(jù)判斷模塊300,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預定閾值時,標記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

      具體的,所述第二預定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

      在本發(fā)明另一些實施例中,所述數(shù)據(jù)集切分模塊200還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標準切塊。

      所述約簡降維模塊100具體用于:使用如下算式計算所述維度屬性權(quán)重:

      其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關關系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

      可選地,使用如下算式計算所述獨立權(quán)重:

      其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

      使用如下算式計算所述聯(lián)合權(quán)重:

      其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

      可以理解的是,對本領域普通技術人員來說,可以根據(jù)本發(fā)明的技術方案及本發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應屬于本發(fā)明所附的權(quán)利要求的保護范圍。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1