国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法

      文檔序號:8943427閱讀:676來源:國知局
      一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及離群數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的 檢測方法。
      【背景技術(shù)】
      [0002] 離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點之一,廣泛應(yīng)用于網(wǎng)絡(luò)流量入 侵檢測、信用卡欺詐檢測、視頻監(jiān)控異常行為檢測等領(lǐng)域。目前已有的離群數(shù)據(jù)挖掘主要基 于距離或最近鄰概念進行離群挖掘,在高維數(shù)據(jù)中,如果還是根據(jù)高維空間距離和最近鄰 概念來考察數(shù)據(jù)的相鄰點,就會出現(xiàn)大部分數(shù)據(jù)都被判定為離群數(shù)據(jù)的情況。如果在高維 數(shù)據(jù)中,根據(jù)向量的余弦距離進行檢測,則可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的離群數(shù)據(jù),因為離 群點與其它點組成的向量的夾角變化不大,而非離群點被包圍在數(shù)據(jù)點中,非離群點與其 它點組成的向量的夾角變化較大,因此根據(jù)夾角變化的大小可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的 離群數(shù)據(jù)。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明提出了一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,可以高效快速地從大 規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),可以廣泛應(yīng)用于信用卡欺詐檢測、視頻監(jiān)控 異常行為檢測、網(wǎng)絡(luò)流量入侵檢測等高維數(shù)據(jù)中。
      [0004] 為了達到上述目的,本發(fā)明所采用的技術(shù)方案為:
      [0005] -種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,包括以下步驟:
      [0006] (1)計算大規(guī)模高維數(shù)據(jù)中每個數(shù)據(jù)點的余弦距離平均值,即對于每個數(shù)據(jù)點A, 分別計算A點到其余所有任意兩個點B和C組成的向量::^和:^的余弦距離的平均值;
      [0007] (2)計算每個數(shù)據(jù)點A的余弦距離;
      [0008] (3)計算每個數(shù)據(jù)點A的所有余弦距離的平均間距;
      [0009] (4)分類劃分余弦距離平均間距,選取余弦距離平均間距最小的幾個點為數(shù)據(jù)離 群度最大的離群點;
      [0010] (5)確定離群點。
      [0011] 前述的步驟(1)包括以下步驟:
      [0012] 1-1)形式化數(shù)據(jù)集,所述大規(guī)模高維數(shù)據(jù)形式化為:
      [0013] 對于給定的大規(guī)模高維數(shù)據(jù)集刀e#,范數(shù)M · I I定義為Rd- R +,內(nèi)積< ·,· > 定義為RdXRd- R,
      [0014] V點 A,B e D,表;示向量I-蒼,
      [0015] 其中Rd表示d維實數(shù)空間,R +表示正實數(shù),R d- R +表示d維實數(shù)空間上的元素到 正實數(shù)的一個映射,RdX Rd- R表示d維實數(shù)空間上的兩個向量作內(nèi)積運算;
      [0016] 1-2)對于大規(guī)模高維數(shù)據(jù)集D中的所有點分別計算每個點A到其余兩個點的向量 夾角余弦距離之和,表示為Me (A),計算公式為:
      [0017]
      [0018]
      [0019] 其中,< >表不向量仙和水7的內(nèi)積,f和JC分別表不向量淑:和 的范數(shù);
      [0020] 1-3)計算大規(guī)模高維數(shù)據(jù)集D中每個點A余弦距離的平均值,計算公式 為:
      [0021]
      [0022] 〇.
      [0023] 前述的步驟(2)計算數(shù)據(jù)點A的余弦距離,即對于每個數(shù)據(jù)點A,分別計算A點到 任意兩點B和C組成的向量M和;1己的余弦距離/VG(瓦疋),計算公式為:
      [0024]
      [0025] G
      [0026] 前述的步驟(3)計算每個數(shù)據(jù)點A的所有余弦距離的平均間距AMe (A),即累計 計算步驟2)與步驟1)獲得的每個點的余弦距離與余弦距離平均值^^的差 的絕對值,計算公式為:
      [0027]
      [0028] 前述的步驟(4)包括以下步驟:
      [0029] 4-1)按從小到大的順序排序所述步驟(3)中所有點的余弦距離平均間距,得到平 均間距序列L ;
      [0030] 4-2)劃分平均間距序列L為2類(;和C Β,
      [0031] 分類算法步驟為:依次比較平均間距序列L中的前后數(shù)據(jù),如果數(shù)值變化大于某 一閾值ε,則該數(shù)據(jù)及其后面所有的數(shù)據(jù)都劃分為類C b,其中,ε由用戶確定,BP
      [0032] VZi e i, Ca= Φ,C B= L
      [0033] 如果 d = I li+1_li I < ε,則 Ca= C A U {1 J
      [0034] 否則,Cb= C B\ {1J,
      [0035] 其中,I1表示平均間距序列L中的第i個數(shù)據(jù),Φ表示空集。
      [0036] 前述的步驟(5)確定離群點,具體方法為:
      [0037] 檢查所述步驟(4)中獲得的類別Ca,如果Ca的數(shù)據(jù)個數(shù)大于某一閾值δ,則該大 規(guī)模高維數(shù)據(jù)中沒有檢測到離群點,否則(;中所有數(shù)據(jù)對應(yīng)的點為離群點,其中,δ由用戶 設(shè)定。
      [0038] 本發(fā)明與已有技術(shù)相比,其效果是積極和明顯的。本發(fā)明具有以下優(yōu)點:
      [0039] 本發(fā)明提供的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,基于向量夾角余弦距離, 能有效克服基于高維距離和最近鄰等離群檢測方法的"維度災(zāi)難"問題,利用本發(fā)明可以廣 泛應(yīng)用于信用卡欺詐檢測、視頻監(jiān)控異常行為檢測、網(wǎng)絡(luò)流量入侵檢測等高維數(shù)據(jù)中。
      【附圖說明】
      [0040] 圖1為本發(fā)明的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)檢測方法的流程圖。
      【具體實施方式】
      [0041] 現(xiàn)結(jié)合附圖和【具體實施方式】,對本發(fā)明做進一步說明:
      [0042] 本發(fā)明的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)檢測方法,如圖1所示,包括以下步驟:
      [0043] 1)計算大規(guī)模高維數(shù)據(jù)中每個數(shù)據(jù)點的余弦距離平均值,即對于每個數(shù)據(jù)點Α, 分別計算A點到其它所有任意兩個點B和C組成的向量Xi和石的余弦距離的平均值;
      [0044] 為了得到各數(shù)據(jù)點的余弦距離平均值,需要給出大規(guī)模高維數(shù)據(jù)的形式化描述、 向量夾角余弦距離和數(shù)據(jù)點余弦距離平均值的計算方法,分別為:
      [0045] 1-1)形式化數(shù)據(jù)集,大規(guī)模高維數(shù)據(jù)可以形式化為:
      [0046] 對于給定的大規(guī)模高維數(shù)據(jù)集D G.范數(shù)M · I I定義為Rd- R +,內(nèi)積< ·,· > 定義為RdXRd- R,
      [0047] V點 A, B e D,Xg表示向量2 -5,
      [0048] 其中Rd表示d維實數(shù)空間,R +表示正實數(shù),R d- R +表示d維實數(shù)空間上的元素到 正實數(shù)的一個映射,RdXRd- R表示d維實數(shù)空間上的兩個向量作內(nèi)積運算。
      [0049] 1-2)對于大規(guī)模高維數(shù)據(jù)集D中的所有點分別計算每個點A到其它兩個點的向量 夾角余弦距離之和,表示為M e (A),計算公式為:
      [0050]
      [0051]
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1