一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及離群數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的 檢測方法。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點之一,廣泛應(yīng)用于網(wǎng)絡(luò)流量入 侵檢測、信用卡欺詐檢測、視頻監(jiān)控異常行為檢測等領(lǐng)域。目前已有的離群數(shù)據(jù)挖掘主要基 于距離或最近鄰概念進行離群挖掘,在高維數(shù)據(jù)中,如果還是根據(jù)高維空間距離和最近鄰 概念來考察數(shù)據(jù)的相鄰點,就會出現(xiàn)大部分數(shù)據(jù)都被判定為離群數(shù)據(jù)的情況。如果在高維 數(shù)據(jù)中,根據(jù)向量的余弦距離進行檢測,則可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的離群數(shù)據(jù),因為離 群點與其它點組成的向量的夾角變化不大,而非離群點被包圍在數(shù)據(jù)點中,非離群點與其 它點組成的向量的夾角變化較大,因此根據(jù)夾角變化的大小可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的 離群數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提出了一種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,可以高效快速地從大 規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),可以廣泛應(yīng)用于信用卡欺詐檢測、視頻監(jiān)控 異常行為檢測、網(wǎng)絡(luò)流量入侵檢測等高維數(shù)據(jù)中。
[0004] 為了達到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0005] -種大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,包括以下步驟:
[0006] (1)計算大規(guī)模高維數(shù)據(jù)中每個數(shù)據(jù)點的余弦距離平均值,即對于每個數(shù)據(jù)點A, 分別計算A點到其余所有任意兩個點B和C組成的向量::^和:^的余弦距離的平均值;
[0007] (2)計算每個數(shù)據(jù)點A的余弦距離;
[0008] (3)計算每個數(shù)據(jù)點A的所有余弦距離的平均間距;
[0009] (4)分類劃分余弦距離平均間距,選取余弦距離平均間距最小的幾個點為數(shù)據(jù)離 群度最大的離群點;
[0010] (5)確定離群點。
[0011] 前述的步驟(1)包括以下步驟:
[0012] 1-1)形式化數(shù)據(jù)集,所述大規(guī)模高維數(shù)據(jù)形式化為:
[0013] 對于給定的大規(guī)模高維數(shù)據(jù)集刀e#,范數(shù)M · I I定義為Rd- R +,內(nèi)積< ·,· > 定義為RdXRd- R,
[0014] V點 A,B e D,表;示向量I-蒼,
[0015] 其中Rd表示d維實數(shù)空間,R +表示正實數(shù),R d- R +表示d維實數(shù)空間上的元素到 正實數(shù)的一個映射,RdX Rd- R表示d維實數(shù)空間上的兩個向量作內(nèi)積運算;
[0016] 1-2)對于大規(guī)模高維數(shù)據(jù)集D中的所有點分別計算每個點A到其余兩個點的向量 夾角余弦距離之和,表示為Me (A),計算公式為:
[0017]
[0018]
[0019] 其中,< >表不向量仙和水7的內(nèi)積,f和JC分別表不向量淑:和 的范數(shù);
[0020] 1-3)計算大規(guī)模高維數(shù)據(jù)集D中每個點A余弦距離的平均值,計算公式 為:
[0021]
[0022] 〇.
[0023] 前述的步驟(2)計算數(shù)據(jù)點A的余弦距離,即對于每個數(shù)據(jù)點A,分別計算A點到 任意兩點B和C組成的向量M和;1己的余弦距離/VG(瓦疋),計算公式為:
[0024]
[0025] G
[0026] 前述的步驟(3)計算每個數(shù)據(jù)點A的所有余弦距離的平均間距AMe (A),即累計 計算步驟2)與步驟1)獲得的每個點的余弦距離與余弦距離平均值^^的差 的絕對值,計算公式為:
[0027]
[0028] 前述的步驟(4)包括以下步驟:
[0029] 4-1)按從小到大的順序排序所述步驟(3)中所有點的余弦距離平均間距,得到平 均間距序列L ;
[0030] 4-2)劃分平均間距序列L為2類(;和C Β,
[0031] 分類算法步驟為:依次比較平均間距序列L中的前后數(shù)據(jù),如果數(shù)值變化大于某 一閾值ε,則該數(shù)據(jù)及其后面所有的數(shù)據(jù)都劃分為類C b,其中,ε由用戶確定,BP
[0032] VZi e i, Ca= Φ,C B= L
[0033] 如果 d = I li+1_li I < ε,則 Ca= C A U {1 J
[0034] 否則,Cb= C B\ {1J,
[0035] 其中,I1表示平均間距序列L中的第i個數(shù)據(jù),Φ表示空集。
[0036] 前述的步驟(5)確定離群點,具體方法為:
[0037] 檢查所述步驟(4)中獲得的類別Ca,如果Ca的數(shù)據(jù)個數(shù)大于某一閾值δ,則該大 規(guī)模高維數(shù)據(jù)中沒有檢測到離群點,否則(;中所有數(shù)據(jù)對應(yīng)的點為離群點,其中,δ由用戶 設(shè)定。
[0038] 本發(fā)明與已有技術(shù)相比,其效果是積極和明顯的。本發(fā)明具有以下優(yōu)點:
[0039] 本發(fā)明提供的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)的檢測方法,基于向量夾角余弦距離, 能有效克服基于高維距離和最近鄰等離群檢測方法的"維度災(zāi)難"問題,利用本發(fā)明可以廣 泛應(yīng)用于信用卡欺詐檢測、視頻監(jiān)控異常行為檢測、網(wǎng)絡(luò)流量入侵檢測等高維數(shù)據(jù)中。
【附圖說明】
[0040] 圖1為本發(fā)明的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)檢測方法的流程圖。
【具體實施方式】
[0041] 現(xiàn)結(jié)合附圖和【具體實施方式】,對本發(fā)明做進一步說明:
[0042] 本發(fā)明的大規(guī)模高維數(shù)據(jù)中離群數(shù)據(jù)檢測方法,如圖1所示,包括以下步驟:
[0043] 1)計算大規(guī)模高維數(shù)據(jù)中每個數(shù)據(jù)點的余弦距離平均值,即對于每個數(shù)據(jù)點Α, 分別計算A點到其它所有任意兩個點B和C組成的向量Xi和石的余弦距離的平均值;
[0044] 為了得到各數(shù)據(jù)點的余弦距離平均值,需要給出大規(guī)模高維數(shù)據(jù)的形式化描述、 向量夾角余弦距離和數(shù)據(jù)點余弦距離平均值的計算方法,分別為:
[0045] 1-1)形式化數(shù)據(jù)集,大規(guī)模高維數(shù)據(jù)可以形式化為:
[0046] 對于給定的大規(guī)模高維數(shù)據(jù)集D G.范數(shù)M · I I定義為Rd- R +,內(nèi)積< ·,· > 定義為RdXRd- R,
[0047] V點 A, B e D,Xg表示向量2 -5,
[0048] 其中Rd表示d維實數(shù)空間,R +表示正實數(shù),R d- R +表示d維實數(shù)空間上的元素到 正實數(shù)的一個映射,RdXRd- R表示d維實數(shù)空間上的兩個向量作內(nèi)積運算。
[0049] 1-2)對于大規(guī)模高維數(shù)據(jù)集D中的所有點分別計算每個點A到其它兩個點的向量 夾角余弦距離之和,表示為M e (A),計算公式為:
[0050]
[0051]