一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法及系統(tǒng)的制作方法
【專利摘要】本申請公開了一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法及系統(tǒng),該方法包括從深層網(wǎng)絡數(shù)據(jù)源中采集多個初始樣本,然后按照預設規(guī)則,對每個所述初始樣本進行分層得到s層,分層后按照預設算法,確定每一層中包含異常點的概率,按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到s層中,確定每一層的重采樣次數(shù),按照確定的重采樣次數(shù)進行重采樣,最后綜合重采樣數(shù)據(jù)與分層后的初始樣本,進行異常點的檢測。本申請的方法對有限的樣本數(shù)據(jù)進行分層處理,由于異常點大部分集中在少數(shù)幾個層中,通過著重對這幾個層的重新采樣,可以找到更多的異常點。解決了對深層網(wǎng)絡數(shù)據(jù)源異常點的檢測問題。
【專利說明】一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法及系統(tǒng)
【技術(shù)領域】
[0001]本申請涉及服務計算【技術(shù)領域】,更具體地說,涉及一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法及系統(tǒng)。
【背景技術(shù)】
[0002]深層網(wǎng)絡De印Web是指那些網(wǎng)絡爬蟲很難找到的站點,相對于淺層網(wǎng)絡SurfaceWeb而言,深層網(wǎng)絡中的數(shù)據(jù)是無法直接全部獲得的,必須通過查詢接口提交查詢來獲取相應的數(shù)據(jù)。而異常點是指不服從正常的數(shù)據(jù)分布或表現(xiàn)的數(shù)據(jù)模式。例如,信貸事務中的異常點極有可能是一項預謀的欺詐事務;網(wǎng)絡通信中異常的通信模式可能代表我們的電腦正在受到黑客攻擊。因此,異常點檢測具有重大的現(xiàn)實意義。
[0003]但是,現(xiàn)有的異常點檢測方法大多是針對淺層網(wǎng)絡的。由于深層網(wǎng)絡不同于淺層網(wǎng)絡,其數(shù)據(jù)無法直接全部獲得,因此,現(xiàn)有的檢測方法無法適用到深層網(wǎng)絡之中。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請?zhí)峁┝艘环N深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法及系統(tǒng),用于對深層網(wǎng)絡數(shù)據(jù)源的異常點進行有效的檢測。
[0005]為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006]一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法,包括:
[0007]從深層網(wǎng)絡數(shù)據(jù)源中采集多個初始樣本;
[0008]按照預設規(guī)則,對每個所述初始樣本進行分層得到s層,所述預設規(guī)則為使得分層后的每一層中各個初始樣本的方差最??;
[0009]根據(jù)預設算法,確定每一層中包含異常點的概率;
[0010]按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到S層中,確定每一層中重采樣的次數(shù);
[0011]按照確定的各個層的重采樣次數(shù)進行重采樣;
[0012]綜合重采樣數(shù)據(jù)與分層后的所述初始樣本,進行異常點檢測。
[0013]優(yōu)選地,所述按照預設規(guī)則,對每個所述初始樣本進行分層得到s層,具體為:
[0014]定義:IS = (I1, I2, , IJ代表輸入屬性集合,Ij的值域為{a」」,a」,2,...aJ;m},OS=IO1, O2,..., 0P}代表輸出屬性集合,查詢Q由輸入屬性IS的子集SI組成,潛在輸入屬性PS = IS-SI ;
[0015]依次從PS中選擇能最大降低層間方差的輸入屬性SA作為所述查詢Q,對每個所述初始樣本進行分層共得到s層,輸入屬性SA滿足:
[0016]SA = IIiaxi Σ j [Var (Oj) - Σ mVarm (Oj) X p (ai;m Q)]
[0017]其中Var (Oj)代表輸出屬性O」的方差,
【權(quán)利要求】
1.一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測方法,其特征在于,包括: 從深層網(wǎng)絡數(shù)據(jù)源中采集多個初始樣本; 按照預設規(guī)則,對每個所述初始樣本進行分層得到S層,所述預設規(guī)則為使得分層后的每一層中各個初始樣本的方差最??; 根據(jù)預設算法,確定每一層中包含異常點的概率; 按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到s層中,確定每一層中重采樣的次數(shù); 按照確定的各個層的重采樣次數(shù)進行重采樣; 綜合重采樣數(shù)據(jù)與分層后的所述初始樣本,進行異常點檢測。
2.根據(jù)權(quán)利要求1所述的檢測方法,其特征在于,所述按照預設規(guī)則,對每個所述初始樣本進行分層得到s層,具體為: 定義:IS = U1, I2,, IJ代表輸入屬性集合,Ij的值域為{a」,1; Bj, 2,...Bj, J , OS =IO1, O2,, OJ代表輸出屬性集合,查詢Q由輸入屬性IS的子集SI組成,潛在輸入屬性PS=IS-SI ; 依次從PS中選擇能最大降低層間方差的輸入屬性SA作為所述查詢Q,對每個所述初始樣本進行分層共得到s層,輸入屬性SA滿足:
SA = Iiiaxi Σ j[Var (Oj)- Σ Jarm(Oj) Xp(ai;m|Q)] 其中Var (Oj)代表輸出屬性Oj的方差
3.根據(jù)權(quán)利要求2所述的檢測方法,其特征在于,所述根據(jù)預設算法,確定每一層中包含異常點的概率,具體為: 使用無監(jiān)督異常點檢測方法對每一個所述初始樣本按照它成為異常點的概率進行評分,評分區(qū)間為[0,1],評分越接近1,代表該樣本越有可能成為異常點; 按照預設的截斷率對評分后的初始樣本進行劃分,將處于截斷率以上的初始樣本確定為異常點集合; 計算每個層中包含異常點的概率: ρ.=τ 其中,ti代表的是初始樣本中被劃分到第i個層中的樣本的個數(shù),Hli代表的是第i個層中包含的異常點的個數(shù)。
4.根據(jù)權(quán)利要求3所述的檢測方法,其特征在于,所述預設的截斷率按照如下過程確定:確定所述初始樣本為異常點的異常率的范圍[!^!^,其中卜和匕分別代表異常率范圍的下邊界和上邊界; 計算截斷率cutoff_rate: cutoff_rate = bx+Xw 其中w為權(quán)重參數(shù),w e [O, I]。
5.根據(jù)權(quán)利要求4所述的檢測方法,其特征在于,所述按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到s層中,確定每一層中重采樣的次數(shù),具體為: 將規(guī)定的重采樣次數(shù)η分配到s層中,求解下述優(yōu)化方程:
6.一種深層網(wǎng)絡數(shù)據(jù)源異常點的檢測系統(tǒng),其特征在于,包括: 初始樣本采集單元,用于從深層網(wǎng)絡數(shù)據(jù)源中采集多個初始樣本; 分層單元,用于按照預設規(guī)則,對每個所述初始樣本進行分層得到s層,所述預設規(guī)則為使得分層后的每一層中各個初始樣本的方差最小; 異常點確定單元,用于根據(jù)預設算法,確定每一層中包含異常點的概率; 重采樣次數(shù)分配單元,用于按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到S層中,確定每一層中重采樣的次數(shù); 重采樣單元,用于按照確定的各個層的重采樣次數(shù)進行重采樣; 異常點檢測單元,用于綜合重采樣數(shù)據(jù)與分層后的所述初始樣本,進行異常點檢測。
7.根據(jù)權(quán)利要求6所述的檢測系統(tǒng),其特征在于,所述分層單元對每個所述初始樣本進行分層得到s層,具體為: 定義:IS = U1, I2, , IJ代表輸入屬性集合,Ij的值域為{ap a」,2,...aJ;m},OS =IO1, O2,..., OJ代表輸出屬性集合,查詢Q由輸入屬性IS的子集SI組成,潛在輸入屬性PS=IS-SI ; 依次從PS中選擇能最大降低層間方差的輸入屬性SA作為所述查詢Q,對每個所述初始樣本進行分層共得到s層,輸入屬性SA滿足:
SA = Iiiaxi Σ j [Var (Oj) - Σ Jarm(Oj) Xp(ai;m|Q)] 其中Var(Oj)代表輸出屬性Oj的方差
8.根據(jù)權(quán)利要求7所述的檢測系統(tǒng),其特征在于,所述異常點確定單元包括: 評分單元,用于使用無監(jiān)督異常點檢測方法對每一個所述初始樣本按照它成為異常點的概率進行評分,評分區(qū)間為[O,1],評分越接近1,代表該樣本越有可能成為異常點; 劃分單元,用于按照預設的截斷率對評分后的初始樣本進行劃分,將處于截斷率以上的初始樣本確定為異常點集合;
異常點概率計算單元,用于計算每個層中包含異常點的概率:pi=mi/ti其中,t代表的是初始樣本中被劃分到第i個層中的樣本的個數(shù),Hli代表的是第i個層中包含的異常點的個數(shù)。
9.根據(jù)權(quán)利要求8所述的檢測系統(tǒng),其特征在于,所述劃分單元對評分后的初始樣本進行劃分時所依據(jù)的預設的截斷率的確定過程如下: 確定所述初始樣本為異常點的異常率的范圍[!^!^,其中卜和匕分別代表異常率范圍的下邊界和上邊界; 計算截斷率cutoff_rate:
10.根據(jù)權(quán)利要求9所述的檢測系統(tǒng),其特征在于,所述重采樣次數(shù)分配單元按照最優(yōu)采樣策略,將規(guī)定的重采樣次數(shù)分配到s層中,確定每一層中重采樣的次數(shù)的過程為: 將規(guī)定的重采樣次數(shù)η分配到s層中,求解下述優(yōu)化方程:
【文檔編號】G06F17/30GK103927392SQ201410183963
【公開日】2014年7月16日 申請日期:2014年5月4日 優(yōu)先權(quán)日:2014年5月4日
【發(fā)明者】趙朋朋, 周徐, 和天旭, 吳健, 崔志明 申請人:蘇州大學