時間序列上事件檢測方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種時間序列上事件檢測方法和裝置,涉及智能管道領域。通過將事件長度的搜索區(qū)間L分段,對于每一分段(p,q),計算sp、sq和s(p...q),如果其中一段的s(p...q)小于其他任一段的sp或sq,將該段剪除,將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除,直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件,整個事件檢測過程中不需要先驗知識,實現了事件窗口寬度的自動適配,可以避免由此導致的錯認或丟失事件,剪除一些分段,縮減事件搜索區(qū)間,降低了檢測算法的復雜度。
【專利說明】時間序列上事件檢測方法和裝置
【技術領域】
[0001]本發(fā)明涉及智能管道領域,特別涉及一種時間序列上事件檢測方法和裝置。
【背景技術】
[0002]時間序列是對某一對象的某一屬性按統一的時間間隔不斷采樣形成的序列。例如:某網絡端口每天正午的瞬時流量構成時間序列。
[0003]非正式的說,時間序列上的事件檢測是指檢測出時間序列上的“波峰”,“波峰”稱為“事件”,“波峰”說明在這一時間段的序列值明顯高于正常,通常是某些特殊事件導致的。例如:網絡流量序列上的事件可能源自洪泛攻擊。
[0004]為了在檢測事件時排除噪音(如孤立點)的影響,目前主要采用分段求和或定寬的窗口平滑技術。這兩種技術有以下問題,可能造成錯認或丟失事件:1)分段或窗口的長度設定需要先驗知識;2)閾值的設定需要先驗知識;3)不同長度的事件間缺乏統一的比較標準;4 )滑動窗口法會模糊事件的邊界。
【發(fā)明內容】
[0005]本發(fā)明實施例所要解決的一個技術問題是:解決傳統事件檢測技術需要先驗知識,以及由于先驗知識偏差所造成的錯認事件或丟失事件的問題。
[0006]本發(fā)明實施例所要解決的另一個技術問題是:解決不同長度的事件間缺乏統一的比較標準的問題。
[0007]本發(fā)明實施例的一個方面提供了一種時間序列上事件檢測方法,包括:將事件長度的搜索區(qū)間L分段,其中,L = (P,P + 1,P + 2,…,Q),P表示事件長度的最小值,Q表示事件長度的最大值;對于分段得到的每一段(P,q),計算sp、s,和S(p...q),其中,Sp表示長度為P的子序列中和最大的子序列的重要程度,s,表示長度為q的子序列中和最大的子序列的重要程度,S(p...q)表示分段(P,q)對應的最大的重要程度;如果其中一段的S(p...q)小于其他任一段的Sp或S,,將該段剪除;將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除;直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
[0008]所述對于分段得到的每一段(p,q),計算Sp包括:分別計算長度為ρ的所有子序列的和,長度為P的子序列的和符合正態(tài)分布;選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的
標準差;根據公式& =(d; -&)/&計算Sp,其中表示長度為P的子序列中和的最大值,
μ ρ表示長度為P的子序列的正態(tài)分布的均值,σ ρ表示長度為ρ的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
[0009] 所述對于分段得到的每一段(p,q),計算Sq包括:分別計算長度為q的所有子序列的和,長度為q的子序列的和符合正態(tài)分布;選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的
標準差;根據公式&計算V其中JJ表示長度為q的子序列中和的最大值,
μ q表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
[0010]所述對于分段得到的每一段(P,q),計算Sn包括:根據公式
Sip 9) = (^-十算:S(p...q),其中,%表示長度為q的子序列中和的最大值,Uq表示長
度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,s(p...q)表示分段(P,q)對應的最大的重要程度。
[0011]所述記錄每一個點對應的重要事件及其重要程度包括:對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式4 =(/?計算Sk,其中,D/表示長度為k的子序列中和的最大值,μ k表示長度為k的子序列的正態(tài)分布的均值,O k表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件£?〖的重要程度。
[0012]時間序列上事件檢測方法還包括:將全局重要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢出第二個全局重要事件,直到所有的全局重要事件都被檢出。
[0013]本發(fā)明實施例的另一個方面提供了一種時間序列上事件檢測裝置,包括:分段單元,用于將事件長度的搜索區(qū)間L分段,其中,L = (P,P + 1,P + 2,…,Q),P表示事件長度的最小值,Q表示事件長度的最大值;重要性確定單元,用于對于分段得到的每一段(P,q),計算sp、s,和S(p...q),其中,Sp表示長度為P的子序列中和最大的子序列的重要程度,Sq表示長度為q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)對應的最大的重要程度;剪除單元,用于如果其中一段的s(p...q)小于其他任一段的Sp或s,,將該段剪除;遞歸單元,用于將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除;檢測單元,用于直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
[0014]所述重要性確定單元包括用于計算Sp的第一確定子單元,用于分別計算長度為P的所有子序列的和,長度為P的子序列的和符合正態(tài)分布;選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為
正態(tài)分布的標準差;根據公式\ =計算Sp,其中,D-表不長度為P的子序列中和
的最大值,μ ρ表示長度為P的子序列的正態(tài)分布的均值,σ ρ表示長度為ρ的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
[0015] 所述重要性確定單元包括用于計算Sq的第二確定子單元,用于分別計算長度為q的所有子序列的和,長度為q的子序列的和符合正態(tài)分布;選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式\ =(ζ);計算S,,其中,Dg表示長度為q的子序列中和
的最大值,μ q表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
[0016]所述重要性確定單元包括用于計算s(p...q)的第三確定子單元,用于根據公式
-&)/%計算s(p...q),其中,%表示長度為q的子序列中和的最大值,μ ,表示長
度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,s(p...q)表示分段(P,q)對應的最大的重要程度。
[0017]所述檢測單元,具體用于對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件£>:;長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式4=(/?-%)/%計算Sk,其中A表示長度為k的子序列中和的最大值,μ,表示長度為k的子序列的正態(tài)分布的均值,σ k表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件£>|的重要程度。
[0018]所述檢測單元還用于:將全局重要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢出第二個全局重要事件,直到所有的全局重要事件都被檢出。
[0019]本發(fā)明通過將事件長度的搜索區(qū)間L分段,對于分段得到的每一段(p,q),計算sp、sq和S(p...q),如果其中一段的S(p...q)小于其他任一段的\或\,將該段剪除,將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除,直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件,整個事件檢測過程中不需要先驗知識,實現了事件窗口寬度的自動適配,可以避免由此導致的錯認事件或丟失事件;并且剪除一些不可能包含全局重要事件的段,縮減事件長度的搜索區(qū)間,在提高精確度的同時降低了檢測算法的復雜度,在最好情況下能將檢出最重要事件的算法復雜度從常數級降到對數級。另外,用偏離均值的程度做不同長度事件之間統一的重要性評價標準,從而統一了事件重要性的量化標準。
[0020]通過以下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其優(yōu)點將會變得清楚。
【專利附圖】
【附圖說明】[0021]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明時間序列上事件檢測方法一個實施例的流程示意圖。
[0023]圖2為本發(fā)明時間序列上事件檢測方法一個實例的示意圖。
[0024]圖3為本發(fā)明時間序列上事件檢測裝置一個實施例的結構示意圖。[0025]圖4為本發(fā)明時間序列上事件檢測裝置另一個實施例的結構示意圖。
【具體實施方式】
[0026]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應用或使用的任何限制?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0027]除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數字表達式和數值不限制本發(fā)明的范圍。
[0028]同時,應當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關系繪制的。
[0029]對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為授權說明書的一部分。
[0030]在這里示出和討論的所有示例中,任何具體值應被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。
[0031]應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。 [0032]下面對本發(fā)明所涉及的基本概念、所依據的基本原理進行介紹。
[0033]時間序列是對某一對象的某一屬性按統一的時間間隔不斷采樣形成的序列。例如:某網絡端口每天正午的瞬時流量構成時間序列。
[0034]時間序列上的事件檢測是指檢測出時間序列上的“波峰”,“波峰”稱為“事件”,“波峰”說明在這一時間段的序列值明顯高于正常,通常是某些特殊事件導致的。例如:網絡流量序列上的事件可能源自洪泛攻擊。
[0035]假設時間序列為(屯,d2, d3,...,dn),這個序列中從m開始長度為k的子序列的和稱為Dm, k。對于給定的長度k,長度為k的子序列的和符合正態(tài)分布,該結論可以根據獨立假設和中心極限定理得到,下面詳細說明。
[0036]根據中心極限定理(Lindeberg定理),設有一個獨立隨機變量序列,每個變量的數學期望和方差有限,則這個序列的和的極限是一個正態(tài)分布。在實際應用中,數學期望和方差有限這件事情顯然成立(無限只有數學上的意義),因此,長度為k的子序列,上面每個采樣點都是獨立的,就是一個獨立隨機變量序列,如果k足夠大,它的和就是正態(tài)分布。因此,由獨立假設和中心極限定理可以得出結論:對于給定的長度k,長度為k的子序列的和Dk符合正態(tài)分布。
[0037]通過參數估計可以獲得該正態(tài)分布的具體參數,具體地,選擇若干個長度為k的子序列作為采樣,采樣的均值是該正態(tài)分布的均值μ,采樣的標準差是該正態(tài)分布的標準
差σ ο
[0038]對于特定的,k,可以算出其偏離均值的程度為S1 k = (D?j k- μ ) σ。與均值偏離越大的子序列,則作為事件越重要。偏離均值的程度可以作為不同長度事件之間統一的重要性評價標準。[0039]限定時間段長度為k,則重要事件顯然是D?,k中最大的那個。為了檢測出全局重要事件,可以遍歷所有k,記錄每個k對應的重要事件/^及其重要程度S,所有的/?中最重要的那個即為全局重要事件Ds。這種方法需要遍歷所有的時間段長度,效率顯然不夠高,由此,本發(fā)明提出一種能夠快速地找出全局重要事件Ds的方法,下面詳細說明。
[0040]圖1示出本發(fā)明時間序列上事件檢測方法一個實施例的流程示意圖。如圖1所示,該實施例的事件檢測方法包括:
[0041]步驟101,將事件長度的搜索區(qū)間L分段。
[0042]其中,L = (P,P + 1,P + 2,…,Q),P表示事件長度的最小值,Q表示事件長度的
最大值。
[0043]分段的數量可以根據需要設定,這里不做限制。另外,根據搜索區(qū)間的范圍和分段的數量,可以將搜索區(qū)間平均分為若干段,如果不能平均分段,可以將搜索區(qū)間分成長度大致相等的若干段即可。
[0044]步驟102,對于分段得到的每一段(p, q),計算Sp、Sq和s(p...q)。
[0045]其中,Sp表示長度為ρ的子序列中和最大的子序列的重要程度,Sq表示長度為q的子序列中和最大的子序列的重要程度,S(p...q)表示分段(P,q)對應的最大的重要程度。下面分別說明sp、sq和s(p...q)的計算方法。
[0046]對于分段(p,q), Sp計算方法包括:
[0047]分別計算長度為ρ的所有子序列的和,根據獨立假設和中心極限定理,長度為ρ的子序列的和符合正態(tài)分布;選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值P p,將采樣的標準差作為正態(tài)分布的標準差σρ;根
據公式\,計算V其中,I)-表示長度為P的子序列中和的最大值,Up表示長
度為P的子序列的正態(tài)分布的均值,σ ρ表示長度為ρ的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
[0048]對于分段(p,q), Sq計算方法包括:
[0049]分別計算長度為q的所有子序列的和,根據獨立假設和中心極限定理,長度為q的子序列的和符合正態(tài)分布;選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值μ,,將采樣的標準差作為正態(tài)分布的標準差σ?;根
據公式' =(/?十算V其中,/?表示長度為q的子序列中和的最大值,P ,表示長
度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
[0050]對于分段(p,q), s(p...q)計算方法包括:
[0051]根據公式%^ = @-仏)/\計算S(p...q),其中,表示長度為q的子序列中和的
最大值,μ q表示長度為q的子序列的正態(tài)分布的均值,O q表示長度為q的子序列的正態(tài)分布的標準差,s(p...q)表示分段(p,q)對應的最大的重要程度。
[0052]步驟103,如果其中一段的s(p...q)小于其他任一段的Sp或S,,將該段剪除。
[0053]步驟104,遞歸地將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除,即繼續(xù)分段之后,執(zhí)行步驟102和步驟103。
[0054] 步驟105,直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
[0055]其中,搜索區(qū)間小到符合預設值,例如可以是搜索區(qū)間包括幾個或幾十個點,則可以認為搜索區(qū)間已經足夠小,無須再繼續(xù)分段。該預設值可以自主設定。
[0056]其中,記錄每一個點對應的重要事件及其重要程度包括:
[0057]對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式& =(A: -Α)/σ,計算sk,其中A表示長度為k的子序列中和的最大值,μ k表示長度為k的子序列的正態(tài)分布的均值,σ ,表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件1?的重要程度。
[0058]如果全局重要事件不止一個,則還可以執(zhí)行步驟106,檢出其他全局重要事件。
[0059]步驟106,將全局重要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢出第二個全局重要事件,直到所有的全局重要事件都被檢出。
[0060]下面結合一個具體實例來說明本發(fā)明的事件檢測方法。圖2示出本發(fā)明時間序列上事件檢測方法一個實例的示意圖。
[0061]如圖2所示,事件長度的搜索區(qū)間L = (p,…,q5),將搜索區(qū)間L分為5段,分別為(P,...,ql)、(ql,...,q2)、(q2,...,q3)、(q3,...,q4)、(q4,…,q5)。對于這 5 段分另1J計算 sp、sq 和 s(p...q),以(q3,..., q4)為例,計算 sq3、St^P s(q3...q4)。在圖 2 中,每一分段都對應一個重要程度“箭頭”,該“箭頭”的下限表示分段兩端點的重要事件的重要程度中的較大值,該“箭頭”的下限表示s(p...q),仍以(q3,…,q4)為例,“箭頭”的下限表示Sq3和Sq4中的較大值,“箭頭”的下限表示S(q3...,4)。在圖2中,虛線表示這5段中“箭頭”下限最大的那個,即(q2,…,q3)段重要事件的下限。如圖2所示,(p,...,ql)、(ql,…,q2)和(q4,…,q5)這3個分段的s(p...q)小于(q2,…,q3)的Sq3或Sq3 (即“箭頭”下限),因此,將這3段剪除,僅在剩余的(q2,…,q3)和(q3,…,q4)這兩段進行全局重要事件的檢測。如果剩余的搜索區(qū)間已經足夠小,則可以遍歷(q2,…,q4 )之間的點,檢出全局重要事件,如果剩余的搜索區(qū)間不足夠小,則可以繼續(xù)分段,并進行剪除的操作,這里不再贅述。
[0062] 在上述實施例中,通過將事件長度的搜索區(qū)間L分段,對于分段得到的每一段(P,q),計算sp、s,和S(p...q),如果其中一段的S(p...q)小于其他任一段的Sp或s,,將該段剪除,將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除,直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件,整個事件檢測過程中不需要先驗知識,實現了事件窗口寬度的自動適配,可以避免由此導致的錯認事件或丟失事件;并且剪除一些不可能包含全局重要事件的段,縮減事件長度的搜索區(qū)間,在提高精確度的同時降低了檢測算法的復雜度,在最好情況下能將檢出最重要事件的算法復雜度從常數級降到對數級。另外,用偏離均值的程度做不同長度事件之間統一的重要性評價標準,從而統一了事件重要性的量化標準。[0063]圖3示出本發(fā)明時間序列上事件檢測裝置一個實施例的結構示意圖。
[0064]如圖3所示,該事件檢測裝置包括:
[0065]分段單元301,用于將事件長度的搜索區(qū)間L分段,其中,L = (P,P+ 1,P +2,…,Q), P表示事件長度的最小值,Q表示事件長度的最大值;
[0066]重要性確定單元302,用于對于分段得到的每一段(p,q),計算sp、s,和S(p...q),其中,Sp表示長度為P的子序列中和最大的子序列的重要程度,Sq表示長度為q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)對應的最大的重要程度;
[0067]剪除單元303,用于如果其中一段的s(p...q)小于其他任一段的Sp或S,,將該段剪除;
[0068]遞歸單元304,用于將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除;
[0069]檢測單元305,用于直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
[0070]圖4示出本發(fā)明時間序列上事件檢測裝置另一個實施例的結構示意圖。 [0071]如圖4所示,重要性確定單元302包括用于計算Sp的第一確定子單元3021,用于分別計算長度為P的所有子序列的和,長度為P的子序列的和符合正態(tài)分布;選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將
采樣的標準差作為正態(tài)分布的標準差;根據公式&計算Sp,其中,Z^表示長
度為P的子序列中和的最大值,μ p表示長度為P的子序列的正態(tài)分布的均值,σρ表示長度為P的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
[0072]如圖4所示,重要性確定單元302包括用于計算Sq的第二確定子單元3022,用于分別計算長度為q的所有子序列的和,長度為q的子序列的和符合正態(tài)分布;選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將
采樣的標準差作為正態(tài)分布的標準差;根據公式&計算V其中,Df表示長
度為q的子序列中和的最大值,P,表示長度為q的子序列的正態(tài)分布的均值,Oq表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
[0073]如圖4所示,重要性確定單元302包括用于計算s (p...的第三確定子單元3023,用
于根據公式%1) = (ρ:計算s(p...,其中,g表示長度為q的子序列中和的最大值,
μ q表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,s(,..q)表示分段(P,q)對應的最大的重要程度。
[0074]檢測單元305,具體用于對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件從,長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式% =?'/),.:計算Sk,其中,2?表示長度為k的子序列中和的最大值,Uk表示長度為k的子序列的正態(tài)分布的均值,σ k表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件的重要程度。
[0075]檢測單元305還用于:將全局重要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢出第二個全局重要事件,直到所有的全局重要事件都被檢出。
[0076]在上述實施例中,通過將事件長度的搜索區(qū)間L分段,對于分段得到的每一段(P,q),計算sp、s,和S(p...q),如果其中一段的S(p...q)小于其他任一段的Sp或s,,將該段剪除,將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除,直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件,整個事件檢測過程中不需要先驗知識,實現了事件窗口寬度的自動適配,可以避免由此導致的錯認事件或丟失事件;并且剪除一些不可能包含全局重要事件的段,縮減事件長度的搜索區(qū)間,在提高精確度的同時降低了檢測算法的復雜度,在最好情況下能將檢出最重要事件的算法復雜度從常數級降到對數級。另外,用偏離均值的程度做不同長度事件之間統一的重要性評價標準,從而統一了事件重要性的量化標準。
[0077]本發(fā)明適用于所有時間序列上的事件檢測應用,如網絡流量實時監(jiān)測,網絡攻擊告警等,也可應用于時間序列歷史數據的分析,如IPTV傳輸服務質量分析,網絡輿情分析等。以網絡輿情分析為例,通過統計某個關鍵詞每小時/每天被搜索的次數,形成一個時間序列,判斷這個序列上有沒有足夠重要的事件,由此判斷這個關鍵詞描述的問題是否構成一個熱點。設有兩個已知是熱點的關鍵詞,例如“營養(yǎng)午餐”和“經濟危機”,前者在高峰時期每日被搜索百萬次 ,但只持續(xù)了三個月,而后者雖然峰值時也只有十萬次級別的搜索,但持續(xù)了數年,本發(fā)明可以判斷出兩者哪個在統計意義上更加重要,并能量化兩者的重要性差異。
[0078]本領域普通技術人員可以理解實現上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0079]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種時間序列上事件檢測方法,包括: 將事件長度的搜索區(qū)間L分段,其中,L =(P,P + Ι,Ρ + 2,…,Q),P表示事件長度的最小值,Q表示事件長度的最大值; 對于分段得到的每一段(P,q),計算sp、s,和S(p...q),其中,Sp表示長度為P的子序列中和最大的子序列的重要程度,Sq表示長度為q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(P,q)對應的最大的重要程度; 如果其中一段的S(p...q)小于其他任一段的Sp或S,,將該段剪除; 將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除; 直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
2.根據權利要求1所述的方法,其特征在于,所述對于分段得到的每一段(P,q),計算Sp包括: 分別計算長度為P的所有子序列的和,長度為P的子序列的和符合正態(tài)分布; 選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差; 根據公式&計算Sp,其中D表示長度為P的子序列中和的最大值,μρ表示長度為P的子序列的正態(tài)分布的均值,σ ρ表示長度為P的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
3.根據權利要求1所述的方法,其特征在于,所述對于分段得到的每一段(P,q),計算Sq包括: 分別計算長度為q的所有子序列的和,長度為q的子序列的和符合正態(tài)分布; 選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差; 根據公式Sq 二 (D; -&)/%計算S,,其中,/?表示長度為q的子序列中和的最大值,μ ,表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
4.根據權利要求1所述的方法,其特征在于,所述對于分段得到的每一段(P,q),計算S(P...q)包括: 根據公式1.9) = (/^-計算s(p...q),其中,q表示長度為q的子序列中和的最大值,μ q表示長度為q的子序列的正態(tài)分布的均值,O q表示長度為q的子序列的正態(tài)分布的標準差,s(p...q)表示分段(p,q)對應的最大的重要程度。
5.根據權利要求1所述的方法,其特征在于,所述記錄每一個點對應的重要事件及其重要程度包括: 對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件^^ ;長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為米樣,計算米樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差; 根據公式\ =(das-/UM.計算sk,其中,D丨表示長度為k的子序列中和的最大值,μ#示長度為k的子序列的正態(tài)分布的均值,σ k表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件馬的重要程度。
6.根據權利要求1所述的方法,其特征在于,還包括: 將全局重 要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢出第二個全局重要事件,直到所有的全局重要事件都被檢出。
7.一種時間序列上事件檢測裝置,包括: 分段單元,用于將事件長度的搜索區(qū)間L分段,其中,L = (P,P + 1,P + 2,…,Q),P表示事件長度的最小值,Q表示事件長度的最大值; 重要性確定單元,用于對于分段得到的每一段(P,q),計算sp、Sq和S(p...q),其中,\表示長度為P的子序列中和最大的子序列的重要程度,Sq表示長度為q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)對應的最大的重要程度; 剪除單元,用于如果其中一段的s(p...q)小于其他任一段的Sp或s,,將該段剪除; 遞歸單元,用于將剩余的每個段再繼續(xù)分段,將繼續(xù)分段得到的每一子段采用上述分段的方法繼續(xù)進行剪除; 檢測單元,用于直到事件長度的剩余搜索區(qū)間小到符合預設值,停止分段和剪除的操作,遍歷事件長度的剩余搜索區(qū)間上的點,記錄每一個點對應的重要事件及其重要程度,所有重要事件中重要程度最大的事件作為全局重要事件Ds。
8.根據權利要求7所述的裝置,其特征在于,所述重要性確定單元包括用于計算Sp的第一確定子單兀,用于 分別計算長度為P的所有子序列的和,長度為P的子序列的和符合正態(tài)分布; 選擇部分長度為P的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差; 根據公式& =(/?計算Sp,其中,g表示長度為P的子序列中和的最大值,μρ表示長度為P的子序列的正態(tài)分布的均值,σ ρ表示長度為ρ的子序列的正態(tài)分布的標準差,Sp表示長度為P的子序列中和最大的子序列的重要程度。
9.根據權利要求7所述的裝置,其特征在于,所述重要性確定單元包括用于計算s,的第二確定子單元,用于 分別計算長度為q的所有子序列的和,長度為q的子序列的和符合正態(tài)分布; 選擇部分長度為q的子序列作為采樣,計算采樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式計算V其中D表示長度為q的子序列中和的最大值,P,表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,Sq表示長度為q的子序列中和最大的子序列的重要程度。
10.根據權利要求7所述的裝置,其特征在于,所述重要性確定單元包括用于計算S(p...q)的第三確定子單元,用于根據公式I =計算S(p...q),其中A表示長度為q的子序列中和的最大值,μ q表示長度為q的子序列的正態(tài)分布的均值,σ q表示長度為q的子序列的正態(tài)分布的標準差,s(p...q)表示分段(p,q)對應的最大的重要程度。
11.根據權利要求7所述的裝置,其特征在于,所述檢測單元,具體用于 對于事件長度為k的點,分別計算長度為k的所有子序列的和,將長度為k的所有子序列的和的最大值作為重要事件; 長度為k的子序列的和符合正態(tài)分布,選擇部分長度為k的子序列作為米樣,計算米樣的均值和標準差,將采樣的均值作為正態(tài)分布的均值,將采樣的標準差作為正態(tài)分布的標準差;根據公式\ =(/?-%)/%計算sk,其中,£)丨表示長度為k的子序列中和的最大值,4,表示長度為k的子序列的正態(tài)分布的均值,σ k表示長度為k的子序列的正態(tài)分布的標準差,Sk表示長度為k的子序列中重要事件1?的重要程度。
12.根據權利要求7所述的裝置,其特征在于,所述檢測單元還用于: 將全局重要事件Ds對應的點從原始時間序列中剪除,在剩余的時間序列上采用全局重要事件Ds的檢測方法檢 出第二個全局重要事件,直到所有的全局重要事件都被檢出。
【文檔編號】G06F17/30GK103995808SQ201310051659
【公開日】2014年8月20日 申請日期:2013年2月17日 優(yōu)先權日:2013年2月17日
【發(fā)明者】郁抒思, 姚良, 李一明, 何葉 申請人:中國電信股份有限公司