一種基于軌跡的無線傳感器網(wǎng)絡(luò)多維數(shù)據(jù)異常值檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及無線傳感器領(lǐng)域,特別是無線傳感器網(wǎng)絡(luò)中多維數(shù)據(jù)異常值檢測,用 于解決無線傳感器網(wǎng)絡(luò)所收集的多維數(shù)據(jù)存在不可靠數(shù)據(jù)的問題。 技術(shù)背景
[0002] 無線傳感器網(wǎng)絡(luò)(WSNs)是由大量廉價(jià)微型節(jié)點(diǎn)組成,且節(jié)點(diǎn)之間通過無線電通 信方式交流。網(wǎng)絡(luò)的目的是通過節(jié)點(diǎn)之間的相互協(xié)作來完成對(duì)部署區(qū)域的監(jiān)測并將收集到 的數(shù)據(jù)傳輸給遠(yuǎn)程觀測者。由于網(wǎng)絡(luò)監(jiān)測區(qū)域多為無人監(jiān)督的惡劣環(huán)境,同時(shí)出于對(duì)部署 成本的考慮,網(wǎng)絡(luò)通常選擇低成本、低質(zhì)量的節(jié)點(diǎn),導(dǎo)致傳感器所采集到的數(shù)據(jù)會(huì)存在許多 誤差數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、不一致數(shù)據(jù)甚至可能丟失數(shù)據(jù)。傳感器節(jié)點(diǎn)所收集的數(shù)據(jù)存在如此多 的不可靠數(shù)據(jù)使得其不能被直接用于科學(xué)研究。為此,為了更好的使用WSNs數(shù)據(jù),同時(shí)為 了實(shí)現(xiàn)其各種功能,對(duì)網(wǎng)絡(luò)中的異常值進(jìn)行檢測變得日趨重要。
[0003] 目前,已經(jīng)有多重異常值檢測方法:基于鄰近節(jié)點(diǎn)的方法,基于統(tǒng)計(jì)學(xué)的方法,基 于分簇的方法,基于聚類的方法以及基于頻譜分析的方法。但是,傳感器網(wǎng)絡(luò)的一些自身特 點(diǎn)使得并不是所有的現(xiàn)有檢測方法都能很好的直接用于其中。為此,為了更好的設(shè)計(jì)關(guān)于 WSNs的高效、可行的異常值檢測方法,需要考慮以下特點(diǎn):
[0004] (1)節(jié)點(diǎn)能力受限。傳感器節(jié)點(diǎn)的廉價(jià)微型特性導(dǎo)致其攜帶電源的能量相當(dāng)有限。 能量的多少在一定程度上影響了傳感器節(jié)點(diǎn)的處理、儲(chǔ)存和通信收發(fā)能力。因此,在實(shí)際應(yīng) 用中,應(yīng)該充分考慮傳感器節(jié)點(diǎn)的各種能量和能力限制,然而多數(shù)傳統(tǒng)檢測方法很少考慮 算法在節(jié)點(diǎn)能力受限的情況下的性能。
[0005] (2)分布式自組織。在WSNs中,所有節(jié)點(diǎn)均處于相同地位,沒有任何一個(gè)節(jié)點(diǎn)是嚴(yán) 格意義上的"統(tǒng)治者",這種網(wǎng)絡(luò)節(jié)點(diǎn)之間的平等直接影響即是其通過分布式協(xié)作即可保證 網(wǎng)絡(luò)的正常運(yùn)行。同時(shí),WSNs的節(jié)點(diǎn)具有很強(qiáng)的自組織能力,其可以在任何惡劣或者動(dòng)態(tài) 環(huán)境下配置網(wǎng)絡(luò),并通過特定的途徑將監(jiān)測數(shù)據(jù)傳送給遠(yuǎn)程觀測者,實(shí)現(xiàn)網(wǎng)絡(luò)的功能??紤] 網(wǎng)絡(luò)的超強(qiáng)自組織能力能很好降低網(wǎng)絡(luò)開銷,從而設(shè)計(jì)更有效的異常值檢測算法
[0006] (3)高能耗高負(fù)載。無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)的無線通信會(huì)消耗節(jié)點(diǎn)的大部分能量,其 是節(jié)點(diǎn)計(jì)算消耗的好多倍。然而,多數(shù)傳統(tǒng)異常值檢測方法采用集中處理所收集數(shù)據(jù)的方 法,大大增加了節(jié)點(diǎn)能耗和通信負(fù)載,降低網(wǎng)絡(luò)壽命。因此,如何可以降低通信能耗以延長 WSNs壽命是設(shè)計(jì)WSNs異常值檢測方法的一個(gè)重要考慮方面。
[0007] (4)實(shí)時(shí)性。綜合分析WSNs的應(yīng)用領(lǐng)域可以得出,對(duì)異常值的檢測都需要在線且 實(shí)時(shí)。網(wǎng)絡(luò)對(duì)事件的反應(yīng)時(shí)間與系統(tǒng)的性能成正比。因此,設(shè)計(jì)實(shí)時(shí)的異常值檢測方法是 及其有必要的。
[0008] 綜上所述,實(shí)時(shí)的、分布式的同時(shí)可以保持較低通信能耗與通信負(fù)載,并可以實(shí)現(xiàn) 較高檢測率與較低誤報(bào)率的異常值檢測方法才是適合無線傳感器網(wǎng)絡(luò)的異常值檢測算法。
[0009] 在文獻(xiàn)Statistics-basedoutlierdetectionforwirelesssensornetworks 中,作者給出幾種基于統(tǒng)計(jì)學(xué)模型的WSNs異常數(shù)據(jù)檢測方法。包括只考慮時(shí)間相關(guān)性的方 法、只考慮空間相關(guān)性的方法以及同事考慮時(shí)空相關(guān)性的方法。但是,就多維數(shù)據(jù)而言,文 章中依然采用時(shí)間序列模型及地理統(tǒng)計(jì)學(xué),沒有考慮對(duì)數(shù)據(jù)降維,大大增加了計(jì)算消耗。
[0010] 文南犬Trajectory-basedmulti-dimensionaloutlierdetectioninwireless sensornetworksusingHiddenMarkovModels中,作者利用傅里葉變換對(duì)傳感器節(jié)點(diǎn)收 集到的多維數(shù)據(jù)降維。同時(shí),在隱馬爾科夫模型應(yīng)用的過程中還利用了數(shù)據(jù)之間的時(shí)間相 關(guān)性。但是,文中沒有考慮節(jié)點(diǎn)之間存在的空間相關(guān)性。
[0011] 文南犬Distributedonlineoutlierdetectioninwirelesssensornetworks usingellipsoidalsupportvectormachine中,作者利用超橢球支持向量機(jī)對(duì)數(shù)據(jù)分類 從而達(dá)到找出異常數(shù)據(jù)的目的。文中利用范數(shù)定義多維數(shù)據(jù)之間的距離。其在達(dá)到較高的 檢出率的同時(shí),還保證了有很低的誤檢測率。同時(shí),該方法還是一種在線的,實(shí)時(shí)檢方法。但 訓(xùn)練橢球支持向量機(jī)的過程需要事先明確數(shù)據(jù)的分布,需要較大能量消耗。
[0012] 文南犬AnEnergy-EfficientOutlierDetectionBasedonDataClusteringin WSNs中,通過對(duì)節(jié)點(diǎn)之間的空間相關(guān)性分析來對(duì)節(jié)點(diǎn)進(jìn)行分簇,從而減少了通信交流進(jìn)而 減少了能量消耗。但對(duì)于多維數(shù)據(jù)先分別對(duì)一維數(shù)據(jù)處理后再整合,增加了計(jì)算量。
[0013] 在無線傳感器網(wǎng)絡(luò)中,理論上相鄰區(qū)域內(nèi)的節(jié)點(diǎn)數(shù)據(jù)具有空間相關(guān)性,且同一節(jié) 點(diǎn)連續(xù)時(shí)間段內(nèi)數(shù)據(jù)具有時(shí)間相關(guān)性。但目前已有文獻(xiàn)只有少數(shù)異常檢測方法同時(shí)考慮了 時(shí)間和空間相關(guān)性,這必然會(huì)使得檢測準(zhǔn)確度降低或者使檢測成本增加。
【發(fā)明內(nèi)容】
[0014] 本發(fā)明的目的在于針對(duì)目前已有WSNs異常值檢測方法的不足,提出了一種同時(shí) 考慮時(shí)間和空間相關(guān)性的基于軌跡的多維數(shù)據(jù)WSNs異常值檢測方法。在詳細(xì)介紹本發(fā)明 前,首先給出三個(gè)定義。
[0015] 定義1(PermissionRange:許可半徑)d維傳感器數(shù)據(jù)集尺H =,其中 = .,/:!>/]卜這里#μ]表示第i個(gè)節(jié)點(diǎn)的第k維數(shù)據(jù)。其第k維許可半徑定義為:
[0016]
[0017] 這里,如果有ΜΜ- <內(nèi)| <Pi?/f,貝ij稱數(shù)據(jù)y與.<在第k維是相鄰的;如果r,與 rf在第k維相鄰,則其在第k維同屬一個(gè)簇。對(duì)節(jié)點(diǎn)i,j,只有當(dāng)其d維數(shù)據(jù)<與rf在所有 的第k(l<k<d)維均同屬一個(gè)簇時(shí),才稱節(jié)點(diǎn)i,j屬于同一個(gè)簇。
[0018] 定義2(Clusterrange:簾K間)簾C;的簾區(qū)間記為CRZ,其中對(duì)1 <k<d有
[0019]
[0020] 其中,在第k維的簇區(qū)間。
[0021] 給定簇(^和C,,簇區(qū)間分別為和,對(duì)于第k維數(shù)據(jù),如果有:
[0022]
[0023] 則稱簇區(qū)間和在第k維重疊。
[0024] 當(dāng)簇區(qū)間C<和CKf在第k維重疊時(shí),稱簇(;和簇Cj在第k維可合并,且新形 成的簇之簇半徑為CR= [ΜΙΝ({η?η?,η?η」}),ΜΑΧ({η?ΒΧ?,η?Βχ」})]。當(dāng)簇(^和C」在所有第 k(l<k<d)維均重疊時(shí),簇(^和Cj可合并為新的簇。
[0025] 定義3(函數(shù)相似)定義在X上的函數(shù)g(x)和f(x)是相似的,如果當(dāng)g(x)和f(x) 平移至相同起點(diǎn)后,有:對(duì)任意的XeX,都有|f(x)-g(x) | <c ;
[0026] 或者有:
[0027]
[0028] 上式中,c是一個(gè)大于0的參數(shù),但不能過大,應(yīng)該遠(yuǎn)遠(yuǎn)小于1。在實(shí)際應(yīng)用中由實(shí) 際情況確定其值。
[0029] 本發(fā)明的基本技術(shù)思路:首先,根據(jù)某相同時(shí)刻傳感器節(jié)點(diǎn)數(shù)據(jù)對(duì)傳感器節(jié)點(diǎn)分 簇,對(duì)分簇后的每個(gè)簇分別訓(xùn)練超橢球并相應(yīng)計(jì)算超橢球各個(gè)軸長,將軸長比例系數(shù)作為 系數(shù)對(duì)多維數(shù)據(jù)線性降維,降維后的數(shù)據(jù)擬合成數(shù)據(jù)曲線,作為測試曲線。對(duì)次日相同時(shí)間 段的數(shù)據(jù)作相同降維、曲線擬合處理,擬合后的曲線作為檢測曲線。比較測試曲線與檢測曲 線的趨勢及曲線相似度,以此來檢測節(jié)點(diǎn)收集的多維數(shù)據(jù)是否存在異常數(shù)據(jù)。
[0030] 其具體實(shí)現(xiàn)步驟如下:
[0031]S1:選取相同適當(dāng)時(shí)間段傳感器節(jié)點(diǎn)數(shù)據(jù)(2004-03-0100 :57--2004-03-0101: 03);
[0032]S2:依據(jù)數(shù)據(jù)對(duì)節(jié)點(diǎn)分簇;
[0033]S3:對(duì)相應(yīng)的簇訓(xùn)練超橢球并相應(yīng)計(jì)算超橢球各個(gè)軸長;
[0034]S4:據(jù)軸長將數(shù)據(jù)降維;
[0035]S5:將降維后的數(shù)據(jù)進(jìn)行非線性曲線擬合;
[0036]S6:選取節(jié)點(diǎn)在2004-03-0200 :57--2004-03-0201 :03時(shí)間段內(nèi)數(shù)據(jù),并根據(jù)對(duì) 應(yīng)分簇按S4、S5處理數(shù)據(jù);
[0037]S7:比較兩條曲線相似度,以確定是否存在異常數(shù)據(jù);
[0038]S8:重復(fù)S4、S5、S6、S7,直至全部節(jié)點(diǎn)檢測完畢。
[0039] 相對(duì)于目前已有技術(shù),本發(fā)明優(yōu)點(diǎn)如下:
[0040] (1)本發(fā)明分簇過程考慮了網(wǎng)絡(luò)節(jié)點(diǎn)之間的空間相關(guān)性,這使得數(shù)據(jù)降維過程更 加準(zhǔn)確且有針對(duì)性。
[0041] (2)本發(fā)明通過利用橢圓對(duì)數(shù)據(jù)進(jìn)行線性降維,避免了直接使用多維數(shù)據(jù)造成的 計(jì)算量過大的缺點(diǎn)。
[0042] (3)本發(fā)明在進(jìn)行異常值檢測的過程利用了節(jié)點(diǎn)數(shù)據(jù)之間的時(shí)間相關(guān)性,通過比 較連續(xù)兩天數(shù)據(jù)擬合曲線來實(shí)現(xiàn)檢測過程。
[0043](4)本發(fā)明可以通過適當(dāng)調(diào)節(jié)比值參數(shù)c的大小來實(shí)現(xiàn)在不同監(jiān)測環(huán)境的檢測要 求。
[0044] (5)本發(fā)明在整個(gè)檢測過程中,沒有額外通信消耗,故其同樣適用于動(dòng)態(tài)變化的無 線傳感器網(wǎng)絡(luò)。
[0045] 綜上所述,本發(fā)明在檢測過程中充分利用了網(wǎng)絡(luò)相鄰節(jié)點(diǎn)數(shù)據(jù)之間的空間相關(guān)性 及同一節(jié)點(diǎn)數(shù)據(jù)的時(shí)間相關(guān)性;通過分簇對(duì)數(shù)據(jù)降維,避免了直接處理多維數(shù)據(jù)計(jì)算復(fù)雜 度較高的缺點(diǎn);異常值檢測方法可以準(zhǔn)確檢測出網(wǎng)絡(luò)節(jié)點(diǎn)處連續(xù)出現(xiàn)異常值的情況,且檢 出率較高,誤檢率較低。
【附圖說明】
[0046] 圖1是本發(fā)明的總流程圖;
[0047] 圖2是傳感器網(wǎng)絡(luò)部署節(jié)點(diǎn)圖;
[0048] 圖3是節(jié)點(diǎn)分簇結(jié)果圖;
[0049] 圖4是超橢圓長短軸比例圖;
[0050] 圖5是節(jié)點(diǎn)13的數(shù)據(jù)擬合曲線;
[0051] 圖6是節(jié)點(diǎn)30的數(shù)據(jù)擬合曲線;
[005