本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,特別涉及一種泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法。
背景技術(shù):
我國水資源分配在空間上不均勻,為了在各流域之間進(jìn)行合理的水資源調(diào)度,近年來,國家以及各級政府新建了眾多的調(diào)水工程,如“南水北調(diào)”,“引灤入津”,“引灤入唐”、“引黃濟(jì)青”等。調(diào)水工程的運(yùn)行主要依靠各級泵站逐級提水,因此,泵站高效穩(wěn)定的工作對調(diào)水工程至關(guān)重要。隨著監(jiān)測技術(shù)的發(fā)展,泵站自動化水平逐步提高,目前,在泵站運(yùn)行過程,大量泵站運(yùn)行狀態(tài)信息被采集和存儲,如壓力、溫度、水位等。對泵站運(yùn)行狀態(tài)監(jiān)測數(shù)據(jù)進(jìn)行處理分析和挖掘,發(fā)現(xiàn)泵站運(yùn)行中的規(guī)律,實(shí)現(xiàn)泵站故障預(yù)測和預(yù)報,將對泵站運(yùn)行調(diào)度起到積極的作用。而對泵站運(yùn)行狀態(tài)監(jiān)測數(shù)據(jù)進(jìn)行挖掘前,需要對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和修正異常數(shù)據(jù),或者從異常數(shù)據(jù)中發(fā)現(xiàn)泵站運(yùn)行的特殊狀態(tài)。
在數(shù)據(jù)挖掘過程中,常常存在與數(shù)據(jù)模型或數(shù)據(jù)一般規(guī)律不符合的數(shù)據(jù)對象,這類與其它數(shù)據(jù)不一致的數(shù)據(jù)對象就稱為異常數(shù)據(jù),它們往往容易被人們所忽略。然而,這些數(shù)據(jù)對象可能是具有特殊意義的,而且相對于那些普通的數(shù)據(jù)而言,這類異常的數(shù)據(jù)往往提供了更多的有用信息,它們往往更具有研究價值。因此,可以看到,不能簡單的把異常數(shù)據(jù)看作是“錯誤的數(shù)據(jù)”,并進(jìn)行簡單的處理。對于數(shù)據(jù)中存在的錯誤數(shù)據(jù),需要開發(fā)有效的檢測算法,為數(shù)據(jù)分析提供清潔可靠的數(shù)據(jù);但也可以看到,某些異常數(shù)據(jù)可能包含著某種重要的知識,分析它們能獲得到有實(shí)際應(yīng)用意義的知識。
異常檢測與其它許多數(shù)據(jù)挖掘研究的對象不同,它不是研究數(shù)據(jù)集中的絕大多數(shù)對象,而是關(guān)注那些數(shù)據(jù)集合中小部分的對象。這些小部分的異常數(shù)據(jù)(對象)可能包含著某種重要的信息和知識。因此,異常數(shù)據(jù)檢測和分析是一個較為特殊卻很有意義的數(shù)據(jù)挖掘任務(wù)。異常點(diǎn)有多種別名,如噪聲、偏離點(diǎn)、例外點(diǎn)、孤立點(diǎn)、離群點(diǎn)等。對于數(shù)據(jù)集合中的異常點(diǎn)(對象),直觀上,它們一般孤立于其它對象存在,因此研究者常使用“孤立點(diǎn)”一詞來形象的描述異常點(diǎn)。
異常檢測是數(shù)據(jù)挖掘的一個重要分支。異常點(diǎn)挖掘可以被形式化的描述:給定一個含有n個數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,發(fā)現(xiàn)集合中與其余數(shù)據(jù)相比顯著相異的、異常的或不一致的數(shù)據(jù)點(diǎn)或?qū)ο?。所以,異常點(diǎn)挖掘問題可被看作兩個子問題:
(1)在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)被認(rèn)為是不一致的;
(2)找到一個有效的方法來挖掘這樣的異常點(diǎn)。
異常點(diǎn)挖掘的第一個子問題,即是要解決異常點(diǎn)的定義問題。目前,異常點(diǎn)定義有多種,最具代表性和被廣泛接受的是hawkins早在1980年給出的異常點(diǎn)(outlier)的本質(zhì)性定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。另外具有代表性的還有v.barnet等人在1994年在統(tǒng)計學(xué)領(lǐng)域給出的異常點(diǎn)直觀上的定義:一個異常點(diǎn)(outlier)是這樣的數(shù)據(jù)點(diǎn),基于某種度量而言,該數(shù)據(jù)點(diǎn)與數(shù)據(jù)集中的其他數(shù)據(jù)有著顯著的不同。
常見異常點(diǎn)檢測方法包括:統(tǒng)計學(xué)的檢測方法、基于距離的檢測方法、基于密度的檢測方法等。基于統(tǒng)計學(xué)的方法是最早被提出用來檢測數(shù)據(jù)集合中異常的方法。基于統(tǒng)計的異常檢測方法假設(shè)所給定的數(shù)據(jù)集存在一個分布或概率模型(如一個正態(tài)分布);然后根據(jù)相應(yīng)模型并通過不一致性測試來發(fā)現(xiàn)異常數(shù)據(jù)。應(yīng)用這種測試需要了解數(shù)據(jù)集參數(shù)的有關(guān)知識(如數(shù)據(jù)分布情況)、分布參數(shù)知識(如均值和方差),以及所預(yù)期的異常數(shù)據(jù)個數(shù)?;诰嚯x的異常檢測一般根據(jù)數(shù)據(jù)對象的最近鄰居來判斷其是否為異常點(diǎn)。適合于觀測值的分布不符合任何標(biāo)準(zhǔn)分布的情檢測方法,并且適合于多維的數(shù)據(jù)集,因此,其克服了基于統(tǒng)計學(xué)的異常點(diǎn)檢測方法的兩大缺點(diǎn)?;诿芏鹊臋z測方法在判斷一個對象o是否為異常點(diǎn)時,根據(jù)對象o周圍的數(shù)據(jù)據(jù)點(diǎn)周圍密集程度來判斷是否為異常點(diǎn),這個方法的得出的異常的也不夠精準(zhǔn),而且不適用于泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)的檢測。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供了一種大大提高了準(zhǔn)確性,檢測結(jié)果的實(shí)用價值更高的泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法。
發(fā)明內(nèi)容:為解決上述技術(shù)問題,本發(fā)明提出一種泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法,包括以下步驟:
步驟1:對泵站運(yùn)行進(jìn)行監(jiān)測,然后采用泵站自動化系統(tǒng)采集的泵站運(yùn)行狀態(tài)監(jiān)測數(shù)據(jù);
步驟2:根據(jù)步驟1得到的檢測數(shù)據(jù)得到一段時間序列x=<x1=(v1,t1),x2=(v2,t2),…xi=(vi,ti)…,xn=(vn,tn)>,其中,數(shù)據(jù)點(diǎn)xi=(vi,ti)表示時間序列在ti時刻的觀測值為vi,xi表示第i個數(shù)據(jù)點(diǎn);根據(jù)公式
步驟3:根據(jù)公式
步驟4:根據(jù)公式t=α×mc+β×nv計算異常閾值t,其中,nv表示點(diǎn)xi的k個近鄰點(diǎn)集合<xi-k,xi-k+1,…,xi-1>的標(biāo)準(zhǔn)差,α為整體變化的權(quán)重參數(shù),β為局部變化的權(quán)重參數(shù);
步驟5:判斷xi的累積變化量ac是否大于異常閾值t,如果ac大于t,則xi作為異常點(diǎn);否則視為正常點(diǎn)。
進(jìn)一步,所述近鄰點(diǎn)選擇的數(shù)量為15。如果k取值太小,則可能會檢出太多異常點(diǎn),k取值太大,則xi的變化可能被太多的近鄰平滑掉,可能檢不出異常點(diǎn)。所以這樣能夠準(zhǔn)確的檢測出異常點(diǎn)。
進(jìn)一步,所述近鄰點(diǎn)選擇當(dāng)前待檢測數(shù)據(jù)點(diǎn)前面的數(shù)據(jù)點(diǎn)。xi后面的觀測數(shù)據(jù)可能存在異常,所以選擇當(dāng)前待檢測數(shù)據(jù)點(diǎn)前面的數(shù)據(jù)點(diǎn)進(jìn)行異常檢測得出的結(jié)果更加的準(zhǔn)確。
進(jìn)一步,所述整體變化的權(quán)重參數(shù)α值為0.5;所述局部變化的權(quán)重參數(shù)β值為0.5。
進(jìn)一步,所述權(quán)值向量<w1,w2,…,wk>為<1,2,…,k>。
進(jìn)一步,越接近點(diǎn)xi的近鄰點(diǎn)賦予的權(quán)值越大。
工作原理:本法提供的方法結(jié)合泵站運(yùn)行監(jiān)控數(shù)據(jù)的特點(diǎn),引入平均變化量、累積變化量統(tǒng)計量,并在其基礎(chǔ)上給出了泵站運(yùn)行監(jiān)控數(shù)據(jù)中異常點(diǎn)的定義,提出了泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法。主要步驟包括:1.計算監(jiān)測數(shù)據(jù)的平均變化量;2.針對每個數(shù)據(jù)點(diǎn)動態(tài)計算異常閾值;3.計算每個數(shù)據(jù)點(diǎn)的累計變化量,累積變化量超出異常閾值的點(diǎn),即為異常點(diǎn)。異常閾值的計算考慮了時間序列整體變化以及當(dāng)前點(diǎn)周圍的變化情況,既反映了整體的情況也考慮局部情況,。
有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供的方法中異常閾值通過動態(tài)計算,不但反映了整體監(jiān)測數(shù)據(jù)的變化情況,同時考慮局部變化情況,因此檢出的異常更加具有實(shí)用價值。同時,本發(fā)明提供的方法檢測結(jié)果的準(zhǔn)確性更高,檢測的速度更快,計算量小。
附圖說明
圖1為本發(fā)明提供的泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案作進(jìn)一步解釋。
如圖1所示,本發(fā)明提供了一種泵站運(yùn)行監(jiān)控數(shù)據(jù)異常點(diǎn)檢測方法,主要包括以下步驟:
步驟110:對泵站運(yùn)行進(jìn)行監(jiān)測,然后采用泵站自動化系統(tǒng)采集的泵站運(yùn)行狀態(tài)監(jiān)測數(shù)據(jù),如泵站運(yùn)行的壓力、溫度、振動等。
步驟120:根據(jù)公式
步驟130:判斷標(biāo)號i的值;如果i大于該組內(nèi)子序列的總數(shù)則結(jié)束本組的處理;如果i不大于時間序列中觀測點(diǎn)的總數(shù);則進(jìn)行步驟140;
步驟140:讀取當(dāng)前待處理的數(shù)據(jù)點(diǎn)xi的信息。
步驟150:讀取數(shù)據(jù)點(diǎn)xi的近鄰點(diǎn),在檢測開始前需要確定近鄰點(diǎn)的個數(shù)k(比如取15),k值由分析人員根據(jù)經(jīng)驗進(jìn)行確定,k取值太小,則可能會檢出太多異常點(diǎn),k取值太大,則xi的變化可能被太多的近鄰平滑掉,可能檢不出異常點(diǎn)。讀取近鄰點(diǎn)時,將xi之前的數(shù)據(jù)作為近鄰,即,<xi-k,xi-k+1,…,xi-1>。因為,xi后面的觀測數(shù)據(jù)可能存在異常,為了避免影響就不參加近鄰處理。針對xi(i<=k)的點(diǎn),在沒有足夠鄰近點(diǎn)的情況下,增加其后的k-i+1個點(diǎn)作為鄰近點(diǎn)進(jìn)行處理,即<x1,x2,…,xi-1,xi+1,…,xk+1>為鄰近點(diǎn)集。步驟160:根據(jù)公式
步驟170:計算xi的異常閾值t。根據(jù)公式
步驟180:判斷xi的累積變化量ac是否大于異常閾值t,如果ac大于t,則xi作為異常點(diǎn),則轉(zhuǎn)入步驟190,否則視為正常點(diǎn),先將i的值加1后,重復(fù)步驟130~步驟180。
步驟190:將異常點(diǎn)進(jìn)行存儲后轉(zhuǎn)如步驟130。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。