基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法
【專利摘要】本發(fā)明涉及一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,首先判斷線性回歸模型中是否存在內(nèi)生解釋變量,當(dāng)不存在內(nèi)生解釋變量時(shí),依據(jù)數(shù)據(jù)點(diǎn)的方差規(guī)律,構(gòu)建標(biāo)準(zhǔn)方差的懲罰加權(quán)最小二乘目標(biāo)函數(shù),對(duì)標(biāo)準(zhǔn)方差進(jìn)行選擇和估計(jì),根據(jù)標(biāo)準(zhǔn)方差的選擇和估計(jì)結(jié)果檢驗(yàn)異方差,從而進(jìn)行異常點(diǎn)的檢測(cè),當(dāng)存在內(nèi)生解釋變量時(shí),依據(jù)數(shù)據(jù)點(diǎn)的均值規(guī)律,構(gòu)造均值漂移模型,根據(jù)均值漂移模型構(gòu)建懲罰融合廣義矩目標(biāo)函數(shù),進(jìn)行均值漂移參數(shù)的選擇和估計(jì),根據(jù)均值漂移參數(shù)的估計(jì)結(jié)果進(jìn)行異常點(diǎn)的檢測(cè)。本發(fā)明不需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量并求其分布,避免了比如最大似然估計(jì)等復(fù)雜的運(yùn)算,能夠一步給出所有數(shù)據(jù)的異常點(diǎn)情況,解決多個(gè)異常點(diǎn)時(shí)傳統(tǒng)方法在掩蓋和淹沒這兩種現(xiàn)象下可能失效的問(wèn)題,節(jié)省檢測(cè)的運(yùn)行時(shí)間,提高數(shù)據(jù)處理的效率。
【專利說(shuō)明】
基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域,設(shè)及數(shù)據(jù)挖掘和數(shù)據(jù)處理的方法,具體地 說(shuō),設(shè)及一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法。
【背景技術(shù)】
[0002] 對(duì)數(shù)據(jù)進(jìn)行分析處理的過(guò)程中,人們經(jīng)常會(huì)遇到異常數(shù)據(jù)。異常數(shù)據(jù)在統(tǒng)計(jì)數(shù)據(jù) 分析中是一個(gè)很常見的問(wèn)題。在理論上,異常值是影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一個(gè)非常重要的因 素,它們將對(duì)估計(jì)、推斷和模型選擇有嚴(yán)重的影響。在應(yīng)用上,對(duì)異常數(shù)據(jù)的處理在某些領(lǐng) 域很有價(jià)值,例如在網(wǎng)絡(luò)完全領(lǐng)域,可W利用異常數(shù)據(jù)挖據(jù)來(lái)分析網(wǎng)絡(luò)中的異常行為;在金 融領(lǐng)域異常數(shù)據(jù)挖掘可W識(shí)別信用卡的欺詐交易、股市的操縱行為、會(huì)計(jì)信息的虛假報(bào)價(jià)、 欺詐貸款等。因此,近年來(lái)有關(guān)異常值的理論探討一直是個(gè)熱點(diǎn)問(wèn)題。
[0003] 對(duì)于通常的線性回歸模型,傳統(tǒng)的基于數(shù)據(jù)刪除模型與均值漂移模型的經(jīng)典診斷 量的異常點(diǎn)檢測(cè)方法,當(dāng)僅有一個(gè)異常點(diǎn)時(shí)是簡(jiǎn)單而且有效的,而且在某些特殊的情況下, 它們也產(chǎn)生了一些令人信服的經(jīng)驗(yàn)結(jié)果。然而,它們也存在一些不足之處:(1)有多個(gè)異常 點(diǎn)時(shí),傳統(tǒng)方法都是逐個(gè)數(shù)據(jù)點(diǎn)檢測(cè),當(dāng)數(shù)據(jù)點(diǎn)很大時(shí)計(jì)算量將會(huì)變得特別大。(2)當(dāng)有多 個(gè)異常點(diǎn)時(shí),掩蓋和淹沒運(yùn)兩個(gè)現(xiàn)象的存在使得傳統(tǒng)方法在某些情況下是失效的。(3)模型 中未知參數(shù)的個(gè)數(shù)超過(guò)了樣本容量的個(gè)數(shù),運(yùn)使得參數(shù)估計(jì)和假設(shè)檢驗(yàn)變得異常復(fù)雜,甚 至是"不可識(shí)別的"。(4)大多數(shù)傳統(tǒng)方法都需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量和計(jì)算其分布函數(shù),而檢驗(yàn) 統(tǒng)計(jì)量的分布函數(shù)是很難求的,有的甚至根本求不出其分布函數(shù)。
[0004] 大數(shù)據(jù)背景下,在數(shù)據(jù)的處理過(guò)程中,為了提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,需要利用某種有 效的方法來(lái)剔除統(tǒng)計(jì)數(shù)據(jù)中的偽數(shù)據(jù),達(dá)到去偽存真的目的。變量選擇就是一類常用方法。 變量選擇是一種從大量特征或變量中挑選出所有相關(guān)特征或變量的技術(shù),從而建立一個(gè)穩(wěn) 健的模型。在大量的變量選擇方法中,尤為受到重視的是基于懲罰思想的變量選擇方法,比 如Lasso,SCAD,elastic net,adaptive LassoW及Dantzig selector。上述變量選擇方法 一般需要假設(shè)模型具有稀疏性和外生性。在高維回歸模型里大量的解釋變量難免會(huì)出現(xiàn)內(nèi) 生解釋變量。內(nèi)生解釋變量的存在使得通常的懲罰最小二乘方法是不相合的,進(jìn)而得到錯(cuò) 誤決策。
[0005] 鑒于傳統(tǒng)異常點(diǎn)探測(cè)方法的缺點(diǎn)和變量選擇在數(shù)據(jù)處理中的優(yōu)勢(shì),提出一種基于 懲罰技術(shù)而且并不需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量就可W同時(shí)給出所有數(shù)據(jù)的異常點(diǎn)情況的探測(cè)方 法就顯得尤為必要?;趹土P方法的異常點(diǎn)檢測(cè)是一個(gè)嶄新的研究領(lǐng)域并有著重要的實(shí) 用價(jià)值,但目前仍然缺乏一個(gè)成熟的技術(shù)方案,因此需要提供能夠在有和無(wú)內(nèi)生解釋變量 下都能實(shí)用的快速的異常點(diǎn)檢測(cè)方法,在保證檢測(cè)結(jié)果精度的前提下能夠通過(guò)近似方法處 理大數(shù)據(jù)系統(tǒng)中的海量數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于針對(duì)現(xiàn)有傳統(tǒng)的異常點(diǎn)檢測(cè)方法需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量且只能 逐步檢測(cè)各個(gè)數(shù)據(jù)點(diǎn)、計(jì)算量大等上述不足,提供了一種基于懲罰回歸的快速異常點(diǎn)檢測(cè) 方法,該方法結(jié)合高維數(shù)據(jù)分析和懲罰回歸的方法,降低了計(jì)算量,減少運(yùn)行時(shí)間,進(jìn)而大 幅提高異常點(diǎn)檢測(cè)效率的目標(biāo)。
[0007] 根據(jù)本發(fā)明一實(shí)施例,提供了一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,含有W 下步驟:(一)利用數(shù)據(jù)采集工具采集待檢測(cè)數(shù)據(jù)點(diǎn),畫出待檢測(cè)數(shù)據(jù)點(diǎn)的散點(diǎn)圖, 散點(diǎn)圖中90%-95%的數(shù)據(jù)點(diǎn)在同一直線附近的數(shù)據(jù)點(diǎn)用線性回歸模型Υ =地+ε表示,其中 Υ為響應(yīng)變量所構(gòu)成的向量,X為解釋變量構(gòu)成的矩陣,ε為隨機(jī)誤差,滿足Ε(ε)=〇, Κ("和) = =(巧',判斷線性回歸模型Υ = Χβ+ε中是否存在內(nèi)生解釋變量。
[0008] (二)當(dāng)線性回歸模型中不存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的方差規(guī)律, 構(gòu)造稀疏參數(shù)向量丫 =1-0^,構(gòu)造加權(quán)最小二乘損失函數(shù),由稀疏參數(shù)向量丫中分量的懲 罰函數(shù)結(jié)合加權(quán)最小二乘損失函數(shù)構(gòu)造懲罰加權(quán)最小二乘目標(biāo)函數(shù),優(yōu)化關(guān)于稀疏參數(shù)向 量γ的懲罰加權(quán)最小二乘目標(biāo)函數(shù),進(jìn)行稀疏參數(shù)向量γ的選擇和估計(jì),稀疏參數(shù)向量γ 的估計(jì)中不等于零的分量所對(duì)應(yīng)的方差分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常 點(diǎn),通過(guò)異方差檢驗(yàn)完成異常點(diǎn)的檢測(cè)。由于異方差是非常態(tài)的,方差向量中90%-95% 的分量相同,5%-1〇%的分量不同,把待檢測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,運(yùn)樣對(duì)應(yīng)的方差向量曰2中 90%-95%的分量為1,只有5%-10%的分量不為1,因此標(biāo)準(zhǔn)差向量〇=(〇1,…,〇η)τ中90%- 95 %的分量為1,只有5%-10%的分量不為1,故稀疏參數(shù)向量丫 = 1 -(^1中90 % -95 %的分量 為0,只有5%-10%的分量不為0。
[0009] (Ξ)當(dāng)線性回歸模型中存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的均值規(guī)律,構(gòu) 造均值漂移模型y=地巧+ε,其中誤差項(xiàng)ε~N(〇yi),均值漂移參數(shù)向量η=(ηι,···,ηη)τ; 根據(jù)均值漂移參數(shù)向量η構(gòu)造融合廣義矩?fù)p失函數(shù),由融合廣義矩?fù)p失函數(shù)結(jié)合均值漂移 參數(shù)向量η的分量的懲罰函數(shù)構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù),優(yōu)化關(guān)于均值漂移參數(shù)向量η 的懲罰融合廣義矩目標(biāo)函數(shù),進(jìn)行均值漂移參數(shù)向量η的選擇和估計(jì),均值漂移參數(shù)向量η 的估計(jì)弓中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為異常點(diǎn),通過(guò)檢驗(yàn)均值漂移參數(shù)向量η的估 計(jì)每中非零的分量完成異常點(diǎn)的檢測(cè)。如果均值漂移參數(shù)向量η的第i個(gè)分量ru顯著不等于 零,則說(shuō)明第i個(gè)待檢測(cè)數(shù)據(jù)點(diǎn)的均值確實(shí)有漂移,因而數(shù)據(jù)點(diǎn)(xi,yi)不符合既定的線性回 歸方程+ 則第i個(gè)點(diǎn)為異常點(diǎn);由于異常點(diǎn)是非常態(tài)的,既待檢測(cè)數(shù)據(jù)點(diǎn)中只有 5%-1〇%的數(shù)據(jù)點(diǎn)為異常點(diǎn),因此均值漂移參數(shù)向量η中只有5%-1〇%的分量不為零,而 9〇%-95%的分量為零,運(yùn)說(shuō)明均值漂移參數(shù)向量η是稀疏的。
[0010] 在根據(jù)本發(fā)明實(shí)施例的學(xué)習(xí)方法中,步驟(一)中,判斷線性回歸模型中是否存在 內(nèi)生解釋變量的具體步驟為:
[0011] (1)給定解釋變量X,由線性回歸模型計(jì)算條件期望Ε( ε IX);
[001^ (2)判斷條件期望Ε(ε |Χ)是否為零,若條件期望Ε(ε |Χ)為零,則線性回歸模型中不 存在內(nèi)生解釋變量,若條件期望Ε(ε IX)不為零,則線性回歸模型中存在內(nèi)生解釋變量。
[0013] 在根據(jù)本發(fā)明實(shí)施例的檢測(cè)方法中,步驟(二)中,當(dāng)不存在內(nèi)生解釋變量時(shí),檢測(cè) 異常點(diǎn)的具體步驟為:
[0014] (l)定義標(biāo)準(zhǔn)方差向量為σ=(σl,…,σn)τ,標(biāo)準(zhǔn)差向量中90%-95%的分量為l,只 有5 %-10 %的分量不為1;
[001引(2)記1 = (1,...,1)了,。-1=(1/。1,...,1/。。)了,利用變換1-丄,/ = 1,...,"構(gòu)造稀疏 巧 參數(shù)向量丫 =1-0^,稀疏參數(shù)向量丫 =1-0^中90%-95%的分量為0,只有5%-10%的分量 不為0;
[0016] (3)構(gòu)造加權(quán)最小二乘損失函數(shù)
[0017] (4)引入稀疏參數(shù)向量丫中分量的懲罰函數(shù)
[0018] (5)由加權(quán)最小二乘損失函數(shù)結(jié)合稀疏參數(shù)向量丫中分量的懲罰函數(shù)構(gòu)造懲罰加 權(quán)最小二乘目標(biāo)函數(shù)9(β,σ;λ):
[0019]
(1)
[0020] 式中,β為討厭參數(shù),討厭參數(shù)β用其加權(quán)最小二乘估計(jì);§代替;λ表示調(diào)整參數(shù);
[0021] (6)引入變換:
,并引入記號(hào):
[0022]
[0024] (7)利用BIC信息準(zhǔn)則選擇懲罰加權(quán)最小二乘目標(biāo)函數(shù)9(β,〇;λ)中最優(yōu)的調(diào)整參 數(shù)λ;
[0025] (8)利用ΚΚΤ條件將懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化轉(zhuǎn)化為鞍點(diǎn)系統(tǒng),利用共輛 梯度算法求解懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化,對(duì)稀疏參數(shù)向量γ進(jìn)行選擇和估計(jì);
[0026] (9)根據(jù)〇1和丫 1的對(duì)偶關(guān)系7, =1-1,獲得標(biāo)準(zhǔn)方差0的選擇和估計(jì),稀疏參數(shù)向 巧' 量γ的估計(jì)中不等于零的分量所對(duì)應(yīng)的標(biāo)準(zhǔn)方差〇的分量為異方差,即標(biāo)準(zhǔn)方差0的估計(jì)中 不等于1的分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常點(diǎn),通過(guò)檢驗(yàn)異方差,完成異 常點(diǎn)檢測(cè)。
[0027] 在根據(jù)本發(fā)明實(shí)施例的檢測(cè)方法中,步驟(Ξ)中,當(dāng)存在內(nèi)生解釋變量時(shí),檢測(cè)異 常點(diǎn)的具體步驟為:
[0028] (1)將均值漂移參數(shù)向量η引入步驟(一)中的線性回歸模型,構(gòu)造均值漂移模型, 均值漂移模型表示為:
[0029] γ=χβ+η+ε (3)
[0030] 其中,誤差項(xiàng)ε~N(〇yi),均值漂移參數(shù)向量ιι=(ηι,···,ηη)τ;
[0031 ] (2)獲取工具變量向量W,由均值漂移模型得到對(duì)應(yīng)的條件矩模型:
[0032] E[g(Y,Xe+n) |w]=0 (4)
[0033] 其中,g( ·,·)是已知的二元函數(shù),取g(ti,t2) = ti-t2;
[0034] (3)由B-樣條或化urier級(jí)數(shù)構(gòu)造工具變量向量W的變換的兩個(gè)不同的集:
[003引 F=(fi(W),...,fp(W))T (5)
[0036] H=化 i(W),...,hp(W))T (6);
[0037] (4)根據(jù)條件矩模型和工具變量向量W的變換的兩個(gè)集構(gòu)造過(guò)識(shí)別條件:
[0038] E[g(Y,Xe+n)F]=0 (7)
[0039] E[g(Y,Xe+ri)扣=0 (8);
[0040] (5)引入均值漂移參數(shù)向量η中各分量的示性函數(shù)0' = ^··,"),根據(jù)過(guò)識(shí)別條 件和均值漂移參數(shù)向量η中各分量的示性函數(shù)構(gòu)造融合廣義矩?fù)p失函數(shù)LfcmmU):
[0041]
[0042] 其中,Wji和COj2為給定的權(quán);
[0043] 為了表達(dá)方便,令Vi(ri) = (Fi(ri)T,出(ri)T)T,則融合廣義矩?fù)p失函數(shù)LfgmmU)的矩 陣形式為:
[0044]
[0045] 其中,·/(/?) = ^ 1,· ' ·,巧,1,巧2,…,巧2 },
( 11,· · ·,Ir )為均值漂移參數(shù)向量n中非 零分量對(duì)應(yīng)的標(biāo)記;
[0046] (6)引入均值漂移參數(shù)向量η的分量的懲罰函數(shù)Pa(|i1j|);
[0047] (7)根據(jù)融合廣義矩?fù)p失函數(shù)LfcmmU)和均值漂移參數(shù)向量η中各分量的懲罰函數(shù) Ρα( II nj I)構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù)化GMM(n):
[0048]
川)
[0049] 其中,Ρλ( ·)為懲罰函數(shù),參數(shù)λ為調(diào)整參數(shù);
[0050] (8)利用BIC信息準(zhǔn)則選擇懲罰融合廣義矩目標(biāo)函數(shù)化GMM(n)中最優(yōu)的調(diào)整參數(shù)λ;
[0化1] (9)令
表示一個(gè)光滑核函數(shù),其中,F(xiàn)(t)為一個(gè)二次可微的累積 分布函數(shù);(10)當(dāng)hn^0+,光滑核函數(shù)
枚斂于故采用光滑技術(shù)用光滑核函數(shù)
'戈替融合廣義矩?fù)p失函數(shù)LFCMM(ri)中示性函數(shù)%,*〇;)'進(jìn)而獲得光滑的融合廣義矩?fù)p 失函數(shù)Lk;再結(jié)合關(guān)于均值漂移參數(shù)η的懲罰函數(shù)進(jìn)而獲得光滑的懲罰融合廣義矩目標(biāo)函 數(shù)Qk:
[005^
(12).
[0053] (11)利用迭代坐標(biāo)下降法優(yōu)化光滑的融合廣義矩目標(biāo)函數(shù)化,對(duì)均值漂移參數(shù)向 量η進(jìn)行選擇和估計(jì),均值漂移參數(shù)向量η的估計(jì)中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為 異常點(diǎn),通過(guò)檢驗(yàn)均值漂移參數(shù)向量η的估計(jì)巧中非零的分量,完成異常點(diǎn)的檢測(cè)。
[0054] 本發(fā)明提出的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,首先判斷線性回歸模型中是 否存在內(nèi)生解釋變量,當(dāng)不存在內(nèi)生解釋變量時(shí),依據(jù)數(shù)據(jù)點(diǎn)的方差規(guī)律,構(gòu)建標(biāo)準(zhǔn)方差的 懲罰加權(quán)最小二乘目標(biāo)函數(shù),對(duì)標(biāo)準(zhǔn)方差進(jìn)行選擇和估計(jì),根據(jù)標(biāo)準(zhǔn)方差的選擇和估計(jì)結(jié) 果檢驗(yàn)異方差,從而進(jìn)行異常點(diǎn)的檢測(cè),當(dāng)存在內(nèi)生解釋變量時(shí),依據(jù)數(shù)據(jù)點(diǎn)的均值規(guī)律, 構(gòu)造均值漂移模型,根據(jù)均值漂移模型構(gòu)建懲罰融合廣義矩目標(biāo)函數(shù),進(jìn)行均值漂移參數(shù) 的選擇和估計(jì),根據(jù)均值漂移參數(shù)的估計(jì)結(jié)果進(jìn)行異常點(diǎn)的檢測(cè),不需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量 并求其分布,避免了比如最大似然估計(jì)等復(fù)雜的運(yùn)算,能夠一步給出所有數(shù)據(jù)的異常點(diǎn)情 況,適用于低維數(shù)據(jù)的處理同時(shí)也適用于高維數(shù)據(jù)的處理,擴(kuò)大了使用范圍。與現(xiàn)有技術(shù)相 比,通過(guò)根據(jù)本發(fā)明實(shí)施例的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,能夠解決多個(gè)異常點(diǎn) 時(shí)傳統(tǒng)方法在掩蓋和淹沒運(yùn)兩種現(xiàn)象下可能失效的問(wèn)題,節(jié)省檢測(cè)的運(yùn)行時(shí)間,提高數(shù)據(jù) 處理的效率。本發(fā)明提出的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,還可W非常容易地借助 現(xiàn)有的優(yōu)化算法和對(duì)應(yīng)的軟件來(lái)實(shí)現(xiàn)目標(biāo)函數(shù)的優(yōu)化,執(zhí)行簡(jiǎn)單,操作方便。
【附圖說(shuō)明】
[0055] 附圖1為本發(fā)明基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法示意圖。
[0056] 附圖2為本發(fā)明不存在內(nèi)生解釋變量時(shí)基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法流程 圖。
[0057] 附圖3為本發(fā)明存在內(nèi)生解釋變量時(shí)基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法流程 圖。
[005引附圖4為在異常點(diǎn)所占比例為5%情況下本發(fā)明方法與傳統(tǒng)方法的異常點(diǎn)檢測(cè)結(jié) 果。
[0059] 附圖5為在異常點(diǎn)所占比例為10%情況下本發(fā)明方法與傳統(tǒng)方法的異常點(diǎn)檢測(cè)結(jié) 果。
【具體實(shí)施方式】
[0060] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖對(duì)本發(fā)明實(shí) 施例作進(jìn)一步說(shuō)明。
[0061] 如圖1所示為根據(jù)本發(fā)明實(shí)施例提供的一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法 的示意圖,該檢測(cè)方法含有W下步驟:
[006^ ( - )利用數(shù)據(jù)采集工具采集待檢測(cè)數(shù)據(jù)點(diǎn)畫出待檢測(cè)數(shù)據(jù)點(diǎn)的散點(diǎn)圖, 散點(diǎn)圖中90%-95%的數(shù)據(jù)點(diǎn)在同一直線附近的數(shù)據(jù)點(diǎn)用線性回歸模型Υ =地+ε表示,其中 Υ為響應(yīng)變量所構(gòu)成的向量,X為解釋變量構(gòu)成的矩陣,ε為隨機(jī)誤差,滿足Ε ( ε )= 0,
,判斷線性回歸模型Υ = Χβ+ε中是否存在內(nèi)生解釋變量。
[0063] (二)當(dāng)線性回歸模型中不存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的方差規(guī)律, 構(gòu)造稀疏參數(shù)向量丫 =I-cTi,由于異方差是非常態(tài)的,方差向量中90%-95%的分量相 同,5%-10%的分量不同,把待檢測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,運(yùn)樣對(duì)應(yīng)的方差向量σ2中90%-95% 的分量為1,只有5%-10%的分量不為1,因此標(biāo)準(zhǔn)差向量σ = (σι,…,〇η)τ中90%-95%的分 量為1,只有5%-10%的分量不為1,故稀疏參數(shù)向量丫 中90%-95%的分量為0,只有 5%-10 %的分量不為0。構(gòu)造加權(quán)最小二乘損失函數(shù),由稀疏參數(shù)向量丫中分量的懲罰函數(shù) 結(jié)合加權(quán)最小二乘損失函數(shù)構(gòu)造懲罰加權(quán)最小二乘目標(biāo)函數(shù),優(yōu)化關(guān)于稀疏參數(shù)向量丫的 懲罰加權(quán)最小二乘目標(biāo)函數(shù),進(jìn)行稀疏參數(shù)向量γ的選擇和估計(jì),稀疏參數(shù)向量γ的估計(jì) 中不等于零的分量所對(duì)應(yīng)的方差分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常點(diǎn),通 過(guò)異方差檢驗(yàn)完成異常點(diǎn)的檢測(cè)。
[0064] (Ξ)當(dāng)線性回歸模型中存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的均值規(guī)律,構(gòu) 造均值漂移模型y=地巧+ε,其中誤差項(xiàng)ε~N(〇yi),均值漂移參數(shù)向量η=(ηι,···,ηη)τ; 如果均值漂移參數(shù)向量η的第i個(gè)分量ru顯著不等于零,則說(shuō)明第i個(gè)待檢測(cè)數(shù)據(jù)點(diǎn)的均值 確實(shí)有漂移,因而數(shù)據(jù)點(diǎn)(Xi,yi)不符合既定的線性回歸方程義+ 則第i個(gè)點(diǎn)為異 常點(diǎn);由于異常點(diǎn)是非常態(tài)的,既待檢測(cè)數(shù)據(jù)點(diǎn)中只有5%-10%的數(shù)據(jù)點(diǎn)為異常點(diǎn),因此均 值漂移參數(shù)向量η中只有5%-10%的分量不為零,而90%-95%的分量為零,運(yùn)說(shuō)明均值漂 移參數(shù)向量η是稀疏的。根據(jù)均值漂移參數(shù)向量η構(gòu)造融合廣義矩?fù)p失函數(shù),由融合廣義矩 損失函數(shù)結(jié)合均值漂移參數(shù)向量η的分量的懲罰函數(shù)構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù),優(yōu)化 關(guān)于均值漂移參數(shù)向量η的懲罰融合廣義矩目標(biāo)函數(shù),進(jìn)行均值漂移參數(shù)向量η的選擇和估 計(jì),均值漂移參數(shù)向量η的估計(jì)《中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為異常點(diǎn),通過(guò)檢驗(yàn) 均值漂移參數(shù)向量η的估計(jì)詩(shī)中非零的分量完成異常點(diǎn)的檢測(cè)。
[0065] 實(shí)施例一:如圖2所示,一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,該檢測(cè)方法含 有W下步驟:
[0066] 步驟一:利用數(shù)據(jù)采集工具如數(shù)據(jù)采集器生成η= 100個(gè)待檢測(cè)數(shù)據(jù)點(diǎn)。待測(cè)數(shù)據(jù) 點(diǎn)的具體生成方式為:設(shè)Ρ0為待檢測(cè)數(shù)據(jù)點(diǎn)中異常點(diǎn)所占的比例,為了得到1〇化〇個(gè)異常點(diǎn), 令XI,從穿中隨機(jī)抽取1〇化〇個(gè)分量,然后運(yùn)1〇化〇個(gè)分量每一個(gè)乘^一個(gè)隨機(jī)標(biāo) 準(zhǔn)差參數(shù)ω~化if ([ 1.5,3.5]),用運(yùn)10化0個(gè)分量和剩余的n-lO化0分量生成參數(shù)向量σ = (曰ι,···,〇η),進(jìn)而得到回歸誤差ε對(duì)應(yīng)的斜方差矩陣
[0067] 獲取待檢測(cè)數(shù)據(jù)點(diǎn)后,畫出待檢測(cè)數(shù)據(jù)點(diǎn)的散點(diǎn)圖,散點(diǎn)圖中90%-95%的數(shù)據(jù)點(diǎn) 在同一直線附近的數(shù)據(jù)點(diǎn)用線性回歸模型Υ =地+ε表示,其中ε~Ν(0,Σ)。判斷線性回歸模 型中生成的運(yùn)100個(gè)待測(cè)數(shù)據(jù)點(diǎn)是否存在內(nèi)生解釋變量,其具體步驟為:
[006引(1)給定解釋變量X,解釋變量X按由下方式得到,令Ρ = 0. 5, Km。=//"',則
。由線性回歸模型計(jì)算條件期望Ε(ε IX)。
[0069] (2)由數(shù)據(jù)點(diǎn)生成過(guò)程可W看到,解釋變量X與回歸誤差變量ε是相互獨(dú)立的,因此 條件期望Ε(ε|Χ)=〇,則線性回歸模型中不存在內(nèi)生解釋變量。
[0070] 步驟二:檢測(cè)異常點(diǎn),其具體步驟為:
[0071 ] (1)定義標(biāo)準(zhǔn)方差向量為0 = (〇1,…,〇η)τ,標(biāo)準(zhǔn)差向量0 = (〇1,…,〇η)τ中90%-95% 的分量為1,只有5 %-10 %的分量不為1。
[0072] (2)記I = α,…,l)τ,o-l=(lM,…,l/on)τ,利用變換l-丄,/ = l,…,"構(gòu)造稀疏 巧 參數(shù)向量丫 = I -0^,稀疏參數(shù)向量丫 = 1 -0^中90 % -95 %的分量為0,只有5%-10%的分量 不為0。
[0073] (3)構(gòu)造加權(quán)最小二乘損失函數(shù)
[0074] (4)引入稀疏參數(shù)向量γ中分量的懲罰函數(shù)
,其中懲罰函數(shù)Ρα( ·)有多 種選擇,考慮到SCAD懲罰函數(shù)滿足變量選擇的oracle性質(zhì),在本實(shí)施例中懲罰函數(shù)采用 SCAD懲罰函數(shù),其具體表達(dá)式為:
[0075]
其中, 由貝葉斯觀點(diǎn)并結(jié)合實(shí)際經(jīng)驗(yàn)在實(shí)際執(zhí)行中參數(shù)a的值取為3.7。
[0076] (5)由加權(quán)最小二乘損失函數(shù)結(jié)合稀疏參數(shù)向量丫中分量的懲罰函數(shù)構(gòu)造懲罰加 權(quán)最小二乘目標(biāo)函數(shù)9(β,σ;λ):
[0077]
…
[0078] 式中,β為討厭參數(shù),討厭參數(shù)β用其加權(quán)最小二乘估計(jì)i代替;0為標(biāo)準(zhǔn)方差向量; λ表示懲罰函數(shù)中的調(diào)整參數(shù)。
[0079] (6)引入變換
ζ' = ν··,η,7 = (7,,…,尸,/,并引入記號(hào):
[0080] 7* =〇',-奇知.一,。-苗戶^,《=(巧-坤反〇,...,〇f,...,《=化成棘',: 義' = (《,···,《),懲罰加權(quán)最小二乘目標(biāo)函數(shù)Ο(0,〇;λ)簡(jiǎn)化為:
[0081 ]
<'么).。
[0082] (7)利用BIC信息準(zhǔn)則選擇懲罰加權(quán)最小二乘目標(biāo)函數(shù)9(β,〇;λ)中最優(yōu)的調(diào)整參 數(shù)入。
[0083] (8)利用ΚΚΤ條件將懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化轉(zhuǎn)化為鞍點(diǎn)系統(tǒng),利用共輛 梯度算法求解懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化,對(duì)稀疏參數(shù)向量γ進(jìn)行選擇和估計(jì)。
[0084] (9)根據(jù)〇1和丫 1的對(duì)偶關(guān)系;1 ,獲得標(biāo)準(zhǔn)方差σ的選擇和估計(jì),稀疏參數(shù)向 巧 量γ的估計(jì)中不等于零的分量所對(duì)應(yīng)的標(biāo)準(zhǔn)方差〇的分量為異方差,即標(biāo)準(zhǔn)方差0的估計(jì)中 不等于1的分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常點(diǎn),通過(guò)檢驗(yàn)異方差,完成異 常點(diǎn)檢測(cè)。
[0085] 實(shí)施例二:如圖3所示,一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,該檢測(cè)方法含 有w下步驟:
[0086] 步驟一:利用數(shù)據(jù)采集器獲取100個(gè)待檢測(cè)數(shù)據(jù)點(diǎn),待檢測(cè)數(shù)據(jù)點(diǎn)的具體獲取方式 為:利用化urier基函數(shù)作為對(duì)應(yīng)的工具變量:護(hù)=^/??sin (>W,) + sinf sin以抓;;;)} 和// = Vlfcos(州叫+ cos(./,抓;0 + cos(./州/。},得到200個(gè)解釋變量,其中要求前五個(gè)解 釋變量(XI,拉,X3,X4,X5)是重要的。然后把解釋變量分為兩類:內(nèi)生解釋變量與外生解釋變 量。若X功內(nèi)生解釋變量則記為乃,若X功外生解釋變量則記為,假設(shè)式和義;分別滿足 下列兩式+ //, + 1)批+1)和乂; =/;', + //,+7,4-",巧中{e,ui,···,up}中每個(gè)變量都 是N(0,1),均值漂移參數(shù)向量n=(m, = 0,·.·,0),F(xiàn)=(Fl,..·,F(xiàn)p)τ和H=化l,..·,Hp)τ是Ξ維工具變量W=(Wl,W2,化)τ~化(0,I3)的一 個(gè)變換。按上述方式得到52個(gè)內(nèi)生解釋變量化,乂2而而,一,乂52),運(yùn)樣在重要的解釋變量 中(Xl,X2,X3)是內(nèi)生解釋變量,而(X4,X5)是外生解釋變量。獲得待檢測(cè)數(shù)據(jù)點(diǎn)后,畫出待檢 測(cè)數(shù)據(jù)點(diǎn)的散點(diǎn)圖,散點(diǎn)圖中90%-95%的數(shù)據(jù)點(diǎn)在同一直線附近的數(shù)據(jù)點(diǎn)用線性回歸模 型Υ =地+ε表示,系數(shù)參數(shù)向量中分量滿足β= (01,…,05) = (5,-4,7,-2,1.5),0j = 〇,6《j 《200。判斷線性回歸模型中生成的100個(gè)隨機(jī)樣本是否存在內(nèi)生解釋變量,其具體步驟為:
[0087] (1)給定解釋變量X,由線性回歸模型計(jì)算條件期望E( ε IX);
[0088] (2)由于數(shù)據(jù)的獲取過(guò)程可知解釋變量X與回歸誤差不是獨(dú)立的,因此條件期望Ε (ε IX)聲0,則線性回歸模型中存在內(nèi)生解釋變量。
[0089] 步驟二:檢測(cè)異常點(diǎn),其具體步驟為:
[0090] (1)將均值漂移參數(shù)向量η=(ηι,···,Γ?日,%,···,m日,化6,···,郵日)引入步驟(一)中的 線性回歸模型,構(gòu)造均值漂移模型,均值漂移模型表示為:
[0091] Υ=Χβ+η+ε (3)〇
[0092] (2)獲取工具變量向量W,由均值漂移模型得到對(duì)應(yīng)的條件矩模型:
[0093] E[g(Y,Xe+n) |w]=0 (4)
[0094] 其中,g(..)為已知的二元函數(shù),在本實(shí)施例中取g(tl,t2) = t廣t2。
[00M] (3)由B-樣條或化urier級(jí)數(shù)構(gòu)造工具變量向量W的變換的兩個(gè)不同的集:
[0096] F=(fi(W),...,fp(W))T (5)
[0097] H=化 i(W),...,hp(W))T (6)。
[0098] (4)根據(jù)條件矩模型和工具變量向量W的變換的兩個(gè)集F和Η構(gòu)造過(guò)識(shí)別條件:
[0099] E[g(Y,Xe+n)F]=0 (7)
[0100] E[g(Y,X0+ri)扣=0 (8)。
[0101] (5)引入均值漂移參數(shù)向量η中各分量的示性函數(shù)心=1,…,堿沖良據(jù)過(guò)識(shí)別條 件和均值漂移參數(shù)向量η中各分量的示性函數(shù)構(gòu)造融合廣義矩?fù)p失函數(shù)LfcmmU):
[0102]
[0103] 其中coji和c〇j2為給定的權(quán)。
[0104] 為了表達(dá)方便,令Vi(n) = (Fi(ri)T,出(ri)T)T,則融合廣義矩?fù)p失函數(shù)LfgmmU)的矩 (10) 陣形式為:[01051
[0106] 其中.'咐)=^&巧^1,'",巧,|,巧,;,''',巧,:^11,。'山)為均值漂移參數(shù)向量11中非零 分量對(duì)應(yīng)的標(biāo)記。
[0107] (6)引入均值漂移參數(shù)向量η的分量的懲罰函數(shù)ΡΑ(|ιυ|),其中懲罰函數(shù)Pa(.)有 多種選擇,考慮到SCAD懲罰函數(shù)滿足變量選擇的oracle性質(zhì),在本實(shí)施例中懲罰函數(shù)采用 SCAD懲罰函數(shù),其具體表達(dá)式為:
[0108]
,其 中,由貝葉斯觀點(diǎn)并結(jié)合實(shí)際經(jīng)驗(yàn)在實(shí)際執(zhí)行中參數(shù)a的值取為3.7。
[0109] (7)根據(jù)融合廣義矩?fù)p失函數(shù)LfgmmU)和均值漂移參數(shù)向量η的分量的懲罰函數(shù)Pa (I屯I )構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù)化GMM(ri):
[0110]
[0111] 其中Pa( ·)為懲罰函數(shù),參數(shù)λ為調(diào)整參數(shù)。
[0112] (8)利用BIC信息準(zhǔn)則選擇懲罰融合廣義矩目標(biāo)函數(shù)化GMM(ri)中最優(yōu)的調(diào)整參數(shù)λ。
[0113] (9)4
良示一個(gè)光滑核函數(shù),其中,F(xiàn)(t)為一個(gè)logistic累積分 布函數(shù),其表示式為:
[0114] (10)在利用光滑技術(shù)來(lái)近似示性函數(shù)時(shí),光滑參數(shù)h的值取為0.1,運(yùn)樣對(duì)于均值 漂移參數(shù)中所有分量分別利用光滑核函邀
來(lái)近似代替代替融合廣義 矩?fù)p失函數(shù)LfgmmU)中示性函數(shù)'進(jìn)而獲得光滑的融合廣義矩?fù)p失函數(shù)Lk。再結(jié)合關(guān)于 均值漂移參數(shù)η的懲罰函數(shù)進(jìn)而獲得光滑的懲罰融合廣義矩目標(biāo)函數(shù)化:
[0115]
(12)
[0116] (11)利用迭代坐標(biāo)下降法優(yōu)化光滑的融合廣義矩目標(biāo)函數(shù)化,對(duì)均值漂移參數(shù)向 量η進(jìn)行選擇和估計(jì),均值漂移參數(shù)向量η的估計(jì)々中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為 異常點(diǎn),通過(guò)檢驗(yàn)均值漂移參數(shù)向量η的估計(jì)々中非零的分量,完成異常點(diǎn)的檢測(cè)。具體執(zhí)行 結(jié)果為么:C =(9.8,化1,化'3,9.8,1〇. 2,1化巧^
[0117] 為了進(jìn)行比較,存在內(nèi)生解釋變量時(shí)傳統(tǒng)的異常點(diǎn)檢測(cè)方法W及W及基于懲罰最 小二乘的方法已經(jīng)基本失效。在此實(shí)施例中采用懲罰最小二乘方法來(lái)說(shuō)明,由懲罰最小二 乘方法得到的均值漂移參數(shù)的估計(jì)為巧=?-8Α-9.5,-7.4, -8.2,-9. !,化…,0).
[0118] 由本實(shí)施例的執(zhí)行結(jié)果可清楚地看到,當(dāng)存在內(nèi)生解釋變量時(shí)通常懲罰最小二乘 方法已經(jīng)不再是相合的,因此基于懲罰最小二乘的異常點(diǎn)檢測(cè)方法W及傳統(tǒng)的構(gòu)造檢驗(yàn)統(tǒng) 計(jì)量的異常點(diǎn)檢測(cè)方法不再有效。而從待檢測(cè)數(shù)據(jù)的均值規(guī)律出發(fā)結(jié)合關(guān)于均值漂移參數(shù) 的懲罰而得到懲罰融合廣義矩方法能成功地識(shí)別所有的異常點(diǎn),故本發(fā)明所提出的基于懲 罰融合廣義矩估計(jì)的異常點(diǎn)檢測(cè)方法有了大幅度地提高,而且比現(xiàn)存的異常點(diǎn)檢測(cè)方法有 更廣的使用范圍。
[0119] 在異常點(diǎn)所占總數(shù)據(jù)的比例分別為0.05和0.10的兩種情況下,分別執(zhí)行如下傳統(tǒng) 的異常點(diǎn)檢測(cè)方法:殘差(/',.),外學(xué)生化殘差(r〇,F(xiàn)檢驗(yàn)化),似然比檢驗(yàn)化Ri),t檢驗(yàn)(ti), W及Score檢驗(yàn)(SCO。為了比較本發(fā)明所提出的方法與傳統(tǒng)方法在異常點(diǎn)檢測(cè)中的表現(xiàn), 考慮下面Ξ個(gè)標(biāo)準(zhǔn):平均掩蓋概率即檢測(cè)到的真正正常點(diǎn)的比例(M),平均淹沒概率即正常 點(diǎn)被識(shí)別為異常點(diǎn)的比例(S),聯(lián)合識(shí)別率即0掩蓋模擬的比例(JD)。理想的情況應(yīng)該是 0,S>0 和 JD>0。
[0120] 在上述Ξ個(gè)標(biāo)準(zhǔn)下,圖4和圖5分別給出了本發(fā)明提出的方法化TOD)與傳統(tǒng)的六種 方法的結(jié)果。從上述圖中所示結(jié)果可W清楚地看到傳統(tǒng)方法需要構(gòu)造檢驗(yàn)統(tǒng)計(jì)量并求其分 布,而且只能依逐步的方式給出數(shù)據(jù)點(diǎn)異常情況,因此運(yùn)行時(shí)間較長(zhǎng)效率較低,更重要的 是,存在多個(gè)異常點(diǎn)時(shí)傳統(tǒng)方法在掩蓋和淹沒運(yùn)兩種現(xiàn)象下檢測(cè)精度很低。而本發(fā)明提出 的方法因?yàn)椴恍枰獦?gòu)造檢驗(yàn)統(tǒng)計(jì)量和求其分布,且只需一步地給出所有待檢測(cè)數(shù)據(jù)點(diǎn)的異 常點(diǎn)情況,因此大幅節(jié)省了運(yùn)行時(shí)間,更重要的是,存在多個(gè)異常點(diǎn)時(shí)基本不會(huì)受到掩蓋和 淹沒現(xiàn)象的影響,因此大幅提高了異常點(diǎn)檢測(cè)的精度。
[0121] 上述實(shí)施例用來(lái)解釋本發(fā)明,而不是對(duì)本發(fā)明進(jìn)行限制,在本發(fā)明的精神和權(quán)利 要求的保護(hù)范圍內(nèi),對(duì)本發(fā)明做出的任何修改和改變,都落入本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,其特征在于:含有以下步驟: (一) 利用數(shù)據(jù)采集工具采集待檢測(cè)數(shù)據(jù)點(diǎn),畫出待檢測(cè)數(shù)據(jù)點(diǎn)的散點(diǎn)圖,散點(diǎn) 圖中90%-95%的數(shù)據(jù)點(diǎn)在同一直線附近的數(shù)據(jù)點(diǎn)用線性回歸模型Υ = Χβ+ε表示,其中Y為 響應(yīng)變量所構(gòu)成的向量,X為解釋變量構(gòu)成的矩陣,ε為隨機(jī)誤差,滿足Ε ( ε )= 0, 沒吻)=σ2 = (g,…,,判斷線性回歸模型Υ=Χβ+ε中是否存在內(nèi)生解釋變量; (二) 當(dāng)線性回歸模型中不存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的方差規(guī)律,構(gòu)造 稀疏參數(shù)向量γ =1-〇4,構(gòu)造加權(quán)最小二乘損失函數(shù),由稀疏參數(shù)向量γ中分量的懲罰函 數(shù)結(jié)合加權(quán)最小二乘損失函數(shù)構(gòu)造懲罰加權(quán)最小二乘目標(biāo)函數(shù),優(yōu)化關(guān)于稀疏參數(shù)向量γ 的懲罰加權(quán)最小二乘目標(biāo)函數(shù),進(jìn)行稀疏參數(shù)向量γ的選擇和估計(jì),稀疏參數(shù)向量γ的估 計(jì)中不等于零的分量所對(duì)應(yīng)的方差分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常點(diǎn), 通過(guò)檢驗(yàn)異方差,完成異常點(diǎn)的檢測(cè); (三) 當(dāng)線性回歸模型中存在內(nèi)生解釋變量時(shí),依據(jù)采集的數(shù)據(jù)點(diǎn)的均值規(guī)律,構(gòu)造均 值漂移模型7 = Χβ+η+ε,其中誤差項(xiàng)ε~Ν(0,〇2Ι),均值漂移參數(shù)向量ri=(ru,…,ηη) Τ;根據(jù) 均值漂移參數(shù)向量η構(gòu)造融合廣義矩?fù)p失函數(shù),由融合廣義矩?fù)p失函數(shù)結(jié)合均值漂移參數(shù) 向量η的分量的懲罰函數(shù)構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù),優(yōu)化關(guān)于均值漂移參數(shù)向量η的懲 罰融合廣義矩目標(biāo)函數(shù),進(jìn)行均值漂移參數(shù)向量η的選擇和估計(jì),均值漂移參數(shù)向量η的估 計(jì)#中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為異常點(diǎn),通過(guò)檢驗(yàn)均值漂移參數(shù)向量η的估計(jì)冷 中非零的分量,完成異常點(diǎn)的檢測(cè)。2. 根據(jù)權(quán)利要求1所述的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,其特征在于:步驟(一) 中,判斷線性回歸模型中是否存在內(nèi)生解釋變量的具體步驟為: (1) 給定解釋變量X,由線性回歸模型計(jì)算條件期望Ε( ε | X); (2) 判斷條件期望Ε(ε |Χ)是否為零,若條件期望Ε(ε |Χ)為零,則線性回歸模型中不存在 內(nèi)生解釋變量,若條件期望Ε( ε | X)不為零,則線性回歸模型中存在內(nèi)生解釋變量。3. 根據(jù)權(quán)利要求1所述的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,其特征在于:步驟(二) 中,當(dāng)不存在內(nèi)生解釋變量時(shí),檢測(cè)異常點(diǎn)的具體步驟為: (1)定義標(biāo)準(zhǔn)方差向量為σ = (〇1,···,ση)Τ,標(biāo)準(zhǔn)差向量σ=(σι,···,011)^905^-95%的分 量為1,只有5%-10%的分量不為1; ⑵記Ι = (1,···,1)Τ,σ-'(ΙΜ,···,1/ση)τ,造稀疏參數(shù)向 量γ =1-〇'稀疏參數(shù)向量γ =1-(^中90%-95%的分量為0,只有5%-10%的分量不為0;(5)由加權(quán)最小二乘損失函數(shù)結(jié)合稀疏參數(shù)向量γ中分量的懲罰函數(shù)構(gòu)造懲罰加權(quán)最 小二乘目標(biāo)函數(shù)9(β,σ;λ):式中,β為討厭參數(shù),討厭參數(shù)β用其加權(quán)最小二乘估計(jì)#代替;λ表示調(diào)整參數(shù);(7) 利用BIC信息準(zhǔn)則選擇懲罰加權(quán)最小二乘目標(biāo)函數(shù)〇(β,σ;λ)中最優(yōu)的調(diào)整參數(shù)λ; (8) 利用ΚΚΤ條件將懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化轉(zhuǎn)化為鞍點(diǎn)系統(tǒng),利用共輒梯度 算法求解懲罰加權(quán)最小二乘目標(biāo)函數(shù)的優(yōu)化,對(duì)稀疏參數(shù)向量γ進(jìn)行選擇和估計(jì);,獲得標(biāo)準(zhǔn)方差σ的選擇和估計(jì),稀疏參數(shù)向量γ 的估計(jì)中不等于零的分量所對(duì)應(yīng)的標(biāo)準(zhǔn)方差σ的分量為異方差,即標(biāo)準(zhǔn)方差σ的估計(jì)6中不 等于1的分量為異方差,異方差所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)為異常點(diǎn),通過(guò)檢驗(yàn)異方差,完成異常 點(diǎn)檢測(cè)。4.根據(jù)權(quán)利要求1所述的基于懲罰回歸的快速異常點(diǎn)檢測(cè)方法,其特征在于:步驟(三) 中,當(dāng)存在內(nèi)生解釋變量時(shí),檢測(cè)異常點(diǎn)的具體步驟為: (1) 將均值漂移參數(shù)向量η引入步驟(一)中的線性回歸模型,構(gòu)造均值漂移模型,均值 漂移模型表示為: Υ = Χβ+η+ε (3) 其中,誤差項(xiàng)ε~Ν(0,σ2Ι),均值漂移參數(shù)向量q=(runn)T; (2) 獲取工具變量向量W,由均值漂移模型得到對(duì)應(yīng)的條件矩模型: E[g(Y,Xf3+n)|W]=〇 (4) 其中,g( ·,·)為已知的二元函數(shù),取g(tl,t2) = tl_t2; (3) 由B-樣條或Fourier級(jí)數(shù)構(gòu)造工具變量向量W的變換的兩個(gè)不同的集: FKf^W),…,fP(W))T (5) H=(hi(ff),---,hP(ff))T (6); (4) 根據(jù)條件矩模型和工具變量向量W的變換的兩個(gè)集構(gòu)造過(guò)識(shí)別條件: E[g(Y,Xf3+n)F]=0 (7) E[g(Y,Xi3+n)H]=0 (8); (5) 引入均值漂移參數(shù)向量ri中各分量的示性函數(shù),根據(jù)過(guò)識(shí)別條件和均值漂移參數(shù)向 量η各分量的示性函數(shù)構(gòu)造融合廣義矩?fù)p失函數(shù)L FCMM(n):其中,ω 和ω j2為給定的權(quán),為了表達(dá)方便,令Vi(n) = (Fi(n)T,Hi(n)T)T,則融合廣義矩 損失函數(shù)LFCMM(n)的矩陣形式為:其中,= 氣P···,氣Μ%,…,氣:」,(11,…,lr)為均值漂移參數(shù)向量η中非零分 量對(duì)應(yīng)的標(biāo)記; (6) 引入均值漂移參數(shù)向量II中各分量的懲罰函數(shù)ρλ( I ru I ); (7) 根據(jù)融合廣義矩?fù)p失函數(shù)LfcmmU)和均值漂移參數(shù)向量II中各分量的懲罰函數(shù)ρλ( ml)構(gòu)造懲罰融合廣義矩目標(biāo)函數(shù)QFGMM(n):其中,Ρλ( ·)為懲罰函數(shù),參數(shù)λ為調(diào)整參數(shù); (8) 利用BIC信息準(zhǔn)則選擇懲罰融合廣義矩目標(biāo)函數(shù)QfgmmU)中最優(yōu)的調(diào)整參數(shù)λ;_表不一個(gè)光滑核函數(shù),其中,F(xiàn)(t)為一個(gè)二次可微的累積分布函數(shù); (10) ihn4〇+,光滑核函數(shù) 收斂于故采用光滑技術(shù)用光滑核函數(shù) 代替融合廣義矩?fù)p失函數(shù)LFCMM(n)中示性函數(shù)?丨'進(jìn)而獲得光滑的融合廣義矩?fù)p失函數(shù) Lk;再結(jié)合關(guān)于均值漂移參數(shù)η的懲罰函數(shù)進(jìn)而獲得光滑的懲罰融合廣義矩目標(biāo)函數(shù)QK:(11) 利用迭代坐標(biāo)下降法優(yōu)化光滑的融合廣義矩目標(biāo)函數(shù)QK,對(duì)均值漂移參數(shù)向量η進(jìn) 行選擇和估計(jì),均值漂移參數(shù)向量η的估計(jì)力中非零的分量所對(duì)應(yīng)的待檢測(cè)數(shù)據(jù)點(diǎn)為異常 點(diǎn),通過(guò)檢驗(yàn)均值漂移參數(shù)向量η的估計(jì)冷中非零的分量,完成異常點(diǎn)的檢測(cè)。
【文檔編號(hào)】G06F17/18GK105824785SQ201610141620
【公開日】2016年8月3日
【申請(qǐng)日】2016年3月11日
【發(fā)明人】宋允全, 張青華, 漸令
【申請(qǐng)人】中國(guó)石油大學(xué)(華東)