本發(fā)明涉及一種基于PDBSCAN算法的雷電臨近趨勢(shì)預(yù)報(bào)方法,屬于雷電預(yù)報(bào)領(lǐng)域。
背景技術(shù):
:雷電是一種伴隨著強(qiáng)光和巨大轟鳴的自然現(xiàn)象。隨著科學(xué)技術(shù)的飛快發(fā)展,人們對(duì)雷電的了解不斷加深,對(duì)它的認(rèn)識(shí)也由敬畏轉(zhuǎn)向理性。地閃的發(fā)生過(guò)程主要是云層中帶電粒子形成的梯級(jí)先導(dǎo)下行,通過(guò)連接過(guò)程形成閃電通道,而后再發(fā)生多次回?fù)?。它的外部表現(xiàn)為電荷發(fā)生中和作用時(shí)所釋放出的大量光、熱,空氣被瞬間加熱的程度驚人,閃電通道內(nèi)可達(dá)30000攝氏度的高溫。強(qiáng)烈的電流在空氣中通過(guò)時(shí),造成沿途的空氣突然膨脹,同時(shí)推擠周圍的空氣,形成的沖擊波則是雷電之所以發(fā)出巨大轟鳴的原因。雷電發(fā)生的宏觀因素主要有:垂直層結(jié)構(gòu)不穩(wěn)定及強(qiáng)烈旺盛的對(duì)流、合適的空氣濕度、抬升觸發(fā)。微觀上來(lái)說(shuō),對(duì)于雷電的起電機(jī)制尚無(wú)定論,但各種猜想都有很廣泛的適用范圍和理論基礎(chǔ),如:溫差起電、雨滴破碎起電和摩擦起電等。據(jù)統(tǒng)計(jì),全球每年約出現(xiàn)1600萬(wàn)次雷電,每天平均約發(fā)生44,000次。雷電的水平尺度變化范圍很大,可以從幾千米到幾百千米,垂直厚度大多在10km以上。數(shù)據(jù)挖掘技術(shù)和地理信息系統(tǒng)技術(shù)作為信息技術(shù)中的兩個(gè)重要技術(shù),在處理氣象資料方面有著極其重要的地位和作用。數(shù)據(jù)挖掘(DataMining)指在數(shù)據(jù)庫(kù)中,綜合利用統(tǒng)計(jì)學(xué)方法、模式識(shí)別技術(shù)、人工智能方法、神經(jīng)網(wǎng)絡(luò)技術(shù)等理論,吸取新穎的、可信的、人們感興趣的和最終可理解的知識(shí),從而揭示出蘊(yùn)含在數(shù)據(jù)中的規(guī)律、內(nèi)在聯(lián)系和發(fā)展趨勢(shì)。地理信息系統(tǒng)技術(shù)可以將氣象數(shù)據(jù)所具有的空間特征、屬性特征及時(shí)間特征等特點(diǎn)較好地表現(xiàn)出來(lái),是實(shí)現(xiàn)數(shù)據(jù)管理的有效手段。對(duì)雷電的臨近預(yù)測(cè)方法有很多,但因?yàn)槔纂娋哂须S機(jī)性、局域性、分散性、突發(fā)性、瞬時(shí)性及三維性這些鮮明的特點(diǎn),使得不同的雷電預(yù)測(cè)方法都有自己最適用的環(huán)境。運(yùn)用數(shù)據(jù)挖掘中的聚類算法,結(jié)合GIS平臺(tái),針對(duì)雷電自身特點(diǎn),對(duì)算法進(jìn)行優(yōu)化,可以做到快速、便捷、準(zhǔn)確地計(jì)算,并且滿足臨近趨勢(shì)預(yù)報(bào)中的相關(guān)要求,在雷電臨近預(yù)報(bào)工作中具有實(shí)際的意義。基于傳統(tǒng)DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法具有對(duì)異常數(shù)據(jù)抗干擾性較好,算法穩(wěn)定等特點(diǎn)。但是,當(dāng)應(yīng)用到對(duì)于閃電數(shù)據(jù)的聚類時(shí)具有以下兩個(gè)明顯的局限:(1)對(duì)于DBSCAN算法的地閃半徑鄰域Eps和最小數(shù)目閾值MinPts的賦值方式。在不同天氣尺度下,閃電落點(diǎn)區(qū)域可能存在變密度的情況,即當(dāng)聚類得到的各雷電簇組內(nèi)數(shù)據(jù)間的距離差異很大的情況。這點(diǎn)使得傳統(tǒng)DBSCAN算法很難處理,如果單憑經(jīng)驗(yàn)賦值準(zhǔn)確性難以衡量;(2)存儲(chǔ)結(jié)構(gòu)繁瑣,占用較大的存儲(chǔ)空間。在進(jìn)行分時(shí)段的地閃聚類前,需要建立所有數(shù)據(jù)的R*樹(shù)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于PDBSCAN算法的雷電臨近趨勢(shì)預(yù)報(bào)方法,提出對(duì)參數(shù)賦值進(jìn)行優(yōu)化和提高運(yùn)行速度的PDBSCAN聚類算法,通過(guò)該算法對(duì)等時(shí)段的雷電數(shù)據(jù)進(jìn)行聚類,找出最大核心地閃簇,通過(guò)計(jì)算其空間中心,結(jié)合多項(xiàng)式擬合的方法,預(yù)測(cè)下一時(shí)段的核心地閃空間中心。整個(gè)預(yù)測(cè)方法起到了提高聚類精度和提高運(yùn)行速度的目的。本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:本發(fā)明提供基于PDBSCAN算法的雷電臨近趨勢(shì)預(yù)報(bào)方法,其特征在于,具體步驟如下:步驟A,利用閃電定位系統(tǒng)探測(cè)并記錄地閃數(shù)據(jù),并對(duì)記錄的地閃數(shù)據(jù)進(jìn)行預(yù)處理,劃分為各等時(shí)段的地閃數(shù)據(jù)集;步驟B,使用PDBSCAN聚類算法求得各等時(shí)段的最大核心地閃簇以及各最大核心地閃簇的空間中心坐標(biāo);步驟C,對(duì)步驟B所求得的最大核心地閃簇的空間中心坐標(biāo)進(jìn)行多項(xiàng)式擬合,再根據(jù)擬合的多項(xiàng)式求得下一等時(shí)段的雷電最大核心地閃簇的空間中心坐標(biāo),從而實(shí)現(xiàn)雷電臨近趨勢(shì)的預(yù)報(bào)。作為本發(fā)明的進(jìn)一步優(yōu)化方案,步驟A中對(duì)記錄的地閃數(shù)據(jù)進(jìn)行預(yù)處理,劃分為各等時(shí)段的地閃數(shù)據(jù)集,具體為:步驟A-1,選取首次地閃發(fā)生后持續(xù)發(fā)生20分鐘的地閃的落點(diǎn)坐標(biāo)數(shù)據(jù),生成數(shù)據(jù)集;步驟A-2,將A-1所生成的數(shù)據(jù)集進(jìn)行等時(shí)段劃分,得到相應(yīng)的等時(shí)段地閃數(shù)據(jù)集。作為本發(fā)明的進(jìn)一步優(yōu)化方案,步驟B中使用PDBSCAN聚類算法求得各等時(shí)段的最大核心地閃簇以及各最大核心地閃簇的空間中心坐標(biāo),具體為:步驟B-1,根據(jù)DBSCAN算法,對(duì)步驟A中得到的各等時(shí)段的地閃數(shù)據(jù)集求得相應(yīng)的各等時(shí)段的k-dist圖;步驟B-2,根據(jù)B-1得到的k-dist圖,觀察各等時(shí)段的地閃數(shù)據(jù)的密度分異,若為單一密度,則找出曲線斜率最先發(fā)生突變的點(diǎn),以該點(diǎn)對(duì)應(yīng)的k-dist值為該等時(shí)段的地閃數(shù)據(jù)集的鄰域Eps;若出現(xiàn)多個(gè)密度層次的情況,則根據(jù)該等時(shí)段的地閃數(shù)據(jù)的k-dist圖求得對(duì)應(yīng)的DK圖,并根據(jù)DK圖分析確定鄰域Eps;步驟B-3,設(shè)定MinPts,遍歷各等時(shí)段的地閃數(shù)據(jù)集,依次搜索每個(gè)地閃點(diǎn)的Eps鄰域,對(duì)各等時(shí)段的地閃數(shù)據(jù)進(jìn)行聚類計(jì)算,選取最優(yōu)聚類結(jié)果:步驟B-4,根據(jù)B-3的最優(yōu)聚類結(jié)果,獲得各等時(shí)段的最大核心地閃簇,并通過(guò)簇內(nèi)所有成員的經(jīng)緯度坐標(biāo),求得各最大核心地閃簇的空間中心點(diǎn)坐標(biāo)。作為本發(fā)明的進(jìn)一步優(yōu)化方案,步驟B中還包括:用IDBSCAN中構(gòu)建鄰接表的內(nèi)存思想代替DBSCAN中R*樹(shù)。作為本發(fā)明的進(jìn)一步優(yōu)化方案,步驟B-1中,根據(jù)DBSCAN算法,對(duì)步驟A中得到的各等時(shí)段的地閃數(shù)據(jù)集求得相應(yīng)的各等時(shí)段的k-dist圖,具體為:即對(duì)步驟A中得到的各時(shí)段的地閃數(shù)據(jù)集內(nèi)所有數(shù)據(jù),求其到k個(gè)數(shù)據(jù)的距離,并將得到的距離按從低到高的順序排列,即得到相應(yīng)的k-dist圖。作為本發(fā)明的進(jìn)一步優(yōu)化方案,步驟B-2中使用基于可變密度且?guī)в性肼晳?yīng)用的空間聚類VDBSCAN算法,根據(jù)該時(shí)段的地閃數(shù)據(jù)的k-dist圖求得對(duì)應(yīng)的DK圖,具體為:提取出現(xiàn)變密度的數(shù)據(jù)集,將其在k-dist圖上Y軸所對(duì)應(yīng)的數(shù)據(jù)依次從第二項(xiàng)開(kāi)始,后一項(xiàng)與前一項(xiàng)做差,即得到對(duì)應(yīng)的DK圖。本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:本發(fā)明針對(duì)傳統(tǒng)DBSCAN算法對(duì)雷電預(yù)報(bào)的不足,從參數(shù)賦值選擇和優(yōu)化內(nèi)存結(jié)構(gòu)這兩方面,將VDBSCAN算法和IDBSCAN算法進(jìn)行復(fù)合,用復(fù)合后提出的PDBSCAN算法對(duì)雷電數(shù)據(jù)進(jìn)行等時(shí)段聚類。該算法不僅考慮了雷電簇內(nèi)部密度變化單一的情況,也克服DBSCAN算法對(duì)變密度情況下易出錯(cuò)的情況,完善了對(duì)雷電可能出現(xiàn)的各類空間分布形態(tài)的參數(shù)選取。同時(shí),較好地優(yōu)化了算法運(yùn)行時(shí)的存儲(chǔ)結(jié)構(gòu),提高了運(yùn)算效率。通過(guò)對(duì)各等時(shí)段下的最大雷電簇的空間中心進(jìn)行線性擬合,求得下一時(shí)刻的雷電密度最大發(fā)生區(qū)的空間坐標(biāo)。在實(shí)際雷電天氣過(guò)程的檢驗(yàn)中,預(yù)測(cè)值與下一刻的最大雷電簇空間中心相差約3.114km,證明了本方法的有效性。從運(yùn)行效率、聚類效果和預(yù)測(cè)精度三方面與前人的相關(guān)算法進(jìn)行了對(duì)比,結(jié)果表明本發(fā)明所提出的方法在一定程度上對(duì)雷電短時(shí)臨近趨勢(shì)預(yù)測(cè)起到了優(yōu)化的作用。附圖說(shuō)明圖1是本發(fā)明的方法流程圖。圖2是k-dist示意圖。圖3是根據(jù)k-dist圖生成相應(yīng)的DK圖。圖4是地閃鄰接表。圖5是基于PDBSCAN算法的雷電臨近預(yù)報(bào)模型流程圖。圖6是等時(shí)段數(shù)據(jù)集k-dist圖,其中,(a)是13:05至13:10數(shù)據(jù)集,(b)是13:10至13:15數(shù)據(jù)集,(c)是13點(diǎn)15至13:20數(shù)據(jù)集,(d)是13:20至13:25數(shù)據(jù)集。圖7是變密度情況13:25至13:30的k-dist圖。圖8是變密度情況13:25至13:30的DK圖。圖9是13:05至13:30等時(shí)段聚類分析圖,其中,(a)是13:05至13:10淮安地區(qū)地閃聚類,(b)是13:10至13:15淮安地區(qū)地閃聚類,(c)是13:15至13:20淮安地區(qū)地閃聚類,(d)是13:20至13點(diǎn)25淮安地區(qū)地閃聚類,(e)是13:25至13:30淮安地區(qū)地閃聚類。圖10是地閃落點(diǎn)預(yù)測(cè)圖。圖11是VDBSCAN與PDBSCAN運(yùn)算時(shí)間對(duì)比圖。圖12是13:10至13:15IDBSCAN聚類圖。具體實(shí)施方式下面結(jié)合附圖以及具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明:本發(fā)明提供一種基于PDBSCAN算法的雷電臨近趨勢(shì)預(yù)報(bào)方法,如圖1所示,針對(duì)傳統(tǒng)DBSCAN算法對(duì)雷電預(yù)報(bào)的不足,從參數(shù)賦值選擇和優(yōu)化內(nèi)存結(jié)構(gòu)這兩方面,將VDBSCAN算法和IDBSCAN算法進(jìn)行復(fù)合,用復(fù)合后提出的PDBSCAN算法對(duì)雷電數(shù)據(jù)進(jìn)行等時(shí)段聚類,通過(guò)對(duì)各等時(shí)段下的最大雷電簇的空間中心進(jìn)行線性擬合,求得下一時(shí)刻的雷電密度最大發(fā)生區(qū)的空間坐標(biāo)。該算法不僅考慮了雷電簇內(nèi)部密度變化單一的情況,也克服DBSCAN算法對(duì)變密度情況下易出錯(cuò)的情況,完善了對(duì)雷電可能出現(xiàn)的各類空間分布形態(tài)的參數(shù)選取。同時(shí),較好地優(yōu)化了算法運(yùn)行時(shí)的存儲(chǔ)結(jié)構(gòu),提高了運(yùn)算效率。對(duì)雷電進(jìn)行預(yù)測(cè)一直是氣象預(yù)報(bào)鄰域的研究熱點(diǎn),國(guó)內(nèi)外專家、學(xué)者提出的基于不同資料和方法的預(yù)報(bào)模型形式多樣。由于雷電是中小尺度天氣系統(tǒng)影響下的天氣現(xiàn)象,其落點(diǎn)在空間上的密度分布具有高連通性的特點(diǎn),且雷電發(fā)生的核心密度區(qū)隨時(shí)間的推移發(fā)生變化。所以,本發(fā)明以密度聚類思想為理論基礎(chǔ),對(duì)傳統(tǒng)DBSCAN算法進(jìn)行復(fù)合優(yōu)化,提出PDBSCAN算法。通過(guò)對(duì)聚類后的最大密度地閃簇的空間中心點(diǎn)的移動(dòng)路徑進(jìn)行擬合,從而預(yù)報(bào)下一時(shí)刻的核心地閃位置。由于雷電發(fā)生時(shí),局部地區(qū)的雷電發(fā)生位置隨時(shí)間的變化而改變。在進(jìn)行DBSCAN聚類前需要給定的兩個(gè)參數(shù)分別是地閃鄰域Eps和閾值MinPts,即表示為在給定鄰域Eps內(nèi)的閃電數(shù)量不少于給定閾值MinPts。下面給出算法中涉及的一些定義:(1)如果對(duì)象的Eps鄰域至少包含最小數(shù)目MinPts的對(duì)象,則稱該對(duì)象是核心地閃點(diǎn);(2)給定一個(gè)對(duì)象集合D,如果P是在q的Eps--鄰域內(nèi),而q是一個(gè)核心對(duì)象,則稱對(duì)象P從對(duì)象q出發(fā)是直接密度可達(dá)的;(3)如果存在一個(gè)對(duì)象鏈p1,p2,……,Pn,P1=q,Pn=P,對(duì)于pi∈D(I≤i≤n),pi+1是從Eps關(guān)于Pi和MinPts直接密度可達(dá)的,則稱對(duì)象P從對(duì)象q關(guān)于Eps和MinPts密度可達(dá)(density-reachable),這種關(guān)系是非對(duì)稱關(guān)系;(4)如果對(duì)象集合D中存在一個(gè)對(duì)象o,使得對(duì)象P和q是從Eps關(guān)于和MinPts密度可達(dá)的,對(duì)象P和q關(guān)于和MinPts密度相連(density-connected),這種關(guān)系是對(duì)稱關(guān)系;(5)找到密度可達(dá)的最大密度相連對(duì)象的集合。不在任何簇的對(duì)象則被認(rèn)為是噪聲點(diǎn)。傳統(tǒng)DBSCAN算法具有對(duì)異常數(shù)據(jù)抗干擾性較好,算法穩(wěn)定等特點(diǎn)。但是,當(dāng)應(yīng)用到對(duì)于閃電數(shù)據(jù)的聚類時(shí)具有以下兩個(gè)明顯的局限:(1)對(duì)于DBSCAN算法的Eps和MinPts的賦值方式。在不同天氣尺度下,閃電落點(diǎn)區(qū)域可能存在變密度的情況,即當(dāng)聚類得到的各雷電簇組內(nèi)數(shù)據(jù)間的距離差異很大的情況。這點(diǎn)使得傳統(tǒng)DBSCAN算法很難處理,如果單憑借經(jīng)驗(yàn)賦值準(zhǔn)確性難以衡量。(2)存儲(chǔ)結(jié)構(gòu)繁瑣,占用較大的存儲(chǔ)空間。在進(jìn)行分時(shí)段的地閃聚類前,需要建立所有數(shù)據(jù)的R*樹(shù)。本發(fā)明中,首先對(duì)于Eps的賦值問(wèn)題,以VDBSCAN(基于可變密度且?guī)в性肼晳?yīng)用的空間聚類,VariedDensityBasedSpatialClusteringofApplicationswithNoise)算法所采用的參數(shù)選定方法對(duì)其進(jìn)行優(yōu)化。即,先對(duì)各時(shí)段的雷電空間聚類數(shù)據(jù)做出相應(yīng)的k-dist曲線。各時(shí)段k-dist曲線繪制是通過(guò)做出閃電聚類集中每一個(gè)對(duì)象的K個(gè)最臨近距離(本發(fā)明中K以常用參數(shù)4),通過(guò)查找每個(gè)數(shù)據(jù)集所產(chǎn)生的k-dist圖中斜率最先發(fā)生突變的點(diǎn),以該突變點(diǎn)的值為本數(shù)據(jù)集的鄰域Eps。如圖2所示,A曲線是在聚類數(shù)據(jù)沒(méi)有變密度時(shí)的理想曲線,圖中曲線斜率最早發(fā)生突變的點(diǎn)所對(duì)應(yīng)的值即可設(shè)為Eps。當(dāng)進(jìn)行空間聚類的地閃集合發(fā)生變密度情況時(shí),如圖2中B曲線所示,a、c、e簇間密度穩(wěn)定,但在b、d、f時(shí)曲線斜率陡升。此時(shí)則需要根據(jù)k-dist圖生成相應(yīng)的DK圖,如圖3所示。將k-dist圖中相鄰兩點(diǎn)PM、PM+1的k-dist差定義為DK。取前一定比例的DK值計(jì)算平均DK值A(chǔ)ve(P%),該做法是為了盡量排除密度轉(zhuǎn)折線和異常點(diǎn)曲線上的點(diǎn)。給定閾值Y,求得以Ave(p%)為中心閾值范圍,及Ave(p%)±Y,并將其作為點(diǎn)DK值的標(biāo)準(zhǔn)范圍。然后根據(jù)超出閾值范圍的數(shù)據(jù)點(diǎn)所在的曲線性質(zhì)(該點(diǎn)在k-dist圖上處于平緩曲線還是密度轉(zhuǎn)折曲線),找出對(duì)應(yīng)的半徑范圍,生成一組參考半徑值,最后分別生成相應(yīng)的聚類結(jié)果,進(jìn)而通過(guò)比較選擇最優(yōu)聚類結(jié)果。其次,針對(duì)聚類前需要對(duì)每個(gè)數(shù)據(jù)集構(gòu)造R*樹(shù),操作復(fù)雜耗時(shí),影響算法工作效率的問(wèn)題,本文采用IDBSCAN算法中根據(jù)圖論的思想以鄰接表替換R*樹(shù)的思想對(duì)該問(wèn)題進(jìn)行優(yōu)化。如圖4所示,鄰接表的數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單直觀,且占用內(nèi)存較少?;砑捌滏湵砉餐M成一個(gè)鄰接表,基表表示該時(shí)段內(nèi)按時(shí)間順序所有的地閃數(shù)組pi,而其后的鏈表表示pi在Eps范圍內(nèi)的所有地閃。例如,圖4中的第1行的第1個(gè)元素代表第1個(gè)雷電簇,而該地閃在閾值Eps范圍內(nèi)有4,2,1這3起地閃事件。第10行則代表噪聲點(diǎn)。本發(fā)明針對(duì)傳統(tǒng)DBSCAN算法用于雷電空間聚類的兩點(diǎn)問(wèn)題,將VDBSCAN算法和IDBSCAN算法中的優(yōu)勢(shì)模塊進(jìn)行復(fù)合,提出了復(fù)合后的基于密度的聚類算法PDBSCAN,如圖5所示,該算法的復(fù)合過(guò)程以DBSCAN算法設(shè)計(jì)的根本思想為基礎(chǔ),同時(shí)也滿足有關(guān)數(shù)據(jù)結(jié)構(gòu)的規(guī)范,具體為::步驟1:數(shù)據(jù)預(yù)處理。建立空間閃電聚類屬性數(shù)據(jù)集W,并為其增加聚類結(jié)果字段ID(整型),聚類結(jié)果ID初始值為零;定義地閃數(shù)據(jù)的搜索集S,臨時(shí)檢索結(jié)果存放于S中。步驟2:生成各數(shù)據(jù)集的k-dist圖,若圖像所示該數(shù)據(jù)集為單一密度趨勢(shì),則將該圖中斜率突變點(diǎn)的對(duì)應(yīng)的y數(shù)值定義為Eps。如果出現(xiàn)了多個(gè)密度層次,即變密度的情況,則依據(jù)k-dist圖生成DK圖。通過(guò)對(duì)DK圖的分析確定Eps。本發(fā)明中,另一參數(shù)MinPts按照最低代入值代入進(jìn)行聚類計(jì)算,MinPts=2。步驟3:遍歷W,依次搜索每個(gè)地閃點(diǎn)的Eps鄰域,并為該點(diǎn)建立鄰接表存儲(chǔ)鄰域內(nèi)所有地閃數(shù)據(jù)點(diǎn)。步驟4:遍歷W,依次將每個(gè)地閃點(diǎn)作為初始種子點(diǎn)[74]進(jìn)行考察,具體如下步驟:(1)對(duì)于地閃點(diǎn)pi,如果ID為零,則搜索其鄰接表;如果鄰接表鏈表中地閃事件數(shù)目超過(guò)MinPts,則點(diǎn)pi為核心地閃點(diǎn),將其ID設(shè)置為cluster,同時(shí)將pi的鄰接表包含的所有地閃存入S中;(2)遍歷S,將每個(gè)地閃點(diǎn)作為種子點(diǎn)進(jìn)行考察,對(duì)于點(diǎn)qi,如果ID為零,搜索其鄰接表,如果鄰接表中鄰域地閃數(shù)目超過(guò)MinPts,則qi也是個(gè)核心點(diǎn),同時(shí)它是點(diǎn)pi的直接密度可達(dá)點(diǎn),與pi屬于同一類,將qi的ID設(shè)置為cluster;否則qi為邊界點(diǎn),但qi的ID也設(shè)為cluster。如果qi是核心地閃點(diǎn),點(diǎn)o存在于qi鄰接表中并且o不屬于S,則將點(diǎn)o存入S中。最后將點(diǎn)qi從S中刪除;(3)搜索S中的下一個(gè)地閃點(diǎn),若S非空,則執(zhí)行步驟(2)。步驟5:考察地閃數(shù)據(jù)集W中的下一個(gè)點(diǎn),并將cluster加1,執(zhí)行步驟3,直至遍歷完數(shù)據(jù)集。步驟6:刪除地閃搜索集S。步驟7:找出各時(shí)段的相對(duì)最大地閃簇,計(jì)算其空間中心坐標(biāo),利用最小二乘多項(xiàng)式對(duì)各時(shí)段空間中心坐標(biāo)進(jìn)行曲線擬合。實(shí)施例本發(fā)明實(shí)施例選取2009年7月6日13:05至13:35分發(fā)生在江蘇省淮安市雷暴天氣實(shí)例數(shù)據(jù)??臻g尺度上以經(jīng)度變化范圍為118°12ˊ00"E~119°36ˊ30"E,緯度變化范圍為32°43ˊ00"N~34°06ˊ00"N,該時(shí)段總計(jì)發(fā)生雷電1478條,平均強(qiáng)度31.78kA。將上述數(shù)據(jù)在時(shí)間尺度上等分為每5分鐘為一個(gè)間隔來(lái)劃分?jǐn)?shù)據(jù)集,如表1所示。表1等間隔閃電統(tǒng)計(jì)信息ID開(kāi)始時(shí)間結(jié)束時(shí)間閃電發(fā)生次數(shù)113:0513:10433213:1013:15390313:1513:20308413:2013:25200513:2513:30147首先按照PDBSCAN算法的流程,對(duì)選取好的數(shù)據(jù)集做出對(duì)應(yīng)的k-dist圖,觀察由數(shù)據(jù)集內(nèi)各點(diǎn)生成的曲線的變化趨勢(shì),找出每個(gè)數(shù)據(jù)集所對(duì)應(yīng)的密度層次,若出現(xiàn)若干個(gè)密度層次,則依據(jù)該數(shù)據(jù)集的k-dist圖生成相應(yīng)的DK圖,確定進(jìn)行聚類的鄰域Eps。具體結(jié)果如下:由圖6中(a)至(d)可知,用于檢驗(yàn)的數(shù)據(jù)集中,前四個(gè)等時(shí)段數(shù)據(jù)點(diǎn)生成的k-dist圖基本為一條平緩的曲線。這說(shuō)明,前4個(gè)5分鐘,各聚類簇為單一密度數(shù)據(jù)集。此時(shí),可以直接對(duì)照生成的k-dist中的曲線,找出最先出現(xiàn)曲線斜率陡變的點(diǎn),將該點(diǎn)的縱坐標(biāo)對(duì)應(yīng)值設(shè)置為用于本數(shù)據(jù)集聚類的Eps。其中,2009年7月6日13:05分至13:10分的Eps=0.06;13:10分至13:15分的Eps=0.04;13:15至13:20分的Eps=0.03;13:20至13點(diǎn)25分的Eps=0.06。這與按經(jīng)驗(yàn)賦值相比,將強(qiáng)雷暴天氣下的Eps設(shè)為8km(即在基于地理坐標(biāo)聚類下為0.08),存在較大出入。如圖7所示,在本次雷暴發(fā)生的第5個(gè)5分鐘,即13:25分至13:30分,此時(shí)的雷電數(shù)據(jù)生成的k-dist圖存在變密度現(xiàn)象,曲線表現(xiàn)出明顯的兩個(gè)密度層次。因此,根據(jù)k-dist圖做出該時(shí)段對(duì)應(yīng)的DK圖,如圖8所示。本發(fā)明取前90%的DK值計(jì)算平均DK值A(chǔ)ve(90%),得出Ave=0.00787,給定閾值Y=0.008,則點(diǎn)DK值的標(biāo)準(zhǔn)范圍[0.00787-0.008,0.00787+0.008]。因?yàn)樗肈K值都為非負(fù)值,所以曲線上的DK值的標(biāo)準(zhǔn)范圍實(shí)際應(yīng)為[0,0.01587]。在圖8中超出虛線部分的點(diǎn)有P38、P40—P46、P121、P123—P125、P131、P136、P138—P142。通過(guò)檢查與這些標(biāo)準(zhǔn)范圍之外的點(diǎn)的相鄰點(diǎn)后,發(fā)現(xiàn)點(diǎn)P39、P121、P137周圍的點(diǎn)都不在標(biāo)準(zhǔn)范圍內(nèi),所以這三個(gè)點(diǎn)不是平滑曲線上的點(diǎn)。而P138以后的曲線為根據(jù)k-dist圖的曲線性質(zhì),該點(diǎn)屬于最后一個(gè)發(fā)生斜率突變的突變點(diǎn)。因此在P136到P142這條曲線上,只考慮P136一點(diǎn)的情況。最終,依此檢查各點(diǎn)的k-dist性質(zhì),確定了k-dist圖的密度轉(zhuǎn)折線為P38和P46連通的曲線、P121和P125連通生成的曲線、以及P131和P136所對(duì)應(yīng)的K-dist值。從聚類的實(shí)際出發(fā),對(duì)數(shù)據(jù)集只取小數(shù)點(diǎn)后2位(將經(jīng)緯度1度近似取111公里,則通過(guò)計(jì)算,0.01約為1公里)。由圖2可知得出這幾個(gè)點(diǎn)對(duì)應(yīng)的一組半徑值為:0.02、0.03、0.07。分別將上述3個(gè)聚類半徑代入該時(shí)段的數(shù)據(jù)。如表2所示,是上述3個(gè)聚類半徑代入該時(shí)段的數(shù)據(jù)得出的實(shí)際聚類效果,可以看出對(duì)于該數(shù)據(jù)集的聚類半徑賦值為0.07最為合適。因?yàn)樵谠摪霃较?,聚類個(gè)數(shù)較少,而且成功聚類數(shù)最多。表2不同半徑聚類效果對(duì)比Eps聚類的地閃簇的個(gè)數(shù)簇中地閃數(shù)0.025860.0321050.072135由圖9中(a)可以看出,本次選取的用于檢驗(yàn)本方法雷電天氣實(shí)例,在13:05分至13:10分已經(jīng)在淮安市中部形成了一條強(qiáng)地閃帶,從圖中可以清晰地看出,該時(shí)刻地閃形成了3個(gè)核心閃電簇,其中最大的核心地閃簇大部分分布在金湖縣中部。圖9中(b)中地閃數(shù)量減少,但形成了4個(gè)閃電簇,這體現(xiàn)了閃電本身所具備的隨機(jī)性和瞬時(shí)性的特點(diǎn)。其閃電簇的分布區(qū)域發(fā)生了位移,圖中可以直觀觀察到各地閃簇向東北移動(dòng),最大的核心地閃簇依然在金湖縣境內(nèi)。在本次試驗(yàn)的第3個(gè)階段,即13:15至13:20,由圖9中(c)可以發(fā)現(xiàn),地閃數(shù)量繼續(xù)減少,聚類簇也縮減為2個(gè),最大核心地閃簇已由原本的金湖縣中部基本轉(zhuǎn)移到東部。圖9中(d)中閃電數(shù)量繼續(xù)減少,地閃簇為3個(gè),最大核心地閃簇有向東北偏移的趨勢(shì)。圖9(e)可知地閃簇?cái)?shù)量為2,并且此刻的閃電數(shù)量較本時(shí)段開(kāi)始,已有巨大減少,可見(jiàn)本次用于檢驗(yàn)方法的數(shù)據(jù)為一次強(qiáng)雷暴過(guò)境或逐漸消亡的過(guò)程。每等時(shí)段聚類后,計(jì)算各最大核心簇的空間中心,并將各時(shí)段的閃電簇的類別、個(gè)數(shù)、最大簇空間中心坐標(biāo)等重要數(shù)據(jù)匯總,構(gòu)成核心地閃時(shí)空序列,如表3所示。表3各等時(shí)段核心地閃聚類時(shí)空序列ID核心類1核心類2核心類3核心類4最大簇空間幾何中心坐標(biāo)(經(jīng)度,緯度)噪聲點(diǎn)13593531無(wú)(119.0721,33.1357)82256624510(119.1155,33.11448)17320695無(wú)無(wú)(119.1912,33.06153)741294920無(wú)(119.2459,33.04471)2510035無(wú)無(wú)(119.2724,33.01403)11根據(jù)閃電時(shí)空聚類求得的核心地閃簇,找出各時(shí)段的相對(duì)最大地閃簇,利用該簇所包含的所有地閃的坐標(biāo)求出該簇的空間中心坐標(biāo)。利用二次多項(xiàng)式擬合的方法構(gòu)造多項(xiàng)式函數(shù)y=F(x),對(duì)核心地閃時(shí)空序列進(jìn)行曲線擬合。求得方程為y=-0.115635x2+26.97546x-1539.39023,其中x位經(jīng)度,y為緯度。然后由該擬合線來(lái)模擬下一等時(shí)段的最大核心地閃簇的移動(dòng)軌跡,如圖10所示。根據(jù)擬合曲線對(duì)下一時(shí)刻的核心閃電進(jìn)行預(yù)測(cè),其預(yù)測(cè)空間坐標(biāo)是(119.312,32.9941),事后對(duì)13:40的地閃數(shù)據(jù)進(jìn)行聚類分析可得到相似的結(jié)果,其核心地閃坐標(biāo)是(119.3311,32.9967)和預(yù)測(cè)區(qū)域距離僅相差約3.114km。由此可以得出,本發(fā)明所提出的基于PDBSCAN算法的預(yù)報(bào)方法對(duì)雷電進(jìn)行短臨趨勢(shì)預(yù)報(bào)是有較好效果的。圖11給出的是運(yùn)行效率對(duì)比圖,本發(fā)明提出的PDBSCAN算法與VDBSCAN算法相比較,PDBSCAN算法的存儲(chǔ)形式為鄰接表,而VDBSCAN算法的存儲(chǔ)形式為R*樹(shù)。結(jié)構(gòu)相對(duì)簡(jiǎn)單的鄰接表在處理海量氣象數(shù)據(jù)時(shí),優(yōu)勢(shì)十分明顯。通過(guò)對(duì)隨機(jī)生成的數(shù)量級(jí)為103的時(shí)空分布點(diǎn)數(shù)據(jù)進(jìn)行算法速度比較,發(fā)現(xiàn)使用優(yōu)化后的PDBSCAN算法的運(yùn)算效率明要高于傳統(tǒng)的DBSCAN算法。圖12選取13:10至13:15分的地閃數(shù)據(jù)集數(shù)據(jù),與圖9中(b)的聚類效果進(jìn)行對(duì)比。IDBSCAN所選取的半徑值為8km,設(shè)定的最小個(gè)數(shù)為2。由圖12可知,根據(jù)IDBSCAN算法得到的聚類結(jié)果,將整個(gè)數(shù)據(jù)集聚成了3個(gè)地閃簇,與本發(fā)明所提出的PDBSCAN算法相比,地閃簇的個(gè)數(shù)減少了。但是,可以明顯地發(fā)現(xiàn),因?yàn)楦鶕?jù)經(jīng)驗(yàn)的賦值,聚類半徑被人為擴(kuò)大,閃電的空間分布性質(zhì)沒(méi)有得到很好的體現(xiàn)。其一,是將金湖縣東南角的兩個(gè)明顯的地閃簇與最大地閃簇進(jìn)行了合并;其二,該取值聚類將金湖縣西南角的幾個(gè)零星地閃獨(dú)立成簇,而之前的算法將其歸為了噪聲點(diǎn)。這無(wú)論是對(duì)核心密度點(diǎn)的選取正確性,還是空間中心的計(jì)算準(zhǔn)確性上都會(huì)降低。由此可以發(fā)現(xiàn),基于待測(cè)數(shù)據(jù)本身性質(zhì)出發(fā)的PDBSCAN算法,對(duì)于聚類半徑的定義更加地符合數(shù)據(jù)集的分布特點(diǎn),聚類效果更能反映數(shù)據(jù)集中點(diǎn)在空間位置的真實(shí)分布情況。為了比較PDBSCAN與IDBSCAN在落點(diǎn)預(yù)測(cè)精度上的差異,本發(fā)明選取一組新的雷電天氣實(shí)例數(shù)據(jù),通過(guò)對(duì)該數(shù)據(jù)分別調(diào)用PDBSCAN與IDBSCAN算法進(jìn)行時(shí)空聚類。求出各最大簇的空間中心坐標(biāo),通過(guò)曲線擬合預(yù)測(cè)下一等時(shí)段的最大雷電簇空間中心位置。對(duì)比最終的預(yù)測(cè)結(jié)果以檢驗(yàn)本發(fā)明所提出的方法是否在預(yù)測(cè)精度上相對(duì)前人有所提高。為了弱化因?yàn)閿?shù)據(jù)自身存在的偶然性問(wèn)題,體現(xiàn)本發(fā)明所提出的方法的預(yù)測(cè)效果的真實(shí)性和有效性。選取了2009年8月1日6時(shí)14分至6時(shí)39分的雷電天氣實(shí)例數(shù)據(jù),該時(shí)段共發(fā)生地閃318次。通過(guò)上文所說(shuō)的步驟,將全部數(shù)據(jù)集等時(shí)段分隔為5個(gè)地閃數(shù)據(jù)集。其中,前4個(gè)等時(shí)段數(shù)據(jù)集為用于時(shí)空聚類的實(shí)驗(yàn)數(shù)據(jù),最后一個(gè)為預(yù)測(cè)點(diǎn)分布的實(shí)際對(duì)比數(shù)據(jù)。根據(jù)PDBSCAN與IDBSCAN算法對(duì)Eps的不同賦值方式,PDBSCAN算法仍然是從數(shù)據(jù)本身出發(fā),充分考慮數(shù)據(jù)集是否存在變密度的情況,根據(jù)k-dist圖和DK圖選擇Eps;考慮到IDBSCAN所提出的空間尺度問(wèn)題,選擇的時(shí)段為強(qiáng)雷暴時(shí)段,故Eps仍按照一次賦值處理,即將Eps設(shè)置為8km。對(duì)于另一預(yù)設(shè)值MinPts,本發(fā)明仍然設(shè)置為最小值2。表4和表5分別給出了時(shí)空聚類結(jié)果,按照IDBSCAN算法進(jìn)行一次賦值的方式,與按照PDBSCAN算法多元考慮數(shù)據(jù)密度性質(zhì)并針對(duì)不同性質(zhì)層次進(jìn)行實(shí)時(shí)更新Eps的方式,最終得出的聚類結(jié)果存在著一定的差異。表5中的Eps設(shè)置,是依據(jù)上文所說(shuō)考慮各數(shù)據(jù)集密度變化情況計(jì)算得到的。四個(gè)等時(shí)段的Eps分別設(shè)置為5km、8km、4km和10km。表4IDBSCAN算法時(shí)空聚類ID核心類1核心類2最大簇空間幾何中心坐標(biāo)(經(jīng)度,緯度)噪聲點(diǎn)1568(120.7405,31.10360)42635(120.7459,31.07428)537612(120.7544,31.06796)745622(120.7709,31.06306)3表5PDBSCAN算法時(shí)空聚類ID核心類1核心類2核心類3最大簇空間幾何中心坐標(biāo)(經(jīng)度,緯度)噪聲點(diǎn)1548(120.7204,31.10030)62635(120.7459,31.07428)537564(120.7558,31.06718)1045722(120.7719,31.06130)2依據(jù)上述求得的最大簇空間幾何中心坐標(biāo)(經(jīng)度,緯度),通過(guò)二項(xiàng)式擬合分別得到IDBSCAN的曲線方程:y=86.4985x2-20891.6x+1261490;PDBSCAN的曲線方程:y=104499x2-2524.33x+152478.4。對(duì)應(yīng)預(yù)測(cè)出的下一等時(shí)段最大簇空間中心坐標(biāo)分別為:I1(120.781,31.08707)、P1(120.7891,31.06054)。下一等時(shí)段的實(shí)際值分別為:I2(120.7731,31.0534)、P2(120.7708,31.052)。I1與I2相距3.8km,而P1與P2間相距2.0km。I2與P2間相距0.3km。所以,可以進(jìn)一步說(shuō)明,本發(fā)明所提出的基于PDBSCAN算法的雷電短時(shí)趨勢(shì)預(yù)報(bào)是有效的、準(zhǔn)確的,并對(duì)前人的相關(guān)預(yù)報(bào)方法在預(yù)測(cè)精度上起到了優(yōu)化的作用。由此,可以發(fā)現(xiàn),實(shí)時(shí)更新所賦的參數(shù)值,可以很好地提高數(shù)據(jù)集的聚類效果。如表4和表5所示,雖然在對(duì)1、3、4數(shù)據(jù)集的聚類中,IDBSCAN算法的噪聲點(diǎn)數(shù)目比PDBSCAN算法的少,但是因?yàn)闆](méi)有考慮數(shù)據(jù)集本身可能存在的密度變化,出現(xiàn)了Eps過(guò)小或過(guò)大的問(wèn)題。過(guò)小會(huì)導(dǎo)致簇的數(shù)目過(guò)多,過(guò)大則會(huì)使得簇內(nèi)點(diǎn)的數(shù)目過(guò)多。這兩者對(duì)方法預(yù)測(cè)精度的影響也在本發(fā)明中的到了體現(xiàn),所以,本發(fā)明所提出的PDBSCAN算法能較好地規(guī)避此類問(wèn)題。本發(fā)明針對(duì)傳統(tǒng)DBSCAN算法對(duì)雷電預(yù)報(bào)的不足,從參數(shù)選取和優(yōu)化內(nèi)存的兩方面,將VDBSCAN算法和IDBSCAN算法進(jìn)行復(fù)合,用復(fù)合后提出的PDBSCAN算法對(duì)雷電數(shù)據(jù)進(jìn)行等時(shí)段聚類。該算法不僅考慮了雷電簇內(nèi)部密度變化單一的情況,也克服DBSCAN算法對(duì)變密度情況下易出錯(cuò)的情況,完善了對(duì)雷電可能出現(xiàn)的各類空間分布形態(tài)的參數(shù)選取。同時(shí),在一定程度上優(yōu)化了算法運(yùn)行時(shí)的存儲(chǔ)結(jié)構(gòu),提高了運(yùn)算效率。通過(guò)對(duì)各等時(shí)段下的最大雷電簇的空間中心進(jìn)行線性擬合,求得下一時(shí)刻的雷電密度最大發(fā)生區(qū)的空間坐標(biāo)。在實(shí)例雷電天氣過(guò)程的檢驗(yàn)下,預(yù)測(cè)值與下一刻的最大雷電簇空間中心相差約3.114km,證明了本模型的有效性。最后,從運(yùn)行效率、聚類效果和預(yù)測(cè)精度三方面與前人的相關(guān)算法進(jìn)行了對(duì)比,結(jié)果表明本文所提出的算法在一定程度上對(duì)雷電短時(shí)臨近趨勢(shì)預(yù)測(cè)起到了優(yōu)化的作用。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3