一種基于協(xié)同訓(xùn)練的城市區(qū)域空氣質(zhì)量估計(jì)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及空氣質(zhì)量監(jiān)測(cè)領(lǐng)域,尤其涉及一種基于協(xié)同訓(xùn)練的城市區(qū)域空氣質(zhì)量 估計(jì)方法。
【背景技術(shù)】
[0002] 近年來空氣污染越來越嚴(yán)重,多個(gè)城市經(jīng)常出現(xiàn)霧霾天氣,催生著人們生態(tài)環(huán)保 意識(shí)的加強(qiáng),空氣污染越來越受到大家的關(guān)注。為了對(duì)空氣的污染物質(zhì)進(jìn)行監(jiān)測(cè),政府在城 市建立了若干空氣質(zhì)量監(jiān)測(cè)站,是空氣質(zhì)量控制和對(duì)空氣質(zhì)量進(jìn)行合理評(píng)估的基礎(chǔ)平臺(tái), 是一個(gè)城市空氣環(huán)境保護(hù)的基礎(chǔ)設(shè)施。但是,建立一個(gè)空氣質(zhì)量監(jiān)測(cè)站需要一定建設(shè)資金、 占地面積、人力等,因此每個(gè)城市所擁有的空氣監(jiān)測(cè)站都是有限的。
[0003] 對(duì)于某個(gè)地點(diǎn),如果在其一定范圍內(nèi)沒有設(shè)立任何空氣質(zhì)量監(jiān)測(cè)站,則無法知道 其空氣質(zhì)量,且不能將距離該點(diǎn)最近的空氣質(zhì)量監(jiān)測(cè)站監(jiān)測(cè)的空氣質(zhì)量當(dāng)成該地點(diǎn)的空氣 質(zhì)量,這是因?yàn)橛绊懣諝赓|(zhì)量的因素復(fù)雜,包括自然因素,如土壤揚(yáng)塵、植物花粉、自然界的 災(zāi)害事件等,和人為因素,如化石燃料燃燒、垃圾焚燒、機(jī)動(dòng)車尾氣等。因此,同一城市中的 不同地點(diǎn)的空氣質(zhì)量可能相差很大,人們?cè)谕獬龌顒?dòng)前,如騎行,無法確切知道經(jīng)過路段所 在區(qū)域的空氣狀況,如果空氣質(zhì)量太差,人們可以更改路線,選擇具有優(yōu)良空氣質(zhì)量的路線 進(jìn)行戶外運(yùn)動(dòng)。這樣,對(duì)空氣質(zhì)量敏感的人可以更好的保護(hù)自己的身體。
[0004] 傳統(tǒng)的基于統(tǒng)計(jì)的空氣質(zhì)量區(qū)域估計(jì)方法一般僅考慮物理空間上的距離,然后進(jìn) 行空間線性插值,比如Kriging方法。然而,因?yàn)榭諝赓|(zhì)量是由多個(gè)因素共同影響的,例如 天氣現(xiàn)象、交通、土地使用等,所以空氣質(zhì)量隨著空間位置上的變化是呈非線性變化的,對(duì) 于固定的兩個(gè)點(diǎn)之間的空氣質(zhì)量相關(guān)程度并不是一直保持不變的,會(huì)因多種因素而進(jìn)行變 化,不能簡(jiǎn)單的用線性插值法進(jìn)行估計(jì)。有一些非線性的估計(jì)模型很好的利用了大氣壓、濕 度、交通等特征,如非線性的廣義加性模型(Generalized Additive Models),模型中每一 個(gè)加性項(xiàng)使用單個(gè)光滑函數(shù)來估計(jì),在每一加性項(xiàng)中可以解釋因變量如何隨自變量變化而 變化。還有一種空氣質(zhì)量估計(jì)方法是采用距離度量學(xué)習(xí)方法學(xué)習(xí)距離函數(shù)來計(jì)算兩個(gè)區(qū)域 之間的距離,然后利用學(xué)習(xí)到的距離函數(shù)尋找與該區(qū)域最近的k個(gè)區(qū)域。最后,對(duì)這k個(gè)區(qū) 域形成的特征向量進(jìn)行多元線性回歸訓(xùn)練,進(jìn)而利用訓(xùn)練得到的回歸模型對(duì)區(qū)域的空氣污 染物濃度進(jìn)行估計(jì)。但是,當(dāng)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)數(shù)量非常有限時(shí),由于缺乏足夠多樣的帶標(biāo) 記的訓(xùn)練樣本,這類監(jiān)督方法不能取得較好的效果。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明為克服上述的不足之處,目的在于提供一種基于協(xié)同訓(xùn)練的城市區(qū)域空氣 質(zhì)量估計(jì)方法,本估計(jì)方法充分利用區(qū)域的空間特征,如該區(qū)域的交通狀況、路網(wǎng)結(jié)構(gòu)等特 征,基于多分類器的協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法得到多個(gè)分類器,然后對(duì)這些分類器進(jìn)行 剪枝,形成最終的組合分類器,用剪枝后的組合分類器進(jìn)行空氣質(zhì)量等級(jí)估計(jì)。該方法估計(jì) 結(jié)果準(zhǔn)確性高,能根據(jù)帶空氣監(jiān)測(cè)點(diǎn)的區(qū)域和無空氣監(jiān)測(cè)點(diǎn)的區(qū)域在空間上的各種區(qū)別估 計(jì)空氣質(zhì)量等級(jí)。
[0006] 本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的:一種基于協(xié)同訓(xùn)練的城市區(qū)域空氣質(zhì) 量估計(jì)方法,包括預(yù)處理階段、訓(xùn)練階段、估計(jì)階段;
[0007] 預(yù)處理階段包括:
[0008] 1)把城市劃分成不相交的網(wǎng)格,每個(gè)網(wǎng)格g內(nèi)的空氣質(zhì)量相同;
[0009] 2)抽取含有空氣監(jiān)測(cè)站點(diǎn)的網(wǎng)格對(duì)應(yīng)的每小時(shí)的空氣質(zhì)量和空間特征;
[0010] 3)基于歐式距離查找與網(wǎng)格g相近的k個(gè)最近的含空氣監(jiān)測(cè)站點(diǎn)的網(wǎng)格G ;
[0011] 4)根據(jù)網(wǎng)格g和網(wǎng)格集合G生成有標(biāo)記和無標(biāo)記的樣本;
[0012] 訓(xùn)練階段:
[0013] I)半監(jiān)督學(xué)習(xí):通過對(duì)有標(biāo)記樣本進(jìn)行可重復(fù)性取樣獲得η個(gè)有標(biāo)記訓(xùn)練集,并 對(duì)有標(biāo)記訓(xùn)練集訓(xùn)練得到η個(gè)分類器;η個(gè)分類器分別對(duì)未標(biāo)記的樣本進(jìn)行標(biāo)記得到高置 信度的未標(biāo)記樣本,從中挑選樣本加入訓(xùn)練集直到挑選的新標(biāo)記樣本數(shù)目不為〇,輸出分類 器模型;
[0014] II)組合分類器剪枝:設(shè)置組合分類器的剪枝度量標(biāo)準(zhǔn);采用基于Pareto算法在 輸出的分類器模型中搜索最優(yōu)的分類器組合,輸出剪枝后的組合分類器;
[0015] 估計(jì)階段:
[0016] i)輸入待估計(jì)空氣質(zhì)量的位置的經(jīng)煒度信息,并根據(jù)經(jīng)煒度信息獲取所屬的網(wǎng)格 g,抽取網(wǎng)格g的空間特征Fg;抽取網(wǎng)格g所在城市的所有空氣質(zhì)量監(jiān)測(cè)站點(diǎn)所屬網(wǎng)格的空 間特征,得到特征向量F e;
[0017] ii)基于歐式距離從Fe中查找到與F g相近的k個(gè)最近的特征向量,k個(gè)最近的特 征向量對(duì)應(yīng)k個(gè)網(wǎng)格,由k個(gè)網(wǎng)格得到網(wǎng)格集合G ;
[0018] iii)網(wǎng)格g和網(wǎng)格集合G生成一個(gè)向量;
[0019] iv)根據(jù)訓(xùn)練階段輸出的組合分類器對(duì)步驟iii)得到的特征向量進(jìn)行投票,得到 并輸出投票結(jié)果,投票結(jié)果為估計(jì)的空氣質(zhì)量值。
[0020] 作為優(yōu)選,所述的空間特征包括:交通相關(guān)特征Ft、路網(wǎng)結(jié)構(gòu)相關(guān)特征F,、P0I相關(guān) 特征F p、簽到特征F。。
[0021] 作為優(yōu)選,所述預(yù)處理階段通過如下式所示的歐氏距離度量函數(shù)查找與網(wǎng)格g相 近的k個(gè)最近的含空氣監(jiān)測(cè)站點(diǎn)的網(wǎng)格G :
[0022] d (Xi, Xj) = (Xi-Xj)T (Xi-Xj)
[0023] 其中,d(Xi, Xj)表示兩個(gè)特征向量Xi、Xj之間的距離,特征向量為網(wǎng)格的POI相關(guān) 特征和路網(wǎng)結(jié)構(gòu)特征,即X = [Fp, Fj。
[0024] 作為優(yōu)選,所述預(yù)處理階段的步驟4)具體為建有空氣監(jiān)測(cè)點(diǎn)的網(wǎng)格生成有標(biāo)記 訓(xùn)練樣本,集合內(nèi)其余的網(wǎng)格生成未標(biāo)記的訓(xùn)練樣本。
[0025] 作為優(yōu)選,所述訓(xùn)練階段半監(jiān)督學(xué)習(xí)的從高置信度的未標(biāo)記樣本挑選樣本加入訓(xùn) 練集的挑選標(biāo)準(zhǔn)為樣本的conf值的高低,從conf值高的樣本進(jìn)行挑選。
[0026] 本發(fā)明的有益效果在于:(1)采用半監(jiān)督學(xué)習(xí)方法,解決了空氣監(jiān)測(cè)站有限的情 況下訓(xùn)練樣本不足的問題;(2)引入了多個(gè)分類器而不是兩個(gè)分類器,解決了協(xié)同訓(xùn)練中 置信度如何判定的問題;(3)引入組合分類器剪枝,避免基分類器數(shù)目過多而造成模型性 能下降。
【附圖說明】
[0027] 圖1是本發(fā)明基于協(xié)同訓(xùn)練的城市區(qū)