本發(fā)明屬于森林參數(shù)遙感定量估測(cè)領(lǐng)域,特別是一種高效特征選擇的森林參數(shù)遙感估測(cè)方法,所述高效特征選擇是指為最近鄰法k-nn(k-nearestneighbor)在森林參數(shù)遙感估測(cè)的應(yīng)用中提高獲得最優(yōu)特征組合的效率。
背景技術(shù):
基于遙感的森林參數(shù)(如生物量、蓄積量、葉面積指數(shù)等)估測(cè)是指通過數(shù)學(xué)手段,在遙感、計(jì)算機(jī)技術(shù)和數(shù)學(xué)或物理模型驅(qū)動(dòng)下,利用遙感影像特征判讀數(shù)據(jù),結(jié)合少量的地面調(diào)查資料或地面臨時(shí)樣地資料,建立森林調(diào)查數(shù)據(jù)和遙感影像之間的數(shù)學(xué)或物理機(jī)理模型。此領(lǐng)域已有大量研究表明,結(jié)合多源遙感數(shù)據(jù)及其派生的紋理、植被指數(shù)等遙感特征因子可以提高森林參數(shù)定量估測(cè)精度。但隨著遙感特征因子數(shù)據(jù)維度的提升,會(huì)帶來信息冗余進(jìn)而產(chǎn)生維度災(zāi)難,使分析和處理變得復(fù)雜,若不通過一定的方法進(jìn)行特征選擇,甚至?xí)档蜕纸Y(jié)構(gòu)參數(shù)定量估測(cè)精度。因此,解決如何從海量的遙感特征組合中高效選取優(yōu)化的特征進(jìn)行建模成為森林參數(shù)估測(cè)的首要問題,即特征選擇問題。
特征選擇是指,從一組數(shù)量為m的特征中去除冗余或不相關(guān)特征,并選取數(shù)量為n(n≤m)的一組最優(yōu)特征。當(dāng)前特征選擇方法主要分為如下幾類:第一類是窮舉法,窮舉法是指遍歷特征空間中所有特征組合,選取最優(yōu)特征組合子集的方法。假設(shè)特征個(gè)數(shù)為m時(shí),計(jì)算復(fù)雜度為o(2m),其優(yōu)點(diǎn)在于一定能得到最優(yōu)子集,但在實(shí)際應(yīng)用中由于特征空間通常較為龐大,時(shí)間耗費(fèi)和計(jì)算復(fù)雜度太大,導(dǎo)致實(shí)用性不強(qiáng);第二類是隨機(jī)法,該方法隨機(jī)產(chǎn)生一批特征子集,根據(jù)一定的評(píng)價(jià)函數(shù)給這些特征子集評(píng)分,并選取評(píng)價(jià)函數(shù)值最高的特征子集。常用的方法有l(wèi)vf(lasvegasfilter)算法、遺傳算法、模擬退火算法等;第三類是啟發(fā)法,啟發(fā)式方法為一種近似算法,通過采用期望的人工機(jī)器調(diào)度規(guī)則,重復(fù)迭代產(chǎn)生遞增的特征子集,特征個(gè)數(shù)為n時(shí),其復(fù)雜度一般小于o(m2)。
上述方法都可以在一定程度上實(shí)現(xiàn)特征選擇,但在森林參數(shù)遙感定量估測(cè)這一研究領(lǐng)域,特征選擇這一問題研究較少。雖然已有研究學(xué)者提出一些特征選擇方法,如pearson相關(guān)系數(shù)、隨機(jī)森林(rf)算法等,但這些方法穩(wěn)健性不夠,且需人為選取參數(shù),不僅操作復(fù)雜、費(fèi)時(shí),而且特征選擇結(jié)果受主觀因素影響大。因此,為了實(shí)現(xiàn)基于遙感的森林參數(shù)高精度估測(cè),并能有效選取森林參數(shù)相關(guān)特征,需要研究新的針對(duì)森林參數(shù)遙感定量估測(cè)的自動(dòng)、高效、穩(wěn)定的特征選擇方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的缺陷或不足,提供一種高效特征選擇的森林參數(shù)遙感估測(cè)方法,所述高效特征選擇是指為最近鄰法k-nn(k-nearestneighbor)在森林參數(shù)遙感估測(cè)的應(yīng)用中提高獲得最優(yōu)特征組合的效率。
本發(fā)明的技術(shù)方案如下:
一種高效特征選擇的森林參數(shù)遙感估測(cè)方法,其特征在于,包括以下步驟,從森林資源樣地調(diào)查數(shù)據(jù)(樣地?cái)?shù)為n)和遙感影像(影像包含m個(gè)特征)中提取訓(xùn)練數(shù)據(jù)f,以留一法交叉驗(yàn)證相應(yīng)的k最近鄰法即k-nn估測(cè)模型反演的森林參數(shù)的均方根誤差rmse最小為原則,通過依次迭代選取遙感特征獲得最優(yōu)特征子集fs,通過最優(yōu)特征子集fs優(yōu)化區(qū)域森林參數(shù)的k-nn估測(cè)模型以實(shí)現(xiàn)森林參數(shù)遙感估測(cè)。
所述f={f1,f2,...,fm},fp=[xp1,xp2,...,xpn]t,式中1≤p≤m,xpi為第i個(gè)樣地對(duì)應(yīng)第p個(gè)特征所在影像像元的像元值,1≤i≤n,t為矩陣的轉(zhuǎn)置。
初始化最優(yōu)特征子集fs為空,即初始最優(yōu)特征子集fs=null;初始化最優(yōu)模型均方根誤差為rmseo。
依次利用特征{f1,fs},{f2,fs},...,{fi-1,fs},{fi+1,fs},...,{fm,fs},其中fi=fs∩f,建立森林參數(shù)的k-nn估測(cè)模型,則共得到m-s個(gè)k-nn估測(cè)模型及每個(gè)模型對(duì)應(yīng)的rmse,s為最優(yōu)特征子集的特征個(gè)數(shù)。
所述rmse采用留一法交叉驗(yàn)證計(jì)算得到,即每次從n個(gè)樣地中不重復(fù)地抽取一個(gè)樣地i,利用剩余的n-1個(gè)樣地采用k-nn法估測(cè)樣地i的森林參數(shù)值
確定最優(yōu)rmse,即rmse最小值,若最優(yōu)rmse<rmseo則將最優(yōu)rmse值賦給rmseo,將最優(yōu)rmse對(duì)應(yīng)的特征子集賦給fs以進(jìn)行下一輪迭代運(yùn)算,反之迭代結(jié)束。
迭代結(jié)束后,利用迭代運(yùn)算獲得的最優(yōu)特征子集得到最優(yōu)遙感特征組合結(jié)合k-nn模型進(jìn)行區(qū)域森林參數(shù)反演。
所述k-nn估測(cè)模型包括通過以下公式求得待估像元屬性值
所述wp,pi權(quán)重值與待估像元特征向量xp到樣地像元特征向量xpi距離dp,pi成反比,即:
所述距離dp,pi通過以下公式求得:
所述最優(yōu)遙感特征組合是指rmse最小時(shí)所對(duì)應(yīng)的特征子集fs,在具體應(yīng)用中,最優(yōu)特征子集有所不同。
本發(fā)明的技術(shù)效果如下:本發(fā)明一種高效特征選擇的森林參數(shù)遙感估測(cè)方法,針對(duì)利用高維度遙感特征因子進(jìn)行森林參數(shù)估測(cè)數(shù)據(jù)維度高,信息冗余,易造成估測(cè)模型過擬合等問題,從高維度遙感特征因子中高效優(yōu)化特征組合,優(yōu)化區(qū)域森林地上生物量k-nn估測(cè)模型。knn-fifs通過留一交叉驗(yàn)證,可以最大程度的利用樣地?cái)?shù)據(jù)并排除隨機(jī)分配訓(xùn)練和檢驗(yàn)樣本帶來的隨機(jī)誤差,其估測(cè)結(jié)果是漸進(jìn)無偏的。同時(shí),knn-fifs方法可以實(shí)現(xiàn)高效特征選擇。設(shè)特征數(shù)為m,則共計(jì)產(chǎn)生可能的特征組合數(shù)為
本發(fā)明具有如下優(yōu)勢(shì):1)減少森林參數(shù)遙感估測(cè)預(yù)算的復(fù)雜度和運(yùn)算量;2)在可控精度內(nèi)移除冗余信息;3)盡可能降低過擬合風(fēng)險(xiǎn);4)算法結(jié)構(gòu)體清晰,易解析?;趇dl編程語言(interactivedatalanguage,idl,交互式數(shù)據(jù)語言),knn-fifs實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)獲取-特征選擇-區(qū)域森林參數(shù)反演全過程的自動(dòng)化,為基于高維度遙感數(shù)據(jù)的森林參數(shù)多尺度,精準(zhǔn),高效估測(cè)提供了一種有效的業(yè)務(wù)化運(yùn)行方法。
附圖說明
圖1遙感影像和樣地?cái)?shù)據(jù)提取訓(xùn)練數(shù)據(jù)示意圖。圖1中5*5的方格中每一個(gè)小格及其數(shù)字表示一個(gè)遙感影像像元及其像元值,帶圓環(huán)小格及其數(shù)字表示樣地中心點(diǎn)所在的遙感影像像元及其像元值;帶圓環(huán)小格周邊的其他小格屬于未知地塊。
圖2是實(shí)施本發(fā)明一種高效特征選擇的森林參數(shù)遙感估測(cè)方法(knn-fifs:k-nearestneighborwithfastiterativefeaturesselection)中的高效特征選擇與現(xiàn)有技術(shù)中特征組合遍歷之間的效率對(duì)比示意圖。圖2中橫軸為遙感特征數(shù),豎軸為特征組合數(shù),帶點(diǎn)實(shí)線為采用現(xiàn)有技術(shù)中特征組合遍歷時(shí)特征組合數(shù)隨遙感特征數(shù)的變化,帶點(diǎn)虛線為采用本發(fā)明中高效特征選擇時(shí)特征組合數(shù)隨遙感特征數(shù)的變化。圖2中陰影區(qū)為局部放大效果圖。
圖3是實(shí)施本發(fā)明一種高效特征選擇的森林參數(shù)遙感估測(cè)方法的流程示意圖。圖3中上部左邊第1個(gè)框?yàn)闃拥財(cái)?shù)據(jù),第2個(gè)框?yàn)樯诌b感特征數(shù)據(jù)。上部右邊自上而下第1個(gè)框?yàn)橛?xùn)練數(shù)據(jù)提取步驟,即訓(xùn)練數(shù)據(jù)f={f1,f2,...,fm},式中括弧內(nèi)表示第1個(gè)遙感特征至第m個(gè)遙感特征;第2個(gè)框?yàn)槌跏蓟顑?yōu)特征組合步驟,即初始化最優(yōu)特征子集fs為空,即fs=null。第3個(gè)框?yàn)槌跏蓟顑?yōu)均方根誤差設(shè)定步驟,即rmseo(rootmeansquareerror,rmse)的值,例如,設(shè)置rmseo=255t·ha-1;(噸/公頃)。第4個(gè)框?yàn)榻⑸謪?shù)的k-nn(k-nearestneighbor)估測(cè)模型所依次利用特征{f1,fs},{f2,fs},...,{fi-1,fs},{fi+1,fs},...,{fm,fs},(其中fi=fs∩f)。中部三列(9個(gè)框)為依次利用上述第4個(gè)框的特征共得到m-s(s為最優(yōu)特征子集的特征個(gè)數(shù))個(gè)k-nn(或knn)估測(cè)模型及每個(gè)模型對(duì)應(yīng)的rmse(rootmeansquareerror,均方根誤差)。下部包括最優(yōu)特征fj和最優(yōu)rmse,即rmse最小值,若最優(yōu)rmse<rmseo則將最優(yōu)rmse值賦給rmseo,將最優(yōu)rmse對(duì)應(yīng)的特征子集賦給fs,即(fs={fs,fj};rmseo=最優(yōu)rmse),并返回依次利用特征建模步驟,反之迭代結(jié)束;如果最優(yōu)rmse<rmseo不成立,則進(jìn)行區(qū)域森林參數(shù)反演以獲得區(qū)域森林參數(shù),例如agb(above-groundbiomass,agb,地上生物量)參數(shù)。
具體實(shí)施方式
下面結(jié)合附圖(圖1-圖3)對(duì)本發(fā)明進(jìn)行說明。
圖1遙感影像和樣地?cái)?shù)據(jù)提取訓(xùn)練數(shù)據(jù)示意圖。圖2是實(shí)施本發(fā)明一種高效特征選擇的森林參數(shù)遙感估測(cè)方法(knn-fifs:k-nearestneighborwithfastiterativefeaturesselection)中的高效特征選擇與現(xiàn)有技術(shù)中特征組合遍歷之間的效率對(duì)比示意圖。圖3是實(shí)施本發(fā)明一種高效特征選擇的森林參數(shù)遙感估測(cè)方法的流程示意圖。如圖1至圖3所示,本發(fā)明屬于一種高效特征選擇的森林參數(shù)遙感估測(cè)方法—快速迭代特征選擇的k最近鄰法(knn-fifs)。本發(fā)明以森林資源樣地調(diào)查數(shù)據(jù)計(jì)算的森林參數(shù)為參考,以留一法交叉驗(yàn)證相應(yīng)的k最近鄰(k-nn)模型反演的森林參數(shù)的均方根誤差(rmse)最小為原則,依次迭代選取遙感特征,從而優(yōu)化區(qū)域森林參數(shù)的k-nn估測(cè)模型。knn-fifs方法可以高效選取相關(guān)遙感特征進(jìn)行森林參數(shù)估測(cè),有效提升森林參數(shù)遙感估測(cè)效率和精度。
為了能夠更加清晰的對(duì)本發(fā)明進(jìn)行介紹,有必要對(duì)k-nn法在森林參數(shù)估測(cè)中的應(yīng)用進(jìn)行說明。作為一種非參機(jī)器學(xué)習(xí)方法,k-nn不依賴于特定的函數(shù)分布,也無需樣本測(cè)量值與遙感影像特征間的先驗(yàn)知識(shí),不僅可以用于若干森林參數(shù)的估計(jì),還能融合各種空間數(shù)據(jù)到因變量估測(cè)當(dāng)中,尤其是在樣本數(shù)量較少的情況下易于估算缺失值,已被廣泛應(yīng)用于感森林參數(shù)遙感估測(cè)領(lǐng)域。k-nn法通過搜索相似單元,待估像元的屬性值由距離其最近的k個(gè)樣地的屬性值
待估像元的屬性值
其中wp,pi為權(quán)重,與待估像元特征向量(xp)到樣地所在像元特征向量(xpi)距離(dp,pi)成反比,即:
其中dp,pi可以采用多種度量標(biāo)準(zhǔn),其中馬氏距離在一定程度上克服了變量量綱的影響,它既考慮了特征向量的離散度,也考慮向量分布的協(xié)相關(guān),可以排除變量之間的相關(guān)性干擾,基于上述原因,本發(fā)明采取馬氏距離對(duì)dp,pi進(jìn)行度量,即:
其中c為樣本協(xié)方差矩陣,c-1為樣本協(xié)方差矩陣的逆矩陣,t為矩陣的轉(zhuǎn)置。
本發(fā)明的技術(shù)方案為一種高效特征選擇的森林參數(shù)遙感估測(cè)方法,包括以下步驟(設(shè)樣地?cái)?shù)為n,特征數(shù)為m)。
步驟一,提取各樣地中心點(diǎn)對(duì)應(yīng)遙感影像像元對(duì)應(yīng)的影像值作為訓(xùn)練數(shù)據(jù)f={f1,f2,...,fm}(如圖1,其中每個(gè)矩形代表一個(gè)遙感影像像元,像元值由數(shù)字表示,帶圓環(huán)小格代表樣地中心點(diǎn)所在遙感影像像元),其中fp=[xp1,xp2,...,xpn]t,(1≤p≤m),xpi為第i個(gè)樣地對(duì)應(yīng)第p個(gè)特征所在像元的值;
步驟二,初始化最優(yōu)特征子集fs為空,即fs=null;初始化最優(yōu)模型均方根誤差—rmseo,rmseo為一理論極大值,根據(jù)具體情況而設(shè),一般可設(shè)為255;
步驟三,依次利用特征{f1,fs},{f2,fs},...,{fi-1,fs},{fi+1,fs},...,{fm,fs}(其中fi=fs∩f)建立森林參數(shù)的k-nn估測(cè)模型,則共得到m-s(s為最優(yōu)特征子集的特征個(gè)數(shù))個(gè)k-nn估測(cè)模型及每個(gè)模型對(duì)應(yīng)的rmse。rmse采用留一法交叉驗(yàn)證計(jì)算得到,即每次從n個(gè)樣地中不重復(fù)地抽取一個(gè)樣地i,利用剩余的n-1個(gè)樣地采用k-nn法估測(cè)樣地i的森林參數(shù)值
步驟四,選取步驟三中得到的最優(yōu)rmse,即rmse最小值,若最優(yōu)rmse<rmseo則將最優(yōu)rmse值賦給rmseo;將最優(yōu)rmse對(duì)應(yīng)的特征子集賦給fs并返回步驟3),反之迭代結(jié)束;
步驟五,以步驟一至四得到的特征組合結(jié)合k-nn模型進(jìn)行區(qū)域森林參數(shù)反演。
本發(fā)明的一個(gè)具體應(yīng)用例,即森林地上生物量(agb)遙感定量估測(cè)進(jìn)行knn-fifs方法進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處描述的具體實(shí)施例僅用于解釋本發(fā)明,并不用于限定本發(fā)明在其它森林結(jié)構(gòu)參數(shù)估測(cè)中的應(yīng)用。
本發(fā)明技術(shù)方案已采用計(jì)算機(jī)軟件技術(shù)實(shí)現(xiàn)自動(dòng)化運(yùn)行流程,以下結(jié)合圖3詳述knn-fifs方法森林參數(shù)估測(cè)具體步驟。
步驟一,由樣地?cái)?shù)據(jù)和遙感特征提取訓(xùn)練數(shù)據(jù)f={f1,f2,...,fm},其中fp=[xp1,xp2,...,xpn]t,(1≤p≤m),xpi為第i個(gè)樣地對(duì)應(yīng)第p個(gè)特征所在像元的值。實(shí)施例遙感特征因子包括1)landsat-8olib1-b7光譜信息,2)由b1-b7派生的四種植被指數(shù)(歸一化植被指數(shù)、增強(qiáng)型植被指數(shù)、大氣阻抗植被指數(shù)以及簡(jiǎn)單比值植被指數(shù)),3)b1-b7各波段方差、均一性、對(duì)比度、相異性、熵、二階矩和相關(guān)性,4)地形因子(海拔、坡度和坡向)以及5)機(jī)載p-波段hv極化后向散射強(qiáng)度數(shù)據(jù)等共計(jì)64個(gè)遙感特征因子(遙感影像空間分辨率為30m);實(shí)施例森林資源調(diào)查數(shù)據(jù)包括56塊樣地?cái)?shù)據(jù),樣地形狀為矩形(包括30×30m和45×45m兩種規(guī)格);
步驟二,初始化最優(yōu)特征子集fs為空,即fs=null;初始化最優(yōu)模型均方根誤差rmseo=用于對(duì)比迭代過程中得到的rmse,設(shè)置rmseo=255t·ha-1(噸/公頃);
步驟三,依次利用特征{f1,fs},{f2,fs},...,{fi-1,fs},{fi+1,fs},...,{fm,fs}(其中fi=fs∩f)建立森林參數(shù)的k-nn估測(cè)模型,則共得到m-s(s為最優(yōu)特征子集的特征個(gè)數(shù))個(gè)k-nn估測(cè)模型及每個(gè)模型對(duì)應(yīng)的rmse;
步驟四,選取步驟三中得到的最優(yōu)rmse,即rmse最小值,若最優(yōu)rmse<rmseo則將最優(yōu)rmse值賦給rmseo;將最優(yōu)rmse對(duì)應(yīng)的特征子集賦給fs并返回步驟三,反之迭代結(jié)束;
步驟五,以步驟一至四得到的最優(yōu)特征組合,包括即機(jī)載p-波段hv極化后向散射強(qiáng)度數(shù)據(jù)、b6波段均一性、b7波段二階矩、b6波段二階矩、b1波段相關(guān)性、b5波段相關(guān)性、b1波段對(duì)比度以及增強(qiáng)型植被指數(shù)結(jié)合k-nn模型進(jìn)行區(qū)域森林參數(shù)反演。
本領(lǐng)域相關(guān)研究人員可以理解,本發(fā)明提出的knn-fifs方法對(duì)于森林參數(shù)遙感估測(cè)中的特征選擇問題具有廣泛的通用性;同時(shí),采用留一交叉驗(yàn)證,可以最大程度的利用樣地?cái)?shù)據(jù)并排除隨機(jī)分配訓(xùn)練和檢驗(yàn)樣本帶來的隨機(jī)誤差,由于排除了隨機(jī)因素帶來的誤差,保證了特征選擇的穩(wěn)定和唯一性,其估測(cè)結(jié)果更為可信。由模擬實(shí)驗(yàn)實(shí)際測(cè)試效果表明,該方法具有較高的精度,估測(cè)結(jié)果與實(shí)測(cè)森林樣地相關(guān)系數(shù)r2可達(dá)0.77,rmse為22.74t·ha-1(噸/公頃),該精度滿足森林agb遙感定量估測(cè)要求。
在此指明,以上敘述有助于本領(lǐng)域技術(shù)人員理解本發(fā)明創(chuàng)造,但并非限制本發(fā)明創(chuàng)造的保護(hù)范圍。任何沒有脫離本發(fā)明創(chuàng)造實(shí)質(zhì)內(nèi)容的對(duì)以上敘述的等同替換、修飾改進(jìn)和/或刪繁從簡(jiǎn)而進(jìn)行的實(shí)施,均落入本發(fā)明創(chuàng)造的保護(hù)范圍。