本發(fā)明涉及生物環(huán)境適生性預測,具體為一種蠅蛆環(huán)境適生性預測方法。
背景技術(shù):
1、生物環(huán)境適生性預測技術(shù)利用統(tǒng)計分析、生態(tài)學、地理信息系統(tǒng)以及機器學習等多學科方法及工具,以評估和預測特定生物在特定環(huán)境中的適應能力和生存的可能性,為生態(tài)保護、環(huán)境管理和資源利用提供科學依據(jù)。
2、回歸算法是一種統(tǒng)計方法和機器學習技術(shù),用于分析變量之間的關系,而后通過輸入變量來預測輸出變量?;貧w算法建立一個數(shù)學模型,通過描述輸入變量與輸出變量之間的關系,從而達到對新數(shù)據(jù)進行預測的目標。
3、在生物環(huán)境適生性預測過程中,變量的選擇是一個至關重要的步驟;變量選擇過程中,過多特征的選擇會導致模型在新數(shù)據(jù)上表現(xiàn)較差的情況,且難以解釋哪些環(huán)境變量對物種適生性有關鍵影響;變量的選擇還存在共線性問題,變量之間存在高度相關性,導致模型不穩(wěn)定,難以明確各個變量對物種適生性的獨立貢獻;此外,數(shù)據(jù)質(zhì)量問題如缺失值,異常值和誤差可能影響預測結(jié)果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種蠅蛆環(huán)境適生性預測方法,以解決上述背景技術(shù)中提出的問題。
2、為了解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種蠅蛆環(huán)境適生性預測方法,該方法包括以下步驟:
3、s1、收集和整理環(huán)境變量數(shù)據(jù)以及對應變量下的蠅蛆數(shù)量數(shù)據(jù);
4、s2、將步驟s1中收集的數(shù)據(jù)整合為數(shù)據(jù)集并劃分為訓練集和測試集;
5、s3、使用回歸算法對環(huán)境變量進行篩選;
6、s4、構(gòu)建廣義加性模型、對模型進行訓練和評估;
7、s5、使用訓練好的模型對已知環(huán)境變量或待測區(qū)域進行預測。
8、在步驟s1中,所述環(huán)境變量數(shù)據(jù)是指對蠅蛆生存有影響的環(huán)境因素狀態(tài);所述蠅蛆數(shù)量數(shù)據(jù)是指單位面積內(nèi)蠅蛆的數(shù)量;其中,環(huán)境因素為特征變量,可表示為,為特征的數(shù)量;蠅蛆數(shù)量為目標變量,可表示為;特征變量用于預測目標變量。
9、在步驟s2中,使用交叉驗證方式劃分訓練集和測試集;
10、將數(shù)據(jù)集等比例分為k份,共須進行k次實驗;在第一次實驗中,選取第1份數(shù)據(jù)作為測試數(shù)據(jù),剩余的k-1份數(shù)據(jù)作為訓練數(shù)據(jù);在第二次實驗中,選取第2份數(shù)據(jù)作為測試數(shù)據(jù),剩余的k-1份數(shù)據(jù)作為訓練數(shù)據(jù)……在第k次實驗中,選取第k份數(shù)據(jù)作為測試數(shù)據(jù),剩余的k-1份數(shù)據(jù)作為訓練數(shù)據(jù);在每一次實驗中,都會得到一個均方誤差值,將k個均方誤差值平均就得到交叉驗證誤差。
11、所述均方誤差值可由公式計算得出:
12、
13、其中,表示測試集樣本的數(shù)量,代表真實值,代表預測值;在回歸分析中,均方誤差值用于衡量預測值與實際值之間的平均平方誤差;由公式可知,均方誤差值總是大于等于零的;當預測值與真實值相同時,均方誤差值為0,故當均方誤差值越接近0時,預測值越接近真實值;同理,所述交叉驗證誤差值越小時,模型性能越佳。
14、在步驟s3中,使用回歸算法確定重要環(huán)境變量;回歸算法增加了對權(quán)重的限制,作為正則化項,將有限的權(quán)重,放到了更重要的特征維度上:
15、
16、其中,為樣本個數(shù),代表真實值,代表預測值,為正則化參數(shù),為范數(shù);
17、正則化參數(shù)控制正則化的強度,值越大,對模型復雜度的懲罰越大,越多的環(huán)境變量系數(shù)被壓縮為0;值越小,越接近一般的線性回歸;保留環(huán)境變量系數(shù)不為0的環(huán)境變量;隨著值不斷增大,環(huán)境變量系數(shù)越晚變?yōu)?的變量在模型中越重要;使用沿著正則化路徑具有迭代擬合的線性模型,通過規(guī)定正則化路徑的長度,即限制最小值與最大值的比自動生成或手動設置正則化參數(shù)的值,控制對模型復雜度的懲罰以改變重要特征的數(shù)量;
18、模型回歸系數(shù)向量可表示為,其中是特征的數(shù)量;則范數(shù)可計算為;即對所有回歸系數(shù)絕對值求和;
19、調(diào)整回歸系數(shù)使的值最小化,達到在考慮精度的同時通過正則化控制模型復雜度的目的;在利用坐標下降法調(diào)整回歸系數(shù)使值最小化的過程中,回歸系數(shù)不為0的特征便是重要特征。
20、在步驟s4中,使用廣義加性模型分析和預測變量之間的關系,模型公式通常表示為:
21、
22、其中,表示因變量,也就是要預測的目標變量;為截距項,表示當所有特征變量的取值均為0時所期望的目標變量值;,,,為非線性函數(shù),用于表示特征向量與目標向量之間的非線性關系;表示誤差項,即模型未能解釋的隨機部分;
23、使用訓練集數(shù)據(jù)擬合模型;使用測試集得到的均方誤差值對模型進行評估。
24、在步驟s5中,所述已知環(huán)境變量表示所采集的特征變量,采集過程所采集變量不包括目標變量,即物種數(shù)量;經(jīng)過步驟s1s4達到利用特征變量對目標變量預測的目的。
25、在步驟s5中,對待測區(qū)域進行預測包括以下準備工作:
26、s8-1、收集該區(qū)域歷史環(huán)境變量;
27、s8-2、預測該區(qū)域未來環(huán)境變量;
28、s8-3、選取所需時間節(jié)點的環(huán)境特征變量對該區(qū)域適生性進行預測;
29、在步驟s8-1中,通過氣候數(shù)據(jù)庫獲取該區(qū)域歷史環(huán)境變量數(shù)據(jù),所獲取特征與步驟s1中收集特征一致。
30、在步驟s8-2中,利用歷史環(huán)境變量對自回歸積分移動平均模型進行擬合,使用訓練好的模型進行該區(qū)域未來環(huán)境變量的預測包括:時間序列數(shù)據(jù)清洗和標準化、繪制時間序列圖、通過差分使非平穩(wěn)數(shù)據(jù)變?yōu)槠椒€(wěn)、使用自相關函數(shù)和偏自相關函數(shù)圖確定和、使用數(shù)據(jù)的差分次數(shù)確定、使用確定的參數(shù)擬合模型以及使用訓練好的模型進行未來值的預測;
31、其中,由自回歸階數(shù)確定的自回歸部分確定了當前值與前個滯后值之間的關系;由差分次數(shù)確定的積分部分確定了對數(shù)據(jù)進行多少次差分以使其平穩(wěn);由移動平均階數(shù)確定的移動平均部分確定了當前值與前個誤差項之間的關系;自回歸、積分和移動平均三部分明確了模型的結(jié)構(gòu);
32、預測完成后選取所需時間節(jié)點的環(huán)境特征變量,經(jīng)過步驟s1s4達到利用特征變量對目標變量預測的目的。
33、與現(xiàn)有技術(shù)相比,本發(fā)明所達到的有益效果是:使用回歸算法能夠自動選擇重要在特征,將不重要的特征的系數(shù)收縮到0,能夠有效的篩選出對目標變量最有影響的特征;特征選擇減少了輸入變量的數(shù)量,降低了過擬合的風險,提高了模型的泛化能力;回歸算法篩選出的特征較少且重要,使得模型更易于理解和解釋。廣義加性模型本身具有良好的解釋性,通過非線性函數(shù)捕捉每個特征與目標變量之間的關系,使解釋更加直觀;結(jié)合兩種方法的優(yōu)點,可以有效的提高模型的準確性、解釋性、穩(wěn)健性和計算效率。
1.一種蠅蛆環(huán)境適生性預測方法,其特征在于:該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s1中,所述環(huán)境變量數(shù)據(jù)是指與蠅蛆生存相關的環(huán)境因素狀態(tài);所述蠅蛆數(shù)量數(shù)據(jù)是指單位面積內(nèi)蠅蛆的數(shù)量;其中,環(huán)境因素為特征變量,表示為,為特征變量的數(shù)量;蠅蛆數(shù)量為目標變量,表示為;所述特征變量用于預測目標變量。
3.根據(jù)權(quán)利要求1所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s2中,使用交叉驗證的方式劃分訓練集和測試集;
4.根據(jù)權(quán)利要求3所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:所述均方誤差值公式為:
5.根據(jù)權(quán)利要求1所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s3中,使用回歸算法確定重要環(huán)境變量;回歸算法增加了對權(quán)重的限制,作為正則化項,將有限的權(quán)重,放到了更重要的特征維度上:
6.根據(jù)權(quán)利要求4所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s4中,使用廣義加性模型變量之間的關系進行分析和預測,模型公式表示為:
7.根據(jù)權(quán)利要求1所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s5中,所述已知環(huán)境變量表示所采集的特征變量,采集過程所采集變量不包括目標變量,即物種數(shù)量;經(jīng)過步驟s1s4達到利用特征變量對目標變量預測的目的。
8.根據(jù)權(quán)利要求1所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s5中,對待測區(qū)域進行預測包括以下準備工作:
9.根據(jù)權(quán)利要求8所述的一種蠅蛆環(huán)境適生性預測方法,其特征在于:在步驟s8-2中,利用歷史環(huán)境變量對自回歸積分移動平均模型進行擬合,使用訓練好的模型進行該區(qū)域未來環(huán)境變量的預測包括:時間序列數(shù)據(jù)清洗和標準化、繪制時間序列圖、通過差分使非平穩(wěn)數(shù)據(jù)變?yōu)槠椒€(wěn)、使用自相關函數(shù)和偏自相關函數(shù)圖確定和、使用數(shù)據(jù)的差分次數(shù)確定、使用確定的參數(shù)擬合模型以及使用訓練好的模型進行未來值的預測;