本發(fā)明屬于水質(zhì)監(jiān)測(cè),涉及人工智能技術(shù)、水體富營養(yǎng)化檢測(cè)技術(shù),具體涉及一種基于雙經(jīng)驗(yàn)池tddpg模型和ddpg-雙重3q學(xué)習(xí)模型的水體富營養(yǎng)化預(yù)測(cè)方法。
背景技術(shù):
1、近年來,水環(huán)境污染已成為全球共同關(guān)注的問題,其中水體富營養(yǎng)化問題尤為嚴(yán)重。富營養(yǎng)化導(dǎo)致水中氮、磷等營養(yǎng)鹽過量,破壞水生態(tài)系統(tǒng)平衡,促使某些物種過度繁殖,引發(fā)水華,危害日常生活。據(jù)聯(lián)合國環(huán)境規(guī)劃署數(shù)據(jù)顯示,全球河湖富營養(yǎng)化威脅生物生存的區(qū)域逐年增加。富營養(yǎng)化的治理難度大,因此及時(shí)預(yù)見并采取有效措施至關(guān)重要。水體富營養(yǎng)化是多種因素共同作用的結(jié)果,包括氮磷營養(yǎng)鹽、葉綠素、cod(化學(xué)需氧量)、溫度等。人類活動(dòng)是主要原因之一,使?fàn)I養(yǎng)鹽大量流入水體,刺激藻類繁殖,導(dǎo)致水體污染。同時(shí),藻類自身繁殖能力強(qiáng),形成惡性循環(huán),加劇生態(tài)平衡破壞。季節(jié)變化也影響水質(zhì)指標(biāo),導(dǎo)致不同時(shí)段的富營養(yǎng)化程度不同。因此,長期監(jiān)測(cè)和預(yù)測(cè)水質(zhì)指標(biāo)對(duì)水生態(tài)環(huán)境治理至關(guān)重要。針對(duì)多因素水質(zhì)數(shù)據(jù)進(jìn)行預(yù)測(cè),是防范富營養(yǎng)化的必要措施。水體富營養(yǎng)化預(yù)測(cè)模型面臨著挑戰(zhàn),因其復(fù)雜性和非線性特征,傳統(tǒng)模型處理能力有限,難以捕捉關(guān)聯(lián)和保留長期特征信息。因此,構(gòu)建更高效、更精確的預(yù)測(cè)模型具有重要意義。
2、目前,水體富營養(yǎng)化的預(yù)測(cè)模型分為機(jī)理驅(qū)動(dòng)模型與數(shù)據(jù)驅(qū)動(dòng)模型兩類。
3、機(jī)理驅(qū)動(dòng)的水體富營養(yǎng)化建模:基于藻類生長的生理知識(shí)和水環(huán)境系統(tǒng)的物理、化學(xué)定律,模擬藻類生物量變化。從簡單的單營養(yǎng)物負(fù)荷模型到復(fù)雜的生態(tài)動(dòng)力學(xué)模型,這些模型能夠較好地理解藻類增殖過程中的內(nèi)外部影響因素。然而,該方法在預(yù)測(cè)過程中需要詳細(xì)的物理或化學(xué)分析、大量參數(shù)和初始條件計(jì)算,并且不同環(huán)境需要不同的公式推導(dǎo),導(dǎo)致建模復(fù)雜且泛化性差。
4、數(shù)據(jù)驅(qū)動(dòng)的水體富營養(yǎng)化建模:利用大量歷史數(shù)據(jù)監(jiān)測(cè)內(nèi)外部環(huán)境因子的相互關(guān)系,以預(yù)測(cè)水體富營養(yǎng)化情況。該方法不需先驗(yàn)知識(shí),能挖掘隱藏于系統(tǒng)中的內(nèi)在規(guī)律,因而得到廣泛應(yīng)用。主要分為數(shù)理統(tǒng)計(jì)模型和人工智能模型兩類。數(shù)理統(tǒng)計(jì)模型通過處理歷史數(shù)據(jù),利用相關(guān)性分析、回歸分析等方法探索影響因子對(duì)狀態(tài)變量的作用,發(fā)現(xiàn)其發(fā)展規(guī)律。隨著計(jì)算機(jī)技術(shù)的進(jìn)步,人工智能模型在水體富營養(yǎng)化預(yù)測(cè)中扮演重要角色。由于水體富營養(yǎng)化是一個(gè)高度非線性、復(fù)雜的生態(tài)反應(yīng)過程,人工智能模型通過智能算法處理多種因素的影響,提供有效解決方案。這些模型利用計(jì)算機(jī)硬件和軟件系統(tǒng)的提升,運(yùn)算速度和精度大幅提高,為預(yù)測(cè)和解決非線性問題提供了有效手段。
5、目前基于深度強(qiáng)化學(xué)習(xí)的水體富營養(yǎng)化預(yù)測(cè)存在以下主要問題:
6、(1)深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)的思想,但它的側(cè)重點(diǎn)更多的是在強(qiáng)化學(xué)習(xí)上,解決的仍然是決策問題,所以首先要將水體富營養(yǎng)化時(shí)間序列預(yù)測(cè)問題轉(zhuǎn)化成mdp(馬爾可夫決策過程)問題。由于多因素水質(zhì)數(shù)據(jù)量過大,模型進(jìn)行預(yù)測(cè)時(shí)無法對(duì)數(shù)據(jù)特征進(jìn)行一個(gè)長期保留,ddpg(deep?deterministic?policy?gradient,深度確定策略梯度)模型的經(jīng)驗(yàn)池結(jié)構(gòu)能夠存儲(chǔ)歷史數(shù)據(jù)特征,但傳統(tǒng)ddpg模型的actor網(wǎng)絡(luò)對(duì)多因素水質(zhì)數(shù)據(jù)特征提取效率較低,導(dǎo)致ddpg模型在進(jìn)行多因素水質(zhì)數(shù)據(jù)預(yù)測(cè)時(shí)的訓(xùn)練效率降低。
7、(2)在利用深度強(qiáng)化學(xué)習(xí)模型來解決水體富營養(yǎng)化預(yù)測(cè)問題時(shí),通常既要考慮模型的訓(xùn)練效率問題,同時(shí)也要考慮預(yù)測(cè)精度的問題?,F(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型只能針對(duì)特有的環(huán)境來設(shè)計(jì)mdp來解決水體富營養(yǎng)化預(yù)測(cè)問題,卻無法做到對(duì)模型訓(xùn)練效率以及預(yù)測(cè)精度的兼顧,在解決實(shí)際水體富營養(yǎng)化預(yù)測(cè)問題時(shí)實(shí)用性較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)上述使用深度強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行水體富營養(yǎng)化預(yù)測(cè)存在的問題,提供了一種基于雙經(jīng)驗(yàn)池tddpg模型和ddpg-雙重3q學(xué)習(xí)模型的水體富營養(yǎng)化預(yù)測(cè)方法,解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)模型無法保留歷史數(shù)據(jù)長期有效特征的問題,并進(jìn)一步提高預(yù)測(cè)模型的訓(xùn)練效率以及預(yù)測(cè)精度,提高預(yù)測(cè)模型的實(shí)用性。
2、本發(fā)明提供的一種基于雙經(jīng)驗(yàn)池tddpg模型和ddpg-雙重3q學(xué)習(xí)模型的水體富營養(yǎng)化預(yù)測(cè)方法,包括如下步驟:
3、步驟1:獲取目標(biāo)水域的水質(zhì)監(jiān)測(cè)數(shù)據(jù),用馬爾可夫決策過程表示水質(zhì)監(jiān)測(cè)時(shí)序數(shù)據(jù),將水體富營養(yǎng)化時(shí)間序列預(yù)測(cè)問題轉(zhuǎn)換為馬爾可夫決策問題;
4、從目標(biāo)水域的水質(zhì)監(jiān)測(cè)數(shù)據(jù)中得到歷史水質(zhì)多參數(shù)時(shí)序數(shù)據(jù),將水體富營養(yǎng)化的預(yù)測(cè)問題轉(zhuǎn)換為馬爾可夫決策問題,馬爾可夫決策過程中的狀態(tài)st對(duì)應(yīng)t時(shí)刻的一組水質(zhì)參數(shù),動(dòng)作對(duì)應(yīng)預(yù)測(cè)操作,智能體對(duì)狀態(tài)st執(zhí)行一個(gè)動(dòng)作后轉(zhuǎn)移到下一個(gè)狀態(tài)st+1;由預(yù)測(cè)的未來時(shí)間的水質(zhì)參數(shù)評(píng)估水體富營養(yǎng)化程度;
5、步驟2:對(duì)歷史水質(zhì)多參數(shù)時(shí)序使用基于雙經(jīng)驗(yàn)池的tddpg預(yù)測(cè)模型進(jìn)行預(yù)測(cè),輸出未來時(shí)間的水質(zhì)多參數(shù)時(shí)序;所述的基于雙經(jīng)驗(yàn)池的tddpg預(yù)測(cè)模型構(gòu)建方式包含:
6、步驟21:改進(jìn)ddpg網(wǎng)絡(luò),設(shè)置專家經(jīng)驗(yàn)池,與隨機(jī)經(jīng)驗(yàn)池構(gòu)成雙經(jīng)驗(yàn)池;訓(xùn)練時(shí)actor在線網(wǎng)絡(luò)將預(yù)測(cè)的四元組(當(dāng)前狀態(tài),動(dòng)作,獎(jiǎng)勵(lì),下一時(shí)刻狀態(tài))存入隨機(jī)經(jīng)驗(yàn)池,同時(shí)critic網(wǎng)絡(luò)在更新目標(biāo)q值函數(shù)時(shí)生成下一時(shí)刻的近似估計(jì)動(dòng)作,將近似估計(jì)動(dòng)作對(duì)應(yīng)的四元組存入專家經(jīng)驗(yàn)池;訓(xùn)練過程中從雙經(jīng)驗(yàn)池中隨機(jī)抽取樣本進(jìn)行訓(xùn)練;
7、步驟22:設(shè)置ddpg網(wǎng)絡(luò)中的actor在線網(wǎng)絡(luò)與actor目標(biāo)網(wǎng)絡(luò)各使用一個(gè)獨(dú)立的transformer結(jié)構(gòu)對(duì)輸入的水質(zhì)多參數(shù)時(shí)序提取狀態(tài)特征,再輸入actor網(wǎng)絡(luò)進(jìn)行動(dòng)作決策;
8、步驟23:標(biāo)記基于雙經(jīng)驗(yàn)池的tddpg預(yù)測(cè)模型中的智能體為第一智能體;通過優(yōu)化動(dòng)作的決策策略,使得第一智能體與環(huán)境交互后獲得的總獎(jiǎng)勵(lì)值最大化,總獎(jiǎng)勵(lì)值越大代表智能體預(yù)測(cè)越準(zhǔn)確;設(shè)基于雙經(jīng)驗(yàn)池的tddpg預(yù)測(cè)模型輸出未來時(shí)間的水質(zhì)多參數(shù)時(shí)序的第一初步預(yù)測(cè)結(jié)果;
9、步驟3:構(gòu)建addpg預(yù)測(cè)模型和rdpg預(yù)測(cè)模型,輸入歷史水質(zhì)多參數(shù)時(shí)序,預(yù)測(cè)未來時(shí)間的水質(zhì)多參數(shù)時(shí)序;
10、所述的addpg預(yù)測(cè)模型使用attention網(wǎng)絡(luò)對(duì)歷史水質(zhì)多參數(shù)時(shí)序提取特征,再使用步驟21改進(jìn)的ddpg網(wǎng)絡(luò)進(jìn)行動(dòng)作決策;標(biāo)記addpg預(yù)測(cè)模型中的智能體為第二智能體,優(yōu)化第二智能體的動(dòng)作決策策略;設(shè)通過addpg預(yù)測(cè)模型輸出未來時(shí)間的水質(zhì)多參數(shù)時(shí)序的第二初步預(yù)測(cè)結(jié)果;
11、所述的rdpg預(yù)測(cè)模型使用lstm網(wǎng)絡(luò)對(duì)歷史水質(zhì)多參數(shù)時(shí)序提取特征,再使用步驟21改進(jìn)的ddpg網(wǎng)絡(luò)進(jìn)行動(dòng)作決策;標(biāo)記rdpg預(yù)測(cè)模型中的智能體為第三智能體,優(yōu)化第三智能體的動(dòng)作決策策略;設(shè)通過rdpg預(yù)測(cè)模型輸出未來時(shí)間的水質(zhì)多參數(shù)時(shí)序的第三初步預(yù)測(cè)結(jié)果;
12、步驟4:構(gòu)建ddpg-雙重3q學(xué)習(xí)模型,對(duì)未來時(shí)間的水質(zhì)多參數(shù)時(shí)序進(jìn)行最終預(yù)測(cè);
13、所述ddpg-雙重3q學(xué)習(xí)模型中,將第一、第二和第三初步預(yù)測(cè)結(jié)果作為狀態(tài)模型集輸入第一重學(xué)習(xí),設(shè)ddpg-雙重3q學(xué)習(xí)模型中的智能體為b,智能體b決策單個(gè)時(shí)間步選擇的初步預(yù)測(cè)結(jié)果及對(duì)應(yīng)的預(yù)測(cè)模型;將第一、第二和第三初步預(yù)測(cè)結(jié)果的誤差作為狀態(tài)模型輸入第二重學(xué)習(xí),智能體b決策單個(gè)時(shí)間步選擇的誤差及對(duì)應(yīng)的預(yù)測(cè)模型;在單個(gè)時(shí)間步,智能體b將決策的誤差補(bǔ)償?shù)經(jīng)Q策的初步預(yù)測(cè)結(jié)果,獲得該時(shí)間步對(duì)水質(zhì)多參數(shù)數(shù)據(jù)的最終預(yù)測(cè)結(jié)果;
14、步驟5:通過滑動(dòng)窗口對(duì)輸入的歷史水質(zhì)多參數(shù)時(shí)序采樣,輸入雙經(jīng)驗(yàn)池tddpg模型、addpg預(yù)測(cè)模型和rdpg預(yù)測(cè)模型獲得初步預(yù)測(cè)結(jié)果,再由ddpg-雙重3q學(xué)習(xí)模型決策輸出最終預(yù)測(cè)的水質(zhì)多參數(shù)時(shí)序,根據(jù)最終預(yù)測(cè)的水質(zhì)多參數(shù)時(shí)序確定水體富營養(yǎng)化程度。
15、相比現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)和積極效果在于:
16、(1)本發(fā)明方法使用基于雙經(jīng)驗(yàn)池的tddpg模型、addpg模型和rdpg模型來進(jìn)行水質(zhì)參數(shù)時(shí)序數(shù)據(jù)預(yù)測(cè),提高了預(yù)測(cè)精度,避免局部最優(yōu);本發(fā)明方法利用attention、lstm和transformer網(wǎng)絡(luò)進(jìn)行特征提取,結(jié)合改進(jìn)的ddpg網(wǎng)絡(luò)進(jìn)行初步預(yù)測(cè),構(gòu)建了ddpg-雙重3q學(xué)習(xí)模型,實(shí)現(xiàn)了智能體b的參數(shù)訓(xùn)練和誤差計(jì)算,提高了模型預(yù)測(cè)水質(zhì)多參數(shù)時(shí)序數(shù)據(jù)的準(zhǔn)確性和預(yù)測(cè)效率。本發(fā)明方法創(chuàng)新地將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,為復(fù)雜預(yù)測(cè)問題提供了新的解決方案,具有重要的理論和應(yīng)用意義。
17、(2)本發(fā)明方法構(gòu)建了基于雙經(jīng)驗(yàn)池的tddpg模型用于預(yù)測(cè)多因素水質(zhì)時(shí)序數(shù)據(jù),通過引入transformer結(jié)構(gòu),該結(jié)構(gòu)的并行計(jì)算和自我關(guān)聯(lián)機(jī)制提高了模型對(duì)多因素水質(zhì)數(shù)據(jù)特征的識(shí)別和提取效率;actor網(wǎng)絡(luò)對(duì)transformer編碼的狀態(tài)特征集進(jìn)行決策,增強(qiáng)了動(dòng)作執(zhí)行的準(zhǔn)確性,actor在線網(wǎng)絡(luò)和actor目標(biāo)網(wǎng)絡(luò)使用兩個(gè)獨(dú)立transformer結(jié)構(gòu)提取狀態(tài)特征集,避免預(yù)測(cè)模型陷入局部最優(yōu),也提升了actor目標(biāo)網(wǎng)絡(luò)的軟更新性能;通過隨機(jī)經(jīng)驗(yàn)池和專家經(jīng)驗(yàn)池的雙經(jīng)驗(yàn)池的結(jié)構(gòu),消除了樣本間的時(shí)序關(guān)聯(lián),提高了訓(xùn)練效率和決策質(zhì)量,在訓(xùn)練過程中從雙經(jīng)驗(yàn)池隨機(jī)抽取樣本,避免了智能體陷入局部最優(yōu),有助于找到全局最優(yōu)解,提升了多因素水質(zhì)時(shí)序數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性。
18、(3)現(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型只能針對(duì)特有的環(huán)境來設(shè)計(jì)mdp來解決水體富營養(yǎng)化預(yù)測(cè)問題,卻無法做到對(duì)模型訓(xùn)練效率以及預(yù)測(cè)精度的兼顧,在解決實(shí)際水體富營養(yǎng)化預(yù)測(cè)問題時(shí)實(shí)用性較低。本發(fā)明方法將強(qiáng)化學(xué)習(xí)與mdp框架結(jié)合,提供的基于雙經(jīng)驗(yàn)池的tddpg模型,先通過transformer提取狀態(tài)特征再輸入actor網(wǎng)絡(luò)決策,處理連續(xù)動(dòng)作空間,利用雙經(jīng)驗(yàn)池實(shí)現(xiàn)軟更新,加速學(xué)習(xí)過程,提高了預(yù)測(cè)模型的性能和穩(wěn)定性,降低了樣本間關(guān)聯(lián)性,為預(yù)測(cè)問題提供了一種實(shí)用的解決方案。本發(fā)明方法將多因素水質(zhì)數(shù)據(jù)輸入ddpg-3q學(xué)習(xí)預(yù)測(cè)模型,實(shí)現(xiàn)智能體a的初步預(yù)測(cè)和智能體b的學(xué)習(xí)反饋,利用誤差值再次預(yù)測(cè),進(jìn)一步提高了預(yù)測(cè)精度,為水體富營養(yǎng)化預(yù)測(cè)提供準(zhǔn)確有效的解決方案。