一種基于相似性搜索的組合模型預(yù)測(cè)水位的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于相似性搜索的組合模型預(yù)測(cè)水位的方法,尤其涉及對(duì)水文水 位數(shù)據(jù)的預(yù)處理、利用相似性搜索有效的降低訓(xùn)練集的維度以及基于LM算法改進(jìn)的BP神 經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的組合預(yù)測(cè)方法,屬于信息技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著時(shí)代的進(jìn)步以及計(jì)算機(jī)的廣泛應(yīng)用,存儲(chǔ)在計(jì)算機(jī)上的內(nèi)容越來越多,如何 從這些海量的歷史數(shù)據(jù)中挖掘出有用的信息服務(wù)于對(duì)未來的預(yù)測(cè),同時(shí)還不會(huì)被歷史數(shù)據(jù) 中的冗余、空缺和錯(cuò)誤的信息干擾,成為人們比較關(guān)注的話題。尤其在水文領(lǐng)域,中國有大 量的水文測(cè)站,每個(gè)測(cè)站都有海量的歷史數(shù)據(jù),合理的利用這些歷史數(shù)據(jù)能夠有助于水文 的預(yù)測(cè),從而為防洪調(diào)度等提供有力的技術(shù)支持。
[0003] 目前存在很多預(yù)測(cè)水位的方法,但是他們都有一些缺陷。使用最廣的是一些針對(duì) 特定流域所建立的水文方面的預(yù)測(cè)模型,比如新安江模型等,這些模型都有一定的適用范 圍,并且只能被一些專業(yè)人員所掌握,因此適應(yīng)性不強(qiáng)。其他就是一些主要針對(duì)水位數(shù)據(jù)本 身進(jìn)行預(yù)測(cè)的方法,例如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。但這些模型的建立都依賴于訓(xùn)練集的 選取,由于神經(jīng)網(wǎng)絡(luò)的黑盒特性,想提高預(yù)測(cè)精度,更改神經(jīng)網(wǎng)絡(luò)本身比較困難,針對(duì)這種 缺陷,本發(fā)明對(duì)訓(xùn)練集進(jìn)行優(yōu)化,去除其中的冗余錯(cuò)誤信息;而支持向量機(jī)不適用于大數(shù)據(jù) 集,本發(fā)明在不損失有用信息的基礎(chǔ)上降低訓(xùn)練集的維度。利用相似性搜索對(duì)訓(xùn)練集進(jìn)行 優(yōu)化,還可以降低預(yù)測(cè)所需的時(shí)間,從而增強(qiáng)預(yù)測(cè)的實(shí)時(shí)性。
【發(fā)明內(nèi)容】
[0004] 發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問題與不足,為提高預(yù)測(cè)的精度、實(shí)時(shí)性以及適 應(yīng)性,本發(fā)明提供一種基于相似性搜索的組合模型預(yù)測(cè)水位的方法。
[0005] 技術(shù)方案:一種基于相似性搜索的組合模型預(yù)測(cè)水位的方法,包括:
[0006] a)數(shù)據(jù)預(yù)處理部分:主要包括處理空缺和錯(cuò)誤數(shù)據(jù)。填補(bǔ)空缺數(shù)據(jù)時(shí)按照空缺數(shù) 據(jù)的種類分為四種,分別進(jìn)行不同的填補(bǔ)操作;修正錯(cuò)誤數(shù)據(jù)時(shí),首先通過3 〇準(zhǔn)則判斷出 錯(cuò)誤數(shù)據(jù),然后根據(jù)錯(cuò)誤數(shù)據(jù)的特征按照填補(bǔ)空缺數(shù)據(jù)的方法進(jìn)行修正。
[0007] b)確定待匹配序列部分:利用相關(guān)系數(shù)從待預(yù)測(cè)日前幾日的水位中挑選出與待 預(yù)測(cè)日相關(guān)的連續(xù)幾日水位作為待匹配序列。
[0008] c)相似性搜索部分:將待預(yù)測(cè)日前的往年歷史水位時(shí)間序列作為待搜索序列,利 用動(dòng)態(tài)彎曲距離從待搜索序列中查找與待匹配序列距離大于閾值的一系列序列,將這些序 列及其后一日水位從訓(xùn)練集中剔除,剩下的序列將作為降維后的訓(xùn)練集輸入到組合預(yù)測(cè)模 型中。
[0009] d)組合預(yù)測(cè)模型部分:組合預(yù)測(cè)模型有兩個(gè)基本模型,分別是基于LM算法改進(jìn)的 BP神經(jīng)網(wǎng)絡(luò)模型以及支持向量機(jī)模型。分別將訓(xùn)練集輸入到這兩個(gè)模型中進(jìn)行訓(xùn)練,確定 好模型后,將待匹配序列的水位分別輸入這兩個(gè)基本模型,得到兩個(gè)模型的預(yù)測(cè)值;然后根 據(jù)貝葉斯定理,根據(jù)這兩個(gè)基本模型上一時(shí)刻的預(yù)測(cè)表現(xiàn)分別賦予它們權(quán)重,最后的預(yù)測(cè) 值則是兩個(gè)基本模型的預(yù)測(cè)值分別乘以它們各自的權(quán)重后相加的結(jié)果。
[0010] 有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明所提供的一種基于相似性搜索的組合模型預(yù) 測(cè)水位的方法針對(duì)水文數(shù)據(jù)有較好的預(yù)處理方法,利用相似性搜索有效的降低了訓(xùn)練集的 維度并且沒有丟失有利于預(yù)測(cè)的信息,本發(fā)明將基于LM算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)與支持向 量機(jī)模型相組合,讓它們相互彌補(bǔ),從而達(dá)到更好的預(yù)測(cè)效果,并且降低了預(yù)測(cè)時(shí)間。
【附圖說明】
[0011] 圖1為本發(fā)明實(shí)施例的方法流程圖;
[0012] 圖2為本發(fā)明實(shí)施例的相似性搜索模塊流程圖;
[0013] 圖3為本發(fā)明實(shí)施例的基于LM算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖;
[0014] 圖4為本發(fā)明實(shí)施例的支持向量機(jī)訓(xùn)練流程圖;
[0015] 圖5為本發(fā)明實(shí)施例的組合預(yù)測(cè)模型流程圖。
【具體實(shí)施方式】
[0016] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0017] 如圖1為方法流程,包括以下部分:
[0018] a)數(shù)據(jù)預(yù)處理部分:主要包括處理空缺和錯(cuò)誤數(shù)據(jù)。根據(jù)水文水位數(shù)據(jù)的特性, 空缺數(shù)據(jù)可以分為四種:數(shù)據(jù)連續(xù)缺失超過15天、連續(xù)缺失8-15天、連續(xù)缺失4-7天和連 續(xù)缺失低于4天。第一種情況則刪除當(dāng)月的記錄,第二種情況利用前后各兩年的同期歷史 水位的平均值代替,第三種情況用當(dāng)月的平均值填補(bǔ),第四種用近一周的平均值補(bǔ)充。對(duì)于 錯(cuò)誤數(shù)據(jù)的修正,首先根據(jù)3 〇準(zhǔn)則判斷出錯(cuò)誤數(shù)據(jù),大約所有的正確數(shù)據(jù)(99. 74% )都在 區(qū)間(μ-3〇, μ+3〇)內(nèi),其中μ是數(shù)據(jù)的平均值,〇是數(shù)據(jù)的標(biāo)準(zhǔn)差,那么在這個(gè)區(qū)間 范圍外的就有理由認(rèn)為是錯(cuò)誤數(shù)據(jù)了,找出錯(cuò)誤數(shù)據(jù)后,判斷出它們屬于上述四種情況的 哪一個(gè),再進(jìn)行修正。
[0019] b)確定待匹配序列部分:利用相關(guān)系數(shù)從待預(yù)測(cè)日前幾日的水位中挑選出與待 預(yù)測(cè)日相關(guān)的連續(xù)幾日水位作為待匹配序列。例如求待預(yù)測(cè)日前一日與待預(yù)測(cè)日的相關(guān) 性,從待預(yù)測(cè)日所在年的前十年中分別找出待預(yù)測(cè)日前一日及待預(yù)測(cè)日同期的水位值,相 關(guān)系數(shù)計(jì)算公式如公式(1)所示,其中η = 10, X1代表前i年與待預(yù)測(cè)日前一日同期的水 位,Y1代表前i年與待預(yù)測(cè)日同期的水位,F(xiàn)代表這η年待預(yù)測(cè)日前一日同期水位的平均 值,7代表這η年待預(yù)測(cè)日同期水位的平均值,r就是X與y的相關(guān)系數(shù)。取r大于0. 7視 為與待預(yù)測(cè)日相關(guān),從待預(yù)測(cè)日前一日開始往前尋找,當(dāng)遇到第一個(gè)小于〇. 7時(shí)停止,得到 的那幾個(gè)大于〇. 7的即為待匹配序列所對(duì)應(yīng)的日期。
[0021] c)相似性搜索部分:將待預(yù)測(cè)日前的往年歷史水位時(shí)間序列作為待搜索序列,利 用動(dòng)態(tài)彎曲距離從待搜索序列中查找與待匹配序列距離大于閾值的一系列序列,將這些序 列及其后一日水位從訓(xùn)練集中剔除,剩下的序列將作為降維后的訓(xùn)練集輸入到組合預(yù)測(cè)模 型中。
[0022] d)組合預(yù)測(cè)模型模塊:組合預(yù)測(cè)模型有兩個(gè)基本模型,分別是基于LM算法改進(jìn)的 BP神經(jīng)網(wǎng)絡(luò)模型以及支持向量機(jī)模型。分別將訓(xùn)練集輸入到這兩個(gè)模型中進(jìn)行訓(xùn)練,確定 好模型后,將待匹配序列的水位分別輸入這兩個(gè)基本模型,得到兩個(gè)模型的預(yù)測(cè)值;然后根 據(jù)貝葉斯定理,根據(jù)這兩個(gè)基本模型上一時(shí)刻的預(yù)測(cè)表現(xiàn)分別賦予它們權(quán)重,最后的預(yù)測(cè) 值則是兩個(gè)基本模型的預(yù)測(cè)值分別乘以它們各自的權(quán)重后相加的結(jié)果。
[0023] 如圖2為相似性搜索模塊示意圖。包括如下步驟:
[0024] 步驟101,按照上述步驟確定好待匹配序列后,將待預(yù)測(cè)日前的往年歷史水位時(shí)間 序列作為待搜索序列,將這兩個(gè)序列進(jìn)行Min-Max標(biāo)準(zhǔn)化,將數(shù)據(jù)映射到[0,1]之間,標(biāo)準(zhǔn) 化公式如(2)所示,其中max代表數(shù)據(jù)中的最大值,min代表數(shù)據(jù)中的最小值,X是原始時(shí)間 序列,X'是標(biāo)準(zhǔn)化后的時(shí)間序列:
P):
[0026] 步驟102,確定滑動(dòng)窗口的長度為待匹配序列的長度,起始位置為所使用的歷史數(shù) 據(jù)的起始時(shí)間;
[0027] 步驟103,對(duì)于兩個(gè)時(shí)間序列X = U1, X2,…,xj與Y = Iy1, y2,…,yj (其中η為 待匹配序列的長度),建立X與Y之間的距離矩陣D,其中d (Xl,yj)代表的是\與y j之間的 距離:
(3)
[0029] 步驟104,計(jì)算動(dòng)態(tài)彎曲(DTW)距離填充矩陣,并標(biāo)記對(duì)應(yīng)序列的起始終止時(shí)間。 其中計(jì)算公式如下:
[0032] 步驟105,判斷滑動(dòng)窗口的末尾是否到達(dá)了待預(yù)測(cè)日的前一日,如果沒有則將滑動(dòng) 窗口向后移一位繼續(xù)步驟104,否則向下執(zhí)行步驟106 ;
[0033] 步驟106,比較得出大于閾值的距離,并記錄對(duì)應(yīng)的起始終止時(shí)間,閾值需根據(jù)所 選用的歷史數(shù)據(jù)的數(shù)量決定,當(dāng)數(shù)據(jù)量不大時(shí)可將閾值定為所有距離的中位數(shù),當(dāng)數(shù)據(jù)量 較大時(shí),可將閾值定義為1 (所有的數(shù)據(jù)都已經(jīng)標(biāo)準(zhǔn)化到(〇, 1)之間,當(dāng)DTW距離達(dá)到1時(shí) 證明兩個(gè)序列已經(jīng)有很大差異了)。
[0034] 如圖3為基于LM算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖。包括如下步驟:
[0035] 步驟201,初始化網(wǎng)絡(luò)的權(quán)值閾值,并給定訓(xùn)練允許