基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法
【專利摘要】本發(fā)明公開了一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法,該方法包括讀入需要進行訓(xùn)練和測試的數(shù)據(jù);對數(shù)據(jù)進行相關(guān)性分析,從中選擇顯著相關(guān)的氣象因素;對得到的顯著相關(guān)因素,進行主成分分析,提取特征;將訓(xùn)練數(shù)據(jù)作為廣義回歸神經(jīng)網(wǎng)絡(luò)多步預(yù)測模型的輸入,構(gòu)建廣義回歸神經(jīng)網(wǎng)絡(luò)多步預(yù)測模型;通過不斷迭代和遞歸,建立多步預(yù)測模型;廣義回歸神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果按等級劃分;本發(fā)明從根本上克服了現(xiàn)有技術(shù)的缺陷,對訓(xùn)練樣本要求低,不存在局部極小化的問題,參數(shù)少,訓(xùn)練速度更快,預(yù)測準確度更高,可分別針對兒童和成人進行預(yù)測,在缺失氣象數(shù)據(jù)的情況下依然可以準確快速地預(yù)測短期腹瀉病。
【專利說明】基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,具體地說是一種基于廣義回歸神經(jīng)網(wǎng)絡(luò),在缺乏氣象數(shù)據(jù)或者同時具備氣象數(shù)據(jù)和腹瀉數(shù)據(jù)的情況下,分別對兒童及成人的腹瀉病進行多步預(yù)測的方法。
【背景技術(shù)】
[0002]近年來,人類社會產(chǎn)生越來越多的數(shù)據(jù),促進了數(shù)據(jù)挖掘技術(shù)的快速發(fā)展。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又潛在有用的信息和知識的過程。
[0003]目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)被應(yīng)用到金融、制造業(yè)、保險業(yè)等多個領(lǐng)域。如何利用數(shù)據(jù)挖掘技術(shù)對流行病進行預(yù)測引起了不少關(guān)注。不少學(xué)者試圖在各種氣象影響因素與腹瀉病發(fā)病率或發(fā)病人數(shù)之間建立數(shù)學(xué)模型,預(yù)測在不同的氣象因素作用下腹瀉發(fā)病的變化,但均存在一些不足:
[0004]第一種技術(shù)是基于傳統(tǒng)的統(tǒng)計學(xué)方法。這類方法無法很好地反映氣象因素與腹瀉發(fā)病人數(shù)之間復(fù)雜的非線性關(guān)系,預(yù)測效果往往不能令人滿意;用于建立腹瀉預(yù)測模型的歷史樣本數(shù)據(jù)以及氣象數(shù)據(jù)偏少,從而造成不能很好地挖掘數(shù)據(jù)中所蘊藏的知識;已有的腹瀉預(yù)測模型或僅以外部氣象因素進行預(yù)測的模型,在缺少氣象因素數(shù)據(jù)的情況下無法進行預(yù)測;或僅通過腹瀉病例歷史數(shù)據(jù)進行時間序列預(yù)測,沒有同時兼顧這兩種情況進行腹瀉病的預(yù)測;已有的腹瀉預(yù)測模型多以月腹瀉發(fā)病人數(shù)為預(yù)測項,缺乏早期(逐日預(yù)測)預(yù)測預(yù)報功能。
[0005]第二種技術(shù)是基于BP人工神經(jīng)網(wǎng)絡(luò)的方法。BP人工神經(jīng)網(wǎng)絡(luò)雖然具有非線性映射能力、自學(xué)習(xí)和自適應(yīng)能力、泛化能力、容錯能力等優(yōu)點,但是存在局部極小化問題,容易導(dǎo)致訓(xùn)練失敗,同時BP人工神經(jīng)網(wǎng)絡(luò)對于初始值非常敏感,不同的初始值往往導(dǎo)致其收斂于不同的局部極小值點;由于BP人工神經(jīng)網(wǎng)絡(luò)的目標函數(shù)非常復(fù)雜,導(dǎo)致其訓(xùn)練速度很慢;BP人工神經(jīng)網(wǎng)絡(luò)的預(yù)測能力對于訓(xùn)練數(shù)據(jù)的典型性有較高要求;由于BP人工神經(jīng)網(wǎng)絡(luò)的參數(shù)較多,即使同樣的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),訓(xùn)練最優(yōu)模型仍需要花費較多時間。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足而提供的一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法,該方法能夠分別針對兒童和成人以及在缺乏氣象數(shù)據(jù)或者同時具備氣象數(shù)據(jù)和腹瀉數(shù)據(jù)的情況下,建立對應(yīng)的模型,進行多步的預(yù)測,得到令人較滿意的預(yù)測結(jié)果。
[0007]實現(xiàn)本發(fā)明目的的具體技術(shù)方案是:
[0008]一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法,該方法包括以下具體步驟:
[0009](I)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù):在5?7年某地區(qū)腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)中選擇最近一年的腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)作為測試數(shù)據(jù),剩余幾年的腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)作為訓(xùn)練數(shù)據(jù);
[0010](2)數(shù)據(jù)預(yù)處理:對訓(xùn)練數(shù)據(jù)進行數(shù)據(jù)清洗和歸一化處理;
[0011](3)相關(guān)性分析:對訓(xùn)練數(shù)據(jù)進行Spearman相關(guān)性分析,從中選擇顯著相關(guān)的氣象因素;
[0012](4)主成分分析:對步驟(3)選擇的因素進行主成分分析,提取特征;
[0013](5)基于廣義回歸神經(jīng)網(wǎng)絡(luò)建模:以步驟⑷提取的特征作為廣義回歸神經(jīng)網(wǎng)絡(luò)的輸入,采用高斯函數(shù)作為徑向基函數(shù),輸出腹瀉發(fā)病預(yù)測結(jié)果,對廣義回歸神經(jīng)網(wǎng)絡(luò)進行仿真訓(xùn)練,確定廣義回歸神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,對兒童和成人分別建立24小時單元或多元多步預(yù)測模型,通過將數(shù)據(jù)輸入預(yù)測模型獲得預(yù)測結(jié)果,按百分位數(shù)法對預(yù)測結(jié)果進行等級劃分;
[0014]所述步驟⑴中氣象數(shù)據(jù)為日平均氣溫、日最高氣溫、日最低氣溫、日最低相對濕度、日平均相對濕度、日平均氣壓、日平均風(fēng)速、日照時數(shù)和日累計降雨量。
[0015]所述步驟⑵中對訓(xùn)練數(shù)據(jù)進行數(shù)據(jù)清洗和歸一化處理;具體包括:
[0016]數(shù)據(jù)清洗是檢查數(shù)據(jù)一致性,針對訓(xùn)練數(shù)據(jù)中存在的缺失數(shù)據(jù)、噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、冗余數(shù)據(jù)分別進行處理:
[0017]缺失數(shù)據(jù):使用缺失數(shù)據(jù)前 后一周的數(shù)據(jù)的平均值進行填充;
[0018]噪聲數(shù)據(jù):通過畫散點圖識別噪聲數(shù)據(jù),然后由用戶進行確認及更正;
[0019]錯誤數(shù)據(jù):通過和用戶確認的方式糾正錯誤數(shù)據(jù);
[0020]冗余數(shù)據(jù):人工刪除冗余數(shù)據(jù);
[0021]歸一化處理是為了加快廣義回歸神經(jīng)網(wǎng)絡(luò)的收斂速度,采用公式(I)對訓(xùn)練數(shù)據(jù)進行歸一化處理:
[0022]r..-0.9x^^-—~+0.05(I)
lJmax(Jf.)-min(^.)
[0023]其中,X為訓(xùn)練數(shù)據(jù)矩陣,Xij為矩陣中的元素,Xi為矩陣中的一行,Xu是歸一化后的結(jié)果矩陣。
[0024]所述步驟(4)中對步驟(3)選擇的因素進行主成分分析,提取特征具體包括:
[0025]a)原始樣本數(shù)據(jù)m個變量標準化處理
[0026]由于各氣象因素之間具有不同的量綱和數(shù)量級,使得數(shù)據(jù)之間的差異性比較大,為此在進行主成分分析之前要對原始輸入樣本進行標準化處理,得到標準化數(shù)據(jù)集X’ =(X’ Jxxp,標準化公式如下:
'Xij X j
[0027]Xij=--,、
S'/(2)
[0028]其中:Xij為樣本原數(shù)據(jù),J廣之為_/?為樣本均值,Sj= Ji(Xij~Xj) ^n-1)
J I UV 7=1
為樣本標準差;
[0029]b)求標準化數(shù)據(jù)的相關(guān)系數(shù)矩陣R[0030]R=(riJ)mXm (3)
[0031]其中
【權(quán)利要求】
1.一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)的短期腹瀉病多步預(yù)測方法,其特征在于該方法包括以下具體步驟: (1)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù):在5~7年某地區(qū)腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)中選擇最近一年的腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)作為測試數(shù)據(jù),剩余幾年的腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)作為訓(xùn)練數(shù)據(jù); (2)數(shù)據(jù)預(yù)處理:對訓(xùn)練數(shù)據(jù)進行數(shù)據(jù)清洗和歸一化處理; (3)相關(guān)性分析:對訓(xùn)練數(shù)據(jù)進行Spearman相關(guān)性分析,從中選擇顯著相關(guān)的氣象因素; (4)主成分分析:對步驟(3)選擇的氣象因素進行主成分分析,提取特征; (5)基于廣義回歸神經(jīng)網(wǎng)絡(luò)建模:以步驟(4)提取的特征作為廣義回歸神經(jīng)網(wǎng)絡(luò)的輸入,采用高斯函數(shù)作為徑向基函數(shù),輸出腹瀉發(fā)病預(yù)測結(jié)果,對廣義回歸神經(jīng)網(wǎng)絡(luò)進行仿真訓(xùn)練,確定廣義回歸神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,對兒童和成人分別建立24小時單元或多元多步預(yù)測模型,通過將數(shù)據(jù) 輸入預(yù)測模型獲得預(yù)測結(jié)果,按百分位數(shù)法對預(yù)測結(jié)果進行等級劃分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟⑴中氣象數(shù)據(jù)為日平均氣溫、日最高氣溫、日最低氣溫、日最低相對濕度、日平均相對濕度、日平均氣壓、日平均風(fēng)速、日照時數(shù)和日累計降雨量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(2)中對訓(xùn)練數(shù)據(jù)進行數(shù)據(jù)清洗和歸一化處理,具體包括: 數(shù)據(jù)清洗是檢查數(shù)據(jù)一致性,針對訓(xùn)練數(shù)據(jù)中存在的缺失數(shù)據(jù)、噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、冗余數(shù)據(jù)分別進行處理: 缺失數(shù)據(jù):使用缺失數(shù)據(jù)前后一周的數(shù)據(jù)的平均值進行填充; 噪聲數(shù)據(jù):通過畫散點圖識別噪聲數(shù)據(jù),然后由用戶進行確認及更正; 錯誤數(shù)據(jù):通過和用戶確認的方式糾正錯誤數(shù)據(jù); 冗余數(shù)據(jù):人工刪除冗余數(shù)據(jù); 歸一化處理是為了加快廣義回歸神經(jīng)網(wǎng)絡(luò)的收斂速度,采用公式(I)對訓(xùn)練數(shù)據(jù)進行歸一化處理:
Y -min( V) =0.9 X -^— + 0.05(I)
" max(U-mm(尤.) 其中,X為訓(xùn)練數(shù)據(jù)矩陣,Xij為矩陣中的元素,Xi為矩陣中的一行,Xij是歸一化后的結(jié)果O
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟⑷中對步驟(3)選擇的氣象因素進行主成分分析,提取特征,具體包括: a)對原始樣本數(shù)據(jù)的m個變量進行標準化處理 對原始輸入樣本進行標準化處理,得到標準化數(shù)據(jù)集X’ = (x’u)xXp,標準化公式如下:
'Xij~ X J-
x「Sj⑵其中,&為樣本原數(shù)據(jù),
5.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(5)的廣義回歸神經(jīng)網(wǎng)絡(luò)是由輸入層、模式層、求和層和輸出層組成;輸入層中的神經(jīng)元接收并存儲輸入向量X,輸入層的神經(jīng)元數(shù)量與輸入向量的大小相等,輸入層與模式層相連,輸入層將數(shù)據(jù)傳遞給模式層進行處理;模式層的神經(jīng)元個數(shù)與輸入層的神經(jīng)元個數(shù)相同,徑向基函數(shù)采用高斯函數(shù),通過模式層能夠?qū)W習(xí)到輸入變量與輸出變量之間的關(guān)系;求和層由兩類神經(jīng)元S和D組成,神經(jīng)元S將模式層中的所有神經(jīng)元的輸出進行求和,神經(jīng)元D將模式層中的所有神經(jīng)元的輸出進行加權(quán)處理,權(quán)值默認取值為I ;輸出層中神經(jīng)元的個數(shù)等于學(xué)習(xí)樣本中輸出向量的維數(shù)n,該層各神經(jīng)元將求和的輸出值相除,得到網(wǎng)絡(luò)的估計結(jié)果:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(5)中對兒童和成人分別建立24小時單元或多元多步預(yù)測模型,具體包括: 按照預(yù)測對象不同將訓(xùn)練數(shù)據(jù)劃分,通過廣義回歸神經(jīng)網(wǎng)絡(luò),分別獲得兒童和成人的訓(xùn)練模型;所述單元預(yù)測模型是在氣象數(shù)據(jù)無法獲取的情況下,僅以某地區(qū)腹瀉發(fā)病人數(shù)作為訓(xùn)練數(shù)據(jù);所述多元預(yù)測模型是以某地區(qū)腹瀉發(fā)病人數(shù)和氣象數(shù)據(jù)作為訓(xùn)練數(shù)據(jù); 所述多步預(yù)測模型是指將24小時的單步預(yù)測值通過連接,反饋到廣義回歸神經(jīng)網(wǎng)絡(luò)模型的輸入層作為下一步預(yù)測的輸入值,同時結(jié)合氣象因素預(yù)報值,通過不斷迭代、遞歸,預(yù)測未來多天的腹瀉發(fā)病人數(shù)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(5)中預(yù)測結(jié)果按等級劃分,具體包括: 采用百分位數(shù)法,將預(yù)測得到的發(fā)病人數(shù)四舍五入取整,然后WP5(1、P75、P95三個值為預(yù)報閾值,將其分為四個等級;若預(yù)報等級與實際等級一致,則為預(yù)報命中;若預(yù)報結(jié)果與實際等級一致或相差±1級,則為預(yù)報正確,否則為預(yù)報失誤。
【文檔編號】G06F17/30GK104008164SQ201410234345
【公開日】2014年8月27日 申請日期:2014年5月29日 優(yōu)先權(quán)日:2014年5月29日
【發(fā)明者】顧君忠, 周子力, 王永明, 林晨, 蘭小敏, 陳繼智, 相曉敏 申請人:華東師范大學(xué)