基于交通大數(shù)據(jù)的行程時間融合預測及查詢方法
【技術領域】
[0001]本發(fā)明涉及到路網或單車的交通狀態(tài)預測技術,特別涉及到一種基于交通大數(shù)據(jù)的行程時間融合預測及查詢方法。
【背景技術】
[0002]現(xiàn)有的路網或單車交通狀態(tài)預測方法主要利用浮動車或路側設備提供的交通數(shù)據(jù),甚至只依賴路側設備提供的交通數(shù)據(jù)來預測路網或單車的交通狀態(tài)。這類方法主要通過路側設備直接獲取路網流量、平均速度等交通信息,或者通過對浮動車數(shù)據(jù)進行二次加工來獲取某類交通信息,并基于路網拓撲,采用模型遞推方式進行預測,預測的交通信息主要集中在交通三要素,導致推廣面不廣,推廣價值也不高,即存在通用性問題,這給業(yè)務擴展造成較大困擾。并且,現(xiàn)有方法通常從順時向去考慮浮動車數(shù)據(jù)的影響,通常會忽略掉浮動車數(shù)據(jù)的時間因素,并采用線性的數(shù)學計算方式,如求和、求均等運算,脫離了路網交通的本原特征,導致交通信息的提取精度和穩(wěn)定性都不高,實用性也不強。特別是面對結構復雜的海量浮動車數(shù)據(jù)時,現(xiàn)有的路網或單車交通狀態(tài)預測方法通常顯得束手無策。顯然,現(xiàn)有的路網或單車交通狀態(tài)預測技術存在著實時性較差、通用性較差和實用性不強等問題。
【發(fā)明內容】
[0003]為解決現(xiàn)有的路網或單車交通狀態(tài)預測技術存在的實時性較差、通用性較差和實用性不強等問題,本發(fā)明提出一種基于交通大數(shù)據(jù)的行程時間融合預測及查詢方法。
[0004]本發(fā)明基于交通大數(shù)據(jù)的行程時間融合預測方法,對所有在線車輛上傳的數(shù)據(jù)進行離線計算或訓練來獲取各類預測模型及參數(shù),依據(jù)各類預測模型及參數(shù)建立并動態(tài)更新數(shù)據(jù)字典;調用各類預測模型及參數(shù),并結合實時路段和路徑的行程時間數(shù)據(jù),對路網或單車的交通狀態(tài)進行預測;所述數(shù)據(jù)字典包括車輛數(shù)據(jù)字典、路段數(shù)據(jù)字典和路徑數(shù)據(jù)字典;所述在線車輛是指注冊入網并自動上傳定位和速度數(shù)據(jù)的車輛。
[0005]進一步的,本發(fā)明基于交通大數(shù)據(jù)的行程時間融合預測方法,對所有在線車輛上傳的數(shù)據(jù)進行離線計算或訓練,以獲取各類預測模型及參數(shù),包括,設定每天從0:00時到24:00時為一個完整循環(huán)周期,按照工作日、星期六、星期日或節(jié)假日的出行方式對行程時間數(shù)據(jù)進行出行類型劃分,獲取出行類型的出行編號;每個周期的行程時間數(shù)據(jù)按照時間的先后順序排列成一個行程時間序列。
[0006]進一步的,本發(fā)明基于交通大數(shù)據(jù)的行程時間融合預測方法,所述各類預測模型及參數(shù)包括路段或路徑行程時間數(shù)據(jù)周期規(guī)則模型、路段或路徑行程時間的統(tǒng)計規(guī)則模型、路段或路徑行程時間長時預測模型、路段或路徑行程時間短時預測模型、路段或路徑行程時間長短時融合預測模型和交叉口延誤關聯(lián)分析模型;其中,
采用周期律級數(shù)逼近PLSA(Per1dic Law Series Approximat1n,PLSA)算法獲取路段或路徑行程時間數(shù)據(jù)周期規(guī)則模型,并采用最小二乘法LSM(Least Square Method,LSM)求解逼近模型參數(shù); 采用統(tǒng)計規(guī)律提取SRE(Statistical Rule Extract1n,SRE)算法獲取路段或路徑行程時間統(tǒng)計規(guī)則模型,并采用核密度估計KDE(Kernel Density Estimat1n,KDE)獲取路段或路徑行程時間的概率密度變化規(guī)律;
采用長時滾動糾偏預測LRCF(Long_time Rolling Correct1n Forecast,LRCF)算法獲取路段或路徑行程時間長時預測模型,并通過離線計算獲取長時預測模型參數(shù),通過在線計算快速實現(xiàn)路段或路徑行程時間預測;
采用短時滾動擬合預測SRFF(Short_time Rolling Fitting Forecast,SRFF)算法獲取路段或路徑行程時間短時預測模型,并采用時間序列自回歸滑動平均ARMA (Auto-Regressive and Moving Average,ARMA)算法構造短時預測模型,并采用最小二乘法LSM(Least Square Method,LSM)求解模型參數(shù);
采用篩狀融合預測SFF(Sieve Fus1n Forecast,SFF)算法獲取路段或路徑行程時間長短時融合預測模型,并通過離線訓練,采用高斯-牛頓迭代法GNIM(Guassian-NewtonIterative Method,GNIM)獲取融合預測模型參數(shù);
米用交叉口延誤關聯(lián)分析IDCA(Intersect1n Delay Correlat1n Analysis,IDCA)算法構造交叉口延誤關聯(lián)分析模型,并通過最小二乘法LSM(Least Square Method,LSM)求解模型參數(shù),通過離線訓練獲取模型參數(shù),通過在線計算實現(xiàn)路徑行程時間的快速補償;
其中,所述長時預測是指通過LRCF算法獲取路段或路徑行程時間的長時預測值,長時預測時長的取值范圍設定為O分鐘到3個月,具體的長時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取;所述短時預測是指通過SRFF算法獲取路段或路徑行程時間的短時預測值,短時預測時長的取值范圍設定為O分鐘到3個小時,具體的短時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取。
[0007]進一步的,本發(fā)明基于交通大數(shù)據(jù)的行程時間融合預測方法,所述路段數(shù)據(jù)字典用于存儲行程時間的周期序列、概率序列和各種模型及參數(shù),其數(shù)據(jù)存儲及更新包括以下步驟:
5101、讀取歷史數(shù)據(jù),從路段數(shù)據(jù)字典中讀取歷史數(shù)據(jù),包括路段編號、等時距采樣的路段行程時間數(shù)據(jù)、日期和時刻數(shù)據(jù);
5102、選取路段,根據(jù)路段編號的先后順序選取一條未處理的路段;
5103、路段行程時間數(shù)據(jù)分類,基于路網潮汐流理論,設定每天從0:00時到24:00時為一個完整循環(huán)周期,按照工作日、星期六、星期日、節(jié)假日的出行方式,對行程時間數(shù)據(jù)進行出行類型劃分和編號,即出行編號,每個周期的行程時間數(shù)據(jù)排列成一個行程時間序列;
5104、選取路段行程時間數(shù)據(jù),根據(jù)出行編號的先后順序選取一類未處理的路段行程時間數(shù)據(jù);
5105、獲取行程時間數(shù)據(jù)周期規(guī)則模型及參數(shù),采用PLSA算法來獲取路段或路徑行程時間數(shù)據(jù)周期規(guī)則模型,并采用LSM來求解逼近模型參數(shù);包括:
51051、對任意兩個不同周期的行程時間序列進行相關度聚類分析,提取相關度大的行程時間數(shù)據(jù)形成集合并進行求均計算,獲得平均行程時間序列;
51052、以“4V小時”為基礎圓周率,構造一個傅里葉級數(shù)模型來逼近平均行程時間序列,通過LSM求解逼近方程來獲取模型參數(shù);
51053、按照能量從高到低的順序,截取總能量I98%模型參數(shù),其余參數(shù)置零,從而獲得PLSA模型參數(shù);
S1054、由PLSA算法生成路段行程時間的一個周期序列,將該周期序列和PLSA模型參數(shù)等信息存儲到路段數(shù)據(jù)字典中;
5106、獲取路段行程時間統(tǒng)計規(guī)律模型及參數(shù),采用SRE算法獲取路段或路徑行程時間的統(tǒng)計規(guī)則模型,并采用KDE獲取路段或路徑行程時間的概率密度變化規(guī)律;包括:
51061、標定某個時刻,選出所有周期在該時刻的行程時間數(shù)據(jù)形成數(shù)據(jù)集,用KDE獲得概率密度函數(shù),找到概率密度最大值對應的行程時間,即概率最大行程時間;
51062、求解所有時刻對應的概率最大行程時間,按時序排列成路段行程時間的概率序列并存儲到路段數(shù)據(jù)字典中;
5107、獲取路段行程時間長時預測模型及參數(shù),采用LRCF算法獲取路段行程時間長時預測模型及參數(shù),并通過離線計算獲取長時預測模型參數(shù);包括:
51071、將行程時間的周期序列和概率序列求和平均,獲得行程時間的長時初值序列
51072、標定某個時刻,計算所有周期在該時刻對應的行程時間與長時初值進行比較,獲得差值,并按時序排列成一個差值序列;
51073、考慮到相鄰差值之間的天數(shù)間距,構造一個二元多次多項式模型來逼近該差值序列,自適應調整多項式的項數(shù),找到最小擬合偏差對應的多項式模型;
51074、求解多項式模型的過程即為LRCF算法,獲取所有時刻對應的LRCF模型參數(shù)并存入路段數(shù)據(jù)字典中;
5108、獲取路段行程時間的短時預測模型及參數(shù),采用SRFF算法獲取路段行程時間短時預測模型,并采用ARMA算法構造短時預測模型,并采用LSM求解模型參數(shù);包括:
51081、按時序將所有周期的行程時間序列排列成一個長序列;
51082、假定該長序列的時間間距均等,用ARMA算法構造一個N項多項式模型來擬合后N個行程時間,用LSM求其參數(shù)和擬合誤差;
51083、通過調整N來調節(jié)擬合誤差的大小,挑出誤差最小時對應的多項式模型;
51084、求解該多項式模型的過程即為SRFF算法,將SRFF模型參數(shù)存入路段數(shù)據(jù)字典中;
5109、獲取路段行程時間長短時融合預測模型及參數(shù),采用SFF算法獲取路段行程時間長短時融合預測模型,并通過離線訓練,采用GNIM獲取融合預測模型參數(shù);包括:
51091、標定起始時刻,獲取SRFF模型的項數(shù)N,構造一個2X N篩狀系數(shù)矩陣,其中,每個元素為非負且每一列的元素之和恒為I,元素值未知;
51092、從起始時刻開始對行程時間進行預測,通過LRCF算法來補償長時初值序列,獲取未來N個長時預測值,通過SRFF算法獲取未來N個短時預測值,由這兩種預測值序列組成一個2 X N預測矩陣;
51093、將系數(shù)矩陣與預測矩陣點乘后行相加處理,獲得一個IXN融合向量,用融合向量逼近相應的行程時間序列,獲得相應的相關系數(shù)方程;
51094、向后逐步調整起始時刻,用同樣的方法獲得相應的相關系數(shù)方程,由這些方程構成一個相關系數(shù)方程組;
51095、用GN頂求解該方程組,獲得篩狀系數(shù)矩陣的元素值,也即SFF模型參數(shù),將SFF模型參數(shù)存入路段數(shù)據(jù)字典中; 5110、判斷是否所有路段行程時間處理完畢?是則,順序執(zhí)行步驟S111,否則,返回執(zhí)行步驟S104;
5111、判斷所有路段是否處理完畢?是則,順序執(zhí)行步驟S112,否則,返回執(zhí)行步驟S102;
5112、結束此次路段數(shù)據(jù)字典的數(shù)據(jù)存儲及更新;
其中,所述長時預測是指通過LRCF算法獲取路段或路徑行程時間的長時預測值,長時預測時長的取值范圍設定為O分鐘到3個月,具體的長時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取;所述短時預測是指通過SRFF算法獲取路段或路徑行程時間的短時預測值,短時預測時長的取值范圍設定為O分鐘到3個小時,具體的短時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取。
[0008]進一步的,本發(fā)明基于交通大數(shù)據(jù)的行程時間融合預測方法,所述路徑數(shù)據(jù)字典用于存儲行程時間的周期序列、概率序列和各種模型及參數(shù),其數(shù)據(jù)存儲及更新包括以下步驟:
5201、讀取歷史數(shù)據(jù),從路徑和路段數(shù)據(jù)字典中讀取歷史數(shù)據(jù),包括路網節(jié)點、路段編號、路徑編號、等時距采樣的路段和路徑行程時間數(shù)據(jù)、日期和時刻數(shù)據(jù);
5202、選取節(jié)點組合,根據(jù)路網節(jié)點編號的排列組合關系,選取一組未處理的兩節(jié)點組合;
5203、選取路徑,根據(jù)兩節(jié)點組合選取一條未處理路徑;
5204、路徑行程時間數(shù)據(jù)分類,基于路網潮汐流理論,設定每天從0:00時到24:00時為一個完整循環(huán)周期,按照工作日、星期六、星期日、節(jié)假日的出行方式,對行程時間數(shù)據(jù)進行出行類型劃分和編號,即出行編號,每個周期的行程時間數(shù)據(jù)排列成一個行程時間序列;
5205、選取路徑行程時間數(shù)據(jù),根據(jù)出行編號的先后順序選取一類未處理的路徑行程時間數(shù)據(jù);
5206、獲取行程時間數(shù)據(jù)周期規(guī)則模型及參數(shù),采用PLSA算法來獲取路段或路徑行程時間數(shù)據(jù)周期規(guī)則模型,并采用LSM來求解逼近模型參數(shù);包括:
52061、對任意兩個不同周期的行程時間序列進行相關度聚類分析,提取相關度大的行程時間數(shù)據(jù)形成集合并進行求均計算,獲得平均行程時間序列;
52062、以“4V小時”為基礎圓周率,構造一個傅里葉級數(shù)模型來逼近平均行程時間序列,通過LSM求解逼近方程來獲取模型參數(shù);
52063、按照能量從高到低的順序,截取總能量?98%模型參數(shù),其余參數(shù)置零,從而獲得PLSA模型參數(shù);
52064、由PLSA算法生成路徑行程時間的一個周期序列,將該周期序列和PLSA模型參數(shù)等信息存儲到路徑數(shù)據(jù)字典中;
5207、獲取路段行程時間統(tǒng)計規(guī)律模型及參