一種基于Markov的個人路徑預測方法
【技術(shù)領域】
[0001] 本發(fā)明涉及個人路徑預測方法,尤其涉及的是一種基于Markov的個人路徑預測方 法。
【背景技術(shù)】
[0002] 目前,隨著手持設備與網(wǎng)絡技術(shù)的發(fā)展,帶有GPS的智能手機、平板電腦等,能實時 采集用戶的GPS位置,并經(jīng)過用戶允許上傳到服務器端。分析個人的運動軌跡,挖掘軌跡下 的動態(tài)信息并應用于位置感知系統(tǒng)已成為大數(shù)據(jù)領域研究的一個熱點。
[0003] 個人路徑預測是基于具有異構(gòu)性、不完整性、不嚴謹性等特點的個人運動的時空 位置數(shù)據(jù),采用數(shù)據(jù)挖掘算法分析個人運動規(guī)律,進而預測其未來的運動軌跡,推測其目的 意圖、生活習慣等潛在的動態(tài)信息。由于個人運動位置信息復雜,與傳統(tǒng)的車輛運動軌跡相 比,其數(shù)據(jù)的可靠性更差,以往的路徑預測算法無法適應這一特點,急需一種是適用人的路 徑預測方法。
【發(fā)明內(nèi)容】
[0004] 為實現(xiàn)個人路徑預測,本發(fā)明提供了一種采用歷史數(shù)據(jù)二次劃分建模與存儲的基 于Markov的個人路徑預測方法,該方法包含對個人GPS路徑歷史數(shù)據(jù)的建模與存儲、有關(guān)聯(lián) 歷史數(shù)據(jù)的個人路徑的預測2個部分。
[0005] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0006] 一種基于Markov的個人路徑預測方法,包括個人GPS路徑歷史數(shù)據(jù)的建模與存儲、 有關(guān)聯(lián)歷史數(shù)據(jù)的個人路徑的預測。
[0007] 個人GPS路徑歷史數(shù)據(jù)的建模與存儲包括以下步驟:
[0008] 1.1)歷史數(shù)據(jù)的準備工作。通過已有的個人GPS路徑采集平臺獲取個人位置移動 的數(shù)據(jù),數(shù)據(jù)包含用戶編號、時刻與經(jīng)煒度,并以時間先后的順序存儲在數(shù)據(jù)庫中,其中時 刻精確到秒;
[0009] 1.2)每次數(shù)據(jù)處理都從數(shù)據(jù)庫中提取某一用戶編號一定數(shù)量的數(shù)據(jù)集,并將該數(shù) 據(jù)集內(nèi)同一時刻的經(jīng)煒度合并,合并為它們的幾何中心;
[0010] 1.3)根據(jù)經(jīng)煒度信息刪除異常的數(shù)據(jù)。計算每一個經(jīng)煒度位置下的速度,當它大 于閾值IsoV時,認定該數(shù)據(jù)異常并刪除,然后尋找每一個時刻下前后IsoK時間內(nèi)與該時刻 對應的經(jīng)煒度位置相距最遠的位置,并計算兩者的距離,如該距離大于閾值IsoD,則認定該 數(shù)據(jù)異常并刪除;
[0011] 1.4)對相鄰的數(shù)據(jù)做數(shù)據(jù)插值處理。計算該數(shù)據(jù)集內(nèi)相鄰數(shù)據(jù)的時刻差,并統(tǒng)計 時刻差大于閾值λ的數(shù)量,計算該數(shù)量占數(shù)據(jù)集總量的百分比,如該百分比小于閾值 Percentage,則執(zhí)行步驟1.5);否則,在時刻差大于等于0.75λ且小于1〇λ的兩個經(jīng)煒度位置 間以線性插值的方式順序生成η。個經(jīng)煒度與時刻,并添加到數(shù)據(jù)集中;
[0012] 1.5)根據(jù)時間差與相鄰兩個經(jīng)煒度位置的距離將數(shù)據(jù)集劃分為多段。尋找相鄰時 間差大于閾值Ts或者相鄰距離大于D的數(shù)據(jù)集對應的編號,并以該編號為分界點,將數(shù)據(jù)分 為多段子序列;計算各段子序列數(shù)據(jù)數(shù)量與子序列時長,并刪除數(shù)據(jù)數(shù)量小于等于L或者序 列時長小于等于TD的子序列;計算各個子序列間首尾時間間隔與首尾間距,如存在兩條子 序列,它們的首尾時間間隔小于等于T s且首尾間距小于等于D,則以時間先后順序?qū)蓷l序 列合并為一條序列,反復搜索與合并,直至不再存在這樣的兩條子序列;
[0013] 1.6)根據(jù)各個子序列的時長,對子序列做第二次劃分。計算各個子序列的時長,如 果某一條子序列的時長大于1.3T,則將該序列以每段時長為T劃分為多個子序列,其中不足 T的部分各為一段;反之,不做子序列劃分處理;
[0014] 1.7)根據(jù)序列的經(jīng)煒度信息存儲數(shù)據(jù)。計算每一段路徑序列的最大最小經(jīng)煒度信 息與最大最小當天時刻信息,將每段序列以"最小經(jīng)度,最大經(jīng)度;最小煒度,最大煒度;最 小時刻,最大時刻"的格式作為文件名保存,則個人GPS路徑歷史數(shù)據(jù)的建模與存儲完成。
[0015] 進一步,在所述步驟1.2)中,從數(shù)據(jù)集提取的一定數(shù)量的量大小應合理,且最后一 條數(shù)據(jù)滿足它在總的數(shù)據(jù)庫中與它的下一條數(shù)據(jù)的時刻之差大于等于1〇λ。
[0016] 進一步,在所述步驟1.2)中,幾何中心的計算方式為
[0017]
[0018] 式1中,xi為同一時刻數(shù)據(jù)集中第i條數(shù)據(jù)中的經(jīng)度,yi為同一時刻數(shù)據(jù)集中第i條 數(shù)據(jù)的煒度,f為幾何中心的經(jīng)度,f為幾何中心的煒度,η為同一時刻數(shù)據(jù)集的數(shù)據(jù)量。
[0019] 進一步,在所述步驟1.4)中,η。的計算公式為
[0020]
[0021] ,Ll+i,Ll 乃 丨 ? 叩通據(jù)的時刻0
[0022] 進一步,在所述步驟1.3)中,兩個經(jīng)煒度位置間的距離計算公式為
[0023] 〇?8=||(αΧ?,βγ?),(αχ」,βγ」)|| (式3)
[0024]式3中,Dis為兩個位置的距離,α為經(jīng)度1度轉(zhuǎn)化為米的近似值,β為煒度1度轉(zhuǎn)化為 米的近似值。
[0025] 有關(guān)聯(lián)歷史數(shù)據(jù)的個人路徑的預測包括以下步驟:
[0026] 2.1)獲取某一用戶當前的GPS路徑數(shù)據(jù),并取距離當前時刻ΤΡ內(nèi)的GPS路徑數(shù)據(jù), 分析該路徑數(shù)據(jù)的范圍,即路徑經(jīng)煒度位置的最大最小經(jīng)煒度,并根據(jù)路徑關(guān)聯(lián)度的匹配 方法,獲取與當前路徑相關(guān)度高的歷史路徑數(shù)據(jù);
[0027] 2.2)計算當前GPS路徑數(shù)據(jù)及相關(guān)的歷史GPS路徑數(shù)據(jù)的最大最小經(jīng)煒度,并將由 最大最小經(jīng)煒度確定的矩形區(qū)域Area以邊長GridSize的正方形網(wǎng)格單元劃分為Nr?行Nc〇i 列,采用自適應調(diào)整GridSize的方法使得GridSize盡可能小且滿足 中MaxGrid為最大的網(wǎng)格數(shù)量,然后統(tǒng)計每一塊網(wǎng)格單元下數(shù)據(jù)的數(shù)量;
[0028] 2.3)以當前GPS路徑數(shù)據(jù)的第一個點所在的網(wǎng)格單元為網(wǎng)格路徑的起點,第一個 點的時間為起點的進入時間與出去時間,并計算當前GPS路徑序列上下一時刻的經(jīng)煒度位 置所對應的網(wǎng)格位置,如果與前一時刻同處一個網(wǎng)格位置,則更新起點的出去時刻為該時 亥IJ,并繼續(xù)以同樣的方法處理下一時刻的數(shù)據(jù);如果與前一時刻所處網(wǎng)格位置不同,則另該 網(wǎng)格位置為網(wǎng)格路徑的下一個點,并設定該網(wǎng)格點的進入時間與出去時間為當前時刻,然 后以同樣的方法處理下一時刻的數(shù)據(jù),直至處理完所有的數(shù)據(jù),構(gòu)建出一條當前GPS路徑數(shù) 據(jù)對應的網(wǎng)格路徑;
[0029] 2.4)對獲取的歷史數(shù)據(jù)采用步驟2.3)的方法,將每條歷史路徑轉(zhuǎn)化為相對應的網(wǎng) 格路徑;
[0030] 2.5)采用1階Markov模型預測個人路徑。假設網(wǎng)格路徑上的每一點i的狀態(tài)為Sn 根據(jù)每一條網(wǎng)格路徑,采用頻數(shù)挖掘的方法統(tǒng)計狀態(tài)Si向狀態(tài)&轉(zhuǎn)移的概率為Sl +并采用 Markov模型計算當前狀態(tài)為Si時,k階段后,最大概率的狀態(tài)Si+k,其計算公式為
[0031] max P{Si+k|Sk}(式4)
[0032] 式4中,P{Si+k| Sk}為Si經(jīng)過k次轉(zhuǎn)換后為Si+k的概率值。
[0033] 2.6)根據(jù)公式(4)計算5」,其中」=1+14+2丄4+1^,獲得狀態(tài)轉(zhuǎn)移序列
[0034] Si~>Si+l~~>Si+k-1~>Si+k
[0035] 計算它們對應的網(wǎng)格幾何中心的經(jīng)煒度,作為預測的經(jīng)煒度路徑序列。結(jié)束。
[0036] 進一步,所述步驟2.1)中依據(jù)關(guān)聯(lián)度的匹配方法,通過計算當前GPS路徑數(shù)據(jù)所在 的最大最小經(jīng)煒度范圍與各歷史路徑數(shù)據(jù)所在的最大最小經(jīng)煒度范圍的重合面積,要求重 合面積占當前GPS路徑數(shù)據(jù)范圍的M P以上,其中MPe [0. 5,1 ],重合面積的計算方法為
[0037] -^
.
[0038] 式5中,Α?_η為重合面積,AP為當前GPS路徑數(shù)據(jù)的矩形區(qū)域,$為第i塊歷史路徑 數(shù)據(jù)的矩形區(qū)域,m為歷史路徑數(shù)據(jù)數(shù)量。
[0039] 進一步,所述步驟2.2)中自適應調(diào)整GridSize的方法,其計算公式為
[0040]
[0041]
[0042] 進一步,所述步驟2.5)頻數(shù)挖掘的方法,根據(jù)網(wǎng)格路徑計算狀態(tài)Si向狀態(tài)&轉(zhuǎn)移的 次數(shù) <,并得出總次數(shù),進而求出轉(zhuǎn)移的概率值s^,其計算公式為,
[0043]
[0044] 式7中,S為該網(wǎng)格路徑的狀態(tài)集合。
[0045] 本發(fā)明的技術(shù)構(gòu)思為:該方法針對個人路徑預測提出歷史數(shù)據(jù)建模和