一種交通流預測中數(shù)據(jù)庫設計方法及其查詢向量得出方法
【技術領域】
[0001] 本發(fā)明屬于短時交通流預測技術領域,特別涉及一種K近鄰非參數(shù)回歸短時交通 流預測中數(shù)據(jù)庫設計方法。
【背景技術】
[0002] 目前國內外許多研宄者都將非參數(shù)回歸方法應用到短時交通流預測研宄當中,并 根據(jù)實際問題的需要對非參數(shù)回歸方法進行必要的改進。1991年,Davis和Nihan真正將 非參數(shù)回歸的方法應用到交通預測中,雖然避免了選取模型和參數(shù)設置等問題,但該方法 需要一個龐大的具有代表性的歷史數(shù)據(jù)庫并且方法運行所消耗的時間較長。1995年,Smith 將非參數(shù)回歸方法應用于單點短時交通流預測,實驗結果取得了相比歷史平均和神經(jīng)網(wǎng)絡 更好的效果,但同樣存在搜索速度太慢的問題。針對搜索速度太慢的問題,Oswald等人從 KD樹著手建立模糊最近鄰的方法,從而改進了非參數(shù)回歸方法中歷史數(shù)據(jù)結構模式和近鄰 搜索方法,提高了方法的運行效率。
[0003] 非參數(shù)回歸預測方法的基礎是存儲歷史數(shù)據(jù)的數(shù)據(jù)庫,當前實時采集的數(shù)據(jù)需要 在數(shù)據(jù)庫中尋找最相似的匹配數(shù)據(jù)為預測做準備?,F(xiàn)階段主要的數(shù)據(jù)庫的設計方法是利用 商業(yè)數(shù)據(jù)庫軟件存儲歷史數(shù)據(jù),并通過這些商業(yè)數(shù)據(jù)庫軟件的搜索和查詢接口來做當前數(shù) 據(jù)的實時匹配。這樣存在的問題是,雖然利用商業(yè)軟件簡化了非參數(shù)回歸預測方法的實施 過程,但是卻提升了方法實施成本。同時,因為方法在運行過程中的每一次數(shù)據(jù)匹配都需要 和商業(yè)數(shù)據(jù)庫交換數(shù)據(jù)。這也減慢了方法的運行速度。更為重要的是,不加處理就將原始 數(shù)據(jù)填入數(shù)據(jù)庫,會造成近鄰的模糊匹配,增加預測誤差。
【發(fā)明內容】
[0004] 為了解決上述問題,提供一種使用了K近鄰分析并且搭建一個基于紅黑樹構成的 搜索數(shù)據(jù)庫。同時提供了一種交通流預測中數(shù)據(jù)庫的查詢向量得出方法。
[0005] 本發(fā)明的一種交通流預測中數(shù)據(jù)庫設計方法,包括如下步驟:
[0006] 步驟1、導入原始數(shù)據(jù)并剔除其中的異常數(shù)據(jù);
[0007] 步驟2、創(chuàng)建原始數(shù)據(jù)庫;
[0008] 步驟3、通過k均值算法將原始數(shù)據(jù)分類;
[0009] 步驟4、通過步驟3得到數(shù)據(jù)分類確定聚類中心點并構建聚類中心數(shù)據(jù)庫和近鄰 數(shù)據(jù)庫;
[0010] 步驟5、通過聚類中心點數(shù)據(jù)庫構建基于紅黑樹的搜索數(shù)據(jù)庫;
[0011] 步驟6、通過主成分分析法確定與基于紅黑樹的搜索數(shù)據(jù)庫相匹配的狀態(tài)向量。
[0012] 優(yōu)選地,剔除異常數(shù)據(jù)的方法為閔值法。
[0013] 優(yōu)選地,k均值算法將原始數(shù)據(jù)分類包括如下步驟:
[0014] 步驟31、設定元素集合D、每個元素具有N個可觀察屬性;
[0015] 步驟32、從D中隨機取k個元素,做為k個簇的各自的中心;
[0016] 步驟33、分別計算剩下的元素到k個簇中心的相異度,將這些元素分別劃歸到相 異度最低的簇;
[0017] 步驟34、根據(jù)聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素 的各自維度的算術平均值;
[0018] 步驟35、將D中全部元素按照新的中心重新聚類;
[0019] 步驟36、重復步驟35,直到聚類結果不再變化;
[0020] 步驟37、輸出結果。
[0021] 優(yōu)選地,所述通過步驟3得到數(shù)據(jù)分類確定聚類中心點并構建聚類中心數(shù)據(jù)庫和 近鄰數(shù)據(jù)庫包括如下步驟:
[0022] 步驟41、通過步驟3得到N個聚類,將每個聚類的數(shù)據(jù)做算術平均得到聚類中心 點,并根據(jù)相異度的大小取前K個最小距離作為對應聚類中心的K個近鄰,K個近鄰的具體 數(shù)值構成近鄰數(shù)據(jù)庫;
[0023] 步驟42、把聚類中心數(shù)據(jù)和其K個近鄰分離,各自單獨存儲,構成聚類中心數(shù)據(jù) 庫。
[0024] -種交通流預測中數(shù)據(jù)庫的查詢向量得出方法,通過主成分分析法確定與基于紅 黑樹的搜索數(shù)據(jù)庫相匹配的狀態(tài)向量,其中主成分分析法利用降維數(shù)學原理,它利用一個 正交變換,將隨機向量內的相互關聯(lián)的分量轉化成互不相關的新分量,即將多個相互關聯(lián) 的變量通過線性組合成幾個互不相關的主要變量,即所謂的主成分,包括如下步驟:
[0025] 步驟一、標準化原始數(shù)據(jù);
[0026] 步驟二、確定相關系數(shù)矩陣;
[0027] 步驟三、確定主成分;
[0028] 步驟四、確定主成分數(shù)量和權重。
[0029] 本發(fā)明的有益效果:由于進行了原始數(shù)據(jù)的剔除,所有縮小了預測誤差;同時使 用的K近鄰分析,所以縮短了運行時間。
【具體實施方式】
[0030] 下面結合具體的實施例對本發(fā)明作進一步的闡述。
[0031] 本發(fā)明的一種K近鄰非參數(shù)回歸短時交通流預測中數(shù)據(jù)庫設計方法,包括如下步 驟:
[0032] 步驟1、導入原始數(shù)據(jù)并剔除其中的異常數(shù)據(jù);剔除異常數(shù)據(jù)的方法為閔值法。在 實際采集統(tǒng)計數(shù)據(jù)過程中,難免會因為人為操作失誤、通訊噪聲干擾和不知名原因引發(fā)數(shù) 據(jù)錯誤和數(shù)據(jù)缺失。所以,在導入原始數(shù)據(jù)時,需要對原始數(shù)據(jù)進行篩選,以捕捉到錯誤數(shù) 據(jù)并改正或者剔除,標識缺失數(shù)據(jù)并進行補充。采取閩值法篩選錯誤數(shù)據(jù),并采用近鄰平均 法糾正錯誤數(shù)據(jù)。一般來說,錯誤數(shù)據(jù)與正常數(shù)據(jù)的偏差很大,基于這個特點,首先采用閩 值法去除明顯錯誤數(shù)據(jù)。比如:在10分鐘內通過的流量最多為1000單位,可以采用1100 作為流量的閩值。這樣雖然不能發(fā)現(xiàn)并糾正所有錯誤,但是卻可以糾正大部分錯誤。根據(jù) 交通流量連續(xù)性定理,當然突然情況可能造成數(shù)據(jù)懸崖式跳變,某一時段內的交通流量應 該與附近時段的流量相差不大,所以考慮近鄰平均法來修復錯誤數(shù)據(jù),BP :
[0033] ⑴
[0034] 或者根據(jù)車流"自重復性"的原理,采用歷史上所有同一時刻的流量的平均值作為 當前流量,即:
[0035]
【主權項】
1. 一種交通流預測中數(shù)據(jù)庫設計方法,其特征在于,包括如下步驟: 步驟1、導入原始數(shù)據(jù)并剔除其中的異常數(shù)據(jù); 步驟2、創(chuàng)建原始數(shù)據(jù)庫; 步驟3、通過k均值算法將原始數(shù)據(jù)分類; 步驟4、通過步驟3得到數(shù)據(jù)分類確定聚類中心點并構建聚類中心數(shù)據(jù)庫和近鄰數(shù)據(jù) 庫; 步驟5、通過聚類中心點數(shù)據(jù)庫構建基于紅黑樹的搜索數(shù)據(jù)庫; 步驟6、通過主成分分析法確定與基于紅黑樹的搜索數(shù)據(jù)庫相匹配的狀態(tài)向量。
2. 如權利要求1所述的交通流預測中數(shù)據(jù)庫設計方法,其特征在于:剔除異常數(shù)據(jù)的 方法為閔值法。
3. 如權利要求1所述的交通流預測中數(shù)據(jù)庫設計方法,其特征在于,k均值算法將原始 數(shù)據(jù)分類包括如下步驟: 步驟31、設定元素集合D、每個元素具有N個可觀察屬性; 步驟32、從D中隨機取k個元素,做為k個簇的各自的中心; 步驟33、分別計算剩下的元素到k個簇中心的相異度,將這些元素分別劃歸到相異度 最低的簇; 步驟34、根據(jù)聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素的各 自維度的算術平均值; 步驟35、將D中全部元素按照新的中心重新聚類; 步驟36、重復步驟35,直到聚類結果不再變化; 步驟37、輸出結果。
4. 如權利要求1所述的短時交通流預測中數(shù)據(jù)庫設計方法,其特征在于,所述通過步 驟3得到數(shù)據(jù)分類確定聚類中心點并構建聚類中心數(shù)據(jù)庫和近鄰數(shù)據(jù)庫包括如下步驟: 步驟41、通過步驟3得到N個聚類,將每個聚類的數(shù)據(jù)做算術平均得到聚類中心點,并 根據(jù)相異度的大小取前K個最小距離作為對應聚類中心的K個近鄰,K個近鄰的具體數(shù)值 構成近鄰數(shù)據(jù)庫; 步驟42、把聚類中心數(shù)據(jù)和其K個近鄰分離,各自單獨存儲,構成聚類中心數(shù)據(jù)庫。
5. -種與交通流預測中數(shù)據(jù)庫的查詢向量得出方法,其特征在于,通過主成分分析法 確定與基于紅黑樹的搜索數(shù)據(jù)庫相匹配的狀態(tài)向量,其中主成分分析法利用降維數(shù)學原 理,它利用一個正交變換,將隨機向量內的相互關聯(lián)的分量轉化成互不相關的新分量,即將 多個相互關聯(lián)的變量通過線性組合成幾個互不相關的主要變量,即所謂的主成分,包括如 下步驟: 步驟一、標準化原始數(shù)據(jù); 步驟二、確定相關系數(shù)矩陣; 步驟三、確定主成分; 步驟四、確定主成分數(shù)量和權重。
【專利摘要】本發(fā)明公開了一種交通流預測中數(shù)據(jù)庫設計方法及其查詢向量得出方法,包括如下步驟:步驟1、導入原始數(shù)據(jù)并剔除其中的異常數(shù)據(jù);步驟2、創(chuàng)建原始數(shù)據(jù)庫;步驟3、通過k均值算法將原始數(shù)據(jù)分類;步驟4、通過步驟3得到數(shù)據(jù)分類確定聚類中心點并構建聚類中心數(shù)據(jù)庫和近鄰數(shù)據(jù)庫;步驟5、通過聚類中心點數(shù)據(jù)庫構建基于紅黑樹的搜索數(shù)據(jù)庫。通過主成分分析法確定與基于紅黑樹的搜索數(shù)據(jù)庫相匹配的狀態(tài)向量。本發(fā)明的有益效果:由于進行了原始數(shù)據(jù)的剔除,所有縮小了預測誤差;同時使用的K近鄰分析,所以縮短了運行時間。
【IPC分類】G06F17-30
【公開號】CN104820691
【申請?zhí)枴緾N201510204400
【發(fā)明人】冷甦鵬, 林川, 劉浩, 張可
【申請人】電子科技大學
【公開日】2015年8月5日
【申請日】2015年4月27日