交叉口交通信號(hào)控制方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及城市交通信號(hào)控制領(lǐng)域,具體設(shè)及一種交叉口交通信號(hào)控制方法和設(shè) 備。
【背景技術(shù)】
[0002] 隨著中國(guó)經(jīng)濟(jì)的高速增長(zhǎng)W及城市化進(jìn)程的加快,大量人口涌入城市,交通設(shè)施 興建和改善的速度遠(yuǎn)遠(yuǎn)趕不上人們?nèi)找嬖鲩L(zhǎng)的交通需求,交通擁堵問題日益突出。
[0003] 交通擁堵問題出現(xiàn)的原因是多方面的,除去交通設(shè)施不充足、交通規(guī)劃不合理W 及公眾交通意識(shí)淡薄等因素外,一個(gè)很重要的因素是現(xiàn)有的城市交通信號(hào)控制系統(tǒng)并未充 分發(fā)揮作用。由于城市交通問題的特殊性,難W建立起精確的數(shù)學(xué)模型。簡(jiǎn)單的定時(shí)控制、 感應(yīng)控制方法很難適應(yīng)越來越復(fù)雜的交通狀況。
[0004] 自適應(yīng)動(dòng)態(tài)規(guī)劃(AD巧理論融合了動(dòng)態(tài)規(guī)劃、強(qiáng)化學(xué)習(xí)W及函數(shù)逼近等方法,其 利用在線或離線數(shù)據(jù),采用函數(shù)近似結(jié)構(gòu)來估計(jì)系統(tǒng)的性能指標(biāo)函數(shù),然后依據(jù)最優(yōu)性原 理來獲得近似最優(yōu)的控制測(cè)量。動(dòng)作倚賴啟發(fā)式動(dòng)態(tài)規(guī)劃(AD皿巧方法是一種典型的自適 應(yīng)動(dòng)態(tài)規(guī)劃方法,因其具有無模型自適應(yīng)的特點(diǎn),能夠滿足系統(tǒng)參數(shù)變化頻繁,實(shí)時(shí)性要求 較高,難W建立精確模型的城市交通系統(tǒng)的控制要求。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的一個(gè)方面提供了一種用于交叉口交通信號(hào)控制的AD皿P控制器離線訓(xùn) 練方法,該A畑DP控制器包括Action網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),該方法包括:在步驟S1,定義系 統(tǒng)狀態(tài)、回報(bào)函數(shù)、綠信比和系統(tǒng)控制參數(shù);在步驟S2,建立Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò),其 中:Action網(wǎng)絡(luò)為具有一個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為P,輸出層神經(jīng)元 個(gè)數(shù)為P-1,隱層的神經(jīng)元個(gè)數(shù)為Mg,M。為經(jīng)驗(yàn)值;化及化itic網(wǎng)絡(luò)為具有一個(gè)隱層的BP神 經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為2P-1,輸出層神經(jīng)元個(gè)數(shù)為1,隱層的神經(jīng)元個(gè)數(shù)為Mt,M。 為經(jīng)驗(yàn)值;在步驟S3,初始化AD皿P控制器,包括:初始化Action網(wǎng)絡(luò)權(quán)值和初始化化itic 網(wǎng)絡(luò)權(quán)值;在步驟S4,在每個(gè)控制周期結(jié)束前,獲取系統(tǒng)狀態(tài),輸入至Action網(wǎng)絡(luò),輸出相 應(yīng)系統(tǒng)控制參數(shù)U化),將系統(tǒng)控制參數(shù)U化)輸出至仿真軟件W指導(dǎo)下一個(gè)周期的運(yùn)行;在 步驟S5,將系統(tǒng)狀態(tài)S化)和系統(tǒng)控制參數(shù)U化)輸入至化itic網(wǎng)絡(luò),輸出性能指標(biāo)J化);在 步驟S6,交替地根據(jù)性能指標(biāo)和回報(bào)函數(shù)訓(xùn)練化itic網(wǎng)絡(luò)W及根據(jù)性能指標(biāo)訓(xùn)練Action 網(wǎng)絡(luò),W更新化itic網(wǎng)絡(luò)的權(quán)值和Action網(wǎng)絡(luò)的權(quán)值;化及在步驟S7,判斷是否達(dá)到預(yù)期 設(shè)定的目標(biāo):當(dāng)達(dá)到預(yù)期設(shè)定的目標(biāo)時(shí),在步驟S8,離線訓(xùn)練結(jié)束,記錄最終的Action網(wǎng)絡(luò) 的權(quán)值和化itic網(wǎng)絡(luò)的權(quán)值;否則,返回步驟S6繼續(xù)訓(xùn)練。
[0006] 本發(fā)明的另一個(gè)方面提供了一種使用根據(jù)W上方法訓(xùn)練的A畑DP控制器來在線 控制交叉口交通信號(hào)的方法,包括:分別W最終的Action網(wǎng)絡(luò)的權(quán)值和化itic網(wǎng)絡(luò)的權(quán)值 初始化Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò);將在線系統(tǒng)的實(shí)時(shí)交通數(shù)據(jù)輸入到A畑DP控制器;W及 根據(jù)步驟S1中的定義,從在線系統(tǒng)的實(shí)時(shí)交通數(shù)據(jù)得到系統(tǒng)狀態(tài),將系統(tǒng)狀態(tài)輸入Action 網(wǎng)絡(luò),將Action網(wǎng)絡(luò)的輸出作為系統(tǒng)控制參數(shù),用于控制路口交通信號(hào)。
[0007] 本發(fā)明的另一方面提供了一種用于交叉口交通信號(hào)控制的AD皿P控制器離線訓(xùn) 練設(shè)備,該A畑DP控制器包括Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò),該設(shè)備包括:第一裝置,定義系統(tǒng) 狀態(tài)、回報(bào)函數(shù)、綠信比和系統(tǒng)控制參數(shù);第二裝置,建立Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò),其中: Action網(wǎng)絡(luò)為具有一個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為P,輸出層神經(jīng)元個(gè) 數(shù)為P-1,隱層的神經(jīng)元個(gè)數(shù)為M。,M。為經(jīng)驗(yàn)值;化及化itic網(wǎng)絡(luò)為具有一個(gè)隱層的BP神 經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為2P-1,輸出層神經(jīng)元個(gè)數(shù)為1,隱層的神經(jīng)元個(gè)數(shù)為Mt,M。 為經(jīng)驗(yàn)值;第Ξ裝置,初始化AD皿P控制器,包括:初始化Action網(wǎng)絡(luò)權(quán)值和初始化化itic 網(wǎng)絡(luò)權(quán)值;第四裝置,在每個(gè)控制周期結(jié)束前,獲取系統(tǒng)狀態(tài),輸入至Action網(wǎng)絡(luò),輸出相 應(yīng)系統(tǒng)控制參數(shù)U化),將系統(tǒng)控制參數(shù)U化)輸出至仿真軟件W指導(dǎo)下一個(gè)周期的運(yùn)行;第 五裝置,將系統(tǒng)狀態(tài)S化)和系統(tǒng)控制參數(shù)U化)輸入至化itic網(wǎng)絡(luò),輸出性能指標(biāo)J化);第 六裝置,交替地根據(jù)性能指標(biāo)和回報(bào)函數(shù)訓(xùn)練化itic網(wǎng)絡(luò)W及根據(jù)性能指標(biāo)訓(xùn)練Action 網(wǎng)絡(luò),W更新化itic網(wǎng)絡(luò)的權(quán)值和Action網(wǎng)絡(luò)的權(quán)值;W及第屯裝置,判斷是否達(dá)到預(yù)期 設(shè)定的目標(biāo):當(dāng)達(dá)到預(yù)期設(shè)定的目標(biāo)時(shí),離線訓(xùn)練結(jié)束,記錄最終的Action網(wǎng)絡(luò)的權(quán)值和 化itic網(wǎng)絡(luò)的權(quán)值;否則,使用第六裝置繼續(xù)訓(xùn)練。
[0008] 本發(fā)明的另一個(gè)方面提供了一種使用W上設(shè)備訓(xùn)練的AD皿P控制器來在線控制 交叉口交通信號(hào)的設(shè)備,包括:第八裝置,分別W最終的Action網(wǎng)絡(luò)的權(quán)值和化itic網(wǎng)絡(luò) 的權(quán)值初始化Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò);第九裝置,將在線系統(tǒng)的實(shí)時(shí)交通數(shù)據(jù)輸入到 AD皿P控制器;W及第十裝置,根據(jù)第一裝置中的定義,從在線系統(tǒng)的實(shí)時(shí)交通數(shù)據(jù)得到系 統(tǒng)狀態(tài),將系統(tǒng)狀態(tài)輸入Action網(wǎng)絡(luò),將Action網(wǎng)絡(luò)的輸出作為系統(tǒng)控制參數(shù),用于控制 路口交通信號(hào)。
[0009] 本發(fā)明有效地克服了現(xiàn)有技術(shù)中的不足。本發(fā)明的交叉口交通信號(hào)控制方法具有 在線學(xué)習(xí)能力,能在交通流量發(fā)生變化、非機(jī)動(dòng)車流比例較大等實(shí)際工程應(yīng)用的復(fù)雜環(huán)境 中,通過對(duì)環(huán)境反饋的學(xué)習(xí),計(jì)算出交叉口的配時(shí)參數(shù),實(shí)現(xiàn)對(duì)交通流多變的交叉口的有效 控制。該方法不需要建立交通模型,能夠根據(jù)交通狀態(tài),模擬人腦通過環(huán)境反饋進(jìn)行學(xué)習(xí), 從而實(shí)現(xiàn)對(duì)交通信號(hào)的自適應(yīng)控制。
【附圖說明】
[0010] 圖1示意性示出了本發(fā)明的離線訓(xùn)練方法流程圖。
[0011] 圖2示意性示出了AD皿P結(jié)構(gòu)和訓(xùn)練示意圖。
[0012] 圖3示意性示出了Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0013] W下結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)說明。W下實(shí)施例在W 本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和過程,但本發(fā)明的保護(hù)范圍 不限于下述的實(shí)施例。
[0014] 參考圖1和圖2說明本發(fā)明的實(shí)施例。圖1示意性示出了本發(fā)明的AD皿P控制器 離線訓(xùn)練方法流程圖。圖2示意性示出了AD皿P結(jié)構(gòu)和訓(xùn)練示意圖。在下文中,W-個(gè)兩 相位的交叉口為例進(jìn)行說明。
[0015] 如圖1所示,該方法開始于步驟SO。
[0016] 在步驟S1,定義系統(tǒng)狀態(tài)、回報(bào)函數(shù)、綠信比和系統(tǒng)控制參數(shù)。
[0017]W如下方式定義系統(tǒng)狀態(tài)。假設(shè)每個(gè)控制周期內(nèi)有P個(gè)相位,相位時(shí)間長(zhǎng)度為 Ti,每個(gè)相位有Li個(gè)車道獲得通行權(quán)限,各車道最大排隊(duì)長(zhǎng)度為h1,相位排隊(duì)長(zhǎng)度Hi= max化i},相位平均排隊(duì)長(zhǎng)度
各車道的流量為q,,相位流量為Qi=max{q,},定 義相位飽和度天
其中1《i《P,1《j《Li,ε為歸一化常數(shù)。
[001引定義系統(tǒng)狀態(tài)為S(k) =(si化)},1《i《Ρ,其中k為仿真步數(shù),步長(zhǎng)為第k個(gè)控 制周期的時(shí)間長(zhǎng)度Ck,周期長(zhǎng)度可根據(jù)歷史流量用Webster方法確定,取值通常在30秒到 120秒之間。
[0019] 定義回報(bào)函數(shù)為
,其中N=P-1,P>2。
[0020] 定義綠信比為曰1,其中1《i《P-1。最后一個(gè)相位的綠信比
[0021] 系統(tǒng)控制參數(shù)為U似=咕似},1《i《P。
[0022] 在兩相位的示例中,系統(tǒng)狀態(tài)為S(k) = {Si(k)},其中i= 1,2。第一個(gè)相位的綠 信比為曰1,則有第二個(gè)相位綠信比為曰2= 1-曰1。
[0023] 在步驟S2,建立Action網(wǎng)絡(luò)和化itic網(wǎng)絡(luò)。如圖3所示,Action網(wǎng)絡(luò)為具有一 個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為P,輸出層神經(jīng)元個(gè)數(shù)為P-1,隱層的神經(jīng) 元個(gè)數(shù)為M。,隱層神經(jīng)元個(gè)數(shù)M。為經(jīng)驗(yàn)值,通常在5~20之間?;痠tic網(wǎng)絡(luò)為具有一個(gè)隱 層的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為2P-1,輸出層神經(jīng)元個(gè)數(shù)為1,隱層的神經(jīng)元個(gè) 數(shù)為M。,隱層神經(jīng)元個(gè)數(shù)M。為經(jīng)驗(yàn)值,通常在5~20之間。
[0024] 在兩相位的示例中,Action網(wǎng)絡(luò)為具有一個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng) 元個(gè)數(shù)為2,輸出層神經(jīng)元個(gè)數(shù)為2,隱層的神經(jīng)元個(gè)數(shù)為8?;痠tic網(wǎng)絡(luò)為具有一個(gè)隱層 的BP神經(jīng)網(wǎng)絡(luò),其中輸入層神經(jīng)元個(gè)數(shù)為3,輸出層神經(jīng)元個(gè)數(shù)為1,隱層的神經(jīng)元個(gè)數(shù)為 8。
[0025] 在步驟S3,初始化控制器,包括初始化Action網(wǎng)絡(luò)權(quán)值和化itic網(wǎng)絡(luò)權(quán)值??蒞 將Action網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為1。,學(xué)習(xí)率1。通常為0~1之間的常數(shù),每一步訓(xùn)練次數(shù)設(shè)置 為N。,訓(xùn)練次數(shù)N。為經(jīng)驗(yàn)值,通常在5~50之間??蒞將化itic網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為1。,學(xué) 習(xí)率1。通常為0~1之間的常數(shù),每一步訓(xùn)練次數(shù)設(shè)置為N。,訓(xùn)