基于行動(dòng)者-評(píng)論家方法的機(jī)器人運(yùn)動(dòng)控制方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及一種機(jī)器人運(yùn)動(dòng)控制方法,屬于機(jī)器學(xué)習(xí)領(lǐng)域,具體設(shè)及一種方差相 關(guān)的離策略行動(dòng)者-評(píng)論家控制方法及裝置。
【背景技術(shù)】
[0002] 隨著機(jī)器人研究的進(jìn)展,如何對(duì)機(jī)器人的運(yùn)動(dòng)進(jìn)行智能控制成為機(jī)器人進(jìn)一步發(fā) 展的一個(gè)關(guān)鍵技術(shù)問(wèn)題?,F(xiàn)有技術(shù)中,對(duì)機(jī)器人的運(yùn)動(dòng)控制包括人為控制和自動(dòng)控制。
[0003] 例如,中國(guó)發(fā)明專(zhuān)利申請(qǐng)CN105313129A公開(kāi)了一種基于視頻的機(jī)器人行走運(yùn)動(dòng)控 制方法,機(jī)器人攝像頭采集視頻畫(huà)面,在移動(dòng)終端(PAD或手機(jī))上查看機(jī)器人視頻畫(huà)面,通 過(guò)手指在移動(dòng)終端視頻畫(huà)面上進(jìn)行滑動(dòng)損傷,操控機(jī)器人的行走運(yùn)動(dòng)。該技術(shù)方案屬于人 為控制,雖然通過(guò)攝像頭畫(huà)面可W實(shí)現(xiàn)非可視距離內(nèi)的控制,但并不能實(shí)現(xiàn)智能控制。
[0004] 中國(guó)發(fā)明專(zhuān)利申請(qǐng)CN105487541A公開(kāi)了一種配送機(jī)器人及其控制方法,在配送機(jī) 器人的控制器中存儲(chǔ)目標(biāo)區(qū)域的導(dǎo)航地圖,所述導(dǎo)航地圖用于記錄所述目標(biāo)區(qū)域內(nèi)的目標(biāo) 地點(diǎn)名稱(chēng)W及到達(dá)所述目標(biāo)地點(diǎn)名稱(chēng)的導(dǎo)航路徑,控制器在接收到包括所述目標(biāo)地點(diǎn)名稱(chēng) 的控制指令時(shí),控制所述配送機(jī)器人沿所述目標(biāo)地點(diǎn)名稱(chēng)的導(dǎo)航路徑移動(dòng);移動(dòng)時(shí),控制器 控制激光器進(jìn)行實(shí)時(shí)掃描,激光器在掃描出配送機(jī)器人前方存在障礙物時(shí),將所述障礙物 的實(shí)時(shí)距離發(fā)送至所述控制器,所述控制器在檢測(cè)出所述實(shí)時(shí)距離小于預(yù)設(shè)闊值時(shí)控制所 述配送機(jī)器人停止移動(dòng)。該技術(shù)方案可W實(shí)現(xiàn)機(jī)器人的自動(dòng)控制,但是其智能性差,機(jī)器人 只能根據(jù)預(yù)設(shè)的導(dǎo)航地圖運(yùn)動(dòng),當(dāng)環(huán)境發(fā)生變化,預(yù)設(shè)路徑上出現(xiàn)障礙物時(shí),機(jī)器人只能停 止移動(dòng),等待障礙物消失或者接收到新的導(dǎo)航路徑,而不能自行尋找新的運(yùn)動(dòng)路徑。
[0005] 如果能夠在給定目的地之后,機(jī)器人通過(guò)自我學(xué)習(xí)獲得到達(dá)目的地的較快速的路 徑,對(duì)于機(jī)器人技術(shù)的發(fā)展將起到極大的推動(dòng)作用。
[0006] 作為機(jī)器學(xué)習(xí)的一個(gè)分支,強(qiáng)化學(xué)習(xí)通過(guò)不斷地與環(huán)境進(jìn)行交互W達(dá)到最大化目 標(biāo)函數(shù)的目的。在強(qiáng)化學(xué)習(xí)中目標(biāo)函數(shù)有很多種形式,例如平均獎(jiǎng)賞、長(zhǎng)期累積回報(bào)等等。 然而在風(fēng)險(xiǎn)敏感領(lǐng)域中,特別是過(guò)程控制領(lǐng)域,除了要考慮最大化目標(biāo)函數(shù),還要將解決問(wèn) 題的過(guò)程中可能出現(xiàn)的風(fēng)險(xiǎn)控制在可接受范圍之內(nèi)。因此,在解決風(fēng)險(xiǎn)敏感的強(qiáng)化學(xué)習(xí)問(wèn) 題時(shí),應(yīng)該將風(fēng)險(xiǎn)控制與傳統(tǒng)的目標(biāo)函數(shù)相結(jié)合,W達(dá)到共同控制的目的。方差可W作為風(fēng) 險(xiǎn)的一種形式化表示方法,將方差相關(guān)的標(biāo)準(zhǔn)加入到目標(biāo)函數(shù)中可W實(shí)現(xiàn)風(fēng)險(xiǎn)控制與目標(biāo) 函數(shù)相結(jié)合的目的。方差相關(guān)標(biāo)準(zhǔn)運(yùn)用到強(qiáng)化學(xué)習(xí)框架中會(huì)使得方法復(fù)雜度大大提升,計(jì) 算困難度增加。目前一種比較有效的降低復(fù)雜度的方法是運(yùn)用策略梯度方法得到問(wèn)題的局 部最優(yōu)解而非全局最優(yōu)解。
[0007] 策略梯度方法是強(qiáng)化學(xué)習(xí)中一類(lèi)重要的方法,它直接通過(guò)策略參數(shù)來(lái)學(xué)習(xí)策略, 其中策略參數(shù)根據(jù)目標(biāo)函數(shù)的梯度方向不斷地進(jìn)行更新。行動(dòng)者-評(píng)論家(AC)方法作為策 略梯度方法中一類(lèi)特殊方法,它不僅依靠策略參數(shù),還需要依賴(lài)值函數(shù)進(jìn)行策略的更新。AC 方法因其良好的兼容性和高效性而被廣泛應(yīng)用于各種強(qiáng)化學(xué)習(xí)方法中。2012年提出的離策 略AC方法是對(duì)W往AC方法的一個(gè)擴(kuò)充。離策略的意思是智能體學(xué)習(xí)的策略(也就是評(píng)估策 略)與智能體實(shí)際執(zhí)行的策略(也就是行為策略)是兩種獨(dú)立的策略。離策略的機(jī)制可w有 效地解決強(qiáng)化學(xué)習(xí)中探索與利用的平衡問(wèn)題。
[000引目前在強(qiáng)化學(xué)習(xí)中已經(jīng)有一些基于策略梯度的方差相關(guān)方法。Tamar等人在2012 年提出了兩個(gè)帶方差相關(guān)風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn)的策略梯度方法,并且證明了方法的收斂性。 Prashanth和化avamzadeh在2013年提出了一種基于馬爾科夫決策過(guò)程(MDP)模型的方差相 關(guān)的在策略AC方法。然而對(duì)于近幾年才提出的離策略AC方法,目前還沒(méi)有關(guān)于其方差相關(guān) 性方面的研究。
[0009] 因此,如何將離策略AC方法與方差相關(guān)風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn)相結(jié)合,并應(yīng)用于機(jī)器人,是 機(jī)器人控制中的一個(gè)急需解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的發(fā)明目的是提供一種基于行動(dòng)者-評(píng)論家方法的機(jī)器人運(yùn)動(dòng)控制方法和 裝置,通過(guò)對(duì)控制問(wèn)題中方差的有效控制,使得控制性能更穩(wěn)定,收斂結(jié)果更好,W獲得更 高的平均獎(jiǎng)賞,并實(shí)現(xiàn)對(duì)機(jī)器人運(yùn)動(dòng)路徑的快速選擇。
[0011] 為達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是:一種基于行動(dòng)者-評(píng)論家方法的 機(jī)器人運(yùn)動(dòng)控制方法,其特征在于,包括W下步驟: (1) 通過(guò)攝像頭采集視頻數(shù)據(jù),對(duì)視頻數(shù)據(jù)進(jìn)行處理獲得當(dāng)前機(jī)器人的位置信息、障礙 物分布信息,給定目的地信息; (2) 對(duì)通過(guò)視頻數(shù)據(jù)的分析獲得地圖,W機(jī)器人所在的位置作為機(jī)器人的狀態(tài)X,機(jī)器 人的運(yùn)動(dòng)方向作為動(dòng)作U; (3) 狀態(tài)遷移:在當(dāng)前狀態(tài)X下選擇對(duì)應(yīng)的當(dāng)前動(dòng)作U,執(zhí)行當(dāng)前動(dòng)作U得到相應(yīng)獎(jiǎng)賞r并 且遷移到下一狀態(tài)X',再根據(jù)行為策略自{κμγ?選擇下一狀態(tài)X'對(duì)應(yīng)的下一動(dòng)作U' ;其中, 行為策略摩f游1:3?初始狀態(tài)采用完全隨機(jī)策略,任一狀態(tài)下所有動(dòng)作的選擇概率均相等且 和為1; (4) 計(jì)算離策略因子:根據(jù)評(píng)估策略詞詔4與行為策略賽ikiS計(jì)算得到離策略因子
,堿(趙蝴為基函數(shù),省為 策略參數(shù),U為動(dòng)作的集合; (5) 更新平均值:根據(jù)當(dāng)前時(shí)間步下所得到的獎(jiǎng)賞r更新近似平均獎(jiǎng)賞值J與近似平均 平方獎(jiǎng)賞值.瓊; (6) 計(jì)算時(shí)間差分:根據(jù)步驟一中得到的遷移知識(shí),計(jì)算當(dāng)前的平均獎(jiǎng)賞時(shí)間差分冬 與平均平方獎(jiǎng)賞時(shí)間差分 (7) 更新評(píng)論家:根據(jù)步驟(3)至步驟(6)中學(xué)習(xí)到的信息,進(jìn)行評(píng)論家部分的迭代更 新,包括近似平均獎(jiǎng)賞參數(shù)磚的迭代更新W及近似平均平方獎(jiǎng)賞參數(shù)的迭代更新; (8) 更新行動(dòng)者:根據(jù)步驟(3)至步驟(7)中學(xué)習(xí)到的信息,進(jìn)行行動(dòng)者部分的迭代更 新,包括近似平均獎(jiǎng)賞的梯度V/的計(jì)算,近似平均平方獎(jiǎng)賞的梯度巧適的計(jì)算W及策略參 數(shù)愚的更新; (9) 狀態(tài)動(dòng)作更替:重設(shè)當(dāng)前狀態(tài)X的值為原下一狀態(tài)X',當(dāng)前動(dòng)作u的值為原下一動(dòng)作 U',重復(fù)步驟(3)至步驟(9),直到策略參數(shù)收斂,完成機(jī)器人的學(xué)習(xí)過(guò)程; (10) 根據(jù)機(jī)器人學(xué)習(xí)過(guò)程確定的到達(dá)目的地的運(yùn)動(dòng)策略,實(shí)現(xiàn)機(jī)器人的運(yùn)動(dòng)控制。
[0012]上述技術(shù)方案中,步驟(2)中,狀態(tài)值是離散的或者連續(xù)的,動(dòng)作值是離散的。所述 步驟(4)中,因?yàn)榧尤腚x策略因子,使得原本基于行為策略的有偏估計(jì)變成無(wú)偏估計(jì)。所述 步驟(5)中,采用迭代的方式更新近似平均獎(jiǎng)賞與近似平均平方獎(jiǎng)賞,所得的近似平均獎(jiǎng)賞 與近似平均平方獎(jiǎng)賞分別是從開(kāi)始時(shí)間步到當(dāng)前時(shí)間步所得到的獎(jiǎng)賞的平均值與平方的 平均值。用運(yùn)兩個(gè)平均值來(lái)近似表示真實(shí)的平均值,隨著時(shí)間步數(shù)的不斷增加,運(yùn)兩個(gè)平均 值將越來(lái)越接近真實(shí)的平均值。所述步驟(6)中,利用時(shí)間差分來(lái)評(píng)估當(dāng)前更新得到的新策 略較更新之前的策略相比是變得更好還是更差。因此時(shí)間差分被定義成當(dāng)前狀態(tài)動(dòng)作對(duì)的 值與之前時(shí)間步該狀態(tài)動(dòng)作對(duì)的值的差。如果該差值為正,表示當(dāng)前更新有利于策略向更 好的方向發(fā)展,應(yīng)該有效利用該更新。相反,如果該差值為負(fù),表示當(dāng)前更新使得策略向不 好的方向發(fā)展,不利于策略的改進(jìn),所W應(yīng)該抑制該更新。所述步驟(7)中,評(píng)論家部分的更 新主要是更新近似值函數(shù)察齡知和近似平方值函數(shù)給( XW)所依賴(lài)的兩組值函數(shù)參數(shù)& 和霉?的值。當(dāng)更新運(yùn)兩個(gè)參數(shù)的值后,相應(yīng)的近似值函數(shù)與近似平方值函數(shù)就得W更新, 于是整個(gè)評(píng)論者部分就得到更新。運(yùn)里采用迭代方式,沿著值函數(shù)梯度方向更新參數(shù)值。所 述步驟(9)中,狀態(tài)更替的目的是使原采樣得到的下一狀態(tài)動(dòng)作對(duì)在下一輪新的迭代過(guò)程 中變成當(dāng)前狀態(tài)動(dòng)作對(duì),在此狀態(tài)動(dòng)作對(duì)下進(jìn)行新的采樣,W此來(lái)實(shí)現(xiàn)方法的在線實(shí)時(shí)學(xué) 習(xí)特性。
[001引上述技術(shù)方案中,步驟(5)中,近似平均獎(jiǎng)賞值J :: (3…議'μ十訪.Γ,近似平均平方獎(jiǎng) 賞值.
其中,聲心,t是當(dāng)前時(shí)間步。
[0014]步驟(6)中,近似平均獎(jiǎng)賞的時(shí)間差巧
近似平 均平方獎(jiǎng)賞的時(shí)間差分
,其中,是近似 值函數(shù),鑛衫堿是近似平方值函數(shù),7是折扣因子,錠當(dāng)f雖!,。
[001引其中,值函數(shù)的計(jì)算采用線性函數(shù)近似的方式,
其中,爲(wèi)與分別是近似值函數(shù)參數(shù)與近似平方值函數(shù)參數(shù)。
[0016]步驟(7)中,采用梯度下降方法更新參數(shù)值,更新形式為,
其中,心J與碼《分別是兩組參數(shù)更新時(shí)的步長(zhǎng)參數(shù)。
[0017] 步驟(8)中,近似平均獎(jiǎng)賞的梯度獻(xiàn)。鄉(xiāng)?!訪辦句:參搗游),近似平均平方獎(jiǎng)賞的 梯運(yùn)
庚中凌根 據(jù)采用的方差風(fēng)險(xiǎn)標(biāo)準(zhǔn)確定。
[001引優(yōu)選的技術(shù)方案,方差風(fēng)險(xiǎn)標(biāo)準(zhǔn)采用J-興Γ,其中與是懲罰因子,
,優(yōu)選地,輝<0.1,更優(yōu)選地,興' < 0.01。
[0019] 為實(shí)現(xiàn)本發(fā)明的另一發(fā)明目的,提供一種基于行動(dòng)者-評(píng)論家方法的機(jī)器人運(yùn)動(dòng) 控制裝置,機(jī)器人裝配有攝像頭和控制器,與機(jī)器人配合設(shè)有后臺(tái)數(shù)據(jù)處理器,機(jī)器人中的 控制器經(jīng)無(wú)線網(wǎng)絡(luò)與所述后臺(tái)數(shù)據(jù)處理器連接,所述攝像頭的輸出信號(hào)連接至所述控制 器,所述控制器中設(shè)有視頻數(shù)據(jù)預(yù)處理模塊,所述后臺(tái)數(shù)據(jù)處理器中設(shè)有基于上述基于行 動(dòng)者-評(píng)論家方法的機(jī)器人運(yùn)動(dòng)控制方法的控制模塊。
[0020] 由于上述技術(shù)方案運(yùn)用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點(diǎn): 1、 本發(fā)明采用攝像頭獲得的視頻信號(hào)獲取機(jī)器人當(dāng)前位置、目的地信息及障礙物信 息,利用機(jī)器學(xué)習(xí)的方法獲得優(yōu)選的機(jī)器人行動(dòng)路徑,實(shí)現(xiàn)了機(jī)器人的智能運(yùn)動(dòng)控制; 2、 通過(guò)將方差的計(jì)算加入到傳統(tǒng)的強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)中,可W在最優(yōu)化傳統(tǒng)目標(biāo)函數(shù) 的同時(shí)有效控制方差在一定可接受的范圍內(nèi),從而使得控制結(jié)果更穩(wěn)定,方法收斂效果更 好,方差更小。
【附圖說(shuō)明】
[0021 ]圖1為本發(fā)明實(shí)施例的系統(tǒng)工作流程圖; 圖2為實(shí)施例中采用彈球模型的示意圖; 圖3為實(shí)施例與對(duì)比各方法累積獎(jiǎng)賞概率分布圖; 圖4為各方法每個(gè)情節(jié)執(zhí)行總步數(shù)概率分布圖; 圖5為本發(fā)明實(shí)施例的裝置示意圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖及實(shí)施例對(duì)本