一種具有內發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法
【技術領域】
[0001] 本發(fā)明涉及一種具有內發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法,屬于智能 機器人技術領域。
【背景技術】
[0002] 對智能機器人的研宄已由早期的示教再現(xiàn)型機器人以及具有簡單感知能力的機 器人發(fā)展到今天的認知發(fā)育機器人。認知發(fā)育機器人具有認知和學習的能力,能夠從與環(huán) 境的接觸過程中學習到環(huán)境知識,對于代替人類完成地震、火災、深海等危險環(huán)境的任務具 有重要意義。
[0003] 1952年,日內瓦大學心理學教授皮亞杰指出認知發(fā)育的第一階段主要通過其感知 運動技能獲得,而感知運動技能的習得需要感知器官和運動器官協(xié)調完成,這就涉及到感 知運動系統(tǒng)。感知運動系統(tǒng)對于人或動物運動技能的習得有著重要的指導意義,將這種感 知運動能力復制到機器人上,使機器人能夠主動探索外部世界,學習世界知識,對認知發(fā)育 機器人的研宄有著重要意義。
[0004] 基于以上背景,本發(fā)明以學習自動機為數(shù)學模型,提出了一種具有內發(fā)動機機 制的感知運動系統(tǒng)認知模型并設計了其學習算法,將其應用于機器人上,使機器人可以 模擬人或動物的感知運動認知過程,提高了機器人的認知能力。相關的專利如申請?zhí)?CN200910086990. 4基于斯金納操作條件反射理論提出了一種操作條件反射自動機模型,并 且基于該模型設計了一種仿生自主學習控制方法;申請?zhí)朇N200910089263.3同樣基于斯 金納操作條件反射理論提出一種自治操作條件反射自動機,并討論了其在實現(xiàn)智能行為中 的應用,以上兩項工作均在操作條件反射的指導下,使用自動機為數(shù)學模型,設計了新的具 有自學習和自組織能力的仿生自動機,但均未涉及感知運動系統(tǒng)學習過程,同時,二者在學 習過程中均采用依概率機制實施操作,使得模型在達到一定穩(wěn)定狀態(tài)后無法杜絕小概率事 件的發(fā)生。相關專利申請?zhí)朇N201410101272. 0從仿生學角度模擬生物的感覺運動神經(jīng)系 統(tǒng),使用神經(jīng)網(wǎng)絡為數(shù)學模型,將操作條件反射機理融入感覺運動系統(tǒng)的設計中,采用"勝 者全拿"的動作選擇機制,提出了一種仿生智能控制方法,較好地模擬了生物自學習行為, 證明了感知運動系統(tǒng)在智能體學習過程中的重要性。本發(fā)明以學習自動機為基礎,為感知 運動系統(tǒng)認知過程設計了一種認知模型及其學習方法,動作選擇上設計了能夠主動學習環(huán) 境的內發(fā)動機機制,在提高系統(tǒng)學習效率的同時,有效避免小概率事件的發(fā)生,提高了系統(tǒng) 的穩(wěn)定性。目前,尚未見到與本發(fā)明相似的專利記錄。
【發(fā)明內容】
[0005] 本發(fā)明涉及一種具有內發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法,屬于智能 機器人技術領域,系統(tǒng)認知模型以學習自動機為基礎,引入好奇心和取向性概念,從生物學 角度出發(fā),設計了能夠主動學習環(huán)境的內發(fā)動機機制,提高了系統(tǒng)自學習和自組織的能力 及其穩(wěn)定性。模型包括十部分:感知狀態(tài)集合、動作集合、取向性映射集合、狀態(tài)學習次數(shù)、 好奇心、狀態(tài)取向值、取向函數(shù)、取向性學習矩陣、狀態(tài)轉移函數(shù)以及知識熵,各部分含義具 體如下:
[0006] (1)S:系統(tǒng)離散感知狀態(tài)集合,S={Si|i= 1,2,…ns},SiGS為第i個感知狀態(tài), ^為可感知到的離散狀態(tài)的個數(shù),針對連續(xù)系統(tǒng),將需要考慮的連續(xù)狀態(tài)空間離 散化為離散狀態(tài)空間,其中Xmin為所需考慮狀態(tài)的下限值,X_為所需考慮狀態(tài)的上限值,一 般地,對連續(xù)狀態(tài)空間進行均勻劃分,令w= (X^-X^J/n,,則離散化后的狀態(tài)空間為:S= {[Xmin+(i-l)w,Xmin+iw] |i= 1,2,---nj;
[0007](2)M:系統(tǒng)動作集合,M={Mi|i=1, 2,…,nj,Mi={m。|j=1, 2,…,nj,mu表 示系統(tǒng)第i個感知狀態(tài)下第j個可選動作,叫為第i個狀態(tài)下可選動作的個數(shù);
[0008] (3)0:"感知-運動"取向性映射集合,0= {A|i= 1,2,…ns},〇i為狀態(tài)\對 應的取向性映射矩陣,其中4 ,…,"V…,%I,diag表示括號里的元素以對角 陣的方式儲存,此處元素%的下表i(i= 1,2,…,ns)并不表示元素所在矩陣的行信息,(iG(1,2,…,ns),jG(1,2,…,叫))表不一條"感知-運動"映射,表征的是系統(tǒng)在感知 狀態(tài)SiGS下對動作mu的取向性,或稱感知狀態(tài)si與動作mu的感知運動取向性為〇。,規(guī) 定智能體在任何感知狀態(tài)下對該狀態(tài)下所有動作的取向性總和保持不變,即當智能體在某 狀態(tài)下對其中一動作的取向性增加時,同時意味著在該狀態(tài)下對其他動作的取向性減小, 本認知模型中,取向性滿足0 < 〇ij< 1且
【主權項】
1. 一種具有內發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法,其特征在于,系統(tǒng)認知 模型以學習自動機為基礎,設計為一個十元組<s,M,0,N,C,V,Vs,P,F(xiàn),E>,各部分內容具體 如下: (1)S:系統(tǒng)離散感知狀態(tài)集合,S={Si|i= 1,2,…ns},SiGS為第i個感知狀態(tài),1為 可感知到的離散狀態(tài)的個數(shù),針對連續(xù)系統(tǒng),將需要考慮的連續(xù)狀態(tài)空間[Xmin,X_]離散化 為離散狀態(tài)空間,其中Xmin為所需考慮狀態(tài)的下限值,X_為所需考慮狀態(tài)的上限值,對連續(xù) 狀態(tài)空間進行均勻劃分,令w= (X^-X^J/n,,則離散化后的狀態(tài)空間為:S= {[X^+a-l) w,Xmin+iw] |i= 1,2,...nj; (2)M:系統(tǒng)動作集合,M= % |i= 1,2, ???,ns},Mi={m" |j= 1,2, ???,nj,mi」表示系 統(tǒng)第i個感知狀態(tài)下第j個可選動作,叫為第i個狀態(tài)下可選動作的個數(shù); (3) 0:"感知-運動"取向性映射集合,0={0」1 = 1,2,?1〇,(^為狀態(tài)\對應的取向 性映射矩陣,其中〇,=力嘆0,",lxn,diag表示括號里的元素以對角陣的方式儲 存,此處元素%的下表i(i= 1,2,…,ns)并不表示元素所在矩陣的行信息,%(1£(1,2,? ,ns),jG(1,2,…,r〇)表示一條"感知-運動"映射,表征的是系統(tǒng)在感知狀態(tài)SiGS下對 動作&的取向性,或稱感知狀態(tài)si與動作mu的感知運動取向性為〇 u,規(guī)定智能體在任何 感知狀態(tài)下對該狀態(tài)下所有動作的取向性總和保持不變,即當智能體在某狀態(tài)下對其中一 動作的取向性增加時,同時意味著在該狀態(tài)下對其他動作的取向性減小,本認知模型中,取 向性滿足0彡〇ij彡1且|>,7 = 1 ; y-i (4) N:狀態(tài)學習次數(shù),N=仉|i= 1,2,…,nj,隊為至t時刻狀態(tài)s顏學習的次數(shù); (5)C:好奇心,C= |i= 1,2,…nj,q為狀態(tài)si的好奇心; (6)V:系統(tǒng)狀態(tài)取向值,用來決定取向函數(shù)的值,V={Vili= 1,2,…ns},為滿足系統(tǒng) 普適性,定義ViG[-1,1],-1為最差狀態(tài)的狀態(tài)取向值,1為最理想狀態(tài)的狀態(tài)取向值, 對于離散系統(tǒng),根據(jù)實際情況定義各狀態(tài)的取向值,對于連續(xù)系統(tǒng),對離散化后的狀態(tài)定義 離散狀態(tài)取向值,也在線計算所處狀態(tài)的連續(xù)狀態(tài)取向值,針對連續(xù)系統(tǒng),狀態(tài)取向值的計 算方法為:h )/(1 +J,e#),1表征期望狀態(tài)和實際狀態(tài)之間的誤差程度,定義 為Kt) = (Xb-X"t))2,其中Xb為期望狀態(tài)值,X"t)為t時亥IJ實際狀態(tài)值,Vi被歸一化到 [-1,1]之間,且為1的減函數(shù),意味著t時刻所處狀態(tài)與期望狀態(tài)之間誤差越大,狀態(tài)取向 值越小,所處狀態(tài)與期望狀態(tài)之間誤差越小,狀態(tài)取向值越大,符合生物取向性,A為歸一 化系數(shù); (7) Vs:取向函數(shù),Vs=aVn+b(Vn-V。),入和Vn分別表示執(zhí)行某一動作的前后狀態(tài),取向 函數(shù)影響系統(tǒng)取向性的變化方向,既與狀態(tài)取向值變化過程相關,也與變化后所處狀態(tài)的 狀態(tài)取向值相關,其中a多0,b多0為取向函數(shù)參數(shù),其取值應保證取向函數(shù)的正負號不改 變(Vn_V。)的正負號,且滿足a+b= 1,通過學習得到; (8)P:取向性學習矩陣,P= {P」i=l,2,?ns},作用是依據(jù)取向函數(shù)所提供的信息, 對取向性映射進行更新調整,其中乃= ?,凡,,J)nxn為狀態(tài)Si對應的學習矩 陣,各參數(shù)意義與(3)中相同,不再贅述; (9)F:系統(tǒng)內部狀態(tài)轉移函數(shù),F(xiàn)(s(t),m(t)) =s(t+l),表示t時刻在感知狀態(tài)為s(t)下執(zhí)行動作m(t)后狀態(tài)轉移為s(t+l); (l〇)E:感知運動系統(tǒng)的知識熵,E= {E」i= 1,2,…ns},用來描述系統(tǒng)對知識的學習程 度,表征系統(tǒng)的自學習和自組織特性,系統(tǒng)在學習初始階段,沒有任何知識,對各動作的取 向性相等,經(jīng)過不斷學習,習得世界知識,取向性發(fā)生變化,因此采用信息熵的變化過程來 描述系統(tǒng)自學習、自組織的過程,通過信息熵值的變化,來反應系統(tǒng)知識積累的程度,系統(tǒng)t 時刻在狀態(tài)Si下的知識熵及總的知識熵定義如下:
系統(tǒng)按以下步驟進行學習: (1) 初始化:設定初始狀態(tài)S。,初始取向性分布h及初始好奇心的值 (2) 感知當前狀態(tài); (3) 計算當前狀態(tài)下的取向性映射矩陣; (4) 計算當前狀態(tài)下的好奇心值,生成隨機指針,將好奇心投向指針指向的動作;好奇 心計算方法設計為:
mm卜」次^」機機_遠擇動作; (6) 實施選定的動作,狀態(tài)發(fā)生轉移; (7) 計算轉移后狀態(tài)的狀態(tài)取向值; (8) 計算取向函數(shù)值; (9) 根據(jù)取向函數(shù)提供的信息更新"感知-運動"映射; (10) 重復執(zhí)行步驟(2) -(9)直至知識熵不再發(fā)生變化或學習時間大于終止時間,學習 結束。
2.根據(jù)權利要求1所述的方法,其特征在于,取向性映射更新機制的設計,具體為:設t時刻系統(tǒng)在感知狀態(tài)Si下的取向性映射為0i(t),執(zhí)行所選動作mu后,在該感知狀態(tài)下的 取向性映射變?yōu)椹杋(t+1),則取向性映射更新方法如下:
其中Pu(t)為t時刻取向性學習矩陣Pi中的第j個元素,與取向性元素ou(t)相對應,Pik(t)為其余元素,與〇ik(t)對應,n>〇為取向性學習參數(shù)。
3.根據(jù)權利要求1所述的方法,其特征在于,系統(tǒng)認知模型從生物學角度出發(fā),設計了 感知運動系統(tǒng)選擇動作的內發(fā)動機機制,具體為每個時刻選擇所處狀態(tài)下取向性和好奇心 和值最大的動作。
【專利摘要】一種具有內發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法屬于智能機器人技術領域。系統(tǒng)認知模型以學習自動機為基礎,包括感知狀態(tài)集合、動作集合、取向性映射集合、好奇心、取向函數(shù)、取向性學習矩陣、狀態(tài)轉移函數(shù)以及知識熵等十部分。模型首先感知系統(tǒng)當前狀態(tài);依據(jù)內發(fā)動機機制選擇動作;執(zhí)行動作,狀態(tài)發(fā)生轉移;計算取向函數(shù)的值;更新“感知-運動”映射;重復以上過程,直至知識熵達到極小或學習時間大于終止時間。本發(fā)明引入具有主動學習環(huán)境的內發(fā)動機機制,不僅使系統(tǒng)具有較強的自學習和自組織能力,同時能夠有效避免具有破壞性的小概率事件的發(fā)生,提高了系統(tǒng)的穩(wěn)定性,為建立具有認知發(fā)育能力的機器人提供了有力基礎。
【IPC分類】G05B13-04
【公開號】CN104614988
【申請?zhí)枴緾N201410808900
【發(fā)明人】阮曉鋼, 張曉平, 武璇, 黃靜, 陳志剛, 肖堯, 朱曉慶, 奧塔瓦.謝
【申請人】北京工業(yè)大學
【公開日】2015年5月13日
【申請日】2014年12月22日