本申請(qǐng)屬于人工智能領(lǐng)域,尤其涉及el系統(tǒng)中智能體獲取廣義納什均衡的方法和系統(tǒng)。
背景技術(shù):
1、智能體在歐拉-拉格朗日系統(tǒng)el下的控制問題是現(xiàn)有ai控制技術(shù)中一個(gè)需要解決的問題,該問題通常可以引申為獲取智能體在歐拉-拉格朗日系統(tǒng)中的廣義納什均衡解,而現(xiàn)有技術(shù)通常沒有較好的方式快速、準(zhǔn)確的獲取廣義納什均衡解。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的主要目的在于提供el系統(tǒng)中智能體獲取廣義納什均衡的方法和系統(tǒng),使得智能體在任何運(yùn)動(dòng)狀態(tài)下都可以獲取gne,同時(shí)對(duì)于不符合el系統(tǒng)的通過預(yù)設(shè)的虛擬二階輔助系統(tǒng)也可以快速準(zhǔn)確的獲取gne。
2、第一方面,提供了el系統(tǒng)中智能體獲取廣義納什均衡的方法,所述方法包括:
3、判斷待獲取智能體是否能夠通過歐拉-拉格朗日系統(tǒng)el的系統(tǒng)參數(shù)獲取廣義納什均衡gne;
4、根據(jù)所述判斷的結(jié)果獲取所述待獲取智能體的gne,包括:
5、如果所述判斷的結(jié)果為是,則通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne;
6、或者,如果所述判斷的結(jié)果為否,則通過追蹤預(yù)設(shè)的虛擬二階輔助系統(tǒng)的廣義納什均衡的軌跡,獲取所述待獲取智能體的gne。
7、在一個(gè)可能的實(shí)現(xiàn)方式中,所述通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne,包括:
8、對(duì)所述el系統(tǒng)設(shè)計(jì)控制輸入,通過線性反饋方法,將非線性二階系統(tǒng)轉(zhuǎn)化為二階線性系統(tǒng),利用梯度下降法和一致性原理,控制智能體獲取到gne。
9、在一個(gè)可能的實(shí)現(xiàn)方式中,所述如果所述判斷的結(jié)果為否,則通過追蹤預(yù)設(shè)的虛擬二階輔助系統(tǒng)的廣義納什均衡的軌跡,獲取所述待獲取智能體的gne,包括:
10、獲取所述el的跟蹤控制律,其中,是所述跟蹤控制律的輸出項(xiàng),為跟蹤誤差,和是所述虛擬二階輔助系統(tǒng)的輸出,是的導(dǎo)數(shù),是智能體的決策變量,是所述決策變量的導(dǎo)數(shù),表示維實(shí)數(shù)列向量,表示的實(shí)數(shù)矩陣,是正定矩陣,是向量的估計(jì),通過獲取,為已知矩陣,為未知向量且滿足如下等式,在該等式中,是慣性矩陣,且為正定矩陣,是科式力和向心力矩陣,是重力向量,所述輔助變量滿足,且有等式成立;
11、通過所述跟蹤控制律跟蹤虛擬二階輔助系統(tǒng)獲取所述gne,其中,,是所述虛擬二階輔助系統(tǒng)中的智能體的決策變量,是控制輸入,是所述智能體的代價(jià)函數(shù)的關(guān)于的導(dǎo)數(shù),是輔助變量,是的導(dǎo)數(shù),是智能體交互拓?fù)鋱D中鄰接矩陣第行第列的元素,是智能體交互拓?fù)鋱D中鄰接矩陣第行第列的元素,是虛擬智能體對(duì)實(shí)際決策變量的估計(jì),col{}表示將向量表示成列向量的形式,表示對(duì)決策的估計(jì),表示對(duì)決策的估計(jì),表示博弈問題的約束條件中智能體的有限資源,為常數(shù),,和是控制增益。
12、在一個(gè)可能的實(shí)現(xiàn)方式中,所述通過所述跟蹤控制律跟蹤虛擬二階輔助系統(tǒng)獲取所述gne,包括:
13、所述虛擬二階輔助系統(tǒng)將每個(gè)智能體設(shè)置為虛擬領(lǐng)導(dǎo)者;
14、所述智能體根據(jù)一致性原理沿著梯度方向獲取所述虛擬二階輔助系統(tǒng)中的gne,動(dòng)力學(xué)系統(tǒng)為el方程的智能體通過跟蹤控制律以及誤差項(xiàng),跟蹤所述虛擬二階輔助系統(tǒng)中的智能體軌跡,根據(jù)所述智能體軌跡獲取非合作博弈問題的gne。
15、第二方面,提供了一種el系統(tǒng)中智能體獲取廣義納什均衡的系統(tǒng),所述系統(tǒng)包括:
16、判斷模塊,用于判斷待獲取智能體是否能夠通過歐拉-拉格朗日系統(tǒng)el的系統(tǒng)參數(shù)獲取廣義納什均衡gne;
17、gne獲取模塊,根據(jù)所述判斷的結(jié)果獲取所述待獲取智能體的gne,包括:
18、如果所述判斷的結(jié)果為是,則通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne;
19、或者,如果所述判斷的結(jié)果為否,則通過追蹤預(yù)設(shè)的虛擬二階輔助系統(tǒng)的廣義納什均衡的軌跡,獲取所述待獲取智能體的gne;
20、在一個(gè)可能的實(shí)現(xiàn)方式中,所述通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne,包括:
21、對(duì)所述el系統(tǒng)設(shè)計(jì)控制輸入,通過線性反饋方法,將非線性二階系統(tǒng)轉(zhuǎn)化為二階線性系統(tǒng),利用梯度下降法和一致性原理,控制智能體獲取到gne。
22、在一個(gè)可能的視線方式中,所述gne獲取模塊,包括:
23、跟蹤控制律獲取單元,用于獲取所述el的跟蹤控制律,其中,是所述跟蹤控制律的輸出項(xiàng),為跟蹤誤差,和是所述虛擬二階輔助系統(tǒng)的輸出,是的導(dǎo)數(shù),是智能體的決策變量,是所述決策變量的導(dǎo)數(shù),表示維實(shí)數(shù)列向量,表示的實(shí)數(shù)矩陣,是正定矩陣,是向量的估計(jì),通過獲取,為已知矩陣,為未知向量且滿足如下等式,在該等式中,是慣性矩陣,且為正定矩陣,是科式力和向心力矩陣,是重力向量,所述輔助變量滿足,且有等式成立;
24、gne獲取單元,用于通過所述跟蹤控制律跟蹤虛擬二階輔助系統(tǒng)獲取所述gne,其中,,是所述虛擬二階輔助系統(tǒng)中的智能體的決策變量,是控制輸入,是所述智能體的代價(jià)函數(shù)的關(guān)于的導(dǎo)數(shù),是輔助變量,是的導(dǎo)數(shù),是智能體交互拓?fù)鋱D中鄰接矩陣第行第列的元素,是智能體交互拓?fù)鋱D中鄰接矩陣第行第列的元素,是虛擬智能體對(duì)實(shí)際決策變量的估計(jì),col{}表示將向量表示成列向量的形式,表示對(duì)決策的估計(jì),表示對(duì)決策的估計(jì),表示博弈問題的約束條件中智能體的有限資源,為常數(shù),,和是控制增益。
25、在一個(gè)可能的實(shí)現(xiàn)方式中,所述gne獲取單元,包括:
26、設(shè)置單元,用于所述虛擬二階輔助系統(tǒng)將每個(gè)智能體設(shè)置為虛擬領(lǐng)導(dǎo)者;
27、獲取單元,用于所述智能體根據(jù)一致性原理沿著梯度方向獲取所述虛擬二階輔助系統(tǒng)中的gne,動(dòng)力學(xué)系統(tǒng)為el方程的智能體通過跟蹤控制律以及誤差項(xiàng),跟蹤所述虛擬二階輔助系統(tǒng)中的智能體軌跡,根據(jù)所述智能體軌跡獲取非合作博弈問題的gne。
28、第三方面,提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行程序時(shí)實(shí)現(xiàn)如第一方面提供的el系統(tǒng)中智能體獲取廣義納什均衡的方法。
29、第四方面,提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面提供的el系統(tǒng)中智能體獲取廣義納什均衡的方法。
30、在本申請(qǐng)中,el系統(tǒng)中智能體獲取廣義納什均衡的方法和系統(tǒng),使得智能體在任何運(yùn)動(dòng)狀態(tài)下都可以獲取gne,同時(shí)對(duì)于不符合el系統(tǒng)的通過預(yù)設(shè)的虛擬二階輔助系統(tǒng)也可以快速準(zhǔn)確的獲取gne。
1.一種el系統(tǒng)中智能體獲取廣義納什均衡的方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne,包括:
3.如權(quán)利要求1所述的方法,其特征在于,所述通過追蹤預(yù)設(shè)的虛擬二階輔助系統(tǒng)的廣義納什均衡的軌跡,獲取所述待獲取智能體的gne,包括:
4.如權(quán)利要求3所述的方法,其特征在于,所述通過所述跟蹤控制律跟蹤虛擬二階輔助系統(tǒng)獲取所述gne,包括:
5.一種el系統(tǒng)中智能體獲取廣義納什均衡的系統(tǒng),其特征在于,所述系統(tǒng)包括:
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述通過預(yù)設(shè)的基于線性反饋原理設(shè)計(jì)的分布式算法獲取所述待獲取智能體的gne,包括:
7.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述gne獲取模塊,包括:
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述gne獲取單元,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-4任一項(xiàng)所述的el系統(tǒng)中智能體獲取廣義納什均衡的方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-4任一項(xiàng)所述的el系統(tǒng)中智能體獲取廣義納什均衡的方法。