本技術(shù)涉及機(jī)器視覺(jué)領(lǐng)域,尤其涉及一種導(dǎo)航模型分布式訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、智能體是指具有智能的實(shí)體,以智能體包括家用機(jī)器人為例,家用機(jī)器人可通過(guò)網(wǎng)絡(luò)模型對(duì)通過(guò)機(jī)器視覺(jué)采集的環(huán)境信息及環(huán)境中包含的物件信息進(jìn)行數(shù)字化的描述,如墻壁、家具等,然后基于網(wǎng)絡(luò)模型將數(shù)字化的描述轉(zhuǎn)換成相應(yīng)的動(dòng)作策略,以使家用機(jī)器人根據(jù)所述動(dòng)作策略在所處環(huán)境中進(jìn)行移動(dòng)。
2、但對(duì)于目前普遍應(yīng)用于智能體導(dǎo)航的網(wǎng)絡(luò)模型而言,其訓(xùn)練過(guò)程往往是在單一的服務(wù)器上完成訓(xùn)練,導(dǎo)致無(wú)法基于各個(gè)智能體所處環(huán)境的實(shí)際場(chǎng)景信息進(jìn)行個(gè)性化的模型訓(xùn)練,將訓(xùn)練好的模型部署于各個(gè)智能體時(shí)可能會(huì)出現(xiàn)與智能體所處環(huán)境不適配或是不夠智能的問(wèn)題,例如對(duì)環(huán)境感知不夠精確、導(dǎo)航路徑固定等。另外,如果將各個(gè)智能體的本地?cái)?shù)據(jù)上傳至同一服務(wù)器對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,又可能會(huì)帶來(lái)智能體本地的隱私數(shù)據(jù)或敏感數(shù)據(jù)泄露的安全問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種導(dǎo)航模型分布式訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),旨在提升訓(xùn)練得到的導(dǎo)航模型的智能度,以及導(dǎo)航模型在應(yīng)用于智能體時(shí)對(duì)于智能體及智能體所處環(huán)境的適配度,并且避免智能體本地的隱私數(shù)據(jù)或敏感數(shù)據(jù)在訓(xùn)練的過(guò)程中產(chǎn)生泄露。
2、第一方面,本技術(shù)實(shí)施例提供了一種導(dǎo)航模型分布式訓(xùn)練方法,包括:
3、獲取環(huán)境圖像庫(kù)并調(diào)用初始編碼模型,環(huán)境圖像庫(kù)包括若干環(huán)境圖像以及與環(huán)境圖像一一對(duì)應(yīng)的自然語(yǔ)言指令;
4、基于環(huán)境圖像與自然語(yǔ)言指令對(duì)初始編碼模型進(jìn)行訓(xùn)練得到目標(biāo)編碼模型,其中,目標(biāo)編碼模型輸出表征環(huán)境圖像的描述性編碼,且描述性編碼與環(huán)境圖像對(duì)應(yīng)的自然語(yǔ)言指令相匹配;
5、基于目標(biāo)編碼模型生成全局導(dǎo)航模型,其中,全局導(dǎo)航模型用于根據(jù)環(huán)境圖像生成動(dòng)作策略;
6、將全局導(dǎo)航模型分別下發(fā)至智能體集群中的每一智能體,以使每一智能體基于對(duì)應(yīng)的本地?cái)?shù)據(jù)對(duì)全局導(dǎo)航模型中的模型參數(shù)進(jìn)行訓(xùn)練得到第一訓(xùn)練參數(shù);
7、獲取各智能體反饋的第一訓(xùn)練參數(shù),并根據(jù)第一訓(xùn)練參數(shù)對(duì)全局導(dǎo)航模型進(jìn)行參數(shù)更新以生成目標(biāo)導(dǎo)航模型。
8、在一些實(shí)施方式中,根據(jù)第一訓(xùn)練參數(shù)對(duì)全局導(dǎo)航模型進(jìn)行參數(shù)更新以生成目標(biāo)導(dǎo)航模型,包括:
9、根據(jù)各智能體對(duì)應(yīng)的第一訓(xùn)練參數(shù)生成聚合參數(shù);
10、利用聚合參數(shù)替換全局導(dǎo)航模型中的模型參數(shù)得到待定導(dǎo)航模型;
11、當(dāng)待定導(dǎo)航模型滿足預(yù)設(shè)收斂準(zhǔn)則時(shí),將待定導(dǎo)航模型作為目標(biāo)導(dǎo)航模型。
12、在一些實(shí)施方式中,方法還包括:
13、當(dāng)待定導(dǎo)航模型未滿足預(yù)設(shè)收斂準(zhǔn)則時(shí),將聚合參數(shù)下發(fā)至每一智能體,以使智能體根據(jù)利用聚合參數(shù)替換全局導(dǎo)航模型中的模型參數(shù)得到第一導(dǎo)航模型,并基于對(duì)應(yīng)的本地?cái)?shù)據(jù)對(duì)第一導(dǎo)航模型中的模型參數(shù)進(jìn)行訓(xùn)練得到第二訓(xùn)練參數(shù);
14、獲取各智能體反饋的第二訓(xùn)練參數(shù),并根據(jù)第一訓(xùn)練參數(shù)對(duì)全局導(dǎo)航模型進(jìn)行參數(shù)更新以生成修正導(dǎo)航模型。
15、在一些實(shí)施方式中,根據(jù)各智能體對(duì)應(yīng)的第一訓(xùn)練參數(shù)生成聚合參數(shù),包括:
16、獲取各智能體對(duì)應(yīng)的權(quán)重系數(shù);
17、根據(jù)智能體對(duì)應(yīng)的第一訓(xùn)練參數(shù)與權(quán)重系數(shù)計(jì)算加權(quán)平均值作為聚合參數(shù)。
18、在一些實(shí)施方式中,基于目標(biāo)編碼模型生成全局導(dǎo)航模型,包括:
19、調(diào)取第一線性網(wǎng)絡(luò),第一線性網(wǎng)絡(luò)用于輸出基于描述性編碼生成的動(dòng)作策略;
20、根據(jù)目標(biāo)編碼模型與第一線性網(wǎng)絡(luò)生成策略模型;
21、調(diào)取第二線性網(wǎng)絡(luò),第二線性網(wǎng)絡(luò)用于輸出基于描述性編碼對(duì)動(dòng)作策略進(jìn)行評(píng)估確定的動(dòng)作價(jià)值;
22、根據(jù)目標(biāo)編碼模型與第二線性網(wǎng)絡(luò)生成價(jià)值模型;
23、基于策略模型與價(jià)值模型生成全局導(dǎo)航模型。
24、在一些實(shí)施方式中,基于環(huán)境圖像與自然語(yǔ)言指令對(duì)初始編碼模型進(jìn)行訓(xùn)練得到目標(biāo)編碼模型之前,還包括:
25、對(duì)環(huán)境圖像進(jìn)行圖像尺寸調(diào)整操作,以使調(diào)整后的環(huán)境圖像尺寸滿足預(yù)設(shè)尺寸范圍;
26、和/或,
27、對(duì)環(huán)境圖像中的至少部分像素進(jìn)行像素值調(diào)整操作,像素值調(diào)整操作包括歸一化、銳化、對(duì)比度調(diào)整中的至少一者。
28、在一些實(shí)施方式中,基于環(huán)境圖像與自然語(yǔ)言指令對(duì)初始編碼模型進(jìn)行訓(xùn)練得到目標(biāo)編碼模型,包括:
29、將環(huán)境圖像輸入初始編碼模型,由初始編碼模型輸出與環(huán)境圖像對(duì)應(yīng)的描述性編碼;
30、對(duì)自然語(yǔ)言指令進(jìn)行編碼操作以生成語(yǔ)言指令編碼,并生成表征描述性編碼與語(yǔ)言指令編碼之間相似度的語(yǔ)義特征向量;
31、基于語(yǔ)義特征向量對(duì)初始編碼模型中的模型參數(shù)進(jìn)行迭代訓(xùn)練,得到目標(biāo)編碼模型。
32、第二方面,本技術(shù)實(shí)施例還提供一種導(dǎo)航模型分布式訓(xùn)練裝置,包括:
33、初始化模塊,用于獲取環(huán)境圖像庫(kù)并調(diào)用初始編碼模型,環(huán)境圖像庫(kù)包括若干環(huán)境圖像以及與環(huán)境圖像一一對(duì)應(yīng)的自然語(yǔ)言指令;
34、集中訓(xùn)練模塊,用于基于環(huán)境圖像與自然語(yǔ)言指令對(duì)初始編碼模型進(jìn)行訓(xùn)練得到目標(biāo)編碼模型,其中,目標(biāo)編碼模型輸出表征環(huán)境圖像的描述性編碼,且描述性編碼與環(huán)境圖像對(duì)應(yīng)的自然語(yǔ)言指令相匹配;
35、全局模型模塊,用于基于目標(biāo)編碼模型生成全局導(dǎo)航模型,其中,全局導(dǎo)航模型用于根據(jù)環(huán)境圖像生成動(dòng)作策略;
36、模型下發(fā)模塊,用于將全局導(dǎo)航模型分別下發(fā)至智能體集群中的每一智能體,以使每一智能體基于對(duì)應(yīng)的本地?cái)?shù)據(jù)對(duì)全局導(dǎo)航模型中的模型參數(shù)進(jìn)行訓(xùn)練得到第一訓(xùn)練參數(shù);
37、模型聚合模塊,用于獲取各智能體反饋的第一訓(xùn)練參數(shù),并根據(jù)第一訓(xùn)練參數(shù)對(duì)全局導(dǎo)航模型進(jìn)行參數(shù)更新以生成目標(biāo)導(dǎo)航模型。
38、第三方面,本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器;
39、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
40、處理器,用于執(zhí)行的計(jì)算機(jī)程序并在執(zhí)行的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的導(dǎo)航模型分布式訓(xùn)練方法。
41、第四方面,本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使處理器實(shí)現(xiàn)上述的導(dǎo)航模型分布式訓(xùn)練方法。
42、本技術(shù)實(shí)施例提供了一種導(dǎo)航模型分布式訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),其中,導(dǎo)航模型分布式訓(xùn)練方法包括:獲取環(huán)境圖像庫(kù)并調(diào)用初始編碼模型,環(huán)境圖像庫(kù)包括若干環(huán)境圖像以及與環(huán)境圖像一一對(duì)應(yīng)的自然語(yǔ)言指令;基于環(huán)境圖像與自然語(yǔ)言指令對(duì)初始編碼模型進(jìn)行訓(xùn)練得到目標(biāo)編碼模型,其中,目標(biāo)編碼模型輸出表征環(huán)境圖像的描述性編碼,且描述性編碼與環(huán)境圖像對(duì)應(yīng)的自然語(yǔ)言指令相匹配;基于目標(biāo)編碼模型生成全局導(dǎo)航模型,其中,全局導(dǎo)航模型用于根據(jù)環(huán)境圖像生成動(dòng)作策略;將全局導(dǎo)航模型分別下發(fā)至智能體集群中的每一智能體,以使每一智能體基于對(duì)應(yīng)的本地?cái)?shù)據(jù)對(duì)全局導(dǎo)航模型中的模型參數(shù)進(jìn)行訓(xùn)練得到第一訓(xùn)練參數(shù);獲取各智能體反饋的第一訓(xùn)練參數(shù),并根據(jù)第一訓(xùn)練參數(shù)對(duì)全局導(dǎo)航模型進(jìn)行參數(shù)更新以生成目標(biāo)導(dǎo)航模型。本技術(shù)實(shí)施例通過(guò)將全局導(dǎo)航模型部署至多個(gè)分布式的智能體,允許各智能體基于本地的數(shù)據(jù)進(jìn)行訓(xùn)練,無(wú)需將智能體的本地?cái)?shù)據(jù)集中至一個(gè)中心節(jié)點(diǎn),避免了數(shù)據(jù)的中心化存儲(chǔ)和傳輸,從而提高了各智能體本地?cái)?shù)據(jù)的隱私安全性。而且將全局導(dǎo)航模型部署至各智能體可以更好地結(jié)合智能體本身所處環(huán)境和使用場(chǎng)景進(jìn)行訓(xùn)練,使得智能體可以學(xué)習(xí)更多的本地化特征和場(chǎng)景,更好地適應(yīng)不同的環(huán)境和任務(wù)需求。另外,由于各個(gè)智能體均是針對(duì)本地?cái)?shù)據(jù)對(duì)下發(fā)的全局導(dǎo)航模型進(jìn)行訓(xùn)練,使得全局模型參數(shù)的更新在不同智能體中獨(dú)立進(jìn)行,使得模型更新的過(guò)程相對(duì)易于監(jiān)控和調(diào)試。