国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程

      文檔序號(hào):40402079發(fā)布日期:2024-12-20 12:25閱讀:12來(lái)源:國(guó)知局
      基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)與流程

      本技術(shù)涉及建筑,特別涉及一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及介質(zhì)。


      背景技術(shù):

      1、桁架結(jié)構(gòu)是一種常見的工程結(jié)構(gòu)形式,由桿件按照一定的幾何形式連接構(gòu)成,而桁架優(yōu)化主要涉及節(jié)點(diǎn)位置、節(jié)點(diǎn)之間的拓?fù)浜瓦B接桿的橫截面積的優(yōu)化;傳統(tǒng)上,結(jié)構(gòu)工程師通過(guò)草圖進(jìn)行分析和迭代的辦法過(guò)程繁瑣,已逐漸被各種計(jì)算機(jī)優(yōu)化算法所取代。但是桁架設(shè)計(jì)是一個(gè)復(fù)雜的組合優(yōu)化問(wèn)題,解空間巨大,簡(jiǎn)單地用計(jì)算機(jī)進(jìn)行窮舉式搜索并不可行,需要耗費(fèi)大量的時(shí)間和計(jì)算資源。

      2、相關(guān)技術(shù)中,基本都采用了啟發(fā)式搜索的方法,通過(guò)應(yīng)用某種啟發(fā)式信息或策略來(lái)引導(dǎo)搜索過(guò)程,以避免遍歷所有可能解,更快地找到較優(yōu)解。這些方法包括遺傳算法、粒子群優(yōu)化、模擬退火和差分進(jìn)化等,以及在它們基礎(chǔ)上改進(jìn)的版本,但是仍舊存在以下問(wèn)題:

      3、(1)由于整個(gè)搜索空間包含節(jié)點(diǎn)位置和桿件橫截面積是連續(xù)的,微小的形狀變化可能極大地影響整個(gè)桁架布局的力學(xué)性能,因此離散化程度不夠精細(xì)可能很容易錯(cuò)過(guò)最優(yōu)位置,導(dǎo)致生成結(jié)果質(zhì)量欠佳。

      4、(2)啟發(fā)式搜索通常只關(guān)注目標(biāo)函數(shù)和當(dāng)前的決策,而忽視了決策序列的全局性質(zhì);由于桁架結(jié)構(gòu)的優(yōu)化涉及一系列連續(xù)的步驟,當(dāng)前步驟的決策只能選擇下一狀態(tài),而沒有評(píng)估新狀態(tài)進(jìn)一步優(yōu)化的空間;長(zhǎng)遠(yuǎn)來(lái)看,這類方法往往沒法找到全局的最優(yōu)結(jié)果,準(zhǔn)確性較低。

      5、(3)采用分層優(yōu)化的辦法將節(jié)點(diǎn)位置和截面尺寸分步或交替進(jìn)行優(yōu)化;這種方法可以提高搜索速度,但是會(huì)逐步減小解空間從而錯(cuò)過(guò)最優(yōu)解。


      技術(shù)實(shí)現(xiàn)思路

      1、本技術(shù)提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以解決相關(guān)技術(shù)中采用啟發(fā)式搜索方法導(dǎo)致無(wú)法精確定位全局的最優(yōu)結(jié)果,設(shè)計(jì)效率較低、生成結(jié)果質(zhì)量較差、搜索成本高等問(wèn)題。

      2、本技術(shù)第一方面實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法,包括以下步驟:獲取桁架的設(shè)計(jì)要求和歷史數(shù)據(jù);迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個(gè)桁架布局;篩選所述多個(gè)桁架布局中滿足所述設(shè)計(jì)要求的不同拓?fù)涞蔫旒懿季?,并通過(guò)強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季郑玫剿鲨旒艿膬?yōu)化結(jié)果。

      3、可選地,所述通過(guò)強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季?,包括:利用馬爾科夫決策模型決策所述桁架布局的優(yōu)化調(diào)整動(dòng)作;利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動(dòng)作,以優(yōu)化所述桁架布局。

      4、可選地,所述馬爾科夫決策模型包括:狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子,其中,所述狀態(tài)空間包括所有可能的桁架布局,所述動(dòng)作空間包括所有可能的調(diào)整動(dòng)作,所述獎(jiǎng)勵(lì)函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度,所述狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動(dòng)作后桁架布局改變方向,所述折扣因子用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)。

      5、可選地,所述利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行所述優(yōu)化調(diào)整動(dòng)作,包括:利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動(dòng)作;利用目標(biāo)函數(shù)估計(jì)執(zhí)行所述優(yōu)化調(diào)整動(dòng)作后所述桁架布局的價(jià)值,根據(jù)所述價(jià)值在所述目標(biāo)函數(shù)中添加熵項(xiàng),利用所述熵項(xiàng)平衡所述目標(biāo)策略。

      6、可選地,所述目標(biāo)函數(shù)為:

      7、

      8、其中,θ表示目標(biāo)策略π的參數(shù),st表示t時(shí)刻的狀態(tài),at表示t時(shí)刻的動(dòng)作,πθ表示目標(biāo)策略,該策略對(duì)每個(gè)狀態(tài)s輸出一個(gè)動(dòng)作a使得累計(jì)獎(jiǎng)勵(lì)的期望最大,πθ(st)表示狀態(tài)st下該策略輸出的動(dòng)作,πθ(at|st)表示在狀態(tài)st時(shí)采取行動(dòng)at的概率;

      9、sac算法使用數(shù)據(jù)緩存區(qū)d來(lái)保存所有的轉(zhuǎn)換樣本,并學(xué)習(xí)一個(gè)參數(shù)為ψ的軟性q函數(shù)qψ(st,at),其中包含一個(gè)溫度參數(shù)α來(lái)控制學(xué)習(xí)過(guò)程中探索和利用的程度,表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時(shí)式子的平均期望。

      10、可選地,所述迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個(gè)桁架布局,包括:構(gòu)建所述桁架的搜索樹;在搜索開始時(shí)初始化對(duì)所述桁架的所有調(diào)整動(dòng)作,其中,所述調(diào)整動(dòng)作包括節(jié)點(diǎn)添加動(dòng)作、桿件添加動(dòng)作和改變橫截面積動(dòng)作中的一種或多種;基于樹的上限置信區(qū)間迭代搜索所述桁架的歷史設(shè)計(jì)數(shù)據(jù),其中,在每次迭代搜索過(guò)程中,從所述搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹,并從所述預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動(dòng)作進(jìn)行模擬,在模擬過(guò)程中更新所述調(diào)整動(dòng)作,直到得到最優(yōu)調(diào)整動(dòng)作,根據(jù)每次迭代的最優(yōu)調(diào)整動(dòng)作生成符合力學(xué)條件的多個(gè)桁架布局。

      11、可選地,所述最優(yōu)調(diào)整動(dòng)作的更新公式為:

      12、q(s,a)=βwmean(s,a)+(1-β)wbest(s,a)

      13、其中,s表示桁架結(jié)構(gòu)狀態(tài),a表示優(yōu)化調(diào)整動(dòng)作,wmean(s,a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎(jiǎng)勵(lì),wbest(s,a)表示在該子樹中的最高獎(jiǎng)勵(lì),β是一個(gè)超參數(shù),用于控制在平均獎(jiǎng)勵(lì)和最高獎(jiǎng)勵(lì)之間的探索傾向;

      14、對(duì)于每個(gè)新生成的桁架結(jié)構(gòu)gm,定義獎(jiǎng)勵(lì)函數(shù)為:

      15、

      16、其中,k是一個(gè)比例參數(shù),mass(m)是新桁架結(jié)構(gòu)質(zhì)量,表示調(diào)整后的獎(jiǎng)勵(lì)值,新桁架質(zhì)量越小,獎(jiǎng)勵(lì)值越高。

      17、本技術(shù)第二方面實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化裝置,包括:獲取模塊,用于獲取桁架的設(shè)計(jì)要求和歷史數(shù)據(jù);搜索模塊,用于迭代搜索所述歷史數(shù)據(jù)得到符合力學(xué)條件的多個(gè)桁架布局;篩選模塊,用于篩選所述多個(gè)桁架布局中滿足所述設(shè)計(jì)要求的不同拓?fù)涞蔫旒懿季郑⑼ㄟ^(guò)強(qiáng)化學(xué)習(xí)策略優(yōu)化所述不同拓?fù)涞蔫旒懿季?,得到所述桁架的?yōu)化結(jié)果。

      18、可選地,篩選模塊進(jìn)一步用于:利用馬爾科夫決策模型決策桁架布局的優(yōu)化調(diào)整動(dòng)作;利用深度強(qiáng)化學(xué)習(xí)sac算法執(zhí)行優(yōu)化調(diào)整動(dòng)作,以優(yōu)化桁架布局。

      19、可選地,馬爾科夫決策模型包括:狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、狀態(tài)轉(zhuǎn)移概率和折扣因子,其中,狀態(tài)空間包括所有可能的桁架布局,動(dòng)作空間包括所有可能的調(diào)整動(dòng)作,獎(jiǎng)勵(lì)函數(shù)用于反映桁架布局的質(zhì)量、穩(wěn)定性和滿足約束的程度,狀態(tài)轉(zhuǎn)移概率反映執(zhí)行調(diào)整動(dòng)作后桁架布局改變方向,折扣因子用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)。

      20、可選地,篩選模塊進(jìn)一步用于:利用目標(biāo)策略將桁架布局映射到優(yōu)化調(diào)整動(dòng)作;利用目標(biāo)函數(shù)估計(jì)執(zhí)行優(yōu)化調(diào)整動(dòng)作后桁架布局的價(jià)值,根據(jù)價(jià)值在目標(biāo)函數(shù)中添加熵項(xiàng),利用熵項(xiàng)平衡目標(biāo)策略。

      21、可選地,目標(biāo)函數(shù)為:

      22、

      23、其中,θ表示目標(biāo)策略π的參數(shù),st表示t時(shí)刻的狀態(tài),at表示t時(shí)刻的動(dòng)作,πθ表示目標(biāo)策略,該策略對(duì)每個(gè)狀態(tài)s輸出一個(gè)動(dòng)作a使得累計(jì)獎(jiǎng)勵(lì)的期望最大,πθ(st)表示狀態(tài)st下該策略輸出的動(dòng)作,πθ(at|st)表示在狀態(tài)st時(shí)采取行動(dòng)at的概率;

      24、sac算法使用數(shù)據(jù)緩存區(qū)d來(lái)保存所有的轉(zhuǎn)換樣本,并學(xué)習(xí)一個(gè)參數(shù)為ψ的軟性q函數(shù)qψ(st,at),其中包含一個(gè)溫度參數(shù)α來(lái)控制學(xué)習(xí)過(guò)程中探索和利用的程度。表示狀態(tài)st取自數(shù)據(jù)緩存區(qū)d時(shí)式子的平均期望。

      25、可選地,搜索模塊進(jìn)一步用于:構(gòu)建桁架的搜索樹;在搜索開始時(shí)初始化對(duì)桁架的所有調(diào)整動(dòng)作,其中,調(diào)整動(dòng)作包括節(jié)點(diǎn)添加動(dòng)作、桿件添加動(dòng)作和改變橫截面積動(dòng)作中的一種或多種;基于樹的上限置信區(qū)間迭代搜索桁架的歷史設(shè)計(jì)數(shù)據(jù),其中,在每次迭代搜索過(guò)程中,從搜索樹的預(yù)設(shè)根狀態(tài)開始擴(kuò)展搜索樹,并從預(yù)設(shè)根狀態(tài)開始選擇調(diào)整動(dòng)作進(jìn)行模擬,在模擬過(guò)程中更新調(diào)整動(dòng)作,直到得到最優(yōu)調(diào)整動(dòng)作,根據(jù)每次迭代的最優(yōu)調(diào)整動(dòng)作生成符合力學(xué)條件的多個(gè)桁架布局。

      26、可選地,最優(yōu)調(diào)整動(dòng)作的更新公式為:

      27、q(s,a)=β?wmean(s,a)+(1-β)wbest(s,a)

      28、其中,s表示桁架結(jié)構(gòu)狀態(tài),a表示優(yōu)化調(diào)整動(dòng)作,wmean(s,a)表示所有在以狀態(tài)s為根的子樹中的終止?fàn)顟B(tài)的平均獎(jiǎng)勵(lì),wbest(s,a)表示在該子樹中的最高獎(jiǎng)勵(lì),β是一個(gè)超參數(shù),用于控制在平均獎(jiǎng)勵(lì)和最高獎(jiǎng)勵(lì)之間的探索傾向;

      29、對(duì)于每個(gè)新生成的桁架結(jié)構(gòu)gm,定義獎(jiǎng)勵(lì)函數(shù)為:

      30、

      31、其中,k是一個(gè)比例參數(shù),mass(gm)是新桁架結(jié)構(gòu)質(zhì)量,表示調(diào)整后的獎(jiǎng)勵(lì)值。新桁架質(zhì)量越小,獎(jiǎng)勵(lì)值越高。

      32、本技術(shù)第三方面實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序,以實(shí)現(xiàn)如上述實(shí)施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。

      33、本技術(shù)第四方面實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行,以用于實(shí)現(xiàn)如上述實(shí)施例所述的基于強(qiáng)化學(xué)習(xí)的桁架優(yōu)化方法。

      34、由此,本技術(shù)至少具有如下有益效果:

      35、本技術(shù)實(shí)施例可以通過(guò)將搜索和優(yōu)化分為兩個(gè)階段,先搜索再精調(diào)優(yōu)化,克服了搜索空間大,搜索成本高的問(wèn)題,能夠快速有效地生成輕量且符合物理約束的桁架結(jié)構(gòu),大大減少設(shè)計(jì)過(guò)程中所需的人工干預(yù),提高設(shè)計(jì)效率,從而可以提供更優(yōu)質(zhì)的設(shè)計(jì)方案。

      36、本技術(shù)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本技術(shù)的實(shí)踐了解到。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1