国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于計算機(jī)輔助地學(xué)習(xí)對技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法

      文檔序號:6264923閱讀:145來源:國知局
      專利名稱:用于計算機(jī)輔助地學(xué)習(xí)對技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種用于計算機(jī)輔助地學(xué)習(xí)對技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法、 以及一種用于運(yùn)行技術(shù)系統(tǒng)的相應(yīng)方法和一種計算機(jī)程序產(chǎn)品。
      背景技術(shù)
      從現(xiàn)有技術(shù)中公知有不同的可以用來基于預(yù)先確定的表示技術(shù)系統(tǒng)的運(yùn)行的訓(xùn) 練數(shù)據(jù)對該技術(shù)系統(tǒng)的優(yōu)化運(yùn)行進(jìn)行建模的方法。在此,技術(shù)系統(tǒng)由狀態(tài)、動作和后繼 狀態(tài)來描述,其中狀態(tài)是技術(shù)系統(tǒng)的確定的技術(shù)參數(shù)或所觀測的狀態(tài)參量,并且動作表 示相應(yīng)的可以在技術(shù)系統(tǒng)處改變的操縱參量。從現(xiàn)有技術(shù)中一般公知有強(qiáng)化學(xué)習(xí)方法 (英語Reinforcement Learning),這些強(qiáng)化學(xué)習(xí)法針對技術(shù)系統(tǒng)基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)根據(jù) 優(yōu)化標(biāo)準(zhǔn)的最優(yōu)的動作選擇規(guī)則。公知的方法所具有的缺點(diǎn)是,這些方法不提供在所習(xí) 得的動作選擇規(guī)則的統(tǒng)計不確定性方面的陳述。這樣的不確定性尤其是在少量訓(xùn)練數(shù)據(jù) 的情況下非常大。在文獻(xiàn)[1]中描述有一種考慮到為學(xué)習(xí)動作選擇規(guī)則所使用的質(zhì)量函數(shù)的統(tǒng) 計不 確定性的方法。在此,用于確定動作選擇規(guī)則的學(xué)習(xí)方法與統(tǒng)計不確定性相組合,其中 基于本身公知的不確定性傳播(英語Uncertainty Propagation)-亦稱高斯誤差傳播-確定 在學(xué)習(xí)時所考慮的質(zhì)量函數(shù)的統(tǒng)計不確定性的度量。在此,在不確定性傳播的情況下, 借助于協(xié)方差矩陣來考慮在學(xué)習(xí)方法中所引入的變量之間的相關(guān)性。通過這種方式,變 量中的不確定性被精確地傳播和計算,這在對技術(shù)系統(tǒng)的相應(yīng)控制進(jìn)行計算機(jī)輔助的學(xué) 習(xí)時導(dǎo)致非常高的計算成本和存儲空間需求。

      發(fā)明內(nèi)容
      因此,本發(fā)明的任務(wù)是提供一種用于對技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)進(jìn)行學(xué)習(xí)的 方法,該方法考慮到在學(xué)習(xí)時所使用的訓(xùn)練數(shù)據(jù)的統(tǒng)計不確定性并且在此同時在存儲空 間需求和計算時間方面是高效的。該任務(wù)通過獨(dú)立權(quán)利要求來解決。本發(fā)明的擴(kuò)展方案在從屬權(quán)利要求中定義。在根據(jù)本發(fā)明的方法中,以計算機(jī)輔助的方式學(xué)習(xí)對技術(shù)系統(tǒng)的控制或調(diào)節(jié), 其中該技術(shù)系統(tǒng)的運(yùn)行由以下表征該技術(shù)系統(tǒng)在運(yùn)行中可以采取的狀態(tài)、以及在該技 術(shù)系統(tǒng)的運(yùn)行期間被執(zhí)行并且將該系統(tǒng)的相應(yīng)狀態(tài)轉(zhuǎn)變成后繼狀態(tài)的動作。在根據(jù)本發(fā) 明的方法中,基于在該技術(shù)系統(tǒng)的運(yùn)行中所檢測的包括狀態(tài)、動作和后繼狀態(tài)的訓(xùn)練數(shù) 據(jù)來學(xué)習(xí)質(zhì)量函數(shù)和動作選擇規(guī)則,其中該學(xué)習(xí)尤其是利用強(qiáng)化學(xué)習(xí)方法來進(jìn)行。在 此,該質(zhì)量函數(shù)在對該技術(shù)系統(tǒng)特定的標(biāo)準(zhǔn)方面對該技術(shù)系統(tǒng)的優(yōu)化運(yùn)行進(jìn)行建模,并 且動作選擇規(guī)則在該技術(shù)系統(tǒng)的運(yùn)行中針對該技術(shù)系統(tǒng)的相應(yīng)狀態(tài)說明要優(yōu)選執(zhí)行的一 個或多個動作。在根據(jù)本發(fā)明的方法中,在學(xué)習(xí)質(zhì)量函數(shù)和動作選擇規(guī)則期間,借助于不確定性傳播確定質(zhì)量函數(shù)的統(tǒng)計不確定性的度量,并且根據(jù)統(tǒng)計不確定性的該度量以及對應(yīng) 于對質(zhì)量函數(shù)的統(tǒng)計最小要求的確定性參數(shù)來確定經(jīng)過修改的質(zhì)量函數(shù)。尤其是應(yīng)當(dāng)將 統(tǒng)計不確定性的度量理解為統(tǒng)計方差或標(biāo)準(zhǔn)偏差的度量,優(yōu)選地理解為統(tǒng)計方差或標(biāo)準(zhǔn) 偏差本身。基于由此確定的經(jīng)過修改的質(zhì)量函數(shù)來學(xué)習(xí)動作選擇規(guī)則。 與文獻(xiàn)[1]的方法不同,根據(jù)本發(fā)明的方法的特點(diǎn)在于,所述不確定性傳播使用 非對角元素被忽略、即非對角元素被設(shè)為0的協(xié)方差矩陣。因此這等同于,在不確定性 傳播中所考慮的變量之間的相關(guān)性被忽略。因此,不確定性不再被精確地傳播和計算, 而是僅僅執(zhí)行逼近。盡管有該近似,但是根據(jù)本發(fā)明的方法仍然提供安全性最優(yōu)的動作 選擇規(guī)則形式的良好結(jié)果,所述動作選擇規(guī)則在考慮到統(tǒng)計不確定性的情況下使該技術(shù) 系統(tǒng)的性能最大化。該方法與文獻(xiàn)[1]的方法相比所具有的顯著優(yōu)點(diǎn)是,計算時間和所需 工作存儲器顯著更小,因為該方法僅僅還需確定協(xié)方差矩陣的對角元素。尤其是計算時 間和工作存儲器需求處于與未考慮到統(tǒng)計不確定性的常規(guī)強(qiáng)化學(xué)習(xí)方法相同的數(shù)量級。在根據(jù)本發(fā)明的方法的優(yōu)選變型方案中,質(zhì)量函數(shù)和動作選擇規(guī)則的學(xué)習(xí)在考 慮到評估和狀態(tài)-動作概率的情況下進(jìn)行。在此,相應(yīng)的評估在技術(shù)系統(tǒng)的優(yōu)化運(yùn)行方 面對狀態(tài)、在該狀態(tài)中所執(zhí)行的動作以及后繼動作的組合的質(zhì)量進(jìn)行評估,并且常常也 被稱為回報。狀態(tài)-動作概率根據(jù)狀態(tài)和在該狀態(tài)中所執(zhí)行的動作說明后繼狀態(tài)的概 率。如果在學(xué)習(xí)時考慮到評估,則這些評估被包含在訓(xùn)練數(shù)據(jù)中,或者存在根據(jù)狀態(tài)、 動作和后繼狀態(tài)輸出相應(yīng)的評估的函數(shù)。在一個特別優(yōu)選的實施方式中,基于本身公知的Bellman迭代來學(xué)習(xí)質(zhì)量函數(shù)和 動作選擇規(guī)則。在此,在每個迭代步驟中,確定新的質(zhì)量函數(shù)和質(zhì)量函數(shù)的統(tǒng)計不確定 性的新度量,并且由此確定經(jīng)過修改的新的質(zhì)量函數(shù),其中在用于確定統(tǒng)計不確定性的 新度量的相應(yīng)的迭代步驟中,在忽略非對角元素的情況下根據(jù)質(zhì)量函數(shù)、狀態(tài)-動作概 率以及所述評估來確定協(xié)方差矩陣。因此,僅僅方差被引入到不確定性傳播中。也就 是說,協(xié)方差矩陣被逼近為使得質(zhì)量函數(shù)的統(tǒng)計不確定性、評估的統(tǒng)計不確定性以及狀 態(tài)-動作概率的統(tǒng)計不確定性之間的相關(guān)性被忽略。在特別優(yōu)選的實施方式中,在Bellman迭代的第m個迭代步驟中,基于如下動作
      as, max確定動作選擇規(guī)則
      權(quán)利要求
      1.一種用于計算機(jī)輔助地學(xué)習(xí)對技術(shù)系統(tǒng)進(jìn)行控制或調(diào)節(jié)的方法,其中該技術(shù)系統(tǒng) 的運(yùn)行由該技術(shù)系統(tǒng)在運(yùn)行中能夠采取的狀態(tài)(S)以及在該技術(shù)系統(tǒng)的運(yùn)行期間被執(zhí)行并 且將該系統(tǒng)的相應(yīng)狀態(tài)(S)轉(zhuǎn)變?yōu)楹罄^狀態(tài)的動作來表征,其中-基于在該技術(shù)系統(tǒng)的運(yùn)行中所檢測的包括狀態(tài)(s)、動作ω和后繼狀態(tài)w )的 訓(xùn)練數(shù)據(jù)來學(xué)習(xí)質(zhì)量函數(shù)(Q)和動作選擇規(guī)則(n(S)),其中質(zhì)量函數(shù)(Q)對該技術(shù)系統(tǒng) 的優(yōu)化運(yùn)行進(jìn)行建模,并且動作選擇規(guī)則OI(S))在該技術(shù)系統(tǒng)運(yùn)行時針對該技術(shù)系統(tǒng)的 相應(yīng)狀態(tài)(s)說明要優(yōu)選執(zhí)行的一個或多個動作(a);-在學(xué)習(xí)質(zhì)量函數(shù)(Q)和動作選擇規(guī)則OI(S))期間,借助于不確定性傳播來確定質(zhì) 量函數(shù)(Q)的統(tǒng)計不確定性的度量(OQ),并且根據(jù)統(tǒng)計不確定性的度量丨QQ)以及對應(yīng) 于對質(zhì)量函數(shù)(Q)的統(tǒng)計最小要求的確定性參數(shù)(ξ)來確定經(jīng)過修改的質(zhì)量函數(shù),其中 所述不確定性傳播使用非對角元素被忽略的協(xié)方差矩陣;以及-其中基于經(jīng)過修改的質(zhì)量函數(shù)來學(xué)習(xí)動作選擇規(guī)則OI(S))。
      2.根據(jù)權(quán)利要求1所述的方法,其中在考慮到評估(R)和狀態(tài)-動作概率(P)的情 況下學(xué)習(xí)質(zhì)量函數(shù)(Q),其中相應(yīng)的評估(R)在該技術(shù)系統(tǒng)的優(yōu)化運(yùn)行方面對狀態(tài)(S)、 在該狀態(tài)中所執(zhí)行的動作(a)以及后繼動作W )的組合的質(zhì)量進(jìn)行評估,并且相應(yīng)的狀 態(tài)-動作概率(ρ)根據(jù)狀態(tài)和在該狀態(tài)中所執(zhí)行的動作(a)來說明后繼狀態(tài)W )的概率 (P)。
      3.根據(jù)權(quán)利要求2所述的方法,其中基于Bellman迭代來學(xué)習(xí)質(zhì)量函數(shù)(Q)和動作選 擇規(guī)則OI(S)),其中在每個迭代步驟中確定新的質(zhì)量函數(shù)(Q)和質(zhì)量函數(shù)(Q)的統(tǒng)計不 確定性的新度量并且由此確定經(jīng)過修改的新的質(zhì)量函數(shù),其中在相應(yīng)的迭代步驟中,在 忽略非對角元素的情況下根據(jù)質(zhì)量函數(shù)(Q)、狀態(tài)-動作概率(P)以及評估(R)來確定協(xié)方差矩陣。
      4.根據(jù)權(quán)利要求3所述的方法,其中在Bellman迭代的第m個迭代步驟中,基于如下 動作as, _確定所述動作選擇規(guī)則
      5.根據(jù)權(quán)利要求2至4之一所述的方法,其中狀態(tài)_動作概率(P)被建模為狀態(tài)_動 作概率分布和/或評估(R)被建模為評估概率分布。
      6.根據(jù)權(quán)利要求4和5所述的方法,其中狀態(tài)_動作概率(P)的統(tǒng)計不確定性(σP) 根據(jù)所建模的狀態(tài)-動作概率分布來確定并且所述評估的統(tǒng)計不確定性(σ R)根據(jù)所建模 的評估概率分布來確定。
      7.根據(jù)權(quán)利要求5或6所述的方法,其中所述狀態(tài)_動作概率分布和/或所述評估概 率分布被建模為根據(jù)訓(xùn)練數(shù)據(jù)的相對頻率,其中所述狀態(tài)_動作概率分布尤其是被建模 為多項式分布和/或所述評估概率分布尤其是被建模為正態(tài)分布。
      8.根據(jù)權(quán)利要求5至7之一所述的方法,其中所述狀態(tài)_動作概率基于貝葉斯估計利 用先驗分布和后驗參數(shù)被建模,其中所述后驗參數(shù)取決于訓(xùn)練數(shù)據(jù)。
      9.根據(jù)權(quán)利要求8所述的方法,其中所述先驗分布是狄利克雷分布和/或正態(tài)分布。
      10.根據(jù)權(quán)利要求9所述的方法,其中狄利克雷分布的參數(shù)(α。分別對應(yīng)于后繼狀 態(tài)(s')的平均數(shù)目與根據(jù)訓(xùn)練數(shù)據(jù)的狀態(tài)(S)的總數(shù)的商。
      11.根據(jù)前述權(quán)利要求之一所述的方法,其中要學(xué)習(xí)的動作選擇規(guī)則是確定性的動作 選擇規(guī)則。
      12.根據(jù)按照權(quán)利要求4的根據(jù)權(quán)利要求11所述的方法,其中所述Bellman迭代的第 m個迭代步驟中的動作選擇規(guī)則Jim(S)如下
      13.根據(jù)權(quán)利要求1至10之一所述的方法,其中要學(xué)習(xí)的動作選擇規(guī)則是隨機(jī)的動作 選擇規(guī)則(n(S)),所述隨機(jī)的動作選擇規(guī)則(n(S))針對該技術(shù)系統(tǒng)的狀態(tài)(S)說明能 夠執(zhí)行的動作(a)的概率分布。
      14.根據(jù)按照權(quán)利要求3的根據(jù)權(quán)利要求13所述的方法,其中在所述Bellman迭代的 每個迭代步驟中,將如下概率分布確定為能夠執(zhí)行的動作(a)的新的概率分布所述概 率分布將最后的迭代步驟的概率分布修改為使得為將經(jīng)過修改的質(zhì)量函數(shù)的值最大化的 動作(a)分配較高的概率。
      15.根據(jù)前述權(quán)利要求之一所述的方法,其中利用該方法來學(xué)習(xí)對渦輪機(jī)、尤其是燃 氣輪機(jī)的控制和/或調(diào)節(jié)。
      16.根據(jù)權(quán)利要求1至14之一所述的方法,其中利用該方法來學(xué)習(xí)對風(fēng)力發(fā)電設(shè)備的 控制和/或調(diào)節(jié)。
      17.一種用于運(yùn)行技術(shù)系統(tǒng)的方法,其中基于利用根據(jù)前述權(quán)利要求之一所述的方法 所習(xí)得的控制和/或調(diào)節(jié)來運(yùn)行該技術(shù)系統(tǒng),所通過的方式是利用所習(xí)得的動作選擇 規(guī)則,在該技術(shù)系統(tǒng)的相應(yīng)的狀態(tài)(S)中選擇要執(zhí)行的動作(a)。
      18.根據(jù)權(quán)利要求17所述的方法,其中在該技術(shù)系統(tǒng)的運(yùn)行期間,重復(fù)根據(jù)權(quán)利要求 1至19之一所述的方法,其中在每次重復(fù)時,考慮由該技術(shù)系統(tǒng)新采取的狀態(tài)(S)和所執(zhí) 行的動作(a)作為訓(xùn)練數(shù)據(jù)。
      19.一種計算機(jī)程序產(chǎn)品,具有存儲在機(jī)器可讀的載體上的程序代碼,所述程序代碼 用于在計算機(jī)上運(yùn)行該程序時執(zhí)行根據(jù)前述權(quán)利要求之一所述的方法。
      全文摘要
      本發(fā)明涉及一種用于計算機(jī)輔助地學(xué)習(xí)對技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法,其中該技術(shù)系統(tǒng)的運(yùn)行由該技術(shù)系統(tǒng)在運(yùn)行中可以采取的狀態(tài)以及在該技術(shù)系統(tǒng)的運(yùn)行期間可以被執(zhí)行并且將該系統(tǒng)的相應(yīng)狀態(tài)轉(zhuǎn)變成后繼狀態(tài)的動作來表征。在根據(jù)本發(fā)明的方法中,在學(xué)習(xí)對該技術(shù)系統(tǒng)的控制時適當(dāng)?shù)乜紤]在學(xué)習(xí)時所使用的訓(xùn)練數(shù)據(jù)的統(tǒng)計不確定性。這通過如下方式進(jìn)行借助于不確定性傳播確定對該技術(shù)系統(tǒng)的優(yōu)化運(yùn)行進(jìn)行建模的質(zhì)量函數(shù)的統(tǒng)計不確定性,并且在學(xué)習(xí)動作選擇規(guī)則時將其引入。在此,根據(jù)本發(fā)明的方法的特征在于,所述不確定性傳播使用非對角元素被忽略的協(xié)方差矩陣。通過該近似,該方法變得計算效率非常高,并且在執(zhí)行時需要小的存儲空間需求。
      文檔編號G05B13/04GK102023570SQ20101027990
      公開日2011年4月20日 申請日期2010年9月9日 優(yōu)先權(quán)日2009年9月9日
      發(fā)明者A·漢斯, S·烏德盧夫特 申請人:西門子公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1