国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法

      文檔序號(hào):7782592閱讀:350來(lái)源:國(guó)知局
      一種基于稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法
      【專利摘要】本發(fā)明提出一種基于新的稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法,包括:步驟1,將傳感器網(wǎng)絡(luò)中的傳感器劃分為多個(gè)傳感器基團(tuán);步驟2,將所述傳感器網(wǎng)絡(luò)中表示所有傳感器控制策略的全局Q值函數(shù)分解為表示各個(gè)傳感器基團(tuán)中傳感器控制策略的Q值函數(shù)之和,并獲取與分解后的Q值函數(shù)對(duì)應(yīng)的因子圖;步驟3,計(jì)算當(dāng)前狀態(tài)下所有傳感器的貪婪聯(lián)合動(dòng)作;步驟4,各個(gè)傳感器執(zhí)行所述貪婪聯(lián)合動(dòng)作或隨機(jī)動(dòng)作,并更新每個(gè)傳感器基團(tuán)的Q值函數(shù);步驟5,重復(fù)步驟3~4,直至傳感器基團(tuán)的Q值函數(shù)收斂;步驟6,根據(jù)學(xué)習(xí)得到的傳感器基團(tuán)的Q值函數(shù)和當(dāng)前目標(biāo)所處的狀態(tài),使用一般最大和算法計(jì)算獲得所有傳感器的貪婪聯(lián)合動(dòng)作,供每個(gè)傳感器執(zhí)行。
      【專利說(shuō)明】—種基于稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及智能控制【技術(shù)領(lǐng)域】,尤其涉及一種基于新的稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法。
      【背景技術(shù)】
      [0002]傳感器網(wǎng)絡(luò)問(wèn)題的設(shè)計(jì)目標(biāo)是為了優(yōu)化傳感器之間的協(xié)調(diào)合作,盡快捕獲指定區(qū)域內(nèi)的所有目標(biāo),并且為了減少能量消耗,還要盡可能減少無(wú)效的探測(cè)動(dòng)作。在傳感器網(wǎng)絡(luò)問(wèn)題中,傳感器并不是孤立存在的,而是與其他傳感器進(jìn)行通訊和相互作用,共同地作用于區(qū)域內(nèi)的目標(biāo)。在現(xiàn)實(shí)世界中,每個(gè)傳感器只能感知到自己周圍區(qū)域的狀態(tài),以及鄰居傳感器的行為。一個(gè)很重要的問(wèn)題就是如何讓多個(gè)傳感器在這種條件下進(jìn)行合作。
      [0003]在現(xiàn)有技術(shù)中,稀疏強(qiáng)化學(xué)習(xí)方法是一種適合求解此類問(wèn)題的強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)是在先驗(yàn)知識(shí)很少的情形下,通過(guò)試錯(cuò)法進(jìn)行學(xué)習(xí),其策略可用Q值(狀態(tài)-動(dòng)作值)函數(shù)表示,Q值函數(shù)將每一個(gè)狀態(tài)-動(dòng)作對(duì)映射為一個(gè)值,表示從長(zhǎng)遠(yuǎn)來(lái)看這個(gè)狀態(tài)-動(dòng)作對(duì)的好壞。較之于其他算法,稀疏強(qiáng)化學(xué)習(xí)方法的優(yōu)點(diǎn)在于利用了傳感器之間的關(guān)系對(duì)全局Q值函數(shù)進(jìn)行分解。而且,它直接對(duì)貪婪聯(lián)合動(dòng)作而不是局部貪婪動(dòng)作進(jìn)行評(píng)估。在求解貪婪聯(lián)合動(dòng)作時(shí),它使用了最大和方法,以一種并行、分布的方式進(jìn)行求解。然而,稀疏強(qiáng)化學(xué)習(xí)方法存在兩個(gè)問(wèn)題。首先,采用了平均分配回報(bào)的方式,這種方式在有些情況下并不合適。其次,全局Q值函數(shù)只能分解為包含兩個(gè)動(dòng)作的局部Q值函數(shù),這種分解在某些情況下是不合理的。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明將需要直接進(jìn)行合作的傳感器劃分為一個(gè)傳感器基團(tuán),并以傳感器基團(tuán)為單位分配回報(bào),避免了對(duì)所有傳感器平均分配回報(bào)而產(chǎn)生的某些傳感器不參與任務(wù)的問(wèn)題,也避免了多勞多得分配回報(bào)而產(chǎn)生的某些傳感器只顧自己而不和其他傳感器協(xié)調(diào)的問(wèn)題,從而改善協(xié)調(diào)效果。
      [0005]本發(fā)明使用因子圖來(lái)描述全局Q值函數(shù)的分解,并提出一般最大和算法來(lái)計(jì)算所有傳感器的貪婪聯(lián)合動(dòng)作,克服了原有的稀疏強(qiáng)化學(xué)習(xí)方法中只能將全局Q值函數(shù)分解為帶有兩個(gè)參數(shù)的局部Q值函數(shù)的問(wèn)題,從而可以根據(jù)實(shí)際情況靈活選擇全局Q值函數(shù)的分解方式,產(chǎn)生令人滿意的合作策略。
      [0006]本發(fā)明提出的一種基于新的稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化方法,包括以下步驟:
      [0007]步驟1,將傳感器網(wǎng)絡(luò)中的傳感器劃分為多個(gè)傳感器基團(tuán),每個(gè)傳感器基團(tuán)中的傳感器之間直接進(jìn)行協(xié)調(diào)合作,以探測(cè)目標(biāo);
      [0008]步驟2,將所述傳感器網(wǎng)絡(luò)中表示所有傳感器控制策略的全局Q值函數(shù)分解為表示各個(gè)傳感器基團(tuán)中傳感器控制策略的Q值函數(shù)之和,并獲取與分解后的Q值函數(shù)對(duì)應(yīng)的因子圖;[0009]步驟3,利用所述因子圖上的一般最大和算法,計(jì)算當(dāng)前狀態(tài)下所有傳感器的貪婪聯(lián)合動(dòng)作;
      [0010]步驟4,各個(gè)傳感器執(zhí)行所述貪婪聯(lián)合動(dòng)作或隨機(jī)動(dòng)作,使用目標(biāo)狀態(tài)、各個(gè)傳感器執(zhí)行的所述貪婪聯(lián)合動(dòng)作或隨機(jī)動(dòng)作和傳感器基團(tuán)獲得的回報(bào)更新每個(gè)傳感器基團(tuán)的Q值函數(shù);
      [0011]步驟5,重復(fù)步驟3?4,直至傳感器基團(tuán)的Q值函數(shù)收斂;
      [0012]步驟6,根據(jù)學(xué)習(xí)得到的傳感器基團(tuán)的Q值函數(shù)和當(dāng)前目標(biāo)所處的狀態(tài),使用一般最大和算法計(jì)算獲得所有傳感器的貪婪聯(lián)合動(dòng)作,供每個(gè)傳感器執(zhí)行。
      [0013]本發(fā)明較現(xiàn)有技術(shù)所具有的優(yōu)點(diǎn):
      [0014]1、本發(fā)明提出的以傳感器基團(tuán)為單位分配回報(bào)的方法,不是以單個(gè)傳感器的表現(xiàn)來(lái)評(píng)判它自己行為的好壞,而是根據(jù)傳感器基團(tuán)的整體表現(xiàn)來(lái)評(píng)價(jià)傳感器基團(tuán)內(nèi)各個(gè)傳感器行為的好壞,按照這種回報(bào)分配方式進(jìn)行稀疏強(qiáng)化學(xué)習(xí)能夠產(chǎn)生更好的合作策略。
      [0015]2、本發(fā)明提出的因子圖上的一般最大和算法能夠以并行、分布的方式計(jì)算所有傳感器的貪婪聯(lián)合動(dòng)作,全局Q值函數(shù)可以分解為包括2個(gè)及2個(gè)以上參數(shù)的局部Q值函數(shù),從而使靈活、合理地分解全局Q值函數(shù)成為可能,促使稀疏強(qiáng)化學(xué)習(xí)產(chǎn)生更好的合作策略。
      【專利附圖】

      【附圖說(shuō)明】
      [0016]圖1為一種基于新的稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化控制流程。
      [0017]圖2為傳感器網(wǎng)絡(luò)中傳感器基團(tuán)劃分的示意圖。
      [0018]圖3 為將全局 Q 值函數(shù)分解為 Q1 (a1; a4, a5, a8) +Q2 (a5, a6, a7, a8) +Q3 (a2, a3, a6, a7)對(duì)應(yīng)的因子圖。
      [0019]圖4為通過(guò)融合變量的方法將環(huán)消除后的因子圖。
      【具體實(shí)施方式】
      [0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面參照附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
      [0021]圖1示出了本發(fā)明提出的一種基于稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)控制方法流程圖。如圖1所示,該方法包括:
      [0022]步驟1,將傳感器網(wǎng)絡(luò)中的所有傳感器劃分為多個(gè)傳感器基團(tuán)。劃分規(guī)則是將需要直接進(jìn)行協(xié)調(diào)合作的傳感器劃分為同一個(gè)傳感器基團(tuán)。如圖2所示,只有傳感器1、傳感器
      4、傳感器5和傳感器8能夠同時(shí)探測(cè)到區(qū)域I內(nèi)的目標(biāo)I或目標(biāo)2,所以傳感器1、傳感器
      4、傳感器5和傳感器8需要直接進(jìn)行協(xié)調(diào)合作,以捕獲區(qū)域I中的目標(biāo)I或目標(biāo)2,因此把傳感器1、傳感器4、傳感器5、傳感器8劃分為傳感器基團(tuán)1,同理,將傳感器5、傳感器6、傳感器7、傳感器8劃分為傳感器基團(tuán)2,將傳感器2、傳感器3、傳感器6、傳感器7劃分為傳感器基團(tuán)3。
      [0023]圖2示出了傳感器網(wǎng)絡(luò)中一種傳感器基團(tuán)劃分方式的結(jié)構(gòu)示意圖。如圖2所示,該傳感器網(wǎng)絡(luò)包含八個(gè)傳感器:傳感器1、傳感器2、傳感器3、傳感器4、傳感器5、傳感器6、傳感器7和傳感器8。這八個(gè)傳感器需要協(xié)調(diào)合作,在最短時(shí)間內(nèi)捕獲在區(qū)域1、區(qū)域2和區(qū)域3中活動(dòng)的目標(biāo)I和目標(biāo)2。每經(jīng)過(guò)一單位時(shí)間步長(zhǎng),目標(biāo)I和目標(biāo)2會(huì)以相同的概率向左移動(dòng),向右移動(dòng),或者停留在原地。每個(gè)區(qū)域最多只會(huì)出現(xiàn)一個(gè)目標(biāo)。傳感器1、傳感器
      2、傳感器3、傳感器4、傳感器5、傳感器6、傳感器7和傳感器8各自可以執(zhí)行三種動(dòng)作——向自己左邊探測(cè),向右邊探測(cè)或者什么也不做。每個(gè)目標(biāo)的能量值為3,如果至少三個(gè)傳感器同時(shí)探測(cè)到一個(gè)目標(biāo),那么該目標(biāo)的能量值會(huì)減少1,這被稱為命中。如果目標(biāo)的能量值減為零,則該目標(biāo)被捕獲,它將從傳感器網(wǎng)絡(luò)中消失并且不再出現(xiàn)在任何區(qū)域?;貓?bào)是一個(gè)無(wú)量綱的數(shù)值,表示傳感器動(dòng)作的好壞。例如,傳感器網(wǎng)絡(luò)對(duì)每個(gè)傳感器的行為規(guī)定的回報(bào)分配方式如下:對(duì)于一個(gè)傳感器來(lái)說(shuō),探測(cè)需要消耗能量,所以不管有無(wú)捕獲到目標(biāo),每個(gè)傳感器探測(cè)一次會(huì)獲得-1的回報(bào),什么也不做會(huì)獲得O的回報(bào)。如果三個(gè)傳感器同時(shí)捕獲到一個(gè)區(qū)域內(nèi)的目標(biāo),則每個(gè)傳感器額外獲得10的回報(bào)。如果四個(gè)傳感器同時(shí)捕獲到一個(gè)區(qū)域內(nèi)的目標(biāo),則標(biāo)號(hào)最大的三個(gè)傳感器各自額外獲得10的回報(bào)。其他情況下每個(gè)傳感器只能獲得-1或O的回報(bào)。傳感器基團(tuán)的回報(bào)等于基團(tuán)內(nèi)傳感器獲得的回報(bào)之和。傳感器網(wǎng)絡(luò)的性能指標(biāo)是,在一次過(guò)程中獲取盡可能多的累積回報(bào),即所有傳感器獲得的累積回報(bào)之和。在該問(wèn)題中,通訊所需的能量相比探測(cè)所需的能量可以不計(jì)。
      [0024]把原先以傳感器為單位的回報(bào)分配方式轉(zhuǎn)化為以傳感器基團(tuán)為單位的回報(bào)分配方式。傳感器基團(tuán)I獲得的回報(bào)等于其包括的傳感器1、傳感器4、傳感器5、傳感器8獲得的回報(bào)之和。例如,傳感器1、傳感器4、傳感器5和傳感器8共同探測(cè)并捕獲到一個(gè)目標(biāo),則傳感器基團(tuán)I獲得的回報(bào)是10+10+10+(-1) + (-1) + (-1) + (-1) =26。再比如,在某一時(shí)間步長(zhǎng)內(nèi),如果傳感器1、傳感器4、傳感器5進(jìn)行探測(cè),傳感器8什么也不做,并且沒(méi)有捕獲到目標(biāo),那么傳感器基團(tuán)I獲得的回報(bào)是(_1) + (-1) + (-1)+0=-3。傳感器基團(tuán)2獲得的回報(bào)等于傳感器5、傳感器6、傳感器7、傳感器8獲得的回報(bào)之和,傳感器基團(tuán)3獲得的回報(bào)等于傳感器2、傳感器3、傳感器6、傳感器7獲得的回報(bào)之和。但是也存在特殊情況,比如傳感器5同時(shí)屬于傳感器基團(tuán)I和傳感器基團(tuán)2,在這種情況下,應(yīng)根據(jù)傳感器5對(duì)傳感器基團(tuán)I和傳感器基團(tuán)2的實(shí)際貢獻(xiàn)來(lái)決定其獲得的回報(bào)應(yīng)計(jì)入哪個(gè)傳感器基團(tuán)。
      [0025]步驟2,把表示傳感器網(wǎng)絡(luò)中所有傳感器控制策略的全局Q值函數(shù)分解為表示各個(gè)傳感器基團(tuán)中傳感器控制策略的Q值`函數(shù)之和,并獲取與分解后的Q值函數(shù)對(duì)應(yīng)的因子圖。傳感器網(wǎng)絡(luò)的狀態(tài)定義為目標(biāo)I和目標(biāo)2的位置、能量值,聯(lián)合動(dòng)作定義為所有傳感器的動(dòng)作,策略規(guī)定了傳感器在每個(gè)狀態(tài)下相應(yīng)采取的動(dòng)作??梢允褂萌諵值函數(shù)保存八個(gè)傳感器的策略。在全局Q值函數(shù)中,每個(gè)狀態(tài)下的每個(gè)聯(lián)合動(dòng)作對(duì)應(yīng)一個(gè)Q值,Q值大小表示聯(lián)合動(dòng)作的優(yōu)劣,具有最大Q值的聯(lián)合動(dòng)作是貪婪聯(lián)合動(dòng)作。學(xué)習(xí)結(jié)束時(shí),如果貪婪聯(lián)合動(dòng)作是最優(yōu)聯(lián)合動(dòng)作,那么所有狀態(tài)下的貪婪聯(lián)合動(dòng)作就構(gòu)成了最優(yōu)策略。由于八個(gè)傳感器的聯(lián)合動(dòng)作較多,需要較大的存儲(chǔ)空間保存全局Q值函數(shù),因此可以按照傳感器基團(tuán)將其分解為:
      {I(“丨 ’"..",’ K-M1, <-h,,"s) = Oa (t/,,aA, u、’a,)
      [0026]" , 、/ 、
      -1 Q1 (a,, a6, a,,a,) + 0, (?;, a ,, a,, a,)
      [0027] 式中,等號(hào)左邊是全局Q值函數(shù),a1; a2, a3, a4, a5, a6, a7, a8分別表示傳感器1、傳感器2、傳感器3、傳感器4、傳感器5、傳感器6、傳感器7和傳感器8的動(dòng)作;等號(hào)右邊,Q1,Q2,Q3分別表示傳感器基團(tuán)1、傳感器基團(tuán)2和傳感器基團(tuán)3的Q值函數(shù)。實(shí)際只需要保存Q1, Q2, Q3即可。于是,所有傳感器的貪婪聯(lián)合動(dòng)作應(yīng)當(dāng)使等號(hào)右邊的三個(gè)Q值函數(shù)之和達(dá)到最大。求解貪婪聯(lián)合動(dòng)作可以使用因子圖上的一般最大和算法。
      [0028]圖3示出了本發(fā)明中將全局Q值函數(shù)分解為所有傳感器基團(tuán)的Q值函數(shù)之和對(duì)應(yīng)的因子圖。圖3所示的Q1, Q2, Q3表示函數(shù)結(jié)點(diǎn)時(shí),分別記為node (Q1),node (Q2),node (Q3),而在公式中單獨(dú)出現(xiàn)的Q1, Q2,Q3分別表示傳感器基團(tuán)I,傳感器基團(tuán)2和傳感器基團(tuán)3的Q值函數(shù)。圖3中的a1,a2,a3,a4,a5,a6,a7,a8表示變量結(jié)點(diǎn)時(shí),分別記為node (a) , node (a2),node (a3),node (a4),node (a5),node (a6),node (a7),node (a8)。而在公式中單獨(dú)出現(xiàn)的 Ei1,a2, a3, a4, a5, a6, a7, a8分別表不傳感器1,傳感器2,傳感器3,傳感器4,傳感器5,傳感器6,傳感器7和傳感器8的動(dòng)作。圖3中,因?yàn)閭鞲衅骰鶊F(tuán)I的Q值函數(shù)Q1保存?zhèn)鞲衅?、傳感器 4、傳感器 5 和傳感器 8 的策略,所以 node (Q1)與 node (a) ,node (a4) ,node (a5) ,node (a8)相連,因?yàn)閭鞲衅骰鶊F(tuán)2的Q值函數(shù)Q2保存?zhèn)鞲衅?、傳感器6、傳感器7和傳感器8的策略,所以 node (Q2)與 node (a5), node (a6), node (a7), node (a8)相連,因?yàn)閭鞲衅骰鶊F(tuán) 3 的 Q值函數(shù)Q3保存?zhèn)鞲衅?、傳感器3、傳感器6和傳感器7的策略,所以node (Q3)與node (a2),node (a3), node (a6), node (a7)相連,相連的結(jié)點(diǎn)互為鄰居結(jié)點(diǎn)。圖3中的因子圖存在環(huán),比如node (Q1) -node (a5) -node (Q2) -node (a8) -node (Q1),在用一般最大和算法求解所有傳感器的貪婪聯(lián)合動(dòng)作之前,必須通過(guò)變量融合的方法打破圖3中所有的環(huán)。如圖4所示,&5和a8融合為a58,a58表不傳感器5和傳感器8的聯(lián)合動(dòng)作,a6和a7融合為a67,a67表不傳感器6和傳感器7的聯(lián)合動(dòng)作?;鶊F(tuán)Q值函數(shù)Q1, Q2, Q3在計(jì)算機(jī)中表示為三個(gè)五維數(shù)組,以Q1為例,第一維表示基團(tuán)I感知到的狀態(tài),包括區(qū)域I內(nèi)是否有目標(biāo),目標(biāo)的能量值是多少,其他四維分別表示傳感器1、傳感器4、傳感器5、傳感器8的動(dòng)作。數(shù)組中每一個(gè)元素的值是一個(gè)狀態(tài)下,傳感器1、傳感器4、傳感器5、傳感器8的一個(gè)聯(lián)合動(dòng)作對(duì)應(yīng)的Q值。這三個(gè)數(shù)組的所有元素應(yīng)初始化為O。
      [0029]步驟3,使用因子圖表示全局Q值函數(shù)的分解之后,繼而根據(jù)所述因子圖使用一般最大和方法求解所有傳感器的貪婪聯(lián)合動(dòng)作供傳感器執(zhí)行。
      [0030]該方法如下所述:因子圖上的變量結(jié)點(diǎn)nodefej , node (a2), node (a3), node (a4),node (a5), node (a6), node (a7), node (a8)和因子結(jié)點(diǎn) node (Q1), node (Q2), node (Q3)同時(shí)向鄰居結(jié)點(diǎn)發(fā)送消息,其中變量結(jié)點(diǎn)收發(fā)消息由傳感器實(shí)現(xiàn),而因子結(jié)點(diǎn)收發(fā)消息可以是傳感器也可以是單獨(dú)的物理裝置來(lái)實(shí)現(xiàn)。消息的內(nèi)容包括發(fā)送方、接收方、動(dòng)作、與動(dòng)作有關(guān)的消息值,消息的格式可以自行指定。一般最大和算法通過(guò)發(fā)送消息的方式來(lái)計(jì)算所有傳感器的貪婪聯(lián)合動(dòng)作。從變量結(jié)點(diǎn)node (?)發(fā)送到因子結(jié)點(diǎn)Iiode(Qj)的消息值定義為:
      【權(quán)利要求】
      1.一種基于新的稀疏強(qiáng)化學(xué)習(xí)的傳感器網(wǎng)絡(luò)優(yōu)化控制方法,包括以下步驟: 步驟I,將傳感器網(wǎng)絡(luò)中的傳感器劃分為多個(gè)傳感器基團(tuán),每個(gè)傳感器基團(tuán)中的傳感器之間直接進(jìn)行協(xié)調(diào)合作,以探測(cè)目標(biāo); 步驟2,將所述傳感器網(wǎng)絡(luò)中表示所有傳感器控制策略的全局Q值函數(shù)分解為表示各個(gè)傳感器基團(tuán)中傳感器控制策略的Q值函數(shù)之和,并獲取與分解后的Q值函數(shù)對(duì)應(yīng)的因子圖; 步驟3,利用所述因子圖上的一般最大和算法,計(jì)算當(dāng)前狀態(tài)下所有傳感器的貪婪聯(lián)合動(dòng)作; 步驟4,各個(gè)傳感器執(zhí)行所述貪婪聯(lián)合動(dòng)作或隨機(jī)動(dòng)作,使用目標(biāo)狀態(tài)、各個(gè)傳感器執(zhí)行的所述貪婪聯(lián)合動(dòng)作或隨機(jī)動(dòng)作和傳感器基團(tuán)獲得的回報(bào)更新每個(gè)傳感器基團(tuán)的Q值函數(shù); 步驟5,重復(fù)步驟3~4,直至傳感器基團(tuán)的Q值函數(shù)收斂; 步驟6,根據(jù)學(xué)習(xí)得到的傳感器基團(tuán)的Q值函數(shù)和當(dāng)前目標(biāo)所處的狀態(tài),使用一般最大和算法計(jì)算獲得所有傳感器的貪婪聯(lián)合動(dòng)作,供每個(gè)傳感器執(zhí)行。
      2.如權(quán)利要求1所述的方法,其中,所述Q值函數(shù)用于表示傳感器在目標(biāo)狀態(tài)下執(zhí)行相應(yīng)動(dòng)作的優(yōu)劣程度。
      3.如權(quán)利要求1所述的方法,其中,所述因子圖中傳感器基團(tuán)表示因子結(jié)點(diǎn),傳感器基團(tuán)中的傳感器表示變量結(jié)點(diǎn),所述一般最大和方法是指所述因子結(jié)點(diǎn)和變量結(jié)點(diǎn)同時(shí)向同一傳感器基團(tuán)中的相鄰結(jié)點(diǎn)發(fā)送針對(duì)傳感器動(dòng)作的消息,所述貪婪聯(lián)合動(dòng)作即為各個(gè)傳感器對(duì)應(yīng)的變量結(jié)點(diǎn)接收到的最大消息值對(duì)應(yīng)的傳感器動(dòng)作;所述因子結(jié)點(diǎn)的相鄰結(jié)點(diǎn)包括其對(duì)應(yīng)的傳感器基團(tuán)中的傳感器對(duì)`應(yīng)的變量結(jié)點(diǎn),所述變量結(jié)點(diǎn)的相鄰結(jié)點(diǎn)包括其所在傳感器基團(tuán)中的因子結(jié)點(diǎn)。
      4.如權(quán)利要求3所述的方法,其中,所述針對(duì)傳感器動(dòng)作消息的消息值具體為: 變量結(jié)點(diǎn)接收到的消息值為上一次迭代時(shí)相鄰因子結(jié)點(diǎn)向其發(fā)送的消息值之和;所述相鄰因子結(jié)點(diǎn)向變量結(jié)點(diǎn)發(fā)送的消息值如下計(jì)算: β1+\^Ορ)^{αΛα?) =f \ max QpM+Σnode(a^ ) (A) ?ρ^α?、nodel^JejV(加de(2p))\{node(fl;)}夕 其中,β node(Op)^node(a;) (ai)是針對(duì)傳感器動(dòng)作S1從因子結(jié)點(diǎn)node (Qp)發(fā)送到變量結(jié)點(diǎn)node (B1)的消息值,ap表示Qp的所有參數(shù),即組成傳感器基團(tuán)P的所有傳感器的聯(lián)合動(dòng)作,ap \ B1表示Qp中除去&之外的參數(shù),即除了傳感器I之外的組成傳感器基團(tuán)P的其他傳感器的聯(lián)合動(dòng)作,Qp (ap)是傳感器基團(tuán)P的所有傳感器的聯(lián)合動(dòng)作ap對(duì)應(yīng)的Q值,t表示迭代次數(shù),N (node (Qp)) \ {node (ax)}表示除去變量結(jié)點(diǎn)node (aj之外的屬于N (node (Qp))的結(jié)點(diǎn)的集合,N (node (Qp))表示所述相鄰因子結(jié)點(diǎn)node (Qp)的所有鄰居結(jié)點(diǎn)的集合。
      5.如權(quán)利要求4所述的方法,其中,傳感器的貪婪動(dòng)作如下計(jì)算: a; = arg max Hai) = arg max ^,) (αι)
      UiUi nodefO^ JeA^node(Ai)) 其中,<表示傳感器i的貪婪動(dòng)作,所有傳感器的貪婪動(dòng)作組成貪婪聯(lián)合動(dòng)作,Mai)表示變量結(jié)點(diǎn)node (a^收到的消息值。
      6.如權(quán)利要求1所述的方法,其中,步驟4中各個(gè)傳感器基團(tuán)的Q值如下更新:
      CMs',a':)=CMs,,a,.) 1 ?(/;(W) IO, (s,.-a,.)) 其中,Qi(Si,a,)表示第i個(gè)傳感器基團(tuán)的Q值函數(shù)更新值,s表示上一迭代中的目標(biāo)狀態(tài),V表示當(dāng)前迭代中的目標(biāo)狀態(tài),a表示所有傳感器在目標(biāo)狀態(tài)s下執(zhí)行的聯(lián)合動(dòng)作,ri(s,a,s)表不傳感器基團(tuán)i從目標(biāo)狀態(tài)s變?yōu)槟繕?biāo)狀態(tài)s'時(shí)獲得的回報(bào),Si表不在上一迭代時(shí)被傳感器基團(tuán)i探測(cè)到的目標(biāo)狀態(tài);α是學(xué)習(xí)率,范圍在(0,I),用于控制更新Q值函數(shù)的速度,Y是折扣因子,范圍在(0,1),Y越大,未來(lái)時(shí)刻獲得的回報(bào)就越重要。
      7.如權(quán)利要求6所述的方法,其中,所述傳感器基團(tuán)i從目標(biāo)狀態(tài)s變?yōu)槟繕?biāo)狀態(tài)s/時(shí)獲得的回報(bào)是指?jìng)鞲衅骰鶊F(tuán)i中各個(gè)傳感器探測(cè)到目標(biāo)狀態(tài)S變?yōu)槟繕?biāo)狀態(tài)S'時(shí)獲得的回報(bào)之和;對(duì)于一個(gè)傳感器,其探測(cè)一次其回報(bào)值相應(yīng)減第一預(yù)定值,該傳感器基團(tuán)中的所有傳感器都探測(cè)到目標(biāo)狀態(tài)的變化,則所有傳感器的回報(bào)值之和為增加第二預(yù)定值,如果不進(jìn)行探測(cè),則其回報(bào)值不變。
      8.如權(quán)利要求1所述的方法,其中,步驟5中所述傳感器基團(tuán)的Q值函數(shù)收斂的判斷條件為:
      9.如權(quán)利要求3所述的方法,其中,所述因子圖中如果存在環(huán),即兩個(gè)變量結(jié)點(diǎn)同時(shí)為相同兩個(gè)相鄰因子結(jié)點(diǎn)的相鄰結(jié)點(diǎn),則進(jìn)行變量結(jié)點(diǎn)融合。
      【文檔編號(hào)】H04W24/02GK103702349SQ201310739109
      【公開日】2014年4月2日 申請(qǐng)日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
      【發(fā)明者】趙冬斌, 張震, 劉德榮 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1