国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)絡資源管理方法

      文檔序號:7972467閱讀:221來源:國知局
      專利名稱:網(wǎng)絡資源管理方法
      技術領域
      本發(fā)明涉及一種網(wǎng)絡資源管理方法,尤其是一種信任與激勵機制相容的分布式網(wǎng)絡資源管理方法。
      背景技術
      網(wǎng)格(Grid)計算、點對點(Peer to Peer,以下簡稱P2P)計算是當前兩種典型的網(wǎng)絡計算模式,其共性是為用戶提供網(wǎng)絡資源共享與協(xié)同,建立高效的運行服務平臺,使用戶可以最大限度地共享資源,包括CPU、磁盤空間、內存空間、網(wǎng)絡帶寬和專業(yè)處理能力等,協(xié)同完成目標。然而一個有趣的兩難問題隨之產(chǎn)生。多數(shù)節(jié)點的意愿是更多地使用其他節(jié)點的資源,而不愿共享本地的資源。每個理性的用戶在追求自身利益最大化的同時,也會嚴重影響協(xié)作整體的運行效率,如2004年OSDI國際會議(Sixth Symposium onOperating Systems Design and Implementation)論文在線投稿,CPU的超負荷見證了網(wǎng)格資源的“公共悲劇”(tragedy of common)問題;另外Gnutella系統(tǒng)(一種基于P2P的文件共享系統(tǒng))中,70%的“搭便車”(free-rider)節(jié)點不愿意共享資源,并且?guī)缀?0%的資源請求都是由1%的節(jié)點提供服務。在實際應用中,大量資源的使用并不是無償?shù)?,要吸引資源的擁有者加入資源協(xié)作,就必須保證其利益和安全。面對多種變化的資源供求關系,Grid和P2P環(huán)境中資源的價格、安全因素變得尤為重要。
      目前,已有的工作采用軟激勵的方式激勵節(jié)點共享資源,軟激勵實質上屬于信任度系統(tǒng)。提供資源越多的節(jié)點,其信任度越高,因而具有訪問其它資源的權限。然而,軟激勵機制不能滿足節(jié)點希望通過提供本身資源獲取利益的需求。另有一些研究采用硬激勵的方式促進共享資源的增多,即節(jié)點提供自身的資源以獲取代價值,進而利用代價值請求其他的資源。然而,代價值高的節(jié)點并不一定是可信的,僅考慮代價值的資源分配機制不能滿足不同組織的安全需求。

      發(fā)明內容
      本發(fā)明的目的是為了充分整合和協(xié)同分散的資源,構建安全可信的運行環(huán)境。
      為實現(xiàn)上述目的,本發(fā)明提供了一種網(wǎng)絡資源管理方法,也稱為信任-激勵相容的資源管理(Trust-Incentive Compatible Dynamic ResourceManagement,以下簡稱TIM)方法,包括步驟1管理節(jié)點(以下稱之為匯點)根據(jù)組(以下稱之為Club)資源供需率和有償利用率,判定Club的當前狀態(tài),設定Club的代價因子和風險因子;步驟2匯點接收資源請求信息,并根據(jù)代價因子和風險因子處理該信息;步驟3匯點根據(jù)分配資源后的Club資源供需率和有償利用率,判定Club的新狀態(tài),并根據(jù)Club的當前狀態(tài)與新狀態(tài)調整Club的代價因子和風險因子。
      所述步驟2包括步驟20匯點接收資源請求信息,按照資源請求信息中的代價值降序排列資源請求信息;步驟21匯點讀取隊列中下一個資源請求信息;步驟22匯點判斷資源請求信息和Club資源是否都非空,是則執(zhí)行步驟23,否則執(zhí)行步驟3;步驟23匯點判斷該資源請求信息是否滿足代價因子和風險因子,是則執(zhí)行步驟24,否則執(zhí)行步驟21;
      步驟24匯點為該資源請求信息分配所需資源,并向資源提供節(jié)點發(fā)送資源分配信息,執(zhí)行步驟21。
      本發(fā)明引入代價因子和風險因子的概念,結合了硬激勵和軟激勵的機制,資源分配要兼顧資源請求節(jié)點的代價值和信任度,從而激勵節(jié)點共享出有價值的資源,獲取更多的代價值和更高的信任度,在競爭其他資源時處于更有利的地位。反之,當應用需求發(fā)生變化而出現(xiàn)資源分配不均衡時,激勵機制促進了共享資源的增加,使得Club重新達到一個新的供需平衡。另外,本發(fā)明將分布式節(jié)點之間的交互刻畫為不完全信息的動態(tài)序貫博弈過程,基于強化學習技術求解Club的最優(yōu)策略,合理調整Club的代價因子和風險因子,構建一個安全、平穩(wěn)的網(wǎng)絡運行環(huán)境。
      下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。


      圖1為TIM方法流程圖。
      圖2為匯點處理資源請求信息流程圖。
      圖3為一個時間步t內TIM方法流程圖。
      具體實施例方式
      TIM方法如圖1所示,實現(xiàn)步驟如下步驟1匯點根據(jù)Club資源供需率和有償利用率,判定Club的當前狀態(tài),設定Club的代價因子和風險因子;在分布式網(wǎng)絡資源的分層體系結構中,依據(jù)節(jié)點的非功能參數(shù),性能評估參數(shù)較高的節(jié)點可作為匯點,構成系統(tǒng)中的骨干層。每個子節(jié)點選擇距離最近、最可信的匯點作為自己的父節(jié)點,注冊共享資源的信息。多個子節(jié)點匯聚形成一個Club,每個Club中的匯點負責管理本地Club的資源,定期地發(fā)布本地Club內部資源的數(shù)量和代價因子,其它Club中的節(jié)點可采用發(fā)送包含愿意支付的代價值的資源請求信息的方式請求資源。
      設在某一時間步(以下用t表示),一個Club的匯點觀測到的本地資源的需求量(以下用d(t)表示)和供應量(以下用s(t)表示),資源的使用量(以下用u(t)表示),被使用的u(t)個資源中獲得資源請求節(jié)點支付的資源數(shù)量(以下用g(t)表示),以及收入值(以下用Φ(t)表示),則Club資源的供需率用下式計算&mu;(t)=d(t)s(t)]]>Club資源的有償利用率用下式計算&eta;(t)=g(t)u(t),]]>η∈
      ,Club資源的效用用下式計算u(t)=ρlog(η(t))+Φ(t),其中ρ表示資源提供節(jié)點對資源請求節(jié)點使用其資源后不支付費用這種狀況的不滿意程度(Non-Satisfaction to Waste,以下簡稱NSW)。
      對于每個匯點而言,關鍵的決策問題是如何調整Club中的代價因子和風險因子代價因子(以下用pr表示)網(wǎng)絡中的多個Club作為資源提供者,其間存在一種競爭的關系。如果本地節(jié)點的代價因子設置過高,導致資源請求者流向其他低代價因子的Club,使得本地的資源閑置;反之,如果代價因子設置過低,使得Club的資源不能夠滿足過多的資源請求者的需求。以上兩種情況,都不能最大化Club資源的聚合效用。為了在這種競爭的環(huán)境中保障本地Club資源的供需平衡,每個匯點需要動態(tài)的調整資源的代價因子。
      風險因子(以下用rk表示)當Club中的匯點接收到多個資源請求節(jié)點的需求時,需解決的關鍵問題是如何合理地分配資源,最大化資源的聚合效用。由于網(wǎng)絡中可能存在不正規(guī)的節(jié)點,惡意出高價搶占資源,在使用資源后卻不支付相應的費用。針對這種情況,每個匯點不僅需要考慮資源請求節(jié)點所支付的代價值,還需兼顧資源請求節(jié)點的信任度,設置允許資源請求節(jié)點訪問本地資源的信任度閥值,即風險因子。
      借助于博弈理論,一個Club的匯點在決策其風險因子和代價因子的過程中,需要考慮資源請求節(jié)點集和競爭的匯點集,他們共同構成了博弈中的參與者集合。經(jīng)典的博弈理論已經(jīng)證明,在有限的博弈參與者集和行動集下,至少存在一個混合策略的納什均衡。然而,在復雜的分布式網(wǎng)絡環(huán)境中,每個匯點難以準確地識別出博弈參與者的完全信息。因此,本發(fā)明中令每個匯點觀測自身的行動、行動后產(chǎn)生的效用、以及一些歷史的博弈結果,并利用這些觀測所得的信息,將博弈過程刻畫為不完全信息、不完美記憶的動態(tài)序貫博弈。通過設計一套合理的機制,使得每個博弈方從以往的經(jīng)驗中逐漸地學習出最優(yōu)的策略,選擇最優(yōu)的行動,最大化資源的聚合效用。本發(fā)明中采用如下的基于強化學習技術的馬爾可夫決策過程。
      馬爾可夫決策過程包含一個環(huán)境狀態(tài)集(以下用S表示),行動集(以下用A表示),獎賞函數(shù)(以下用RS×A→R表示)和狀態(tài)轉移函數(shù)(以下用PS×A→PD(S)表示)。記Rs,s′a為系統(tǒng)在狀態(tài)(以下用s表示)采用動作(以下用a表示)使環(huán)境狀態(tài)轉移到新狀態(tài)(以下用s′表示)獲得的瞬時獎賞值;記Ps,s′a為系統(tǒng)在狀態(tài)s采用動作a使環(huán)境狀態(tài)轉移到s′的概率?;隈R氏模型,有Club的狀態(tài)集用下式計算S=Sμ×Sη={s=(μsR,ηsi)},其中Sμ={μs>,μs=,μs<}為供需狀態(tài)集,μs>,μs=,μs<分別表示供需率μ>1,μ=1和μ<1;根據(jù)有償利用率(以下用η表示)η∈
      ,將其分割為1個等區(qū)段,即Sη={ηs1,ηs2,…,ηsl},例如,若l=4,則ηs1=
      。在某一時間步t,若有償利用率η(t)∈ηsi,則稱系統(tǒng)處于狀態(tài)(μsR,ηsi);Club的行動集A=Δp×Δr={a=(δ1,δ2)|δ1∈Δp,δ2∈Δr},其中Δp={-1,0,1}為代價因子調整參數(shù)集,Δr={-0.1,0,0.1}為風險因子調整參數(shù)集。
      馬氏決策過程的本質是當前狀態(tài)向下一狀態(tài)轉移的概率和獎賞值只取決于當前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關。因此在已知狀態(tài)轉移概率函數(shù)P和獎賞函數(shù)R的環(huán)境模型知識下,可以采用動態(tài)規(guī)劃技術求解最優(yōu)策略。而在一些實際應用中,狀態(tài)轉移概率P和所獲報酬R是未知的,強化學習是求解這類信息不完全的馬氏決策問題的主要方法。在每個離散的時間步t=1,2,…,強化學習系統(tǒng)接受環(huán)境狀態(tài)的輸入(以下用s(t)表示),根據(jù)內部推理機制,系統(tǒng)輸出相應的行為動作(以下用a(t)表示)。環(huán)境在系統(tǒng)動作a(t)下,變遷到新的狀態(tài)s(t+1)=s′。系統(tǒng)接受環(huán)境新狀態(tài)的輸入,同時得到環(huán)境對于系統(tǒng)的瞬時獎賞反饋(以下用r(t+1)表示)。對于強化學習系統(tǒng)來講,是從環(huán)境狀態(tài)到行為映射的學習,其目標是學習一個最優(yōu)行為策略(以下用πS→A表示),使系統(tǒng)選擇的動作能夠獲得環(huán)境獎賞的累積值最大。換言之,系統(tǒng)要最大化以下式子&Sigma;k=0&infin;E{&gamma;kr(t+k)},]]>其中γ∈(0,1]為折扣因子。在學習過程中,強化學習技術的基本原理是如果系統(tǒng)某個動作導致環(huán)境正的獎賞,那么系統(tǒng)以后產(chǎn)生這個動作的趨勢變化加強;反之系統(tǒng)產(chǎn)生這個動作的趨勢便減弱。
      強化學習四個關鍵要素為模型,瞬時獎懲,狀態(tài)值函數(shù),策略。系統(tǒng)所面臨的環(huán)境由環(huán)境模型定義,但由于模型中P函數(shù)和R函數(shù)未知,系統(tǒng)只能夠依賴每次試錯(trial-and-error)所獲得的瞬時獎賞來選擇策略,以使系統(tǒng)行為從環(huán)境中獲得的累積獎賞值最大。但由于在選擇行為策略過程中,要考慮到環(huán)境模型的不確定性和目標的長遠性,因此在策略和瞬時獎賞之間構造狀態(tài)值函數(shù)(即狀態(tài)的效用函數(shù)),用于策略的選擇。Q值法是最常用的狀態(tài)值函數(shù),是求解信息不完全馬爾可夫決策問題的一種有效的強化學習方法。Q學習就是要在轉移概率和所獲報酬未知的情況下估計最優(yōu)策略的Q值,改進決策策略。在線Q學習方法實現(xiàn)如下設一個Club在狀態(tài)s(t)采用動作a(t)使狀態(tài)轉移到s(t+1)=s′獲得的瞬時獎賞用下式計算r(t+1)=ρlog(η(t+1))+Φ(t+1);基于(s,a,s′,r),系統(tǒng)根據(jù)下式調整Q值Q(s,a)=(1-&beta;)Q(s,a)+&beta;[r+&gamma;maxa&prime;Q(s&prime;,a&prime;)],]]>其中β為學習速度。
      在強化學習中,產(chǎn)生了一個問題哪種實驗策略可產(chǎn)生最有效的學習。學習器面臨的是一個權衡過程是選擇探索未知的狀態(tài)和行動,還是選擇利用它已經(jīng)學習過、會產(chǎn)生高回報的狀態(tài)和在Q學習方法的實現(xiàn)中,有多種探索方法,最為常用的是Boltzmann分布探索?;谌缟系腝學習過程,一個Club在環(huán)境狀態(tài)s,選擇行動a的概率用下式計算P(a|s)=eQ(s,a)/T&Sigma;a&prime;eQ(s,a&prime;)/T]]>其中T為學習溫度。較小的T值會將較高的概率賦予超出平均Q值的行動,致使系統(tǒng)利用它所學習到的知識來選擇它認為會使回報最大的行動。相反,較大的T值會使其他行動有較高的概率,導致系統(tǒng)探索那些當前Q值還不高的行動。在某些情況下,T是隨著學習的進行而逐漸衰減,以使系統(tǒng)在學習的早期可用探索行的策略,然后逐步轉換到利用型的策略。
      步驟2匯點接收資源請求信息,并根據(jù)代價因子和風險因子處理該信息,如圖2所示,包括以下步驟,步驟20匯點接收資源請求信息,按照資源請求信息中的代價值降序排列資源請求信息;步驟21匯點讀取隊列中下一個資源請求信息;步驟22匯點判斷資源請求信息和Club資源是否都非空,是則執(zhí)行步驟23,否則執(zhí)行步驟3;步驟23匯點判斷該資源請求信息是否滿足代價因子和風險因子,是則執(zhí)行步驟24,否則執(zhí)行步驟21,可選地,所述否則執(zhí)行步驟21還包括匯點還向資源請求節(jié)點返回資源請求拒絕信息;步驟24匯點為該資源請求信息分配所需資源,并向資源提供節(jié)點發(fā)送資源分配信息,執(zhí)行步驟21,可選地,所述步驟24還包括匯點向資源請求節(jié)點返回資源請求響應信息。
      步驟3匯點根據(jù)分配資源后的Club資源供需率和有償利用率,判定Club的新狀態(tài),并根據(jù)Club的當前狀態(tài)與新狀態(tài)調整Club的代價因子和風險因子,可選地,分配資源后,資源請求節(jié)點向資源提供節(jié)點發(fā)送代價轉移信息并減少自身的代價值,資源提供節(jié)點收到該代價轉移信息后相應地增加自身的代價值;若步驟1中采用Q值學習法設定Club的代價因子和風險因子,對應地,步驟3中更新Q值表。
      實施例2如圖3所示,一個時間步t內TIM方法的流程包括步驟1’在每一個時間步t,Club中的匯點觀測本地資源的供需率和有償利用率,判定Club當前所處的狀態(tài)s(t),其中判定方法與實施例1相同,匯點基于Q值表選擇行動,分別用以下兩個式子調整Club的代價因子和風險因子pr(t+1)=pr(t)+Δp,rk(t+1)=rk(t)+Δr,其中選擇方法與實施例1相同;步驟2’采用TIM算法分配資源,即Club的匯點計算所接收資源請求信息中的代價值,并按照代價值由高到低降序排列資源請求信息。如果資源請求信息中的代價值和信任度均不低于Club的代價因子和風險因子,則匯點為資源請求節(jié)點分配所需的資源;步驟3’在t+1時間步,匯點觀測資源分配后Club的有償利用率為η(t+1),用下式計算在新狀態(tài)s′中所獲得的瞬時獎賞值r(t+1)=ρlog(η(t+1))+Φ(t+1),更新Q值表,其中計算和更新方法與實施例1相同。
      TIM方法的目的是借助于強化學習技術,使Club逐漸學習最優(yōu)的策略{P(a|s(t))},在任一時間步t,合理調整Club的代價因子和風險因子,最大化獎賞累積值&Sigma;k=1&infin;E{&gamma;kr(t+k)}.]]>最后所應說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非限制,盡管參照較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明技術方案的精神和范圍。
      權利要求
      1.一種網(wǎng)絡資源管理方法,其特征在于,包括步驟1管理節(jié)點根據(jù)組資源供需率和有償利用率,判定組的當前狀態(tài),設定組的代價因子和風險因子;步驟2管理節(jié)點接收資源請求信息,并根據(jù)代價因子和風險因子處理該信息;步驟3管理節(jié)點根據(jù)分配資源后的組資源供需率和有償利用率,判定組的新狀態(tài),并根據(jù)組的當前狀態(tài)與新狀態(tài)調整組的代價因子和風險因子。
      2.根據(jù)權利要求1所述方法,其特征在于,所述步驟1還包括,組中各節(jié)點向管理節(jié)點注冊共享資源信息。
      3.根據(jù)權利要求1所述方法,其特征在于,所述步驟2包括步驟20管理節(jié)點接收資源請求信息,按照資源請求信息中的代價值降序排列資源請求信息;步驟21管理節(jié)點讀取隊列中下一個資源請求信息;步驟22管理節(jié)點判斷資源請求信息和組資源是否都非空,是則執(zhí)行步驟23,否則執(zhí)行步驟3;步驟23管理節(jié)點判斷該資源請求信息是否滿足代價因子和風險因子,是則執(zhí)行步驟24,否則執(zhí)行步驟21;步驟24管理節(jié)點為該資源請求信息分配所需資源,并向資源提供節(jié)點發(fā)送資源分配信息,執(zhí)行步驟21。
      4.根據(jù)權利要求1所述的方法,其特征在于,所述步驟23還包括,若資源請求信息不滿足代價因子和風險因子,則管理節(jié)點向資源請求節(jié)點發(fā)送資源請求拒絕信息。
      5.根據(jù)權利要求1所述的方法,其特征在于,所述步驟24還包括,管理節(jié)點向資源請求節(jié)點發(fā)送資源請求響應信息。
      6.根據(jù)權利要求1所述的方法,其特征在于,所述步驟3包括,資源請求節(jié)點向資源提供節(jié)點發(fā)送代價轉移信息并減少自身的可用代價值,資源提供節(jié)點收到該代價轉移信息后相應地增加自身的可用代價值。
      7.根據(jù)權利要求1所述的方法,其特征在于,步驟1中所述設定組的代價因子和風險因子,包括管理節(jié)點基于組的狀態(tài)函數(shù)值表設定組的代價因子和風險因子。
      8.根據(jù)權利要求7所述的方法,其特征在于,步驟3中所述根據(jù)組的當前狀態(tài)與新狀態(tài)調整組的代價因子和風險因子包括,管理節(jié)點根據(jù)新狀態(tài)的函數(shù)值和所述當前狀態(tài)的函數(shù)值更新組的狀態(tài)函數(shù)值表。
      9.根據(jù)權利要求8所述的方法,其特征在于,所述更新組的狀態(tài)函數(shù)值表包括,管理節(jié)點根據(jù)下式調整狀態(tài)函數(shù)Q值,Q(s,a)=(1-&beta;)Q(s,a)+&beta;[r+&gamma;maxa&prime;Q(s&prime;,a&prime;)]]]>其中β為學習速度,s為組狀態(tài),a為行動,s’為管理節(jié)點在組狀態(tài)s采用行動a使組狀態(tài)轉移到的新狀態(tài),r為管理節(jié)點在組狀態(tài)s采用行動a使組狀態(tài)轉移到新狀態(tài)s’獲得的瞬時獎賞值。
      全文摘要
      一種網(wǎng)絡資源管理方法,包括匯點根據(jù)Club資源供需率和有償利用率,判定Club的當前狀態(tài),設定Club的代價因子和風險因子;匯點接收資源請求信息,并根據(jù)代價因子和風險因子處理該信息;匯點根據(jù)分配資源后的Club資源供需率和有償利用率,判定Club的新狀態(tài),并根據(jù)Club的當前狀態(tài)與新狀態(tài)調整Club的代價因子和風險因子。本發(fā)明結合硬激勵和軟激勵方式,綜合考慮經(jīng)濟和信任因素,提出了TIM方法,最大化資源聚合的效用,并遵循多貢獻多分配的原則,激勵節(jié)點共享出有價值的資源,保障網(wǎng)絡共享資源的安全與供需均衡。
      文檔編號H04L12/24GK1941719SQ20061015275
      公開日2007年4月4日 申請日期2006年9月27日 優(yōu)先權日2006年9月27日
      發(fā)明者張煜, 懷進鵬 申請人:北京航空航天大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1