專利名稱:設(shè)定媒體幀的質(zhì)量的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種設(shè)定媒體幀的質(zhì)量的方法。
本發(fā)明進一步涉及一種設(shè)定媒體幀的質(zhì)量的系統(tǒng)。
本發(fā)明進一步涉及一種設(shè)計用來執(zhí)行這種方法的計算機程序產(chǎn)品。
本發(fā)明進一步涉及一種包含這種計算機程序產(chǎn)品的存儲設(shè)備。
本發(fā)明進一步涉及一種包含這種系統(tǒng)的電視機和機頂盒。
背景技術(shù):
以上所列舉的方法和系統(tǒng)的一個實施例,在非提前公開的歐洲專利申請EP 0109691(律師文檔號PHNL010327)中有說明。這里描述了一種在諸如VCR、DVD-RW、硬盤的系統(tǒng)上或因特網(wǎng)鏈接上運行一種算法和可升級(scalable)可編程處理設(shè)備的方法。算法被設(shè)計用來處理媒體幀,例如視頻幀,與此同時提供處理的多種質(zhì)量水平。每個質(zhì)量水平需要一定的資源量。視對不同質(zhì)量水平的不同質(zhì)量要求,將可用資源的預(yù)算分配給算法,以便提供可接受的媒體幀的輸出質(zhì)量。然而,媒體流的內(nèi)容是隨時間而變的,這就致使媒體處理算法的資源要求隨時間而不同。由于資源是有限的,很可能發(fā)生錯過最后期限。為了緩解這個問題,媒體算法可以以低于缺省質(zhì)量水平的質(zhì)量水平運行,導(dǎo)致相應(yīng)地較低的資源要求。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提供一種按照前序的、采用一種以改進的方式控制處理媒體幀的質(zhì)量水平變化的質(zhì)量水平控制策略的方法。為了實現(xiàn)這個目的,由媒體處理應(yīng)用設(shè)定一個媒體幀的質(zhì)量的方法包含以下步驟確定用于處理該媒體幀的資源量的步驟;根據(jù)按里程碑計算的該媒體處理應(yīng)用中相對進度(progress)來控制該媒體幀的質(zhì)量的步驟。
利用該應(yīng)用相對于周期性的最后期限(periodic deadlines)的相對進度作為以到里程碑的最后期限為止的、以最后期限的周期(deadline periods)所表達的時間,可以確定是否將要發(fā)生最后期限錯過。為防止最后期限錯過,處理算法的質(zhì)量可以在一個里程碑處修改,這能改進由用戶感知的媒體幀的質(zhì)量。另外一個優(yōu)點是,在保持一個可接受的質(zhì)量水平的同時能更好地控制質(zhì)量水平變化次數(shù),因為質(zhì)量水平變化可能被用戶感知為非質(zhì)量的(non-quality)。
權(quán)利要求2中描述按照本發(fā)明的方法的一個實施例。通過按一個Markov決策問題建立質(zhì)量控制策略的模型,可以將質(zhì)量控制策略看作一個隨機決策問題。在博士論文Stochastic Dynamic Programming(隨機動態(tài)編程)(Mathematisch Centrum Amsterdam,1980,J.vander Wal)中公開了一種隨機決策問題。通過解決Markov決策問題,能更容易地預(yù)測不同策略的質(zhì)量效果。
權(quán)利要求3中描述按照本發(fā)明的方法的一個實施例。通過采用一個最大化所有轉(zhuǎn)變的收益總量的決策策略,能更好地防止最后期限錯過。
權(quán)利要求4中描述按照本發(fā)明的方法的一個實施例。通過采用一個最大化每個轉(zhuǎn)變的平均收益,能更好地控制質(zhì)量變化的次數(shù)。
本發(fā)明另外一個目的是提供一種按照前序的、采用一種以改進的方式控制處理媒體幀的質(zhì)量水平變化的質(zhì)量水平控制策略的系統(tǒng)。為了實現(xiàn)這個目的,由媒體處理應(yīng)用設(shè)定一個媒體幀的質(zhì)量的系統(tǒng)包含確定裝置,用來確定用于處理媒體幀的資源量;控制裝置,用來按在里程碑計算的媒體處理應(yīng)用的相對進度來控制媒體幀的質(zhì)量。
本發(fā)明的這些和其它方面將在以下參照如各附圖所示的實施例及其說明中顯而易見。
圖1表示一個時間線的例子;圖2表示時間線的另一個例子;圖3表示解碼一個幀所要求的處理時間的一個累積分布函數(shù);圖4表示一個控制策略的例子;圖5表示問題實例的每個轉(zhuǎn)變的平均收益;圖6表示質(zhì)量水平用法;圖7表示最后期限錯過的百分率;
圖8表示質(zhì)量水平的平均增量;圖9表示例子方法的反復(fù)次數(shù);圖10表示被測量的計算時間;圖11表示跳過最后期限錯過方法;圖12示意性地表示按照本發(fā)明的系統(tǒng);圖13示意性地表示按照本發(fā)明的電視機;圖14示意性地表示按照本發(fā)明的機頂盒。
現(xiàn)今,許多媒體處理應(yīng)用造成隨著時間顯著變化的CPU作業(yè)量。因此,如果這樣一個媒體處理應(yīng)用被指定了一個比其最壞的作業(yè)量情形所需的更低的CPU預(yù)算,則很可能發(fā)生最后期限錯過。
這個問題可以通過以可升級方式設(shè)計媒體處理應(yīng)用而得到緩解??缮壍拿襟w處理應(yīng)用能在低于缺省設(shè)置的質(zhì)量水平運行,導(dǎo)致相應(yīng)地較低的資源需求。一個問題是為已經(jīng)被分配以固定的CPU預(yù)算的可升級媒體處理應(yīng)用找到一個質(zhì)量水平控制策略,這樣一個控制策略應(yīng)當在最大化質(zhì)量水平的同時,既最小化最后期限錯過的次數(shù),又最小化質(zhì)量水平變化的次數(shù)。
按照本發(fā)明,這個問題被按Markov決策問題來建立模型。這個模型以計算一個應(yīng)用在其各里程碑處的相對進度為基礎(chǔ)。解決Markov決策問題的結(jié)果,就是一個能以少量的開銷在運行時間期間運用的質(zhì)量水平控制策略。這個方法用一個涉及可升級的MPEG-2解碼器的實際例子來作評估。
市場要求諸如機頂盒和數(shù)字電視機的消費終端變得開放和靈活。這是通過將執(zhí)行特定媒體處理應(yīng)用的若干專用硬件部件替換為一個在上面執(zhí)行等同的媒體處理應(yīng)用的中央處理單元(CPU)而實現(xiàn)的。諸如CPU時間、存儲器和總線帶寬等資源,在這些應(yīng)用之間是共享的。這里,優(yōu)選地考察CPU資源。
媒體處理應(yīng)用有兩個重要特性。第一,它們有隨著時間而顯著變化的資源需求。這是因為它們所處理的媒體數(shù)據(jù)有變化的數(shù)量和復(fù)雜性。第二,它們有實時需求,這導(dǎo)致不能被錯過的最后期限,以避免例如輸出中的“打嗝”。因此,通過向一個媒體處理應(yīng)用分配給在最壞作業(yè)量情形下所需的最少的資源量,以便獲得理想的處理性能。然而,CPUs與專用部件相比是昂貴的。為了效能成本合算,分配資源應(yīng)更接近平均作業(yè)量的情形。一般來說,這會導(dǎo)致其中媒體處理應(yīng)用不能滿足它們實時需求的情況。
這個問題可以通過這樣設(shè)計媒體處理應(yīng)用而解決,即媒體處理應(yīng)用能在低于缺省質(zhì)量水平的水平運行,導(dǎo)致對應(yīng)地更低的資源需求。如果這樣一個可升級的媒體處理應(yīng)用有錯過一個最后期限的風險,可以把它設(shè)置成降低質(zhì)量水平的情況。這樣,就能滿足實時需求,其結(jié)果是一個魯棒的(robust)系統(tǒng)。
考察一個以下稱作應(yīng)用的可升級媒體處理應(yīng)用。該應(yīng)用經(jīng)常地從一個輸入緩沖器區(qū)提取作業(yè)單元(units of work),處理它們,然后將它們寫入輸出緩沖器。為此,該應(yīng)用定期地接收固定的處理用的預(yù)算。作業(yè)單元的大小和處理復(fù)雜性可能不同,因此處理一個作業(yè)單元所需的時間不是固定的。一個作業(yè)單元的結(jié)束被稱作一個里程碑。每個里程碑有一個最后期限。這些最后期限被假設(shè)是在時間上嚴格定期的。顯然,要防止最后期限錯過。
在每個里程碑,計算該應(yīng)用相對于各定期的最后期限的相對進度。對于一個里程碑的相對進度,被定義為直到這個里程碑的最后期限為止的時間,表示為最后期限時段。顯然,這個相對進度應(yīng)該是非負的。此外,由于有限的緩沖器大小,相對進度有個上限。
如果在一個里程碑的相對進度變成了負的,則已經(jīng)發(fā)生一個或多個最后期限錯過。為了防止這樣,要在每個里程碑該應(yīng)用所運行的質(zhì)量水平要修正。問題是如何選擇這個質(zhì)量水平,以滿足以下三個目標。第一,一個作業(yè)單元被處理的質(zhì)量水平要盡可能地高。第二,最后期限錯過的次數(shù)要盡可能地低。最后,質(zhì)量水平變化的次數(shù)要盡可能地低,因為質(zhì)量水平變化被視為非質(zhì)量的。
注意,作為結(jié)果的質(zhì)量水平控制策略應(yīng)當被聯(lián)機地運用,并與該應(yīng)用在同一個CPU上執(zhí)行。因此,在所需的CPU時間量方面應(yīng)該是高效的。
處理隨機決策問題的普通方法是按Markov決策問題建立它的模型。參看博士論文Stochastic Dynamic Programming(隨機動態(tài)編程)(Mathematisch Centrum Amsterdam,1980,J.van der Wal)。
在每個里程碑處,計算應(yīng)用的相對進度。這里,將某個里程碑處的相對進度定義為到里程碑的最后期限為止的、以最后期限時段表達的時間。
可以如下地計算里程碑處的相對進度。在不失一般性的情況下,假設(shè)應(yīng)用在時間t=0開始處理。將里程碑m的時間記為cm。此外,將里程碑m的最后期限記為dm。最后期限是嚴格定期的,這意味著可以將最后期限寫成dm=do+mP,其中,P是兩個連續(xù)的最后期限之間的期間,do是個偏置值(offset)。在里程碑m處的相對進度記為pm,由下式給出ρm=dm-cmP=m-cm-doP--(1)]]>為了解釋相對進度的計算,考察圖1中所示的時間線例子。在這個例子中,P=1,do=1。用(1)計算在里程碑1至5處的相對進度,得出ρ1=(d1-c1)/P=(2-1)/1=1,ρ2=1.5,ρ3=1,ρ4=0,以及ρ5=0.5。注意里程碑4時間剛好夠。
如果在某個里程碑m處的相對進度降到零下,則自前一個里程碑以來已經(jīng)發(fā)生了[-pm]個最后期限錯過。如何處理最后期限錯過,是應(yīng)用所特定的。這里,假設(shè)一個作業(yè)保留方法,其含義是,剛剛產(chǎn)生的輸出不被丟棄,而是無論如何要被使用。一種方式是在接下來的第一個最后期限使用這個輸出,這意味著獲得一個修正的相對進度ρ′m=ρm+[-ρm]≥0。假設(shè)一個保守的方法,選擇ρ′m=0,即最低的可能值,這在某種意義上相當于在生成后立即使用該輸出。換言之,最后期限dm和下面的各最后期限被推遲的量為-pmP。因此,可以用(1)計算各里程碑處的相對進度,不過使用了一個新的補償值d′o=do-ρmP。
這個過程由圖2中所示的時間線例子來解釋。在這個例子中,P=1,do=0.5。利用(1),可以得出以下值ρ1=0.5,ρ2=0.5,ρ3=-0.5。在里程碑3處的相對進度已經(jīng)跌落到零下,因此自里程碑2-即t=3.5-以來已經(jīng)發(fā)生了[-p3]=1個最后期限錯過。然后,最后期限d3被推遲到d′3=c3=4,另外的各最后期限也被推遲0.5的量。繼續(xù)下來,發(fā)現(xiàn)ρ4=0.5,ρ5=0.5。
在一個里程碑處的應(yīng)用的狀態(tài)自然地由其相對進度給出。然而這將給出一個無限大的狀態(tài)集合,而Markov決策問題需要一個有限的集合。后者按下述方式實現(xiàn)設(shè)p>0代表相對進度的給定上限。將0與p之間的相對進度間隔(space)劃分成一個包含n≥1個進度間隔的有限集II={π0,......,πn-1},πk=[kpn,(k+1)pn],]]>k=0,....,n-1。進度間隔π的下限(lower bound)和上限(upper bound)分別記為π和π。
在每個里程碑處,必須對下一個作業(yè)單元進行處理的質(zhì)量水平做出決定。因此,Markov決策問題中的決定集合對應(yīng)于應(yīng)用能按其運行的質(zhì)量水平的集合。將這個集合記為Q。
同時還要考慮質(zhì)量水平的變化,因此在每個里程碑處,先前使用的質(zhì)量水平應(yīng)當是已知的。這可通過用質(zhì)量水平擴展狀態(tài)集合(set ofstates)而實現(xiàn)。因此,狀態(tài)集合變成IIxQ。將狀態(tài)i中的應(yīng)用的進度間隔和先前使用的質(zhì)量水平分別記為π(i)and q(i)。
組成Markov決策問題的第二個元素是轉(zhuǎn)換概率(transitionprobabilities)。如果選擇質(zhì)量水平q來處理下一個作業(yè)單元的話,設(shè)pijq代表從當前里程碑處的狀態(tài)i到下一個里程碑處的狀態(tài)j進行轉(zhuǎn)換的轉(zhuǎn)換概率。轉(zhuǎn)換后,q(j)=q,這意味著如果q≠q(j)則pijq=0.]]>在其它情況中,轉(zhuǎn)換概率可以按以下方式得出。
在不失一般性的情況下,假設(shè)應(yīng)用在里程碑m正處于狀態(tài)i。對于每個質(zhì)量水平q,我們引入一個隨機變量Xq,它給出按質(zhì)量水平q處理一個作業(yè)單元所需的時間。如果假設(shè)應(yīng)用在每期間P接收一個計算預(yù)算b,則相對進度ρm+1可以通過下列回歸方程以ρm表達ρm+1=(ρm+1-Xqb)|
,---(2)]]>其中所使用的符號意義如下
設(shè)Yπ、ρm、q是一個隨機變量,它給出應(yīng)用在下一個里程碑處的相對進度ρm+1是在進度間隔π內(nèi)的概率,假定在當前里程碑處的相對進度是ρm,并且選擇質(zhì)量水平q,則可以得出 假設(shè)Fq代表Xq的累積分布函數(shù)。利用回歸方程(2),可以得出,當0<x≤pP(ρm+1≥x)=P(ρm+1-Xqb≥x)]]>=P(Xq≤b(1-x+ρm))]]>=Fq(b(1-x+ρm)).]]>當x=0,P(ρm+1≥x)=1,這直接從(2)得出。
不幸的是,ρm在進度間隔π(i)內(nèi)的位置是未知的。通過選擇該間隔中的最低值,可獲得ρm的一個悲觀近似值。這給出近似值p~m=π‾(i)]]>假定以上成立,則概率pijq可以由下式約計
選擇的進度間隔越多,對轉(zhuǎn)換概率的建模就越準確,因為(3)中的近似性更好。
組成Markov決策問題的第三個元素是收益(revenues)。將在狀態(tài)i中選擇質(zhì)量水平q的收益記為riq。收益被用來實現(xiàn)三個問題目標。
第一,對作業(yè)單元進行處理的質(zhì)量水平應(yīng)盡可能高。這是通過向每個riq分配一個由一個函數(shù)u(q)給出的回報而實現(xiàn)的,這個函數(shù)被稱作效用函數(shù)(utility function)。它返回一個正值,該值與在質(zhì)量水平q下運行的應(yīng)用的輸出的感知質(zhì)量直接相關(guān)。
第二,最后期限錯過的次數(shù)應(yīng)盡可能低。如果在某個里程碑處相對進度跌落到零下,則已經(jīng)發(fā)生了一個或多個最后期限錯過。
假設(shè)應(yīng)用在里程碑m正處于狀態(tài)i,則在到達里程碑m+1之前期望的最后期限錯過數(shù)由下式給出Σk=1∞kP(-k≤ρm+1-Xqb<-k+1)]]>=Σk=1∞kP(k+ρm<Xqb≤k+1+ρm)]]>=Σk=1∞k[Fq(b(k+1+ρm))-Fq(b(k+ρm))]]]>≈Σk=1∞k[Fq(b(k+1+π‾(i)))-Fq(b(k+π‾(i)))].---(3)]]>在將這個期望的最后期限錯過數(shù)與一個名為最后期限錯過代價(deadline miss penalty)的正值常數(shù)相乘后,將其從每個riq中減去,以實現(xiàn)對最后期限錯過的代價。
最后,質(zhì)量水平變化的次數(shù)應(yīng)盡可能低。這是通過從每個riq中減去一個由函數(shù)c(q(i),q)給出的代價而實現(xiàn)的。如果q(i)≠q,該函數(shù)返回一個可隨q(i)與q之間的差距的大小而增加的正值,否則該函數(shù)返回0。此外,可以給予質(zhì)量的增加一個與質(zhì)量的降低相比而言更低的代價。函數(shù)c(q(i),q)被稱作質(zhì)量變化函數(shù)。
如果只考慮有限數(shù)量的轉(zhuǎn)換(所謂的有限時間范圍),則Markov決策問題的解決方案由一個最大化所有轉(zhuǎn)換的收益的總和的決策策略給出,這可通過動態(tài)程序設(shè)計發(fā)現(xiàn)。然而,我們有一個無限的時間范圍,因為我們不能限制轉(zhuǎn)換的次數(shù)。在這種情況下,最大化的一個實用標準由每個轉(zhuǎn)換的平均收益給出。這個標準強調(diào)所有轉(zhuǎn)換是同等重要的。
對無限時間范圍的Markov決策問題有許多解決技術(shù),諸如連續(xù)逼近、策略循環(huán)和線性規(guī)劃。例如參看Martin L.Puterman的“MarkovDecision ProcessesDiscrete Stochastic Dynamic Programming”(馬爾科夫決策過程離散隨機動態(tài)規(guī)劃)(Wiley Series inProbability and Mathematical Statistics,John Wiley & Sons Inc.1994)和and D.J.White的“Markov Decision Processes”(馬爾科夫決策過程)(John Wiley & Sons Inc.1993)。這里所描述的試驗采用的是連續(xù)逼近。
解決Markov決策問題導(dǎo)致一個最優(yōu)的固定策略。
這里,固定的意思是,所運用的決策策略在所有里程碑處是相同的,即,它與里程碑號無關(guān)。圖4中表示一個控制策略的例子,其中|II|=1014,|Q|=4,p=2。該例表明,例如,如果在某個里程碑處的相對進度是1,并且先前使用的質(zhì)量水平是q1,則應(yīng)當選擇質(zhì)量水平q2來處理下一個作業(yè)單元。
在不失最優(yōu)性的情況下,可以使用所謂的單調(diào)控制策略,即依照先前使用的質(zhì)量水平,可以假設(shè)一個較高的相對進度導(dǎo)致一個較高的或相等的質(zhì)量水平選擇。于是,為了存儲一個最優(yōu)的控制策略,依照先前使用的質(zhì)量水平只需要存儲相對進度范圍在該范圍內(nèi)控制策略從某個特定質(zhì)量水平變到另一個質(zhì)量水平。因此,一個控制策略具有O(|Q|2)的空間復(fù)雜性,它與進度間隔數(shù)無關(guān)。
可以在應(yīng)用開始執(zhí)行之前,脫機解決Markov決策問題。下一步,我們?nèi)缦碌匾月?lián)機方式運用得到的控制策略。在每個里程碑處,先前使用的質(zhì)量水平是已知的,并計算應(yīng)用的相對進度。然后,查詢要對下一個作業(yè)單元進行處理的質(zhì)量水平。這個方法需要的開銷很小。
作為試驗的一個輸入,使用一個539個幀的電影片段的MPEG-2解碼跟蹤文件。這個文件含有對應(yīng)每個幀的、為解碼該幀所需的處理時間,該處理時間是以TriMedia上的CPU周期表達的,對應(yīng)4個不同質(zhì)量水平的每一個,這4個質(zhì)量水平按遞增的質(zhì)量順序被標記為q0到q3。從該跟蹤文件中,對每種質(zhì)量水平,得出解碼一個幀所需的處理時間的累積分布函數(shù),如圖3中所示的那樣。圖3表示對應(yīng)于質(zhì)量水平q0到q3的、解碼一個幀所需的處理時間的累積分布函數(shù)。
對問題參數(shù)作如下定義。將相對進度的上限p選擇得等于2,這假設(shè)使用一個能存儲兩個解碼幀的輸出緩沖器。效用函數(shù)規(guī)定為u(q0)=1、u(q1)=5、u(q2)=7.5和u(q3)=10。將最后期限錯過代價選擇得等于1000,這意味著大體上每100個幀允許約1個最后期限錯過。質(zhì)量變化函數(shù)規(guī)定為這樣一個代價對于增加質(zhì)量水平是5乘以質(zhì)量水平數(shù)而對于減少質(zhì)量水平則以6相乘。其次,使用代表預(yù)算b的57個不同的值,這些值從2,200,000個CPU周期到3,600,000個CPU周期以25,000個CPU周期為一步的增幅變化。對于每個預(yù)算b,選擇20個不同的進度間隔數(shù),這些數(shù)從|II|=30變化到|II|=1024,每步乘以1.2的增幅。這樣,一共定義1140個Markov決策問題實例。
如所提及的那樣,連續(xù)逼近算法被用來解決問題實例。除了計算不準確外,這個算法發(fā)現(xiàn)最優(yōu)的控制策略。我們用一個值0.001作為不準確參數(shù)。作為結(jié)果的控制策略在給定的相對進度和先前使用的質(zhì)量水平時,給出在每個里程碑處對下一個幀進行解碼所應(yīng)有的質(zhì)量水平。對于每個計算出的控制策略,用這個控制策略模擬一個可升級MPEG-2解碼器的執(zhí)行。這些模擬利用一個根據(jù)給定處理時間分布合成地創(chuàng)建的、但是有30,000個幀而不是539個幀組成的跟蹤文件中的處理時間。在每個模擬中,選擇q0作為初始質(zhì)量水平,分別測量每個轉(zhuǎn)換的實際平均收益、質(zhì)量水平使用、最后期限錯過的百分比、以及質(zhì)量水平的變化。
進度間隔數(shù)|II|從30到1014以1.2的乘法步距變化,其結(jié)果是每個預(yù)算有20個問題實例。圖4表示作為結(jié)果的最優(yōu)控制策略,其中b=3,100,000,|II|=1014。我們可以看到,控制策略確實展示了保持所使用的質(zhì)量水平的趨勢。
圖5表示如解決問題實例所要求的計算中所發(fā)現(xiàn)的以及在模擬中實際測量的、20個問題實例在b=3,100,000時每個轉(zhuǎn)換的平均收益。模擬中的平均收益迅速收斂到一個約8.27的值。計算中的平均收益需要更多的進度間隔才收斂到這個值,原因是(3)中的悲觀近似。不過,根據(jù)約|II|=200的控制策略已經(jīng)導(dǎo)致模擬中的約8.27的平均收益。換言之,要找到一個(接近)最優(yōu)的控制策略,并不需要那么多的進度間隔。
其次,圖6-8表示收益的三個要素,其中圖6表示質(zhì)量水平使用,圖7表示最后期限錯過的百分率,圖8表示在|II|=1014時對所有問題實例的模擬中所測量的質(zhì)量水平的平均增量。圖中沒有表示質(zhì)量水平的平均減量,因為它幾乎與質(zhì)量水平的平均增量相同。如果預(yù)算增加,則更經(jīng)常選擇一個較高的質(zhì)量水平,而最后期限錯過的百分率在b=2,650,000時急速下降而跌落到零。較大的預(yù)算時最后期限錯過百分率低,原因在于相對較高的最后期限錯過代價。進一步可觀察到平均增量和平均減量是低的。因此,可以認為所有三個問題目標都達到。
為了給出一個表示三個要素如何對平均收益做出貢獻的例子,考察|II|=1014、b=3,100,000時的情形。此例有一個平均質(zhì)量水平效用0.0033*1+0.0102*5+0.5953*7.5+0.3911*10=8.43,一個平均最后期限錯過代價0*1000=0,以及一個平均質(zhì)量水平增加代價0.0145*5=0.07及減少代價0.0144*6=0.09。這導(dǎo)致每幀的總平均收益為8.27。
通過連續(xù)逼近解決Markov決策問題要涉及一種狀態(tài)向量,它含有對應(yīng)IIxQ中每個狀態(tài)的值。一般將狀態(tài)向量初始化為零向量。然后循環(huán)地為每個狀態(tài)確定最優(yōu)決策,并更新狀態(tài)向量。當兩個連續(xù)的狀態(tài)向量含有(近乎)相同的項(每個轉(zhuǎn)換的平均收益)時,即最小和最大差別在規(guī)定的不準確范圍內(nèi)時,該循環(huán)過程結(jié)束。
至于每個預(yù)算b,我們用不同的進度間隔數(shù)重復(fù)地解決相同的Markov決策問題,并用不同的方式來初始化狀態(tài)向量。對于每個預(yù)算b,第一次,也就是用最低的進度間隔數(shù)(30)來解決Markov決策問題時使用零向量來初始化。對于每下一個的進度間隔數(shù),則用先前的進度間隔數(shù)對運行的最后狀態(tài)作插值而使狀態(tài)向量初始化。這樣,連續(xù)逼近算法預(yù)期只需要較少的循環(huán)就能收斂。
為了檢驗這個插值向量方法作業(yè)多么好,將它與總是選擇零向量作為初始向量的直接方式作比較。為此,我們同時用這兩種向量方法就b=3,100,000來解決Markov決策問題,其中進度間隔數(shù)從|II|=30到|II|=1749以乘1.5的步長變化。圖9表示這兩種方法所需的循環(huán)次數(shù)。圖10表示所測量的這兩種方法用Pentium II Xeon 400MHz處理器的計算時間。在后一個圖中也顯示了插值向量方法的累積計算時間。該圖顯示,如果要解決對應(yīng)大的進度間隔數(shù)的Markov決策問題,可能最好是使用插值向量方法,并分幾次以增加的進度間隔數(shù)的方式解決Markov決策問題,因為這比直接按所請求的進度間隔數(shù)解決Markov問題可用更少的計算時間。
前面將對具有固定CPU預(yù)算的可升級媒體處理應(yīng)用的質(zhì)量水平控制模型化為Markov決策問題。該模型是以在里程碑處計算出來的應(yīng)用的相對進度為基礎(chǔ)的。定義了三個問題目標,即最大化對作業(yè)單元進行處理的質(zhì)量水平,最小化最后期限錯過數(shù),以及最小化質(zhì)量水平變化數(shù)。模型中的一個參數(shù)是進度間隔。
選擇的進度間隔越多,問題的建模就變得越準確。解決Markov決策問題的導(dǎo)致了一個最優(yōu)控制策略,它能以不多的開銷被實時地運用。
為了評估這個方法,就一個可升級的MPEG-2解碼器解決了共1140個問題實例。對于每個作為結(jié)果的控制策略,模擬了解碼器的執(zhí)行。從這個試驗得出的結(jié)論是,盡管通過這個模型取得好的近似需要一些進度間隔,但用較少的進度間隔就能獲得一個最優(yōu)的控制策略。此外,可以認為就這個實驗來說,該方法達到了三個問題目標。
在利用連續(xù)逼近解決Markov決策問題時,用一個插值向量方法對狀態(tài)向量初始化。據(jù)觀察,如果要解決對應(yīng)大的進度間隔數(shù)的Markov決策問題,可能最好要使用插值向量方法,并分幾次以增加的進度間隔數(shù)的方式解決Markov決策問題,因為這比直接按所請求的進度間隔數(shù)解決Markov問題可用更少的計算時間。
作為結(jié)果的質(zhì)量水平控制策略可以被聯(lián)機運用,并在應(yīng)用的同一處理器上執(zhí)行。
另一個作業(yè)保留方法是要使用在最先的下一個最后期限處的輸出,這導(dǎo)致一個改變的相對進度 這例如適用于MPEG-2解碼,其中在發(fā)生最后期限錯過時,可以顯示先前被解碼的幀,并在一個幀期間后顯現(xiàn)新解碼的幀。不過可以以新的偏置值 用(1)來計算各里程碑處的相對進度。我們把這個方法稱作跳過最后期限錯過法。
跳過最后期限錯過法由圖11中所示的時間線例子說明。該例中,P=1,do=0。利用(1),得出ρ1=0.5、ρ2=0和ρ3=-0.5。相對進度在里程碑3已經(jīng)跌落到零下,因此自里程碑2-即時間t=3-以來發(fā)生過 個最后期限錯過。下一步,將ρ 3改變成0.5,使用一個新的補償量 然后找到ρ4=1以及ρ5=0。
注意可以將這個模型推廣到允許在規(guī)定的限度內(nèi)有負的相對進度。然而,這里假設(shè)低限為零。
在不失一般性的情況下,假設(shè)應(yīng)用在里程碑m處于狀態(tài)i。對于每個質(zhì)量水平q,引入一個隨機變量Xiq,該變量給出應(yīng)用要在質(zhì)量水平q的條件下處理一個類型t的作業(yè)單元所需要的時間。如果假設(shè)應(yīng)用接收每個期間p的計算預(yù)算b,則可以如下地用ρm表達ρm+1。第一,在不考慮對相對進度的限制0和p情況下,找到一個新的相對進度ρm+1unb=ρm+1-Xiqb.--(4)]]>然而,如果這降到零下,則會遇到最后期限錯過,因而要找到一個修正過的相對進度。此外,如果ρm+1unb超過p,則處理器將因為輸出緩沖器滿而已經(jīng)停止,在這種情況下,有一個修改過的相對進度p。如果運用保守的最后期限錯過方法,則新的相對進度由下式給出ρm+1=cp(ρm+1)=cp(ρm+1-Xiqb)--(5)]]>其中使用以下符號
如果適用跳過最后期限錯過方法,則新的相對進度由下式給出ρm+1=sp(ρm+1)=sp(ρm+1-Xiqb)--(6)]]>其中使用以下符號 假設(shè)Yρm,im,πm+1,q是一個隨機變量,它給出應(yīng)用在里程碑m+1處的相對進度ρm+1在進度間隔π內(nèi)的概率,并給出在里程碑m+1處下一個作業(yè)單元的類型是tm+1的概率,假定在里程碑m處的相對進度是ρm,在里程碑m處下一個作業(yè)單元的類型是tm,并且選擇質(zhì)量水平q來處理這個作業(yè)單元。此外,假設(shè)Pr(tm,tm+1)表示一個類型tm+1的作業(yè)單元緊接著類型tm的作業(yè)單元的概率。則可以得出 假設(shè)Ftq代表Xtq的累積分布函數(shù),即Ftq(X)=Pr(Xtq≤x)。對于保守的最后期限方法,利用回歸方程(3),可以得出,當0<x≤p時Pr(ρm+1≥x)=Pr(ρm+1-Xiqb≥x)]]>=Fiq(b(ρm+1-x))]]>對于跳過最后期限方法,利用回歸方程(6),可以得出,當0<x<1時
Pr(ρm+1≥x)=Pr(ρm+1-Xiqb≥x)+Σk=1∞Pr(x-k≤ρm+1-Xiqb<-k+1)]]>=Fiq(b(ρm+1-x))+Σk=1∞(Fiq(b(ρm+1-x+k)))-Σk=1∞(Fiq(b(ρm+k))),]]>當1≤x≤p時當對于跳過Pr(ρm+1≥x)=Pr(ρm+1-Xiqb≥x)]]>=Fiq(b(ρm+1-x)).]]>不幸的是,ρm在進度間隔π(i)內(nèi)的準確位置是未知的。通過選擇該間隔中的最低值,獲得ρm的一個悲觀近似值。這給出近似值p~m=π‾(i).---(7)]]>假定以上成立,則轉(zhuǎn)換概率pijq在保守的最后期限方法的情況下可以由下式約計 對于跳過最后期限方法來說可以由下式約計
顯然,選擇的進度間隔越多,對轉(zhuǎn)換概率的建模(modeling)就越準確,因為(7)中的近似性更好。
注意保守的最后期限方法是跳過最后期限方法的一個最壞情形。所以,在運用跳過最后期限方法時,可以用保守的最后期限方法的轉(zhuǎn)換概率來解決Markov決策問題。
解決Markov決策問題需要 的許多重復(fù)實例。首先計算和存儲所有值 對進度間隔轉(zhuǎn)換的概率來說需要O(|∏|2·|Q|·|T|)的空間復(fù)雜性,對類型轉(zhuǎn)換的概率來說需要O(|T|2)的空間復(fù)雜性。假設(shè)|T|是小的,這僅當有少量的進度間隔時是可行的。否則,在運行中(on the fly)計算值 才是解決方案。然而,這導(dǎo)致許多冗余的計算,每個計算都包括訪問一個累積分布函數(shù)。計算一個累積分布函數(shù)F具有對粒度F的對數(shù)時間的復(fù)雜性。
如果運用保守的最后期限方法,則以下述可替代方式計算轉(zhuǎn)換概率常常是有益的。在不失一般性的情況下,假設(shè)應(yīng)用在里程碑m時處于狀態(tài)i?;叵雗=|II|且一個進度間隔的寬度由 給出。利用悲觀的近似(7),假設(shè)Pr(Δt(i)q=k)(其中1-n≤k≤n-1)代表在質(zhì)量水平q下處理下一個類型t(i)的作業(yè)單元之后已經(jīng)移動了k個進度間隔的概率。這個概率由下式給出 現(xiàn)在假設(shè)整數(shù)a和b由πa=π(i)和πb=π(i)所定義。則轉(zhuǎn)換概率 也由下式給出
值 可以按對應(yīng)進度間隔轉(zhuǎn)換的概率的、在|II|上是線性的空間復(fù)雜性O(shè)(|∏|·|Q|·|T|)以及按對應(yīng)類型轉(zhuǎn)換的概率的空間復(fù)雜性O(shè)(|T|2),被事先計算并存儲。計算轉(zhuǎn)換概率的這個替代方法顯著地加快解決Markov決策問題的速度。
圖12示意性地表示一個按照本發(fā)明的系統(tǒng)1200。系統(tǒng)1200包含通過軟件總線1208與中央處理單元1210通信的存儲器1202。存儲器1202包含計算機可讀代碼1204,它是設(shè)計用于按上述方式來確定為處理一個媒體幀所使用的CPU周期數(shù)量。此外,存儲器1202還包含計算機可讀代碼1206,它是設(shè)計用來根據(jù)在一個里程碑處所計算的媒體處理應(yīng)用的相對進度來控制媒體幀的質(zhì)量。最好根據(jù)一個如上所述的為處理若干媒體幀而建模的Markov決策問題來設(shè)定處理媒體幀的質(zhì)量。計算機可讀代碼可由一個存儲設(shè)備1212來更新,該存儲設(shè)備包含設(shè)計用來執(zhí)行按照本發(fā)明的方法的計算程序產(chǎn)品。存儲設(shè)備由一個與系統(tǒng)1200相連的適當?shù)淖x取設(shè)備—例如CD讀取器1214—讀取。該系統(tǒng)既可以由硬件也可以由軟件或者任何其它能運行軟件的標準體系結(jié)構(gòu)實現(xiàn)。
圖13示意性地表示一個按照本發(fā)明的、包含按照本發(fā)明系統(tǒng)的一個實施例的電視機1310。這里,一個天線1300接收電視信號。任何能接收或再現(xiàn)電視信號的設(shè)備,例如碟式天線、電纜、存儲設(shè)備、因特網(wǎng)或以太網(wǎng),都能替代天線1300。接收器1302接收電視信號。除了接收器1302,電視機還含有可編程組件1304,例如可編程集成電路。這個可編程組件含有按照本發(fā)明的系統(tǒng)1306。電視屏1308顯示由接收器1302接收的并由可編程組件1304處理的文件。電視機1310可選地可包含或者連接到一個提供電視信號的DVD播放器1312。
圖14示意性地表示一個包含按照本發(fā)明系統(tǒng)的一個實施例的機頂盒1402的最重要的部分。這里,一個天線1300接收電視信號。該天線例如也可以是碟式天線、電纜、存儲設(shè)備、因特網(wǎng)、以太網(wǎng)或任何能接收電視信號的設(shè)備。機頂盒1402接收電視信號。該信號例如可以是數(shù)字的。除了機頂盒中含有的、但在這里未予示出一般組件,機頂盒還含有按照本發(fā)明的系統(tǒng)1404。電視信號被顯示在與機頂盒1402相連的電視機1406上。
應(yīng)當注意的是上述實施例解釋而不是限制本發(fā)明,所屬技術(shù)領(lǐng)域的熟練人員在不偏離隨附的權(quán)利要求書的范圍的情況下就能設(shè)計許多可替代的實施例。在權(quán)利要求書中,任何置于括號之間的標注符都不應(yīng)被認為是限制權(quán)利要求。“包含”一詞并不排除存在除權(quán)利要求中所列舉的以外的元件或步驟。元件之前的前置詞“一個”并不排除存在多個這樣的元件。本發(fā)明可以通過包含若干不同元件的硬件實現(xiàn),可以通過適當編程的計算機實現(xiàn)。在枚舉若干個裝置的系統(tǒng)權(quán)利要求中,這些裝置的若干個能被體現(xiàn)為同一個計算機可讀的軟件或硬件。某些措施在不同的從屬權(quán)利要求中陳述,但這并不表明不能利用這些措施的組合。
權(quán)利要求
1.由媒體處理應(yīng)用設(shè)定一個媒體幀的質(zhì)量的方法,該方法包含以下步驟確定要用于處理該媒體幀的資源的量;和根據(jù)在一個里程碑處計算的該媒體處理應(yīng)用的相對進度來控制該媒體幀的質(zhì)量。
2.按照權(quán)利要求1的設(shè)定一個媒體幀的質(zhì)量的方法,其中,控制媒體幀的質(zhì)量被模型化成一個包含狀態(tài)的集合、決定的集合、轉(zhuǎn)換概率的集合和收益的集合的Markov決策問題,該方法包含限定該狀態(tài)的集合,以包含媒體處理應(yīng)用在一個里程碑處的相對進度以及一個先前媒體幀的先前所使用的質(zhì)量;限定該決定的集合,以包含媒體處理應(yīng)用能提供的多個質(zhì)量;限定該轉(zhuǎn)換概率的集合,以包含一個概率,它是當選擇多個質(zhì)量中的一個質(zhì)量時從狀態(tài)集合中位于當前里程碑的一個狀態(tài)向狀態(tài)集合中位于下一個里程碑的另一個狀態(tài)進行轉(zhuǎn)換的概率;以及限定該收益的集合,以包含一個與媒體幀的正質(zhì)量有關(guān)的正收益、一個與最后期限錯過有關(guān)的負收益、和一個與質(zhì)量變化有關(guān)的負收益;用一個決策策略求解這個Markov決策問題,并根據(jù)這個解答設(shè)定媒體幀的質(zhì)量。
3.按照權(quán)利要求2的設(shè)定一個媒體幀的質(zhì)量的方法,其中,決策策略包含最大化所有轉(zhuǎn)換的收益的總和的步驟。
4.按照權(quán)利要求2的設(shè)定一個媒體幀的質(zhì)量的方法,其中,決策策略包含最大化每個轉(zhuǎn)換的平均收益的步驟。
5.由媒體處理應(yīng)用設(shè)定一個媒體幀的質(zhì)量的系統(tǒng),該系統(tǒng)包含確定裝置,用來確定要用于處理該媒體幀的資源的量;和控制裝置,用來根據(jù)在一個里程碑處計算的該媒體處理應(yīng)用的相對進度來控制該媒體幀的質(zhì)量。
6.按照權(quán)利要求5的設(shè)定一個媒體幀的質(zhì)量的系統(tǒng),其中,控制裝置被用來將對媒體幀的質(zhì)量的控制模型化成一個包含狀態(tài)的集合、決定的集合、一個轉(zhuǎn)換概率的集合和一個收益的集合的Markov決策問題,其中狀態(tài)的集合包含媒體處理應(yīng)用在一個里程碑處的相對進度以及一個先前媒體幀的先前所使用的質(zhì)量;決定的集合包含媒體處理應(yīng)用能提供的多個質(zhì)量;轉(zhuǎn)換概率的集合包含一個概率,它是當選擇多個質(zhì)量中的一個質(zhì)量時從狀態(tài)集合中位于當前里程碑的一個狀態(tài)向狀態(tài)集合中位于下一個里程碑的另一個狀態(tài)進行轉(zhuǎn)換的概率;以及收益的集合包含一個與媒體幀的正質(zhì)量有關(guān)的正收益、一個與最后期限錯過有關(guān)的負收益、和一個與質(zhì)量變化有關(guān)的負收益;以及控制裝置進一步被用來用一個決策策略求解這個Markov決策問題并根據(jù)這個解答設(shè)定媒體幀的質(zhì)量。
6.一種設(shè)計用來執(zhí)行按照權(quán)利要求1的方法的計算機程序產(chǎn)品。
7.一種包含按照權(quán)利要求6的計算機程序產(chǎn)品的存儲設(shè)備。
8.一種包含按照權(quán)利要求5的系統(tǒng)的電視機。
9.一種包含按照權(quán)利要求5的系統(tǒng)的機頂盒。
全文摘要
本發(fā)明涉及能被用來在時間和資源受約束的環(huán)境中實現(xiàn)最大的可感知的用戶質(zhì)量的自適應(yīng)調(diào)度和資源管理技術(shù),諸如Markov決策問題。
文檔編號H04N5/00GK1602466SQ02824551
公開日2005年3月30日 申請日期2002年12月9日 優(yōu)先權(quán)日2001年12月10日
發(fā)明者W·F·J·維哈赫, C·C·伍斯特 申請人:皇家飛利浦電子股份有限公司