專(zhuān)利名稱(chēng):一種基于mcmc的優(yōu)化信息檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種新的優(yōu)化的信息檢索方法,特別涉及一種基于MCMC進(jìn)行優(yōu)化的 信息檢索方法,屬于信息檢索領(lǐng)域。
背景技術(shù):
馬爾可夫鏈蒙特卡羅(MCMC)方法的提出是隨著蒙特卡羅技術(shù)的出現(xiàn),直到20世 紀(jì)90年代早期,MCMC在貝葉斯統(tǒng)計(jì)中的應(yīng)用才被大眾開(kāi)始慢慢認(rèn)識(shí)。經(jīng)過(guò)最近20年的發(fā) 展,MCMC方法的應(yīng)用業(yè)已涉及了統(tǒng)計(jì)推斷應(yīng)用的方方面面,例如生物統(tǒng)計(jì)領(lǐng)域、統(tǒng)計(jì)物理 領(lǐng)域、控制理論、通信技術(shù)、信息科學(xué)領(lǐng)域。MCMC包含了兩個(gè)基本內(nèi)容蒙特卡羅積分和馬爾可夫鏈。MCMC是利用Markov鏈 的機(jī)制探索狀態(tài)空間以生成樣本的方法,這種機(jī)制能夠保證Markov鏈將更多的時(shí)間放在 最重要的區(qū)域,從而使它產(chǎn)生的樣本能夠模仿目標(biāo)分布的樣本。由于MCMC方法的以上特點(diǎn),使得該方法在信息檢索領(lǐng)域被大量采用。在信息檢索 領(lǐng)域,通常使用該方法對(duì)檢索結(jié)果進(jìn)行全局的抽樣處理,得到精簡(jiǎn)的結(jié)果集,提高檢索的效 率;或者通過(guò)在仿真實(shí)驗(yàn)中使用該方法來(lái)對(duì)檢索數(shù)據(jù)進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果用于實(shí)際檢索 數(shù)據(jù),縮小檢索的范圍。在現(xiàn)有的使用MCMC模擬方法進(jìn)行信息檢索的過(guò)程中,大多數(shù)的研究往往局限于 對(duì)某一個(gè)問(wèn)題的把握,例如對(duì)全局搜索結(jié)果的把握,而忽略了搜索的效率,或者僅僅針對(duì)如 何提高搜索的效率,而沒(méi)有保證最終的搜索結(jié)果的準(zhǔn)確度。因此,如何同時(shí)兼顧對(duì)全局搜索 準(zhǔn)確率的把握,并且又能夠保持一定的搜索效率,減輕硬件的負(fù)擔(dān)成為一個(gè)非常有意義的 工作。在實(shí)際過(guò)程中,可能會(huì)擁有多條Morkov鏈,計(jì)算的難度會(huì)比較大,而且容易陷入 不能得到最優(yōu)解的過(guò)程。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提高搜索的效率和對(duì)于全局搜索的把握能 力,尋求一種優(yōu)化的信息檢索方法。本發(fā)明提供了一種基于MCMC的優(yōu)化信息檢索方法,包括以下步驟一、設(shè)定初始并行鏈數(shù)目n,根據(jù)檢索數(shù)據(jù)生成η條Markov鏈;設(shè)定總迭代次數(shù)s ;二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求,設(shè)定最小距離值;三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m,對(duì)步驟一中的η條Markov鏈進(jìn)行分段預(yù)迭 代,得到每?jī)蓷l鏈之間的距離值,即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值。四、進(jìn)行判斷,判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距 離值;五、假如結(jié)果是,就將進(jìn)行比較的這兩條鏈合并看作一條鏈,新鏈上每一點(diǎn)的值為 原兩條鏈的平均值,則η = n-1 ;
六、判斷迭代次數(shù)是否小于s,如果是則繼續(xù)進(jìn)行迭代,并在迭代完成時(shí)回到步驟 四;否則停止迭代,得到最終的結(jié)果,即迭代后的Markov鏈,通過(guò)該迭代后的Markov鏈可以 決定遍歷檢索數(shù)據(jù)的路徑。有益效果本發(fā)明所述基于MCMC的優(yōu)化信息檢索方法可以根據(jù)實(shí)際的狀況例如計(jì)算量的難 易程度去調(diào)控鏈的個(gè)數(shù),從而控制和調(diào)整運(yùn)算的時(shí)間,在兼顧全局搜索的準(zhǔn)確率的同時(shí)保 證一定的搜索效率,減輕硬件的負(fù)擔(dān)。
圖1為MCGS檢索方法流程圖;圖2為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)al的迭代曲線(A);圖3為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)a2的迭代曲線(B);圖4為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)a3的迭代曲線(C)。
具體實(shí)施例方式
下面結(jié)合附圖,具體說(shuō)明本發(fā)明的優(yōu)選實(shí)施方式。圖1是所述基于MCMC的優(yōu)化信息檢索方法的流程圖。本實(shí)施方式的具體步驟包 括一、設(shè)定初始并行鏈數(shù)目n,根據(jù)檢索數(shù)據(jù)生成η條Markov鏈;設(shè)定總迭代次數(shù)s ;在本實(shí)施方式中,為了確保收斂性,模擬了三條馬爾可夫鏈,即設(shè)定η = 3 ;設(shè)定總 共迭代s = 1500。通過(guò)統(tǒng)計(jì)軟件,根據(jù)檢索數(shù)據(jù)生成3條馬爾可夫鏈。二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求,設(shè)定最小距離值;最小距離需要是足夠近的距離,但是又要設(shè)置的恰到好處,如果設(shè)的太大的話,雖 然容易減少M(fèi)arkov鏈的個(gè)數(shù),但是會(huì)將實(shí)際距離差的比較遠(yuǎn)的兩條鏈合并成一條鏈;同理 可知,如果這個(gè)距離設(shè)置的過(guò)小的話,容易使兩個(gè)分布和性質(zhì)相同的鏈不被發(fā)現(xiàn),而達(dá)不到 提高運(yùn)算效率的作用。在本實(shí)施方式中,初始設(shè)定最小距離值為0. 1。三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m,對(duì)步驟一中的η條Markov鏈進(jìn)行分段預(yù)迭 代,得到每?jī)蓷l鏈之間的距離值,即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值;因?yàn)镸arkov鏈的迭代需要消耗很長(zhǎng)時(shí)間,迭代的次數(shù)經(jīng)常需要幾千幾萬(wàn)甚至更 多的次數(shù),因此,需要分段對(duì)多個(gè)鏈之間的距離進(jìn)行運(yùn)算,然后對(duì)每個(gè)迭代區(qū)間的值取平均
■VI-
值。例如,第i次迭代的第m個(gè)鏈和第η個(gè)鏈之間的距離可以表示為Σ ~ nf
i=i此處預(yù)迭代可采用多種方法,比如M-H方法,貝葉斯方法,但是通過(guò)仿真實(shí)驗(yàn)發(fā)現(xiàn) 經(jīng)典Gibbs抽樣算法效果最好,效率最高。本實(shí)施方式設(shè)定預(yù)迭代次數(shù)為500次,通過(guò)經(jīng)典Gibbs抽樣算法進(jìn)行預(yù)迭代。迭 代過(guò)程可以使用統(tǒng)計(jì)軟件完成,例如winbugs,R等。預(yù)迭代完成之后根據(jù)上面的距離公式 計(jì)算鏈之間的距離值。四、進(jìn)行判斷,判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值;五、假如結(jié)果是,就將進(jìn)行比較的這兩條鏈合并看作一條鏈,新鏈上每一點(diǎn)的值為 原兩條鏈的平均值,則η = n-1 ;六、判斷迭代次數(shù)是否小于s,如果是則繼續(xù)進(jìn)行迭代,并在迭代完成時(shí)回到步驟 四;否則停止迭代,得到最終的結(jié)果,即迭代后的Markov鏈,通過(guò)該迭代后的Markov鏈可以 決定遍歷檢索數(shù)據(jù)的路徑。針對(duì)本實(shí)施方式采用的方法,通過(guò)路徑圖對(duì)獲得的Markov鏈進(jìn)行檢驗(yàn)。路徑圖 (Trace plot)描述的是鏈迭代時(shí)候產(chǎn)生的波動(dòng)曲線。當(dāng)鏈達(dá)到收斂時(shí),此路徑圖就應(yīng)該呈 現(xiàn)出穩(wěn)定性,即比較平穩(wěn),沒(méi)有明顯的趨勢(shì)和周期。圖2、圖3、圖4分別為本實(shí)施方式應(yīng)用到不 同的檢索數(shù)據(jù)中的路徑圖。為為了確 保收斂性,本實(shí)施方式模擬了三條馬爾可夫鏈,每條各迭代1500次,其中預(yù)迭代500次。從圖2中可以看出,本實(shí)施方式一開(kāi)始是采用了 Ll,L2,L3三條鏈對(duì)目標(biāo)分布進(jìn)行 搜索,上面一直交替迭代的兩條鏈的統(tǒng)計(jì)平均值在迭代到50步左右的時(shí)候就基本一致了, 所以可以合并成一條鏈;在迭代到400步左右的時(shí)候,Ll和L3的統(tǒng)計(jì)平均值也比較接近, 因此也可以將其可以合并成一條鏈。在圖2中,本方法最終以Ll鏈完成了對(duì)目標(biāo)分布的抽 取。從圖3中可以看出,本實(shí)施方式開(kāi)始的三條鏈最終還是以合并成一條鏈完成對(duì)目 標(biāo)分布的抽樣。但是在圖3中,將設(shè)定的最小距離值從0. 1提高到了 0. 3,因此鏈之間的迭 代很快就達(dá)到了最小距離,而鏈的合并時(shí)間也從圖2的大約400步縮小到了 50步左右,很 明顯的提高了計(jì)算的效率。從圖4中可以看出,本實(shí)施方式最終的結(jié)果也是只搜索到一條鏈完成對(duì)目標(biāo)分布 的抽取,就是這個(gè)迭代的過(guò)程中僅有一個(gè)局部解,顯然從圖中可以看出其抽樣結(jié)果是不具 有代表性的,主要的原因是由于最小距離值設(shè)置的過(guò)大,所以使得本屬于不同統(tǒng)計(jì)狀態(tài)的 三個(gè)鏈,被合并成一個(gè)鏈,也可以看出將距離設(shè)置過(guò)大顯然對(duì)于處理局部搜索分布的時(shí)候 效果并不是很好。在附圖2,3,4中可以看出,用本發(fā)明的方法迭代的數(shù)據(jù)路徑圖是非常平穩(wěn)的,并 沒(méi)有出現(xiàn)明顯的離群的軌跡,因此,從圖形中可以認(rèn)為是比較良好的擬合。根據(jù)上面得出的迭代結(jié)果可以知道需要根據(jù)實(shí)際情況對(duì)最小距離進(jìn)行設(shè)置,如果 是如果是需要提高運(yùn)算時(shí)間和減少對(duì)計(jì)算機(jī)的壓力的時(shí)候,則可以適當(dāng)?shù)募哟蟆白钚【嚯x” 值,但是這樣的問(wèn)題就可能使得距離并不是很接近的鏈直接合并成一條鏈,增加計(jì)算出現(xiàn) 誤差的概率;反之,如果不需要特別考慮運(yùn)算時(shí)間和計(jì)算機(jī)的效率的時(shí)候,而純以得到全局 搜索的最優(yōu)解為目的的時(shí)候,就可以將“最小距離”設(shè)置成比較小的合理值,雖然增加了計(jì) 算量和提高了計(jì)算時(shí)間,但是也增加了計(jì)算結(jié)果的合理性和正確性。
權(quán)利要求
一種基于MCMC的優(yōu)化信息檢索方法,其特征在于,包括以下步驟一、設(shè)定初始并行鏈數(shù)目n,根據(jù)檢索數(shù)據(jù)生成n條Markov鏈;設(shè)定總迭代次數(shù)s;二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求,設(shè)定最小距離值;三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m,對(duì)步驟一中的n條Markov鏈進(jìn)行分段預(yù)迭代,得到每?jī)蓷l鏈之間的距離值,即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值。四、進(jìn)行判斷,判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值;五、假如結(jié)果是,就將進(jìn)行比較的這兩條鏈合并看作一條鏈,新鏈上每一點(diǎn)的值為原兩條鏈的平均值,則n=n 1;六、判斷迭代次數(shù)是否小于s,如果是則繼續(xù)進(jìn)行迭代,并在迭代完成時(shí)回到步驟四;否則停止迭代,得到最終的結(jié)果,即迭代后的Markov鏈,通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。
2.根據(jù)權(quán)利要求1所述的一種基于MCMC的優(yōu)化信息檢索方法,其特征在于,在步驟三 中所述的分段預(yù)迭代的方法為經(jīng)典Gibbs抽樣算法。
3.根據(jù)根據(jù)權(quán)利要求1所述的一種基于MCMC的優(yōu)化信息檢索方法,其特征在于,步驟 二中設(shè)定的最小距離值為0.1。
全文摘要
本發(fā)明涉及一種基于MCMC的優(yōu)化信息檢索方法,包括以下步驟一、設(shè)定初始并行鏈數(shù)目n,根據(jù)檢索數(shù)據(jù)生成n條Markov鏈;設(shè)定總迭代次數(shù)s;二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求,設(shè)定最小距離值;三、設(shè)定預(yù)迭代次數(shù)m,對(duì)步驟一中的n條Markov鏈進(jìn)行分段預(yù)迭代,得到每?jī)蓷l鏈之間的距離值。四、進(jìn)行判斷,判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值;五、假如結(jié)果是,就將進(jìn)行比較的這兩條鏈合并看作一條鏈;六、判斷迭代次數(shù)是否小于s,如果是則繼續(xù)進(jìn)行迭代,并在迭代完成時(shí)回到步驟四;否則停止迭代,通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。本發(fā)明在兼顧全局搜索準(zhǔn)確率的同時(shí)保證一定的搜索效率,減輕硬件的負(fù)擔(dān)。
文檔編號(hào)G06F17/30GK101968809SQ20101052034
公開(kāi)日2011年2月9日 申請(qǐng)日期2010年10月27日 優(yōu)先權(quán)日2010年10月27日
發(fā)明者牛振東, 王維強(qiáng), 趙育民 申請(qǐng)人:北京理工大學(xué)