一種基于mcmc的優(yōu)化信息檢索方法

文檔序號(hào)：6334440閱讀：307來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種基于mcmc的優(yōu)化信息檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種新的優(yōu)化的信息檢索方法，特別涉及一種基于MCMC進(jìn)行優(yōu)化的信息檢索方法，屬于信息檢索領(lǐng)域。
背景技術(shù)：
馬爾可夫鏈蒙特卡羅(MCMC)方法的提出是隨著蒙特卡羅技術(shù)的出現(xiàn)，直到20世紀(jì)90年代早期，MCMC在貝葉斯統(tǒng)計(jì)中的應(yīng)用才被大眾開(kāi)始慢慢認(rèn)識(shí)。經(jīng)過(guò)最近20年的發(fā) 展，MCMC方法的應(yīng)用業(yè)已涉及了統(tǒng)計(jì)推斷應(yīng)用的方方面面，例如生物統(tǒng)計(jì)領(lǐng)域、統(tǒng)計(jì)物理領(lǐng)域、控制理論、通信技術(shù)、信息科學(xué)領(lǐng)域。MCMC包含了兩個(gè)基本內(nèi)容蒙特卡羅積分和馬爾可夫鏈。MCMC是利用Markov鏈的機(jī)制探索狀態(tài)空間以生成樣本的方法，這種機(jī)制能夠保證Markov鏈將更多的時(shí)間放在最重要的區(qū)域，從而使它產(chǎn)生的樣本能夠模仿目標(biāo)分布的樣本。由于MCMC方法的以上特點(diǎn)，使得該方法在信息檢索領(lǐng)域被大量采用。在信息檢索領(lǐng)域，通常使用該方法對(duì)檢索結(jié)果進(jìn)行全局的抽樣處理，得到精簡(jiǎn)的結(jié)果集，提高檢索的效率；或者通過(guò)在仿真實(shí)驗(yàn)中使用該方法來(lái)對(duì)檢索數(shù)據(jù)進(jìn)行預(yù)測(cè)，將預(yù)測(cè)結(jié)果用于實(shí)際檢索數(shù)據(jù)，縮小檢索的范圍。在現(xiàn)有的使用MCMC模擬方法進(jìn)行信息檢索的過(guò)程中，大多數(shù)的研究往往局限于對(duì)某一個(gè)問(wèn)題的把握，例如對(duì)全局搜索結(jié)果的把握，而忽略了搜索的效率，或者僅僅針對(duì)如何提高搜索的效率，而沒(méi)有保證最終的搜索結(jié)果的準(zhǔn)確度。因此，如何同時(shí)兼顧對(duì)全局搜索準(zhǔn)確率的把握，并且又能夠保持一定的搜索效率，減輕硬件的負(fù)擔(dān)成為一個(gè)非常有意義的工作。在實(shí)際過(guò)程中，可能會(huì)擁有多條Morkov鏈，計(jì)算的難度會(huì)比較大，而且容易陷入不能得到最優(yōu)解的過(guò)程。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足，提高搜索的效率和對(duì)于全局搜索的把握能力，尋求一種優(yōu)化的信息檢索方法。本發(fā)明提供了一種基于MCMC的優(yōu)化信息檢索方法，包括以下步驟一、設(shè)定初始并行鏈數(shù)目n，根據(jù)檢索數(shù)據(jù)生成η條Markov鏈；設(shè)定總迭代次數(shù)s ；二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求，設(shè)定最小距離值；三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m，對(duì)步驟一中的η條Markov鏈進(jìn)行分段預(yù)迭代，得到每?jī)蓷l鏈之間的距離值，即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值。四、進(jìn)行判斷，判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值；五、假如結(jié)果是，就將進(jìn)行比較的這兩條鏈合并看作一條鏈，新鏈上每一點(diǎn)的值為原兩條鏈的平均值，則η = n-1 ；
六、判斷迭代次數(shù)是否小于s，如果是則繼續(xù)進(jìn)行迭代，并在迭代完成時(shí)回到步驟四；否則停止迭代，得到最終的結(jié)果，即迭代后的Markov鏈，通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。有益效果本發(fā)明所述基于MCMC的優(yōu)化信息檢索方法可以根據(jù)實(shí)際的狀況例如計(jì)算量的難易程度去調(diào)控鏈的個(gè)數(shù)，從而控制和調(diào)整運(yùn)算的時(shí)間，在兼顧全局搜索的準(zhǔn)確率的同時(shí)保證一定的搜索效率，減輕硬件的負(fù)擔(dān)。

圖1為MCGS檢索方法流程圖；圖2為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)al的迭代曲線(A)；圖3為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)a2的迭代曲線(B)；圖4為MCGH檢索方法應(yīng)用到檢索數(shù)據(jù)a3的迭代曲線(C)。
具體實(shí)施例方式
下面結(jié)合附圖，具體說(shuō)明本發(fā)明的優(yōu)選實(shí)施方式。圖1是所述基于MCMC的優(yōu)化信息檢索方法的流程圖。本實(shí)施方式的具體步驟包括一、設(shè)定初始并行鏈數(shù)目n，根據(jù)檢索數(shù)據(jù)生成η條Markov鏈；設(shè)定總迭代次數(shù)s ；在本實(shí)施方式中，為了確保收斂性，模擬了三條馬爾可夫鏈，即設(shè)定η = 3 ；設(shè)定總共迭代s = 1500。通過(guò)統(tǒng)計(jì)軟件，根據(jù)檢索數(shù)據(jù)生成3條馬爾可夫鏈。二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求，設(shè)定最小距離值；最小距離需要是足夠近的距離，但是又要設(shè)置的恰到好處，如果設(shè)的太大的話，雖然容易減少M(fèi)arkov鏈的個(gè)數(shù)，但是會(huì)將實(shí)際距離差的比較遠(yuǎn)的兩條鏈合并成一條鏈；同理可知，如果這個(gè)距離設(shè)置的過(guò)小的話，容易使兩個(gè)分布和性質(zhì)相同的鏈不被發(fā)現(xiàn)，而達(dá)不到提高運(yùn)算效率的作用。在本實(shí)施方式中，初始設(shè)定最小距離值為0. 1。三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m，對(duì)步驟一中的η條Markov鏈進(jìn)行分段預(yù)迭代，得到每?jī)蓷l鏈之間的距離值，即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值；因?yàn)镸arkov鏈的迭代需要消耗很長(zhǎng)時(shí)間，迭代的次數(shù)經(jīng)常需要幾千幾萬(wàn)甚至更多的次數(shù)，因此，需要分段對(duì)多個(gè)鏈之間的距離進(jìn)行運(yùn)算，然后對(duì)每個(gè)迭代區(qū)間的值取平均
■VI-
值。例如，第i次迭代的第m個(gè)鏈和第η個(gè)鏈之間的距離可以表示為Σ ~ nf
i=i此處預(yù)迭代可采用多種方法，比如M-H方法，貝葉斯方法，但是通過(guò)仿真實(shí)驗(yàn)發(fā)現(xiàn) 經(jīng)典Gibbs抽樣算法效果最好，效率最高。本實(shí)施方式設(shè)定預(yù)迭代次數(shù)為500次，通過(guò)經(jīng)典Gibbs抽樣算法進(jìn)行預(yù)迭代。迭代過(guò)程可以使用統(tǒng)計(jì)軟件完成，例如winbugs，R等。預(yù)迭代完成之后根據(jù)上面的距離公式計(jì)算鏈之間的距離值。四、進(jìn)行判斷，判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值；五、假如結(jié)果是，就將進(jìn)行比較的這兩條鏈合并看作一條鏈，新鏈上每一點(diǎn)的值為原兩條鏈的平均值，則η = n-1 ；六、判斷迭代次數(shù)是否小于s，如果是則繼續(xù)進(jìn)行迭代，并在迭代完成時(shí)回到步驟四；否則停止迭代，得到最終的結(jié)果，即迭代后的Markov鏈，通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。針對(duì)本實(shí)施方式采用的方法，通過(guò)路徑圖對(duì)獲得的Markov鏈進(jìn)行檢驗(yàn)。路徑圖 (Trace plot)描述的是鏈迭代時(shí)候產(chǎn)生的波動(dòng)曲線。當(dāng)鏈達(dá)到收斂時(shí)，此路徑圖就應(yīng)該呈現(xiàn)出穩(wěn)定性，即比較平穩(wěn)，沒(méi)有明顯的趨勢(shì)和周期。圖2、圖3、圖4分別為本實(shí)施方式應(yīng)用到不同的檢索數(shù)據(jù)中的路徑圖。為為了確保收斂性，本實(shí)施方式模擬了三條馬爾可夫鏈，每條各迭代1500次，其中預(yù)迭代500次。從圖2中可以看出，本實(shí)施方式一開(kāi)始是采用了 Ll，L2，L3三條鏈對(duì)目標(biāo)分布進(jìn)行搜索，上面一直交替迭代的兩條鏈的統(tǒng)計(jì)平均值在迭代到50步左右的時(shí)候就基本一致了，所以可以合并成一條鏈；在迭代到400步左右的時(shí)候，Ll和L3的統(tǒng)計(jì)平均值也比較接近，因此也可以將其可以合并成一條鏈。在圖2中，本方法最終以Ll鏈完成了對(duì)目標(biāo)分布的抽取。從圖3中可以看出，本實(shí)施方式開(kāi)始的三條鏈最終還是以合并成一條鏈完成對(duì)目標(biāo)分布的抽樣。但是在圖3中，將設(shè)定的最小距離值從0. 1提高到了 0. 3，因此鏈之間的迭代很快就達(dá)到了最小距離，而鏈的合并時(shí)間也從圖2的大約400步縮小到了 50步左右，很明顯的提高了計(jì)算的效率。從圖4中可以看出，本實(shí)施方式最終的結(jié)果也是只搜索到一條鏈完成對(duì)目標(biāo)分布的抽取，就是這個(gè)迭代的過(guò)程中僅有一個(gè)局部解，顯然從圖中可以看出其抽樣結(jié)果是不具有代表性的，主要的原因是由于最小距離值設(shè)置的過(guò)大，所以使得本屬于不同統(tǒng)計(jì)狀態(tài)的三個(gè)鏈，被合并成一個(gè)鏈，也可以看出將距離設(shè)置過(guò)大顯然對(duì)于處理局部搜索分布的時(shí)候效果并不是很好。在附圖2，3，4中可以看出，用本發(fā)明的方法迭代的數(shù)據(jù)路徑圖是非常平穩(wěn)的，并沒(méi)有出現(xiàn)明顯的離群的軌跡，因此，從圖形中可以認(rèn)為是比較良好的擬合。根據(jù)上面得出的迭代結(jié)果可以知道需要根據(jù)實(shí)際情況對(duì)最小距離進(jìn)行設(shè)置，如果是如果是需要提高運(yùn)算時(shí)間和減少對(duì)計(jì)算機(jī)的壓力的時(shí)候，則可以適當(dāng)?shù)募哟蟆白钚【嚯x” 值，但是這樣的問(wèn)題就可能使得距離并不是很接近的鏈直接合并成一條鏈，增加計(jì)算出現(xiàn) 誤差的概率；反之，如果不需要特別考慮運(yùn)算時(shí)間和計(jì)算機(jī)的效率的時(shí)候，而純以得到全局搜索的最優(yōu)解為目的的時(shí)候，就可以將“最小距離”設(shè)置成比較小的合理值，雖然增加了計(jì) 算量和提高了計(jì)算時(shí)間，但是也增加了計(jì)算結(jié)果的合理性和正確性。
權(quán)利要求
一種基于MCMC的優(yōu)化信息檢索方法，其特征在于，包括以下步驟一、設(shè)定初始并行鏈數(shù)目n，根據(jù)檢索數(shù)據(jù)生成n條Markov鏈；設(shè)定總迭代次數(shù)s；二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求，設(shè)定最小距離值；三、設(shè)定預(yù)迭代時(shí)分段的迭代次數(shù)m，對(duì)步驟一中的n條Markov鏈進(jìn)行分段預(yù)迭代，得到每?jī)蓷l鏈之間的距離值，即每?jī)蓷lMarkov鏈各段之間的歐式距離的平均值。四、進(jìn)行判斷，判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值；五、假如結(jié)果是，就將進(jìn)行比較的這兩條鏈合并看作一條鏈，新鏈上每一點(diǎn)的值為原兩條鏈的平均值，則n＝n 1；六、判斷迭代次數(shù)是否小于s，如果是則繼續(xù)進(jìn)行迭代，并在迭代完成時(shí)回到步驟四；否則停止迭代，得到最終的結(jié)果，即迭代后的Markov鏈，通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。
2.根據(jù)權(quán)利要求1所述的一種基于MCMC的優(yōu)化信息檢索方法，其特征在于，在步驟三中所述的分段預(yù)迭代的方法為經(jīng)典Gibbs抽樣算法。
3.根據(jù)根據(jù)權(quán)利要求1所述的一種基于MCMC的優(yōu)化信息檢索方法，其特征在于，步驟二中設(shè)定的最小距離值為0.1。
全文摘要
本發(fā)明涉及一種基于MCMC的優(yōu)化信息檢索方法，包括以下步驟一、設(shè)定初始并行鏈數(shù)目n，根據(jù)檢索數(shù)據(jù)生成n條Markov鏈；設(shè)定總迭代次數(shù)s；二、根據(jù)對(duì)效率和結(jié)果準(zhǔn)確率的要求，設(shè)定最小距離值；三、設(shè)定預(yù)迭代次數(shù)m，對(duì)步驟一中的n條Markov鏈進(jìn)行分段預(yù)迭代，得到每?jī)蓷l鏈之間的距離值。四、進(jìn)行判斷，判斷任意兩條鏈之間的距離值是否小于或者等于所設(shè)定的最小距離值；五、假如結(jié)果是，就將進(jìn)行比較的這兩條鏈合并看作一條鏈；六、判斷迭代次數(shù)是否小于s，如果是則繼續(xù)進(jìn)行迭代，并在迭代完成時(shí)回到步驟四；否則停止迭代，通過(guò)該迭代后的Markov鏈可以決定遍歷檢索數(shù)據(jù)的路徑。本發(fā)明在兼顧全局搜索準(zhǔn)確率的同時(shí)保證一定的搜索效率，減輕硬件的負(fù)擔(dān)。
文檔編號(hào)G06F17/30GK101968809SQ20101052034
公開(kāi)日2011年2月9日申請(qǐng)日期2010年10月27日優(yōu)先權(quán)日2010年10月27日
發(fā)明者牛振東, 王維強(qiáng), 趙育民申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王維強(qiáng);牛振東;趙育民
技術(shù)所有人：北京理工大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種物料清單工程變更的方法及裝置的制作方法
上一篇：異步處理大數(shù)據(jù)量新增的方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

信息檢索常用的方法有相關(guān)技術(shù)

信息檢索方法相關(guān)技術(shù)

信息檢索的方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索的方法相關(guān)技術(shù)

信息檢索常用方法相關(guān)技術(shù)

因特網(wǎng)信息檢索方法相關(guān)技術(shù)

信息檢索方法有哪些相關(guān)技術(shù)

信息檢索的基本方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于mcmc的優(yōu)化信息檢索方法