国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種羅杰斯特-正態(tài)模型話題提取方法

      文檔序號:6538141閱讀:383來源:國知局
      一種羅杰斯特-正態(tài)模型話題提取方法
      【專利摘要】本發(fā)明提供了一種羅杰斯特-正態(tài)模型話題提取方法,包括:S1:參數(shù)服務器將計數(shù)矩陣分布式存儲在計算節(jié)點上,將訓練集中的所有文檔分發(fā)給計算節(jié)點;S2:對文檔中的每個單詞對應的話題進行吉布斯采樣;S3:采樣本文檔的特征向量;S4:計算本節(jié)點中每個文檔的特征向量的和、平方和及均值和協(xié)方差所服從的后驗分布,從后驗分布中采樣每個文檔的特征向量的均值和協(xié)方差;S5:判斷迭代次數(shù)是否到預定常數(shù),如果是,則停止迭代,執(zhí)行S6,否則迭代次數(shù)加1,執(zhí)行S2、S3、S4;S6:對本計算節(jié)點的文檔依次執(zhí)行S2、S3,對S3中所采樣的特征向量做軟最大值變換,輸出本計算節(jié)點中的每個文檔中每個話題占該文檔的比例。通過該方法,能夠提高話題提取的速度。
      【專利說明】一種羅杰斯特-正態(tài)模型話題提取方法
      【技術領域】
      [0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術領域】,尤其涉及一種羅杰斯特-正態(tài)模型話題提取方法。
      【背景技術】
      [0002]隱式話題模型在挖掘文檔語義信息和處理復雜的文檔結構方面都體現(xiàn)出了明顯的優(yōu)勢,利用隱式話題模型挖掘大規(guī)模文檔中的語義結構需要解決的問題主要是:文檔數(shù)量十分龐大,需要在分布式計算環(huán)境中可用的算法;模型的靈活性,如提取話題的相關性。
      [0003]如今應用隱式話題模型的數(shù)據(jù)已經(jīng)從小規(guī)模的文本集發(fā)展到大規(guī)模的社會網(wǎng)絡、乃至整個互聯(lián)網(wǎng)。傳統(tǒng)的單機學習方法無法適應大數(shù)據(jù)的要求,需要快速、并且可以在分布式計算環(huán)境下運行的算法。
      [0004]現(xiàn)有技術中,利用關聯(lián)話題模型,通過采用非共軛羅杰斯特正態(tài)模型,提取話題相關性,在關聯(lián)話題模型中,羅杰斯特正態(tài)模型的學習算法使用變分法,通過數(shù)值算法多次迭代進行求解。
      [0005]通過上述描述可見,關聯(lián)話題模型中的羅杰斯特正態(tài)模型的學習算法使用變分法,通過數(shù)值算法多次迭代進行求解,效率較低,速度低。

      【發(fā)明內容】

      [0006]本發(fā)明提供了一種羅杰斯特-正態(tài)模型話題提取方法,能夠提高話題提取的速度。
      [0007]本發(fā)明提供了一種羅杰斯特-正態(tài)模型話題提取方法,該方法包括:
      [0008]S1:參數(shù)服務器將訓練集中話題與單詞對應關系的計數(shù)矩陣分布式存儲在計算節(jié)點上,參數(shù)服務器將訓練集中的所有文檔分發(fā)給所述計算節(jié)點,每個計算節(jié)點保存所述計數(shù)矩陣和參數(shù)服務器發(fā)來的文檔;
      [0009]S2:計算節(jié)點對本計算節(jié)點中的文檔中的每個單詞對應的話題根據(jù)本計算節(jié)點存儲的計數(shù)矩陣進行吉布斯采樣;
      [0010]S3:計算節(jié)點根據(jù)本計算節(jié)點所采樣的文檔中的每個單詞的話題采樣本文檔的特征向量;
      [0011]S4:計算節(jié)點計算本節(jié)點中每個文檔的特征向量的和、平方和,利用所述和、平方和計算所有所述特征向量的均值和協(xié)方差所服從的后驗分布,并從后驗分布中采樣每個文檔的特征向量的均值和協(xié)方差;
      [0012]S5:計算節(jié)點中,判斷迭代次數(shù)是否達到預定常數(shù),如果是,則停止迭代,執(zhí)行S6,如果否,則迭代次數(shù)加1,依次執(zhí)行S2、S3、S4 ;
      [0013]S6:計算節(jié)點中,對本計算節(jié)點的文檔依次執(zhí)行S2、S3,對S3中所采樣的特征向量做軟最大值變換,輸出本計算節(jié)點中的每個文檔中每個話題所占該文檔的比例。
      [0014]進一步地,所述方法進一步包括:[0015]計算節(jié)點將所述話題的后驗分布拆分成本節(jié)點存儲的所述計數(shù)矩陣的項和先驗的項,通過引入增廣均勻分布隨機變量采樣,當從所述計數(shù)矩陣的項采樣時只采樣非零元。
      [0016]進一步地,所述計算節(jié)點根據(jù)本計算節(jié)點所采樣的文檔中的每個單詞的話題采樣本文檔的特征向量,進一步包括:
      [0017]S31:對所述特征向量的每一維引入增廣變量;
      [0018]S32:從當前特征向量下的每一維增廣變量的條件分布中利用高斯分布近似采樣該增廣變量;
      [0019]S33:從給定所述特征向量的其他所有維以及增廣變量后,特征向量的某一維的條件分布中依次采樣所述特征向量的每一維;
      [0020]S34:判斷所述循環(huán)次數(shù)是否到達預設循環(huán)次數(shù),如果否,則循環(huán)次數(shù)加1,依次執(zhí)行 S32、S33。
      [0021]進一步地,所述預設循環(huán)次數(shù)為8次。
      [0022]進一步地,所述步驟S32,包括:從當前特征向量下的任一維增廣變量的條件分布中利用經(jīng)過變換的Polya-Ga_a(l, ζ)分布近似采樣該增廣變量。
      [0023]進一步地,所述方法還包括:在任一話題的后驗分布中將隱式話題-單詞分布矩陣通過積分去掉。
      [0024]進一步地,所述方法還包括:
      [0025]計算節(jié)點記錄本計算節(jié)點的計數(shù)矩陣的增量,周期性地將該計數(shù)矩陣的每一行與該行對應的參數(shù)服務器進行同步,其中,所述參數(shù)服務器是分布式服務器,該計數(shù)矩陣的不同行存儲在不同的節(jié)點上。
      [0026]進一步地,所述計算節(jié)點記錄本計算節(jié)點的計數(shù)矩陣的增量,周期性地將該計數(shù)矩陣的每一行與這一行對應的參數(shù)服務器進行同步,具體包括:
      [0027]按照所述行的編號計算存儲器的參數(shù)服務器,將該行在本計算節(jié)點上的增量發(fā)送到參數(shù)服務器;
      [0028]參數(shù)服務器根據(jù)發(fā)來的增量更新參數(shù)服務器中的計數(shù)矩陣,將參數(shù)服務器上對應的行與計算節(jié)點上的所述行的差發(fā)送回所述計算節(jié)點;
      [0029]計算節(jié)點根據(jù)接收到的差值更新本計算節(jié)點上的該行。
      [0030]通過本發(fā)明提供的一種羅杰斯特-正態(tài)模型話題提取方法,通過分布式計算處理大規(guī)模數(shù)據(jù),并能夠提高話題提取的速度。
      【專利附圖】

      【附圖說明】
      [0031]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0032]圖1是本發(fā)明實施例提供的一種羅杰斯特-正態(tài)模型話題提取方法流程圖?!揪唧w實施方式】
      [0033]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
      [0034]本發(fā)明實施例提供了一種羅杰斯特-正態(tài)模型話題提取方法,參見圖1,該方法包括:
      [0035]S1:參數(shù)服務器將訓練集中話題與單詞對應關系的計數(shù)矩陣分布式存儲在計算節(jié)點上,參數(shù)服務器將訓練集中的所有文檔分發(fā)給所述計算節(jié)點,每個計算節(jié)點保存所述計數(shù)矩陣和參數(shù)服務器發(fā)來的文檔;
      [0036]S2:計算節(jié)點對本計算節(jié)點中的文檔中的每個單詞對應的話題根據(jù)本計算節(jié)點存儲的計數(shù)矩陣進行吉布斯采樣;
      [0037]S3:計算節(jié)點根據(jù)本計算節(jié)點所采樣的文檔中的每個單詞的話題采樣本文檔的特征向量;
      [0038]S4:計算節(jié)點計算本節(jié)點中每個文檔的特征向量的和、平方和,利用所述和、平方和計算所有所述特征向量的均值和協(xié)方差所服從的后驗分布,并從后驗分布中采樣每個文檔的特征向量的均值和協(xié)方差;
      [0039]S5:計算節(jié)點中,判斷迭代次數(shù)是否達到預定常數(shù),如果是,則停止迭代,執(zhí)行S6,如果否,則迭代次數(shù)加1,依次執(zhí)行S2、S3、S4 ;
      [0040]S6:計算節(jié)點中,對本計算節(jié)點的文檔依次執(zhí)行S2、S3,對S3中所采樣的特征向量做軟最大值變換,輸出本計算節(jié)點中的每個文檔中每個話題所占該文檔的比例。
      [0041]本發(fā)明實施例提供的一種羅杰斯特-正態(tài)模型話題提取方法,通過分布式計算處理大規(guī)模數(shù)據(jù),并能夠提高話題提取的速度。
      [0042]其中,在一個話題提取的系統(tǒng)中,包括一個參數(shù)服務器和至少一個計算節(jié)點,參數(shù)服務器用于為計算節(jié)點分配訓練集中的待提取的文檔,并將計數(shù)矩陣發(fā)送給計算節(jié)點;計算節(jié)點保存參數(shù)服務器分配的訓練集中所有文檔中的一部分文檔,并對保存的文檔進行話題提取。
      [0043]在步驟SI中,參數(shù)服務器將訓練集中話題與單詞對應關系的計數(shù)矩陣C1T分布式存儲在計算節(jié)點上,參數(shù)服務器將訓練集中的所有文檔分發(fā)給所述計算節(jié)點,每個計算節(jié)點保存所述計數(shù)矩陣?τ和參數(shù)服務器發(fā)來的文檔。
      [0044]其中,
      【權利要求】
      1.一種羅杰斯特-正態(tài)模型話題提取方法,其特征在于,該方法包括: S1:參數(shù)服務器將訓練集中話題與單詞對應關系的計數(shù)矩陣分布式存儲在計算節(jié)點上,參數(shù)服務器將訓練集中的所有文檔分發(fā)給所述計算節(jié)點,每個計算節(jié)點保存所述計數(shù)矩陣和參數(shù)服務器發(fā)來的文檔; S2:計算節(jié)點對本計算節(jié)點中的文檔中的每個單詞對應的話題根據(jù)本計算節(jié)點存儲的計數(shù)矩陣進行吉布斯采樣; S3:計算節(jié)點根據(jù)本計算節(jié)點所采樣的文檔中的每個單詞的話題采樣本文檔的特征向量; S4:計算節(jié)點計算本節(jié)點中每個文檔的特征向量的和、平方和,利用所述和、平方和計算所有所述特征向量的均值和協(xié)方差所服從的后驗分布,并從后驗分布中采樣每個文檔的特征向量的均值和協(xié)方差; 55:計算節(jié)點中,判斷迭代次數(shù)是否達到預定常數(shù),如果是,則停止迭代,執(zhí)行S6,如果否,則迭代次數(shù)加1,依次執(zhí)行S2、S3、S4 ; 56:計算節(jié)點中,對本計算節(jié)點的文檔依次執(zhí)行S2、S3,對S3中所采樣的特征向量做軟最大值變換,輸出本計算節(jié)點中的每個文檔中每個話題所占該文檔的比例。
      2.根據(jù)權利要求1所述的方法,其特征在于,所述方法進一步包括: 計算節(jié)點將所述話題 的后驗分布拆分成本節(jié)點存儲的所述計數(shù)矩陣的項和先驗的項,通過引入增廣均勻分布隨機變量采樣,當從所述計數(shù)矩陣的項采樣時只采樣非零元。
      3.根據(jù)權利要求1所述的方法,其特征在于,所述計算節(jié)點根據(jù)本計算節(jié)點所采樣的文檔中的每個單詞的話題采樣本文檔的特征向量,進一步包括: S31:對所述特征向量的每一維引入增廣變量; S32:從當前特征向量下的每一維增廣變量的條件分布中利用高斯分布近似采樣該增廣變量; S33:從給定所述特征向量的其他所有維以及增廣變量后,特征向量的某一維的條件分布中依次采樣所述特征向量的每一維; S34:判斷所述循環(huán)次數(shù)是否到達預設循環(huán)次數(shù),如果否,則循環(huán)次數(shù)加1,依次執(zhí)行S32、S33。
      4.根據(jù)權利要求3所述的方法,其特征在于,所述預設循環(huán)次數(shù)為8次。
      5.根據(jù)權利要求3所述的方法,其特征在于,所述步驟S32,包括:從當前特征向量下的任一維增廣變量的條件分布中利用經(jīng)過變換的Polya-Ga_a(l,ζ)分布近似采樣該增廣變量。
      6.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:在任一話題的后驗分布中將隱式話題-單詞分布矩陣通過積分去掉。
      7.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括: 計算節(jié)點記錄本計算節(jié)點的計數(shù)矩陣的增量,周期性地將該計數(shù)矩陣的每一行與該行對應的參數(shù)服務器進行同步,其中,所述參數(shù)服務器是分布式服務器,該計數(shù)矩陣的不同行存儲在不同的節(jié)點上。
      8.根據(jù)權利要求7所述的方法,其特征在于,所述計算節(jié)點記錄本計算節(jié)點的計數(shù)矩陣的增量,周期性地將該計數(shù)矩陣的每一行與這一行對應的參數(shù)服務器進行同步,具體包括: 按照所述行的編號計算存儲器的參數(shù)服務器,將該行在本計算節(jié)點上的增量發(fā)送到參數(shù)服務器; 參數(shù)服務器根據(jù)發(fā)來的增量更新參數(shù)服務器中的計數(shù)矩陣,將參數(shù)服務器上對應的行與計算節(jié)點上的所述行的差發(fā)送回所述計算節(jié)點; 計算節(jié)點根據(jù)接收到的差 值更新本計算節(jié)點上的該行。
      【文檔編號】G06F17/30GK103810282SQ201410056958
      【公開日】2014年5月21日 申請日期:2014年2月19日 優(yōu)先權日:2014年2月19日
      【發(fā)明者】朱軍, 陳鍵飛, 王紫, 張鈸 申請人:清華大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1