本公開涉及數(shù)據(jù)挖掘技術(shù),更特別地涉及一種用于因果關(guān)系挖掘的方法和設(shè)備。
背景技術(shù):
數(shù)據(jù)挖掘一般是指從大量數(shù)據(jù)中搜索隱藏于其中信息的過程。通常,使用數(shù)據(jù)監(jiān)測設(shè)備來收集大量的時間序列數(shù)據(jù),如天氣監(jiān)測數(shù)據(jù),股票數(shù)據(jù)和生物數(shù)據(jù)等。這些數(shù)據(jù)的一個重要用途就是用于發(fā)現(xiàn)數(shù)據(jù)屬性之間的因果關(guān)系,尤其是動態(tài)因果關(guān)系。這些因果關(guān)系能夠幫助人們理解事物的演變過程。從這些數(shù)據(jù)中發(fā)現(xiàn)因果關(guān)系的過程稱之以為“因果關(guān)系挖掘”。準(zhǔn)確的因果關(guān)系能夠有效地幫助提高預(yù)測的精度,因而因果關(guān)系在各個領(lǐng)域得到了廣泛的應(yīng)用。
目前,Granger(格蘭杰)因果關(guān)系是較為常用的一種因果關(guān)系挖掘方法。然而Granger因果關(guān)系是一種靜態(tài)方法,而在時間序列中的因果關(guān)系通常是動態(tài)的,即隨著時間而改變。此外,在目前的Granger因果關(guān)系研究中,Granger因果模型中的一個重要參數(shù),即滯后時間(Lag)通常是根據(jù)經(jīng)驗知識提前設(shè)置的。這種人為設(shè)置的參數(shù)通常并不能確保能夠獲得準(zhǔn)確的參數(shù),而這會影響因果關(guān)系的準(zhǔn)確性。
Daniel Hern’Andes-Lobato在機器學(xué)習(xí)研究“Machine Learning Research”中提出了一種線性回歸問題中的分組特征選擇的貝葉斯方法(2013,14(1),1891-1945)。該方法是基于通常用于單獨特征選擇的標(biāo)準(zhǔn)spike-and-slab先驗分布的通用形式。在所考慮的先驗條件下的準(zhǔn)確貝葉斯推理對于典型的回歸問題是不可能的,但是基于期望傳播(EP)可以有效地執(zhí)行近似推理。在該文章中,具體公開 了一下方案,其中在對訓(xùn)練數(shù)據(jù)執(zhí)行歸一化處理之后,針對給定的所有影響因素X和目標(biāo)數(shù)據(jù)Y執(zhí)行訓(xùn)練,然而按照經(jīng)驗圈定特征X的向量選取范圍,其中系數(shù)即關(guān)聯(lián)權(quán)重的似然函數(shù)是高斯形式;接著,將系數(shù)w分成G個不相交的組,并建立分組spike-and-slab模型;隨后利用EP算法來推導(dǎo)模型參數(shù),并最終輸出影響因素和目標(biāo)數(shù)據(jù)之間的關(guān)聯(lián)權(quán)重。然而,該方法同樣是一種靜態(tài)方法,僅僅能夠獲取目標(biāo)數(shù)據(jù)與影響因素之間的關(guān)聯(lián)權(quán)重。
在美國專利公開US20130254080A1中公開了一種用于稅收的動態(tài)因果關(guān)系挖掘,其中提出了一種動態(tài)因果關(guān)系挖掘的方法,其中在對時間序列執(zhí)行歸一化處理之后,通過計算其它因素與稅收的互相關(guān)函數(shù),而挑選出與稅收相關(guān)的一些因素(時間序列),在建立模型之前確定各個時間序列的延遲,最后基于自回歸積分滑動平均模型(ARIMA)模型,來建立動態(tài)的因果關(guān)聯(lián)模型。盡管該方法從某種意義上可以被稱之為一種動態(tài)的因果關(guān)系挖掘,但是延遲參數(shù)等仍然是預(yù)先確定的。
為此,在現(xiàn)有技術(shù)中存在針對改進(jìn)的因果關(guān)系挖掘的方案的需要。
技術(shù)實現(xiàn)要素:
有鑒于此,本公開公開了一種用于構(gòu)建神經(jīng)網(wǎng)絡(luò)的方法和設(shè)備,其至少部分上消除或者緩解了上述問題。
根據(jù)本公開的第一方面,提供了一種用于因果關(guān)系挖掘的方法。該方法可以包括:基于切分點將目標(biāo)數(shù)據(jù)及其影響因素的時間序列劃分為多個時間分段;以及學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù),其中所述劃分和所述學(xué)習(xí)迭代地執(zhí)行,以得到優(yōu)化時間分段和各個優(yōu)化時間分段中的因果關(guān)系和延遲參數(shù),其中在迭代中所使用的切分點基于先前迭代中的各個時間分段中的延遲參數(shù)來更新。
在根據(jù)本公開的第一方面的實施方式中,學(xué)習(xí)所述多個時間分 段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)可以包括:采樣所述各個時間分段的延遲參數(shù),所述延遲參數(shù)包括延遲最小值以及延遲長度,其中基于所述延遲最小值和所述延遲長度確定所述影響因素的向量選取范圍;基于所述延遲最小值和所述延遲長度建立分組spike-and-slab模型;以及利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)。
在根據(jù)本公開的第一方面的另一實施方式中,利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)可以包括:基于所述可逆跳變馬爾科夫鏈蒙特卡洛采樣來更新所述切分點;以及基于所述期望傳播來推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)。
在根據(jù)本公開的第一方面的另一實施方式中,更新所述切分點和推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)可以基于隨機采樣的第一概率的大小選擇性地執(zhí)行。
在根據(jù)本公開的第一方面的另一實施方式中,所述切分點的更新動作可以包括新增、刪除以及移動其中一個。
在根據(jù)本公開的第一方面的另一實施方式中,基于可逆跳變馬爾科夫鏈蒙特卡洛采樣來更新所述切分點可以包括:響應(yīng)于所述隨機采樣的第一概率滿足切分點的特定更新動作的條件,執(zhí)行所述特定更新動;基于根據(jù)所述最近推導(dǎo)的各個時間分段中的延遲參數(shù)而確定的模型參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合分布,確定所述特定更新動作的接受概率;以及響應(yīng)于隨機采樣的第二概率小于所述特定更新動作的接受概率,接受所述特定更新動作。
在根據(jù)本公開的第一方面的另一實施方式中,在學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)時,可以至少還基于所述多個時間分段中除待學(xué)習(xí)時間分段之外的其他時間分段來執(zhí)行對待學(xué)習(xí)時間分段的訓(xùn)練。
在根據(jù)本公開的第一方面的另一實施方式中,可以針對所述待學(xué)習(xí)時間分段和所述其它時間分段分配相應(yīng)的分段權(quán)重,其中距離 所述待學(xué)習(xí)時間分段較近的時間分段可以比距離所述待學(xué)習(xí)時間分段較遠(yuǎn)的時間分段具有更大的分段權(quán)重。
在根據(jù)本公開的第一方面的另一實施方式中,所述其他時間分段可以是所述多個時間分段中除所述待學(xué)習(xí)時間分段之外的所有其他時間分段。
在根據(jù)本公開的第一方面的另一實施方式中,所述分段權(quán)重可以基于核函數(shù)來確定。
在根據(jù)本公開的第一方面的另一實施方式中,初始的切分點的數(shù)目可以是基于截斷的泊松分布而選擇的,并且其中切分點位置不重疊且所述切分點位置的選擇概率為均勻分布。
在根據(jù)本公開的第一方面的另一實施方式中,可以基于以下其中任何一個來確定已經(jīng)搜到索優(yōu)化時間分段:多次迭代的分段劃分更新情況;以及潛在規(guī)??s減因子。
根據(jù)本公開的第二方面,提供了一種用于因果關(guān)系挖掘的裝置。所述裝置可以包括:切分點劃分模塊,被配置為基于切分點將目標(biāo)數(shù)據(jù)及其影響因素的時間序列劃分為多個時間分段;以及關(guān)系和參數(shù)學(xué)習(xí)模塊,被配置為學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)。所述切分點劃分模塊和所述關(guān)系和參數(shù)學(xué)習(xí)模塊迭代地執(zhí)行操作,以得到優(yōu)化時間分段和各個優(yōu)化時間分段中的因果關(guān)系和延遲參數(shù),其中在迭代中所使用的切分點基于先前迭代中的各個時間分段中的延遲參數(shù)來更新。
根據(jù)本公開的第三方面,提供了一種計算程序產(chǎn)品,其上包括有計算機程序代碼,當(dāng)被加載到計算機設(shè)備中時,其可以使得該計算機設(shè)備執(zhí)行根據(jù)本公開的第一方面的方法。
根據(jù)本公開的第四方面,還提供一種用于因果關(guān)系挖掘的設(shè)備,所述設(shè)備包括存儲器,和處理器,所述處理器可以被配置為執(zhí)行根據(jù)本公開的第一方面的方法。
根據(jù)本公開,通過迭代地執(zhí)行時間序列劃分和各個時間分段的因果關(guān)系和延遲參數(shù)學(xué)習(xí)的步驟,可以得到優(yōu)化時間分段及其相關(guān) 的因果關(guān)系和延遲參數(shù)。利用該方法,可以同時學(xué)習(xí)動態(tài)因果關(guān)系以及延遲參數(shù)兩者,這將顯著提高因果關(guān)系和延遲參數(shù)的準(zhǔn)確性。
附圖說明
通過對結(jié)合附圖所示出的實施方式進(jìn)行詳細(xì)說明,本公開的上述以及其他特征將更加明顯,本公開的附圖中相同的標(biāo)號表示相同或相似的部件。在附圖中:
圖1示意性地示出了根據(jù)本公開的一種實施方式的用于因果關(guān)系挖掘的方法的流程圖;
圖2示意性地示出了根據(jù)本公開的一個實施方式的用于學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)的示例性方法的流程圖;
圖3A示意性地示出了根據(jù)本公開的一個實施方式的時間序列劃分的示意圖;
圖3B示意性地示出了根據(jù)本公開的一個實施方式的分段權(quán)重分配的示意圖;
圖3C示意性地示出了根據(jù)本公開的一個實施方式的基于延遲參數(shù)確定的時間區(qū)間的示意圖;
圖3D示意性地示出了根據(jù)本公開的一個實施方式的變量z的分配的示意圖;
圖3E示意性地示出了根據(jù)本公開的一個實施方式的優(yōu)化時間分段以及相應(yīng)的因果關(guān)系和延遲參數(shù)的示意圖;
圖4示意性地示出了根據(jù)本公開的一個實施方式的用于因果關(guān)系挖掘的裝置的方框圖。
具體實施方式
在下文中,將參考附圖詳細(xì)描述本公開的各個示例性實施方式。應(yīng)當(dāng)注意,這些附圖和描述涉及的僅僅是作為示例的優(yōu)選實施方式??梢詰?yīng)該指出的是,根據(jù)隨后的描述,很容易設(shè)想出此處公開的結(jié) 構(gòu)和方法的替換實施方式,并且可以在不脫離本公開要求保護的公開的原理的情況下使用這些替代實施方式。
應(yīng)當(dāng)理解,給出這些示例性實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實現(xiàn)本公開,而并非以任何方式限制本公開的范圍。此外在附圖中,出于說明的目的,將可選的步驟、模塊、單元等以虛線框示出。
在此使用的術(shù)語“包括”、“包含”及類似術(shù)語應(yīng)該被理解為是開放性的術(shù)語,即“包括/包含但不限于”。術(shù)語“基于”是“至少部分地基于”。術(shù)語“一個實施例”表示“至少一個實施例”;術(shù)語“另一實施例”表示“至少一個另外的實施例”。其他術(shù)語的相關(guān)定義將在下文描述中給出。
針對背景技術(shù)中提出的問題,在本發(fā)明中提出一種新的技術(shù)方案,依據(jù)該方案將建立一個概率模型,并且在其中引入延遲參數(shù),即最小延遲值以及延遲長度,并賦予他們適當(dāng)?shù)南闰?。此外,還將結(jié)合分組spike-and-slab模型來同時學(xué)習(xí)所述因果關(guān)系和延遲參數(shù)兩者。在下文中,將參考附圖對根據(jù)本公開的實施方式的用于因果關(guān)系挖掘的方法和裝置進(jìn)行描述。
圖1示意性地示出了根據(jù)本公開的一個實施方式的用于因果關(guān)系挖掘的方法的流程圖。如圖1所示,首先在步驟S101,基于切分點將目標(biāo)數(shù)據(jù)及其影響因素的時間序列劃分為多個時間分段。在下文中,給定目標(biāo)數(shù)據(jù)的時間序列表示為Y和影響因素的時間序列表示為X,其中時間序列的長度為N。
所述目標(biāo)數(shù)據(jù)及其影響因素的時間序列是由數(shù)據(jù)監(jiān)測設(shè)備采集的一系列數(shù)據(jù),例如可以為氣象數(shù)據(jù)、空氣質(zhì)量數(shù)據(jù)、交通數(shù)據(jù)、人口密度數(shù)據(jù)、污染源數(shù)據(jù)等的時間序列。對于采集得到的數(shù)據(jù),首先進(jìn)行預(yù)處理。這是因為不同時間序列數(shù)據(jù)通常具有不同的尺度,采集間隔等,而通過預(yù)處理,則可以將其歸一化為具有相同時間尺度的數(shù)據(jù)序列。這樣,就可以對他們執(zhí)行諸如比較等操作。在下面,出于說明的目的,示出了針對影響因素執(zhí)行歸一化處理的示例性式 子:
式子1
其中xt指示一個影響因素的時間序列中的t時刻的數(shù)據(jù)值;xtnormaliztion指示在經(jīng)過歸一化后的t時刻的數(shù)據(jù)值,xmax指示該時間序列中x的最大值;xmin指示該時間序列中x的最小值。
對于經(jīng)過預(yù)處理后的時間序列以及目標(biāo)數(shù)據(jù)序列,可以基于切分點將其劃分為多個時間分段。用于切分時間序列的切分點的數(shù)目是一個變量k。k服從一個截斷的泊松分布。由于時間序列長度為N,那么k的最大值kmax=N-1。變量k的選擇概率分布如下:
式子2
其中k是前面所述的切分點的數(shù)目;kmax是前述的切分點的數(shù)目k的最大值;參數(shù)λ取自一個伽馬分布,即λ~Ga(a,b),其中的形狀參數(shù)a和尺度參數(shù)b應(yīng)該被選擇為使得在切分點個數(shù)增加時,先驗概率值下降。形狀參數(shù)a和尺度參數(shù)b的選擇可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況適當(dāng)選擇,因此此處不再贅述。在切分點數(shù)目k被選定的情況下,k個切分點的位置是不重疊的,并且切分點位置的選擇概率在整個時間序列中呈均勻分布,這可以通過以下式子來表述:
式子3
其中ξ表示切分點的位置向量,k是前面所述的切分點的數(shù)目,N為時間序列的長度。
這樣,初始切分點的數(shù)目k可以基于截斷的泊松分布而選擇。并且,可以按照均勻分布的概率在時間序列中選擇k個切分點的位置。此后,可以基于這k個切分點對目標(biāo)數(shù)據(jù)及其影響因素的時間序列 進(jìn)行劃分,從而得到k+1個時間分段。
接下來,在步驟S102,學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)。
在下文中,僅僅出于示例性的目的,將參考圖2來描述用于學(xué)習(xí)各個時間分段的因果關(guān)系以及延遲參數(shù)的示例實施方式。然而,需要說明的是,本公開并不局限于此,本發(fā)明還可以采用任何其他的方式來同時學(xué)習(xí)因果關(guān)系以及延遲參數(shù)。
如圖2所示,首先在步驟S201中,采樣所述各個時間分段的延遲最小值以及延遲長度,其中基于所述延遲最小值和所述延遲長度確定所述影響因素的向量選取范圍。
在本公開中,延遲參數(shù)將作為一個變量,而不是一個憑經(jīng)驗而確定的參數(shù)。該延遲參數(shù)例如可以用于變量Lagmin和L表示,其中Lagmin指示延遲最小值,且Lagmin(i)指示與第i個時間分段所對應(yīng)的延遲最小值;向量L是影響持續(xù)時間,其中L(i)指示與第i個時間分段所對應(yīng)的影響持續(xù)時間。為了縮小這兩個變量的搜索空間,給定了一個搜索范圍[1,T]。變量Lagmin和L的分布情況可以通過下面的式子表示:
Lagmin(i)~uniform(1,T) 式子4
L(i)~uniform(1,T-Lagmin(i)) 式子5其中式子4表示Lagmin的采樣概率在1至T上服從合均勻分布,L(i)的采樣概率在1至T-Lagmin(i)上服從均勻分布。基于上述分布而隨機采樣以得最小延遲Lagmin和影響持續(xù)時間L,并可以基于確定的延遲參數(shù)來重新組織X,組織后的X的樣本形式如下:
式子6其中Lagmin(s)指示第s個時間分段的延遲最小值。
接著,在步驟S202,基于所述延遲最小值和所述延遲長度建立分組spike-and-slab模型。特別地,對于X的關(guān)聯(lián)權(quán)重β,也稱系數(shù)β,使其服從“spike-and-slab”的先驗,這對于本領(lǐng)域技術(shù)人員是已知,因此此處不再贅述。進(jìn)一步地,對于第j個時間分段的系數(shù)向量β, 引入二項式變量z=[z1,…,zp],p是X的維度,即因變量的特征維度。每一時間序列Xi上的所有系數(shù)β作為一個整體由zi來控制,其中zi的取值為0或1,用于決定對應(yīng)的系數(shù)β是否不起作用,即其是否為0。這可以通過下面的式子來表示:
式子7其中n=p×L,g(i)表示第i個系數(shù)βi所在的時間序列X的標(biāo)號。δ(βi)是一個中心為0的狄拉克delta函數(shù)。此外,變量z服從伯努利分布,其可以表述如下:
式子8
對于第j個時間分段,可以建立如下模型:
式子9
其中Y服從高斯分布。
在學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)時,可以基于待學(xué)習(xí)時間分段來執(zhí)行對待學(xué)習(xí)時間分段的訓(xùn)練。然而,可能存在單個分段數(shù)據(jù)量較小的情況,在這種情況下,為了防止樣本稀缺現(xiàn)象的發(fā)生,還可以至少還基于除待學(xué)習(xí)時間分段之外的其他時間分段來執(zhí)行對待學(xué)習(xí)時間分段的訓(xùn)練。所述其他時間分段可以是所述多個時間分段中距離所述待學(xué)習(xí)時間分段較近的多個時間分段,并且更加優(yōu)選地,可以是所述多個時間分段中除所述待學(xué)習(xí)時間分段之外的所有其他時間分段。
在還基于其他時間分段來執(zhí)行訓(xùn)練的情況下,可以針對所述待學(xué)習(xí)時間分段和所述其它時間分段分配相應(yīng)的分段權(quán)重w。分段權(quán)重w的大小可以由該時間分段距離待學(xué)習(xí)時間分段的遠(yuǎn)近來決定。例如,距離所述待學(xué)習(xí)時間分段較近的時間分段可以比距離所述待學(xué)習(xí)時間分段較遠(yuǎn)的時間分段具有更大的分段權(quán)重w。這是因為,通常時間序列數(shù)據(jù)是隨時間而變化的數(shù)據(jù),因而對于一個特定時間分段而言,距離該特定時間分段越近的時間分段將會與該特定時間 分段具有更大的關(guān)聯(lián)性。在一個具體實施方式中,可以在學(xué)習(xí)第j個時間分段的因果關(guān)系和延遲參數(shù)時,以第j段時間分段為目標(biāo)分段,并計算其它各個分段距該第j段的距離。例如,可以用兩個時間分段的中心點之間的距離作為兩個時間分段的距離。例如,權(quán)重w的大小可以例如基于一個核函數(shù)來計算。出于示出的目的,在下面的式子中示出了用于wi的計算是示例:
式子10
其中k是前面所述的切分點的個數(shù);tci指示第i個時間分段的中心,tcj指示第j個時間分段的中心,以及Kh(t)指示核函數(shù),該核函數(shù)可以表述如下:
式子11
其中h指示核函數(shù)的寬度參數(shù),可通過交叉驗證的方法確定取值。
因此,對于第j個時間分段,在求它的因果關(guān)聯(lián)關(guān)系時,所使用數(shù)據(jù)樣本可以是針對將使用的時間分段進(jìn)行加權(quán)求和而得到的數(shù)據(jù),即根據(jù)權(quán)重使用所有時間序列數(shù)據(jù)作為樣本。
進(jìn)一步地,為了推斷整個模型中的參數(shù)β,L,Lagmin,在本公開中提議使用可逆跳變馬爾科夫鏈蒙特卡洛采樣(RJMCMC)與期望傳播算法(EP)相結(jié)合的方法。換句話說,利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)。
在一個實施方式中,利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)包括基于所述可逆跳變馬爾科夫鏈蒙特卡洛采樣來更新所述切分點和基于所述期望傳播來推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)??梢栽诿看蔚型瑫r執(zhí)行切分點的更新和關(guān)系和參數(shù)的推導(dǎo)。兩者然而, 在另一實施方式中,為了減小數(shù)據(jù)計算量和減低計算時間,可以基于隨機采樣的第一概率μ的大小選擇性地執(zhí)行更新所述切分點和推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)的操作其中之一。以這種方式,每次迭代中可以僅僅執(zhí)行其中一個操作,而且在總體上考慮依然可以有效地找到優(yōu)化的時間分段,且所需要的時間和計算量將顯著降低。
特別地,對于可逆跳變馬爾科夫鏈蒙特卡洛采樣,為了遍歷未知維度的參數(shù)空間,可以使用例如四種不同更新動作。這四種更新動作例如包括:3個切換點更新動作,即新增切換點(B),刪除切換點(D)和移動切換點(Sh);以及更新歸回模型(R)。而這些更新動作的概率可以例如分別被設(shè)定為:針對新增切換點的概率為bk,針對刪除切換點的概率為dk,針對移動切換點的概率為shk,以及更新歸回模型的概率設(shè)置為rk。概率值bk、dk,shk和rk的設(shè)置依賴于當(dāng)前切分點k的數(shù)目,且滿足bk、dk,shk和rk之和為1,即bk+dk+shk+rk=1。
而這些更新動作的接受概率將基于參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合分布來確定。參數(shù)空間的聯(lián)合分布能夠表示模型的似然性的參數(shù),在此處被用來確定更新動作的接受概率。參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合可以根據(jù)所述當(dāng)前迭代中的各個時間分段中的延遲參數(shù)來估計。
在上面示出的示例中,需要估計的參數(shù)空間例如可以表示為Θ=(k,ξ,Lmin,Lmaβ,x,z)°相應(yīng)地,該參數(shù)空間其聯(lián)合分布可以表示為:p(Θ|X,y,λ)∝p(k|λ)p(ξ|k)p(β|z)p(z)p(Lmin)p(y|X,β,σ,Lmin,Lmax)p(Lmax|Lmin)式子12
由于切分點更新動作(例如切分點的增加、刪除和移動)并不會影響到系數(shù)β,所以,我們將聯(lián)合分布對系數(shù)β進(jìn)行積分,從而在上述的聯(lián)合分布中消掉系數(shù)β,進(jìn)而得到如下形式的聯(lián)合分布:
式子13因此,根據(jù)所述最近導(dǎo)出的各個時間分段中的延遲參數(shù),以及X,y,k等值,即確定出參數(shù)空間的更新前聯(lián)合分布??梢杂肞joint表示切分點集合更新之前的聯(lián)合分布,
在確定更新后聯(lián)合分布時,可能要使用的更新后的新分段的延遲參數(shù)。更新后的新分段的延遲參數(shù)例如可以通過基于相關(guān)的更新前分段的延遲參數(shù)進(jìn)行推導(dǎo)的方式來確定。例如,對于新增切分點的情況,相關(guān)的更新前分段例如可以是被切分點切分的原時間分段及其前面和后面的時間分段,;對于刪除,相關(guān)的更新前分段可以是刪除切分點前的兩個時間分段;對于切換點移動,相關(guān)的更新前分段可以是未移動前切換點兩側(cè)的時間分段。推導(dǎo)操作例如可以基于平均值,加權(quán)平均值等來執(zhí)行。此外,也有可能通過隨機采樣來確定適用于新的分段的延遲參數(shù)。可以用表示切分點集合更新之后模型參數(shù)空間的聯(lián)合分布。
然而需要說明的是,盡管在上文中描述了通過對系數(shù)β進(jìn)行積分來消除系數(shù)β的實施方式。然而,對系數(shù)β進(jìn)行積分并非是必須的,這僅僅是處于簡化操作的目的。本發(fā)明并不僅限于此,而是完全可以基于式子12來計算。
特別地,更新所述切分點可以包括響應(yīng)于隨機采樣的第一概率μ滿足切分點的特定更新動作(諸如增加、刪除和移動)的條件,執(zhí)行所述特定更新動作。然后,基于根據(jù)所述當(dāng)前迭代中的各個時間分段中的延遲參數(shù)而確定的模型參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合分布,確定所述特定更新動作的接受概率。接著,響應(yīng)于隨 機采樣的第二概率μ’小于所述特定更新動作的接受概率,接受所述特定更新動作。這意味著如果第二概率μ’不滿足上述條件,該更新動作將不會被接受。在下文中,出于說明的目的,將描述利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)的具體示例。
首先,初始化所有參數(shù),并在[0,1]中隨機采樣一個概率μ,即前面所述的第一概率。然后確定μ是否在0和bk之間,即是否存在0<μ<bk。如果是,則通過采樣而隨機增加一個新切分點ξ*|ξ~u{3,...N,}ξ\{,}并且例如基于上面的式子13來計算對應(yīng)的更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布然而后可以基于更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布來計算新增切分點這一更新動作的接受概率。接受概率的計算例如可以依據(jù)下面的式子來進(jìn)行:
式子14其中r指代接受概率,Pjoint指代參數(shù)空間的更新前聯(lián)合分布,指代參數(shù)空間的更新后聯(lián)合分布;N指代時間序列的長度,k指代切分點數(shù)目,p指代因變量X的維度;c指代與目標(biāo)變量相關(guān)的特征變量的維度,即學(xué)習(xí)所得到的影響目標(biāo)變量的影響因素的數(shù)目。然后,再次在[0,1]中隨機采樣一個概率μ’,即第二概率。如果μ′<r,則接受新增切分點這一動作,反之則拒絕該新增動作。
如果μ在bk和bk+dk之間,即μ滿足bk<μ<bk+dk,則隨機地刪除一個切分點ξ*∈ξ,并將該切分點關(guān)聯(lián)的兩個時間分段合并成一個時間分段。與新增更新操作類似,可以基于上面的式子13來計算對應(yīng)的更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布并基于更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布計算刪除切分點這一更新動作的接受概率。接受概率的計算例如可以依據(jù)下面的式子來進(jìn)行:
式子15其中r指代接受概率,Pjoint指代參數(shù)空間的更新前聯(lián)合分布,指代參數(shù)空間的更新后聯(lián)合分布;N指代時間序列的長度,k指代切分點數(shù)目,p指代因變量X的維度;c指代與目標(biāo)變量相關(guān)的特征變量的維度,即學(xué)習(xí)所得到的影響目標(biāo)變量的影響因素的數(shù)目。然后,與新增更新操作類似,再次在[0,1]中隨機采樣一個概率μ’,即第二概率。如果μ′<r,接受刪除切分點,否則拒絕該刪除動作。
此外,如果μ在bk+dk與bk+dk+shk之間,即μ滿足bk+dk<μ<bk+dk+shk,則隨機地采樣一個新的切分點ξ*|ξ~u{3,...N,}ξ\{,}并將其與已有的一個切分點替換。接著,與前述新增和刪除切分點操作類似,可以基于上面的式子13來計算對應(yīng)的更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布并基于更新前聯(lián)合分布Pjoint和更新后聯(lián)合分布計算移動切分點這一更新動作的接受概率。接受概率的計算例如可以依據(jù)下面的式子來進(jìn)行:
式子16其中r指代接受概率,Pjoint指代參數(shù)空間的更新前聯(lián)合分布,指代參數(shù)空間的更新后聯(lián)合分布。然后,與新增和刪除更新操作類似,再次在[0,1]中隨機采樣一個概率μ’,及第二概率。如果μ′<r,則接受移動切分點的操作,否則拒絕該移動操作。
另一方面,如果μ均不滿足上述條件,而是在bk+dk+shk與1之間,則不執(zhí)行切分點更新操作,而是使用EP算法更新關(guān)聯(lián)關(guān)系的參數(shù)β,L,Lagmin和z。EP算法對于本領(lǐng)域技術(shù)人員是熟知的,而且根據(jù)此處的描述本領(lǐng)域技術(shù)人員完全可以知道如何針對每個時間分段推導(dǎo)出上述參數(shù)。因此此處為了簡化起見,不再對其進(jìn)行詳細(xì)說明。
上述的方法將迭代地執(zhí)行。在更新了切分點的情況下,將在下一次迭代中基于新的切分點再次執(zhí)行操作,在沒有更新切分點而是 執(zhí)行了基于EP的參數(shù)更新的情況下,在下一次迭代中將基于上次的劃分再次對延遲參數(shù)進(jìn)行采樣,并再次執(zhí)行操作。這樣的操作反復(fù)執(zhí)行直至迭代收斂。此處,判斷迭代收斂可以采用任何適當(dāng)?shù)姆绞?,例如可以基于多次迭代的分段劃分更新情況來確定。如果經(jīng)過預(yù)定次數(shù)的迭,代分段劃分幾乎沒有任何更新,則認(rèn)為迭代已經(jīng)收斂。或者可以基于潛在規(guī)??s減因子PSRF,如果該PSRF小于1.1,則確定迭代收斂,已經(jīng)搜索到優(yōu)化時間分段和對應(yīng)的因果關(guān)系和延遲參數(shù)。
出于說明的目的,將在下文參考圖3A至圖3E的示例來示意性描述根據(jù)本公開的一個實施方式的因果關(guān)系挖掘。需要注意的是,在下面的描述中,將參考諸如PM2.5預(yù)測對本公開的實施方式進(jìn)行描述。然而,需要說明的是,本公開并不僅限于此,而是也可以用于任何其他需要的場合,諸如氣象預(yù)測、其他空氣質(zhì)量預(yù)測、交通情況預(yù)測、污染情況預(yù)測等。
參考圖3A,圖3A示出了根據(jù)公開的一個實施方式的時間序列劃分的示意圖。具體地,在圖3A中示出了目標(biāo)數(shù)據(jù)PM2.5及其影響因素CO,SO2和NO2的時間序列,其中目標(biāo)數(shù)據(jù)PM2.5的時間序列以實心圓點表示,影響因素CO的時間序列以空心圓點表示,影響因素SO2的時間序列以利用點填充的圓點表示,影響因素NO2的時間序列以利用線條填充的圓點表示。其中k初始的被選擇為3,且選擇了如圖3A所示的三個切分點。因此,目標(biāo)數(shù)據(jù)PM2.5及其影響因素CO,SO2和NO2的時間序列被劃分為4個時間分段,其中第一時間分段包括6個數(shù)據(jù)點,第二時間分段包括5個數(shù)據(jù)點,第三個時間分段包括4個數(shù)據(jù)點,第四個時間分段包括5個數(shù)據(jù)點。
接著,將利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)。僅處于說明的目的,在下面將以第一個時間分段為例進(jìn)行描述。
首先可以為各個時間分段分配分段權(quán)重。此處由于各個時間分段的數(shù)據(jù)點數(shù)量較少,因此在訓(xùn)練各個時間分段時,將使用所有的 時間分段。圖3B中示出了在訓(xùn)練第一時間分段時的分段權(quán)重的分配情況。如圖3B所示,第一時間分段的分段權(quán)重w1最大,距離第一時間分段最近的第二時間分段的分段權(quán)重w2小于w1,距離第一時間分段較遠(yuǎn)的第三時間分段的分段權(quán)重w3小于w2,距離第一時間分段最遠(yuǎn)的第四時間分段的分段權(quán)重w4最小。特別地,分配權(quán)重w1、w2、w3和w4的值例如可以基于上面描述的式子10來計算。
接著,采用針對第一時間分段的延遲最小值Lagmin和延遲長度L。此處給出的搜索空間為T=5。最小值Lagmin和延遲長度L的分度例如符合基于上面給出的式子4和式子5。通過基于上述分布進(jìn)行采樣,可以得到Lagmin和L,例如分別是1和3。在已知這兩個參數(shù)的條件下,可以基于采樣得到的Lagmin和L可以將影響因素X的形式重新組織為Xt=[Xt-1,...,Xt-3]。這樣,可以得到如下的式子:
其中Xt=[Xt-1,...,Xt-3]。
然后,把每一個特征(CO,SO2,NO2)上通過Lagmin和L確定的時間區(qū)間看作一個群組,如圖3C中的包圍CO,SO2,NO2的數(shù)據(jù)的方框所示。接著,可以為該群組賦予一個二項變量z,其中針對CO,SO2,NO2的影響區(qū)間分別分配了z1,z2和z3,如圖3D所示。這些z變量均服從式子8所示的伯努利分布。這樣就可以得到式子9。
然后通過上文中給出的可逆跳變馬爾科夫鏈蒙特卡洛采樣(RJMCMC)來更新切換點,或者基于期望傳播算法(EP)推導(dǎo)對應(yīng)的因果關(guān)系或者延遲參數(shù)。通過多次迭代,在迭代收斂時可以得到優(yōu)化時間分段劃分和對應(yīng)的因果關(guān)系和延遲參數(shù)。出于說明的目的,在圖3E中示例性地示出了優(yōu)化時間分段及其對應(yīng)的關(guān)聯(lián)關(guān)系和延遲參數(shù),其中箭頭表示兩者之間具有因果管理關(guān)系,未示出的系數(shù)β將指示關(guān)聯(lián)權(quán)重,延遲參數(shù)Lagmin和L以[Lagmin,L]在圖3E中進(jìn)行標(biāo)識。
在本公開中還提供了一種用于因果關(guān)系挖掘的裝置。在下文中 將參考圖4來對該裝置進(jìn)行詳細(xì)地描述。
圖4示出了根據(jù)本發(fā)明的一個實施方式的用于因果關(guān)系挖掘的裝置的方框圖。該裝置400包括切分點劃分模塊410以及關(guān)系和參數(shù)學(xué)習(xí)模塊420。所示切分點劃分模塊410可以被配置為基于切分點將目標(biāo)數(shù)據(jù)及其影響因素的時間序列劃分為多個時間分段。關(guān)系和參數(shù)學(xué)習(xí)模塊420可以被配置為學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)。其中所述切分點劃分模塊和所述關(guān)系和參數(shù)學(xué)習(xí)模塊迭代地執(zhí)行操作,以得到優(yōu)化時間分段和各個優(yōu)化時間分段中的因果關(guān)系和延遲參數(shù),其中在迭代中所使用的切分點基于先前迭代中的各個時間分段中的延遲參數(shù)來更新。
用于初始劃分時間序列的切分點的數(shù)目是基于截斷的泊松分布而選擇的,并且其中切分點位置不重疊且所述切分點位置的選擇概率在時間序列中均勻分布。其中,確定是否迭代已經(jīng)收斂,即確定是否已經(jīng)搜到索優(yōu)化時間分段可以基于任何適當(dāng)?shù)姆绞絹韴?zhí)行。例如可以基于多次迭代的分段劃分更新情況來確定,或者基于潛在規(guī)??s減因子來確定。
所述關(guān)系和參數(shù)學(xué)習(xí)模塊420例如可以包括延遲參數(shù)采集模塊422、模型構(gòu)建模塊424和關(guān)系和參數(shù)推導(dǎo)模塊426。延遲參數(shù)采集模塊422可以被配置為采樣所述各個時間分段的延遲參數(shù),所述延遲參數(shù)包括延遲最小值以及延遲長度。所述影響因素的向量選取范圍將基于所述延遲最小值和所述延遲長度確定。模型構(gòu)建模塊424可以被配置為基于所述延遲最小值和所述延遲長度建立分組spike-and-slab模型。關(guān)系和參數(shù)推導(dǎo)模塊426可以被配置為利用可逆跳變馬爾科夫鏈蒙特卡洛采樣結(jié)合期望傳播來推導(dǎo)所述各個時間分段的因果關(guān)系和延遲參數(shù)。
所示關(guān)系和參數(shù)推導(dǎo)模塊426例如可以被進(jìn)一步配置為基于所述可逆跳變馬爾科夫鏈蒙特卡洛采樣來更新所述切分點,以及基于所述期望傳播來推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)??梢栽诿看蔚型瑫r執(zhí)行前述更新所述切分點和推導(dǎo)各個時間分段的因 果關(guān)系和延遲參數(shù),然而為了減小計算量,節(jié)約計算時間,優(yōu)選地基于隨機采樣的第一概率的大小選擇性地執(zhí)行更新所述切分點和推導(dǎo)各個時間分段的因果關(guān)系和延遲參數(shù)。所述切分點的更新動作例如可以包括新增、刪除以及移動其中一個。
在一個實例中,基于可逆跳變馬爾科夫鏈蒙特卡洛采樣來更新所述切分點包括:響應(yīng)于所述隨機采樣的第一概率滿足切分點的特定更新動作的條件,執(zhí)行所述特定更新動作;確定所述特定更新動作的接受概率;以及響應(yīng)于隨機采樣的第二概率小于所述特定更新動作的接受概率,接受所述特定更新動作。特別地,所述特定更新動作的接受概率可以基于模型參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合分布來確定。而模型參數(shù)空間的更新前聯(lián)合分布和更新后聯(lián)合分布可以根據(jù)最近推導(dǎo)的各個時間分段中的延遲參數(shù)而確定。
在學(xué)習(xí)所述多個時間分段中的各個時間分段中的因果關(guān)系以及延遲參數(shù)時,所述關(guān)系和參數(shù)學(xué)習(xí)模塊可以被配置為除了待學(xué)習(xí)時間分段之外,至少還基于所述多個時間分段中的其他時間分段來執(zhí)行對待學(xué)習(xí)時間分段的訓(xùn)練。在這種情況下,所述關(guān)系和參數(shù)學(xué)習(xí)模塊可以被配置為針對所述待學(xué)習(xí)時間分段和所述其它時間分段分配相應(yīng)的分段權(quán)重,其中距離所述待學(xué)習(xí)時間分段較近的時間分段比距離所述待學(xué)習(xí)時間分段較遠(yuǎn)的時間分段具有更大的分段權(quán)重。所述分段權(quán)重基于核函數(shù)來確定。在數(shù)據(jù)量較少的情況下,所述其他時間分段可以是所述多個時間分段中除所述待學(xué)習(xí)時間分段之外的所有其他時間分段。
需要說明的是,上面參考圖4所描述的裝置400中的各個模塊可以被配置為執(zhí)行與參考圖1至圖3E所描述的方法相對應(yīng)的操作。因此關(guān)于裝置400的各個模塊的具體操作,可以參考結(jié)合圖1至圖3E針對方法的各個步驟進(jìn)行的描述。
此外,在上面的描述中,主要參考空氣質(zhì)量預(yù)測的實施方式對本公開進(jìn)行了描述;然而需要說明的是,本公開也有可能應(yīng)用在其他預(yù)測場合。此外,在上面的描述中,參考圖3A至圖3E示出的示 例對因果關(guān)系挖掘進(jìn)行了描述。然而需要說明的是,圖3A和圖3E僅僅是出于示出的目的,本公開并不僅限于此,在實際應(yīng)用中的時間序列長度、影響因素的數(shù)目都會發(fā)生改變。
另外還需理解的是,本公開的實施方式可以以軟件、硬件或者軟件和硬件的結(jié)合來實現(xiàn)。硬件部分可以利用專用邏輯來實現(xiàn);軟件部分可以存儲在存儲器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計硬件來執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和設(shè)備可以使用計算機可執(zhí)行指令和/或包含在處理器控制代碼中來實現(xiàn),例如在諸如磁盤、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲器(固件)的可編程的存儲器或者諸如光學(xué)或電子信號載體的數(shù)據(jù)載體上提供了這樣的代碼。本實施例的設(shè)備及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合例如固件來實現(xiàn)。
雖然已經(jīng)參考目前考慮到的實施方式描述了本公開,但是應(yīng)該理解本公開不限于所公開的實施方式。相反,本公開旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。以下權(quán)利要求的范圍符合最廣泛解釋,以便包含所有這樣的修改及等同結(jié)構(gòu)和功能。