一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置的制造方法

文檔序號：10577362閱讀：333來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置的制造方法
【專利摘要】本發(fā)明提供一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置，該方法包括：獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值；根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型；采用最大后驗估計算法對分層貝葉斯模型進行學(xué)習(xí)，確定分層貝葉斯模型的目標(biāo)函數(shù)；對目標(biāo)函數(shù)進行優(yōu)化；采用優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)，從而提高在微生物關(guān)聯(lián)和微生物與環(huán)境因素關(guān)聯(lián)的預(yù)測任務(wù)中的準(zhǔn)確性和實用性。
【專利說明】
一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及生物信息技術(shù)領(lǐng)域，尤其涉及一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置。
【背景技術(shù)】
[0002] 微生物之間的交互以及環(huán)境因素對微生物的影響是微生物學(xué)的關(guān)鍵的研究課題。由于大部分的微生物都無法在實驗室培養(yǎng)，這給傳統(tǒng)的利用微生物培養(yǎng)來研究交互作用的方法帶來了很大困難。宏基因組測序技術(shù)的發(fā)展為研究這些問題帶來了可能性，可以通過采集微生物的樣本(提取16s rDNA)，然后進行高通量測序，通過樣本中微生物的數(shù)量變化來推測微生物之間的關(guān)聯(lián)，以及環(huán)境因素對微生物的影響。隨著宏基因組測序技術(shù)的廣泛應(yīng)用，各種環(huán)境的樣本變得可用，如土壤，海洋和湖泊，還有很多人的腸道。但是通過微生物在樣本中的數(shù)量變化來推斷交互作用，仍然是一個很難的問題。通常的關(guān)聯(lián)推斷，指的是計算微生物之間，微生物和環(huán)境之間的正負(fù)相關(guān)性，然后根據(jù)這些相關(guān)性再去推測真實的交互作用，如互利共生、寄生和競爭，從而幫助理解微生物群落的動態(tài)。
[0003] 關(guān)聯(lián)推斷可以通過不同的統(tǒng)計量度量，只要這些統(tǒng)計量能夠顯示合理的關(guān)系。現(xiàn) 有的關(guān)聯(lián)推斷的方法可以分為兩大類。一種是計算兩兩之間的相關(guān)性，例如皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)，可以計算兩個物種之間的相關(guān)性。Ruanet.al. (2006)年提出的 Local similarity analysis(LSA)計算的也是兩兩相關(guān)性，但是需要時間序列信息。第二類是計算復(fù)雜相關(guān)性的方法，通過擬合一種微生物，和剩余微生物以及環(huán)境因素之間的關(guān) 系進行計算，大多是基于回歸的方法。第一種計算兩兩之間相關(guān)性的方法因為其簡單快速的特點被生物學(xué)家廣泛采用。但是這種方法并不適合宏基因組測序數(shù)據(jù)，主要原因有兩點。第一，計算兩兩相關(guān)性的方法并沒有得到真實的相關(guān)性，因為計算過程中存在組成成分偏差，而這些方法忽略了數(shù)據(jù)的特點，采用的是適用于無約束數(shù)據(jù)的方法。具體來講，因為測序得到的每個樣本的總reads數(shù)不同，一般會進行歸一化，得到OTU的相對豐度。在歸一化之后，數(shù)據(jù)便不再獨立，例如變量剩余的變量&不再獨立，無論他們之間有無關(guān)聯(lián)，
[0004]
[0005] 這種組成成分偏差在環(huán)境中存在主導(dǎo)的微生物是會變得更加嚴(yán)重，這種現(xiàn)象其實在海洋微生物中普遍存在。因此，考慮組成成分偏差的算法是需要的。另一方面，高通量測序伴隨著一系列處理步驟，如樣本過濾、擴增和上機測序等，這些步驟都會導(dǎo)致得到的 reads數(shù)和樣本中原來的微生物數(shù)量出現(xiàn)偏差。這個特點也需要算法同時考慮。
[0006] 目前，出現(xiàn)了很多算法來解決組成成分偏差的問題，如CCREPE(Faust et.al.， 2012)，SparCC(Friedman and Alm，2012)，SPIEC-EASI(Kurtz et.al.,2015)和CCLasso (Fang et.al.，2015)。這些算法通過不同的思路處理組成成分偏差，但是均未考慮測序數(shù) 據(jù)本身的方差;另外，由于微生物會受到環(huán)境因素的影響，這些方法在估計微生物之間的關(guān) 聯(lián)時，并未考慮環(huán)境因素的調(diào)控。例如，如果兩個OTU有關(guān)聯(lián)如果是因為受到同一種環(huán)境因素的調(diào)節(jié)，那么他們之間的關(guān)聯(lián)其實是間接的，如果不考慮環(huán)境因素的話，是無法做區(qū)分的。

【發(fā)明內(nèi)容】

[0007] 鑒于上述問題，本發(fā)明提出了一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置，以解決現(xiàn)有技術(shù)中因為組成成分偏差和測序數(shù)據(jù)自身的方差所導(dǎo)致的關(guān)聯(lián)推斷不準(zhǔn)確的問題。
[0008] 根據(jù)本發(fā)明的第一方面，提供了一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法，該方法包括：
[0009] 獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值；
[0010] 根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行描述； [0011]采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)；
[0012] 對所述目標(biāo)函數(shù)進行優(yōu)化；
[0013] 采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。
[0014] 其中，所述根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，包括：
[0015] 采用Dirichlet-Multinomial共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù)據(jù)方差進行第一建模；
[0016]采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行第二建模；
[0017] 根據(jù)所述第一建模和第二建模的結(jié)果，建立基于LognormaI-D iri ch I et-Multinomial的分層貝葉斯模型。
[0018] 其中，所述采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)，包括：
[0019] 采用增加一范數(shù)懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。
[0020] 其中，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣；
[0021 ] 相應(yīng)地，所述對所述目標(biāo)函數(shù)進行優(yōu)化，包括：
[0022]利用graphical lasso算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu) 化；
[0023]利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣進行迭代優(yōu)化。
[0024]其中，在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值之前，所述方法還包括：
[0025]對所述宏基因組測序樣本進行預(yù)處理。
[0026]根據(jù)本發(fā)明的第二方面，提供了一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置，該裝置包括：
[0027] 獲取單元，用于獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值；
[0028] 模型建立單元，用于根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行描述；
[0029]模型學(xué)習(xí)單元，用于采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)；
[0030] 優(yōu)化單元，用于對所述目標(biāo)函數(shù)進行優(yōu)化；
[0031] 預(yù)測單元，用于采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。
[0032] 其中，所述模型建立單元，具體用于采用Dirichlet-Multinomial共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù)據(jù)方差進行第一建模;采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān) 聯(lián)進行第二建模;根據(jù)所述第一建模和第二建模的結(jié)果，建立基于Lognormal-Dirichlet-Multinomial的分層貝葉斯模型。
[0033] 其中，所述模型學(xué)習(xí)單元，具體用于采用增加一范數(shù)懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。
[0034] 其中，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣；
[0035] 相應(yīng)地，所述優(yōu)化單元，包括：
[0036 ]第一優(yōu)化模塊，用于利用graph i c a I I a s s 〇算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu)化；
[0037]第二優(yōu)化模塊，用于利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān) 聯(lián)的矩陣進行迭代優(yōu)化。
[0038] 其中，所述裝置還包括：
[0039]預(yù)處理單元，用于在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值之前，對所述宏基因組測序樣本進行預(yù)處理。
[0040] 本發(fā)明提供的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置，根據(jù)宏基因組測序數(shù)據(jù)的產(chǎn)生過程以及每一宏基因組測序樣本中各種微生物的豐度和對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，并對該模型進行學(xué)習(xí)和優(yōu)化，通過采用優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)，以解決由于組成成分偏差和測序數(shù)據(jù)自身的方差所導(dǎo)致的關(guān)聯(lián)推斷不準(zhǔn)確的問題，同時考慮微生物和環(huán)境因素的影響，顯著提高在微生物關(guān)聯(lián)和微生物與環(huán)境因素關(guān)聯(lián)的預(yù)測任務(wù)中的準(zhǔn)確性和實用性。
【附圖說明】
[0041] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述，各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的，而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：
[0042] 圖1為本發(fā)明一個實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法的流程圖；
[0043] 圖2為本發(fā)明另一實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法的流程圖；
[0044] 圖3為本發(fā)明一個實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置的結(jié)構(gòu)示意圖；
[0045] 圖4為本發(fā)明另一實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0046] 下面詳細(xì)描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。
[0047] 圖1示出了本發(fā)明實施例的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法的流程圖。參照圖1，本發(fā)明實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法，具體包括以下步驟：
[0048] 步驟Sll、獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值。
[0049]在實際應(yīng)用中，通過對宏基因組數(shù)據(jù)進行處理，獲取樣本中各種微生物(OTU)的豐度和環(huán)境因素的值，同時去掉異常的樣本和特征，便于模型的下一步的計算。對于宏基因組 16S測序數(shù)據(jù)，需要對樣本進行質(zhì)量控制，reads聚類和注釋，然后才能得到OTU的豐度;環(huán)境因素需要在取樣的時候就已經(jīng)測定。
[0050] 步驟Sl 2、根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行描述。
[0051] 步驟S13、采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)；
[0052]步驟S14、對所述目標(biāo)函數(shù)進行優(yōu)化；
[0053]步驟S15、采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。
[0054]本發(fā)明實施例提供的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法，根據(jù)宏基因組測序數(shù)據(jù)的產(chǎn)生過程以及每一宏基因組測序樣本中各種微生物的豐度和對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，并對該模型進行學(xué)習(xí)和優(yōu)化，通過采用優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)，以解決由于組成成分偏差和測序數(shù)據(jù)自身的方差所導(dǎo)致的關(guān)聯(lián)推斷不準(zhǔn)確的問題，同時考慮微生物和環(huán)境因素的影響，顯著提高在微生物關(guān)聯(lián)和微生物與環(huán)境因素關(guān)聯(lián)的預(yù)測任務(wù)中的準(zhǔn)確性和實用性。
[0055]在本發(fā)明的一個可選實施例中，步驟S12,具體包括以下附圖中未示出的步驟： [0056] 步驟S121、采用Dirichlet-Multinomial共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù)據(jù)方差進行第一建模；
[0057]步驟S122、采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān)聯(lián) 以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行第二建模；
[0058] 步驟S123、根據(jù)所述第一建模和第二建模的結(jié)果，建立基于Lognormal-Di;richlet-Multinomial的分層貝葉斯模型。
[0059] 在實際應(yīng)用中，根據(jù)宏基因組測序數(shù)據(jù)的特點，建立分層貝葉斯模型，對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素之間的關(guān)聯(lián)進行描述;為了考慮測序數(shù)據(jù)樣本之間reads總數(shù)不同，簡單的歸一化會引入組成成分偏差；以及測序數(shù)據(jù)由于一系列處理步驟所產(chǎn)生的誤差的問題，本發(fā)明用Dirichlet-Multinomial共輒分布進行模擬。假設(shè)測序得到的微生物的reads數(shù)服從多項式分布，這些reads數(shù)受到樣本的大小和該OTU所占相對比例的影響，進一步假設(shè)其相對比例服從狄利克雷分布。OTU的相對豐度進一步由其環(huán)境中對應(yīng)的微生物的絕度豐度決定，而微生物的絕對豐度假設(shè)受到兩方面因素的影響，一方面是微生物之間的關(guān)聯(lián)，另一方面是微生物與環(huán)境因素之間的關(guān)聯(lián)，本發(fā)明對這一過程用 Lognormal進行建模。最后，微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素的分別參數(shù)化為兩個矩陣，這兩個矩陣對應(yīng)Lognormal分布的參數(shù)。
[0060] 下面通過一個具體實施例，對本發(fā)明技術(shù)方案中根據(jù)每一宏基因組測序樣本的數(shù) 據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型的實現(xiàn)方式進行清楚的說明。
[0061 ] 假設(shè)Xi是一個P維的向量，由一個樣本中P個OTU測序得到的reads數(shù)組成，mi是一個 Q維的向量，由Q個環(huán)境因素的值構(gòu)成;hi和Xi相對應(yīng)，表示的是P個OTU對應(yīng)的在樣本中的相對豐度;Q i表示的是P個OTUs對應(yīng)的在真實環(huán)境中的絕對豐度，Z表示隱變量，絕對豐度又收到兩方面的影響:一方面是微生物之間的關(guān)聯(lián)，用Θ精確度矩陣表示(P X P矩陣），另一方面是環(huán)境因素的影響，用矩陣B表示(QXP矩陣）。此是對應(yīng)P個OTU豐度的基向量。
[0062] Zi~Gaussian(Bt), Θ-1)
[0063] Cii = exp (BTmi+Zi)
[0064] hi ~Dirichlet(ai)
[0065] Xi ~Multinomial(hi)
[0066] 因為微生物的reads ^是通過測序得到，測序的過程中的PCR可以用多項式分布來建模，即在樣本總的reads數(shù)確定時，每種OTU的數(shù)量和其相對比例有關(guān)，相當(dāng)于按其相對比例進行采樣：
[0067]
[0068] 其中
§第i個樣本中的總reads數(shù)。hi對應(yīng)P個OTUs的相對分
微生物的相對豐度實際上是根據(jù)其絕對豐度，即在群落中的絕對數(shù)量計算得到的，本發(fā)明用Dirchlet分布來建模相對分度hi和絕對豐度Cti之間的關(guān)系，
[0069] )
[0070] ]馬函數(shù)。利用Dirichlet-Multinomial共輒分布的性
質(zhì)，
[0071
[0072] 可得OTU-j在第i個樣本中的方差為Var(Xij) = S(Xi) · C · rij · (1-rij)，和第j個 OTU的協(xié)方差為Cov(Xij，Xik)=_s(Xi) · C · rij · rik，其中c ，.:= 和rik = alk/s(ai)。可以看到利用該共輒分布，微生物的數(shù)量之間有了一個負(fù)的相關(guān)性，這個正好與組成成分偏差對應(yīng);同時，其方差和協(xié)方差均與絕對豐度ai有關(guān)，rij正好是由絕對豐度決定的相對豐度的期望值，與測序數(shù)據(jù)較為吻合。
[0073]進一步的，本發(fā)明假設(shè)微生物的絕對豐度服從Lognormal分布，這個分布被生物學(xué) 家廣泛采用。同時，為了考慮微生物和微生物之間的關(guān)聯(lián)和環(huán)境因素對微生物的影響，我們 I ^4V /?￥Τ K 1 固 .
[0074]
[0075] 其中，均值yi = BV+Bo。這樣，精確度矩陣Θ就用來表征微生物之間的關(guān)聯(lián)，矩陣B 用來表示微生物和環(huán)境因素之間的關(guān)聯(lián)。
[0076] 在本發(fā)明的一個可選實施例中，步驟S13,具體包括以下附圖中未示出的步驟:采用增加一范數(shù)懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。
[0077] 在實際應(yīng)用中，在Lognormal-Dirichlet-Multinomial分層貝葉斯模型的基礎(chǔ)上，對微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素之間的關(guān)聯(lián)引入一范數(shù)的稀疏約束，利用最大后驗進行估計。對要推斷的關(guān)聯(lián)進行稀疏約束，一方面是因為微生物的數(shù)量遠多于一個群落可以獲得的樣本數(shù)，加入稀疏約束可以處理過擬合的問題；另一方面是因為測序數(shù)據(jù)噪聲較大，通過稀疏項可以保留最顯著的關(guān)聯(lián)，提高準(zhǔn)確性。由于本發(fā)明的分層貝葉斯模型中含有隱變量，在利用最大后驗進行參數(shù)估計的過程中，隱變量也一同進行估計，這樣降低了優(yōu) 化的復(fù)雜性。
[0078] 下面通過一個具體實施例，對本發(fā)明技術(shù)方案中采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)的實現(xiàn)方式進行清楚的說明。
[0079] 采用增加一范數(shù)懲罰項的最大后驗估計方法學(xué)習(xí)該分層貝葉斯模型。由于本發(fā)明中的分層模型含有隱變量，直接估計較為困難，所以采用最大后驗，帶著隱變量一起估計。假設(shè)宏基因組測序OTU的數(shù)據(jù)為矩陣Χ(Ν*Ρ矩陣，N個樣本，P個0TU)，環(huán)境數(shù)據(jù)為矩陣M(N*Q 矩陣，N個樣本，Q個環(huán)境因素），則對于隱變量Z的最大后驗估計為：
[0080] P(Z|X,M,B,Bo,Q)^P(X,Z|B,Bo,Q,M)^P(X|a)P(a|Z,B,Bo,M)P(Z|Bo,Q)
[0081] 其中P(X|a)可以用等式（3)計算得到，并且I3)，P(Zl | Bo，Q)是高斯分布。

[0082] 采用一范數(shù)一方面是因為模型參數(shù)較多，樣本較少，需要利用一范數(shù)懲罰項防止過擬合;另一方面是便于做特征選擇，保留出最顯著的關(guān)聯(lián)供以后的深入分析。最終，本發(fā) 明的曰標(biāo)函撒為-
[008：
[0084]其中，
[0086] 在本發(fā)明的一個可選實施例中，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣。
[0087] 在本發(fā)明實施例中，步驟S14,具體包括以下附圖中未示出的步驟：
[0088]步驟S141、利用graphical lasso算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu)化；
[0089]步驟S142、利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣進行迭代優(yōu)化。
[0090] 具體的，本發(fā)明實施例對目標(biāo)函數(shù)利用proximal方法和graphical lasso (Friedman et.al.，2008)方法進行迭代優(yōu)化。對于表示微生物之間關(guān)聯(lián)的精確度矩陣，利用graphical lasso進行優(yōu)化，這種方法快速有效;對于表示微生物與環(huán)境因素之間關(guān)聯(lián)的矩陣，我們用proximal方法進行優(yōu)化，每次迭代都對目標(biāo)函數(shù)做二階近似，然后通過 coordinate descent坐標(biāo)下降法進行優(yōu)化。
[0091]下面通過一個具體實施例，對本發(fā)明技術(shù)方案中對所述目標(biāo)函數(shù)進行優(yōu)化的實現(xiàn) 方式進行清楚的說明。
[0092] 本發(fā)明對目標(biāo)函數(shù)(7)利用proximal方法和graphical lasso方法進行迭代優(yōu)化。由于模型中未知參數(shù)包括:Z，B，Q和Bo,本發(fā)明采用分塊迭代的方法，每次優(yōu)化一個參數(shù)，然后通過不斷交替迭代最終收斂。
[0093] 對于隱變量Z，對目標(biāo)函數(shù)導(dǎo)數(shù)為：
[0094]
[0095]可以利用L-BFGS擬牛頓法進行優(yōu)化。
[0096] 對于矩陣B，利用proximal擬牛頓方法進行迭代。對于矩陣B，導(dǎo)數(shù)如下：
[0097；
[0098]然后利用一階導(dǎo)數(shù)近似Hessian矩陣，從而得到二階近似目標(biāo)函數(shù)，加上一范數(shù)的約束。對于向量Bo，更新規(guī)則為：
[0099]
[0100] 對于矩陣Q，其目標(biāo)函數(shù)為：
[0101 ] nun- log | Q j +ir(SQ] + Λ, ]j Q |], (11)
[0102] 該目標(biāo)函數(shù)可以通過graphical lasso算法有效迭代求解。
[0103] 綜上，基于Lognormal-Dir ichle t-Multinomial分層貝葉斯模型的核心學(xué)習(xí)算法如下：
[0106] 本發(fā)明實施例估計出的兩個參數(shù):矩陣Q和B，分別用于解釋和預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素之間的關(guān)聯(lián)。矩陣中的元素叫表示了〇TU-i和OTU-j之間的關(guān)聯(lián)，如果Qu = 〇,則〇TU-i和j是條件獨立的，否則是條件相關(guān)，該關(guān)聯(lián)權(quán)重>
對于矩陣B，B^表示OTU-j和環(huán)境因素 i之間的關(guān)聯(lián)，其權(quán)值為在估計出關(guān)聯(lián)后，可以利用關(guān) 聯(lián)的正負(fù)性和絕對值的大小，結(jié)合OTU注釋的微生物物種信息，推薦二者之間真實的交互關(guān) 系，如競爭，共生和捕食等。
[0107] 圖2示出了本發(fā)明實施例的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法的流程圖。參照圖2,本發(fā)明實施例提出的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法，在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值之前，所述方法還包括步驟S10:
[0108] 步驟SI 0、對所述宏基因組測序樣本進行預(yù)處理。
[0109] 在具體應(yīng)用中，由于實際采樣和測序過程的誤差，會導(dǎo)致某些環(huán)境因素的值未測量或明顯與實際不符，某些OTU的reads數(shù)量也會出現(xiàn)較大的波動，樣本之間總reads數(shù)也會出現(xiàn)很大的差別，這些因素都需要考慮進來，對得到的數(shù)據(jù)進行過濾等預(yù)處理。這樣得到的數(shù)據(jù)作為本發(fā)明模型的輸入。
[0110]對于方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本發(fā)明實施例并不受所描述的動作順序的限制，因為依據(jù)本發(fā)明實施例，某些步驟可以采用其他順序或者同時進行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說明書中所描述的實施例均屬于優(yōu)選實施例，所涉及的動作并不一定是本發(fā)明實施例所必須的。
[0111]圖3示出了本發(fā)明實施例的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置的結(jié)構(gòu)示意圖。參照圖3,本發(fā)明實施例提供的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置，包括獲取單元301、模型建立單元302、模型學(xué) 習(xí)單元303、優(yōu)化單元304以及預(yù)測單元305,其中：獲取單元301用于獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值;模型建立單元 302用于根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行描述;模型學(xué)習(xí)單元303用于采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù);優(yōu)化單元304用于對所述目標(biāo)函數(shù)進行優(yōu)化;預(yù)測單元305用于采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。
[0112]本發(fā)明提供的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置，模型建立單元302根據(jù)宏基因組測序數(shù) 據(jù)的產(chǎn)生過程以及每一宏基因組測序樣本中各種微生物的豐度和對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，并通過模型學(xué)習(xí)單元303和優(yōu)化單元304對該模型進行學(xué)習(xí)和優(yōu)化，以供預(yù)測單元305采用優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)，以解決由于組成成分偏差和測序數(shù)據(jù)自身的方差所導(dǎo)致的關(guān)聯(lián)推斷不準(zhǔn)確的問題，同時考慮微生物和環(huán)境因素的影響，顯著提高在微生物關(guān)聯(lián)和微生物與環(huán) 境因素關(guān)聯(lián)的預(yù)測任務(wù)中的準(zhǔn)確性和實用性。
[0113]在本發(fā)明的一個可選實施例中，所述模型建立單元302,具體用于采用Dirichlet-Multinomial共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù)據(jù)方差進行第一建模;采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行第二建模;根據(jù)所述第一建模和第二建模的結(jié)果，建立基于Lognormal-Dir i chi et-Mult inomial的分層貝葉斯模型。
[0114] 在本發(fā)明的一個可選實施例中，所述模型學(xué)習(xí)單元303,具體用于采用增加一范數(shù) 懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。
[0115] 在本發(fā)明的一個可選實施例中，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣；
[0116]相應(yīng)地，所述優(yōu)化單元304，具體包括第一優(yōu)化模塊和第二優(yōu)化模塊，其中，第一優(yōu) 化模塊，用于利用graphical lasso算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu)化;第二優(yōu)化模塊，用于利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān)聯(lián) 的矩陣進行迭代優(yōu)化。
[0117] 在本發(fā)明的一個可選實施例中，如圖4所示，所述裝置還包括預(yù)處理單元300，所述預(yù)處理單元300,用于在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值之前，對所述宏基因組測序樣本進行預(yù)處理。
[0118] 對于裝置實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關(guān) 之處參見方法實施例的部分說明即可。
[0119] 綜上所述，本發(fā)明實施例提供的微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置，根據(jù)宏基因組測序數(shù)據(jù)的產(chǎn)生過程以及每一宏基因組測序樣本中各種微生物的豐度和對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，并對該模型進行學(xué)習(xí)和優(yōu)化，通過采用優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)，以解決由于組成成分偏差和測序數(shù)據(jù)自身的方差所導(dǎo)致的關(guān)聯(lián)推斷不準(zhǔn)確的問題，同時考慮微生物和環(huán)境因素的影響，顯著提高在微生物關(guān)聯(lián)和微生物與環(huán)境因素關(guān)聯(lián)的預(yù)測任務(wù)中的準(zhǔn)確性和實用性。
[0120] 通過以上的實施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可以通過硬件實現(xiàn)，也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?；谶@樣的理解，本發(fā) 明的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來，該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-R0M，U盤，移動硬盤等）中，包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0121] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖，附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
[0122] 本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中，也可以進行相應(yīng)變化位于不同于本實施例的一個或多個裝置中。上述實施例的單元可以合并為一個單元，也可以進一步拆分成多個子模塊。
[0123] 以上所述僅是本發(fā)明的部分實施方式，應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應(yīng) 視為本發(fā)明的保護范圍。
【主權(quán)項】
1. 一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法，其特征在于，該方法包括：獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值；根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù) 產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行描述；采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)；對所述目標(biāo)函數(shù)進行優(yōu)化；采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn) 生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，包括：采用0;^;[(311161：-]/[1111:;[11〇1]11&1共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù)據(jù)方差進行第一建模；采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行第二建模；根據(jù)所述第一建模和第二建模的結(jié)果，建立基于Lognormal-Dirichlet-Multinomial 的分層貝葉斯模型。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)，包括：采用增加一范數(shù)懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣；相應(yīng)地，所述對所述目標(biāo)函數(shù)進行優(yōu)化，包括：利用graphical lasso算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu)化；利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣進行迭代優(yōu)化。5. 根據(jù)權(quán)利要求1-4任一項所述的方法，其特征在于，在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值之前，所述方法還包括：對所述宏基因組測序樣本進行預(yù)處理。6. -種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測裝置，其特征在于，該裝置包括：獲取單元，用于獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng)的環(huán)境因素測量值；模型建立單元，用于根據(jù)每一宏基因組測序樣本的數(shù)據(jù)產(chǎn)生過程、每一宏基因組測序樣本中各種微生物的豐度以及對應(yīng)的環(huán)境因素測量值，建立分層貝葉斯模型，所述分層貝葉斯模型用于對數(shù)據(jù)產(chǎn)生過程、微生物之間的關(guān)聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān) 聯(lián)進行描述；模型學(xué)習(xí)單元，用于采用最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)；優(yōu)化單元，用于對所述目標(biāo)函數(shù)進行優(yōu)化；預(yù)測單元，用于采用目標(biāo)函數(shù)優(yōu)化后的分層貝葉斯模型預(yù)測微生物之間的關(guān)聯(lián)和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)。7. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述模型建立單元，具體用于采用 Dirichlet-Multinomial共輒分布模擬測序過程，對數(shù)據(jù)產(chǎn)生過程中的組成成分偏差和數(shù) 據(jù)方差進行第一建模;采用Lognormal分布模擬微生物的豐度變化過程，對微生物之間的關(guān) 聯(lián)以及微生物與環(huán)境因素測量值之間的關(guān)聯(lián)進行第二建模;根據(jù)所述第一建模和第二建模的結(jié)果，建立基于Lognormal-Dirichlet-Multinomial的分層貝葉斯模型。8. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述模型學(xué)習(xí)單元，具體用于采用增加一范數(shù)懲罰項的最大后驗估計算法對所述分層貝葉斯模型進行學(xué)習(xí)，確定所述分層貝葉斯模型的目標(biāo)函數(shù)。9. 根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述分層貝葉斯模型的目標(biāo)函數(shù)中包括表示微生物之間的關(guān)聯(lián)的精確度矩陣和微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣；相應(yīng)地，所述優(yōu)化單元，包括：第一優(yōu)化模塊，用于利用graphical lasso算法對表示微生物之間的關(guān)聯(lián)的精確度矩陣進行迭代優(yōu)化；第二優(yōu)化模塊，用于利用proximal算法對表示微生物與環(huán)境因素測量值之間的關(guān)聯(lián)的矩陣進行迭代優(yōu)化。10. 根據(jù)權(quán)利要求6-9任一項所述的裝置，其特征在于，所述裝置還包括:預(yù)處理單元，用于在所述獲取宏基因組測序樣本中各種微生物的豐度，以及每一宏基因組測序樣本對應(yīng) 的環(huán)境因素測量值之前，對所述宏基因組測序樣本進行預(yù)處理。
【文檔編號】G06F19/24GK105938524SQ201610266864
【公開日】2016年9月14日
【申請日】2016年4月26日
【發(fā)明人】陳挺, 陳寧, 楊煜清
【申請人】清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳挺;陳寧;楊煜清;
技術(shù)所有人：清華大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

水中微生物膜過濾裝置相關(guān)技術(shù)

微生物膜過濾裝置相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種微生物關(guān)聯(lián)網(wǎng)絡(luò)預(yù)測方法及裝置的制造方法