本發(fā)明涉及一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動(dòng)態(tài)差異性分析方法。
背景技術(shù):
基因調(diào)控網(wǎng)絡(luò)的建模與演化分析能夠很好的挖掘基因表達(dá)數(shù)據(jù)中的深層信息,是當(dāng)前生物信息學(xué)研究的重要領(lǐng)域和關(guān)鍵問題。二十世紀(jì)90年代以來,隨著基因芯片技術(shù)的發(fā)展和二代測(cè)序技術(shù)的興起,基因調(diào)控網(wǎng)絡(luò)建模的研究取得了巨大進(jìn)展。
基因調(diào)控網(wǎng)絡(luò)建模主要根據(jù)基因表達(dá)數(shù)據(jù)推理網(wǎng)絡(luò)中的調(diào)控關(guān)系,并表示為拓?fù)浣Y(jié)構(gòu),屬于依靠數(shù)據(jù)挖掘進(jìn)行的逆向工程研究。構(gòu)建基因調(diào)控網(wǎng)絡(luò)首先需要確定網(wǎng)絡(luò)模型,然后根據(jù)模型選擇合適的建模算法。經(jīng)典的網(wǎng)絡(luò)模型包括布爾網(wǎng)絡(luò)、關(guān)聯(lián)網(wǎng)絡(luò)、微分方程、貝葉斯網(wǎng)絡(luò)。
(a)布爾網(wǎng)絡(luò)。布爾網(wǎng)絡(luò)對(duì)基因狀態(tài)做了相應(yīng)簡化,用布爾函數(shù)代替了微分和導(dǎo)數(shù)描述基因間的相互關(guān)系。該模型的缺點(diǎn)在于不精確性,僅僅通過使用固定的邏輯規(guī)則刻畫和反映基因間相互作用,并不能準(zhǔn)確描述真實(shí)的基因調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),而且對(duì)基因數(shù)據(jù)進(jìn)行離散化時(shí)不可避免的會(huì)造成很多重要的表達(dá)信息丟失。kauffman等人最先提出了布爾網(wǎng)絡(luò)的分析框架模型,隨后akusu等人對(duì)布爾網(wǎng)絡(luò)在推理過程中的最少樣本數(shù)進(jìn)行證明。liang等人設(shè)計(jì)了reveal算法,在原有的離散化模型上盡可能少的減少信息損失。此外,lyla等人提出了一種新的概率布爾網(wǎng)絡(luò)(pbn),這是對(duì)傳統(tǒng)布爾網(wǎng)絡(luò)的拓展,同時(shí)量化基因間作用關(guān)系和靈敏度從而解決模型選擇過程中的不確定性,提高了模型的精確性。
(b)關(guān)聯(lián)網(wǎng)絡(luò)。關(guān)聯(lián)網(wǎng)絡(luò)的建模主要通過基因表達(dá)數(shù)據(jù)間的關(guān)聯(lián)度實(shí)現(xiàn)。通常使用互信息、皮爾森相關(guān)系數(shù)等測(cè)度計(jì)算基因間的相似度,若基因?qū)﹂g的相似度高于某一閾值,則該基因?qū)υ诰W(wǎng)絡(luò)中直接連通。butte等人首先利用互信息計(jì)算所有基因?qū)χg的關(guān)聯(lián)度,然后設(shè)置互信息閾值。后來發(fā)現(xiàn),若基因?qū)﹂g具有相同或相近的調(diào)控機(jī)制,則兩個(gè)基因的關(guān)聯(lián)度較高,尤其是同一轉(zhuǎn)錄因子的靶基因或同一條生物通路上的基因。margolin等人提出arcane方法,通過信息論構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),該方法的優(yōu)點(diǎn)是模型的建立簡單易操作,但是構(gòu)建的網(wǎng)絡(luò)存在很多假陽性的邊。為降低所構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)的假陽性率,得到接近真實(shí)拓?fù)涞恼{(diào)控網(wǎng)絡(luò),一般在計(jì)算基因?qū)﹂g的關(guān)聯(lián)度時(shí)隔絕其它基因的影響。
(c)貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)(bn)通過局部概率的乘積來近似描述整體網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜概率分布,屬于概率圖模型,將節(jié)點(diǎn)之間的連邊表示為節(jié)點(diǎn)間存在的概率依賴關(guān)系。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dbn)是對(duì)靜態(tài)貝葉斯網(wǎng)絡(luò)模型的擴(kuò)展,通過引入時(shí)間因素形成動(dòng)態(tài)變化網(wǎng)絡(luò),更加真實(shí)地表示隨機(jī)系統(tǒng)的動(dòng)態(tài)性?;蛘{(diào)控網(wǎng)絡(luò)本質(zhì)上是一個(gè)復(fù)雜而連續(xù)的動(dòng)態(tài)網(wǎng)絡(luò)系統(tǒng),所以在具體建模的時(shí)候,往往對(duì)dbn進(jìn)行簡化從而降低計(jì)算復(fù)雜度。dbn克服了靜態(tài)bn有向無環(huán)的不足,更好地刻畫了基因調(diào)控網(wǎng)絡(luò)的動(dòng)態(tài)特性,提高了模型的預(yù)測(cè)精度。norbert為了能夠從基因擾動(dòng)型實(shí)驗(yàn)數(shù)據(jù)中學(xué)習(xí)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),利用離散化方法來對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合基因調(diào)控的負(fù)反饋與時(shí)延因素提出新的數(shù)據(jù)整合模型,利用并行算法加速構(gòu)建基因調(diào)控網(wǎng)絡(luò)。
隨著2006年hinton教授在《科學(xué)》上的一篇文章,深度學(xué)習(xí)拉開帷幕,并在各個(gè)領(lǐng)域表現(xiàn)不俗。同時(shí),學(xué)術(shù)界和行業(yè)都強(qiáng)調(diào)了深度學(xué)習(xí)的洞察力在生物信息學(xué)中的應(yīng)用,例如基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因調(diào)控碼學(xué)習(xí)、基因表達(dá)預(yù)測(cè)、癌癥分類預(yù)測(cè)、復(fù)雜疾病分類、多平臺(tái)癌癥數(shù)據(jù)綜合分析等。
guillen等人設(shè)計(jì)基于多層感知器的深度學(xué)習(xí)算法捕獲基因表達(dá)特征進(jìn)行癌癥分類,表明了神經(jīng)網(wǎng)絡(luò)可以高效率地對(duì)不同的樣本進(jìn)行分類,在最后的預(yù)測(cè)結(jié)果中實(shí)現(xiàn)了較高精度。bhat等人通過深度生成學(xué)習(xí)檢測(cè)癌癥,使用對(duì)抗性特征學(xué)習(xí)過程挖掘數(shù)據(jù)特征,然后使用常規(guī)分類器進(jìn)行分類。最終試驗(yàn)通過指定適當(dāng)?shù)某瑓?shù),在兩個(gè)不同數(shù)據(jù)集上執(zhí)行得相當(dāng)好。danaee等人使用堆疊去噪自動(dòng)編碼器(sdae)從高維基因表達(dá)譜中提取深度功能特征,通過分析sdae連接矩陣確定了一組高度互動(dòng)的基因用于癌癥生物標(biāo)志物檢測(cè)。chira等人使用基因表達(dá)值隨時(shí)間推移的模式開發(fā)基于形狀的聚類模型,并且進(jìn)一步結(jié)合基因表達(dá)水平與輸出值之間的相關(guān)關(guān)系,考慮共同表達(dá)模式與測(cè)量輸出的關(guān)系,以指導(dǎo)結(jié)果的生物學(xué)解釋。singh等人提供層疊特征選擇與堆疊稀疏自動(dòng)編碼器(ssae)從數(shù)據(jù)中學(xué)習(xí)高級(jí)特征,每層執(zhí)行特征選擇是一種啟發(fā)式的,可以在每個(gè)階段獲得相關(guān)特征,并且在調(diào)整過程中減少計(jì)算量,該算法在gemler數(shù)據(jù)庫的36個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,其中35個(gè)數(shù)據(jù)集的效果超越了gemler基準(zhǔn)測(cè)試結(jié)果。liang等人提出了一種多峰深度信念網(wǎng)絡(luò)(dbn)的新學(xué)習(xí)模型,從多平臺(tái)觀測(cè)數(shù)據(jù)對(duì)癌癥患者進(jìn)行聚類,并為個(gè)性化癌癥治療提供了有效指導(dǎo)。同時(shí)應(yīng)用對(duì)比度發(fā)散(cd)學(xué)習(xí)算法,以無監(jiān)督的方式推斷多模態(tài)dbn模型參數(shù)。xie等人基于多層感知器和堆疊去噪自動(dòng)編碼器(mlp-sae)的深度學(xué)習(xí)回歸模型預(yù)測(cè)變異基因型的基因表達(dá),其中堆疊去噪自動(dòng)編碼器用于訓(xùn)練回歸模型以提取有效特征,并利用多層感知器進(jìn)行反向傳播,同時(shí)通過添加dropout防止過擬合。chen等人設(shè)計(jì)了一種深度學(xué)習(xí)方法(d-gex),充分捕捉基因表達(dá)間的非線性相關(guān)關(guān)系,利用大約1000個(gè)標(biāo)記基因推斷剩余的靶基因表達(dá),旨在降低基因表達(dá)譜測(cè)定成本。
技術(shù)實(shí)現(xiàn)要素:
為了克服已有基因調(diào)控網(wǎng)絡(luò)建模及差異性分析方法的精確性較差的不足,本發(fā)明提供一種精確性較好的基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動(dòng)態(tài)差異性分析方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動(dòng)態(tài)差異性分析方法,包括以下步驟:
第一步、基于deeprnn的基因動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建
基因表達(dá)數(shù)據(jù)表示為
第二步、基于亞型內(nèi)動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的時(shí)序變化演化分析
定義c1亞型在t0時(shí)刻的有向加權(quán)圖拓?fù)浣Y(jié)構(gòu)表示為
第三步、基于亞型間動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析
不同亞型網(wǎng)絡(luò)的演化分析包括動(dòng)力學(xué)分析、差異性分析和擾動(dòng)分析,
所述動(dòng)力學(xué)分析使用差分方程對(duì)離散的網(wǎng)絡(luò)動(dòng)力學(xué)行為進(jìn)行分析,對(duì)于不同亞型的動(dòng)態(tài)調(diào)控網(wǎng)絡(luò),分析同一時(shí)間段關(guān)聯(lián)基因?qū)Φ墓?jié)點(diǎn)度值、連邊權(quán)重、表達(dá)變化量相對(duì)比率;通過提取不同亞型網(wǎng)絡(luò)的關(guān)聯(lián)特征,并以此為基礎(chǔ)構(gòu)建多網(wǎng)絡(luò)協(xié)同演化模型;
所述差異性分析對(duì)相同時(shí)間窗口內(nèi)不同亞型間的兩個(gè)基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點(diǎn)局部結(jié)構(gòu)特征的減法運(yùn)算,檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,根據(jù)差異網(wǎng)絡(luò)鑒別關(guān)鍵樞紐基因,然后利用go信息和kegg通路功能富集性分析檢驗(yàn)所發(fā)現(xiàn)基因集的顯著性,得到癌癥亞型相關(guān)控制基因作為進(jìn)一步生物實(shí)驗(yàn)的檢驗(yàn)標(biāo)記;
所述擾動(dòng)控制分析中,關(guān)鍵樞紐基因節(jié)點(diǎn)在細(xì)胞生化過程中具有以下特征:同功能中心,即該節(jié)點(diǎn)附近的基因?qū)儆谀愁惞δ艿幕蚣煌?qū)動(dòng)中心,即受到該節(jié)點(diǎn)表達(dá)調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能,對(duì)于關(guān)鍵樞紐節(jié)點(diǎn)的調(diào)控輸入一個(gè)隨機(jī)擾動(dòng)υper,對(duì)不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動(dòng)態(tài)調(diào)控差異節(jié)點(diǎn)。
進(jìn)一步,所述第一步中,基于deeprnn的基因動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建包括以下步驟:
1.1預(yù)處理,首先,提取亞型網(wǎng)絡(luò)之間的信息基因,然后,將同一亞型內(nèi)部的樣本按照百分比隨機(jī)分為訓(xùn)練集80%,驗(yàn)證集10%,測(cè)試集10%,進(jìn)一步,將同一樣本的基因表達(dá)按照時(shí)間序列展開作為輸入向量:
1.2激活函數(shù)與損失函數(shù),采用relu非飽和激活函數(shù),值域?yàn)閇0,+∞),公式如下:
其中
deeprnn由一個(gè)輸入層、一個(gè)或多個(gè)循環(huán)體隱藏層和一個(gè)輸出層組成,所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時(shí)刻的狀態(tài)與當(dāng)前時(shí)刻的輸入拼接成一個(gè)大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個(gè)單元的信號(hào)輸出
其中h是隱藏單元個(gè)數(shù),
其中m'表示訓(xùn)練樣本個(gè)數(shù),n表示每個(gè)訓(xùn)練樣本基因個(gè)數(shù),ωm(i,j)表示在t時(shí)刻樣本m中的基因gi對(duì)基因gj的作用效果,即連邊權(quán)重,
1.3dropout方法,在訓(xùn)練過程中,對(duì)于每個(gè)訓(xùn)練樣本的隱藏單元及其邊緣將會(huì)以概率為p被暫時(shí)丟棄;因此前向傳播和后向傳播將在一個(gè)特別“薄”的稀疏網(wǎng)絡(luò)上進(jìn)行;對(duì)于deeprnn,只在同一時(shí)刻的不同層循環(huán)體之間使用dropout,即僅在同一時(shí)刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout;將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率;
1.4加速梯度優(yōu)化和權(quán)重初始化,擬采用動(dòng)量法進(jìn)行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進(jìn)行參數(shù)更新,對(duì)于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動(dòng)量計(jì)算公式如下:
其中,μ∈[0,1]是動(dòng)量系數(shù),η是學(xué)習(xí)率;
隱藏層單位的權(quán)重使用均勻分布進(jìn)行采樣,定義如下:
其中ni,no分別表示隱藏單元的扇入扇出個(gè)數(shù);
1.5輸出,在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時(shí)刻的輸出后,將會(huì)使用另外一個(gè)全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)將當(dāng)前時(shí)刻的狀態(tài)轉(zhuǎn)化為最終的輸出。
再進(jìn)一步,所述第二步中,網(wǎng)絡(luò)的拓?fù)鋵傩允敲枋鼍W(wǎng)絡(luò)本身及其內(nèi)部節(jié)點(diǎn)或邊結(jié)構(gòu)特征的測(cè)度,包括:
聚類系數(shù),體現(xiàn)部分節(jié)點(diǎn)間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準(zhǔn)化的聚類系數(shù)被定義為:
其中kout表示節(jié)點(diǎn)v的出度,n表示所有v所指向的節(jié)點(diǎn)彼此存在的邊數(shù),
介數(shù)表明一個(gè)節(jié)點(diǎn)在其他節(jié)點(diǎn)彼此連接中所起的作用,標(biāo)準(zhǔn)化至[0,1]區(qū)間的計(jì)算公式如下:
其中σij是節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短路徑條數(shù),σivj表示σij中通過節(jié)點(diǎn)v的路徑條數(shù);
緊密度是描述一個(gè)節(jié)點(diǎn)到網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)平均距離的指標(biāo),定量衡量節(jié)點(diǎn)接近網(wǎng)絡(luò)“中心”的程度,節(jié)點(diǎn)v的緊密度cv計(jì)算公式如下:
其中dvj表示節(jié)點(diǎn)v到節(jié)點(diǎn)j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點(diǎn)越接近中心。
基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋵傩宰兓跁r(shí)間序列上對(duì)時(shí)間窗口δt進(jìn)行微分展開,得到動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的時(shí)空演化測(cè)度γ'(·)的計(jì)算公式如下:
其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對(duì)應(yīng)指標(biāo)的影響權(quán)重;
通過分析動(dòng)態(tài)網(wǎng)絡(luò)在不同時(shí)刻的節(jié)點(diǎn)指標(biāo)(ccv、bv、cv),挖掘在不同時(shí)間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點(diǎn),解釋其在生命活動(dòng)過程中扮演的重要性。
所述第三步中,所述動(dòng)力學(xué)分析過程中,動(dòng)力差異計(jì)算公式如下:
其中θ表示節(jié)點(diǎn)度值、連邊權(quán)重、表達(dá)變化量相對(duì)比率三項(xiàng)指標(biāo),
所述第三步中,所述差異性分析過程中,檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊的計(jì)算公式如下:
其中
所述第三步中,所述擾動(dòng)控制分析中,得到亞型網(wǎng)絡(luò)間的動(dòng)態(tài)調(diào)控差異節(jié)點(diǎn),表達(dá)式為:
其中
本發(fā)明的技術(shù)構(gòu)思為:分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對(duì)表達(dá)數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對(duì)不同癌癥亞型在用藥后的連續(xù)時(shí)序變化下的基因表達(dá)數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達(dá)差異性。
在基因表達(dá)數(shù)據(jù)的癌癥關(guān)聯(lián)基因特征提取后,完成癌癥亞型的聚類分析,針對(duì)不同的亞型聚類結(jié)果分別構(gòu)建對(duì)應(yīng)的基因調(diào)控網(wǎng)絡(luò)分析其差異性。本項(xiàng)目提出基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprnn)的基因調(diào)控網(wǎng)絡(luò)建模方法,利用深層循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)序處理特性,預(yù)測(cè)基因動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的節(jié)點(diǎn)度值與連邊權(quán)重。其次,縱向分析不同時(shí)間窗口中相同亞型調(diào)控網(wǎng)絡(luò)的節(jié)點(diǎn)與連邊變化,挖掘相關(guān)基因在癌癥演化過程中的調(diào)控功能,以及對(duì)病癥發(fā)展的后續(xù)階段進(jìn)行預(yù)測(cè)。最終,橫向分析不同亞型間的調(diào)控網(wǎng)絡(luò)差異,并對(duì)時(shí)間序列下的協(xié)同演化過程中的差異變化進(jìn)行生物學(xué)意義上的解釋,為個(gè)性化臨床治療方案提供科學(xué)合理的指導(dǎo)。
本發(fā)明的有益效果主要表現(xiàn)在:精確性較好。
附圖說明
圖1是基因表達(dá)動(dòng)態(tài)時(shí)序網(wǎng)絡(luò)及差異性演化分析示意圖。
圖2是基于deeprnn的基因調(diào)控時(shí)序網(wǎng)絡(luò)構(gòu)建框圖。
圖3是亞型內(nèi)部時(shí)序展開動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。
圖4是不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。
參照?qǐng)D1~圖4,一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動(dòng)態(tài)差異性分析方法,分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對(duì)表達(dá)數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對(duì)不同癌癥亞型在用藥后的連續(xù)時(shí)序變化下的基因表達(dá)數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達(dá)差異性;
如圖1所示,首先,在t0時(shí)刻的癌癥樣本被聚類為c1、c2、c3三種亞型,其余三個(gè)黑點(diǎn)表示奇異樣本。對(duì)于c1類簇,基于deeprnn的調(diào)控網(wǎng)絡(luò)構(gòu)建如藍(lán)色虛線框中的t0時(shí)刻網(wǎng)絡(luò),顯示根據(jù)a-h的8個(gè)信息基因構(gòu)建調(diào)控網(wǎng)絡(luò),并通過真陽率、假陽率、陽性預(yù)測(cè)率、準(zhǔn)確率對(duì)網(wǎng)絡(luò)性能進(jìn)行定量評(píng)價(jià);然后,在后續(xù)的數(shù)據(jù)流輸入后,網(wǎng)絡(luò)的節(jié)點(diǎn)度值、連邊權(quán)重值及節(jié)點(diǎn)位置發(fā)生遷移,得到了諸如t1、t2…tl的動(dòng)態(tài)演化調(diào)控網(wǎng)絡(luò),從而設(shè)計(jì)基于多層次動(dòng)力系統(tǒng)模型的分析方法揭示基因間調(diào)控過程中的邏輯關(guān)系;最后,進(jìn)行不同亞型在網(wǎng)絡(luò)間的橫向分析,對(duì)于不同亞型間的兩個(gè)基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點(diǎn)局部結(jié)構(gòu)特征的減法運(yùn)算,檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,得到差異網(wǎng)絡(luò)進(jìn)而鑒別關(guān)鍵樞紐基因,同時(shí)利用go信息和kegg通路功能富集性分析檢驗(yàn)所發(fā)現(xiàn)基因集的顯著性,最終識(shí)別出癌癥亞型相關(guān)控制基因作為進(jìn)一步生物實(shí)驗(yàn)的檢驗(yàn)標(biāo)記。
為了驗(yàn)證本項(xiàng)目提出的算法在處理真實(shí)癌癥基因表達(dá)數(shù)據(jù)的實(shí)時(shí)性、有效性和可靠性,并且獲得算法的優(yōu)化參數(shù),本項(xiàng)目將先對(duì)常用基因表達(dá)數(shù)據(jù)庫(如geo、tcga、smd、gxd、gent等)中的癌癥表達(dá)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行有針對(duì)性的分類與分析,驗(yàn)證算法性能。
所述基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動(dòng)態(tài)差異性分析方法包括以下步驟:
第一步、基于deeprnn的基因動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建
基因的表達(dá)具有時(shí)空性,是基因與外界環(huán)境相互作用的結(jié)果,會(huì)根據(jù)當(dāng)前的表達(dá)狀況決定未來的表達(dá),所以適合利用deeprnn的歷史記憶效應(yīng),學(xué)習(xí)訓(xùn)練隱藏層參數(shù),最終以矩陣形式輸出調(diào)控網(wǎng)絡(luò)權(quán)值。如圖2所示為按時(shí)序展開的循環(huán)神經(jīng)網(wǎng)絡(luò)的構(gòu)建及調(diào)控權(quán)重的訓(xùn)練過程。
基因表達(dá)數(shù)據(jù)表示為
1.1預(yù)處理。首先,提取亞型網(wǎng)絡(luò)之間的信息基因,一方面是因?yàn)闃颖镜倪^長輸入時(shí)間序列間隔會(huì)導(dǎo)致優(yōu)化時(shí)的“梯度彌散”問題;另一方面也是因?yàn)樵谀骋徽{(diào)控過程中的無關(guān)基因相當(dāng)于噪聲,使用強(qiáng)有力的控制基因能夠更好的挖掘調(diào)控關(guān)系。然后,將同一亞型內(nèi)部的樣本按照百分比隨機(jī)分為訓(xùn)練集80%,驗(yàn)證集10%,測(cè)試集10%。進(jìn)一步,將同一樣本的基因表達(dá)按照時(shí)間序列展開作為輸入向量:
1.2激活函數(shù)與損失函數(shù)。激活函數(shù)作為非線性處理單元(如sigmoid、tanh函數(shù)),實(shí)現(xiàn)的功能是將來自前一層的輸入線性組合結(jié)果動(dòng)態(tài)范圍壓縮到特定值域。為了緩解深度神經(jīng)網(wǎng)絡(luò)的“梯度彌散”問題,加快訓(xùn)練收斂速度,擬采用relu這類非飽和激活函數(shù)(值域?yàn)閇0,+∞)),公式如下:
其中
deeprnn由一個(gè)輸入層、一個(gè)或多個(gè)循環(huán)體隱藏層和一個(gè)輸出層組成。所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時(shí)刻的狀態(tài)與當(dāng)前時(shí)刻的輸入拼接成一個(gè)大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個(gè)單元的信號(hào)輸出
其中h是隱藏單元個(gè)數(shù),
其中m'表示訓(xùn)練樣本個(gè)數(shù),n表示每個(gè)訓(xùn)練樣本基因個(gè)數(shù),ωm(i,j)表示在t時(shí)刻樣本m中的基因gi對(duì)基因gj的作用效果,即連邊權(quán)重,
1.3dropout方法。dropout是對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行模型平均和正則化的技術(shù)。在訓(xùn)練過程中,對(duì)于每個(gè)訓(xùn)練樣本的隱藏單元及其邊緣將會(huì)以概率為p被暫時(shí)丟棄。因此前向傳播和后向傳播將在一個(gè)特別“薄”的稀疏網(wǎng)絡(luò)上進(jìn)行。對(duì)于deeprnn,一般只在同一時(shí)刻的不同層循環(huán)體之間使用dropout,即僅在同一時(shí)刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout,這樣能夠使得網(wǎng)絡(luò)更加健壯。參考相關(guān)文獻(xiàn),將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率。
1.4加速梯度優(yōu)化和權(quán)重初始化。擬采用動(dòng)量法進(jìn)行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進(jìn)行參數(shù)更新。對(duì)于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動(dòng)量計(jì)算公式如下:
其中,μ∈[0,1]是動(dòng)量系數(shù),η是學(xué)習(xí)率,在訓(xùn)練過程中隨著錯(cuò)誤率變化而不斷減小,使用動(dòng)量法在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)能夠提高收斂速度。深度網(wǎng)絡(luò)的權(quán)重使用歸一法進(jìn)行初始化,旨在穩(wěn)定訓(xùn)練過程中的激活和反向傳播梯度的差異。隱藏層單位的權(quán)重使用均勻分布進(jìn)行采樣,定義如下:
其中ni,no分別表示隱藏單元的扇入扇出個(gè)數(shù)。
1.5輸出。在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時(shí)刻的輸出后,將會(huì)使用另外一個(gè)全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)將當(dāng)前時(shí)刻的狀態(tài)轉(zhuǎn)化為最終的輸出。
第二步、基于亞型內(nèi)動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的時(shí)序變化演化分析
通過基因表達(dá)數(shù)據(jù)構(gòu)建動(dòng)態(tài)基因調(diào)控網(wǎng)絡(luò)來體現(xiàn)真實(shí)的動(dòng)態(tài)調(diào)控過程能夠更精準(zhǔn)地反映調(diào)控機(jī)理,理解基因之間的相互作用機(jī)制。如圖3所示為某一亞型樣本內(nèi)部的信息基因以時(shí)間序列展開后的動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。
定義c1亞型在t0時(shí)刻的有向加權(quán)圖拓?fù)浣Y(jié)構(gòu)表示為
網(wǎng)絡(luò)的拓?fù)鋵傩允敲枋鼍W(wǎng)絡(luò)本身及其內(nèi)部節(jié)點(diǎn)或邊結(jié)構(gòu)特征的測(cè)度。主要包括以下幾項(xiàng):
聚類系數(shù)。聚類系數(shù)體現(xiàn)了部分節(jié)點(diǎn)間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準(zhǔn)化的聚類系數(shù)被定義為:
其中kout表示節(jié)點(diǎn)v的出度,n表示所有v所指向的節(jié)點(diǎn)彼此存在的邊數(shù)。
介數(shù)。介數(shù)表明了一個(gè)節(jié)點(diǎn)在其他節(jié)點(diǎn)彼此連接中所起的作用,標(biāo)準(zhǔn)化至[0,1]區(qū)間的計(jì)算公式如下:
其中σij是節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短路徑條數(shù),σivj表示σij中通過節(jié)點(diǎn)v的路徑條數(shù)。介數(shù)越高,意味著節(jié)點(diǎn)在保持網(wǎng)絡(luò)連接緊密性中越重要。
緊密度。緊密度是描述一個(gè)節(jié)點(diǎn)到網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)平均距離的指標(biāo),可以定量衡量節(jié)點(diǎn)接近網(wǎng)絡(luò)“中心”的程度。節(jié)點(diǎn)v的緊密度cv計(jì)算公式如下:
其中dvj表示節(jié)點(diǎn)v到節(jié)點(diǎn)j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點(diǎn)越接近中心。
為了描述調(diào)控網(wǎng)絡(luò)的動(dòng)力學(xué)性質(zhì),基于網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋵傩宰兓跁r(shí)間序列上對(duì)時(shí)間窗口δt進(jìn)行微分展開,得到動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的時(shí)空演化測(cè)度γ'(·)的計(jì)算公式如下:
其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對(duì)應(yīng)指標(biāo)的影響權(quán)重。
通過分析動(dòng)態(tài)網(wǎng)絡(luò)在不同時(shí)刻的節(jié)點(diǎn)指標(biāo)(ccv、bv、cv),挖掘在不同時(shí)間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點(diǎn),解釋其在生命活動(dòng)過程中扮演的重要性。
第三步、基于亞型間動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析
亞型間的網(wǎng)絡(luò)分析是為了充分挖掘歷史表達(dá)數(shù)據(jù)的時(shí)空特性、調(diào)控的變化規(guī)律、以及調(diào)控網(wǎng)絡(luò)中節(jié)點(diǎn)和連邊的遷移演化,從而提高網(wǎng)絡(luò)建模算法的準(zhǔn)確度和可靠性,并對(duì)基因表達(dá)表達(dá)變化和網(wǎng)絡(luò)動(dòng)態(tài)演化進(jìn)行預(yù)測(cè)。如圖4所示為不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖,其中差異網(wǎng)絡(luò)是由不同亞型間的兩個(gè)基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點(diǎn)局部結(jié)構(gòu)特征的減法運(yùn)算得到的。
不同亞型網(wǎng)絡(luò)的演化分析包括動(dòng)力學(xué)分析、差異性分析和擾動(dòng)分析。
動(dòng)力學(xué)分析。由于基因表達(dá)數(shù)據(jù)采樣的時(shí)間間隔較長,使用差分方程對(duì)離散的網(wǎng)絡(luò)動(dòng)力學(xué)行為進(jìn)行分析。對(duì)于不同亞型的動(dòng)態(tài)調(diào)控網(wǎng)絡(luò),分析同一時(shí)間段關(guān)聯(lián)基因?qū)Φ墓?jié)點(diǎn)度值、連邊權(quán)重、表達(dá)變化量相對(duì)比率,動(dòng)力差異計(jì)算公式如下:
其中θ表示節(jié)點(diǎn)度值、連邊權(quán)重、表達(dá)變化量相對(duì)比率三項(xiàng)指標(biāo),
差異性分析。對(duì)相同時(shí)間窗口內(nèi)不同亞型間的兩個(gè)基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點(diǎn)局部結(jié)構(gòu)特征的減法運(yùn)算,檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,計(jì)算公式如下:
其中
擾動(dòng)控制分析。關(guān)鍵樞紐基因節(jié)點(diǎn)在細(xì)胞生化過程中具有以下特征:同功能中心,即該節(jié)點(diǎn)附近的基因?qū)儆谀愁惞δ艿幕蚣煌?qū)動(dòng)中心,即受到該節(jié)點(diǎn)表達(dá)調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能。對(duì)于關(guān)鍵樞紐節(jié)點(diǎn)的調(diào)控輸入一個(gè)隨機(jī)擾動(dòng)υper,對(duì)不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動(dòng)態(tài)調(diào)控差異節(jié)點(diǎn)。具體表達(dá)式為:
其中