本發(fā)明屬于人工智能在藥物發(fā)現(xiàn)場景中,更具體地說,涉及一種基于分子動力學(xué)模擬搭建四維特征的表示學(xué)習(xí)方法。
背景技術(shù):
1、分子性質(zhì)是化學(xué)和藥物發(fā)現(xiàn)領(lǐng)域的重要因素。計算機輔助方法能夠快速預(yù)測分子的性質(zhì),在特定實驗開始之前提供研究分子的概覽。這些方法被稱為定量結(jié)構(gòu)-活性關(guān)系或定量結(jié)構(gòu)-性質(zhì)關(guān)系模型。此外,隨著機器學(xué)習(xí)方法的發(fā)展,分子性質(zhì)預(yù)測的精度和速度也得到了提高。例如,圖卷積神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在藥物發(fā)現(xiàn)和分子分析中已變得流行。生成對抗網(wǎng)絡(luò)結(jié)合一些機器學(xué)習(xí)策略,如監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),也已應(yīng)用于新分子的生成和藥物設(shè)計。對比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)策略,常常用于處理沒有標(biāo)簽的數(shù)據(jù)集,已經(jīng)變得非常流行。然而,深度學(xué)習(xí)方法需要大型數(shù)據(jù)集來確定其大量的權(quán)重,對于小型數(shù)據(jù)集可能沒有競爭力。
2、于是,一些研究工作者開始在最初的分子描述符或分子表示上找尋方向。本質(zhì)上,分子表征方法的主要目標(biāo)是建立分子結(jié)構(gòu)和分子性質(zhì)之間的映射模型。比較典型的分子描述符是一維序列形式的smiles(simplified?molecular?input?line?entry?system)。在smiles中,原子和化學(xué)鍵分別用字母和標(biāo)點符號表示,分支用括號描述。分子指紋通常包含分子結(jié)構(gòu)信息。2d指紋主要有四種類型,即基于子結(jié)構(gòu)密鑰的指紋、基于拓撲或路徑的指紋、圓形指紋和藥團指紋。然而,2d指紋會丟失分子的3d結(jié)構(gòu)信息,尤其是立體化學(xué)描述。
3、為了解決上述問題,人們開發(fā)了基于3d結(jié)構(gòu)的代數(shù)圖指紋來捕獲分子的3d模式。生物學(xué)研究發(fā)現(xiàn)表明,分子內(nèi)部的原子和鍵是時刻運動著的,分子層面的分析也應(yīng)當(dāng)與動態(tài)的3d分子構(gòu)象有關(guān),而分子動力學(xué)模擬通常承擔(dān)著描述這一動態(tài)過程的責(zé)任。基于這種假設(shè),wu等人提出了首個基于蛋白質(zhì)大分子動態(tài)信息編碼的預(yù)訓(xùn)練模型protmd,從原子級和構(gòu)象級學(xué)習(xí)動態(tài)信息的蛋白質(zhì)表示,在藥物-蛋白質(zhì)親和力預(yù)測和配體功效預(yù)測任務(wù)上取得了顯著的成效。
4、因此,為了提高分子性質(zhì)預(yù)測的精度,值得嘗試學(xué)習(xí)小分子的動態(tài)3d信息,并開發(fā)一種基于分子動力學(xué)模擬搭建四維特征的表示學(xué)習(xí)方法。
技術(shù)實現(xiàn)思路
1、針對上述問題,本發(fā)明提出了一種基于分子動力學(xué)模擬搭建四維特征的表示學(xué)習(xí)方法,包括:
2、構(gòu)建數(shù)據(jù)集,包括以下步驟:構(gòu)建用于未來構(gòu)象預(yù)測的數(shù)據(jù)集、構(gòu)建用于原子掩蔽預(yù)測的數(shù)據(jù)集和構(gòu)建下游任務(wù)數(shù)據(jù)集;
3、構(gòu)建時空特征編碼框架,包括以下步驟:未來構(gòu)象預(yù)測預(yù)訓(xùn)練、原子掩蔽預(yù)測預(yù)訓(xùn)練和下游任務(wù)預(yù)測;
4、基于時空特征編碼框架對分子性質(zhì)進行預(yù)測。
5、進一步地,構(gòu)建用于未來構(gòu)象預(yù)測的數(shù)據(jù)集包括如下步驟:在保證分子量平衡的情況下,篩選出富含原子種類的化合物;使用amber工具處理分子,生成分子動力學(xué)軌跡數(shù)據(jù);進行數(shù)據(jù)處理,每個分子保留1k幀快照;
6、構(gòu)建用于原子掩蔽預(yù)測的數(shù)據(jù)集包括如下步驟:取樣分子用于進行原子掩蔽預(yù)測預(yù)訓(xùn)練,利用rdkit中的etkdg算法來獲得分子中原子的模擬三維坐標(biāo),并用merck分子力場進行能量最小化,以優(yōu)化分子的幾何結(jié)構(gòu),使其達到能量最低的穩(wěn)定狀態(tài);
7、構(gòu)建下游任務(wù)數(shù)據(jù)集包括如下步驟:從分子性質(zhì)預(yù)測基準數(shù)據(jù)集中選擇,包括從量子力學(xué)到生理學(xué)的分子性質(zhì)預(yù)測任務(wù),其中,對于不含3d坐標(biāo)的基準數(shù)據(jù)集,使用rdkit來生成分子中原子的模擬三維坐標(biāo)。
8、進一步地,未來構(gòu)象預(yù)測預(yù)訓(xùn)練,具體包括以下步驟:
9、利用處理好的分子動力學(xué)軌跡數(shù)據(jù)來預(yù)訓(xùn)練改進后的protmd組件;
10、基于訓(xùn)練后的改進后的protmd組件,以1到n個時間步長間隔均勻采樣分子時空序列中的數(shù)據(jù),分別訓(xùn)練得到n個改進后的protmd組件,得到n-protmd工具;
11、其中,預(yù)訓(xùn)練改進后的protmd組件,具體包括以下步驟:將分子化合物具有的原子個數(shù)記為m,定義獲取到的每個分子化合物的分子動力學(xué)軌跡都具有的時間步長為t,對于每個時間步長t∈[t],構(gòu)建以原子為節(jié)點,鍵為邊的分子圖g(t)=(v(t),e(t)),其中,原子包括3d坐標(biāo)x(t)∈rm×3和初始ψh維度旋轉(zhuǎn)平移不變特征并且定義分子時空序列為
12、將當(dāng)前時間幀的構(gòu)象記為g(t),下一個時間幀的構(gòu)象記為g(t+1),基于改進后的protmd組件訓(xùn)練預(yù)測構(gòu)象原子的空間位置,計算公式為:
13、
14、其中,p表示條件概率,通過編碼器fθ進行建模,l表示預(yù)測出下一個時間幀構(gòu)象坐標(biāo)的可能性,θ表示改進后的protmd組件的參數(shù)。
15、進一步地,原子掩蔽預(yù)測預(yù)訓(xùn)練,具體包括以下步驟:對分子中部分原子的類型用mask標(biāo)記隨機替換進行掩蔽;送入到tegn模型當(dāng)中得到被替換原子類型后的最終特征;增加一個前向網(wǎng)絡(luò)層用于預(yù)測被掩蔽原子的類型;其中,每個分子保證至少有一個原子被掩蔽,同時給原子數(shù)量不足的分子進行填充操作,用pad標(biāo)記表示填充的虛擬原子。
16、進一步地,下游任務(wù)預(yù)測,具體包括以下步驟:輸入當(dāng)前時刻的分子構(gòu)象,使用n-protmd工具將輸出多幀未來不同時間間隔后的分子構(gòu)象集合和聯(lián)合變換的隱藏特征;將特征饋送到卷積塊注意力殘差網(wǎng)絡(luò)做進一步的學(xué)習(xí);通過全連接層進行分子性質(zhì)預(yù)測;
17、其中,在分子構(gòu)象的字典策略中,添加10種基本元素,其余原子類型用unk標(biāo)記表示。
18、進一步地,n-protmd工具的構(gòu)建具體步驟包括:
19、對于protmd模型進行改進,使其適應(yīng)于分子性質(zhì)預(yù)測任務(wù);
20、將輸出第i幀構(gòu)象的改進后的protmd模型記為protmdi,將g(t)輸入到改進后的protmd模型中,并將時間跨度prompt的編碼向量與初始原子特征h(t)拼接,將拼接后的特征送入以egnn為骨干加入全局注意力機制的網(wǎng)絡(luò)層,得到第i幀構(gòu)象g(t+i)的原子空間坐標(biāo)x(t+i)和其潛在特征h(t+i),計算公式為:
21、h(t+i),x(t+i)=protmdi(h(t),x(t),hprompt)?????????????????(8)
22、把訓(xùn)練過的n個隱藏不同時間跨度編碼的改進后的protmd模型封裝成n-protmd工具,包括:當(dāng)輸入初始原子特征h(t)時,n-protmd工具輸出運動的分子構(gòu)象的原子坐標(biāo)與特征集合其中并把里的每個元素在新的維度上進行拼接,得到初始的分子時空特征
23、進一步地,改進后的protmd模型的構(gòu)建具體步驟包括:
24、對protmd模型網(wǎng)絡(luò)層進行定義,具體公式為:
25、
26、
27、
28、
29、其中,l表示網(wǎng)絡(luò)的第l層,x表示原子坐標(biāo),φe表示對原子間相對距離的操作,φh表示對節(jié)點的操作,i和j分別表示同一幾何構(gòu)象的節(jié)點序號,將圖內(nèi)消息和加入注意力機制的圖內(nèi)消息以及節(jié)點嵌入聚合,以獲得更新后的節(jié)點嵌入令φx=φm(mi→j)作為權(quán)重,對所有相對距離求和,φh表示對當(dāng)前節(jié)點進行隱式操作,與初始原子位置相加,輸出更新后的原子坐標(biāo)在更新原子特征時,使用注意力機制;其中,φd作用于原子間相對距離aj→i表示訓(xùn)練mlps的φq和φk的注意力權(quán)重,具體公式為:
30、
31、改進后的protmd模型以原子嵌入集合{h(t)}和3d坐標(biāo)集合{x(t)}為輸入,輸出下一個時間框架的{(x(t+i),h(t+i))},其中,i表示自定義的時間跨度。
32、進一步地,下游任務(wù)預(yù)測中,將特征饋送到卷積塊注意力殘差網(wǎng)絡(luò)做進一步的學(xué)習(xí),具體包括以下步驟:
33、在得到分子的時空特征后,卷積塊注意力推導(dǎo)出一維通道注意力權(quán)重mc∈rn×1×1和二維空間注意力權(quán)重ms∈r1×h×w,其中,特征通過卷積塊注意力的過程,具體公式為:
34、
35、
36、其中,表示逐元素的乘法,h'4d和h”4d分別表示通過一維通道注意力和二維空間注意力得到的特征結(jié)果;
37、為保證特征在傳播過程中不退化,使用殘差連接,得到如下公式:
38、
39、其中,表示逐元素的加法;
40、做層歸一化然后通過前饋層,并且再次使用殘差連接,具體公式為:
41、
42、
43、其中,feedforward表示前饋層,ln表示層歸一化操作;其中,前饋層通過多個神經(jīng)元的組合來捕獲更復(fù)雜的特征表示,和分別表示不同特征;
44、將特征傳播過程迭代3次,將h4d通過3層基于卷積塊注意力搭建的殘差連接網(wǎng)絡(luò);
45、用平均的方式縮減維度得到最終的分子特征用于通過全連接層進行分子性質(zhì)預(yù)測。
46、根據(jù)本發(fā)明的一個方面,提供一種存儲介質(zhì),所述存儲介質(zhì)中存儲有指令,當(dāng)計算機讀取所述指令時,使所述計算機執(zhí)行上述任一項所述的基于分子動力學(xué)模擬搭建四維特征的表示學(xué)習(xí)方法。
47、根據(jù)本發(fā)明的另一個方面,提供一種電子設(shè)備,包括處理器和上述的存儲介質(zhì),所述處理器執(zhí)行所述存儲介質(zhì)中的指令。
48、相比于現(xiàn)有技術(shù),本發(fā)明的有益效果如下:
49、1、設(shè)計了n-protmd工具,以分子動力學(xué)模擬技術(shù)驅(qū)動等變性,實現(xiàn)分子信息從3d模式到4d模式的轉(zhuǎn)換,n-protmd工具在接受初始分子構(gòu)象的輸入后,將能夠自動衍生出多幀具有時間依賴關(guān)系的分子構(gòu)象集合和其聯(lián)合變換的隱藏特征;
50、2、設(shè)計了卷積塊注意力殘差網(wǎng)絡(luò)來學(xué)習(xí)4d模式的分子信息,卷積塊注意力殘差網(wǎng)絡(luò)能夠較好地把握n-protmd工具輸出構(gòu)象的全局信息,捕捉到不同時刻下構(gòu)象的時間依賴關(guān)系。