国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法及裝置與流程

      文檔序號:39979795發(fā)布日期:2024-11-15 14:28閱讀:24來源:國知局
      一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法及裝置與流程

      本發(fā)明涉及生物醫(yī)藥,尤其涉及一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法及裝置。


      背景技術(shù):

      1、抗體設(shè)計(jì)是生物醫(yī)藥領(lǐng)域的重要研究方向之一。抗體是免疫系統(tǒng)中關(guān)鍵的防御工具,其主要功能是識別與中和外來病原體等抗原。通過精準(zhǔn)設(shè)計(jì)和優(yōu)化抗體序列,可以開發(fā)出針對特定抗原的高效治療手段。因此,抗體設(shè)計(jì)在治療癌癥、傳染病、自身免疫疾病等方面具有巨大的應(yīng)用潛力。

      2、抗體設(shè)計(jì)領(lǐng)域的技術(shù)主要包括傳統(tǒng)的實(shí)驗(yàn)方法和現(xiàn)代的計(jì)算方法。傳統(tǒng)抗體設(shè)計(jì)主要依賴于實(shí)驗(yàn)室篩選技術(shù),如噬菌體展示技術(shù)(phage?display)和單克隆抗體制備。這些方法通過大量的實(shí)驗(yàn)培育與篩選,找到與目標(biāo)抗原高效結(jié)合的抗體。然而,實(shí)驗(yàn)方法耗時耗力,成本高昂,且效率、成功率較低。

      3、近年來,隨著計(jì)算能力的提升和生物信息學(xué)的發(fā)展,計(jì)算方法在抗體設(shè)計(jì)中得到廣泛應(yīng)用。主要的計(jì)算方法包括分子動力學(xué)模擬、計(jì)算機(jī)輔助抗體工程以及深度學(xué)習(xí)方法。分子動力學(xué)模擬通過模擬抗體與抗原的相互作用,預(yù)測抗體的結(jié)合力和穩(wěn)定性,從而篩選合適的抗體。此方法需要高性能計(jì)算資源,模擬時間較長,且無法對未知抗原進(jìn)行優(yōu)化與設(shè)計(jì),屬于加速篩選過程。計(jì)算機(jī)輔助抗體工程則為了克服抗體性能低、未知抗體抵抗性差的問題,利用算法和數(shù)據(jù)庫,結(jié)合實(shí)驗(yàn)數(shù)據(jù),進(jìn)行抗體序列的設(shè)計(jì)和優(yōu)化。該方法可以提高抗體設(shè)計(jì)的效率,但依賴于現(xiàn)有數(shù)據(jù)的質(zhì)量和算法的優(yōu)化程度。深度學(xué)習(xí)方法的發(fā)展為計(jì)算機(jī)輔助抗體工程帶來新的進(jìn)展。近年來,深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測和設(shè)計(jì)方面取得了顯著進(jìn)展。例如,alphafold的成功展示了深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的巨大潛力。這類方法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,能夠快速預(yù)測抗體與抗原的結(jié)合模式,并生成優(yōu)化的抗體序列。相較于過去的退火算法、遺傳算法等,深度學(xué)習(xí)方法常常能夠設(shè)計(jì)出更加有效的抗體序列。

      4、盡管現(xiàn)有技術(shù)在抗體設(shè)計(jì)中取得了重要進(jìn)展,但仍存在以下幾個主要問題:

      5、計(jì)算成本高:無論是分子動力學(xué)模擬還是深度學(xué)習(xí)模型的訓(xùn)練,都需要大量的計(jì)算資源,這限制了大規(guī)模的應(yīng)用和普及,且需要專業(yè)的計(jì)算中心提供服務(wù)與支持。

      6、數(shù)據(jù)依賴性強(qiáng):計(jì)算方法的有效性在很大程度上依賴于樣本數(shù)據(jù)的質(zhì)量和數(shù)量?,F(xiàn)有數(shù)據(jù)庫中的抗體-抗原復(fù)合體數(shù)據(jù)可能存在偏差或不足,影響模型的設(shè)計(jì)有效性。

      7、序列多樣性不足:傳統(tǒng)和部分計(jì)算方法生成的抗體序列多樣性有限,可能無法設(shè)計(jì)出有效針對抗原結(jié)合位點(diǎn)的抗體,導(dǎo)致設(shè)計(jì)的抗體在實(shí)際應(yīng)用中效果不佳。

      8、模型的泛化能力有限:深度學(xué)習(xí)模型在樣本數(shù)據(jù)上的表現(xiàn)往往優(yōu)于在新數(shù)據(jù)上的表現(xiàn)。如何提高模型在新抗原上的泛化能力,是一個重要的研究方向。

      9、缺乏全面的評估體系:目前抗體設(shè)計(jì)的評估主要依賴于計(jì)算模擬和少量實(shí)驗(yàn)驗(yàn)證,缺乏系統(tǒng)化、全面的評估體系,難以有效評估設(shè)計(jì)抗體的功能和穩(wěn)定性。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法及裝置,通過引入擴(kuò)散深度學(xué)習(xí)、完善的數(shù)據(jù)預(yù)處理流程和模塊化設(shè)計(jì),旨在提高抗體序列生成的效率和準(zhǔn)確性,解決現(xiàn)有技術(shù)中的一些瓶頸問題。

      2、為達(dá)到上述目的,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的:

      3、第一方面,本發(fā)明提供了一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法,包括:

      4、初始化生成初始抗體cdr序列;所述初始抗體cdr序列為一個完全隨機(jī)的噪聲數(shù)據(jù);

      5、通過訓(xùn)練好的抗體序列生成器對所述初始抗體cdr序列進(jìn)行逐步去噪,在每步均生成一個目標(biāo)抗體cdr序列;

      6、將各個所述目標(biāo)抗體cdr序列分別與模版抗體序列拼合生成目標(biāo)抗體序列;

      7、通過蛋白質(zhì)結(jié)構(gòu)預(yù)測模型對各個所述目標(biāo)抗體序列進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測生成相應(yīng)的蛋白質(zhì)結(jié)構(gòu);

      8、將各個預(yù)測生成的所述蛋白質(zhì)結(jié)構(gòu)和用戶輸入的抗體抗原復(fù)合物數(shù)據(jù)中抗原的蛋白質(zhì)結(jié)構(gòu)進(jìn)行物理拼接,生成目標(biāo)抗原抗體復(fù)合物;

      9、采用抗原抗體結(jié)合性評價方法對各個所述目標(biāo)抗原抗體復(fù)合物進(jìn)行評價,篩選出最優(yōu)的目標(biāo)抗原抗體復(fù)合物,并輸出其對應(yīng)的目標(biāo)抗體序列。

      10、可選的,所述抗體序列生成器的訓(xùn)練包括:

      11、構(gòu)建深度學(xué)習(xí)擴(kuò)散生成模型,所述深度學(xué)習(xí)擴(kuò)散生成模型包括擴(kuò)散模型、殘基嵌入模塊以及殘基序列預(yù)測模塊;所述殘基嵌入模塊和所述殘基序列預(yù)測模塊構(gòu)成所述抗體序列生成器;

      12、獲取用于訓(xùn)練的抗體抗原復(fù)合物數(shù)據(jù),并進(jìn)行預(yù)處理,生成抗體抗原復(fù)合物樣本數(shù)據(jù);

      13、所述擴(kuò)散模型包括擴(kuò)散過程和逆擴(kuò)散過程,在擴(kuò)散過程中,對抗體抗原復(fù)合物樣本數(shù)據(jù)中的抗體cdr序列進(jìn)行逐步的隨機(jī)加噪操作,在逆擴(kuò)散過程中,通過所述抗體序列生成器對擴(kuò)散過程最終得到的抗體cdr序列進(jìn)行逐步的去噪操作;

      14、通過加噪操作生成的抗體cdr序列和所述抗體序列生成器生成的抗體cdr序列計(jì)算模型損失并反向傳播優(yōu)化所述抗體序列生成器的模型參數(shù),完成訓(xùn)練。

      15、可選的,所述訓(xùn)練的抗體抗原復(fù)合物數(shù)據(jù)的預(yù)處理包括:

      16、從所述抗體抗原復(fù)合物數(shù)據(jù)文件選取目標(biāo)抗原類型;

      17、對所述目標(biāo)抗原類型對應(yīng)的抗體序列進(jìn)行解析,判斷是否存在抗體fab區(qū)域、是否存在缺失值、是否存在多蛋白質(zhì)結(jié)構(gòu)構(gòu)象以及是否存在非常規(guī)氨基酸,并進(jìn)行修復(fù)處理;

      18、對修復(fù)處理后的抗體序列進(jìn)行調(diào)整處理生成抗體抗原復(fù)合物樣本數(shù)據(jù),所述調(diào)整處理包括氨基酸序號重排列、抗體序列浮點(diǎn)向量化、連續(xù)性檢查以及cdr區(qū)域標(biāo)記;

      19、通過序列分類器對抗體抗原復(fù)合物樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)分類,并根據(jù)分類結(jié)果構(gòu)建訓(xùn)練集和測試集。

      20、可選的,所述預(yù)處理后的抗體抗原復(fù)合物數(shù)據(jù)文件還需要進(jìn)行特征構(gòu)建,所述特征構(gòu)建包括對標(biāo)記的cdr區(qū)生成掩碼、抗原區(qū)域標(biāo)記、抗體隨機(jī)突變以及結(jié)合位點(diǎn)特征計(jì)算。

      21、可選的,所述殘基嵌入模塊包括第一特征提取單元、第二特征提取單元以及第三特征提取單元;

      22、所述第一特征提取單元包括依次連接的第一線性層、第一than層、恒等映射層、第二線性層以及第二than層;從所述抗體抗原復(fù)合物樣本數(shù)據(jù)中獲取二面角信息和位置編碼,并融合得到二面角結(jié)構(gòu)特征;將所述二面角結(jié)構(gòu)特征輸入第一特征提取單元中,生成結(jié)構(gòu)特征嵌入向量;

      23、所述第二特征提取單元包括第一嵌入層;從所述抗體抗原復(fù)合物樣本數(shù)據(jù)中獲取原子種類和位置編碼,并融合得到原子種類特征;將所述原子種類特征輸入第二特征提取單元,生成原子種類嵌入向量;

      24、所述第三特征提取單元包括第二嵌入層;從所述抗原抗體復(fù)合物樣本數(shù)據(jù)中獲取殘基種類和位置編碼,并融合得到殘基種類特征;將所述殘基種類特征輸入第三特征提取單元,生成殘基種類嵌入向量;

      25、通過廣播機(jī)制對齊所述結(jié)構(gòu)特征嵌入向量、所述原子種類嵌入向量以及所述殘基種類嵌入向量的維度,并相加生成序列特征嵌入向量。

      26、可選的,所述殘基序列預(yù)測模塊包括依次連接的多個transformer解碼器和預(yù)測器;

      27、所述transformer解碼器包括依次連接的多頭注意力層、第一層歸一化層、前饋神經(jīng)網(wǎng)絡(luò)層以及第二層歸一化層,且所述多頭注意力層的輸入和所述第一層歸一化層的輸出相加連接,所述前饋神經(jīng)網(wǎng)絡(luò)的輸入和所述第二層歸一化層的輸入相加連接;所述前饋神經(jīng)網(wǎng)絡(luò)層包括依次連接的放大線性層、第一relu層以及收縮線性層;

      28、所述預(yù)測器包括依次連接的第五線性層、第二relu層、第六線性層以及第三relu層;

      29、將所述殘基嵌入模塊獲取的序列特征嵌入向量輸入所述殘基序列預(yù)測模塊,生成抗體cdr序列。

      30、可選的,所述擴(kuò)散過程中隨機(jī)加噪操作是一種預(yù)定義的馬爾可夫鏈過程,其轉(zhuǎn)移概率為,分別為擴(kuò)散過程中的第步的抗體cdr序列;所述逆擴(kuò)散過程中去除噪聲的操作是一種參數(shù)化的馬爾可夫鏈過程,其轉(zhuǎn)移概率為,分別為逆擴(kuò)散過程中的第步的抗體cdr序列,為抗體序列生成器的模型參數(shù)。

      31、可選的,所述抗體序列生成器通過最大化變分下界來最小化模型損失;

      32、所述變分下界為:

      33、;

      34、式中,為在擴(kuò)散過程中第0步的抗體cdr序列所服從的近似后驗(yàn)分布的期望,將抗體抗原復(fù)合物樣本數(shù)據(jù)中的抗體cdr序列的概率分布作為近似后驗(yàn)分布;為在擴(kuò)散過程中第1步的抗體cdr序列在給定第0步的抗體cdr序列下的條件概率分布期望;為在逆擴(kuò)散過程中第0步的抗體cdr序列在給定第1步的抗體cdr序列下的條件概率分布的對數(shù)似然;為kl散度函數(shù),為在擴(kuò)散過程中第 t步的抗體cdr序列在給定抗體cdr序列下的條件概率分布, t為擴(kuò)散過程或逆擴(kuò)散過程中的總步數(shù);為預(yù)先設(shè)置的先驗(yàn)分布,將擴(kuò)散過程最終得到的抗體cdr序列的概率分布作為先驗(yàn)分布;為在擴(kuò)散過程中第步的抗體cdr序列在給定抗體cdr序列下的條件概率分布期望;為在擴(kuò)散過程中第步的抗體cdr序列在給定抗體cdr序列下的條件概率分布;為在逆擴(kuò)散過程中第步的抗體cdr序列在給定第步的抗體cdr序列下的條件概率分布;

      35、基于所述變分下界構(gòu)建模型損失的損失函數(shù):

      36、;

      37、式中,為超參數(shù),為在逆擴(kuò)散過程中抗體cdr序列在給定抗體cdr序列下的條件概率分布的對數(shù)似然。

      38、第二方面,本發(fā)明提供了一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成裝置,包括:

      39、初始化模塊,被配置為初始化生成初始抗體cdr序列;所述初始抗體cdr序列為一個完全隨機(jī)的噪聲數(shù)據(jù);

      40、目標(biāo)生成模塊,被配置為通過訓(xùn)練好的抗體序列生成器對所述初始抗體cdr序列進(jìn)行逐步去噪,在每步均生成一個目標(biāo)抗體cdr序列;將各個所述目標(biāo)抗體cdr序列分別與模版抗體序列拼合生成目標(biāo)抗體序列;

      41、結(jié)構(gòu)預(yù)測模塊,被配置為通過蛋白質(zhì)結(jié)構(gòu)預(yù)測模型對各個所述目標(biāo)抗體序列進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測生成相應(yīng)的蛋白質(zhì)結(jié)構(gòu);

      42、物理拼接模塊,被配置為將各個預(yù)測生成的所述蛋白質(zhì)結(jié)構(gòu)和用戶輸入的抗體抗原復(fù)合物數(shù)據(jù)中抗原的蛋白質(zhì)結(jié)構(gòu)進(jìn)行物理拼接,生成目標(biāo)抗原抗體復(fù)合物;

      43、抗體篩選模塊,被配置為采用抗原抗體結(jié)合性評價方法對各個所述目標(biāo)抗原抗體復(fù)合物進(jìn)行評價,篩選出最優(yōu)的目標(biāo)抗原抗體復(fù)合物,并輸出其對應(yīng)的目標(biāo)抗體序列。

      44、第三方面,本發(fā)明提供了一種電子設(shè)備,包括處理器及存儲介質(zhì);

      45、所述存儲介質(zhì)用于存儲指令;

      46、所述處理器用于根據(jù)所述指令進(jìn)行操作以執(zhí)行根據(jù)上述方法的步驟。

      47、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果:

      48、本發(fā)明提供了一種基于深度學(xué)習(xí)擴(kuò)散生成的抗體序列生成方法及裝置,1)通過基于擴(kuò)散深度學(xué)習(xí)的抗體序列生成器進(jìn)行抗體cdr序列生成,再與模版抗體序列拼合生成需要的目標(biāo)抗體序列,序列生成過程高效準(zhǔn)確;再基于目標(biāo)抗體序列生成目標(biāo)抗原抗體復(fù)合物,通過抗原抗體結(jié)合性評價方法進(jìn)行篩選,得到最終需要的目標(biāo)抗體序列。2)在擴(kuò)散深度學(xué)習(xí)過程中,通過正向和逆向擴(kuò)散過程,能夠逐步去除噪聲,從而生成與輸入數(shù)據(jù)分布匹配的抗體cdr序列。這種方法能夠生成更高質(zhì)量的序列,且訓(xùn)練過程能夠更穩(wěn)定地優(yōu)化模型參數(shù)。3)通過殘基嵌入模塊和殘基序列預(yù)測模塊,能夠精確預(yù)測抗體序列。殘基嵌入模塊利用蛋白質(zhì)分子結(jié)構(gòu)和種類特征進(jìn)行殘基嵌入,結(jié)合transformer?decoder多層堆疊處理,使得預(yù)測器能夠更好地工作。4)通過詳細(xì)的數(shù)據(jù)預(yù)處理和特征提取步驟,確保輸入數(shù)據(jù)的質(zhì)量和一致性,從而提高模型訓(xùn)練的效果和生成序列的準(zhǔn)確性。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1