本文描述的主題一般涉及蛋白質(zhì)設(shè)計(jì),并且更具體地涉及用于設(shè)計(jì)其中保留一個(gè)或多個(gè)區(qū)段的蛋白質(zhì)序列的技術(shù)。
背景技術(shù):
1、蛋白質(zhì)負(fù)責(zé)許多重要的細(xì)胞功能,包括例如酶促反應(yīng)、分子運(yùn)輸、許多生物學(xué)途徑的調(diào)節(jié)和執(zhí)行、細(xì)胞生長、增殖、營養(yǎng)物攝取、形態(tài)、運(yùn)動(dòng)、細(xì)胞間通訊等。蛋白質(zhì)結(jié)構(gòu)可以包括一個(gè)或多個(gè)多肽,其是通過肽鍵連接在一起的氨基酸殘基鏈。形成蛋白質(zhì)結(jié)構(gòu)的多肽鏈中的氨基酸殘基序列決定了蛋白質(zhì)的三維結(jié)構(gòu)(例如,蛋白質(zhì)的三級(jí)結(jié)構(gòu))。此外,形成蛋白質(zhì)的多肽鏈中的氨基酸序列決定了蛋白質(zhì)的基本功能。因此,從頭蛋白質(zhì)設(shè)計(jì)的主要目標(biāo)包括構(gòu)建一個(gè)或多個(gè)表現(xiàn)出某些特征的氨基酸殘基序列。例如,在大分子藥物發(fā)現(xiàn)的情況下,從頭蛋白質(zhì)設(shè)計(jì)通常會(huì)尋求標(biāo)識(shí)能夠與抗原(諸如病毒抗原、腫瘤抗原等)結(jié)合的氨基酸殘基(例如,抗體等)的序列。
技術(shù)實(shí)現(xiàn)思路
1、提供了用于區(qū)段保留蛋白質(zhì)設(shè)計(jì)的系統(tǒng)、方法和制品,包括計(jì)算機(jī)程序產(chǎn)品。在一些示例性實(shí)施例中,提供了一種包括至少一個(gè)處理器和至少一個(gè)存儲(chǔ)器的系統(tǒng)。該至少一個(gè)存儲(chǔ)器可以包括程序代碼,該程序代碼在由至少一個(gè)處理器執(zhí)行時(shí)提供操作。該操作可以包括:在具有第一殘基序列的蛋白質(zhì)結(jié)構(gòu)內(nèi)確定第一固定區(qū)段和第一可調(diào)整區(qū)段;標(biāo)識(shí)與該蛋白質(zhì)結(jié)構(gòu)相關(guān)聯(lián)的期望的特性;使用蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成第二殘基序列,該第二殘基序列包含對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;以及使用該蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成具有該第二殘基序列的經(jīng)修飾的蛋白質(zhì)結(jié)構(gòu)。
2、在一些變型中,本文公開的包括以下特征的一個(gè)或多個(gè)特征可以任選地包括在任何可行的組合中。蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括經(jīng)訓(xùn)練以生成第二殘基序列的機(jī)器學(xué)習(xí)模型。
3、在一些變型中,機(jī)器學(xué)習(xí)模型可以借由至少對(duì)通過訓(xùn)練學(xué)習(xí)的數(shù)據(jù)分布進(jìn)行采樣來生成第二殘基序列。
4、在一些變型中,對(duì)數(shù)據(jù)分布的采樣可以包括通過修飾第一可調(diào)整區(qū)段來生成經(jīng)破壞的序列,對(duì)經(jīng)破壞的序列進(jìn)行編碼以生成編碼,該編碼具有對(duì)應(yīng)于編碼中存在的殘基數(shù)量的長度,通過改變經(jīng)破壞的序列的編碼的長度同時(shí)保持第一固定區(qū)段的長度來生成中間序列,以及至少基于中間序列的解碼來生成第二殘基序列。
5、在一些變型中,可以在不修飾包括在第一殘基序列中的第一固定區(qū)段的情況下生成經(jīng)破壞的序列。
6、在一些變型中,第二殘基序列可以包括第一固定區(qū)段。
7、在一些變型中,中間序列的解碼可以至少基于標(biāo)識(shí)中間序列內(nèi)的第一固定區(qū)段的索引圖來生成
8、在一些變型中,中間序列的解碼可以包括針對(duì)中間序列內(nèi)的每個(gè)位置,跨越可能的氨基酸殘基的詞匯表確定概率分布。
9、在一些變型中,可以通過應(yīng)用自回歸建模、非自回歸建模和條件隨機(jī)場(chǎng)中的一者或多者來確定概率分布。
10、在一些變型中,操作可以進(jìn)一步包括:在具有第一殘基序列的蛋白質(zhì)結(jié)構(gòu)內(nèi)確定第二固定區(qū)段;以及對(duì)數(shù)據(jù)分布進(jìn)行采樣來生成第二殘基序列以包括第一固定區(qū)段和第二固定區(qū)段。
11、在一些變型中,對(duì)數(shù)據(jù)分布的采樣可以包括通過修飾第一可調(diào)整區(qū)段來生成經(jīng)破壞的序列,其中經(jīng)破壞的序列包括經(jīng)修飾的第一可調(diào)整區(qū)段、第一固定區(qū)段和第二固定區(qū)段;通過改變經(jīng)破壞的序列的編碼的長度同時(shí)保持第一固定區(qū)段或第二固定區(qū)段的長度來生成中間序列;生成索引圖以標(biāo)識(shí)中間序列內(nèi)的第一固定區(qū)段和第二固定區(qū)段;以及通過基于索引圖對(duì)中間序列進(jìn)行解碼來生成第二殘基序列以包括第一固定區(qū)段和第二固定區(qū)段。
12、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以借由至少改變第一可調(diào)整區(qū)段的第一長度和/或改變第二可調(diào)整區(qū)段的第二長度而分布于第一可調(diào)整區(qū)段和第二可調(diào)整區(qū)段。
13、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以基于第一殘基序列與第二殘基序列之間的可能長度差異的概率分布來確定。
14、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以與第一可調(diào)整區(qū)段的第一長度和第二可調(diào)整區(qū)段的第二長度成比例地分布。
15、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以隨機(jī)分布于第一可調(diào)整區(qū)段和第二可調(diào)整區(qū)段。
16、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以分布至第一可調(diào)整區(qū)段而不是第二可調(diào)整區(qū)段,使得第二可調(diào)整第二區(qū)段的第二長度被保留。
17、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以通過將不大于最大長度變化和/或不小于最小長度變化應(yīng)用于第一可調(diào)整區(qū)段的第一長度和第二可調(diào)整區(qū)段的第二長度中的至少一者來分布。
18、在一些變型中,第一殘基序列可以包括抗體。第一區(qū)段可以包括抗體的互補(bǔ)決定區(qū)(cdr)或抗體的非互補(bǔ)決定區(qū)。
19、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型的輸入可以包括一個(gè)或多個(gè)標(biāo)識(shí)符,以使得能夠在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分與第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分之間進(jìn)行區(qū)分。
20、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型的輸入可以進(jìn)一步包括一個(gè)或多個(gè)標(biāo)識(shí)符,以使得能夠在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分,第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分,以及第一序列的對(duì)應(yīng)于對(duì)抗體具有已知結(jié)合親和力的抗原的第三部分之間進(jìn)行區(qū)分。
21、在一些變型中,第一序列的第三部分可以包括固定區(qū)段和/或可調(diào)整區(qū)段。
22、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以基于一個(gè)或多個(gè)標(biāo)識(shí)符生成第二殘基序列,使得包括在第二殘基序列中的第一固定區(qū)段存在于與第一殘基序列相同的鏈中。
23、在一些變型中,一個(gè)或多個(gè)標(biāo)識(shí)符可以包括在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分與第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分之間的標(biāo)記。
24、在一些變型中,一個(gè)或多個(gè)標(biāo)識(shí)符可以包括標(biāo)識(shí)抗體的重鏈中每個(gè)殘基的第一標(biāo)簽和標(biāo)識(shí)抗體的輕鏈中每個(gè)殘基的第二標(biāo)簽。
25、在一些變型中,破壞可以包括以下項(xiàng)中的至少一者:將殘基插入到第一可調(diào)整區(qū)段中,使殘基從第一可調(diào)整區(qū)段中缺失,以及修飾存在于第一可調(diào)整區(qū)段中的殘基。
26、在一些變型中,數(shù)據(jù)分布可以與對(duì)應(yīng)于多個(gè)已知蛋白質(zhì)序列的數(shù)據(jù)的降維表示相對(duì)應(yīng)。多個(gè)殘基序列的至少一部分可以與一種或多種已知功能相關(guān)聯(lián)。
27、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括自動(dòng)編碼器。
28、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括去噪自動(dòng)編碼器(dae)。
29、在一些變型中,可以至少基于第一固定區(qū)段與期望的特性相關(guān)聯(lián)來確定第一固定區(qū)段。
30、在一些變型中,操作可以進(jìn)一步包括:進(jìn)行結(jié)構(gòu)分析和功能分析中的一者或多者以確定第二殘基序列表現(xiàn)出期望的特性。
31、在一些變型中,操作可以進(jìn)一步包括:生成包括第一固定區(qū)段和第一可調(diào)整區(qū)段的第一殘基序列的固定長度表示;以及應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型以借由至少將破壞和長度變化中的至少一者應(yīng)用于包括在第一殘基序列的固定長度表示中的第一可調(diào)整區(qū)段來生成第二殘基序列。
32、在一些變型中,第一殘基序列的固定長度表示可以借由至少至少基于包括多個(gè)已知蛋白質(zhì)序列的多序列比對(duì)確定具有多個(gè)整數(shù)位置的全局索引,以及至少基于與第一殘基序列比對(duì)的全局索引將來自多個(gè)整數(shù)位置的對(duì)應(yīng)整數(shù)位置分配給包括在第一殘基序列中的每個(gè)殘基來生成。
33、在一些變型中,輸入序列的固定長度表示可以在每個(gè)整數(shù)位置處包括間隙字符,其中第一殘基序列未能在該整數(shù)位置處包括對(duì)應(yīng)的殘基。
34、在另一方面,提供了一種用于區(qū)段保留蛋白質(zhì)設(shè)計(jì)的方法。該方法可以包括:在具有第一殘基序列的蛋白質(zhì)結(jié)構(gòu)內(nèi)確定第一固定區(qū)段和第一可調(diào)整區(qū)段;標(biāo)識(shí)與該蛋白質(zhì)結(jié)構(gòu)相關(guān)聯(lián)的期望的特性;使用蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成第二殘基序列,該第二殘基序列包含對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;以及使用該蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成具有該第二殘基序列的經(jīng)修飾的蛋白質(zhì)結(jié)構(gòu)。
35、在一些變型中,本文公開的包括以下特征的一個(gè)或多個(gè)特征可以任選地包括在任何可行的組合中。蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括經(jīng)訓(xùn)練以生成第二殘基序列的機(jī)器學(xué)習(xí)模型。
36、在一些變型中,機(jī)器學(xué)習(xí)模型可以借由至少對(duì)通過訓(xùn)練學(xué)習(xí)的數(shù)據(jù)分布進(jìn)行采樣來生成第二殘基序列。
37、在一些變型中,對(duì)數(shù)據(jù)分布的采樣可以包括通過修飾第一可調(diào)整區(qū)段來生成經(jīng)破壞的序列,對(duì)經(jīng)破壞的序列進(jìn)行編碼以生成編碼,該編碼具有對(duì)應(yīng)于編碼中存在的殘基數(shù)量的長度,通過改變經(jīng)破壞的序列的編碼的長度同時(shí)保持第一固定區(qū)段的長度來生成中間序列,以及至少基于中間序列的解碼來生成第二殘基序列。
38、在一些變型中,可以在不修飾包括在第一殘基序列中的第一固定區(qū)段的情況下生成經(jīng)破壞的序列。
39、在一些變型中,第二殘基序列可以包括第一固定區(qū)段。
40、在一些變型中,中間序列的解碼可以至少基于標(biāo)識(shí)中間序列內(nèi)的第一固定區(qū)段的索引圖來生成
41、在一些變型中,中間序列的解碼可以包括針對(duì)中間序列內(nèi)的每個(gè)位置,跨越可能的氨基酸殘基的詞匯表確定概率分布。
42、在一些變型中,可以通過應(yīng)用自回歸建模、非自回歸建模和條件隨機(jī)場(chǎng)中的一者或多者來確定概率分布。
43、在一些變型中,該方法可以進(jìn)一步包括:在具有第一殘基序列的蛋白質(zhì)結(jié)構(gòu)內(nèi)確定第二固定區(qū)段;以及對(duì)數(shù)據(jù)分布進(jìn)行采樣來生成第二殘基序列以包括第一固定區(qū)段和第二固定區(qū)段。
44、在一些變型中,對(duì)數(shù)據(jù)分布的采樣可以包括通過修飾第一可調(diào)整區(qū)段來生成經(jīng)破壞的序列,其中經(jīng)破壞的序列包括經(jīng)修飾的第一可調(diào)整區(qū)段、第一固定區(qū)段和第二固定區(qū)段;通過改變經(jīng)破壞的序列的編碼的長度同時(shí)保持第一固定區(qū)段或第二固定區(qū)段的長度來生成中間序列;生成索引圖以標(biāo)識(shí)中間序列內(nèi)的第一固定區(qū)段和第二固定區(qū)段;以及通過基于索引圖對(duì)中間序列進(jìn)行解碼來生成第二殘基序列以包括第一固定區(qū)段和第二固定區(qū)段。
45、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以借由至少改變第一可調(diào)整區(qū)段的第一長度和/或改變第二可調(diào)整區(qū)段的第二長度而分布于第一可調(diào)整區(qū)段和第二可調(diào)整區(qū)段。
46、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以基于第一殘基序列與第二殘基序列之間的可能長度差異的概率分布來確定。
47、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以與第一可調(diào)整區(qū)段的第一長度和第二可調(diào)整區(qū)段的第二長度成比例地分布。
48、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以隨機(jī)分布于第一可調(diào)整區(qū)段和第二可調(diào)整區(qū)段。
49、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以分布至第一可調(diào)整區(qū)段而不是第二可調(diào)整區(qū)段,使得第二可調(diào)整第二區(qū)段的第二長度被保留。
50、在一些變型中,第一殘基序列的第一長度與第二殘基序列的第二長度之間的差異可以通過將不大于最大長度變化和/或不小于最小長度變化應(yīng)用于第一可調(diào)整區(qū)段的第一長度和第二可調(diào)整區(qū)段的第二長度中的至少一者來分布。
51、在一些變型中,第一殘基序列可以包括抗體。第一區(qū)段可以包括抗體的互補(bǔ)決定區(qū)(cdr)或抗體的非互補(bǔ)決定區(qū)。
52、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型的輸入可以包括一個(gè)或多個(gè)標(biāo)識(shí)符,以使得能夠在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分與第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分之間進(jìn)行區(qū)分。
53、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型的輸入可以進(jìn)一步包括一個(gè)或多個(gè)標(biāo)識(shí)符,以使得能夠在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分,第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分,以及第一序列的對(duì)應(yīng)于對(duì)抗體具有已知結(jié)合親和力的抗原的第三部分之間進(jìn)行區(qū)分。
54、在一些變型中,第一序列的第三部分可以包括固定區(qū)段和/或可調(diào)整區(qū)段。
55、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以基于一個(gè)或多個(gè)標(biāo)識(shí)符生成第二殘基序列,使得包括在第二殘基序列中的第一固定區(qū)段存在于與第一殘基序列相同的鏈中。
56、在一些變型中,一個(gè)或多個(gè)標(biāo)識(shí)符可以包括在第一序列的對(duì)應(yīng)于抗體的重鏈的第一部分與第一序列的對(duì)應(yīng)于抗體的輕鏈的第二部分之間的標(biāo)記。
57、在一些變型中,一個(gè)或多個(gè)標(biāo)識(shí)符可以包括標(biāo)識(shí)抗體的重鏈中每個(gè)殘基的第一標(biāo)簽和標(biāo)識(shí)抗體的輕鏈中每個(gè)殘基的第二標(biāo)簽。
58、在一些變型中,破壞可以包括以下項(xiàng)中的至少一者:將殘基插入到第一可調(diào)整區(qū)段中,使殘基從第一可調(diào)整區(qū)段中缺失,以及修飾存在于第一可調(diào)整區(qū)段中的殘基。
59、在一些變型中,數(shù)據(jù)分布可以與對(duì)應(yīng)于多個(gè)已知蛋白質(zhì)序列的數(shù)據(jù)的降維表示相對(duì)應(yīng)。多個(gè)殘基序列的至少一部分可以與一種或多種已知功能相關(guān)聯(lián)。
60、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括自動(dòng)編碼器。
61、在一些變型中,蛋白質(zhì)設(shè)計(jì)計(jì)算模型可以包括去噪自動(dòng)編碼器(dae)。
62、在一些變型中,可以至少基于第一固定區(qū)段與期望的特性相關(guān)聯(lián)來確定第一固定區(qū)段。
63、在一些變型中,該方法可以進(jìn)一步包括:進(jìn)行結(jié)構(gòu)分析和功能分析中的一者或多者以確定第二殘基序列表現(xiàn)出期望的特性。
64、在一些變型中,操作可以進(jìn)一步包括:生成包括第一固定區(qū)段和第一可調(diào)整區(qū)段的第一殘基序列的固定長度表示;以及應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型以借由至少將破壞和長度變化中的至少一者應(yīng)用于包括在第一殘基序列的固定長度表示中的第一可調(diào)整區(qū)段來生成第二殘基序列。
65、在一些變型中,至少基于包括多個(gè)已知蛋白質(zhì)序列的多序列比對(duì)確定具有多個(gè)整數(shù)位置的全局索引,以及至少基于與第一殘基序列比對(duì)的全局索引將來自多個(gè)整數(shù)位置的對(duì)應(yīng)整數(shù)位置分配給包括在第一殘基序列中的每個(gè)殘基。
66、在一些變型中,輸入序列的固定長度表示可以在每個(gè)整數(shù)位置處包括間隙字符,其中第一蛋白質(zhì)序列未能在該整數(shù)位置處包括對(duì)應(yīng)的殘基。
67、在另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,其包括存儲(chǔ)指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)。該指令可以引起可以由至少一個(gè)數(shù)據(jù)處理器執(zhí)行的操作。該操作可以包括:在具有第一殘基序列的蛋白質(zhì)結(jié)構(gòu)內(nèi)確定第一固定區(qū)段和第一可調(diào)整區(qū)段;標(biāo)識(shí)與該蛋白質(zhì)結(jié)構(gòu)相關(guān)聯(lián)的期望的特性;使用蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成第二殘基序列,該第二殘基序列包含對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;以及使用該蛋白質(zhì)設(shè)計(jì)計(jì)算模型生成具有該第二殘基序列的經(jīng)修飾的蛋白質(zhì)結(jié)構(gòu)。
68、在另一方面,提供了一種包括至少一個(gè)數(shù)據(jù)處理器和至少一個(gè)存儲(chǔ)器的系統(tǒng)。該至少一個(gè)存儲(chǔ)器可以存儲(chǔ)指令,該指令在由該至少一個(gè)數(shù)據(jù)處理器執(zhí)行時(shí)引起操作。該操作可以包括:在具有第一殘基序列的第一抗體內(nèi)標(biāo)識(shí)與該第一抗體的第一期望的特性相關(guān)聯(lián)的第一固定區(qū)段;生成第二殘基序列以包括第一固定區(qū)段和第一可調(diào)整區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括第一固定區(qū)段以及對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定由第三殘基序列表現(xiàn)出的第二期望的特性;以及至少基于第三殘基序列的第二期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二抗體。
69、在另一方面,提供了一種方法,該方法包括:在具有第一殘基序列的第一抗體內(nèi)標(biāo)識(shí)與該第一抗體的第一期望的特性相關(guān)聯(lián)的第一固定區(qū)段;生成第二殘基序列以包括第一固定區(qū)段和第一可調(diào)整區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括第一固定區(qū)段以及對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定由第三殘基序列表現(xiàn)出的第二期望的特性;以及至少基于第三殘基序列的第二期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二抗體。
70、在另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,其包括存儲(chǔ)指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)。該指令可以引起可以由至少一個(gè)數(shù)據(jù)處理器執(zhí)行的操作。該操作可以包括:在具有第一殘基序列的第一抗體內(nèi)標(biāo)識(shí)與該第一抗體的第一期望的特性相關(guān)聯(lián)的第一固定區(qū)段;生成第二殘基序列以包括第一固定區(qū)段和第一可調(diào)整區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括第一固定區(qū)段以及對(duì)第一可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定由第三殘基序列表現(xiàn)出的第二期望的特性;以及至少基于第三殘基序列的第二期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二抗體。
71、在方法、系統(tǒng)、非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)以及計(jì)算機(jī)實(shí)現(xiàn)的方法的一些變型中,本文公開的包括以下特征的一個(gè)或多個(gè)特征任選地包括在任何可行的組合中。
72、在一些變型中,可以應(yīng)用特性預(yù)測(cè)模型來確定由第三殘基序列表現(xiàn)出的第一期望的特性。具有第三殘基序列的第二抗體可以至少基于第三殘基序列的第一期望的特性滿足一個(gè)或多個(gè)閾值來生成。
73、在一些變型中,第一期望的特性可以是對(duì)靶分子的結(jié)合親和力,并且第二期望的特性可以是表達(dá)、非特異性、穩(wěn)定性、非免疫原性、人性和自締合中的一者或多者。
74、在一些變型中,第一抗體可以為非人抗體。
75、在一些變型中,第一固定區(qū)段可以包括第一抗體的互補(bǔ)決定區(qū)(cdr)。
76、在一些變型中,第一固定區(qū)段可以包括第一抗體中的一個(gè)或多個(gè)游標(biāo)區(qū)殘基。
77、在一些變型中,第一可調(diào)整區(qū)段可以包括隨機(jī)生成的氨基酸殘基序列。
78、在一些變型中,第一可調(diào)整區(qū)段可以包括人抗體的框架區(qū)。
79、在一些變型中,第一可調(diào)整區(qū)段可以包括不具有一個(gè)或多個(gè)游標(biāo)區(qū)殘基的人抗體的框架區(qū)。
80、在一些變型中,可以在具有第一殘基序列的第一抗體內(nèi)標(biāo)識(shí)與第一抗體的第一期望的特性相關(guān)聯(lián)的第二固定區(qū)段??梢陨傻诙埢蛄幸园ǖ诙潭▍^(qū)段??梢詰?yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括第一固定區(qū)段和第二固定區(qū)段。
81、在一些變型中,可以生成第二殘基序列以包括第二可調(diào)整區(qū)段。可以應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以進(jìn)一步包括對(duì)第一可調(diào)整區(qū)段和/或第二可調(diào)整區(qū)段的破壞和長度變化中的至少一者。
82、在一些變型中,長度變化可以分布于第一可調(diào)整區(qū)段和第二可調(diào)整區(qū)段。
83、在另一方面,提供了一種包括至少一個(gè)數(shù)據(jù)處理器和至少一個(gè)存儲(chǔ)器的系統(tǒng)。該至少一個(gè)存儲(chǔ)器可以存儲(chǔ)指令,該指令在由該至少一個(gè)數(shù)據(jù)處理器執(zhí)行時(shí)引起操作。該操作可以包括:在具有第一殘基序列的第一蛋白質(zhì)結(jié)構(gòu)內(nèi)標(biāo)識(shí)與第一蛋白質(zhì)結(jié)構(gòu)的一種或多種不期望的特性相關(guān)聯(lián)的可調(diào)整區(qū)段;生成第二殘基序列以包括可調(diào)整區(qū)段和固定區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括固定區(qū)段以及對(duì)可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定第三殘基序列表現(xiàn)出的一種或多種不期望的特性;以及至少基于第三殘基序列的一種或多種不期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二蛋白質(zhì)結(jié)構(gòu)。
84、在另一方面,提供了一種方法,該方法包括:在具有第一殘基序列的第一蛋白質(zhì)結(jié)構(gòu)內(nèi)標(biāo)識(shí)與第一蛋白質(zhì)結(jié)構(gòu)的一種或多種不期望的特性相關(guān)聯(lián)的可調(diào)整區(qū)段;生成第二殘基序列以包括可調(diào)整區(qū)段和固定區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括固定區(qū)段以及對(duì)可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定第三殘基序列表現(xiàn)出的一種或多種不期望的特性;以及至少基于第三殘基序列的一種或多種不期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二蛋白質(zhì)結(jié)構(gòu)。
85、在另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,其包括存儲(chǔ)指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)。該指令可以引起可以由至少一個(gè)數(shù)據(jù)處理器執(zhí)行的操作。該操作可以包括:在具有第一殘基序列的第一蛋白質(zhì)結(jié)構(gòu)內(nèi)標(biāo)識(shí)與第一蛋白質(zhì)結(jié)構(gòu)的一種或多種不期望的特性相關(guān)聯(lián)的可調(diào)整區(qū)段;生成第二殘基序列以包括可調(diào)整區(qū)段和固定區(qū)段;應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型來生成第三殘基序列以包括固定區(qū)段以及對(duì)可調(diào)整區(qū)段的破壞和長度變化中的至少一者;應(yīng)用特性預(yù)測(cè)模型以確定第三殘基序列表現(xiàn)出的一種或多種不期望的特性;以及至少基于第三殘基序列的一種或多種不期望的特性滿足一個(gè)或多個(gè)閾值來生成具有第三殘基序列的第二蛋白質(zhì)結(jié)構(gòu)。
86、在方法、系統(tǒng)、非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)以及計(jì)算機(jī)實(shí)現(xiàn)的方法的一些變型中,本文公開的包括以下特征的一個(gè)或多個(gè)特征任選地包括在任何可行的組合中。
87、在一些變型中,可調(diào)整區(qū)段可以包括與一種或多種不期望的特性相關(guān)聯(lián)的氨基酸殘基或氨基酸殘基模式。
88、在一些變型中,可以應(yīng)用蛋白質(zhì)設(shè)計(jì)計(jì)算模型以借由至少替換和/或去除與一種或多種不期望的特性相關(guān)聯(lián)的氨基酸殘基或氨基酸殘基模式來生成第三殘基序列。
89、在一些變型中,一種或多種不期望的特性可以包括對(duì)氧化、化學(xué)修飾和/或化學(xué)異構(gòu)化的傾向。
90、在一些變型中,一種或多種不期望的特性可以包括免疫原性。
91、在一些變型中,可以至少基于固定區(qū)段與一種或多種可期望的特性相關(guān)聯(lián)來標(biāo)識(shí)固定區(qū)段包含在第二殘基序列中。
92、在一些變型中,一種或多種可期望的特性可以包括對(duì)靶分子的結(jié)合親和力、表達(dá)、非特異性、穩(wěn)定性、非免疫原性、人性和/或自締合。
93、在一些變型中,固定區(qū)段可以包括互補(bǔ)決定區(qū)(cdr)和/或一個(gè)或多個(gè)游標(biāo)區(qū)殘基。
94、在一些變型中,可以應(yīng)用特性預(yù)測(cè)模型來確定由第三殘基序列表現(xiàn)出的一種或多種期望的特性。具有第三殘基序列的第二蛋白質(zhì)結(jié)構(gòu)可以至少基于第三殘基序列的一種或多種期望的特性滿足一個(gè)或多個(gè)閾值來生成。
95、當(dāng)前主題的具體實(shí)現(xiàn)可以包括但不限于與本文提供的描述一致的方法以及包括有形體現(xiàn)的機(jī)器可讀介質(zhì)的制品,該有形體現(xiàn)的機(jī)器可讀介質(zhì)可操作以使一臺(tái)或多臺(tái)機(jī)器(例如,計(jì)算機(jī)等)引起實(shí)現(xiàn)所述特征中的一個(gè)或多個(gè)所述特征的操作。類似地,也描述了可以包括一個(gè)或多個(gè)處理器以及耦合到該一個(gè)或多個(gè)處理器的一個(gè)或多個(gè)存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)??梢园ǚ菚簳r(shí)性計(jì)算機(jī)可讀或機(jī)器可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器可以包括、編碼、存儲(chǔ)等使一個(gè)或多個(gè)處理器執(zhí)行本文所述操作中的一個(gè)或多個(gè)操作的一個(gè)或多個(gè)程序。與當(dāng)前主題的一個(gè)或多個(gè)實(shí)現(xiàn)一致的計(jì)算機(jī)實(shí)現(xiàn)方法可以由存在于單個(gè)計(jì)算系統(tǒng)或多個(gè)計(jì)算系統(tǒng)中的一個(gè)或多個(gè)數(shù)據(jù)處理器來實(shí)現(xiàn)。此類多個(gè)計(jì)算系統(tǒng)可以進(jìn)行連接并且可以經(jīng)由一個(gè)或多個(gè)連接來交換數(shù)據(jù)和/或命令或其他指令等,包括,例如,通過網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng)、無線廣域網(wǎng)、局域網(wǎng)、廣域網(wǎng)、有線網(wǎng)絡(luò)等)經(jīng)由該多個(gè)計(jì)算系統(tǒng)中的一個(gè)或多個(gè)計(jì)算系統(tǒng)之間的直接連接等至連接。
96、本文描述的主題的一個(gè)或多個(gè)變型的細(xì)節(jié)在附圖和下面的說明書中闡述。參照說明書和附圖以及權(quán)利要求書,本文描述的主題的其他特征和優(yōu)點(diǎn)將變得顯而易見。雖然出于與區(qū)段保留蛋白質(zhì)設(shè)計(jì)相關(guān)的說明性目的而描述了當(dāng)前公開的主題的某些特征,但是應(yīng)當(dāng)容易理解的是,此類特征并非旨在進(jìn)行限制。本公開之后的權(quán)利要求旨在限定受保護(hù)的主題的范圍。