国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      制備肽文庫的方法及其用途的制作方法

      文檔序號:6476634閱讀:297來源:國知局
      專利名稱:制備肽文庫的方法及其用途的制作方法
      技術領域
      本發(fā)明涉及計算生物化學和生物活性肽的計算機輔助設計領域。使用 監(jiān)督學習,本發(fā)明將生物序列分析、生物信息學數(shù)據(jù)挖掘、信息表現(xiàn)和分 類算法中所用的方法相結合。此外,本發(fā)明還涉及肽文庫的設計,以及生 物活性肽在生物醫(yī)學研究中的應用。
      背景技術
      當前藥物發(fā)現(xiàn)的主要目標是鑒定具有實際臨床效用的生物活性分子。 通過生長刺激作用、生長抑制作用或關鍵代謝途徑的調(diào)控,許多(若非全 部)生物活性肽(例如肽類激素)在健康和疾病中都有深遠的影響。
      肽類激素以前體產(chǎn)生于不同細胞類型和器官中,如腺體、神經(jīng)元、腸、 腦等。肽類激素最初以較大的前體或激素原合成,可以在轉(zhuǎn)運通過內(nèi)質(zhì)網(wǎng) 和高爾基體疊層中獲得許多翻譯后修飾。它們經(jīng)加工并轉(zhuǎn)運至其最終目的 地作為活性物質(zhì)(第一信使)起作用,通過結合細胞表面受體引發(fā)細胞應 答。
      肽類激素在許多生理過程中是關鍵信使,所述生理過程包括生產(chǎn)調(diào)節(jié); 生長;水和鹽代謝;溫度控制;心血管、胃腸和呼吸控制;行為;記憶和 激動狀態(tài)。
      肽類激素在與生物醫(yī)學研究的許多領域相關的生理過程中起關鍵作 用,所述領域如糖尿病(胰島素)、血壓調(diào)控(血管緊張素)、貧血癥(a 促紅細胞生成素)、多發(fā)性硬化(p干擾素)、肥胖癥(瘦蛋白)等。
      因此,新的生物活性肽具有作為治療性多肽、藥物介入靶點、發(fā)現(xiàn)相 關靼點的配體(例如GPCR破解(deorphaning ))或監(jiān)測疾病的生物標記使用的潛能。
      肽文庫已成功用于鑒定生物活性肽,包括抗孩吏生物肽、受體興奮劑和
      拮抗劑、細胞表面受體的配體、蛋白激酶抑制劑和底物、T細胞表位、與 MHC分子及受體結合部位的肽模擬表位結合的肽。肽文庫可根據(jù)其來源 分為基于基因和基于合成的文庫(Falciani等人,2005)。
      在基于基因的文庫中,為了引入多樣性,在編碼目的多肽序列的DNA 水平引入多肽內(nèi)的組合位點(combinatorial position )。與基于基因的文庫 相反,合成文庫在化學合成水平實現(xiàn)其多樣性。
      許多肽文庫以一種支架結構為基礎,或通過隨才幾組合的方法生成不同 的多肽一級結構。
      這兩種方法的缺點均是20種天然存在的氮基酸的組合可構建具有最 大可變性和數(shù)量巨大的不同結構的多肽。舉個例子說明可以獲得多少種不 同結構,試想僅包含4個氨基酸的肽就有160,000種不同的一級結構可能 性。
      需要提供一種準確的和高流量的方法,來大幅減少肽文庫中結構的可 能數(shù)量,以便于對大量的數(shù)據(jù)進行處理,并區(qū)分有體內(nèi)活性和無體內(nèi)活性 的肽。
      本發(fā)明的目的是解決現(xiàn)有技術的問題。本發(fā)明涉及應用生物信息學策 略,構建新的生物活性肽類激素文庫的方法。用支持向量機(SVM)算法 鑒定生物活性肽。該方法利用存在于肽類激素前體中的保守蛋白質(zhì)特征和 短基序,通過計算機才莫擬搜索人類蛋白質(zhì)組,可發(fā)現(xiàn)潛在的生物活性肽類 激素。盡管這些特征為肽類激素所共有,并負責其成熟,但令人驚訝的是, 可在蛋白質(zhì)序列水平單獨進行數(shù)據(jù)庫搜索(例如BLAST, FASTA)的肽 類激素前體之間的序列相似性很小。但是,將多肽類激素前體中共有的蛋 白質(zhì)特征和翻譯后修飾基序(例如前體的短蛋白質(zhì)序列、信號肽、二硫鍵、
      酰胺化位點、硫酸鹽化作用位點、糖基化位點等)相結合,可高特異性地 發(fā)現(xiàn)新的多肽類激素。發(fā)明概述
      本發(fā)明的一個主題涉及鑒定生物活性肽的方法,其在基于計算機的系
      統(tǒng)中使用基于二元支持向量機(SVM)的算法,其中
      a) 訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含 步驟
      ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度 向量(vector),每一維度(dimension)源于對分子描述符值的計算,其中標簽 分別表明肽是生物活性的或非生物活性的;
      a2)將步驟a,)生成的向量數(shù)據(jù)轉(zhuǎn)入基于SVM的算法,所述算法 計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分 開;
      b) 從公開可用的人類蛋白質(zhì)數(shù)據(jù)庫提供蛋白質(zhì)序列;
      c) 用計算法預測步驟b)提供的蛋白質(zhì)序列的二級結構和切割位點;根 據(jù)所述預測步驟,計算一組7個分子描述符(descriptor),導致肽片段生成;
      d) 計算對應于步驟c)生成的肽片段理化性質(zhì)的一組42個分子描述
      符;
      e) 將來自步驟c)的計算值轉(zhuǎn)化為0至1之間的標度值(scaled value ), 為每一肽片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉(zhuǎn) 化為0到1之間的標度值,為每一肽片段生成所述向量的8至49維度;
      f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測 量每一向量到步驟a2)中計算出的超平面的距離;并
      g) 才艮據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生 物活性肽。
      通常,步驟e)中生成的維度l至7如下維度l: N端ProP評分;維 度2: N端Hmcut評分;維度3: N端片段;維度4: C端ProP評分;維 度5: C端Hmcut評分;維度6: C端Hamid評分;維度7: C端片段; 步驟e)中生成的8至42維度如下維度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;維度9:每一多肽中正電荷氨基酸(R、 H)的百分比;維度10:每一多肽中芳香族氨基酸(F、 Y、 W)的百分比;維度11:每 一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比;維度12:每一多肽中 脯氨酸的百分比;維度13:每一多肽中反應性氨基酸(S、 T)的百分比; 維度14:每一多肽中丙氨酸的百分比;維度15:每一多肽中半胱氨酸的百 分比;維度16:每一多肽中谷氨酸的百分比;維度17:每一多肽中苯丙氨 酸的百分比;維度18:每一多肽中甘氨酸的百分比;維度19:每一多肽中 組氨酸的百分比;維度20:每一多肽中異亮氨酸的百分比;維度21:每一 多肽中天冬酰胺的百分比;維度22:每一多肽中谷氨酰胺的百分比;維度 23:每一多肽中精氨酸的百分比;維度24:每一多肽中絲氨酸的百分比; 維度25:每一多肽中蘇氨酸的百分比;維度26:每一多肽非經(jīng)典氨基酸的 百分比;維度27:每一多肽中纈氨酸的百分比;維度28:每一多肽中色氨 酸的百分比;維度29:每一多肽中酪氨酸的百分比;維度30:半胱氨酸含 量;維度31:每一多肽中巻曲二級結構的百分比;維度32:每一多肽中螺 旋二級結構的百分比;維度33:每一多肽中隨機二級結構的百分比;維度 34: N端切割位點附近結構的評分;維度35: C端切割位點附近結構的評 分;維度36:每一多肽中螺旋區(qū)段的數(shù)目;維度37:多肽的等電點;維度 38:多肽的平均分子量;維度39:多肽內(nèi)每一氮基酸的范德瓦爾斯力之和; 維度40:多肽中每一氨基酸的疏水性值之和;維度41-48:根據(jù)每一多肽 的疏水性質(zhì)、空間性質(zhì)和電性質(zhì)的主要組分評分向量計算的平均值;維度 49:多肽的長度。
      在本發(fā)明方法的優(yōu)選實施方案中,來自步驟b)的蛋白質(zhì)序列僅為在人 類分泌組(secretome)中發(fā)現(xiàn)的天然存在的蛋白質(zhì)序列。
      在另一優(yōu)選實施方案中,生物活性肽為來源于前體激素的生物活性肽 類激素。
      本發(fā)明的另 一主題涉及4吏用本發(fā)明的方法^A類分泌組中選擇的生物 活性肽。
      在優(yōu)選實施方案中,生物活性肽為生物活性肽類激素。在更優(yōu)選實施 方案中,生物活性肽類激素來源于前體蛋白質(zhì)。在另一優(yōu)選實施方案中,生物活性肽具有選自以下氨基酸序列的序列:
      SEQ ID NO: 1、2、3、 4、 5、 6、 7、8、9、 10、 11、12、13、
      14、15、16、17、18、 19、 20、 21、22、23、 24、 25、26、27、
      28、29、30、31、32、 33、 34、 35、36、37、 38.39、40、41、
      42、43、44、45、46、 47、 48、 49、50、51、 52、 53、54、55、
      56、57、58、59、60、 61、 62、 63、64、65、 66、 67、68、69、
      70、71、72、73、74、 75、 76、 77、78、79、 80、 81、82、83、
      84、85、86、87、88、 89、 90、 91、92、93、 94、 95、96、97、
      98、99、100、101、102、 103、 104、105、106、 107、108、109、
      110、111、112、 113、 114、 115、 116、117、118、 119、120、121、
      122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
      本發(fā)明還涉及肽文庫,其包含通過本發(fā)明的方法鑒定出的生物活性肽。 在優(yōu)選實施方案中,肽文庫包含生物活性肽,所述生物活性肽具有從 以上引用的SEQ ID NO 1-185氨基斷列中選擇的序列。
      在進一步優(yōu)選的實施方案中,肽文庫包含生物活性肽類激素。 在另一進一步優(yōu)選的實施方案中,肽文庫包含來源于前體蛋白質(zhì)的生 物活性肽類激素。
      本發(fā)明的另一主題涉及配置用于通過基于二元支持向量機(SVM)的 方法鑒定生物活性肽的計算設備,其中
      a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含 步驟
      ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度 向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是生物活性的或非生物活性的;
      a2)將步驟aO生成的向量數(shù)據(jù)轉(zhuǎn)入基于SVM的算法,所述算法 計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分
      開;
      b) 從公開可用的人類蛋白質(zhì)數(shù)據(jù)庫提供蛋白質(zhì)序列;
      c) 用計算法預測步驟b)提供的蛋白質(zhì)序列的二級結構和切割位點;根 據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段生成;
      d) 計算對應于步驟c)生成的肽片段理化性質(zhì)的一組42個分子描述
      符;
      e) 將來自步驟c)的計算值轉(zhuǎn)化為O至l之間的標度值,為每一肽片段 生成49維度向量的1至7維度,將來自步驟d)的計算值轉(zhuǎn)化為0到1之 間的標度值,為每一肽片段生成所述向量的8至49維度;
      f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測 量每一向量到步驟a2)中計算出的超平面的距離;并
      g) 根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生 物活性肽。
      本發(fā)明還涉及本發(fā)明的方法在鑒定治療性多肽、藥物介入靶點、發(fā)現(xiàn) 相關靶點的配體或監(jiān)測疾病的生物標記鑒定中的用途。
      本發(fā)明還涉及本發(fā)明的肽文庫在篩選方法中的用途,所述篩選方法用 于研究細胞內(nèi)信號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式 及鑒定藥物活性化合物、藥物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病 的生物標i己。
      本發(fā)明還涉及包含生物活性肽作為生物活性劑的藥物組組合物,所述 生物活性肽具有選自SEQ ID NO 1-185氨基酸序列的序列。
      發(fā)明詳述
      本發(fā)明涉及新的生物活性多肽及鑒定這種生物活性多肽的計算機模擬 方法。在本發(fā)明中,若多肽與人體內(nèi)的任一細胞組織有相互作用或?qū)ζ溆杏?br> 響,則i/w為該多肽是生物活性的。生物活性肽具有用作治療性多肽、藥物 介入耙點、發(fā)現(xiàn)相關靼點的配體(例如GPCR破解)或檢測疾病的生物 標記的潛能。除其他外,生物活性肽包括生物活性肽類激素。肽類激素的 特征在于其高特異性,以及極低的作用濃度。肽類激素最初以更大的前體 或激素原合成。
      前體是這樣的物質(zhì),其可形成通常更具活性或更成熟的物質(zhì)。蛋白質(zhì) 前體是無活性的蛋白質(zhì)(或肽),可通過翻譯后修飾轉(zhuǎn)變?yōu)榛钚孕问健?一些 切割位點參與了產(chǎn)生成熟蛋白質(zhì)的前體修飾信號序列切割位點、蛋白酶 切割位點、酰胺化位點等。
      蛋白質(zhì)前體的名稱通常以前(pro或pre )為字首。當某種蛋白質(zhì)具有 潛在的危害,但又需要在短時間內(nèi)和/或大量獲得時,生物體常采用前體。
      術語"多肽"、"肽"和"蛋白質(zhì)"在此可互換使用,意指通過共價鍵 連接的M酸殘基組成的聚合物。這些術語包括全長蛋白質(zhì)的部分或片段, 如肽、寡肽和由至少2個氨基酸組成的更短的肽序列、特別是由4-45個氨 基酸組成的肽序列。
      此外,這些術語包括經(jīng)修飾氨基酸(包括經(jīng)翻譯后修飾的氨基酸)的 聚合物,如經(jīng)化學修飾,其包括但不限于酰胺化、糖基化、磷酸化、乙酰 化和/或硫酸化反應,這些反應有效地改變了基本的肽骨架。因此,可通過 化學或酶切割從天然存在的蛋白質(zhì)獲得肽(特別是可從全長蛋白質(zhì)獲得), 可使用如CNBr的試劑等,或如胰蛋白酶或胰凝乳蛋白酶的蛋白酶。另夕卜, 可用眾所周知的肽合成方法,通過化學合成獲得此類多肽。
      M酸是任何包含氨和羧酸官能團的分子。氨基酸殘基是在肽鍵形成 中失去一分子水(來自含氮側(cè)的H+和來自氯基側(cè)的OIT )后氨基酸的剩余 部分,肽鍵是蛋白質(zhì)鏈中連接M酸單體的化學鍵。
      每一蛋白質(zhì)都有其自身獨特的M酸序列,稱之為一級結構。 一級結 構是比較筒單的,指的是蛋白質(zhì)或多肽鏈中M酸的數(shù)目和順序。在蛋白 質(zhì)結構的這一水平上,共價肽鍵是唯一的結合類型。蛋白質(zhì)中的#^#列由DNA中的遺傳信息決定,DNA轉(zhuǎn)錄為RNA, RNA再翻譯為蛋白質(zhì)。 所以蛋白質(zhì)結構是遺傳決定的。
      蛋白質(zhì)結構的下一水平通常指多肽鏈采用的結構規(guī)律性或形狀的數(shù) 量。天然多肽鏈自動折疊為規(guī)則而確定的形狀。已在蛋白質(zhì)中發(fā)現(xiàn)兩種主 要的二級結構,即oc螺旋和P折疊片。
      多肽鏈的三級結構是其鏈的a螺旋或P折疊片采用的構象或形狀的下 一水平。大部分蛋白質(zhì)趨向于折疊為在排列上可大體上歸類為球狀的形狀, 一些蛋白質(zhì),特別是結構蛋白質(zhì)則形成長纖維形狀。這些是總體三級結構 的主要形式。結構域是常用術語,其意指多肽鏈中球狀結構的緊密單位。
      每種蛋白質(zhì)的獨特形狀決定了其在體內(nèi)的功能。 "多肽,,定義的范圍還包括氨基酸序列變體。這些變體可以在天然存 在的氨基酸序列中包含一個或多個優(yōu)選的保守性氨基酸替換、缺失或插入, 而不改變所述多肽的至少一種基本性質(zhì),例如其生物學活性。可通過化學 多肽合成法合成這種多肽。保守性氨基酸替換為本領域公知。例如,可按 此處所述,用具有相似電荷、大小或極性的氨基酸殘基對天然蛋白質(zhì)中的 一個或多個氨基酸殘基進行保守性替換,得到的多肽還保有其功能。進行 這種替換的規(guī)則是眾所周知的。
      更具體地,保守性氨基酸替換一般發(fā)生于側(cè)鏈相關的同 一氨基酸家族內(nèi)。
      基因編碼的氨基酸一般分為四組(1)酸性氨基酸=天冬氨酸、谷氨 酸;(2)堿性^酸=賴氨酸、精氨酸和組氨酸;(3)非極性#^酸=丙氨 酸、纈氨酸、亮氨酸、異亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸和色氨酸; (4)不帶電荷的極性#^酸=甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、 絲氨酸、蘇氨酸和酪氨酸。苯丙氨酸、酪氨酸和色氨酸還共同分類為芳香 族氨基酸。任一特定組內(nèi)的 一個或多個替換對所產(chǎn)生的多肽功能一般沒有 明顯影響,如可選擇用異亮氨酸或纈氨酸替換亮氨酸、用谷氨酸替換天冬 氨酸或用絲氨酸替換蘇氨酸、或用結構相關的氨基酸殘基替換其他任一種 氨基酸殘基。術語"多肽"定義的范圍包括由于其氨基酸序列對應于功能結構域, 其生物學活性可預測的肽。術語"多肽"還包括不能通過對其氨基酸序列 的分^f斤預測其生物學活性的肽。
      在本發(fā)明中,支持向量機(SVM)用于區(qū)分具有體內(nèi)活性的多肽和不 具有體內(nèi)活性的多肽。
      支持向量機(SVM):
      支持向量機(SVM)是在訓練階段確定決定表面或"超平面"的通用 學習機。通過一組選自向量訓練群體的支持向量和一組對應的乘數(shù) (multiplier)確定決定超平面。決定超平面還通過核函數(shù)表征。
      John Shawe Taylor和腿o Cristianini在書中(劍橋大學出版社, 2000, 題為 "Support Vector Machines and other kernel-based learning methods" )、Chih-Chimg Chang和Chih畫Jen Lin在文章中(題為 "LIBSVM - A Library for Support Vector Machines" , 2001 )解釋了 SVM
      的數(shù)學^i^出。
      訓練階段之后,SVM在測試階段運轉(zhuǎn),在此階段,根據(jù)之前在訓練階 段確定的決定超平面,用它來分類測試向量(Noble, 2006)。
      支持向量機在多種不同的領域找到應用。例如,在H. Kim和H. Park
      題為"Prediction of protein relative solvent accessibility with support vector
      machines and long-range interaction 3d local descriptor"的文章中,為了
      研究大分子對接,將SVM用于預測高分辨率3D結構的問題。
      在本發(fā)明中,支持向量機算法(SVM)用于區(qū)分具有體內(nèi)活性的多肽 和不具有體內(nèi)活性的多肽。
      出于實踐的觀點,在本發(fā)明中利用如個人計算機的計算設備執(zhí)行 SVM。
      如實施例部分(l.l.)所述,計算設備包括一個或多個執(zhí)行一系列不同 軟件的處理器,所述軟件包含執(zhí)行本發(fā)明方法的指令。
      14SVM訓練和模型生成
      為了訓練SVM模型,用實^P分(1.1,)中常規(guī)描述并概略示意于圖 l中的程序,生成49維度向量。
      對SVM訓練組,關于已知生物活性肽的信息可以從任一公開可用的 人類蛋白質(zhì)數(shù)據(jù)庫提取,如Swissprot。根據(jù)其在Swissprot中的注釋,從 其前體提取長度在4至55個氨基酸的優(yōu)選生物活性肽,并標記為用于SVM 算法訓練的陽性實例。生成的所有其他來源于同一已知肽類激素前體,長 度在4-55個M酸之間,不具有指定功能的片段用作SVM訓練的陰性訓 練組。由于SVM是二元系統(tǒng),將生物活性肽標記為+1,并將非生物活性 肽標記為-1。
      類似地,用長度在56至300個氨基酸的生物活性和非生物活性肽訓練 第二個模型,以預測更長的多肽。為了不過度表現(xiàn)陰性實例,通過隨;feM^ 所有陰性肽中選擇相同數(shù)量的陰性(實例),校正分別用于短序列(4-55 個氨基酸)和長序列(56-300個氨基酸)的最終SVM訓練組,至與陽性 和陰性訓練數(shù)據(jù)數(shù)目相等。
      為轉(zhuǎn)化生物活性和非生物活性肽隱藏的信息,定義了一組49個描述 符,并用于SVM訓練。SVM模型的表現(xiàn)強烈地依賴于選擇用于描述肽的 描述符質(zhì)量。
      在本發(fā)明中,前7個描述符反映多肽由人體產(chǎn)生的可能性。對肽類激 素前體序列使用一組蛋白酶預測位點工具來計算這7個維度(

      圖1 )。將每 一程序輸出的產(chǎn)生評分直接用作描述符。其余42個描述符反映產(chǎn)生的每一 片段的重要理化性質(zhì)(即生物活性或非生物活性肽)。實施例部分的第3 點中列出了本發(fā)明所使用的49個描述符。
      每一肽對應于49個描述符的獨特組合。不同肽可以表示為多維空間中 的點,其中每一維度對應一個描述符。SVM嘗試找出一個界限,該界限最 優(yōu)地將對應于生物活性和非生物活性肽的兩組點分開。此界限稱為最優(yōu)超 平面,它能在n維空間中最優(yōu)地將兩類對象分開,即分別對應于生物活性 肽和非生物活性肽的向量。所得到的SVM模型學會區(qū)分生物活性和非生物活性肽。 選擇了最好的模型,根據(jù)生物活性和非生物活性肽的一個獨立測試組 的排序,該模型具有最佳的表現(xiàn)。為測試模型,測試了所有生成的模型的 表現(xiàn),選擇了分別用于短肽(4-55個氨基酸)和較長多肽(56-300個M 酸)的兩個最優(yōu)模型。
      鑒定生物活性肽
      訓練后,得到的經(jīng)訓練的SVM模型能夠鑒定生物活性尚未被束征過 的生物活性肽。
      圖l給出了本發(fā)明所公開的方法的概要示意圖,解釋肽文庫生成所涉 及的步驟。提供自公開可用人類蛋白質(zhì)數(shù)據(jù)庫(如Swissprot)的蛋白質(zhì)序 列作為輸入值使用。在步驟1中,所有潛在的蛋白酶切割位點通過使用一 組預測這些事件的工具預測。保存每一前體序列的各切割位點位置。此夕卜, 推測了整個蛋白質(zhì)前體序列的二級結構。根據(jù)預測的前體序列中的切割位 點,生成所有潛在的片段(步驟2),并用作步驟3的輸入量。
      步驟3包含對每一肽片段理化性質(zhì)的計算(在實施例部分的第3點列 出)。通常,考慮關于每一片段內(nèi)M酸的頻率、每一片段的二級結構、每 一片段的等電點、每一片段的平均分子量、每一片段的疏水性、片段內(nèi)每 一氨基酸的所有范德瓦爾斯力之和、片段內(nèi)每一氨基酸的所有常用氨基酸 描述符(即根據(jù)Mei等人,2005的每一氨基酸的VHSE值)之和及片段 長度的信息,將生物學信息轉(zhuǎn)化為數(shù)值。步驟1和3的計算值分別在步驟 4a和4b中轉(zhuǎn)化產(chǎn)生0至1之間的標度值,生成每一片段的49維度向量。 步驟5中將向量提交至經(jīng)訓練的SVM模型,測量每一向量到超平面的距 離。然后在步驟6中使用SVM輸出,決定該肽是否可能是生物活性的。 圖3列出了對應于通過本發(fā)明的方法鑒定的生物活性肽的49維度向量。
      為了大幅減少肽文庫中結構的潛在數(shù)量,在本發(fā)明中,僅將發(fā)現(xiàn)于人 類分泌組的天然存在的蛋白質(zhì)序列用作一級結構,來生成肽文庫。人類分 泌組是對應于所有經(jīng)細胞分泌的人類蛋白質(zhì)的DNA所編碼的全部信息。實施例部分l.l.點歹。出了從公開可用的序列數(shù)據(jù)庫中提取的潛在的分 泌型人類蛋白質(zhì),其用作前體序列尋找新的生物活性肽。
      將分泌蛋白質(zhì)一級序列(即蛋白質(zhì)前體)的不同部分用作模板,推測
      新的生物活性肽。限制肽長度為4-45個氨基酸,以便于化學合成該肽。
      通過本發(fā)明的方法鑒定出新的生物活性肽之后,進行抗微生物試驗測 試該肽的生物活性。實施例部分的第6點詳述了這些試驗。
      本發(fā)明還涉及肽文庫,所述肽文庫包含通過上述SVM模型方法鑒定 出的生物活性肽。圖2列出了通過本發(fā)明的方法鑒定出、并包含于本發(fā)明 的肽文庫的185條生物活性肽的氨基酸序列。
      肽文庫是新M的用于蛋白質(zhì)相關研究的技術。肽文庫包含具有系統(tǒng) 氨基酸組合的大量肽。通常,將肽文庫合成于可制成平表面或球珠的固相 上(大部分是樹脂上)。肽文庫為藥物設計、蛋白質(zhì)-蛋白質(zhì)相互作用和其 他生化及制藥應用提供了強有力的工具。
      本發(fā)明的肽文庫可以用于篩選方法,所述篩選方法用于研究細胞間信 號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式及鑒定有藥物活 性的化合物、藥物介入靼點、發(fā)現(xiàn)相關耙點的配體或監(jiān)測疾病的生物標記。
      本發(fā)明的多肽具有激素活性。因此,本發(fā)明的多肽可用作藥物(如治 療性多肽)、發(fā)現(xiàn)相關靶點的配體(如GPCR)、藥物介入靶點(如單克隆 抗體、受體片段的靶點)、監(jiān)測疾病的生物標記(與工具抗體聯(lián)用來檢測體 液中的肽片段)、蛋白激酶抑制劑及底物、T細胞表位、受體結合位點的肽 模擬表位等。
      編碼本發(fā)明的肽或前體的DNA是有用的,例如作為基因治療劑,治 療或預防心血管疾病、產(chǎn)生激素的腫瘤、糖尿病、胃潰瘍等;作為激素分 泌抑制劑、腫瘤生長抑制劑、神經(jīng)活性劑等。此外,本發(fā)明的DNA可用 作疾病的基因診斷劑,所述疾病如心血管疾病、產(chǎn)生激素的腫瘤、糖尿病、 胃潰瘍等。
      實施例參考以下實施例可更容易地理解一般性描述的本發(fā)明,納入此實施例 的目的只是說明本發(fā)明的某些方面及實施方案,并非旨在限定本發(fā)明。 1.數(shù)據(jù)庫和計算機程序
      1.1. 數(shù)據(jù)庫
      以下7>開可用的序列數(shù)據(jù)庫用于提取潛在的分泌型人類蛋白質(zhì),這些
      蛋白質(zhì)用作前體序列來尋找新的生物活性肽
      翻譯為蛋白質(zhì)的人類基因組(NCBI 33匯編,2003年7月1日),亞
      組;
      國際蛋白質(zhì)索引,Swissprot(版本50.3,2006年7月11日)和TrEMBL (版本2003年8月—2006年3月);
      對基于SVM算法的訓練,有關已知生物活性肽的信息提取自 Swissprot。
      1.2. 計算4/L程序
      1.1. 2.0版Signal P (Nielsen等人,1997)
      目的此程序用于檢測潛在的信號序列和確定潛在的人類分泌組。使 用的劃界(cutoff)評分為0.98。 2.0版Signal P預測來自不同生物的氨基酸 序列中信號肽切割位點的存在和位置此方法基于幾種人工神經(jīng)網(wǎng)絡和隱 馬爾科夫模型(hidden Markov model)的組合,將切割位點預測與信號J^ 非信號肽預測相結合。
      1.2.1.0版ProP(Duckert等人,2004)
      目的此程序用于檢測蛋白質(zhì)序列中潛在的切割位點。所用劃界評分 設至O.ll。此程序使用神經(jīng)網(wǎng)絡總體,預測真核蛋白質(zhì)序列中的精氨酸及 賴氨酸前肽切割位點。默認設置是弗林蛋白酶特異的預測。其還可進行一 般的前蛋白質(zhì)(proprotein)轉(zhuǎn)化酶(PC)預測。
      1.3. 酰胺化位點預測和蛋白酶切割位點預測(Rohrer, 2004)目的Hamid程序預測蛋白質(zhì)序列中的酰胺化位點。Hmcut程序預測 蛋白質(zhì)序列中的蛋白酶切割位點,這種切割發(fā)生在堿性氨基酸殘基(賴氨 酸,精氨酸)之前。這兩種程序都基于隱馬爾科夫模型,使用Hmnier 2.3.2 軟件版本(Durbin等人,1998 )。
      1.4. 支持向量機(Chang和Lin, 2001)
      LIBSVM是進行支持向量分類、(C-SVC, nu-SVC)、回歸 (epsilon-SVR, nu-SVR)和分布估計(單值SVM)的集成軟件。
      使用了以下SVM規(guī)范SVM類型,nu-SVC;核函數(shù)類型,徑向基 函數(shù)。
      1.5. 2.45版本PsiPred (Jone, 1999) 進4亍蛋白質(zhì)二級結構預測的工具。該方法如Jones, 1999所述^f吏用。
      1.6. 等電點的計算
      目的多肽等電點的計算。按Gasteiger等,2005進行。
      1.7. Perl-實際提取和才艮告語言
      目的Perl是Larry Wall發(fā)明的一種動態(tài)編程語言,1987年首次發(fā)布。
      2. SVM的訓練
      對監(jiān)督學習過程,使用以下SRS (www.expasy.org上的序列查詢系統(tǒng)) 請求指令,從諸如Swissprot的常用公共數(shù)據(jù)庫提取已知生物活性肽前體 生物=脊推動物;序列長度=30:300;特征關鍵詞=信號;關鍵詞=細胞因子 或激素或鈴蟾肽或緩激肽或胰高血糖素或生長因子或胰島素或神經(jīng)肽或阿 片樣肽或速激肽或甲狀腺激素或血管收縮劑或血管舒張劑。此請求產(chǎn)生一 組已知肽類激素前體,其中的生物活性肽易于通過Swissprot數(shù)據(jù)庫的注
      19釋獲取。因此,這些序列可用來推測一組生物活性和非生物活性肽,進行
      基于SVM的模型的訓練。
      3.用于建立向量的分子描述符
      SVM模型的表現(xiàn)主要依賴于所選用于描述肽的描述符的質(zhì)量。 在本發(fā)明中,選擇了以下描述符
      維度1-7表示肽產(chǎn)生于人體的可能性,通過不同的蛋白酶切割位點預 測工具的組合來計算。這些工具的結果表示向量的前7個維度。 維度l: N端ProP評分; 維度2: N端Hmcut評分; 維度3: N端片段(固定值0.2); 維度4: C端ProP評分; 維度5: C端Hmcut評分; 維度6: C端Hamid評分; 維度7: C端片段(固定值2.0); 計算多肽的理化性質(zhì),表示向量的以下42個維度。 維度8:每一多肽酸性M酸(E, N, Q)的百分比; 維度9:每一多肽正電荷M酸(R, H)的百分比; 維度10:每一多肽芳香族氨基酸(F, Y, W)的百分比; 維度ll:每一多肽脂肪族氨基酸(G, V, A, I)的百分比; 維度12:每一多肽脯氨酸的百分比; 維度13:每一多肽反應性氨基酸(S, T)的百分比; 維度14:每一多肽丙氨酸的百分比; 維度15:每一多肽半胱氨酸的百分比; 維度16:每一多肽谷氨酸的百分比; 維度17:每一多肽苯丙氨酸的百分比; 維度18:每一多肽甘氨酸的百分比; 維度19:每一多肽組氨酸的百分比;維度20:每一-多肽異亮氨酸的百分比;
      維度21:每一'多肽天冬酰胺的百分比;
      在 平義",每一-多莊乂各磁.
      維度23:每一-多肽精氨酸的百分比;
      維度24:每一'多肽絲氨酸的百分比;
      維度25:每一-多肽蘇氨酸的百分比;
      維度26:每一-多肽非經(jīng)典氨基酸(未定義)的百分比;
      (請注意此維度不包含除0外的任何值作為輸入) 維度27:每一多肽纈氨酸的百分比; 維度28:每一多肽色氨酸的百分比; 維度29:每一多肽酪氨酸的百分比;
      維度30:半胱氨酸含量(O、偶數(shù)或奇數(shù)分別設為0.5、 l或0);
      維度31:每一多肽巻曲二級結構的百分比;
      維度32:每一多肽螺旋二級結構的百分比;
      維度33:每一多肽隨機二級結構的百分比;
      維度34: N端切割位點附近結構的評分;
      維度35: C端切割位點附近結構的評分;
      維度36:每一多肽螺旋區(qū)段的數(shù)目;
      維度37:多肽的等電點;
      維度38:多肽的平均分子量;
      維度39:多肽內(nèi)每一氨基酸的范德瓦爾斯力之和;
      維度40:多肽內(nèi)每一氨基酸的疏水性值之和;
      維度41-48:根據(jù)每一多肽疏水性質(zhì)、空間性質(zhì)和電性質(zhì)的主要成分 評分向量計算的平均值(Mei等人,2005); 維度49,多肽的長度。
      在任何適用的地方,將維度1-49的值換算至0至1之間的范圍。 用于訓練和預測的輸入向量包含49個維度,但是由于所有片段的維度 26 (每一片段非經(jīng)典氨基酸的百分比)都設為0,本版本中僅使用了 48個
      21維度。這是由于缺少包含非經(jīng)典氨基酸的訓練數(shù)據(jù),但可在后續(xù)模型中納 入。
      4. 模型的測試
      選擇最優(yōu)的模型,根據(jù)生物活性和非生物活性肽的獨立測試組的排序, 該模型具有最佳的表現(xiàn)。為測試模型,測試了所有生成的模型的表現(xiàn),選 擇了分別用于短肽(4-55個氨基酸)和較長多肽(56-300個氨基酸)的兩 個最優(yōu)才莫型。結果,對短肽的總體預測準確度達到90.7%,對較長的肽達 到94%。 4吏用獨立的測試組,所公開的方法正確鑒定出約93%的生物活性 肽和約91%的非生物活性肽。
      5. 生物活性肽的鑒定
      在排序步驟中(步驟6,圖1),選^^每一前體長度短于46個氨基酸、 評分最高的肽。在此排序過程中,即使其是每一蛋白質(zhì)前體的評分最高的 肽,也將所有經(jīng)SVM分類后距離大于|0,65|,且處于于陰性訓練數(shù)據(jù)組(即 評分為-0.65或更低)的片段舍棄。
      6. 抗孩t生物試驗測試通過本發(fā)明方法鑒定的肽的生物活性
      6.1. 試驗技術
      微量稀釋測試是確定培養(yǎng)物中存活細菌或酵母細胞數(shù)目的均相方法。 它依賴于活細菌或酵母在培養(yǎng)物中是渾濁的這一事實。濁度可用光度計測 量為光吸收,它與樣品中細胞的數(shù)目相關。
      6.2. 材料和方法 細菌和酵母菌抹
      本實驗過程中使用的菌林為大腸桿菌(五sc/^Wd^Vi E co// ATCC 25922)、 金黃色葡萄球菌0S似/7/^/ococc"s , 51. ATCC 29213)
      和白色念珠菌(CVwi力V/fl a/6/oms1 , C. "/6/c朋s FH 2173)。所有測試菌株的預培養(yǎng)
      菌株的培養(yǎng)起始于建立凍存貯存物(eryostoek),它可用于進行預培 養(yǎng)物的多次接種。
      1. 用接種環(huán)將細菌劃線接種于Mueller Hilton (MH)瓊脂板上,并 將瓊脂板于37 "C孵育3天。對酵母采用同樣的程序,但使用Sabouraud dextrose ( SD )瓊脂。
      2. 在裝有30 ml MH培養(yǎng)液的100 ml搖瓶中接種入一接種環(huán)的細菌, 并將搖瓶于37 °C 、 180轉(zhuǎn)/分鐘孵育1天。在SD培養(yǎng)液中對酵母應用同 樣的條件。
      3. 用無菌吸頭從Cryobank (CRYO/G)塑料管中移去高滲的凍存液, 每個塑料管含有25個綠色玻璃小珠。
      4. 每管中裝入2ml細菌/酵母懸液,蓋上管蓋,仔細混合。
      5. 盡可能多地從管中去除細菌/酵母培養(yǎng)物上清。此時小珠表面為細 菌/酵母覆蓋。殘留于管內(nèi)的液體應盡可能少,以防止小珠凝聚。 一個小珠 可用于接種一瓶預培養(yǎng)物(30 ml MH/SD培養(yǎng)液于100 ml搖瓶內(nèi))。
      6. 將Cryobank (CRYO/G)管保存于-80 °C。
      7. 質(zhì)量/無菌檢驗從水箱取出一個Cryobank ( CRYO/G )管,置于 Cryoblock (CRYO/Z)內(nèi)。打開管蓋,取出一個小珠,并立即用小珠在 MH/SBD瓊脂板上劃線。平板于37 °C孵育3天。通過檢查克隆形態(tài),驗 證只有測試菌林生長。
      用MH培養(yǎng)液制備測試培養(yǎng)物
      從Cryobank中取出測試菌林管。用無菌吸頭取出一個小珠,接種于 100 ml錐形瓶內(nèi),瓶內(nèi)裝有30ml分別用于細菌和酵母的MH和SD培養(yǎng) 液。培養(yǎng)物于37。C、 180轉(zhuǎn)/分鐘生長18小時。用MH培養(yǎng)液調(diào)節(jié)所有測 試菌林的光密度至細胞密度對應于108細胞/毫升。將進行此試驗的標準接 種培養(yǎng)物1: 100稀釋至終濃度為106 CFU/ml (克隆形成單位/毫升)。肽稀釋
      將化合物從125 nM的標準初始濃度連續(xù)稀釋(10個稀釋步驟),至終 濃度為0.24 pM。所有樣品和對照中的初始DMSO濃度為1.4%。
      進行劑量反應曲線實驗的標準抗生素稀釋
      用MH培養(yǎng)液將化合物連續(xù)稀釋(16個稀釋步驟),進行劑量反應實 驗?;衔锝K濃度范圍在64照/ml和0.002照/ml之間。所有樣品和對照 中的初始DMSO濃度為1.4%。
      供應商目錄號功能
      Mueller Hinton (MH)培養(yǎng)液Becton Dickinson275730培養(yǎng)基
      Sabouraud dextrose (SD)培養(yǎng) 液Becton Dickinson238230培養(yǎng)基
      DMSOMerck102 931溶劑
      制霉菌素 Cyprobay 100Calbiochem Bayer475914抗生素
      Greiner, 384Greincr781182試驗用板
      SPECTRAFl雨PlusTecsiii-吸光度讀數(shù)器
      試驗方案
      *在30 ml MH培養(yǎng)液中,于37。C預培養(yǎng)細菌18小時(100 ml錐形
      瓶)
      *在30 ml SD培養(yǎng)液中,于37。C預培養(yǎng)酵母18小時(100 ml錐形
      瓶)
      *用MH培養(yǎng)液調(diào)節(jié)細胞懸液至106 CFU/ml (測試培養(yǎng)物) 試驗*在第一個管中加入10jUDMSO中的化合物和30^UMH培養(yǎng)液 *從第一個管中轉(zhuǎn)移20 pl至第二個裝有20 |nl MH培養(yǎng)液的管中 *將最后一步重復8次(肽,10個稀釋步驟)或14次(抗生素,16 個稀釋步驟)
      *向每一管中加入10 pl測試培養(yǎng)物懸液(肽為10管,抗生素為16
      管)
      起始細胞接種物 5xl05CFU
      起始DMSO濃度 12.5 %
      起始/最^f匕合物濃度 125 pM - 0.24 pM => 起始/最終抗生素濃度64照/ml — 0.002照/ml *5%相對濕度,5%C02, 37。C孵育18小時 *在590 nm讀取光吸收5次
      對照
      *高對照有細菌的MH培養(yǎng)液(生長對照,高信號) *低對照無細菌的MH培養(yǎng)液(無菌對照,低信號)
      6.3. 抗生素敏感性測試 為了評估此試驗對潛在藥物鑒定的適合性,用"材料和方法"下所述
      的條件,測試了許多抗生素的劑量依賴效應。預期Cyprofloxacin對大腸 桿菌和金黃色葡萄球菌有活性,制霉菌素對白色念珠菌有活性。圖4中以 pg/ml為單位給出了這些抗生素的計算IC50值。
      6.4. 試驗結果
      針對測試菌林大腸桿菌(ATCC 25922 )、金黃色葡萄球菌(ATCC 29213 )和白色念珠菌(FH 2173 )對多肽進行了測試。多肽A003500589和 A003500548對大腸桿菌顯示的IC50值分別為7.25 pg/ml和6.79 pg/ml。 未發(fā)現(xiàn)針對金黃色葡萄球菌和白色念珠菌的活性。參考文獻
      Chih-Chung Chang和Chih-Jen Lin; "LIBSVM: a library for support vector machines"; 2001
      Peter Duckert, S0ren Brunak和Nikolaj Blom; "Prediction of proprotein convertase cleavage sites"; Protein Engineering, Design and Selection, 17:107-112, 2004
      Durbin R, Eddy S, Krogh A和Mitchison G; "The theory behind profile HMMs: Biological sequence analysis: probabilistic models of proteins and nucleic acids"; Cambridge University Press, 1998.
      C. Falciani, L Lozzi, A. Pini, L Bracci; "Bioactive Peptides from Libraries"; Chemistry & Biology,第12巻,第4期,第417-426頁,2005 Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; "Protein Identification and Analysis Tools on the ExPASy Server"; (In) John M. Walker (編)The Proteomics Protocols Handbook, Humana Press, 2005
      Jones, D.T.; "Protein secondary structure prediction based on position-specific scoring matrices"; J. Mol. Biol. 292:195-202,1999 H. Kim和H. Park; "Prediction of protein relative solvent accessibility with support vector machines and long-range interaction 3d local descriptor"; Proteins, 54(3): 557-62, 2004
      Md, H., Liao, T.H., Zhou, Y.,和Li, S.Z.; "A new set of amino acid descriptors and its application in peptide QSARs"; Biopolymers第80巻, 775-786, 2005
      Henrik Nielsen, Jacob Engelbrecht, S0ren Brunak和Gunnar von Heijne; "Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites"; Protein Engineering, 10:1-6, 1997 Noble WS.; "What is a support vector machine "; Nat. Biotechnol.24(12):1565-7, 2006
      Rohrer, S.; "Prediction of post-translational processing sites in peptide hormone precursors"; Diplomarbeit, UniversitSt Wiirzburg, 2004 John Shawe Taylor和Nello Cristianini; "Support Vector Machines and other kernel-based learning methods"; Cambridge University Press, 2000
      附圖描述 圖1:
      圖l給出了本發(fā)明所公開的方法的概要示意圖,以解釋肽文庫生成所 涉及的步驟。 圖2:
      圖2顯示了根據(jù)共有理化性質(zhì)選擇的185條生物活性肽的J^,列。 圖3:
      圖3顯示了通過經(jīng)訓練的SVM算法鑒定出的185條生物活性肽的輸 入向量。 圖4:
      圖4以照/ml為單位顯示了抗生素的計算IC50值。
      權利要求
      1.在基于計算機的系統(tǒng)中鑒定生物活性肽的方法,其使用基于二元支持向量機(SVM)的算法,所述方法包含步驟a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含步驟a1)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是生物活性的或非生物活性的;a2)將步驟a1)生成的向量數(shù)據(jù)轉(zhuǎn)入基于SVM的算法,所述算法計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分開;b)從公開可用的人類蛋白質(zhì)數(shù)據(jù)庫提供蛋白質(zhì)序列;c)用計算法預測步驟b)提供的蛋白質(zhì)序列的二級結構和切割位點;根據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段的生成;d)計算對應于步驟c)生成的肽片段理化性質(zhì)的一組42個分子描述符;e)將來自步驟c)的計算值轉(zhuǎn)化為0至1之間的標度值,為每一肽片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉(zhuǎn)化為0到1之間的標度值,為每一肽片段生成所述向量的8至49維度;f)將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測量每一向量到步驟a2)中計算出的超平面的距離;并g)根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生物活性肽。
      2. 權利要求l的方法,其中步驟e)中生成的維度l至7如下維度l: N端ProP評分;維度2: N端Hmcut評分;維度3: N端片段;維度4: C端ProP評分;維度5: C端Hmcut評分;維度6: C端Hamid評分; 維度7: C端片段;步驟e)中生成的8至42維度如下維度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;維度9:每一多肽中正電荷氨基酸 (R、 H)的百分比;維度10:每一多肽中芳香族氨基酸(F、 Y、 W)的 百分比;維度 :每一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比; 維度12:每一多肽中脯氨酸的百分比;維度13:每一多肽中反應性^酸 (S、 T)的百分比;維度14:每一多肽中丙氨酸的百分比;維度15:每 一多肽中半胱氨酸的百分比;維度16:每一多肽中谷氨酸的百分比;維度 17:每一多肽中苯丙氨酸的百分比;維度18:每一多肽中甘氨酸的百分比; 維度19:每一多肽中組氨酸的百分比;維度20:每一多肽中異亮氨酸的百 分比;維度21:每一多肽中天冬酰胺的百分比;維度22:每一多肽中谷氨 酰胺的百分比;維度23:每一多肽中精氨酸的百分比;維度24:每一多肽 中絲氨酸的百分比;維度25:每一多肽中蘇氨酸的百分比;維度26:每一 多肽非經(jīng)典氨基酸的百分比;維度27:每一多肽中纈氨酸的百分比;維度 28:每一多肽中色氨酸的百分比;維度29:每一多肽中酪氨酸的百分比; 維度30:半胱氨酸含量;維度31:每一多肽中巻曲二級結構的百分比;維 度32:每一多肽中螺旋二級結構的百分比;維度33:每一多肽中隨機二級 結構的百分比;34: N端切割位點附近結構的評分;維度35: C端 切割位點附近結構的評分;維度36:每一多肽中螺旋區(qū)段的數(shù)目;維度37: 多肽的等電點;維度38:多肽的平均分子量;維度39:多肽中每一M酸 的范德瓦爾斯力之和;維度40:多肽中每一氨基酸的疏水性值之和;維度 41-48:根據(jù)每一多肽疏水性質(zhì)、空間性質(zhì)和電性質(zhì)的主要組分評分向量計 算的平均值;維度49:多肽的長度。
      3. 權利要求1和2的方法,其中來自步驟b)的蛋白質(zhì)序列是只發(fā)現(xiàn) 于人類分泌組的天然存在的蛋白質(zhì)序列。
      4. 權利要求1至3的方法,其中所述生物活性肽是來源于前體激素的 生物活性肽類激素。
      5. 生物活性肽,其通過使用權利要求1和2的方法選自人類分泌組。
      6. 權利要求5的生物活性肽,其中所述生物活性肽是生物活性肽類激素。
      7. ;f又利要求6的生物活性肽,其中所述生物活性肽類激素來源于前體 蛋白質(zhì)。
      8. 權利要求5至7的生物活性肽,其具有選自以下氨基酸序列的序列SEQIDNO: 1、2、3、 4、 5、6、 7、8、9、 10、 11、12、13、14、15、16、17、18、 19、 20、21、22、23、 24、 25、26、27、28、29、30、31、32、 33、 34、 35、 36、 37、 38、39、40、41、42、43、44、45、 46、 47、48、49、50、 51、 52、53、54、55、56、57、58、59、 60、 61、62、63、64、 65、 66、67、68、69、70、71、72、73、 74、 75、76、77、78、 79、 80、81、82、83、84、85、86、87、 88、 89、90、91、92、 93、 94、95、96、97、98、99、100、101、 102、103、104、105、 106、107、108、109、110、111、 112、 113、 114、115、116、117、 118、119、120、121、 122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
      9. 肽文庫,其包含通過權利要求1至3的方法鑒定出的生物活性肽。
      10. 權利要求9的肽文庫,其中所述肽文庫包含權利要求8的生物活 性肽。
      11. 權利要求9的肽文庫,其中所述生物活性肽是生物活性肽類激素。
      12. 權利要求ll的肽文庫,其中所述生物活性肽類激素來源于前體蛋 白質(zhì)。
      13. 計算設備,其配置為通過使用基于二元支持向量機(SVM)的方 法鑒定生物活性肽,所述方法包含步驟a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練 包含步驟ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49 維度向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是 生物活性的或非生物活性的;a2)將步驟a,)生成的向量數(shù)據(jù)轉(zhuǎn)入基于SVM的算法,所述 算法計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向 量分開;b) 從公開可用的人類蛋白質(zhì)數(shù)據(jù)庫提供蛋白質(zhì)序列;c) 用計算法預測步驟b)提供的蛋白質(zhì)序列的二級結構和切割位 點;根據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段的生成;d) 計算對應于步驟c)生成的肽片段理化性質(zhì)的一組42個分子描述符;e) 將來自步驟c)的計算值轉(zhuǎn)化為0至1之間的標度值,為每一肽 片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉(zhuǎn)化為0到1 之間的標度值,為每一肽片段生成所述向量的8至49維度;f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法, 測量每一向量到步驟a2)中計算出的超平面的距離;并g) 根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或 非生物活性肽。
      14. 權利要求1至4的方法的用途,所述用途為鑒定治療性多肽、藥 物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病的生物標記。
      15. ^5L利要求9至12的肽文庫在篩選方法中的用途,所述篩選方法用 于研究細胞內(nèi)信號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式 及鑒定藥物活性化合物、藥物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病 的生物標記。
      16. 藥物組合物,其包含生物活性肽作為生物活性劑,所述生物活性 肽具有選自SEQIDN01-185的^J^酸序列的序列。
      全文摘要
      在不同試驗中篩選肽文庫提供了同時研究細胞內(nèi)信號通路、產(chǎn)生試劑深化對通路的了解和產(chǎn)生治療的新形式的可能性。通過生長刺激作用、生長抑制作用或關鍵代謝通路的調(diào)節(jié),多數(shù)(若非全部)生物活性肽(如肽類激素)在健康和疾病中都具有深遠的影響。本發(fā)明涉及新的生物活性肽、鑒定這些肽的計算機模擬方法及包含這些肽的肽文庫。
      文檔編號G06F19/16GK101663668SQ200880008365
      公開日2010年3月3日 申請日期2008年3月4日 優(yōu)先權日2007年3月13日
      發(fā)明者E·容, M·亨德里奇 申請人:塞諾菲-安萬特股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1