一種預(yù)測(cè)蛋白質(zhì)在rna病毒基因中的結(jié)合位點(diǎn)的方法
【專利摘要】本發(fā)明涉及一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率,該方法包括以下步驟:1)獲取多條RNA病毒基因序列;2)以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較,獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息,根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)。與現(xiàn)有技術(shù)相比,本發(fā)明能夠迅速地、準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,為探究RNA病毒的復(fù)制機(jī)制提供幫助。
【專利說(shuō)明】
一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及生物信息技術(shù)領(lǐng)域,尤其是涉及一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的 結(jié)合位點(diǎn)的方法。
【背景技術(shù)】
[0002] 從1868年F.Miescher發(fā)現(xiàn)核素到1953年沃森和克里克正式提出DNA分子的雙螺旋 結(jié)構(gòu),再到2005年人類基因組計(jì)劃測(cè)序工作的完成,人類在探索生命奧秘的道路上留下了 一串串堅(jiān)實(shí)的腳印。然而近年來(lái)隨著對(duì)RNA分子研究的不斷深入,人們逐步意識(shí)到RNA具有 遠(yuǎn)比DNA復(fù)雜得多的結(jié)構(gòu)和功能上的多樣性,RNA研究已經(jīng)成為新的熱點(diǎn),一個(gè)嶄新的RNA世 界正在逐漸展現(xiàn)在人們的面前。
[0003] 病毒是地球上最豐富的微生物之一,它是由一個(gè)核酸分子與蛋白質(zhì)構(gòu)成的非細(xì)胞 結(jié)構(gòu)形態(tài)的靠寄生生活的生命體,根據(jù)遺傳物質(zhì)的不同可以分為:DAN病毒和RAN病毒。近年 來(lái),由RNA病毒引起的新發(fā)或再發(fā)性流行病經(jīng)常成為全球性公共衛(wèi)生問(wèn)題,例如輪狀病毒、 艾滋病病毒、SARS病毒、埃博拉病毒(EB0V)、甲型H1N1流感病毒等。病毒基因組的復(fù)制與表 達(dá)是研究病毒致病機(jī)理及研制抗病毒藥物的核心,RNA病毒特別是單鏈RNA病毒,依靠其遺 傳物質(zhì)不穩(wěn)定、基因組進(jìn)化速度非常快的特點(diǎn),給疫苗的研制帶來(lái)巨大的挑戰(zhàn)。據(jù)悉,從 1967年在德國(guó)的馬爾堡首次發(fā)現(xiàn)埃博拉病毒到如今已接近五十年,埃博拉病毒曾造成多次 大爆發(fā),人體感染初期出現(xiàn)頭痛,肌痛、惡心、嘔吐、腹瀉等,隨后可能出現(xiàn)體內(nèi)外出血、中樞 神經(jīng)紊亂,最終導(dǎo)致死亡,嚴(yán)重威脅著人類的健康和生命。
[0004] 生物信息學(xué)是將計(jì)算機(jī)科學(xué)和數(shù)學(xué)應(yīng)用于分子生物學(xué)而形成的交叉學(xué)科,在基因 組的研究中發(fā)揮著重要的作用。它將從實(shí)驗(yàn)室得到的生物學(xué)信息轉(zhuǎn)化為計(jì)算機(jī)能夠處理的 數(shù)字信息,通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)加工、存儲(chǔ)、檢索與分析,進(jìn)而揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義。信 息量是用于分析蛋白質(zhì)與核酸相互作用的信息理論,可以應(yīng)用到調(diào)節(jié)位點(diǎn)的分析,它首先 是由Schneider等提出的,后經(jīng)Berg和Stormo等人進(jìn)行了補(bǔ)充完善,其核心是具有相同親和 性的序列在進(jìn)化過(guò)程中有相同的概率被與之作用的蛋白質(zhì)或酶選為結(jié)合位點(diǎn),而結(jié)合的自 由能與親和性直接相關(guān),即尋找與目標(biāo)病毒類似的病毒核苷酸序列,將其兩兩比對(duì),若兩序 列有同樣的自由能,就有同樣的結(jié)合蛋白質(zhì)的親和性,而結(jié)合的自由能直接與堿基利用率 相關(guān)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種能夠迅速地、準(zhǔn) 確地預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,為探究RNA病毒的復(fù)制機(jī)制提供幫 助。
[0006] 本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
[0007] -種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,用于獲取RNA病毒基因序列 被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率,該方法包括以下步驟:
[0008] 1)獲取多條RNA病毒基因序列;
[0009] 2)以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較, 獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息,根據(jù)所述位點(diǎn)信息獲得結(jié)合 位點(diǎn),其中,所述位點(diǎn)信息量的計(jì)算公式為:
[0010] Hi=~ Z lAbi)\n[p{bf)!p\bi)\
[0011] l=\
[0012]式中,Hi是位點(diǎn)中每個(gè)位置的信息量,Hseq是位點(diǎn)信息量,bl表示堿基,有A、C、G、T 四種堿基,P(bl)是各位置中堿基出現(xiàn)的概率,pYbl)是基因組中堿基出現(xiàn)的概率,S是位點(diǎn) 中位置的個(gè)數(shù)。
[0013] 所述步驟1)中,RNA病毒基因序列通過(guò)基因組測(cè)序得到或由GenBank數(shù)據(jù)庫(kù)中獲 取。
[0014]所述步驟1)中,多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病 毒基因序列。
[0015]所述步驟1)中,多條RNA病毒基因序列的序列長(zhǎng)度差在1 %以內(nèi)。
[0016]所述步驟2)中的比較過(guò)程具體為:
[0017] 201)任意選取一條RNA病毒基因序列作為目標(biāo)序列,所述目標(biāo)序列的長(zhǎng)度為L(zhǎng),其 它序列作為比較序列,將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序 列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,獲得一個(gè)4 X S的堿基概率矩陣,S為單位長(zhǎng) 度;
[0018] 202)從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位,將所截取的分析單 位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,直至目標(biāo)序列所有堿基均比 較完成,獲得L-S+1個(gè)4 X S的堿基頻率矩陣。
[0019]所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值以及最大 位點(diǎn)信息量。
[0020] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0021] (1)本發(fā)明通過(guò)對(duì)序列的分析單位進(jìn)行位點(diǎn)信息量比對(duì),從而獲得RNA病毒基因序 列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率,預(yù)測(cè)最有可能的結(jié)合位點(diǎn),不僅能快速?gòu)谋姸嘈蛄兄谐?提出結(jié)合位點(diǎn),而且能預(yù)測(cè)出結(jié)合位點(diǎn)中重要的位置。
[0022] (2)本發(fā)明在選取RNA病毒基因序列選擇同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病 毒基因序列,且序列長(zhǎng)度相近,有效提高了預(yù)測(cè)的準(zhǔn)確性。
[0023] (3)利用本發(fā)明方法能預(yù)測(cè)調(diào)節(jié)蛋白在病毒基因內(nèi)的結(jié)合位點(diǎn),為定點(diǎn)突變等分 子生物學(xué)實(shí)驗(yàn)提供方向,為弄清蛋白質(zhì)與RNA病毒基因相互作用奠定基礎(chǔ)、最終揭示RNA病 毒復(fù)制機(jī)理做出貢獻(xiàn)。
【附圖說(shuō)明】
[0024]圖1為本發(fā)明的流程示意圖;
[0025]圖2為本發(fā)明結(jié)果文本示意圖。
【具體實(shí)施方式】
[0026] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案 為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程,但本發(fā)明的保護(hù)范圍不限于 下述的實(shí)施例。
[0027] 如圖1所示,本實(shí)施例提供一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法, 用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率,該方法包括:
[0028] 步驟S1:獲取多條RNA病毒基因序列。RNA病毒基因序列可通過(guò)基因組測(cè)試得到,也 可登錄NCBI網(wǎng)站的GenBank數(shù)據(jù)庫(kù)下載的相關(guān)病毒基因的序列進(jìn)行整理獲取。
[0029]優(yōu)選地,多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基因 序列。
[0030] 更進(jìn)一步地,多條RNA病毒基因序列的序列長(zhǎng)度相近,長(zhǎng)度差在1%以內(nèi)。
[0031] 步驟S2:以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并 比較,其中,所述位點(diǎn)信息量的計(jì)算公式為:
[0032] "/=- Z /物叫/物)//々/)')] 況=A,C,G,T
[0033] M
[0034]式中,Hi是位點(diǎn)中每個(gè)位置的信息量,Hseq是位點(diǎn)信息量,bl表示堿基,有A、C、G、T 四種堿基,P(bl)是各位置中堿基出現(xiàn)的概率,pYbl)是基因組中堿基出現(xiàn)的概率,S是位點(diǎn) 中位置的個(gè)數(shù)。
[0035] 步驟S3:獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息;
[0036] 步驟S4:根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)。按照熵的原則,具有最大信息熵的位置 在基因組的功能中起最重要的作用,當(dāng)幾個(gè)這樣的位置毗連形成一個(gè)位點(diǎn)時(shí)該位點(diǎn)可能是 基因組的關(guān)鍵區(qū)域,具有作為病毒蛋白質(zhì)與基因序列的結(jié)合位點(diǎn)的可能性。
[0037]步驟S2中的比較過(guò)程具體為:
[0038] 201)任意選取一條RNA病毒基因序列作為目標(biāo)序列,所述目標(biāo)序列的長(zhǎng)度為L(zhǎng),其 它序列作為比較序列,將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序 列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,獲得一個(gè)4 X S的堿基概率矩陣,S為單位長(zhǎng) 度,所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值以及最大位點(diǎn) 信息量;
[0039] 202)從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位,將所截取的分析單 位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,直至目標(biāo)序列所有堿基均比 較完成,獲得L-S+1個(gè)4 X S的堿基頻率矩陣。
[0040] 在進(jìn)行RNA病毒基因序列選擇時(shí),若所選取的N條為等長(zhǎng)序列,則設(shè)置一個(gè)單位長(zhǎng) 度獲取分析單位(即為一個(gè)word寬度),這個(gè)分析單位所包含的連續(xù)堿基的數(shù)量稱單位長(zhǎng) 度,單位長(zhǎng)度根據(jù)具體的分析對(duì)象將有所不同;若所選取的N條為不等長(zhǎng)序列,則單位長(zhǎng)度 就等于最短序列的堿基數(shù),從而使最后獲得的堿基頻率矩陣包含對(duì)該序列的功能所必須的 位置。
[0041]根據(jù)上述預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法的原理進(jìn)行編程,獲得 一利用信息量預(yù)測(cè)RNA病毒蛋白質(zhì)結(jié)合位點(diǎn)的軟件,命名為RSST,該軟件的操作流程為: [0042] 步驟一:將通過(guò)基因組測(cè)序得到的病毒基因序列或者登錄NCBI網(wǎng)站的GenBank數(shù) 據(jù)庫(kù)下載的相關(guān)病毒基因的序列進(jìn)行整理,以純序列文本.txt格式保存,測(cè)定或者下載整 理的序列需要統(tǒng)一轉(zhuǎn)化為小寫(xiě)字母的形式;
[0043] 從GenBank中下載到17條蛋白質(zhì)編碼序列,如表1為它們的登錄號(hào):
[0044] 表 1
[0046]步驟二:新建文件夾,在此舉例命名為data,將測(cè)序或下載并整理好的序列文本統(tǒng) 一保存在data文件夾中;
[0047] 步驟三:在data文件夾中創(chuàng)建一個(gè)新的文本out-data. text,首先輸入比對(duì)序列總 數(shù)M,然后逐一列出需要比對(duì)的序列輸出文件名及輸入文件名,例如out\\19.sk3' .txt和 data\\19?sk3 '?txt;
[OO48] 步驟四:將軟件rsst.exe與data文件夾放置在同一個(gè)新建文件夾中;
[0049]步驟五:雙擊鼠標(biāo)左鍵,打開(kāi)軟件rsst.exe,將文件夾data中的規(guī)定輸入與輸出格 式的文本out-data. text拖拽到軟件rsst ? exe中,點(diǎn)擊計(jì)算,Calculate Alt+C;
[0050]步驟六:在步驟五彈出的對(duì)話框中分別輸入所需要比對(duì)的序列數(shù)量M和word的寬 度S,其中word寬度S指的是蛋白質(zhì)在基因中結(jié)合位點(diǎn)的堿基數(shù),程序?qū)凑找韵鹿綄?duì)序 列的位點(diǎn)信息量進(jìn)行計(jì)算,并保留各位點(diǎn)的信息量及位點(diǎn)信息;
[0051 ] lp = E [(%+0] /(/V-t-4)]%>2[4(^ +1.5)/(7V + 4 5)] b=A,t\GS S
[_ ,,工人 i=i
[0053]注:IP是位點(diǎn)中每個(gè)位置(position)的信息量,Is是位點(diǎn)(site)的信息量,等于該 位點(diǎn)中每個(gè)位置信息量的和,b表示A、C、G、T四個(gè)堿基,nib是位置中某個(gè)堿基出現(xiàn)的頻率,N 為某個(gè)位置所具有的總堿基數(shù),實(shí)際上,它等于待分析的序列的條數(shù),1表示位置,S則為位 點(diǎn)的長(zhǎng)度,在這里等于word的寬度。
[0054]步驟七:軟件將自動(dòng)把以上保留的各位點(diǎn)的信息量及位點(diǎn)的信息以文本格式輸出 并保存,打開(kāi)文本可以看到軟件將具有最大位點(diǎn)信息量的位點(diǎn)信息保存在文本結(jié)果的中的 最后位置,可以取此最優(yōu)結(jié)果作為實(shí)驗(yàn)的最終結(jié)果。
[0055]將上述序列輸入軟件,在輸出的結(jié)果文本的最后有如下最優(yōu)結(jié)果如圖2所示。以圖 2所示最優(yōu)結(jié)果為實(shí)驗(yàn)最終結(jié)果,其中上半部分顯示蛋白質(zhì)在個(gè)序列上可能的結(jié)合位點(diǎn)信 息,下半部分顯示了結(jié)合位點(diǎn)的堿基信息及各位置和位點(diǎn)的信息量。
【主權(quán)項(xiàng)】
1. 一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,用于獲取RNA病毒基因序列被 選為蛋白質(zhì)結(jié)合位點(diǎn)的概率,其特征在于,該方法包括W下步驟: 1) 獲取多條RNA病毒基因序列; 2. W設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較,獲得 最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息,根據(jù)所述位點(diǎn)信息獲得結(jié)合位 點(diǎn),其中,所述位點(diǎn)信息管?式中,Hl是位點(diǎn)中每個(gè)位置的信息量,出eq是位點(diǎn)信息量,bl表示堿基,有A、C、G、T四種堿 基,口化1)是各位置中堿基出現(xiàn)的概率,口*^化1)是基因組中堿基出現(xiàn)的概率,5是位點(diǎn)中位置 的個(gè)數(shù)。2. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,其特征在 于,所述步驟1)中,RNA病毒基因序列通過(guò)基因組測(cè)序得到或由GenBank數(shù)據(jù)庫(kù)中獲取。3. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,其特征在 于,所述步驟1)中,多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基 因序列。4. 根據(jù)權(quán)利要求3所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,其特征在 于,所述步驟1)中,多條RNA病毒基因序列的序列長(zhǎng)度差在1 % W內(nèi)。5. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,其特征在 于,所述步驟2)中的比較過(guò)程具體為: 201) 任意選取一條RNA病毒基因序列作為目標(biāo)序列,所述目標(biāo)序列的長(zhǎng)度為L(zhǎng),其它序 列作為比較序列,將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序列末 尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,獲得一個(gè)4 X S的堿基概率矩陣,S為單位長(zhǎng)度; 202) 從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位,將所截取的分析單位與 所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較,直至目標(biāo)序列所有堿基均比較完 成,獲得kS+l個(gè)4 X S的堿基頻率矩陣。6. 根據(jù)權(quán)利要求5所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法,其特征在 于,所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值W及最大位點(diǎn) 信息量。
【文檔編號(hào)】G06F19/20GK105912886SQ201610187739
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】蘇翠珠, 肖明
【申請(qǐng)人】上海師范大學(xué)