一種預(yù)測(cè)蛋白質(zhì)在rna病毒基因中的結(jié)合位點(diǎn)的方法

文檔序號(hào)：10553199閱讀：481來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種預(yù)測(cè)蛋白質(zhì)在rna病毒基因中的結(jié)合位點(diǎn)的方法
【專利摘要】本發(fā)明涉及一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率，該方法包括以下步驟：1)獲取多條RNA病毒基因序列；2)以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較，獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息，根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)。與現(xiàn)有技術(shù)相比，本發(fā)明能夠迅速地、準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，為探究RNA病毒的復(fù)制機(jī)制提供幫助。
【專利說(shuō)明】
一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及生物信息技術(shù)領(lǐng)域，尤其是涉及一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法。
【背景技術(shù)】
[0002] 從1868年F.Miescher發(fā)現(xiàn)核素到1953年沃森和克里克正式提出DNA分子的雙螺旋結(jié)構(gòu)，再到2005年人類基因組計(jì)劃測(cè)序工作的完成，人類在探索生命奧秘的道路上留下了一串串堅(jiān)實(shí)的腳印。然而近年來(lái)隨著對(duì)RNA分子研究的不斷深入，人們逐步意識(shí)到RNA具有遠(yuǎn)比DNA復(fù)雜得多的結(jié)構(gòu)和功能上的多樣性，RNA研究已經(jīng)成為新的熱點(diǎn)，一個(gè)嶄新的RNA世界正在逐漸展現(xiàn)在人們的面前。
[0003] 病毒是地球上最豐富的微生物之一，它是由一個(gè)核酸分子與蛋白質(zhì)構(gòu)成的非細(xì)胞結(jié)構(gòu)形態(tài)的靠寄生生活的生命體，根據(jù)遺傳物質(zhì)的不同可以分為:DAN病毒和RAN病毒。近年來(lái)，由RNA病毒引起的新發(fā)或再發(fā)性流行病經(jīng)常成為全球性公共衛(wèi)生問(wèn)題，例如輪狀病毒、艾滋病病毒、SARS病毒、埃博拉病毒(EB0V)、甲型H1N1流感病毒等。病毒基因組的復(fù)制與表達(dá)是研究病毒致病機(jī)理及研制抗病毒藥物的核心，RNA病毒特別是單鏈RNA病毒，依靠其遺傳物質(zhì)不穩(wěn)定、基因組進(jìn)化速度非常快的特點(diǎn)，給疫苗的研制帶來(lái)巨大的挑戰(zhàn)。據(jù)悉，從 1967年在德國(guó)的馬爾堡首次發(fā)現(xiàn)埃博拉病毒到如今已接近五十年，埃博拉病毒曾造成多次大爆發(fā)，人體感染初期出現(xiàn)頭痛，肌痛、惡心、嘔吐、腹瀉等，隨后可能出現(xiàn)體內(nèi)外出血、中樞神經(jīng)紊亂，最終導(dǎo)致死亡，嚴(yán)重威脅著人類的健康和生命。
[0004] 生物信息學(xué)是將計(jì)算機(jī)科學(xué)和數(shù)學(xué)應(yīng)用于分子生物學(xué)而形成的交叉學(xué)科，在基因組的研究中發(fā)揮著重要的作用。它將從實(shí)驗(yàn)室得到的生物學(xué)信息轉(zhuǎn)化為計(jì)算機(jī)能夠處理的數(shù)字信息，通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)加工、存儲(chǔ)、檢索與分析，進(jìn)而揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義。信息量是用于分析蛋白質(zhì)與核酸相互作用的信息理論，可以應(yīng)用到調(diào)節(jié)位點(diǎn)的分析，它首先是由Schneider等提出的，后經(jīng)Berg和Stormo等人進(jìn)行了補(bǔ)充完善，其核心是具有相同親和性的序列在進(jìn)化過(guò)程中有相同的概率被與之作用的蛋白質(zhì)或酶選為結(jié)合位點(diǎn)，而結(jié)合的自由能與親和性直接相關(guān)，即尋找與目標(biāo)病毒類似的病毒核苷酸序列，將其兩兩比對(duì)，若兩序列有同樣的自由能，就有同樣的結(jié)合蛋白質(zhì)的親和性，而結(jié)合的自由能直接與堿基利用率相關(guān)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種能夠迅速地、準(zhǔn) 確地預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，為探究RNA病毒的復(fù)制機(jī)制提供幫助。
[0006] 本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)：
[0007] -種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率，該方法包括以下步驟：
[0008] 1)獲取多條RNA病毒基因序列；
[0009] 2)以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較，獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息，根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)，其中，所述位點(diǎn)信息量的計(jì)算公式為：
[0010] Hi=~ Z lAbi)\n[p{bf)!p\bi)\
[0011] l=\
[0012]式中，Hi是位點(diǎn)中每個(gè)位置的信息量，Hseq是位點(diǎn)信息量，bl表示堿基，有A、C、G、T 四種堿基，P(bl)是各位置中堿基出現(xiàn)的概率，pYbl)是基因組中堿基出現(xiàn)的概率，S是位點(diǎn) 中位置的個(gè)數(shù)。
[0013] 所述步驟1)中，RNA病毒基因序列通過(guò)基因組測(cè)序得到或由GenBank數(shù)據(jù)庫(kù)中獲取。
[0014]所述步驟1)中，多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基因序列。
[0015]所述步驟1)中，多條RNA病毒基因序列的序列長(zhǎng)度差在1 %以內(nèi)。
[0016]所述步驟2)中的比較過(guò)程具體為：
[0017] 201)任意選取一條RNA病毒基因序列作為目標(biāo)序列，所述目標(biāo)序列的長(zhǎng)度為L(zhǎng)，其它序列作為比較序列，將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，獲得一個(gè)4 X S的堿基概率矩陣，S為單位長(zhǎng) 度；
[0018] 202)從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位，將所截取的分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，直至目標(biāo)序列所有堿基均比較完成，獲得L-S+1個(gè)4 X S的堿基頻率矩陣。
[0019]所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值以及最大位點(diǎn)信息量。
[0020] 與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：
[0021] (1)本發(fā)明通過(guò)對(duì)序列的分析單位進(jìn)行位點(diǎn)信息量比對(duì)，從而獲得RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率，預(yù)測(cè)最有可能的結(jié)合位點(diǎn)，不僅能快速?gòu)谋姸嘈蛄兄谐?提出結(jié)合位點(diǎn)，而且能預(yù)測(cè)出結(jié)合位點(diǎn)中重要的位置。
[0022] (2)本發(fā)明在選取RNA病毒基因序列選擇同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基因序列，且序列長(zhǎng)度相近，有效提高了預(yù)測(cè)的準(zhǔn)確性。
[0023] (3)利用本發(fā)明方法能預(yù)測(cè)調(diào)節(jié)蛋白在病毒基因內(nèi)的結(jié)合位點(diǎn)，為定點(diǎn)突變等分子生物學(xué)實(shí)驗(yàn)提供方向，為弄清蛋白質(zhì)與RNA病毒基因相互作用奠定基礎(chǔ)、最終揭示RNA病毒復(fù)制機(jī)理做出貢獻(xiàn)。
【附圖說(shuō)明】
[0024]圖1為本發(fā)明的流程示意圖；
[0025]圖2為本發(fā)明結(jié)果文本示意圖。
【具體實(shí)施方式】
[0026] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施，給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程，但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
[0027] 如圖1所示，本實(shí)施例提供一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率，該方法包括：
[0028] 步驟S1:獲取多條RNA病毒基因序列。RNA病毒基因序列可通過(guò)基因組測(cè)試得到，也可登錄NCBI網(wǎng)站的GenBank數(shù)據(jù)庫(kù)下載的相關(guān)病毒基因的序列進(jìn)行整理獲取。
[0029]優(yōu)選地，多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基因序列。
[0030] 更進(jìn)一步地，多條RNA病毒基因序列的序列長(zhǎng)度相近，長(zhǎng)度差在1%以內(nèi)。
[0031] 步驟S2:以設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較，其中，所述位點(diǎn)信息量的計(jì)算公式為：
[0032] "/=- Z /物叫/物)//々/)')] 況=A，C，G，T
[0033] M
[0034]式中，Hi是位點(diǎn)中每個(gè)位置的信息量，Hseq是位點(diǎn)信息量，bl表示堿基，有A、C、G、T 四種堿基，P(bl)是各位置中堿基出現(xiàn)的概率，pYbl)是基因組中堿基出現(xiàn)的概率，S是位點(diǎn) 中位置的個(gè)數(shù)。
[0035] 步驟S3:獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息；
[0036] 步驟S4:根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)。按照熵的原則，具有最大信息熵的位置在基因組的功能中起最重要的作用，當(dāng)幾個(gè)這樣的位置毗連形成一個(gè)位點(diǎn)時(shí)該位點(diǎn)可能是基因組的關(guān)鍵區(qū)域，具有作為病毒蛋白質(zhì)與基因序列的結(jié)合位點(diǎn)的可能性。
[0037]步驟S2中的比較過(guò)程具體為：
[0038] 201)任意選取一條RNA病毒基因序列作為目標(biāo)序列，所述目標(biāo)序列的長(zhǎng)度為L(zhǎng)，其它序列作為比較序列，將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，獲得一個(gè)4 X S的堿基概率矩陣，S為單位長(zhǎng) 度，所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值以及最大位點(diǎn) 信息量；
[0039] 202)從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位，將所截取的分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，直至目標(biāo)序列所有堿基均比較完成，獲得L-S+1個(gè)4 X S的堿基頻率矩陣。
[0040] 在進(jìn)行RNA病毒基因序列選擇時(shí)，若所選取的N條為等長(zhǎng)序列，則設(shè)置一個(gè)單位長(zhǎng) 度獲取分析單位（即為一個(gè)word寬度），這個(gè)分析單位所包含的連續(xù)堿基的數(shù)量稱單位長(zhǎng) 度，單位長(zhǎng)度根據(jù)具體的分析對(duì)象將有所不同；若所選取的N條為不等長(zhǎng)序列，則單位長(zhǎng)度就等于最短序列的堿基數(shù)，從而使最后獲得的堿基頻率矩陣包含對(duì)該序列的功能所必須的位置。
[0041]根據(jù)上述預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法的原理進(jìn)行編程，獲得一利用信息量預(yù)測(cè)RNA病毒蛋白質(zhì)結(jié)合位點(diǎn)的軟件，命名為RSST，該軟件的操作流程為： [0042] 步驟一:將通過(guò)基因組測(cè)序得到的病毒基因序列或者登錄NCBI網(wǎng)站的GenBank數(shù) 據(jù)庫(kù)下載的相關(guān)病毒基因的序列進(jìn)行整理，以純序列文本.txt格式保存，測(cè)定或者下載整理的序列需要統(tǒng)一轉(zhuǎn)化為小寫(xiě)字母的形式；
[0043] 從GenBank中下載到17條蛋白質(zhì)編碼序列，如表1為它們的登錄號(hào)：
[0044] 表 1
[0046]步驟二:新建文件夾，在此舉例命名為data，將測(cè)序或下載并整理好的序列文本統(tǒng) 一保存在data文件夾中；
[0047] 步驟三:在data文件夾中創(chuàng)建一個(gè)新的文本out-data. text，首先輸入比對(duì)序列總數(shù)M，然后逐一列出需要比對(duì)的序列輸出文件名及輸入文件名，例如out\\19.sk3' .txt和 data\\19?sk3 '?txt;
[OO48] 步驟四：將軟件rsst.exe與data文件夾放置在同一個(gè)新建文件夾中；
[0049]步驟五:雙擊鼠標(biāo)左鍵，打開(kāi)軟件rsst.exe，將文件夾data中的規(guī)定輸入與輸出格式的文本out-data. text拖拽到軟件rsst ? exe中，點(diǎn)擊計(jì)算，Calculate Alt+C;
[0050]步驟六:在步驟五彈出的對(duì)話框中分別輸入所需要比對(duì)的序列數(shù)量M和word的寬度S，其中word寬度S指的是蛋白質(zhì)在基因中結(jié)合位點(diǎn)的堿基數(shù)，程序?qū)凑找韵鹿綄?duì)序列的位點(diǎn)信息量進(jìn)行計(jì)算，并保留各位點(diǎn)的信息量及位點(diǎn)信息；
[0051 ] lp = E [(%+0] /(/V-t-4)]%>2[4(^ +1.5)/(7V + 4 5)] b=A,t\GS S
[_ ，，工人 i=i
[0053]注：IP是位點(diǎn)中每個(gè)位置(position)的信息量，Is是位點(diǎn)（site)的信息量，等于該位點(diǎn)中每個(gè)位置信息量的和，b表示A、C、G、T四個(gè)堿基，nib是位置中某個(gè)堿基出現(xiàn)的頻率，N 為某個(gè)位置所具有的總堿基數(shù)，實(shí)際上，它等于待分析的序列的條數(shù)，1表示位置，S則為位點(diǎn)的長(zhǎng)度，在這里等于word的寬度。
[0054]步驟七:軟件將自動(dòng)把以上保留的各位點(diǎn)的信息量及位點(diǎn)的信息以文本格式輸出并保存，打開(kāi)文本可以看到軟件將具有最大位點(diǎn)信息量的位點(diǎn)信息保存在文本結(jié)果的中的最后位置，可以取此最優(yōu)結(jié)果作為實(shí)驗(yàn)的最終結(jié)果。
[0055]將上述序列輸入軟件，在輸出的結(jié)果文本的最后有如下最優(yōu)結(jié)果如圖2所示。以圖 2所示最優(yōu)結(jié)果為實(shí)驗(yàn)最終結(jié)果，其中上半部分顯示蛋白質(zhì)在個(gè)序列上可能的結(jié)合位點(diǎn)信息，下半部分顯示了結(jié)合位點(diǎn)的堿基信息及各位置和位點(diǎn)的信息量。
【主權(quán)項(xiàng)】
1. 一種預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點(diǎn)的概率，其特征在于，該方法包括W下步驟： 1) 獲取多條RNA病毒基因序列； 2. W設(shè)定的單位長(zhǎng)度對(duì)每條所述RNA病毒基因序列進(jìn)行位點(diǎn)信息量計(jì)算并比較，獲得最大位點(diǎn)信息量及該最大位點(diǎn)信息量所對(duì)應(yīng)的位點(diǎn)信息，根據(jù)所述位點(diǎn)信息獲得結(jié)合位點(diǎn)，其中，所述位點(diǎn)信息管?式中，Hl是位點(diǎn)中每個(gè)位置的信息量，出eq是位點(diǎn)信息量，bl表示堿基，有A、C、G、T四種堿基，口化1)是各位置中堿基出現(xiàn)的概率，口*^化1)是基因組中堿基出現(xiàn)的概率，5是位點(diǎn)中位置的個(gè)數(shù)。2. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，其特征在于，所述步驟1)中，RNA病毒基因序列通過(guò)基因組測(cè)序得到或由GenBank數(shù)據(jù)庫(kù)中獲取。3. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，其特征在于，所述步驟1)中，多條RNA病毒基因序列為同一個(gè)屬或者同一個(gè)科的單股正鏈RNA病毒基因序列。4. 根據(jù)權(quán)利要求3所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，其特征在于，所述步驟1)中，多條RNA病毒基因序列的序列長(zhǎng)度差在1 % W內(nèi)。5. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，其特征在于，所述步驟2)中的比較過(guò)程具體為： 201) 任意選取一條RNA病毒基因序列作為目標(biāo)序列，所述目標(biāo)序列的長(zhǎng)度為L(zhǎng)，其它序列作為比較序列，將所述目標(biāo)序列中由第一個(gè)堿基開(kāi)始的一個(gè)分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，獲得一個(gè)4 X S的堿基概率矩陣，S為單位長(zhǎng)度； 202) 從所述目標(biāo)序列的第二個(gè)堿基依次開(kāi)始截取一分析單位，將所截取的分析單位與所有比較序列末尾的一個(gè)分析單位進(jìn)行位點(diǎn)信息量比較，直至目標(biāo)序列所有堿基均比較完成，獲得kS+l個(gè)4 X S的堿基頻率矩陣。6. 根據(jù)權(quán)利要求5所述的預(yù)測(cè)蛋白質(zhì)在RNA病毒基因中的結(jié)合位點(diǎn)的方法，其特征在于，所述堿基頻率矩陣含有單位長(zhǎng)度堿基的位置、每個(gè)位置相應(yīng)的信息量值W及最大位點(diǎn) 信息量。
【文檔編號(hào)】G06F19/20GK105912886SQ201610187739
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】蘇翠珠, 肖明
【申請(qǐng)人】上海師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇翠珠;肖明;
技術(shù)所有人：上海師范大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)與rna相互作用相關(guān)技術(shù)

編碼蛋白質(zhì)相關(guān)的rna相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種預(yù)測(cè)蛋白質(zhì)在rna病毒基因中的結(jié)合位點(diǎn)的方法