專利名稱:一種定量分析rna結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)程序,更具體地,是一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法。
背景技術(shù):
生物穩(wěn)健性是生物系統(tǒng)中一種最基本且普遍存在的現(xiàn)象。它被理解為在各種干擾面前, 仍能保持穩(wěn)定功能的一種能力。根據(jù)干擾性質(zhì)的不同(可遺傳與否),穩(wěn)健性分為遺傳穩(wěn)健性 和環(huán)境穩(wěn)健性。遺傳穩(wěn)健性是指在遺傳突變干擾面前,表型的不敏感性;而環(huán)境穩(wěn)健性是指 在外部環(huán)境因素的干擾面前,表型的不敏感性。 一直以來,生物學(xué)家都非常關(guān)注生物穩(wěn)健性 的研究,從Fisher的顯性研究到Waddington的發(fā)育穩(wěn)態(tài)研究。研究表明,在生物系統(tǒng)的各個(gè) 水平上,都存在穩(wěn)健性,包括基因表達(dá)、蛋白質(zhì)折疊、代謝流量、身體自理調(diào)節(jié)、發(fā)育,甚 至組織適應(yīng)性。正確理解生物系統(tǒng)中穩(wěn)健性的起源和進(jìn)化將有助于我們對(duì)生物進(jìn)化的理解。RNA二級(jí)結(jié)構(gòu)是研究生物穩(wěn)健性的一個(gè)很好的平臺(tái)。事實(shí)上,已經(jīng)有很多研究者研究了 RNA病毒、類病毒和microRNA中的穩(wěn)健性。盡管有很多的研究關(guān)注于穩(wěn)健性的進(jìn)化機(jī)制, 但迄今為止,穩(wěn)健性的起源及其進(jìn)化仍然不是很清楚。造成這一現(xiàn)狀的原因,主要?dú)w因于在 生物系統(tǒng)中很難給出穩(wěn)健性進(jìn)化的定量分析方法。發(fā)明內(nèi)容本發(fā)明旨在提供一種能簡(jiǎn)單、方便、快捷地度量RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的定量化分析方 法,解決穩(wěn)健性進(jìn)化評(píng)估難、定量難的問題,達(dá)到分析生物穩(wěn)健性的起源及其進(jìn)化的目的, 由此而提高對(duì)生物進(jìn)化的理解。為了達(dá)到上述目的,本發(fā)明以RNA二級(jí)結(jié)構(gòu)為研究平臺(tái),在計(jì)算機(jī)系統(tǒng)中提供了一種定 量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,該方法包括檢査從計(jì)算機(jī)終端輸入的RNA序列的合 法性、產(chǎn)生對(duì)照序列、計(jì)算RNA結(jié)構(gòu)穩(wěn)健性,定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的步驟。在一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法中,對(duì)照序列的產(chǎn)生是在選定置亂方法的 基礎(chǔ)上,沿著輸入的RNA序列(長(zhǎng)度為/)的海明距離,采用蒙特卡洛方法隨機(jī)采樣iV條序列,共產(chǎn)生/xiV條隨機(jī)序列。本發(fā)明共實(shí)現(xiàn)了五種產(chǎn)生對(duì)照序列的置亂方法,具體描述如下 *完全隨機(jī)產(chǎn)生與輸入序列具有相同長(zhǎng)度的隨機(jī)序列; *單堿基置亂隨機(jī)置換序列中堿基的位置; *雙堿基置亂根據(jù)Erikson-Altschul算法,得到雙堿基置亂序列。*基于零階馬爾科夫模型的置亂計(jì)算序列中單堿基頻率PO)。根據(jù)該頻率在每個(gè)位點(diǎn)隨機(jī)釆樣不同的堿基直到達(dá)到輸入序列的長(zhǎng)度為止;*基于一階馬爾科夫模型的置亂計(jì)算序列中給定堿基6堿基"出現(xiàn)的條件概率戶(alZ))。隨機(jī)選擇第一個(gè)位點(diǎn)的堿基x,,根據(jù)條件概率P(x,」x,)選擇下一位點(diǎn)的堿 基《+1,直到達(dá)到輸入序列的長(zhǎng)度為止;在一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法中,采用中性值作為RNA結(jié)構(gòu)穩(wěn)健性的 定量分析指標(biāo),中性值的定義為其中,《,/ = 1,2,...,3X/為RNA序列與其第, 個(gè)突變體序列之間的結(jié)構(gòu)距離,/為RNA序列 的長(zhǎng)度。中性值z(mì)越大,表明該RNA序列具有較高水平的穩(wěn)健性。RNA序列與其突變體序'列之間的結(jié)構(gòu)距離"的計(jì)算分為兩種情況在僅考慮最小自由能結(jié)構(gòu)的情況下,"為采用不 同結(jié)構(gòu)度量計(jì)算的RNA序列與其突變體序列之間的最小自由能結(jié)構(gòu)的距離,這些結(jié)構(gòu)度量具 體包括字符串編輯距離,樹編輯距離和堿基對(duì)距離;在考慮次優(yōu)結(jié)構(gòu)的情況下,J由RNA序 列與其突變體序列之間的結(jié)構(gòu)整體距離&給出。結(jié)構(gòu)整體距離&的定義如下^"力=(2)其中,A(S)是序列jc的結(jié)構(gòu)整體中結(jié)構(gòu)S的平衡概率,;^(S')是序列y的結(jié)構(gòu)整體中結(jié)構(gòu)S'的平衡概率,^(S,S')為結(jié)構(gòu)S和S'的距離。在一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法中,RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的定量分析 是沿著輸入的RNA序列的海明距離進(jìn)行的。具體操作如下分別計(jì)算輸入的RNA序列及沿 著海明距離采樣產(chǎn)生的對(duì)照序列的穩(wěn)健性7和l^化',hl,2,…,A^、1,2,...,/},其中iV為在每個(gè)海明距離上產(chǎn)生的對(duì)照序列的數(shù)目,/為輸入的RNA序列的長(zhǎng)度。在每個(gè)海明距離/上比較y和T、分析輸入的RNA序列在每個(gè)海明距離上穩(wěn)健性的顯著性,計(jì)算每個(gè)海明距離 上相應(yīng)的/7-value值。并由此給出RNA結(jié)構(gòu)穩(wěn)健性隨海明距離變化的曲線,即RNA結(jié)構(gòu)穩(wěn) 健性的進(jìn)化的定量分析結(jié)果。在海明距離j'上,,value值定義為其中,^表示集合丫/ = ^/,/ = 1,2,...,^}中,比輸入的RNA序列更穩(wěn)健的序列的數(shù)目,即集 合1^=化、/ = 1,2,...,^}中比^的值更大的中性值的數(shù)目。
圖1為本發(fā)明的一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法的總體框圖;圖2為圖1中計(jì)算RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的流程圖;圖3為線蟲中microRNA /W-7的結(jié)構(gòu)穩(wěn)健性的進(jìn)化的分析結(jié)果。
具體實(shí)施方式
圖1為本發(fā)明一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法的總體框圖。 對(duì)從計(jì)算機(jī)終端輸入的RNA序列,根據(jù)RNA序列的定義,做合法性檢查。RNA序列是 取自字母表J:(A,C,G,U)的一個(gè)字符串i -n,^,…,^,其中(.e J,Z-1,2,…,"。對(duì)不符合該定義的輸入序列,則返回重新輸入。采用本發(fā)明,分析的實(shí)例是線蟲中長(zhǎng)度為/ = 99的 microRNA /W-7前體的序列在對(duì)從計(jì)算機(jī)終端輸入的RNA序列檢査合法性之后,沿著輸入的RNA序列的海明距離, 選定五種置亂方法中的完全隨機(jī)的置亂方法,采用蒙特卡洛方法隨機(jī)采樣iV = 1,000條隨機(jī)RNA序列,共產(chǎn)生/ x = 99,000條隨機(jī)RNA序列。對(duì)輸入的RNA序列microRNA /^-7及其每個(gè)海明距離上的對(duì)照RNA序列,計(jì)算它們的 結(jié)構(gòu)穩(wěn)健性,圖2給出了計(jì)算RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的流程圖。對(duì)每條RNA序列,由于每個(gè)位點(diǎn)共有四個(gè)堿基J-(A,C,G,U)可供選擇,去掉其本身,在每個(gè)位點(diǎn)可產(chǎn)生三條突變體例如,對(duì)輸入的microRNA/W-7前體序列,它第一個(gè)位點(diǎn)的堿基U,可以突變?yōu)槠渌娜齻€(gè)堿基A、 C和U,這樣三個(gè)突變體序列為位點(diǎn) 突變體序列利用標(biāo)準(zhǔn)的RNA 二級(jí)結(jié)構(gòu)折疊程序RNAfold,將輸入的RNA序列及其每個(gè)位點(diǎn)的三個(gè) 突變體序列(共有3x/個(gè)突變體序列)折疊成相應(yīng)的二級(jí)結(jié)構(gòu)。若僅考慮最小自由能結(jié)構(gòu), 利用標(biāo)準(zhǔn)的RNA二級(jí)結(jié)構(gòu)距離度量程序RNAdistance,選定距離度量(字符串編輯距離,樹 編輯距離或堿基對(duì)距離三種距離度量),計(jì)算輸入的RNA序列與其每個(gè)突變體序列之間的結(jié) 構(gòu)距離d。若考慮次優(yōu)結(jié)構(gòu),則利用標(biāo)準(zhǔn)的RNA 二級(jí)結(jié)構(gòu)整體距離度量程序RNApdist,計(jì)算輸入的RNA序列與其每個(gè)突變體序列之間的結(jié)構(gòu)整體距離^ 。在得到RNA序列與其突變體序列之間的結(jié)構(gòu)距離后,對(duì)3x/個(gè)突變體序列,計(jì)算^", / = 1,2,...,3></的值,統(tǒng)計(jì)它們的平均值,即得到(l)式中所定義的RNA序列的中性值z(mì)。在一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法中,按照上面的流程,計(jì)算輸入的RNA 序列及沿著海明距離采樣產(chǎn)生的對(duì)照序列的穩(wěn)健性;r和Y = OV,/ = l,2,...,7V,y = l,2,...,/},其中iV為每個(gè)海明距離上產(chǎn)生的對(duì)照序列的數(shù)目,/為輸入的RNA序列的長(zhǎng)度。隨后,分析 RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化。在每個(gè)海明距離上,根據(jù)公式(3),計(jì)算每個(gè)海明距離上相應(yīng)的,value 值,并由此給出RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的分析結(jié)果。圖3顯示的是線蟲中microRNA /"-7 的結(jié)構(gòu)穩(wěn)健性的進(jìn)化的分析結(jié)果。本發(fā)明采用中性值定量評(píng)估RNA分子的結(jié)構(gòu)穩(wěn)健性,能夠簡(jiǎn)單、方便、快捷地定量分析 RNA結(jié)構(gòu)穩(wěn)健性隨著海明距離的進(jìn)化,對(duì)RNA進(jìn)化具有重要的理論意義和實(shí)用價(jià)值。
權(quán)利要求
1. 一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,其特征在于所述的方法包括下列步驟1)接收來自計(jì)算機(jī)終端輸入的RNA序列(長(zhǎng)度為l),判別該序列的合法性;2)選擇置亂方法,在每個(gè)海明距離上生成相應(yīng)的對(duì)照序列;3)根據(jù)中性值的定義,計(jì)算輸入的RNA序列及其每個(gè)海明距離上的對(duì)照序列的中性值;4)定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化。
2. 根據(jù)權(quán)利要求1所述的一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,其中所述的置 亂方法,其特征是,它包括完全隨機(jī)、單堿基置亂、雙堿基置、基于零階馬爾科夫 模型的置亂和基于一階馬爾科夫模型的置亂共計(jì)五種產(chǎn)生對(duì)照序列的隨機(jī)化方法。
3. 根據(jù)權(quán)利要求1所述的一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,其中所述的中 性值,其特征是,它的定義中RNA序列與其突變體序列之間的結(jié)構(gòu)距離J的計(jì)算分 為兩種情況1) 在僅考慮最小自由能結(jié)構(gòu)的情況下,RNA序列與其突變體序列之間的結(jié)構(gòu)距 離",由RNA序列與突變體序列之間的最小自由能結(jié)構(gòu)的字符串編輯距離, 樹編輯距離或堿基對(duì)距離給出;2) 在考慮次優(yōu)結(jié)構(gòu)的情況下,RNA序列與其突變體序列之間的結(jié)構(gòu)距離d由RNA 序列與其突變體序列之間的結(jié)構(gòu)整體距離&給出。
4. 根據(jù)權(quán)利要求3所述的考慮次優(yōu)結(jié)構(gòu)的情況,其特征是,它是指考慮在輸入的RNA 序列和突變體序列的最小自由能1 kcal/mo1內(nèi)的所有次優(yōu)結(jié)構(gòu)。
5. 根據(jù)權(quán)利要求1所述的一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,其中所述的定 量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化,其特征是,它的結(jié)果由輸入的RNA序列的結(jié)構(gòu)穩(wěn) 健性的顯著性的p-valiie值隨海明距離變化的曲線給出。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)程序,更具體地,是一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法。本發(fā)明旨在提供一種能簡(jiǎn)單、方便、快捷地度量RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的定量化分析方法,解決穩(wěn)健性進(jìn)化評(píng)估難、定量難的問題,達(dá)到分析生物穩(wěn)健性的起源及其進(jìn)化的目的,由此而提高對(duì)生物進(jìn)化的理解。為了達(dá)到上述目的,本發(fā)明以RNA二級(jí)結(jié)構(gòu)為研究平臺(tái),在計(jì)算機(jī)系統(tǒng)中提供了一種定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的方法,該方法包括檢查從計(jì)算機(jī)終端輸入的RNA序列的合法性、產(chǎn)生對(duì)照序列、計(jì)算RNA結(jié)構(gòu)穩(wěn)健性,定量分析RNA結(jié)構(gòu)穩(wěn)健性的進(jìn)化的步驟。
文檔編號(hào)G06F19/14GK101281561SQ200810111510
公開日2008年10月8日 申請(qǐng)日期2008年6月5日 優(yōu)先權(quán)日2008年6月5日
發(fā)明者伯曉晨, 王升啟, 舒文杰 申請(qǐng)人:中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所