專利名稱:包含假結的rna結構預測方法
技術領域:
本發(fā)明屬于生物信息工程領域,涉及一種對核糖核酸(在下文中,簡稱為RNA)的進行預測的方法,尤其涉及包含假結的RNA結構預測方法。
背景技術:
假結(pseudoknot,亦稱偽結)是包含至少兩個莖環(huán)結構的核酸三級結構,其中,兩個莖環(huán)之一的一半插在另一莖環(huán)的兩半之間。1982年首次在蕪菁花葉病毒(turnip yellowmosaic virus)中發(fā)現(xiàn)了假結。假結折疊成結形的三維立體構象,但不是真正的拓撲結。實際上,預測帶假結的最小自由能RNA結構的一般問題已被證明是NP完全問題。然而,許多重要的生物方法依賴于對帶假結的RNA結構的預測。例如,端粒酶RNA組分(Telomerase RNA component,參考
圖1)包含對其活性至關重要的假結。許多病毒使用假結結構形成類似tRNA基序(tRNA-like motif )滲透到宿主細胞。具有廣泛的三級結構的RNA分子往往有大量的假結。然而,由于假結結構的上下文敏感性(context-sensitivity)或“重疊”的特性,難于對它進行生物計算檢測。假結的堿基配對沒有很好的嵌套,換而言之,堿基對在序列中彼此重疊出現(xiàn)。這使得現(xiàn)有的動態(tài)規(guī)劃的標準方法(standard method of dynamicprogramming)難于預設核糖核酸(在下文中,簡稱為RNA)中的假結序列。較新的隨機上下文無關方法(method of stochastic context-free grammars)也遇到了同樣的問題。在較流行的Mfold和Pfold等二級結構預測方法中,甚至不會去預測的RNA序列中存在的假結結構。因此,如何盡量提高對帶假結的RNA結構系列的預測的敏感性和特異性,是一個亟待解決的科學難題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題之一是需要提供一種能夠降低時間和空間復雜度的對包含假結的RNA結構進行預測的方法。為了解決上述技術問題,本發(fā)明提供了一種包含假結的RNA結構預測方法。該方法包括:步驟S10,確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池Stl=Is1, S2, S3,…sn}, η為結構單元總數(shù),Sn表示第η個結構單元;步驟S20,基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U1, U2,..., Ur,…,UE}, Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數(shù);步驟S30,根據(jù)Ur中各元素的自由能及其在RNA結構中結構單元出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值;步驟S40,將U中相似值高的元素預測為該待預測RNA序列的RNA結構。其中,所述基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U17U2,…,Ur, -,Ue)的步驟,進一步包括 :子步驟S201,對結構單元Ur賦空值,Ur表示第r次折疊得到的RNA結構;將迭代次數(shù)K初始化為I ;子步驟S202,通過子步驟S203至子步驟S204執(zhí)行K次折疊處理;子步驟S203,逐個判斷S中的結構單元Si是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,若判斷為是,則K=K+1,將Si并入^,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續(xù)判斷S中的si+1是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經(jīng)不存在能夠減少RNA結構Ur的自由能量的結構單元,則本次迭代結束。進一步,所述子步驟S203利用下述表達式來計算當前的RNA結構Ur的自由能:
權利要求
1.一種包含假結的RNA結構預測方法,其特征在于,包括: 步驟S10,確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池Stl=Is1, S2, S3,…sn}, η為結構單元總數(shù),Sn表示第η個結構單元;步驟S20,基于待預測RNA序列中的所有結構單元,通過迭代確定U= {U1;U2,-,Ur,…,UE}, Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數(shù); 步驟S30,根據(jù)Ur中各元素的自由能及其在RNA結構中結構單元出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值; 步驟S40,將U中相似值高的元素預測為該待預測RNA序列的RNA結構。
2.根據(jù)權利要求1所述的方法,其特征在于,所述基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U1, U2,..., Ur,..., υκ}的步驟,進一步包括: 子步驟S201,對結構單元Ur賦空值,Ur表示第r次折疊得到的RNA結構;將迭代次數(shù)K初始化為I ; 子步驟S202,通過子步驟S203至子步驟S204執(zhí)行K次折疊處理; 子步驟S203,逐個判斷S中的結構單元Si是否能夠使得當前的RNA結構Ur的自由能減少且Si與I中的結構單元不重疊,若判斷為是,則K=K+1,將Si并入I,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續(xù)判斷S中的si+1是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經(jīng)不存在能夠減少RNA結構Ur的自由能量的結構單元,則本次迭代結束。
3.根據(jù)權利要 求2所述的方法,其特征在于,所述子步驟S203利用下述表達式來計算當前的RNA結構I的自由能: Enest Emuitii00p+Estem+Ebuige+Einteri00p +Ehai_+EA,其中, E表示RNA結構的自由能; Enest表示RNA結構中嵌套結構的能量,Emultiloop是RNA結構中多分枝環(huán)的能量,Estem是RNA結構中莖區(qū)的能量,Ebulge是RNA結構中凸起的能量,Einteltrap是RNA結構中內(nèi)環(huán)的能量,Ehairpin是RNA結構中發(fā)卡環(huán)的能量,Ea是各結構單元的補償連接參數(shù); Epseudo表示RNA結構中假結的能量。
4.根據(jù)權利要求3所述的方法,其特征在于,通過如下表達式來計算RNA結構Ur中假結的能量: Epseudo =A1Sb+A2Pb+A3Nb+A4+A5 A1是產(chǎn)生一個假結結構中子假結的能量值,Sb是假結結構中子假結的個數(shù),Pb是假結內(nèi)部邊界上的配對堿基對個數(shù),Nb是假結內(nèi)部未配對的堿基個數(shù),A2、A3分別是Pb和Nb的能量值,可由實驗測出,A4是假結中的同軸堆積能權值,A5是RNA結構單元之間的連接參數(shù),連接參數(shù)表示RNA假結與RNA結構單元之間的連接修正值。
5.根據(jù)權利要求1至4中任一項所述的方法,其特征在于,步驟S30中,依據(jù)以下表達式來計算U中各元素與實際RNA結構的相似值:Function (Ur) =E (Ur) X a/n+P (Ur) Xb+c, r e [1,k] 其中,F(xiàn)unction(Ur)表示U1^與實際RNA結構的相似值; E(Ur)表示結構單元14的自由能; a,b、C、k是常數(shù); η表示RNA堿基序列長度; P(Ur)表示Ur中的結構單元在RNA結構中出現(xiàn)頻率的總和。
6.根據(jù)權利要求5所述的方法,其特征在于,a∈[5,15],b∈[l,8],c∈[l,10],k∈ [90,110]。
7.根據(jù)權利要求6所述的方法,其特征在于,a=10,b=3, c=5, k=100。
全文摘要
本發(fā)明公開了一種包含假結的RNA結構預測方法。該方法包括確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池S0={s1,s2,s3,…sn},n為結構單元總數(shù),sn表示第n個結構單元;基于待預測RNA序列中的所有結構單元,通過迭代確定U={U1,U2,…,Ur,…,UR},Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數(shù);根據(jù)Ur中各元素的自由能及其在所有的RNA結構中出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值;將U中相似值高的元素預測為該待預測RNA序列的RNA結構。本發(fā)明能夠降低RNA結構的預測的時間、空間復雜度,提高預測敏感性和特異性。
文檔編號G06F19/18GK103235902SQ20131013638
公開日2013年8月7日 申請日期2013年4月18日 優(yōu)先權日2013年4月18日
發(fā)明者劉振棟, 張鵬, 崔巍, 張志軍, 李躍軍, 柳楠, 徐功文 申請人:山東建筑大學