鑒別dna基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng),計算一個DNA序列的DRT譜,通過其在k=3處與其他地方的譜值的比較來判別這個序列究竟是外顯子還是內(nèi)含子:DRT譜在k=3處的值高于其它地方的值,則為外顯子;否則,為內(nèi)含子。通過數(shù)值化的DNA序列的離散Ramanujan譜及其信噪比,用來區(qū)分蛋白質(zhì)的編碼區(qū)域與非編碼區(qū)域,測試結(jié)果顯示了本發(fā)明方法的可靠性。對比于傅里葉變換,離散Ramanujan譜的計算量更小,精度更高。
【專利說明】鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng)。
【背景技術(shù)】
[0002] 隨著科學(xué)技術(shù)的進步,現(xiàn)代的生物學(xué)技術(shù)得到蓬勃發(fā)展。越來越多的數(shù)學(xué)方法和 信號處理技術(shù)被應(yīng)用于研究生命科學(xué)領(lǐng)域,形成了生物信息學(xué)這一前沿學(xué)科。
[0003] 現(xiàn)在大多使用離散傅里葉變換(DFT)來作為鑒別DNA基因序列中編碼區(qū)域與非編 碼區(qū)域的方法,該方法由于采用浮點運算,而計算機的計算精度是有限的,所以存在著計算 誤差,并且浮點運算耗費很多的計算時間。
[0004] 首先,現(xiàn)代計算機是用有限位存儲實數(shù)的,這會導(dǎo)致舍入誤差。對于離散傅里葉變
【權(quán)利要求】
1. 一種鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng),其特征在于,包括數(shù)據(jù)處 理模塊、顯不模塊、輸入輸出模塊和存儲模塊; 存儲模塊:存放DNA序列的片段的數(shù)據(jù)文件,并存放數(shù)據(jù)處理模塊得到的結(jié)果文件; 顯示模塊:對數(shù)據(jù)處理模塊的過程及結(jié)果進行顯示; 輸入輸出模塊:用于對數(shù)據(jù)處理模塊進行數(shù)據(jù)輸入或輸出; 數(shù)據(jù)處理模塊:讀取存儲模塊內(nèi)的DNA序列的片段的數(shù)據(jù)文件,得到一個完整DNA序 列,計算DNA序列經(jīng)過離散Ramanujan變換后所得的DRT譜在3處的信噪比,進行編碼區(qū)域 與非編碼區(qū)域的鑒別,具體為: 計算一個DNA序列的DRT譜,DRT的譜為 P(k) = |X(k)2,k= 1, 2,......,N,X(k)為DRT的Ramanujan系數(shù); 通過其在k= 3處與其他地方的譜值的比較來判別這個序列究竟是外顯子還是內(nèi)含 子:DRT譜在k= 3處的值高于其它地方的值,則為外顯子;否則,為內(nèi)含子。
2. 如權(quán)利要求1所述的鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng),其特 征在于,數(shù)據(jù)處理模塊通過在k= 3處的信噪比來判斷鑒別外顯子與內(nèi)含子,長度為N
的DNA序列在k= 3處的信噪比為 其中,ABN為平均背景噪聲,其定義為 ?
3. 如權(quán)利要求2所述的鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng),其特征在 于,數(shù)據(jù)處理模塊從存儲模塊中讀取一個完整DNA序列的具體步驟為: 數(shù)據(jù)處理模塊讀取存儲模塊中DNA序列的片段的數(shù)據(jù)文件,獲取文件長度并存儲,設(shè) 當(dāng)前位置為〇 ; 初始化RFT算法的各項參數(shù);所待測序列的長度LengthOfTestSeq初始化為0,將一 維數(shù)組TheFinalResult清零,大小為DRTWIDTH,將三維數(shù)組AllTheXqArray清零,大小為 4*DRTWIDTH*DRTWIDTH; 從當(dāng)前位置讀取數(shù)據(jù)文件; 如讀取的數(shù)據(jù)為'A',則設(shè)Layerlndex為0 ; 如讀取的數(shù)據(jù)為'T',則設(shè)Layerlndex為1 ; 如讀取的數(shù)據(jù)為'C',則設(shè)Layerlndex為2 ; 如讀取的數(shù)據(jù)為'G',則設(shè)Layerlndex為3 ; 對數(shù)組AllTheXqArray [Layerlndex]的每一列遞增取模,遞增值為1,取該列在數(shù)組中 的位置為模,并在相應(yīng)的位置加1;將LengthOfTestSeq加1, 循環(huán)上述讀取步驟,直至數(shù)據(jù)文件讀取完全,得到一個完整DNA序列。
4. 如權(quán)利要求1-3任一項所述的鑒別DNA基因序列中編碼區(qū)域與非編碼區(qū)域的系統(tǒng), 其特征在于,數(shù)據(jù)處理模塊計算DNA序列經(jīng)過離散Ramanujan變換后所得的DRT譜在3處 的信噪比TheSNROfRFT,具體為: 將數(shù)組TheFinalResult清零,對所有的i,i= 1,2, 3,計算MidResult[i] [j] [k]*TheCqArray[j] [k],其中,k = 0,…,j, j = 0, 1,…,DRTWIDTH-1 ; 將三維數(shù)組MidResult中的具有相同第一、二維的元素分別相加,得到新的二維數(shù)組MidResult2,大小為4*DRTWIDTH ; 對所有的i,i = 1,2,3,計算MidResult3[i][j]為(MidResult2[i][j]/LengthOfTes tSeq*ThePhiFunPara[j])的平方,其中j = 0,…,DRTWIDTH-1 ;MidResult3為一個二維數(shù) 組,大小為4*DRTWIDTH ; 將最終結(jié)果數(shù)組的值相加;對所有的j,j =〇, 1,…,DRTWIDTH-1,計 算TheFinalResult[j] = MidResult[0][j]+MidResult[l][j]+MidResult[2] [j]+MidResult[3] [j]; DNA序列經(jīng)過離散Ramanujan變換后所得的DRT譜在3處的信噪比TheSNROfRFT為TheFinalResult[2]除以TheFinalResult數(shù)組中除去第一個元素的所有元素的平均值。
【文檔編號】G06F19/18GK104408331SQ201410628891
【公開日】2015年3月11日 申請日期:2014年11月10日 優(yōu)先權(quán)日:2014年11月10日
【發(fā)明者】滑偉 申請人:南京工程學(xué)院