mRNA信息的二進制存儲方法
【專利摘要】本發(fā)明提供一種mRNA測序后數(shù)據(jù)信息的二進制表示的存儲方法,是涉及生物信息的數(shù)據(jù)存儲的處理技術(shù)。該方法將mRNA的四種堿基以字符A、U、G、C表示;將四種堿基利用計算機二進制方法,對每一個堿基進行數(shù)值定義并用兩位二進制數(shù)來表示;密碼子由mRNA上的三個相鄰堿基組成,密碼子通過兩位代表法轉(zhuǎn)換之后生成了一個6位的二進制數(shù)值,并且可以將這個6位數(shù)據(jù)存儲到一個字節(jié)(8位)的高位或低位,剩余的2位數(shù)值可用00,01,10,11作為固定值來填充;堿基共有四種組合,所以每個密碼子有4^3=64種組合方式。對mRNA的64種密碼子進行重新編碼,通過mRNA的二進制表示和mRNA信息映射轉(zhuǎn)換都可以將mRNA序列信息存儲在一個具有隨機存取格式的二進制文件當中。
【專利說明】
mRNA信息的二進制存儲方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及生物信息領(lǐng)域,涉及基因測序后數(shù)據(jù)存儲的處理技術(shù),是一種將mRNA 信息進行二進制表示的存儲方法。
【背景技術(shù)】
[0002] 高通量基因測序技術(shù)的成熟與普及,使得基因檢測的成本也逐漸降低,測序時間 更快,而隨著最新的更高通量、更快、成本更低的基因測序技術(shù)的研發(fā)與商業(yè)化,基因測序 業(yè)已走進個人基因檢測的商業(yè)化模式。然而,基因檢測所得的數(shù)據(jù)是海量的,在測序輸出的 數(shù)據(jù)存儲格式上,一般以SAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格 式存儲能夠緊湊的表示出核苷酸序列。這種傳統(tǒng)格式存儲不但占用巨大的存儲空間,而且 不利于對基因數(shù)據(jù)進行進一步的分析(如人工智能的數(shù)據(jù)挖掘)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明旨在提供一種mRNA測序后數(shù)據(jù)信息的二進制表示的存儲方法。
[0004] 關(guān)于mRNA信息的二進制存儲方法,其特征在于,所述的方法包括:根據(jù)mRNA單鏈結(jié) 構(gòu)及其與DNA堿基互補配對原則,由字符代表mRNA中的堿基;將四種堿基進行數(shù)值定義并用 兩位二進制數(shù)來表示;三個相鄰的堿基組成的密碼子以6位二進制數(shù)值和2位固定賦值組成 一個8位的二進制數(shù)值表示;以線性映射的方式,將64種密碼子0~63根據(jù)Y = 4X、或Y = 4X+ 1、或Υ = 4Χ+2、或Υ = 4Χ+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進 制數(shù),以二進制字節(jié)流形式的數(shù)據(jù)信息進行存儲。
[0005] 作為本發(fā)明的進一步技術(shù)方案:用字符代表mRNA中由DNA-條單鏈模板轉(zhuǎn)錄并匹 配的堿基,根據(jù)堿基的固定配對,由字符A,U,G,C組成的字符文件,其中每一個字符代表一 個堿基,表示方式如下所示:
[0006] A:腺嘌呤;U:尿嘧啶;G:鳥嘌呤;C:胞嘧啶
[0007] 作為本發(fā)明的進一步技術(shù)方案:將四種堿基進行數(shù)值定義并用兩位二進制數(shù)來表 示,A、U、G、C四種堿基,利用計算機二進制方法,分別用2位的二進制數(shù)值來表示,可以有24 種組合的表示方法,舉例組合如下:
[0008] a = 00、U = 01、G = 10、C=11。
[0009] 作為本發(fā)明的進一步技術(shù)方案:密碼子的8位二進制數(shù)值表示方法:三個相鄰的堿 基組成的密碼子以6位二進制數(shù)值和2位固定賦值組成一個8位的二進制數(shù)值來表示。2位的 固定賦值可以用〇〇、〇1、1〇、11作為固定值來填充表示;以高位固定賦值是11,由堿基4、1]、6 組合成的密碼子其兩位二進制數(shù)表示分別是〇〇、〇1、1〇為例,由堿基A、U、G組成的密碼子的 二進制表示為:AUG = 11000110。
[0010] 作為本發(fā)明的進一步技術(shù)方案:以線性映射的方式,將64種密碼子進行數(shù)值映射 并轉(zhuǎn)換成8位二進制數(shù)值,根據(jù)線性映射的方式,將賦值之后的64種密碼子0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn) 換為8位二進制數(shù);通過該賦值與映射的方式,每一個密碼子即可得到一個固定的8位二進 制數(shù),所有密碼子組合在一起便形成二進制字節(jié)流,得到與mRNA信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換 之后同樣形式的二進制字節(jié)流。
【附圖說明】
[0011]圖1是字符與堿基對應的關(guān)系圖。 具體實施例
[0012] 參見說明書附圖1:
[0013] mRNA(Messenger Ribonucleic Acid),即信使核糖核酸,由DNA的一條鏈作為模板 轉(zhuǎn)錄而來,攜帶遺傳信息的能指導蛋白質(zhì)合成的一類單鏈核糖核酸。(成分為:核糖、磷酸及 四種含氮堿基)組成。RNA是核糖核苷酸聚合而成的沒有分支的長鏈。分子量比DNA小,但在 大多數(shù)細胞中比DNA豐富。RNA與DNA最重要的區(qū)別一是RNA只有一條單鏈,二是它的堿基組 成與DNA的不同,RNA沒有堿基胸腺嘧啶(thymine,縮寫為T),而有堿基尿嘧啶(uracil,縮寫 為U) ANA主要分為3類,即信使RNA(mRNA),核糖體RNA(rRNA)和轉(zhuǎn)移RNA(tRNA) ^RNA是合成 蛋白質(zhì)的模板,內(nèi)容按照細胞核中的DNA所轉(zhuǎn)錄。mRNA中決定蛋白質(zhì)多樣性的是四種堿基: 腺噪呤(adenine,縮寫為A)、尿啼啶(uracil,縮寫為U)、胞啼啶(cytosine,縮寫為C)和鳥噪 呤(guanine,縮寫為G)的排列順序不同。利用基因測序技術(shù),可檢測mRNA上的四種堿基排列 順序的數(shù)據(jù)信息,將四種堿基排列順序以二進制的形式表示并進行存儲,從而減少存儲空 間的使用,也方便讀取分析基因信息,為基因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良 好的應用基礎(chǔ)。
[0014] mRNA是由DNA通過堿基互補配對的方式轉(zhuǎn)錄過來的單鏈結(jié)構(gòu)。因為組成mRNA的堿 基上沒有T(胸腺嘧啶),代之的為U(尿嘧啶),因此當DNA單鏈模板上出現(xiàn)A(腺嘌呤)時,轉(zhuǎn)錄 中由組成mRNA的堿基U(尿嘧啶)與之配對。
[0015] A:腺嘌呤;U:尿嘧啶;G:鳥嘌呤;C:胞嘧啶 [0016] DNA單鏈模板上轉(zhuǎn)錄mRNA的堿基配對示例:
[0017] TACGAACTGCTA·· .DNA 單鏈模板
[0018] AUGCUUGACGAU·· .mRNA 單鏈
[0019] mRNA單鏈上的每三個相鄰的堿基組成一個密碼子,在蛋白質(zhì)合成時,代表某一種 氨基酸。如 AUG、CUU、GAC、GAU 等。
[0020]可以利用計算機二進制方法,對每一個堿基進行數(shù)值定義并用兩位二進制數(shù)來表 示。所有二進制組合方式如下表:
[0022] mRNA上每三個相鄰堿基組成一個密碼子,每個密碼子對應一個氨基酸。密碼子通 過兩位代表法轉(zhuǎn)換之后生成了一個6位的二進制數(shù)值,并且可以將這個6位數(shù)據(jù)存儲到一個 字節(jié)(8位)的高位或低位,剩余的2位數(shù)值可用00,01,10,11作為固定值來填充。以高位固定 賦值是11,由三個堿基A、U、G組合成的密碼子其兩位二進制數(shù)表示分別是00、01、10為例,因 此由三個堿基A、U、G組成的密碼子的二進制表示為AUG = 11000110。
[0023] 每個密碼子都是可以用一個8位二進制數(shù)(一個字節(jié))來表示。當所有密碼子都使 用二進制數(shù)表示之后,即得到一個新的由二進制數(shù)字節(jié)流表示的mRNA信息,再利用字節(jié)流 圖像表示的方式便可得到一個mRNA信息轉(zhuǎn)化而成的可視化圖像,通過這種方式可以對mRNA 進行更加直觀的研究與分析,并且在存儲上節(jié)省了大量的存儲空間。
[0024] 每個密碼子由三個堿基組成,堿基共有四種組合,所以每個密碼子有4~ 3 = 64種組 合方式。對mRNA的64種密碼子進行重新編碼,將64種密碼子賦予0-63的編號,然后通過線性 映射或可選閥值映射的方式映射到〇~255的范圍,從而得到一個新的字節(jié)流。密碼子編號 如下表所示:
[0026] 線性映射可以有四種方式:Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3,根據(jù)線性映 射的方式,將賦值之后的64種密碼子以Υ = 4Χ、或Υ = 4Χ+1、或Υ = 4Χ+2、或Υ = 4Χ+3的公式均 勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),通過該賦值與映射的方式,
[0027] 每一個密碼子即可得到一個固定的8位二進制數(shù),所有密碼子的組合在一起便形 成二進制字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的字節(jié)流。以映射公 式Υ = 4Χ+1為例,映射結(jié)果如下表:
[0030] 通過mRNA的二進制表示和mRNA信息映射轉(zhuǎn)換都可以將mRNA序列信息存儲在一個 具有隨機存取格式的二進制文件當中。文件可包含mRNA信息以及需要隱藏的信息。
[0031] 利用數(shù)據(jù)賦值、兩位二進制數(shù)表示,對密碼子進行重新編碼,編碼之后形成的便是 字節(jié)流形式的mRNA數(shù)據(jù)信息,這種數(shù)據(jù)可以通過字節(jié)流圖像表示的方式對mRNA信息進行可 視化轉(zhuǎn)換,也可以進行以機器學習的算法進行數(shù)據(jù)挖掘。
[0032]與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種全新的mRNA數(shù)據(jù)的存儲模式,通過把生物 mRNA的四種堿基以,1],6,〇轉(zhuǎn)換成二進制形式。在縮小了存儲空間的同時能更加便捷的讀 取分析mRNA信息。
【主權(quán)項】
1. 關(guān)于mRNA信息的二進制存儲方法,其特征在于,所述的方法包括: 根據(jù)mRNA單鏈結(jié)構(gòu)及其與DNA堿基互補配對原則,由字符代表mRNA中的堿基; 將四種堿基進行數(shù)值定義并用兩位二進制數(shù)來表示; 三個相鄰的堿基組成的密碼子以6位二進制數(shù)值和2位固定賦值組成一個8位的二進制 數(shù)值表示; 以線性映射的方式,將64種密碼子0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3 的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),以二進制字節(jié)流形 式的數(shù)據(jù)信息進行存儲。2. 根據(jù)權(quán)利要求1所述的關(guān)于mRNA信息的二進制存儲方法,用字符代表mRNA中由DNA- 條單鏈模板轉(zhuǎn)錄并匹配的堿基,其特征在于:根據(jù)堿基的固定配對,由字符A,U,G,C組成的 字符文件,其中每一個字符代表一個堿基,表示方式如下所示: A:腺嘌呤;U:尿嘧啶;G:鳥嘌呤;C:胞嘧啶。3. 根據(jù)權(quán)利要求1所述的關(guān)于mRNA信息的二進制存儲方法,將四種堿基進行數(shù)值定義 并用兩位二進制數(shù)來表示,其特征在于:A、U、G、C四種堿基,利用計算機二進制方法,分別用 2位的二進制數(shù)值來表示,可以有24種組合的表示方法,舉例組合如下: A = 00、U = 01、G=10、C=11。4. 根據(jù)權(quán)利要求1所述的關(guān)于mRNA信息的二進制存儲方法,密碼子的8位二進制數(shù)值表 示方法,其特征在于:三個相鄰的堿基組成的密碼子以6位二進制數(shù)值和2位固定賦值組成 一個8位的二進制數(shù)值來表示;2位的固定賦值可以用00、01、10、11作為固定值來填充表示; 以高位固定賦值是11,由堿基A、U、G組合成的密碼子其兩位二進制數(shù)表示分別是00、01、10 為例,由堿基A、U、G組成的密碼子的二進制表示為:AUG = 11000110。5. 根據(jù)權(quán)利要求1所述的關(guān)于mRNA信息的二進制存儲方法,以線性映射的方式,將64種 密碼子進行數(shù)值映射并轉(zhuǎn)換成8位二進制數(shù)值,其特征在于:根據(jù)線性映射的方式,將賦值 之后的64種密碼子0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0 ~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù);通過該賦值與映射的方式,每一個密碼 子即可得到一個固定的8位二進制數(shù),所有密碼子組合在一起便形成二進制字節(jié)流,得到與 mRNA信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的二進制字節(jié)流。
【文檔編號】G06F19/24GK106055927SQ201610383223
【公開日】2016年10月26日
【申請日】2016年5月31日
【發(fā)明人】謝清祿, 徐宏鍇, 朱軍, 余孟春
【申請人】廣州麥侖信息科技有限公司