一種將基因信息進行二進制表示的存儲方法
【專利摘要】本發(fā)明公開了一種將基因信息進行二進制表示的存儲方法,所述的方法包括:根據DNA雙鏈結構及堿基配對,由字符代表匹配的堿基對;將四種堿基對進行數值定義并用兩位二進制數來表示;三個堿基對組成的堿基組以6位二進制數值和2位固定賦值組成一個8位一字節(jié)的二進制數值表示;以線性映射的方式,將64種堿基組0~63根據Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均勻映射到0~255中,并將0~255所有數值轉換為8位二進制數,以二進制字節(jié)流形式的數據信息進行存儲。
【專利說明】
-種將基因信息進行二進制表示的存儲方法
技術領域
[0001] 本發(fā)明設及生物信息領域,設及基因檢測后數據存儲的處理技術,是一種將基因 信息進行二進制表示的存儲方法。
【背景技術】
[0002] 高通量基因測序技術的成熟與普及,使得基因檢測的成本也逐漸降低,測序時間 更快,而隨著最新的更高通量、更快、成本更低的基因測序技術的研發(fā)與商業(yè)化,基因測序 業(yè)已走進個人基因檢測的商業(yè)化模式。然而,基因檢測所得的數據是海量的,在測序輸出的 數據存儲格式上,一般WSAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格 式存儲能夠緊湊的表示出核巧酸序列。運種傳統(tǒng)格式存儲不但占用巨大的存儲空間,而且 不利于對基因數據進行進一步的分析(如人工智能的數據挖掘)。
【發(fā)明內容】
[0003] 本發(fā)明的目的在于提供一種基因測序后數據信息的二進制表示的存儲方法;通過 把生物基因的四種堿基對(A,T,G,C)轉換成二進制形式。在縮小了存儲空間的同時能更加 便捷的讀取分析基因信息。
[0004] 為解決上述問題,本發(fā)明提供W下技術方案:
[0005] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結構, 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成。可組成遺傳指令,引導 生物發(fā)育與生命機能運作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結 構和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同?;驕y序得到四種堿基排列順序的數據信息,將四種堿基排列順序W 二進制形式表示并進行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數據挖掘、人工智能數據分析創(chuàng)造良好的應用基礎。
[0006] -種基因信息的二進制存儲方法,其特征在于,所述的方法包括:
[0007] 根據DNA雙鏈結構及堿基配對,由字符代表匹配的堿基對;
[000引將四種堿基對進行數值定義并用兩位二進制數來表示;
[0009]=個堿基對組成的堿基組W6位二進制數值和2位固定賦值組成一個8位一字節(jié)的 二進制數值表示;
[0010] W線性映射的方式,將64種堿基組0~63根據Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數值轉換為8位二進制數,W二進制字節(jié) 流形式的數據信息進行存儲。
[0011] 作為本發(fā)明的進一步技術方案:由字符代表匹配的堿基對,根據堿基的固定配對, 由字符4,1',6,巧且成的字符文件,其中每一個字符代表一個堿基對,轉換方式如下所示:
[0012] A:A = T;T:T=A;G:G = C;C:C=G〇
[0013] 作為本發(fā)明的進一步技術方案:將四種堿基對進行數值定義并用兩位二進制數來 表示,A、T、G、C四種堿基對,利用計算機二進制方法,分別用2位的二進制數值來表示,可W 有24種組合的表示方法,舉例1中組合如下:
[0014] a = 00、T = 01、G = 10、C=11。
[0015] 作為本發(fā)明的進一步技術方案:堿基組的8位二進制數值表示方法,=個堿基對組 成的堿基組W6位二進制數值和2位固定賦值組成一個8位一字節(jié)的二進制數值來表示;2位 的固定賦值可W用〇〇、〇1、1〇、11作為固定值來填充表示;^高位固定賦值是11,由堿基對八、 T、G組合成的堿基組其兩位二進制數表示分別是00、01、10為例,由堿基對4、1\6組成的堿基 組的二進制表示為:ATG = 11000110。
[0016] 作為本發(fā)明的進一步技術方案:W線性映射的方式,將64種堿基組進行數值映射 并轉換成8位二進制數值,根據線性映射的方式,將賦值之后的64種堿基組0~63根據Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數值轉 換為8位二進制數;通過該賦值與映射的方式,每一個堿基組即可得到一個固定的8位二進 制數,所有堿基組組合在一起便形成二進制字節(jié)流,得到與基因信息兩位代表轉換法轉換 之后同樣形式的字節(jié)流。
[0017] 與現有技術相比,本發(fā)明的有益效果是:本發(fā)明通過把生物基因的四種堿基對(A, T,G,C)轉換成二進制形式。在縮小了存儲空間的同時能更加便捷的讀取分析基因信息。
【附圖說明】
[0018] 圖1是字符與堿基對對應轉換關系圖。
【具體實施方式】
[0019] 下面將對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施 例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通 技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范 圍。
[0020] 參見說明書附圖1,本發(fā)明提供一種技術方案:
[0021 ] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結構, 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成??山M成遺傳指令,引導 生物發(fā)育與生命機能運作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結 構和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同?;驕y序得到四種堿基排列順序的數據信息,將四種堿基排列順序W 二進制形式表示并進行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數據挖掘、人工智能數據分析創(chuàng)造良好的應用基礎。
[0022] 在DNA雙鏈結構中,堿基的互補配對是固定的,A = T、G = C,所W,由字符A,T,G,C組 成的字符文件,其中每一個字符代表一個堿基對,轉換方式如下所示:
[0023] A:A = T;T:T=A;G:G = C;C:C=G
[0024] 堿基對示例:T ACGAACTGCTA
[002引 ATGCTTGACGAT
[0026] 如上所示,雙鏈上的兩個互補配對的堿基稱為一個堿基對,如A = T、T = A、G = C、C =G等,=個相鄰的堿基對編成一組堿基組。
[0027] 可W利用計算機二進制方法,對每一個堿基對進行數值定義并用兩位二進制數來 表示。所有二進制組合如下表: 「00281
[0029]
[0030] DNA上每=個相鄰堿基對編成一組命名為堿基組,當堿基組位于基因上時,每個堿 基組對應一個密碼子W及氨基酸。堿基組通過兩位代表法轉換之后生成了一個6位的二進 制數值,并且可W將運個6位數據存儲到一個字節(jié)(8位)的高位或低位,剩余的2位數值可用 00,01,10,11作為固定值來填充。W高位固定賦值是11,由=個堿基對A、T、G組合成的堿基 組其兩位二進制數表示分別是〇〇、〇1、1〇為例,因此由=個堿基對A、T、G組成的堿基組的二 進制表示為ATG = 11000110。
[0031] 每個堿基組都是可W用一個8位二進制數(一個字節(jié))來表示。當所有堿基組都使 用二進制數表示之后,即得到一個新的由二進制數字節(jié)流表示的基因信息,再利用字節(jié)流 圖像表示的方式便可得到一個基因信息轉化而成的可視化圖像,通過運種方式可W對基因 進行更加直觀的研究與分析,并且在存儲上節(jié)省了大量的存儲空間。
[0032] 每個堿基組由=個堿基對組成,堿基對共有四種組合,所W每個堿基組有4~3 = 64 種組合方式。對基因的64種堿基組進行重新編碼,將64種堿基組賦予0-63的編號,然后通過 線性映射或可選閥值映射的方式映射到0~255的范圍,從而得到一個新的字節(jié)流。堿基組 編號如下表所不: r00331
[0034] 線性映射可W有四種方式:Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3,根據線性映 射的方式,將賦值之后的64種堿基組WY = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均 勻映射到0~255中,并將0~255所有數值轉換為8位二進制數,通過該賦值與映射的方式, 每一個堿基組即可得到一個固定的8位二進制數,所有堿基組的組合在一起便形成二進制 字節(jié)流,得到與基因信息兩位代表轉換法轉換之后同樣形式的字節(jié)流。W映射公式Y = 4X+1 為例,映射結果如下表:
[0035]
[0036] 通過基因的兩位代表轉換法W及基因信息映射轉換法都可W將多個DNA序列存儲 在一個具有隨機存取格式的二進制文件當中。文件可包含DNA信息W及需要隱藏的信息。
[0037] 利用數據賦值、兩位二進制數表示,對堿基組進行重新編碼,編碼之后形成的便是 字節(jié)流形式的基因數據信息,運種數據可W通過字節(jié)流圖像表示的方式對基因信息進行可 視化轉換,也可W進行W機器學習的算法進行數據挖掘。
[0038] 盡管已經示出和描述了本發(fā)明的實施例,對于本領域的普通技術人員而言,可W 理解在不脫離本發(fā)明的原理和精神的情況下可W對運些實施例進行多種變化、修改、替換 和變型,本發(fā)明的范圍由所附權利要求及其等同物限定。
【主權項】
1. 一種將基因信息進行二進制表示的存儲方法,其特征在于,所述的方法包括: 根據DNA雙鏈結構及堿基配對,由字符代表匹配的堿基對; 將四種堿基對進行數值定義并用兩位二進制數來表示; 三個堿基對組成的堿基組以6位二進制數值和2位固定賦值組成一個8位一字節(jié)的二進 制數值表示; 以線性映射的方式,將64種堿基組0~63根據Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3 的公式均勻映射到0~255中,并將0~255所有數值轉換為8位二進制數,以二進制字節(jié)流形 式的數據信息進行存儲。2. 根據權利要求1所述的一種將基因信息進行二進制表示的存儲方法,由字符代表匹 配的堿基對,其特征在于:根據堿基的固定配對,由字符A,T,G,C組成的字符文件,其中每一 個字符代表一個堿基對,轉換方式如下所示: A:A = T;T:T=A;G:G = C;C:C = G〇3. 根據權利要求1所述的一種基因信息的二進制存儲方法,將四種堿基對進行數值定 義并用兩位二進制數來表示,其特征在于4、1\6、(:四種堿基對,利用計算機二進制方法,分 別用2位的二進制數值來表示,可以有24種組合的表示方法,舉例1中組合如下: A = 00、T = 01、G=10、C=11〇4. 根據權利要求1所述的一種將基因信息進行二進制表示的存儲方法,堿基組的8位二 進制數值表示方法,其特征在于:三個堿基對組成的堿基組以6位二進制數值和2位固定賦 值組成一個8位一字節(jié)的二進制數值來表示;2位的固定賦值可以用00、01、10、11作為固定 值來填充表示;以高位固定賦值是11,由堿基對A、T、G組合成的堿基組其兩位二進制數表示 分別是00、01、10為例,由堿基對A、T、G組成的堿基組的二進制表示為:ATG = 11000110。5. 根據權利要求1所述的一種將基因信息進行二進制表示的存儲方法,以線性映射的 方式,將64種堿基組進行數值映射并轉換成8位二進制數值,其特征在于:根據線性映射的 方式,將賦值之后的64種堿基組0~63根據Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式 均勻映射到〇~255中,并將0~255所有數值轉換為8位二進制數;通過該賦值與映射的方 式,每一個堿基組即可得到一個固定的8位二進制數,所有堿基組組合在一起便形成二進制 字節(jié)流,得到與基因信息兩位代表轉換法轉換之后同樣形式的字節(jié)流。
【文檔編號】G06F19/28GK106022006SQ201610390134
【公開日】2016年10月12日
【申請日】2016年6月2日
【發(fā)明人】謝清祿, 徐宏鍇, 朱軍, 余孟春
【申請人】廣州麥侖信息科技有限公司