Dna中數(shù)字信息的高容量存儲(chǔ)的制作方法

文檔序號(hào)：8207739閱讀：778來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

Dna中數(shù)字信息的高容量存儲(chǔ)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及存儲(chǔ)DNA中數(shù)字信息的方法和設(shè)備。
【背景技術(shù)】
[0002] DNA具備保持巨額數(shù)量信息的能力，易于以緊湊結(jié)構(gòu)長(zhǎng)期保存 ' 利用DNA作為數(shù)字信息的存儲(chǔ)器的想法自1995年3已經(jīng)存在。DNA存儲(chǔ)的物理實(shí)現(xiàn)迄今為止僅存儲(chǔ)了微量的信息一一典型的是少數(shù)英文文本的單詞4Λ發(fā)明人沒(méi)有意識(shí)到編碼在物理DNA中的大規(guī)模存儲(chǔ)和對(duì)任意規(guī)格數(shù)字信息的還原，而非磁性基底或光學(xué)基底上的數(shù)據(jù)存儲(chǔ)。
[0003] 目前，DNA合成是集中應(yīng)用于生物醫(yī)藥的專業(yè)技術(shù)。DNA合成的成本在過(guò)去的幾十年已經(jīng)穩(wěn)步縮減。相比于磁帶上的數(shù)據(jù)存儲(chǔ)每過(guò)3至5年會(huì)少見(jiàn)但定期地轉(zhuǎn)移到新介質(zhì)，推斷在什么時(shí)間段如本文所公開(kāi)的DNA分子上的數(shù)據(jù)存儲(chǔ)將會(huì)比其當(dāng)前長(zhǎng)期存檔過(guò)程更具成本效益是有趣的。當(dāng)前DNA合成的"現(xiàn)成"技術(shù)相當(dāng)于一美元約100字節(jié)的價(jià)格。市場(chǎng)上可從Agilent科技（圣克拉拉，加利福尼亞州）購(gòu)買(mǎi)的更時(shí)新的技術(shù)可能會(huì)大幅縮減該成本。然而，仍然需要建立賬戶，用于磁帶介質(zhì)之間的定期數(shù)據(jù)轉(zhuǎn)移。問(wèn)題是，該數(shù)據(jù)傳遞的成本，以及該成本是固定不變的還是隨時(shí)間削減的。如果假定大量成本是固定不變的，則存在一個(gè)時(shí)間范圍，其間利用DNA分子進(jìn)行數(shù)據(jù)存儲(chǔ)比常規(guī)磁帶介質(zhì)上的數(shù)據(jù)存儲(chǔ)更具成本效益。在400年以后（至少80次介質(zhì)轉(zhuǎn)移），利用DNA分子的數(shù)據(jù)存儲(chǔ)可能已經(jīng)具有成本效益。
[0004] 本公開(kāi)中描述了一種比先前使用的程序存儲(chǔ)更多信息的實(shí)用編碼解碼程序。發(fā)明人已經(jīng)對(duì)五個(gè)計(jì)算機(jī)文件進(jìn)行編碼--總共757051字節(jié)的（739kB)硬盤(pán)存儲(chǔ)并具有約為 5. 2 X IO6比特的香農(nóng)信息9--變?yōu)镈NA碼。發(fā)明人隨后合成了該DNA，將該合成DNA從美國(guó)經(jīng)英國(guó)運(yùn)輸?shù)降聡?guó)，對(duì)DNA進(jìn)行測(cè)序并以100%的精確度重構(gòu)了五個(gè)計(jì)算機(jī)文件。
[0005] 該五個(gè)計(jì)算機(jī)文件包括一個(gè)英文語(yǔ)言文本（莎士比亞十四行詩(shī)的全部154句），一個(gè)經(jīng)典科技論文的PDF文件 1(1，一個(gè)JPEG色彩的照片和一個(gè)MP3格式的音頻文件，包含26 秒的演講（選自馬丁路德金的演講"我有一個(gè)夢(mèng)想"）。該數(shù)據(jù)存儲(chǔ)代表了近800倍于已知的先前基于DNA的存儲(chǔ)的信息量，并涵蓋了更豐富的數(shù)字格式。結(jié)果證明，DNA存儲(chǔ)正逐漸成為現(xiàn)實(shí)，并可以在未來(lái)提供有成本效益的數(shù)字信息存檔方法，且用于慢速存取、多年代存檔任務(wù)可能已經(jīng)具有成本效益。
[0006] 現(xiàn)有摶術(shù)
[0007] 在易于獲取的情況下1A自1995年以來(lái)3,穩(wěn)定存儲(chǔ)信息的DNA高容量已經(jīng)使得 DNA成為極具吸引力的信息存儲(chǔ)目標(biāo)。除信息密度之外，DNA分子作為信息載體具有已證實(shí) 的業(yè)績(jī)記錄，DNA分子的壽命已知，且事實(shí)上作為地球生命的基礎(chǔ)，只要有基于DNA的智能生命體存在 1A操作、存儲(chǔ)和讀取DNA分子的方法將依然是持續(xù)技術(shù)創(chuàng)新的主題?；诨钚?載體DNA5、在活體（in vivo) DNA分子中）和合成DNA4>1(在離體（in vitro) DNA中）的數(shù) 據(jù)存儲(chǔ)系統(tǒng)已經(jīng)被提出。在活體內(nèi)的數(shù)據(jù)存儲(chǔ)系統(tǒng)具有若干缺陷。這些缺陷包括對(duì)數(shù)量、染色體成分和在活性載體有機(jī)體中可操作而不影響DNA分子生存力的位置的限制。此種活性載體有機(jī)體的示例包括但不限于細(xì)菌。生存力的下降包括容量的縮減和信息編碼方案的復(fù)雜度的增加。此外，胚系突變和體細(xì)胞突變將引發(fā)所保存信息的保真度和解碼信息隨時(shí) 間下降，并可能引發(fā)對(duì)活DNA存儲(chǔ)條件細(xì)致監(jiān)管的需求。
[0008] 相比之下，"分離的DNA"（ S卩，離體DNA)更易于"寫(xiě)入"，且對(duì)幾萬(wàn)年前1H4的樣本的非活DNA實(shí)例進(jìn)行的例行還原顯示，在易于獲取且少量維護(hù)的環(huán)境下（即，寒冷，干燥和黑暗的環(huán)境） 15_17,良好制備的非活DNA樣本應(yīng)具有格外長(zhǎng)的生命期限。
[0009] 在DNA中進(jìn)行信息（也稱數(shù)據(jù)）存儲(chǔ)的先前工作典型地集中于在DNA中以編碼形式"寫(xiě)入"人類可讀的消息，而后通過(guò)確定DNA的序列和解碼該序列來(lái)"讀取"該編碼的人類可讀的消息。在DNA計(jì)算領(lǐng)域的工作產(chǎn)生了原則上容許大型聯(lián)合associative (相聯(lián)）存儲(chǔ)器的方案3'18_2°，但尚無(wú)將這項(xiàng)工作推進(jìn)到實(shí)用DNA存儲(chǔ)方案的嘗試。圖1示出了 14個(gè) 在先前研宄中（在y軸標(biāo)注對(duì)數(shù)刻度）被成功編碼和還原的信息數(shù)量。為14個(gè)先前實(shí)驗(yàn) (空心圓）和本公開(kāi)（實(shí)心圓）示出了點(diǎn)。以這種方式存儲(chǔ)的最大數(shù)量的人類可讀消息為 1280個(gè)英文語(yǔ)言文本字符 8,約相當(dāng)于6500比特的香農(nóng)信息9。
[0010] 印度科學(xué)與工業(yè)研宄委員會(huì)提交了一份序列號(hào)為US 2005/0053968(巴拉得瓦杰等）的美國(guó)專利申請(qǐng)，教導(dǎo)了一種在DNA中存儲(chǔ)信息的方法。美國(guó)968號(hào)申請(qǐng)的方法包括使用編碼方法，其利用4個(gè)DNA堿基表示拓展ASCII字符集中的每一個(gè)字符。于是產(chǎn)生了合成的DNA分子，其包括數(shù)字信息、加密密鑰，并在每個(gè)側(cè)面與引物序列相接。最后，合成的 DNA被并入存儲(chǔ)DNA。在DNA數(shù)量過(guò)大的情況下，信息可以被分裂成為若干片段。美國(guó)968 號(hào)專利公開(kāi)的方法可以通過(guò)匹配某片段的頭端引物和下一片段的尾端引物來(lái)重構(gòu)分裂的 DNA片段。
[0011] 已知其它描述了在DNA中存儲(chǔ)信息的技術(shù)的專利文獻(xiàn)。例如，美國(guó)專利6, 312, 911 教導(dǎo)了一種密寫(xiě)方法，用于隱藏DNA中編碼的消息。該方法包括運(yùn)用基因組DNA樣本隱藏 DNA編碼消息，隨后進(jìn)一步將DNA樣本隱藏為微點(diǎn)。該美國(guó)911號(hào)專利的申請(qǐng)?zhí)貏e地用于機(jī) 密信息的隱藏。這樣的信息通常具有有限長(zhǎng)度，因此文件不會(huì)討論如何存儲(chǔ)更長(zhǎng)長(zhǎng)度的信息項(xiàng)。相同的發(fā)明人提交了國(guó)際專利申請(qǐng)，并作為第WO 03/025123號(hào)國(guó)際公布公開(kāi)。

【發(fā)明內(nèi)容】

[0012] 公開(kāi)了一種用于存儲(chǔ)信息項(xiàng)的方法。該方法包括編碼在信息項(xiàng)中的字節(jié)。使用一方案（schema)由DNA核苷酸來(lái)表示該編碼字節(jié)，產(chǎn)生計(jì)算機(jī)模擬（in-silico)的DNA序列。下一步，DNA序列被拆分成若干個(gè)重疊的DNA片段，且標(biāo)引信息被添加到若干個(gè)DNA片段上。最后，若干個(gè)DNA片段被合成并存儲(chǔ)。
[0013] 對(duì)DNA片段添加標(biāo)引信息意味著片段在表示信息項(xiàng)的DNA序列中的位置能夠被單一識(shí)別。沒(méi)有必要依賴頭端引物與尾端引物的匹配。這使得，即使片段之一不能正確重現(xiàn)，也可以還原幾乎整個(gè)信息項(xiàng)。如果不存在標(biāo)引信息，則存在風(fēng)險(xiǎn)，也即，如果因"孤兒" (orphan)片段而導(dǎo)致片段不能夠相互匹配，可能不能夠正確重現(xiàn)整個(gè)信息項(xiàng)，所述孤兒片段是其在DNA序列中的位置不能清楚識(shí)別的片段。
[0014] 利用重疊的DNA片段意味著在信息項(xiàng)的存儲(chǔ)中寫(xiě)入了一定程度的冗余。如果某一 DNA片段不能夠被解碼，則該編碼字節(jié)仍然能夠從相鄰的DNA片段還原。因此冗余成為了系統(tǒng)的組成部分。
[0015] 可以利用已知DNA合成技術(shù)制作DNA片段的若干個(gè)副本。這提供了額外程度的冗余，以使得信息項(xiàng)能夠被解碼，即使DNA片段中的某些副本損壞并不能被解碼。
[0016] 在發(fā)明的一個(gè)方面，用于解碼的表示方案（representation schema)被設(shè)計(jì)為相鄰的DNA核苷酸各不相同。這樣增加了合成、重現(xiàn)和測(cè)序（讀?。〥NA片段的可靠性。
[0017] 在本發(fā)明的進(jìn)一步方面，向標(biāo)引信息添加了奇偶校驗(yàn)（parity-check)。該奇偶校驗(yàn)使得錯(cuò)誤合成、重現(xiàn)或測(cè)序被識(shí)別出來(lái)。奇偶校驗(yàn)?zāi)軌虮煌卣梗╡xpanded)并包括糾錯(cuò)信息。
[0018] 合成DNA片段的交替片段是反向互補(bǔ)的。它們?cè)贒NA中提供了額外的冗余度，并意味著如果任一 DNA片段損壞，會(huì)有更多可得信息。
【附圖說(shuō)明】
[0019] 圖1為存儲(chǔ)在DNA中并成功還原的信息數(shù)量的時(shí)間函數(shù)圖；
[0020] 圖2示出了本公開(kāi)方法的示例；
[0021] 圖3示出了存儲(chǔ)隨時(shí)間的成本效益的圖示；
[0022] 圖4示出了自反向互補(bǔ)模式的基序；
[0023] 圖5不出了編碼效率；
[0024] 圖6不出了誤碼率；
[0025] 圖7示出了方法的編碼的流程圖；
[0026] 圖8示出了方法的解碼的流程圖；
【具體實(shí)施方式】
[0027] 迄今，實(shí)現(xiàn)實(shí)用DNA存儲(chǔ)的主要挑戰(zhàn)之一是根據(jù)指定（specified)設(shè)計(jì)創(chuàng)造

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尼克·高曼;約翰·伯尼;
技術(shù)所有人：歐洲分子生物學(xué)實(shí)驗(yàn)室;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

Dna中數(shù)字信息的高容量存儲(chǔ)的制作方法