Dna中數(shù)字信息的高容量存儲(chǔ)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及存儲(chǔ)DNA中數(shù)字信息的方法和設(shè)備。
【背景技術(shù)】
[0002] DNA具備保持巨額數(shù)量信息的能力,易于以緊湊結(jié)構(gòu)長(zhǎng)期保存 ' 利用DNA作為 數(shù)字信息的存儲(chǔ)器的想法自1995年3已經(jīng)存在。DNA存儲(chǔ)的物理實(shí)現(xiàn)迄今為止僅存儲(chǔ)了微 量的信息一一典型的是少數(shù)英文文本的單詞4Λ發(fā)明人沒(méi)有意識(shí)到編碼在物理DNA中的大 規(guī)模存儲(chǔ)和對(duì)任意規(guī)格數(shù)字信息的還原,而非磁性基底或光學(xué)基底上的數(shù)據(jù)存儲(chǔ)。
[0003] 目前,DNA合成是集中應(yīng)用于生物醫(yī)藥的專業(yè)技術(shù)。DNA合成的成本在過(guò)去的幾十 年已經(jīng)穩(wěn)步縮減。相比于磁帶上的數(shù)據(jù)存儲(chǔ)每過(guò)3至5年會(huì)少見(jiàn)但定期地轉(zhuǎn)移到新介質(zhì), 推斷在什么時(shí)間段如本文所公開(kāi)的DNA分子上的數(shù)據(jù)存儲(chǔ)將會(huì)比其當(dāng)前長(zhǎng)期存檔過(guò)程更 具成本效益是有趣的。當(dāng)前DNA合成的"現(xiàn)成"技術(shù)相當(dāng)于一美元約100字節(jié)的價(jià)格。市 場(chǎng)上可從Agilent科技(圣克拉拉,加利福尼亞州)購(gòu)買(mǎi)的更時(shí)新的技術(shù)可能會(huì)大幅縮減 該成本。然而,仍然需要建立賬戶,用于磁帶介質(zhì)之間的定期數(shù)據(jù)轉(zhuǎn)移。問(wèn)題是,該數(shù)據(jù)傳 遞的成本,以及該成本是固定不變的還是隨時(shí)間削減的。如果假定大量成本是固定不變的, 則存在一個(gè)時(shí)間范圍,其間利用DNA分子進(jìn)行數(shù)據(jù)存儲(chǔ)比常規(guī)磁帶介質(zhì)上的數(shù)據(jù)存儲(chǔ)更具 成本效益。在400年以后(至少80次介質(zhì)轉(zhuǎn)移),利用DNA分子的數(shù)據(jù)存儲(chǔ)可能已經(jīng)具有 成本效益。
[0004] 本公開(kāi)中描述了一種比先前使用的程序存儲(chǔ)更多信息的實(shí)用編碼解碼程序。發(fā)明 人已經(jīng)對(duì)五個(gè)計(jì)算機(jī)文件進(jìn)行編碼--總共757051字節(jié)的(739kB)硬盤(pán)存儲(chǔ)并具有約為 5. 2 X IO6比特的香農(nóng)信息9--變?yōu)镈NA碼。發(fā)明人隨后合成了該DNA,將該合成DNA從美 國(guó)經(jīng)英國(guó)運(yùn)輸?shù)降聡?guó),對(duì)DNA進(jìn)行測(cè)序并以100%的精確度重構(gòu)了五個(gè)計(jì)算機(jī)文件。
[0005] 該五個(gè)計(jì)算機(jī)文件包括一個(gè)英文語(yǔ)言文本(莎士比亞十四行詩(shī)的全部154句),一 個(gè)經(jīng)典科技論文的PDF文件 1(1,一個(gè)JPEG色彩的照片和一個(gè)MP3格式的音頻文件,包含26 秒的演講(選自馬丁路德金的演講"我有一個(gè)夢(mèng)想")。該數(shù)據(jù)存儲(chǔ)代表了近800倍于已知 的先前基于DNA的存儲(chǔ)的信息量,并涵蓋了更豐富的數(shù)字格式。結(jié)果證明,DNA存儲(chǔ)正逐漸 成為現(xiàn)實(shí),并可以在未來(lái)提供有成本效益的數(shù)字信息存檔方法,且用于慢速存取、多年代存 檔任務(wù)可能已經(jīng)具有成本效益。
[0006] 現(xiàn)有摶術(shù)
[0007] 在易于獲取的情況下1A自1995年以來(lái)3,穩(wěn)定存儲(chǔ)信息的DNA高容量已經(jīng)使得 DNA成為極具吸引力的信息存儲(chǔ)目標(biāo)。除信息密度之外,DNA分子作為信息載體具有已證實(shí) 的業(yè)績(jī)記錄,DNA分子的壽命已知,且事實(shí)上作為地球生命的基礎(chǔ),只要有基于DNA的智能 生命體存在 1A操作、存儲(chǔ)和讀取DNA分子的方法將依然是持續(xù)技術(shù)創(chuàng)新的主題?;诨钚?載體DNA5、在活體(in vivo) DNA分子中)和合成DNA4>1(在離體(in vitro) DNA中)的數(shù) 據(jù)存儲(chǔ)系統(tǒng)已經(jīng)被提出。在活體內(nèi)的數(shù)據(jù)存儲(chǔ)系統(tǒng)具有若干缺陷。這些缺陷包括對(duì)數(shù)量、 染色體成分和在活性載體有機(jī)體中可操作而不影響DNA分子生存力的位置的限制。此種活 性載體有機(jī)體的示例包括但不限于細(xì)菌。生存力的下降包括容量的縮減和信息編碼方案的 復(fù)雜度的增加。此外,胚系突變和體細(xì)胞突變將引發(fā)所保存信息的保真度和解碼信息隨時(shí) 間下降,并可能引發(fā)對(duì)活DNA存儲(chǔ)條件細(xì)致監(jiān)管的需求。
[0008] 相比之下,"分離的DNA"( S卩,離體DNA)更易于"寫(xiě)入",且對(duì)幾萬(wàn)年前1H4的樣本 的非活DNA實(shí)例進(jìn)行的例行還原顯示,在易于獲取且少量維護(hù)的環(huán)境下(即,寒冷,干燥和 黑暗的環(huán)境) 15_17,良好制備的非活DNA樣本應(yīng)具有格外長(zhǎng)的生命期限。
[0009] 在DNA中進(jìn)行信息(也稱數(shù)據(jù))存儲(chǔ)的先前工作典型地集中于在DNA中以編碼形 式"寫(xiě)入"人類可讀的消息,而后通過(guò)確定DNA的序列和解碼該序列來(lái)"讀取"該編碼的人類 可讀的消息。在DNA計(jì)算領(lǐng)域的工作產(chǎn)生了原則上容許大型聯(lián)合associative (相聯(lián))存 儲(chǔ)器的方案3'18_2°,但尚無(wú)將這項(xiàng)工作推進(jìn)到實(shí)用DNA存儲(chǔ)方案的嘗試。圖1示出了 14個(gè) 在先前研宄中(在y軸標(biāo)注對(duì)數(shù)刻度)被成功編碼和還原的信息數(shù)量。為14個(gè)先前實(shí)驗(yàn) (空心圓)和本公開(kāi)(實(shí)心圓)示出了點(diǎn)。以這種方式存儲(chǔ)的最大數(shù)量的人類可讀消息為 1280個(gè)英文語(yǔ)言文本字符 8,約相當(dāng)于6500比特的香農(nóng)信息9。
[0010] 印度科學(xué)與工業(yè)研宄委員會(huì)提交了一份序列號(hào)為US 2005/0053968(巴拉得瓦杰 等)的美國(guó)專利申請(qǐng),教導(dǎo)了一種在DNA中存儲(chǔ)信息的方法。美國(guó)968號(hào)申請(qǐng)的方法包括 使用編碼方法,其利用4個(gè)DNA堿基表示拓展ASCII字符集中的每一個(gè)字符。于是產(chǎn)生了 合成的DNA分子,其包括數(shù)字信息、加密密鑰,并在每個(gè)側(cè)面與引物序列相接。最后,合成的 DNA被并入存儲(chǔ)DNA。在DNA數(shù)量過(guò)大的情況下,信息可以被分裂成為若干片段。美國(guó)968 號(hào)專利公開(kāi)的方法可以通過(guò)匹配某片段的頭端引物和下一片段的尾端引物來(lái)重構(gòu)分裂的 DNA片段。
[0011] 已知其它描述了在DNA中存儲(chǔ)信息的技術(shù)的專利文獻(xiàn)。例如,美國(guó)專利6, 312, 911 教導(dǎo)了一種密寫(xiě)方法,用于隱藏DNA中編碼的消息。該方法包括運(yùn)用基因組DNA樣本隱藏 DNA編碼消息,隨后進(jìn)一步將DNA樣本隱藏為微點(diǎn)。該美國(guó)911號(hào)專利的申請(qǐng)?zhí)貏e地用于機(jī) 密信息的隱藏。這樣的信息通常具有有限長(zhǎng)度,因此文件不會(huì)討論如何存儲(chǔ)更長(zhǎng)長(zhǎng)度的信 息項(xiàng)。相同的發(fā)明人提交了國(guó)際專利申請(qǐng),并作為第WO 03/025123號(hào)國(guó)際公布公開(kāi)。
【發(fā)明內(nèi)容】
[0012] 公開(kāi)了一種用于存儲(chǔ)信息項(xiàng)的方法。該方法包括編碼在信息項(xiàng)中的字節(jié)。使用一 方案(schema)由DNA核苷酸來(lái)表示該編碼字節(jié),產(chǎn)生計(jì)算機(jī)模擬(in-silico)的DNA序 列。下一步,DNA序列被拆分成若干個(gè)重疊的DNA片段,且標(biāo)引信息被添加到若干個(gè)DNA片 段上。最后,若干個(gè)DNA片段被合成并存儲(chǔ)。
[0013] 對(duì)DNA片段添加標(biāo)引信息意味著片段在表示信息項(xiàng)的DNA序列中的位置能夠被 單一識(shí)別。沒(méi)有必要依賴頭端引物與尾端引物的匹配。這使得,即使片段之一不能正確 重現(xiàn),也可以還原幾乎整個(gè)信息項(xiàng)。如果不存在標(biāo)引信息,則存在風(fēng)險(xiǎn),也即,如果因"孤 兒" (orphan)片段而導(dǎo)致片段不能夠相互匹配,可能不能夠正確重現(xiàn)整個(gè)信息項(xiàng),所述孤兒 片段是其在DNA序列中的位置不能清楚識(shí)別的片段。
[0014] 利用重疊的DNA片段意味著在信息項(xiàng)的存儲(chǔ)中寫(xiě)入了一定程度的冗余。如果某一 DNA片段不能夠被解碼,則該編碼字節(jié)仍然能夠從相鄰的DNA片段還原。因此冗余成為了系 統(tǒng)的組成部分。
[0015] 可以利用已知DNA合成技術(shù)制作DNA片段的若干個(gè)副本。這提供了額外程度的冗 余,以使得信息項(xiàng)能夠被解碼,即使DNA片段中的某些副本損壞并不能被解碼。
[0016] 在發(fā)明的一個(gè)方面,用于解碼的表示方案(representation schema)被設(shè)計(jì)為相 鄰的DNA核苷酸各不相同。這樣增加了合成、重現(xiàn)和測(cè)序(讀?。〥NA片段的可靠性。
[0017] 在本發(fā)明的進(jìn)一步方面,向標(biāo)引信息添加了奇偶校驗(yàn)(parity-check)。該奇偶校 驗(yàn)使得錯(cuò)誤合成、重現(xiàn)或測(cè)序被識(shí)別出來(lái)。奇偶校驗(yàn)?zāi)軌虮煌卣梗╡xpanded)并包括糾錯(cuò)信 息。
[0018] 合成DNA片段的交替片段是反向互補(bǔ)的。它們?cè)贒NA中提供了額外的冗余度,并 意味著如果任一 DNA片段損壞,會(huì)有更多可得信息。
【附圖說(shuō)明】
[0019] 圖1為存儲(chǔ)在DNA中并成功還原的信息數(shù)量的時(shí)間函數(shù)圖;
[0020] 圖2示出了本公開(kāi)方法的示例;
[0021] 圖3示出了存儲(chǔ)隨時(shí)間的成本效益的圖示;
[0022] 圖4示出了自反向互補(bǔ)模式的基序;
[0023] 圖5不出了編碼效率;
[0024] 圖6不出了誤碼率;
[0025] 圖7示出了方法的編碼的流程圖;
[0026] 圖8示出了方法的解碼的流程圖;
【具體實(shí)施方式】
[0027] 迄今,實(shí)現(xiàn)實(shí)用DNA存儲(chǔ)的主要挑戰(zhàn)之一是根據(jù)指定(specified)設(shè)計(jì)創(chuàng)造