国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      安全測序系統(tǒng)的制作方法

      文檔序號:510681閱讀:258來源:國知局
      安全測序系統(tǒng)的制作方法
      【專利摘要】存在于小部分DNA模板中的突變的識別對生物學(xué)研究的幾個領(lǐng)域的發(fā)展是至關(guān)重要的。雖然大量平行測序儀器基本上非常適合該任務(wù),但是這樣的儀器中的差錯率通常太高以至于不允許稀有變體的確信識別。我們這里描述了用于該目的的可大大增加大量平行測序儀器靈敏度的方法。該方法——稱作“安全測序系統(tǒng)”——的一個實(shí)例包括(i)給每個模板分子分配獨(dú)特識別符(UID);(ii)擴(kuò)增每個獨(dú)特標(biāo)記的模板分子以產(chǎn)生UID-家族;和(iii)擴(kuò)增產(chǎn)物的豐余測序。如果它們的≥95%含有相同的突變,那么具有相同UID的PCR片段是真正的突變體(“超突變體”)。我們顯示用于測定聚合酶保真度的該方法的實(shí)用性、體外合成的寡核苷酸的準(zhǔn)確度、和正常細(xì)胞的核和線粒體基因組中的突變流行。
      【專利說明】安全測序系統(tǒng)
      [0001]本發(fā)明利用國立衛(wèi)生研究院的資助CA62924、CA43460和CA57345而作出。本發(fā)明的某些權(quán)利在資助條款下由美國政府保留。
      [0002]發(fā)明的【技術(shù)領(lǐng)域】
      [0003]本發(fā)明涉及核酸測序領(lǐng)域。特別地,涉及分析和驗(yàn)證低頻率事件的產(chǎn)物的操作和分析步驟。 [0004]發(fā)明背景
      [0005]基因突變分別成為生存和死亡——進(jìn)化和疾病自始至終的許多方面的基礎(chǔ)。相應(yīng)地,它們的測量對幾個研究領(lǐng)域是關(guān)鍵的。Luria和Delbriick的經(jīng)典的波動分析是對生物學(xué)過程洞察的原型實(shí)例,該生物學(xué)過程可通過計(jì)數(shù)仔細(xì)控制的實(shí)驗(yàn)中突變的數(shù)目而簡單地獲得(I)。計(jì)數(shù)人類中不存在于它們的父母中的新形成的突變已相似地導(dǎo)致對我們的物種可進(jìn)化的速度的新洞察(2、3)。相似地,計(jì)數(shù)腫瘤中遺傳或后生變化可告知癌癥生物學(xué)的基本問題(4)。在處理患有病毒疾病如AIDS和肝炎的患者中,由于它們可引起的抗藥性,突變位于目前的問題的核心(5、6)。這樣的突變的檢測,特別地在它們變得在人口中占優(yōu)勢之前的階段,對優(yōu)化治療將可能是必不可少的。器官移植患者的血中供體DNA的檢測是移植物排斥的重要指示器,并且母親血漿中胎兒DNA的檢測可用于非創(chuàng)傷方式的產(chǎn)前診斷(7、8)。在均由體細(xì)胞突變驅(qū)動的腫瘤病中,稀有突變體檢測的應(yīng)用是各種各樣;當(dāng)在血漿中評價時,它們可用于輔助識別在手術(shù)邊緣或在淋巴結(jié)中殘余的疾病,以繼續(xù)治療過程,和當(dāng)在糞便、唾液、血漿和其它體液中評價時,也許識別患有早期的手術(shù)可醫(yī)治的疾病的患者(9-11)。
      [0006]這些實(shí)例強(qiáng)調(diào)了對于基礎(chǔ)和臨床研究識別稀有突變的重要性。相應(yīng)地,在幾年里人們已想出了評價它們的創(chuàng)新的方法。第一方法包括基于原養(yǎng)型、對病毒感染或藥物的抵抗或生物化學(xué)測定的生物學(xué)測定(1、12-18)。分子克隆和測序?yàn)樵擃I(lǐng)域提供新的尺度,因?yàn)樗试S識別突變類型而不僅僅是它的存在(19-24)。這些較新的方法中效力最大的一些基于數(shù)字PCR,其中個體分子被逐一評價(25)。數(shù)字PCR在概念上與細(xì)菌、細(xì)胞或病毒的個體克隆的分析相同,但是用限定的、無生命的試劑完全在體外進(jìn)行。數(shù)字PCR的幾個實(shí)現(xiàn)已被描述,包括多孔板中、群落(polonies)中、微流體裝置中和油包水乳狀液中排列的分子的分析(25-30)。在這些技術(shù)中的每個中,突變體模板通過它們結(jié)合到對潛在的突變體堿基特異的寡核苷酸而被識別。
      [0007]大量平行測序代表特別地有效力的形式的數(shù)字PCR,因?yàn)樵S許多多模板分子可被逐一分析。它較常規(guī)的數(shù)字PCR方法具有優(yōu)勢,因?yàn)槎鄠€堿基可以以自動化方式被連續(xù)地和容易地詢問。然而,由于與測序過程相關(guān)的高差錯率,大量平行測序不能通常用于檢測稀有變體。例如,通常使用的Illumina測序儀器,該差錯率從~1% (31、32)至~0.05% (33、34)變化,取決于因素如閱讀長度(35)、改進(jìn)的堿基召喚算法(base callingalgorithms)的使用(36-38)和檢測的變體的類型(39)。這些錯誤中的一些可能由模板制備期間、文庫制備所需的預(yù)擴(kuò)增步驟期間和儀器自身上進(jìn)一步固相擴(kuò)增期間引入的突變而產(chǎn)生。其它錯誤是由于測序期間喊基錯誤慘入和喊基召喚錯誤。喊基召喚的改進(jìn)可提聞可罪性(例如,(36-39)),但是基于儀器的誤差仍然是限制性的,特別地在臨床樣品中,其中突變流行率可以是0.01%或更少(11)。在下面描述的工作中,我們顯示模板如何可被制備和從它們中獲得的測序數(shù)據(jù)如何可被更可靠地解釋,以便相對稀有的突變可以用商業(yè)上可用的儀器識別。
      [0008]在本領(lǐng)域中存在對提高研究、臨床、法醫(yī)和系譜目的的序列測定的靈敏度和準(zhǔn)確性的持續(xù)需求。
      [0009]發(fā)明概述
      [0010]根據(jù)本發(fā)明的一個方面,一個方法分析核酸序列。將獨(dú)特識別符(uniqueidentifier) (UID)核酸序列與多個分析物核酸片段中每個的第一末端連接以形成獨(dú)特識別的分析物核酸片段。將獨(dú)特識別的分析物核酸片段的核苷酸序列豐余地測定,其中測定的共享WD的核苷酸序列形成成員家族。當(dāng)家族成員的至少1%含有該序列時,將核苷酸序列識別為準(zhǔn)確代表分析物核酸片段。
      [0011]根據(jù)本發(fā)明的另一個方面,一個方法分析核酸序列。利用至少兩個用第一和第二引物的擴(kuò)增循環(huán)將獨(dú)特識別符序列(UID)與多個分析物DNA片段中每個的第一末端連接以形成獨(dú)特識別的分析物DNA片段。擴(kuò)增期間UID多于分析物DNA片段。第一引物包括與期望的擴(kuò)增子互補(bǔ)的第一段;含有WD的第二段;和含有用于隨后擴(kuò)增的通用引發(fā)位點(diǎn)的第三段。第二引物包括用于隨后擴(kuò)增的通用引發(fā)位點(diǎn)。每個擴(kuò)增循環(huán)將一個通用引發(fā)位點(diǎn)與鏈連接。擴(kuò)增獨(dú)特識別的分析物DNA片段以由每個獨(dú)特識別的分析物D NA片段而形成獨(dú)特識別的分析物DNA片段家族。測定家族的多個成員的核苷酸序列。
      [0012]本發(fā)明的另一個方面是利用內(nèi)源獨(dú)特識別符序列(UID)分析DNA的方法。獲得片段化的分析物DNA,其包含30至2000個堿基——包括30和2000個堿基——的片段。片段的每個末端形成針對片段的內(nèi)源WD。將銜接頭寡核苷酸與片段的末端連接以形成銜接的片段。代表一個或多個選擇的基因的片段任選地通過利用與分析物DNA中選擇的基因互補(bǔ)的捕獲寡核苷酸而捕獲片段的子集或通過擴(kuò)增與選擇的基因互補(bǔ)的片段而被富集。將銜接的片段利用與銜接頭寡核苷酸互補(bǔ)的引物擴(kuò)增以形成銜接的片段家族。測定家族的多個成員的核苷酸序列。比較家族的多個成員的核苷酸序列。當(dāng)家族成員的至少1%含有該序列時,將核苷酸序列識別為準(zhǔn)確代表分析物DNA片段。
      [0013]本發(fā)明的另一個方面是包括引物對群體的組合物,其中每對包括用于擴(kuò)增和識別基因或基因部分的第一和第二引物。第一引物包括與基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和包括與第三引物雜交的位點(diǎn)的10至100個核苷酸的第二部分。第二引物包括與基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和包括與第四引物雜交的位點(diǎn)的10至100個核苷酸的第二部分。第二引物的第一部分和第二部分之間插入的是由形成獨(dú)特識別符(UID)的2至4000個核苷酸組成的第三部分。群體中的獨(dú)特識別符具有至少4個不同的序列。第一和第二引物與基因或基因部分的相反鏈互補(bǔ)。試劑盒可包括引物群體和與第一和第二引物中每個的第二部分互補(bǔ)的第三和第四引物。
      [0014]讀了說明書之后對本領(lǐng)域技術(shù)人員將是明顯的這些和其它實(shí)施方式提供選擇性地和準(zhǔn)確地測定核酸特點(diǎn)或序列的工具和方法。
      [0015]附圖簡述
      [0016]圖1。安全測序系統(tǒng)的必要元件。在第一步驟中,給將被分析的每個片段分配獨(dú)特標(biāo)識(UID)序列(金屬陰影線或點(diǎn)狀條)。在第二步驟中,擴(kuò)增獨(dú)特標(biāo)記的片段,產(chǎn)生WD-家族,其每個成員具有相同的UID。超突變體被定義為UID-家族,其中> 95%的家族成員具有相同的突變。
      [0017]圖2。用內(nèi)源UID加捕獲物的安全測序系統(tǒng)。隨機(jī)剪切產(chǎn)生的每個片段的末端的序列(各種形狀的條充當(dāng)獨(dú)特識別符(UID)。這些片段與銜接頭連接(土地陰影線和網(wǎng)狀線條)以便它們可隨后通過PCR擴(kuò)增。一個獨(dú)特地可識別的片段從雙鏈模板的每條鏈產(chǎn)生;只顯示一條鏈。目的片段被捕獲在含有與目的序列互補(bǔ)的寡核苷酸的固相上。PCR擴(kuò)增以產(chǎn)生具有含有5’ “嫁接”序列的引物的UID-家族(粘合劑填充的條和淺點(diǎn)狀條)之后,進(jìn)行測序和將超突變體如圖1中一樣地定義。
      [0018]圖3。用外源WD的安全測序系統(tǒng)。用一組基因特異的引物擴(kuò)增DNA (剪切或未剪切的)。引物之一具有隨機(jī)的DNA序列(例如,一組14N的),其形成獨(dú)特識別符(UID ;各種形狀的條,位于其基因特異性序列的5’,和二者具有允許下一步驟中通用擴(kuò)增的序列(土地陰影線條和網(wǎng)狀線條)。兩個UID分配(assignment)循環(huán)產(chǎn)生兩個片段——每個具有與每個雙鏈模板分子不同的WD,如所顯示的。用還含有“嫁接”序列的通用引物(粘合劑填充的條和淺點(diǎn)狀條)的隨后PCR產(chǎn)生被直接測序的WD-家族。將超突變體如圖1的圖例中一樣地定義。
      [0019]圖4A-4B。常規(guī)和安全測序系統(tǒng)分析識別的單堿基置換。圖3中描繪的外源WD策略用于從三個正常的無關(guān)個體的CTNNBl基因產(chǎn)生PCR片段。每個位置代表87個可能的單堿基置換(3個可能的置換/堿基X 29個分析的堿基)之一。將這些片段在IlluminaGAIIx儀器上測序和以常規(guī)方式(圖4A)或用安全測序系統(tǒng)(圖4B)分析。將安全測序系統(tǒng)結(jié)果以與常規(guī)分析相同的比例顯示用于直接比較;插圖是放大的視圖。注意,常規(guī)分析識別的大多數(shù)變體可能代表測序錯誤,如相對于安全測序系統(tǒng)它們的高頻率和無關(guān)樣品之中它們的一致性所表明的。
      [0020]圖5。用內(nèi)源UID加反向PCR的安全測序系統(tǒng)。隨機(jī)剪切產(chǎn)生的每個片段末端的序列充當(dāng)獨(dú)特識別符(UID ;各種形狀的條)。如在標(biāo)準(zhǔn)的Illumina文庫制備中將這些片段與接頭連接(土地陰影線條和網(wǎng)狀線條)。一個獨(dú)特標(biāo)記的片段從雙鏈模板的每條鏈產(chǎn)生;只顯示一條鏈。用連接酶環(huán)化之后,反向PCR用也含有5’ “嫁接”序列的基因特異性引物(粘合劑填充的條和淺的點(diǎn)狀條)進(jìn)行。該P(yáng)CR產(chǎn)生被直接測序的UID-家族。將超突變體如圖1中一樣地定義。
      [0021]圖6A-6B。用亞磷酰胺和Phusion合成的寡核苷酸中單堿基置換位置對錯誤頻率。將用亞磷酰胺(圖6A)或Phusion聚合酶(圖6B)合成的相同的31-堿基DNA片段的代表性部分用安全測序系統(tǒng)來分析。繪制每個類型的七個獨(dú)立的實(shí)驗(yàn)的平均值和標(biāo)準(zhǔn)偏差。亞磷酰胺合成的和Phusion產(chǎn)生的片段中分別識別到1,721 ±383和196±143SBS超突變體的平均數(shù)。y軸指示在指示位置的總錯誤的分?jǐn)?shù)。注意,亞磷酰胺合成的DNA片段中的錯誤在七個復(fù)制之中是一致的,如在合成自身期間如果錯誤被系統(tǒng)地引入所將期望的。相比之下,Phusion產(chǎn)生的片段中的錯誤在樣品之中表現(xiàn)出是異質(zhì)的,如隨機(jī)過程所期望的(Lur iaand Delbruck, Genetics28:491-511, 1943)。
      [0022]圖7。WD-家族成員分布。圖3中描繪的外源UID策略用于從三個正常的無關(guān)個體的CTNNBl區(qū)域產(chǎn)生 PCR片段(表2B);顯示從一個個體產(chǎn)生的具有≤300個成員(總UID-家族的99%)的WD-家族的代表性實(shí)例。y軸指示不同的WD-家族——含有x軸上顯示的家族成員數(shù)目——的數(shù)目。
      [0023]發(fā)明詳述
      [0024]本發(fā)明人已開發(fā)了一種稱作“安全測序系統(tǒng)(Safe-SeqS)”(來自Safe-SeguencingSystem)的方法。在一個實(shí)施方式中,它包括兩個基本步驟(圖1)。第一個是將獨(dú)特識別符(UID)分配給將被分析的每個核酸模板分子。第二個是每個獨(dú)特標(biāo)記的模板的擴(kuò)增,以便產(chǎn)生許多具有相同序列的子分子(定義為WD-家族)。如果突變預(yù)先存在于用于擴(kuò)增的模板分子中,突變應(yīng)以一定比例存在,或甚至所有的子分子含有該WD (除任何隨后復(fù)制或測序錯誤外)。UID-家族——其中每個家族成員(或一定的預(yù)設(shè)的比例)具有
      相同突變-被稱作“超突變體(super-mutant)”。不發(fā)生在原始模板中的突變,如擴(kuò)增步
      驟期間或堿基召喚中通過錯誤發(fā)生的那些突變,不應(yīng)產(chǎn)生超突變體,即,將不以預(yù)設(shè)的頻率存在于UID家族中。在其它實(shí)施方式中,擴(kuò)增不是必需的。
      [0025]該方法可用于任何目的,其中序列數(shù)據(jù)需要非常高水平的準(zhǔn)確度和靈敏度。如下面所顯示的,該方法可用于評價聚合酶的保真度、體外合成的核酸合成的準(zhǔn)確度和正常細(xì)胞的核或線粒體核酸中突變的流行。該方法可用于檢測和/或定量嵌合突變和體細(xì)胞突變。
      [0026]核酸片段可利用隨機(jī)片段形成技術(shù)如機(jī)械剪切、超聲處理或使核酸經(jīng)受其它物理或化學(xué)應(yīng)激而獲得。片段可以不是嚴(yán)格隨機(jī)的,因?yàn)橐恍┪稽c(diǎn)較其它位點(diǎn)可對應(yīng)激更易感。隨機(jī)或特別地片段化的內(nèi)切核酸酶還可用于產(chǎn)生片段。片段的大小可變化,但是期望地將是30和5,000個堿基對之間,100和2,000個之間,150和I, 000個之間,或在具有這些端點(diǎn)的不同的組合的范圍內(nèi)。核酸可以是,例如,RNA或DNA。還可利用RNA或DNA的修改的形式。
      [0027]將外源HD與分析物核酸片段的連接可通過本領(lǐng)域已知的任何方法來進(jìn)行,包括酶學(xué)、化學(xué)或生物學(xué)方法。一種方法利用聚合酶鏈反應(yīng)。另一種方法利用連接酶。例如,酶可以是哺乳動物的或細(xì)菌的酶。在連接之前可將片段的末端利用其它酶如T4DNA聚合酶的Klenow片段來修復(fù)??捎糜谶B接的其它酶是其它聚合酶。可將WD加到片段的一個或兩個末端。UID可包含在核酸分子內(nèi),該核酸分子含有針對其它預(yù)期功能性的其它區(qū)域。例如,可加入通用引發(fā)位點(diǎn)以允許后面的擴(kuò)增。另一個附加的位點(diǎn)可以是對分析物核酸中的特定區(qū)域或基因互補(bǔ)性的區(qū)域。UID的長度可以是例如,2至4,000、100至1000、4至400個堿基。
      [0028]UID可利用核苷酸的隨機(jī)添加來制備以形成將用作識別符的短序列。在每個添加位置,可使用來自四個脫氧核糖核苷酸之一的選擇。可選地可使用來自三個、兩個或一個脫氧核糖核苷酸之一的選擇。因此UID在某些位置中可以是完全隨機(jī)的,稍微隨機(jī)的或非隨機(jī)的。制備WD的另一個方式利用裝配在芯片上的預(yù)設(shè)的核苷酸。在該制備方式中,以計(jì)劃的方式獲得復(fù)雜性。將UID與片段的每個末端連接可以是有利的,增加片段上UID群體的復(fù)雜性。
      [0029]用于加入外源WD的聚合酶鏈反應(yīng)循環(huán)指雙鏈分子的熱變性、第一引物與產(chǎn)生的單鏈的雜交、引物延伸以形成與原始單鏈雜交的新的第二條鏈。第二循環(huán)指新的第二條鏈從原始單鏈的變性、第二引物 與新的第二條鏈的雜交和第二引物延伸以形成與新的第二條鏈雜交的新的第三條鏈??尚枰鄠€循環(huán)以增加效率,例如,當(dāng)分析物經(jīng)稀釋或存在抑制劑時。
      [0030]在內(nèi)源WD的情況中,可將接頭通過連接加到片段的末端。分析物片段的復(fù)雜性可通過在固相上或在液體步驟中的捕獲步驟而被減少。通常捕獲步驟將利用與代表目的基因或基因組的探針的雜交。如果在固相上,則將非結(jié)合片段與結(jié)合片段分離。本領(lǐng)域已知的合適的固相包括過濾器、膜、珠、柱等。如果在液相中,則可加入捕獲試劑,其結(jié)合探針,例如通過生物素-抗生物素蛋白型相互作用。捕獲之后,可將期望的片段洗脫用于進(jìn)一步處理。加入接頭和捕獲的順序不是關(guān)鍵的。減少分析物片段復(fù)雜性的另一種方法包括一個或多個特定基因或區(qū)域的擴(kuò)增。實(shí)現(xiàn)這的一個方法是利用反向PCR。可使用基因特異的引物,這樣在形成文庫時富集。任選地,基因特異的引物可含有用于隨后與大量平行測序平臺連接的嫁接序列。 [0031]因?yàn)閮?nèi)源UID提供有限數(shù)目的獨(dú)特可能性,取決于片段大小和測序閱讀長度,可使用內(nèi)源和外源WD的組合。當(dāng)擴(kuò)增將增加可用的UID和由此增加靈敏度時引入另外的序列。例如,擴(kuò)增之前,可將模板分配到96個孔中,擴(kuò)增期間可使用96個不同的引物。這將有效地增加可用的WD96-倍,因?yàn)槎噙_(dá)96個具有相同的內(nèi)源WD的模板將被區(qū)別。該技術(shù)還可與外源UID—起使用,以便每個孔的引物將獨(dú)特的、非常特異的序列加到擴(kuò)增產(chǎn)物。這可提高稀有模板檢測的特異性。
      [0032]含有WD的片段擴(kuò)增可根據(jù)已知的技術(shù)來進(jìn)行以產(chǎn)生片段家族??衫镁酆厦告湻磻?yīng)??梢怖梅奖愕钠渌鼣U(kuò)增方法??衫梅聪騊CR,其可滾環(huán)擴(kuò)增。片段擴(kuò)增通常利用與引發(fā)位點(diǎn)互補(bǔ)的引物來進(jìn)行,該引發(fā)位點(diǎn)與同時作為UID的片段連接。引發(fā)位點(diǎn)位于WD遠(yuǎn)側(cè),以便擴(kuò)增包括WD。擴(kuò)增形成片段家族,家族的每個成員共享相同的WD。因?yàn)閃D的多樣性大大超過片段的多樣性,所以每個家族應(yīng)來自分析物中的單個片段分子。用于擴(kuò)增的引物可被化學(xué)修飾以使它們更加抵抗外切核酸酶。一種這樣的修飾是利用一個或多個3’核苷酸之間的硫代磷酸鍵。另一種利用硼燒磷酸(boranophosphate)。
      [0033]將家族成員測序和比較以識別家族內(nèi)的任何多樣性。測序優(yōu)選在大量平行測序平臺上進(jìn)行,平臺中的許多是商業(yè)上可獲得的。如果測序平臺需要用于“嫁接”的序列,即,與測序裝置連接,這樣的序列可在WD或接頭加入期間加入或分開加入。嫁接序列可以是WD引物、通用引物、基因靶向特異性引物、用于制備家族的擴(kuò)增引物的部分或分開的。豐余測序指單一家族的多個成員的測序。
      [0034]可對識別分析物中的突變設(shè)置閾值。如果“突變”出現(xiàn)在家族的所有成員中,那么它來自分析物。如果它出現(xiàn)在小于所有的成員中,那么它可能在分析期間已被引入。可將召喚突變的閾值設(shè)定,例如,在 1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%或100%。閾值將基于被測序的家族成員的數(shù)目和特定目的和情形來設(shè)定。
      [0035]引物對群體用于連接外源WD。第一引物包括與基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和包括與第三引物雜交的位點(diǎn)的10至100個核苷酸的第二部分。第二引物包括與基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和和包括與第四引物雜交的位點(diǎn)的10至100個核苷酸的第二部分。第二引物的第一部分和第二部分之間插入由形成獨(dú)特識別符(UID)的2至4,000個核苷酸組成的第三部分。群體中獨(dú)特識別符至少4、至少16、至少64、至少256、至少I, 024、至少4,096、至少16,384、至少65,536、至少262,144、至少1,048,576、至少4,194,304、至少16, 777, 216,或至少67,108,864個不同的序列。第
      一和第二引物與基因或基因部分的相反鏈互補(bǔ)??芍苽湓噭┖?,含有用于連接外源WD的引物以及擴(kuò)增引物,即,與第一和第二引物中每個的第二部分互補(bǔ)的第三和第四引物。第三和第四引物可任選地含有另外的嫁接或標(biāo)引序列。UID可包括隨機(jī)選擇的序列、預(yù)先限定的核苷酸序列或隨機(jī)選擇的序列和預(yù)先限定的核苷酸。如果二者都有,那么這些可被整批連接在一起或散布。
      [0036]分析方法可用于定量以及測定序列。例如,可比較兩個分析物DNA片段的相對豐度。
      [0037]下面實(shí)施例中描述的結(jié)果顯示,安全測序系統(tǒng)方法可基本上提高大量平行測序的準(zhǔn)確度(表1和2)。它可通過內(nèi)源或外源引入的UID而實(shí)現(xiàn)和可應(yīng)用于實(shí)際上任何樣品制備工作流或測序平臺。如這里所顯示的,該方法可容易地用于識別DNA模板群體中稀有的突變體,以測量聚合酶差錯率,和判斷寡核苷酸合成的可靠性。該策略的優(yōu)勢之一是它產(chǎn)生分析的模板數(shù)目以及含有不同堿基的模板部分。先前描述的用于少量模板分子檢測的體外方法(例如,(29、50))允許測定突變體模板的部分但不能測定原始樣品中突變體和正常模板的數(shù)目。
      [0038]比較安全測序系統(tǒng)與減少下一代測序中錯誤的其它方法是有意義的。如上面所提到的,在本發(fā)明背景中,已開發(fā)了增加堿基召喚準(zhǔn)確度的復(fù)雜算法(例如,(36-39))。這些可當(dāng)然減少假陽性召喚,但是它們的靈敏度仍然受限于文庫制備需要的PCR步驟期間發(fā)生的人工突變以及(減少數(shù)目的)堿基召喚錯誤。例如,目前的研究中利用的算法使用非常嚴(yán)格的堿基召喚標(biāo)準(zhǔn)和應(yīng)用于短閱讀長度,但是仍然不能將差錯率減少到小于2.0 X IO-4錯誤/bp的平均值。該錯誤頻率至少與用其它算法報道的一樣低。為了進(jìn)一步提高靈敏度,這些堿基召喚改進(jìn)可以與安全測序系統(tǒng)一起使用。Travers et al.已描述了另一個有力的減少錯誤的策略(51)。用該技術(shù),許多制備型酶法步驟之后,每個模板分子的兩條鏈被豐余地測序。然而,該方法只可在 特定的儀器上進(jìn)行。而且,對于許多臨床應(yīng)用,最初的樣品中存在相對少的模板分子,和需要幾乎所有它們的評價以獲得需要的靈敏度。這里描述的用外源引入的WD的方法(圖3)通過將UID分配步驟與隨后的擴(kuò)增——其中喪失很少的分子——連接而實(shí)現(xiàn)該需要。由于連接和其它制備步驟期間不可避免的模板分子的喪失,我們的內(nèi)源UID方法(圖2和圖5)和Traverset al.描述的方法不是理想地適合該目的。
      [0039]我們?nèi)绾沃滥壳暗难芯恐谐R?guī)分析識別的突變代表人為現(xiàn)象而不是原始模板中真正的突變?支持這的強(qiáng)有力的證據(jù)通過除了一個以外的所有實(shí)驗(yàn)中突變流行是相似的——2.0\10_4至2.4父10_4突變/1^——的觀察來提供(表1和2)。例外是用從亞磷酰胺合成的寡核苷酸的實(shí)驗(yàn),其中當(dāng)用嚴(yán)格的堿基召喚標(biāo)準(zhǔn)時合成過程的錯誤明顯高于常規(guī)Illumina分析的差錯率。相比之下,安全測序系統(tǒng)的突變流行變化得更多,從0.0至
      1.4X IO-5突變/bp,取決于模板和實(shí)驗(yàn)。而且,大多數(shù)對照實(shí)驗(yàn)一其中測量聚合酶保真度——中安全測序系統(tǒng)測量的突變流行(表2A)幾乎與先前的實(shí)驗(yàn)——其中通過生物學(xué)試驗(yàn)測量聚合酶保真度——預(yù)測的相同。我們的來自正常細(xì)胞的DNA中突變流行的測量與一些先前的實(shí)驗(yàn)數(shù)據(jù)一致。然而,這些流行的估計(jì)變化很大并可取決于分析的細(xì)胞類型和序列(參見SI文本)。我們因此不能確定安全測序系統(tǒng)揭示的很少的突變代表測序過程期間發(fā)生的錯誤而不是原始DNA模板存在的真正的突變。安全測序系統(tǒng)過程中錯誤的潛在來源在SI文本中被描述。
      [0040]安全測序系統(tǒng)的另一個潛在的應(yīng)用是PCR污染——臨床實(shí)驗(yàn)室的嚴(yán)重問題——的最小化。對于內(nèi)源或外源WD分配,可將突變體模板的WD簡單地與先前實(shí)驗(yàn)中識別的那些比較;當(dāng)突變不常見時,不同的實(shí)驗(yàn)中來自兩個獨(dú)立的樣品的相同突變將具有相同WD的概率是可以忽略的。另外,對于外源WD,具有相同模板但沒有WD分配PCR循環(huán)的對照實(shí)驗(yàn)(圖3)可保證模板制備中沒有DNA污染存在;在缺少UID分配循環(huán)的情況中應(yīng)沒有模板被擴(kuò)增,因此應(yīng)沒有觀察到適當(dāng)大小的PCR產(chǎn)物。
      [0041]象所有的技術(shù)一樣,安全測序系統(tǒng)具有局限性。例如,我們已經(jīng)證明外源UID策略可用于深入地分析單一擴(kuò)增子。該技術(shù)不可應(yīng)用于這樣的情形,其中多個擴(kuò)增子必須從含有有限數(shù)目的模板樣品被分析。UID分配循環(huán)中的多重技術(shù)(圖3)可給該挑戰(zhàn)提供解決方案。第二局限性是WD分配循環(huán)中的擴(kuò)增效率對方法的成功是關(guān)鍵性的。臨床樣品可含有降低該步驟效率的抑制劑。該問題可能通過UID分配PCR步驟中進(jìn)行兩個以上的循環(huán)而克服(圖3),雖然這將使分析的模板數(shù)目的測定變復(fù)雜。安全測序系統(tǒng)的特異性目前受限于UID分配PCR步驟中使用的聚合酶的保真度,即,在其目前的具有兩個循環(huán)的實(shí)行中8.8X 10_7突變/bp。將UID分配PCR步驟中的循環(huán)數(shù)增加到五會將整體特異性降低到~2X10—6突變/bp。然而,該特異性可通過需要一個以上用于突變識別的超突變體而增加——引入相同的人工突變兩倍或三倍的概率將是非常低的(分別為[2X10—6]2或[2X10—6]3)。總之,有幾種簡單的方法來進(jìn)行安全測序系統(tǒng)改變和分析改變以實(shí)現(xiàn)特定實(shí)驗(yàn)的需要。
      [0042]Luria和Delbriick在它們1943年的經(jīng)典論文中寫到,他們的“預(yù)測不能被直接檢驗(yàn),因?yàn)楫?dāng)我們計(jì)數(shù)培養(yǎng)基中抗藥菌數(shù)目時,我們觀察到的不是已經(jīng)出現(xiàn)的突變數(shù)目,而是通過突變的那些抗藥菌繁 殖而已出現(xiàn)的抗藥菌的數(shù)目,繁殖的數(shù)量取決于發(fā)生的突變回溯多久”。這里描述的安全測序系統(tǒng)程序可檢驗(yàn)這樣的預(yù)測,因?yàn)槊總€突變發(fā)生的數(shù)目以及時間可從數(shù)據(jù)估計(jì),如對聚合酶保真度的實(shí)驗(yàn)中所記錄的。除了聚合酶體外產(chǎn)生的模板,相同的方法可應(yīng)用于來自細(xì)菌、病毒和哺乳動物細(xì)胞的DNA。我們因此期望該策略將為許多種重要的生物醫(yī)學(xué)問題提供確定的答案。
      [0043]以上的公開概括地描述了本發(fā)明。本文公開的所有參考文獻(xiàn)通過引用被清楚地并入。更完全的理解可通過參考以下具體實(shí)施例而獲得,該實(shí)施例僅為了說明的目的而被本文提供,并且不意欲限制本發(fā)明的范圍。
      [0044]實(shí)施例1—內(nèi)源UID。
      [0045]WD,有時被稱作條形碼或索引,可以以許多方式被分配給核酸片段。這些包括外源序列通過PCR (40、41)或連接(42、43)的引入。甚至更簡單地,隨機(jī)剪切的基因組DNA固有地含有由每個剪切的片段的兩個末端序列組成的WD (圖2和圖5)。這些片段的配對的末端測序產(chǎn)生可被如上所述分析的WD-家族。為了在安全測序系統(tǒng)中利用這樣的內(nèi)源WD,我們使用兩個獨(dú)立的方法:一個設(shè)計(jì)為同時評價許多基因的方法和另一個設(shè)計(jì)為深入地評價單個基因片段的方法(分別為圖2和圖5)。
      [0046]為了多個基因的評價,我們將標(biāo)準(zhǔn)的Illumina測序銜接頭與剪切的DNA片段的末端連接以產(chǎn)生標(biāo)準(zhǔn)的測序文庫,然后在固相上捕獲目的基因(44)。在該實(shí)驗(yàn)中,使用由~15,000個正常細(xì)胞的DNA制備的文庫,和靶向來自六個基因的2,594bp用于捕獲。排除已知的單核苷酸多態(tài)性之后,還識別了 25,563個明顯的突變——對應(yīng)2.4X 10_4土突變/bp(表1)?;谙惹暗娜思?xì)胞中突變率的分析,這些明顯的突變的至少90%可能代表模板和文庫制備期間引入的突變或堿基召喚錯誤。注意,這里測定的差錯率(2.4X 10_4突變/bp)較利用Illumina儀器的實(shí)驗(yàn)中通常報道的低得多,因?yàn)槲覀兪褂梅浅?yán)格的堿基召喚標(biāo)準(zhǔn)。
      [0047]表1.用內(nèi)源HD的安全測序系統(tǒng)
      [0048]
      【權(quán)利要求】
      1.分析核酸序列的方法,包括: 將獨(dú)特識別符核酸序列(UID)與多個分析物核酸片段中每個的第一末端連接以形成獨(dú)特識別的分析物核酸片段; 豐余地測定獨(dú)特識別的分析物核酸片段的核苷酸序列,其中測定的共享WD的核苷酸序列形成成員家族; 當(dāng)所述家族成員的至少1%含有所述序列時,將核苷酸序列識別為準(zhǔn)確代表分析物核酸片段。
      2.權(quán)利要求1所述的方法,其中在所述豐余地測定的步驟之前,擴(kuò)增所述獨(dú)特識別的分析物核酸片段。
      3.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的至少5%含有所述序列時識別所述核苷酸序列。
      4.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的至少25%含有所述序列時識別所述核苷酸序列。
      5.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的至少50%含有所述序列時識別所述核苷酸序列。
      6.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的至少70%含有所述序列時識別所述核苷酸序列。
      7.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的至少90%含有所述序列時識別所述核苷酸序列。
      8.權(quán)利要求1所述的方法,其中當(dāng)所述家族成員的100%含有所述序列時識別所述核苷酸序列。
      9.權(quán)利要求1所述的方法,其中所述連接步驟通過聚合酶鏈反應(yīng)進(jìn)行。
      10.權(quán)利要求1所述的方法,其中將第一通用引發(fā)位點(diǎn)與多個分析物核酸片段中每個的第二末端連接。
      11.權(quán)利要求9所述的方法,其中進(jìn)行至少兩個循環(huán)的聚合酶鏈反應(yīng)以便家族由獨(dú)特識別的分析物核酸片段形成,所述獨(dú)特識別的分析物核酸片段具有在所述第一末端上的UID和在第二末端上的第一通用引發(fā)位點(diǎn)。
      12.權(quán)利要求1所述的方法,其中將所述UID共價地與第二通用引發(fā)位點(diǎn)連接。
      13.權(quán)利要求10所述的方法,其中將所述UID共價地與第二通用引發(fā)位點(diǎn)連接。
      14.權(quán)利要求13所述的方法,其中在所述豐余地測定的步驟之前,利用分別與所述第一和所述第二通用引發(fā)位點(diǎn)互補(bǔ)的一對引物擴(kuò)增所述獨(dú)特識別的分析物核酸片段。
      15.權(quán)利要求12所述的方法,其中將所述UID與分析物核酸片段的5’末端連接和所述第二通用引發(fā)位點(diǎn)是所述WD的5’。
      16.權(quán)利要求12所述的方法,其中將所述UID與分析物核酸片段的3’末端連接和所述第二通用引發(fā)位點(diǎn)是所述WD的3’。
      17.權(quán)利要求1所述的方法,其中所述分析物核酸片段通過將剪切力施加給分析物核酸而形成。
      18.權(quán)利要求9所述的方法,其中在所述豐余地測定的步驟之前,將所述獨(dú)特識別的分析物核酸片段進(jìn)行擴(kuò)增,其中在所述擴(kuò)增之前,將單鏈特異性外切核酸酶用于消化過多的引物,所述引物用于將所述UID與所述分析物核酸片段連接。
      19.權(quán)利要求18所述的方法,其中在所述豐余地測定的步驟之前,將所述獨(dú)特識別的分析物核酸片段進(jìn)行擴(kuò)增,其中在所述擴(kuò)增之前,將所述單鏈特異性外切核酸酶滅活、抑制或去除。
      20.權(quán)利要求19所述的方法,其中所述單鏈特異性外切核酸酶通過加熱處理來滅活。
      21.權(quán)利要求18所述的方法,其中用于所述擴(kuò)增的引物包括一個或多個使它們抵抗外切核酸酶的化學(xué)修飾。
      22.權(quán)利要求18所述的方法,其中用于所述擴(kuò)增的引物包括一個或多個硫代磷酸鍵。
      23.分析核酸序列的方法,包括: 利用至少兩個用第一和第二引物的擴(kuò)增循環(huán)將獨(dú)特識別符序列(UID)與多個分析物DNA片段中每個的第一末端連接以形成獨(dú)特識別的分析物DNA片段,其中擴(kuò)增期間所述WD多于所述分析物DNA片段,其中所述第一引物包括: ?與期望的擴(kuò)增子互補(bǔ)的第一段; ?含有所述WD的第二段; ?含有用于隨后擴(kuò)增的通用引發(fā)位點(diǎn)的第三段; 并且其中所述第二引物包括 用于隨后擴(kuò)增的通用引發(fā)位點(diǎn);其中每個擴(kuò)增循環(huán)將一個通用引發(fā)位點(diǎn)與一條鏈連接; 擴(kuò)增所述獨(dú)特識別的分析物DNA片段以由每個獨(dú)特識別的分析物DNA片段形成獨(dú)特識別的分析物DNA片段家族;和 測定所述家族的多個成員的核苷酸序列。
      24.權(quán)利要求23所述的方法,其中所述第二引物每個包括WD。
      25.權(quán)利要求23所述的方法,進(jìn)一步包括以下步驟: 比較獨(dú)特識別的分析物DNA片段家族的序列;和 當(dāng)所述家族成員的至少1%含有所述序列時,將核苷酸序列識別為準(zhǔn)確地代表分析物DNA片段。
      26.權(quán)利要求25所述的方法,其中當(dāng)所述家族成員的至少5%含有所述序列時識別所述核苷酸序列。
      27.權(quán)利要求25所述的方法,當(dāng)所述家族成員的至少25%含有所述序列時識別所述核苷酸序列。
      28.權(quán)利要求25所述的方法,其中當(dāng)所述家族成員的至少50%含有所述序列時識別所述核苷酸序列。
      29.權(quán)利要求25所述的方法,其中當(dāng)所述家族成員的至少70%含有所述序列時識別所述核苷酸序列。
      30.權(quán)利要求25所述的方法,其中當(dāng)所述家族成員的至少90%含有所述序列時識別所述核苷酸序列。
      31.權(quán)利要求23所述的方法,其中所述UID包括2至4000個堿基。
      32.權(quán)利要求23所述的方法,其中在所述擴(kuò)增所述獨(dú)特識別的分析物DNA片段的步驟之前,將單鏈特異性外切核酸酶用于消化過多的引物,所述引物用于將所述WD與所述分析物DNA片段連接。
      33.權(quán)利要求32所述的方法,其中在所述擴(kuò)增的步驟之前,將所述單鏈特異性外切核酸酶滅活、抑制或去除。
      34.權(quán)利要求33所述的方法,其中所述單鏈特異性外切核酸酶通過加熱處理而滅活。
      35.權(quán)利要求32所述的方法,其中用于所述擴(kuò)增步驟的引物包括一個或多個硫代磷酸鍵。
      36.利用內(nèi)源獨(dú)特識別符序列(WD)分析DNA的方法,包括: 將銜接頭寡核苷酸與30至2000個堿基之間——包括30和2000個堿基——的分析物DNA片段的末端連接以形成銜接的片段,其中所述連接之前片段的每個末端對所述片段是內(nèi)源WD ; 利用與所述銜接頭寡核苷酸互補(bǔ)的引物擴(kuò)增所述銜接的片段以形成銜接的片段家族; 測定家族的多個成員的核苷酸序列; 比較所述家族的所述多個成員的核苷酸序列;和 當(dāng)所述家族成員的至少1%含有所述序列時,將核苷酸序列識別為準(zhǔn)確代表分析物DNA片段。
      37.權(quán)利要求36所述的方法,進(jìn)一步包括: 通過利用與所述分析物DNA中選擇的基因互補(bǔ)的捕獲寡核苷酸來捕獲所述片段的子集,富集代表一個或多個選擇的基因的片段。
      38.權(quán)利要求36所述的方法,進(jìn)一步包括: 通過擴(kuò)增與選擇的基因互補(bǔ)的片段而富集代表一個或多個選擇的基因的片段。
      39.權(quán)利要求37或38所述的方法,其中所述連接步驟在所述富集步驟之前。
      40.權(quán)利要求36所述的方法,其中所述片段通過剪切而形成。
      41.權(quán)利要求36所述的方法,其中當(dāng)所述家族成員的至少5%含有所述序列時將核苷酸序列識別為準(zhǔn)確地代表分析物DNA片段。
      42.引物對群體,其中每對包括用于擴(kuò)增和識別基因或基因部分的第一和第二引物,其中: ?第一引物包括與所述基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和包括與第三引物雜交的位點(diǎn)的10至100個核苷酸的第二部分; ?所述第二引物包括與所述基因或基因部分互補(bǔ)的10-100個核苷酸的第一部分和包括與第四引物雜交的位點(diǎn)的10至100個核苷酸的第二部分,其中所述第二引物的所述第一部分和所述第二部分之間插入的是由形成獨(dú)特識別符(UID)的2至4000個核苷酸組成的第三部分; 其中所述群體中的所述獨(dú)特識別符具有至少4個不同的序列,其中所述第一和第二引物與所述基因或基因部分的相反鏈互補(bǔ)。
      43.權(quán)利要求42所述的方法,其中所述第一引物進(jìn)一步包括獨(dú)特識別符(UID)。
      44.權(quán)利要求42所述的群體,其中所述群體中所述獨(dú)特識別符具有至少16、至少64、至少 256、至少 I, 024、至少 4,096、至少 16,384、至少 65,536、至少 262,144、至少 I, 048,576、至少4,194,304、至少16,777,216或至少67,108,864個不同的序列。
      45.試劑盒,包括權(quán)利要求42所述的引物群體和與所述第一和第二引物中每個的所述第二部分互補(bǔ)的第三和第四引物。
      46.權(quán)利要求42所述的群體,其中所述UID包括隨機(jī)選擇的序列。
      47.權(quán)利要求42所述的群體,其中所述UID包括預(yù)先限定的核苷酸序列。
      48.權(quán)利要求42所述的群體,其中所述WD包括隨機(jī)選擇的序列和預(yù)先限定的核苷酸。
      49.權(quán)利要求2、23或36所述的方法,其中在所述擴(kuò)增之前,將所述分析物DNA用亞硫酸氫鹽處理以將未甲基化的胞嘧啶堿基轉(zhuǎn)化成尿嘧啶。
      50.權(quán)利要求1、23或36所述的方法,進(jìn)一步包括以下步驟:比較代表第一分析物DNA片段的家族的數(shù)目與代表第二分析物DNA片段的家族的數(shù)目,以測定所述多個分析物DNA片段中第一分析物DN A片段與第二分析物DNA片段的相對濃度。
      【文檔編號】C12N15/11GK103748236SQ201280029284
      【公開日】2014年4月23日 申請日期:2012年4月12日 優(yōu)先權(quán)日:2011年4月15日
      【發(fā)明者】B·沃格爾斯坦, K·W·肯斯勒, N·帕帕佐普洛斯, I·金帝 申請人:約翰·霍普金斯大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1