專利名稱:無凝膠珠基測序的試劑、方法和文庫的制作方法
無凝膠珠基測序的試劑、方法和文庫
政府支持
本發(fā)明是在政府支持(NIH授予的資助號R01-HG-003570)下進(jìn)行的。政
府享有本發(fā)明的某些權(quán)利。
相關(guān)申請的交叉參考 本申請要求2006年4月19日提交的共待審美國臨時申請60/793,702的 權(quán)利和優(yōu)先權(quán),將其全文以引入的方式納入本文。本申請要求涉及2005年 2月1日提交的臨時申請USSN 60/649,294;2005年2月25日提交的USSN 60/656,599; 2005年4月21日提交的USSN 60/673,749, 、 2005年7月15 日提交的USSN 60/699,541和、2005年9月30日提交的USSN 60/722,526 和USSN 11/345,979的優(yōu)先權(quán)和權(quán)益,所有這些文獻(xiàn)以引入的方式納入本 文。
背景技術(shù):
核酸測序技術(shù)在從基礎(chǔ)研究到臨床診斷的各種領(lǐng)域中都非常重要。從 這種技術(shù)獲得的結(jié)果可包括不同程度的特異性信息。例如,有用信息可包 括確定具體多核苷酸的序列與參比多核苷酸是否不同,確認(rèn)樣品中是否 存在特定多核苷酸序列,確定部分序列信息如鑒定多核苷酸內(nèi)的一個或多 個核苷酸,測定多核苷酸內(nèi)核苷酸的種類和順序等。
DNA鏈一般是由四種類型的亞基組成的聚合物,這些亞基即含有腺嘌 呤(A)、胞嘧啶(C)、鳥嘌呤(G)和胸腺嘧啶(T)堿基的脫氧核苷酸。這些亞基 通過共價磷酸二酯鍵互相連接,該鍵將一個脫氧核糖基團(tuán)的5'碳與下一個 基團(tuán)的3'碳連接起來。大多數(shù)天然產(chǎn)生的DNA由兩條這種鏈組成,這兩條 鏈以反平行取向排列,通過互補(bǔ)堿基,即A和T以及G和C之間形成的氫 鍵連接在一起。隨著鏈終止或雙脫氧核苷酸法(Sanger等,Proc. Natl. Acad. Sci. 74:5463-5467, 1977)和化學(xué)降解法(Maxam和Gilbert, Proc. Natl. Acad. Sci. 74:560-564, 1977)的發(fā)展,可以進(jìn)行大規(guī)模DNA測序,其中前者已被廣泛 應(yīng)用、改進(jìn)和自動化。具體說,在開發(fā)自動DNA測序儀中使用熒光標(biāo)記的 鏈終止物非常重要。上述兩種方法的共同之處在于產(chǎn)生了大小不同的標(biāo)記 DNA片段的一種或多種聚集體,其必須隨后根據(jù)長度進(jìn)行分離以鑒定所述 片段3'端的核苷酸(鏈終止法)或最近從所述片段上切下的核苷酸(化學(xué)降解 法)。
雖然目前可用的測序技術(shù)已經(jīng)實現(xiàn)了重大進(jìn)展,如對許多完整基因組 進(jìn)行測序,但這些技術(shù)有許多缺點,并在許多方面還非常需要對其進(jìn)行改 進(jìn)。 一般用聚丙烯酰胺凝膠電泳分離標(biāo)記的DNA片段。然而,已證明此步 驟在許多情況下是限制測序的速度和準(zhǔn)確性的主要瓶頸。雖然證明毛細(xì)管 電泳(CAE)是能夠完成人類基因組計劃的突破口(Venter等,Science, 291:1304-1351, 2001; Lander等,Nature, 409:860-921, 2001),但仍然有 顯著的缺點。例如,CAE仍然需要耗時的分離步驟,并且仍然涉及根據(jù)大 小來區(qū)分,這可能是不準(zhǔn)確的。
已經(jīng)提出了鏈終止法的各種替代方法。在一種通常稱為"通過合成測 序"的方法中,寡核苷酸引物首先與靶模板雜交。然后通過聚合酶-催化加 入不同標(biāo)記的核苷酸的連續(xù)循環(huán)延伸引物,對所述核苷酸在生長的鏈中摻 入了進(jìn)行檢測。對標(biāo)記的鑒定用作對模板中互補(bǔ)核苷酸的鑒定?;蛘?,可 用每種核苷酸平行進(jìn)行多項反應(yīng),并在使用一種具體核苷酸的反應(yīng)中所標(biāo) 記核苷酸的摻入鑒定模板中的互補(bǔ)核苷酸。(參見例如,Melamede,美國專 利4,863,849; Cheeseman,美國專利5,302,509, Tsien等,國際申請WO 91/06678; Rosenthal等,國際申請WO 93/21340; Canard等,Gene, 148: 1-6 (1994); Metzker等,Nucleic Acids Research, 22: 4259-4267 (1994))。
為了對任何顯著長度的多核苷酸進(jìn)行有效測序,需要聚合酶在每個循 環(huán)中準(zhǔn)確地?fù)饺胍粋€核苷酸。因此,通常需要采用用作鏈終止物的核苷酸, 即其摻入防止聚合酶的進(jìn)一步延伸。然后,必須用酶學(xué)或化學(xué)方法修飾摻 入的核苷酸,以使聚合酶摻入下一個核苷酸。提出了可用作鏈終止物、但在其摻入后可被修飾從而使其在后續(xù)步驟中繼續(xù)延伸的各種核苷酸類似
物,。例如在美國專利5,302,509; 6,255,475; 6,309,836; 6,613,513中已經(jīng) 對這樣的"可逆終止物"進(jìn)行了描述,。然而,己證明難以鑒定可由聚合 酶高效摻入的可逆終止物,這可能是由于鑒于核苷酸很小,影響核苷酸用 作終止物的修飾也會影響其摻入生長的多核苷酸鏈。
其它測序方法包括焦磷酸鹽測序(pyrosequencing),該方法基于檢測 DNA聚合期間釋放的焦磷酸鹽(PPi)(參見例如,美國專利6,210,891和 6,258,568)。雖然不需要電泳分離,但焦磷酸鹽測序有大量仍然限制其廣泛 應(yīng)用的缺點(Franca等,Quarterly Reviews of Biophysics, 35(2): 169-200, 2002)。也提出了雜交測序作為替代方法(美國專利5,202,231; WO 99/60170; WO 00/56937; Drmanac等,Advances in Biochemical
Engineering/Biotechnology, 11:16-101, 2002),但也有許多缺點,包括在區(qū) 分高度相似序列時可能出錯。理論上,通過外切核酸酶的單分子測序是快 速測定長DNA分子序列的非常有效的方法,該方法包括標(biāo)記一條鏈上的每 個堿基,然后檢測樣品流中依次切下的3,末端核苷酸(Stephan等,J BioteehnoL, 86:255-267, 2001)。然而,在實現(xiàn)這種可能方法之前還有許多 技術(shù)障礙等待克服(Stephan等,2001)。
基于具體序列變化的診斷測試已可用于各種不同疾病。人們普遍認(rèn)為,
人類基因組的測序開創(chuàng)了個性化用藥的時代,其中治療(包括預(yù)防性治療) 會適應(yīng)患者的具體遺傳組成或或根據(jù)具體等位基因或突變的鑒定結(jié)果進(jìn)行 選擇。對快速和準(zhǔn)確測定病原體如HIV的序列變體的需要逐步增加。因此, 在不遠(yuǎn)的將來肯定更加需要準(zhǔn)確和快速的序列測定。因此,需要所有類型 的序列測定的改進(jìn)方法。
發(fā)明概述
本發(fā)明提供了不需要進(jìn)行片段分離,并在某些實施方式中也不需要采 用聚合酶的新型改進(jìn)測序方法。Macevicz的美國專利5,740,341和6,306,597 描述了發(fā)明背景中討論的方法的替代方法。該方法基于沿單鏈模板進(jìn)行雙 鏈體延伸的重復(fù)循環(huán)。在這些方法的優(yōu)選實施方式中,在每個循環(huán)中鑒定一個核苷酸。本發(fā)明改進(jìn)了這些方法。這些改進(jìn)能有效實施該方法,并且特別適合高通量測序。此外,本發(fā)明提供了用于序列測定的方法,該方法包括沿單鏈模板進(jìn)行雙鏈體延伸的重復(fù)循環(huán)但不包括在各循環(huán)中鑒定任何單個核苷酸。
在一個方面,本發(fā)明提供了基于沿單鏈模板進(jìn)行雙鏈體延伸、連接標(biāo)記的延伸探針和檢測標(biāo)記的連續(xù)循環(huán)進(jìn)行測序的改進(jìn)方法。通常,從通過起始寡核苷酸和模板形成的雙鏈體開始延伸。通過將寡核苷酸連接于起始寡核苷酸末端形成延伸的雙鏈體延伸起始寡核苷酸,然后延伸的雙鏈體通過連續(xù)連接循環(huán)重復(fù)延伸。各循環(huán)期間,通過鑒定順利連接在寡核苷酸探針上或與其相連的標(biāo)記鑒定模板中一個或多個核苷酸。也可在連接前,或者、此外,也可在連接后檢測新加探針的標(biāo)記。通常優(yōu)選在連接后檢測該標(biāo)記。
在優(yōu)選實施方式中,探針的末端位置(探針上與生長的雙鏈體核酸鏈連接的核苷酸的相對末端)中具有不可延伸部分,以便在單個循環(huán)中僅發(fā)生延伸雙鏈體的單個延伸。"不可延伸"指該部分未經(jīng)修飾不可用作連接酶底
物。例如,該部分可以是缺少5'磷酸或3'羥基的核苷酸殘基。該部分可以是連接有防止連接的封端基團(tuán)的核苷酸。在本發(fā)明優(yōu)選實施方式中,連接后去除不可延伸的部分以再生可延伸末端,以便使雙鏈體可在后續(xù)循環(huán)中進(jìn)一步延伸。
為了能夠去除不可延伸部分,在本發(fā)明的某些實施方式中,探針含有至少一個可在基本不切割磷酸二酯鍵的條件下切割的核苷間連接。本文中
將這種連接稱為"易切割的核苷間連接"或"易切連接"。切割易切割的核苷間連接能去除不可延伸部分,并再生可延伸的探針末端或留下修飾形成可延伸探針末端的末端殘基。易切割的核苷間連接可位于探針中任意兩個核苷之間。優(yōu)選地,易切連接與新形成鍵相距至少幾個核苷酸(即遠(yuǎn)端)。延伸探針中連接于可延伸末端的末端核苷酸和易切連接之間的核苷酸不需要與模板完全雜交。這些核苷酸可用作"間隔物"并用于鑒定位于模板間隔處的核苷酸,而不對該間隔內(nèi)的每個核苷酸進(jìn)行一個循環(huán)。
優(yōu)選地,易切割的核苷間連接和標(biāo)記的定位應(yīng)使得易切割的核苷間連接的切割能夠?qū)⒀由焯结樂蛛x成標(biāo)記部分和保持為生長的核酸鏈一部分的部分,從而使得標(biāo)記部分?jǐn)U散開(如通過提高溫度)。例如,該標(biāo)記可在連接核苷酸的相對末端連接于延伸探針的末端核苷酸?;蛘?,可用任何其它方法去除該標(biāo)記。
本發(fā)明者發(fā)現(xiàn),磷酸二酯鍵中橋接氧原子之一被硫原子取代的硫代磷酸酯連接是特別有利的易切割的核苷間連接。硫代磷酸酯連接中的硫原子可連接于一個核苷的3'碳或相鄰核苷的5'碳。
在上述方法的某些實施方式中,進(jìn)行了許多測序反應(yīng)。這些反應(yīng)使用與模板的不同序列雜交的起始寡核苷酸,從而使得最初連接所發(fā)生的末端位于模板的不同位置上。例如,發(fā)生最初連接的位置可以通過增加1個核苷酸而移位,或互相"移相"。因此,用相同長度的寡核苷酸探針延伸的每個循環(huán)之后,不同模板上起始寡核苷酸的末端之間存在相同的相對相??稍诟髯院邢嗤0宓目截惖莫?dú)立容器中平行進(jìn)行反應(yīng),或連續(xù)進(jìn)行反應(yīng),即用初始起始寡核苷酸獲得序列信息后去除模板上的延伸雙鏈體,然后用雜交于該模板的不同序列的起始寡核苷酸進(jìn)行其它反應(yīng)。在另一方面,本發(fā)明提供了可用于各種核酸操作的溶液。在一種實施
方式中,本發(fā)明提供了含有或主要由1.0-3.0% SDS、 100-300 mMNaCl和5-15 mM硫酸氫鈉(NaHS04)的水溶液組成的溶液。該溶液可含有或主要由約2。/。SDS、約200mMNaCl和約10 mM硫酸氫鈉(NaHSO4)的水溶液組成。例如,在一種實施方式中,該溶液含有2。/。SDS、 200mMNaCl和10mM硫酸氫鈉(NaHS04)的水溶液。在另一實施方式中,該溶液主要由2n/。SDS、200 mMNaCl和10 mM硫酸氫鈉(NaHS04)的水溶液組成。在某些實施方式中,該溶液的pH為2.0-3.0,如2.5。該溶液可用于將雙鏈核酸,如雙鏈DNA分離成單鏈,即使雙鏈核酸變性(解鏈)。在某些實施方式中,兩條鏈都是DNA。在其它實施方式中,兩條鏈都是RNA。在其它實施方式中, 一條鏈?zhǔn)荄NA,另一條鏈?zhǔn)荝NA。在其它實施方式中, 一或兩條鏈同時含有RNA和DNA。在其它實施方式中, 一或兩條鏈含有至少一個除A、 G、 C或T以外的核苷酸。在一些實施方式中, 一或兩條鏈含有非天然產(chǎn)生的核苷酸。在其它實施方式中, 一個或兩個殘基是引發(fā)殘基,如脫堿基殘基或損壞的堿基。在一些實施方式中, 一個或多個殘基含有通用堿基。在一些實施方式中, 一或兩條鏈含有易切連接。
雙鏈核酸可以是完全或部分雙鏈。它們可以是溶液中的游離分子,或者一或兩條鏈可以與固體或半固體支持物或基材物理相連(如共價或非共價連接)。特別注意的是,在這些溶液中孵育的雙鏈核酸在不用加熱或不存在強(qiáng)變性劑的情況下有效分離成單鏈,加熱或強(qiáng)變性劑會引起凝膠分層(如核酸位于或連接于半固體支持物如聚丙烯酰胺凝膠時)或可破壞非共價連接如鏈霉親和素(SA)-生物素連接(如核酸通過SA-生物素連接連接于支持
物或基材時)。在一種實施方式中,用該溶液分離其中一條核酸通過SA-生
物素連接與小珠連接的雙鏈核酸。
本發(fā)明也提供了分離雙鏈核酸的鏈的方法,所述方法包括以下步驟
將雙鏈核酸與任何上述溶液接觸,如含有約1.0-3.0% SDS、約100-300 mMNaCl和約5-15 mM硫酸氫鈉(NaHS04),如含有1.0-3.0% SDS、 100-300 mMNaCl和5-15mM硫酸氫鈉(NaHS(X0的水溶液。在一種實施方式中,該溶液含有約2%SDS、 200 mM NaCl和10 mM硫酸氫鈉(NaHS04),如2% SDS、200 mM NaCl和10 mM硫酸氫鈉(NaHS04)。在另一實施方式中,該溶液主要由2%SDS、 200mMNaCl和10 mM硫酸氫鈉(NaHS04)的水溶液組成。在某些實施方式中,該溶液的pH為2.0-3.0,如2.5。在一些實施方式中,在該溶液中孵育雙鏈核酸。在其它實施方式中,用該溶液洗滌雙鏈核酸(優(yōu)選連接于支持物或基材的核酸)。在一些實施方式中,將雙鏈核酸與該溶液接觸足夠時間以將至少10%雙鏈核酸分子分離成單鏈。在一些實施方式中,將雙鏈核酸與該溶液接觸足夠時間以將至少20%、 30%、 40%、 50%、 60%、70%、 80%、 90%、 95%、 98%、 99%或更多的雙鏈核酸分離成單鏈。在示范性實施方式中,將雙鏈核酸與該溶液接觸15秒-3小時。在另一實施方式中,將雙鏈核酸與該溶液接觸l分鐘-l小時。在某些實施方式中,將雙鏈核酸與該溶液接觸約1、 2、 3、 4、 5、 10、 15、 20、 25、 30、 35、 40、 45、50、 55或60分鐘。該方法還可包括孵育一段時間后去除溶液或從溶液中去除一些或全部核酸的步驟。
該溶液可用于本文所述許多測序方法的一個或多個步驟,并可用于這些方法中的任何一種。例如,可用該溶液從模板上分離延伸的雙鏈體。可在切割易切連接后用該溶液去除不再連接于延伸雙鏈體的延伸探針部分。也可用該溶液分離三鏈核酸的鏈或分離含有互相雜交的自身互補(bǔ)部分的單鏈核酸的雙鏈區(qū)。
在另一方面,本發(fā)明提供了使用至少兩種可區(qū)分標(biāo)記的寡核苷酸探針
家族的集合用于獲得序列信息的方法。探針家族中的探針含有不限定部分
和限定部分。如上述方法中所述,從起始寡核苷酸和模板形成的雙鏈體開
始延伸。通過將寡核苷酸探針與其末端連接形成延伸雙鏈體延伸起始寡核
苷酸,然后通過連續(xù)連接循環(huán)重復(fù)延伸。該探針的末端位置(探針上連接于
雙鏈體的生長的核酸鏈的核苷酸的相對末端)中含有不可延伸的部分,以便在單個循環(huán)中延伸雙鏈體僅發(fā)生一次延伸。每個循環(huán)期間,檢測順利連接
的探針上或與其連接的標(biāo)記,去除或修飾不可延伸部分以產(chǎn)生可延伸末端。該標(biāo)記對應(yīng)于該探針?biāo)鶎俚奶结樇易濉?br>
連續(xù)的延伸、連接和檢測循環(huán)產(chǎn)生連續(xù)順利連接的探針?biāo)鶎偬结樇易宓挠行蛄斜怼S锰结樇易宓挠行蛄斜慝@得序列信息。然而,了解新連接的探針屬于哪個探針家族本身不足以確定模板中的核苷酸種類。相反,了解新連接的探針屬于哪個探針家族能排除某些序列成為該探針限定部分序列的可能,但各位置上至少留下兩種可能的核苷酸種類。因此,模板中位于新連接探針的限定部分的核苷酸的相對位置上的核苷酸種類至少有兩種可能性(即與探針限定部分的核苷酸互補(bǔ)的核苷酸)。
在某些實施方式中,進(jìn)行所需循環(huán)數(shù)之后,用探針家族種類的有序列表產(chǎn)生一組候選序列。這組候選序列可為達(dá)到目標(biāo)提供足夠的信息。在本發(fā)明的優(yōu)選實施方式中,進(jìn)行一個或多個額外步驟,以從候選序列中選擇正確序列。例如,可將該序列與已知序列的數(shù)據(jù)庫進(jìn)行比較,與數(shù)據(jù)庫中序列之一最接近的候選序列被選作正確序列。在其它實施方式中,用探針家族的差異編碼組通過連續(xù)的延伸、連接、檢測和切割循環(huán)對該模板進(jìn)行另一輪測序,并用第二輪獲得的信息選擇正確的序列。在其它實施方式中,將至少一項信息與獲自探針家族的有序列表的信息合并,以確定該序列。
本發(fā)明也提供了用探針家族進(jìn)行測序時進(jìn)行差錯檢查的方法。某些方法能區(qū)分單核苷酸多態(tài)性(SNP)和測序差錯。
本發(fā)明也提供了含有至少兩個感興趣節(jié)段(如至少兩個標(biāo)簽)和至少三
個引物結(jié)合區(qū)(PBR)的核酸片段(如DNA片段),以便從各片段擴(kuò)增出至少
兩種不同模板,各自對應(yīng)于一個感興趣節(jié)段。"引物結(jié)合區(qū)"是寡核苷酸可雜交的核酸部分,從而使得該寡核苷酸可用作擴(kuò)增引物、測序引物、起始寡核苷酸等。因此,引物結(jié)合區(qū)應(yīng)具有已知序列,以選擇適當(dāng)?shù)幕パa(bǔ)寡核苷酸。如本文和附圖所用,用于本發(fā)明方法的核酸鏈的一部分可稱為引物結(jié)合區(qū),無論在本發(fā)明方法實施中引物確實結(jié)合于該區(qū)域或是結(jié)合于核酸鏈的互補(bǔ)鏈的對應(yīng)部分。因此,在用于本發(fā)明所述方法中時,核酸的一部分可稱為引物結(jié)合區(qū),無論引物確實結(jié)合于該區(qū)域(在這種情況下引物的序列與該區(qū)域的序列互補(bǔ)或基本互補(bǔ))或是結(jié)合于該區(qū)域的互補(bǔ)區(qū)(在這種情況下引物的序列與該區(qū)域的序列相同或基本相同)。感興趣節(jié)段是需要其序列信息的任何核酸節(jié)段。例如,感興趣序列可以是標(biāo)簽,出于本公開目的,可假定感興趣節(jié)段是標(biāo)簽(本文中和其它地方也稱為"末端標(biāo)簽")。然而應(yīng)理解,本發(fā)明不限于作為標(biāo)簽的感興趣節(jié)段。在某些實施方式中,至少兩個標(biāo)簽是成對標(biāo)簽。核酸片段可含有一對或多對標(biāo)簽,如一對或多對
成對標(biāo)簽,如2、 3、 4、 5或更多對成對標(biāo)簽。本發(fā)明還提供了含有這種核酸片段的文庫,以及制備模板和文庫的方法。
本發(fā)明還提供了微粒,如連接有至少兩種不同的核酸群的珠,其中所述至少兩種核酸群各自由多種基本相同的核酸組成,并且其中所述核酸群通過擴(kuò)增(如PCR擴(kuò)增)單個核酸片段產(chǎn)生。在一些實施方式中,所述單個核酸片段含有5,標(biāo)簽和3'標(biāo)簽,其中5'和3'標(biāo)簽是成對標(biāo)簽。在其中所述單個核酸片段含有一對5'標(biāo)簽和3'標(biāo)簽的一些實施方式中,連接于所述微粒的核酸群之一包括5'標(biāo)簽的至少一部分,并且連接于所述微粒的核酸群之一包括3'標(biāo)簽的至少一部分。在優(yōu)選實施方式中,核酸群之一包括完整的5'標(biāo)簽,并且核酸群之一包括完整的3'標(biāo)簽。
核酸片段含有多個PBR,其中至少一個位于標(biāo)簽之間,并且其中至少兩個側(cè)接于含有標(biāo)簽的核酸片段部分,從而使得能夠?qū)?'標(biāo)簽的至少一部分的區(qū)域進(jìn)行擴(kuò)增,并能夠?qū)?'標(biāo)簽的至少一部分的區(qū)域進(jìn)行擴(kuò)增,以產(chǎn)生兩種不同的核酸群。在優(yōu)選實施方式中,可擴(kuò)增完整的5,標(biāo)簽和完整的3'標(biāo)簽。例如,所述核酸片段可含有側(cè)接于5,標(biāo)簽的第一和第二
引物結(jié)合位點,以及側(cè)接于3,標(biāo)簽的第三和第四引物結(jié)合位點。用結(jié)合于第一和第二引物結(jié)合位點的引物進(jìn)行PCR擴(kuò)增擴(kuò)增5'標(biāo)簽。用結(jié)合于第三和第四引物結(jié)合位點的引物進(jìn)行PCR擴(kuò)增擴(kuò)增3'標(biāo)簽。應(yīng)理解,應(yīng)選擇引物,以便從各引物向含有待擴(kuò)增標(biāo)簽的DNA片段區(qū)域進(jìn)行延伸?;蛘撸谝灰锝Y(jié)合位點可位于所述標(biāo)簽之一的上游,并且第二引物結(jié)合位點可位于另一標(biāo)簽的下游,并且第三引物結(jié)合位點可位于所述兩標(biāo)簽之間。第三引物結(jié)合位點用作PCR擴(kuò)增的正向引物的結(jié)合位點,以擴(kuò)增一個標(biāo)簽,并用作PCR擴(kuò)增的逆向引物的結(jié)合位點,以擴(kuò)增另一標(biāo)簽。因此,在本發(fā)明一種實施方式中提供了微粒,如連接有至少兩種不同的核酸群的珠,其中所述至少兩種核酸群各自由多種基本相同的核酸組成,并且其中第一種不同的核酸群包括5'標(biāo)簽,第二種不同的核酸群包括3'標(biāo)簽。
本發(fā)明還提供了微粒群,如其中各個微粒連接有至少兩種不同的核酸群的珠,其中所述至少兩種核酸群各自由多種基本相同的核酸組成,其中所述核酸群通過擴(kuò)增(如PCR擴(kuò)增)單個核酸片段產(chǎn)生?;鞠嗤暮怂崛嚎梢允?例如)5,標(biāo)簽和3,標(biāo)簽。本發(fā)明還提供了這種微粒的陣列和測序方法,該方法包括對基本相同的核酸群進(jìn)行測序。例如,在一種實施方式中,連接于單個微粒的這兩種基本相同的核酸群各自包括不同引物結(jié)合區(qū)(PBR),從而通過使用不同的測序引物,可在沒有其它群體干擾的情況下對一個群體進(jìn)行測序。如果將基本相同的核酸的兩種以上基本相同的群體連接于一個微粒,每個群體可具有獨(dú)特(即不同)的PBR,從而使得結(jié)合特定PBR的引物不結(jié)合連接于該微粒的其它基本相同核酸群中存在的PBR。因此,本發(fā)明方法能夠產(chǎn)生連接有至少兩種不同的基本相同的核酸群的微粒(如含有5'標(biāo)簽的模板的多個拷貝和含有3'標(biāo)簽的模板的多個拷貝),其中所述標(biāo)簽是成對標(biāo)簽。按照本發(fā)明方法,所述模板含有不同PBR,它們?yōu)闇y序引物提供結(jié)合位點。因此,通過選擇與含有5,標(biāo)簽的模板中PBR互補(bǔ)的測序引物,可從5,標(biāo)簽獲得序列信息,而不受含有3'標(biāo)簽的模板的干擾,即使同一微粒上也存在含有3'標(biāo)簽的模板。通過選擇與含有3'標(biāo)簽的模板中PBR互補(bǔ)的測序引物,可從3'標(biāo)簽獲得序列信息,而不受含有5,標(biāo)簽的
模板的干擾,即使同一微粒上也存在含有5'標(biāo)簽的模板。兩個成對標(biāo)簽存在于同一微粒上時,意味著5'和3,成對標(biāo)簽的序列可互相連接,正如它們
存在于單個模板時那樣。
也提供了連接于基材的微粒陣列。在一個實施方式中,微粒通過單鏈模板系鏈連接于基材,即該單鏈模板一端連接于微粒,另一端連接于基材。某一端或兩端的連接方式可以是共價或非共價連接。在某些實施方式中,任一連接方式或兩個連接方式是生物素結(jié)合部分和生物素。
也提供了含有核酸集落的陣列,該核酸集落是通過拷貝連接于微粒的模板和任選地擴(kuò)增該拷貝的模板產(chǎn)生的。也提供了封閉寡核苷酸和其使用方法,以及含有封閉寡核苷酸的組合物。
本發(fā)明也提供了可用于(例如)對在基本平坦的支持物中或上排列的模板進(jìn)行測序的自動化測序系統(tǒng)。本發(fā)明還提供了一種圖像處理方法,它們
可儲存于計算機(jī)可讀介質(zhì)如硬盤、CD、 zip盤、閃存等中。在某些優(yōu)選實施方式中,該系統(tǒng)每秒實現(xiàn)40,000個或更多核苷酸的鑒定。在某些優(yōu)選實施方式中,該系統(tǒng)每天(24小時)產(chǎn)生8.6千兆(Gb)序列數(shù)據(jù)或更多。在某些實施方式中,該系統(tǒng)每天產(chǎn)生48 Gb序列信息(核苷酸鑒定)或更多。
本發(fā)明也提供了儲存應(yīng)用本發(fā)明測序方法產(chǎn)生的信息的計算機(jī)可讀介質(zhì)。所述信息可以儲存于數(shù)據(jù)庫中。
本申請書參考了各種專利、專利申請、期刊文獻(xiàn)和其它發(fā)表物,它們都以引入的方式納入本文。此外,將以下標(biāo)準(zhǔn)參考書以引入的方式納入本文《新編分子生物學(xué)實驗指南》(Current Protocols in Molecular Biology),John Wiley & Sons,紐約,2002年7月編;Sambrook, Russell,和Sambrook,《分子克隆實驗室手冊》(Molecular Cloning: A Laboratory Manual),第三版,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 2001。在本說明書與納入作參考的任何文獻(xiàn)有矛盾時,應(yīng)以本說明書為準(zhǔn),應(yīng)理解,本發(fā)明者能夠在任何時間判斷是否存在矛盾或不一致。
附圖簡要說明請注意,
圖1-35中許多附圖在USSN 11/345,979中是彩色附圖,將這些附圖以引入的方式納入本文,并可用于替換本文提供的附圖。
圖1A是啟動后接兩個延伸、連接和鑒定循環(huán)的示意圖。
圖1B是從模板的游離端向支持物的向內(nèi)延伸的實施方式中啟動后接兩個延伸、連接和鑒定循環(huán)的示意圖。
圖2顯示了寡核苷酸探針的顏色分配方案,其中通過鑒定熒光團(tuán)的顏色確定探針的3'堿基種類。
圖3A顯示了起始寡核苷酸雜交于模板結(jié)合區(qū)的不同位置上然后連接延伸探針形成延伸雙鏈體的示意圖。
圖3B顯示了用設(shè)計在模板分子上每6個堿基讀出一次的延伸探針以延伸、連接和切割法組裝連續(xù)序列的示意圖。
圖4A顯示了 5,-S-硫代磷酸酯連接(3,-0-P-S-5')。
圖4B顯示了 3'-S-硫代磷酸酯連接(3,-S-P-0-5,)。
圖5A顯示了用含有3'-0-P-S-5'硫代磷酸酯連接的延伸探針用于5'—3'方向測序的一個延伸、連接和切割循環(huán)的示意圖。
圖5B顯示了用含有3,-0-P-S-5'硫代磷酸酯連接的延伸探針用于3'—5'方向測序的一個延伸、連接和切割循環(huán)的示意圖。
圖6A-6F是在單個模板上進(jìn)行幾個測序反應(yīng)的更詳細(xì)的示意圖。這些反應(yīng)利用結(jié)合于模板不同部分的起始寡核苷酸。
圖7是顯示了 dA和dG的3'-亞磷酰胺的合成方案示意圖。
圖8A-8E是顯示順利連接和切割含有硫代磷酸酯連接的延伸探針的兩個循環(huán)的凝膠移位試驗結(jié)果。
圖8F顯示了 DNA連接酶的連接機(jī)制的示意圖。
圖9是顯示含肌苷的簡并寡核苷酸探針的連接效率的凝膠移位試驗結(jié)果。
圖10是顯示含肌苷的簡并寡核苷酸探針在多種底物上的連接效率的凝膠移位試驗結(jié)果。
圖11顯示了評價兩種DNA連接酶(T4 DNA連接酶和Tag DNA連接酶)各自在3,—5,延伸上的保守性的分析結(jié)果。圖12是用于評價T4 DNA連接酶在連接寡核苷酸探針中保守性的顯示含肌苷的簡并寡核苷酸探針的連接效率的凝膠移位試驗結(jié)果(A)和連接反應(yīng)的直接測序分析結(jié)果(B)。將結(jié)果制表形成圖C-F。
圖13A-13C顯示了當(dāng)基于珠的模板包埋在玻片上聚丙烯酰胺凝膠中時在凝膠中進(jìn)行連接的實驗結(jié)果。圖13A顯示了連接反應(yīng)方案。在存在(B)和不存在(C)T4 DNA連接酶時在凝膠中進(jìn)行連接反應(yīng)。
圖14A顯示了用熒光標(biāo)記的第二擴(kuò)增引物和過量模板在連接有第一擴(kuò)增引物的珠上進(jìn)行乳液PCR反應(yīng)的圖像。
圖14B(上)顯示了連有與Cy3-標(biāo)記寡核苷酸雜交的模板的珠固定在聚丙烯酰胺凝膠內(nèi)的部分玻片的熒光圖像。(此玻片用于不同實驗,但本文所用玻片具有代表性)。圖14B(下)顯示了裝有Teflon掩模以封閉聚丙烯酰胺溶液的玻片的示意圖。
圖15顯示了經(jīng)設(shè)計能解決探針特異性和選擇性問題的三組標(biāo)記的寡核苷酸探針,也顯示了一組四種可光譜分辨的標(biāo)記的激發(fā)和發(fā)射值。
圖16顯示了確認(rèn)寡核苷酸探針的4色光譜特性的實驗結(jié)果。用含有四種獨(dú)特?zé)晒鈭F(tuán)探針的寡核苷酸探針混合物在含有四種獨(dú)特的單鏈模板群(A)的玻片上進(jìn)行雜交和連接反應(yīng),在連接前和連接后在亮光下成像(B),并用四種帶通濾光片熒光激發(fā)成像。單個群體顯示假色(C)。在(D)中對顯示最小信號重疊的光譜特性作圖。
圖17顯示了確認(rèn)寡核苷酸延伸探針的連接特異性的實驗。圖17(A)顯示了連接的示意圖。圖17(B)是亮光圖像,圖17(C)是包埋在聚丙烯酰胺凝膠中的珠群連接后的相應(yīng)熒光圖像。圖17(D)顯示了在連接前或連接后從各標(biāo)記檢測到的熒光。
圖18顯示了確認(rèn)寡核苷酸延伸探針的連接特異性和選擇性的另一實驗。圖18(A)顯示了連接的示意圖。圖18(B)是亮光圖像,圖18(C)是包埋在聚丙烯酰胺凝膠中的珠群連接后的相應(yīng)熒光圖像。圖18(D)顯示了預(yù)計與觀察到的連接頻率,顯示出根據(jù)具體延伸探針在群體中的比例預(yù)測的頻率和觀察到的頻率高度相關(guān)。
圖19顯示了確認(rèn)含有簡并和通用堿基的寡核苷酸延伸探針庫可用于在凝膠中提供特異性和選擇性連接的實驗。圖19(A)顯示了連接實驗的示意 圖,說明了連接后四種差別標(biāo)記的含肌苷的簡并探針庫。圖19(B)是亮光圖
像,圖19(C)是包埋在聚丙烯酰胺凝膠中的珠群連接后的相應(yīng)熒光圖像。圖 19(D)顯示了預(yù)計與觀察到的連接頻率,顯示出根據(jù)具體延伸探針在群體中 的比例預(yù)測的頻率和觀察到的頻率高度相關(guān)。圖19(E)顯示了原始未處理數(shù) 據(jù)和代表前90%珠信號值的過濾數(shù)據(jù)的散點圖。
圖20是顯示起始寡核苷酸(引物)與模板的連續(xù)雜交剝離循環(huán)中檢測的 信號的柱狀圖。如圖所示,超過IO個循環(huán)發(fā)生少量信號損失。
圖21是可用于(例如)從排列于基本平坦的支持物中或之上的模板中收 集序列信息的自動化測序系統(tǒng)的照片。也顯示了控制該系統(tǒng)各組件運(yùn)行、 處理和儲存收集的圖像數(shù)據(jù)、提供用戶界面等的專用計算機(jī)。圖的下半部 分顯示了用于實現(xiàn)比重氣泡置換的流動室的放大圖。
圖22顯示了高通量自動測序裝置示意圖,該裝置可用于測定排列于基 本平坦的支持物中或之上的模板序列。
圖23顯示了不一致比對的散點圖,它說明30幀中不一致的很少。
圖24A-I顯示了本發(fā)明流動室或其部分的各種不同視圖的示意圖。
圖25A顯示了優(yōu)選探針家族集合的示范性編碼,該集合包括含有長度 為2個核苷酸的限定部分的部分限定探針。
圖25B顯示了優(yōu)選的探針家族集合(上圖)和連接、檢測和切割循環(huán)(下圖)。
圖26顯示了另一優(yōu)選探針家族集合的示范性編碼,該集合包括含有長 度為2個核苷酸的限定部分的部分限定探針。
圖27A-27C代表了以圖解確定表1定義的24個優(yōu)選探針家族集合的另 一方法。
圖28顯示了較不優(yōu)選的探針家族集合,其中探針含有長度為2個核苷 酸的限定部分。
圖29A顯示了可用于產(chǎn)生探針家族集合的限定部分的圖表,所述集合 包括含有長度為3個核苷酸的限定部分的探針。
圖29B顯示了可用于從24個優(yōu)選探針家族集合中產(chǎn)生探針家族集合的限定部分的作圖方案圖表,所述集合包括含有長度為3個核苷酸的限定部 分的探針。
圖30顯示了用探針家族集合進(jìn)行序列測定的方法。描述了采用優(yōu)選探 針家族組的一種實施方式。
圖31A-31C顯示用第一探針家族集合產(chǎn)生候選序列、并用第二探針家 族集合解碼,從而進(jìn)行序列測定的方法。
圖32顯示用較不優(yōu)選的探針家族組合進(jìn)行序列測定的方法。
圖33A顯示連接有珠的玻片的示意圖。DNA模板連接于珠。
圖33B顯示連接于玻片的珠群。下圖顯示白光(左)和熒光顯微鏡下的 相同玻片區(qū)域。上圖顯示珠密度范圍。
圖34A-34C顯示了核酸片段(模板)中存在的成對標(biāo)簽的兩個標(biāo)簽以單 個核酸群體的方式進(jìn)行擴(kuò)增和通過擴(kuò)增方法將它們捕獲到微粒上的方案。
圖35A和35B顯示了圖35方案的引物設(shè)計和擴(kuò)增的詳細(xì)情況。出于 清晰目的顯示了核酸片段(模板)的兩條鏈。以同一顏色表示具有相同序列的 引物和引物結(jié)合區(qū)。例如,用深藍(lán)色表示P1,表示微粒上和溶液中存在的 引物P1的序列與所示模板鏈的相應(yīng)彩色部分相同。模板的深藍(lán)色區(qū)域(標(biāo) 記的P1)可稱為引物結(jié)合區(qū),盡管對應(yīng)的引物(P1)實際上結(jié)合于另一條鏈 的互補(bǔ)部分并與引物P1序列相同。
圖35C和35D分別顯示了連接于用圖35A和35B所示方法產(chǎn)生的微 粒的第一和第二標(biāo)簽的測序。
圖36A顯示了來自配對末端文庫的模板分子,顯示封閉寡核苷酸能與 該模板的正向銜接子、逆向銜接子和內(nèi)部銜接子部分雜交,這些部分是該 文庫成員共有的。該圖下方顯示銜接子和封閉寡核苷酸的示范性序列。圖 36A-36C的"ddBase"表示雙脫氧核苷。"獨(dú)特DNA序列"代表待測序靶區(qū)域。
圖36B顯示了來自片段文庫的模板分子,顯示封閉寡核苷酸能與該模 板分子的正向銜接子、逆向銜接子和內(nèi)部銜接子部分雜交,這些部分是該 文庫成員共有的。該圖下方顯示銜接子和互補(bǔ)封閉寡核苷酸的示范性序列。
圖36C顯示了來自模板分子進(jìn)行滾環(huán)擴(kuò)增(RCA)的文庫的分子。RCA 產(chǎn)生多個拷貝的模板分子獨(dú)特部分(2)以及銜接子區(qū)(1)和扣鎖區(qū)(3)。該圖顯示與模板的銜接子和扣鎖部分雜交的封閉寡核苷酸,這些部分是該文庫成 員共有的。
圖37顯示幾個扣鎖探針序列和用RCA合成模板分子后將封閉該扣鎖 區(qū)的寡核苷酸的示范性序列。
圖38顯示不用半固體介質(zhì)在基材上產(chǎn)生的微粒陣列(無凝膠微粒陣列)。
圖39顯示用無凝膠微粒陣列進(jìn)行基于連接的測序的結(jié)果。 圖40顯示位于表面的微粒的示意圖,并說明接觸片(contactpatch)和模 板延伸產(chǎn)生的核酸集落的預(yù)計大小。
定義
為了易于理解本說明書,提供以下定義。應(yīng)理解,通常,沒有特別定 義的術(shù)語被賦予通常含義或本領(lǐng)域通常接受的含義。
本文所用的"脫堿基殘基"是具有去除含氮堿基或去除含氮堿基的重 要部分以使得到的分子不再參與核苷或核苷酸的氫鍵特征后,保留的核苷 或核苷酸部分結(jié)構(gòu)的殘基??赏ㄟ^從核苷或核苷酸去除含氮堿基產(chǎn)生脫堿 基殘基。然而,術(shù)語"脫堿基"用于指殘基的結(jié)構(gòu)特征,不依賴產(chǎn)生殘基 的方式。本文所用術(shù)語"脫堿基殘基"和"脫堿基位點"指核酸中缺少嘌 呤或嘧啶堿基的殘基。
本文所用的"脫嘌呤/脫嘧啶(AP)核酸內(nèi)切酶"指在多核苷酸中切割脫 堿基殘基的5,側(cè)、3'側(cè)或5'和3'側(cè)的鍵的酶。在本發(fā)明的某些實施方式中, AP核酸內(nèi)切酶是AP裂解酶。AP核酸內(nèi)切酶的例子包括但不限于大腸桿 菌(£. co/z)核酸內(nèi)切酶vm及其同源物,大腸桿菌核酸內(nèi)切酶III及其同源 物。應(yīng)理解,提到特定酶,如核酸內(nèi)切酶如大腸桿菌Endo VIII、 EndoV等 時,也旨在包括本領(lǐng)域認(rèn)為是同源物并且在去除損傷堿基和/或切割含有脫 堿基殘基或其它引發(fā)殘基的DNA方面具有相似生化活性的得自其它物種 的同源物。
本文所用術(shù)語"陣列"指分布于支持物基材上或之中的實體集合;單 個實體之間優(yōu)選間隔足夠距離,以用各種技術(shù)鑒定該陣列的離散特征。實體可以是(例如)核酸分子,核酸分子克隆群,微粒(任選地連接有核酸分子 克隆群體)等。用作動詞時,術(shù)語"陣列"和其變化形式指形成陣列的任何 方法,如將實體分布到支持物基材上或之中。
"損傷堿基"是與A、 G、 C或T不同的嘌呤或嘧啶堿基,使其成為通
過DNA糖基化酶從DNA上去除的底物。尿嘧啶被認(rèn)為是可用于本發(fā)明的 損傷堿基。在本發(fā)明的一些實施方式中,損傷堿基是次黃嘌呤。
提到多核苷酸群體的一個多核苷酸中的某位置時,"簡并"指在群體 的不同成員之間形成占據(jù)該位置的核苷部分的堿基種類不同。因此,該群 體含有在簡并位置上序列不同的單個成員。術(shù)語"位置"指通常相對于5,
或3'端、分配給多核苷酸中各核苷的數(shù)值。例如,可將延伸探針3'端的核 苷指定為位置l。因此,在3'-XXXNXXXX-5'結(jié)構(gòu)的延伸探針庫中,N位 于位置4。如果在該庫的不同成員中,N的種類可以變化,則位置4被認(rèn)為 是簡并位置。也稱延伸探針庫在位置N上簡并。如果一個位置可被k種不 同種類的核苷占據(jù),則稱該位置為k倍簡并。例如,可由含兩種不同堿基 的核苷占據(jù)的位置是2倍簡并。
"測定序列信息"包括"序列測定",也包括其它水平的信息,如消 除序列的一種或多種可能性。應(yīng)注意,對多核苷酸進(jìn)行序列測定通常產(chǎn)生 對于完全互補(bǔ)(100%互補(bǔ))的多核苷酸的等價信息,因此等效于直接對完全 互補(bǔ)多核苷酸進(jìn)行的序列測定。
提到多種元件,如寡核苷酸探針分子或其部分中的核苷時,"獨(dú)立" 指各元件的種類不限制或受限于任何其它元件的種類,如各元件種類的選 擇與任何其它元件的種類無關(guān)。因此,了解一種或多種元件的種類不能提 供關(guān)于任何其它元件種類的任何信息。例如,如果各N的種類可以是A、 G、 C或T,與其它N的種類無關(guān),那么序列NNNN中的核苷是獨(dú)立的。
"連接"指在模板驅(qū)動的反應(yīng)中在兩個或多個核酸如寡核苷酸和/或多 核苷酸的末端之間形成共價鍵或連接。鍵或連接的本質(zhì)可以大不相同,并 且連接可以以酶學(xué)或化學(xué)方式進(jìn)行。
本文所用術(shù)語"微粒"指具有最小截面尺寸為50微米或更小,優(yōu)選 IO微米或更小的顆粒。在某些實施方式中,最小截面尺寸約為3微米或更小,約為l微米或更小,約為0.5微米或更小,如約O.l、 0.2、 0.3或0.4
微米。微??捎筛鞣N無機(jī)或有機(jī)物制成,包括但不限于玻璃(如孔徑控制 玻璃)、二氧化硅、氧化鋯、交聯(lián)的聚苯乙烯、聚丙烯酸、聚甲基甲基丙烯 酸、二氧化鈦、膠乳、聚苯乙烯等。各種合適的材料和其它考慮參見例如, 美國專利6,406,848。獲自Dynal,挪威奧斯陸的Dyna珠是可用于本發(fā)明的 市售微粒的例子??刹捎么判苑磻?yīng)微粒。某種優(yōu)選微粒的磁性反應(yīng)性有利 于在擴(kuò)增后收集和濃縮連接微粒的模板,并有利于其它步驟(如洗滌、去除 試劑等)。在本發(fā)明的某些實施方式中,采用具有不同形狀(如有些是球形且 其他是非球形的)的微粒群。
本文所用術(shù)語"微球"或"珠"指直徑為50微米或更小、優(yōu)選10微 米或更小的基本呈球形的微粒。在某些實施方式中,直徑約為3微米或更 小,約為l微米或更小,約為0.5微米或更小,如約為O.l、 0.2、 0.3或0.4 微米。在本發(fā)明的某些實施方式中,采用單分散性微球群體,即微球的大 小基本一致。例如,微粒直徑的變異系數(shù)可小于5%,如2%或更小,1%或 更小等。然而,在其它實施方式中,微粒群體的變異系數(shù)為5%或更大,如 5%、 5%-10%(包含性)、10%-25%(包含性)等。在某些實施方式中,采用混 合的微粒群體。例如,可采用各自變異系數(shù)小于5%的兩個群體的混合物, 產(chǎn)生不具單分散性的混合群體。例如,可采用直徑為l微米和3微米的微 球混合物。在本發(fā)明的某些實施方式中,用連接于不具單分散性的微球群 體的模板進(jìn)行測序時,通過微球大小提供其它信息。例如,可將不同的模 板文庫連接于不同大小的微球。同時,由于小顆粒上可以連接較少的模板 分子,所以信號強(qiáng)度可改變,這可以有助于進(jìn)行多重測序。
本文所用術(shù)語"核酸序列"可以指核酸物質(zhì)本身,并且不限于表征特 定核酸,如DNA或RNA分子的生化特征的序列信息(即選自五個堿基字母 A、 G、 C、 T或U的字母的連續(xù)組合)。本文所述核酸以5'—3'取向表示, 除非另有說明。
"核苷"包括連接于糖分子的含氮堿基。本文所用的該術(shù)語包括如 Kornberg和Baker,《DNA復(fù)制》(DNA Replication)第2版(Freeman,舊金 山,1992)所述的2'-脫氧和2'-羥基形式的天然核苷和核苷類似物。例如,天然核苷包括腺苷、胸苷、鳥苷、胞苷、尿苷、脫氧腺苷、脫氧胸苷、脫 氧鳥苷和脫氧胞苷。核苷"類似物"指含有修飾堿基部分和/或修飾糖部分
的合成核苷,通常如Scheit,《核苷酸類似物》(Nucleotide Analogs)(John Wiley,紐約,1980)所述。這種類似物包括經(jīng)設(shè)計提高了結(jié)合特性、降低了 簡并性、提高了特異性等的合成核苷。核苷類似物包括2-氨基腺苷、2-硫 代胸苷、吡咯并-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脫氮腺苷、7-脫氮鳥苷、 8-氧腺苷、8-氧鳥苷、0(6)-甲基鳥嘌呤、2-硫代胞苷等。核苷類似物可包括 本文所述的任何通用堿基。
本文所用術(shù)語"有機(jī)體"指任何包含能夠復(fù)制并且其序列測定令人感 興趣的核酸的有生命或無生命的實體。它包括質(zhì)粒;病毒;原核生物、古 細(xì)菌和真核細(xì)胞、細(xì)胞系、真菌、原生動物、植物、動物等。
提到探針和模板多核苷酸的突出鏈時,"完全匹配雙鏈體"指一條鏈 的突出鏈與另一條鏈形成雙鏈體結(jié)構(gòu),從而使得雙鏈結(jié)構(gòu)中的每個核苷都 與相對鏈上的一個核苷發(fā)生Watson-Crick堿基配對。該術(shù)語也包括可用于 降低探針簡并性的核苷類似物,如脫氧肌苷、具有2-氨基嘌呤堿基的核苷 等的配對,而不管這種配對是否包括氫鍵形成。
術(shù)語"多種"指一種以上。
術(shù)語"多態(tài)性"具有本領(lǐng)域的普通含義,指同種個體之間的基因組序 列差異。"單核苷酸多態(tài)性"(SNP)指單個位置上的多態(tài)性。
"多核苷酸"、"核酸"或"寡核苷酸"指通過核苷間連接相連的核 苷(包括脫氧核糖核苷、核糖核苷或其類似物)的線性聚合物。 一般地,多核 苷酸包括至少三個核苷。在本發(fā)明的某些實施方式中,延伸探針中的一個 或多個核苷包含通用堿基。通常,寡核苷酸的大小范圍從幾個如3-4個單 體單元到幾百個單體單元。用字母序列如"ATGCCTG"代表多核苷酸如寡 核苷酸時,應(yīng)理解,核苷酸從左至右是5'—3'順序,"A"指脫氧腺苷, "C"指脫氧胞苷,"G"指脫氧鳥苷,"T"指胸苷,除非另有說明。在 本領(lǐng)域中,字母A、 C、 G和T一般可用于指代堿基本身、包含該堿基的核 苷或核苷酸。在天然產(chǎn)生的多核苷酸中,核苷間連接一般是磷酸二酯鍵,亞基稱為 "核苷酸"。然而,在本發(fā)明的某些實施方式中采用含有其它核苷間連接, 如硫代磷酸酯連接的寡核苷酸探針。應(yīng)理解,構(gòu)成具有非磷酸二酯連接的 寡核苷酸探針的一個或多個亞基可能不包括磷酸基團(tuán)。認(rèn)為這種核苷酸類 似物屬于本文所用術(shù)語"核苷酸"的范圍,含有非磷酸二酯鍵連接的一個 或多個核苷間連接的核酸仍然稱為"多核苷酸"、"寡核苷酸"等。在其 它實施方式中,多核苷酸如寡核苷酸探針包括含有AP核酸內(nèi)切酶敏感位點 的連接。例如,寡核苷酸探針可含有脫堿基殘基、含有作為DNA糖基化酶 去除底物的損傷堿基的殘基,或者作為AP核酸內(nèi)切酶切割底物的另一殘基 或連接。在另一實施方式中,寡核苷酸探針含有二糖核苷。
術(shù)語"引物"指長度一般約為10-100個核苷酸的短多核苷酸,通過與
靶點雜交結(jié)合于靶多核苷酸或"模板"。引物優(yōu)選為模板指導(dǎo)的與靶點互 補(bǔ)的多核苷酸合成提供一個啟動點,可以在合適的酶,輔因子,底物如核 苷酸、寡核苷酸等存在下進(jìn)行合成。引物一般提供可從其發(fā)生延伸的末端。
就用于聚合酶如DNA聚合酶催化合成(如"通過合成測序"、聚合酶鏈反 應(yīng)(PCR)擴(kuò)增等)的引物而言,引物一般含有、或可經(jīng)修飾含有游離的3,OH 基團(tuán)。PCR反應(yīng)一般采用一對引物(第一和第二擴(kuò)增引物),包括"上游"(或 "正向")引物和"下游"(或"反向")引物,這對引物劃定擴(kuò)增區(qū)域的界 限。就用于連續(xù)的延伸、連接(任選切割)循環(huán)進(jìn)行合成的引物而言,引物一 般含有、或可經(jīng)修飾含有用作DNA連接酶的底物的游離的5'磷酸基團(tuán)或 3'OH基團(tuán)。
本文所用"探針家族"指各自含有相同標(biāo)記的一群探針。 提到多核苷酸時,本文所用"序列測定"、"測定核苷酸序列"、"測 序"等術(shù)語包括測定多核苷酸中一部分和全部的序列信息。即,該術(shù)語包 括關(guān)于靶多核苷酸的序列比較、指紋分析等水平的信息,以及感興趣區(qū)域 內(nèi)靶多核苷酸的各核苷的快速鑒定和排序。在本發(fā)明的某些實施方式中, "序列測定"包括鑒定單個核苷酸,而在其它實施方式中,鑒定一個以上 核苷酸。在本發(fā)明的某些實施方式中,收集單個循環(huán)中本身不足以鑒定任 何核苷酸的序列信息。在本文中認(rèn)為核苷、核苷酸和/或堿基的鑒定等效。應(yīng)注意,對多核苷酸進(jìn)行序列測定一般產(chǎn)生等價的完全互補(bǔ)(100%互補(bǔ))多 核苷酸的序列信息,因此等效于直接對完全互補(bǔ)多核苷酸進(jìn)行的序列測定。
本文所用"測序反應(yīng)"指一組延伸、連接和檢測循環(huán)。去除模板上的 延伸雙鏈體并對模板進(jìn)行第二組循環(huán)時,各組循環(huán)被認(rèn)為是單獨(dú)的測序反 應(yīng),但可將得到的序列信息合并產(chǎn)生一個序列。
本文所用"半固體"指含有固體和液體組分的可壓縮基質(zhì),其中液體 占據(jù)了固體基質(zhì)組分間的孔隙、空間或其它間隙。示范性半固體基質(zhì)包括 由聚丙烯酰胺、纖維素、聚酰胺(尼龍)和交聯(lián)的瓊脂糖、右旋糖苷和聚乙二 醇制成的基質(zhì)。可以在第二支持物,如基本平坦的剛性支持物上提供半固 體支持物,第二支持物也稱作基材,它能支持所述半固體支持物。
本文所用"支持物"指可將核酸分子、微粒等固定在其上或其中的基 質(zhì),即它們可共價或非共價連接于該支持物,或者可將它們部分或完全包 埋在該支持物中或之上,從而使得基本或完全防止它們自由擴(kuò)散或相對移 動。
"引發(fā)殘基"是當(dāng)其存在于核酸中時,相對于不包含引發(fā)殘基的其他 方面相同的核酸,使該核酸更易于被切割劑(如酶、硝酸銀等)或切割劑組合 切割(如切割核酸主鏈)的殘基,和/或易于被修飾產(chǎn)生使該核酸更易受這種 切割的殘基。因此,核酸中存在引發(fā)殘基可導(dǎo)致核酸中存在易切連接。例 如,脫堿基殘基是引發(fā)殘基,因為核酸中存在脫堿基殘基使該核酸易于被 酶如AP核酸內(nèi)切酶切割。含有損傷堿基的核苷是引發(fā)殘基,因為核酸中存
在包含損傷堿基的核苷也使該核酸更易被酶如AP核酸內(nèi)切酶切割,如通過 DNA糖基化酶去除損傷堿基后。切割位點可以是引發(fā)殘基和相鄰殘基之間 的鍵,或者可以是從引發(fā)殘基移動一個或多個殘基的鍵。例如,脫氧肌苷 是引發(fā)殘基,因為核酸中存在脫氧肌苷使該核酸更易被大腸桿菌核酸內(nèi)切 酶V及其同源物切割。這種酶能切割脫氧肌苷3'端的第二個磷酸二酯鍵。 本文公開的任何探針可含有一個或多個引發(fā)殘基。引發(fā)殘基可以(但不一定) 包含核糖或脫氧核糖部分。切割劑優(yōu)選在沒有引發(fā)殘基時基本不切割核酸、 但在相同條件下對含有引發(fā)殘基的核酸有顯著的切割活性的切割劑,所述 條件可包括存在核酸修飾劑,以使其對切割劑更敏感。例如,優(yōu)選地,如果含有長度相同的核酸的組合物中存在切割劑,該組合物中一種核酸含有 引發(fā)殘基、并且其他核酸不含所述引發(fā)殘基,切割含有引發(fā)殘基的核酸的 概率至少是切割不含引發(fā)殘基的核酸的10; 25; 50; 100; 250; 500; 1000; 2500; 5000; 10,000; 25,000; 50,000; 100,000; 250,000; 500,000; 1,000,000 或更多倍,切割含有引發(fā)殘基的核酸的概率與切割不含引發(fā)殘基但其它情 況相同的核酸的概率之比為10-106,或者其中的任何整數(shù)子范圍。應(yīng)理解,
此比率可因具體核酸以及引發(fā)殘基的位置和核苷酸環(huán)境而不同。
優(yōu)選地,如果含有引發(fā)殘基的核酸需要修飾以使核酸易于被切割劑切 割,不難在合適修飾劑的存在下進(jìn)行這種修飾,例如,以合理的產(chǎn)量和合
理的時間進(jìn)行修飾。例如,在本發(fā)明的某些實施方式中,在(如)24小時內(nèi)、 優(yōu)選12小時內(nèi)、更優(yōu)選不足1分鐘至4小時內(nèi)修飾至少50%、至少60%、 至少70%、優(yōu)選至少80%、至少90%或更優(yōu)選至少95%的含有引發(fā)殘基的 核酸。
本文列舉了各種合適的引發(fā)殘基和對應(yīng)的切割試劑。可采用與本文所 述活性相似的任何引發(fā)殘基和切割試劑。本領(lǐng)域普通技術(shù)人員能夠確定具 體引發(fā)殘基和切割試劑組合是否適用于本發(fā)明,如切割效率和速度、切割 劑對含有引發(fā)殘基的核酸的選擇性等是否適用于本發(fā)明方法。需要注意的 是,"引發(fā)殘基"與僅形成限制性酶切位點的部分的核苷酸的不同之處在 于,引發(fā)殘基提高切割易感性的能力通常不顯著取決于發(fā)現(xiàn)引發(fā)殘基的具 體序列內(nèi)容,但如上所述,序列內(nèi)容可能對修飾和/或切割的易感性有些影 響。當(dāng)然,根據(jù)周圍的核苷酸,引發(fā)殘基可能形成限制性位點的一部分。 因此,在大多數(shù)情況下,所述切割劑不是限制性酶,但不排除采用既是限 制性酶、又具有非序列特異性切割能力的酶。
本文所用的"通用堿基"是可與天然產(chǎn)生的核酸中發(fā)現(xiàn)的一種以上堿 基"配對"的堿基,因此它可以取代雙鏈體中天然產(chǎn)生的堿基。該堿基不 需要能與每種天然產(chǎn)生的堿基配對。例如,某些堿基僅與嘌呤選擇性配對, 或僅與嘧啶選擇性配對。某些優(yōu)選的通用堿基(完全通用堿基)可與一般在天 然產(chǎn)生的核酸中發(fā)現(xiàn)的任何堿基配對,因此可取代雙鏈體中的任何這些堿 基。該堿基與各種天然產(chǎn)生的堿基配對的能力不必相同。如果探針混合物含有包含不與所有天然產(chǎn)生核苷酸配對的通用堿基的探針(一個或多個位 置),具體探針的這個位置上可能需要利用兩種或多種通用堿基,以便至少 有一種通用堿基與A配對,至少有一種通用堿基與G配對,至少有一種通 用堿基與C配對,至少有一種通用堿基與T配對。
本領(lǐng)域已知多種通用堿基,包括但不限于次黃嘌呤、3-硝基吡咯、
4-硝基吲哚、5-硝基吲哚、4-硝基苯并咪唑、5-硝基吲唑、8-氮雜-7-脫氮腺 嘌呤、6H,8H-3,4-二氫嘧啶并[4,5-c][l,2]嗯嗪-7-酮(P. Kong Thoo Lin.和D.M. Brown, Nucleic Acids Res., 1989, 17, 10373-10383)、 2-氨基-6-甲氧基氨 基嘌呤(D.M. Brown和P. Kong Thoo Un, Carbohydrate Research, 1991, 216, 129-139)等。次黃嘌呤是一種優(yōu)選的完全通用堿基。含有次黃嘌呤的核苷包 括但不限于肌苷、異肌苷、2'-脫氧肌苷和7-脫氮-2'-脫氧肌苷、2-氮雜-2' 脫氧肌苷。
本領(lǐng)域已知其它通用堿基,如以下文獻(xiàn)的相關(guān)部分所述Loakes, D. 和Brown, D.M., A^c/. 22:4039-4043, 1994; Ohtsuka, E.等,
所o/. C/zem. 260(5):2605陽2608, 1985; Lin, P.K.T.和Brown, D.M., Wwc/e/c 爿c〖^7 " 20(19):5149-5152, 1992; Nichols, R.等,7Va^" 369(6480): 492-493, 1994; Rahmon, M.S.和Humayun, N.Z., M廳/o" i e扁rc/z 377 (2): 263-8, 1997; Berger, M.等,腸/e,d^W, 28(15):2911-2914, 2000; Amosova, O.等,M/c/e/c Jc/& 25 (10): 1930-1934, 1997;禾口 Loakes, D., L 29(12):2437-47, 2001。通用堿基可以、但
不一定與相對位置的堿基形成氫鍵。通用堿基可通過Watson-Crick或非 Watson-Crick相互作用(如Hoogsteen相互作用)形成氫鍵。
在本發(fā)明的某些實施方式中采用包含脫堿基殘基的寡核苷酸探針,而 非采用包含通用堿基的寡核苷酸探針。脫堿基殘基可占據(jù)四種天然產(chǎn)生核 苷酸的相對位置,因此可起到與含有通用堿基的核苷酸相同的作用。在本 發(fā)明的一些實施方式中,由AP核酸內(nèi)切酶切割與脫堿基殘基相鄰的連接, 但在存在其它易切連接(如硫代磷酸酯)并采用其它切割試劑的本發(fā)明實施 方式中也可采用脫堿基殘基(即起到通用堿基的作用)。本發(fā)明某些優(yōu)選實施方式的詳述
A.通過連續(xù)的延伸、連接和切割循環(huán)測序
圖1A用圖解法顯示了本發(fā)明一個方面的總體方案,總體類似頒發(fā)給 Macevicz的美國專利5,740,341和6,306,597所述的方法。出于方便目的, 在本文中將這些專利總稱為"Macevicz"。具體說,Macevicz描述了鑒定 多核苷酸中核苷酸序列的方法,所述方法包括以下步驟(a)通過連接寡核 苷酸探針形成延伸雙鏈體沿該多核苷酸延伸起始寡核苷酸;(b)鑒定該多核 苷酸的一種或多種核苷酸;和(c)重復(fù)步驟(a)和(b),直到測定出核苷酸序列。
Macevicz還描述了一種測定模板多核苷酸的核苷酸序列的方法,所述 方法包括以下步驟(a)提供起始寡核苷酸探針與模板多核苷酸雜交形成的 探針-模板雙鏈體,所述探針具有可延伸探針末端;(b)將延伸寡核苷酸探針 連接于所述可延伸探針末端,形成含有延伸的寡核苷酸探針的延伸雙鏈體; (c)鑒定所述延伸雙鏈體中(l)與剛剛連接的延伸探針互補(bǔ)的模板多核苷酸中 的至少一個核苷酸或(2)緊接在延伸的寡核苷酸探針下游的模板多核苷酸中 的核苷酸殘基;(d)如果可延伸末端還不存在,在延伸的探針上產(chǎn)生可延伸 探針末端,從而使得產(chǎn)生的末端不同于連接最后一個延伸探針的末端;和 (e)重復(fù)步驟(b)、 (c)和(d),直到測定出所述靶多核苷酸的核苷酸序列。在這 些方法的某些實施方式中,各延伸探針在起始寡核苷酸探針的遠(yuǎn)端上含有 鏈終止部分。在某些實施方式中,再生步驟包括用化學(xué)方法切割延伸的寡 核苷酸探針中易切割的核苷間連接。
在圖1A中,含有未知序列的多核苷酸區(qū)50和結(jié)合區(qū)40的多核苷酸模 板20連接于支持物10。結(jié)合區(qū)40遠(yuǎn)端的核苷酸41和多核苷酸區(qū)50近端 的核苷酸51相鄰。提供了在結(jié)合區(qū)40的位置上與結(jié)合區(qū)40雜交形成雙鏈 體的起始寡核苷酸30。本文中起始寡核苷酸30也稱為"引物",結(jié)合區(qū) 40可稱為"引物結(jié)合區(qū)"。該雙鏈體可以、但不一定是完全匹配的雙鏈體。 起始寡核苷酸具有可延伸末端31。在圖1A中,起始寡核苷酸結(jié)合于結(jié)合 區(qū),以使可延伸末端31位于核苷酸41對面。然而,起始寡核苷酸可結(jié)合 于結(jié)合區(qū)的其它地方,如以下所述。長度為N的延伸寡核苷酸探針60與起 始寡核苷酸相鄰的模板雜交。延伸寡核苷酸探針的末端核苷酸61連接于可延伸末端31。
末端核苷酸61與多核苷酸區(qū)50中的第一個未知核苷酸互補(bǔ)。因此, 末端核苷酸61的種類確定了核苷酸51的種類。優(yōu)選地,通過檢測與已知 末端核苷酸61是A、 G、 C或T的延伸探針連接的標(biāo)記(未顯示)鑒定核苷 酸51。檢測后去除該標(biāo)記。圖2顯示了給具有不同3'末端核苷酸的延伸探 針分配不同標(biāo)記,如顏色不同的熒光團(tuán)的方案。
連接和檢測后,如果探針60沒有這種末端,則在延伸探針60上產(chǎn)生 可延伸探針末端。優(yōu)選長度也是N的第二延伸探針70退火到與延伸探針 60相鄰的模板上,并連接于探針60的可延伸末端。延伸探針70的末端核 苷酸71的種類指定了多核苷酸50中相對位置上的核苷酸52的種類。因此, 末端核苷酸71構(gòu)成了延伸探針的"序列測定部分",這意謂著探針部分的 雜交特異性用作測定模板中一個或多個核苷酸種類的基礎(chǔ)。應(yīng)理解,延伸 探針中其它核苷酸一般能與模板雜交,但僅有其種類與具體標(biāo)記相關(guān)的探 針中的那些核苷酸用于鑒定模板中的核苷酸。
在本發(fā)明優(yōu)選實施方式中,產(chǎn)生可延伸末端包括如下所述切割核苷間 連接。優(yōu)選地,切割也去除該標(biāo)記。切割去除了延伸探針中多個核苷酸M(未 顯示)。因此,該雙鏈體在每個循環(huán)中延伸N-M個核苷酸,并對位于模板中 N-M之間的核苷酸進(jìn)行鑒定。應(yīng)理解, 一般將給定模板的多個拷貝連接于 一種支持物,并在這些模板上同時進(jìn)行測序反應(yīng)。
Macevicz說明,寡核苷酸探針通常應(yīng)該能夠連接于起始寡核苷酸或延 伸雙鏈體,以產(chǎn)生下一個延伸循環(huán)的延伸雙鏈體;該連接應(yīng)該是模板驅(qū)動 的,因為探針應(yīng)在連接前與模板形成雙鏈體;該探針應(yīng)具有封端部分,以 防止在一個延伸循環(huán)中在同一模板上連接多個探針;該探針應(yīng)能夠在連接 后經(jīng)處理或修飾再生出可延伸末端;該探針應(yīng)具有信號部分(即可檢測部 分),以便在順利連接后獲得有關(guān)模板的序列信息。
Macevicz描述了某些合適起始寡核苷酸、延伸寡核苷酸探針、模板、 結(jié)合位點和用于合成、設(shè)計、產(chǎn)生或獲得這些組分的各種方法的特征。 Macevicz還描述了某些合適的連接酶、連接條件和各種合適標(biāo)記。Macevicz 也描述了用于鑒定的通過聚合酶延伸將標(biāo)記的鏈終止核苷酸加入新連接的延伸探針的另選方法。所加入核苷酸的種類確定模板相對位置上的核苷酸。 如本領(lǐng)域普通技術(shù)人員所理解,提到模板、起始寡核苷酸、延伸探針、 引物等時,通常指相關(guān)區(qū)域內(nèi)基本相同的核酸分子的群體或庫,而非單個 分子。因此,例如,"模板"通常指多個基本相同的模板分子;"探針" 通常指多個基本相同的探針分子等。在一個或多個位置上簡并的探針中, 應(yīng)理解,包含具體探針的探針分子的序列在簡并位置上不同,即構(gòu)成特定 探針的探針分子序列可以僅在非簡并位置上基本相同。出于說明目的,應(yīng) 理解單數(shù)形式包括單個分子和基本相同的分子群。需要表示單個核酸分子 (即一個分子)時,采用術(shù)語"模板分子"、"探針分子"、"引物分子"等。 在某些情況下,明確說明基本相同的核酸分子群體的復(fù)數(shù)本質(zhì)。
可用各種已知方法獲得或產(chǎn)生基本相同的核酸分子群體,這些方法包 括化學(xué)合成、在細(xì)胞中生物合成、在體外從一個或多個起始核酸分子進(jìn)行 酶學(xué)擴(kuò)增等。例如,采用本領(lǐng)域熟知方法,可通過插入合適的表達(dá)載體如 DNA或RNA質(zhì)粒、然后引入能夠在其中復(fù)制的細(xì)胞如細(xì)菌細(xì)胞,克隆感 興趣核酸。然后,從細(xì)胞中分離含有感興趣核酸拷貝的質(zhì)粒DNA或RNA。 分離自病毒、細(xì)胞等的基因組DNA,或通過逆轉(zhuǎn)錄mRNA產(chǎn)生的cDNA 無需克隆或體外擴(kuò)增等中間步驟也可成為基本相同的核酸分子群體的來源 (如序列待測的模板多核苷酸),但通常優(yōu)選對其進(jìn)行中間步驟處理。
應(yīng)理解,群體成員不一定100%相同,如合成過程中可能產(chǎn)生一定數(shù)量 的"錯誤"。優(yōu)選地,至少50%群體成員與參比核酸分子(即用作序列比較 基礎(chǔ)的序列確定的分子)至少90%,或更優(yōu)選至少95%相同。更優(yōu)選地,至 少60%、至少70%、至少80°/。、至少90°/。、至少95°/。、至少99%或更多群 體成員與參比核酸分子至少卯%、或更優(yōu)選至少95%、或更優(yōu)選至少99% 相同。優(yōu)選地,與參比核酸分子的相同性百分?jǐn)?shù)為至少95%或更優(yōu)選至少 99%的群體成員至少占98%、 99%、 99.9%或更多??赏ㄟ^以下方法計算相 同性百分?jǐn)?shù)比較兩個最佳比對序列,測定兩個序列中核酸堿基(如A、 T、 C、 G、 U或I)相同的位置的數(shù)量產(chǎn)生匹配位置數(shù)量,將匹配位置數(shù)量除以 位置總數(shù)再乘以100,得到序列相同性百分?jǐn)?shù)。應(yīng)理解,在某些情況下核酸 分子如模板、探針、引物等可以是還含有不作為模板、探針或引物的部分的較大核酸分子的一部分。在這種情況下,群體中單個成員的這些部分不 一定基本相同。
Macevicz描述了將模板連接于支持物(如珠)并向位于支持物遠(yuǎn)端的模 板末端進(jìn)行延伸的方法,如圖1A所示。因此,相對于未知序列,結(jié)合區(qū)與
支持物的距離更近,延伸雙鏈體在離開支持物的方向上生長。然而,本發(fā) 明人出人意料地發(fā)現(xiàn),宜用另選方法實施該方法,在該方法中結(jié)合區(qū)位于
支持物遠(yuǎn)端的模板末端,向支持物方向進(jìn)行向內(nèi)延伸。圖1B描述了這種實 施方式,其中各種元件的編號如圖1A所示。本發(fā)明人確定從模板遠(yuǎn)端向支 持物進(jìn)行"向內(nèi)"測序能提供更好的結(jié)果。具體說,從模板遠(yuǎn)端向支持物 如珠進(jìn)行測序比從支持物向外測序產(chǎn)生更高的連接效率。
如Macevicz進(jìn)一步所述,優(yōu)選將寡核苷酸探針作為含有預(yù)定長度的所 有可能序列的寡核苷酸混合物加入模板中。例如,含有具有NNNNNN(也 可表示為(N)k,其中1^6)結(jié)構(gòu)、長度為6個核苷酸(六聚體)的所有可能序列 的探針混合物含有46(4096)個探針種類。通常,探針的結(jié)構(gòu)是X(N)kN、其 中N代表任何核苷酸,k是1-100, *代表標(biāo)記,X代表其種類對應(yīng)于標(biāo)記 的核苷酸。在某些實施方式中,k為1-100、 1-50、 1-30、 1-20,如4-10。 一個或多個核苷酸可以包含通用堿基。在N代表的位置上,探針通常為4-倍簡并,或在N代表的一個或多個位置上含有簡并性降低的核苷酸。如果 需要,可將該混合物分成探針亞組("嚴(yán)格性類別"),其與互補(bǔ)序列的完全 匹配雙鏈體具有相似的穩(wěn)定性或結(jié)合自由能。如Macevicz所述,這些亞組 可用于不同的雜交反應(yīng)。
可通過許多方法降低探針混合物的復(fù)雜性(即不同序列的數(shù)量),這些方 法包括采用所謂的簡并性降低的核苷酸或核苷酸類似物。例如,含有8個 核苷酸的所有可能序列的探針文庫含有48個探針。通過在兩個位置上采用 通用堿基可將探針數(shù)量降低到46,同時保持八聚體文庫的各種所需特性, 如長度。本發(fā)明包括采用上述或上面引用的參考文獻(xiàn)所述的任何通用堿基。
根據(jù)該實施方式,可用寡核苷酸探針在5,—3'方向或3'—5,方向上延 伸延伸雙鏈體或起始寡核苷酸,如下所述。通常,寡核苷酸探針不一定與 模板形成完全匹配的雙鏈體,但可優(yōu)選這種結(jié)合。在每個延伸循環(huán)鑒定模板中一個核苷酸的實施方式中,鑒定該具體核苷酸需要完全堿基配對。例 如,在用酶學(xué)方法將寡核苷酸探針連接于延伸雙鏈體的實施方式中,需要 連接探針的末端核苷酸與其模板互補(bǔ)物之間進(jìn)行完全堿基配對,即適當(dāng)?shù)?br>
Watson-Crick堿基配對。通常,在這種實施方式中,探針的其余核苷酸用 作"間隔物",以保證在預(yù)定位點或沿模板移動一定數(shù)量的堿基處發(fā)生下 一次連接。即,它們配對或不配對不能提供進(jìn)一步的序列信息。同樣,在 依賴聚合酶延伸進(jìn)行堿基鑒定的實施方式中,探針主要用作間隔物,因此 與模板的特異性雜交不重要。
上述方法能部分測定序列,即鑒定模板中互相隔開的單個核苷酸。在 本發(fā)明優(yōu)選實施方式中,為了收集更完整的信息,進(jìn)行多個反應(yīng),其中每 個反應(yīng)利用不同的起始寡核苷酸i。起始寡核苷酸i結(jié)合于結(jié)合區(qū)的不同部 分。優(yōu)選地,起始寡核苷酸結(jié)合的位置應(yīng)使不同起始寡核苷酸的可延伸末 端雜交于結(jié)合區(qū)時互相偏移1個核苷酸。例如,如圖3所示,進(jìn)行測序反 應(yīng)l...N。起始寡核苷酸h...in長度相同,與結(jié)合區(qū)40結(jié)合后其末端核苷酸 31、 32、 33等雜交于結(jié)合區(qū)40中的連續(xù)相鄰位置41、 42、 43等。因此, 延伸探針e卜.en結(jié)合于模板的連續(xù)相鄰區(qū)域并連接于起始寡核苷酸的可延 伸末端。連接于in的探針en的末端核苷酸61與多核苷酸區(qū)50的核苷酸55, 即模板中第一個未知多核苷酸互補(bǔ)。在第二個延伸、連接和檢測循環(huán)中, 探針en的末端核苷酸71與多核苷酸區(qū)50的核苷酸56,即未知序列的第二 個核苷酸互補(bǔ)。同樣,連接于雙鏈體的延伸探針的末端核苷酸從起始寡核 苷酸i2、 i3、 i4等開始,與未知序列50的第三個、第四個和第五個核苷酸互 補(bǔ)。應(yīng)理解,起始寡核苷酸可結(jié)合于逐漸遠(yuǎn)離多核苷酸區(qū)50,而非逐漸靠 近它的區(qū)域。
延伸探針的非末端核苷酸的間隔功能使得不需要對任何給定模板進(jìn)行 相應(yīng)許多個循環(huán),就能獲得從起始寡核苷酸結(jié)合的位置開始相隔一定數(shù)量 核苷酸的模板位置上的序列信息。例如,通過連接長度為N的探針、然后 切割去除延伸探針上的單個末端核苷酸的連續(xù)循環(huán),可在連續(xù)循環(huán)中鑒定 間隔為N-1個核苷酸的核苷酸。例如,可用6個循環(huán)鑒定模板中位置1、 N、 2N-1、 3N-2、 4N-3和5N-4上的核苷酸,其中模板位置1上的核苷酸對應(yīng)于連接于通過起始寡核苷酸與模板結(jié)合形成的雙鏈體中可延伸探針末端的 核苷酸。相似地,如果切割去除長度為N的延伸探針的兩個核苷酸,可在 連續(xù)輪次中鑒定相互間隔N-2個核苷酸的位置上的核苷酸。例如,可用6
個循環(huán)鑒定模板中位置l、 N-l、 2N-3、 3N-5、 4N-7的核苷酸。因此,如果 探針的長度為8個核苷酸,并且每個循環(huán)去除2個核苷酸,則鑒定位置l、 7、 13、 19和25上的核苷酸。因此,鑒定與模板中第一個核苷酸距離為X 的核苷酸所需的循環(huán)數(shù)約為X/M,其中M是切割后保留的延伸探針的長度, 而非約為X。
例如,圖3B所示方案顯示采用延伸、連接和切割循環(huán)法與經(jīng)設(shè)計每6 個堿基閱讀一次模板的延伸探針的最終結(jié)果。用結(jié)合于結(jié)合區(qū)的偏移位置 的6種起始核苷酸對模板進(jìn)行連續(xù)剝離和測序,并合并結(jié)果,可闡明確定 長度上的所有模板堿基。例如,如果6次反應(yīng)各自進(jìn)行IO次連續(xù)連接,得 到的閱讀長度為60個連續(xù)堿基對,而如果各反應(yīng)進(jìn)行15次連續(xù)連接,得 到的閱讀長度為90個連續(xù)堿基對。
雖然不希望受限于任何理論,但本發(fā)明人提出,與這種方法相反,用 合成法進(jìn)行的大多數(shù)連續(xù)測序伴隨有差錯累積的弊端,這最終會限制長閱 讀長度的可能。本文所述某些方法的有利特征是它們能每n個堿基鑒定一 次(取決于探針中可切割部分的位置),以便在給定數(shù)量的循環(huán)(y)后,達(dá)到 第Wy-(n-l)個堿基(如上述例子中15個循環(huán)后達(dá)到第71個堿基,或在切割 位點的3'側(cè)用6個堿基的探針進(jìn)行20個循環(huán)后達(dá)到第115個堿基)。在n-1 、 n-2等位置上"重啟動"起始寡核苷酸的能力大大降低了給定長度上的連續(xù) 差錯累積(通過移相或損耗),因為從模板上剝離延伸鏈和雜交新起始寡核苷 酸的的過程有效地將背景信號再設(shè)定為零。例如,比較基于聚合酶合成的 測序方法和本文所述基于連接的方法,如果各延伸循環(huán)的信噪比為99:1, 那么IOO個基于聚合酶的方法循環(huán)后,信噪比為37:63,基于連接酶的方法 為85:15。基于連接酶的方法的最終結(jié)果是閱讀長度比基于聚合酶的方法大 大增加。
鑒于多種原因,用少于如果模板中每個在前核苷酸都需要進(jìn)行一個循 環(huán)所需的循環(huán)數(shù)鑒定核苷酸的能力很重要。具體說,該方法的各步驟的效率不可能達(dá)到100%。例如, 一些模板可能無法順利連接于延伸探針; 一些 延伸探針可能無法被切割等。因此,各循環(huán)中,在不同拷貝的模板上發(fā)生 的反應(yīng)逐漸變得有相位差,可獲得有用的準(zhǔn)確信息的模板數(shù)量減少。因此, 特別需要最大程度減少閱讀距起始寡核苷酸可延伸末端較遠(yuǎn)位置的核苷酸 所需的循環(huán)數(shù)。然而,增加延伸探針長度可能導(dǎo)致探針混合物的復(fù)雜性增 加,這會降低各探針序列的有效濃度。如本文所述,可用簡并性降低的核 苷酸降低復(fù)雜性,但這可能導(dǎo)致雜交強(qiáng)度降低和/或連接效率降低。本發(fā)明 者認(rèn)識到,需要平衡這些競爭因素,以優(yōu)化結(jié)果。因此,在本發(fā)明的優(yōu)選 實施方式中,采用長度為8個核苷酸的延伸探針,在所選位置上采用簡并 性降低的核苷酸。此外,本發(fā)明者認(rèn)識到,選擇合適的易切連接以及切割 條件和時間以優(yōu)化切割步驟效率(即各切割步驟中順利切割的連接的百分 數(shù))和對合適連接的特異性的重要性。 B.寡核苷酸延伸探針設(shè)計
雖然Macevicz提到,簡并性降低的核苷類似物可用于寡核苷酸延伸探 針,但他沒有說明特別需要在延伸探針中包含這種殘基的特定位置,也沒 有說明摻入簡并性降低的核苷的各種具體探針結(jié)構(gòu)(即序列)。本發(fā)明者認(rèn)識 到,在寡核苷酸延伸探針的特定位置上采用特定數(shù)量的簡并性降低的核苷 (如含有通用堿基的核苷)可能特別有利。例如,在本發(fā)明的某些實施方式中, 位置6或更遠(yuǎn)位置上(從X開始)的大多數(shù)或全部核苷酸含有通用堿基。例 如,位置6或更遠(yuǎn)位置上的至少50%、至少60%、至少70%、至少80%、 至少90%或至少100%核苷酸可含有通用堿基。這些核苷酸不一定都含有相 同的通用堿基。在本發(fā)明的某些實施方式中,次黃嘌呤和/或硝基吲哚用作 通用堿基。例如,可采用核苷如肌苷。
本發(fā)明者認(rèn)識到,可用長度大于6個核苷酸的延伸探針獲得優(yōu)異結(jié)果, 其中從連接于可延伸探針末端的核苷酸開始數(shù),從探針近端起位置6或更 遠(yuǎn)位置上的一個或多個核苷酸是簡并性降低的核苷酸,如含有通用堿基(即 如果最近端核苷酸被認(rèn)為是位置1,那么位置6或更遠(yuǎn)位置上的一個或多個 核苷酸含有通用堿基),如8聚體探針中位置6或更遠(yuǎn)位置上的1、 2或3 個核苷酸含有通用堿基。例如,在3'—5'測序中,可采用結(jié)構(gòu)為3'-XNNNNsINI-5'的探針,其中X和N代表任何核苷酸,"s"代表易切 連接,以便在從3'端數(shù)第五個和第六個殘基之間發(fā)生切割,并優(yōu)選易切連 接和5'端之間至少一個殘基具有對應(yīng)于X種類的標(biāo)記。另一種設(shè)計是 3'-XNNNNsNII-5'。又一種探針設(shè)計是3,-XNNNNsIII-5,。這種設(shè)計產(chǎn)生含 有1024種不同探針的具有適度復(fù)雜性的探針混合物,其長度足以防止形成 顯著的腺苷酸化產(chǎn)物(參見實施例1),并且具有切割后得到的延伸產(chǎn)物由未 修飾DNA組成的優(yōu)點。 一個缺點是此探針每次僅延伸引物5個堿基。由于 閱讀長度是延伸長度乘以循環(huán)數(shù)的函數(shù),延伸長度每增加一個堿基可使閱 讀長度增加lx循環(huán)數(shù)個堿基(例如,如果采用20個循環(huán)則是20個堿基)。 另一種探針設(shè)計切割后在延伸探針末端留下一個或多個肌苷(或其它通用 堿基),以產(chǎn)生6個堿基或更長的延伸雙鏈體。例如,采用探針 3,-XNNNNIsII-5'時,雙鏈體每次延伸6個堿基,在連接處留下5'肌苷。在 這些設(shè)計中,優(yōu)選易切連接和5'端之間至少一個殘基具有對應(yīng)于X種類的 標(biāo)記。在本發(fā)明的某些實施方式中,從連接于可延伸探針末端核苷酸的相 對末端開始數(shù),從探針遠(yuǎn)端起第三個核苷酸含有通用堿基(即,如果遠(yuǎn)端被 認(rèn)為是位置K,那么位置K-2上的核苷酸含有通用堿基)。
在本發(fā)明的某些實施方式中,在起始寡核苷酸探針、延伸探針或二者 的一個或多個位置上采用鎖定核酸(LNA)堿基。例如,美國專利6,268,490; Koshkin, AA等,Tetrahedron, 54:3607-3630, 1998; Singh, SK等,Chem. Comm., 4:455-456, 1998中描述了鎖定核酸??捎米詣覦NA合成儀和標(biāo) 準(zhǔn)的亞磷酰胺化學(xué)合成LNA, LNA可摻入也含有天然產(chǎn)生的核苷酸和/或 核苷酸類似物的寡核苷酸中。也可用標(biāo)記如下述標(biāo)記合成它們。
C.模板、文庫、支持物、封閉物及其制備方法和應(yīng)用
本發(fā)明提供各種制備核酸模板和支持物的方法。本發(fā)明也提供用于基于連 接的測序或其它目的的文庫。本發(fā)明也提供封閉寡核苷酸和其在測序或其它目 的中的使用方法,測序是通過寡核苷酸連接、檢測和切割的連續(xù)循環(huán)進(jìn)行的。
Macevicz描述了首先合成含有多種基本相同模板分子的模板的方法, 如在試管或其它容器中用常規(guī)聚合酶鏈反應(yīng)(PCR)法擴(kuò)增。Macevicz指出, 擴(kuò)增的模板分子在合成后優(yōu)選連接于支持物如磁性微粒(如珠)。本發(fā)明者認(rèn)識到,宜在支持物本身上或之中合成待測序模板,例如, 采用在進(jìn)行PCR反應(yīng)之前與一對擴(kuò)增引物之一連接的支持物如微粒或各種 半固體支持物,如凝膠基質(zhì)。這種方法在合成后不需要單獨(dú)步驟將模板分 子連接于支持物。因此,可方便地平行擴(kuò)增序列不同的多種模板。例如, 按照下述方法,在微粒上合成產(chǎn)生一群單個微粒,各自連接有多個拷貝的 特定模板分子(或其互補(bǔ)物),其中連接于各微粒的模板分子與連接于其它微 粒的模板分子的序列不同。因此,各支持物連接有克隆的模板群,如支持 物A連接有多個拷貝的模板X;支持物B連接有多個拷貝的模板Y;支持 物C連接有多個拷貝的模板Z等。"克隆的模板群"、"克隆的核酸群" 等指基本相同的模板分子的群體,優(yōu)選通過從感興趣的單一模板分子(起始 模板)開始的連續(xù)擴(kuò)增輪次產(chǎn)生?;鞠嗤哪0宸肿涌赡芘c起始模板或其 互補(bǔ)物基本相同。
一般用PCR進(jìn)行擴(kuò)增,但也可采用其它擴(kuò)增方法(見下)。應(yīng)理解,克 隆群體成員不一定100%相同,例如,在合成如擴(kuò)增過程中,可能發(fā)生一定 數(shù)量的"差錯"。優(yōu)選地,至少50%克隆群體成員與起始模板分子(或其互 補(bǔ)物)至少90%、或更優(yōu)選至少95%相同。更優(yōu)選地,至少60%、至少70%、 至少80%、至少90%、至少95%、至少99%、或更多的群體成員與起始模 板分子(或其互補(bǔ)物)至少90%、或更優(yōu)選至少95%相同,或更優(yōu)選至少99% 相同。優(yōu)選地,至少95%或更優(yōu)選至少99%的群體成員與起始模板分子(或 其互補(bǔ)物)的相同性百分?jǐn)?shù)為至少98%、 99%、 99.9%或更高。
可用各種技術(shù)將擴(kuò)增引物連接于支持物。例如,可用結(jié)合對的一個成 員(如生物素)使引物一端(5,端)官能化,用結(jié)合對的另一個成員(如鏈霉親和 素)使支持物官能化??刹捎萌魏蜗嗨频慕Y(jié)合對。例如,可將確定序列的核 酸標(biāo)簽連接于支持物,含有互補(bǔ)核酸標(biāo)簽的引物可雜交于連接于支持物的 核酸標(biāo)簽。也可釆用各種接頭和交聯(lián)劑。
本領(lǐng)域熟知進(jìn)行PCR的方法,參見例如美國專利4,683,195、 4,683,202 和4,965,188,以及Dieffenbach, C.和Dveksler, GS,《PCR引物實驗室 手冊》(PCR Primer: A Laboratory Manual),第2版,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 2003。本領(lǐng)域熟知且描述了擴(kuò)增微粒上的核酸的方法,例如,可在微量滴定板孔或試管中對連接有引物的珠 進(jìn)行標(biāo)準(zhǔn)PCR(如實施例12制備的珠)。雖然PCR是方便的擴(kuò)增方法,但也 可采用本領(lǐng)域已知的許多其它方法。例如,可采用多鏈置換擴(kuò)增、解旋酶
置換擴(kuò)增(HDA)、缺口平移、Q(3復(fù)制酶擴(kuò)增、滾環(huán)擴(kuò)增和其它等溫擴(kuò)增方 法等。
模板分子可獲自任何來源。例如,DNA可分離自樣品,該樣品可能獲 自或衍生自某對象。從廣義上說,術(shù)語"樣品"指對其進(jìn)行序列測定的任 何模板來源。用術(shù)語"衍生自"表示直接獲自對象的樣品和/或樣品中的核 酸經(jīng)過進(jìn)一步加工獲得模板分子。樣品來源可以是任何病毒、真核生物、 古細(xì)菌或真核物種。在本發(fā)明的某些實施方式中,來源是人。樣品可以是(例
如)血液或含有細(xì)胞的其它體液;精液;活檢樣品等??蓪碜匀魏胃信d趣
有機(jī)體的基因組或線粒體DNA進(jìn)行測序。可測序cDNA。也可測序RNA, 例如,首先用本領(lǐng)域熟知的方法如RT-PCR逆轉(zhuǎn)錄產(chǎn)生cDNA??珊喜?自不同樣品和/或?qū)ο蟮腄NA混合物。可用各種方式加工樣品。可用已知 方法從樣品分離、純化和/或擴(kuò)增核酸。當(dāng)然,也可測序不衍生自有機(jī)體的 完全人造的合成核酸、重組核酸。
可以雙鏈或單鏈形式提供模板。 一般地,最初以雙鏈形式提供模板時, 隨后分離兩條鏈(如使DNA變性),僅擴(kuò)增兩條鏈中的一條以產(chǎn)生定位的模 板分子克隆群體,所述克隆群體(如)連接于微粒、固定在半固體支持物中或 之上等。
可用各種其它方式選擇或加工模板。例如,可采用用甲基敏感性限制 性酶(如Mspl)處理的DNA獲得的模板??稍跀U(kuò)增前進(jìn)行這種產(chǎn)生DNA片 段的處理。含有甲基化堿基的片段不擴(kuò)增。可比較獲自超甲基化模板的序 列信息與獲自未進(jìn)行超甲基化選擇的相同來源的模板的序列信息。
可將模板插入文庫,或者可在文庫中提供模板,或者模板可衍生自文 庫。例如,本領(lǐng)域已知超甲基化文庫。將模板插入文庫能夠方便地將額外 核苷酸序列與模板末端連接起來,如標(biāo)簽、引物結(jié)合位點或起始寡核苷酸 等。例如,某些方案允許加入具有多個結(jié)合位點,如擴(kuò)增引物結(jié)合位點、 起始寡核苷酸結(jié)合位點、捕獲劑結(jié)合位點等的標(biāo)簽。本領(lǐng)域已知各種合適的文庫。例如,USSN 10/978,224, PCT公開 WO2005042781和WO2005082098以及Shendure, J.等,Science, 309(5741):1728-32, 2005, Sciencexp腦,2005年8月4日 (www.sciencexpress.org)描述了特別感興趣的文庫及其構(gòu)建方法。當(dāng)然應(yīng)理 解,也可采用產(chǎn)生這種文庫的其它方法。某些特別感興趣的文庫含有多種 核酸片段(一般是DNA),各片段含有兩個感興趣的核酸節(jié)段,它們被用于 測序步驟的擴(kuò)增和/或測序引物互補(bǔ)的序列分隔開,即這些序列用作引物結(jié) 合區(qū)(PBR)。在特別感興趣的實施方式中,核酸節(jié)段是天然產(chǎn)生的DNA的 一段連續(xù)部分。例如,節(jié)段可來自基因組DNA的連續(xù)部分的5'和3'端, 如上述參考文獻(xiàn)所述。與上述文獻(xiàn)一致,在本文中將這種核酸節(jié)段稱為"標(biāo) 簽"或"末端標(biāo)簽"。衍生自一段連續(xù)核酸如其5'和3'端的兩個標(biāo)簽稱為 "成對標(biāo)簽"、"成對標(biāo)簽"或"雙標(biāo)簽"。應(yīng)理解,"成對標(biāo)簽"包括 兩個標(biāo)簽,即使用單數(shù)形式表示。通過選擇預(yù)定大小限度內(nèi)的產(chǎn)生成對標(biāo) 簽的DNA連續(xù)部分,限制分隔開兩個標(biāo)簽的距離。
除了被與測序和/或擴(kuò)增引物互補(bǔ)的序列分隔開以外,該文庫的核酸片 段一般也含有與側(cè)接標(biāo)簽的測序和/或擴(kuò)增引物互補(bǔ)的序列,即第一個這種 序列可位于與該片段5'端較近的標(biāo)簽的5'端,第二個這種序列可位于與該 片段3'端較近的標(biāo)簽的3'端。應(yīng)理解,在各種實施方式中產(chǎn)生標(biāo)簽的連續(xù) 核酸中存在的兩個標(biāo)簽的位置可以,但不一定對應(yīng)于標(biāo)簽在文庫DNA片段 中的位置。
核酸片段和標(biāo)簽可具有不同的大小范圍。核酸片段的長度一般可以是 (例如)80-300個核苷酸,如100-200個、100-150個、約150個核苷酸、約 200個核苷酸等。標(biāo)簽的長度可以是(如)15-25個核苷酸,如約17-18個核 苷酸等。應(yīng)注意,這些長度是示范性,而不是限制性??刹捎幂^短或較長 的片段和/或標(biāo)簽。
也應(yīng)注意,雖然從單個連續(xù)核酸獲得成對標(biāo)簽提供了方便的方法進(jìn)行 文庫構(gòu)建,但成對標(biāo)簽的重要之處在于在最初產(chǎn)生它們的核酸中它們互相 相隔一段距離("間隔距離"),其中間隔距離屬于預(yù)定的距離范圍。標(biāo)簽被 屬于預(yù)定范圍的間隔距離分隔開使得能夠?qū)?biāo)簽序列與參比序列(如參比基因組序列)進(jìn)行比對。不希望受限于任何理論,這可能有利于某些應(yīng)用如 基因組再測序,其中它使得能夠采用較短的閱讀長度,同時仍然能夠?qū)⑿?列準(zhǔn)確地定位于參比基因組上。成對標(biāo)簽的5'和3'標(biāo)簽代表較大核酸片段
如基因組DNA的節(jié)段(即它們具有以上序列),在天然產(chǎn)生的DNA片段如 基因組DNA片段中這些節(jié)段互相間隔在預(yù)定距離內(nèi)。例如,在本發(fā)明的某 些實施方式中,在天然產(chǎn)生的DNA片段中,成對標(biāo)簽的5,和3,標(biāo)簽代表 互相相隔500個核苷酸內(nèi)、互相相隔lkB內(nèi)、互相相隔2kB內(nèi)、互相相 隔5kB內(nèi)、互相相隔10kB內(nèi)、互相相隔20kB內(nèi)的DNA節(jié)段。在某些 實施方式中,在天然產(chǎn)生的DNA片段中,成對標(biāo)簽的5'和3'標(biāo)簽相隔500 個核苷酸-2kB,如700個核苷酸-1.2kB,約lkB等。應(yīng)注意,成對標(biāo)簽的 兩個標(biāo)簽的準(zhǔn)確間隔距離并不重要并且一般未知。此外,雖然標(biāo)簽最初獲 自較大核酸片段,但術(shù)語"標(biāo)簽"用于含有標(biāo)簽序列的任何核酸節(jié)段,無 論其存在于原始序列內(nèi)容或文庫片段、文庫片段的擴(kuò)增產(chǎn)物、待測序模板 等中。
核酸片段(如文庫分子)可能具有以下結(jié)構(gòu) 接頭1-標(biāo)簽1-接頭3-標(biāo)簽1-接頭2
標(biāo)簽1和接頭2可以是成對標(biāo)簽的5,和3'標(biāo)簽。任一標(biāo)簽都可以是5' 標(biāo)簽或3'標(biāo)簽。接頭l和接頭2含有一種或多種引物的引物結(jié)合區(qū)。在某 些實施方式中,接頭1和2各自含有擴(kuò)增引物的PBR和測序引物的PBR。 各接頭中的引物可以是巢式引物,以使測序引物PBR位于擴(kuò)增引物PBR內(nèi) 部。接頭3可含有一種或多種測序引物的PBR,以便測序標(biāo)簽1和標(biāo)簽2。 術(shù)語"接頭"用于核酸片段文庫時,指在文庫的多種核酸片段,如文庫的 基本上所有片段中存在的核酸序列。在文庫構(gòu)建期間,接頭可以具有或不 具有實際上的連接功能,接頭僅可被認(rèn)為是給定文庫的大多數(shù)或所有成員 所共有的確定序列。這種序列也稱為"通用序列"。因此,與接頭或其一 部分互補(bǔ)的核酸與文庫的多個成員雜交,并可用作文庫中大多數(shù)或所有分 子的擴(kuò)增引物或測序引物。
在本發(fā)明某些實施方式中,核酸片段具有以下結(jié)構(gòu)
接頭1-標(biāo)簽1-內(nèi)部銜接子-標(biāo)簽2-接頭2標(biāo)簽l和標(biāo)簽2和接頭1和接頭2含有上述PBR。內(nèi)部銜接子含有兩 個引物結(jié)合區(qū),它們可稱為IA和IB,如下所述。這些PBR可用于產(chǎn)生連 接有兩個獨(dú)立的基本相同的核酸群體的微粒,其中一個核酸群體包含標(biāo)簽 1,另一個核酸群體包含標(biāo)簽2。兩個獨(dú)立的核酸群體含有至少部分不同的 序列,如它們的標(biāo)簽區(qū)序列不同。內(nèi)部銜接子的兩個引物結(jié)合區(qū)之間可含 有間隔區(qū)。間隔區(qū)可含有脫堿基殘基,這種脫堿基殘基能防止聚合酶延伸 通過該間隔物。當(dāng)然,可采用含有能防止聚合酶延伸通過該間隔物的任何 其它封閉基團(tuán)的間隔區(qū)。
在其它實施方式中,核酸片段包括一個或多個(如2、 4、 6個等)其他標(biāo) 簽和一個或多個其它內(nèi)部銜接子。例如,核酸片段可具有以下結(jié)構(gòu)
接頭1-標(biāo)簽1-內(nèi)部銜接子1-標(biāo)簽2-接頭2-標(biāo)簽3-內(nèi)部銜接子2-標(biāo)簽 4-接頭3
應(yīng)注意,除了本文所述的基于連接的測序方法,本發(fā)明的核酸片段以 及這種片段的文庫、含有兩種或多種基本相同的核酸群體的微粒和這種微 粒的陣列還可用于各種測序方法。例如,可采用測序方法如FISSEQ、焦磷 酸鹽測序等。參見例如,WO2005082098。當(dāng)然,也可有利地利用基于連接 的方法。應(yīng)理解,在本文所述基于連接的方法中,術(shù)語"測序引物"可理 解為"起始寡核苷酸"。
在本發(fā)明的某些實施方式中,在單獨(dú)的水性乳液室(也稱為"反應(yīng)器") 中進(jìn)行PCR以合成待測序模板。優(yōu)選地,各室含有顆粒支持物如連接有合 適的第一擴(kuò)增引物的珠、模板的第一個拷貝、第二擴(kuò)增引物和進(jìn)行PCR反 應(yīng)必需的組分(如核苷酸、聚合酶、輔因子等)。制備乳液的方法參見例如美 國專利6,489,103(Griffiths); 5,830,663 (Embleton);和美國
發(fā)明者A·布蘭查德, G·科斯塔, K·麥柯南 申請人:阿普里拉股份有限公司