專利名稱::用于核酸作圖和鑒定核酸中的精細結構變化的方法
技術領域:
:總體而言,本發(fā)明涉及用于高通量分析核酸中的精細結構變化的方法。具體而言,本發(fā)明涉及產生連接的核酸標簽對的新策略、載體和其它組分,其中連接的核酸標簽對的組成成員具有用戶定義的間隔距離和/或為核酸位置的標記,其沿著靶核酸分子的長度劃分一種或多種不同限制性內切核酸酶的相鄰切割位點。在一個優(yōu)選的實施方案中,將本發(fā)明用于鑒定可與表型相關的基因組改變或標記物。在另一個優(yōu)選的實施方案中,將本發(fā)明用于產生高分辨率的基因組圖譜以有助于從鳥槍DNA測序中進行基因組組裝。
背景技術:
:盡管最豐富且研究最深入的人類基因組變體類型是單核苷酸多態(tài)性(SNP),但日益清楚的是,包括拷貝數(shù)(插入、缺失和重復)改變、倒位、易位和其它序列重排在內的所謂“精細結構變化”為人類基因組和其它基因組的整體特征。這些類型的變化似乎比原先認為的更頻繁地存在于一般群體中。建立的證據表明,結構變體可在各個個體中包含上百萬具有異質性的核苷酸。理解精細結構變化在基因組進化、與環(huán)境的相互作用、表型多樣性和疾病中的作用是當前基因組研究中最活躍的研究領域之一。關于綜述,參見Feuk等(2006)、Redon等(2006)、Check(2005)、Cheng等(2005)和Bailey等(2002)。與SNP分析相比,用于分析精細結構變化的有效高通量方法還沒有被充分開發(fā)。重要的第一步是陣列比較基因組雜交(陣列CGH)技術(Pinkel等,1998;Pinkel等,美國專利第5,830,645號和第6,159,685號),該技術能夠定量靶DNA與參比DNA之間的相對拷貝數(shù)。陣列CGH允許以單個排列的細菌人工染色體(BAC)克隆水平的分辨率,可靠地檢測DNA樣品之間的脫氧核糖核酸(DNA)拷貝數(shù)差異(Snijders等,2001;Albertson等,2000;Pinkel等,1998)。針對cDNA(Heiskanen等,2000;Pollack等,1999)和高密度寡核苷酸陣列平臺(Bignell等,2004;Brennan等,2004;Hung等,2004;Lucito等,2003)修改陣列CGH進一步擴展了該方法的分辨率和應用性。通過其應用,陣列CGH已實現(xiàn)鑒定與腫瘤(Pinkel^PAlbertson,2005;Inazawa等,2004;Albertson和Pinkel,2003;Pollack等,2002)和疾病進展(Gonzalez等,2005)相關的基因拷貝數(shù)變化。1.F粘粒配對末端作圖盡管可用于拷貝數(shù)測定,但陣列CGH并不適合確定其它類型的基因組結構變化,最顯著地,不適于倒位、易位和其它類型的核酸重排。Tuzim等(2005)嘗試用稱為“F粘粒(fosmid)配對末端作圖”的方法解決這些限制。該方法依靠F粘粒包裝的頭部完整(head-full)機制,以從測試者中產生具有相當均一的約40千堿基對(kb)大小的基因組插入物的基因組DNA文庫。根據實驗,實際片段范圍為32kb至48kb,平均值標準差<3,39.9+/-2.76-kb。隨機選擇的約40kb文庫插入物的末端終止測序產生成對的短序列標簽,其中每個標簽對標記兩個基因組位置,這兩個基因組位置沿著靶DNA長度間隔約40kb。然后將標簽對與參比基因組組件用計算機比對,在它們的預期方向或它們的約40kb間隔距離方面的任何不一致都表示在跨越該區(qū)域的靶和參比核酸之間存在至少一個結構差異。圖譜位置間隔超過40kb的標簽對表示相對于參比在靶DNA上存在缺失;間隔低于40kb的圖譜位置表示在靶標中有DNA插入。已作圖的標簽對在方向上的不一致表示潛在的DNA倒位或其它復合染色體重排。標簽對被分配至參比序列上的兩個不同染色體表示染色體易位。通過常規(guī)DNA測序對超過百萬個單獨純化的F粘??寺〔迦胛镞M行分析,使得Tuzim等(2005)能夠在測試者和參比基因組組件之間鑒定出接近300個結構變化位置。該作者并沒有教導或公開其它產生標簽對、產生不同間隔的標簽對以改變分析的空間分辨率、改進在它們文庫中的插入長度的均一性、通過使用改進型DNA序列分析儀(generationDNAsequencer)提高經濟性的方法,也沒有公開產生其它類型的序列標簽對的方法,例如可根據成對相鄰內切核酸酶切割位點之間的位置和/或間隔距離劃分基因組位置的本發(fā)明序列標簽對。許多類型的精細結構變化并不被由F粘粒配對末端作圖法所固定的約40kb分辨率窗所分辨。F粘粒配對末端作圖具有其它的限制。F粘粒載體以極低拷貝數(shù)在宿主細胞中增殖,該特性用于使在某些基因組序列在微生物宿主中增殖期間所遇到的潛在重組、重排和其它人為產物(artifact)最少。盡管目前應用可擴增形式的F粘粒載體(Szybalski,美國專利第5,874,259號),但是由于低DNA收率(與常規(guī)質粒相比),末端測序F粘??寺∫援a生序列標簽仍具有極差的經濟性,使得難以維持高通量自動化模板產生和測序。此外,需要兩個獨立的序列反應以從單個F粘粒DNA模板中產生標簽對序列,因而進一步降低了經濟性。盡管F粘粒配對末端作圖是鑒定人類基因組中的精細結構變化的有用開始,但對于每個測試者,都需要巨大的成本和后勤工作來純化和測序上百萬的F粘粒插入末端,這阻礙了其在廣泛群體和人群調查中鑒定基因組變化的應用,所述基因組變化可能與復雜疾病有關或響應環(huán)境因素等。此外,F(xiàn)粘粒載體及其變體一般以非常低的拷貝數(shù)在宿主細胞中增殖,使得難以維持可靠的自動化DNA產生和測序。因此,需要用于基因組和相關研究中的有效、穩(wěn)定高通量且低成本的鑒定精細結構變化的方法,以將這些遺傳元件與疾病、疾病進展和疾病易感性聯(lián)系起來。2.用于產生基因組標簽的現(xiàn)有方法多種基于DNA的指紋法在本領域中已描述用于表征和比較基因組(Wimmer等,2002;Kozdroj和vanElsas,2001;RouiIlard等,2001;Schloter等,2000)。所有這些方法都使用靶DNA的限制性內切核酸酶消化、PCR擴增或凝膠電泳分離的某些組合。通常,需要繁瑣地從凝膠中提取候選DNA片段用于DNA測序阻礙了這些方法。Durm等(2002)的工作取得進步,其中他們描述了一種使用IIS型/IIG型限制性內切核酸酶MmeI產生用于分析基因組DNA的“基因組識別標識標簽(GenomicSignatureTag)”(GST)的方法。通過將具有MmeI識別位點的連接物連接至基因組DNA片段產生GST,所述基因組DNA片段最初如下產生通過用II型限制性內切核酸酶初始消化靶基因組DNA,接著用頻繁切割的標簽酶(frequentcuttingtaggingenzyme)進二次化。用MmeI化連接物(adaptor)連接的DNA,產生21bp的標簽(GST),該標簽具有在DNA中相對于初始限制酶消化所識別的位點固定的位置。在通過PCR擴增后,寡聚純化的GST,用于克隆和DNA測序。將所述標簽的同一性及其相對豐度用于建立基因組DNA的高分辨率“GST序列概況”,其可用于鑒定和定量既定的復雜DNA分離物中的最初基因組。使用鼠疫耶爾森氏菌(Yersiniapestis)作為模型系統(tǒng),Durm等(2002)能夠界定相對簡單的基因組中可能已經經歷添加或缺失限制性位點的改變的區(qū)域。然而,Durm等(2002)的方法在復雜的基因組如人基因組中的效用有限,在復雜的基因組中,大多數(shù)結構變化不能通過簡單的獲得或失去研究中的少量限制性內切核酸酶位點來揭示。此外,對于即便1個限制性位點,覆蓋大基因組或分析多個樣品所需的GST數(shù)量也是非常高的。與此相反,本發(fā)明的GVT對對分析復雜基因組概況或擴展分析多個DNA樣品提供經濟性和分析能力。一種首先由Velculescu等(1995)和Kinzler等(1995)(美國專利第5,695,937號)描述的、稱為基因表達的連續(xù)分析(SerialAnalysisofGeneExpression,SAGE)的方法的多種形式,也利用IIS型或IIG型限制性內切核酸酶來產生DNA標簽(Ng等,2005;Wei等,2004;Saha等,2002)。所謂的“SAGE標簽”由cDNA模板產生,以提供對生物樣品中cDNA種類的復雜性和相對豐度的評價。新近形式的SAGE稱為“LongSAGE”,其利用MmeI消化,產生21bp的序列標簽,以標記mRNA轉錄物(Saha等,2002)。最新的改進形式稱為“SuperSAGE”,其利用III型限制性內切核酸酶EcoP15I產生25bp至27bp的較長標簽,用于改善mRNA對基因組的分配(Matsumura等,2003)。盡管本發(fā)明也利用IIS型、IIG型或III型限制性內切核酸酶以產生序列標簽,但就制備方法和改善的信息內容而言,所得的本發(fā)明GVT對與前述SAGE和GST標簽根本不同。就產生尤其可用于表征新基因組或注釋(annotate)基因組和DNA樣品的精細結構變化的高分辨率物理圖譜而言,相對于使用單個未連接標簽,本發(fā)明空間連接的標簽對顯著改善效率和分析能力。Ng等(2005)的近期工作描述了SAGE法的進一步發(fā)展。研究者利用Collins和Weissman(1984)首創(chuàng)的方法,在該方法中利用DNA片段環(huán)化(也稱為分子內DNA連接),以將遠端DNA區(qū)段一起連接入載體中,產生所謂的“基因組跳躍文庫(genomicjumpinglibraries),,(Collins等,1987)。Ng等環(huán)化單個cDNA,以將其5,和3,來源的SAGE標簽連接在一起,產生“配對末端雙標簽”(PET),然后將其寡聚化,以利于有效測序。通過鑒定轉錄單元的轉錄起始位點和聚腺苷酸化位點,以劃分基因邊界和幫助鑒定它們的側翼調節(jié)序列,可將PET用于基因組注釋。盡管本發(fā)明GVT對和PET均依靠分子內連接來實現(xiàn)DNA標記連接,但只有本發(fā)明GVT對整合了物理距離和其它有用信息例如相鄰限制位點的連接,由此使GVT對唯一并可用于詳細的基因組結構分析。Ng等(2005)沒有教導產生空間上限定的標簽或基于如本公開內容所述的其它標準的標簽的方法,他們也沒有揭示可如何使用他們的PET法獲得基因組的精細結構變化或揭示不通過唯一使用IIS型限制性內切核酸酶MmeI產生序列標簽的其它方法。最后,Ng等(2005)沒有預見能夠有效使用下一代短讀取(shortread)DNA序列分析儀的方法。Berka等(2006)(美國專利申請2006/0292611)和Kobel等(2007)最近描述了DNA成對末端作圖法,其在功能上類似于本發(fā)明,但他們的方法在最終標記的DNA產物的空間方向上根本不同,并且具有某些重要的缺點。在Kobel等(2007)和Berka等(2006)的方法中,工作者將生物素化發(fā)夾連接物連接至靶DNA插入物的各個末端,在此之后,通過將連接物序列連接在一起來使分子環(huán)化,以使最初的靶DNA末端相互緊密接近,位于新并列的生物素化連接物對的任一側。然后將環(huán)狀分子隨機切割,以產生具有離最初靶DNA插入物末端的隨機距離的暴露的末端。將由此產生的線狀DNA片段通過抗生物素蛋白親和色譜回收,并沿著其全長測序。Kobel等(2007)利用下一代DNA序列分析儀GENOMESEQUENCERFLX(RocheDiagnostics,Indianapolis,IN;454LifeScienceCorp,Bradford,CT)(常稱為"454-序列分析儀”),得到靶DNA插入物的最初末端序列。然而,如所述產生的所得產物不能有效地在SOLEXAGENOMEANALYZER(Illumina,SanDiego,CA)(常稱為"S0LEXA序列分析儀”)或產生“短序列讀出”的任何下一代測序平臺的SOLiD序列分析儀(AppliedBiosystems,FosterCity,CA)上探詢(interrogate)。Kobel等(2007)和Berka等(2006)產生的DNA產物采取所謂的“由外向內(outside-in)”拓補,由此靶DNA插入物的最初末端(“外側”)以反向位置(“向內”)定向,所述反向位置被新并列的生物素化連接物對所間隔開,所述連接物對隨機位于所得DNA片段的長度之內。由于與最初的靶DNA末端相比采取“由外向內,,拓補,所以為了確定最初靶DNA片段的末端序列,對于跨過生物素化連接物對并通過DNA產物的另一側的序列而言,序列測定數(shù)百個堿基或以上是必要的。如此產生的大部分產物在454-序列分析儀的400bp讀取長度之內。短讀取DNA序列分析儀例如SOLEXA的操作成本為454-序列分析儀的十分之一或更低,但通常支持50個堿基的讀取長度,該長度不足以絕對精確地探詢由Berka等(2006)和Kobel等(2007)的方法所產生的產物。Berka等(2006)描述了他們方法的變體,其中將IIS型限制性內切核酸酶MmeI用于產生對應于最初DNA插入物末端序列的約20個堿基的標簽。通過該方法,工作者將標簽的長度固定在SOLEXA型DNA序列分析儀的DNA測序能力范圍之內。然而,所述標簽仍呈“由外向內,,拓補,并且由MmeI消化產生的固定的約20個堿基的標簽實在太短以致于不能清楚地對復雜基因組作圖,以用作基因組工具或輔助序列組裝。此外,固定的20個堿基的標簽并不能受惠于下一代短讀取DNA序列分析儀在讀取長度上的最新改進。目前SOLEXA支持的讀取長度為來自DNA模板各個末端的50個堿基,預期稍后在2009年增加至76個堿基。本發(fā)明通過以下幾項克服了前述限制1)產生GVT對的能力,由此可將靶DNA上的標簽對成員的間距由Ikb以下改造至數(shù)百kb以上,以使檢測分辨率適于分析不同類型的核酸和適于任何既定的實驗設計;(2)標簽對成員之間明顯更精確和均一的間距,用于更高的分析精度;(3)基于除了間隔距離之外的其它標準產生基因組標簽對的能力,例如基于相鄰可切割的內切核酸酶位點的位置和/或相對間隔距離,產生用于改善靶核酸樣品的探詢的標簽對;和(4)為了更高的經濟性,使本發(fā)明方法適合用于下一代大規(guī)模并行DNA序列分析儀中。通過采用所謂的“外向外(outside-out)”拓補學,由此并列的末端序列標簽(GVT對)保留與最初靶DNA插入物末端相同的空間方向,并且通過使用頻繁切割的II型限制性內切核酸酶以產生平均長度100-200bp的GVT,可將SOLEXA“成對-末端-讀取”平臺直接譯成甚至更長的GVT序列,其僅由該設備的實際讀取長度限制。發(fā)明簡述本發(fā)明涉及產生連接基因組序列的標簽對和快速產生高分辨率基因組圖譜的系統(tǒng)、方法、組合物、載體、載體組分和試劑盒。本發(fā)明產生短并列序列標簽(稱為基因組變化標簽(GenomicVariationTag,GVT))對,其中GVT對的組成成員具有用戶定義的間隔距離,和/或為位置的標記,其沿著研究中的核酸分子長度劃分一種或多種不同限制性內切核酸酶的可切割的相鄰位點。當用計算機比對GVT對的各個GVT與參比序列時,它們的預期同一性、間隔距離和/或方向與參比序列的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細結構差異。以此方式,GVT對的綜合文庫表示可用于產生高分辨率結構圖譜以鑒定核酸群之間的精細結構變化的高分辨率基因組概況。本發(fā)明的另一方面使用戶能夠定義和改變由GVT對標記的核酸群的間隔距離,因此允許產生適合以不同的空間分辨率和物理覆蓋率檢測精細結構變化的GVT對文庫。本發(fā)明的另一方面產生為位置標記的GVT對,所述位置沿著研究中核酸群長度緊鄰一種或多種不同限制性內切核酸酶的相鄰且可切割的識別位點對。因此,可通過產生由使用甲基化敏感的限制性內切核酸酶差異消化產生的序列標簽,將本發(fā)明用于研究DNA群體的甲基化狀態(tài)。本發(fā)明的另一方面產生以下GVT對,其為一種或多種不同限制性內切核酸酶的相鄰且可切割的識別位點對的標記,且在沿著研究中核酸群的長度上被用戶定義的距離間隔開。本發(fā)明的另一個方面提供用于在靶DNA上產生高達約50kb以上間隔距離的GVT對的方法、載體和DNA骨架。本發(fā)明的另一個方面提供產生可在下一代大規(guī)模并行DNA序列分析儀上有效測序的GVT對的方法。關于下一代DNA序列分析儀的綜述參見Morozova和Marra(2008)以及Mardis(2008)。按照本發(fā)明的一個方面,將用于分析的目標群DNA隨機片段化或在限定位置片段化。將片段化的靶DNA插入物連接至合適的載體或DNA骨架中,由此將連接的靶插入物用一種或多種頻繁切割的II型限制性內切核酸酶消化,所述核酸酶在離各個末端有用的距離上切割所述插入物引起間插序列的釋放,得到依然連接至未消化載體或DNA骨架的GVT對。通常,用具有4個堿基識別位點的頻繁切割的II型限制性內切核酸酶消化產生100-200bp長度的GVT,該長度對應于靶DNA插入物的末端與第一個切割位點的位置之間的平均距離。通過將GVT連接在一起產生GVT對將新產生的載體-GVT復合體重新環(huán)化,所述GVT對表示處于與最初的靶DNA插入物相同的相對方向的并列末端區(qū)。通過在GVT對側翼的限制性內切核酸酶位點消化或者通過利用用GVT對側翼的合適引物的PCRJfGVT對從載體或DNA骨架中釋放出來。當將GVT對的單個GVT序列用計算機與參比序列比對時,它們的預期同一性、間隔距離或方向與所述參比上排列的那些的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細結構差異。因此,多個GVT對列成表格的序列(tabulatedsequence)構成靶核酸群相對于參比序列的詳細基因組概況。按照本發(fā)明的另一個方面,將片段化的靶DNA克隆至新型粘粒載體pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37或pSLGVT-38中,用于產生用于使用下一代S0LEXA、SOLiD或454-DNA序列分析儀的序列測定中的45_50kb間隔距離的GVT對。本發(fā)明的這些和其它方面在參考以下詳述時將變得顯而易見。此外,將各種參考文獻(包括專利、專利申請和期刊文章)標識如下并通過引用結合到本文中。本發(fā)明或其衍生產物(derivedproduct)提供的有用應用包括但不限于高分辨率基因組圖譜的快速構建,所述圖譜可用于(1)鑒定基因組的精細尺度變化(fine-structural-variant),該精細尺度變化促成人類多樣性,并可能引起疾病、疾病進展或疾病易感性以及用作診斷學或治療干預靶的其它所觀察到的性狀;(2)使得能夠設計和建立用于快速和大規(guī)模并行探詢DNA樣品中的精細結構變體的寡核苷酸微陣列或其它測定方法,用于醫(yī)學診斷、基因分型和其它這樣的有用用途;(3)促進由完整基因組或鳥槍DNA測序法精確并快速地進行DNA組裝;(4)鑒定由差異RNA加工產生的RNA轉錄物的精細結構變化,以有助于基因組注釋、功能基因組研究和潛在疾病診斷;(5)建立基因組概況,以促進比較基因組學和系統(tǒng)發(fā)生研究和有助于差異鑒定密切相關的生物;和(6)建立相關品系、品種(race)、生物型、變體、品種(breed)或物種的基因組概況,以鑒定可能引起任何可觀察到的理論、醫(yī)學或商業(yè)目標表型的基因組元件。發(fā)明詳述本發(fā)明提供新型改進的高通量方法、載體和載體組分,以篩選和鑒定核酸群中的精細結構變化。本發(fā)明包括產生并列序列標簽(GVT)的體外和體內方法,所述并列序列標簽中標簽對(GVT對)的兩個組成成員為限定間隔距離的獨特位置標記和/或為核酸位置的標記,其沿著多個靶核酸分子的長度劃分一種或多種不同限制性內切核酸酶的相鄰切割位點。所述方法包括將靶核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與DNA載體或骨架連接,以產生環(huán)狀分子;用一種或多種核酸酶優(yōu)選頻繁切割的II型限制性內切核酸酶消化靶DNA插入物,以在離靶DNA插入物各個末端的一定距離上切割靶DNA插入物,從而產生兩個序列標簽(GVT),其包含連接至未消化的線狀載體或DNA骨架的靶DNA插入物末端序列;以及使具有連接的GVT的線狀載體或DNA骨架重新環(huán)化,得到含具有兩個并列GVT的GVT對的環(huán)狀DNA分子;通過核酸擴增或用具有GVT對側翼的位點的限制性內切核酸酶消化,回收GVT對DNA。當用計算機比對GVT對的單個GVT與參比序列時,它們的預期同一性、間隔距離和/或方向與參比序列的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細結構差異。通過該方法,GVT對的綜合文庫表示以下高分辨率基因組概況其可用于產生高分辨率結構圖譜以鑒定核酸群之間的精細結構變化和用于產生基因組支架(genomicscaffold)以輔助基因組組裝和結構分析。1.用于產生GVT對的核酸的制備和片段化如本文所述,本發(fā)明提供產生高分辨率基因組圖譜的方法,該圖譜可用于表征未知基因組和輔助未知基因組的組裝或鑒定靶核酸群與參比序列的之間精細結構變化。適于分析的靶核酸包括但不限于真核生物和原核生物的基因組DNA、微生物DNA、質體DNA、質粒和噬菌粒DNA;病毒DNA和RNA;來源于核糖核酸(RNA)的互補DNA(cDNA);以及通過體外擴增例如尤其通過PCR產生的DNA。用于從前述來源中分離DNA、由RNA合成cDNA和擴增核酸的方法為本領域技術人員已知。對于某些實施方案,GVT對沿著靶DNA長度所跨越的物理距離決定了用于分析的分辨率水平。GVT之間的間距越小,用于作圖和用于檢測靶核酸群中的精細結構變化的空間分辨率就越高。較大GVT對間距需要較少的GVT對,以物理上覆蓋既定復雜性的DNA樣品,但檢測小基因組結構變體的空間分辨率伴隨下降。大GVT對間距跨越大的重復區(qū)以促進從頭基因組組裝和DNA中大結構變化的分析。產生具有5kb、IOkb、25kb、50kb、IOOkb或更高間隔距離的GVT對的能力允許終端用戶在GVT間距、對檢測不同類型的DNA結構變化所需的分辨率水平和為既定復雜性的基因組提供足夠物理覆蓋率所需的GVT對數(shù)目之間選擇功能折衷。不同間距的GVT對的最佳數(shù)目和比例可針對特定應用用計算機建模。如上所述,用于構建GVT對的靶DNA插入物的物理長度控制GVT對的固有GVT(residentGVT)之間的間隔距離,從而設定用于分析的分辨率水平。產生和純化接近大小均一的片段化核酸分子群的方法在本領域已有描述。片段化靶DNA群至所需的插入物長度可用多種限制性內切核酸酶在部分或完全消化的條件下酶促實現(xiàn)。具有6個或更多堿基對的識別位點的限制性內切核酸酶的使用可用于產生更長的DNA片段。一種或多種對DNA甲基化具有不同敏感性的限制性內切核酸酶的使用可用于評價靶DNA群的DNA甲基化狀態(tài)。頻繁切割的II型限制性內切核酸酶如MboI,HaeIII等平均每256bp切割DNA—次(基于靶DNA中四種堿基的隨機分布和等量存在),這些酶的使用為本領域已知,用于通過部分消化產生各種大小的DNA片段。在放寬條件下使用限制性內切核酸酶CviJ1(于GC二核苷酸位置切割DNA(Fitzgerald等,1992))尤其可用于在部分消化條件下產生DNA片段大小的有用連續(xù)體。在某些實施方案中,隨機產生的DNA片段為有用的。用于產生隨機DNA片段的方法包括(1)用牛胰腺脫氧核糖核酸核酸酶I(DNA酶I)消化,該酶在錳離子存在下在DNA中進行隨機雙鏈切割(Melgar和Goldwait,1968;Heffron等,1978);(2)物理剪切(Shriefer等,1990);禾口(3)超聲(Deininger,1983)。用于部分酶促消化的條件憑經驗確定,即改變反應體積、酶濃度以及酶與底物的比率、保溫時間或溫度中的一個或多個參數(shù)。對于需要約5kb或更小的GVT間隔的高分辨率分析,優(yōu)選非序列依賴性的片段化方法。牛胰腺DNA酶I在錳離子存在下在DNA中進行隨機雙鏈切割(Melgar和Goldwait,1968;Heffron等,1978),因而可用于該目的。同樣,還可使用通過機械手段例如超聲或選擇性應用剪切力的DNA片段化。HYDR0SHEAR設備(GenomicSolutionsInc,AnnArbor,MI)或采用自適應聚焦聲學(AdaptiveFocusedAcoustics)的C0VARIS(CovarisInc,Woburn,MA)設備尤其可用于產生限定大小范圍的隨機DNA片段。還可單獨或與所述的其它片段化方法組合通過在cDNA合成期間或PCR期間使用隨機引物,產生隨機DNA片段。通過凝膠電泳容易監(jiān)測產生所需長度產物的片段化的發(fā)展。在產生適宜的DNA大小分布后,使用T4DNA聚合酶修復或制備靶DNA平端,以準備平端連接至載體、DNA骨架或GVT-連接物,用于產生本發(fā)明GVT對。在通過用一種或多種內切核酸酶部分或完全消化來片段化DNA而留下粘性末端的情況下,無需修復,但需要設計GVT-連接物、載體或DNA骨架來適應由片段化酶產生的特定粘性末端。因為靶DNA插入物與其它靶DNA插入物的連接破壞了樣品的共線性(co-linearity),并破壞了基因組圖譜的構建,所以通過磷酸酶去除靶DNA的5’磷酸基團,以防止在與GVT-連接物或DNA骨架的連接期間產生嵌合DNA插入物。2.大小選定的DNA的大小分級分離和純化對于某些實施方案,通過凝膠電泳或通過高效液相色譜法(HPLC)分級分離去磷酸化的DNA插入物,以產生所需大小的純化DNA插入物。聚丙烯酰胺凝膠最好用于分級分離50bp至Ikb的DNA。對于大小約250bp至約50kb的片段,0.4%至3%瓊脂糖凝膠是適宜的。脈沖場凝膠電泳適于分級分離約IOkb至幾百kb大小的DNA。這些方法描述于本文的參考文獻(Rickwood禾口Hames(編輯),載于Gelelectrophoresisofnucleidacid-Αpracticalapproach,OxfordUniversityPress,NewYork,1990;Hamelin禾口Yelle,1990;Birren禾口Lai,載于Pulsefieldelectrophoresis:Apracticalguide,AcademicPress,SanDiego,1993)。將DNA通過使用與樣品平行電泳的適宜大小標志物確定大小,并通過染色可視化。用手術刀切下含有所需大小DNA的凝膠切片,其后通過電洗脫或者通過酶促或化學降解凝膠基質從凝膠基質中回收DNA。用于分析的回收DNA片段大小應接近均一。用于最大化分離分辨率的凝膠系統(tǒng)和電泳條件是本領域已知的。使用兩輪以上的凝膠電泳可獲得更高的樣品大小均一性。平均長度的大小方差超過2.5%-5%的樣品可導致對本發(fā)明使用不可接受的噪音。3.GVT-連接物的設計和靶DNA與載體或DNA骨架的連接在某些實施方案中,首先將靶DNA插入物與連接物連接,以促進其與合適載體或DNA骨架的連接。在其它實施方案中,將靶DNA插入物直接與載體或DNA骨架連接,而不使用連接中間體。在其它實施方案中,首先將各個連接物連接至靶DNA的各個末端,于是新連接的連接物的自由端重新環(huán)化形成功能DNA骨架,用于隨后產生GVT對。連接物可摻入諸如生物素基團等部分以有助于所需DNA產物的親和純化。連接物也可摻入限制性內切核酸酶識別位點,用于從DNA骨架中切下所產生的GVT對,或者摻入IIS、IIG或III型內切核酸酶的核酸酶識別位點,以通過切割所連接的靶DNA插入物來產生GVT。對于其中靶DNA插入物直接與載體或DNA骨架連接的GVT產生而言,可將用于前述IIS、IIG或III型限制性內切核酸酶的適宜識別位點摻入至載體或DNA骨架的設計中。本發(fā)明的另一個方面利用一種或多種II型限制性內切核酸酶消化所連接的靶DNA插入物,以產生連接至載體或DNA骨架的各個末端的GVT,其中將所述載體或DNA骨架設計為不含這些消化位點并保持未消化。本領域技術人員會認識到,存在多種適用于實施本發(fā)明的GVT-連接物設計??傮w而言,適宜的GVT-連接物包含以下材料性質(1)5’磷酸化寡核苷酸的短上鏈(topstrand)和短下鏈(bottomstrand),其能夠穩(wěn)定互補堿基配對以產生雙鏈結構;(2)GVT-連接物的一端具有粘性延伸(優(yōu)選非回文的),其與載體、DNA骨架或具有互補序列的另一個連接物連接;(3)另一連接物末端具有平端結構或其它適宜的末端結構,使得能夠與靶DNA片段(優(yōu)選去磷酸化的靶DNA)有效連接;(4)對于某些實施方案,靶DNA插入物側翼的連接物末端可帶有適宜的IIS型、IIG型或III型限制性內切核酸酶識別位點,其方向使得所述位點引導在靶DNA內以與靶DNA末端相距固定且有用的距離切割,以產生GVT(關于IIS型、IIG型和III型限制性內切核酸酶的綜述,參見Sistla和Rao(2004)、Bujnicki(2001)、Szybalski等(1991);和(5)連接物可具有第二個限制性內切核酸酶位點,用于從載體中切下所產生的GVT對。本領域技術人員已知用于連接連接物與DNA插入物和用于核酸分子的一般連接的方法。參見例如Ausubel等(編輯)(載于ShortProtocolsinMolecularBiology,第3版,JohnWiley和Sons,NewYork,1995)。用于將連接物與DNA插入物有效平端連接的典型連接條件需要相對于靶DNA約50至數(shù)百倍摩爾過量的連接物、高T4DNA連接酶濃度或包含諸如聚乙二醇等的體積排阻劑(Hayashi等,1986;Pheiffer和Zi_erman,1983;Zimmerman和Pheiffer,1983)。連接物與粘性末端靶DNA的有效連接需要約5倍摩爾過量。使連接GVT-連接物的DNA插入物通過CHR0M0SPIN柱(Clontech,MountainView,CA),以去除過量的連接物,然后通過凝膠電泳純化和大小選擇。為通過分子內連接產生GVT對,將純化的連接連接物的靶DNA插入物連接入如下所述的幾種質粒載體和DNA骨架中的一種。按照本發(fā)明的一個方面,任何限制性內切核酸酶(優(yōu)選頻繁切割的II型限制性內切核酸酶(其優(yōu)先切割靶DNA插入物而不是載體))、DNA骨架或與靶DNA連接的任何連接物,適用于產生GVT和GVT對。REBASE限制酶數(shù)據庫提供II型限制性內切核酸酶、同切點酶、異切點酶(neoschizomer)、識別序列、工業(yè)效用和參考文獻的信息(rebase.neb.com)。優(yōu)選的II型限制性內切核酸酶為頻繁切割靶DNA插入物的酶,例如以下酶其識別4個堿基對位點,從而產生平均長度100-300bp的GVT。II型限制性內切核酸酶FspBI或Csp6I單獨或組合為尤其適合用于本發(fā)明中以產生GVT,因為這兩種酶頻繁切割并產生相同的互補粘性末端,允許通過分子內連接而無需對末端修飾來直接產生本發(fā)明GVT對。認為其它僅切割靶DNA插入物而不切割載體、DNA骨架或靶DNA插入物所連接的連接物的限制性內切核酸酶在本發(fā)明用于產生GVT和GVT對的范圍和精神內。4.用于GVT對制備的載體和DNA骨架在其中需要大GVT-間距的某些實施方案中,可能需要在產生GVT之前在宿主細胞內增殖靶DNA。當在宿主細胞中增殖時,含有富AT或GC序列、重復、發(fā)夾、強啟動子、毒性基因和其它問題序列的靶DNA區(qū)段的重排或丟失是受關注的。DNA重排和其它克隆人為產物可被錯認為是靶核酸中的結構變化。此外,克隆偏倚(cloningbias)可限制插入物的大小,并可對研究中的基因組的重要區(qū)域呈現(xiàn)不足(under-r印resent)。最近條件擴增型F粘粒載體和BAC載體的發(fā)展解決了該問題(Szybalski,美國專利第5,874,259號),所述載體中DNA的增殖保持在每個宿主細胞1-2個拷貝,直至為進行分析而被誘導至較高水平。報道了15kb至超過IOOkb的基因組插入物的穩(wěn)定性改善,而且條件擴增型載體現(xiàn)常規(guī)用于基因組研究。條件擴增型F粘粒/BAC載體例如pCClFOS(Epicentre,Madison,WI)和pSMART-VC(Lucigen,Middleton,WI)以及它們的變體,適用于產生IOkb至200kbGVT-間距的GST-對。然而,常規(guī)低拷貝質粒載體的使用似乎足以穩(wěn)定維持大DNA片段,而不需要BAC、PAC或F粘粒型載體(Feng等,2002;Tao和Zhang,1998)。pSMART系列載體提供低拷貝數(shù)增殖,并具有在載體上具有轉錄終止子的額外特征,以降低轉錄干擾的潛在作用,這可進一步改善DNA穩(wěn)定性(Mead和Godiska,美國專利第6,709,861號)。對于產生IOkb或更大GVT-間距的GVT對而言,多種已建立并廣泛使用的基于低拷貝質粒的載體適合用于產生GVT對,這些載體包括pBR322(Bolivar等,1977)、pACYC177(Chang和Cohen,1978)和本公開內容中所述的其它載體。為了實施本發(fā)明,與靶DNA連接的載體或DNA骨架必須不含用于從靶DNA插入物中產生GVT的限制性內切核酸酶的切割位點。由于對載體或DNA骨架的切割將破壞GVT的空間連接,因此這防止通過分子內連接形成GVT對。可通過使用標準方法進行位點定向誘變來制備無不需要的限制性位點的載體骨架。參見,例如McPherson(編輯)(載于DirectedMutagenesis-ΑPracticalApproach,OxfordUniversityPress,NewYork,1991)和Lok(美國專利第6,730,500號)。通常,可通過單個堿基對變化來改變載體DNA或DNA骨架的實質部分,以消除不需要的限制性內切核酸酶識別位點而不會因此對功能性有影響。在蛋白編碼序列之內,將單個核苷酸變化靶向密碼子擺動位置(codonwobbleposition),以保持天然蛋白編碼。在載體或DNA骨架上的其它地方所作的改變應需要在使用前進行功能驗證。許多限制性內切核酸酶對其識別位點的甲基化敏感;具體而言,在脫氧胞嘧啶的5-碳位置的甲基化可使載體或DNA骨架上的這些位點不被消化。可通過經由PCR直接摻入5-甲基-dCTP、通過由具有不同限制修飾系統(tǒng)的合適宿主細胞使DNA傳代或通過使用特異性甲基化酶來實現(xiàn)DNA甲基化,以使載體或DNA骨架上的限制性位點不再被酶促切割。REBASE限制酶數(shù)據庫提供限制性內切核酸酶的甲基化敏感性信息(rebase.neb.com)0通過分子內連接形成GVT和GVT對的DNA骨架還可通過直接化學合成以任何所需規(guī)格產生。隨后大量制備DNA骨架可通過化學合成或者部分或全部通過PCR從模板制備。DNA骨架可包含用于在微生物宿主中增殖的復制起始和選擇標記?;蛘?,DNA骨架可僅包含最小序列,其主要包含空間連接的連接物對。首先將各個連接物與靶DNA插入物的末端連接,然后將連接物游離端連接在一起以重構DNA骨架,從而形成用于GVT制備的環(huán)狀分子。在某些其它實施方案中,連接物可摻入IIS、IIG或III型限制性內切核酸酶位點的識別位點,所述位點呈指導以與靶DNA末端相距限定距離切割靶DNA以產生GVT的方向。生物素和其它部分也可摻入DNA骨架中,以使得能夠在體外GVT對制備的不同步驟中親和純化DNA中間體。一種尤其有用的設計包括合成的DNA骨架,其不含所有或大多數(shù)的16種可能的4個堿基對回文結構。這類DNA骨架允許通過單獨或組合使用幾乎任何4堿基識別限制性內切核酸酶消化所連接的靶DNA插入物而不會切割DNA骨架或連接物,來產生GVT。另一種尤其有用的DNA骨架設計摻入以下序列其與綁定用于下一代DNA測序平臺的DNA擴增和測序引物相容,用于大規(guī)模并行高通量GVT對DNA測序。優(yōu)選DNA骨架足夠長以提供用于擴增所形成的GVT對的引物結合位點、以實現(xiàn)親和純化、以能夠有效銜接(連接)至靶DNA或以最好成為提供參比點的獨特標識符。5.GVT對制備載體pSLGVT-1、pSLGVT-2、pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37和pSLGVT-38pSLGVT系列載體包含兩個化學合成的DNA組件以分別提供藥物選擇和質粒復制的基礎維持功能。載體組件帶有末端獨特的IIS型限制性內切核酸酶位點,其產生獨特的不對稱粘性末端,以允許在以后快速重構載體組分,從而針對新功能加入或取代組件或DNA表達盒。第一載體組件含有修飾的P15A復制起點。帶有P15A復制子的質粒以每個宿主細胞約15個拷貝的低數(shù)目增殖(Sambrook等,載于MolecularCloning-ΑLaboratoryManual,第2版,CSHLaboratoryPress,ColdSpringHarbor,NewYork,1989),由此優(yōu)化所克隆的基因組插入物的穩(wěn)定性。P15A復制子中的MmeI位點通過進行消除兩個位點的每個可能的單核苷酸改變而除去,然后針對復制能力篩選各個突變體以產生用于構建PSLGVT-I的功能性“P15A-m復制子組件”。通過簡單的單堿基改變除去P15A復制子內的EcoP15I位點,以產生用于構建質粒pSLGVT-2的“P15A_e組件”。第二個載體組件包含來自轉座子Tn903的經修飾的Kan基因,其賦予針對抗生素卡那霉素的抗性(Grindley等,1980)。利用擺動位置并盡可能與大腸桿菌中的最佳密碼子使用一致,除去Kan基因編碼區(qū)中的4個MmeI位點連同2個NciI和NsiI位點以及針對Esp3I,PstII和HindIII的單個位點,以產生“Kan組件”。粘粒載體pSLGVT-28為制備用于下一代DNA測序平臺的具有45_50kb空間間隔的GVT對提供獨特的益處。具有該間距的GVT對尤其可用于提供基因組DNA的有效物理覆蓋率,以鑒定精細結構變化,和用于針對制備基因組支架而跨越大的重復DNA區(qū),以促進復雜基因組的從頭測序。pSLGVT-28通過以下幾個步驟衍生自pSLGVT-2:(1)摻入來自噬菌體λ的用于體外噬菌體包裝的COS位點,使得能夠有效且精確地以生物學大小選擇靶DNA插入物,以產生具有精確約45-50kb間隔的GVT對的復雜文庫;(2)通過位點定向誘變除去載體上的所有FspBI和Csp6I限制性內切核酸酶位點,從而允許通過單獨或組合使用那些酶消化所連接的靶DNA插入物來產生GVT和隨后的GVT對;和(3)針對位于IlluminaCorporation的“Adaptor-A”和“Adaptor-B”序列之間的靶DNA產生克隆位點,以允許使用SOLEXA“成對-末端-讀取”測序平臺進行固相DNA擴增和測序所產生的GVT對。具有45_50kb間隔的GVT對的有效形成以及在SOLEXA“成對-末端-讀取”平臺上的大規(guī)模并行DNA測序,相對于Tuzim等(2005)的低通量F粘粒配對-末端作圖法在鑒定基因組變化和制備長范圍支架以有助于DNA組裝方面,提供成本和有效性的巨大進步。粘粒載體pSLGVT-35為pSLGVT_28的衍生物,其中一對反向的BdiVI限制性內切核酸酶位點位于IlluminaCorporation的SOLEXA“Adaptor-A”和“Adaptor-B”序列之間。BciVI為IIS型限制性內切核酸酶,其從酶識別位點產生位于6個堿基對的一個堿基的3’延伸。BciVI消化用于產生載體上的Adaptors-A和Adaptor-B側翼的單個3’胸腺嘧啶突出端,以接收按照用于DNA模板制備的SOLEXADNA制備試劑盒制備的靶DNA插入物尾部的腺嘌呤。粘粒載體pSLGVT-36為pSLGVT-28的衍生物,其中SOLEXAAdaptor-A和Adaptor-B序列被來自RocheDiagnostics的454-平臺(GSFLXTITANIUM)的Adaptor-A和Adaptor-B置換,用于直接在該平臺上對GVT對進行序列測定。粘粒載體pSLGVT-37為pSLGVT-28的另一種衍生物,其中SOLEXAAdaptor-A和Adaptor-BI^jftgAppliedBiosystems白勺SOLiD"Mate-PairLibrary"^^^internalAdaptor置換,用于直接在所述SOLiD平臺上對GVT對進行序列測定。粘粒載體pSLGVT-38為pSLGVT-28的另一種衍生物,其中將SOLEXAAdaptor-A和Adaptor-B用RocheDiagnostics的454—InternalAdaptor置換,以產生適于“由夕卜向內,,構型的GVT對,用于在所述454-平臺測序。6.GVT對制備在某些實施方案中,通過機械或酶促方法隨機片段化用于產生GVT對的靶DNA群,以產生具有所需大小的片段用于GVT對制備。在其它實施方案中,將靶DNA群用一種或多種限制性內切核酸酶在獨立反應中或組合中消化至完全,以在指定位置切割靶DNA。在另一個實施方案中,將靶DNA用一種或多種限制性內切核酸酶消化至完全,然后分級分離至所需大小。為了用產生粘性末端的酶消化靶DNA,可將去磷酸化的靶DNA直接克隆至適當修飾的載體或DNA骨架中。使用T4DNA聚合酶或綠豆核酸酶修復具有“不平齊”末端的片段化靶DNA,然后去磷酸化以防止產生嵌合的靶DNA插入物。同樣,也去磷酸化帶有粘性末端的靶DNA以防止產生嵌合的插入物。在使用連接物進行靶DNA與載體或DNA骨架的連接時,將CHR0MASPIN柱(Clontech,MountainView,CA)用于除去未連接的連接物,然后將連接物連接的靶DNA與GVT制備載體連接。在某些實施方案中,在GVT制備之前,通過凝膠電泳或通過其它方法將靶DNA經大小選擇至所需的長度。本文使用的粘粒、F粘粒、噬菌粒(phagmid),BAC和其它附加體元件被統(tǒng)稱為質?;駾NA骨架。針對在一定片段長度范圍內的DNA區(qū)段,已描述了用于優(yōu)化載體或DNA骨架與插入物的分子內連接繼而分子內連接以產生環(huán)狀分子的連接條件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966)。用于連接核酸分子、轉染入宿主細胞中和用于構建基于質粒的文庫的通用方法是本領域技術人員已知的。參見例如Sambrook等(載于:MolecularCloning:Alaboratorymanual第2版,CSHpress,NewYork,1989);Ausubel等(編輯)(載于ShortProtocolsinMolecularBiology,第3版,JohnWiley和Sons,NewYork1995);Birren等,(載于Bacterialartificialchromosomesingenomeanalysis-Αlaboratorymanual,CSHPress,NewYork,1999)。通過電穿孔或轉染將連接的靶DNA導入宿主細胞中?;蛘?,將45-50kb的靶DNA插入物連接至合適的粘粒載體例如pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37、pSLGVT-38或其衍生物上,在使用合適的市售包裝提取物(Stratagene,LaJolla,CA)體外噬菌體包裝之后,轉導至宿主細胞中。甲基化的靶DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細胞菌株,所述甲基化的靶DNA例如為通過某些利用甲基化核苷酸類似物的方案合成的基因組DNA或cDNA。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)0在適宜藥物選擇下,將電穿孔、轉染或轉導的細胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產生初始文庫。備選方法是在液體培養(yǎng)基中培養(yǎng)轉導或轉染細胞,同時小心不使細胞過度生長而促進不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應反映出研究設計所需要的GVT對的數(shù)目。收獲細胞,并分離質粒,用于下述的后續(xù)步驟。在本發(fā)明的一個方面中,將帶有靶DNA插入物的pSLGVT-28、pSLGVT_35、pSLGVT-36、pSLGVT-37、pSLGVT-38和任何其它功能等價載體或DNA骨架用FspBI或Csp6I(FermentasInc,Hanover,MD)消化至完全以產生GVT。所產生的消化作用切割插入物DNA而產生GVT,但不切割所連接的載體或DNA骨架。以該方式產生的GVT大小可變,這取決于靶DNA內切割位點的平均頻率和首個切割位點離靶DNA末端的距離。預期通過FspBI或Csp6I消化隨機片段化的人DNA插入物所產生的GVT具有100_200bp的平均長度。將與新產生的GVT連接的線性化載體或DNA骨架通過凝膠電泳或親和色譜法從消化的插入物DNA片段的環(huán)境中純化出來。將純化的線性產物環(huán)化以得到初始GVT對文庫。可通過DNA擴增從環(huán)化模板中回收GVT對,用于直接DNA測序?;蛘撸瑢в蠫VT對的環(huán)化載體引入宿主細胞中,然后在選擇條件下以每個IOcm板約20,000-50,000個克隆的密度鋪板或在液體培養(yǎng)基中培養(yǎng),以得到初始質粒GVT對文庫。將來自質粒初始GVT對文庫的純化質粒用切割GVT對的兩側的酶消化,以從載體中切下GVT對用于直接DNA測序。7.體外GVT對制備在本發(fā)明的范圍和原理之內考慮在體外制備GVT和GVT對,而沒有通過宿主細胞增殖的步驟。通常,適用于產生GVT而無需通過宿主細胞增殖的DNA骨架的長度應為至少50-100bp或更長,以便具有足夠的區(qū)段靈活性以經過分子內連接產生用于形成GVT對的環(huán)狀分子。用于體外制備GVT對的DNA骨架無需一定包含復制起點或藥物選擇標記。這類DNA骨架應具有合適的GVT對側翼的PCR引物結合位點,用于擴增所產生的GVT對。DNA骨架可部分或全部得自對改造質粒的限制性內切核酸酶消化。也可部分或全部通過PCR或直接化學法寡核苷酸合成來制備合適的DNA骨架。在DNA骨架得自PCR或化學合成的情況下,可將經修飾的核苷酸摻入DNA骨架中用于額外的功能。例如,可將生物素部分摻入DNA骨架中以使得能夠在體外GVT對制備的不同步驟中親和純化DNA中間體。一種特別有用的DNA設計包含基本無或消除16種可能的4個堿基對長的回文結構的DNA骨架,從而允許通過用幾乎所有4堿基識別限制性內切核酸酶消化所連接的靶DNA插入物來產生GVT。DNA骨架也可包含用于克隆擴增DNA模板的引物結合位點和其它序列,用于在下一代序列分析儀上進行DNA測序。盡管體外GVT對制備提供產生更復雜的GVT對文庫的可能性并避免通過微生物宿主細胞增殖步驟的不便,然而在微生物宿主中增殖步驟在某些其中需要將存在的人為產物最少化的應用中有優(yōu)勢。人為產物的主要來源基于其中兩個不同靶DNA分子與載體或DNA骨架的各個末端連接的不需要分子的產生。另一個來源的人為產物在分子內連接以產生GVT對的步驟期間形成,所述步驟中兩個不同載體或DNA骨架的GVT通過分子間連接來連接。具體而言,隨著PCR擴增,來自兩個不同靶DNA的GVT連接而形成人為產物GVT對。已針對在一定片段長度范圍內的DNA區(qū)段,描述了用于優(yōu)化分子間和分子內連接的一般連接條件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966),以得到產生用于體外GVT對制備的環(huán)狀分子的最優(yōu)條件。然而,不需要的連接事件的發(fā)生概率在實踐中不能完全消除。然而,大多數(shù)人為產物GVT對可通過在細菌中的傳代步驟除去。線狀DNA或大的串聯(lián)DNA載體不能有效轉化入和增殖于微生物細胞中,使得該方法成為選擇用于應用例如從頭基因組組裝的方法(其中GVT對的序列共線性是最重要的)。8.使用下一代大規(guī)模并行DNA序列分析儀測序GVT對目前存在三種新的商用系統(tǒng)可用于超高通量、大規(guī)模并行DNA測序GENOMESEQUENCERFLX系統(tǒng),常稱為454-序列分析儀(RocheDiagnostics,Indianapolis,IN);SOLEXA(IIlumina,SanDiego,CA);和SOLiD系統(tǒng)(AppliedBioSystems,FosterCity,CA)這些新設備的通量可超過數(shù)十億堿基調用/運行,該系數(shù)是當前這代基于96-泳道毛細管電泳測序設備的1.5萬倍以上。在本發(fā)明的范圍和原理之內考慮將這些新測序平臺用于表征GVT對。本發(fā)明的GVT對可在新設備上測序,無需過度修改操作方案。454-技術基于在微珠上在克隆擴增的DNA模板上進行的焦磷酸測序(pyrosequencing)化學,所述微珠單獨被加載至高密度光學流通池(opticalflowcell)的蝕刻孔上(Margulies等,2005)。各個堿基延伸產生的信號被專用光纖捕獲。典型的454-設備運行包括的50萬次單次500個堿基的讀取,該長度足以表征本發(fā)明的GVT對。用于大規(guī)模并行DNA測序的AppliedBiosystems的SOLiD平臺基于DNA連接的連續(xù)循環(huán)。通過該方法,將固定化DNA模板在珠粒上克隆擴增,所述珠粒以高密度鋪板至玻璃流通池(glassflow-cell)的表面上,所述流通池中發(fā)生測序反應。通過短限定標記的探針與一系列引物的連接的連續(xù)循環(huán)來實現(xiàn)序列測定,所述引物與固定化模板雜交。SOLiD設備運行包括超過1億次單次50個堿基的讀取。將用于SOLEXA平臺的測序模板固定在專有的流通池表面,其中將它們在原位克隆擴增以形成離散的測序模板簇,其密度高達1千萬以上的模板簇/平方厘米?;赟OLEXA的測序在四種專有的修飾核苷酸存在下以逐步方式利用引物介導的DNA合成進行,所述修飾核苷酸具有可逆的3'雙脫氧核苷酸部分和可切割的chromofluor。在各個延伸循環(huán)之前,將3'雙脫氧核苷酸部分和chromofluor化學去除。如下檢測從各個模板簇中逐步添加核苷酸的循環(huán)通過激光激發(fā)接著圖像捕獲,根據圖像捕獲進行堿基調用(basecalling)0目前設備運行包括76個堿基的高達1億次成對-末端-讀取,這理想地適用于對通過頻繁切割的FspBI或Csp6III型限制性內切核酸酶切割靶DNA產生的GVT對進行測序。在SOLEXA平臺上制備具有45-501Λ空間間隔的GVT對在三個主要平臺中,SOLEXA為唯一在流通池上存在兩種模板鏈而能夠從DNA模板的兩個末端直接測序的平臺。因此,本發(fā)明適于SOLEXA平臺的獨特直接“成對-末端-讀取”能力。當與粘粒載體PSLGVT-35或其衍生物一起使用時,本發(fā)明提供從靶DNA群中產生具有45-501Λ空間間隔的GVT對的能力。與單獨通過使用瓊脂糖凝膠分離可實現(xiàn)的大小分級相比,利用細菌病毒的頭部完整包裝機制極大地提高了靶DNA按大小分級的精度。精確的45-501Λ的間距提供基因組的經濟的物理覆蓋率,以鑒定精細尺度變化和以跨越靶DNA的重復區(qū)域而促進產生用于從頭基因組測序的基因組支架。與Tuzim等000的F粘粒配對-末端作圖法相比,本發(fā)明在物理覆蓋率的經濟性和深度上提供實質進步。SOLEXAAdaptor提供三組重疊的引物結合位點一組指導PCR擴增以產生Adaptor-A和Adaptor-B序列側翼的子代序列模板;第二組介導所得子代模板的固相等溫擴增,產生固定在測序流通池表面上的模板簇;和C3)最后一組為兩條DNA鏈的每一條的測序引物提供結合位點。本發(fā)明利用SOLEXA平臺的成對-末端-讀取能力測序所產生的GVT對。如pSLGVT-35及其衍生物所例示的,將SOLEXA連接物工程改造至DNA載體骨架上,位于靶DNA克隆位點的每一側。以該方式,可在SOLEXA平臺上直接測序新產生的GVT對。152個堿基的GVT對序列得自DNA模板的各個末端的兩個單獨的76堿基單個讀取。FspBI和Csp6I產生的GVT對的有效讀取長度預期為SOLEXA讀取長度,其從目前76個堿基讀取中改進。預計在2009年末支持大于100個堿基的單個成對-末端-讀取。pSLGVT-35為2.6kb的載體,其包含卡那霉素選擇標記、用于穩(wěn)定增殖基因組DNA的低拷貝數(shù)的P15A復制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除了載體上的限制性內切核酸酶FspBI和Csp6I的切割位點,使得能夠在按照本發(fā)明方法從靶DNA插入物制備GVT和隨后的GVT對中利用這些酶。靶DNA克隆位點側接一對反向的BciVI限制性內切核酸酶位點,其直接位于載體上的IlluminaCorporation的SOLEXA"Adaptor-A"與“Adaptor-B”序列之間。BciVI為IIS型限制性內切核酸酶,其從酶識別位點中產生位于6個堿基對的一個堿基的3’延伸。BciVI在反向位點對處消化載體產生Adaptors-A和Adaptor-Β側翼的單個3,胸腺嘧啶突出端,以接收按照SOLEXADNA模板制備試劑盒制備的靶DNA插入物尾部的腺嘌呤。將靶DNA剪切成40-551Λ之間的片段大小,并將末端用T4-DNA聚合酶修復并在dATP存在下利用沒有外切活性(exominus)的Klenow聚合酶用單個腺嘌呤核苷酸接尾。將45-501Λ的DNA片段從瓊脂糖凝膠中純化出并連接至胸腺嘧啶接尾的pSLGVT-35載體上。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅動含載體和靶DNA片段交替的長串聯(lián)體產生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產生初始粘粒文庫,其包含在一側被SOLEXAAdaptor-A側接和另一側被SOLEXAAdaptor-B側接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細胞,同時小心不使細胞過度生長而促進不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應反映出研究設計所需的GVT對數(shù)目。收獲細胞,并分離粘粒DNA,用于GVT制備。將帶有靶DNA插入物的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應于靶DNA插入物的末端。將回收的物質稀釋至低于25ng/ul,用于分子內連接以產生GVT對。新并列的GVT的連接處由構重關于用于產生GVT的酶的限制性內切核酸酶位點來劃分,并設定GVT對中的GVT的邊界用于隨后的數(shù)據分析。通過使用SOLEXAAdaptor-A和Adaptor-B的弓|物進行DNA擴增,來從載體骨架中回收所得的GVT對。將回收的SOLEXAAdaptor側翼的GVT對在流通池表面上擴增,用于在SOLEXA平臺上進行成對-末端測序。在本發(fā)明的范圍和原理之內考慮用或不用體外病毒包裝以及通過或不通過宿主細胞增殖的步驟,制備GVT和具有其它空間間隔的GVT對。在后一種情況下,將在各個末端帶有SOLEXAAdaptor的靶DNA插入物克隆至合適的帶有COS位點的DNA骨架中,然后如所述使用市售包裝提取物(Stratagene,LaJolla,CA)包裝至噬菌體頭部中。DNA骨架可用諸如生物素等純化部分標記,以輔助親和純化所需DNA產物。將未包裝的DNA用核酸酶降解,隨之通過酚提取純化保護的包裝DNA。用合適的限制性內切核酸酶(FspBI或Csp6I)切割在所得環(huán)狀DNA分子中的靶DNA插入物,以產生包含與GVT連接的DNA骨架的線狀分子。通過親和色譜法純化所需線狀DNA。用DNA連接酶通過分子內連接將暴露的GVT末端重新環(huán)化,以產生GVT對以及在COS位點封閉DNA以產生穩(wěn)定的環(huán)狀分子。使用Adaptor-A和Adaptor-B引物從連接混合物中通過PCR回收GVT對,用于SOLEXA“成對-末端”測序。在454-平臺外向外拓補上制備具有45-501Λ空間間隔的GVT對本發(fā)明尤其相當適于制備以下GVT對其無需采用Berka等Q006)(美國專利申it2006/0292611)和Kobel等(2007)的方法就能用于在RocheDiagnostics的454-平臺上測序。目前可用于454-平臺的Berka等Q006)和Kobel等Q007)的方法在功能上受限于不超過數(shù)千個堿基的空間距離以及采取所謂的“由外向內(out-side-in)”拓補,該拓補描述了靶DNA的最初末端的反向定向。本發(fā)明提供制備具有45-501Λ空間距離的標記同時保持“外向外(out-side-out)”拓補的方法,因此靶DNA末端序列保持相同的相對方向。盡管在454-流通池上不存在兩種模板鏈,但當前GSFLXTitanium設備的500個堿基讀取長度足以從來自一種模板鏈的單個讀取直接序列測定GVT對,其通過用頻繁切割的FspBI或Csp6III型限制性內切核酸酶切割靶DNA產生。粘粒載體pSLGVT-36使得能夠在454-平臺上制備呈“外向外”拓補的具有45-501Λ空間間隔的GVT對。45-501Λ的精確標記間距提供經濟的基因組物理覆蓋率以鑒定精細尺度變化和跨過重復區(qū)以有利于基因組支架的產生,用于從頭基因組測序和對精細尺度基因組變化作圖。具有501Λ空間間隔的6萬個GVT對表示人類大小基因組的1倍物理覆蓋率。454-設備的當前能力帶來在單次運行就可提供以501Λ分辨率對人類基因組的20倍物理覆蓋率,這與Tuzim等000的F粘粒-配對-末端作圖法相比在物理覆蓋率的經濟性和深度上有實質進步。粘粒載體pSLGVT-36為2.6kb的載體,其包含卡那霉素選擇標記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除載體上限制性內切核酸酶FspBI和Csp6I的切割位點,使得這些酶能夠按照本發(fā)明方法由靶DNA插入物產生GVT和隨后的GVT對。載體的靶DNA克隆位點側接一對RocheDiagnostics的“Adaptor-A”和“Adaptor-B”序列,以使得能夠利用454-Adaptor_A和454-Adaptor-B引物通過PCR回收所產生的GVT對。將Adaptor-A和Adaptor-B序列側翼的回收的擴增GVT對通過乳液PCR(emulsionPCR)擴增以制備用于454-測序的模板。操作上,將用于產生用于454-平臺的45-501ΛGVT對的靶DNA剪切成40-601Λ的片段大小,并用T4-DNA聚合酶修復末端。將修復的靶DNA連接至pSLGVT-36載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅動含載體和靶DNA片段交替的長串聯(lián)體產生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產生初始粘粒文庫,其包含在一側被454-Adaptor-A側接和另一側被454-Adaptor-B側接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細胞,同時小心不使細胞過度生長而促進不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應反映出研究設計所需的GVT對數(shù)目。收獲細胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-31Λ的DNA片段,其對應于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應于靶DNA的末端。將回收的物質稀釋至低于25ng/ul,用于分子內連接以產生GVT對。通過再產生用于產生GVT的酶的限制性內切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產生的限制性位點在隨后的數(shù)據分析中設定GVT對中的GVT的邊界。通過使用AdaptorA和B引物進行DNA擴增,來從載體骨架中回收所得的GVT對。將454-Adaptor側翼的擴增GVT對直接通過乳液PCR在珠粒上擴增,用于454-測序。在本發(fā)明的范圍和原理之內考慮用或不用體外病毒包裝以及通過或不通過宿主細胞增殖步驟,制備GVT和具有其它空間間隔的GVT對。在后一種情況下,將在各個末端帶有特異性454-Adaptor的靶DNA插入物克隆至合適的帶有COS位點的DNA骨架中,然后使用市售包裝提取物(Stratagene,LaJolla,CA)包裝至噬菌體頭部中。DNA骨架可用諸如生物素等純化部分標記,以有助于親和純化所需DNA產物。將未包裝的DNA用核酸酶降解,隨之通過酚提取純化保護的包裝DNA。用合適的限制性內切核酸酶切割在所得環(huán)狀DNA分子中的靶DNA,以產生包含具有連接的GVT的DNA骨架的線狀分子。通過親和色譜法純化所需線狀DNA。用DNA連接酶通過分子內連接將暴露的GVT末端重新環(huán)化,以產生GVT對以及在COS位點封閉DNA以產生穩(wěn)定的環(huán)狀分子。使用Adaptor-A引物和Adaptor-B引物從連接混合物中通過PCR回收GVT對,用于454-測序。在454-平臺由外向內拓補上制備具有45-501Λ空間間隔的GVT對當與噬菌體包裝組合時,本發(fā)明范圍和原理之內還考慮制備具有“由外向內”拓補的GVT對,這是由于其與Berka等(2006)(美國專利申請2006/(^擬611)和Kobel等(2007)所述的方法相關,所述方法中末端標記采取反向定向。將粘粒載體pSLGVT-38或其衍生物用于從靶DNA群中制備具有所謂的“由外向內”拓補的45-501Λ間距的GVT對,用于在454-平臺上進行DNA測序。pSLGVT-38為2.6kb的載體,其包含卡那霉素選擇標記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除限制性內切核酸酶FspBI和Csp6I在載體上的切割位點,使得這些酶能夠按照本發(fā)明方法從任何靶DNA插入物中制備GVT和隨后的GVT對。載體的靶DNA克隆位點側接一對RocheDiagnostics的454-"InternalAdaptor-A'^P454-"InternalAdaptor-B”序列,以使得能夠利用4544nternalAdaptor-A和454-InternalAdaptor-B引物通過PCR回收所產生的GVT對。pSLGVT-38還在454-InternalAdaptor-A禾口454-InternalAdaptor-B的每一側包含匹配的8個堿基稀有切割型限制性位點對,使得能夠通過酶促消化回收GVT對和側翼的hternalAdaptor序列。操作上,將用于產生用于454-平臺的45-50kbGVT對的靶DNA剪切成40_55kb的片段大小,并用T4-DNA聚合酶修復末端。將修復的靶DNA連接至pSLGVT-38載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅動含載體和靶DNA片段交替的長串聯(lián)體產生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產生初始粘粒文庫,其包含在一側被454-hternalAdaptor-A側接和另一側被4544nternalAdaptor-B側接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細胞,同時小心不使細胞過度生長而促進不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應反映出研究設計所需的GVT對數(shù)目。收獲細胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應于靶DNA的末端。將回收的物質稀釋至低于25ng/ul,用于分子內連接以產生GVT對。通過再產生用于產生GVT的酶的限制性內切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產生的限制性位點在隨后的數(shù)據分析中設定GVT對中的GVT的邊界。通過使用454-hternalAdaptor-A和4544nternalAdaptor-B引物進行DNA擴增,來從載體骨架中回收所得的GVT對。通過hternalAdaptor將所得產物重新環(huán)化,然后用用于產生GVT的II型限制性內切核酸酶(FspBI或Csp6I)消化。線狀分子現(xiàn)包含具有“由外向內”拓補的GVT對,所述拓補中靶DNA插入物的最初末端在相對方向上與新連接的hternalAdaptor每一側上的GVT相反。將如此產生的線狀分子與454-Adaptor-A和454-Adaptor_B連接,用于在454-平臺上測序。在SOLiD平臺上制備具有45-501Λ空間間隔的GVT對用于大規(guī)模并行DNA測序的AppliedBiosystems的SOLiD平臺基于DNA連接的序貫循環(huán)。通過該方法,將固定化的DNA模板在珠粒上克隆擴增,所述珠粒以高密度鋪板至玻璃流通池的表面上,在所述流通池中進行測序。通過短限定標記的探針連接至一系列引物上的連續(xù)循環(huán)來實現(xiàn)序列測定,所述引物與固定化模板雜交。當前SOLiD設備運行包括超過2億次單獨50個堿基的讀取。盡管SOLiD平臺在每次設備運行提供最大數(shù)量的堿基調用,但該平臺被其短讀取長度和在流通池中不具有可用于測序的兩種模板鏈限制。因此,SOLiD平臺的用于成對-末端-讀取的“配對(mate-pair)”系統(tǒng)依賴于利用EcoP15I消化產生一對短的25個堿基的DNA標簽(每一個代表靶DNA的末端)和采取類似于Berka等^006)(美國專利申請2006/0292611)和Kobel等(2007)的方法的“由外向內”拓補,以便產生內部DNA測序引物結合位點以測序標簽對的另一個成員。由當前“配對”系統(tǒng)提供的標簽之間的空間距離僅為數(shù)千堿基,并且可受益于本發(fā)明GVT對的45-501Λ空間距離。當與噬菌體包裝組合時,在本發(fā)明范圍和原理之內考慮制備具有“由外向內”拓補的GVT對,這是由于其與Berka等(2006)(美國專利申請2006/(^擬611)和Kobel等^)07)所述的方法相關,所述方法中末端標記采取反向定向。此外,本發(fā)明提供制備平均長度100-200個堿基的GVT的優(yōu)勢,該長度與現(xiàn)有配對系統(tǒng)利用EcoP15I消化制備25個堿基的標簽相比有相當大的進步。將粘粒載體pSLGVT-37或其衍生物用于從靶DNA群中制備具有所謂的“由外向內”拓補的45-501Λ間距的GVT對,用于在SOLiD平臺上進行DNA測序。pSLGVT-37為2.6kb的載體,其包含卡那霉素選擇標記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除載體上的限制性內切核酸酶FspBI和Csp6I切割位點,使得這些酶能夠按照本發(fā)明方法從任何靶DNA插入物中制備GVT和隨后的GVT對。載體的靶DNA克隆位點側接一對AppliedBiosystems(ABI)的InternalAdaptor-A”和“InternalAdaptor-B”序列,以使得能夠利用ABMnternalAdaptor-A和ABI-InternalAdaptor-Β引物通過PCR回收所產生的GVT對。pSLGVT-37還在ABMnternalAdaptor-A和ABMnternalAdaptor-B的每一側包含配對的8堿基稀有切割型限制性位點,使得能夠通過酶促消化回收GVT對和側翼的hternalAdaptor序列(如果需要的話)。操作上,將用于產生用于ABISOLiD平臺的45_50kbGVT對的靶DNA剪切成40-55kb的片段大小,并用T4-DNA聚合酶修復末端。將修復的靶DNA連接至pSLGVT-37載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅動含載體和靶DNA片段交替的長串聯(lián)體產生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產生初始粘粒文庫,其包含在一側被ABI-InternalAdaptor-A側接禾口另一側被ABI-InternalAdaptor-Β側接的平均45_50kb的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細胞,同時小心不使細胞過度生長而促進不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應反映出研究設計所需的GVT對數(shù)目。收獲細胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應于靶DNA的末端。將回收的物質稀釋至低于25ng/ul,用于分子內連接以產生GVT對。通過再產生用于產生GVT的酶的限制性內切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產生的限制性位點在隨后的數(shù)據分析中設定GVT對中的GVT的邊界。通過使用ABMnternalAdaptor-A和ABMnternalAdaptor-B引物進行DNA擴增,來從載體骨架中回收所得的GVT對。通過hternalAdaptor將所得產物重新環(huán)化,然后用用于產生GVT的II型限制性內切核酸酶(FspBI或Csp6I)消化。線狀分子包含具有“由外向內”拓補的GVT對,所述拓補中靶DNA插入物的最初末端在方向上現(xiàn)與新連接的hternalAdaptor每一側上的GVT相反。將如此產生的線狀分子與ABI-Adaptor-Pl和454-Adaptor_P2連接,用于在ABI的SOLiD配對平臺上測序。在優(yōu)選的實施方案中,本發(fā)明通過產生多個具有限定空間距離和方向的獨特基因組位置標識符的GVT對,來鑒定靶基因組中的精細結構變化。所述多個GVT對共同表示受試者的基因組概況,當與參比序列或類似地產生的其它靶基因組的基因組概況比較時,其指示核酸群之間的精細結構差異存在。通過本發(fā)明可檢測的基因組精細結構變化包括缺失和插入、重復、倒位、易位和其它染色體重排。本發(fā)明提供在由實驗設計規(guī)定的用戶定義的分辨率水平下鑒定這些基因組特征的方法。本發(fā)明提供數(shù)百個堿基平均長度的GVT的產生,所述長度僅由DNA測序平臺的有效讀取長度限制。假定四種堿基豐度均一且隨機分布,SOLEXA平臺的當前76個堿基的讀取長度將預測該長度的序列會偶然地以平均每476堿基對出現(xiàn)一次,并且應代表人類和其它復雜基因組中的獨特序列標識符。然而,在很多復雜基因組中存在四種堿基的不對等表現(xiàn)和大量的重復DNA區(qū)的存在,導致在實踐中不能將該大小的短DNA標簽的顯著部分分配至獨特基因組位置。將既定長度的GVT明確分配至基因組改善與第二個GVT的連接和其間隔距離的認識。例如,包含兩個空間上連接的從大小分級分離的靶DNA群中制備的76bpGVT的GVT對有效地為152bp序列標簽。盡管較長的有效標簽長度,但仍然可能不能將許多GVT或GVT對分配至獨特的基因組位置,例如完全處于非常長的重復基因組區(qū)之內的那些GVT對。然而,本發(fā)明在產生可作圖的成對-末端-讀取方面提供實質進步。預期不能通過本發(fā)明進行分析的區(qū)域非常少,這主要由于本發(fā)明制備具有40-501Λ或更長間隔距離的GVT對的能力,所述間隔距離會跨越重復DNA的大多數(shù)定域區(qū)(localizedregion)。在每個GVT對單體上存在的通用框架序列允許由高通量測序數(shù)據明確提取GVT對序列。利用MEGABLAST(Zhang等,2000)或類似的計算機程序通過比對揭示GVT對的圖譜位置與一個或多個參比序列的圖譜位置之間的不一致。GVT對間隔距離或方向與參比的不一致超過閾值水平預示在靶與參比DNA之間存在結構差異。閾值水平由實驗設計設定,偏離平均GVT間隔距離兩個標準差為合理的默認值。與參比序列相比,靶DNA中的缺失可由2個或更多個GVT對定義,所述GVT對跨越平均間隔距離的2個標準差以上。因此,靶DNA中的插入可定義為以下位置其中與參比序列相比,兩個或更多個GVT對跨越平均間隔的兩個標準差以下。在靶DNA中的倒位被定義為以下位置其中與參比序列相比兩個或更多個GVT對的GVT方向不一致。將不一致的GVT對人工管理(curate)和評價,然后繼續(xù)通過PCR、DNA印跡雜交分析或通過插入物分離和測序來驗證。本發(fā)明所用的靶基因組核酸可來源于任何來源,包括真核生物、原核生物、微生物、質體和病毒的基因組DNA。靶基因組核酸還可以來源于生物的RNA基因組,例如通過逆轉錄過程將RNA轉變?yōu)镈NA的RNA病毒。用于研究的靶核酸的選擇可受到在科學文獻中描述的特定染色體或染色體區(qū)與某些疾病狀況相關的現(xiàn)有知識影響。本發(fā)明可利用來自分離的染色體或染色體區(qū)的靶DNA。本發(fā)明可用于以一定范圍的分辨率廣泛地全基因組掃描患者人群以適合研究設計。用于純化染色體、染色體區(qū)段以及基因組DNA和RNA的方法是本領域已知的。本領域還已知通過PCR或通過其它手段擴增核酸的方法,以產生用于本發(fā)明分析的靶DNA。上文描述了切割靶DNA和分級分離靶DNA至所需大小的方法,用于設定GVT對的GVT之間的空間距離。流體動力剪切、自適應聚焦聲學或用頻繁切割的酶部分酶促消化DNA可用于產生具有高度重疊片段的DNA片段群,用于最大化地覆蓋靶DNA的每個區(qū)?;蛘?,可用數(shù)種限制性內切核酸酶在獨立的切割反應中將靶DNA消化至完全,然后大小分級分離至用于GVT對制備所需的大小類別。由用單一限制性內切核酸酶完全消化制備的、經大小選擇的靶DNA所產生的GVT對是非重疊的,并且僅覆蓋了一部分靶DNA復雜性。用一種或多種其它限制性內切核酸酶完全酶促消化獲得的、經大小選擇的DNA片段可用于提供序列覆蓋的重疊。實驗的物理參數(shù)例如以覆蓋既定復雜性的基因組的DNA片段化方法、GVT間隔距離和其組合、堿基組成或重復元件的分布,可由本領域技術人員用計算機建模,以得到最佳的研究設計。諸如BamHI.HindIIKPstI、SpeI和)(baI等的酶對CpG甲基化不敏感,并預期會在每個位點切割哺乳動物基因組DNA,以產生準確代表那些酶的相鄰識別位點對的GVT對。對CpG甲基化、重疊CpG甲基化或可影響本發(fā)明核酸分析的其它種類的DNA修飾的作用不敏感的其它適宜的酶已在文獻(McClelland等,1994;Geier等,1979;Kan等,1979;Hattman等,1978;Buryanov等,1978;May等,1975)中和由主要的限制性內切核酸酶供應商(Fermentas,Hanover,MD;NewEnglandBiolabs,Ispwich,ΜΑ)描述。在某些實施方案中,其對靶DNA的切割對DNA修飾敏感的酶的應用可用于劃分靶DNA中的外因基因組修飾位點。例如,本發(fā)明可鑒定已知調節(jié)基因表達的DNA甲基化位點。對于所述應用,用甲基化敏感的限制酶將靶DNA消化至完全,并由消化的DNA產生GVT對。通過所得GVT對在與參比序列上的相鄰限制性位點相比時的不一致鑒定甲基化位點。首先人工管理不一致的GVT對,之后進行一系列的分級過濾,用于驗證。在其中不一致的GVT對由來源于完全限制性內切核酸酶消化的、經大小選擇的DNA產生的情況下,用相同限制性內切核酸酶消化的靶DNA和參比DNA的DNA印跡分析可用于驗證靶DNA和參比DNA之間的標記距離的差異。GVT的長度足以用作特異性PCR引物,以分離間插基因組序列用于鳥槍法測序,以確定結構變化的確切性質。一般認為,結構變化的研究將進一步闡明復雜疾病,例如肥胖和糖尿病,這些疾病的發(fā)展由基因、遺傳元件和環(huán)境的相互作用觸發(fā)。用于本發(fā)明分析的核酸的選擇可受到在科學文獻中描述的特定染色體或染色體區(qū)與某些疾病狀況相關的現(xiàn)有知識的影響。本發(fā)明可以高分辨率靶向來自分離的染色體或染色體區(qū)或組織樣品的DNA?;蛘?,本發(fā)明可用于以一定范圍的分辨率廣泛地全基因組掃描患者人群以適合研究設計。F粘粒配對-末端作圖技術(Tuzim等,200需要超過2百萬個常規(guī)Sanger雙脫氧堿基測序讀取以以中等的分辨率和覆蓋率水平分析個體,由此限制了其掃描大群體的應用,所述大群體用于關聯(lián)研究,以發(fā)現(xiàn)對疾病結果為診斷性或預后性的生物標記以及用于藥物干預的潛在藥物靶。本發(fā)明提供了這些限制的解決方法,因此,本發(fā)明具有產生新的醫(yī)學診斷法和輔助藥物發(fā)現(xiàn)的潛力。在另一個優(yōu)選實施方案中,將本發(fā)明鑒定的精細結構變化用于設計寡核苷酸陣列測定、微陣列測定、基于PCR的測定和本領域中的其它診斷測定,以檢測核酸群之間的差異。本發(fā)明的微陣列和寡核苷酸陣列是用于檢測核酸拷貝數(shù)改變以及單個或少數(shù)核苷酸多態(tài)性的有效平臺,但不適于檢測可促成或引起疾病的其它基因組改變。本發(fā)明的鑒定產物使得能夠設計寡核苷酸和微陣列測定或本領域的其它診斷測定,以篩選劃分本發(fā)明鑒定的精細結構變化的易位、插入、缺失和倒位連接處。然后這些測定可用于篩選一般群體和大的患者人群,以確定精細結構變化在復雜疾病中的作用,所述疾病例如為肥胖、糖尿病和許多癌癥,這些疾病的發(fā)展由多種遺傳和環(huán)境因素的相互作用引起。這些測定的其它應用包括但不限于診斷或區(qū)分在醫(yī)學診斷學、系統(tǒng)發(fā)生學和工業(yè)微生物學領域中具有效用的生物的密切相關的物種、品系、品種或生物型。在另一個優(yōu)選實施方案中,本發(fā)明用于產生高分辨率基因組圖譜,以有助于根據“鳥槍法DNA測序”從頭基因組組裝。鳥槍法測序由Sanger等(1977)提出,其中將基因組DNA隨機片段化成小片段用于單獨測序,之后將序列組裝以構建基因組序列。對于復雜基因組,鳥槍法為受爭議的,復雜基因組中由于重復序列可存在偽重疊。將兩種方法用于處理復雜基因組。分級方法(hierarchicalapproach)包括產生中間大小克隆例如BAC的重疊集、選擇這些克隆的覆瓦途徑(tilingpath)和隨后使每個克隆經過鳥槍法測序。以該方式,大基因組被分解成較小的更“易管理的基因組”。第二種方法稱為“全基因組鳥槍法”(WGS),其中使用計算機方法一舉(inonefellswoop)直接從短重疊序列讀取中產生完整基因組序列。兩個進展使得WGS可行=(I)Edward等(1990)通過測序已知近似大小的插入物末端來提供兩個序列讀取之間的距離約束的連接信息,提出配對-末端讀取的應用;和(能夠利用成對-末端序列信息的組裝算法的發(fā)展(Huang等,2006;Warren等,2006;Pop等,2004;Havlak等,2004Jaffe等,2003;Mullikin和Ning,2003;Huang等,2003;Batzoglou等,2002;Pevzner和Tang,2001;Myers等,2000)。將克隆長度約束作為序列讀取對之間可允許的距離提供給WGS組裝程序。該信息對通過允許支架的構建來分辨重復序列是關鍵的,所述支架連接、排列和定向序列毗連群,用于增加所得序列組裝的長范圍鄰接。Edwards等(1990)的質粒成對-末端-讀取稍后由BAC成對-末端-讀取補充以構建更加有序的支架(Warren等,2006;Zhao,2000;Mahairas等,1999)。然而盡管大量使用成對_末端_讀取,但是多數(shù)基因組序列草圖包含數(shù)千個錯誤組裝(Mlzberg和樸!·!^,2005)。組裝錯誤源于以下問題的組合軟件缺陷、基因組中難以處理的重復區(qū)(difficultrepeatedregion)、多數(shù)大基因組的二倍體性質和分辨率和覆蓋率不足的支架。支架分辨率不足很大程度上源于得自質?;駼AC插入物的成對-末端-讀取的不精確的距離,這是因為不可能確定使用當前實驗方案測序的每一個克隆的大小。此外,構建的支架未針對所需的元件數(shù)和間距進行優(yōu)化以得到必需的空間分辨率。本發(fā)明提供產生高分辨率支架的方法以使得能夠進行基因組組裝、尤其是從頭組裝未表征的基因組,所述未表征的基因組中通常沒有可用的現(xiàn)有結構信息。具體而言,本發(fā)明提供制備GVT的改進方法,所述GVT在一個實施方案中表示Edward等(1990)、Zhao(2000)和Tuzun(2005)的經典成對-末端-讀取的改良的功能等價物。與經典成對-末端-讀取相比,GVT對具有使間距準確適合于任何所需構型的能力,更重要的是具有標記基因組中相鄰限制性內切核酸酶位點的能力以提供對所得基因組組裝的準確性的獨立確證。GVT對適用于在常規(guī)的基于Sanger雙脫氧堿基測序化學或新一代454-設備(RocheDiagnostics,Indianapolis,IN)、SOLEXA設備(Illumina,SanDiego,CA)或SOLiD設備(AppliedBioSystems,FosterCity,CA)上進行高通量DNA測序,以提供對靶基因組的完全有成本效用的覆蓋。因此,本發(fā)明提供一組綜合的具有限定間隔距離或相鄰限制性內切核酸酶位點的獨特遺傳標記,以促進全基因組鳥槍法測序工作。預期本發(fā)明產生的、與人類基因組組裝的當前版本(36版,2006年4月)不一致的大量GVT對實際上可能不表示靶DNA中的精細結構變化,而是反映了當前人類基因組組裝中的錯誤或空位。使問題更復雜的是現(xiàn)行的基因組組裝來源于合并的多個供體的DNA。需要來源于代表人類多樣性范圍的大量單個個體的參比序列,以推動基因組學領域前進。本發(fā)明提供的用途提供了經濟地如此實施的方法。在另一個優(yōu)選的實施方案中,本發(fā)明用于產生高分辨率的基因組圖譜以利于系統(tǒng)發(fā)生研究,和用于確定密切相關的生物之間的遺傳和功能關系。尤其適于該應用的本發(fā)明一個方面利用由靶DNA產生的GVT對,所述靶DNA單獨或者在對GVT對產生有用的組合中在沒有DNA大小分級步驟的情況下用一種或多種限制性內切核酸酶消化至完全?;旧?,如此產生的GVT對構成了含有位置標記對的基因組概況,所述位置標記沿著靶DNA長度劃分相鄰的限制性內切核酸酶位點。GVT對的同一性及其相對豐度可用于產生高分辨率基因組概況,該基因組概況可用于鑒定、區(qū)分和定量復雜醫(yī)學或環(huán)境DNA分離物中的原始基因組。所產生的GVT對還可應用于工業(yè)微生物領域中,用于鑒定在遺傳修飾生物的密切相關的品系、生物型或品種中引起理想性狀的基因組差異,所述理想性狀例如為有利的生長速率和產生有用的次級代謝物和重組蛋白。因此,本發(fā)明在由微生物或哺乳動物宿主細胞進行工業(yè)生產中可有助于菌株改良。本發(fā)明產生的高分辨率基因組圖譜還提供了低成本和有效的方法來研究密切相關的病原體核酸,以鑒定變化區(qū)域,從而將詳細的序列分析用于鑒定可用于診斷和可用作醫(yī)學干預的藥物靶的病原決定簇。在另一個優(yōu)選實施方案中,本發(fā)明可用于遺傳解剖家畜和農業(yè)作物的表型多樣性,以有利于標記物輔助育種。對于鑒定復雜遺傳元件而言,家畜是特別受關注的,所述遺傳元件有助于生長控制、能量代謝、發(fā)育、機體組成、生殖和行為以及通過經典育種探尋的其它性狀。關于綜述參見Andersson(2001)。大部分目標農業(yè)性狀是多因素的,通常受未知數(shù)量的數(shù)量性狀基因座(QTL)控制?;蚪M掃描的微衛(wèi)星圖譜已被開發(fā)用于主要家畜。使用這些標記的相關研究和候選基因方法是用于鑒定QTL的兩種主要策略。QTL的克隆具有挑戰(zhàn)性,因為基因型和表型之間的關系被認為比單基因性狀更復雜。然而,有可能通過后代測驗間接確定QTL,所述測驗中利用來自子代之間的遺傳標記和表型變化的數(shù)據來推斷QTL的分離。目前,大部分QTL的分子基礎仍是未知的。果蠅中的QTL作圖提示,QTL經常與非編碼區(qū)中的序列變化相關(MacKay,2001)。如在人中一樣,預期家畜和作物基因組中的精細結構變化在表型表達以及基因組與環(huán)境的相互作用方面很可能起重要作用。本發(fā)明提供以低成本將家畜和作物中的廣泛范圍的基因組結構多樣性制表的方法。然后,制表的信息將能夠產生寡核苷酸微陣列和其它診斷平臺,用于關聯(lián)和連鎖研究,以鑒定和表征導致標記物輔助育種的實際QTL。作為主要的傳粉者,蜜蜂在農業(yè)當中和世界上的許多地區(qū)起關鍵作用。養(yǎng)蜂是受益于本發(fā)明的另一個領域。蜜蜂是一種在經濟上重要的物種,其適于在育種開發(fā)中使用遺傳技術。蜜蜂傳代時間短,產生大量子代。種系還容易通過人工精增殖。蜜蜂品系在生育性能、抗病性和行為性狀方面表現(xiàn)出廣泛的表型變化,所述性狀中的許多受復雜的遺傳控制。受遺傳控制的重要行為性狀包括以許多非洲品系所例示的攻擊性、覓食習性、產蜜量和所謂的“衛(wèi)生”行為。“衛(wèi)生”性狀由至少7個尚未界定的基因座調節(jié),這些基因座合在一起導致蜂房成員清除死亡或患病群體的清潔行為,作為針對真菌和螨侵襲的主要防御,真菌和螨是兩種主要的蜜蜂經濟性病原體。主要目標是開發(fā)可靠的診斷分子標記,這些標記可用于標記物輔助育種,以快速有效地鑒定所需子代品系,而無需復雜且耗時的育種試驗和野外測試。本發(fā)明可使用意大利蜂(Apismellifera)品系DH4的200兆堿基大小基因組的遺傳圖譜和參比序列(WeinStOck,2006)來提供有效且低成本的方法,以高分辨率研究多個蜜蜂品系基因組的精細結構變化,從而將所需的表型與基因型相關聯(lián)。成本有效地研究多個品系的能力是本發(fā)明提供的關鍵優(yōu)勢。在另一個優(yōu)選實施方案中,本發(fā)明可用于鑒定神經障礙和性狀中潛在的遺傳原因。一般認為,許多神經障礙(如孤獨癥、雙相型障礙和精神分裂癥)的至少一種組分具有復雜的非孟德爾遺傳組分(Craddock和Jones,2001;Owen和Craddock,1996;HoIzman和Matthysse,1990)。互補連鎖和相關性研究目前用于鑒定基因組組分,本發(fā)明提供了評價基因組精細結構變化在神經障礙中的促進性作用的方法,并可產生用于診斷、預后和患者管理的新方法。在另一個優(yōu)選實施方案中,本發(fā)明可用于鑒定癌癥中潛在的遺傳原因,由此產生用于診斷、預后和治療干預的方法。幾乎所有的癌癥都歸因于DNA序列的異常,這些異?;蛘呤沁z傳的,或者是通過生命當中的體細胞突變獲得的。腫瘤生成的主要原則在于,累積的遺傳和體細胞DNA突變與環(huán)境因素一起,將基因表達或基因功能改變得超過了允許克隆擴增、細胞侵入周圍組織和啟動轉移的關鍵功能閾。在西方國家有1/3的人將罹患癌癥,并且1/5將直接因該疾病而死亡,這使癌癥成為最常見的遺傳疾病。在歷史上,該領域以鑒定有效的致癌基因或腫瘤阻抑基因開始,所述基因中由于基因座的少量核苷酸改變而簡單失去或獲得功能是癌癥的主要促成因素。該領域后來擴展到基因劑量(genedosage),其中導致基因拷貝數(shù)改變的DNA區(qū)段的重復或缺失是腫瘤發(fā)生的推測原因。陣列CGH對檢測DNA拷貝數(shù)的改變以及癌細胞系和原發(fā)性腫瘤的雜合性的喪失特別有用。癌癥中的拷貝數(shù)分析的全面綜述和癌癥中的體細胞突變目錄以及其中的參考文獻可參見SangerInstitute的“癌癥基因組計劃”(http://www.sanger.ac.uk/genetics/CGP/)。最近,已認識到基因組精細結構變化在腫瘤發(fā)生中的重要作用。在腫瘤發(fā)生過程中,腫瘤基因組累積了大量重排,包括擴增、缺失、易位、倒位等,其中許多直接促成腫瘤進展(Gray和Collins,2000)。Volik等Q006)利用F粘粒配對-末端作圖的變型,檢測進展中的腫瘤的基因組結構的所有改變,尤其是不能通過陣列CGH檢測的易位和倒位事件。他們解析乳腺癌基因組的嘗試是最具信息性的,但被研究者公認受限于獲得每個樣品的大量BAC克隆的末端序列所需的費用和資源。本發(fā)明提供低成本的、高分辨率的方法來克服這些缺陷,并鑒定不適于通過陣列CGH檢測的基因組精細結構變化。當與下一代DNA序列分析儀聯(lián)用時,本發(fā)明成本足夠低,使得能夠用于廣泛的癌癥患者人群研究和用于跟蹤個體患者的腫瘤進展中的基因組變化累積。跟蹤腫瘤進展過程中的基因組變化的能力在臨床結果上將具有意義深遠的預測價值,提供了對患者治療的顯著改善。應理解的是,已知本文公開內容的情況下,各種其它改變對本領域技術人員而言是顯而易見的,并可容易地由這些人員作出,而不會背離本發(fā)明的范圍和精神。參考文獻本申請各處提及的以下文獻以及所有其它文章、專利和已公開的申請都通過引用結合到本文中AlbertsonDG禾口PinkelD,2003.Genomicmicroarraysinhumangeneticdiseaseandcancer.HumMolGen12SpecNo2:R145-R152.AlbertsonDG等,2000.QuantitativemappingofampIiconstructurebyarrayCGHidentifiesCYP24asacandidateoncogene.NatGenet25:144-146.AnderssonL,2001.Geneticdissectionofphenotypicdiversityinfarmanimals.NatRev2:130—138.BaileyAB等,2002.Recentsegmentalduplicationsinthehumangenome.Science297:1003-1007.BatzoglouS等,2002.ARACHNE:Awhole-genomeshotgunassembler.GenomeRes12:177-189.BerkaJ等,2006.Pairedendsequencing.美國專利申請?zhí)朥S2006/0292611.BignellGR等,2004.High-resolutionanalysisofDNAcopynumberusingoligonucleotidemicroarrays.GenomeRes14:287-295.BolivarF等,1977.Constructionandcharacterizationofnewcloningvehicles.IImultipurposesystem.Gene2:95—113.BrennanC等,2004.High-resolutionglobalprofilingofgenomicalterationswithlongoligonucleotidemicroarray.CancerRes64:4744-4748.BujnickiJM,2001.Understandingtheevolutionofrestriction—modificationsystemsCluesfromsequenceandstructurecomparisons.ActaBiochimicaPolonica48:935-967.BuryanovYI等,1978·SitespecificandchromatographicspropertiesofEcoliK12andEcoRIIDNA-cytosinemethylases.FEBSLett88:251—254.ChangACY禾口CohenSN,1978.ConstructionandcharacterizationofamplifiablemulticopyDNAcloningvehiclesderivedfromtheP15Acrypticminiplasmid.JBacteriology134:1141-1156.CheckE,2005.Patchworkpeople.Nature437:1084-1096.ChengZ等,2005·Agenome-widecomparisonofrecentchimpanzeeandhumansegmentalduplications.Nature437:88-93.CollinsFS等,1987.Constructionofageneralhumanchromosome-jumpinglibrary,withapplicationincysticfibrosis.Science235:1046-1049.CollinsFS禾口WeissmanSM,1984.DirectionalcloningofDNAfragmentsatalargedistancefromaninitialprobe:Acircularizationmethod.ProcNatlAcadSci(USA)81:6812-6816.CraddockN禾口JonesI,2001.Moleculargeneticsofbipolardisorder.BrJPsychiatrySuppl41:S128_S133.DeiningerPL,1983.RandomsubcloningofsonicatedDNA!ApplicationtoshotgunDNAsequenceanalysis.AnalytBiochem129:216-223.DugaiczykA等,1975.LigationofEcoRIendonuclease-generatedDNAfragmentsintolinearandcircularstructures.JMolBiol96:171-178.DunnJL等,2002.Genomicsignaturetags(GSTs):AsystemforprofilinggenomicsDNA.GenomeRes12:1756-1765.EdwardsA等,1990.AutomatedDNAsequencingofthehumanHPRTlocus.Genomics6:593-608.FengT等,2002·IncreasedefficiencyofcloninglargeDNAfragmentsusingalowercopynumberplasmid.BioTechniques32:992-998.FeukL等,2006.Structuralvariationinthehumangenome.NatureRev7:85-97.FitzgeraldMC等,1992.RapidshotguncloningutilizingthetwobaserecognitionendonucleaseCviJI.NucAcidRes20:3753-3762.GeierGE禾口ModrichP,1979.RecognitionsequenceofthedammethylaseofEscherichiacoliK12andmodeofcleavageofDpnIendonuclease.JBiolChem254:1408-1413.GonzalezE等,2005·TheinfluenceofCCL3L1gene-containingsegmentalduplicationsonHIV-1/AIDSsusceptibility.Science307:1434-1440·GrayJW禾口CollinsC,2000.Genomechangesandgeneexpressioninhumansolidtumors.Carcinogenesis21:443-452.GrindleyNDF禾口JoyceCM,1980.GeneticandDNAsequenceanalysisofthekanamycinresistancetransposonTn903.ProcNatlAcadSci(USA)77:7176-7180.HamelinC和YelleJ,1990.GelandbuffereffectsonthemigrationofDNAmoleculesinagarose.ApplTheorElectrophor1:225-231.HattmanS等,1978.SequencespecificityofthePlmodificationmethylase(M.EcoPI)andtheDNAmethylase(M.Ecodam)controlledbytheEscherichiacolidamgene.JMolBiol126:367-380.HavlakP等,2004.Theatlasgenomeassemblysystem.GenomeRes14:721-732.HayashiK等,1986.Regulationofinter-andintermolecularligationwithT4DNAligaseinthepresenceofpolyethyleneglycol.NucAcidsRes14:7617-7630.HeffronF等,1978.InvitromutagenesisofacircularDNAmoleculebyusingsyntheticrestrictionsites.ProcNatlAcadSci(USA)74:6012-6016.HeiskanenMA等,2000.DetectionofgeneamplificationbygenomichybridizationtocDNAmicroarrays.CancerRes60:799-802.HolzmanPS禾口MatthysseS,1990.Thegeneticsofschizophrenia:Areview.PyscholSci1:179-286.HuangJ2004.WholegenomeDNAcopynumberchangesbyhighdensityoligonucleotidesarrays.HumGenomics1:287-299.HuangX等,2006.Applicationofasuperwordarrayingenomeassembly.NucAcidsRes34:201-205.HuangX等,2003.PCAP:Awhole-genomeassemblyprogram.GenomeRes132164-2170.InazawaJ等,2004.Comparativegenomichybridization(CGH)-arrayspavethewayforidentificationofnovelcancer-relatedgenes.CancerSci95559-563.JaffeDB等,2003.Whole-genomesequenceassemblyformammaliangenomesARACHNE2.GenomeRes13:91-96.KanNC等,1979.ThenucleotidesequencerecognizedbytheEscherichiacoliK12restrictionandmodificationenzymes.JMolBiol130:191-209.KinzlerKW1995.Methodforserialanalysisofgeneexpression.美國專利第5,695,937號(1997年12月9日授權).KorbelJO等,2007·Paired-endmappingrevealsextensivestructurevariationintheHumangenome.Science318:420-426.KozdrojJ禾口vanElsasJD,2001.Structuraldiversityofmicroorganismsinchemicallyperturbedsoilassessedbymolecularandcytochemicalapproaches.JMicrolMeth43:187-212.LokS,2001.Methodsforgeneratingacontinuousnucleotidesequencefromnon-contiguousnucleotidesequences.美國專利第6,730,500號(2004年5月4日授權)·LucitoR等,2003.RepresentationaloligonucleotidemicroarrayanalysisAhigh-resolutionmethodtodetectgenomecopynumbervariation.GenomeRes132291-2305.MackayTFC,200LQuantitativetraitlociinDrosophila.NatRevGenet2:11-20.MahairasGG等,1999.Sequence-taggedconnectors:Asequenceapproachtomappingandscanningthehumangenome.ProcNatlAcadSci(USA)96:9739-9744.MardisER,2008.Next-generationDNAsequencingmethods.AnnuRevGenomicsHumGenet9:387-402.MarguliesM等,2005.Genomesequencinginmicrofabricatedhigh-densitypicrolitrereactors.Nature437:376-380.MatsumuraH等,2003.Geneexpressionanalysisofplanthost-pathogeninteractionsbySuperSAGE.ProcNatlAcadSci(USA)IOO:15718-15723.MayMA禾口HattmanS,1975.Analysisofbacteriophagedeoxyribonucleicacidsequencesmethylatedbyhost—andR-factor—controlledenzymes.JBacteriology123:768-770.McClellandM1994.Effectofsite-specificmodificationonendonucleasesandDNAmodificationmethyltransferases.NucAcidsRes223640-3659.Mead,DA禾口GodiskaR,2001.Cloningvectorsandvectorcomponents.美國專利第6,709,861號(2004年3月23日授權).MelgarE禾口GoldthwaitDA,1968.Deoxyribonucleicacidnucleases11.TheeffectofmetalsonthemechanismofactionofdeoxyribonucleaseI.JBiolChem243:4409-4416.Morozova0,MarraMA,2008.Applicationsofthenext-generationsequencingtechnologiesinfunctionalgenomics.Genomics92:255-262.MullikinJC禾口NingΖ,2003.ThePHUSIONassembler.GenomeRes13:81-90.MyersEW等,2000.Awhole-genomeassemblyofDrosophila.Science2872196-21204.NgP等,2005.Geneidentificationsigniture(GIS)analysisfortranscriptomecharacterizationandgenomeannotation.NatMeth2:105—111.OwenMJ禾口CraddockN,1996.Modernmoleculargeneticapproachestocomplextraits!implicationsforpsychiatricdisorders.MolPsychiatry1:21—26·PevznerPA禾口TangH,200LFragmentassemblywithdouble-barreleddata.Bioinformatics17Suppl1:S225_S233·PheifferBH禾口ZimmermanSB,1983.Polymer-stimulatedligation:Enhancedblunt-orcohesive-endligationofDNAordeoxyribooligonucIeotidesbyT4DNAligaseinpolymersolutions.NucAcidsRes11:7853-7871.PinkelD禾口AlbertsonDG,2005.Arraycomparativegenomichybridizationanditsapplicationincancer.NatGenetSuppl37:S11_S17.PinkelD等,1998·HighresolutionanalysisofDNAcopynumbervariationusingcomparativegenomichybridizationtomicroarrays.NatGenet20:207-211.PinkelD等,1997.Comparativegenomichybridization.美國專利第6,159,685號(2000年12月12日授權)·PinkelD^,1994.Comparativefluorescencehybridizationtonucleicacidarrays.美國專利第5,830,645號(1998年11月3日授權).PollackJR等,2002.MicroarrayanalysisrevealsamajordirectroleofDNAcopynumberalternationinthetranscriptionalprogramofhumanbreasttumors.ProcNatlAcadSci(USA)99:12963-12968.PollackJR等,1999.Genome-wideanalysisofDNAcopy-numberchangesusingcDNAmicroarrays.NatGenet23:41-46.PopM等,2004.Comparativegenomeassembly.BriefingsinBioinformatics5:237-248.RedonR等,2006.Globalvariationincopynumberinthehumangenome.Nature444:444-454.Rouillard,J-M等,2001.Virtualgenomescan:Atoolforrestrictionlandmark—basedscanningofthehumangenome.GenomeRes111453-1459.SahaS等,2002.Usingthetranscriptometoannotatethegenome.NatBiotech19:508-512.SalzbergSL禾口YorkeJA,2005.Bewareofmis-assembledgenomes.Bioinformatics21:4320-4321.SangerF等,1977.DNAsequencingwithchainterminatinginhibitors.ProcNatlAcadSci(USA)74:5463-5467.SchloterM等,2000·Ecologyandevolutionofbacterialmicrodiversity.FEMSMicobiolRev21:647-660.SchrieferLA等,1990·LowpressureDNAshearing:AmethodforrandomDNAsequenceanalysis.NucAcidsRes18:7455.SistlaS禾口RaoDN,2004.S-adenosyl-L-methionine-dependentrestrictionenzymes.CritRevBiochemMolBiol39:1-19.SnijdersAM等,2001.Assemblyofmicroarraysforgenome-widemeasurementofDNAcopynumbers.NatGenet29:263-264.SzybalskiW,1997.ConditionallyamplifiableBACvector.美國專利第5,874,259號(1999年2月23日授權)·SzybalskiE等,1991.Class-IISrestrictionenzymes-Αreview.Gene10013-26.TaoQ禾口Zhang,H_B,1998.CloningandstablemaintenanceofDNAfragmentsover300kbinEscherichiacoliwithconventionalplasmid—basedvectors.NucAcidsRes21:4901-4909.TuzunE等,2005·Fine-scalestructuralvariationofthehumangenome.NatGenet37:727-732.VelculescuVE等,1995.Serialanalysisofgeneexpression.Science270484-487.VolikS等,2006.Decodingthefine-scalestructureofabreastcancergenomeandtranscriptome.GenomeRes16:394-404.WangJC禾口DavidsonN,1966.OntheprobabilityofringclosureoflambdaDNA.JMolBiol19:469-482.WarrenRL等,2006.Physicalmap-assistedwhole-genomeshotgunsequenceassemblies.GenomeRes16:768-775.WeiC-L2004.5flongserialanalysisofgeneexpression(LongSAGE)and3‘LongSAGEfortranscriptomecharacterizationandgenomeannotation.ProcNatlAcadSci(USA)101:11701-11706.WeinstockGM等,2006·InsightsintosocialinsectsfromthegenomeofthehoneybeeApismellifera.Nature443:931-949.WimmerK等,2002.Combinedrestrictionlandmarkgenomicscanningandvirtualgenomescansidentifyanovelhumanhomeoboxgene,ALX3,thatishypermethylatedinneuroblastoma.GenesChromosomes&Cancer33:285-294.ZhangZ等,2000.AgreedyalgorithmforaligningDNAsequencing.JComputationalBiol7:203-214.ZhaoS,2000.HumanBACends.NucAcidsRes28:129-132.ZimmermanSB禾口PheifferBH,1983.Macromolecularcrowdingallowsblunt-endligationbyDNAligasesfromratliverorEscherichiacoli.ProcNatlAcadSci(USA)80:5852-5856.權利要求1.一種用于制備并列序列標簽(GVT)的方法,其中沿著靶核酸分子群的長度定位的序列標簽對(GVT對)的兩個組成成員為限定間隔距離的位置標記或為一種或多種限制性內切核酸酶的兩個相鄰且可切割的限制性內切核酸酶位點的位置標記,所述方法包括將大核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與線狀DNA骨架在靶DNA插入物的末端克隆位點連接,導致產生包含靶DNA插入物的環(huán)狀分子;用至少一種在離各個靶DNA插入物末端克隆位點一定距離處切割所述插入物的內切核酸酶消化環(huán)狀分子內的靶DNA插入物,從而產生包含兩個序列標簽(GVT)的線狀分子,所述序列標簽包含靶DNA插入物的末端序列,所述兩個GVT中的一個與未消化DNA骨架的各個末端連接;重新環(huán)化具有連接的GVT的線狀DNA骨架,以產生環(huán)狀DNA分子,從而產生GVT對,其包含與靶DNA插入物相對方向相同的兩個并列的GVT;通過從DNA骨架上的引物位點進行核酸擴增或通過用內切核酸酶在DNA骨架上的且位于所產生的GVT對側翼的位點處進行消化,分離所產生的GVT對。2.權利要求1的方法,其中通過還包括以下步驟的方法使所述分離的GVT對的各個GVT呈相對于靶DNA插入物相反的方向通過分子內連接使所分離并產生的GVT對重新環(huán)化;用限制性內切核酸酶消化所得的環(huán)狀分子,所述限制性內切核酸酶切割所述GVT對而得到具有呈相反方向的GVT的線狀分子。3.權利要求1的方法,其中所產生的GVT對包含靶DNA插入物的兩個末端區(qū),其具有少于2501Λ、少于IOOWk少于501Λ、少于251Λ、少于IOWk少于51Λ或少于2.5kb的間隔距離O4.權利要求1的方法,其中所述靶DNA插入物為基因組DNA、來自分離染色體的基因組DNA、分離自分離染色體區(qū)的DNA、cDNA、線粒體RDNA、葉綠體DNA、病毒DNA、微生物DNA、質體DNA、化學合成的DNA、核酸擴增的DNA產物或從RNA轉錄的DNA。5.權利要求1的方法,其中通過選擇性應用機械力、單獨或組合用一種或多種核酸酶部分消化、或者單獨或組合用一種或多種核酸酶完全消化,將所述核酸分子隨機片段化以形成靶DNA插入物。6.權利要求1的方法,其中通過使用對DNA甲基化狀態(tài)敏感的一種或多種核酸酶,將所述靶核酸分子片段化以形成靶DNA插入物。7.權利要求1的方法,其中所述靶DNA插入物經大小分級分離。8.權利要求1的方法,其中所述靶DNA插入物不經大小分級分離。9.權利要求1的方法,其中所述靶DNA插入物長度為至少2501Λ、IOOWk至少501Λ、至少25kb、至少IOkb、至少5kb或至少2.5kb。10.權利要求1的方法,其中用于消化靶DNA插入物以產生GVT的限制性內切核酸酶為識別四個或更多個堿基對識別序列的限制性內切核酸酶。11.權利要求1的方法,其中用于消化靶DNA插入物以產生GVT的限制性內切核酸酶為II型限制性內切核酸酶。12.權利要求11的方法,其中所述II型限制性內切核酸酶為單獨或組合的FspBI、Csp6I或其任何同切點酶或異切點酶。13.權利要求1的方法,其中所述DNA骨架的長度小于251Λ、小于IOWk小于51Λ、小于lkb、小于500bp、小于250bp、小于IOObp或小于50bp。14.權利要求1的方法,其中首先將靶DNA插入物在各個末端與連接物連接,然后將連接物連接的靶DNA插入物與DNA骨架連接。15.權利要求1的方法,其中在與靶DNA插入物連接之前、期間或之后,自兩個、三個或更多個DNA區(qū)段組裝所述DNA骨架。16.權利要求1的方法,其中所述DNA骨架在一個或兩個末端包含功能性連接物序列以促進DNA骨架與靶DNA插入物的連接。17.權利要求16的方法,其中所述連接物長度為8bp-100bp。18.權利要求1的方法,其中所述DNA骨架包含能夠指導所產生的GVT對進行DNA擴增的一個或多個序列。19.權利要求18的方法,其中所述DNA骨架包含能夠指導所產生的GVT對在固相支持體上進行DNA擴增的一個或多個序列。20.權利要求19的方法,其中所述DNA骨架包含能夠指導所產生的GVT對在固相支持體上進行等溫DNA擴增的一個或多個序列。21.權利要求1的方法,其中所述連接物包含一個或多個以下序列其能夠結合用于測序所產生的GVT對的DNA測序引物。22.權利要求1的方法,其中所產生的GVT對為許多從靶DNA群中類似地產生的、代表所連接基因組標簽文庫的GVT對中的一種。23.權利要求1的方法,其中所述DNA骨架包含與能夠產生可檢測信號的部分綴合的一個或多個核苷酸,所述可檢測信號可通過儀器或通過目視檢查讀出。24.權利要求1的方法,其中所述DNA骨架包含與親和純化標簽綴合的一個或多個核苷酸。25.權利要求M的方法,其中所述親和純化標簽為生物素。26.權利要求25的方法,其包括通過用抗生物素蛋白或鏈霉抗生物素包被的固相支持體的親和純化來分離核酸片段的步驟。27.權利要求1的方法,其中所述DNA骨架不含長度為4個堿基或更長的回文序列。28.權利要求1的方法,其中所述DNA骨架不含II型限制性內切核酸酶FspBI、Csp6I或其任何同切點酶或異切點酶的識別和切割位點。29.權利要求1的方法,其中所述DNA骨架的甲基化防止被一種或多種限制性內切核酸酶切割。30.權利要求1的方法,其中通過用產生核苷酸突出端的IIS型限制性內切核酸酶消化,來產生所述DNA骨架的末端,以促進帶有互補核苷酸突出端的靶DNA插入物的連接。31.權利要求30的方法,其中通過用在各個末端產生單個堿基3’-核苷酸突出端的Iis型限制性內切核酸酶消化,來產生所述DNA骨架的末端,以促進帶有互補3’-核苷酸突出端的靶DNA插入物的連接來產生環(huán)狀分子。32.權利要求30的方法,其中所述DNA骨架的3’-單核苷酸延伸為胸腺嘧啶堿基,而靶DNA插入物上的互補3’-單核苷酸延伸為腺嘌呤堿基。33.權利要求30的方法,其中所述IIS型限制性內切核酸酶為BciVI或其任何同切點酶。34.權利要求30的方法,其中所述DNA骨架不含IIS型限制性內切核酸酶BciVI或者其任何同切點酶或異切點酶的識別位點。35.權利要求1的方法,其中所述DNA骨架為能夠在細胞中增殖的DNA載體。36.權利要求1的方法,其中所述DNA骨架為細菌人工染色體載體或酵母人工染色體載體。37.權利要求1的方法,其中所述DNA骨架為選自以下的DNA載體質粒、噬菌粒、粘粒和F粘粒。38.權利要求1的方法,其中所述DNA骨架包含一個或多個能夠介導噬菌體包裝的序列。39.權利要求38的方法,其中所述噬菌體包裝序列為來源于噬菌體λ的COS序列。40.權利要求1的方法,其中所述DNA骨架包含選擇標記基因。全文摘要本發(fā)明提供并列序列標簽(GVT)的方法,所述并列序列標簽為沿著靶核酸分子群的長度的獨特位置標記,所述方法包括將靶核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與DNA載體或骨架連接,以產生環(huán)狀分子;用內切核酸酶消化靶DNA插入物,以在離靶DNA插入物各個末端一定的距離切割靶DNA插入物,得到包含與未消化線狀骨架連接的靶DNA插入物末端序列的兩個GVT;重新環(huán)化具有連接的GVT的線狀骨架,得到包含具有兩個并列的GVT對的環(huán)狀DNA;和通過核酸擴增或用具有GVT對側翼位點的內切核酸酶消化,回收GVT對DNA。將粘粒載體提供用于產生可被下一代DNA序列分析儀測序的約45-50kb間隔的GVT對。文檔編號C12N15/66GK102165073SQ200980135935公開日2011年8月24日申請日期2009年7月9日優(yōu)先權日2008年7月10日發(fā)明者駱樹恩申請人:駱樹恩