国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      Rna分析方法

      文檔序號:393115閱讀:1154來源:國知局
      專利名稱:Rna分析方法
      RNA分析方法本發(fā)明涉及分析復(fù)雜的核酸混合物的領(lǐng)域,以及涉及用于表征方法和測序,尤其是高通量測序如二代測序(NGS)的樣品制備。NGS是當前最主要的全序列分析方法。NGS是通過聚合進行平行測序的高通量DNA測序方法的通用術(shù)語。NGS讀取上百萬個通常為十到幾百堿基對長度的片段。通過比對這些讀段(read)獲得全序列,這是一項具有挑戰(zhàn)性的工作。一些NGS方法依賴基因組或轉(zhuǎn)錄組數(shù)據(jù)庫中的一致藍圖。結(jié)果的質(zhì)量取決于讀段的長度和數(shù)目、讀取的精確度、參照數(shù)據(jù)庫中的信息的質(zhì)量以及所應(yīng)用的生物信息學(xué)算法。迄今為止,很多讀段只提供有限的信息。例如,很多讀段因無法被唯一分配而被廢棄。分配的不確定性的兩個基本原因是1) 一個讀段可與兩個或以上基因?qū)R;2) —個讀段可源于同一基因的不同轉(zhuǎn)錄物變體。此外,測序深度受限,從而對低豐度核酸的檢測也是有限的。對于RNA分析,這就意味著,在含有不同細胞、細胞群或疾病生物體的大量不同的RNA分子的樣本中,罕有RNA或其部分不太可能被搜索到。事實上,即使是簡單生物體的轉(zhuǎn)錄組中,罕有RNA轉(zhuǎn)錄物也不 太可能被檢測和定量。更詳細地說,為了生成可檢測的信號,多數(shù)NGS方法必須擴增單個RNA分子或他們的DNA拷貝。乳液聚合酶鏈反應(yīng)(PCR)可用油相內(nèi)的水泡中的引物包被的珠分離單個DNA分子。另一種選擇是例如通過嚴格的稀釋的DNA分子的單個化(singularization)。另一種體外克隆擴增的方法是橋式PCR,在該方法中,通過固定在固體表面的引物擴增片段。另一種選擇是跳過此擴增步驟,直接將DNA分子固定到一個表面。該DNA分子或上述DNA包被珠被固定化于表面上,并進行平行測序。通過合成測序,如經(jīng)典的染料終止電泳測序,采用DNA聚合酶測定堿基序列??赡娼K止劑法采用可逆的染料終止劑,每次添加一核苷酸,檢測每個位置處的熒光,并通過重復(fù)去除保護基團使另一核苷酸聚合。焦磷酸測序(pyrosequencing)也采用DNA聚合,一次添加一種核苷酸,并通過由于所連接的焦磷酸鹽釋放而發(fā)生的光發(fā)射來檢測和定量添加至給定位置的核苷酸的數(shù)目。連接法測序采用DNA連接酶確定目標序列。該方法被用于polony方法和技術(shù),其采用區(qū)分特定長度的所有可能的寡核苷酸,所述寡核苷酸根據(jù)測序的位置進行標記。使寡核苷酸退火和連接。DNA連接酶對匹配序列的優(yōu)選連接會產(chǎn)生該位點上雙核苷酸編碼的顏色空間信號。NGS技術(shù)基本上基于輸入DNA的隨機擴增。這簡化了制備但是測序沒有方向性。同時造成的樣品信息的嚴重的復(fù)雜性是讀段正確比對的主要障礙。因此,降低復(fù)雜性對于提聞結(jié)果質(zhì)量而目是必需的。降低DNA復(fù)雜性的傳統(tǒng)途徑,如人類基因組計劃中采用的,是在測序前生成細菌人工染色體(BAC)克隆?;蚪MDNA的不同區(qū)段被克隆到細菌宿主細胞中、擴增、提取,并用做Sanger測序的模板。大型BAC文庫的生產(chǎn)、維護和核查是艱苦的過程,并且成本可觀。由于這些不實際且和現(xiàn)有NGS平臺的不兼容,因此通常尋求避免細菌克隆。另一種降低復(fù)雜性的選擇是首先根據(jù)各自大小選擇多核苷酸。不同的方法包括但不限于用于分級的瓊脂糖凝膠電泳或尺寸排除色譜法。小RNA測序法采用此方法來獲得例如稱為微RNA (miRNA)的大小介于15到30個核苷酸的RNA分子級分。
      或許最直接的降低復(fù)雜性的方法是將輸入的核酸樣品的量限制為單細胞。單細胞測序法依賴于高度稀釋的溶液的擴增反應(yīng),事實上無法降低細胞內(nèi)容物固有的復(fù)雜性,因為它包含整個轉(zhuǎn)錄組,并且僅基于對輸入細胞的選擇。一種將輸入核酸的量減少到低于單個細胞含有的量的不同的方法被稱為有限稀釋。基因組核酸樣品首先被片段化,然后被稀釋到使所述核酸片段在樣品體積中的空間分布變得顯著的程度。然后,通過在總樣品體積中取出這樣的小體積來創(chuàng)建子池(subpool),使得大部分子池不含有核酸,若干子池各自含有一個核酸,更少的子池含有兩個核酸。它導(dǎo)致了核酸的單個化,也因此比起全長基因組降低了復(fù)雜性,因為每個單個化的核酸是基因組的一個片段。因此含有單個核酸的片段的子池的序列拼接效率增加。因此,使得大基因組的拼接和框架建立更加容易。在轉(zhuǎn)錄組分析中這樣的有限稀釋法不會降低由于同一基因或不同基因的表達上的變化引入的復(fù)雜性,因為每個轉(zhuǎn)錄物分子會占據(jù)一個子池,所以需要有和樣品中分子數(shù)目一樣多的子池來顯示樣品的完整的轉(zhuǎn)錄組。另一種選擇是序列特異性地排除RNA,例如在基于雜交的方法中,該方法從整個 RNA樣品中除去了核糖體RNA。與依靠先驗序列信息或直接針對一種特定RNA級分(例如PoIyA篩選)的其它分級方法相反,如果研究的是例如mRNA,則rRNA的去除并不導(dǎo)致測序樣品的偏差。從總RNA樣品中去除rRNA的方法用來增加涵蓋mRNA和其它轉(zhuǎn)錄物的讀段的數(shù)量。然而,沒有減少特定基因或基因轉(zhuǎn)錄物的讀段比對的復(fù)雜性。也可以采用序列特異性的選擇方法,例如基因組區(qū)域如特定外顯子的靶向測序。這種捕獲陣列背后的想法是在測序前插入一個選擇步驟。這些陣列被編程為只捕獲感興趣的基因組區(qū)域,因此使用戶可以將NGS機器的全部能力用對在感興趣的特定基因組區(qū)域的測序上。低密度,陣列上的捕獲雜交可應(yīng)用于測序。這種技術(shù)不是“假說中性的”,因為篩選過程需要特定的序列信息。類似的正選擇可應(yīng)用于靶向再測序。例如,對其互補的基因組靶有高特異性的生物素化的RNA鏈可用于提取DNA片段來進行后續(xù)的擴增和測序。這種降低復(fù)雜性的形式必須建立在可獲得的序列信息上,因此不是假說中性的。WO 2006/137734和WO 2007/073171A2中揭示了降低樣品復(fù)雜性的基因組的制備。它們基于 AFLP 技術(shù)(EP 0534858and Breyne et al. (MGG Mol. Genet. Genom.,269(2)(2003): 173-179))。AFLP也被應(yīng)用于源于RNA的雙鏈cDNA。其中,先用限制性內(nèi)切酶切割雙鏈cDNA,然后分離片段。盡管每個子池中的核酸片段的復(fù)雜性降低,在絕大多數(shù)情況下,一個核酸的每個片段會被分離到至少兩個不同的子池。這意味著,例如測序后子池的信息無法被用于樣品的核酸的組裝,因為核酸的各個限制性片段可能在不同的子池。因此,在cDNA的AFLP中,當cDNA被限制性酶切時,丟失了 cDNA全長信息。本質(zhì)上,如AFLP的方法,其在分離之前對樣品片段化,對于全長轉(zhuǎn)錄物序列的比對來說無法降低復(fù)雜性。這種不確定性進一步增加,因為為了涵蓋具有至少一個限制位點的大多數(shù)cDNA序列,必須使用多種限制性內(nèi)切酶。此外,在cDNAAFLP方法中,僅在統(tǒng)計學(xué)上涵蓋轉(zhuǎn)錄組,因為限制性內(nèi)切酶的池可能切或可能不切核酸。在差異顯示(Liang 1992,Matz 1997)中,僅呈現(xiàn)mRNA或其cDNA的部分序列,因此再一次地,全長序列無法被組裝,讀段也無法被分配為共有相同3’序列的基因的轉(zhuǎn)錄變體。
      微生物的混合樣品的16S rDNA或16S rRNA序列的測序通常被用于檢測這些樣品中的罕有物種。通過將測序方法限制到微生物的具體特征,復(fù)雜性和信息含量都會減少。通常,僅獲得系統(tǒng)進化信息。基于標簽的轉(zhuǎn)錄物的鑒定包括SAGE (基因表達系列分析),其中提取并測序特定長度的序列標簽。由于對NGS而言起初的標簽連接體的構(gòu)建是一個缺點,因此使用衍生方案來省略這一步。一種相關(guān)的方法是CAGE (基因表達帽分析)。CAGE旨在獲得轉(zhuǎn)錄物的5’端的信息,并因此獲得在他們各自轉(zhuǎn)錄起始位點。在末端標簽提取和測序前篩選帶5’帽的RNA分子。盡管只提取轉(zhuǎn)錄組的特定部分用作分析,SAGE和CAGE有他們的局限性,因為它們不允許全面的分離。
      Nagalakshmi et al. (Science,320 (5881) (2008) : 1344-1349)和 Wilhelm etal. (Methods, 48 (3) (2009) : 249-257)涉及 RNA-Seq 方法,包括用 poly-A 和隨機六聚體引物生成cDNA。該方法無法降低復(fù)雜性以將讀段分配至單一轉(zhuǎn)錄物變體。Armour et al. (Nature Methods, 6 (9) (2009) :647)涉及從 RNA 池生成 cDNA用于測序。通過用所謂的“不那么隨機”(NSR)的引物去除rRNA。在此方法中,僅短序列被分離。因此該方法沒有降低全長轉(zhuǎn)錄物的復(fù)雜性。因此,需要一種方法,它可以提供核酸樣品的更小級分,還可以提供改進測序或檢測方法的手段,尤其改進在例如含高濃度的核酸池中的罕有核酸樣品的檢測,所述高濃度的核酸池減少罕有核酸信號的獲取機會。因此,本發(fā)明提供一種對衍生自潛在地多樣的RNA分子池的核酸分子片段序列進行劃分(order)的方法,其包括 任選地逆轉(zhuǎn)錄所述RNA分子以提供cDNA分子池, 從所述模板RNA或cDNA池中分離核酸,選擇潛在地不同的模板,所述模板具有所分離的模板共有的區(qū)別性核酸特征,從而提供至少第一核酸子池, 任選地進一步從所述模板RNA或cDNA分離核酸一或多次,選擇性地分離具有不同的區(qū)別性核酸特征的核酸,從而提供一或多個進一步的核酸子池, 通過片段化或獲得所述分離的核酸分子的片段拷貝生成所述分離的核酸分子的片段,其中通過物理分離子池或通過給子池的片段添加識別子池的標記使每個子池或合并的子池的片段保持可與其它子池或其它合并的子池的片段分開,或者測定所述分離的核酸分子的部分序列并優(yōu)選地將至少兩個序列或部分序列比對成連接的序列。本發(fā)明中的分離步驟具有如下優(yōu)點可提供核酸子池,并且子池信息可被用于進一步改進測序反應(yīng),例如基于獲得核酸小片段的讀段的NGS或其它核酸表征方法。在本發(fā)明方法中,子池信息伴隨核酸和片段,并且此信息被用于比對測序讀段以及測定子池中核酸序列的濃度。另外,建立子池可以使復(fù)雜性降低到使得以不同濃度存在于生物體的轉(zhuǎn)錄物和/或不同細胞或細胞群的轉(zhuǎn)錄物和/或不同生物體的轉(zhuǎn)錄物可被分離的程度,以增加檢測富含RNA實體的樣品中的罕有核酸的可能性。此外,它允許檢測和識別屬于不同轉(zhuǎn)錄物變體如剪接變體的測序讀段。為了明確地比對測序讀段和后續(xù)精確組裝序列,需要有效的降低樣本復(fù)雜性的方法。原始材料的高度的復(fù)雜性歸結(jié)于其無序性、不同濃度的序列的混合。本發(fā)明可提供的一些優(yōu)點為分離方法,該方法可以i.提供具有共同特征的確定的核酸樣品子池,ii.提供將子池特異性信息與核酸和核酸片段結(jié)合的手段,和iii.使得有利于子池中序列的濃度測量,從而有利于原始樣品中序列的濃度測量,由此提高測序讀段比對的質(zhì)量和/或由此通過其它手段分析原始樣品。用此方法,轉(zhuǎn)錄組樣品的復(fù)雜性可被降低到使得罕有轉(zhuǎn)錄物可從所有其它可能是高豐度的轉(zhuǎn)錄物的主要競爭信號中檢測出的程度。該方法適合于定量地測量從非常罕有到高豐度形式的序列及其片段。
      本發(fā)明的核心是在片段化步驟(如NGS所需)前,將核酸池分為子池,其中所有核酸片段獲得其母分子的額外的子池信息。該信息可在整個序列讀取(例如部分序列測定)過程中被保留。然后,每個讀段包含序列和子池信息,為讀段比對方法提供顯著優(yōu)勢。只需要解開若干平行小謎團而不是一個大謎團。此項工作的復(fù)雜性大大地降低。因此,i)多位置分配更不可能,ii)之前被分類為“無匹配”的讀段的來源可以被確定,iii)在轉(zhuǎn)錄物分析中,有更高可能性檢測出剪接和轉(zhuǎn)錄起始位點變化,iv)能夠檢測更多全長轉(zhuǎn)錄物。將轉(zhuǎn)錄物池劃分為子池可通過帶有不同附加信息內(nèi)容的子池實現(xiàn)。所得益處取決于所選方法。分離為子池可通過使用轉(zhuǎn)錄物的特性作為區(qū)別性核酸特征進行,該特性直接或間接與序列相關(guān)。所述特性為,例如對吸附物質(zhì)如各種柱材料(例如硅膠)的親和力,或者在鹽、聚合物或其它添加劑存在的條件下的可溶性。在這樣的間接序列相關(guān)的分離中,所需的樣品核酸的信息是有限的,例如,沉降主要取決于長度、GC含量和二級結(jié)構(gòu)。區(qū)別性核酸特征可為吸附或溶解特性。或者/此外,子池可通過利用區(qū)別性序列信息的方法生成,所述序列信息如i)部分內(nèi)部或末端序列,和/或ii)轉(zhuǎn)錄物大小。i)利用區(qū)別性序列(通常為小核苷酸序列部分)是最有力的分離工具。例如,區(qū)別性核酸特征可以是源于模板RNA或cDNA的核酸的部分序列。所述區(qū)別性序列可以是單核苷酸類型(如選自A,T,U,G或C)或在待分離的核酸內(nèi)特定位點上的多核苷酸類型。例如,可以根據(jù)存在于5’或3’末端或離所述末端給定的距離上的一個或多個核苷酸類型或序列而分離核苷酸。一方面,雜交探針陣列可用于創(chuàng)建子池,該雜交探針陣列涵蓋所述核酸的區(qū)別性部分的一或多種序列可能性。即使子池包含不同核酸并且一些核酸會出現(xiàn)在若干子池,該分離方法已經(jīng)降低了原始池的復(fù)雜性。在收集所有的讀段后,比對算法知道轉(zhuǎn)錄物包含子池特異性序列,優(yōu)選地比對算法必須確保每個轉(zhuǎn)錄物呈現(xiàn)至少一個子池特異性序列。通過選擇區(qū)別性核酸特征如區(qū)別性序列(例如,如上所述的在特定位置的單核苷酸或者部分序列)實現(xiàn)的分離,既可通過選擇具有區(qū)別性序列的核酸進行,也可通過特異性擴增帶有區(qū)別性序列的核酸再進一步將這些擴增子用于本發(fā)明方法中來進行。一種優(yōu)選的分離方法采用兩端的序列信息,即核酸的起始和終止位點。在末端特異性擴增后,且如果序列特異性的冗余度為零(無錯配),那么所有子池均含有的確具有那些末端的擴增子,例如PCR產(chǎn)物。因此,子池可以含有RNA分子的若干核酸,如轉(zhuǎn)錄物,但每種核酸僅存在于一個子池。通過這種方式,比對方法的復(fù)雜性被大大降低。ii)根據(jù)每個RNA核苷酸的數(shù)目,通過電泳技術(shù)(如凝膠或毛細管電泳)或其它方法,可以使用RNA分子的大小來分離RNA。之后的每個子池的不同讀段的比對可受益于特定的相當窄的大小范圍的邊界條件。如本文所用,衍生于RNA分子的核酸分子是指與來自樣品的RNA具有相同序列的任何類型的核酸。尤其優(yōu)選地,在分離步驟中,從模板RNA或cDNA池中分離或選擇全長或完整的核酸。此步驟中,片段化前的全長或完整核酸的分離帶來的益處是,即使是在片段化后,每個分離的池包含完整的核酸的序列信息,其可以改進序列測定后的序列組裝。這意味著,如果源于不同子池的讀段可與同一個基因?qū)R,他們一定源于該基因的不同轉(zhuǎn)錄物變體。因此,可檢測序列變化例如RNA編輯,或這些轉(zhuǎn)錄物變體之間的濃度差異。此外,可以比較不同樣品之間的這些差異。表型不同的樣品間的這種對比與研究此表型背后的因果關(guān)系尤其相關(guān)。“全長”或“完整”在本文中意為待測序的完整的核酸,例如逆轉(zhuǎn)錄后得到的。其可包含 從5’帽子開始至poly A尾巴的RNA序列,但大多數(shù)情況下不包括polyA尾巴,但還可是尚未完全(逆)轉(zhuǎn)錄的核酸序列,然而不包括經(jīng)過人工切割的(如用內(nèi)切核酸酶)核酸序列。本發(fā)明的范疇包括RNA被降解或被片段化或被核酸酶活性消化,而衍生自這種RNA的cDNA分子僅為部分序列。此外,cDNA可為RNA的部分拷貝,例如以寡脫氧胸腺嘧啶(oligo dT)為引物的mRNA的轉(zhuǎn)錄,在全長cDNA拷貝聚合之前停止。這可通過如時間限制或通過逆轉(zhuǎn)錄酶在二級結(jié)構(gòu)區(qū)域停止聚合的條件下實現(xiàn)。之后,這樣的片段可根據(jù)共同特征被分離,所述共同特征例如mRNA上poly A尾巴前的序列。優(yōu)選地,cDNA池(cDNA文庫)包含轉(zhuǎn)錄開始和/或終止位點的核苷酸,例如前25個核苷酸和/或最后25個核苷酸。cDNA池還可以僅由這樣的開始和/或終止核苷酸組成。例如在CAGE (Shiraki-2003)中,生成了代表mRNA的5’端的20個核苷酸標簽。當然這樣的方法將排除全長轉(zhuǎn)錄物的組裝或其濃度的測定。然而這樣的標簽可用于測定全基因水平上的表達,即所有轉(zhuǎn)錄起始位點的濃度可被測定。由于僅測序RNA的一小部分,測序深度增力口,且低水平表達的基因?qū)⒏赡艹霈F(xiàn)在讀段中。然而,相比低豐度的轉(zhuǎn)錄物,高豐度的轉(zhuǎn)錄物仍然會更頻繁的被測序。因此,分離方法可增加低豐度的起始位點被檢測到的可能性。例如,用于制備CAGE文庫的短的5’標簽序列可根據(jù)5’或3’端的這種標簽序列的核苷酸分離入基質(zhì)區(qū)域。因此,低豐度轉(zhuǎn)錄物的5’標簽序列會更易出現(xiàn)在其制備包括分離步驟的CAGE文庫中。因此,可以對RNA、其cDNA或其它核酸,例如RNA片段、cDNA片段或由它們擴增的核酸進行分離??扇芜x地重復(fù)分離步驟以得到具有不同特征性核酸特征的不同子池。進一步的子池的生成可與第一或其它子池的生成順序地或平行地進行。本發(fā)明本質(zhì)上是以下的組合選擇多樣的RNA分子的池,任選地生成cDNA,分離RNA、cDNA或任何衍生自它們的其它核酸(如擴增產(chǎn)物),任選地針對不同參數(shù)重復(fù)所述分離,將分離的核酸片段化,得到片段池。片段被認為是長度比其所源自的完整核酸分子短的核酸部分。這種片段可用于例如NGS方法或其它核酸表征方法。NGS是目前最主要的完全分析方法。然而,本發(fā)明即不局限于也不依賴于NGS。其它測序技術(shù)可同樣受益于本發(fā)明中的分離方法。
      清楚地表征特定子池的分布通常需要的不只是核酸的完全測序。任何其它方法(如與分子探針的特異性相互作用或溶解行為)也可以應(yīng)用于通過獨特的特征描述原始核酸池。例如分子探針可為雜交探針,如可與互補序列雜交的寡核苷酸。該原理被應(yīng)用于微陣列分析以同時研究大量基因的表達。使用這樣的cDNA或寡核苷酸微陣列的可能的最詳細的基因(DNA)表達分析為外顯組(exome)或剪接組(splicosome)分析。然而,即使是對這些高分辨率的分析,將信號分配到基因的特定轉(zhuǎn)錄物變體也是不可能的。然而,如本發(fā)明方法中所教導(dǎo),當mRNA分子或它們的全長cDNA拷貝被分離為不同的子池,每個子池可以分別用微陣列分析。若兩個或更多不同子池給出涉及同一探針(陣列上的一點)的信號,該信號一定屬于至少兩種不同的轉(zhuǎn)錄物。當比較不同樣品的表達時,這尤其重要。一些在沒有在分析前進行分離的情況下無法區(qū)分的表達上的差別,如果進行分離則能夠被檢測到。例如,基因剪接位點的選擇性探針在第一個樣品中獲得信號值100,在第二個樣品中獲得信號值100。因此表達比率為1,不認為存在任何區(qū)別。將每個樣品分別分離為例如12個子池,并用微陣列分析每個子池,第一個樣品中發(fā)現(xiàn)了兩個子池,第一個相對信號為90,第二個相對信號為10。第二個樣品中,第一個子池給出信號值10,第二個子池給出信號值90。雖然兩樣品在子池合并后的比率仍然是1,兩樣品間第一子池的比率為9,第二子池的比率為1/9。 因此,通過分離,在沒有分離的情況下無法檢測的基因的兩種轉(zhuǎn)錄物變體的表達上的差別變得可以檢測。換句話說,如果源于兩種不同轉(zhuǎn)錄物變體的信號沒有被分離,一種變體掩蓋第二種變體的信號。如果進行分離,每種可以單獨測量。同樣的原理可被應(yīng)用于NGS實驗。如果兩個子池的讀段與同一基因?qū)R,這就意味著該讀段一定源于不同轉(zhuǎn)錄物,如果分離能力是100%此外,分離轉(zhuǎn)錄組,將不同基因的轉(zhuǎn)錄物以及同一基因的轉(zhuǎn)錄物分離到特定的子池中,也是將相當短的序列讀段組裝為更長的甚至全長序列的強大的工具。接著,本發(fā)明改進了對大量單獨的測序讀段的比對,以測定核酸序列和/或他們的拷貝數(shù)。在一個實施方式中,片段(部分)序列的生成是在測序步驟中完成的,而不是先分段化再對片段測序。這里,隨機(通用)引物被用來起始單個分子內(nèi)的測序反應(yīng)。因此,測序反應(yīng)在大多數(shù)情況下會生成分子內(nèi)的片段序列。如果該分子有子池特異性標記,該標記可在測序反應(yīng)后被讀出,提供具有子池特異標記的片段序列。同樣的分子可進行進一步的測序,從而提供大量片段序列,其可被組裝成核酸分子、RNA或轉(zhuǎn)錄cDNA的重疊群(contig)或全長序列。由于特定的核酸可以多個拷貝存在,這種測序也可平行進行。這里,大量隨機(通用)引物起始大量核酸分子的測序反應(yīng),所述核酸分子產(chǎn)生大量的片段序列,該片段序列可作為整體用于比對或組裝所分離的核酸的序列。本發(fā)明的范疇包括在測序前將片段相互連接。核酸為單個核苷酸的線性聚合物。這些分子載有遺傳信息(參見三聯(lián)體編碼)或形成在細胞中執(zhí)行其它功能的結(jié)構(gòu)(例如調(diào)控)。本發(fā)明分析的核酸為核糖核酸(RNA)。由于單個細胞內(nèi)RNA群的復(fù)雜性,RNA (測序)分析是特別困難的工作。本發(fā)明涉及鑒別(特別是序列測定)細胞中所有類型的RNA,包括mRNA (轉(zhuǎn)錄物)、微小RNA、核糖體RNA、siRNA和snoRNAo轉(zhuǎn)錄組為細胞產(chǎn)生的所有RNA分子或轉(zhuǎn)錄物的組。不像對于給定細胞系來說是大致固定的基因組,轉(zhuǎn)錄組根據(jù)細胞種類、組織、器官和發(fā)育階段而變化。它可根據(jù)外界環(huán)境條件發(fā)生變化。由于它包含細胞內(nèi)所有轉(zhuǎn)錄物,轉(zhuǎn)錄組反映了任何給定時間上活躍表達的基因,它包括降解現(xiàn)象如轉(zhuǎn)錄弱化。轉(zhuǎn)錄組學(xué)是對轉(zhuǎn)錄物的研究,也被稱作表達譜分析。一個應(yīng)用本發(fā)明的對RNA樣品的分離方法的創(chuàng)造性益處為,低拷貝數(shù)的轉(zhuǎn)錄物或在樣本中以低濃度存在任何其它類型的RNA在子池中都有更大的機會被測序和分析。NGS的一個弊端是高豐度的核酸降低了低濃度的片段被測序的機會。創(chuàng)造性的分離允許高拷貝數(shù)的實體和低拷貝的核酸間的區(qū)分。因此防止低拷貝數(shù)的核酸從檢測中或在任何其它進行的步驟中(如在擴增中)被排除。一般原理是通過對分離的更小的部分進行測序來降低核酸池的復(fù)雜性。這些更小的部分被稱作子池。在一個優(yōu)選的實施方案中,所有子池一起含有待分析的原始池中的所有核酸。然而,原則上不必分析所有的RNA分子,因此一些子池可被忽略或甚至不被生成/可以保持為空的。核酸池的復(fù)雜性可歸結(jié)于三個主要因素。第一個因素取決于不同序列的組合長度。由于序列是由四種堿基編碼的(I^PU被認為是等同的因為它們載有相同的信息),復(fù)雜性隨變異增加,等同于長度四次冪。然而, 基因組含有冗余信息如重復(fù)或任何其它類型的次序,如通過基因進化產(chǎn)生的。因此不同基因可包含相同的或者非常相似的序列段。這在從頭組裝重疊群或全長轉(zhuǎn)錄物序列中產(chǎn)生歧義,并限制了可被構(gòu)建的重疊群的長度。甚至在可獲得參考序列的比對過程中,這種歧義也限制了單個讀段的比對。這種歧義隨著測序過程中的讀段長度的減小而增加。在轉(zhuǎn)錄組分析中,這種歧義性更高,因為基因(或基因組的區(qū)域)可編碼多于一種轉(zhuǎn)錄物。源于同一基因的不同轉(zhuǎn)錄物(有時被稱作轉(zhuǎn)錄物變體)如剪接變體在序列組成上非常相似。因此,由轉(zhuǎn)錄物變體產(chǎn)生的多數(shù)讀段無法被唯一地分配。例如,即使一個剪接點被檢測到,它屬于一種還是多種轉(zhuǎn)錄物仍是未知的。第二個因素取決于樣品內(nèi)不同序列的數(shù)目。復(fù)雜性隨著排列數(shù)增加,因此以不同序列的階乘增加。兩種序列有兩種排列可能性,三種序列有六種可能性,以此類推。第三個因素是拷貝數(shù)的差異(轉(zhuǎn)錄物濃度)和更小程度上是對這種差異的預(yù)見量,例如,如果知道某拷貝的差異在1/1000的數(shù)量級。每個不同序列屬于以擁有特定的拷貝數(shù)為特征的組。這些組的分布水平?jīng)Q定了由濃度差異引入的復(fù)雜性。本發(fā)明的分離可幫助區(qū)分原始樣品池中不同的RNA分子。該分離步驟也可以被重復(fù)一次或多次。這里的重復(fù)不該被解讀為必須在第一次分離步驟結(jié)束后進行附加的分離步驟,雖然這當然是一個可選項,但還涉及同時進行一次或多次分離步驟。因此,生成一或多個子池,分享共同特征的特異性核酸在每個子池中存在(或富集),而沒有此分享的區(qū)別性核酸特征的所有其它核酸可從每個池中排除(或至少不富集)。這些因素直接造成測定所有的尤其樣品中罕有分子的正確序列和濃度的困難。本發(fā)明的一般原理為,在測序讀段生成之前,構(gòu)建子池,使這些因素得以被控制,并同時降低池的復(fù)雜性。因此,本方法簡化了在線序列比對。通過分離方法形成子池,是在本發(fā)明的研究范疇之內(nèi)。在本發(fā)明的一個優(yōu)選的實施方案中,所述方法進一步包括測定第一子池和任選地更多子池的片段的序列或部分序列。所述片段或其部分的序列可以通過本領(lǐng)域已知的任何合適的方法測定。優(yōu)選地是可放大為高通量測序方法尤其是第二代測序的測定方法。在這種方法中,可測定所述片段至少5個,優(yōu)選至少8個、至少10個、至少15個、至少20個、至少22個核苷酸或更長的序列。優(yōu)選地,可測定所述片段的全長。如果只測序所述片段的部分,這可為5’端或3’端的部分,也可為可被特異性或非特異性(例如隨機的)引物選擇的內(nèi)部部分。測定核酸的部分序列優(yōu)選地包括測定至少10個,更優(yōu)選為至少15個,至少18個,尤其至少20個或更優(yōu)選為至少25個核苷酸的序列部分,但不包括測定核酸的完整序列。根據(jù)本發(fā)明,可能通過片段化或獲得片段拷貝(例如擴增核酸分子的部分)來生成所分離的核酸分子的片段,然后測定其序列;也可能測定所分離的核酸分子的片段的序列或部分序列,并優(yōu)選地將至少2,優(yōu)選至少3個,尤其優(yōu)選至少4個,至少6個或至少8個序列或部分序列比對成連接的序列。根據(jù)此可選項,無需物理上提供這些片段,而可能僅獲得序列部分(其可從核酸分子自身在無需物理片段化步驟的情況下被測定)并通過比對這樣的部分序列生成連接的序列。因此,根據(jù)此實施方案,無需提供提供分離池的信息的特異性標記,因為序列直接在子池中核酸分子上測定。這是可能的,通過例如隨機引物法(從核酸分子內(nèi)部的引物延伸)或通過可讀出任何點的序列的納米孔,因此生成“片段讀段”。然后這些讀段可如本文所述進行比對。 具體地,提供所有所提供的片段的全長序列并不總是必須的。由其它片段測定缺失序列部分也是可能的,例如所述片段可能重疊,因此提供與不完整的測序片段里缺失的序列相同的序列。例如,僅從片段的一端測定序列以及測定如上所述的例如至少10個核苷酸的部分序列通常更為有效。然后,這些部分序列可被比對成連接的序列。雖然根據(jù)一個實施方案,可能通過本發(fā)明的方法測定分離的核酸分子的全長序列,也可能僅測定足夠長以識別所述核酸分子的部分。優(yōu)選地,關(guān)于子池來源的信息在測序運行期間均伴隨核酸分子和其每個片段。一方面,子池信息可通過標記來傳遞。每個片段可接受識別核苷酸序列(例如添加如1、2、3、4、
      5、6、7、8或更多個子池相關(guān)核苷酸的子池特異性的序列標簽),報告子模塊如熒光染料、納米點或其它。優(yōu)選地,該子池特異性標簽為添加到片段的核苷酸序列(條碼)。此外,優(yōu)選該條碼在該核酸片段測序后或測序中被讀出。另一方面,子池信息可通過空間的或時間的分隔而永久保存,這意味著每個子池在機器的不同區(qū)域(載玻片上的簇)或在有差別的時間點上(例如,每個子池可以順序地進行測序)測序。對大多數(shù)方法來說無需額外的過程。在報告分子標記的個體的情況下,報告信號必須被識別并與讀段相關(guān)連。子池可分開測序。每個子池的讀段或者被比對至基因組藍圖,或者通過將其與同一子池中的(而不是總池中的)所有其它讀段進行比較而從頭對比。因此,原始樣品池的復(fù)雜性被大大降低。大量的RNA分子,尤其轉(zhuǎn)錄物,只干擾它們出現(xiàn)的子池并因此損害其讀取深度,但在其余子池中則沒有。由于讀取各片段的可能性與它們在池或子池中相對濃度分別成比例,僅以千分之一存在的片段當其它片段讀取上千次時平均只被讀取一次。對于讀段的比對,所有讀段被分組,并且如果可能根據(jù)子池地址確定方向。其次,所有讀段互相比對,或與藍圖序列數(shù)據(jù)庫比對。如果例如除子池信息外還已知完整序列的進一步的信息如長度,比對必須滿足所有臨界條件。然而,通常不必對片段進行完整的測序,可僅獲得其序列的一部分。有時,此部分已經(jīng)足夠識別核苷酸或與其它片段的其它測序的部分比對為全序列(例如,如果所述片段包含重疊序列)。除了對片段的部分進行測序,還可能僅獲得片段,即含原核酸的部分的較小的核酸分子,并測定其序列或其部分?!吧伤龇蛛x的核酸分子的片段”因此也涉及獲得包含任何類型的序列部分的片段。片段化可以通過例如物理手段實現(xiàn),可以是序列依賴的方法如通過內(nèi)切核酸酶消化,或非序列依賴的方法如超聲處理或剪切作用。片段生成還涉及獲得片段拷貝。核酸分子可例如擴增成更多拷貝,這些拷貝然后被片段化。如果采用隨機片段化方法,這可以造成每個核酸分子生成不同片段。另一方面,如果采用序列依賴的方法,如限制性內(nèi)切核酸酶消化或序列特異性的擴增,核酸分子的所有片段都會相同。此外,可能通過擴增生成片段,即對片段測序。這也可以通過如序列依賴或非序列依賴的方法實現(xiàn),尤其優(yōu)選隨機引物法,以獲得帶所述片段的內(nèi)部序列部分。所述片段或測定的部分序列的實例大小可為,例如至少10、至少20、至少25、至少30、至少35或至少40個核苷酸。片段或測定的部分序列可長達20000、長達10000、長達5000、長達4000、長達3000、長達2000、長達1000、長達800、長達700、長達600、長達500或長達400個核苷酸。優(yōu)選的范圍為10-10000個核苷酸,優(yōu)選25-500個核苷酸。 在測序前連接片段是在本發(fā)明的研究范疇之內(nèi)。優(yōu)選地,這些連接的片段被不同序列段分散,該不同序列段允許測序引物引起連續(xù)的測序循環(huán)。分離的核酸分子或待分離的核酸分子可為單鏈也可為雙鏈。在單鏈分子被分離的情況下,片段相比其母分子的鏈型(strandedness)是清楚的,因為它有5’端和3’端。用使用雙鏈核酸分子時,則需要在一條鏈而不在另一條鏈上的區(qū)分特征(例如甲基化),因為雙鏈在兩條鏈上均有5’端和3’端。在mRNA或cDNA的5’和/或3’端的特征(優(yōu)選為序列部分)被用作核酸特征的情況下,分子的方向在片段化前仍然是已知的。因此,雙鏈中的一條鏈可被用于片段化。雙鏈中的一條鏈可通過本領(lǐng)域任何已知手段進行選擇。例如在分離的過程中可標記一條鏈的末端。例如,PCR引物之一可含標記基團如生物素,然后可通過帶親和素偶聯(lián)基質(zhì)的柱層析法進行選擇。另一種可能性是,采用一種具有5’磷酸的引物而另一種引物沒有5’磷酸,并用優(yōu)先消化有5’磷酸的鏈的\外切核酸酶處理PCR產(chǎn)物。通過在分離和片段化的全過程中保留核酸分子的鏈型或鏈信息,改善了后續(xù)的組裝和比對的效果。例如,如果片段的鏈型被保留,每個片段可被比對到基因組的正鏈或負鏈上,由此區(qū)分正義和反義轉(zhuǎn)錄物。同樣適用于簇構(gòu)建或從頭組裝轉(zhuǎn)錄物,因為正義和反義簇/轉(zhuǎn)錄物可被區(qū)分。所以,優(yōu)選在片段化時保留鏈型或鏈信息,優(yōu)選地通過用、核酸酶消化另一條鏈來選擇一條鏈。在分離期間可能選擇一條待分離的鏈(正義或反義鏈)或標記所選鏈來保留鏈信息。優(yōu)選地,所選鏈的片段根據(jù)鏈信息進行標記,也可能針對池信息進行標記(例如上面所提及的條形編碼)。在進一步優(yōu)選的實施方案中,這些片段的至少2、4、5、6、7、8、9、10、12、14、16、18
      或至少20個核苷酸,尤其是連續(xù)的核苷酸被測序。潛在地多樣的RNA分子的原始池可以是任何來源的,尤其是來源于任何生物樣品,優(yōu)選來源于病毒、原核生物、真核生物。對于任何類型的RNA測序方法,本發(fā)明的復(fù)雜性降低方法都非常重要,甚至是在使用單個細胞的時候(其含有多樣的轉(zhuǎn)錄組),但當然也包括含多個細胞的樣品,尤其是多種來源的樣品,其例如含有多種生物體的許多不同細胞或具有不同的或修飾的基因表達的相似細胞(例如腫瘤細胞)。在本發(fā)明的一個尤其優(yōu)選的實施方案中,用于分離的核酸特征是給定的核苷酸類型,優(yōu)選地選自A、T、U、G、C中的任一種,位于核酸分子的特定位置,優(yōu)選地在核酸分子離5’端、3’端或兩端100個核苷酸內(nèi)。這種選擇一或多種特異核苷酸來例如獲得全長序列來源的方法在WO 2007/062445中公開(通過引用并入本文)。在一個優(yōu)選的實施方案中,本發(fā)明的分離步驟可因此包含從所述模板RNA或cDNA池中分離核酸,選擇潛在地不同的模板,所述模板在全長核酸分子模板的5’或3’端100個核苷酸之內(nèi)的特定位置上具有至少一種給定核苷酸類型(所分離的模板共有的),從而提供至少第一核酸子池。根據(jù)本發(fā)明,可能在分離步驟中擴增或選擇特異性的核酸分子,其通過使用例如特異于RNA或cDNA的例如一端(3’或5’端)的引物,所述引物含有一個或多個額外的核苷酸特異性,其作用為根據(jù)在(通用或擺動(wobble))引物部分后的互補核苷酸來分離核酸分子。如果要分離全長RNA,那么可能采用特異于末端的引物,所述末端例如polyA-尾巴(或?qū)?yīng)的cDNA上的polyT-尾巴),或者給RNA或cDNA附加人工尾巴并使用特異于該尾巴的 引物。所述引物可對接著的1-100,尤其1-10個核苷酸,例如接著的1、2、3、4、5、6、7、8、9或10個核苷酸具有特異性。通過在所述引物上使用擺動核苷酸,也可能選擇這些末端后面的特異性核苷酸。優(yōu)選地,特異性的區(qū)分核苷酸位于核酸分子5’或3’端前100個核苷酸內(nèi)。當然也可能用引物選擇任何內(nèi)部區(qū)域,其中核酸分子可在分離步驟中被分開。提及的對于引物的相同原理當然也可應(yīng)用于寡核苷酸探針,該探針對這種區(qū)分核苷酸類型具有特異性。優(yōu)選地,針對位于緊接5’和/或3’端的10個核苷酸內(nèi)的共同核苷酸而選擇核酸分子,優(yōu)選地,針對一或多個共同5’和/或3’端核苷酸類型而選擇。這些引物或探針優(yōu)選地與針對不同的核酸特征而選擇的引物或探針聯(lián)合使用。這樣的引物可以例如單獨或順序應(yīng)用以生成特異于所述核酸特征的子池。這樣聯(lián)合使用的引物或寡核苷酸(即“引物矩陣”)可以例如是含通用部分和區(qū)分部分的引物,其中區(qū)分部分可以例如是第一引物中的A,第二引物中的T,第三引物中的G,和第四引物中的C。優(yōu)選地,多于一個的核苷酸被用做核酸特征,其組合可以例如是以AA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG或CC結(jié)尾的引物或寡核苷酸探針,因此用互補核苷酸將核酸分離到不同的子池中。在一個進一步優(yōu)選的實施方案中,所述核酸特征包含3個或更多,例如4、5、
      6、7、8個或更多特異性核苷酸類型。在一個進一步優(yōu)選的實施方案中,引物的組合為針對位于5’和/或3’端的區(qū)分核苷酸而選擇的寡核苷酸,例如引物或探針均對兩個或多個5’核苷酸和兩個或多個3’核苷酸具有特異性。如上面提及,也可能選擇內(nèi)部區(qū)域,其中也可能用這樣的引物對組合,其在擴增子的每一側(cè)選擇兩個核酸類型。通過使用末端特異性的引物或探針也可選擇內(nèi)部區(qū)域,所述引物或探針帶有一定數(shù)目的在特定內(nèi)部區(qū)域的互補核苷酸之前的非特異性核苷酸(例如擺動或者通用核苷酸)。在一個優(yōu)選的實施方案中,用于分離的核酸特征在短讀段的組裝(或比對)中用作組裝的(或比對的)序列的質(zhì)檢特性(qualifying property)。例如,如果核酸特征是特定長度或長度范圍,那么正確組裝的序列的限定將是此長度或長度范圍。如果核酸特征是特定序列,那么當對此核酸的片段測序時,所述片段例如36個堿基長,那么除了這36個堿基夕卜,對于每個片段,另外n個堿基是已知的,其中n為核酸特征的堿基數(shù)。如果,例如核酸特征是分子5’側(cè)的6個已知堿基和3’側(cè)的6個堿基,那么除了每個片段的這36個堿基外,2x6個堿基已知位于已測序的片段的一定距離(片段化的分子的長度)之內(nèi)。因此,如果核酸特征是特定序列,那么此序列必須再次包含在組裝的序列中。優(yōu)選核酸特征在分離的核酸的特定位置上,優(yōu)選地,位于模板RNA或cDNA的5’或3’端特定的距離上。優(yōu)選地,核酸特征是序列,且該序列在組裝中被使用。核酸特征可包含例如2、3、4、5、6、7、8、9或10個已知核苷酸的兩個序列部分,置于一定堿基距離,例如20-1000nts,優(yōu)選地30-5000nts,尤其優(yōu)選50_1000nts的距離。在一個優(yōu)選的實施方案中,分離的核酸包含模板RNA或cDNA的全長序列。這將大大增加重疊群或甚至全長序列的從頭組裝,因為所有在測序過程中生成的片段讀段可在子池內(nèi)比對,即與一個子池中獲得的片段或部分序列比對。如果模板全長RNA的5’和/或3’端核苷酸被用做用于分離的核酸特征,全長RNA分子的起始和/或終止位點上的核苷酸對于該子池中的所有片段是已知的。這種信息允許例如將片段或它們組裝的重疊群正確地定位于基因組DNA的正鏈或者負鏈上,由此分開基 因的有義和反義轉(zhuǎn)錄物。在一個優(yōu)選的實施方案中,根據(jù)本發(fā)明方法應(yīng)用的RNA分子為全長RNA。全長RNA可以例如用上述方法選擇。同樣也可應(yīng)用于對應(yīng)于全長RNA的全長cDNA。如在本文所用,術(shù)語“全長RNA”或“全長cDNA”被定義為包括與從RNA的第一個堿基到最后一個堿基的RNA序列互補的序列的RNA或DNA。該方法在WO 2007/062445 (通過引用并入本文)被公開,并包括對末端特異性核酸特征的選擇性擴增,例如通過在全長RNA上進行分離的擴增或選擇(如本文所描述)。在RNA分子有帽子結(jié)構(gòu)和/或polyA尾巴的情況下,正如在大部分真核mRNA的情況下,“全長RNA”被定義為包括與RNA模板從RNA帽子結(jié)構(gòu)(如RNA 7-甲基鳥苷帽子)后第一個堿基到polyA尾巴之前的最后一個堿基的RNA序列互補的序列的RNA。為了在擴增和/或測序反應(yīng)期間將引物結(jié)合到核酸或片段末端,可能將接頭(linker)或連接物(adaptor)連接到所述核酸分子或片段上來允許引物結(jié)合。將RNA分子池劃分為本發(fā)明的子池,使大大降低原始樣品的復(fù)雜性成為可能,生成具有更少核酸實體的子池并因此增加核酸檢測或成功測序和后續(xù)拼接的機會。在優(yōu)選的實施方案中,核酸被分成子池,其中所有子池中至少10%包含所有子池的平均核酸量+/_50%。通過對給定的樣品采用合適的分離方法將核酸均勻分為子池,降低復(fù)雜性的方法被充分利用。當然,也可存在進一步的子池,其中存在更少的核酸,例如甚至沒有任何原始池的核酸的空子池可被用作對照。在優(yōu)選的實施方案中,所有子池的至少15%、至少20%、至少25%、至少30%、至少35%、至少40%包含所有子池平均核酸量+/-50%。+/-50%的誤差幅度在優(yōu)選的實施方案中為最高+/-50%、最高+/-45%、最高+/-40%、最高+/-35%、最高 +/-30%、最高 +/-25%、最高 +/-20%。優(yōu)選地,樣品包括至少I種,優(yōu)選地2、3、4、5、6、7或8種罕有RNA分子。罕有的含義為濃度低于1%、低于0. 5%、低于0. 1%、低于0. 05%、低于0. 01% (lOOppm),優(yōu)選地低于50ppm、低于lOppm、低于5ppm、低于lppm、低于500ppb、低于IOOppb或低于50ppb。優(yōu)選地待分析樣品中存在至少I種、至少2種、至少4種、至少6種或至少8種罕有核酸。在一個進一步的實施方案中,核酸被分到子池,其中至少10%的子池包含2個或更少核酸,優(yōu)選地含I個核酸。對于非常罕有的核酸這種高稀釋度尤其有利,如果也存在來自其它原始池中的核酸(尤其以原始濃度存在),這些罕有的核酸很難檢測。在一個進一步優(yōu)選的實施方案中,分離核酸的步驟包括從所述模板池特異性地擴增所述核酸。具體地,擴增是通過核苷酸引物延伸(優(yōu)選通過PCR)進行,尤其優(yōu)選地,其中擴增是通過核苷酸引物延伸(優(yōu)選通過PCR)進行,尤其優(yōu)選地,其中擴增使用選擇非特異性引物部分后面的至少一個、優(yōu)選選擇至少兩個、尤其至少兩個相鄰的不同堿基的引物進行,由此包含所選的作為子池特異性核酸特征的核苷酸的核酸分子被擴增。上述本發(fā)明方法的片段化步驟可用做序列測定步驟中的第一個步驟。測定子池中核酸的序列包括,如上所述將子池中的核酸分子片段化,使給定子池的每個片段與子池特異性標記連接,測定合并的池中片段化的多核苷酸的核苷酸序列(或可選地測定有或沒有連接標記的獨立的池的核苷酸序列),根據(jù)子池特異性標記將片段序列分配至核苷酸分子,以及與其它片段重疊序列,由此測定核酸序列。
      因此,在優(yōu)選的實施方案中,子池特異性標記與片段連接。所述子池特異性標記可為優(yōu)選在序列測定中共同測定的核苷酸。在進一步的優(yōu)選實施方案中,原始池中的核酸在分離步驟中被分為至少2個,優(yōu)選為至少3個、至少4個、至少5個、至少6個、至少7個、至少8個子池,其核酸各自共有對各個子池不同的核苷酸特征。在優(yōu)選的實施方案中,用于在分離步驟中選擇核酸的弓I物或探針優(yōu)選被固定于固體表面,尤其是一個微陣列或芯片。在測序步驟中也可以進行如上述的用于區(qū)分核酸的同樣類型的分離,其用來區(qū)分不同片段。在一個尤其優(yōu)選的實施方案中,本方法進一步包括擴增核酸分子,優(yōu)選地在分離之后,在測定序列之前,尤其優(yōu)選的是其中所述擴增是通過PCR實現(xiàn),并且至少一種核苷酸分子被擴增到PCR的飽和階段。尤其優(yōu)選的是,不同核苷酸分子的至少10%被擴增到PCR的飽和階段。這樣的擴增反應(yīng)可以用于將池或子池中的核酸分子的濃度歸一化。PCR反應(yīng),舉例來說有指數(shù)階段,在此階段核酸分子基本上在每個PCR循環(huán)中被加倍。在核酸分子相比引物濃度達到一定濃度的時候,競爭反應(yīng)開始抑制擴增。因此,大量的核酸分子的擴增開始因為可以阻止引物結(jié)合的核酸分子的自身抑制而減慢。或者反應(yīng)成分如引物、dNTP被用盡。這個階段被稱作飽和階段。優(yōu)選地,高豐度的核酸分子達到這個飽和階段并且擴增被抑制,然而低豐度的分子繼續(xù)指數(shù)擴增。優(yōu)選地,不同核酸分子中的至少10%,尤其優(yōu)選至少20%進入飽和階段。這些擴增反應(yīng)可以例如通過qPCR (定量PCR)監(jiān)控。當然,所述反應(yīng)在常規(guī)的PCR反應(yīng)(但可能未被監(jiān)控)或其它具有自身抑制的擴增反應(yīng)中,例如在20、22、24、26、28或30個擴增循環(huán)之后發(fā)生,這是本發(fā)明擴增優(yōu)選的最小循環(huán)數(shù)。當例如通過PCR擴增平行分離子池時,含高豐度轉(zhuǎn)錄物的子池會較早的達到飽和階段。因此,不含有這些高豐度的轉(zhuǎn)錄物的子池內(nèi)的轉(zhuǎn)錄物會在后面的循環(huán)中仍然被擴增,而這時含有高豐度轉(zhuǎn)錄物的子池已經(jīng)處于飽和階段。因此,當對所有這些子池測序時,罕有轉(zhuǎn)錄物被檢測到的機會更高。本發(fā)明中子池化(sub-pooling)程序還可以用來去除高拷貝轉(zhuǎn)錄物,例如從序列測定中排除具有高豐度核酸的子池。優(yōu)選地,這些從序列測定中排除的具有高豐度核酸分子的子池包含所有子池(可能含有樣品中所有核酸分子)的平均量的多于100%的,尤其優(yōu)選多于150%、更優(yōu)選多于200%、尤其優(yōu)選多于300%,例如多于400%、例如多于500%、尤其優(yōu)選多于1000%的核酸分子。這種子池可以比如是包含占整個原始池的多于0. 1%、0. 5%、甚至多于1%、例如多于2%或多于5%或多于10%的核酸的子池。有待用此方法排除的或歸一化的高豐度轉(zhuǎn)錄物屬于例如看家基因,GAPDH、肌動蛋白、微管蛋白、RPLl、核糖體蛋白或PGKl。本發(fā)明進一步通過下圖及實施例闡述,但不局限于此。


      圖I :RNA的分離-NGS方法流程2 :用對數(shù)-對數(shù)-正態(tài)函數(shù)模擬基因數(shù)目對mRNA (所有基因轉(zhuǎn)錄物的總拷貝數(shù))的函數(shù)?;钴S基因G,16657 ;總轉(zhuǎn)錄物T,3. SMio ;最常見轉(zhuǎn)錄物數(shù),10 ;對數(shù)-對數(shù)-正態(tài)函數(shù)的標度值U,1 ;和形狀參數(shù)S,0.4。 圖3 :根據(jù)參數(shù)始,33,t結(jié)束,1,所有基因總和,25200和轉(zhuǎn)錄物的四倍量(100269),定性描述轉(zhuǎn)錄物數(shù)目與基因數(shù)目的關(guān)系的指數(shù)衰減函數(shù)。圖4 :根據(jù)參數(shù)c開始,10000,c結(jié)束,1,衰減常數(shù)T =0.0522,所有轉(zhuǎn)錄物總和,100128,所有拷貝數(shù)的總和3. 8Mio描述mRNA (拷貝數(shù))與轉(zhuǎn)錄物的相關(guān)性的指數(shù)衰減函數(shù)。圖5 :子池化和片段化的一般流程圖。圖6 :使用核苷酸特異性擴增(分離)的一般原理。在此實例中,5’端前兩個核苷酸被用于定義子池,并成為序列標簽。圖7 =RNA矩陣分離。在此實例中值得注意的是片段F2和F4的序列相同,除非分離為子池(參見步驟10)否則無法被區(qū)分。如步驟2所示的將接頭序列添加至mRNA的5’端可用任何本領(lǐng)域已知的方法如寡聚加帽法(Maruyama 1994)實現(xiàn)。圖8:通過隨機引物聚合生成片段。步驟1-4同圖9。僅顯示子池n。第6步的Sn代表子池特異性標簽。圖9:隨機引物測序,產(chǎn)生片段讀段。步驟1-4同圖7。在此實例中子池n的分子X是雙鏈的,每條鏈可以作為測序模板。隨機引物結(jié)合于測序芯片的表面。子池中每個分子的單鏈均被雜交到芯片上的引物。因為隨機引物可以與分子的任何部分雜交,測序?qū)姆肿赢a(chǎn)生“片段”讀段。圖10:小鼠基因組覆蓋度的比較,覆蓋度通過一個未分離的樣品(A組)和一個12子池矩陣(Ixl)中的6個的分離的樣品(B組)的NGS讀段比對得到。一致長度(y_軸)描述唯一檢測到的序列的總長。X-軸描述讀段的和(十億堿基)。平均讀段長度為65個堿基。虛線連接通過隨機抽取讀段亞類并將其單獨地比對到小鼠基因組得到的數(shù)據(jù)點。實線為數(shù)據(jù)點的內(nèi)插或外推。GC,基因組覆蓋度。圖11:比較一個子池(子池6)和實施例I中B組的6個合并的子池的基因表達的散點圖。基因表達在snRPKM中被描述,snRPKM為RPKM (Mortazavi 2008)歸一化到全部6個子池中所有讀段的總和。在所有值中隨機取10%來減少數(shù)據(jù)點的數(shù)量,以更好地顯示。在雙對數(shù)刻度中的對角線描述第六部分的區(qū)段。圖中所示為snRPKM值介于0. 01-1000的中心區(qū)段。6個6/6線上方的值是因CLC軟件中的比對算法的歧義性導(dǎo)致的。圖12:顯示實施例I中B組的15個最高豐度基因的子池分布。在不同的子池中,基因以不同的濃度存在,顯示不同基因的轉(zhuǎn)錄物變體被分離,呈現(xiàn)不同的轉(zhuǎn)錄物變體濃度。圖13 Nnmt基因轉(zhuǎn)錄起始位點分析,起始位點通過RNA_seq、0和Ixl矩陣實驗的讀段分配。示意性畫出基因組注釋,并顯示Nnmt的起始區(qū)域。讀段用各自的位置描述。堿基讀段的相對頻率對應(yīng)于“讀段序列的頻度” 一行的深灰色區(qū)域。
      實施例實施例I :通過末端特異性矩陣分離進行的cDNA分離,接著進行NGS分析。所用寡核苷酸見表I。2u g純化的小鼠肝臟樣品RNA與寡核苷酸引物雜交,該寡核苷酸含有在其3’端錨定了 V (C,G,或A)的寡脫氧胸腺嘧啶序列(Seq-2;Linker2-T27-V),逆轉(zhuǎn)錄產(chǎn)生cDNA。采用逆轉(zhuǎn)錄酶的模板轉(zhuǎn)換活性,在逆轉(zhuǎn)錄反應(yīng)過程中,通過逆轉(zhuǎn)錄模板轉(zhuǎn)換寡核苷酸(Seq-1;Linkerl) (US 5962271,US 5962372),將接頭序列添加至 cDNA 的 3’端。然后,生成的cDNA的5’端包含由該寡核苷酸引入的polyT區(qū)段,其對應(yīng)于該mRNA的原始polyA尾 巴加上該Linker2序列。cDNA的3’端包含Linkerl序列的反向互補序列接著依賴帽子結(jié)構(gòu)而添加的額外的C核苷酸。準備了兩組不同的樣品用于測序。通過在50iU反應(yīng)中,用雜交到CDNA3’端的模板轉(zhuǎn)換序列(Seq-3 ; Linker I)和5’端的polyT序列(Seq-4, Linker2_T27)的引物,用PCR將約27pg的cDNA擴增至約800ng,制備比較組A的單個樣品(未分離;0矩陣)。為生成足夠的材料用于后續(xù)的測序樣品制備,8個純化的PCR反應(yīng)物混合在一起,且約5 ii g被進一步加工。實際上,該樣品包含非特異性的矩陣,只有一個域(field)代表全部cDNA可作為模板的擴增。B組(有分離)由6個樣品組成,這6個樣品相當于12子池矩陣(1x1矩陣)的6個子池。這里用的表述“1x1矩陣”指的是在cDNA的3’端的I個選擇性核苷酸和在cDNA的5’端的一個選擇性核苷酸。對于每個選擇性核苷酸來說,針對四種核苷酸中的每種都可能分離成池。然而,如果mRNA用作含polyA尾巴的模板,位于該尾巴旁邊的核苷酸(或者cDNA上的相應(yīng)的polyT區(qū)段)只能選擇其它三種核苷酸(因此核苷酸可用于分離為3個子池)。一個含polyA尾巴的mRNA的Ixl矩陣(分離為末端核酸類型,S卩;臨近該尾巴)因此可以分離為4x3=12個子池。例如,其它的矩陣如一個2x0矩陣分離成為4x4=16個子池,一個0x2矩陣分離為3x4=12個子池,或者,一個2x2矩陣分離為3x4x4x4=192個子池。為了生成12個子池,帶有CDNA3’端特異性的3’端A、G、C或T的四種引物中的一種,帶有CDNA5’端特異性的3’端A、G或C的三種引物中的一種應(yīng)用每個矩陣域中,選擇性地只擴增帶有特異性末端組合的cDNA。為了生成B組的6個樣品(子池),只需要6個5,/3,(cDNA)引物組合(Seq-9/Seq_5 (C/G);Seq-10/Seq-5 (G/G);Seq-ll/Seq_6 (A/A);Seq-9/Seq-7 (C/C) ;Seq-10/Seq-7 (G/C)) ;Seq-ll/Seq-8 (A/T)),每個擴增大約 27pg 的cDNA至800ng;每個引物組合的8個重復(fù)合并成的5iig用于后續(xù)的反應(yīng)中。實際上,B組的6個PCR樣品中的每一個平均用cDNA的1/12做模板。表I :用于實施例I中RNA逆轉(zhuǎn)錄和矩陣PCR的寡核苷酸。星號代表硫代磷酸酯鍵,核糖核苷酸冠以“r”。Seq-ID序列
      Seq-IA^CTGTAAAACGACGGCCAGTATAGTTATTGATATGTAATACGACTCACTATArG^rG^rG
      Seq-2A^CGGAGCCTATCTATATGTTCTTGACATTTTTTTTTTTTTTTTTTTTTTTTTT^T^V
      Seq-3G^TTATTGATATGTAATACGACTCACTAT^A
      Seq-4G*ACATTTTTTTTTTTTTTTTTTTTTTTTTT*T
      Seq-5T^AATACGACTCACTATAGGGG^G
      Seq-6T^AATACGACTCACTATAGGGG^A
      Seq-7T^AATACGACTCACTATAGGGG^C
      Seq-8T^AATACGACTCACTATAGGGG^T
      Seq-9N*NTTTTTTTTTTTTTTTTTTTTTTTTT*C
      Seq-ION*NTTTTTTTTTTTTTTTTTTTTTTTTT*G
      Seq-IlN*NTTTTTTTTTTTTTTTTTTTTTTTTT*A

      為制備兩組樣品用于二代測序,每個PCR樣品被片段化(超聲處理)成平均長200_1000bp的片段。然后,這些樣品經(jīng)過使用Illumina Genomic Prep試劑盒(IlluminaGenomic Prep Kit ;#FC-102-1001 ;Illumina Inc. ,USA)的標準 Illumina 基因組 DNA 測序樣品的制備流水線。事實上,連接物被接到這些片段的末端,所述連接物被用來將這些樣品結(jié)合到流動池。它們允許簇生成,且可使一個測序引物雜交并開始測序。另外,B組的這6個樣品通過使用標準Illumina多重標簽,采用多重樣品制備寡核苷酸試劑盒(Multiplexing Sample Preparation Oligonucleotide Kit ;#PE-400_2002 ;Illumina Inc.,USA)標上條碼。對連接連接物的200_600bp大小的片段進行大小選擇用于測序。A組的單個的樣品被加載到流動池的一個通道,而B組的這6個樣品等量混合并加載到第二通道。通過在cBot (Illumina Inc. , USA)儀器上,使用簇生成試劑盒(Clustergeneration Kit ;#GD-203-2001, version 2 ;Illumina Inc. , USA)生成族。然后通過使用測序試劑盒(Sequencing Reagent Kit ;#FC-104-3002,version 3 ;Illumina Inc. ,USA)在基因組分析儀II (Genome Analyzer II ;Illumina Inc.)上進行76bp的測序操作。B組的6個樣品的多重標簽通過使用多重測序引物和PhiX對照試劑盒(PhiXControl Kit ;#PE400-2002, version 2 ;Illumina Inc. , USA)讀出。對于每個通道,獲得短(76bp)讀段,且B組的多重讀段根據(jù)它們的條碼被分開。然后,通過隨機抽取A組4950084個讀段,對兩個數(shù)據(jù)組的讀段的數(shù)目進行歸一化。對于B組的6個樣品中的每一個,隨機抽取825014個讀段,因此B組一共由4950084個讀段組成。米用CLC 基因組平臺(Genomics Workbench V3. 6. 5 ;CLC bio, Denmark)進行讀段組的生物信息分析。從讀段剪除5’引物序列,所有錯誤核苷酸(Ns)從讀段中去除,且低于20個核苷酸的臨界長度的讀段從進一步分析中排除。得到的A組和B組的4940840個和4948650個讀段用于后續(xù)分析。a)與參考mRNA數(shù)據(jù)庫的比對refMrna數(shù)據(jù)庫于2009年10月4日從UCSC的基因組瀏覽器的網(wǎng)頁6上下載,包含24570個參考mRNA序列,這些序列基于小鼠的基因組組裝(mm9,NCBI built 37)。為研究這些參考mRNA中有多少可以通過使用/不使用分離作用而被檢測到,進行A組讀段和 B組讀段與參考mRNA的比對。兩個比對采用如下CLC參數(shù)(加入沖突注釋=否;沖突解決=投票;生成報告=是;生成序列表=是;匹配模式=隨機;序列屏蔽=否;相似度=0. 8 ;長度比例=0. 5 ;插入罰分=3 ;缺失罰分=3 ;錯配罰分=2)。A組(未分離)檢測到15652種mRNA。對于B數(shù)據(jù)組,可觀察到所檢測到的mRNA增加到15702種。因為B數(shù)據(jù)組只包含12個可能的子池中的6個,所以這個小量的增加是顯著的。然而,因為該refMrna數(shù)據(jù)組只包括每個已知基因的一種轉(zhuǎn)錄物,需要將兩個組與一個更完整的數(shù)據(jù)組比對,該數(shù)據(jù)組還包括基因的更多的轉(zhuǎn)錄物變體(如剪接變體)。b)與328358個mRNA序列的比對328358個GenBank的mRNA序列5于2009年10月4日從UCSC基因組學(xué)瀏覽器數(shù)據(jù)庫6下載。采用和a)相同的CLC參數(shù),將A組和B組與這328358個GenBank的mRNA序列比對。用A組可以檢測到83199個序列,而用B組可以檢測到87794個序列。這意味著,當在測序前進行分離時,可以多檢測到大約5%的mRNA分子。盡管觀察到的改進很明顯,這種大mRNA數(shù)據(jù)庫在寬度(基因數(shù)量)和深度(基因的轉(zhuǎn)錄物變體)上都是有限的。因此,在基因組的背景下進行額外的可選分析。c)針對小鼠基因組的組裝完整的參考小鼠基因組3于2009年是10月4日從UCSC基因組瀏覽器數(shù)據(jù)庫6下載。采用與a)相同的CLC參數(shù)進行比對,獲得數(shù)據(jù)組A的基因覆蓋率為0. 494%、數(shù)據(jù)組B為0. 561% (圖10)。因此,B組檢測到比A組大約多13. 5%的基因組。這對應(yīng)于約1835663個額外地定位的核苷酸。如果小鼠外顯子的平均尺寸是約300-400堿基,那么約4589到6118個的額外的外顯子可以被檢測到。此外,圖10表明讀段的比對獲得不依賴讀段深度的基因組覆蓋率的增加,且與使用未分離的樣品相比,使用分離的樣品(B組)時,使用更小的讀段深度就可以獲得同樣的基因組覆蓋率。分析中,通過隨機抽取生成讀段子集,然后分別與參考基因組比對?;蚪M覆蓋率在IOOMbp的讀段深度上的差異是20%,在IGbp上是30%。d)針對帶注釋的小鼠基因組的RNA-Seq分析結(jié)合基因組和轉(zhuǎn)錄組彳目息,對在已知基因的上下游的最聞為1000喊基的相當窄的界限內(nèi)的可能的未知外顯子進行表征。在此,從NCBI4數(shù)據(jù)庫(NCBI Build 37,mm9,C57BL/6J,July 2007)下載的完整的有注釋的參考小鼠基因組用作參考。再次采用CLC基因組平臺(Genomics Workbench)進行RNA-Seq分析。為了包含上下游1000核苷酸的帶注釋的基因序列,修改了參數(shù)組(額外的上游堿基=1000 ;額外的下游堿基=1000 ;生成未組裝讀段的列表=是;外顯子發(fā)現(xiàn)=是;錯配最大數(shù)目(短讀段)=2 ;推定的外顯子的最小長度=50 ;最小讀段數(shù)=10 ;生物體種類=真核生物;非特異性匹配限制=10 ;采用色彩空間編碼=否;采用基因注釋=是;表達值=RPKM ;最低外顯子覆蓋比例=0. 2 ;最小長度比例(長讀段)=0. 9)。數(shù)據(jù)組A的整合揭示了 207個推定的新型外顯子,其中至少73個是通過A組單獨唯一檢測到的。數(shù)據(jù)組B明顯地增加了這些數(shù)字,并且產(chǎn)生256個推定的新型外顯子,其中至少122個是單獨通過B唯一發(fā)現(xiàn)的。因此,分離作用將揭示更多的新信息,甚至是對于已知的基因。e)在所有基因的背景下的個體基因的轉(zhuǎn)錄物變體的分離如d中,帶注釋的參考小鼠基因組被用來采用CLC基因組平臺(GenomicsWorkbench)在RNA-Seq分析7中測定表達值(RPKM)。將單獨的子池和合并的6個子池 之間的基因表達值進行對比。對比子池6和聯(lián)合的子池的散點圖示于圖11。因為隨機分布將導(dǎo)致圍繞1/6線的散點,圖11清晰地表明,分離發(fā)生了,因為散點跨越所有6個區(qū)段分布。這意味著個體基因的轉(zhuǎn)錄物變體被分離到不同子池,這與它們在樣品中的濃度相關(guān)。例如,畫于5/6線以上的基因在該池中有一或更多種轉(zhuǎn)錄物變體,這些轉(zhuǎn)錄物變體占該基因所有轉(zhuǎn)錄物變體的濃度的大于5/6。表2示出根據(jù)所有子池的snRPKM值的分布進行分組的總結(jié)。在基因組NCBI數(shù)據(jù)庫中被注釋的基因總數(shù)為31781。在所有的6個子池中,共11478個基因被檢測到。被繪入第六部分以上的基因共2688個或者23. 4%。對于這些基因,比起分離,不分離更難檢測其它子池中的樣品間(即對于其它轉(zhuǎn)錄物變體)的濃度變化。表2 :每子池的總和歸一化RPKM (snRPKM)值的分布,通過0. 825 Mio讀段比所有6個子池的全部4. 95Mio讀段的總和歸一化的RPKM (snRPKM)得到。
      6部分子池I 子池2 子池3 子池4 子池5 子池6~L3,069 3,435 3,092 3,389 3,842 3,023~
      ~1,597 1,472 1,918 1,441 1,128 1,909~
      ~1,114 9311,520 8904721,610~
      ~631575556354120633
      ~29434413814150200
      ~453478441315187500
      6. +44394368566權(quán)利要求
      1.對衍生自潛在地多樣的RNA分子池的核酸分子片段序列進行劃分的方法,包括 任選地逆轉(zhuǎn)錄所述RNA分子以提供cDNA分子池, 從所述模板RNA或cDNA池分離核酸,選擇潛在地不同的模板,所述模板具有所分離的模板共有的核酸區(qū)別特征,從而提供至少第一核酸子池, 任選地進一步從所述模板RNA或cDNA分離核酸一次或多次,選擇性地分離具有不同的核酸區(qū)別特征的核酸,從而提供一或多個進一步的核酸子池, 通過片段化或者獲得所述分離的核酸分子的片段拷貝生成所述分離的核酸分子的片段,其中通過物理分離子池或通過給所述子池的片段添加識別子池的標記使每個子池或合并的子池的片段保持可與其它子池或其它合并的子池的片段分開,或者測定所述分離的核酸分子的部分序列并優(yōu)選地將至少兩個序列或部分序列比對成連接的序列。
      2.權(quán)利要求I的方法,其特征在于所述分離步驟包括從所述模板RNA或cDNA池分離核酸,選擇潛在地不同的模板,所述模板具有所分離的模板共有的至少一個給定核酸類型,所述給定核酸類型位于距離全長模板核酸分子序列的5’或3’端100個核苷酸以內(nèi)的某個位置,從而提供至少第一核酸子池。
      3.權(quán)利要求I和2的方法,其還包括測定第一子池和任選地其它子池的片段的序列或部分序列,優(yōu)選地其中測定至少10個核苷酸、尤其優(yōu)選至少18個核苷酸、甚至更優(yōu)選至少25個核苷酸的部分序列。
      4.權(quán)利要求I、2或3的方法,其特征在于所述RNA分子來源于生物學(xué)樣品,優(yōu)選地來源于病毒、原核生物或真核生物。
      5.權(quán)利要求1-4中任一項的方法,其特征在于分離的核酸分子的片段化包括優(yōu)選通過物理手段,尤其優(yōu)選通過剪切作用、超聲處理或升溫進行的隨機片段化。
      6.權(quán)利要求1-5中任一項的方法,其特征在于所述片段由10-10000個核苷酸組成,優(yōu)選由25-500個核苷酸組成。
      7.權(quán)利要求1-6中任一項的方法,其特征在于所述核酸特征為位于所述核酸分子的特定位置的給定的核苷酸類型,優(yōu)選地所述核苷酸類型選自A、T、U、G、C中的任何一種,優(yōu)選地,所述位置位于所述核酸分子5’或3’末端100個核苷酸以內(nèi)。
      8.權(quán)利要求7的方法,其特征在于針對緊接5’和/或3’端的10個核苷酸內(nèi)的共同的核苷酸選擇所述核酸,優(yōu)選地,針對一或多個共同的5’和/或3’端核苷酸類型選擇所述核酸。
      9.權(quán)利要求1-8中任一項的方法,其特征在于所述RNA分子為全長RNA和/或所述分離的核酸分子包含全長或完整cDNA或RNA的序列。
      10.權(quán)利要求3的方法,其特征在于序列測定包含從所述片段,尤其是從其5’或3’端測定至少5個,優(yōu)選至少8個核苷酸的序列,更優(yōu)選的是測定所述片段的全序列。
      11.權(quán)利要求ι- ο中任一項的方法,其特征在于所述核酸被分為子池,其中所有子池的至少10%包含所有子池的核酸平均量+/-50%。
      12.權(quán)利要求1-11中任一項的方法,其特征在于所述核酸被分為子池,其中至少10%的子池含有2個或更少的核酸,優(yōu)選地含有I個核酸。
      13.權(quán)利要求1-12中任一項的方法,其特征在于分離核酸包括特異性擴增來自所述模板池的核酸。
      14.權(quán)利要求13的方法,其特征在于通過從引物延伸核苷酸進行擴增,優(yōu)選通過PCR進行,尤其優(yōu)選的是,其中擴增使用選擇非特異性引物部分后面的至少一個,優(yōu)選選擇至少兩個,尤其至少兩個相鄰的不同核苷酸的引物進行,由此包含所選的作為子池特異性核酸特征的核苷酸的核酸分子被擴增。
      15.權(quán)利要求1-14中任一項的方法,其特征在于使子池特異性標記與所述片段連接。
      16.權(quán)利要求15的方法,其特征在于所述子池特異性標記為一或多個核苷酸,其優(yōu)選地在如權(quán)利要求3中定義的測序中被共同測定。
      17.權(quán)利要求1-16中任一項的方法,還包括擴增所述核酸分子,優(yōu)選在分離之后而在序列測定之前擴增,尤其優(yōu)選的是,所述擴增通過PCR進行并且至少一種核苷酸分子被擴增至PCR的飽和階段,尤其優(yōu)選的是不同核苷酸分子中的至少10%被擴增至PCR的飽和階段。
      18.權(quán)利要求1-17中任一項的方法,其特征在于從序列測定中排除具有高豐度核酸分子的子池,其中具有高豐度核酸分子的子池為包含多于所有子池平均量的1000%的核酸分子的子池。
      19.權(quán)利要求1-18中任一項的方法,其特征在于在核酸的分離中,一條所選的鏈被分離或一條所選的鏈被標記,其中優(yōu)選地,所選的鏈的片段也被標記。
      全文摘要
      本發(fā)明涉及一種對衍生自潛在地多樣的RNA分子池的核酸分子序列進行劃分的方法,包括任選地逆轉(zhuǎn)錄所述RNA分子以提供cDNA分子池;從所述模板RNA或cDNA池中分離核酸,選擇潛在地不同的模板,所述模板具有所分離的模板共有的區(qū)別性核酸特征,從而提供至少第一核酸子池;任選地進一步從所述模板RNA或cDNA分離核酸一或多次,選擇性地分離具有不同的區(qū)別性核酸特征的核酸,從而提供一或多個進一步的核酸子池;通過片段化或獲得所述分離的核酸分子的片段拷貝生成所述分離的核酸分子的片段,其中通過物理分離子池或通過給子池的片段添加識別子池的標記使每個子池或合并的子池的片段保持可與其它子池或其它合并的子池的片段分開,或者測定所述分離的核酸分子的部分序列并優(yōu)選地將至少兩個序列或部分序列比對成連接的序列。
      文檔編號C12Q1/68GK102782152SQ201080056185
      公開日2012年11月14日 申請日期2010年12月10日 優(yōu)先權(quán)日2009年12月11日
      發(fā)明者A·塞茨, L·保羅, M·J·范米恩 申請人:萊克斯奧根有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1