一種檢測胎兒染色體非整倍體的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及醫(yī)療檢測領(lǐng)域,具體涉及一種檢測胎兒染色體非整倍體的方法及系 統(tǒng)。
【背景技術(shù)】
[0002] 胎兒染色體非整倍體是由染色體數(shù)目或結(jié)構(gòu)異常而發(fā)生的疾病,其中21三體(唐 氏綜合征,DS )、18三體(愛德華氏綜合征)、13三體綜合征(帕陶氏綜合征)是臨床最常見和 最易出現(xiàn)的染色體異常疾病,且21三體最為常見,發(fā)病率為1/800~1/600。
[0003] 現(xiàn)有的產(chǎn)前診斷技術(shù)是通過侵入性方法如羊膜穿刺或絨毛膜絨毛取樣獲取胎兒 組織,進行FISH分析或者染色體核型分析。但這些技術(shù)均為有創(chuàng)性的,可能引起流產(chǎn)、胎兒 損傷、出血、感染等。雖然目前國內(nèi)外廣泛采用的孕婦血清標記物篩查和超聲檢查方法是無 創(chuàng)的,但檢測結(jié)果的假陽性率和假陰性率都比較高,且極易受孕周等因素影響。
[0004] 1997年,Lo等在母體血漿中發(fā)現(xiàn)了游離的胎兒DNA,這為無創(chuàng)產(chǎn)前診斷提供了新的 可能性。但由于孕婦血漿中胎兒游離DNA的含量少,處于一種高母體DNA的背景下,難以獲得 胎兒基因組的基因或染色體的信息,使得檢測母體血漿樣品中由非整倍體胎兒造成的染色 體比例呈現(xiàn)的小變化難以發(fā)現(xiàn)。為了克服以上問題,高通量測序技術(shù)被運用于染色體非整 倍體疾病的無創(chuàng)檢測。
[0005] 利用高通量測序技術(shù)對胎兒染色體非整倍體進行檢測的方法相比傳統(tǒng)方法具有 明顯優(yōu)勢。該方法只需抽取母體外周血進行檢測,可避免傳統(tǒng)的侵入性方法可能給孕婦和 胎兒帶來的危害;另外直接檢測母親和胎兒的DNA序列,相比于檢測血清蛋白標志物和超聲 波檢測,準確性、靈敏度及可靠性都大大提高。
[0006] 2008年,RossaW.K. Chiu等提出了一種利用大規(guī)模高通量測序進行胎兒染色體非 整倍體的無創(chuàng)產(chǎn)前診斷方法。該方法通過提取孕婦外周血血漿中的游離DNA,進行新一代高 通量測序,通過分析高通量測序得到的大量堿基序列信息,得到單條染色體堿基序列數(shù)在 總的堿基序列中的占比,并將該值與參考數(shù)據(jù)庫中正常孕婦血樣構(gòu)建的該染色體含量占比 的閾值進行比較,使用z值檢驗以判斷胎兒是否具有非整倍體異常。
[0007] 然而,在樣本文庫制備和上機測序過程中容易產(chǎn)生GC偏好性,嚴重影響胎兒非整 倍體檢測的靈敏度和特異度。針對這一問題,F(xiàn)an和Quake等提出了一種將基因組各染色體 進行等長劃分為非重疊區(qū)段(BIN),根據(jù)不同區(qū)段的GC密度為每個區(qū)段分配權(quán)重,通過乘以 相應(yīng)權(quán)重以優(yōu)化每個區(qū)段的讀段數(shù),以去除GC偏差效應(yīng)。
[0008] 華大基因
[0009] 利用GC含量與染色體覆蓋深度之間的關(guān)系,重新確立每條染色體的擬合覆蓋深 度?;跀M合覆蓋深度,建立二元假設(shè):一個零假設(shè)(H0:所述胎兒是整倍性)是假定患者案 例分布的平均覆蓋深度和所有正常參考分布的平均覆蓋深度相等,意味著如果零假設(shè)被接 受則該患者案例是整倍體;另一個零假設(shè)(H1:所述胎兒是非整倍性)是具有不良胎兒占比 的患者案例分布的平均覆蓋深度等于具有相同胎兒占比的非整倍性案例分布的平均覆蓋 深度。這意味著如果該零假設(shè)被接受則該患者案例是非整倍體。最后使用對數(shù)似然比推斷 胎兒是否為二體。
[0010] 貝瑞和康
[0011]方法一:發(fā)現(xiàn)在母體血漿中的胚胎DNA大部分為lOObp到250bp的片段,且各個染色 體占總DNA的比例與各個染色體占母體血漿中100bp-250bp之間的任意一點或任意一個區(qū) 間的DNA的比例是一致的。因此本發(fā)明的方法僅需要測定10 0 bp到2 50 bp之間的任意一點或 任意一個區(qū)間的DNA中的每段DNA來自幾號染色體,并計算在同一樣本內(nèi)100bp-250bp之間 的任意一點或任意一個區(qū)間的所有DNA中來自待測染色體與來自參考染色體的DNA片段數(shù) 的比值,并計算各樣本間所述比值的變異,根據(jù)變異的數(shù)值確定待測染色體的拷貝數(shù)。
[0012]方法二:所測得的來自各個染色體的DNA片段的GC含量分別與來自各個染色體的 DNA片段占總DNA片段的比值具有一定的線性關(guān)系,上述現(xiàn)象可能與檢測的方法相關(guān),該線 性關(guān)系可用y = ax+b表示,其中y代表來自待測染色體的DNA片段的GC含量,X代表來自待測 染色體的DNA片段數(shù)量占總DNA的比值,a和b是常數(shù),對于不同的染色體a和b可以是不同的 值,可根據(jù)所述來自待測染色體的DNA片段中的GC含量對所述比值進行校正,并計算待測樣 本中所述來自待測染色體的DNA片段校正后的比值的變異,根據(jù)所述變異的程度確定待測 染色體的拷貝數(shù)。
[0013]愛健
[0014] 提出了一種消除染色體間測序GC偏好性的方法。對每個Bin獲得的樣品的染色體 的堿基百分比進行k均值聚類分析,然后根據(jù)每條常染色體所在的類別,在每個類別內(nèi)分別 運用H.Christina Fan提供的方法進行GC校正。其z值計算方法依據(jù)參考數(shù)據(jù)庫的均值和方 差,即RossaW.K.Chiu等提出的方法。
[0015] 目前的方法都只考慮了GC偏好性對測序深度的影響,而未考慮不同堿基序列組合 組成的片段本身造成的測序深度偏差。
[0016] 目前的方法大部分都基于大量正常樣品建立的參考數(shù)據(jù)庫計算均值和方差進而 得到Z值,判斷待測樣本是否為非整倍體。
[0017] 然而由于生物樣品的復(fù)雜性,下一代測序技術(shù)的局限性,實驗操作的隨機性等客 觀因素的存在,基于參考數(shù)據(jù)庫的數(shù)據(jù)分布得到的z值,未能有效消除多種客觀因素的影 響,容易導(dǎo)致檢測結(jié)果出現(xiàn)偏差。
[0018] 本發(fā)明提供的方法結(jié)合GC校正和Bin off set校正,得到更為準確的樣本測序深 度,更好的反映樣本本身的特征,針對校正后的結(jié)果,本發(fā)明提供了一種更為適用的z值計 算方法,直接與樣品自身的其他染色體比較,進而判斷樣本是否發(fā)生非整倍體異常。
【發(fā)明內(nèi)容】
[0019] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,本發(fā)明一方面提供了一種去除不受實驗操 作影響的基因組不同區(qū)段之間由自身堿基組成不同造成的測序深度偏差的方法及系統(tǒng)。
[0020] 本發(fā)明另一方面提供了一種用于通過對孕婦外周血游離DNA進行大規(guī)模平行測序 的胎兒染色體非整倍體的無創(chuàng)檢測方法和系統(tǒng)。
[0021] 本發(fā)明采用的技術(shù)方案為:
[0022] -種去除不受實驗操作影響的基因組不同區(qū)段之間由自身堿基組成不同造成的 測序深度偏差的方法,該方法包括如下步驟:
[0023] 1)、大量正常孕婦血樣的游離DNA進行高通量測序,獲取各樣品的多核苷酸片段的 堿基序列信息,又稱讀段;
[0024] 2)、將各樣品測序所得的喊基序列與人基因組參考序列進彳丁比對,獲取序列的在 基因組上的位置信息;
[0025] 3)、根據(jù)各樣品的比對結(jié)果,去除由文庫構(gòu)建和上機測序中的PCR擴增導(dǎo)致的重復(fù) 讀段,去除低質(zhì)量讀段,去除未比對到基因組的讀段及比對到多個位置的讀段,得到唯一比 對讀段;
[0026] 4)、將各樣品的唯一比對讀段數(shù)均歸一化為10M,按照讀段比對后的位置信息將其 分配到基因組各染色體以20K等長劃分的非重疊區(qū)段,統(tǒng)計分配到各區(qū)段上的讀段數(shù);
[0027] 5)、去除高變區(qū)段,然后進行GC校正;
[0028] 6)、計算所有檢測樣品的各染色體上的同一區(qū)段對應(yīng)的讀段數(shù)的中位數(shù),計算公 式如下:
[0029]
[0030]其中i表示第i個區(qū)段,Countin表示第η個樣品對應(yīng)的第i個區(qū)段的讀段數(shù);
[0031] 7)、根據(jù)上一步得到的結(jié)果,計算每條染色體每個區(qū)段對應(yīng)的讀段數(shù)的中位數(shù)的 中位數(shù);計算公式如下:
[0032]
[0033]其中m為區(qū)段個數(shù);
[0034] 8)、每個區(qū)段對應(yīng)的讀段數(shù)的中位數(shù)與上一步所得的對應(yīng)染色體的區(qū)段的讀段數(shù) 的中位數(shù)的中位數(shù)之間的差值即為區(qū)段的偏移基線。
[0035] 9)、對待測樣本各染色體劃分的等長區(qū)段進行偏移校正,即利用上述步驟得到的 偏移基線與其對應(yīng)的每條染色體劃分的等長區(qū)段所分配的片段數(shù)進行相應(yīng)的調(diào)整;
[0036] countn〇rm=countgc+bin_offset
[0037] 其中countgc表示區(qū)段GC校正后對應(yīng)的讀段數(shù),bin_offset表示區(qū)段對應(yīng)的偏移校 正值,COUntmrm表示區(qū)段偏移校正后的對應(yīng)的讀段數(shù)。
[0038] 上述方法中,所述的高變區(qū)段指的是區(qū)段的波動幅度超過所有區(qū)段平均波動幅度 的三倍的區(qū)段。
[0039] 上述方法中,所述的正常孕婦血樣的樣品數(shù)為100-1000。如一般可以選擇100、 200、500、1000 〇
[0