一種雜合性缺失的檢測方法
【專利摘要】本申請公開了一種雜合性缺失的檢測方法,本申請的檢測方法以單細胞測序為基礎,以dbSNP數據庫為背景,以染色體臂為檢測單元,對單個細胞的SNP位點進行分析,并通過hampel identifier法判斷離群點,鑒別出雜合性缺失,從而檢測獲得準確的單個細胞的雜合性缺失信息。本申請的檢測方法率先在單細胞全基因組上水平檢測各個細胞的雜合性缺失;以染色體臂為檢測單元,檢測精度高;開辟了單細胞雜合性缺失檢測先河;為單個細胞差異的鑒別,以及腫瘤組織中細胞的異質性研究奠定了基礎;不僅可以用于推斷腫瘤的發(fā)生發(fā)展過程,了解腫瘤克隆演化的類型;而且對不同病患或不同時期的用藥或用藥效果分析等也具有重要意義。
【專利說明】
一種雜合性缺失的檢測方法
技術領域
[0001] 本申請涉及基因檢測領域,特別是涉及一種雜合性缺失的檢測方法。
【背景技術】
[0002] 單細胞全基因組測序是在單細胞水平對全基因組進行擴增測序的新技術,其主要 包括單細胞的分離,單細胞遺傳物質的提取與擴增,以及二代測序三個步驟。隨著測序技術 的發(fā)展,尤其是全基因組擴增方法的改善及新方法的提出,使得癌癥單個細胞基因組分析 成為可能。
[0003] 基因組突變是癌癥發(fā)生發(fā)展的重要因子。與癌癥病人的正常細胞相比,癌癥細胞 的基因組有很多序列改變的特征,從單堿基的改變到染色體大片段的插入或缺失,甚至全 基因組的重復。其中雜合性缺失(loss ofheterogeneous,縮寫L0H)是基因組上的雜合位 點的兩個等位基因,其中一個部分或全部丟失,表現為未缺失等位基因的純合子,導致缺失 的等位基因不能表達。在腫瘤單細胞研究中,癌癥基因組上雜合性缺失是一種普遍存在的 現象,抑癌基因的雜合性缺失與多種腫瘤的發(fā)生發(fā)展息息相關。通過腫瘤雜合性缺失的檢 測,可以協助確定腫瘤克隆演化的類型。
[0004] 現有的檢測雜合性缺失的方法都是基于組織水平,如ASCAT(allele-specific copy number analysis oftumors),其原理為比較正常組織和腫瘤組織中相同位點的單核 苷酸多態(tài)性(single nucleotide polymorphism, SNP)類型,算出相應位點的基因型頻率, 來構建基因組水平的雜合缺失文庫。這種方法需要大量對照組的相同位點的SNP信息;并 且,這種檢測方法是腫瘤組織層面的雜合性缺失檢測,是多個細胞的平均值,由于腫瘤異質 性的特點,這種檢測方法難以說明單個腫瘤細胞的準確的雜合性缺失情況。
【發(fā)明內容】
[0005] 本申請的目的是提供一種新的雜合性缺失的檢測方法。
[0006] 為了實現上述目的,本申請采用了以下技術方案:
[0007] 本申請公開了一種雜合性缺失的檢測方法,其特征在于:包括以下步驟,
[0008] (1)提取組織樣品,分離獲得單個細胞,提取單細胞的核酸,并采用全基因組擴增 方法對所提取的核酸進行擴增,建庫后上機測序,得到單細胞的全基因組測序;
[0009] (2)將步驟(1)獲得的全基因組測序與參考基因序列進行比對,檢測單細胞的 SNP,得到單細胞全基因組上的單核苷酸多態(tài)性位點的基因型數據,并按照過濾標準對潛在 的假陽性SNP位點進行過濾,得到高質量SNP數據;
[0010] (3)下載dbSNP數據庫中與組織樣品對應的所有SNP位點數據,過濾掉dbSNP數據 庫中在千人基因組中SNP頻率低于5%的SNP位點,剩下的SNP位點作為背景SNP位點集;
[0011] (4)采用步驟(2)得到的高質量SNP數據,對于每個單細胞,以染色體臂為一個檢 測區(qū)域,統(tǒng)計各檢測區(qū)域的SNP位點與背景SNP位點集的交集,計數為?\,并統(tǒng)計純合SNP 和雜合SNP位點,純合SNP計數為Nlj;
[0012] (5)計算每個單細胞中各個檢測區(qū)域的純合SNP位點頻率FlS,計算公式為F lj = + 100%,得到各個檢測區(qū)域的純合SNP位點頻率矩陣;
[0013] (6)用hampel identifier法找純合SNP位點頻率Fg中的離群點,離群點所在的 檢測區(qū)域,即判定該染色體臂有發(fā)生雜合性缺失;
[0014] 其中,i表示染色體臂的編號,j表示單細胞的編號。
[0015] 需要說明的是,本申請的關鍵在于利用單細胞測序技術,對單個癌細胞或腫瘤細 胞進行分析,并采用現有的dbSNP數據庫為背景,以染色體臂為一個檢測單元,創(chuàng)造性的 采用hampel identifier法對離群點進行分析,從而判定染色體臂的雜合性缺失??梢岳?解,除此以外,例如單個細胞的獲得、單細胞核酸提取、單細胞測序,測序結果的比對和SNP 的檢測都可以參考現有技術進行;本申請的優(yōu)選方案中,為了保障檢測結果,優(yōu)選的采用 SOAP或BWA軟件對步驟(1)的測序結果進行比對,并優(yōu)選的采用GATK、samtools或SOAPsnp 進行SNP檢測。
[0016] 還需要說明的是,步驟(3)中"下載dbSNP數據庫中與組織樣品對應的所有SNP 位點數據","與組織樣品對應的"是指組織樣品來源相對應的,例如本申請的一種實現方式 中,具體對人的癌細胞進行雜合性缺失檢測,則下載了人的所有SNP位點數據。可以理解, 如果是對其它動物的腫瘤細胞進行的雜合性缺失檢測,則需要下載對應的該動物的所有 SNP位點數據;當然,前提是dbSNP數據庫中有這些數據。
[0017] 本申請的步驟(3)中,千人基因組中SNP頻率是指,SNP頻率=千人基因組中有此 SNP的樣本數目+1000,本申請中過濾掉千人基因組中SNP頻率低于5 %的SNP,其中5 %是 一個經驗概率,具有統(tǒng)計學意義,可以理解,該值同樣并不是唯一不變的,在試驗允許的條 件下,對該值進行細微調整同樣屬于本申請的保護范圍。步驟(2)中,所謂高質量的SNP數 據是指排除各種假陽性的SNP后,可信度高的SNP數據,具體過濾標準可以參考現有的SNP 分析方法中對SNP的分析判定標準。
[0018] 優(yōu)選的,步驟(2)中,過濾標準為,過濾去除序列reads支持數少于6的SNP,去除 SNP質量少于20的SNP,去除鏈特異性的SNP,去除SNP位點的間距少于5bp的SNP。
[0019] 需要說明的是,本申請的步驟(2)中,與全基因組測序比對的參考基因序列為,從 NCBI或其他數據庫下載的與本申請所測序的單細胞對應的物種基因組序列。過濾標準采 用Hou et al. 2012中披露的標準,可以理解,本申請采用的過濾標準中序列reads支持數 和SNP質量的具體值并不是唯一不變的,根據不同的試驗條件和實際需求,對"序列reads 支持數少于6, SNP質量少于20"進行細微的調整同樣屬于本申請的保護范圍;過濾標準 中,鏈特異性的SNP是指,遺傳物質具有互補雙鏈結構,其中一條鏈的測序深度和其互補 鏈測序深度相差甚大的SNP。過濾標準的出處詳見文獻:Hou Y,et al. 2012. Single-cell exome sequencing and monoclonal evolution of a JAK2~negative myeloproliferative neoplasm. Cell 148:873-885。還需要說明的是,Hou et al.的過濾標準只是獲得高質量 SNP數據的一種優(yōu)選方案,不排除其它可以獲得高質量的SNP數據的過濾標準同樣適用于 本申請。
[0020] 優(yōu)選的,步驟(6)用hampel identifier法找離群點具體包括,(a)找出所有檢測 區(qū)域的純合SNP位點頻率Fij的中位數M F,(b)計算每個純合SNP位點頻率Fij與中位數M F 的差值,取差值的絕對值即各純合SNP位點的絕對中位差I F^-Mp I,得到絕對中位差矩陣, 其中染色體臂純合率Fl]小于中位數MF的判定該染色體臂沒有發(fā)生雜合性缺失,(C)找出各 純合SNP位點的絕對中位差的中位數MAD,按公式計算Zy = (| FifMF |) + (MAD + 0. 6745), Zi/大于2. 24,為離群點,即判定該染色體臂有發(fā)生雜合性缺失。
[0021] 需要說明的是,染色體臂純合率小于平均值的判定該染色體臂沒有發(fā)生雜合性缺 失,這是根據L0H的特征進行判斷的,本申請的研究過程中,發(fā)明人發(fā)現,發(fā)生L0H的位點其 雜合性部分或全部丟失,因此其純合率應該升高,所以如果染色體臂純合率小于平均值,也 就是純合率降低的位點,判斷為沒有發(fā)生L0H。需要補充說明的是,在本申請的一種實現方 式中,將沒有發(fā)生L0H的位點賦值為0,發(fā)生L0H的位點賦值為1,以便統(tǒng)計分析。
[0022] 優(yōu)選的,步驟⑵中,檢測單細胞的SNP所采用的軟件為GATK、samtools或 S0APsnp〇
[0023] 優(yōu)選的,步驟(2)中,將步驟(1)獲得的全基因組測序與參考基因序列進行比對所 采用的軟件為SOAP、BWA或bowtie。
[0024] 本申請的雜合性缺失的檢測方法是以人類癌癥細胞為基礎研究出來的,其主要目 的是研究人類癌癥細胞單個細胞的雜合性缺失,研究各個細胞的差異,進而分析推斷腫瘤 的發(fā)生發(fā)展過程;因此,本申請的另一面提供了本申請的檢測方法在檢測人類癌癥細胞的 雜合性缺失中的應用??梢岳斫?,通過對單個細胞的雜合性缺失檢測,不僅可以用于推斷腫 瘤的發(fā)生發(fā)展過程;而且對不同病患或不同時期的用藥或用藥效果分析等也是具有重要意 義的。
[0025] 可以理解,在本申請的檢測方法的基礎上,可以利用本申請的檢測方法制備出雜 合性缺失檢測的試劑盒,與其他自動化設備或檢測平臺結合,還可以制備出雜合性缺失檢 測的專用檢測設備;因此,本申請的再一面還提供了本申請的檢測方法在制備雜合性缺失 檢測試劑盒或檢測設備中的應用。
[0026] 由于采用以上技術方案,本申請的有益效果在于:
[0027] 本申請的雜合性缺失檢測方法率先在單細胞全基因組上水平檢測各個細胞的雜 合性缺失;并且以染色體臂為檢測單元,檢測精度高。本申請的檢測方法開辟了單細胞雜合 性缺失檢測先河,為單個細胞差異的鑒別,以及腫瘤組織中細胞的異質性研究奠定了基礎; 不僅可以用于推斷腫瘤的發(fā)生發(fā)展過程,了解腫瘤克隆演化的類型;而且對不同病患或不 同時期的用藥或用藥效果分析等也具有重要意義。
【附圖說明】
[0028] 圖1是本申請實施例中單細胞雜合性缺失結果圖;
[0029] 圖2是本申請實施例中病人1三塊組織檢測雜合性缺失的結果圖;
[0030] 圖3是本申請實施例中病人2三塊組織檢測雜合性缺失的結果圖。
【具體實施方式】
[0031] 本申請的方法只需要公共數據庫dbsnp中的數據,更簡單方便;并且,基于單細胞 全基因高深度測序,考慮到單細胞測序的擴增偏向性,以染色體臂為檢測單元,根據dbSNP 庫中每個檢測單元內SNP的頻率分布,從而得到準確的雜合性缺失情況,提高了檢測精度。
[0032] 本申請中,i表示染色體臂的編號,j表示單細胞的編號;1\表示編號為i的染色 體臂與背景SNP位點集的交集SNP位點個數;隊j表示編號j的單細胞中編號i的染色體臂 中純合SNP的個數;FlS表示編號j的單細胞中編號i的染色體臂中純合SNP的出現頻率; 1?表示統(tǒng)計的所有Fy的中位數;IF^-Md表示與^的差的絕對值;MAD表示統(tǒng)計的所有 |匕為|的中位數式/表示編號j的單細胞中編號i的染色體臂其純合SNP是否為極端 值,即是否為離群點的判斷分數。
[0033] 下面通過具體實施例和附圖對本申請作進一步詳細說明。以下實施例僅對本申請 進行進一步說明,不應理解為對本申請的限制。
[0034] 實施例
[0035] 分別提取2個腦瘤病人的3塊腫瘤組織,病人1的3塊腫瘤組織分別標記為P1-T1、 P1-T2、P1-T3,病人2的3塊腫瘤組織分別標記為P2-T1、P2-T2、P2-T3。從這6塊組織分別 分選出3~5個單細胞,共22個單細胞,按照如下方法測定各個單細胞的雜合性缺失:
[0036] (1)從腫瘤患者的組織樣品,使用流式細胞儀分離得到單個細胞,提取單個細胞的 核酸并采用全基因組擴增方法進行擴增,進行常規(guī)建庫后進行上機測序,得到單細胞全基 因組測序下機序列;全基因組擴增方法包括簡并核苷酸引物PCR(DOP-PCR),多重置換擴增 (MDA)或多次退火環(huán)狀循環(huán)擴增(MALBAC),可選其中任何一種,獲得足夠建庫的核酸量,本 例具體采用多重置換擴增(MDA)方法。上機測序本例采用CG測序儀。需要說明的是,測序 建庫采用標準的CG建庫流程,MDA參考CG測序儀的使用說明,在此不累述。
[0037] (2)將步驟(1)獲得的全基因組測序結果,進行CG標準分析,并獲得與參考基因序 列進行比對的比對結果,使用samtools檢測SNP,得到單個細胞全基因組上的單核苷酸多 態(tài)性位點的基因型數據,對各個單細胞樣本檢測得到的所有SNP位點進行過濾,過濾標準 是,序列reads支持數少于6, SNP質量少于20,去除鏈特異性的SNP,去除SNP cluster ;
[0038] (3)下載dbSNP數據庫中人的所有SNP位點數據,過濾掉在所有單細胞樣本中出現 頻率低于5%的SNP位點,作為背景SNP位點集;
[0039] (4)對于每個單細胞,以染色體臂為一個檢測區(qū)域包含(:111'1.口,(3111'1.9,(3111'10· p, chrlO. q, chrll. p, chrll. q, chrl2. p, chrl2. q, chrl3. q, chrl4. q, chrl5. q, chrl6. p, chrl6. q, chrl7. p, chrl7. q, chrl8. p, chrl8. q, chrl9. p, chrl9. q, chr2. p, chr2. q, chr20. p, chr20. q, chr21. p, chr21. q, chr22. q, chr3. p, chr3. q, chr4. p, chr4. q, chr5. p, chr5. q, chr6. p, chr6. q, chr7. p, chr7. q, chr8. p, chr8. q, chr9. p, chr9. q, 一 共 40 個染 色體臂,統(tǒng)計各檢測區(qū)域的高質量的SNP位點與背景SNP位點集的交集,計數為?\,并統(tǒng)計 純合SNP和雜合SNP位點,純合SNP計數為\,統(tǒng)計的\值詳見表1至表4,由于數據量比 較大,&分表1至表4四個表格列出;需要說明的是,本例中,有些染色體臂很短,且現有組 裝結果其主要是Ν,所以本例只檢測40個染色體臂的;
[0040] (5)計算每個單細胞中各個檢測區(qū)域的純合SNP位點頻率FlS,計算公式為F lj = + 100%,得到各個檢測區(qū)域的純合SNP位點頻率矩陣;
[0041] 表1單細胞樣本在各檢測區(qū)域純合SNP位點的頻率
[0042]
[0051] (6)用hampel identifier法找純合SNP位點頻率Fg中的離群點,離群點所在的 檢測區(qū)域,即判定該染色體臂有發(fā)生雜合性缺失;具體包括,(a)找出所有檢測區(qū)域的純合 SNP位點頻率FlS的中位數M F,本例中MF= 0. 0808778,(b)計算每個純合SNP位點頻率F 與中位數MF的差值,取差值的絕對值即各純合SNP位點的絕對中位差| F i j-MF |,得到絕對中 位差矩陣,絕對中位差詳見表5至表8 ;
[0052] 表5單細胞樣本在各檢測區(qū)域的絕對中位差矩陣
[0054] 表6單細胞樣本在各檢測區(qū)域的絕對中位差矩陣
[0062] (c)找出各純合SNP位點的絕對中位差的中位數MAD,本例中MAD = 0. 035
[0063] 按公式計算Zy = (IF^-Md) + (MAD + 0. 6745),得到一個判別矩陣,如表9至表 13所示,其中Zi/大于2. 24,為離群點,即判定該染色體臂有發(fā)生雜合性缺失。
[0064] 表9單細胞樣本在各檢測區(qū)域的判別矩陣
[0065]
[0076] 本例中,i表示染色體臂的編號i e 1,2,......,40 ;j表示單細胞的編號 j e 1,2, 3, 4,…22。另外,本例/大于2. 24,為離群值,說明此染色體臂發(fā)生了 L0H,記 為1 ;小于或等于2. 24即為正常,記為0 ;并且,Fi/j、于中位數M F的染色體臂,我們記為0, 最后獲得L0H結果表,如表14至表17所示。使用R語言中NMF包,以熱圖的形式進行展示 如圖1,深灰色表示此染色體臂發(fā)生雜合缺失,而淺灰色的表示正常。
[0077] 表14 L0H檢測結果矩陣
[0079] 表15 L0H檢測結果矩陣
[0080]
[0086] 從檢測結果中可以看出來,在22個腦瘤單細胞樣本中,L0H主要發(fā)生在chr4. p, chr5. q, chr9. q, chrlO. p, chrlO. q, chrll. p, chrll. q, chrl2. p, chrl7. p, chrl7. q,chrlS. p,chr21. q染色體臂上,至少出現在5個樣本以上,而其他的染色體臂上沒有發(fā)生 L0H或只有1個細胞在此區(qū)域發(fā)生。L0H在細胞間具有很強的異質性。
[0087] 對比例
[0088] 本例對兩個腦瘤病人的6塊腫瘤組織和2塊正常的血組織,通過CG的常規(guī)流程進 行DNA提取和建庫,然后進行全基因組測序,得到下機數據,實驗中使用的試劑為CG的常規(guī) 試劑。本例使用華大基因的CG的標準分析流程進行數據處理。測序和數據處理都在華大 基因完成。
[0089] 對于此實施例中的組織測序,我們基于100kb窗口中所有檢測到的變異位點,其 所有比對上的序列數目進行估計LAF (LesserAllele Fraction),LAF是CG測序分析中的一 種概念,與B等位基因頻率類似,指在一個樣本中等位基因中不大于50%等位基因比率,取 值范圍為〇~〇. 5。對于檢測出來的LAF結果,使用R語言中ggplot2包,以點圖的形式進 行展示如圖2,圖3。LAF等于或者接近于0. 5,說明此檢測區(qū)域沒有發(fā)生雜合缺失,如圖2 中的區(qū)域A,圖3的區(qū)域D。LAF小于0. 5,并且在延伸區(qū)域LAF的值保持一致,說明此延伸 區(qū)域發(fā)生雜合缺失如圖2中區(qū)域B和C,圖3的區(qū)域E。
[0090] 根據單細胞L0H檢測結果和組織樣本中結果的對比發(fā)現,在組織樣品中檢測的 L0H,在22個單細胞樣品中,至少有一個樣本的相同區(qū)域也檢測到L0H,說明我們的檢測方 法和針對組織樣品的CG標準分析流程的檢測結果是一致的,我們的檢測方法可以用來檢 測L0H。同時在組織水平未能檢測到的L0H的區(qū)域,在單細胞樣本中卻檢測出來,說明本申 請的方法可以檢測單細胞水平L0H的異質性。
[0091] 以上內容是結合具體的實施方式對本申請所作的進一步詳細說明,不能認定本申 請的具體實施只局限于這些說明。對于本申請所屬技術領域的普通技術人員來說,在不脫 離本申請構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本申請的保護 范圍。
【主權項】
1. 一種雜合性缺失的檢測方法,其特征在于:包括以下步驟, (1) 提取組織樣品,分離獲得單個細胞,提取單細胞的核酸,并采用全基因組擴增方法 對所提取的核酸進行擴增,建庫后上機測序,得到單細胞的全基因組測序; (2) 將步驟(1)獲得的全基因組測序與參考基因序列進行比對,檢測單細胞的SNP,得 到單細胞全基因組上的單核苷酸多態(tài)性位點的基因型數據,并按照過濾標準對潛在的假陽 性SNP位點進行過濾,得到高質量SNP數據; (3) 下載dbSNP數據庫中與組織樣品對應的所有SNP位點數據,過濾掉dbSNP數據庫中 在千人基因組中SNP頻率低于5%的SNP位點,剩下的SNP位點作為背景SNP位點集; (4) 采用步驟(2)得到的高質量SNP數據,對于每個單細胞,以染色體臂為一個檢測區(qū) 域,統(tǒng)計各檢測區(qū)域的SNP位點與背景SNP位點集的交集,計數為,并統(tǒng)計純合SNP和雜 合SNP位點,純合SNP計數為N l j; (5) 計算每個單細胞中各個檢測區(qū)域的純合SNP位點頻率,計算公式為= + 100%,得到各個檢測區(qū)域的純合SNP位點頻率矩陣; (6) 用hampel identifier法找純合SNP位點頻率中的離群點,離群點所在的檢測 區(qū)域,即判定該染色體臂有發(fā)生雜合性缺失; 其中,i表示染色體臂的編號,j表示單細胞的編號。2. 根據權利要求1所述的檢測方法,其特征在于:所述步驟(2)中,過濾標準為,過濾 去除序列reads支持數少于6的SNP,去除SNP質量少于20的SNP,去除鏈特異性的SNP,去 除SNP位點的間距少于5bp的SNP。3. 根據權利要求1所述的檢測方法,其特征在于:所述步驟(6)用hampel identifier 法找離群點具體包括,(a)找出所有檢測區(qū)域的純合SNP位點頻率匕,的中位數M F,(b)計 算每個純合SNP位點頻率FlS與中位數M F的差值,取差值的絕對值即各純合SNP位點的絕 對中位差I F^-Mp |,得到絕對中位差矩陣,其中染色體臂純合率小于中位數Μ #勺判定該 染色體臂沒有發(fā)生雜合性缺失,(c)找出各純合SNP位點的絕對中位差的中位數MAD,按公 式計算Z lS' = (^焉|) + (嫩0 + 0.6745),21/大于2.24,為離群點,即判定該染色體臂有 發(fā)生雜合性缺失。4. 根據權利要求1所述的檢測方法,其特征在于:所述步驟(2)中,檢測單細胞的SNP 所采用的軟件為GATK、samtools或SOAPsnp。5. 根據權利要求1所述的檢測方法,其特征在于:所述步驟(2)中,將步驟(1)獲得的 全基因組測序與參考基因序列進行比對所采用的軟件為SOAP、BWA或bowtie。6. 根據權利要求1-5任一項所述的檢測方法在檢測人類癌癥細胞的雜合性缺失中的 應用。7. 根據權利要求1-5任一項所述的檢測方法在制備雜合性缺失檢測試劑盒或檢測設 備中的應用。
【文檔編號】G06F19/22GK105986011SQ201510050352
【公開日】2016年10月5日
【申請日】2015年1月30日
【發(fā)明人】李甫強, 謝國云, 史旭蓮, 王杰, 梁瀚, 侯勇, 吳逵
【申請人】深圳華大基因研究院