一種基因拷貝數(shù)變異分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基因拷貝數(shù)變異分析系統(tǒng),包括分析模塊,用于讀入數(shù)據(jù)的索引文件和參考基因組并進(jìn)行比對;分割模塊,用于將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開;統(tǒng)計(jì)模塊,對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì);窗口計(jì)算模塊,用于以1KB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以列表形式給出;圖形模塊,用于根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形;所述分析模塊為主模塊,依次調(diào)用其它各模塊,完成各部分的分析工作。本發(fā)明能夠利用高通量測序數(shù)據(jù)對人類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí)對數(shù)據(jù)比對信息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
【專利說明】
一種基因拷貝數(shù)變異分析系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域,特別是涉及到一種基因拷貝數(shù)變異分析系 統(tǒng)。
【背景技術(shù)】
[0002] 人類基因拷貝數(shù)變異是多種疾病,特別是腫瘤發(fā)生、發(fā)展中最重要的原因之一。近 年來隨著高通量測序技術(shù)的迅猛發(fā)展,測序成本有了大幅度降低,基于全基因組測序分析 基因拷貝數(shù)變異越來越成為臨床檢測和科學(xué)研究的常規(guī)手段。對于基因拷貝數(shù)變異的準(zhǔn)確 檢測和分析也成為生物信息工作者們面對的共同的問題之一。
[0003] 高通量測序技術(shù)通過對基因組上長度為200-500bp的隨機(jī)區(qū)域進(jìn)行擴(kuò)增、測序,用 測序得到的讀長(reads)表征該區(qū)域的拷貝數(shù)。這樣可將基因組上的拷貝數(shù)變異信號放大 到可檢測水平,然后對測序數(shù)據(jù)進(jìn)行分析,達(dá)到檢測基因拷貝數(shù)變異的目的。然而,一方面, 目前基于高通量測序技術(shù)(也稱新一代測序技術(shù))的全基因組測序數(shù)據(jù)由于實(shí)驗(yàn)處理技術(shù) 的局限和人為操作偏差等因素,使得測序數(shù)據(jù)在整個(gè)人類基因組上的分布不均一,有的區(qū) 域覆蓋很高,而有的區(qū)域甚至無法覆蓋。這種覆蓋的不均一性會對基因拷貝數(shù)變異檢測產(chǎn) 生較大的干擾。因此,判斷一個(gè)區(qū)域的reads數(shù)的變化是由于測序誤差造成的還是源于真正 的基因組拷貝數(shù)變異,需要連續(xù)包含在一定長度的區(qū)域(如3MB)的多個(gè)小窗口(如IOOkb)的 reads覆蓋的平均深度來消除誤差影響,然后通過精細(xì)的圖形化展示,直觀的識別出拷貝數(shù) 變異。然而目前的拷貝數(shù)分析軟件圖形展示不夠精細(xì),能識別的拷貝數(shù)變異區(qū)域大,分辨率 低。另一方面,人類基因組著絲粒附近存在的大量重復(fù)序列和不易擴(kuò)增的致密區(qū)域,以及參 考基因組上存在的未知的gap區(qū)域都會對拷貝數(shù)變異的檢測產(chǎn)生較大干擾,在數(shù)據(jù)分析過 程中需要排除。然而目前的拷貝數(shù)變異分析軟件大多都沒有排除基因組著絲粒附近高復(fù)雜 區(qū)域和參考基因組的gap區(qū)域,導(dǎo)致檢測到的拷貝數(shù)變異假陽性高,準(zhǔn)確性低。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提出一種基因拷貝數(shù)變異分析系統(tǒng),能夠利用高通量測序數(shù)據(jù) 對人類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí)對數(shù)據(jù)比對 信息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
[0005] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基因拷貝數(shù)變異分析系 統(tǒng),包括:
[0006] 分析模塊,用于讀入數(shù)據(jù)的索引文件和參考基因組并進(jìn)行比對;
[0007] 分割模塊,用于將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開;
[0008] 統(tǒng)計(jì)模塊,對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì);
[0009]窗口計(jì)算模塊,用于以IKB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以 列表形式給出;
[0010]圖形模塊,用于根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形,將全基因組覆蓋深度圖 按照染色體展示,即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列;
[0011]所述分析模塊為主模塊,依次調(diào)用其它各模塊,完成各部分的分析工作。
[0012] 進(jìn)一步的,本系統(tǒng)還包括SGE批量提交模塊,用于實(shí)現(xiàn)多樣本分析任務(wù)批量提交給 SGE集群管理系統(tǒng)。
[0013] 更進(jìn)一步的,所述SGE批量提交模塊根據(jù)實(shí)際需求指定隊(duì)組、內(nèi)存大小及每次提 交的作業(yè)數(shù)目。
[0014] 進(jìn)一步的,本系統(tǒng)還包括多任務(wù)提交模塊,用于沒有SGE管理系統(tǒng)的集群進(jìn)行批量 提交分析任務(wù)。
[0015]進(jìn)一步的,所述窗口計(jì)算模塊包括特殊區(qū)域處理單元,用于遇到著絲粒附近高復(fù) 雜度的區(qū)域或者參考基因組上的gap區(qū)域,自動跳過,不進(jìn)行計(jì)算。
[0016] 相對于現(xiàn)有技術(shù),本發(fā)明所述的一種基因拷貝數(shù)變異分析系統(tǒng)具有以下優(yōu)勢:
[0017] (1)本發(fā)明將全基因組覆蓋深度按照染色體展示,即24條染色體每條單獨(dú)展示覆 蓋深度圖形,并按豎排羅列,而非整個(gè)基因組用一條覆蓋深度圖形展示,這樣可以將拷貝數(shù) 變異檢測的分辨率提高10倍以上,進(jìn)而提升識別拷貝數(shù)變異的準(zhǔn)確性和靈敏度。
[0018] (2)本發(fā)明將基因組中的著絲粒高復(fù)雜區(qū)域和參考基因組的gap區(qū)域進(jìn)行了去除, 降低了檢測拷貝數(shù)變異的假陽性,提高了準(zhǔn)確性。
[0019] (3)本發(fā)明以測序的原始clean reads作為輸入文件,經(jīng)比對,排序,按染色體分割 bam文件,統(tǒng)計(jì)比對信息,按窗口計(jì)算覆蓋深度,最后畫出展示圖,利用高通量測序數(shù)據(jù)對人 類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí),對數(shù)據(jù)比對信 息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
【附圖說明】
[0020] 構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0021] 圖1為本發(fā)明的流程示意圖。
[0022]圖2為本發(fā)明實(shí)施例的HCC樣本基因組覆蓋圖。
[0023]圖3為本發(fā)明實(shí)施例的和HCC配對的正常肝組織基因組覆蓋圖。
【具體實(shí)施方式】
[0024]需要說明的是,在不沖突的情況下,本發(fā)明的實(shí)施例及實(shí)施例中的特征可以相互 組合。
[0025]下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0026] 如圖1所示為本發(fā)明軟件系統(tǒng)的運(yùn)算流程。
[0027] 本發(fā)明的系統(tǒng)架構(gòu)為:
[0028] 運(yùn)行平臺:Windows ,Linux
[0029] 編程語言:Perl
[0030] 軟件依賴:BWA ,Samtools, SVG畫圖包。
[0031] 1、分析模塊設(shè)有CNVAnalyzer.pi主程序,讀入數(shù)據(jù)的索引文件和參考基因組(兩 個(gè)必須的參數(shù)),調(diào)用各個(gè)輔助程序,依次完成各部分分析工作。
[0032] 2、分割模塊設(shè)有cut_sam_bychr.pl程序,將整個(gè)基因組的比對結(jié)果的sam文件按 照染色體分割開,提高運(yùn)算速度,便于進(jìn)行統(tǒng)計(jì)分析。
[0033] 3、統(tǒng)計(jì)模塊設(shè)有sam_mapping_stat.pl程序,對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng) 計(jì)。包括原始數(shù)據(jù)量,mapping rate,unique mapping rate,基因組覆蓋率,平均覆蓋深度, 建庫時(shí)插入序列的平均長度以及樣品的性染色體表型。
[0034] 4、窗口計(jì)算模塊設(shè)有calcu_window_depth.pl程序,計(jì)算基因組上每個(gè)窗口(窗口 大小為Ikb)平均覆蓋深度,結(jié)果以列表形式給出;
[0035] 本模塊設(shè)有特殊區(qū)域處理單元,當(dāng)遇到著絲粒附近高復(fù)雜度的區(qū)域或者參考基因 組上的gap區(qū)域,則可自動跳過。
[0036] 同時(shí)本程序還將計(jì)算每個(gè)窗口的覆蓋區(qū)域大小,覆蓋比例以及總的測序堿基數(shù) 目。
[0037] 5、SGE批量提交模塊,設(shè)有qsub-sge. pi程序,可實(shí)現(xiàn)多樣本分析任務(wù)批量提交給 SGE集群管理系統(tǒng)。用戶可根據(jù)實(shí)際需求指定隊(duì)組、內(nèi)存大小及每次提交的作業(yè)數(shù)目。 [0038] 6、多任務(wù)提交模塊,設(shè)有mult i-process.pl程序,用于沒有SGE管理系統(tǒng)的集群進(jìn) 行批量提交分析任務(wù)。
[0039] 7、圖形模塊,設(shè)有draw_coverage_depth_chrs.pl程序,可以根據(jù)前面的計(jì)算結(jié)果 畫出染色體覆蓋深度圖形。該程序?qū)⑷蚪M覆蓋深度圖按照染色體展示,即24條染色體 每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列,而非整個(gè)基因組用一條覆蓋深度圖形展示,這 樣可以最大限度的提高圖形展示的分辨率,進(jìn)而提升識別拷貝數(shù)變異的準(zhǔn)確性和靈敏性。 程序生成SVG格式的矢量圖,同時(shí)支持按所需ppi大小將SVG轉(zhuǎn)化成pdf,png,jpeg等圖片格 式。
[0040]下面通過一組肝癌腫瘤和正常配對組織樣本的低深度全基因組pair-end測序數(shù) 據(jù)為應(yīng)用實(shí)例,展示本發(fā)明的軟件系統(tǒng)運(yùn)行實(shí)施結(jié)果。基因組的拷貝數(shù)變異是結(jié)直腸癌中 常見的基因組變異,也是該癌種主要的引發(fā)機(jī)制之一。
[0041 ]以樣本測序數(shù)據(jù)為輸入數(shù)據(jù),得到如下結(jié)果 [0042] (1)數(shù)據(jù)信息統(tǒng)計(jì)
[0043]表3.1測序數(shù)據(jù)統(tǒng)計(jì)信息
[0045] (2)根據(jù)統(tǒng)計(jì)信息和計(jì)算的每個(gè)窗口的測序覆蓋深度,畫出覆蓋深度圖(每條染色 體下面小標(biāo)尺的刻度范圍為0-4倍體)
[0046] 從圖2可明顯看出在HCC樣本基因組上有包括chrl短臂和長臂,chr8短臂等大片段 的拷貝數(shù)變異發(fā)生。
[0047] 圖3表示和HCC配對的正常肝組織基因組拷貝數(shù)分布圖,從圖中可以看出正常組織 中沒有可靠的拷貝數(shù)變異發(fā)生。
[0048]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基因拷貝數(shù)變異分析系統(tǒng),其特征在于,包括: 分析模塊,用于讀入數(shù)據(jù)的索引文件和參考基因組并進(jìn)行比對; 分割模塊,用于將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開; 統(tǒng)計(jì)模塊,對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì); 窗口計(jì)算模塊,用于以1KB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以列表 形式給出; 圖形模塊,用于根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形,將全基因組覆蓋深度圖按照 染色體展示,即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列; 所述分析模塊為主模塊,依次調(diào)用其它各模塊,完成各部分的分析工作。2. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析系統(tǒng),其特征在于,本系統(tǒng)還包括 SGE批量提交模塊,用于實(shí)現(xiàn)多樣本分析任務(wù)批量提交給SGE集群管理系統(tǒng)。3. 根據(jù)權(quán)利要求2所述的一種基因拷貝數(shù)變異分析系統(tǒng),其特征在于,所述SGE批量提 交模塊根據(jù)實(shí)際需求指定隊(duì)組、內(nèi)存大小及每次提交的作業(yè)數(shù)目。4. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析系統(tǒng),其特征在于,本系統(tǒng)還包括多 任務(wù)提交模塊,用于沒有SGE管理系統(tǒng)的集群進(jìn)行批量提交分析任務(wù)。5. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析系統(tǒng),其特征在于,所述窗口計(jì)算模 塊包括特殊區(qū)域處理單元,用于遇到著絲粒附近高復(fù)雜度的區(qū)域或者參考基因組上的gap 區(qū)域,自動跳過,不進(jìn)行計(jì)算。
【文檔編號】G06F19/22GK106055926SQ201610319438
【公開日】2016年10月26日
【申請日】2016年5月13日
【發(fā)明人】薛成海, 馬飛, 張廣發(fā)
【申請人】萬康源(天津)基因科技有限公司