一種基于家系的外顯子組潛在致病變異檢測系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),包括注釋整合模塊,用于讀取外顯子組測序數(shù)據(jù)處理流程的結(jié)果文件;矩陣分割模塊,用于提取所有樣本中的變異,求取并集,然后合并所有樣本,構(gòu)成矩陣;潛在致病變異挖掘模塊,用于在得到的矩陣中提取變異信息進行枚舉,評估單個變異和組合雙位點變異的致病性,得到潛在致病變異列表;潛在致病變異統(tǒng)計模塊,用于統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,并用圖標展示。本發(fā)明以常見外顯子組測序流程處理的輸出結(jié)果為輸入條件,完成數(shù)據(jù)的整合和基本過濾,通過特效變異篩選算法,給出潛在致病變異的候選集,重解決了高異質(zhì)性、高突變率、高噪聲的測序數(shù)據(jù)潛在致病變異挖掘問題。
【專利說明】
一種基于家系的外顯子組潛在致病變異檢測系統(tǒng)
技術(shù)領域
[0001]本發(fā)明屬于基因信息數(shù)據(jù)處理領域,特別是涉及到一種基于家系的外顯子組潛在致病變異檢測系統(tǒng)。
【背景技術(shù)】
[0002]外顯子測序技術(shù)已十分成熟,應用該技術(shù)檢測致病變異的研究數(shù)量眾多。因此,檢測致病變異的算法層出不窮。通常,一次平均測序深度低到20的全外顯子組測序就可以為每個樣本測得5萬個變異位點,如何從這些變異中篩選出真正的為數(shù)極少的致病變異是這些算法共同面對的問題。
[0003]過去,人們通過變異在病例或?qū)φ諛颖局泄蚕淼某潭龋瑏砜s小致病變異的搜索空間。對于無關(guān)人群,這幾乎是唯一的過濾手段。為此,家系信息對遺傳疾病的研究提供了重要線索,人們構(gòu)建了多種遺傳模型做進一步篩選,使得基于家系的遺傳變異篩選算法顯著地降低了致病變異的搜索空間。例如,Kamphans等提出了組合雜合遺傳模型的變異篩選準則,Koboldt等提出了顯性遺傳的變異篩選準則,都能將致病變異定位到極少的候選集中,使得實驗驗證成為可能。如今,VASP算法的提出更是集成了多種變異篩選準則,能夠不針對特定遺傳模型,對變異進行篩選。
[0004]然而,通用算法并不一定最適合特定的具體模型,甚至在復雜遺傳機制下不適用。例如,gene-talk是針對常染色體隱性遺傳病的變異篩選算法,它甚至考慮了組合變異位點致病的遺傳模式。然而,該方法要求潛在致病變異在所有病例中均出現(xiàn)。這就使得該方法并不能很好地適用于高異質(zhì)性、高突變率的遺傳疾病致病研究。此外,測序深度低帶來的噪聲也是影響算法精度的重要因素,而且在目前的科研領域內(nèi)普遍存在。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提出一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),著重解決高異質(zhì)性、高突變率、高噪聲的測序數(shù)據(jù)潛在致病變異挖掘問題。
[0006]為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),包括:
[0007]注釋整合模塊,用于讀取外顯子組測序數(shù)據(jù)處理流程的結(jié)果文件,將每個樣本的變異vcf文件和ANN0VAR注釋文件合并,進行功能過濾,得到初步整合文件,每個樣本按變異類型分為SNP和INDEL兩個文件;
[0008]矩陣分割模塊,用于在所述注釋整合模塊得到的文件中,提取所有樣本中的變異,求取并集,然后合并所有樣本,構(gòu)成矩陣;
[0009]潛在致病變異挖掘模塊,用于在矩陣分割模塊得到的矩陣中提取變異信息進行枚舉,評估單個變異和組合雙位點變異的致病性,得到潛在致病變異列表;
[0010]潛在致病變異統(tǒng)計模塊,用于針對在潛在致病變異挖掘模塊得到的列表,統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,并用圖標展示。[0011 ]進一步的,所述注釋整合模塊設有功能過濾單元,用于按照下面的標準過濾:
[0012]UTR區(qū)域變異的人群頻率不大于0.01,所述人群頻率包括千人基因組計劃人群和外顯子組工程人群;
[0013]移碼變異、終止位點變異、剪切區(qū)域變異的人群頻率不大于0.05;
[0014]非同義突變變異人群頻率不大于0.05,且滿足如下條件中的一個:SIFT預測評分不大于0.05,PolyPhen2-HVAR評分不小于0.909,PolyPhen2_HDIV評分不小于0.959,CADDphred評分不小于10;
[00?5]其余變異去除。
[0016]進一步的,所述矩陣分割模塊設有基因型矩陣單元、變異頻率矩陣單元、測序深度矩陣單元、合并注釋矩陣單元;所述基因型矩陣單元、變異頻率矩陣單元、測序深度矩陣單元用于針對SNP或INDEL分別合并樣本、分割注釋,得到樣本-基因型矩陣,樣本-變異頻率矩陣,樣本-測序深度矩陣,所述合并注釋矩陣單元用于將其余各個樣本的注釋取并集整合為一個合并的注釋矩陣;
[0017]更進一步的,所述矩陣分割模塊還設有數(shù)據(jù)整合單元,用于拼接SNP矩陣和INDEL矩陣完成數(shù)據(jù)整合。
[0018]進一步的,所述潛在致病變異挖掘模塊包括:
[0019]篩選單元,用于篩選罕見變異作為候選變異,篩選功能變異作為候選變異;在病例中選擇候選集,在對照中篩選過濾;
[0020]閾值判斷單元,用于針對數(shù)據(jù)噪聲,使變異位點的的支持序列數(shù)不小于指定閾值,以保證變異的真實性,同時適應低測序深度數(shù)據(jù);
[0021]比對單元,用于比對父母與子女的變異位點,用以確定患病子女位點的遺傳特點。
[0022]進一步的,所述潛在致病變異統(tǒng)計模塊設有統(tǒng)計單元和展示單元,所述統(tǒng)計單元用于統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,所述展示單元用于將統(tǒng)計結(jié)果通過圖表展示。
[0023]相對于現(xiàn)有技術(shù),本發(fā)明所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng)具有以下優(yōu)勢:
[0024]本發(fā)明承接外顯子組測序流程處理,輸出潛在致病變異候選集,完成致病變異挖掘工作中重要的一環(huán)。本發(fā)明以常見外顯子組測序流程處理的輸出結(jié)果為輸入條件,完成數(shù)據(jù)的整合和基本過濾,通過針對高異質(zhì)性、高突變率、高噪聲的測序數(shù)據(jù)的特效變異篩選算法,給出潛在致病變異的候選集,重解決了高異質(zhì)性、高突變率、高噪聲的測序數(shù)據(jù)潛在致病變異挖掘問題。
【附圖說明】
[0025]構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
[0026]圖1為本發(fā)明的流程示意圖。
[0027]圖2為本發(fā)明的變異篩選流程示意圖。
【具體實施方式】
[0028]需要說明的是,在不沖突的情況下,本發(fā)明的實施例及實施例中的特征可以相互組合。
[0029]下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
[0030]如圖1所示的流程,本發(fā)明的軟件系統(tǒng)主要包含4個模塊:
[0031](I)注釋整合模塊,包括variantMatrix.pl程序,讀取外顯子組測序數(shù)據(jù)處理流程的結(jié)果文件,將每個樣本的變異vcf文件和ANN0VAR注釋文件合并,進行功能過濾,得到初步整合文件,每個樣本按變異類型分為SNP和INDEL兩個文件;
[0032]其中,ANN0VAR注釋結(jié)果文件必須由名稱對應的vcf文件作為輸入,用ANN0VAR注釋得到,為一個表格,每行記錄一個變異,每列記錄一項注釋,包含且只能包含如下列:
[0033]Chr
[0034]Start
[0035]End
[0036]Ref
[0037]Alt
[0038]phastConsElements46way
[0039]Func.refGene
[0040]Gene.refGene
[0041 ]GeneDetai I.refGene
[0042]ExonicFunc.refGene
[0043]AAChange.refGene
[0044]cytoBand
[0045]genomicSuperDups
[0046]esp6500siv2—all
[0047]1000g2014oct—all
[0048]snpl38
[0049]SIFT—score
[0050]SIFT—pred
[0051 ]Polyphen2—HDIV—score
[0052]Polyphen2_HDIV_pred
[0053]Polyphen2—HVAR—score
[0054]Polyphen2_HVAR_pred
[0055]LRT—score
[0056]LRT—pred
[0057]Mutat1nTaster_score
[0058]Mutat1nTaster—pred
[0059]Mutat1nAssessor_score
[0060]Mutat1nAssessor—pred
[0061]FATHMM—score
[0062]FATHMM—pred[0063 ] Radi aISVM_score[0064 ] Radi aISVM_pred
[0065]LR—score
[0066]LR—pred
[0067 ] VEST3—s core
[0068]CADD_raw
[0069]CADD—phred
[0070]GERP++—RS
[0071 ] phyloP46way_placental
[0072]phy1PlOOway—vertebrate
[0073](2)矩陣分割模塊,設有familyComb.R程序,以上述得到文件為輸入,首先針對SNP或INDEL分別合并樣本、分割注釋,得到樣本-基因型矩陣,樣本-變異頻率矩陣,樣本-測序深度矩陣,其余各個樣本的注釋取并集整合為一個合并的注釋矩陣;其次,拼接SNP矩陣和INDEL矩陣完成數(shù)據(jù)整合;
[0074]詳細說明:提取所有樣本中的變異,求取并集,然后合并所有樣本,合并SNP和INDEL構(gòu)成多個每行一個變異,每列一個樣本的注釋矩陣,矩陣G表示基因型矩陣,包含4個元素,0/0表示純合無突變,0/1表示雜合突變,1/1表示純合突變,NA表示未檢測出變異;矩陣Q表示變異頻率矩陣,為O?I的浮點數(shù),矩陣D表示測序深度矩陣,為整數(shù);其余注釋信息只與變異位點有關(guān),與樣本無關(guān),匯總記錄為矩陣A,每行為一個變異,每列為一項注釋,挑選16個比較關(guān)鍵的注釋項,列表如下:
[0075]Chr
[0076]Start
[0077]Ref
[0078]Alt
[0079]Func.refGene
[0080]Gene.refGene
[0081 ] ExonicFunc.refGene
[0082]esp6500siv2—all
[0083]1000g2014oct—all
[0084]SIFT_score
[0085]SIFT—pred
[0086]Polyphen2—HDIV—score
[0087]Polyphen2_HDIV_pred
[0088]Polyphen2_HVAR_score
[0089]Polyphen2_HVAR_pred
[0090]CADD—phred
[0091](3)潛在致病變異挖掘模塊,設有pvariantFind.R程序,采用篩選潛在致病變異算法,在上述矩陣中提取變異信息進行枚舉,評估單個變異和組合雙位點變異的致病性,得到潛在致病變異列表;
[0092]具體說明:枚舉每個基因上出現(xiàn)的所有單個變異位點和2位點組合,根據(jù)其注釋評估變異(組合)的致病性,因此需要上一步的結(jié)果作為輸入?yún)?shù);此外,程序需要讀入家系信息和病例/對照信息作為輸入?yún)?shù)2,該信息可以3行數(shù)值矩陣表示,第一行為父親ID(沒有記為O),第二行為母親ID,第三行為病例(I)或?qū)φ?O),每列對應一個樣本,例如:
[0093]O O I
[0094]0 0 2
[0095]O O I
[0096]表示一個三口之家,前兩列是健康的父母,第三列為患者。
[0097](4)潛在致病變異統(tǒng)計模塊,包括pvariantstat.R程序,針對上述列表,統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,進行圖表展示。具體說明:統(tǒng)計上述位點在各個樣本、目標基因中的出現(xiàn)情況,讀入注釋矩陣和位點列表,統(tǒng)計每個樣本出現(xiàn)的潛在致病位點;統(tǒng)計變異位點在指定基因中的出現(xiàn)情況。
[0098]上述模塊中,潛在致病變異挖掘模塊采用的篩選潛在致病變異算法,實際上就是一套過濾準則的組合,針對不同的遺傳模型,不同水平的數(shù)據(jù),需要采取適當?shù)臏蕜t。本發(fā)明針對高異質(zhì)性、高突變率、高噪聲的常染色體隱性遺傳病病例對照家系數(shù)據(jù)設計算法,流程參見圖2,詳細說明如下:
[0099]首先,篩選罕見變異作為候選變異。通常,罕見疾病有一個很低的發(fā)病率,這使得人群中攜帶致病變異的頻率不會很高。對于顯性致病的變異,人群攜帶率和發(fā)病率理論上是相等的,對于常染色體隱性致病的變異,人群攜帶率在隨機的情況下也只是發(fā)病率的平方根。針對這一假設,我們可以設置閾值限制變異位點的人群頻率,以符合疾病的發(fā)病率。人們通常以5%或I %作為罕見變異的閾值。
[0100]其次,篩選功能變異作為候選變異。通常,人們認為變異位點影響到蛋白質(zhì)功能,才能引發(fā)疾病。為此,變異的功能類型(Consequence)是首要考慮對象。按變異對蛋白質(zhì)的影響程度,可以首要考慮 nonsynonymous SNV, frameshif t Indel, stopgain/stop loss 和splicing event。此外,變異功能預測評分也可以作為考慮對象。常用變異功能預測評分包括SIFT和PolyPhen,近期CADD可以預測全基因組所有可能變異的功能有害性??紤]到多個功能預測評分的預測結(jié)果并不完全一致,我們采用3個有害性預測的并集作為變異篩選準貝IJ,既能縮小致病變異的候選集,亦不會過度篩掉致病變異。
[0101]第三,在病例中選擇候選集,在對照中篩選過濾。通常的病例對照分析會考慮病例中都出現(xiàn)的變異位點。針對疾病的高異質(zhì)性,本軟件采用所有病例中出現(xiàn)的變異位點的并集作為候選集,同時用對照集過濾。顯然,本軟件提供的候選集比較大。
[0102]第四,針對數(shù)據(jù)噪聲,本軟件設計變異位點的的支持序列數(shù)不小于指定閾值,以保證變異的真實性,同時適應低測序深度數(shù)據(jù)。
[0103]最后,比對父母與子女的變異位點,用以確定患病子女位點的遺傳特點。針對常染色體隱性遺傳,可能致病的單個位點可推斷出純合遺傳、雜合遺傳、雜合突變、純合突變的情況,可能致病的雙位點組合,可推斷出遺傳雜合組合、半遺傳雜合組合和突變雜合組合。對于沒有高突變特點的疾病,只需考慮遺傳位點,對于高突變疾病,需要全部考慮。
[0104]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,包括: 注釋整合模塊,用于讀取外顯子組測序數(shù)據(jù)處理流程的結(jié)果文件,將每個樣本的變異vcf文件和ANNOVAR注釋文件合并,進行功能過濾,得到初步整合文件,每個樣本按變異類型分為SNP和INDEL兩個文件; 矩陣分割模塊,用于在所述注釋整合模塊得到的文件中,提取所有樣本中的變異,求取并集,然后合并所有樣本,構(gòu)成矩陣; 潛在致病變異挖掘模塊,用于在矩陣分割模塊得到的矩陣中提取變異信息進行枚舉,評估單個變異和組合雙位點變異的致病性,得到潛在致病變異列表; 潛在致病變異統(tǒng)計模塊,用于針對在潛在致病變異挖掘模塊得到的列表,統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,并用圖標展示。2.根據(jù)權(quán)利要求1所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,所述注釋整合模塊設有功能過濾單元,用于按照下面的標準過濾: UTR區(qū)域變異的人群頻率不大于0.01,所述人群頻率包括千人基因組計劃人群和外顯子組工程人群; 移碼變異、終止位點變異、剪切區(qū)域變異的人群頻率不大于0.05; 非同義突變變異人群頻率不大于0.05,且滿足如下條件中的一個:SIFT預測評分不大于0.05,PolyPhen2-HVAR評分不小于0.909,PolyPhen2_HDIV評分不小于0.959,CADD phred評分不小于10; 其余變異去除。3.根據(jù)權(quán)利要求1所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,所述矩陣分割模塊設有基因型矩陣單元、變異頻率矩陣單元、測序深度矩陣單元、合并注釋矩陣單元;所述基因型矩陣單元、變異頻率矩陣單元、測序深度矩陣單元用于針對SNP或INDEL分別合并樣本、分割注釋,得到樣本-基因型矩陣,樣本-變異頻率矩陣,樣本-測序深度矩陣,所述合并注釋矩陣單元用于將其余各個樣本的注釋取并集整合為一個合并的注釋矩陣。4.根據(jù)權(quán)利要求3所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,所述矩陣分割模塊還設有數(shù)據(jù)整合單元,用于拼接SNP矩陣和INDEL矩陣完成數(shù)據(jù)整合。5.根據(jù)權(quán)利要求1所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,所述潛在致病變異挖掘模塊包括: 篩選單元,用于篩選罕見變異作為候選變異,篩選功能變異作為候選變異;在病例中選擇候選集,在對照中篩選過濾; 閾值判斷單元,用于針對數(shù)據(jù)噪聲,使變異位點的的支持序列數(shù)不小于指定閾值,以保證變異的真實性,同時適應低測序深度數(shù)據(jù); 比對單元,用于比對父母與子女的變異位點,用以確定患病子女位點的遺傳特點。6.根據(jù)權(quán)利要求1所述的一種基于家系的外顯子組潛在致病變異檢測系統(tǒng),其特征在于,所述潛在致病變異統(tǒng)計模塊設有統(tǒng)計單元和展示單元,所述統(tǒng)計單元用于統(tǒng)計位點在各個樣本、目標基因中的出現(xiàn)情況,所述展示單元用于將統(tǒng)計結(jié)果通過圖表展示。
【文檔編號】C12Q1/68GK105861697SQ201610319386
【公開日】2016年8月17日
【申請日】2016年5月13日
【發(fā)明人】薛成海, 馬熹, 馬飛, 張廣發(fā)
【申請人】萬康源(天津)基因科技有限公司