国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于二代測(cè)序的冠心病遺傳風(fēng)險(xiǎn)評(píng)估方法

      文檔序號(hào):9524403閱讀:1294來(lái)源:國(guó)知局
      一種基于二代測(cè)序的冠心病遺傳風(fēng)險(xiǎn)評(píng)估方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及生物技術(shù)領(lǐng)域,具體設(shè)及分子生物學(xué)領(lǐng)域,一種基于二代測(cè)序的冠屯、 病風(fēng)險(xiǎn)評(píng)估方法。
      【背景技術(shù)】
      [0002] 通過(guò)基因組測(cè)序技術(shù)預(yù)測(cè)疾病風(fēng)險(xiǎn)是基因組大數(shù)據(jù)時(shí)代的重要科學(xué)研究方向之 一,也為個(gè)性化健康管理提供了一種策略。過(guò)去十年,高通量分子檢測(cè)技術(shù),包括表達(dá)譜微 忍片和SNP分型忍片,尤其是全基因組關(guān)聯(lián)技術(shù)的發(fā)展,針對(duì)人類(lèi)常見(jiàn)的復(fù)雜疾病已經(jīng)發(fā) 現(xiàn)了很多疾病風(fēng)險(xiǎn)位點(diǎn),運(yùn)些知識(shí)為基于個(gè)人基因組測(cè)序預(yù)測(cè)疾病風(fēng)險(xiǎn)提供了一種可能。 目前,基于二代測(cè)序進(jìn)行疾病風(fēng)險(xiǎn)預(yù)測(cè)的大致流程如下:首先針對(duì)特定疾病建立風(fēng)險(xiǎn)基因 變異和疾病風(fēng)險(xiǎn)的關(guān)系;其次針對(duì)該疾病的風(fēng)險(xiǎn)基因信息建立疾病風(fēng)險(xiǎn)評(píng)估模型;然后僅 針對(duì)風(fēng)險(xiǎn)基因進(jìn)行祀向測(cè)序,得到個(gè)體基因序列信息;最后將序列信息中的變異信息輸入 到風(fēng)險(xiǎn)評(píng)估模型中獲得疾病風(fēng)險(xiǎn)。因此,疾病風(fēng)險(xiǎn)預(yù)測(cè)中的兩個(gè)關(guān)鍵點(diǎn)是建立基因與疾病 的關(guān)系和疾病風(fēng)險(xiǎn)評(píng)估模型。
      [0003] 人類(lèi)的基因組是研究的比較多的物種基因組之一,已經(jīng)發(fā)現(xiàn)了很多疾病相關(guān)基 因,常見(jiàn)的人類(lèi)疾病數(shù)據(jù)庫(kù)有0MIM、HMGD、PheGenIW及C0SSMIC等。盡管運(yùn)些數(shù)據(jù)庫(kù)收集 了大量的疾病相關(guān)基因,但是運(yùn)些信息來(lái)源多樣,包含著大量的噪音,不能直接用于疾病風(fēng) 險(xiǎn)的預(yù)測(cè),需要進(jìn)行嚴(yán)密的過(guò)濾。常用的過(guò)濾手段如下:P值過(guò)濾、風(fēng)險(xiǎn)基因在獨(dú)立研究中 重現(xiàn)的次數(shù)、樣本量、是否有直接的實(shí)驗(yàn)證據(jù)和在基因在相互作用網(wǎng)絡(luò)中的拓?fù)鋵傩缘?。?有的運(yùn)些過(guò)濾手段,保證了風(fēng)險(xiǎn)基因指示疾病風(fēng)險(xiǎn)的能力。
      [0004] 確定了疾病風(fēng)險(xiǎn)基因之后,需要建立疾病風(fēng)險(xiǎn)預(yù)測(cè)模型。總體來(lái)說(shuō),風(fēng)險(xiǎn)預(yù)測(cè)模型 是在已經(jīng)選定的風(fēng)險(xiǎn)基因和疾病的狀態(tài)之間建立某種函數(shù)關(guān)系。疾病的狀態(tài)通常分為疾病 和正常兩種狀態(tài),分別對(duì)應(yīng)1和0,是風(fēng)險(xiǎn)評(píng)價(jià)模型的因變量,而風(fēng)險(xiǎn)基因則作為該模型的 自變量。函數(shù)方程的建立需要大量的訓(xùn)練樣本基因組信息作為支撐。常見(jiàn)的函數(shù)模型有兩 種,分別是邏輯回歸(XogisticRegression)和支持向量機(jī)(Suppo;rtVectorMachine)。盡 管兩者廣泛應(yīng)用在疾病風(fēng)險(xiǎn)預(yù)測(cè)中。但是,他們都存在過(guò)擬合的現(xiàn)象,也就是說(shuō),在訓(xùn)練數(shù) 據(jù)集的交叉驗(yàn)證中往往有很好的預(yù)測(cè)能力,但是在獨(dú)立數(shù)據(jù)集中預(yù)測(cè)能力則明顯下降。其 中的原因可能來(lái)自疾病個(gè)體基因組的高異質(zhì)性和樣本的有限性。
      [0005] 近年來(lái),高通量測(cè)序技術(shù)的發(fā)展催生了基因組大數(shù)據(jù)行業(yè)。目前,人類(lèi)個(gè)體基因組 測(cè)序成本逐年下降,未來(lái),會(huì)有針對(duì)某種疾病的大量基因組信息。美國(guó)宣布了百萬(wàn)人基因組 計(jì)劃,而英國(guó)也打算開(kāi)展十萬(wàn)人基因組計(jì)劃。基因組大數(shù)據(jù)可W更加明確基因和疾病之間 的關(guān)系,其對(duì)疾病風(fēng)險(xiǎn)預(yù)測(cè)最直接的貢獻(xiàn)是大量的樣本,可W提高疾病風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù) 測(cè)能力。
      [0006] 冠屯、病是一種多基因遺傳的復(fù)雜疾病,不僅受遺傳因素影響,也與日常飲食等生 活習(xí)慣有關(guān)。盡管,通過(guò)一些臨床檢測(cè)指標(biāo)可W檢測(cè)冠屯、病的風(fēng)險(xiǎn),如年齡、吸煙史、家族遺 傳史、血液膽固醇含量等,但是運(yùn)些指標(biāo)不能提前預(yù)測(cè)患病風(fēng)險(xiǎn)。而疾病遺傳風(fēng)險(xiǎn)預(yù)測(cè)模型 可w提供個(gè)體患病的遺傳風(fēng)險(xiǎn),有利于早期采取干預(yù)措施。目前,還沒(méi)有很好的冠屯、病遺傳 風(fēng)險(xiǎn)評(píng)估方法,鑒于此,本發(fā)明提出了有效的冠屯、病遺傳風(fēng)險(xiǎn)評(píng)估方法。

      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于二代測(cè)序的冠屯、病遺傳風(fēng)險(xiǎn)評(píng)估方法。
      [0008] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提供一種冠屯、病遺傳風(fēng)險(xiǎn)評(píng)估方法,其包括如下 步驟:
      [0009] (1)選取風(fēng)險(xiǎn)SNPs位點(diǎn)和加權(quán)重:輸入已知風(fēng)險(xiǎn)SNPs位點(diǎn)和進(jìn)行GWAS數(shù)據(jù)質(zhì)量 控制,所述的數(shù)據(jù)質(zhì)量控制步驟如下:檢查個(gè)體自報(bào)性別和預(yù)測(cè)的遺傳性別的一致性,去除 兩者之間不一致的個(gè)體;只保留位于常染色體的SNPs并且去除所有樣本中具有單一多態(tài) 性的SNPs;去除樣本間成功分型率小于0. 95的SNPs;去除SNPs間有效分型率小于0. 95的 樣本;檢查樣本間的親緣關(guān)系和種群結(jié)構(gòu),樣本間親緣系數(shù)大于或等于0. 125則被認(rèn)為親 緣關(guān)系很近;種群結(jié)構(gòu)分析用主成分分析的方法,R包SNPRelate被用來(lái)進(jìn)行主成分分析和 親緣關(guān)系的分析,如果一個(gè)樣本與前十個(gè)主成分中的任何一個(gè)的偏離超過(guò)6個(gè)標(biāo)準(zhǔn)差,則 被認(rèn)為是異常值,將被移除;當(dāng)異常值和親緣關(guān)系近的樣本同時(shí)存在時(shí),先移除異常值,然 后移除親緣關(guān)系近的樣本中的一個(gè);移除哈代-溫伯格平衡P值小于0. 000001的SNPs;
      [0010] 0)遺傳風(fēng)險(xiǎn)值GRS的計(jì)算:個(gè)體的遺傳風(fēng)險(xiǎn)值GRS通過(guò)公式(1)計(jì)算得到;其 中ω;為每個(gè)SNP的logodds-ratio,RAi為I?iskAllele的數(shù)目;公式(1)基于兩個(gè)基本 假設(shè):第一,選取的SNPs不存在連鎖不平衡關(guān)系化inkageDisequilibrium),rsq<0. 2,也 就是SNPs之間互相獨(dú)立;第二,SNPs之間主要通過(guò)線性加和作用和疾病關(guān)聯(lián),而不是相互 作用;
      [0011]
      [0012] 公式(2)為風(fēng)險(xiǎn)預(yù)測(cè)模型,其中β為相關(guān)系數(shù),而α為模型的截距;GRS需要基 于群體的GRS進(jìn)行Z-score歸一化處理。
      [0013]log(P(CHD|GeneticFactors)) =α+βGRS公式(2)
      [0014] 公式(2)是對(duì)數(shù)的形式,兩邊取指數(shù)后,變換為公式(3);公式(3)為最終的患病 預(yù)測(cè)模型。
      [001引Ρ(CHDI Genetic化。1:0'3) = e。"GRS公式(3)
      [0016] (3)模型參數(shù)估計(jì):公式(3)的參數(shù)模型參數(shù)α和β的估計(jì)是基于全部化Gap和 WTCCC中捜集得到的病人和對(duì)照樣本;模型評(píng)價(jià)采用采用10-fold交叉驗(yàn)證,其中9/10用 作訓(xùn)練數(shù)據(jù)集,剩下1/10數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,模型好壞的評(píng)價(jià)采用R0C曲線的AUC面積, 也就是C統(tǒng)計(jì)量,R0C曲線可W評(píng)估模型區(qū)分GRS的能力;
      [0017] (4)個(gè)體風(fēng)險(xiǎn)評(píng)估報(bào)告:采用化xtSeqSOO測(cè)序儀,對(duì)公式做中的風(fēng)險(xiǎn)位點(diǎn)進(jìn)行 祀向測(cè)序,獲得個(gè)體風(fēng)險(xiǎn)信息,由公式(3)給出個(gè)體的冠屯、病患病風(fēng)險(xiǎn);用個(gè)體相對(duì)與群體 的遺傳患病風(fēng)險(xiǎn)分布圖表示。
      [001引所述步驟(1)中,GWAS數(shù)據(jù)采用的樣本從化Gap和WTCCC中捜集得到,包含53211 個(gè)病人樣本和100541個(gè)健康對(duì)照樣本。
      [001引所述步驟(1)中,基于化SNP137將所有SNPs的基因型信息對(duì)應(yīng)到人類(lèi)基因組 化gl9)正鏈上,用SHAPEITversions和IMPUTEversion2. 3. 0 的組合去進(jìn)行g(shù)enotype imputation,
      [0020] 進(jìn)一步地,每組數(shù)據(jù)樣本先用SHA陽(yáng)口得到haplotypes,然后用IMPUTE,其關(guān)鍵參 數(shù)設(shè)為'-Ne20000',基于參照haplotypes去推測(cè)缺失的基因型,Imputation質(zhì)量指標(biāo)為 info,設(shè)定0. 3作為cutoff,過(guò)濾掉低質(zhì)量的SNPs。
      [0021] 已知SNPs風(fēng)險(xiǎn)位點(diǎn),包括rs646776,rsl7114036,rsll206510,rsl7465637, rs6725887,rs9818870,rsl7609940,rs9349379,rsl2190287,rs3798220,rsl0455872, rsll556924,rs4977574,rs9411489,rsl746048,rsl2413409,rs964184,rs2259816, rs3184504,rs4773144,rs2895811,rs3825807,rsl2936587,rs216172,rs46522, rsll22608,rs9982601〇
      [0022] 所述步驟(1)中,經(jīng)過(guò)W上預(yù)處理,所有樣本共有的SNP個(gè)數(shù)為571995個(gè),然后使 用plink軟件進(jìn)行全基因關(guān)聯(lián)分析,根據(jù)抑R值進(jìn)行排序,選擇toplOO的位點(diǎn)SNP作為冠 屯、病風(fēng)險(xiǎn)位點(diǎn)。
      [002引本發(fā)明中,化Gap和WTCCC是現(xiàn)有的數(shù)據(jù)庫(kù)。
      [0024]目前,還沒(méi)有很好的冠屯、病遺傳風(fēng)險(xiǎn)評(píng)估方法,本發(fā)明的疾病遺傳風(fēng)險(xiǎn)預(yù)測(cè)模型 可W提供個(gè)體患病的遺傳風(fēng)險(xiǎn),本發(fā)明提出了有效的冠屯、病遺傳風(fēng)險(xiǎn)評(píng)估方法。依賴(lài)于此 模型,對(duì)個(gè)體基因組進(jìn)行祀向測(cè)序,最終得到個(gè)體的冠屯、病遺傳風(fēng)險(xiǎn),有利于早期采取干預(yù) 措施。
      【附圖說(shuō)明】
      [00巧]圖1為R0C曲線示意圖。
      [0026] 圖2為個(gè)體遺傳風(fēng)險(xiǎn)示意圖。
      [0027] 圖3為本發(fā)明方法系統(tǒng)示意圖。
      【具體實(shí)施方式】
      [0028] W下結(jié)合具體實(shí)施例對(duì)上述方案做進(jìn)一步說(shuō)明。應(yīng)理解,運(yùn)些實(shí)施例是用于說(shuō)明 本發(fā)明而不限于限制本發(fā)明的范圍。實(shí)施例中采用的實(shí)施條件可W根據(jù)具體應(yīng)用要求的條 件做進(jìn)一步調(diào)整,未注明的實(shí)施條件通常為常規(guī)實(shí)驗(yàn)中的條件。
      [0029] 本發(fā)明的一種冠屯、病風(fēng)險(xiǎn)評(píng)估方法具體方法如下:
      [0030] (1)風(fēng)險(xiǎn)SNPs位點(diǎn)的選取和加權(quán)重。風(fēng)險(xiǎn)SNPs位點(diǎn)有兩個(gè)來(lái)源:第一,已知風(fēng)險(xiǎn) SNPs位點(diǎn),包括rs646776,rsl7114036,rsll206510,rsl7465637,rs6725887,rs9818870, rsl7609940,rs9349379,rsl2190287,rs3798220,rsl0455872,rsll556924,rs4977574, rs9411489,rsl746048,rsl2413409,rs964184,rs2259816,rs3184504,rs4773144, rs2895811,rs3825807,rsl2936587,rs216172,rs46522,rsll22608,rs9982601 ;第二,GWAS 數(shù)據(jù)深度
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1