本發(fā)明屬于多基因疾病的遺傳風(fēng)險(xiǎn)評(píng)估領(lǐng)域,涉及一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法和構(gòu)建系統(tǒng),具體涉及一種基于貝葉斯算法和流行病學(xué)患病率構(gòu)建而成的多基因疾病的風(fēng)險(xiǎn)評(píng)估模型的方法和系統(tǒng)。
背景技術(shù):
:在我國(guó)糖尿病的患病人群中,ⅱ型糖尿病占90.0%以上,1型糖尿病約占5.0%,城市妊娠糖尿病的患病率接近5.0%,其他類型糖尿病僅占約0.7%。表1顯示了ⅱ型糖尿病特點(diǎn)、癥狀和并發(fā)癥:表1ⅱ型糖尿病特點(diǎn)、癥狀和并發(fā)癥ⅱ型糖尿病的主要癥狀有高血糖、不同程度的胰島素抵抗和胰島素分泌功能受損。ⅱ型糖尿病會(huì)給患者帶來各種生活不便,例如口渴,無力,視力下降等。血液中過高的血糖濃度對(duì)血管和器官會(huì)造成傷害,引起各種并發(fā)癥,對(duì)患者造成較大痛苦。其發(fā)病原因除了環(huán)境因素、生活方式因素、年齡因素等之外,還有基因因素。近年來,研究發(fā)現(xiàn)了多種基因與ⅱ型糖尿病相關(guān)。這些發(fā)現(xiàn)為基于個(gè)人基因組測(cè)序預(yù)測(cè)疾病風(fēng)險(xiǎn)提供了一種可能。目前,基于二代測(cè)序進(jìn)行疾病風(fēng)險(xiǎn)預(yù)測(cè)的大致流程如下:首先,針對(duì)特定疾病建立基因和疾病風(fēng)險(xiǎn)的關(guān)系;其次,針對(duì)該疾病的風(fēng)險(xiǎn)基因信息建立疾病風(fēng)險(xiǎn)評(píng)估模型;最后,將個(gè)體基因序列信息輸入到疾病風(fēng)險(xiǎn)評(píng)估模型中獲得疾病風(fēng)險(xiǎn)。因此,疾病風(fēng)險(xiǎn)預(yù)測(cè)中的兩個(gè)關(guān)鍵點(diǎn)是建立基因與疾病的關(guān)系和疾病風(fēng)險(xiǎn)評(píng)估模型。常見的人類疾病的數(shù)據(jù)庫(kù)有omim、hgmd、gwas等。盡管這些數(shù)據(jù)庫(kù)收集了大量的疾病相關(guān)基因,但是這些信息來源多樣,包含著大量的噪音,不能直接用于疾病風(fēng)險(xiǎn)的預(yù)測(cè),需要進(jìn)行嚴(yán)格的過濾。常用的過濾手段如下:p值、or值、頻率、樣本量、連鎖不平衡等。所有的這些過濾手段,保證了疾病風(fēng)險(xiǎn)基因指示疾病風(fēng)險(xiǎn)的能力。確定了疾病風(fēng)險(xiǎn)基因之后,需要建立疾病風(fēng)險(xiǎn)預(yù)測(cè)模型??傮w來說,疾病風(fēng)險(xiǎn)預(yù)測(cè)模型是在已經(jīng)選定的疾病風(fēng)險(xiǎn)基因和疾病的狀態(tài)之間建立某種函數(shù)關(guān)系。目前常用的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型有2種算法:簡(jiǎn)單的grs和加權(quán)的grs。(1)簡(jiǎn)單的grs:grs=σsi(si為相應(yīng)snps的個(gè)數(shù))。該算法認(rèn)為每個(gè)風(fēng)險(xiǎn)等位基因的作用相等,只根據(jù)相關(guān)風(fēng)險(xiǎn)等位基因的個(gè)數(shù)來計(jì)算。lvd等在“geneticvariationsinsec16b,mc4r,map2k5andkctd15wereassociatedwithchildhoodobesityandinteractedwithdietarybehaviorsinchineseschool-agepopulation”文章中計(jì)算肥胖癥的grs時(shí)規(guī)定高風(fēng)險(xiǎn)等位基因的純合子(有兩個(gè)高風(fēng)險(xiǎn)等位基因)記為2分,雜合子記為1分,低風(fēng)險(xiǎn)等位基因的純合子記為0分。(2)加權(quán)grs:grs=∑βisi(i為第i個(gè)snps的權(quán)重,si為第i個(gè)snps)。該算法認(rèn)為每個(gè)風(fēng)險(xiǎn)等位基因?qū)膊〉挠绊懖煌?,通過給每個(gè)風(fēng)險(xiǎn)等位基因賦予一個(gè)相應(yīng)的權(quán)重來顯示不同snps對(duì)疾病的影響程度不同。這個(gè)權(quán)重通常為該snps的優(yōu)勢(shì)比的自然對(duì)數(shù),常通過gwas研究中的優(yōu)勢(shì)比取對(duì)數(shù)或相關(guān)回歸模型中回歸系數(shù)β得到。相對(duì)而言,加權(quán)grs廣泛被運(yùn)用。abdullah等在文章“characterizingthegeneticriskfortype2diabetesinamalaysianmultiethniccohort”計(jì)算ⅱ型糖尿病的grs時(shí)將每個(gè)snps風(fēng)險(xiǎn)等位基因的個(gè)數(shù)和它的估測(cè)效應(yīng)(系數(shù))相乘然后求和。這2個(gè)模型在計(jì)算個(gè)體患病風(fēng)險(xiǎn)時(shí)都有一個(gè)重大缺陷,那就是沒法計(jì)算基于遺傳的人均患病風(fēng)險(xiǎn),遺傳的人均患病風(fēng)險(xiǎn)直接決定了風(fēng)險(xiǎn)等級(jí)劃分,決定了高風(fēng)險(xiǎn)人群能否做到有效區(qū)分,這正是遺傳風(fēng)險(xiǎn)評(píng)估模型的最大作用及其價(jià)值所在。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的不足,提供了一種新的ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,最大程度地解決了常見風(fēng)險(xiǎn)評(píng)估模型中所存在的上述問題,使ⅱ型糖尿病的患病風(fēng)險(xiǎn)更接近于真實(shí)情況,結(jié)果更加科學(xué)、合理。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,其包括如下步驟:(1)獲?、⑿吞悄虿£P(guān)聯(lián)性snp位點(diǎn);(2)計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度(or值),并獲取or值≥1.08的snp位點(diǎn);(3)計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群(即正常人群)的頻率值,并獲取頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);(4)計(jì)算所有過濾后的snp在中國(guó)個(gè)體(即中國(guó)人群中的某個(gè)個(gè)體)中的風(fēng)險(xiǎn)等位基因數(shù)量;(5)計(jì)算中國(guó)人群的ⅱ型糖尿病的流行病學(xué)患病率;(6)根據(jù)貝葉斯算法和哈迪-溫伯格平衡原理,構(gòu)建該中國(guó)個(gè)體的風(fēng)險(xiǎn)評(píng)估模型。其中,在步驟(1)中,的獲取ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)包括如下步驟:步驟1-1:從t2d-genesconsortium數(shù)據(jù)庫(kù)、got2dconsortium數(shù)據(jù)庫(kù)、diagramconsortium數(shù)據(jù)庫(kù)中獲取與ⅱ型糖尿病相關(guān)聯(lián)的snp位點(diǎn)(即t2dconsortium位點(diǎn)),研究人群為東亞人群(即中國(guó)、日本、韓國(guó)、新加坡華裔);從gwas(genome-wideassociationstudy,全基因組關(guān)聯(lián)分析)研究的文獻(xiàn)中獲取與ⅱ型糖尿病相關(guān)的snp位點(diǎn)(即gwas位點(diǎn)),其中顯著性水平取0.000001,研究人群為東亞人群;從候選基因(candidategene)研究的文獻(xiàn)數(shù)據(jù)庫(kù)獲取與ⅱ型糖尿病相關(guān)的snp位點(diǎn)(即候選基因位點(diǎn)),其中顯著性水平取0.05,研究人群為東亞人群。步驟1-2:將t2dconsortium位點(diǎn)、gwas位點(diǎn)和候選基因位點(diǎn)合并一起,去除重復(fù)的位點(diǎn),并進(jìn)行連鎖分析,保留連鎖不平衡(linkagedisequilibrium)r2值(correlationcoefficient)<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)。在步驟(2)中,snp位點(diǎn)的風(fēng)險(xiǎn)度即or值(oddsratio)的計(jì)算方法為:獲取gwas研究的文獻(xiàn)數(shù)據(jù)庫(kù)和候選基因研究的文獻(xiàn)數(shù)據(jù)庫(kù)中的ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群的or值;或者,合并東亞人群的樣本數(shù)據(jù)信息,通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群的or值。在步驟(3)中,頻率值的計(jì)算方法為:采用gwas研究的文獻(xiàn)數(shù)據(jù)庫(kù)和候選基因研究的文獻(xiàn)數(shù)據(jù)中的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值;或者,合并東亞人群的樣本數(shù)據(jù)信息,計(jì)算or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。經(jīng)過上述步驟所得到的過濾后的snp位點(diǎn)為:rs10229583,rs10811661,rs10886471,rs10906115,rs10993738,rs1111875,rs11257655,rs11787792,rs12010175,rs13266634,rs1327796,rs1359790,rs1436953,rs1436955,rs1470579,rs1535500,rs163182,rs17584499,rs1801282,rs2028299,rs2237892,rs2237895,rs2237897,rs312457,rs3786897,rs391300,rs4430796,rs4712524,rs5219,rs5945326,rs6467136,rs6780569,rs7041847,rs7656416,rs7756992,rs7903146,rs791595。在步驟(4)中,計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量為:每個(gè)snp是由2個(gè)等位基因組成的基因型,根據(jù)自由組合,每個(gè)snp的基因型組成有3種情況:將含有2個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為0;將含有1個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為1;將含有0個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為2。所述的正常等位基因?yàn)椴粫?huì)引起患病(ⅱ型糖尿病)風(fēng)險(xiǎn)增加的等位基因,風(fēng)險(xiǎn)等位基因?yàn)槟軌蛞鸹疾★L(fēng)險(xiǎn)增加的等位基因。在步驟(5)中,ⅱ型糖尿病的流行病學(xué)患病率的計(jì)算方法為:從衛(wèi)計(jì)委的數(shù)據(jù)庫(kù)或世界衛(wèi)生組織的數(shù)據(jù)庫(kù)中獲取中國(guó)人群中的ⅱ型糖尿病的流行病學(xué)患病率;或者,根據(jù)gwas研究的文獻(xiàn)和候選基因研究的文獻(xiàn)計(jì)算中國(guó)人群中的ⅱ型糖尿病的流行病學(xué)患病率,其值為10.44%。在步驟(6)中,根據(jù)貝葉斯算法和哈迪-溫伯格平衡原理,構(gòu)建風(fēng)險(xiǎn)評(píng)估模型為:中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:其中:p:中國(guó)個(gè)體的患病概率d:ⅱ型糖尿病k[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病的流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將ⅱ型糖尿病的患病率r=10.44%,所有snp位點(diǎn)的or值、頻率值代入公式,計(jì)算結(jié)果見表2:表2ⅱ型糖尿病風(fēng)險(xiǎn)等級(jí)和人群比例風(fēng)險(xiǎn)等級(jí)人群百分比歸一化or值下限歸一化or值上限患病風(fēng)險(xiǎn)下限患病風(fēng)險(xiǎn)上限低21.10%00.6570.00%6.86%中73.30%0.6571.5986.86%16.68%較高4.40%1.5982.60216.68%27.16%高1.20%2.602inf27.16%inf由表2可知,通過本發(fā)明的模型,可以精準(zhǔn)計(jì)算四種風(fēng)險(xiǎn)等級(jí)的人群分布和患病率大小,為ⅱ型糖尿病的人群篩查和個(gè)體化預(yù)防提供堅(jiān)實(shí)的科學(xué)支撐。一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建系統(tǒng),其包括:snp位點(diǎn)檢索模塊,從多個(gè)基因-疾病關(guān)聯(lián)數(shù)據(jù)庫(kù)中分別獲取與ⅱ型糖尿病相關(guān)的所有的snp位點(diǎn);分析模塊,整合所有的snp位點(diǎn)并去除重復(fù)的snp位點(diǎn),對(duì)剩余的snp位點(diǎn)進(jìn)行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn);風(fēng)險(xiǎn)度計(jì)算模塊,根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)的風(fēng)險(xiǎn)度相關(guān)樣本數(shù)據(jù),通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度即or值,并獲取or值≥1.08的snp位點(diǎn);頻率值計(jì)算模塊,根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)中的頻率相關(guān)樣本數(shù)據(jù),計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);風(fēng)險(xiǎn)等位基因數(shù)量計(jì)算模塊,計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量;患病率獲取模塊,根據(jù)中國(guó)人群的疾病數(shù)據(jù)庫(kù)中的疾病相關(guān)樣本數(shù)據(jù)計(jì)算出中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;模型構(gòu)建模塊,根據(jù)中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式構(gòu)建ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型;上述的中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:p:中國(guó)個(gè)體的患病概率;d:ⅱ型糖尿病;k[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,其包括如下步驟:采用snp位點(diǎn)檢索模塊從多個(gè)基因-疾病關(guān)聯(lián)數(shù)據(jù)庫(kù)中分別獲取與ⅱ型糖尿病相關(guān)的所有的snp位點(diǎn);采用分析模塊整合所有的snp位點(diǎn)并去除重復(fù)的snp位點(diǎn),對(duì)剩余的snp位點(diǎn)進(jìn)行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn);采用風(fēng)險(xiǎn)度計(jì)算模塊根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)的風(fēng)險(xiǎn)度相關(guān)樣本數(shù)據(jù),通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度即or值,并獲取or值≥1.08的snp位點(diǎn);采用頻率值計(jì)算模塊根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)中的頻率相關(guān)樣本數(shù)據(jù),計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);采用風(fēng)險(xiǎn)等位基因數(shù)量計(jì)算模塊計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量;采用患病率獲取模塊根據(jù)中國(guó)人群的疾病數(shù)據(jù)庫(kù)中的疾病相關(guān)樣本數(shù)據(jù)計(jì)算出中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;采用模型構(gòu)建模塊根據(jù)中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式構(gòu)建ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型;中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:p:中國(guó)個(gè)體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。本發(fā)明具有以下技術(shù)效果:1、本發(fā)明基于貝葉斯算法和ⅱ型糖尿病的流行病學(xué)統(tǒng)計(jì)原理,精準(zhǔn)計(jì)算風(fēng)險(xiǎn)區(qū)間和患病風(fēng)險(xiǎn),具有極大的理論價(jià)值和應(yīng)用價(jià)值。2、本發(fā)明的模型可用于中國(guó)人群ⅱ型糖尿病的篩查工作,提高高風(fēng)險(xiǎn)人群篩查的準(zhǔn)確性,降低ⅱ型糖尿病的發(fā)病率,為國(guó)家和社會(huì)節(jié)約大筆開支,利國(guó)利民。3、本發(fā)明的模型通過計(jì)算人群風(fēng)險(xiǎn)等位基因數(shù)量的數(shù)學(xué)期望和or值,結(jié)合ⅱ型糖尿病的流行病學(xué)患病率,得到群體基于遺傳的平均患病率和置信區(qū)間,可以有效解決現(xiàn)有技術(shù)的計(jì)算方法所存在的問題。附圖說明圖1是本發(fā)明的一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法的工作流程圖。圖2是中國(guó)人群ⅱ型糖尿病的風(fēng)險(xiǎn)等級(jí)圖。具體實(shí)施方式以下結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說明。實(shí)施例1如圖1和圖2所示,本實(shí)施例提供了與ⅱ型糖尿病關(guān)聯(lián)的基因snp位點(diǎn)的獲取方法,其包括如下步驟:步驟1-1、通過t2d-genesconsortium數(shù)據(jù)庫(kù)、got2dconsortium數(shù)據(jù)庫(kù)、diagramconsortium數(shù)據(jù)庫(kù)獲取與ⅱ型糖尿病相關(guān)的snp位點(diǎn)作為t2dconsortium位點(diǎn),研究人群為東亞人群(中國(guó)、日本、韓國(guó)、新加坡華裔);從gwas研究的文獻(xiàn)數(shù)據(jù)庫(kù)中獲取與ⅱ型糖尿病相關(guān)的snp位點(diǎn)作為gwas位點(diǎn),其中顯著性水平取0.000001,研究人群為東亞人群(中國(guó)、日本、韓國(guó)、新加坡華裔);從候選基因研究的文獻(xiàn)數(shù)據(jù)庫(kù)中獲取與ⅱ型糖尿病相關(guān)的snp關(guān)點(diǎn)作為候選基因位點(diǎn),其中顯著性水平取0.05,研究人群為東亞人群(中國(guó)、日本、韓國(guó)、新加坡華裔)。步驟1-2、將t2dconsortium位點(diǎn)、gwas位點(diǎn)和候選基因位點(diǎn)合并一起,去除重復(fù)的snp位點(diǎn),并進(jìn)行連鎖分析,保留連鎖不平衡(ld)的r2值<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)。實(shí)施例2本實(shí)施例提供了ⅱ型糖尿病相關(guān)的基因snp頻率值和or值過濾的方法。其中,or值的計(jì)算方法為:獲取gwas研究的文獻(xiàn)數(shù)據(jù)庫(kù)和候選基因研究的文獻(xiàn)數(shù)據(jù)庫(kù)中的ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群的or值;或者,合并東亞人群的樣本數(shù)據(jù)信息,通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群的or值。頻率值的計(jì)算方法為:采用gwas研究的文獻(xiàn)數(shù)據(jù)庫(kù)和候選基因研究的文獻(xiàn)數(shù)據(jù)中的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值;或者,合并東亞人群的樣本數(shù)據(jù)信息,計(jì)算or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值(即過濾掉or值<1.08的snp位點(diǎn))。實(shí)施例3本實(shí)施例提供了ⅱ型糖尿病的流行病學(xué)患病率的計(jì)算方法:通過文獻(xiàn)(diabetescare2015jan;38(1):72-81)計(jì)算中國(guó)人群的ⅱ型糖尿病患病率,其值為10.44%。實(shí)施例4本實(shí)施例提供了ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,并計(jì)算某個(gè)中國(guó)個(gè)體的患病風(fēng)險(xiǎn)。其中,ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,其包括下列步驟:(1)獲取ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn);(2)計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度即or值,并獲取or值≥1.08的snp位點(diǎn);(3)計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群的頻率值,并獲取頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);(4)計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量;(5)計(jì)算中國(guó)人群的ⅱ型糖尿病的流行病學(xué)患病率;(6)根據(jù)貝葉斯算法和哈迪-溫伯格平衡原理,構(gòu)建風(fēng)險(xiǎn)評(píng)估模型。其中,步驟(3)中的過濾后的snp位點(diǎn)為:rs10229583,rs10811661,rs10886471,rs10906115,rs10993738,rs1111875,rs11257655,rs11787792,rs12010175,rs13266634,rs1327796,rs1359790,rs1436953,rs1436955,rs1470579,rs1535500,rs163182,rs17584499,rs1801282,rs2028299,rs2237892,rs2237895,rs2237897,rs312457,rs3786897,rs391300,rs4430796,rs4712524,rs5219,rs5945326,rs6467136,rs6780569,rs7041847,rs7656416,rs7756992,rs7903146,rs791595。在步驟(4)中,計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量為:每個(gè)snp是由2個(gè)等位基因組成的基因型,根據(jù)自由組合,每個(gè)snp的基因型組成有3種情況:將含有2個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為0;將含有1個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為1;將含有0個(gè)正常等位基因的snp視為該snp的風(fēng)險(xiǎn)等位基因的數(shù)量為2。在步驟(6)中,根據(jù)貝葉斯算法和哈迪-溫伯格平衡原理的構(gòu)建風(fēng)險(xiǎn)評(píng)估模型:中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:其中:p:中國(guó)個(gè)體的患病概率;d:ⅱ型糖尿?。籯[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病的流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個(gè)中國(guó)個(gè)體的基因信息輸入模型,可以計(jì)算得到患病風(fēng)險(xiǎn)和風(fēng)險(xiǎn)等級(jí),結(jié)果見圖2。實(shí)施例5本實(shí)施例提供了一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建系統(tǒng),其包括:snp位點(diǎn)檢索模塊,從多個(gè)基因-疾病關(guān)聯(lián)數(shù)據(jù)庫(kù)中分別獲取與ⅱ型糖尿病相關(guān)的所有的snp位點(diǎn);分析模塊,整合所有的snp位點(diǎn)并去除重復(fù)的snp位點(diǎn),對(duì)剩余的snp位點(diǎn)進(jìn)行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn);風(fēng)險(xiǎn)度計(jì)算模塊,根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)的風(fēng)險(xiǎn)度相關(guān)樣本數(shù)據(jù),通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度即or值,并獲取or值≥1.08的snp位點(diǎn);頻率值計(jì)算模塊,根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)中的頻率相關(guān)樣本數(shù)據(jù),計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);風(fēng)險(xiǎn)等位基因數(shù)量計(jì)算模塊,計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量;患病率獲取模塊,根據(jù)中國(guó)人群的疾病數(shù)據(jù)庫(kù)中的疾病相關(guān)樣本數(shù)據(jù)計(jì)算出中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;模型構(gòu)建模塊,根據(jù)中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式構(gòu)建ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型;中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:p:中國(guó)個(gè)體的患病概率;d:ⅱ型糖尿病;k[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個(gè)中國(guó)個(gè)體的基因信息輸入本實(shí)施例的構(gòu)建系統(tǒng)所構(gòu)建出的ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型,可以計(jì)算得到該中國(guó)個(gè)體的患病風(fēng)險(xiǎn)和風(fēng)險(xiǎn)等級(jí)。實(shí)施例6本實(shí)施例提供一種ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法,其包括如下步驟:采用snp位點(diǎn)檢索模塊從多個(gè)基因-疾病關(guān)聯(lián)數(shù)據(jù)庫(kù)中分別獲取與ⅱ型糖尿病相關(guān)的所有的snp位點(diǎn);采用分析模塊整合所有的snp位點(diǎn)并去除重復(fù)的snp位點(diǎn),對(duì)剩余的snp位點(diǎn)進(jìn)行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點(diǎn)作為ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn);采用風(fēng)險(xiǎn)度計(jì)算模塊根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)的風(fēng)險(xiǎn)度相關(guān)樣本數(shù)據(jù),通過病例-對(duì)照研究的四格表方法計(jì)算ⅱ型糖尿病關(guān)聯(lián)性snp位點(diǎn)在東亞人群中的風(fēng)險(xiǎn)度即or值,并獲取or值≥1.08的snp位點(diǎn);采用頻率值計(jì)算模塊根據(jù)東亞人群的樣本數(shù)據(jù)庫(kù)中的頻率相關(guān)樣本數(shù)據(jù),計(jì)算所有的or值≥1.08的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點(diǎn)作為過濾后的snp位點(diǎn);采用風(fēng)險(xiǎn)等位基因數(shù)量計(jì)算模塊計(jì)算所有過濾后的snp在中國(guó)個(gè)體中的風(fēng)險(xiǎn)等位基因數(shù)量;采用患病率獲取模塊根據(jù)中國(guó)人群的疾病數(shù)據(jù)庫(kù)中的疾病相關(guān)樣本數(shù)據(jù)計(jì)算出中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;采用模型構(gòu)建模塊根據(jù)中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式構(gòu)建ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型;中國(guó)個(gè)體的患病風(fēng)險(xiǎn)計(jì)算公式為:p:中國(guó)個(gè)體的患病概率;d:ⅱ型糖尿?。籯[i]:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因的數(shù)量;r:中國(guó)人群的ⅱ型糖尿病流行病學(xué)患病率;π:乘積符號(hào);gi:每個(gè)過濾后的snp位點(diǎn)的風(fēng)險(xiǎn)等位基因數(shù)量為1個(gè)時(shí)的or值;pi:在所有的過濾后的snp位點(diǎn)中,第i個(gè)snp位點(diǎn)的風(fēng)險(xiǎn)等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個(gè)中國(guó)個(gè)體的基因信息輸入本實(shí)施例的構(gòu)建方法所構(gòu)建出的ⅱ型糖尿病風(fēng)險(xiǎn)評(píng)估模型,可以計(jì)算得到該中國(guó)個(gè)體的患病風(fēng)險(xiǎn)和風(fēng)險(xiǎn)等級(jí)。以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。因此,凡本
技術(shù)領(lǐng)域:
中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)12