本發(fā)明涉及一種性狀預(yù)測模型制作方法和性狀預(yù)測方法。
背景技術(shù):
目前,作為使用人基因組信息的表現(xiàn)型預(yù)測,著眼于性狀感受性多態(tài)性,集中研究了僅使用已經(jīng)被鑒定的感受性多態(tài)性預(yù)測表現(xiàn)型的方法(v.lyssenkoetal.,nengljmed2008vol.359p.2220-2232;s.ripatthietal.,lanet2010vol.376p.1393-1400;c.a.ibrahim-verbaasetal.,stroke2014vol.45p.403-412)。這些方法具體列舉與性狀相關(guān)的數(shù)個(gè)到數(shù)百個(gè)多態(tài)性,推定各個(gè)多態(tài)性的重要性,能夠?qū)⒏鱾€(gè)多態(tài)性對性狀的影響數(shù)值化,從這點(diǎn)上說,容易直觀地理解。
但是,僅使用感受性多態(tài)性這一點(diǎn)是該方法的缺點(diǎn),是有限度的。這是因?yàn)樵趲缀跞康亩嘁蜃有誀钪校诔蔀閷?shí)際的原因的感受性多態(tài)性中被鑒定的感受性多態(tài)性極少。例如,推定能夠由遺傳因素說明身高的方差中的約80%,但是能夠由已知的感受性多態(tài)性來說明的方差只不過為5%左右。
因此,非專利文獻(xiàn)(d.speedandd.j.balding,genomeresearch2015vol.24p.1550-1557)中記載了不管是不是感受性多態(tài)性都使用網(wǎng)羅性(全基因組)的多態(tài)性信息的表現(xiàn)型預(yù)測法。即,將多個(gè)單核苷酸多態(tài)性(singlenucleotidepolymorphism;snp)分解為多個(gè)類別(category),應(yīng)用線性混合模型。但是,在該方法中,預(yù)測的精度也還不充分。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明所要解決的課題
本發(fā)明的目的在于提供一種用于從單核苷酸多態(tài)性數(shù)據(jù)預(yù)測性狀的表現(xiàn)型的性狀預(yù)測模型制作方法和能夠以高的準(zhǔn)確率預(yù)測性狀的性狀預(yù)測方法。
用于解決課題的方法
本發(fā)明的發(fā)明人研究了不管是否為感受性多態(tài)性都使用網(wǎng)羅性(全基因組)的多態(tài)性信息的統(tǒng)計(jì)學(xué)處理方法。即,發(fā)現(xiàn):以包含身高或hbalc檢查值的27個(gè)量的性狀、和包含患有糖尿病或低hdl膽固醇血癥的5個(gè)質(zhì)的性狀為例,將約100萬個(gè)多態(tài)性作為基因組信息,將性別年齡信息用作調(diào)節(jié)變量,應(yīng)用線性混合模型,對性狀進(jìn)行學(xué)習(xí)而制作預(yù)測模型,其結(jié)果,該預(yù)測與實(shí)測值存在高度地相關(guān)。這樣,我們完成了從基因組信息預(yù)測表現(xiàn)型的預(yù)測方法。
本發(fā)明的一個(gè)實(shí)施方式為一種性狀預(yù)測模型制作方法,其使用在生物的多個(gè)個(gè)體中使多個(gè)單核苷酸多態(tài)性與形狀對應(yīng)的單核苷酸多態(tài)性數(shù)據(jù),制作預(yù)測多因子性性狀的表現(xiàn)型的預(yù)測模型,該性狀預(yù)測模型制作方法包括:將上述多個(gè)單核苷酸多態(tài)性分別矩陣表示的工序;將上述多個(gè)單核苷酸多態(tài)性基于遺傳結(jié)構(gòu)分類為多個(gè)類別的工序;對于各個(gè)上述類別,使用上述矩陣表示和屬于上述類別的上述單核苷酸多態(tài)性的個(gè)數(shù)計(jì)算基因組相似度矩陣的工序;和將上述基因組相似度矩陣和上述遺傳結(jié)構(gòu)的參數(shù)應(yīng)用于線性混合模型的工序。上述遺傳結(jié)構(gòu)可以為效應(yīng)量(effectsize)和/或等位基因頻率(allelefrequency)。
本發(fā)明的另一實(shí)施方式為一種性狀預(yù)測模型制作方法,其使用在生物的多個(gè)個(gè)體中使多個(gè)單核苷酸多態(tài)性、性別、年齡與形狀對應(yīng)的單核苷酸多態(tài)性數(shù)據(jù),制作預(yù)測多因子性性狀的表現(xiàn)型的性狀預(yù)測模型,該性狀預(yù)測模型制作方法包括:將上述多個(gè)單核苷酸多態(tài)性分別矩陣表示的工序;將上述性別和/或年齡矩陣表示的工序;使用上述單核苷酸多態(tài)性的矩陣表示和上述單核苷酸多態(tài)性的個(gè)數(shù)計(jì)算基因組相似度矩陣的工序;和將上述基因組相似度矩陣、和上述性別和/或年齡的矩陣應(yīng)用于線性混合模型的工序。上述性狀可以選自身高、體重、最高血壓、最低血壓、血糖、hbalc、紅細(xì)胞數(shù)、血色素、血細(xì)胞容積、白細(xì)胞數(shù)、血小板數(shù)、嗜中性粒細(xì)胞的比例、淋巴細(xì)胞的比例、單核細(xì)胞的比例、嗜酸性粒細(xì)胞的比例、嗜堿性粒細(xì)胞的比例、大型不染色細(xì)胞的比例、ast(got)、alt(gpt)、γ-gtp、總膽固醇、中性脂肪、hdl膽固醇、ldl膽固醇、肌酐、尿素氮、尿酸、糖尿病、高血壓癥、高ldl膽固醇血癥、低hdl膽固醇血癥、高甘油三酯血癥。
本發(fā)明的再一實(shí)施方式為一種性狀預(yù)測方法,其在生物個(gè)體中從多個(gè)單核苷酸多態(tài)性數(shù)據(jù)預(yù)測該生物個(gè)體的性狀,該性狀預(yù)測方法包括:使用學(xué)習(xí)用數(shù)據(jù)集,按照上述預(yù)測模型制作方法制作預(yù)測模型的工序;確定線性混合模型的參數(shù)和潛在變量的工序;和將該生物個(gè)體的上述多個(gè)單核苷酸多態(tài)性數(shù)據(jù)應(yīng)用于上述預(yù)測模型的工序。
本發(fā)明的再一實(shí)施方式為一種用于在生物個(gè)體中從多個(gè)單核苷酸多態(tài)性數(shù)據(jù)預(yù)測該生物個(gè)體的性狀的程序,其中,使計(jì)算機(jī)執(zhí)行上述性狀預(yù)測方法。本發(fā)明的一個(gè)實(shí)施方式可以為一種存儲有本程序的計(jì)算機(jī)可讀取的存儲介質(zhì)。
本發(fā)明的再一實(shí)施方式為一種用于在生物個(gè)體中從多個(gè)單核苷酸多態(tài)性數(shù)據(jù)預(yù)測該生物個(gè)體的性狀的性狀預(yù)測系統(tǒng),其具備:
(i)用于輸入上述生物個(gè)體的多個(gè)單核苷酸多態(tài)性數(shù)據(jù)的輸入裝置;
(ii)使用輸入的數(shù)據(jù),執(zhí)行上述程序的計(jì)算機(jī);和
(iii)用于輸出由(ii)得到的結(jié)果的輸出裝置。
==與關(guān)聯(lián)文獻(xiàn)的交叉引用==
本申請主張基于在2014年11月25日申請的日本國專利申請2014-238252的優(yōu)先權(quán),通過引用該基礎(chǔ)申請,包含在本說明書中。
附圖說明
圖1是表示在本發(fā)明的一個(gè)實(shí)施例中,著眼于hbalc檢查值和身高,利用遺傳結(jié)構(gòu)分解法的貢獻(xiàn)率的推定結(jié)果的圖(qes=50、qraf=1的情況)。
圖2是表示在本發(fā)明的一個(gè)實(shí)施例中,著眼于hbalc檢查值和身高,利用遺傳結(jié)構(gòu)分解法的貢獻(xiàn)率的推定結(jié)果的圖(qes=1、qraf=30的情況)。
圖3是在本發(fā)明的一個(gè)實(shí)施例中實(shí)施例中所使用的性狀的一覽。
圖4是表示在本發(fā)明的一個(gè)實(shí)施例中27個(gè)量的性狀的精度評價(jià)結(jié)果的圖。對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)這3種方法進(jìn)行比較。作為評價(jià)指標(biāo),使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方),利用二折交叉驗(yàn)證(2-foldcrossvalidation)法進(jìn)行評價(jià)。
圖5是表示在本發(fā)明的一個(gè)實(shí)施例中5個(gè)質(zhì)的性狀的精度評價(jià)結(jié)果的圖。對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)這3種方法進(jìn)行比較。作為評價(jià)指標(biāo),使用auc,利用二折交叉驗(yàn)證法進(jìn)行評價(jià)。
圖6是表示在本發(fā)明的一個(gè)實(shí)施例中樣本量充分大時(shí)27個(gè)量的性狀的精度評價(jià)結(jié)果的圖。對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)、(4)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=10、qraf=1的情況(有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)這4種方法進(jìn)行比較。作為評價(jià)指標(biāo),使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方),利用二折交叉驗(yàn)證法進(jìn)行評價(jià)。
圖7是表示在本發(fā)明的一個(gè)實(shí)施例中,樣本量充分地大的情況的5的質(zhì)的性狀的精度評價(jià)結(jié)果的圖。對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)、(4)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=10、qraf=1的情況(有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)這4種方法進(jìn)行比較。作為評價(jià)指標(biāo),使用auc,利用二折交叉驗(yàn)證法進(jìn)行評價(jià)。
具體實(shí)施方式
本發(fā)明的目的、特征、優(yōu)點(diǎn)及其構(gòu)思通過本說明書的記載,對本領(lǐng)域技術(shù)人員而言是清楚的,根據(jù)本說明書的記載,只要是本領(lǐng)域技術(shù)人員,就能夠容易地再現(xiàn)本發(fā)明。以下所記載的發(fā)明的實(shí)施方式和具體的實(shí)施例等示出本發(fā)明的優(yōu)選的實(shí)施方式,是為了例示或說明而示出的,但本發(fā)明并不限定于這些。在本說明書中所公開的本發(fā)明的意圖以及范圍內(nèi),基于本說明書的記載,能夠各種各樣地進(jìn)行變更,這對本領(lǐng)域技術(shù)人員而言是清楚的。
本發(fā)明的性狀預(yù)測模型制作方法為使用在生物的多個(gè)個(gè)體中使多個(gè)單核苷酸多態(tài)性(singlenucleotidepolymorphism;snp)與形狀對應(yīng)的單核苷酸多態(tài)性數(shù)據(jù)制作預(yù)測多因子性性狀的表現(xiàn)型的預(yù)測模型的預(yù)測模型制作方法,其包括:將多個(gè)單核苷酸多態(tài)性分別矩陣表示的工序;將多個(gè)單核苷酸多態(tài)性基于遺傳結(jié)構(gòu)分類為多個(gè)類別的工序;對于各個(gè)類別,使用單核苷酸多態(tài)性的矩陣表示和屬于各類別的單核苷酸多態(tài)性的個(gè)數(shù)計(jì)算基因組相似度矩陣的工序;和將基因組相似度矩陣和遺傳結(jié)構(gòu)的參數(shù)應(yīng)用于線性混合模型的工序。或者,為一種性狀預(yù)測模型制作方法,使用在生物的多個(gè)個(gè)體中使多個(gè)單核苷酸多態(tài)性、性別、年齡與形狀對應(yīng)的單核苷酸多態(tài)性數(shù)據(jù),制作預(yù)測多因子性性狀的表現(xiàn)型的性狀預(yù)測模型,該包括:將多個(gè)單核苷酸多態(tài)性分別矩陣表示的工序;將性別和/或年齡矩陣表示的工序;使用單核苷酸多態(tài)性的矩陣表示和單核苷酸多態(tài)性的個(gè)數(shù)計(jì)算基因組相似度矩陣的工序;和將基因組相似度矩陣、和性別和/或年齡的矩陣應(yīng)用于線性混合模型的工序。
這里使用的單核苷酸多態(tài)性數(shù)據(jù)中所含的單核苷酸多態(tài)性沒有特別限定,可以是作為對象的性狀的感受性多態(tài)性,也可以不是。使用的單核苷酸多態(tài)性的數(shù)量、種類也沒有特別限定,優(yōu)選網(wǎng)羅在作為對象的生物個(gè)體集合中存在1%以上的單核苷酸多態(tài)性。
作為對象的生物沒有特別限定,可以為植物,也可以為動(dòng)物,優(yōu)選為脊椎動(dòng)物,更優(yōu)選為哺乳類,最優(yōu)選為人。作為對象的性狀只要是多因子性性狀,就沒有特別限定,例如,在人的情況下,能夠例示與身高、體重、bmi等體型有關(guān)的指標(biāo);血壓(最高血壓、最低血壓)、hbalc、紅細(xì)胞數(shù)、血色素、血細(xì)胞容積、白細(xì)胞數(shù)、血小板數(shù)、嗜中性粒細(xì)胞的比例、淋巴細(xì)胞的比例、單核細(xì)胞的比例、嗜酸性粒細(xì)胞的比例、嗜堿性粒細(xì)胞的比例、大型不染色細(xì)胞的比例、有核紅細(xì)胞數(shù)、ast(got)、alt(gpt)、γ-gtp、總膽固醇、中性脂肪、hdl膽固醇、ldl膽固醇、肌酐、尿素氮、估計(jì)腎小球過濾量、尿酸等血液檢查評價(jià)值;記憶力、理解力、智商指數(shù)、運(yùn)動(dòng)技術(shù)等能力;肥胖·糖尿病·高血壓·循環(huán)器官疾病等成人病、癌、過敏癥·自免疫病等免疫疾病等病的患病容易程度等。
使用本發(fā)明的預(yù)測模型制作方法,能夠進(jìn)行從多個(gè)單核苷酸多態(tài)性數(shù)據(jù)預(yù)測生物個(gè)體的性狀的性狀預(yù)測。即,使用學(xué)習(xí)用數(shù)據(jù)集,按照本發(fā)明的性狀預(yù)測模型制作方法制作性狀預(yù)測模型,確定線性混合模型的參數(shù)和潛在變量,將生物個(gè)體的多個(gè)單核苷酸多態(tài)性數(shù)據(jù)應(yīng)用于性狀預(yù)測模型,由此,能夠預(yù)測該生物個(gè)體的性狀。
下面,對本發(fā)明的預(yù)測模型制作方法和性狀預(yù)測方法,一邊列舉實(shí)施例,一邊具體且詳細(xì)地進(jìn)行說明,但本發(fā)明并不限定于這些實(shí)施方式或?qū)嵤├?/p>
(1)性別、年齡信息的矩陣表示
闡述對n個(gè)人設(shè)為可得到性別年齡數(shù)據(jù)、作為n×6矩陣x表示的方法。x的行向量是指各個(gè)人的性別和年齡的信息。將矩陣x的i行j列要素記為x(i,j)。年齡作為類別數(shù)據(jù)使用,該類別的段數(shù)沒有特別限定。這里,作為一例,對設(shè)為39歲以下、40歲以上49歲以下、50歲以上59歲以下、60歲以上69歲以下、70歲以上的5段的方法進(jìn)行闡述。
性別的信息在矩陣x的第1列表示。在第i個(gè)人的個(gè)人性別為男性的情況下記為“m”、為女性的情況下記為“f”時(shí),x(i,1)用以下的式子定義。
年齡的信息以矩陣x的第2~6列表示。將第i個(gè)人的個(gè)人年齡記為agei時(shí),x(i,2)、x(i,3)、x(i,4)、x(i,5)、x(i,6)用以下的式子定義。
(2)基因組信息的矩陣表示
闡述對n個(gè)人設(shè)為可得到p個(gè)單核苷酸多態(tài)性(snp)數(shù)據(jù)、作為n×p矩陣(n、p為1以上的整數(shù))w表示的方法。w的行向量是指各個(gè)人的多態(tài)性信息(profile),w的列向量是指表示某個(gè)多態(tài)性部位的個(gè)人間的不同的向量。
第i個(gè)的個(gè)人的第j個(gè)多態(tài)性由2個(gè)等位基因構(gòu)成。在兩個(gè)等位基因與人代表序列一致的情況下記為“aa”,在僅一個(gè)等位基因與人代表序列一致的情況下記為“ab”,在兩個(gè)等位基因與人代表序列不一致的情況下記為“bb”。另外,將矩陣w的i行j列要素記為w(i,j)。另外,將第j個(gè)多態(tài)性的等位基因頻率記為fj。基于這些標(biāo)記,w(i,j)用以下的式子定義。
這里,關(guān)于代表序列,對各多態(tài)性確定任意的堿基,設(shè)為具有這些的序列,例如,可以為作為基因組工程的成果發(fā)表的序列。
(3)基于遺傳結(jié)構(gòu)的snp的分類
以下,闡述將p個(gè)snp基于遺傳結(jié)構(gòu)分類為多個(gè)類別的方法。表示遺傳結(jié)構(gòu)的具體的參數(shù)包括作為表示與性狀的關(guān)聯(lián)性的強(qiáng)度的參數(shù)的效應(yīng)量(effectsize)、和表示snp的人的集合中的頻率的等位基因頻率(allelefrequency)。作為效應(yīng)量的代表的具體例,可以列舉相對危險(xiǎn)度(relativerisk)、比值比(oddsratio)、方差貢獻(xiàn)率、回歸系數(shù)(regressioncoefficient)。等位基因頻率中能夠例示危險(xiǎn)等位基因頻率(riskallelefrequency;raf)或最小等位基因頻率(minorallelefrequency;maf)。本發(fā)明的方法中使用的遺傳結(jié)構(gòu)參數(shù)沒有特別限定,這里,作為一例,示出使用回歸系數(shù)和raf的情況的分類步驟。
(4)分解步驟(1)效應(yīng)量的qes分位數(shù)的計(jì)算
對正的整數(shù)qes,計(jì)算將分布進(jìn)行了qes等分的(qes-1)個(gè)的值。以下,表示具體的分位數(shù)的計(jì)算方法,但是分位數(shù)的計(jì)算方法不限定于此。將對snp的效應(yīng)量以升序排列好的數(shù)據(jù)記為es1≤es2≤…≤esp時(shí),第i個(gè)qes分位數(shù)
這里,
(5)分解步驟(2)raf的qraf分位數(shù)的計(jì)算
對正的整數(shù)qraf,計(jì)算將分布進(jìn)行了qraf等分的(qraf-1)個(gè)的值。以下,表示具體的分位數(shù)的計(jì)算方法,但是分位數(shù)的計(jì)算方法不限定于此。將對snp的raf以升序排列好的數(shù)據(jù)記為raf1≤raf2≤…≤rafp時(shí),第j個(gè)qraf分位數(shù)
這里,
(6)snp的分類
使用通過上述步驟計(jì)算得到的
catk=(ik,jk)
(7)遺傳結(jié)構(gòu)參數(shù)的推定
效應(yīng)量、raf等遺傳結(jié)構(gòu)參數(shù)能夠通過多態(tài)性和性狀的關(guān)聯(lián)分析來推定。多態(tài)性和性狀的關(guān)聯(lián)分析使用通常能夠獲得的程序進(jìn)行即可,例如,可以使用在因特網(wǎng)上能夠獲得的plink或gcta。
(8)基因組相似度矩陣的計(jì)算
基因組相似度矩陣為表示基于基因組信息的個(gè)人間的相似度的n×n矩陣?;蚪M相似度矩陣設(shè)為對每個(gè)qes×qraf的類別進(jìn)行計(jì)算的基因組相似度矩陣。以下,示出代表性的基因組相似度矩陣a的計(jì)算式,但基因組相似度矩陣的計(jì)算式并不限定于此。
這里,a(i,j)是指類別(i,j)的基因組相似度矩陣(n×n維(次元)),p(i,j)是指屬于類別(i,j)的snp的個(gè)數(shù),w(i,j)是指從矩陣w僅切出屬于類別(i,j)的snp的列向量的部分矩陣(n×p(i,j)維),w(i,j)′是指矩陣w(i,j)的轉(zhuǎn)置矩陣。
(9)向線性混合模型的應(yīng)用
(9-1)使用遺傳結(jié)構(gòu)的情況
作為使用基因組信息的預(yù)測模型,用以下的式子表示線性混合模型。
y=μ1n+g+ε
這里,y是指性狀向量(n維),μ是指性狀的平均值,ln是指由l構(gòu)成的列向量(n維),g是指遺傳因素對性狀的貢獻(xiàn)向量(n維),ε是指剩余向量(n維),g(i,j)是指屬于類別(i,j)的snp向性狀的貢獻(xiàn)向量(n維),a(i,j)是指與類別(i,j)對應(yīng)的基因組相似度(n×n維),i是指單元矩陣(n×n維),
(9-2)使用性別年齡信息的情況
作為使用性別年齡信息的預(yù)測模型,用以下的式子表示線性混合模型。
y=μ1n+xβ+g+ε
這里,y是指性狀向量(n維),μ是指性狀的平均值,ln是指由l構(gòu)成的列向量(n維),x是指包含性別年齡信息的矩陣(n×6維),β是指對性別或年齡變量的重要性(6維),g是指遺傳因素對性狀的貢獻(xiàn)向量(n維),ε是指剩余向量(n維),g(i,j)是指屬于類別(i,j)的snp向性狀的貢獻(xiàn)向量(n維),a是指qes=1、qraf=1時(shí)的基因組相似度(n×n維),i是指單元矩陣(n×n維),
(9-3)使用遺傳結(jié)構(gòu)和性別年齡信息的情況
作為使用基因組信息和性別年齡信息的預(yù)測模型,用以下的式子表示線性混合模型。
y=μ1n+xβ+g+ε
這里,y是指性狀向量(n維),μ是指性狀的平均值,ln是指由l構(gòu)成的列向量(n維),x是指包含性別年齡信息的矩陣(n×6維),β是指對性別或年齡變量的重要性(6維),g是指遺傳因素對性狀的貢獻(xiàn)向量(n維),ε是指剩余向量(n維),g(i,j)是指屬于類別(i,j)的snp向性狀的貢獻(xiàn)向量(n維),a(i,j)是指與類別(i,j)對應(yīng)的基因組相似度(n×n維),i是指單元矩陣(n×n維),
(10)線性混合模型的參數(shù)推定
線性混合模型的參數(shù)(μ、β、
以下,將推得的參數(shù)記為
(11)貢獻(xiàn)率的推定
使用reml的參數(shù)推定值
另外,利用以下的式子定義全部snp的貢獻(xiàn)率的總和vg/vp。
(12)遺傳因素的貢獻(xiàn)的預(yù)測
線性混合模型的參數(shù)潛在變量(g、g(i,j)、ε)不包含在reml似然函數(shù)中,無法推定,但是能夠通過以下的式子來預(yù)測。
這里,p是指通過
以下,將預(yù)測得到的潛在變量記為
(13)性狀預(yù)測方法
使用上述性狀預(yù)測模型,
從具備全部基因組信息、性別年齡信息、性狀信息的名為nt的學(xué)習(xí)用數(shù)據(jù)集(yt、xt、wt),通過上述方法得到參數(shù)的推定值
這里,wt(i,j)是指從學(xué)習(xí)用數(shù)據(jù)集的基因組信息矩陣wt切出的僅屬于類別(i,j)的snp列向量的部分矩陣(nt×p(i,j)維),a(i,j)是指從wt(i.j)計(jì)算的基因組相似度矩陣(nt×nt維),
作為式(1)的特殊例,可以考慮以下的式子(2)、(3)。
式(2)是僅使用性別年齡信息的性狀預(yù)測式,式(3)是僅使用基因組信息的性狀預(yù)測式。另外,在qes=1、qraf=1時(shí),作為式(1)、式(3)的特殊例,可以分別考慮以下的式子(4)、(5)。
將式(1)稱為“遺傳結(jié)構(gòu)分解+性別年齡調(diào)整法”,將式(2)稱為“性別年齡調(diào)整法”,將式(3)稱為“遺傳結(jié)構(gòu)分解法”,將式(4)稱為“遺傳結(jié)構(gòu)非分解+性別年齡調(diào)整法”,將式(5)稱為“遺傳結(jié)構(gòu)非分解法”。
(14)性狀預(yù)測系統(tǒng)
為了將上述性狀預(yù)測方法進(jìn)行自動(dòng)化,能夠程序化,使得能夠在計(jì)算機(jī)執(zhí)行。這樣制作得到的程序也在本發(fā)明的權(quán)利范圍內(nèi)。
進(jìn)而,也能夠形成具備用于執(zhí)行該程序的計(jì)算機(jī)以及用于輸入單核苷酸多態(tài)性、性別·年齡信息等的輸入裝置和用于輸出通過程序的執(zhí)行而得到的結(jié)果的輸出裝置的性狀預(yù)測系統(tǒng)。
實(shí)施例
以下記載的本實(shí)施例的單核苷酸多態(tài)性信息利用humanomniexpressexome芯片(illumina公司)進(jìn)行測定。
實(shí)施例1
(方法)
本實(shí)施例中,作為多因子性的量的性狀的一例,著眼于身高,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù)及性別·年齡信息,通過本發(fā)明的性狀預(yù)測模型制作方法制作性狀預(yù)測模型(使用上述(9-2)性別年齡信息的情況),推定遺傳率。作為對照,對未使用性別、年齡信息的情況,也計(jì)算遺傳率的推定值,與使用性別、年齡信息的情況進(jìn)行比較。
接著,分別對(1)僅使用性別·年齡信息的情況、(2)僅使用單核苷酸多態(tài)性信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息兩者的情況(本發(fā)明的實(shí)施例),利用二折交叉驗(yàn)證法評價(jià)性狀預(yù)測模型的預(yù)測精度。作為評價(jià)指標(biāo),使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方)。
(遺傳率的推定方法)
在qes=1、qraf=1的情況下,將性狀的方差中可以由遺傳因素說明的方差的比例稱為遺傳率h2。關(guān)于遺傳率
(結(jié)果)
未使用性別·年齡信息的情況下的遺傳率為40.67%,使用性別、年齡信息的情況下的遺傳率為82.29%,可知,與未使用性別·年齡信息的情況相比,在使用性別·年齡信息的情況下,遺傳率大大提高,身高的方差的一部分可以由性別年齡說明。
關(guān)于(1)~(3)的3種情況,利用二折交叉驗(yàn)證法評價(jià)預(yù)測精度(r2)(平均±標(biāo)準(zhǔn)偏差),結(jié)果為(1)56.89±1.36%、(2)1.45±0.26%、(3)59.63±1.24%,與僅使用性別年齡信息的情況、僅使用基因組信息的情況相比,使用性別年齡信息及基因組信息這兩者的情況下,預(yù)測精度提高。
實(shí)施例2
(方法)
本實(shí)施例中,作為多因子性的質(zhì)的性狀的一例,著眼于糖尿病的患病,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù)及性別·年齡信息,通過本發(fā)明的性狀預(yù)測模型制作方法制作性狀預(yù)測模型(使用上述(9-2)性別年齡信息的情況)。這里,根據(jù)hbalc檢查值,在其為6.5以上的情況下判定為患有糖尿病,在其低于6.5的情況下判定為沒患有糖尿病。分別對(1)僅使用性別·年齡信息的情況、(2)僅使用單核苷酸多態(tài)性信息的情況、(3)使用單核苷酸多態(tài)性信息和性別、年齡信息兩者的情況(本發(fā)明的實(shí)施例),利用二折交叉驗(yàn)證法評價(jià)性狀預(yù)測模型的預(yù)測精度。作為評價(jià)指標(biāo),使用auc。
(結(jié)果)
為(1)61.39±1.56%、(2)55.76±0.28%、(3)62.98±0.61%,與僅使用性別年齡信息的情況、僅使用基因組信息的情況相比,使用性別年齡信息及基因組信息這兩者的情況下,預(yù)測精度提高。
實(shí)施例3
(方法)
本實(shí)施例中,作為多因子性的量的性狀的一例,著眼于hbalc檢查值和身高,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù),利用遺傳結(jié)構(gòu)分解法進(jìn)行貢獻(xiàn)率的推定。實(shí)施(1)qes=50、qraf=1的情況、(2)qes=1、qraf=30的情況這2種情況。
(結(jié)果)
在圖1中表示(1)qes=50、qraf=1的情況下的貢獻(xiàn)率的推定結(jié)果。推定在hbalc檢查值和身高的任一個(gè)中,顯示中程度的效應(yīng)量的單核苷酸多態(tài)性的貢獻(xiàn)率大,顯示小的效應(yīng)量的單核苷酸多態(tài)性的貢獻(xiàn)率非常小。另外,推定在hbalc檢查值中,顯示大的效應(yīng)量的單核苷酸多態(tài)性的貢獻(xiàn)大,但在身高中顯示大的效應(yīng)量的單核苷酸多態(tài)性的貢獻(xiàn)為有限的。
在圖2中表示(2)qes=1、qraf=30的情況的貢獻(xiàn)率的推定結(jié)果。推定在hbalc檢查值中,不稀有的單核苷酸多態(tài)性的貢獻(xiàn)率為有限的,稀有的單核苷酸多態(tài)性顯示非常大的貢獻(xiàn)率。另一方面,推定在身高中,稀有的單核苷酸多態(tài)性的貢獻(xiàn)率不小,但是不稀有的單核苷酸多態(tài)性的貢獻(xiàn)率也不小。
實(shí)施例4
(方法)
在以充分的樣本量進(jìn)行學(xué)習(xí)的情況下,顯示通過遺傳結(jié)構(gòu)分解法實(shí)現(xiàn)性狀預(yù)測精度的提高,因此,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù)及hbalc檢查值,用驗(yàn)證用數(shù)據(jù)集進(jìn)行效應(yīng)量、等位基因頻率的推定和線性混合模型的參數(shù)推定,用學(xué)習(xí)用數(shù)據(jù)集進(jìn)行遺傳因素的貢獻(xiàn)的預(yù)測和對單核苷酸多態(tài)性的重要性的計(jì)算,用驗(yàn)證用數(shù)據(jù)集進(jìn)行預(yù)測精度的驗(yàn)證。由此,能夠評價(jià)假定樣本量充分大的情況下的預(yù)測精度。
分別對(1)qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)qes=10、qraf=1的情況(有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例),利用二折交叉驗(yàn)證法評價(jià)性狀預(yù)測模型的預(yù)測精度。作為評價(jià)指標(biāo),使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方)。
(結(jié)果)
為(1)4.52±0.16%、(2)16.52±0.30%,假定充分的樣本量的情況下,與沒有遺傳結(jié)構(gòu)分解相比,如果有遺傳結(jié)構(gòu)分解,則顯示預(yù)測精度顯著地提高。
實(shí)施例5
(方法)
本實(shí)施例中,以圖3所示的27個(gè)量的性狀和5個(gè)質(zhì)的性狀為對象,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù),通過本發(fā)明的性狀預(yù)測模型制作方法制作性狀預(yù)測模型(使用上述(9-3)遺傳結(jié)構(gòu)及性別年齡信息的情況)。分別對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例),利用二折交叉驗(yàn)證法評價(jià)性狀預(yù)測模型的預(yù)測精度。作為評價(jià)指標(biāo),在以量的數(shù)據(jù)為對象的情況下,使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方),在以質(zhì)的數(shù)據(jù)為對象的情況下,使用auc。
(結(jié)果)
在圖4表示對27個(gè)量的性狀進(jìn)行了精度評價(jià)的結(jié)果,在圖5表示對5個(gè)質(zhì)的性狀進(jìn)行了精度評價(jià)的結(jié)果。關(guān)于圖4、圖5所示的全部27個(gè)量的性狀及5個(gè)質(zhì)的性狀,顯示與(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況相比,(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)的預(yù)測精度提高。
實(shí)施例6
(方法)
在以充分的樣本量進(jìn)行學(xué)習(xí)的情況下,顯示通過使用性別、年齡信息或單核苷酸多態(tài)性信息和性別、年齡信息這兩者而實(shí)現(xiàn)性狀預(yù)測精度的提高,因此,以圖3所示的27個(gè)量的性狀及5個(gè)質(zhì)的性狀為對象,使用由tohokumedicalmegabankproject在平成25年所收集的4992名的單核苷酸多態(tài)性數(shù)據(jù),通過本發(fā)明的性狀預(yù)測模型制作方法制作性狀預(yù)測模型(使用上述(9-3)遺傳結(jié)構(gòu)及性別年齡信息的情況)。分別對(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況、(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)、(4)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=10、qraf=1的情況(有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例),利用二折交叉驗(yàn)證法評價(jià)性狀預(yù)測模型的預(yù)測精度。作為評價(jià)指標(biāo),在以量的數(shù)據(jù)為對象的情況下,使用實(shí)測值和預(yù)測值的r2(相關(guān)系數(shù)的平方),在以質(zhì)的數(shù)據(jù)為對象的情況下,使用auc。用驗(yàn)證用數(shù)據(jù)集進(jìn)行效應(yīng)量、等位基因頻率的推定及線性混合模型的參數(shù)推定,用學(xué)習(xí)用數(shù)據(jù)集進(jìn)行遺傳因素的貢獻(xiàn)的預(yù)測及對單核苷酸多態(tài)性的重要性的計(jì)算,用驗(yàn)證用數(shù)據(jù)集進(jìn)行預(yù)測精度的驗(yàn)證。
(結(jié)果)
在圖6中表示對27的量的性狀進(jìn)行了精度評價(jià)的結(jié)果,在圖7中表示對5的質(zhì)的性狀進(jìn)行了精度評價(jià)的結(jié)果。關(guān)于圖6、圖7所示的全部27個(gè)量的性狀及5個(gè)質(zhì)的性狀,顯示:與(1)僅使用單核苷酸多態(tài)性信息、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解)、(2)僅使用性別·年齡信息的情況相比,(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)的預(yù)測精度提高。在將(3)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且使用qes=1、qraf=1的情況(沒有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)與(4)使用單核苷酸多態(tài)性信息和性別·年齡信息這兩者、且qes=10、qraf=1的情況(有遺傳結(jié)構(gòu)分解;本發(fā)明的實(shí)施例)進(jìn)行比較的情況下,在全部的性狀中,(4)的預(yù)測精度提高。
(結(jié)論)
如上所述,如果使用通過本發(fā)明的性狀預(yù)測模型制作方法制作的性狀預(yù)測模型,與現(xiàn)有的預(yù)測方法相比,能夠以高的準(zhǔn)確率預(yù)測性狀。此外,通過利用遺傳結(jié)構(gòu)分解法進(jìn)行貢獻(xiàn)率的推定,能夠闡明性狀的遺傳結(jié)構(gòu)。
工業(yè)上的可利用性
根據(jù)本發(fā)明,能夠提供一種用于從單核苷酸多態(tài)性數(shù)據(jù)預(yù)測性狀的表現(xiàn)型的性狀預(yù)測模型制作方法、以及能夠以高的準(zhǔn)確率預(yù)測性狀的性狀預(yù)測方法。