本發(fā)明屬于分子生物學(xué)及遺傳育種,特別涉及針對(duì)多個(gè)雙親衍生后代群體的聯(lián)合完備區(qū)間作圖方法。
背景技術(shù):
1、尋找數(shù)量性狀座位(quantitative?trait?locus,qtl)在染色體上的位置并估計(jì)其遺傳效應(yīng)的過(guò)程,稱為qtl作圖,已成為復(fù)雜性狀遺傳機(jī)理研究的主要方法,常見(jiàn)的有加顯性qtl作圖和上位性qtl作圖等。根據(jù)qtl定位結(jié)果可以進(jìn)行基因精細(xì)定位,或?qū)⒁讯ㄎ坏幕蜃鳛闃?biāo)記對(duì)性狀進(jìn)行輔助選擇(王建康2017)。常用的qtl作圖方法有單標(biāo)記作圖法(sma;sax?1923)、區(qū)間作圖法(im;lander?and?botstein?1989)、復(fù)合區(qū)間作圖法(cim;zeng?1994)、多區(qū)間作圖法(mim;kao?et?al.1999)、完備區(qū)間作圖法(icim;li?etal.2007;zhang?et?al.2008)、全基因組復(fù)合區(qū)間作圖法(gcim;wen?et?al.2019)等。常用的qtl定位工具有r/qtl(broman?et?al.2003)、qtl?cartographer(wang?et?al.2005)、mapqtl(van?ooijen?2009)、qtl?icimapping(meng?et?al.2015)等。qtl檢測(cè)功效與作圖群體大小、性狀遺傳力、qtl效應(yīng)、標(biāo)記密度、qtl之間是否存在連鎖或互作關(guān)系等有關(guān)(王建康等2020)。
2、遺傳研究中,為了實(shí)現(xiàn)特定的研究目標(biāo),往往需要構(gòu)建多個(gè)遺傳群體。把這些群體聯(lián)合起來(lái)分析,通常是有必要的。比如數(shù)量遺傳學(xué)中的六世代聯(lián)合分析法可利用6個(gè)基本世代(p1、p2、f1、f2、bc1、bc2)的表型數(shù)據(jù),建立加顯性模型進(jìn)行聯(lián)合分析,計(jì)算各世代遺傳方差、遺傳力,估計(jì)有效因子個(gè)數(shù),并初步分析遺傳效應(yīng),但無(wú)法展開(kāi)更進(jìn)一步的遺傳分析(王建康2017)。純系群體可以準(zhǔn)確估計(jì)加性效應(yīng),f2或其他暫時(shí)群體可用于顯性效應(yīng)估計(jì)及雜種優(yōu)勢(shì)研究。綜合利用兩類群體有利于得到加顯性效應(yīng)的準(zhǔn)確估計(jì)。多群體聯(lián)合分析對(duì)雜種優(yōu)勢(shì)研究、遺傳效應(yīng)的準(zhǔn)確估計(jì)、挖掘重要基因座位上的更多優(yōu)異等位變異等方面均具有重要意義。
3、但是目前的多群體聯(lián)合分析通常都是先在單個(gè)群體中分別進(jìn)行遺傳分析,再對(duì)分析結(jié)果進(jìn)行比較和整合,或合并為一個(gè)大群體進(jìn)行關(guān)聯(lián)分析。不同類型群體的遺傳結(jié)構(gòu)不同,構(gòu)建出的連鎖圖譜在連鎖群數(shù)、標(biāo)記數(shù)、標(biāo)記位置順序、平均圖距等方面有可能存在較大差異(梁永書(shū)等2007)。對(duì)不同群體進(jìn)行比較分析的時(shí)候,常常需要構(gòu)建一套整合圖譜,綜合多個(gè)群體的遺傳信息,提高標(biāo)記密度(galeano?et?al.2011)。而不同遺傳群體qtl定位結(jié)果的整合常常通過(guò)qtl元分析來(lái)實(shí)現(xiàn)。元分析綜合利用多個(gè)遺傳群體在染色體特定區(qū)段定位到的qtl信息,確定qtl位置(arcade?et?al.2004)。但整合圖譜構(gòu)建時(shí)無(wú)法充分利用單個(gè)群體中兩兩標(biāo)記間重組率信息,元分析無(wú)法估計(jì)一致性qtl的效應(yīng),也無(wú)法反映出群體大小、性狀遺傳力、單個(gè)群體中未達(dá)到臨界值的微效qtl等遺傳信息。
4、因此,本領(lǐng)域亟需直接利用各群體原始基因型和表型信息開(kāi)展聯(lián)合基因定位的方法,充分挖掘各群體遺傳信息,提高qtl作圖結(jié)果準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供針對(duì)雙親衍生后代群體的多群體聯(lián)合完備區(qū)間作圖方法,實(shí)現(xiàn)多個(gè)作圖群體有背景控制的聯(lián)合qtl(quantitative?trait?locus)定位,提高遺傳分析的準(zhǔn)確性。
2、本發(fā)明請(qǐng)求保護(hù)的技術(shù)方案如下:
3、針對(duì)多個(gè)雙親衍生后代群體的聯(lián)合完備區(qū)間作圖方法,包括如下步驟:
4、s1:獲得多個(gè)雙親衍生后代群體的基因型數(shù)據(jù);所述多個(gè)雙親衍生后代群體的基因型數(shù)據(jù)具有一定數(shù)量的共同分子標(biāo)記;
5、s2:利用所述多個(gè)雙親衍生后代群體的基因型數(shù)據(jù)構(gòu)建整合連鎖圖譜,搜集并整理各群體的表型數(shù)據(jù);
6、s3:對(duì)各群體分別構(gòu)建標(biāo)記基因型的正交指示變量,建立表型與標(biāo)記基因型間的線性關(guān)系模型;
7、s4:基于步驟s3建立的單個(gè)群體的表型與標(biāo)記基因型間的線性關(guān)系模型,在各群體中分別利用逐步回歸選擇顯著標(biāo)記,并用顯著標(biāo)記對(duì)表型值進(jìn)行校正,基于完備區(qū)間作圖法進(jìn)行多群體聯(lián)合的有背景控制的區(qū)間作圖;
8、s5:建立假設(shè)檢驗(yàn),通過(guò)區(qū)間掃描計(jì)算聯(lián)合檢驗(yàn)統(tǒng)計(jì)量,定位qtl,并估計(jì)其位置和遺傳效應(yīng),從而實(shí)現(xiàn)多群體聯(lián)合qtl定位的完備區(qū)間作圖。
9、所述多個(gè)雙親衍生后代群體可以是兩個(gè)或兩個(gè)以上的雙親衍生后代群體。
10、所述雙親衍生后代群體的群體類型可以一致或不一致,親本可以相同或不同。
11、所述雙親衍生后代群體包括雜交f2或f2:3衍生群體、回交(back?crossing,bc)群體、重組自交系(recombined?inbred?lines,ril)群體以及雙單倍體(doubledhaploid,dh)群體等。
12、所述一定數(shù)量的共同分子標(biāo)記可以是10個(gè)或10個(gè)以上的共同分子標(biāo)記,共同分子標(biāo)記數(shù)量的增加有利于整合連鎖圖譜的構(gòu)建。
13、步驟s1中,可利用同一測(cè)序平臺(tái)對(duì)各群體分別測(cè)序,從而獲得群體間的共同分子標(biāo)記。
14、步驟s2中,可利用包含整合圖譜構(gòu)建功能的遺傳分析軟件獲得所述整合連鎖圖譜。所述遺傳分析軟件可以是qtl?icimapping,joinmap,biomercator等。
15、整合連鎖圖譜是通過(guò)整合來(lái)自不同遺傳群體的遺傳信息構(gòu)建得到的遺傳連鎖圖譜。
16、步驟s3中,構(gòu)建標(biāo)記基因型的正交指示變量是指定義加性效應(yīng)指示變量和顯性效應(yīng)指示變量。
17、正交指示變量(orthogonal?indicator?variables)是一種在統(tǒng)計(jì)分析中用來(lái)處理分類變量(也稱為名義變量或離散變量)的方法。這種方法的目的是將分類變量轉(zhuǎn)換為一種形式,使得這些變量在模型中是相互獨(dú)立或正交的,從而避免多重共線性問(wèn)題。
18、上述方法的步驟s3中,若第h個(gè)群體中每個(gè)座位包含2種基因型,則所述線性關(guān)系模型為:
19、
20、若第h個(gè)群體中每個(gè)座位包含3種基因型,則所述線性關(guān)系模型為:
21、
22、其中:i表示單個(gè)群體中第i個(gè)個(gè)體;h表示多個(gè)雙親衍生后代群體中第h個(gè)群體;j表示整合連鎖圖譜中第j個(gè)標(biāo)記;m為標(biāo)記區(qū)間的個(gè)數(shù);
23、yih是第h個(gè)群體中第i個(gè)個(gè)體的表型值;
24、b0h是第h個(gè)群體的表型與標(biāo)記基因型間的線性關(guān)系模型的均值;
25、xijh是第h個(gè)群體中第i個(gè)個(gè)體第j個(gè)標(biāo)記的加性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)分別取值1,0和-1;
26、xi(j+1)h是第h個(gè)群體中第i個(gè)個(gè)體第j+1個(gè)標(biāo)記的加性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)分別取值1,0和-1;
27、zijh是第h個(gè)群體中第i個(gè)個(gè)體第j個(gè)標(biāo)記的顯性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)分別取值0,1和0;
28、zi(j+1)h是第h個(gè)群體中第i個(gè)個(gè)體第j+1個(gè)標(biāo)記的顯性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)分別取值0,1和0;
29、bjh、cjh、bjh,(j+1)h、cjh,(j+1)h是第h個(gè)群體表型對(duì)第j個(gè)標(biāo)記的偏回歸系數(shù),分別對(duì)應(yīng)于加性效應(yīng)、顯性效應(yīng)、加加互作效應(yīng)和顯顯互作效應(yīng);
30、εih是第h個(gè)群體的隨機(jī)誤差效應(yīng),服從正態(tài)分布。
31、步驟s4中,可使用計(jì)算機(jī)編程或借助r語(yǔ)言、sas軟件等,基于步驟s3建立的單個(gè)群體的表型與標(biāo)記基因型間的線性關(guān)系模型,以加性效應(yīng)指示變量x和顯性效應(yīng)指示變量z為自變量、表型值y為因變量進(jìn)行逐步回歸,從而選擇顯著標(biāo)記。
32、逐步回歸是一種線性回歸模型自變量選擇方法,其基本思想是將變量一個(gè)一個(gè)引入,引入的條件是其偏回歸平方和經(jīng)驗(yàn)是顯著的。同時(shí),每引入一個(gè)新變量后,對(duì)已入選回歸模型的老變量逐個(gè)進(jìn)行檢驗(yàn),將經(jīng)檢驗(yàn)認(rèn)為不顯著的變量刪除,以保證所得自變量子集中每一個(gè)自變量都是顯著的。此過(guò)程經(jīng)過(guò)若干步直到不能再引入新變量為止。這時(shí)回歸模型中所有自變量對(duì)因變量都是顯著的。
33、上述方法的步驟s4中,若第h個(gè)群體中每個(gè)座位包含2種基因型,則對(duì)表型值進(jìn)行校正的公式如下:
34、
35、若第h個(gè)群體中每個(gè)座位包含3種基因型,則對(duì)表型值進(jìn)行校正的公式如下:
36、
37、其中:i表示單個(gè)群體中第i個(gè)個(gè)體;h表示多個(gè)雙親衍生后代群體中第h個(gè)群體;j表示共同分子標(biāo)記中第j個(gè)標(biāo)記;k表示當(dāng)前掃描區(qū)間左端標(biāo)記的編號(hào);
38、δyih是第h個(gè)群體中第i個(gè)個(gè)體的表型校正值;yih是第h個(gè)群體中第i個(gè)個(gè)體的表型值;
39、是bjh的估計(jì)值;是cjh的估計(jì)值;是bjh,(j+1)h的估計(jì)值;是cjh,(j+1)h的估計(jì)值;bjh、cjh、bjh,(j+1)h、cjh,(j+1)h是第h個(gè)群體表型對(duì)第j個(gè)標(biāo)記的偏回歸系數(shù),分別對(duì)應(yīng)于加性效應(yīng)、顯性效應(yīng)、加加互作效應(yīng)和顯顯互作效應(yīng);
40、xijh是第h個(gè)群體中第i個(gè)個(gè)體第j個(gè)標(biāo)記的加性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)取值分別為1,0和-1;
41、xi(j+1)h是第h個(gè)群體中第i個(gè)個(gè)體第j+1個(gè)標(biāo)記的加性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)取值分別為1,0和-1;
42、zijh是第h個(gè)群體中第i個(gè)個(gè)體第j個(gè)標(biāo)記的顯性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)取值分別為0,1和0;
43、zi(j+1)h是第h個(gè)群體中第i個(gè)個(gè)體第j+1個(gè)標(biāo)記的顯性效應(yīng)指示變量,當(dāng)基因型為親本1基因型、雜合基因型和親本2基因型時(shí)取值分別為0,1和0。
44、上述方法的步驟s5中,所述假設(shè)檢驗(yàn)為:
45、若第h個(gè)群體中每個(gè)座位包含2種基因型,則h0:μ1h=μ2h(h=1,…,p),其中μ1h和μ2h是第h個(gè)群體中qtl基因型qq和qq的基因型均值;
46、若第h個(gè)群體中每個(gè)座位包含3種基因型,則h0:μ1h=μ2h=μ3h(h=1,…,p),其中μ1h、μ2h和μ3h是第h個(gè)群體中qtl基因型qq、qq和qq的基因型均值;
47、h1:至少一個(gè)群體中qtl基因型值不完全相等;
48、其中h0為零假設(shè),h1為備擇假設(shè),p表示群體個(gè)數(shù);
49、基因型均值是指對(duì)應(yīng)該標(biāo)記基因型的所有個(gè)體基因型值的平均數(shù)。
50、qtl基因型值是指對(duì)應(yīng)該基因型的所有個(gè)體基因型值的平均數(shù)。
51、所述聯(lián)合檢驗(yàn)統(tǒng)計(jì)量以聯(lián)合lod值表示;所述聯(lián)合lod值為所有群體中個(gè)體lod值之和,用于判斷qtl的存在;而單個(gè)群體的lod值(lodh)為該群體中個(gè)體lod值之和,用于判斷qtl在單個(gè)群體中的顯著性,反映qtl在群體間表現(xiàn)的差異;遺傳效應(yīng)的估計(jì)在單個(gè)群體中分別進(jìn)行。
52、lod值是指對(duì)數(shù)幾率比(logarithm?ofodds),是遺傳學(xué)中用來(lái)評(píng)估基因之間連鎖關(guān)系的一種統(tǒng)計(jì)指標(biāo)。
53、lod值和遺傳效應(yīng)的計(jì)算公式如下:
54、若第h個(gè)群體中每個(gè)座位包含2種基因型,則h1下對(duì)數(shù)似然函數(shù)為:
55、
56、若第h個(gè)群體中每個(gè)座位包含3種基因型,則h1下對(duì)數(shù)似然函數(shù)為:
57、
58、h0下對(duì)數(shù)似然函數(shù)為:
59、
60、其中:i表示單個(gè)群體中第i個(gè)個(gè)體;h表示多個(gè)雙親衍生后代群體中第h個(gè)群體;p表示群體個(gè)數(shù);l表示第l個(gè)標(biāo)記基因型;nh表示第h個(gè)群體的群體大?。?/p>
61、l1為備擇假設(shè)h1下的多群體對(duì)數(shù)似然函數(shù);l1h為備擇假設(shè)h1下的第h個(gè)群體對(duì)數(shù)似然函數(shù);l0為零假設(shè)h0下的多群體對(duì)數(shù)似然函數(shù),l0h為零假設(shè)h0下的第h個(gè)群體對(duì)數(shù)似然函數(shù);
62、若第h個(gè)群體中每個(gè)座位包含2種基因型,shl(l=1,2,3,4)是第h個(gè)群體中第l個(gè)標(biāo)記類個(gè)體集合,πhl1和πhl2分別是第h個(gè)群體中第l個(gè)標(biāo)記類中qtl基因型qq和qq的個(gè)體比例;
63、若第h個(gè)群體中每個(gè)座位包含3種基因型,shl(l=1,…,9)是第h個(gè)群體中第l個(gè)標(biāo)記類個(gè)體集合,πhl1、πhl2和πhl3分別是第h個(gè)群體中第l個(gè)標(biāo)記類中qtl基因型qq、qq和qq的個(gè)體比例;
64、是第h個(gè)群體中第k個(gè)正態(tài)分布的密度函數(shù),k=1,2,3;μ0h是第h個(gè)群體中所有個(gè)體的基因型均值;是h1下第h個(gè)群體中正態(tài)分布的方差;是h0下第h個(gè)群體中正態(tài)分布的方差;δyih是第h個(gè)群體中第i個(gè)個(gè)體的表型校正值;
65、單個(gè)群體的lod值為:lodh=l1h-l0h;
66、聯(lián)合lod值為:
67、若第h個(gè)群體中每個(gè)座位包含2種基因型,則加性效應(yīng)(h=1,…,p),其中μ1h和μ2h是第h個(gè)群體中qtl基因型qq和qq的基因型均值;
68、若第h個(gè)群體中每個(gè)座位包含3種基因型,則加性效應(yīng)顯性效應(yīng)(h=1,…,p),其中μ1h、μ2h和μ3h是第h個(gè)群體中qtl基因型qq、qq和qq的基因型均值。
69、有益效果:
70、(1)本發(fā)明提供的方法基于有背景控制的完備區(qū)間作圖(inclusive?compositeinterval?mapping,icim)方法實(shí)現(xiàn),能有效控制背景遺傳效應(yīng)對(duì)當(dāng)前作圖區(qū)間的影響,提高qtl定位的準(zhǔn)確性。
71、(2)本發(fā)明提供的方法綜合利用多個(gè)作圖群體的基因型和表型數(shù)據(jù),定位結(jié)果中每個(gè)qtl的位置和效應(yīng)可以完全確定,不會(huì)存在群體間qtl位置和效應(yīng)差異,從而更好地判斷出各群體中的共定位qtl。
72、(3)本發(fā)明提供的方法避免了現(xiàn)有方法處理多群體數(shù)據(jù)時(shí)需要先進(jìn)行單群體作圖、再對(duì)各群體定位結(jié)果進(jìn)行比較、整合分析的繁冗步驟,提高了分析效率。
73、(4)本發(fā)明提供的方法充分利用了多群體數(shù)據(jù),有利于微效qtl的挖掘,分析獲得的結(jié)果更豐富。
74、綜上所述,本發(fā)明提供的方法能夠針對(duì)雙親衍生后代群體開(kāi)展有背景控制的聯(lián)合完備區(qū)間作圖,解決了目前缺少針對(duì)多個(gè)作圖群體開(kāi)展聯(lián)合qtl定位方法的問(wèn)題,提高了基因定位結(jié)果的準(zhǔn)確性。