本發(fā)明屬于植物育種領(lǐng)域,具體涉及一種鑒別玉米單倍體的方法。
背景技術(shù):
:玉米是我國種植面積最大的作物,同時(shí)也是重要的糧食作物,在國民生產(chǎn)和糧食安全領(lǐng)域具有不可替代的作用。2006年玉米種植面積2666萬公頃,2009年超過水稻成為我國種植面積最大的作物。來自國家統(tǒng)計(jì)局網(wǎng)站數(shù)據(jù)顯示,2016年全國玉米種植面積3676萬公頃,總產(chǎn)2.19億噸,玉米單產(chǎn)水平達(dá)到5972.7公斤/公頃。玉米單產(chǎn)水平的不斷提升離不開種質(zhì)遺傳改良和優(yōu)良雜交種的選育。生產(chǎn)上廣泛應(yīng)用的單交種使玉米成為雜種優(yōu)勢利用的典范。而優(yōu)良自交系的選育是成功組配高產(chǎn)優(yōu)質(zhì)多抗廣適雜交種的前提。在玉米自交系選育方面,育種家一直以來都是采用系譜法和輪回選擇等傳統(tǒng)的育種手段,經(jīng)歷6~7個(gè)世代才能獲得穩(wěn)定純合的玉米自交系。玉米單倍體育種技術(shù)作為一項(xiàng)快速獲得純系的技術(shù)手段,使育種效率有了極大提高。育種家只需要經(jīng)過誘導(dǎo)和加倍兩個(gè)世代就能獲得純合的玉米自交系。該技術(shù)已經(jīng)被國內(nèi)外許多種業(yè)公司規(guī)模化應(yīng)用,成為可與轉(zhuǎn)基因技術(shù)、分子標(biāo)記輔助育種技術(shù)相媲美的現(xiàn)代玉米育種三大核心技術(shù)之一。玉米單倍體技術(shù)是一套易于實(shí)現(xiàn)工程化的育種技術(shù),該技術(shù)包含基礎(chǔ)材料的準(zhǔn)確、單倍體的生產(chǎn)、單倍體加倍以及雙單倍體(doubledhaploid,dh)系的管理與應(yīng)用等四個(gè)環(huán)節(jié)。其中單倍體的生產(chǎn)包括單倍體誘導(dǎo)和鑒別兩個(gè)關(guān)鍵步驟。利用誘導(dǎo)系作為父本與基礎(chǔ)材料雜交,后代會(huì)產(chǎn)生一定頻率的單倍體。單倍體產(chǎn)生的多少受誘導(dǎo)率的影響。隨著新型誘導(dǎo)系的選育,誘導(dǎo)率不斷提高使誘導(dǎo)不再成為單倍體生產(chǎn)的限制因素。而如何從大量誘導(dǎo)的籽粒中快速準(zhǔn)確鑒別單倍體則變得尤為重要。r1-nj顏色標(biāo)記系統(tǒng)是目前應(yīng)用最廣泛的成熟籽粒階段鑒別玉米單倍體的方法。該方法由nandaandchase于1966年提出,根據(jù)單倍體的形成特征,由于單倍體胚中只含有母本的染色體,使得其在胚部顏色的表達(dá)跟二倍體存在差異,這樣在種子階段就可以僅通過顏色的識(shí)別來達(dá)到單倍體鑒別的目的。然而由于顏色基因的表達(dá)受c1-i等顯性抑制基因的影響,r1-nj在籽粒中的表達(dá)清晰度上存在很大差異,一些歐洲硬粒種質(zhì)和熱帶種質(zhì)的材料難以通過該法進(jìn)行鑒別。在dh系生產(chǎn)過程中,需要產(chǎn)生大量的單倍體才能滿足要求。傳統(tǒng)的人工挑選受到巨大的挑戰(zhàn),自動(dòng)化鑒別單倍體的方法在不斷探索。根據(jù)單倍體與二倍體籽粒顏色差異,相繼有基于機(jī)器視覺和圖片信息提取的自動(dòng)化方法應(yīng)用于玉米單倍體鑒別中。然而,由于需要籽粒有清晰的顏色表達(dá),這些基于視覺識(shí)別顏色來分選單倍體的系統(tǒng)都在適用性方面有其局限性。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是提供一種鑒別玉米單倍體的方法。本發(fā)明提供的鑒別玉米單倍體的方法,包括如下步驟:(1)以訓(xùn)練集各個(gè)玉米籽粒為真實(shí)單倍體還是真實(shí)二倍體為因變量,以訓(xùn)練集各個(gè)玉米籽粒的近紅外透射光譜吸收值作為自變量,應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建單倍體鑒別模型;所述訓(xùn)練集由若干玉米籽粒組成,其中一部分為真實(shí)單倍體,另一部分為真實(shí)二倍體;(2)取待測玉米籽粒,采集近紅外透射光譜吸收值,然后輸入步驟(1)建立的單倍體鑒別模型,由模型輸出該待測玉米籽粒為預(yù)測單倍體或者預(yù)測二倍體的結(jié)果。所述訓(xùn)練集中的玉米籽粒和所述待測玉米籽粒屬于同一雜交群體。所述訓(xùn)練集中的玉米籽粒是從所述待測玉米籽粒所在的雜交群體中抽樣獲得的。所述雜交群體具體可為雜交群體a,即采用同一誘導(dǎo)系與m1種dh系進(jìn)行雜交得到的雜交子代(籽粒)。所述雜交中,所述誘導(dǎo)系具體作為父本。所述誘導(dǎo)系具體可為誘導(dǎo)系choi3。m1為1以上的自然數(shù),具體可為大于等于70小于等于107的自然數(shù)。所述dh系的制備方法具體如下:①玉米自交系甲(母本)和玉米自交系乙(父本)雜交,得到雜交子代(籽粒);②步驟①得到的雜交子代(植株)作為母本,和作為父本的誘導(dǎo)系cau5雜交,得到雜交子代(籽粒);③從步驟②得到的雜交子代(籽粒)中選擇擬單倍體,進(jìn)行單倍體加倍,得到dh系。所述dh系的制備方法具體如下:①玉米自交系齊319(母本)和玉米自交系昌7-2(父本)雜交,得到雜交子代(籽粒);②步驟①得到的雜交子代(植株)作為母本,和作為父本的誘導(dǎo)系cau5雜交,得到雜交子代(籽粒);③從步驟②得到的雜交子代(籽粒)中選擇擬單倍體,進(jìn)行單倍體加倍,得到dh系。所述雜交群體具體可為雜交群體b,即采用同一誘導(dǎo)系與m2種雜交種玉米進(jìn)行雜交得到的雜交子代(籽粒)。所述雜交中,所述誘導(dǎo)系具體作為父本。所述誘導(dǎo)系具體可為誘導(dǎo)系choi3。m2為1以上的自然數(shù),具體可為大于等于1小于等于5的自然數(shù)。所述m2種雜交種玉米具體可為玉米京科968、玉米屯玉88、玉米屯玉188、玉米屯玉168和玉米屯玉4911。所述雜交群體具體可為雜交群體c,即由雜交群體a和雜交群體b組成的雜交群體。所述訓(xùn)練集具體可由將候選訓(xùn)練集中的所有玉米籽粒剔除異常樣本后的籽粒組成。所述候選訓(xùn)練集中的玉米籽粒是從所述待測玉米籽粒所在的雜交群體中抽樣獲得的。剔除異常樣本的標(biāo)準(zhǔn)如下:計(jì)算該樣本點(diǎn)到所有樣本點(diǎn)中心的曼哈頓距離di,i=1,2,3,……,n;和s為d1,d2,d3,……,dn的均值和標(biāo)準(zhǔn)差;如果則該樣本為需要剔除的異常樣本。所述訓(xùn)練集具體可由187-2393個(gè)真實(shí)單倍體籽粒和185-708個(gè)真實(shí)二倍體籽粒組成。所述近紅外透射光譜的光譜范圍為900-1600nm。所述近紅外透射光譜吸收值為未經(jīng)處理的近紅外透射光譜吸收值原始值。所述玉米籽粒為成熟籽粒。所述真實(shí)單倍體是通過田間試驗(yàn)鑒定獲得的。所述真實(shí)二倍體是通過田間試驗(yàn)鑒定獲得的。本發(fā)明還保護(hù)近紅外光譜儀和記載有機(jī)器算法的載體在鑒別玉米單倍體中的應(yīng)用。本發(fā)明還保護(hù)近紅外光譜儀和記載有以上任一所述方法的載體在鑒別玉米單倍體中的應(yīng)用。本發(fā)明還保護(hù)近紅外光譜儀、記載有機(jī)器算法的載體和記載有以上任一所述方法的載體在鑒別玉米單倍體中的應(yīng)用。本發(fā)明還保護(hù)一種用于鑒別玉米單倍體的試劑盒,包括近紅外光譜儀和記載有機(jī)器算法的載體。本發(fā)明還保護(hù)一種用于鑒別玉米單倍體的試劑盒,包括近紅外光譜儀和記載有以上任一所述方法的載體。本發(fā)明還保護(hù)一種用于鑒別玉米單倍體的試劑盒,包括近紅外光譜儀、記載有機(jī)器算法的載體和記載有以上任一所述方法的載體。以上任一所述近紅外光譜儀具體可為jdsu公司生產(chǎn)的微型光譜儀micronir1700,光譜范圍950-1600nm,單次測量時(shí)間為1s。以上任一所述機(jī)器學(xué)習(xí)算法為神經(jīng)網(wǎng)絡(luò)算法、隨機(jī)森林算法、偏最小二乘法算法或支持向量機(jī)算法。神經(jīng)網(wǎng)絡(luò)算法的參數(shù)為:神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)size=5,模型權(quán)重值的衰減精度decay=0.03727594。隨機(jī)森林算法的參數(shù)為:隨機(jī)抽樣變量個(gè)數(shù)mtry=300。偏最小二乘法算法的參數(shù)為:主成分個(gè)數(shù)ncomp=24。支持向量機(jī)算法的參數(shù)為:支持向量參數(shù)sigma=0.04966604,懲罰系數(shù)c=1024。本發(fā)明提供了基于近紅外透射光譜并利用機(jī)器學(xué)習(xí)構(gòu)建模型鑒別玉米單倍體的方法,簡化了鑒別步驟,可以快速高效的鑒別出玉米單倍體,利用本方法單倍體鑒別準(zhǔn)確率可達(dá)92%-96%,并且單倍體漏選率在0.13%-7.65%。本發(fā)明提供的方法可以用于自動(dòng)化鑒別,對(duì)于推動(dòng)玉米單倍體育種技術(shù)工程化具有重要作用。附圖說明圖1為單倍體的平均光譜和二倍體的平均光譜。具體實(shí)施方式以下的實(shí)施例便于更好地理解本發(fā)明,但并不限定本發(fā)明。下述實(shí)施例中的實(shí)驗(yàn)方法,如無特殊說明,均為常規(guī)方法。下述實(shí)施例中所用的試驗(yàn)材料,如無特殊說明,均為自常規(guī)生化試劑商店購買得到的。以下實(shí)施例中的定量試驗(yàn),均設(shè)置三次重復(fù)實(shí)驗(yàn),結(jié)果取平均值。玉米京科968、玉米屯玉88、玉米屯玉188、玉米屯玉168和玉米屯玉4911均為雜交種玉米。雜交子代(籽粒)長成的植株即為雜交子代(植株)。玉米自交系齊319:在文獻(xiàn)“葉金才.育成我國首例對(duì)玉米南方銹病免疫系齊319[j].中國農(nóng)業(yè)科學(xué),2000,(04):110.”中公開過。玉米自交系昌7-2:在文獻(xiàn)“張文英,華福平,申為民,王金平,張桂堂,王東彬.優(yōu)良玉米自交系昌7-2的選育及其利用[j].河南職技師院學(xué)報(bào),2001,(04):17-19.”中公開過。誘導(dǎo)系cau5(農(nóng)大高誘5號(hào)):在文獻(xiàn)“徐小煒,2013,玉米母本單倍體誘導(dǎo)性狀的遺傳與生物學(xué)機(jī)理研究,博士論文”中公開過。誘導(dǎo)系choi3(農(nóng)大高油高誘誘導(dǎo)系h3):在文獻(xiàn)“dongx,xux,lil,etal.marker-assistedselectionandevaluationofhighoilinvivohaploidinducersinmaize[j].molecularbreeding,2014,34(3):1147-58.”中公開過。玉米京科968:北京屯玉種業(yè)有限公司產(chǎn)品。玉米屯玉88:北京屯玉種業(yè)有限公司產(chǎn)品。玉米屯玉188:北京屯玉種業(yè)有限公司產(chǎn)品。玉米屯玉168:北京屯玉種業(yè)有限公司產(chǎn)品。玉米屯玉4911:北京屯玉種業(yè)有限公司產(chǎn)品。以誘導(dǎo)系choi3為父本的授粉方法(種植地點(diǎn):海南三亞南濱農(nóng)場):2015年冬,分別種植母本與父本;母本花絲吐出前,用羊皮紙袋套住雌穗進(jìn)行隔離;授粉前一天下午用剪刀將母本花絲剪平,授粉當(dāng)天將父本的花粉大量授予母本,并用羊皮紙袋繼續(xù)套住雌穗,以防止外來花粉污染雜交后的雌穗。鑒定擬單倍體和擬二倍體的方法:玉米果穗完成成熟后,將雜交所得的果穗進(jìn)行收獲,放置于干燥環(huán)境下晾干;然后根據(jù)r1-nj顏色進(jìn)行擬單倍體籽粒和擬二倍體(“擬二倍體”又稱“擬雜合二倍體”)籽粒的挑選,籽粒頂部紫色且胚盾片無色的為擬單倍體籽粒,籽粒頂部紫色且胚盾片紫色的為擬二倍體籽粒。實(shí)施例1、雜交群體的制備一、dh系的制備1、玉米自交系齊319(母本)和玉米自交系昌7-2(父本)雜交,得到雜交子代(籽粒)。2、步驟1得到的雜交子代(植株)作為母本,和作為父本的誘導(dǎo)系cau5雜交,得到雜交子代(籽粒)。3、從步驟2得到的雜交子代(籽粒)中選擇擬單倍體,進(jìn)行單倍體加倍,得到107個(gè)dh系。依次命名為dh系1至dh系107。二、雜交群體a的制備分別以步驟一得到的各個(gè)dh系為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒)。從以每個(gè)dh系為母本得到的雜交子代(籽粒)中隨機(jī)取30-40個(gè)擬單倍體和n1個(gè)(n1=10或0)擬二倍體。具體來說:從以dh系1為母本得到的雜交子代(籽粒)中隨機(jī)取30-40個(gè)擬單倍體和n1個(gè)擬二倍體,組成雜交群體a1;……(依次類推);從以dh系107為母本得到的雜交子代(籽粒)中隨機(jī)取30-40個(gè)擬單倍體和10個(gè)擬二倍體,組成雜交群體a110;dh系1至dh系70時(shí)n1=10,dh系71至dh系107時(shí)n1=0。將雜交群體a1至雜交群體a110混合,得到雜交群體a(由3997粒籽粒組成,其中擬單倍體3297粒,擬二倍體700粒)。三、雜交群體b的制備以玉米京科968為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒);從雜交子代(籽粒)中隨機(jī)取50個(gè)擬單倍體和50個(gè)擬二倍體,組成雜交群體b1。以玉米屯玉88為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒);從雜交子代(籽粒)中隨機(jī)取50個(gè)擬單倍體和50個(gè)擬二倍體,組成雜交群體b2。以玉米屯玉188為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒);從雜交子代(籽粒)中隨機(jī)取50個(gè)擬單倍體和50個(gè)擬二倍體,組成雜交群體b3。以玉米屯玉168為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒);從雜交子代(籽粒)中隨機(jī)取50個(gè)擬單倍體和50個(gè)擬二倍體,組成雜交群體b4。以玉米屯玉4911為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒);從雜交子代(籽粒)中隨機(jī)取50個(gè)擬單倍體和50個(gè)擬二倍體,組成雜交群體b5。將雜交群體b1、雜交群體b1、雜交群體b3、雜交群體b4和雜交群體b5混合,得到雜交群體b(由500粒籽粒組成,其中擬單倍體250粒,擬二倍體250粒)。四、雜交群體c的制備1、分別以步驟一得到的dh系1至dh系70為母本,以誘導(dǎo)系choi3為父本,進(jìn)行雜交,獲得雜交子代(籽粒)。從以每個(gè)dh系為母本得到的雜交子代(籽粒)中隨機(jī)取8-10個(gè)擬單倍體和10個(gè)擬二倍體。共獲得698個(gè)擬單倍體和700個(gè)擬二倍體。2、將步驟1得到的所有擬單倍體和擬二倍體與步驟二得到的雜交群體b混合,得到雜交群體c(由1898粒籽粒組成,其中擬單倍體948粒,擬二倍體950粒)。實(shí)施例2、通過采集紅外光譜建立模型鑒別單倍體一、籽粒近紅外透射光譜獲取將實(shí)施例1制備的雜交群體a以及實(shí)施例1制備的雜交群體b以及實(shí)施例1制備的雜交群體c中的每個(gè)籽粒分別進(jìn)行近紅外透射光譜掃描(籽粒胚面朝向光源,光源距離光譜儀3cm)。光譜儀為jdsu公司生產(chǎn)的微型光譜儀micronir1700,光譜范圍950-1600nm,單次測量時(shí)間為1s。微型光譜儀micronir1700在光譜范圍950-1600nm之間采集125個(gè)特定波長下的近紅外透射光譜吸收值。二、擬單倍體和擬二倍體真實(shí)性鑒定完成步驟一后,將實(shí)施例1制備的雜交群體a以及實(shí)施例1制備的雜交群體b以及實(shí)施例1制備的雜交群體c中的每個(gè)籽粒播種到田間。擬單倍體播種采用3m行長,每行30粒,株距10cm。擬二倍體播種采用5m行長,每行21粒,株距25cm。根據(jù)籽粒萌發(fā)得到的植株拔節(jié)期的表型進(jìn)行鑒定:具有“植株矮小,葉片上沖,株型緊湊”表型的為真實(shí)單倍體;具有“植株粗壯,葉片披散”表型的為真實(shí)二倍體。雜交群體a中,真實(shí)單倍體數(shù)量為3203粒,真實(shí)二倍體為794粒。雜交群體b中,真實(shí)單倍體數(shù)量為249粒,真實(shí)二倍體為251粒。雜交群體c中,真實(shí)單倍體數(shù)量為940粒,真實(shí)二倍體為958粒。三、制備雜交群體a’、雜交群體b’和雜交群體c’基于步驟二得到的真實(shí)單倍體和真實(shí)二倍體的結(jié)果,對(duì)步驟一獲得的近紅外透射光譜吸收值進(jìn)行檢查,剔除異常樣本。剔除異常樣本的標(biāo)準(zhǔn)如下:計(jì)算該樣本點(diǎn)到所有樣本點(diǎn)中心的曼哈頓距離di,i=1,2,3,……,n;和s為d1,d2,d3,……,dn的均值和標(biāo)準(zhǔn)差;如果則該樣本為需要剔除的異常樣本。雜交群體a剔除異常樣本后,為雜交群體a’。雜交群體a’中,真實(shí)單倍體數(shù)量為3190粒,真實(shí)二倍體為783粒。雜交群體b剔除異常樣本后,為雜交群體b’。雜交群體b’中,真實(shí)單倍體數(shù)量為249粒,真實(shí)二倍體為246粒。雜交群體c剔除異常樣本后,為雜交群體c’。雜交群體c’中,真實(shí)單倍體數(shù)量為916粒,真實(shí)二倍體為943粒。雜交群體c’中,所有真實(shí)單倍體的平均光譜與所有真實(shí)二倍體的平均光譜見圖1。四、應(yīng)用機(jī)器學(xué)習(xí)算法進(jìn)行單倍體鑒別待測群體為:雜交群體a’、雜交群體b’或雜交群體c’。從每個(gè)待測群體中隨機(jī)抽取四分之三真實(shí)單倍體和四分之三真實(shí)二倍體組成訓(xùn)練集,剩余的四分之一真實(shí)單倍體和剩余的四分之一真實(shí)二倍體組成測試集。待測群體a’相應(yīng)的訓(xùn)練集由2981個(gè)籽粒組成(真實(shí)單倍體2393,真實(shí)二倍體588),相應(yīng)的測試集由992個(gè)籽粒組成(真實(shí)單倍體797,真實(shí)二倍體195)。待測群體b’相應(yīng)的訓(xùn)練集由372個(gè)籽粒組成(真實(shí)單倍體187,真實(shí)二倍體185),相應(yīng)的測試集由123個(gè)籽粒組成(真實(shí)單倍體62,真實(shí)二倍體61)。待測群體c’相應(yīng)的訓(xùn)練集由1395個(gè)籽粒組成(真實(shí)單倍體687,真實(shí)二倍體708),相應(yīng)的測試集由464個(gè)籽粒組成(真實(shí)單倍體229,真實(shí)二倍體235)。1、用訓(xùn)練集的相關(guān)數(shù)據(jù)建立模型。以訓(xùn)練集各個(gè)籽粒的真實(shí)狀態(tài)(即步驟二中鑒定為真實(shí)單倍體還是真實(shí)二倍體)為因變量,以訓(xùn)練集各個(gè)籽粒125個(gè)波長下的近紅外透射光譜吸收值(未經(jīng)處理的近紅外透射光譜吸收值原始值)作為自變量,應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建單倍體鑒別模型。采用的機(jī)器學(xué)習(xí)算法分別為:樸素貝葉斯算法(參數(shù)為:預(yù)測變量符合獨(dú)立分布特征)、k近鄰算法(參數(shù)為:k=5)、梯度推進(jìn)機(jī)算法(參數(shù)為:決策樹深度為9,決策樹數(shù)目為300)、支持向量機(jī)算法(參數(shù)為:支持向量參數(shù)sigma=0.04966604,懲罰系數(shù)c=1024)、隨機(jī)森林算法(參數(shù)為:隨機(jī)抽樣變量個(gè)數(shù)mtry=300)、神經(jīng)網(wǎng)絡(luò)算法(參數(shù)為:神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)size=5,模型權(quán)重值的衰減精度decay=0.03727594)或偏最小二乘法算法(參數(shù)為:主成分個(gè)數(shù)ncomp=24)。上述機(jī)器學(xué)習(xí)算法中,除偏最小二乘法算法是線性判別方法外,其他算法均為非線性判別方法。2、用測試集的相關(guān)數(shù)據(jù)評(píng)價(jià)模型。利用步驟1建立的單倍體鑒別模型,輸入測試集各個(gè)籽粒125個(gè)波長下的近紅外透射光譜吸收值,得到測試集各個(gè)籽粒的預(yù)測值(預(yù)測單倍體或預(yù)測二倍體)。將各個(gè)籽粒的預(yù)測值與步驟二獲得的各個(gè)籽粒的真實(shí)值(真實(shí)單倍體或真實(shí)二倍體)進(jìn)行比對(duì),獲得模型的評(píng)估參數(shù)。模型的評(píng)估參數(shù)包括:模型準(zhǔn)確率、單倍體鑒別準(zhǔn)確率和單倍體漏選率。評(píng)估參數(shù)根據(jù)單倍體鑒別混淆矩陣中真實(shí)值與預(yù)測值來計(jì)算。設(shè)定單倍體為正樣本,二倍體為負(fù)樣本。將單倍體和二倍體預(yù)測正確分別稱之為truepositive(tp)和truenegative(tn),相應(yīng)的將單倍體和二倍體預(yù)測錯(cuò)誤分別稱之為falsenegative(fn)和falsepositive(fp)。模型準(zhǔn)確率反映的是模型對(duì)單倍體和二倍體都預(yù)測準(zhǔn)確的比例。單倍體鑒別準(zhǔn)確率則是預(yù)測的單倍體中有多少是真單倍體。單倍體漏選率是指漏選單倍體所占比例。模型準(zhǔn)確率=(tp+tn)/(tp+fp+fn+tn)。單倍體鑒別準(zhǔn)確率=tp/(tp+fp)。單倍體漏選率=fn/(tp+fn)。待測群體分別為雜交群體a’、雜交群體b’和雜交群體c’時(shí),利用偏最小二乘法算法建立的模型的評(píng)估參數(shù)結(jié)果見表1。對(duì)于雜交群體b’(以雜交種為母本得到的雜交群體)來說,模型準(zhǔn)確率僅為87.98%。對(duì)于雜交群體a’(以dh系為母本得到的雜交群體)來說,模型準(zhǔn)確率高達(dá)96.77%。對(duì)于雜交群體c’來說,模型準(zhǔn)確率介于前述兩者之間。對(duì)于雜交群體b’(以雜交種為母本得到的雜交群體)來說,單倍體鑒別準(zhǔn)確率為92.00%。對(duì)于雜交群體a’(以dh系為母本得到的雜交群體)來說,單倍體鑒別準(zhǔn)確率為96.72%。對(duì)于雜交群體c’來說,單倍體鑒別準(zhǔn)確率介于前述兩者之間。對(duì)于雜交群體b’(以雜交種為母本得到的雜交群體)來說,單倍體漏選率為7.26%。對(duì)于雜交群體a’(以dh系為母本得到的雜交群體)來說,單倍體漏選率為0.13%。對(duì)于雜交群體c’來說,單倍體漏選率介于前述兩者之間。表1單倍體數(shù)二倍體數(shù)模型準(zhǔn)確率單倍體鑒別準(zhǔn)確率單倍體漏選率雜交群體a’319078396.77%96.72%0.13%雜交群體b’24924687.98%92.00%7.26%雜交群體c’91694392.71%92.81%0.44%待測群體為雜交群體c’時(shí),采用各個(gè)機(jī)器學(xué)習(xí)算法建立的模型的評(píng)估參數(shù)結(jié)果見表2。模型準(zhǔn)確率比較發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)算法最高(95.42%),偏最小二乘法算法次之(93.26%),樸素貝葉斯算法和k近鄰法算法最低。單倍體鑒別準(zhǔn)確率與模型準(zhǔn)確率結(jié)果類似。單倍體漏選率比較發(fā)現(xiàn),隨機(jī)森林算法建立的模型的單倍體漏選率最低(1.64%),然后是神經(jīng)網(wǎng)絡(luò)算法(4.92%),樸素貝葉斯算法和k近鄰算法建立的模型的單倍體漏選率均較高。表2模型準(zhǔn)確率單倍體鑒別準(zhǔn)確率單倍體漏選率偏最小二乘法算法93.26%93.89%7.65%神經(jīng)網(wǎng)絡(luò)算法95.42%95.60%4.92%k近鄰算法54.99%54.65%48.63%樸素貝葉斯算法60.11%61.44%48.63%隨機(jī)森林算法92.45%87.80%1.64%梯度推進(jìn)機(jī)算法65.77%66.09%37.16%支持向量機(jī)算法81.13%80.87%19.13%當(dāng)前第1頁12