專利名稱::建立煙草近紅外模型的選樣方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種用于建立煙草近紅外模型的方法,具體涉及一種建立煙草近紅外模型的選樣方法。
背景技術(shù):
:二十世紀(jì)九十年代以來(lái),近紅外技術(shù)在煙草中的應(yīng)用越來(lái)越廣泛,各煙草企業(yè)根據(jù)各自的實(shí)際情況都建立了自己的近紅外模型。進(jìn)入本世紀(jì)后,國(guó)內(nèi)煙草行業(yè)掀起了兼并重組的浪潮,原來(lái)分散的巻煙廠,聯(lián)合組成了跨地域、大集團(tuán)式的工業(yè)公司。在近紅外技術(shù)的研究中,隨之而來(lái)的問(wèn)題出現(xiàn)了原來(lái)各煙廠建立的近紅外模型,已不能適應(yīng)大集團(tuán)模式下研究的需要?,F(xiàn)實(shí)情況卻是,不同的煙廠建立了不同的近紅外模型,但這些模型是彼此獨(dú)立的,這些模型可能采用不同的近紅外儀器掃描光譜,同時(shí)還有可能用不同的分析方法獲得原始數(shù)據(jù)。一般而言,這種情況下模型之間的樣品信息是很難共享的。在這種情況下,重新建立近紅外模型是不現(xiàn)實(shí)的,必須找到合適的方法,將已有的模型充分利用起來(lái)。目前,在建立煙草近紅外模型過(guò)程中,樣品的選擇常用到經(jīng)驗(yàn)選擇、濃度識(shí)別和光譜識(shí)別三種方法。經(jīng)驗(yàn)選擇法通常是按照煙草的品種、年份、部位、等級(jí)以及用途等性質(zhì),挑選具有代表性的煙草樣品作為定標(biāo)集樣品建立模型;濃度識(shí)別法主要是依據(jù)樣品組分的濃度差異,選擇具有代表性的樣品作為定標(biāo)集樣品建立模型;光譜識(shí)別法主要依據(jù)樣品的光譜差異挑選樣品建立模型。采用經(jīng)驗(yàn)選擇法挑選樣品的缺點(diǎn)是其所需樣品量巨大,同時(shí)這種方法忽略了樣品本身的物理和化學(xué)性質(zhì)而容易引起誤差;濃度識(shí)別法的缺點(diǎn)是其忽略了樣品的光譜差異,從而可能導(dǎo)致模型的預(yù)測(cè)能力偏低;光譜識(shí)別法的缺點(diǎn)是其忽略了樣品內(nèi)在質(zhì)量的差異,容易導(dǎo)致模型失真。針對(duì)這些情況,本發(fā)明提出了一種用于建立煙草近紅外模型的選樣方法。
發(fā)明內(nèi)容本發(fā)明克服了現(xiàn)有技術(shù)的不足,提供了一種能克服上述方法缺點(diǎn)的建立煙草近紅外模型的選樣方法。本發(fā)明的技術(shù)方案是—種建立煙草近紅外模型的選樣方法,采用步驟1至步驟7:步驟1獲得相互獨(dú)立的兩個(gè)樣品集{A}和{B}中的煙草樣品的近紅外掃描譜步驟2將樣品集{A}和樣品集{B}的近紅外掃描譜圖進(jìn)行光譜預(yù)處理;步驟3根據(jù)樣品集{B}中樣品i的近紅外光譜&和樣品集{A}中樣品的平均光譜X^,得到樣品i到樣品集{A}的光譜馬氏距離&;步驟4根據(jù)樣品集{B}中樣品i的組分含量1和樣品集{A}中樣品的組分含量平均值Y^,得到樣品i到樣品集{A}的組分值距離d/;步驟5根據(jù)步驟3求得的光譜馬氏距離&和步驟4求得的組分值距離di',得到樣品集{B}中樣品i到樣品集{A}的整體歐式距離Di;步驟6按特定原則選取樣品集{B}中的樣品添加到樣品集{A}中形成新的樣品集{A’},由樣品集{A’}建立得到新的近紅外模型A’;步驟7用內(nèi)部交叉驗(yàn)證法和外部驗(yàn)證法對(duì)模型A’進(jìn)行評(píng)價(jià)。更進(jìn)一步的技術(shù)方案是步驟2中的光譜預(yù)處理是采用平滑、二次插值法、一階導(dǎo)數(shù)法或二階導(dǎo)數(shù)法中的一種或幾種方法對(duì)原始近紅外光譜進(jìn)行預(yù)處理。更進(jìn)一步的技術(shù)方案是步驟3中求取樣品集{B}中樣品i到樣品集{A}的光譜馬氏距離d、的方法采用如下公式[ooT6)d,√(父f—x吣)’s“(xj—xavg),X、為樣品集{B}中樣品i的光譜矢量(n×1),X…為樣品集{A}中樣品的平均光譜矢量(n×1),S為協(xié)方差矩陣(n×n),(X,一X。\/。)’為(X,一X。\/。)的轉(zhuǎn)置矩陣,n為光譜X、的數(shù)據(jù)點(diǎn)個(gè)數(shù)。更進(jìn)一步的技術(shù)方案是步驟4中求取樣品集{B}中樣品i到樣品集{A}的組分值距離d、’的方法采用如下公式d’j—Yj—YaV。Y、為樣品集{B}中樣品i的組分含量,Y…為樣品集{A}中樣品的平均組分含量,更進(jìn)一步的技術(shù)方案是步驟5中求取整體歐式距離D、的方法采用如下公式廠一二一一一一一丁更進(jìn)一步的技術(shù)方案是步驟6所述特定原則,是按照整體歐式距離D、從小到大的順序?qū)悠芳瘂B}中的樣品添加到樣品集{A}中形成新的樣品集{A’}。更進(jìn)一步的技術(shù)方案是步驟7中內(nèi)部交叉驗(yàn)證采用交叉驗(yàn)證均方根誤差(RMSE(V)、決定系數(shù)(礦),外部驗(yàn)證采用預(yù)測(cè)均方根誤差(RMSE[’)、決定系數(shù)(礦)對(duì)模型進(jìn)行評(píng)價(jià)。本發(fā)明設(shè)有兩個(gè)獨(dú)立的煙草樣品集{A}和樣品集{B},依次分別屬于兩個(gè)獨(dú)立的近紅外模型A和模型B,要在樣品集{B}中選取有效的樣品添加到樣品集{A}中形成樣品集{A’},用樣品集{A’}建立新的近紅外模型A’。由于樣品集{A}和樣品集{B}是相互獨(dú)立的,它們之間沒(méi)有關(guān)聯(lián),如果隨意選擇樣品,則這些樣品很可能成為樣品集{A’}中的異常點(diǎn),進(jìn)而影響模型A’的精度。本發(fā)明的有益技術(shù)效果是從樣品集{B}中選取有效的樣品加入到樣品集{A}中得到樣品集{A’},有效地避免樣品集{A’}中異常點(diǎn)的出現(xiàn),從而解決了獨(dú)立煙草近紅外模型間樣品信息共享的問(wèn)題,采用本發(fā)明的選樣方法能建立剔除無(wú)效的異常數(shù)據(jù)的模型,保證模型具有良好的預(yù)測(cè)能力和適用性。圖l本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例l中樣品集{Al}的近紅外掃描譜圖2本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例l中樣品集{Bl}的近紅外掃描譜圖3本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例1中樣品集{Al}的預(yù)處理后的近紅外譜圖;圖4本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例1中樣品集{Bl}的預(yù)處理后的近紅外譜圖;圖5本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例1中近紅外模型Al'內(nèi)部交叉驗(yàn)證圖;圖6本發(fā)明用來(lái)測(cè)試煙草蛋白質(zhì)的實(shí)施例1中近紅外模型Al'外部驗(yàn)證圖;圖7本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中樣品集{A2}的近紅外掃描譜圖;圖8本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中樣品集{B2}的近紅外掃描譜圖;圖9本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中樣品集{A2}的預(yù)處理后的近紅外譜圖;圖10本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中樣品集{B2}的預(yù)處理后的近紅外譜圖;圖11本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中近紅外模型A2'內(nèi)部交叉驗(yàn)證圖;圖12本發(fā)明用來(lái)測(cè)試煙草石油醚提取物的實(shí)施例2中近紅外模型A2'外部驗(yàn)證具體實(shí)施方式實(shí)施例1以煙草中蛋白質(zhì)近紅外模型Al和模型Bl進(jìn)行測(cè)試,按照如下步驟8至步驟14進(jìn)行步驟8:獲得相互獨(dú)立的兩個(gè)樣品集{Al}和{Bl}中煙草樣品的近紅外掃描譜圖,樣品集{Al}中樣品的近紅外掃描譜圖見(jiàn)圖l,樣品集{Bl}中樣品的近紅外掃描譜圖見(jiàn)圖2;步驟9:運(yùn)用二次插值法和一階導(dǎo)數(shù)法將樣品集{Al}中樣品的近紅外掃描譜圖進(jìn)行預(yù)處理,處理后的近紅外譜圖見(jiàn)圖3;用二次插值法和一階導(dǎo)數(shù)法將樣品集{Bl}中樣品的近紅外掃描譜圖進(jìn)行預(yù)處理,處理后的近紅外譜圖見(jiàn)圖4;步驟10:根據(jù)樣品集{Bl}中樣品i的近紅外光譜Xi和樣品集{Al}中樣品的平均光譜X^,得到樣品i到樣品集{Al}的光譜馬氏距離&;步驟11:根據(jù)樣品集{Bl}中樣品i的組分含量1和樣品集{Al}中樣品的組分含量平均值Y^,得到樣品i到樣品集{Al}的組分值距離d/;步驟12:根據(jù)步驟10求得的光譜馬氏距離&和步驟11求得的組分值距離d/,得到樣品集{Bl}中樣品i到樣品集{Al}的整體歐式距離Di;光譜馬氏距離di,整體歐式距離Di見(jiàn)表l蛋白質(zhì)樣品距離表表l蛋白質(zhì)樣品距離表<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table>步驟13:按照Di從小到大的原則選取樣品集{Bl}中的320個(gè)樣品添加到樣品集{Al}中形成新的樣品集{Al'},由樣品集{Al'}建立得到新的近紅外模型Al'。步驟14:對(duì)模型A1'進(jìn)行內(nèi)部交叉驗(yàn)證,其交叉驗(yàn)證均方根誤差(RMSECV)為0.267,決定系數(shù)(R2)為92.33,近紅外模型Al'內(nèi)部交叉驗(yàn)證圖見(jiàn)圖5;對(duì)模型A1'進(jìn)行外部驗(yàn)證,其預(yù)測(cè)均方根誤差(RMSEP)為0.179,決定系數(shù)(R2)為94.52,近紅外模型Al'外部驗(yàn)證圖見(jiàn)圖6。新模型A1'滿足實(shí)際應(yīng)用要求。實(shí)施例2以煙草中石油醚提取物近紅外模型A2和模型B2進(jìn)行測(cè)試,按照如下步驟15至步驟20進(jìn)行步驟15:獲得相互獨(dú)立的兩個(gè)樣品集{A2}和{B2}中煙草樣品的近紅外掃描譜圖,樣品集{A2}中樣品的近紅外掃描譜圖見(jiàn)圖7,樣品集{B2}中樣品的近紅外掃描譜圖見(jiàn)圖8;步驟16:運(yùn)用二次插值法和一階導(dǎo)數(shù)法將樣品集{A2}中樣品的近紅外掃描譜圖進(jìn)行預(yù)處理,處理后的近紅外譜圖見(jiàn)圖9;用二次插值法和一階導(dǎo)數(shù)法將樣品集{B2}中樣品的近紅外掃描譜圖進(jìn)行預(yù)處理,處理后的近紅外譜圖見(jiàn)圖10;步驟17:根據(jù)樣品集{B2}中樣品i的近紅外光譜Xi和樣品集{A2}中樣品的平均光譜X^,得到樣品i到樣品集{A2}的光譜馬氏距離&;步驟18:根據(jù)樣品集{B2}中樣品i的組分含量1和樣品集{A2}中樣品的組分含量平均值Y^,得到樣品i到樣品集{A2}的組分值距離d/;2步驟19:根據(jù)步驟17求得的光譜馬氏距離&和步驟18求得的組分值距離d/,得到樣品集{B2}中樣品i到樣品集{A2}的整體歐式距離Di;光譜馬氏距離di,整體歐式距離Di見(jiàn)表2石油醚提取物樣品距離表表2石油醚提取物樣品距離表<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage0</column></row><table><table>tableseeoriginaldocumentpage24</column></row><table>步驟6:按照Di從小到大的原則選取樣品集{B2}中的35個(gè)樣品添加到樣品集{A2}中形成新的樣品集{A2'},由樣品集{A2'}建立得到新的近紅外模型A2'。步驟20:對(duì)模型A2'進(jìn)行內(nèi)部交叉驗(yàn)證,其交叉驗(yàn)證均方根誤差(RMSECV)為0.243,決定系數(shù)(R2)為94.95,近紅外模型A2'內(nèi)部交叉驗(yàn)證圖見(jiàn)圖11;對(duì)模型A2'進(jìn)行外部驗(yàn)證,其預(yù)測(cè)均方根誤差(RMSEP)為O.193,決定系數(shù)(R2)為97.19,近紅外模型A2'外部驗(yàn)證圖見(jiàn)圖12。新模型A2'滿足實(shí)際應(yīng)用要求。權(quán)利要求一種建立煙草近紅外模型的選樣方法,其特征在于采用步驟1至步驟7步驟1獲得相互獨(dú)立的兩個(gè)樣品集{A}和樣品集{B}中煙草樣品的近紅外掃描譜圖;步驟2將樣品集{A}和樣品集{B}的近紅外掃描譜圖進(jìn)行光譜預(yù)處理;步驟3根據(jù)樣品集{B}中樣品i的近紅外光譜Xi和樣品集{A}中樣品的平均光譜Xavg,得到樣品i到樣品集{A}的光譜馬氏距離di;步驟4根據(jù)樣品集{B}中樣品i的組分含量Yi和樣品集{A}中樣品的組分含量平均值Yavg,得到樣品i到樣品集{A}的組分值距離di’;步驟5根據(jù)步驟3求得的光譜馬氏距離di和步驟4求得的組分值距離di’,得到樣品集{B}中樣品i到樣品集{A}的整體歐式距離Di;步驟6按特定原則選取樣品集{B}中的樣品添加到樣品集{A}中形成新的樣品集{A’},由樣品集{A’}建立得到新的近紅外模型A’;步驟7用內(nèi)部交叉驗(yàn)證法和外部驗(yàn)證法對(duì)模型A’進(jìn)行評(píng)價(jià)。2.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟2中的光譜預(yù)處理是采用平滑、二次插值法、一階導(dǎo)數(shù)法或二階導(dǎo)數(shù)法中的一種或幾種方法對(duì)原始近紅外光譜進(jìn)行預(yù)處理。3.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟3中求取樣品集化}中樣品i到樣品集{A}的光譜馬氏距離&的方法采用如下公式Xi為樣品集{B}中樣品i的光譜矢量(nX1),X^為樣品集{A}中樣品的平均光譜矢量(nXl),S為協(xié)方差矩陣(nXn),(Xi-XjT為(X「Xavg)的轉(zhuǎn)置矩陣,n為光譜Xi的數(shù)據(jù)點(diǎn)個(gè)數(shù)。4.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟4中求取樣品集{B}中樣品i到樣品集{A}的組分值距離d/的方法采用如下公式<formula>formulaseeoriginaldocumentpage2</formula>1為樣品集{B}中樣品i的組分含量,Y^為樣品集{A}中樣品的平均組分含量。5.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟5中求取整體歐式距離Di的方法采用如下公式6.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟6中的特定原則,是按照整體歐式距離Di從小到大的順序?qū)悠芳瘂B}中的樣品添加到樣品集{A}中形成新的樣品集{A'}。7.根據(jù)權(quán)利要求1所述的建立煙草近紅外模型的選樣方法,其特征在于所述的步驟7中內(nèi)部交叉驗(yàn)證采用交叉驗(yàn)證均方根誤差(RMSECV)、決定系數(shù)(R2),外部驗(yàn)證采用預(yù)測(cè)均方根誤差(RMSEP)、決定系數(shù)(R2)對(duì)模型進(jìn)行評(píng)價(jià)。全文摘要本發(fā)明公開(kāi)了一種建立煙草近紅外模型的選樣方法,獲得相互獨(dú)立的兩個(gè)樣品集{A}和樣品集{B}中煙草樣品的近紅外掃描譜圖;對(duì)近紅外掃描譜圖進(jìn)行光譜預(yù)處理;得到樣品i到樣品集{A}的光譜馬氏距離di;得到樣品i到樣品集{A}的組分值距離di’;得到樣品集{B}中樣品i到樣品集{A}的整體歐式距離Di;按特定原則選取樣品集{B}中的樣品添加到樣品集{A}中形成新的樣品集{A’},由樣品集{A’}建立得到新的近紅外模型A’。本發(fā)明克服了現(xiàn)有技術(shù)無(wú)法兼顧預(yù)測(cè)能力和模型真實(shí)的問(wèn)題,提供了一種能剔除無(wú)效的異常數(shù)據(jù)的選樣方法,建立的模型具有良好的預(yù)測(cè)能力和適用性,可以廣泛應(yīng)用在煙草行業(yè)。文檔編號(hào)G01N21/35GK101710071SQ20091021665公開(kāi)日2010年5月19日申請(qǐng)日期2009年12月9日優(yōu)先權(quán)日2009年12月9日發(fā)明者吳艷,李朝榮,胡興峰,鄧發(fā)達(dá),鄭建申請(qǐng)人:川渝中煙工業(yè)公司