一種定性定量相結合的近紅外定量模型構建方法
【專利摘要】本發(fā)明提供一種定性定量相結合的近紅外定量模型構建方法,包括以下步驟:獲取建模校正集實際的樣本,檢測其基礎化學成分;掃描校正樣本所對應的光譜,剔除異常樣本;對可用光譜定性投影;對投影數(shù)據(jù)分類;每類的近紅外光譜與化學值作為驗證集,用建模集對驗證集進行預測,求其預測誤差;隨機選擇近紅外的波長點;求解每一次生成波長點所對應的總體校正集誤差;根據(jù)最小的總體校正集誤差確定近紅外的波長選擇點以及近紅外光譜的特征信息;對校正集光譜與化學值重新建立回歸模型;檢測驗證樣本的化學值并獲取對應光譜,對回歸模型進行定量評價。本發(fā)明由于對校正集光譜進行了定性投影分析,對于光譜的變化具有適應性,能夠保持模型的預測穩(wěn)定。
【專利說明】
一種定性定量相結合的近紅外定量模型構建方法
技術領域
[0001] 本發(fā)明涉及一種定性定量相結合的近紅外定量模型構建方法,屬于近紅外檢測分 析領域。
【背景技術】
[0002] 近紅外光譜是屬于850-2500nm波段的電磁波,不同類型光譜反映了不同樣本層次 的分子信息,由于近紅外光譜包含大量的物質信息,快速檢測等優(yōu)勢,使得近紅外在在線生 產(chǎn)質量監(jiān)控上取得了廣泛的應用;傳統(tǒng)的近紅外定量模型的構建方法為:獲取樣本的近紅 外光譜信息,運用流動分析儀檢測基礎的化學值信息,把光譜隨機分為校正級與驗證集,剔 除異常樣本,采用波段選擇或者波長點選擇對光譜的波長進行選取建模區(qū)間,然后把篩選 波長區(qū)間之后的光譜與化學值運用pis(偏最小二乘)建立關聯(lián)關系并對驗證樣本進行驗 證;上述的方法存在如下的缺點,(1)由于近紅外光譜的影響因素比較多,易受外界環(huán)境,溫 度,以及樣本類型的影響;在實際的使用過程中,當外界的光譜發(fā)生變化與校正樣本不一致 時容易導致模型的外部預測誤差偏大;(2)對于復雜樣本類型的近紅外模型的構建,在傳統(tǒng) 的建模方式中會產(chǎn)生重校正輕驗證,使得對于在實際的質量監(jiān)控過程中,當實際取樣樣本 的化學值及相對應的光譜發(fā)生微弱的變化,傳統(tǒng)的建模方式會出現(xiàn)不具備實際樣本變化趨 勢的一致性。
[0003] 如何在實際的近紅外定量模型的構建過程中,提取近紅外光譜有效的信息,構建 定量模型的表達形式,建立穩(wěn)定的,適應于外界光譜變化的近紅外定量模型實已成為近紅 外領域亟需解決的技術問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種定性定量相結合的近紅外定量模型構建方法,以解決 上述問題。
[0005] 本發(fā)明采用了如下技術方案:
[0006] -種定性定量相結合的近紅外定量模型構建方法,其特征在于,包括以下步驟:
[0007] 步驟一、獲取建模校正集實際的樣本,檢測其基礎化學成分;
[0008] 步驟二、掃描校正樣本所對應的光譜,剔除異常的樣本;
[0009] 步驟三、對剔除異常樣本后的可用的光譜進行定性投影;
[0010] 步驟四、對投影的數(shù)據(jù)進行分類;
[0011] 步驟五,運用每類的近紅外光譜與化學值作為驗證集,對剩余的所有其它類的光 譜及其化學值作為建模集,并運用建模集對驗證集進行預測,求其預測誤差;
[0012] 步驟六:隨機選擇近紅外的波長點;
[0013] 步驟七,求解每一次生成波長點所對應的步驟五的總體校正集誤差;
[0014] 步驟八,根據(jù)步驟七中最小的總體校正集誤差來確定近紅外的波長選擇點以及近 紅外光譜的特征信息,進而根據(jù)近紅外光譜的特征信息來建立關聯(lián)關系;
[0015] 步驟九、在上述選擇的波長點下,對校正集光譜與化學值重新建立回歸模型;
[0016] 步驟十、檢測驗證樣本的化學值并獲取對應光譜,對步驟九中的回歸模型進行定 量評價。
[0017] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:其中,步驟一中,分別獲取對應的近紅外光譜x與化學值尼古丁y。
[0018] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:步驟二中,根據(jù)半重數(shù)采樣法來判別校正集樣本的光譜中的異常光譜。
[0019] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:步驟三中,運用遺傳算法求解投影方向向量。
[0020] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:步驟四中,將投影值從小到大排序,將排序后的投影值劃分為k類。
[0021] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:步驟五中,以k類樣本中所有不包含jl類的樣本為光譜校正集,與其所對應的原始 樣本的化學值進行回歸建模,回歸建模的方式可以采用偏最小二乘,多元線性回歸、主成分 回歸、或者偏最小二乘人工神經(jīng)網(wǎng)絡,KjlSk;驗證集h的近紅外模型的誤差的評價方式 為:SEk s'td.iy- y'、 〇
[0022] 進一步,本發(fā)明的定性定量相結合的近紅外定量模型構建方法,還可以具有這樣 的特征:步驟十中,對驗證樣本的對應光譜,運用如下方式求解其預測值pxtest :pxtext = fxtest(MC(j2))〇
[0023]發(fā)明的有益效果
[0024]本發(fā)明的定性定量相結合的近紅外定量模型構建方法由于在校正集構建定量模 型的過程中,對校正集光譜進行了定性投影分析,每次校正集的驗證樣本均是與校正集內(nèi) 的其它光譜差異很大的光譜,然后通過近紅外波長點的隨機生成,依據(jù)類別的預測誤差,不 斷的優(yōu)化波長點的選擇,整個過程在校正模型建立的時候就已經(jīng)考慮到光譜的較大變化, 對近紅外定量模型的使用過程中對于到光譜的變化具有適應性,能夠保持模型的預測穩(wěn) 定。
[0025]本發(fā)明在化學計量學的研究過程中從傳統(tǒng)的"重校正輕驗證","驗證相似適應,變 化失效"的情況轉變成"重差異,提信息",增強了近紅外定量模型構建的適應能力,在本發(fā) 明專利中首次把近紅外定性的方法與定量的方法融合在一塊用于近紅外信息的提取與定 量模型的構建,為近紅外與化學計量學領域提供了一種新的思考方式。
【附圖說明】
[0026]圖1是校正樣本的原始光譜圖;
[0027]圖2是校正樣本的化學值尼古丁分布圖;
[0028]圖3是未來驗證樣本的原始光譜圖;
[0029] 圖4是未來驗證樣本的化學值尼古丁分布圖;
[0030] 圖5是校正集異常樣本判別圖;
[0031]圖6是投影目標函數(shù)迭代優(yōu)化圖;
[0032]圖7是校正集投影方向向量圖;
[0033]圖8是校正集樣本的投影特征值圖;
[0034]圖9是校正集樣本的投影值分類圖;
[0035]圖10是不同信息選擇下的投影特征值分類預測平均絕對誤差分布圖;
[0036]圖11是校正集特征信息的選擇圖;
[0037]圖12是本發(fā)明的定性定量相結合的近紅外定量模型構建方法流程圖。
【具體實施方式】
[0038]以下結合附圖來說明本發(fā)明的【具體實施方式】。
[0039] 如圖12所示,本發(fā)明的定性定量相結合的近紅外定量模型構建方法包括以下步 驟:
[0040] 步驟101:獲取樣本;步驟102:獲取建模校正集實際的樣本;步驟103:檢測校正集 樣本的基礎化學成分;步驟104:掃描樣本所對應的光譜;步驟105,判定異常樣本,剔除異常 的樣本;步驟106,對可用的光譜進行定性投影;步驟107,對校正集投影后的光譜投影值進 行分類;步驟108,運用每類的近紅外光譜與化學值作為驗證集,對剩余的所有其它類的光 譜及其化學值作為建模集,并運用建模集對驗證集進行預測,求其預測誤差;步驟109隨機 選擇近紅外的波長點,步驟110,求解每一次生成波長點所對應的步驟108的CSE;步驟111, 根據(jù)步驟110中最小的CSE誤差來確定近紅外的波長選擇點以及近紅外光譜的特征信息,進 而根據(jù)近紅外光譜的特征信息來建立關聯(lián)關系。步驟112,在上述選擇的波長點下,校正集 光譜與化學值重新建立回歸模型。步驟113,獲取獨立驗證樣本;步驟114:檢測驗證樣本的 化學值;步驟115:獲取驗證樣本的光譜;步驟116:定量模型評價。具體步驟如下:
[0041] -、獲取樣本
[0042] 在復烤廠在線取樣樣本300個原煙樣本作為檢測樣本,并在接下的兩個月中每周 在生產(chǎn)線上取15個煙葉樣本,共獲取100個煙葉樣本,作為獨立驗證樣本;對上述兩種樣本 進行去梗,切絲磨粉過40目篩;分別獲取對應的近紅外光譜X,見圖1;化學值尼古丁y,見圖 2;未來光譜€1〖681:,見圖3 ;以及化學值尼古丁€7〖681:,見圖4。
[0043]二、根據(jù)RHM(半重數(shù)采樣法)來判別光譜x中的異常光譜,
[0044]半重數(shù)采樣法的計算方法如下:基于對原始光譜的隨機半數(shù)重采樣統(tǒng)計出現(xiàn)奇異 長度的樣本。從原始光譜矩陣中隨機選擇50 %樣本作為采樣子集,計算每個采樣子集矩陣 的均值和方差,再根據(jù)均值和方差計算采樣子集中每個樣本的向量長度。對光譜數(shù)據(jù)進行 多次隨機采樣,并記錄每次采樣后計算的向量長度。對樣本的向量長度進行排序,距離最大 的預定概率(如5%或10%)的樣本得分為1,其余為0。最后對各樣本的總得分進行統(tǒng)計,得 分最高的部分樣本就為奇異樣本。
[0045]采用半重數(shù)采樣法對校正集xl進行光譜異常性判斷,隨機次數(shù)采用5000次;異常 樣本的結果見圖5。
[0046]三、運用遺傳算法求解投影方向向量,選擇遺傳算法的個體數(shù)目為30,變量的維數(shù) 為226,變量的二進制位數(shù)為8,種群數(shù)目為100。見圖6。
[0047]求得XI的投影方向向量a的結果,見圖7 [0048]校正集的投影特征值ff的結果,見圖8。
[0049] 求解投影方向向量的方法具體如下:
[0050] 標記剩余的正常光譜記作xl,xl為n行m列的光譜矩陣;其所對應的化學值為yl; [0051 ]對xl進行光譜投影,光譜投影的計算方法如下:
[0052] 1)光譜xl進行歸一化;
(1)
[0054] 其中i為光譜矩陣xl的第i個樣本,j為光譜矩陣xl的第j列;
[0055] 2)確定投影目標函數(shù)Q(a)。
[0056] Q(a) =s(a)*d(a) (2)
[0057] 其中,a為所述初始投影向量,Q(a)為所述目標函數(shù),s(a)為所述初始投影向量的 類內(nèi)距離,d(a)為所述初始投影向量的類內(nèi)密度。
⑶
[0059] 其中,zi為第i個煙葉樣本序列的投影特征值,&為序列zi的均值。
[0060] zi = xi*a (4)
[0061] d{a) = ^ (/? - rik)f{R - rik) (5.) i = 1 A - i
[0062] rlk為任意兩個近紅外樣本的煙投影特征值間的距離,計算公式如下:
[0063] rik= | zi-zk | ,(i,k=l:n); (6)
[0064] n為近紅外樣本光譜xl的行數(shù);
[0065] - j1, R-Tlk (7) 1〇,皮 < A
[0066] R為估計局部散點密度的窗寬參數(shù),按寬度內(nèi)至少包括一個散點的原則選定,其取 值與樣本數(shù)據(jù)結構有關,可基本確定它的合理取值范圍為r max<R彡2n,其中,rmax = max (rik), (i ,k= 1,2---n) 〇
[0067] 3)求解線性投影的方向可轉化為下列優(yōu)化問題: max Q{a) = s{a) * d{a)
[0068] 、 Y ^2 _ (8)
[0069] 對上述公式(8)的求解可以采用二次規(guī)劃,遺傳算法,PC(主成分分解),SVD(奇異 值分解);求得投影方向向量為a,求得投影值記為ff;
[0070] 四、把特征值排序后,進行分類。
[0071 ] 分類過程如下,分類結果見圖9。
[0072]按照投影值從小到大對ff進行排序,并標記排序后ff所對應的原始近紅外樣本的 序號;
[0073]把排序后的投影值均分為k類,k為大于1的自然數(shù);并標記其相對應的原始樣本的 序號;按照此投影值的分法,每類的投影值互不交叉。
[0074] 選取波長篩選系數(shù)xi = 0.7;重復次數(shù)MC= 1000;近紅外光譜分類數(shù)k = 6;
[0075] 以k類樣本中所有不包含j類的樣本為光譜校正集與其所對應的原始樣本的化學 值進行回歸建模,光譜預處理的方式為一階導數(shù),波長采用全譜;(回歸建模的方式可以采 用PLS(偏最小二乘),MLR(多元線性回歸),PCR(主成分回歸),PLS-BP(偏最小二乘人工神經(jīng) 網(wǎng)絡驗證集h的近紅外模型的誤差的評價方式為:
[0076] SEkj = stdi)^ ~ j^) (:9)
[0077] 在該波長點依據(jù)不同樣本的投影值劃分k類的總體的校正集誤差記為CSE;其中 CSE的計算方式如下:
[0078] €SS = average(SF, ) ( 10)
[0079] 生成[1:1 :m]的一維向量矩陣;隨機從[1:1 :m]的一維向量矩陣中篩選出xi*m取整 的數(shù)組;此過程重復MC次;把xl按照上述步驟依據(jù)投影值劃分為k類,在MC( i)組的波長點的 基礎下,求解CSE( i);求解的CSE如圖10所示:其中,最小CSE為0.25;最大CSE為0.2848。
[0080] 五、找出CSE最小的值所在的j,選取該組的波長點為MC( j)
[0081 ] 最小CSE對應的坐標為1999 ;MC( 1999)所篩選出的近紅外波長點如圖11:
[0082]六、對校正集分別在全譜以及上述篩選出的波長點下進行光譜的導數(shù)預處理,PLS (偏最小二乘),PPLS(校正偏最小二乘),PCR(主成分回歸),CCAR(典型相關回歸),MLR逐步 加權回歸等分別建立近紅外光譜的定量分析模型;并對預測集fxtest進行預測,以平均絕 對誤差以及相對誤差對未來預測樣本的預測結果進行評價:
[0083] 具體而言:在上述MC( j)的基礎上,選取xl中MC( j)的波長點矩陣記作xcal ;ycal = yi;
[0084] 對xcal進行一階導數(shù)處理,建立xcal與ycal的校正模型;求得校正系數(shù)Beta;校正 模型求解的方式可以采用PLS(偏最小二乘),MLR(多元線性回歸),PCR(主成分回歸),PLS-BP(偏最小二乘人工神經(jīng)網(wǎng)絡);
[0085] 對未來光譜fxtest,運用如下方式求解其預測值pxtest;
[0086] pxtest = fxtest(MC(j))*Beta (11)
[0087] 對未來光譜預測結果的評價采用,平均絕對誤差ASE,平均相對誤差ARD,平均均方 根誤差MSE,相關系數(shù)進行評價AC0,相關系數(shù)為通常意義上兩組數(shù)據(jù)的相關系數(shù);
[0088]其中平均絕對誤差的計算方式為:
[0092]如表1所示,本發(fā)明方法在同等參數(shù)條件下與傳統(tǒng)的不同原理的方法對比,普遍預 測誤差小于傳統(tǒng)的模型預測誤差,平均絕對誤差與平均相對誤差普遍小于傳統(tǒng)的方法的外 部驗證誤差,平均絕對誤差下降9.42%,平均相對誤差下降10.3%,最大平均絕對誤差下降 15.89%,最大平均相對誤差下降18.39%。
[0093]表1本發(fā)明的方法與傳統(tǒng)定量模型方法對比表
【主權項】
1. 一種定性定量相結合的近紅外定量模型構建方法,其特征在于,包括以下步驟: 步驟一、獲取建模校正集實際的樣本,檢測其基礎化學成分; 步驟二、掃描校正樣本所對應的光譜,剔除異常的樣本; 步驟三、對剔除異常樣本后的可用的光譜進行定性投影; 步驟四、對投影的數(shù)據(jù)進行分類; 步驟五,運用每類的近紅外光譜與化學值作為驗證集,對剩余的所有其它類的光譜及 其化學值作為建模集,并運用建模集對驗證集進行預測,求其預測誤差; 步驟六:隨機選擇近紅外的波長點; 步驟七,求解每一次生成波長點所對應的步驟五的總體校正集誤差; 步驟八,根據(jù)步驟七中最小的總體校正集誤差來確定近紅外的波長選擇點以及近紅外 光譜的特征信息,進而根據(jù)近紅外光譜的特征信息來建立關聯(lián)關系; 步驟九、在上述選擇的波長點下,對校正集光譜與化學值重新建立回歸模型; 步驟十、檢測驗證樣本的化學值并獲取對應光譜,對步驟九中的回歸模型進行定量評 價。2. 如權利要求1所述的定性定量相結合的近紅外定量模型構建方法,其特征在于: 其中,步驟一中,分別獲取對應的近紅外光譜X與化學值尼古丁y。3. 如權利要求1所述的定性定量相結合的近紅外定量模型構建方法,其特征在于: 步驟二中,根據(jù)半重數(shù)采樣法來判別校正集樣本的光譜中的異常光譜。4. 如權利要求1所述的定性定量相結合的近紅外定量模型構建方法,其特征在于: 步驟三中,運用遺傳算法求解投影方向向量。5. 如權利要求1所述的定性定量相結合的近紅外定量模型構建方法,其特征在于: 步驟四中,將投影值從小到大排序,將排序后的投影值劃分為k類。6. 如權利要求1所述的定性定量相結合的近紅外定量模型構建方法,其特征在于: 步驟五中,以k類樣本中所有不包含jl類的樣本為光譜校正集,與其所對應的原始樣本 的化學值進行回歸建模,回歸建模的方式可以采用偏最小二乘,多元線性回歸、主成分回 歸、或者偏最小二乘人工神經(jīng)網(wǎng)絡,KjlSk;驗證集h的近紅外模型的誤差的評價方式 為:7. 如權利要求1所述的定性定量相結合的近紅外宣模型構建方法,其特征在于: 步驟十中,對驗證樣本的對應光譜,運用如下方式求解其預測值pxtest: pxtext = fxtest(MC( j2)) 〇
【文檔編號】G01N21/359GK105928901SQ201610541477
【公開日】2016年9月7日
【申請日】2016年7月11日
【發(fā)明人】張軍, 薛慶逾, 石超
【申請人】上海創(chuàng)和億電子科技發(fā)展有限公司