基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,屬于特定計(jì)算 模型技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 煙草煙氣是一種極為復(fù)雜的混合物,它是在卷煙抽吸過(guò)程中由煙草燃燒、裂解和 蒸餾而產(chǎn)生的。卷煙制品對(duì)于人體的危害性是通過(guò)燃吸過(guò)程而產(chǎn)生的。煙氣中的有害成 分主要是在燃燒過(guò)程中形成,而煙氣的化學(xué)特性是隨煙葉原料內(nèi)在化學(xué)成分的變化而變化 的。因此,卷煙煙葉原料的化學(xué)特性決定了卷煙煙氣的化學(xué)特性和安全性。一氧化碳(以下 簡(jiǎn)稱:CO)是煙草不完全燃燒的產(chǎn)物,直接影響人體健康。傳統(tǒng)的烤片煙氣CO數(shù)據(jù)的獲得 方式是檢測(cè)烤片燃燒后的煙氣中的化學(xué)成分指標(biāo)。通過(guò)這種方式獲得的煙氣數(shù)據(jù),需要將 烤片卷制成卷煙燃燒后的煙氣進(jìn)行化學(xué)檢測(cè),檢測(cè)過(guò)程費(fèi)時(shí)費(fèi)力且檢測(cè)成本極高。
[0003] 在線性回歸建模中,模型是建立在一定假設(shè)條件基礎(chǔ)上的,例如被觀測(cè)樣本誤差 為標(biāo)準(zhǔn)正態(tài)分布。如果誤差的分布是非對(duì)稱或者傾向于離群點(diǎn),那么進(jìn)行線性回歸建模的 假設(shè)是不成立的,參數(shù)的估計(jì)、置信區(qū)間以及其他計(jì)算的統(tǒng)計(jì)量都是不可靠的。這種情況 下,用魯棒回歸進(jìn)行模型的建立是非常有效的。魯棒回歸建模包含了一種健壯的擬合方法, 與最小二乘法相比,對(duì)于數(shù)據(jù)中小部分的變異沒有那么敏感,提高了模型的可信度。
[0004] 魯棒回歸通過(guò)為每個(gè)數(shù)據(jù)點(diǎn)賦予一個(gè)權(quán)值進(jìn)行建模。加權(quán)是自動(dòng)的并且是重復(fù) 的,這個(gè)過(guò)程叫做自動(dòng)重加權(quán)最小二乘法。在第一階段,每個(gè)樣本點(diǎn)被賦予相同的權(quán)重,然 后利用普通的最小二乘法計(jì)算得到模型系數(shù)。在隨后的迭代中,每個(gè)樣本的點(diǎn)都將重新計(jì) 算,那些遠(yuǎn)離模型預(yù)測(cè)值的樣本點(diǎn)將被賦予較低的權(quán)重。之后利用經(jīng)過(guò)加權(quán)的最小二乘法 計(jì)算模型系數(shù)。迭代過(guò)程將一直進(jìn)行下去,一直到模型系數(shù)在一個(gè)設(shè)定的范圍波動(dòng)。
[0005] 因此以魯棒回歸建立一種預(yù)測(cè)模型由烤片理化數(shù)據(jù)直接獲取煙氣CO數(shù)據(jù)的方法 勢(shì)在必行。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)檢測(cè)烤片煙氣CO數(shù)據(jù)的過(guò)程費(fèi)時(shí)、費(fèi)力、成本極高等問(wèn)題,本發(fā) 明提出一種基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法。
[0007] 本發(fā)明通過(guò)已有的烤片理化數(shù)據(jù)和煙氣CO數(shù)據(jù)建立從理化指標(biāo)項(xiàng)到煙氣CO的魯 棒回歸預(yù)測(cè)模型,對(duì)于未知烤片煙氣CO樣本,利用其理化成分?jǐn)?shù)據(jù)套用模型直接預(yù)測(cè)烤片 煙氣CO值。具體經(jīng)過(guò)下列各步驟: (1)將已知烤片的理化數(shù)據(jù)與煙氣CO數(shù)據(jù)對(duì)應(yīng)列出,建立數(shù)據(jù)樣本集; (2 )分別計(jì)算步驟(1)所得數(shù)據(jù)樣本集中各理化數(shù)據(jù)的列向量Xl?x n和煙氣CO數(shù)據(jù) 的列向量y,通過(guò)下列公式分別計(jì)算各理化數(shù)據(jù)與煙氣CO的線性相關(guān)系數(shù)r,線性相關(guān)系數(shù) r的絕對(duì)值大于0. 3所對(duì)應(yīng)的該項(xiàng)理化數(shù)據(jù)即為對(duì)煙氣CO有重要影響的特征指標(biāo)項(xiàng),作為 建模用的輸入變量: CN104573842A 說(shuō)明書 2/7 頁(yè)
【主權(quán)項(xiàng)】
1. 一種基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,其特征在于經(jīng)過(guò)下列各步 驟: (1)將已知烤片的理化數(shù)據(jù)與煙氣C0數(shù)據(jù)對(duì)應(yīng)列出,建立數(shù)據(jù)樣本集; (2 )分別計(jì)算步驟(1)所得數(shù)據(jù)樣本集中各理化數(shù)據(jù)的列向量Xl?Xn和煙氣C0數(shù)據(jù) 的列向量y,通過(guò)下列公式分別計(jì)算各理化數(shù)據(jù)與煙氣C0的線性相關(guān)系數(shù)r,線性相關(guān)系數(shù) r的絕對(duì)值大于0. 3所對(duì)應(yīng)的該項(xiàng)理化數(shù)據(jù)即為對(duì)煙氣C0有重要影響的特征指標(biāo)項(xiàng),作為 建模用的輸入變量:
式中為某一理化數(shù)據(jù)的列向量,7為煙氣CO數(shù)據(jù)的列向量; (3) 根據(jù)不同產(chǎn)地、品種、檔次,均勻挑選245個(gè)烤片作為訓(xùn)練樣本,運(yùn)用魯棒回歸線性 建模算法,建立煙氣CO預(yù)測(cè)模型,其表達(dá)式為下式:
式中:Y為煙氣CO的模型預(yù)測(cè)值,X為理化數(shù)據(jù)向量,b為常數(shù)項(xiàng),A為回歸系數(shù)向量; (4) 依據(jù)步驟(2)選擇的特征指標(biāo)項(xiàng),將待測(cè)烤片的對(duì)應(yīng)理化數(shù)據(jù)作為輸入變量套用至 步驟(3)的預(yù)測(cè)模型中,即能測(cè)算得到待測(cè)烤片的煙氣CO的模型預(yù)測(cè)值Y。
2. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,其特征在 于:所述步驟(1)的理化數(shù)據(jù)包括總糖、還原糖、煙堿、總揮發(fā)堿、總氮、煙堿氮、蛋白質(zhì)、施 木克值、氮堿比、氯、鉀、糖堿比和氨態(tài)堿。
3. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,其特征在 于:所述步驟(3)運(yùn)用魯棒回歸線性建模算法的步驟如下: (a) 進(jìn)行局部權(quán)重回歸擬合:每一次擬合過(guò)程只考慮所有擬合點(diǎn)數(shù)的一部分,每一個(gè) 被擬合點(diǎn)的取值都由與之鄰近的局部擬合范圍的散步點(diǎn)所決定,在每一個(gè)擬合點(diǎn)處都給予 不同的權(quán)重系數(shù)$,其權(quán)重系數(shù)在擬合點(diǎn)處為1,局部擬合范圍內(nèi)擬合點(diǎn)的兩邊各點(diǎn)的權(quán) 重系數(shù)依次以一定的規(guī)則遞減至零,超出擬合范圍的數(shù)據(jù)點(diǎn)處的權(quán)重均為0,其代數(shù)表達(dá)式 為:
式中:irf為每個(gè)擬合點(diǎn)的權(quán)重系數(shù),&為實(shí)測(cè)值,&為計(jì)算值; (b) 按下式計(jì)算調(diào)整殘差:
式中a為普通最小二乘法的殘差,~為殘差調(diào)整杠桿值,用于降低影響擬合值較大點(diǎn) 處的權(quán)重,T為轉(zhuǎn)置; 標(biāo)準(zhǔn)調(diào)整殘差由下式給出:
式中:K為調(diào)整參數(shù),取4. 685 ;s為魯棒性偏差;MAD是殘差的中值絕對(duì)偏差; (c) 按下式計(jì)算在局部擬合范圍內(nèi)每一點(diǎn)的魯棒性權(quán)重:
(d) 對(duì)于式(2),將常數(shù)項(xiàng)b納入到回歸系數(shù)向量中,則式(2)簡(jiǎn)化為:
依據(jù)權(quán)重最小二乘法求解使得下式取最小值的回歸系數(shù)向量A,并計(jì)算在X(l處的^ 值:
式中:J為權(quán)重最小二乘法求解的目標(biāo)函數(shù)。
4. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,其特征在 于:所述步驟(3)的預(yù)測(cè)模型通過(guò)下列各步驟對(duì)擬合性能和推廣性能進(jìn)行評(píng)價(jià): 根據(jù)不同產(chǎn)地、品種、檔次,均勻挑選45個(gè)與步驟(3)不同的烤片理化數(shù)據(jù)作為測(cè)試樣 本,套用至步驟(3)的預(yù)測(cè)模型中進(jìn)行性能測(cè)試,預(yù)測(cè)結(jié)果需同時(shí)滿足如下兩個(gè)條件,即判 定模型性能達(dá)到預(yù)測(cè)要求: A、 測(cè)試樣本與訓(xùn)練樣本的預(yù)測(cè)平均誤差相當(dāng),即為下式所示:
式中:errtMin為預(yù)測(cè)模型對(duì)訓(xùn)練樣本的平均誤差,errtest為預(yù)測(cè)模型對(duì)測(cè)試樣本的平 均誤差; B、 測(cè)試樣本的預(yù)測(cè)值與實(shí)際值呈顯著的線性相關(guān)關(guān)系,即為下式所示:
式中:為測(cè)試樣本的預(yù)測(cè)值,y為測(cè)試樣本的實(shí)測(cè)值。
5. 根據(jù)權(quán)利要求3所述的基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,其特征在 于:所述步驟(d)的魯棒性權(quán)重若其擬合誤差未達(dá)到下列擬合誤差要求時(shí),從步驟(b)開始 迭代計(jì)算,直至誤差達(dá)到要求或達(dá)到限定迭代次數(shù)為止:
【專利摘要】本發(fā)明提供一種基于魯棒回歸建模預(yù)測(cè)烤片煙氣一氧化碳的方法,通過(guò)已有的烤片理化數(shù)據(jù)和煙氣CO數(shù)據(jù)建立從理化指標(biāo)項(xiàng)到煙氣CO的模型,對(duì)于未知烤片煙氣CO樣本,可以利用其理化成分?jǐn)?shù)據(jù)直接預(yù)測(cè)烤片煙氣CO值。本發(fā)明省去了由傳統(tǒng)化學(xué)方式進(jìn)行卷制、燃燒、捕捉煙氣、檢測(cè)等步驟;同時(shí),采用魯棒回歸模型,可以有效地避免因理化數(shù)據(jù)或煙氣數(shù)據(jù)中奇異值樣本導(dǎo)致的弊端,很大程度上保證模型的健壯性,這點(diǎn)正是魯棒回歸建模優(yōu)于普通線性回歸建模的優(yōu)點(diǎn)。實(shí)踐證明,該模型能夠有效地預(yù)測(cè)烤片的煙氣CO值,極大地提高檢測(cè)效率,降低檢測(cè)成本。
【IPC分類】G06Q10-04
【公開號(hào)】CN104573842
【申請(qǐng)?zhí)枴緾N201410384898
【發(fā)明人】白曉莉, 魏帥, 吳麗君, 段如敏, 余賀龍, 王保興, 朱勇, 盧偉, 劉挺
【申請(qǐng)人】云南中煙工業(yè)有限責(zé)任公司
【公開日】2015年4月29日
【申請(qǐng)日】2014年8月7日