基于logistic與相關信息熵的特征基因選擇方法
【技術領域】
[0001] 本發(fā)明涉及數據處理技術領域,尤其涉及一種基于logistic與相關信息熵的特 征基因選擇方法。
【背景技術】
[0002] 隨著大規(guī)模基因表達譜技術的發(fā)展,基因表達數據的分析與建模已經成為生物信 息學研宄領域中的重要課題?;虮磉_數據具有高維小樣本的特點,對學習分類造成嚴重 的影響,因此需采用某種優(yōu)化算法從基因表達譜數據的所有屬性中選擇出一個最具有疾病 識別能力的特征基因子集,選擇出的基因子集在癌癥識別過程中起著重要的作用。由于 "高維小樣本"的特點,常用的數據挖掘中的很多分類器對訓練數據樣本有較高的分類正確 率,但是它們對未見過的測試數據表現的診斷正確率有可能很差。有些基因在功能上具有 相似性,還有些基因對區(qū)分疾病類型無關或者所起的作用微乎其微,因此在數據分析中其 特征的選擇方法往往比分類器的選擇更重要。如果某基因在不同類別樣本中的表達值有 明顯區(qū)別,那么該基因就很可能對疾病的診斷預測,很強的鑒別力。如何利用這種具有高 維、高相關、高噪音、數量有限的基因芯片數據,識別出對疾病有鑒別意義的特征基因組,這 對數據挖掘研宄提出了新的課題,并成為目前基因表達數據處理和分析的熱點研宄問題。 logistic回歸模型是一種線性回歸模型,它克服傳統(tǒng)方法在選擇模型上的不足,避免了因 離散化而造成信息丟失,具有簡單有效、魯棒性等特點;而相關信息熵可以解決基因之間存 在較強的冗余問題,防止樣本數據與模型出現過擬合。
[0003] 一個好的基于基因數據表達譜的特征選擇方法應具有:(1)能夠包含基因間的相 互作用的信息;(2)基因選擇的標準應該基于基因組的表現性能而不是個別單獨基因與分 類的相關性;(3)所選擇基因里應當包含那些對疾病鑒別或疾病分類輔助作用的基因;(4) 所選擇的基因應該是與疾病緊密相連的,對鑒別不同的疾病能力強,能為研宄疾病的病因 提供重要的線索,而不是因為其細胞的構成或成分不同而被選擇;(5)所使用的方法盡可 能地合理高效,并能找到所含特征基因個數較少的典型基因組。
[0004] 現在的方法在一定程度上解決了冗余帶來的負面影響,但在基因選擇過程中直接 利用學習算法來評估基因子集,仍存在較高風險的過擬合、泛化性能差等問題。
【發(fā)明內容】
[0005] 本發(fā)明要解決的技術問題是克服現有的特征基因選擇方法的不足,提供一種基于 logistic與相關信息熵的特征基因選擇方法,能夠用較少的基因數目得到較大的分類正確 率,同時兼顧較小的時空開銷。
[0006] 本發(fā)明提供一種基于logistic與相關信息j:商的特征基因選擇方法,包括如下步 驟:
[0007] (1)通過logistic模型對乳腺癌數據集和胃癌數據集進行l(wèi)ogistic逐步回歸,得 到特征子集ST 2;
[0008] ⑵對特征子集STjP ST 2分別按照近似2 : 1的比例分配到S train和S test;
[0009] (3)初始化特征基因子集F和相關信息熵H ;
[0010] (4)利用Relief算法對特征基因賦權值,得到特征基因權值w = (WpW2,…,wn};
[0011] (5)比較獲得的特征基因權值與設定的閾值δ ;
[0012] (6)若特征基因 gi的權值w i小于Relief閾值δ,將g i刪除;
[0013] (7)若特征基因 gi的權值w i大于Relief閾值δ,將g 1插入到特征集合F,轉到步 驟(5);
[0014] (8)將F特征基因權值從大到小排序得到Fs,依次為Fs= {g i,g2,…,gm};
[0015] (9)再次初始化特征基因子集F ;
[0016] (10)將FjX值最大的基因 g i添加到特征基因子集F中,并計算其相關信息熵 He (Fugi);
[0017] (11)判斷加入該特征基因子集的相關信息熵是否變化;
[0018] (12)如果相關信息熵減小,去掉該基因;
[0019] (13)如果相關信息熵增大,將該基因加到特征基因子集F中,轉到步驟(10);
[0020] (14)返回特征子集F,算法結束。
[0021] 在本發(fā)明所述的基于logistic和相關信息j:商的特征基因選擇方法中,logistic 回歸模型由條件概率分布P (YIX)表示,形式為參數化的邏輯斯諦分布,我們把logistic回 歸模型表示為
【主權項】
1. 一種基于logistic與相關信息滴的特征基因選擇方法,其特征在于,其包括W下步 驟: (I) 通過logistic模型對乳腺癌數據集和胃癌數據集進行l(wèi)ogistic逐步回歸,得到特 征子集STi和ST 2; 似對特征子集STi和ST 2分別按照近似2 : 1的比例分配到S trai濟S test; (3) 初始化特征基因子集F和相關信息滴H ; (4) 利用Relief算法對特征基因賦權值,得到特征基因權值w= {wi,W2,…,W。}; (5) 比較獲得的特征基因權值與設定的闊值5 ; 做若特征基因&的權值W i小于Relief闊值S,將g i刪除; (7)若特征基因gi的權值W i大于Relief闊值S,將g i插入到特征集合F,轉到步驟 (5); 做將F特征基因權值從大到小排序得到Fs,依次為Fs= {gi,g2,…,g。}; (9) 再次初始化特征基因子集F ; (10) 將F,權值最大的基因gi添加到特征基因子集F中,并計算其相關信息滴 咕師&); (II) 判斷加入該特征基因子集的相關信息滴是否變化; (12) 如果相關f目息滴減小,去掉該基因; (13) 如果相關信息滴增大,將該基因加到特征基因子集F中,轉到步驟(10); (14) 返回特征子集F,算法結束。
2. 如權利要求1所述的基于logistic與相關信息滴的特征基因選擇方法,其特征 在于,logistic回歸模型由條件概率分布P(Y|幻表示,形式為參數化的邏輯斯嘯分布, logistic回歸模型表示為
其中,X G RD是輸入變量,Y G {Oa}是輸出變量,w,x為W和X的內積,其中w= (W W, W?,. . .,wW,b)T,x = (xW,x?,. . .,xW,l)T,w為權值向量,b為偏置姻果事件發(fā)生的概率 為P,則該事件的幾率是,該事件的對數幾率或logit函數3 ; 1 一尸 logistic回歸比較兩個條件概率值的大小,將實例X劃分到概率值較大的類中。
3. 如權利要求1所述的基于logistic與相關信息滴的特征基因選擇方法,其特征在 于,基因的個數為N,特征基因子集中基因的個數為W,在相關系數矩陣中存在特征值A j.,且 入j>0, j = 1,2,...,W,且W<<N,則特征基因相關信息滴為
【專利摘要】本發(fā)明公開了一種基于logistic與相關信息熵新的特征基因選擇方法,包括以下步驟:對數據集進行l(wèi)ogistic回歸,獲得對分類影響較大的基因變量,利用Relief算法對基因變量賦值并排序,向初始特征基因集合添加最大特征值基因,計算相關信息熵。本發(fā)明將機器學習中的logistic回歸模型引入特征基因選擇方法中,獲得高質量的基因表達譜;利用相關信息熵度量基因變量之間的相關性,剔除冗余基因,通過搜索特征基因空間集獲取分類能力較強且基因數目較少的特征基因子集。
【IPC分類】G06F19-22
【公開號】CN104598774
【申請?zhí)枴緾N201510057261
【發(fā)明人】徐久成, 李濤, 孫林, 孟慧麗, 馬媛媛, 張倩倩, 徐天賀, 胡玉文, 李曉艷, 馮森
【申請人】河南師范大學
【公開日】2015年5月6日
【申請日】2015年2月4日