專利名稱:一種面向snp數(shù)據(jù)的特征選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對具有高維度小樣本特性的海量數(shù)據(jù)進(jìn)行特征選擇的相關(guān)技術(shù),特別是設(shè)計一種面向SNP數(shù)據(jù)的特征選擇方法,屬于計算機(jī)應(yīng)用技術(shù)領(lǐng)域。
背景技術(shù):
對具有高維度小樣本特性的數(shù)據(jù)進(jìn)行特征選擇是數(shù)據(jù)挖掘領(lǐng)域研究熱點之一。該類型數(shù)據(jù)普遍存在數(shù)據(jù)量巨大、特征維度高、樣本數(shù)量少的特點。常用的數(shù)據(jù)分析方法具有樣本趨向性,進(jìn)行高維小樣本數(shù)據(jù)分析的效率低而準(zhǔn)確性不高。SNP是single nucleotide polymorphism的縮寫,即單核苷酸多態(tài)性,指的是在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。SNP是人類基因組最豐富的遺傳變異,因此,準(zhǔn)確定位疾病相關(guān)的關(guān)鍵SNPs,SNPs是SNP的集合,有助于定位致病基因,研究復(fù)雜疾病的遺傳機(jī)理,輔助個性化治療。SNP特征選擇的目的,在于高效、準(zhǔn)確定位關(guān)鍵SNPs。SNP數(shù)據(jù)是典型的高維度小樣本數(shù)據(jù),是SNP特征選擇的困難一。復(fù)雜疾病的誘因復(fù)雜,通常由多個基因共同作用導(dǎo)致,在SNP層面,表現(xiàn)為SNP數(shù)據(jù)特征之間存在著關(guān)聯(lián)關(guān)系,是SNP特征選擇的困難二。傳統(tǒng)的特征選擇算法中,Relief算法能有效評估和剔除無關(guān)特征,而SVM-RFE算法能對關(guān)鍵性程度進(jìn)行排序。但是前者忽略特征之間關(guān)聯(lián)關(guān)系,后者算法效率低下。
發(fā)明內(nèi)容
為解決以上SNP數(shù)據(jù)分析中的問題,本發(fā)明目的在于提供一種面向SNP數(shù)據(jù)的特征選擇方法,將Relief算法和SVM-RFE算法改善并結(jié)合,解決SNP特征選擇的兩大困難,并提高特征選擇效率和準(zhǔn)確率。為達(dá)到上述目的,本發(fā)明的構(gòu)思是首先將數(shù)據(jù)進(jìn)行清洗和編碼,然后用重新設(shè)計的Relief算法剔除無關(guān)SNP特征,再用SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序,最后使用十字交叉驗證來篩選關(guān)鍵SNPs。根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案
一種面向SNP數(shù)據(jù)的特征選擇方法,其具體操作步驟如下
(A)、進(jìn)行數(shù)據(jù)預(yù)處理;
(B)、用重新設(shè)計的Relief算法剔除無關(guān)SNP特征;
(C)、用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序;
(D)、使用十字交叉驗證來篩選關(guān)鍵SNPs。
上述步驟(A)進(jìn)行數(shù)據(jù)預(yù)處理的具體操作步驟如下
Al)貼類別標(biāo)簽SNP數(shù)據(jù)屬于二分類樣本,即樣本只有患病-case組和健康-normal組兩類,case組貼類別標(biāo)簽{+1},normal組貼類別標(biāo)簽{_1};
A2)數(shù)據(jù)編碼基因芯片檢測出的SNP分型結(jié)果,共有四種形式野生純合型AA、突變雜合型AB、突變純合型BB,分型失敗標(biāo)記NC ;將AA編碼為0,AB編碼為1,BB編碼為2 ;NC在數(shù)據(jù)清洗過程中被清洗掉,不進(jìn)行編碼;
A3)數(shù)據(jù)清洗。NC在SNP數(shù)據(jù)分析中屬于噪聲數(shù)據(jù),當(dāng)某SNP特征在所有樣本中的NC標(biāo)記超過50%時,剔除此SNP特征;當(dāng)某一樣本在所有SNP特征上的NC標(biāo)記超過50%,剔除該樣本;對于未被剔除的NC位點,使用該SNP特征處分型值所占比例最大的分型值替換NC。上述步驟B中將預(yù)處理后的SNP數(shù)據(jù),用重新設(shè)計的Relief算法剔除無關(guān)SNP特征的操作步驟是
BI)計算兩兩樣本距離,構(gòu)成樣本距離矩陣
樣本5;和&距離計算公式為
權(quán)利要求
1.一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于具體操作步驟如下 (1)、進(jìn)行數(shù)據(jù)預(yù)處理; (2)、用重新設(shè)計的Relief算法剔除無關(guān)SNP特征; (3)、用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序; (4)、使用十字交叉驗證來篩選關(guān)鍵SNPs。
2.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于,所述步驟(1)中的進(jìn)行數(shù)據(jù)預(yù)處理,其具體操作操作如下 1-1)貼類別標(biāo)簽SNP數(shù)據(jù)屬于二分類樣本,即樣本只有患病-case組和健康-normal組兩類,case組貼類別標(biāo)簽{+1},normal組貼類別標(biāo)簽{_1}; 1-2)數(shù)據(jù)編碼基因芯片檢測出的SNP分型結(jié)果,共有四種形式野生純合型AA、突變雜合型AB、突變純合型BB,分型失敗標(biāo)記NC ;將AA編碼為0,AB編碼為1,BB編碼為2 ;NC在數(shù)據(jù)清洗過程中被清洗掉,不進(jìn)行編碼; 1-3)數(shù)據(jù)清洗NC在SNP數(shù)據(jù)分析中屬于噪聲數(shù)據(jù),當(dāng)某SNP特征在所有樣本中的NC標(biāo)記超過50%時,剔除此SNP特征;當(dāng)某一樣本在所有SNP特征上的NC標(biāo)記超過50%,剔除該樣本;對于未被剔除的NC位點,使用該SNP特征處分型值所占比例最大的分型值替換NC。
3.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于,所述步驟(2)中的用重新設(shè)計的Relief算法剔除無關(guān)SNP特征,其具體步驟如下 2-1)計算兩兩樣本距離,構(gòu)成樣本距離矩陣 樣本
4.根據(jù)權(quán)利要求3所述的一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于,所述步驟2-3)中的計算SNP的Relief權(quán)重的操作步驟是 2-3-1)初始化呼
5.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于,所步驟(3)中的用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序,其具體操作步驟如下 3-1)通過SVM訓(xùn)練獲取特征準(zhǔn)則分?jǐn)?shù) 第i個SNP特征準(zhǔn)則分?jǐn)?shù)計算公式為Ci =Wi2,其中Wi為SVM訓(xùn)練模型中的權(quán)向量; 3-2)判斷是否需要二次劃分,若特征集合規(guī)模大于I萬,則轉(zhuǎn)步驟3-3);否則轉(zhuǎn)步驟3-4); 3-3) 二次劃分確定待刪除特征為集合f ; 3-4)確定待刪除特征為準(zhǔn)則分?jǐn)?shù)q 最小的特征; 3-5)將待刪除特征從待分析特征集合刪除,加到關(guān)鍵性程度排序集S。
6.根據(jù)權(quán)利要求5所述的一種面向SNP數(shù)據(jù)的特征選擇方法,其特征在于,所述步驟3-3)中二次劃分確定待刪除特征為集合f,其具體操作步驟如下 3-3-1)初始化待劃分集合為當(dāng)前待分析集合; 3-3-2)計算待劃分集合的分類準(zhǔn)則分?jǐn)?shù)CJ的一階差分AC; = Cj-Cm . 3-3-3)選取Aq中K-I個峰值,將兩個峰值之間的SNP作為一組劃分,記為Gl,G2…Gk ; 其中K為分組參數(shù),此處K設(shè)置為10; 3-3-4)將待劃分集合設(shè)置為Gl,進(jìn)行二次劃分,劃分方法同上,結(jié)果記為Ml,M2…Mk ; 3-3-5)待刪除集合f=Ml。
7.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)分析的特征選擇方法,其特征在于,所述步驟(4)中的使用十字交叉驗證來篩選關(guān)鍵SNPs,其具體步驟是 4-1)從SNP關(guān)鍵程度表中選擇前I、前2…前n個SNP進(jìn)行十字交叉驗證,直到分類準(zhǔn)確率達(dá)到穩(wěn)定為止; 4-2)選擇分類準(zhǔn)確率最高,集合規(guī)模最小的SNP組合作為關(guān)鍵SNPs輸出。
8.根據(jù)權(quán)利要求7所述的一種面向SNP數(shù)據(jù)分析的特征選擇方法,其特征在于,所述步驟(4-2)中所述的關(guān)鍵SNPs是指與疾病具有最高關(guān)聯(lián)關(guān)系的SNP特征集合,其評估依據(jù)十字交叉驗證獲得的將樣本正確分類的分類準(zhǔn)確率,選擇分類準(zhǔn)確率穩(wěn)定后具有最高分類準(zhǔn)確率的SNP集合, 作為關(guān)鍵SNPs。
全文摘要
本發(fā)明公開了一種面向SNP數(shù)據(jù)的特征選擇方法。其具體步驟如下首先進(jìn)行數(shù)據(jù)預(yù)處理;然后用重新設(shè)計的Relief算法剔除無關(guān)SNP特征;然后用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序;最后使用十字交叉驗證來篩選關(guān)鍵SNPs。該發(fā)明結(jié)合了Filter式特征選擇和Wrapper式特征選擇的優(yōu)勢,并在機(jī)器學(xué)習(xí)過程中使用二次劃分方法,解決了SNP數(shù)據(jù)特征選擇中的高維小樣本及SNP致病組合模式的問題,提高了分析效率和準(zhǔn)確率。
文檔編號G06F19/22GK102629305SQ20121005556
公開日2012年8月8日 申請日期2012年3月6日 優(yōu)先權(quán)日2012年3月6日
發(fā)明者劉宗田, 吳悅, 吳紅霞, 張文賓, 雷州 申請人:上海大學(xué)