一種面向snp數(shù)據(jù)的特征選擇方法

文檔序號：6360622閱讀：493來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向snp數(shù)據(jù)的特征選擇方法
技術(shù)領(lǐng)域：
本發(fā)明涉及對具有高維度小樣本特性的海量數(shù)據(jù)進(jìn)行特征選擇的相關(guān)技術(shù)，特別是設(shè)計一種面向SNP數(shù)據(jù)的特征選擇方法，屬于計算機(jī)應(yīng)用技術(shù)領(lǐng)域。
背景技術(shù)：
對具有高維度小樣本特性的數(shù)據(jù)進(jìn)行特征選擇是數(shù)據(jù)挖掘領(lǐng)域研究熱點之一。該類型數(shù)據(jù)普遍存在數(shù)據(jù)量巨大、特征維度高、樣本數(shù)量少的特點。常用的數(shù)據(jù)分析方法具有樣本趨向性，進(jìn)行高維小樣本數(shù)據(jù)分析的效率低而準(zhǔn)確性不高。SNP是single nucleotide polymorphism的縮寫，即單核苷酸多態(tài)性,指的是在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。SNP是人類基因組最豐富的遺傳變異，因此，準(zhǔn)確定位疾病相關(guān)的關(guān)鍵SNPs，SNPs是SNP的集合，有助于定位致病基因，研究復(fù)雜疾病的遺傳機(jī)理，輔助個性化治療。SNP特征選擇的目的，在于高效、準(zhǔn)確定位關(guān)鍵SNPs。SNP數(shù)據(jù)是典型的高維度小樣本數(shù)據(jù)，是SNP特征選擇的困難一。復(fù)雜疾病的誘因復(fù)雜，通常由多個基因共同作用導(dǎo)致，在SNP層面，表現(xiàn)為SNP數(shù)據(jù)特征之間存在著關(guān)聯(lián)關(guān)系，是SNP特征選擇的困難二。傳統(tǒng)的特征選擇算法中，Relief算法能有效評估和剔除無關(guān)特征，而SVM-RFE算法能對關(guān)鍵性程度進(jìn)行排序。但是前者忽略特征之間關(guān)聯(lián)關(guān)系，后者算法效率低下。

發(fā)明內(nèi)容
為解決以上SNP數(shù)據(jù)分析中的問題，本發(fā)明目的在于提供一種面向SNP數(shù)據(jù)的特征選擇方法，將Relief算法和SVM-RFE算法改善并結(jié)合，解決SNP特征選擇的兩大困難，并提高特征選擇效率和準(zhǔn)確率。為達(dá)到上述目的，本發(fā)明的構(gòu)思是首先將數(shù)據(jù)進(jìn)行清洗和編碼，然后用重新設(shè)計的Relief算法剔除無關(guān)SNP特征，再用SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序，最后使用十字交叉驗證來篩選關(guān)鍵SNPs。根據(jù)上述的發(fā)明構(gòu)思，本發(fā)明采用下述技術(shù)方案
一種面向SNP數(shù)據(jù)的特征選擇方法，其具體操作步驟如下
(A)、進(jìn)行數(shù)據(jù)預(yù)處理；
(B)、用重新設(shè)計的Relief算法剔除無關(guān)SNP特征；
(C)、用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序；
(D)、使用十字交叉驗證來篩選關(guān)鍵SNPs。
上述步驟(A)進(jìn)行數(shù)據(jù)預(yù)處理的具體操作步驟如下
Al)貼類別標(biāo)簽SNP數(shù)據(jù)屬于二分類樣本，即樣本只有患病-case組和健康-normal組兩類，case組貼類別標(biāo)簽{+1}，normal組貼類別標(biāo)簽{_1}；
A2)數(shù)據(jù)編碼基因芯片檢測出的SNP分型結(jié)果，共有四種形式野生純合型AA、突變雜合型AB、突變純合型BB，分型失敗標(biāo)記NC ;將AA編碼為0，AB編碼為1，BB編碼為2 ；NC在數(shù)據(jù)清洗過程中被清洗掉，不進(jìn)行編碼；
A3)數(shù)據(jù)清洗。NC在SNP數(shù)據(jù)分析中屬于噪聲數(shù)據(jù)，當(dāng)某SNP特征在所有樣本中的NC標(biāo)記超過50%時，剔除此SNP特征；當(dāng)某一樣本在所有SNP特征上的NC標(biāo)記超過50%，剔除該樣本；對于未被剔除的NC位點，使用該SNP特征處分型值所占比例最大的分型值替換NC。上述步驟B中將預(yù)處理后的SNP數(shù)據(jù)，用重新設(shè)計的Relief算法剔除無關(guān)SNP特征的操作步驟是
BI)計算兩兩樣本距離，構(gòu)成樣本距離矩陣
樣本5；和&距離計算公式為
權(quán)利要求
1.一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于具體操作步驟如下 (1)、進(jìn)行數(shù)據(jù)預(yù)處理； (2)、用重新設(shè)計的Relief算法剔除無關(guān)SNP特征； (3)、用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序； (4)、使用十字交叉驗證來篩選關(guān)鍵SNPs。
2.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于，所述步驟(1)中的進(jìn)行數(shù)據(jù)預(yù)處理，其具體操作操作如下 1-1)貼類別標(biāo)簽SNP數(shù)據(jù)屬于二分類樣本，即樣本只有患病-case組和健康-normal組兩類，case組貼類別標(biāo)簽{+1}，normal組貼類別標(biāo)簽{_1}； 1-2)數(shù)據(jù)編碼基因芯片檢測出的SNP分型結(jié)果，共有四種形式野生純合型AA、突變雜合型AB、突變純合型BB，分型失敗標(biāo)記NC ;將AA編碼為0，AB編碼為1，BB編碼為2 ；NC在數(shù)據(jù)清洗過程中被清洗掉，不進(jìn)行編碼； 1-3)數(shù)據(jù)清洗NC在SNP數(shù)據(jù)分析中屬于噪聲數(shù)據(jù)，當(dāng)某SNP特征在所有樣本中的NC標(biāo)記超過50%時，剔除此SNP特征；當(dāng)某一樣本在所有SNP特征上的NC標(biāo)記超過50%，剔除該樣本；對于未被剔除的NC位點，使用該SNP特征處分型值所占比例最大的分型值替換NC。
3.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于，所述步驟(2)中的用重新設(shè)計的Relief算法剔除無關(guān)SNP特征，其具體步驟如下 2-1)計算兩兩樣本距離，構(gòu)成樣本距離矩陣樣本
4.根據(jù)權(quán)利要求3所述的一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于，所述步驟2-3)中的計算SNP的Relief權(quán)重的操作步驟是 2-3-1)初始化呼
5.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于，所步驟(3)中的用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序，其具體操作步驟如下 3-1)通過SVM訓(xùn)練獲取特征準(zhǔn)則分?jǐn)?shù) 第i個SNP特征準(zhǔn)則分?jǐn)?shù)計算公式為Ci =Wi2，其中Wi為SVM訓(xùn)練模型中的權(quán)向量； 3-2)判斷是否需要二次劃分，若特征集合規(guī)模大于I萬，則轉(zhuǎn)步驟3-3);否則轉(zhuǎn)步驟3-4)； 3-3) 二次劃分確定待刪除特征為集合f ； 3-4)確定待刪除特征為準(zhǔn)則分?jǐn)?shù)q 最小的特征； 3-5)將待刪除特征從待分析特征集合刪除，加到關(guān)鍵性程度排序集S。
6.根據(jù)權(quán)利要求5所述的一種面向SNP數(shù)據(jù)的特征選擇方法，其特征在于，所述步驟3-3)中二次劃分確定待刪除特征為集合f，其具體操作步驟如下 3-3-1)初始化待劃分集合為當(dāng)前待分析集合； 3-3-2)計算待劃分集合的分類準(zhǔn)則分?jǐn)?shù)CJ的一階差分AC; = Cj-Cm . 3-3-3)選取Aq中K-I個峰值，將兩個峰值之間的SNP作為一組劃分，記為Gl，G2…Gk ；其中K為分組參數(shù)，此處K設(shè)置為10; 3-3-4)將待劃分集合設(shè)置為Gl，進(jìn)行二次劃分，劃分方法同上，結(jié)果記為Ml，M2…Mk ; 3-3-5)待刪除集合f=Ml。
7.根據(jù)權(quán)利要求I所述的一種面向SNP數(shù)據(jù)分析的特征選擇方法，其特征在于，所述步驟(4)中的使用十字交叉驗證來篩選關(guān)鍵SNPs，其具體步驟是 4-1)從SNP關(guān)鍵程度表中選擇前I、前2…前n個SNP進(jìn)行十字交叉驗證，直到分類準(zhǔn)確率達(dá)到穩(wěn)定為止； 4-2)選擇分類準(zhǔn)確率最高，集合規(guī)模最小的SNP組合作為關(guān)鍵SNPs輸出。
8.根據(jù)權(quán)利要求7所述的一種面向SNP數(shù)據(jù)分析的特征選擇方法，其特征在于，所述步驟(4-2)中所述的關(guān)鍵SNPs是指與疾病具有最高關(guān)聯(lián)關(guān)系的SNP特征集合，其評估依據(jù)十字交叉驗證獲得的將樣本正確分類的分類準(zhǔn)確率，選擇分類準(zhǔn)確率穩(wěn)定后具有最高分類準(zhǔn)確率的SNP集合，作為關(guān)鍵SNPs。
全文摘要
本發(fā)明公開了一種面向SNP數(shù)據(jù)的特征選擇方法。其具體步驟如下首先進(jìn)行數(shù)據(jù)預(yù)處理；然后用重新設(shè)計的Relief算法剔除無關(guān)SNP特征；然后用改進(jìn)的SVM-RFE算法對SNP特征進(jìn)行關(guān)鍵性程度排序；最后使用十字交叉驗證來篩選關(guān)鍵SNPs。該發(fā)明結(jié)合了Filter式特征選擇和Wrapper式特征選擇的優(yōu)勢，并在機(jī)器學(xué)習(xí)過程中使用二次劃分方法，解決了SNP數(shù)據(jù)特征選擇中的高維小樣本及SNP致病組合模式的問題，提高了分析效率和準(zhǔn)確率。
文檔編號G06F19/22GK102629305SQ20121005556
公開日2012年8月8日申請日期2012年3月6日優(yōu)先權(quán)日2012年3月6日
發(fā)明者劉宗田, 吳悅, 吳紅霞, 張文賓, 雷州申請人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳悅;吳紅霞;雷州;劉宗田;張文賓
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

面向數(shù)據(jù)流的設(shè)計方法相關(guān)技術(shù)

面向數(shù)據(jù)流的分析方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種面向snp數(shù)據(jù)的特征選擇方法