用于腫瘤檢測(cè)的基因選擇方法

文檔序號(hào)：6568339閱讀：632來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于腫瘤檢測(cè)的基因選擇方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于腫瘤檢測(cè)的基因選擇方法，尤其涉及一種用于腫瘤檢測(cè)的對(duì)DNA微陣列中腫瘤相關(guān)基因進(jìn)行選擇的基因選擇方法
背景技術(shù)：
常規(guī)的腫瘤檢測(cè)方法是建立在形態(tài)學(xué)基礎(chǔ)之上的，它高度依賴于病理學(xué)專家對(duì)腫瘤組織的主觀判斷。環(huán)境條件的差異性給疾病的診斷帶來(lái)許多不確定性的因素，進(jìn)而影響預(yù)測(cè)判斷的結(jié)果。DNA微陣列隨著人類基因組的研究應(yīng)運(yùn)而生，它使用微縮技術(shù)，將核酸高密集有序地排列在固定的區(qū)域內(nèi)作為微型的DNA檢測(cè)器件，以發(fā)現(xiàn)DNA中基因的內(nèi)在聯(lián)系。對(duì)癌癥和正常的DNA片段進(jìn)行比對(duì)操作，同時(shí)觀察數(shù)千種基因的各自表達(dá)情況，并利用數(shù)據(jù)分析技術(shù)推斷出基因之間的相互關(guān)系，依此對(duì)疾病的類型和診斷等做出精確的判斷，從而幫助專家對(duì)疾病做出正確的診斷。由于DNA微陣列是某組織或細(xì)胞中所有基因的表達(dá)數(shù)據(jù)，維數(shù)通常達(dá)到幾千或上萬(wàn)維，但在實(shí)際應(yīng)用中只有很小一部分基因?qū)δ[瘤診斷具有價(jià)值，而大部分基因是無(wú)用的或與分析無(wú)關(guān)的。同時(shí)，由于實(shí)際臨床治療中病例樣本一般較少和微陣列實(shí)驗(yàn)成本很高等原因，大多數(shù)基因表達(dá)樣本集都具有很少數(shù)量的樣本和數(shù)以萬(wàn)計(jì)的基因，過(guò)多的基因?qū)?shù)據(jù)分析方法而言是不適宜的。開(kāi)發(fā)有效的基因表達(dá)數(shù)據(jù)分析和學(xué)習(xí)工具已經(jīng)成為腫瘤檢測(cè)研究的熱點(diǎn)問(wèn)題之一?；蜻x擇是利用機(jī)器學(xué)習(xí)的方法從成千上萬(wàn)個(gè)基因中挑選出與腫瘤檢測(cè)相關(guān)的基因，從而建立精簡(jiǎn)的預(yù)測(cè)模型，為腫瘤的治療提供可靠的診斷結(jié)果。在機(jī)器學(xué)習(xí)的應(yīng)用中，基因選擇又被稱為特征選擇。目前，現(xiàn)有的機(jī)器學(xué)習(xí)中的特征選擇方法常常是選擇與目標(biāo)相關(guān)性最大且冗余性最小的特征，而在DNA微陣列中往往是幾個(gè)高度相關(guān)的基因共同表達(dá)一類疾病，因此已有的特征選擇算法在腫瘤檢測(cè)的應(yīng)用中并不理想。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用于腫瘤檢測(cè)的對(duì)DNA微陣列中腫瘤相關(guān)基因進(jìn)行選擇的基因選擇方法，能夠根據(jù)已選基因與待選基因之間的相關(guān)性特征動(dòng)態(tài)地調(diào)整待選基因的權(quán)值，從而最大限度地選出具有較高正確診斷率基因，提供可靠的診斷結(jié)果和治療方案。一種用于腫瘤檢測(cè)的基因選擇方法，包括以下步驟1.預(yù)處理模塊獲取初始輸入的基因樣本，并對(duì)初始樣本進(jìn)行預(yù)處理，生成候選基因集合，并提供給基因權(quán)值評(píng)估模塊；2.所述基因權(quán)值評(píng)估模塊首先對(duì)輸入的所述候選基因集合中的每個(gè)基因賦予相同的權(quán)值為I，生成加權(quán)候選基因集合，并進(jìn)入基因選擇流程；3.所述基因選擇流程為A.基因選擇模塊從所述基因權(quán)值評(píng)估模塊獲得所述加權(quán)候選基因集合；B.所述基因選擇模塊計(jì)算每個(gè)基因與目標(biāo)類的相關(guān)度并乘以該基因的權(quán)值，得到每個(gè)基因的優(yōu)先級(jí)；C.所述基因選擇模塊按照候選基因集合中每個(gè)基因的優(yōu)先級(jí)從大到小依次排列，具有最聞優(yōu)先級(jí)的基因成為最新選擇基因，將該基因加入最優(yōu)基因集合，并將其從候選基因集合中刪除；D.所述基因選擇模塊判斷是否符合終止條件，如果不符合，將所述最新選擇基因輸入相關(guān)性分析模塊，繼續(xù)進(jìn)行步驟E ;如果符合終止條件，則結(jié)束基因選擇，輸出最優(yōu)基因集合給分類器；E.所述相關(guān)性分析模塊對(duì)候選基因集合中的每個(gè)基因與所述最新選擇基因之間進(jìn)行相關(guān)性分析，計(jì)算所述候選基因集合中的每個(gè)基因的權(quán)值的調(diào)整系數(shù)，進(jìn)而獲得調(diào)整系數(shù)向量；F.所述基因權(quán)值評(píng)估模塊根據(jù)所述調(diào)整系數(shù)向量對(duì)候選基因集合中的每個(gè)基因的權(quán)值進(jìn)行調(diào)整，得到新的加權(quán)候選基因集合，再返回到步驟A。其中步驟I所述預(yù)處理包括規(guī)范化處理和離散化處理，所述候選基因集合為特征矩陣，列數(shù)表示基因數(shù)，行數(shù)為樣本數(shù)，其大小由輸入樣本決定；所述規(guī)范化處理是通過(guò)計(jì)算樣本的均值U和標(biāo)準(zhǔn)方差O ,對(duì)每個(gè)樣本所對(duì)應(yīng)的基因值X規(guī)范化為(x-1i)/o，從而使得每個(gè)基因的均值為0和標(biāo)準(zhǔn)方差為I ;所述離散化處理的方法是基因值的范圍為(-①，-0. 5]時(shí)轉(zhuǎn)化為1，基因值的范圍在(-0. 5,0. 5)的轉(zhuǎn)化為2，基因值的范圍為
時(shí)轉(zhuǎn)化為I，基因值的范圍在(-0.5,0. 5)的轉(zhuǎn)化為2,基因值的范圍為[0. 5, + °° )轉(zhuǎn)化為3。
5.根據(jù)權(quán)利要求1所述的一種用于腫瘤檢測(cè)的基因選擇方法，其特征在于步驟(三)E所述相關(guān)性分析為依賴性、冗余性和無(wú)關(guān)性分析，首先計(jì)算所述候選基因集合中每個(gè)基因g與目標(biāo)類class之間的互信息I (g ；class)，以及將所述最新選擇基因g_作為已知條件的情況下基因g與目標(biāo)類class之間的條件互信息I (g ；class | gnew),然后,計(jì)算I (g ；class IgneJ和I(g;class)之間的差值,如公式(2)所示e = I (g ；class I gnew) -1 (g ；class) (2) 如果e大于O，則基因g相對(duì)于所述最新選擇基因gn6W是依賴的，如果e小于O，則基因g相對(duì)于所述最新選擇基因gn6W是冗余的，如果e等于O，則基因g與所述最新選擇基因gnew是無(wú)關(guān)的。
6.根據(jù)權(quán)利要求5所述的一種用于腫瘤檢測(cè)的基因選擇方法，其特征在于步驟(三)E所述基因的調(diào)整系數(shù)是該基因g與所述最新選擇基因進(jìn)行相關(guān)性分析后，該基因的權(quán)值需調(diào)整的比率，其計(jì)算方法如公式(3)所示
7.根據(jù)權(quán)利要求6所述的一種用于腫瘤檢測(cè)的基因選擇方法，其特征在于步驟(三)F所述根據(jù)調(diào)整系數(shù)向量對(duì)候選基因集合中的每個(gè)基因的權(quán)值進(jìn)行調(diào)整，其調(diào)整方法如公式(4)所示 (g) =1+0 (g) (0 彡 to (g) 2) (4) 其中g(shù)為所述候選基因集合中的一個(gè)基因，《 (g)為該基因的權(quán)值，9 (g)是該基因的調(diào)整系數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種用于腫瘤檢測(cè)的基因選擇方法，按下列步驟進(jìn)行預(yù)處理模塊對(duì)初始輸入樣本進(jìn)行預(yù)處理，生成候選基因集合；基因權(quán)值評(píng)估模塊對(duì)候選基因集合中的每個(gè)基因賦予相同的權(quán)值，進(jìn)入基因選擇流程；基因選擇模塊計(jì)算每個(gè)基因的優(yōu)先級(jí)，選擇具有最高優(yōu)先級(jí)的基因作為最新選擇基因，并將其加入最優(yōu)基因集合；相關(guān)性分析模塊根據(jù)最新選擇基因計(jì)算候選基因集合中的每個(gè)基因的權(quán)值的調(diào)整系數(shù)；基因權(quán)值評(píng)估模塊根據(jù)調(diào)整系數(shù)對(duì)基因的權(quán)值進(jìn)行調(diào)整，并繼續(xù)進(jìn)行基因選擇流程；選擇結(jié)束后，輸出最優(yōu)基因集合給分類器。本發(fā)明能夠挑選出與腫瘤相關(guān)的最優(yōu)基因集合用于診斷，更符合實(shí)際情況，滿足高精度的腫瘤診斷的需求。
文檔編號(hào)G06F19/00GK103065029SQ201110319228
公開(kāi)日2013年4月24日申請(qǐng)日期2011年10月20日優(yōu)先權(quán)日2011年10月20日
發(fā)明者孫鑫, 劉衍珩, 朱建啟, 李飛鵬申請(qǐng)人:吉林大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫鑫;劉衍珩;朱建啟;李飛鵬
技術(shù)所有人：吉林大學(xué)
我是此專利的發(fā)明人

上一篇：一種模擬電路軟故障診斷的模糊推理方法
上一篇：一種快速的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

腫瘤基因檢測(cè)相關(guān)技術(shù)

腫瘤易感基因檢測(cè)相關(guān)技術(shù)

遺傳性腫瘤基因檢測(cè)相關(guān)技術(shù)

無(wú)創(chuàng)腫瘤基因檢測(cè)相關(guān)技術(shù)

腫瘤基因檢測(cè)費(fèi)用相關(guān)技術(shù)

腫瘤靶向藥物基因檢測(cè)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于腫瘤檢測(cè)的基因選擇方法