專利名稱:用于腫瘤檢測(cè)的基因選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于腫瘤檢測(cè)的基因選擇方法,尤其涉及一種用于腫瘤檢測(cè)的對(duì)DNA微陣列中腫瘤相關(guān)基因進(jìn)行選擇的基因選擇方法
背景技術(shù):
常規(guī)的腫瘤檢測(cè)方法是建立在形態(tài)學(xué)基礎(chǔ)之上的,它高度依賴于病理學(xué)專家對(duì)腫瘤組織的主觀判斷。環(huán)境條件的差異性給疾病的診斷帶來(lái)許多不確定性的因素,進(jìn)而影響預(yù)測(cè)判斷的結(jié)果。DNA微陣列隨著人類基因組的研究應(yīng)運(yùn)而生,它使用微縮技術(shù),將核酸高密集有序地排列在固定的區(qū)域內(nèi)作為微型的DNA檢測(cè)器件,以發(fā)現(xiàn)DNA中基因的內(nèi)在聯(lián)系。對(duì)癌癥和正常的DNA片段進(jìn)行比對(duì)操作,同時(shí)觀察數(shù)千種基因的各自表達(dá)情況,并利用數(shù)據(jù)分析技術(shù)推斷出基因之間的相互關(guān)系,依此對(duì)疾病的類型和診斷等做出精確的判斷,從而幫助專家對(duì)疾病做出正確的診斷。由于DNA微陣列是某組織或細(xì)胞中所有基因的表達(dá)數(shù)據(jù),維數(shù)通常達(dá)到幾千或上萬(wàn)維,但在實(shí)際應(yīng)用中只有很小一部分基因?qū)δ[瘤診斷具有價(jià)值,而大部分基因是無(wú)用的或與分析無(wú)關(guān)的。同時(shí),由于實(shí)際臨床治療中病例樣本一般較少和微陣列實(shí)驗(yàn)成本很高等原因,大多數(shù)基因表達(dá)樣本集都具有很少數(shù)量的樣本和數(shù)以萬(wàn)計(jì)的基因,過(guò)多的基因?qū)?shù)據(jù)分析方法而言是不適宜的。開(kāi)發(fā)有效的基因表達(dá)數(shù)據(jù)分析和學(xué)習(xí)工具已經(jīng)成為腫瘤檢測(cè)研究的熱點(diǎn)問(wèn)題之一?;蜻x擇是利用機(jī)器學(xué)習(xí)的方法從成千上萬(wàn)個(gè)基因中挑選出與腫瘤檢測(cè)相關(guān)的基因,從而建立精簡(jiǎn)的預(yù)測(cè)模型,為腫瘤的治療提供可靠的診斷結(jié)果。在機(jī)器學(xué)習(xí)的應(yīng)用中,基因選擇又被稱為特征選擇。目前,現(xiàn)有的機(jī)器學(xué)習(xí)中的特征選擇方法常常是選擇與目標(biāo)相關(guān)性最大且冗余性最小的特征,而在DNA微陣列中往往是幾個(gè)高度相關(guān)的基因共同表達(dá)一類疾病,因此已有的特征選擇算法在腫瘤檢測(cè)的應(yīng)用中并不理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用于腫瘤檢測(cè)的對(duì)DNA微陣列中腫瘤相關(guān)基因進(jìn)行選擇的基因選擇方法,能夠根據(jù)已選基因與待選基因之間的相關(guān)性特征動(dòng)態(tài)地調(diào)整待選基因的權(quán)值,從而最大限度地選出具有較高正確診斷率基因,提供可靠的診斷結(jié)果和治療方案。一種用于腫瘤檢測(cè)的基因選擇方法,包括以下步驟1.預(yù)處理模塊獲取初始輸入的基因樣本,并對(duì)初始樣本進(jìn)行預(yù)處理,生成候選基因集合,并提供給基因權(quán)值評(píng)估模塊;2.所述基因權(quán)值評(píng)估模塊首先對(duì)輸入的所述候選基因集合中的每個(gè)基因賦予相同的權(quán)值為I,生成加權(quán)候選基因集合,并進(jìn)入基因選擇流程;3.所述基因選擇流程為A.基因選擇模塊從所述基因權(quán)值評(píng)估模塊獲得所述加權(quán)候選基因集合;B.所述基因選擇模塊計(jì)算每個(gè)基因與目標(biāo)類的相關(guān)度并乘以該基因的權(quán)值,得到每個(gè)基因的優(yōu)先級(jí);C.所述基因選擇模塊按照候選基因集合中每個(gè)基因的優(yōu)先級(jí)從大到小依次排列,具有最聞優(yōu)先級(jí)的基因成為最新選擇基因,將該基因加入最優(yōu)基因集合,并將其從候選基因集合中刪除;D.所述基因選擇模塊判斷是否符合終止條件,如果不符合,將所述最新選擇基因輸入相關(guān)性分析模塊,繼續(xù)進(jìn)行步驟E ;如果符合終止條件,則結(jié)束基因選擇,輸出最優(yōu)基因集合給分類器;E.所述相關(guān)性分析模塊對(duì)候選基因集合中的每個(gè)基因與所述最新選擇基因之間進(jìn)行相關(guān)性分析,計(jì)算所述候選基因集合中的每個(gè)基因的權(quán)值的調(diào)整系數(shù),進(jìn)而獲得調(diào)整系數(shù)向量;F.所述基因權(quán)值評(píng)估模塊根據(jù)所述調(diào)整系數(shù)向量對(duì)候選基因集合中的每個(gè)基因的權(quán)值進(jìn)行調(diào)整,得到新的加權(quán)候選基因集合,再返回到步驟A。其中步驟I所述預(yù)處理包括規(guī)范化處理和離散化處理,所述候選基因集合為特征矩陣,列數(shù)表示基因數(shù),行數(shù)為樣本數(shù),其大小由輸入樣本決定;所述規(guī)范化處理是通過(guò)計(jì)算樣本的均值U和標(biāo)準(zhǔn)方差O ,對(duì)每個(gè)樣本所對(duì)應(yīng)的基因值X規(guī)范化為(x-1i)/o,從而使得每個(gè)基因的均值為0和標(biāo)準(zhǔn)方差為I ;所述離散化處理的方法是基因值的范圍為(-①,-0. 5]時(shí)轉(zhuǎn)化為1,基因值的范圍在(-0. 5,0. 5)的轉(zhuǎn)化為2,基因值的范圍為
時(shí)轉(zhuǎn)化為I,基因值的范圍在(-0.5,0. 5)的轉(zhuǎn)化為2,基因值的范圍為[0. 5, + °° )轉(zhuǎn)化為3。
5.根據(jù)權(quán)利要求1所述的一種用于腫瘤檢測(cè)的基因選擇方法,其特征在于步驟(三)E所述相關(guān)性分析為依賴性、冗余性和無(wú)關(guān)性分析,首先計(jì)算所述候選基因集合中每個(gè)基因g與目標(biāo)類class之間的互信息I (g ;class),以及將所述最新選擇基因g_作為已知條件的情況下基因g與目標(biāo)類class之間的條件互信息I (g ;class | gnew),然后,計(jì)算I (g ;class IgneJ和I(g;class)之間的差值,如公式(2)所示e = I (g ;class I gnew) -1 (g ;class) (2) 如果e大于O,則基因g相對(duì)于所述最新選擇基因gn6W是依賴的,如果e小于O,則基因g相對(duì)于所述最新選擇基因gn6W是冗余的,如果e等于O,則基因g與所述最新選擇基因gnew是無(wú)關(guān)的。
6.根據(jù)權(quán)利要求5所述的一種用于腫瘤檢測(cè)的基因選擇方法,其特征在于步驟(三)E所述基因的調(diào)整系數(shù)是該基因g與所述最新選擇基因進(jìn)行相關(guān)性分析后,該基因的權(quán)值需調(diào)整的比率,其計(jì)算方法如公式(3)所示
7.根據(jù)權(quán)利要求6所述的一種用于腫瘤檢測(cè)的基因選擇方法,其特征在于步驟(三)F所述根據(jù)調(diào)整系數(shù)向量對(duì)候選基因集合中的每個(gè)基因的權(quán)值進(jìn)行調(diào)整,其調(diào)整方法如公式(4)所示 (g) =1+0 (g) (0 彡 to (g) 2) (4) 其中g(shù)為所述候選基因集合中的一個(gè)基因,《 (g)為該基因的權(quán)值,9 (g)是該基因的調(diào)整系數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種用于腫瘤檢測(cè)的基因選擇方法,按下列步驟進(jìn)行預(yù)處理模塊對(duì)初始輸入樣本進(jìn)行預(yù)處理,生成候選基因集合;基因權(quán)值評(píng)估模塊對(duì)候選基因集合中的每個(gè)基因賦予相同的權(quán)值,進(jìn)入基因選擇流程;基因選擇模塊計(jì)算每個(gè)基因的優(yōu)先級(jí),選擇具有最高優(yōu)先級(jí)的基因作為最新選擇基因,并將其加入最優(yōu)基因集合;相關(guān)性分析模塊根據(jù)最新選擇基因計(jì)算候選基因集合中的每個(gè)基因的權(quán)值的調(diào)整系數(shù);基因權(quán)值評(píng)估模塊根據(jù)調(diào)整系數(shù)對(duì)基因的權(quán)值進(jìn)行調(diào)整,并繼續(xù)進(jìn)行基因選擇流程;選擇結(jié)束后,輸出最優(yōu)基因集合給分類器。本發(fā)明能夠挑選出與腫瘤相關(guān)的最優(yōu)基因集合用于診斷,更符合實(shí)際情況,滿足高精度的腫瘤診斷的需求。
文檔編號(hào)G06F19/00GK103065029SQ201110319228
公開(kāi)日2013年4月24日 申請(qǐng)日期2011年10月20日 優(yōu)先權(quán)日2011年10月20日
發(fā)明者孫鑫, 劉衍珩, 朱建啟, 李飛鵬 申請(qǐng)人:吉林大學(xué)