国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于優(yōu)化基于基因組學(xué)的醫(yī)學(xué)診斷測試的遺傳算法的制作方法

      文檔序號(hào):6655000閱讀:241來源:國知局
      專利名稱:用于優(yōu)化基于基因組學(xué)的醫(yī)學(xué)診斷測試的遺傳算法的制作方法
      以下內(nèi)容涉及遺傳算法。本發(fā)明特別可以應(yīng)用于基于基因組學(xué)的醫(yī)學(xué)診斷測試,并且將特別參考這方面對(duì)本發(fā)明進(jìn)行描述。更一般地說,本發(fā)明適用于優(yōu)化用于生物信息學(xué)的分類器(classifier),并且可以用于軟件代碼緊縮、神經(jīng)網(wǎng)絡(luò)開發(fā)等其他應(yīng)用。
      近來,在關(guān)于人類基因組的細(xì)節(jié)以及如何用健康的和染病的對(duì)象表示基因的可獲得信息量方面已經(jīng)取得了蓬勃發(fā)展。實(shí)驗(yàn)室技術(shù)現(xiàn)在可用于快速地獲得表征DNA、RNA、蛋白質(zhì)以及其他有機(jī)高分子在生物對(duì)象中的濃度的大測量組。
      舉例來說,微陣列(Microarray)包括在其上放置c-DNA或者另一種結(jié)合物(binder)的小樣本“點(diǎn)”的載玻片或玻璃板。每一個(gè)點(diǎn)包括一種特定的c-DNA或者與所關(guān)心的特定高分子結(jié)合的其他結(jié)合物,并且單個(gè)微陣列可以包含幾百個(gè)、幾千個(gè)或者更多的這種點(diǎn)。從患者身上提取組織樣本,提取所關(guān)心的分子種類(例如DNA、RNA等等)并用一種發(fā)光信號(hào)傳導(dǎo)試劑(signalingagent)或其他標(biāo)記進(jìn)行處理,并且將其潑在該微陣列上。在一個(gè)被稱作雜合(hybridization)的處理中,所述組織內(nèi)的特定類型的高分子聚集在所述點(diǎn)處,其中所述點(diǎn)具有針對(duì)那些特定高分子的結(jié)合物。通常,使用不同標(biāo)記(例如被不同著色的發(fā)光試劑)處理的比較或參照樣本也被施加到該微陣列。例如使用激光束來激發(fā)所述標(biāo)記以便產(chǎn)生光致發(fā)光,并且測量響應(yīng)強(qiáng)度以表征與各個(gè)點(diǎn)有關(guān)的高分子的濃度。這樣,可以快速并且定量地執(zhí)行對(duì)于包含在生物樣本中的大量有機(jī)高分子(例如幾百、幾千或更多)的測定。
      質(zhì)譜圖分析是另一種用于快速地測定在從患者身上抽取的樣本中的大量高分子的濃度的方法。在這個(gè)方法中,通過激光或其他機(jī)制在真空環(huán)境中電離所述樣本,并且通過離子計(jì)數(shù)器來測量所述被電離的分子片段的分子量/電荷比值的分布。根據(jù)對(duì)應(yīng)于各種高分子的已知裂片圖,可以從所述質(zhì)譜圖中導(dǎo)出各種高分子的濃度。或者,所述質(zhì)譜圖的峰值可以被用作生物信息測量數(shù)據(jù),而無需將所述質(zhì)譜圖的圖案與特定高分子相關(guān)聯(lián)。
      生物信息學(xué)采用數(shù)值方法從微陣列測量、質(zhì)譜圖或者其他基因組或有機(jī)高分子測定中提取有用的生物信息。舉例來說,如果在所述微陣列或質(zhì)譜圖中的特定圖案可能與一種特定類型的癌癥極大地相關(guān)聯(lián),那么所述模式可以被用作篩選該癌癥的分類器。這樣允許利用相對(duì)無創(chuàng)的技術(shù)(例如采血或大腦脊液、采集唾液、尿、大便等等的樣本或者以其他方式獲取體液或組織樣本)來實(shí)現(xiàn)對(duì)癌癥和其他所關(guān)心的病變的早期檢測。
      然而,由于可用于開發(fā)所述診斷醫(yī)學(xué)測試的大量信息,出現(xiàn)了一個(gè)問題。舉例來說,如果人們期望開發(fā)一種采用一組2500個(gè)測量(例如具有50×50的點(diǎn)陣列的微陣列)當(dāng)中的5個(gè)測量(例如微陣列點(diǎn)、質(zhì)譜圖峰值等等)的癌癥篩選測試,那么能被用于該診斷測試的可能的5樣本測量子組的搜索空間是25005=2500!2492!&CenterDot;5!&cong;8.1&times;1014---(1)]]>這個(gè)搜索空間太大,以至于不能利用窮舉技術(shù)來搜索。此外,等式(1)的估計(jì)假設(shè)5個(gè)測量的子組對(duì)于正在開發(fā)中的癌癥篩選測試來說是最佳的,這可能是不正確的。測量的最佳子組可能是4個(gè)測量、6個(gè)測量等等,并且通常是未知的。
      在基因組診斷醫(yī)學(xué)測試的開發(fā)過程中的另一個(gè)問題是盡管測量的總數(shù)很大,但是從其中提取這些測量的患者的集合通常要小得多。舉例來說,一個(gè)典型的研究可能會(huì)使用50×50的微陣列和包括40個(gè)測試對(duì)象的測試組,其中20個(gè)對(duì)象患有所關(guān)心的癌癥,并且另外20個(gè)對(duì)象是沒有所述癌癥的核對(duì)標(biāo)準(zhǔn)(control)。產(chǎn)生了包括100,000個(gè)測量的一大組;然而,40個(gè)測試對(duì)象的較小的組規(guī)模所帶來的問題是,在所述測量數(shù)據(jù)中可能存在許多與普通人群中的所研究癌癥無關(guān)的假相關(guān)性。
      遺傳算法已經(jīng)被用于所述優(yōu)化問題。在遺傳算法中,產(chǎn)生初代染色體群體,其中每一個(gè)染色體具有一組基因,該組基因指示所述測量組的一個(gè)子組。舉例來說,利用一組由50×50的微陣列產(chǎn)生的測量,每一個(gè)基因具有對(duì)應(yīng)于由所述微陣列的2500個(gè)點(diǎn)提供的2500個(gè)測量的一個(gè)值,該值在1到2500之間。在單個(gè)染色體中的5個(gè)所述基因適當(dāng)?shù)刂付税ㄋ?500個(gè)測量當(dāng)中的5個(gè)的特定子組。為每一個(gè)染色體優(yōu)化分類器。所述分類器利用由所述染色體指定的該基因子組將對(duì)象分類成兩個(gè)或更多分類中(比如癌癥分類和非癌癥分類)。一個(gè)質(zhì)量因數(shù)衡量所述分類器在一組患者中識(shí)別癌癥的精確度,并且被用于選擇所述染色體集合中的最適于繁殖到后代中的染色體。更進(jìn)一步地,后代染色體通過基因值的隨機(jī)或偽隨機(jī)變化而發(fā)生突變,這類似于生物學(xué)的突變過程。
      雖然以生物學(xué)的進(jìn)化概念為基礎(chǔ),但是遺傳算法通常以許多方式不同于生物學(xué)的進(jìn)化過程。在Whitley的“A Genetic Algorithm Tutorial”(Statistics andComputing,vol.4,第65至85頁,1994年)中提供了對(duì)于一些遺傳算法的概述。一種魯棒的遺傳算法是由Larry Eshelman開發(fā)的跨世代精英選擇、異物種重組、災(zāi)變突變(CHC)算法。以下公開了Eshelman的CHC算法及其變型,比如2001年7月10日發(fā)布的Schaffer等人的美國專利號(hào)6,260,031;2003年4月22日發(fā)布的Mathias等人的美國專利號(hào)6,553,357;以及Eshelman的“TheCHC Adaptive Search AlgorithmHow to Have Safe Search When Engaging inNontraditional Genetic Recombination”,F(xiàn)oundation of Genetic Algorithms,GregoryRawlins(ed.),Morgan Kaufmann,San Francisco,CA,265-83(1991)。已經(jīng)發(fā)現(xiàn),遺傳算法可以高效地搜索較大空間,因此非常適合于從例如供診斷醫(yī)學(xué)測試之用的微陣列和質(zhì)譜圖之類的基因組測定中識(shí)別較小的測量子組。
      然而,現(xiàn)有的遺傳算法對(duì)于生物信息學(xué)和其他應(yīng)用來說存在某些缺陷。在利用遺傳算法的優(yōu)化分類器中,必須對(duì)所要研究的每一個(gè)子組大小重新執(zhí)行所述遺傳算法。因此,舉例來說,執(zhí)行5個(gè)獨(dú)立的計(jì)算遺傳進(jìn)化形成以便跨越3個(gè)至7個(gè)測量的子組大小。此外,突變率通常較低,舉例來說大約是百分之一或更低,從而確保足夠的跨世代延續(xù)性,以便提供有意義的收斂。然而,低突變率放慢了總的發(fā)現(xiàn)速率。
      更進(jìn)一步地,在生物信息學(xué)應(yīng)用中,所述測量組通常是樣本豐富而對(duì)象貧乏的(例如,把2500個(gè)測量應(yīng)用于僅有40人的測試對(duì)象集合)。所述對(duì)象貧乏的數(shù)據(jù)組導(dǎo)致收斂的可能性趨于假相關(guān),從而對(duì)于普通人群中的所研究病變沒有太高的預(yù)示性。
      以下內(nèi)容設(shè)想了能夠克服如前所述的限制和其他限制的改進(jìn)的設(shè)備和方法。
      根據(jù)一個(gè)方面,提供了一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個(gè)染色體具有(i)指定相關(guān)測量組的子組的所選數(shù)量的基因;以及(ii)已表達(dá)子組大小基因,其具有區(qū)分所述染色體的已表達(dá)和未表達(dá)基因的值。包含所述已表達(dá)子組大小基因的染色體的各基因被各自計(jì)算地遺傳進(jìn)化到不參考未表達(dá)基因評(píng)估的健康標(biāo)準(zhǔn)(fitness criterion),以便產(chǎn)生連續(xù)世代的染色體群體。選擇一種分類器,該分類器利用由所述遺傳進(jìn)化識(shí)別的染色體的已表達(dá)基因所指定的相關(guān)測量的子組。
      根據(jù)另一個(gè)方面,提供一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個(gè)染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因。所述染色體的基因被計(jì)算地遺傳進(jìn)化,以便產(chǎn)生連續(xù)世代的染色體群體。產(chǎn)生每一個(gè)后繼世代染色體群體包含通過以下步驟從當(dāng)前染色體群體的親代染色體產(chǎn)生后代染色體(i)利用兩個(gè)親代染色體所共有的基因值來填充所述后代染色體的各基因,以及(ii)利用所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值來填充剩余的基因;有選擇地突變所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的后代染色體的基因值,而不突變兩個(gè)親代染色體所共有的后代染色體的基因值;以及基于每一個(gè)染色體的健康狀況利用后代染色體來更新所述染色體群體,所述健康狀況是利用由該染色體的各基因指定的相關(guān)測量的子組確定的。選擇一個(gè)分類器,該分類器使用由所述遺傳進(jìn)化識(shí)別的染色體的各基因所指定的相關(guān)測量的子組。
      根據(jù)另一個(gè)方面,提供一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個(gè)染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因。所述染色體的基因被計(jì)算地遺傳進(jìn)化,以便產(chǎn)生連續(xù)世代的染色體群體。產(chǎn)生每一個(gè)后繼世代染色體群體包含對(duì)于一組對(duì)象,在所述測量組的值中引入所選擇的仿真噪聲級(jí);通過對(duì)當(dāng)前染色體群體的染色體進(jìn)行配對(duì)來產(chǎn)生后代染色體;有選擇地突變后代染色體的基因;以及根據(jù)每個(gè)染色體的健康狀況利用后代染色體來更新所述染色體群體,所述健康狀況被分別確定為具有所引入的仿真噪聲的對(duì)象組的測量的值。選擇一個(gè)分類器,該分類器使用由所述遺傳進(jìn)化識(shí)別的染色體的各基因所指定的相關(guān)測量的子組。
      根據(jù)另一個(gè)方面,公開了一種用于確定醫(yī)學(xué)對(duì)象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試。利用由之前三段中的其中一種方法確定的醫(yī)學(xué)診斷分類器來分類對(duì)所述醫(yī)學(xué)對(duì)象的測量,其中相關(guān)的測量組表征有機(jī)高分子的濃度。
      根據(jù)另一個(gè)方面,提供一種遺傳優(yōu)化方法。染色體群體的基因被計(jì)算地遺傳進(jìn)化。所述進(jìn)化包含進(jìn)化每個(gè)染色體中的多個(gè)已表達(dá)基因,以及采用一種不參考每個(gè)染色體的未表達(dá)基因而評(píng)估的健康標(biāo)準(zhǔn)。選擇通過所述遺傳進(jìn)化產(chǎn)生的優(yōu)化染色體。
      一個(gè)優(yōu)點(diǎn)在于,對(duì)于生物信息應(yīng)用或其他應(yīng)用優(yōu)化分類器,而無需關(guān)于將被合并到該分類器中的測量的數(shù)量的先驗(yàn)知識(shí)并且無需選擇將被合并到該分類器中的測量的數(shù)量。
      另一個(gè)優(yōu)點(diǎn)在于,在基于遺傳進(jìn)化的優(yōu)化中提供了更魯棒的收斂性。
      另一個(gè)優(yōu)點(diǎn)在于,與高突變率相結(jié)合地提供了魯棒的收斂性。
      另一個(gè)優(yōu)點(diǎn)在于,遺傳算法收斂性對(duì)于測量組中的系統(tǒng)誤差的敏感度得到降低。
      通過閱讀下面的詳細(xì)說明,許多附加的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域技術(shù)人員來說將變得顯而易見。
      本發(fā)明可以具體實(shí)現(xiàn)為各種組件、組件安排、各種處理操作以及處理操作安排。附圖僅僅是為了說明優(yōu)選實(shí)施例,而不應(yīng)被看作是限制本發(fā)明。


      圖1示意性地示出了利用遺傳算法的優(yōu)化系統(tǒng)。
      圖2示意性地示出了利用圖1的優(yōu)化系統(tǒng)開發(fā)的診斷醫(yī)學(xué)測試的一種實(shí)施方式。
      圖3A和3B示意性地示出了兩個(gè)實(shí)例染色體,其中每個(gè)染色體具有16個(gè)基因,其中包含已表達(dá)的子組大小基因以及其值標(biāo)識(shí)可以用在分類器中的測量的其他基因。圖3A的染色體具有7個(gè)已表達(dá)測量基因,而圖3B的染色體具有10個(gè)已表達(dá)測量基因。
      圖4A、4B、4C和4D示意性地示出了對(duì)圖3A和3B的兩個(gè)實(shí)例染色體進(jìn)行運(yùn)算以便產(chǎn)生兩個(gè)后代染色體的圖1的交叉算子(crossover operator)的運(yùn)算。
      圖5示出了利用圖1的系統(tǒng)執(zhí)行的計(jì)算遺傳進(jìn)化優(yōu)化的散布圖。在圖5中,每個(gè)染色體的已表達(dá)子組大小基因的值被沿著縱坐標(biāo)(Y軸)繪制,并且試驗(yàn)數(shù)量(對(duì)應(yīng)于時(shí)間)被沿著橫坐標(biāo)(X軸)繪制。
      參考圖1,優(yōu)化系統(tǒng)8包含對(duì)于染色體群體12進(jìn)行運(yùn)算的遺傳算法10。對(duì)于生物信息分類器的示例性優(yōu)化,每個(gè)染色體通常包含多個(gè)基因,其中每個(gè)基因的值指定一個(gè)特定的生物學(xué)測量。舉例來說,如果所述生物學(xué)測量作為從一組測試對(duì)象獲得的100×100點(diǎn)微陣列而被執(zhí)行,那么每個(gè)微陣列具有10,000個(gè)點(diǎn),即10,000個(gè)測量。每個(gè)基因適當(dāng)?shù)匕粋€(gè)索引值(例如在1到10,000的閉區(qū)間內(nèi)的一個(gè)整數(shù),或者在0到9,999的閉區(qū)間內(nèi)的一個(gè)整數(shù)等等),其索引一個(gè)測量。通過隨機(jī)地或偽隨機(jī)地為每個(gè)基因分配一個(gè)在所述索引范圍內(nèi)的值(通常確保沒有索引被重復(fù)),適當(dāng)?shù)禺a(chǎn)生第一代染色體群體?;蛘?,所述分配可以不那么隨機(jī),例如所述分配可以偏向某些基因組,其中懷疑這些基因組對(duì)于將被優(yōu)化的分類器較為有效。
      為了產(chǎn)生下一代染色體群體,交叉算法20利用諸如基因復(fù)制、基因混合、基因突變等適當(dāng)操作來組合當(dāng)代群體的親代染色體,以便產(chǎn)生后代染色體。通過質(zhì)量因數(shù)來表征當(dāng)代染色體和后代染色體,以便確定每個(gè)染色體的健康狀況或可存活性。在圖1示出的生物信息分類器優(yōu)化中,關(guān)于一組學(xué)習(xí)案例22執(zhí)行優(yōu)化,所述學(xué)習(xí)案例22由交叉驗(yàn)證和噪聲添加算法24劃分為訓(xùn)練案例26子組和測試案例28子組。通常,在評(píng)估每個(gè)新一代染色體群體之前執(zhí)行所述交叉驗(yàn)證劃分。
      對(duì)于每個(gè)染色體,通過分類器訓(xùn)練算法30關(guān)于所述訓(xùn)練案例26優(yōu)化所述分類器。舉例來說,所述分類器可以是由所述染色體的已表達(dá)基因所選擇的測量的子組的測量值的加權(quán)和,并且所述優(yōu)化可以包括優(yōu)化所述加權(quán)因子。還可以采用更復(fù)雜的分類器。在一些生物信息分類應(yīng)用中,所述學(xué)習(xí)案例22是人類測試對(duì)象的集合,他們中的一些具有所關(guān)心的病變(例如特定類型的癌癥),并且他們中的另一些不具有所關(guān)心的病變。優(yōu)化由通過染色體指定的測量的子組所定義的分類器,以使得所述分類器將其以下能力最大化將所述學(xué)習(xí)案例22分類為具有所關(guān)心的病變的個(gè)體的第一分類,以及不具有所述病變的個(gè)體的第二分類。
      一旦優(yōu)化了對(duì)應(yīng)于染色體的分類器,分類器測試算法32測試所述經(jīng)優(yōu)化的分類器在把所述試驗(yàn)案例28的個(gè)體分類成具有所關(guān)心的病變的第一個(gè)體分類和不具有所述病變的第二個(gè)體分類時(shí)到底多有效。一種量化所述染色體的健康狀況和可存活性的適當(dāng)質(zhì)量因數(shù)例如是由所述經(jīng)優(yōu)化的分類器產(chǎn)生的錯(cuò)誤分類數(shù)量的計(jì)數(shù),或者測試案例對(duì)象的錯(cuò)誤分類數(shù)量與所述試驗(yàn)案例28中的個(gè)體總數(shù)的比率。
      對(duì)于每個(gè)染色體重復(fù)由分類器訓(xùn)練算法30和分類器測試算法32所執(zhí)行的處理,以使得染色體群體12當(dāng)中的染色體都被分配有對(duì)應(yīng)于健康狀況或可存活性的質(zhì)量因數(shù)。根據(jù)一個(gè)或多個(gè)適當(dāng)?shù)倪x擇標(biāo)準(zhǔn),選擇算法40選擇哪些染色體存活到下一代。對(duì)于每個(gè)連續(xù)世代重復(fù)這個(gè)處理,以便計(jì)算地遺傳進(jìn)化染色體群體12,直到遺傳算法10檢測到一個(gè)或多個(gè)適當(dāng)?shù)耐V箻?biāo)準(zhǔn),所述標(biāo)準(zhǔn)例如是存活后代的數(shù)量小于一個(gè)閾值,或者人口的百分比變化小于一個(gè)閾值等等。
      分類器選擇算法44檢查最終的染色體群體以便識(shí)別最健康的染色體,其被用來構(gòu)造用于所關(guān)心的病變的適當(dāng)?shù)脑\斷測試50。所述診斷測試通常識(shí)別對(duì)應(yīng)于所述最健康染色體的已表達(dá)基因的測量子組52以及采用所述測量子組52的經(jīng)優(yōu)化的分類器功能52。
      參考圖2,適當(dāng)?shù)貞?yīng)用診斷醫(yī)學(xué)測試50如下。獲取在測試下的患者的測量值60。為了提高效率,通常只獲取那些被用于診斷測試50的測量結(jié)果。分類器功能評(píng)估器64關(guān)于所述測量值的子組來評(píng)估分類器功能54,以便產(chǎn)生陽性(檢測到癌癥)或陰性的(沒有癌癥)測試結(jié)果,并且通過適當(dāng)?shù)膱?bào)告設(shè)備66(例如視頻顯示器、打印輸出等等)將其報(bào)告給醫(yī)務(wù)人員。
      有利地,人們會(huì)理解,一旦如同之前參考圖1所描述的那樣開發(fā)出所述診斷醫(yī)學(xué)試驗(yàn)50,其在醫(yī)院、診所或其他醫(yī)療設(shè)施中的實(shí)現(xiàn)方式就是直接明了的。舉例來說,將處理元件62、64、66適當(dāng)?shù)貙?shí)現(xiàn)為計(jì)算機(jī)的軟件和硬件,并且通過存儲(chǔ)在計(jì)算機(jī)的硬盤或其他非易失性存儲(chǔ)裝置上或者存儲(chǔ)在醫(yī)院網(wǎng)絡(luò)、因特網(wǎng)等等之上的數(shù)據(jù)來適當(dāng)?shù)乇硎舅_發(fā)的診斷測試50。一旦開發(fā)出診斷測試50,就不必在設(shè)置于醫(yī)院、診所等等的診斷測試系統(tǒng)實(shí)施方式中包含所述優(yōu)化系統(tǒng)8,相反,只設(shè)置對(duì)于測量子52的識(shí)別和分類器功能54。
      在給出了所述優(yōu)化系統(tǒng)8的概述以及它在診斷醫(yī)學(xué)測試中的實(shí)例應(yīng)用之后,參考圖1并且進(jìn)一步地參考圖3A、3B、4A、4B、4C和4D對(duì)所述計(jì)算遺傳進(jìn)化優(yōu)化的各個(gè)實(shí)施例的各方面進(jìn)行更詳細(xì)的描述。
      返回參考圖1并且進(jìn)一步地參考圖3A和3B,所述染色體群體12的每個(gè)染色體具有在圖3A和3B中顯示的一般形式,其中圖3A示意性地示出了一個(gè)實(shí)例染色體70,并且圖3B顯示了另一個(gè)實(shí)例染色體72。每個(gè)染色體具有固定長度的基因。在實(shí)例染色體70、72中,這個(gè)固定的長度是16個(gè)基因;然而,一般來說,所述染色體可以具有任何所選數(shù)量的基因。每個(gè)染色體的所選數(shù)量的基因被表達(dá),并且通過已表達(dá)子組大小基因80的值來標(biāo)識(shí)已表達(dá)基因的數(shù)量,其在所示出的格式中是在圖3A和3B中的從左到右排列的有序基因組中的最左邊的基因。一般來說,每個(gè)染色體可以具有由其已表達(dá)子組大小基因80的值所指定的不同數(shù)量的已表達(dá)基因。舉例來說,圖3A的染色體70具有值為7的已表達(dá)子組大小基因80,其指示7個(gè)已表達(dá)基因,而圖3B的染色體72具有值為10的已表達(dá)子組大小基因80,其指示10個(gè)已表達(dá)基因。在圖3A和3B的安排中,所述已表達(dá)基因是那些緊接在所述已表達(dá)子組大小基因80右邊的基因,并且所述已表達(dá)子組大小基因80的值標(biāo)識(shí)一個(gè)序數(shù)位置值,所述順序位置值將所述有序基因組的已表達(dá)基因和未表達(dá)基因分隔開。
      因此,舉例來說,在圖3A的染色體70中,所述已表達(dá)子組大小基因80中的值7標(biāo)識(shí)在所述已表達(dá)子組大小基因80之后的第七個(gè)基因作為最后一個(gè)已表達(dá)基因,那些跟在該第七個(gè)基因之后的基因是未表達(dá)基因。類似地,在圖3B的染色體72中,所述已表達(dá)子組大小基因80中的值10標(biāo)識(shí)在所述已表達(dá)子組大小基因80之后的第十個(gè)基因作為最后一個(gè)已表達(dá)基因,那些跟在該第十個(gè)基因之后的基因是未表達(dá)基因。所述已表達(dá)子組大小基因80的值通常應(yīng)該處于1到最大基因數(shù)減1的閉區(qū)間內(nèi)(因此不計(jì)算所述已表達(dá)子組大小基因80)。因此,對(duì)于具有染色體70、72的格式的染色體來說,所述已表達(dá)子組大小基因80應(yīng)該具有處于1和15之間的一個(gè)值。對(duì)于值1,有1個(gè)已表達(dá)基因14個(gè)未表達(dá)基因;對(duì)于值“15”,有15個(gè)已表達(dá)基因而沒有未表達(dá)基因。在一些實(shí)施例中,可以更進(jìn)一步地限制這個(gè)范圍。舉例來說,人們可能期望所述分類器在不少于2個(gè)基因上進(jìn)行操作,相應(yīng)地,對(duì)于所述已表達(dá)子組大小基因的下限應(yīng)該是2。類似地,人們可能期望把已表達(dá)基因的數(shù)量限制到小于所述染色體中的基因總數(shù),從而確保在每個(gè)染色體中總是有一個(gè)或一些未表達(dá)基因。
      所描述的實(shí)施例采用包含一個(gè)序數(shù)值的子組大小基因,該序數(shù)值把所述有序基因組的已表達(dá)基因和未表達(dá)基因分隔開。然而,可以用區(qū)分所述染色體的已表達(dá)基因和未表達(dá)的基因的其他表示法來實(shí)現(xiàn)所述子組大小基因。舉例來說,在一些所設(shè)想的實(shí)施例中,所述子組大小基因是二進(jìn)制掩碼表示法。對(duì)于具有16個(gè)基因(不計(jì)算所述子組大小基因)的染色體,適當(dāng)?shù)亩M(jìn)制掩碼類型子組大小基因包含對(duì)應(yīng)于所述16個(gè)基因的16個(gè)比特,每個(gè)比特具有一個(gè)指示所述對(duì)應(yīng)的基因是已表達(dá)基因還是未表達(dá)基因的二進(jìn)制值(“1”或“0”)。舉例來說,如果二進(jìn)制“1”指示已表達(dá)而二進(jìn)制“0”指示未表達(dá),那么在所述掩碼類型子組大小基因中的二進(jìn)制“1”值的數(shù)量就指示已表達(dá)基因的數(shù)量。
      除了所述已表達(dá)子組大小基因80之外的每一個(gè)基因具有一個(gè)值,該值指示可能用于所述分類器中的一組可用測量的其中一個(gè)測量。舉例來說,如果對(duì)于學(xué)習(xí)案例22利用100×100點(diǎn)微陣列獲得所述測量組,那么每個(gè)基因可以適當(dāng)?shù)鼐哂幸粋€(gè)在1和10,000之間的值,該值索引所述微陣列的各點(diǎn)。在質(zhì)譜圖的情況下,所述測量組可以是所述質(zhì)譜圖的質(zhì)量/電荷比值元(bin)。在圖3A的染色體70中,在已表達(dá)子組大小基因80右邊的第一個(gè)基因具有值17,其索引所述測量組的第十七個(gè)測量;在所述已表達(dá)子組大小基因80右邊的第二個(gè)基因具有值8,其索引所述測量組的第八個(gè)測量;在所述已表達(dá)子組大小基因80右邊的第三個(gè)基因具有值10,其索引所述測量組的第十個(gè)測量;依此類推。
      圖3A和3B中的染色體格式是說明性實(shí)例。本領(lǐng)域技術(shù)人員可以容易地開發(fā)其他的形式,其中已表達(dá)子組大小基因區(qū)分每個(gè)染色體的已表達(dá)基因和未表達(dá)基因。舉例來說,所述已表達(dá)子組大小基因可以被定位為最右邊的基因。通過利用其中一個(gè)基因來標(biāo)識(shí)一個(gè)染色體中的已表達(dá)基因的數(shù)量,對(duì)于每個(gè)染色體來說具有不同數(shù)量的已表達(dá)基因通常是有可能的。此外,由于所述已表達(dá)子組大小基因是所述染色體的一個(gè)基因,因此它可能受到類似于所述染色體的其他基因的遺傳進(jìn)化操作,以便優(yōu)化所述染色體中的已表達(dá)基因的數(shù)量。這種進(jìn)化基因數(shù)量的能力是有益的,因?yàn)橛糜谔囟ㄡt(yī)學(xué)診斷測試的最佳基因數(shù)量通常不是先驗(yàn)已知的。
      參考圖4A、4B、4C和4D,其中描述了用于產(chǎn)生后代染色體和用于更新所述染色體群體12的每一個(gè)新世代的適當(dāng)方法。在所描述的實(shí)施例中,遺傳算法10實(shí)施Eshelman CHC遺傳算法的一個(gè)版本,其被修改成適應(yīng)每個(gè)染色體中的已表達(dá)基因的可變數(shù)量,所述可變數(shù)量由該染色體的已表達(dá)子組大小基因80闡明。這些修改包括修改所述交叉算子20以便把已表達(dá)子組大小基因80傳播到后代染色體中,該已表達(dá)子組大小基因80與其余基因?qū)儆诓煌N類。還修改了交叉算子20,以便促進(jìn)與親代染色體所共有的后代基因的表達(dá)和傳播。舉例來說,在一些實(shí)施例中不突變共有基因,并且在一些實(shí)施例中所述共有基因的位置被偏向已表達(dá)子組大小基因80,也就是說,被偏向染色體的已表達(dá)部分。此外,關(guān)于選擇算法40修改Eshelman CHC遺傳算法以便使用一個(gè)選擇標(biāo)準(zhǔn),該選擇標(biāo)準(zhǔn)被偏向于選擇具有更小數(shù)量的已表達(dá)基因的染色體而不是具有更大數(shù)量的已表達(dá)基因的染色體。因此,所述進(jìn)化驅(qū)動(dòng)朝著較少數(shù)量的已表達(dá)基因的方向。
      雖然為了解釋的目的描述并舉例說明了經(jīng)修改的Eshelman CHC算法,但是應(yīng)當(dāng)理解,其他的遺傳算法可以被類似地適配成在每個(gè)染色體中采用所公開的可變數(shù)量的已表達(dá)基因、偏向共有基因的表達(dá)和傳播、偏向更小數(shù)量的基因等等。
      參考圖4A和4B,組合所選擇的親代以產(chǎn)生后代染色體。在Eshelman CHC算法中,每個(gè)后代染色體是從兩個(gè)親代染色體導(dǎo)出的,并且通常每一對(duì)親代染色體被用于產(chǎn)生兩個(gè)后代染色體。然而,可以使用其他交叉組合。為了解釋的目的,圖3A和3B中的染色體70、72分別被配對(duì)為親代染色體以產(chǎn)生兩個(gè)后代染色體。在產(chǎn)生后代的過程中,所述親代染色體70、72的共有基因值被復(fù)制到所述后代染色體中。對(duì)于親代染色體70、72,該組共有基因值是{5,7,8,12,13,17,19,23,25}。在圖4A中,第一個(gè)后代染色體以其出現(xiàn)在第一個(gè)親代染色體70中的次序來接收所述共有基因值,而在圖4B中,第二個(gè)后代染色體以其出現(xiàn)在第二個(gè)親代染色體72中的次序來接收所述共有基因值。
      在一些實(shí)施例中,所述共有基因值被復(fù)制到后代染色體中的與親代染色體中相應(yīng)的位置處,但是偏向于已表達(dá)基因的位置。在所描述的實(shí)施例中,如在圖4A和4B中所示,通過把每一個(gè)共有基因值向左移位一個(gè)位置而獲得這個(gè)偏向,也就是說朝著所述染色體的已表達(dá)子組基因80移位一個(gè)位置。由于所述已表達(dá)基因緊挨在已表達(dá)子組大小基因80的右邊,因此這個(gè)向左移位具有把所述共有基因值偏向被表達(dá)的效果。
      此外,至少在有些情況下,所述共有基因值在所述后代染色體中的排序可選地不同于所述共有基因值在所述親代染色體中的排序。在所描述的實(shí)施例中,如在圖4A和4B中所示,在所述親代染色體中的兩個(gè)或更多最左邊的基因值是共有基因值的情況下,通過執(zhí)行基因值交換來獲得這個(gè)偏向。舉例來說,在圖4A中,第一個(gè)親代染色體70的兩個(gè)最左邊的基因值17、8是共有基因值,因此它們以相反的順序8、17被復(fù)制在第一個(gè)后代染色體中。類似地,第二個(gè)親代染色體72中的兩個(gè)共有基因值23、19以相反的順序19、23被復(fù)制在第二個(gè)后代染色體中。更一般地說,如果所述親代染色體的最左邊的連續(xù)三個(gè)或更多基因值是共有基因,那么它們被左旋,其中所述親代染色體的最左邊的基因值被復(fù)制到三個(gè)或更多共有基因值的連續(xù)序列的最右端。
      用于改變圖4A和4B中舉例說明的共有基因值的排序的方法就是一個(gè)實(shí)例。因?yàn)樗鋈旧w群體12隨著向左偏移共有基因值而進(jìn)化,對(duì)于所述共有基因值來說,存在一種在有序基因序列的左邊堆積的趨向。因此所述共有基因值趨向于被表達(dá)。所述排序改變趨向于產(chǎn)生促進(jìn)進(jìn)化變異的混合,并且防止最左邊的共有基因值總是在每個(gè)后代染色體中被表達(dá)。
      繼續(xù)參考圖4A和4B并且更進(jìn)一步地參考圖4C,后代染色體的那些未被共有基因值所填充的基因被親代染色體70、72當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值填充。所述實(shí)例親代染色體70、72限定了包含12個(gè)獨(dú)特基因值{1,2,3,4,9,10,16,18,20,21,22,24}的獨(dú)特基因值的實(shí)例組84。隨機(jī)選擇器86選擇其中一個(gè)獨(dú)特基因值,以便填充所述后代染色體的在所述共有基因值被用盡之后所剩余的每一個(gè)基因。
      隨機(jī)的突變器90在隨機(jī)或偽隨機(jī)的基礎(chǔ)上有選擇地突變所述獨(dú)特基因值。在所描述的實(shí)施例中,只有所述獨(dú)特基因值受到選擇性突變,其中所述獨(dú)特基因值被應(yīng)用于填充所述后代染色體的基因。不突變所述共有基因值。通過不突變所述共有基因值,促進(jìn)共有基因值的跨代傳播。通常來說,預(yù)期所述共有基因值往往很可能比獨(dú)特基因值更能決定健康狀況。
      不突變所述共有基因值還促進(jìn)了計(jì)算遺傳進(jìn)化朝著最優(yōu)染色體的收斂。因?yàn)闆]有突變所述共有基因值,所以更容易地獲得相對(duì)穩(wěn)定跨代的染色體配置。這又允許所述獨(dú)特基因值的突變率92比起對(duì)包含共有基因值的所有基因值進(jìn)行有選擇突變的情況更高。在一些實(shí)施例中,已經(jīng)發(fā)現(xiàn)所述獨(dú)特基因值的突變率大于5%是適當(dāng)?shù)?。在一些?shí)施例中,已經(jīng)發(fā)現(xiàn)所述獨(dú)特基因值的突變率在15%左右是適當(dāng)?shù)?。相反地,?dāng)共有基因值和獨(dú)特基因值兩者都被有選擇地突變時(shí),突變率大于5%通常導(dǎo)致所述遺傳進(jìn)化的不良收斂特性。
      在圖4C中,隨機(jī)選擇的獨(dú)特基因值被用于填充所述后代染色體的那些沒有用共有基因值填充的基因。然而,可以采用其他的方法。舉例來說,所述兩個(gè)親代染色體70、72的獨(dú)特基因值可以被從左到右地配對(duì),并且被半隨機(jī)地選擇用于在所述后代之間交換。因此,圖4A的后代染色體的基因在這個(gè)方法中將從親代染色體70接收到值{10,4,21,1,22和16},而圖4B的后代染色體將從親代染色體72接收到值{20,2,18,9,3和24}。然而,那些獨(dú)特基因值的一半將被隨機(jī)地在所述后代之間成對(duì)地交換。因此,舉例來說,第三個(gè)序數(shù)位置基因值21和18、第五個(gè)序數(shù)位置基因值22和3以及第六個(gè)序數(shù)位置基因值16和24可能被隨機(jī)地在兩個(gè)后代之間交換。所述隨機(jī)突變器90還會(huì)如前所述地對(duì)所述獨(dú)特基因值進(jìn)行操作。
      參考圖4D,Eshelman CHC遺傳算法被更進(jìn)一步地修改,以便為后代染色體產(chǎn)生適當(dāng)?shù)囊驯磉_(dá)子組大小基因80的值。所述實(shí)例親代染色體70、72的已表達(dá)子組大小基因80的值分別是7和10。因此,所述后代染色體的已表達(dá)子組大小基因80的值應(yīng)該位于7到10的閉區(qū)間內(nèi)??蛇x地,該范圍被擴(kuò)展,以便提高所述遺傳進(jìn)化在達(dá)到具有更多或更少數(shù)量的已表達(dá)基因的染色體方面的有效性。在所描述的實(shí)施例中,所述范圍被增大了范圍Δx的一半,所述范圍Δx在所述兩個(gè)親代染色體70、72的已表達(dá)子組大小基因80的值之間。這個(gè)擴(kuò)展值被截取以便定義一個(gè)整數(shù),并且被施加在更健康親代的已表達(dá)子組大小基因80的值的方向上。在圖4D中,假設(shè)已表達(dá)子組大小基因80的值為7的親代染色體70比已表達(dá)子組大小基因80的值為10的親代染色體72更健康。因此,所述范圍從較低值7向下擴(kuò)展Δx/2=INT[(10-7)/2]=INT[1.5]=1,從而所述親代染色體70、72的已表達(dá)子組大小基因80的值定義閉區(qū)間[6,10]的范圍。每個(gè)后代染色體的已表達(dá)子組大小基因80的值被隨機(jī)地或偽隨機(jī)地從范圍[6,10]中選擇。如果親代染色體72比親代染色體70更健康,那么所述擴(kuò)展將是在染色體72的已表達(dá)子組大小基因80的值10之上,從而定義范圍[7,11]以供選擇。此外,如果所述擴(kuò)展超出所選擇的邊界(例如大于染色體中的基因數(shù)量,或者小于1,或者小于所選擇的已表達(dá)基因的最小數(shù)量),那么用于所述后代染色體已表達(dá)子組大小基因值的范圍被適當(dāng)?shù)亟厝 ?br> 返回參考圖1,相對(duì)于Eshelman CHC算法修改遺傳算法10的選擇算法40,以便偏向具有更小數(shù)量的已表達(dá)基因的染色體。較小數(shù)量的已表達(dá)基因?qū)?yīng)于診斷測試50中的較小的測量子組52,并且降低了過度擬合所述學(xué)習(xí)案例22的可能性。在一些實(shí)施例中,分層選擇被用于比較兩個(gè)染色體。通過下列偽代碼闡明一個(gè)這樣的選擇if(classification_errors(后代)<classification_errors(親代))then用后代替換親代if((classification_errors(后代)=classification_errors(親代))and(sss(后代)<sss(親代))) (2)then用后代替換親代if((classification_errors(后代)=classification_errors(親代))and(sss(后代)=sss(親代)))then隨機(jī)地選擇是否用后代替換親代其中,在偽代碼(2)中classification_errors()是由分類器測試算法32確定的每個(gè)染色體的健康量度,并且利用其經(jīng)優(yōu)化的分類器功能來測量由該染色體產(chǎn)生的分類錯(cuò)誤的數(shù)量;sss()是所述已表達(dá)子組大小基因80的值。適當(dāng)?shù)貞?yīng)用所述偽代碼(2)如下(i)按照健康狀況對(duì)親代染色體群體的染色體進(jìn)行排序;(ii)按照健康狀況對(duì)后代染色體進(jìn)行排序;(iii)利用偽代碼(2)比較最健康的后代染色體和最不健康的親代染色體,并且在適當(dāng)情況下,在所述染色體群體中用所述后代染色體來替換所述親代染色體;以及(iv)重復(fù)操作(iii),直到不用后代替換親代(從而意味著剩余的后代中沒有一個(gè)與最不健康的親代一樣健康)。
      在選擇親代染色體以用于產(chǎn)生后代的過程中,可選地采用Eshelman CHC近親交配預(yù)防機(jī)制。近親交配預(yù)防防止在過于相似的親代之間執(zhí)行交叉。通常來說,關(guān)于所述親代染色體的已表達(dá)基因來確定近親交配預(yù)防。然而,由于在所述后代染色體中的已表達(dá)子組大小基因80的值可能比親代染色體中的已表達(dá)子組大小基因80的一個(gè)或全部兩個(gè)值更大,因此對(duì)于兩個(gè)潛在親代染色體的近親交配預(yù)防適當(dāng)?shù)厥顷P(guān)于這種配對(duì)所可能獲得的后代染色體的已表達(dá)子組大小基因80的最大值而確定的。此外還可選地合并Eshelman CHC遺傳算法的其他特征,例如提供軟重啟以抵制過早的收斂。
      參考圖5,其中說明了利用已表達(dá)子組大小基因80以及偏向更小數(shù)量的已表達(dá)基因的有效性。圖5示出了一個(gè)散布圖,其具有沿著縱座標(biāo)(y軸)繪制的每個(gè)染色體的已表達(dá)子組大小基因80的值,以及沿著橫坐標(biāo)(x軸)繪制的試驗(yàn)數(shù)量(對(duì)應(yīng)于時(shí)間)。對(duì)于圖5中說明的運(yùn)作,每個(gè)染色體的基因數(shù)量被設(shè)置為30,并且染色體群體12包含100個(gè)染色體。最初的染色體群體具有在1到30之間隨機(jī)選擇的已表達(dá)子組大小基因80的值。在遺傳進(jìn)化早期的初始區(qū)域100中,具有已表達(dá)子組大小基因80的較小值(舉例來說小于大約10-12)的染色體滅絕。由于所述基因的值在所述最初染色體群體中是隨機(jī)的,比起那些具有已表達(dá)子組大小基因80的較小值的染色體,對(duì)于那些具有已表達(dá)子組大小基因80的較大值的染色體來說,在給定染色體中存在一個(gè)或兩個(gè)優(yōu)良基因的幾率更高。因此,具有較小值的染色體在所述初始區(qū)域100中滅絕。然而,在大約1,000次試驗(yàn)之后,其已表達(dá)子組大小基因80的值小于10的染色體開始重新出現(xiàn)。在1,000次試驗(yàn)之后,所述基因的值不再是隨機(jī)的,而是已經(jīng)開始從在先前世代中存活下來的親代那里集成。于是,在大約40,000-50,000次試驗(yàn)時(shí),其已表達(dá)子組大小基因80的值非常大的染色體開始滅絕。在40,000-50,000次試驗(yàn)之后,所述染色體群體12的染色體獲得類似的準(zhǔn)確度,因此對(duì)于已表達(dá)子組大小基因80的較小值的選擇壓力開始見效。超過50,000次試驗(yàn)之后,已表達(dá)子組大小基因80的平均值快速下降,并且減少到染色體群體12中的大多數(shù)的已表達(dá)子組大小基因80的值為3或4為止。在恰好處于100,000次試驗(yàn)之前的一點(diǎn),經(jīng)修改的Eshelman CHC遺傳算法觸發(fā)軟重啟,這是因?yàn)樗鋈后w已經(jīng)收斂。在所述軟重啟時(shí),在1到30的閉區(qū)間之間的所述已表達(dá)子組大小基因80的值的整個(gè)范圍被重新引入。進(jìn)化的過程繼續(xù)并且超出圖5的邊緣,在那里再次看到類似的動(dòng)態(tài)(在圖5中未示出)。
      返回參考圖1,利用訓(xùn)練案例26來訓(xùn)練每個(gè)分類器,所述訓(xùn)練案例26是學(xué)習(xí)案例22的子組。在訓(xùn)練之后,在測試案例28上測試所述分類器,所述測試案例28是學(xué)習(xí)案例22的另一個(gè)子組。所述交叉驗(yàn)證和噪聲添加算法24在處理染色體群體12的每個(gè)新世代之前把學(xué)習(xí)案例22重新劃分為訓(xùn)練案例26和測試案例28。利用把學(xué)習(xí)案例22劃分為訓(xùn)練案例26和試驗(yàn)案例28的不同分割,重新評(píng)估從上一代存活下來的那些親代染色體及其后代染色體。因此,為了使染色體傳播幾個(gè)世代并且因此在染色體群體12中散播它的基因,該染色體的表現(xiàn)必須始終優(yōu)于平均水平,而始終如一的表現(xiàn)要求從許多不同的隨機(jī)選擇的訓(xùn)練組26的良好的一般化。把學(xué)習(xí)案例22劃分為訓(xùn)練案例26和測試案例28的分割被稱為交叉驗(yàn)證??梢允褂酶鞣N交叉驗(yàn)證方法,例如舍去(leave-out)交叉驗(yàn)證、k折(k-fold)交叉驗(yàn)證等等。
      繼續(xù)參考圖1,在一些實(shí)施例中,當(dāng)學(xué)習(xí)案例22被劃分為訓(xùn)練案例26和試驗(yàn)案例28時(shí),所述交叉驗(yàn)證和噪聲添加算法24把所選擇的仿真噪聲級(jí)引入到被測量的測試對(duì)象的測量組的值中。仿真噪聲的引入抵消了所述分類功能對(duì)于測量誤差的相關(guān)性的可能擬合。舉例來說,如果當(dāng)測量到癌癥案例時(shí)所述測量儀器系統(tǒng)地讀取得稍高,而對(duì)于沒有癌癥的案例則稍低,則所述遺傳進(jìn)化可以收斂在這些系統(tǒng)誤差模式上。通過由所述交叉驗(yàn)證和噪聲添加算法24可選地引入仿真噪聲,干擾了對(duì)于所述進(jìn)化搜索的每一代的測量。在一個(gè)方法中,根據(jù)下式添加高斯仿真噪聲x’=x+(gauss()·x·cv (3)其中x是測量值,x’是添加了仿真噪聲的測量值,cv是變異系數(shù)(即標(biāo)準(zhǔn)差除以均值x),gauss()是具有零均值和單位方差的高斯函數(shù)。在把學(xué)習(xí)案例22劃分為訓(xùn)練和測試案例26、28之前執(zhí)行仿真噪聲的引入,其中在處理染色體群體12的每一個(gè)連續(xù)世代之前執(zhí)行所述劃分。
      引入仿真噪聲降低了遺傳進(jìn)化對(duì)于系統(tǒng)測量誤差的敏感度,但是也減小了所述發(fā)現(xiàn)算法找到弱模式的趨勢(shì)。對(duì)于一些生物信息測量組,已經(jīng)發(fā)現(xiàn)變異系數(shù)(cv)在所添加的仿真高斯噪聲中大于2%左右會(huì)防止收斂到較弱的生物學(xué)重要模式。
      已經(jīng)結(jié)合優(yōu)選實(shí)施例描述了本發(fā)明。顯然,在閱讀和理解先前的詳細(xì)說明之后,可以想到其他的修改和變化。本發(fā)明應(yīng)當(dāng)被看作是包含所有的這些修改和變化,只要它們落在所附權(quán)利要求書或其等效表述的范圍之內(nèi)。
      權(quán)利要求
      1.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個(gè)染色體具有(i)指定相關(guān)測量組的子組的所選數(shù)量的基因;以及(ii)已表達(dá)子組大小基因,其具有區(qū)分所述染色體的已表達(dá)和未表達(dá)基因的值;關(guān)于無需參考未表達(dá)基因而評(píng)估的健康標(biāo)準(zhǔn),計(jì)算地遺傳進(jìn)化包含所述已表達(dá)子組大小基因的所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識(shí)別的染色體的所述已表達(dá)基因所指定的相關(guān)測量的所述子組。
      2.如在權(quán)利要求1中所述的方法,其中,每個(gè)染色體的基因定義有序組,并且所述已表達(dá)子組大小基因包含把該有序組中的已表達(dá)和未表達(dá)基因分隔開的序數(shù)位置值。
      3.如在權(quán)利要求2中所述的方法,其中所述遺傳進(jìn)化包括通過對(duì)當(dāng)前染色體群體的所選擇的親代染色體進(jìn)行配對(duì)來產(chǎn)生后代染色體,每個(gè)后代染色體的已表達(dá)子組大小基因值處在由所述親代染色體的已表達(dá)子組大小基因值所限定的范圍之內(nèi),其中該后代染色體從所述親代染色體產(chǎn)生。
      4.如在權(quán)利要求3中所述的方法,其中由所述親代染色體的已表達(dá)子組大小基因值限定的所述范圍包括以下各項(xiàng)的至少其中之一(i)比所述親代染色體的已表達(dá)子組大小基因值當(dāng)中的最大的一個(gè)更大的值;以及(ii)比所述親代染色體的已表達(dá)子組大小基因值當(dāng)中的最小的一個(gè)更小的值。
      5.如在權(quán)利要求2中所述的方法,其中,所述有序基因組具有第一和第二末端,最靠近的第一末端的基因是已表達(dá)基因,并且所述遺傳進(jìn)化包括產(chǎn)生后代染色體,其中通過以下步驟從所述當(dāng)前染色體群體的兩個(gè)親代染色體產(chǎn)生每個(gè)后代染色體(i)使用與兩個(gè)親代染色體共有的基因值來填充所述后代染色體的基因,其中在進(jìn)行填充時(shí)利用所述兩個(gè)親代染色體當(dāng)中的所選擇的一個(gè)中的所述共有基因值的排序,并且使所述填充偏向所述后代染色體的有序基因組的第一末端;以及(ii)使用所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值來填充剩余的基因。
      6.如在權(quán)利要求5中所述的方法,其中,使用與兩個(gè)親代染色體共有的基因進(jìn)行填充包括至少偶爾改變所述后代染色體中的所述共有基因值的排序,以使其不同于所述共有基因值在所述兩個(gè)親代染色體當(dāng)中的所選擇的一個(gè)中的排序。
      7.如在權(quán)利要求1中所述的方法,其中,所述遺傳進(jìn)化包括產(chǎn)生后代染色體,所述后代染色體具有(i)從一個(gè)組中選擇的不同于已表達(dá)子組大小基因的基因值,所述組包括不同于所述親代染色體的已表達(dá)子組大小基因的所述親代染色體的基因值的集合;以及(ii)在由所述親代染色體的已表達(dá)子組大小基因值限定的范圍內(nèi)選擇的已表達(dá)子組大小基因的值。
      8.如在權(quán)利要求1中所述的方法,其中,所述遺傳進(jìn)化包括產(chǎn)生后代染色體,其中通過以下步驟從所述當(dāng)前染色體群體的兩個(gè)親代染色體產(chǎn)生每個(gè)后代染色體(i)使用與兩個(gè)親代染色體共有的基因值來填充所述后代染色體的基因;以及(ii)使用所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值來填充剩余的基因;以及有選擇地突變所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的后代染色體的基因值,而不突變與兩個(gè)親代染色體共有的后代染色體的基因值,對(duì)應(yīng)于有選擇地突變所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值的突變率大于5%。
      9.如在權(quán)利要求1中所述的方法,其中,所述計(jì)算遺傳進(jìn)化包括從所述當(dāng)代染色體群體的所選擇的染色體組合產(chǎn)生后代染色體;以及在下面的其中一種情況下使用所選擇的后代染色體來替換所述當(dāng)代染色體群體的所選擇的染色體(i)所選擇的后代染色體比所述當(dāng)代染色體群體的所選擇的染色體更健康;或者(ii)所選擇的后代染色體與所述當(dāng)代染色體群體的所選擇的染色體一樣健康,并且所選擇的后代染色體比所述當(dāng)代染色體群體的所選擇的染色體具有更少的已表達(dá)基因。
      10.如在權(quán)利要求9中所述的方法,其中所述所選擇的后代染色體是最健康的后代染色體,并且所述當(dāng)代染色體群體的所選擇的染色體是當(dāng)代染色體群體的最不健康的染色體;以及重復(fù)所述替換,直到所述最健康的后代染色體比所述當(dāng)代染色體群體的最不健康的染色體更不健康。
      11.如在權(quán)利要求1中所述的方法,其中,所述健康標(biāo)準(zhǔn)指示由每個(gè)染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將一組測量對(duì)象分類為兩個(gè)或更多分類,并且所述方法進(jìn)一步包括在產(chǎn)生每個(gè)連續(xù)世代染色體群體之前,在所述測量對(duì)象的測量值中引入所選擇的仿真噪聲級(jí)。
      12.如在權(quán)利要求1中所述的方法,其中,所述健康標(biāo)準(zhǔn)指示由每個(gè)染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將一組測量對(duì)象分類成兩個(gè)或更多分類,并且所述方法進(jìn)一步包括在產(chǎn)生每個(gè)連續(xù)世代染色體群體之前,隨機(jī)地或偽隨機(jī)地將一組測量對(duì)象劃分為訓(xùn)練組和測試組。
      13.一種用于確定醫(yī)學(xué)對(duì)象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求1的方法所確定的醫(yī)學(xué)診斷分類器對(duì)該醫(yī)學(xué)對(duì)象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機(jī)高分子的濃度,并且所述健康標(biāo)準(zhǔn)指示由每個(gè)染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將醫(yī)學(xué)對(duì)象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
      14.如在權(quán)利要求13中所述的方法,其中,表征醫(yī)學(xué)對(duì)象中的有機(jī)高分子濃度的所述相關(guān)測量組是以下各項(xiàng)的其中之一利用從所述醫(yī)學(xué)對(duì)象身上獲取的生物樣本處理的微陣列的點(diǎn)的一組測量;以及對(duì)于從所述醫(yī)學(xué)對(duì)象身上獲取的生物樣本測量的質(zhì)譜圖的一組信號(hào)電平。
      15.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個(gè)染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因;計(jì)算地遺傳進(jìn)化所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體,產(chǎn)生每個(gè)后繼世代染色體群體包括通過以下步驟從所述當(dāng)前染色體群體的親代染色體產(chǎn)生后代染色體(i)使用與兩個(gè)親代染色體共有的基因值來填充所述后代染色體的基因,以及(ii)使用所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值來填充剩余的基因;有選擇地突變所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的所述后代染色體的基因值,而不突變所述后代染色體的與兩個(gè)親代染色體共有的基因值;以及根據(jù)每個(gè)染色體的健康狀況,利用所述后代染色體來更新所述染色體群體,其中所述健康狀況是利用由該染色體的基因指定的相關(guān)測量的子組確定的;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識(shí)別的染色體的基因所指定的相關(guān)測量的子組。
      16.如在權(quán)利要求15中所述的方法,其中,對(duì)于有選擇地突變所述親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的基因值的突變率大于5%。
      17.如在權(quán)利要求15中所述的方法,其中只有每個(gè)染色體的基因的一個(gè)子組是已表達(dá)基因,并且利用由每個(gè)染色體的已表達(dá)基因所指定的相關(guān)測量的子組來確定該染色體的健康狀況。
      18.一種用于確定醫(yī)學(xué)對(duì)象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求15的方法所確定的醫(yī)學(xué)診斷分類器對(duì)該醫(yī)學(xué)對(duì)象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機(jī)高分子的濃度,并且所述健康標(biāo)準(zhǔn)量化由每個(gè)染色體的基因指定的相關(guān)測量的子組的有效性,以用于將醫(yī)學(xué)對(duì)象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
      19.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個(gè)染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因;計(jì)算地遺傳進(jìn)化所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體,產(chǎn)生每個(gè)后繼世代染色體群體包括在對(duì)應(yīng)于一組對(duì)象的測量組的值中引入所選擇的仿真噪聲級(jí);通過對(duì)所述當(dāng)前染色體群體的染色體進(jìn)行配對(duì)而產(chǎn)生后代染色體;有選擇地突變所述后代染色體的基因;以及根據(jù)每個(gè)染色體的健康狀況,利用所述后代染色體來更新所述染色體群體,其中所述健康狀況是關(guān)于具有所引入的仿真噪聲的所述對(duì)象組的測量值而確定的;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識(shí)別的染色體的基因所指定的相關(guān)測量的子組。
      20.一種用于確定醫(yī)學(xué)對(duì)象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求19的方法所確定的醫(yī)學(xué)診斷分類器對(duì)該醫(yī)學(xué)對(duì)象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機(jī)高分子的濃度,并且所述健康標(biāo)準(zhǔn)量化由每個(gè)染色體的基因指定的相關(guān)測量的子組的有效性,以用于將醫(yī)學(xué)對(duì)象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
      21.一種基因優(yōu)化方法,包括計(jì)算地遺傳進(jìn)化染色體群體的基因,所述進(jìn)化包括進(jìn)化每個(gè)染色體中的多個(gè)已表達(dá)基因,并且采用無需參考每個(gè)染色體的未表達(dá)基因而評(píng)估的健康標(biāo)準(zhǔn);以及選擇通過所述遺傳進(jìn)化產(chǎn)生的經(jīng)優(yōu)化的染色體。
      22.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括通過對(duì)所述當(dāng)前染色體群體的所選擇的親代染色體進(jìn)行配對(duì)而產(chǎn)生后代染色體,每個(gè)后代染色體的已表達(dá)基因的數(shù)量處于由從中產(chǎn)生該后代染色體的所述親代染色體的已表達(dá)基因的數(shù)量所限定的范圍內(nèi)。
      23.如在權(quán)利要求22中所述的方法,其中,由所述親代染色體的已表達(dá)基因的數(shù)量限定的所述范圍包含以下各項(xiàng)的至少其中之一(i)比任何所述親代染色體中的已表達(dá)基因的最大數(shù)量更大的值;以及(ii)比任何所述親代染色體中的已表達(dá)基因的最小數(shù)量更小的值。
      24.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括通過對(duì)所述當(dāng)前染色體群體的兩個(gè)所選擇的親代染色體進(jìn)行配對(duì)來產(chǎn)生后代染色體;以及有選擇地突變所述兩個(gè)親代染色體當(dāng)中的一個(gè)或另一個(gè)所獨(dú)有的所述后代染色體的基因,而不突變與兩個(gè)親代染色體共有的所述后代染色體的基因。
      25.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括利用選擇標(biāo)準(zhǔn)來選擇存活到每個(gè)連續(xù)世代中的染色體,該選擇標(biāo)準(zhǔn)偏向于選擇具有較小數(shù)量的已表達(dá)基因的染色體而不是具有較大數(shù)量的已表達(dá)基因的染色體。
      全文摘要
      在一種遺傳優(yōu)化方法中,計(jì)算地遺傳進(jìn)化染色體群體的基因。所述進(jìn)化包括進(jìn)化每一個(gè)染色體中的多個(gè)已表達(dá)基因,以及采用一種無需參考每個(gè)染色體的未表達(dá)基因而被評(píng)估的健康標(biāo)準(zhǔn)。選擇通過所述遺傳進(jìn)化產(chǎn)生的優(yōu)化的染色體。
      文檔編號(hào)G06F19/00GK1957353SQ200580004378
      公開日2007年5月2日 申請(qǐng)日期2005年2月1日 優(yōu)先權(quán)日2004年2月10日
      發(fā)明者J·D·沙菲爾, M·R·辛普森 申請(qǐng)人:皇家飛利浦電子股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1