專利名稱:構(gòu)造分類屬于不同狀態(tài)的生物樣本的模型的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分類對象的方法的計算機實現(xiàn)方法,其中,所述對象可以被表示成像文檔那樣的字符串或像股票市場價格的變化、表示通過對基因片(gene chip)進行mRNA(信使核糖核酸)雜化檢測到的組織的細胞中的不同基因的級別或通過質(zhì)譜分析檢測到的樣本中不同蛋白質(zhì)的數(shù)量那樣的數(shù)字數(shù)據(jù)的串或表。更具體地說,本發(fā)明涉及構(gòu)造配置成分類屬于至少第一狀態(tài)或與該第一狀態(tài)不同的第二狀態(tài)之一的生物樣本的模型的計算機實現(xiàn)方法。
背景技術(shù):
在文檔的情況中,通過閱讀,在市場數(shù)據(jù)的情況中,通過歷史經(jīng)驗,或在生物數(shù)據(jù)的情況,通過病理檢查,已經(jīng)對預(yù)分類樣本進行了分類。然后,分類算法可以用于分類以前未分類的樣本。這樣的算法通常被稱為數(shù)據(jù)開采(mining)技術(shù)。最常用的數(shù)據(jù)開采技術(shù),譬如,多元線性回歸(multivariatelinear regression)和非線性前饋神經(jīng)網(wǎng)絡(luò)(nonlinear feed-forward neuralnetworks)的固有缺陷在于,一旦被開發(fā)出來,它們是靜態(tài)的,不能識別數(shù)據(jù)流中的新事件。最終結(jié)果是,那些新事件往往被分類錯了。本發(fā)明涉及通過可以識別數(shù)據(jù)流中的新事件的自適應(yīng)機制克服這個缺陷的解決方案。
本發(fā)明使用了遺傳算法和自組織自適應(yīng)模式識別算法。遺傳算法最初是由John.H.Holland教授加以描述的(J.H.Holland,Adaptation in Natural andArtificial Systems,MIT Press 1992,see also U.S.patent No.4,697,242 andNo.4,881,178)。頒發(fā)給Koza的美國專利第5,136,686號描述了把遺傳算法用于模式識別(參見第87欄)。
自組織模式識別已經(jīng)由Kohonen作了描述(T.Kohonen,Self Organizingand Associative Memory,8 Series in Information Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997)。把自組織映射應(yīng)用在自適應(yīng)模式識別中由麻省理工學(xué)院(Massachusetts Institute ofTechnology)的Richard Lippman先生作了描述。
發(fā)明內(nèi)容
本發(fā)明包括兩種相關(guān)試探算法,即,用于實現(xiàn)分類方法和學(xué)習(xí)方法的分類算法和學(xué)習(xí)算法。分類算法的參數(shù)通過把學(xué)習(xí)算法應(yīng)用在訓(xùn)練或?qū)W習(xí)數(shù)據(jù)組中來確定。訓(xùn)練數(shù)據(jù)組是每個項目已經(jīng)被分類的數(shù)據(jù)組。盡管描述如下的方法沒有涉及數(shù)字計算機,但是,本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,本發(fā)明是通過像計算機軟件那樣的工具實現(xiàn)的。任何通用計算機都可以使用;基于本方法的計算不是過分地大。雖然含有并行處理設(shè)施的計算機可以用于本發(fā)明,但是,這樣的處理能力并不是實現(xiàn)使用本發(fā)明的學(xué)習(xí)算法所必需的。分類算法只需要最低程度的計算量。
本發(fā)明的分類方法根據(jù)與對象相聯(lián)系的數(shù)據(jù)流分類對象。本發(fā)明中每個對象的特征在于,大量的,至少約100個數(shù)據(jù)點,可以是10,000或甚至更多個數(shù)據(jù)點的數(shù)據(jù)流。數(shù)據(jù)流以使同一類型對象的不同樣本的數(shù)據(jù)流中的各個數(shù)據(jù)相互關(guān)聯(lián)的方式生成。
對象的樣本包括文本、在預(yù)測金融市場的方向或復(fù)雜處理設(shè)施的行為的情況下的時間點和用于醫(yī)療診斷的生物樣本。這些對象的相關(guān)數(shù)據(jù)流是文本中三字母組的分布、公開交易的股票或商品的價格的逐日變化、壓力和溫度的瞬時讀數(shù)和諸如煉油廠之類的處理設(shè)施中的流動讀數(shù)和在樣本中找到的某個蛋白質(zhì)分組的質(zhì)譜或?qū)σ涣胁煌囼灦嗪塑账徇M行mRNA雜分的強度。
因此,一般說來,無論什么時候想要把對象分類到例如通常是兩個或三個類目的幾個類目之一中,都可以應(yīng)用本發(fā)明,并且,這些對象與大量數(shù)據(jù)例如通常數(shù)千個數(shù)據(jù)點相聯(lián)系。術(shù)語“對象(Object)”在這里用大寫字母開頭,以表示對象在這里具有特殊含義,它的特殊含義在于,它用來統(tǒng)指有形對象例如特定樣本、無形對象例如作品或文本和完全抽象的對象例如在復(fù)雜處理設(shè)施中出現(xiàn)不幸事件之前的時刻,或外幣價格的變動。
分類方法的第一步是計算對象矢量,即,從與要分類的對象相聯(lián)系的數(shù)據(jù)流中取出的小量數(shù)據(jù)點或標(biāo)量(在4到100之間,更通常地,在5到30之間)的有序組。把數(shù)據(jù)流轉(zhuǎn)換成對象矢量稱為“提取(abstraction)”。最簡單的提取處理是選擇數(shù)據(jù)流的若干個點。但是,原則上,可以對數(shù)據(jù)流的任何函數(shù)進行提取處理。在如上所述的實施例中,通過從數(shù)據(jù)流中選擇少數(shù)幾個特定強度進行提取。
在一個實施例中,分類方法的第二步是,如果存在的話,確定矢量處在哪個數(shù)據(jù)簇中。數(shù)據(jù)簇是作為矢量空間中固定規(guī)模的不重疊“超球面”的多維等效物的數(shù)據(jù)結(jié)構(gòu)。每個數(shù)據(jù)簇的位置和相關(guān)分類或“狀態(tài)”通過學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)組中確定。每個數(shù)據(jù)簇的范圍或規(guī)模和矢量空間的維數(shù)被設(shè)置成在運行學(xué)習(xí)算法操作之前,由操作人員完成的常規(guī)實驗。如果矢量位于已知的數(shù)據(jù)簇之內(nèi),則對對象進行與那個簇相關(guān)的分類。在最簡單實施例中,矢量空間的維數(shù)等于在提取處理中選擇的數(shù)據(jù)點的個數(shù)。但是,可替換地,對象矢量的每個標(biāo)題可以利用數(shù)據(jù)流的多個數(shù)據(jù)點來計算。如果對象矢量位于任何已知簇之外,可以對異型物或異型樣本進行分類。
在一個可替代實施例中,放棄把每個數(shù)據(jù)簇定義成超球面,和第二步通過計算數(shù)據(jù)參數(shù)ρ=∑min(|Ii|,|Wi|)/∑|Wi|)來完成,其中,Ii是對象矢量的標(biāo)量,和Wi是預(yù)先形成分類矢量的質(zhì)心的標(biāo)量。匹配參數(shù)ρ也被稱為歸一化“模糊(Fuzzy)”AND(“與”)。然后,通過這個尺度,根據(jù)與之最相似的預(yù)先形成矢量的分類,分類對象。當(dāng)對象矢量和預(yù)先形成矢量相同時,匹配參數(shù)是1,在所有其它情況下,匹配參數(shù)都小于1。
學(xué)習(xí)算法確定利用已知數(shù)學(xué)技術(shù)和兩個預(yù)置參數(shù)的組合,確定提取處理的細節(jié)和數(shù)據(jù)簇的特性(identity)兩者。用戶預(yù)置矢量空間的維數(shù)和數(shù)據(jù)簇的規(guī)模,或者,可替換地,“模糊AND”匹配參數(shù)ρ的最小可接受量級。正如這里所使用的那樣,術(shù)語“數(shù)據(jù)簇”指的是利用歐幾里得尺度(Euclidean metric)的超球面和利用“模糊AND”尺度的預(yù)先形成分類矢量兩者。
通常,數(shù)據(jù)簇所處的矢量空間是歸一化矢量空間,使得在每一維中強度的差異是不變的。通過這樣的表示方式,利用歐幾里得尺度的數(shù)據(jù)簇的規(guī)模可以表示為位于簇內(nèi)的矢量之間的最小相似度(百分比)。
在一個實施例中,學(xué)習(xí)算法可以通過把兩種不同類型的可公開買到的普通軟件組合在一起來實現(xiàn),這兩種軟件是由別人開發(fā)的,并且是本領(lǐng)域的普通技術(shù)人員所熟知的,它們是(1)遺傳算法(J.H.Holland,Adaptation inNatural and Artificial Systems,MIT Press 1992),用于處理一組邏輯染色體(logical chromosome)1,以識別控制數(shù)據(jù)流的提取的最佳邏輯染色體;和(2)可從Group One Software,Greenbelt,MD購買到的自適應(yīng)自組織模式識別系統(tǒng)(參見T.Kohonen,Self Organizing and Associative Memory,8 Series inInformation Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997),用于根據(jù)通過邏輯染色體生成的任何一組矢量,識別一組數(shù)據(jù)簇。具體地說,自適應(yīng)模式識別軟件使位于同質(zhì)(homogeneous)數(shù)據(jù)簇,即,包含只含有一種分類類型的學(xué)習(xí)數(shù)據(jù)組的矢量的數(shù)據(jù)簇中的矢量個數(shù)達到最大。
為了使用遺傳算法,必須把“適應(yīng)性(fitness)”指定給每個邏輯染色體。每個邏輯染色體的適應(yīng)性是通過位于與那個染色體有關(guān)的一組最佳數(shù)據(jù)簇的同質(zhì)簇中的、在訓(xùn)練數(shù)據(jù)組中的矢量的個數(shù)來確定的。因此,本發(fā)明的學(xué)習(xí)算法把識別最佳邏輯染色體的遺傳算法、生成一組最佳數(shù)據(jù)簇的自適應(yīng)模式識別算法和基于位于同質(zhì)簇中的樣本矢量的個數(shù)的適應(yīng)性計算組合在一起。在它的最概括實施例中,本發(fā)明的學(xué)習(xí)算法包括遺傳算法、模式識別算法和衡量模式識別算法的輸出的同質(zhì)性(homogeneity),以控制遺傳算法的適應(yīng)性函數(shù)的使用的組合。
為了避免混亂,應(yīng)該注意到,數(shù)據(jù)簇的個數(shù)比類目的個數(shù)要大得多。下面舉例的分類算法把對象分類成兩個類目例如把文檔分類成感興趣的那些文檔和不感興趣的那些文檔,或者,把臨床樣本分類成良性的或惡性的。但是,這些分類算法利用了許多個數(shù)據(jù)簇來進行分類。當(dāng)對象是時間點時,分類算法可以使用多于兩個的類目。例如,當(dāng)本發(fā)明用作外幣匯率的預(yù)測器時,與上升、下跌和前景難測相對應(yīng)的三部分(tripartite)方案是合適的。此外,可以預(yù)計,這樣的三部分分類算法存在個數(shù)比三大得多的數(shù)據(jù)簇。
在一個實施例中,提供一種構(gòu)造配置成分類屬于至少第一狀態(tài)或與該第一狀態(tài)不同的第二狀態(tài)之一的生物樣本的模型的計算機實現(xiàn)方法,包括提供多個數(shù)據(jù)串,每個數(shù)據(jù)串是從已知為第一狀態(tài)或第二狀態(tài)的生物樣本導(dǎo)出1把術(shù)語“邏輯染色體”與遺傳學(xué)習(xí)算法聯(lián)系在一起使用是因為,算法的邏輯運算與復(fù)制、選擇、重組和變異類似。當(dāng)然,在DNA等中還沒有邏輯染色體的生物實施例。本發(fā)明的遺傳學(xué)習(xí)算法純粹是一種計算手段,不應(yīng)與用于基于生物的信息處理的方案相混淆。的;使用遺傳算法來選取標(biāo)識多個數(shù)據(jù)串的每一個中的數(shù)據(jù)的第一組變量;使用第一組變量為該組數(shù)據(jù)串的每一個成員計算樣本矢量;在最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇的第一矢量空間中找出一位置;確定關(guān)于最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率;確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率是否在可接受的容限內(nèi);如果確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率在可接受的容限內(nèi),則提供在最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的第一矢量空間的所述位置;以及如果確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率不在可接受的容限內(nèi),則使用遺傳算法來選取與第一組變量不同的第二組變量;使用第二組變量為該組數(shù)據(jù)串的每一個成員計算樣本矢量;在最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇的第二矢量空間中找出一位置;確定關(guān)于最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率;確定最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率是否在可接受的容限內(nèi),以及如果確定最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率在可接受的容限內(nèi),則提供在最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的第二矢量空間的所述位置。
具體實施例方式
為了實際應(yīng)用本發(fā)明,常規(guī)專業(yè)人員必須通過應(yīng)用學(xué)習(xí)算法,開發(fā)分類算法。對于任何試探法,需要一些常規(guī)實驗。為了應(yīng)用學(xué)習(xí)算法,常規(guī)專業(yè)人員利用訓(xùn)練數(shù)據(jù)組,并且必須通過實驗優(yōu)化兩個參數(shù),維數(shù)和數(shù)據(jù)簇規(guī)模。
盡管對矢量的維數(shù)沒有絕對的或固有的限制,但是,在每次實施時,學(xué)習(xí)算法本身固有地限制維數(shù)。如果維數(shù)太低或簇的規(guī)模太大,學(xué)習(xí)算法就不能生成正確分類具有可接受水平的同質(zhì)性的所有樣本的任何邏輯染色體。相反,維數(shù)可能太大。在這種情況下,學(xué)習(xí)算法在學(xué)習(xí)處理過程的早期生成可能適應(yīng)性最大的許多邏輯染色體。因此,存在著結(jié)果卻中途夭折的選擇。類似地,當(dāng)數(shù)據(jù)簇的規(guī)模太小時,將發(fā)現(xiàn)簇的個數(shù)與訓(xùn)練數(shù)據(jù)組中樣本的個數(shù)接近,此外,常規(guī)專業(yè)人員將發(fā)現(xiàn),大量邏輯染色體將形成一組完全同質(zhì)的數(shù)據(jù)簇。
盡管上文提供了為分類算法選擇維數(shù)和數(shù)據(jù)簇規(guī)模的一般性指導(dǎo),但是,應(yīng)該明白,分類算法的值的真假檢驗是其正確分類與訓(xùn)練數(shù)據(jù)組中的數(shù)據(jù)流無關(guān)的數(shù)據(jù)流的能力。因此,常規(guī)專業(yè)人員應(yīng)該明白,必須保留學(xué)習(xí)數(shù)據(jù)組的一部分,以便核實分類算法隨對于指定目的可接受的出錯率而變化的情況。下面更詳細地描述本發(fā)明的具體部分。
A.數(shù)據(jù)流和對象的類型對象的分類和相關(guān)數(shù)據(jù)流的生成取決于要解決的問題的性質(zhì)。這些原則通過如下的實例加以說明。
文檔在一個實施例中,本發(fā)明提供了用于計算機化分類文檔的方法。例如,你可能想要從由多得難以一個一個單獨查看的大量文檔組成的數(shù)據(jù)庫中提取感興趣的文檔。對于這些情況,本發(fā)明提供了一種計算機化算法,以識別最有可能包含感興趣文檔的一個數(shù)據(jù)庫分組。每個文檔是一個對象,每個文檔的數(shù)據(jù)流由直方圖組成,直方圖表示在去掉空格和標(biāo)點符號之后,在文檔中找到的17576(263)種三字母組合(三字母組(trigrams))每一個出現(xiàn)的頻率??商鎿Q地,在從文檔中進一步去掉元音之后,可以制作輔音的9261種三字母組的直方圖。根據(jù)用戶的需要,訓(xùn)練數(shù)據(jù)組由已經(jīng)被分類成“感興趣”或“不感興趣”的適當(dāng)文檔的樣本組成。
金融市場不言而喻,金融市場會對外部事件作出反應(yīng),并且,以協(xié)調(diào)的方式相互聯(lián)系;例如,外匯匯率受投資機會的吸引力的影響。但是,對單獨事件作出反應(yīng)的方向和程度卻難以預(yù)測。在一個實施例中,本發(fā)明提供了在一個基于價格隨其它因素而變動的市場中價格的計算機化預(yù)測算法。每個時間點是一個對象例如以小時計的間隔,一個小時的數(shù)據(jù)流由相關(guān)國家的主要股票市場例如對英鎊和美元的匯率感興趣的紐約和倫敦股票交易所中公開交易證券的價格變化的直方圖組成。訓(xùn)練數(shù)據(jù)組由已經(jīng)被分類成在美元-英鎊匯率的上升或下降之前的價格變化的歷史記錄組成。
處理設(shè)施在復(fù)雜的處理設(shè)施,譬如,煉油廠、油田或石化廠中,不斷監(jiān)視和記錄許多閥門和其它控制器的壓力、溫度、流動和狀態(tài)(統(tǒng)稱為“狀態(tài)值”)。需要在不幸事件變成災(zāi)難性故障之前,檢測出即將來臨的不幸事件。本發(fā)明提供了把每個時間點分類成高風(fēng)險時間點或一般風(fēng)險時間點的計算機化算法。數(shù)據(jù)流由每個時間點的狀態(tài)值組成。訓(xùn)練數(shù)據(jù)組由分類成在不幸事件之前或在一般操作之前的狀態(tài)值的歷史記錄組成。
醫(yī)療診斷本發(fā)明可以用在為醫(yī)療診斷分析組織樣本中例如用于分析血清或血漿。數(shù)據(jù)流可以是得出2,000或更多個可以被量化成至少千分之一(三位有效數(shù)字)的測量結(jié)果的組織樣本的任何可再現(xiàn)物理分析。蛋白質(zhì)的飛行時間質(zhì)譜尤其適合于本發(fā)明的實際應(yīng)用。更具體地說,就是基體促進型激光器退吸電離飛行時間(matrix assisted laser desorption ionization time of flight,MALDI-TOF)和表面增強型激光器退吸電離飛行時間(surface enhanced laserdesorption ionization time of flight,SELDI-TOF)譜測量。有關(guān)內(nèi)容請參閱WO00/49410。
數(shù)據(jù)流還可以包括不是固有地通過諸如分子重量之類的單個有序參數(shù)組織的,而是具有任意次序的測量結(jié)果。因此,當(dāng)組織樣本是活體解剖標(biāo)本時,同時衡量2,000或更多個基因的表示級的DNA微陣列數(shù)據(jù)可以用作數(shù)據(jù)流,對各個基因的次序是數(shù)據(jù)流的認識是任意的。
對于早期診斷很重要,但是由于癥狀不明而造成技術(shù)上的困難,和由于病理組織的代謝活動,可以預(yù)計疾病在血清中產(chǎn)生可檢測出來的變異的特定疾病,本發(fā)明特別有用。惡性腫瘤(癌癥)的早期診斷是本發(fā)明應(yīng)用的基本焦點。工作樣本顯示了前列腺癌的診斷,還為卵巢癥的診斷進行了相似測試。
應(yīng)該注意到,利用本發(fā)明的方法,可以對來自一個患者樣本的單個數(shù)據(jù)流進行分析,供多種診斷使用。由于專用于每種診斷的步驟僅僅由計算機來完成,因此,這種多種診斷的附加成本是微不足道的。
B.提取處理和邏輯染色體在本發(fā)明的分類處理中第一步驟是把數(shù)據(jù)流轉(zhuǎn)換成特征矢量或從數(shù)據(jù)流中提取特征矢量。在提取之前,通過把總峰值指定成獨立值1和把所有其它點變成相應(yīng)分數(shù)值,可以方便地歸一化數(shù)據(jù)。數(shù)據(jù)流的最簡單提取包括選擇少數(shù)幾個數(shù)據(jù)點。本領(lǐng)域的普通技術(shù)人員應(yīng)該認識到,可以構(gòu)造出多個點的更復(fù)雜函數(shù),譬如,在某個區(qū)間上的平均值函數(shù)或在相對于所選原始數(shù)據(jù)點預(yù)定距離的數(shù)據(jù)點之間的更復(fù)雜和或差函數(shù)。也可以使用數(shù)據(jù)流的強度值的函數(shù),并且,可以預(yù)測,這樣的函數(shù)起與在工作樣本中所示的簡單提取等效的作用。
本領(lǐng)域的普通技術(shù)人員還應(yīng)該懂得,常規(guī)實驗可以確定在任意點上求出瞬時斜率的提取在本發(fā)明中是否也有效。因此,所示工作樣本這種可通過常規(guī)方法獲得的變型在本發(fā)明的范圍之內(nèi)。
本發(fā)明的特征是把遺傳算法用于確定用于計算特征矢量的數(shù)據(jù)點。為了與現(xiàn)有技術(shù)的名稱保持一致,要選擇的特定點的列表被稱為邏輯染色體。邏輯染色體包含與特征矢量的維數(shù)一樣多的“基因”。只要假設(shè)不能復(fù)制染色體的基因,任何適當(dāng)個數(shù)據(jù)點的組都可以是邏輯染色體?;虻拇涡?qū)Ρ景l(fā)明來說并不重要。
本領(lǐng)域的普通技術(shù)人員應(yīng)該懂得,遺傳算法可以應(yīng)用在兩個條件得到滿足的時候。對于這個問題的具體解決方案必須能夠通過一組或一串固定長度離散元素來表示,這些單元可以是數(shù)字或字符,和可以重組這些串,進一步形成解決方案。你還必須能夠計數(shù)每種解決方案的優(yōu)缺點的數(shù)值,即它的適應(yīng)性。在這些情況下,遺傳算法的細節(jié)與尋求解決的問題無關(guān)。因此,對于本發(fā)明,可以應(yīng)用遺傳算法軟件??蓮陌⒇晣覍嶒炇?Argonne NationalLaboratory)購買到的PGAPack程序庫中的算法是適用的。下面討論具體邏輯染色體的適應(yīng)性的計算。
第一個示范性實例涉及到100個文檔的文集,把這100文檔隨機分成46個文檔的訓(xùn)練組和54個文檔的測試組。該文檔包括國會(State of the Union)演說、書籍《(戰(zhàn)爭藝術(shù)》(The Art of War)的選段和來自《金融時報》(theFinancial Time)的文章。對每個文檔計算三字母組的分布。選擇25維的矢量空間和在每維中是那個維中的值域的0.35倍數(shù)據(jù)簇規(guī)模。遺傳算法用大約1,500個隨機選擇的邏輯染色體初始化。隨著算法進行下去,復(fù)制出更合適的邏輯染色體,終止掉不那么合適的邏輯染色體。在染色體與通過隨機取代染色體的元素發(fā)生的變異之間存在重組。最初隨機選擇的邏輯染色體的集合不是本發(fā)明的基本特征。對數(shù)據(jù)流的所有組進行某種預(yù)先篩分,以便識別出那些具有最高可變性的數(shù)據(jù)點也許是有用的,盡管這樣的技術(shù)也有可能引入不希望有的初始偏差。本領(lǐng)域的普通技術(shù)人員應(yīng)該懂得,遺傳算法的初始染色體組、變異率和其它邊界條件對于它的函數(shù)來說不是關(guān)鍵性的。
C.模式識別處理和適應(yīng)性分數(shù)生成計算通過遺傳算法生成的邏輯染色體每一個的適應(yīng)性分數(shù)(score)。適應(yīng)性分數(shù)的計算需要為測試的每一個邏輯染色體生成一組最佳數(shù)據(jù)簇。數(shù)據(jù)簇只不過是訓(xùn)練數(shù)據(jù)組的對象矢量所在的矢量空間中的體積。生成一組最佳數(shù)據(jù)簇的方法對于本發(fā)明來說不是關(guān)鍵性的,下面將對此加以研究。但是,無論什么方法用于生成數(shù)據(jù)簇映像,該映像都受如下規(guī)則約束每個數(shù)據(jù)簇都應(yīng)該位于處在數(shù)據(jù)簇內(nèi)的數(shù)據(jù)點的質(zhì)心上,兩個數(shù)據(jù)簇不可以重疊,和在生成映像之前,歸一化矢量空間中每個簇的維數(shù)是固定的。
數(shù)據(jù)簇的規(guī)模由用戶在訓(xùn)練期間設(shè)置。把規(guī)模設(shè)置得太大會導(dǎo)致難以找到可以成功分類整個訓(xùn)練組的任何染色體,相反,把規(guī)模設(shè)置得小一點會導(dǎo)致簇的個數(shù)接近訓(xùn)練組中數(shù)據(jù)點的個數(shù)的一組最佳數(shù)據(jù)簇。更重要的是,數(shù)據(jù)簇的規(guī)模被設(shè)置得太小會導(dǎo)致如下所述的“過分適應(yīng)(overfiting)”。
用于定義數(shù)據(jù)簇的規(guī)模的方法是本發(fā)明的一部分。簇規(guī)??梢酝ㄟ^數(shù)據(jù)簇的任何兩個成員之間的歐幾里得距離(平方和的根)的等效物的最大值來定義。當(dāng)數(shù)據(jù)流通過SELDI-TOF質(zhì)譜測量數(shù)據(jù)生成時,與90%相似性的要求相對應(yīng)的數(shù)據(jù)簇規(guī)模適合于本發(fā)明。對于文本的分類,發(fā)現(xiàn)稍微大一點的數(shù)據(jù)簇更有用。從數(shù)學(xué)上,90%相似性通過要求簇的任何兩個成員之間的距離小于歸一化矢量空間中兩個點之間的最大距離的0.1來定義。對于這樣的計算,歸一化矢量空間,以便訓(xùn)練數(shù)據(jù)組內(nèi)矢量的每個標(biāo)量的范圍在0.0和1.0之間。然后,矢量空間中任何兩個矢量之間如此歸一化的、最大可能距離是 其中,N是維數(shù)。然后,每個簇的歐幾里得距離是 矢量空間的具體歸一化不是本發(fā)明的關(guān)鍵性特征。前述方法是為了易于計算而選擇的??商鎿Q的歸一化可以通過不是把每一維定標(biāo)成一定范圍,而是使每一維具有相等的變異性來實現(xiàn)??梢允褂弥T如矢積尺度之類的非歐幾里得尺度。
本領(lǐng)域的普通技術(shù)人員還應(yīng)該認識到,數(shù)據(jù)流內(nèi)值的分布是對數(shù)正態(tài)分布,而不是一般分布,那么,可以把數(shù)據(jù)流轉(zhuǎn)換成對數(shù)形式。
一旦已經(jīng)生成邏輯染色體的一組最佳數(shù)據(jù)簇,就可以計算那個染色體的適應(yīng)性分數(shù)。對于本發(fā)明,染色體的適應(yīng)性分數(shù)大體上對應(yīng)于位于同質(zhì)的簇,即,包含來自具有單一分類的樣本的特征矢量的簇中的訓(xùn)練數(shù)據(jù)組的矢量數(shù)。更明確地說,適應(yīng)性分數(shù)通過把同質(zhì)性分數(shù)指定給每個簇來計算,同質(zhì)性分數(shù)從對于同質(zhì)簇為0.0變化到對于包含相等個數(shù)的惡性和良性樣本矢量的簇為0.5。染色體的適應(yīng)性分數(shù)是數(shù)據(jù)簇的平均適應(yīng)性分數(shù)。因此,0.0的適應(yīng)性分數(shù)是最合適的。存在有助于生成更多數(shù)據(jù)簇的邏輯染色體的偏差,這時因為,當(dāng)在指定數(shù)據(jù)的過程中,兩個邏輯染色體存在相同個數(shù)的錯誤時,生成更多個數(shù)的簇的邏輯染色體將具有更低的平均同質(zhì)性分數(shù),因此,具有更好的適應(yīng)性分數(shù)。
可公開買到的利用自組織映射生成的軟件有好幾個,其中之一是“LeadCluster Map”,可以通過作為Model 1從Group One Software(Green-belt,MD)獲得的通用軟件來實現(xiàn)。
本發(fā)明的可替換實施例利用非歐幾里得尺度來建立數(shù)據(jù)簇的邊界。尺度指的是在矢量空間中測量距離的方法。本發(fā)明的可替換尺度可以基于如上面所定義的歸一化“模糊AND”。根據(jù)“模糊AND”實現(xiàn)自適應(yīng)模式識別算法的軟件可從波士頓大學(xué)(Boston University)獲得,這個軟件名叫Fuzzy ARTMAP。
D.特定實施例的描述和核實本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,整個訓(xùn)練數(shù)據(jù)組到同質(zhì)數(shù)據(jù)簇的指定本身不是分類算法以可接受水平的精度有效運行的證據(jù)。因此,通過學(xué)習(xí)算法生成的分類算法的值必須通過它分類除了訓(xùn)練數(shù)據(jù)組之外的其它一組數(shù)據(jù)的能力來測試。當(dāng)學(xué)習(xí)算法生成成功指定訓(xùn)練數(shù)據(jù)組,但是僅僅很差地指定測試數(shù)據(jù)組的分類算法時,就認為這個訓(xùn)練數(shù)據(jù)被學(xué)習(xí)算法過分適應(yīng)了。當(dāng)維數(shù)太大和/或數(shù)據(jù)簇的規(guī)模太小時會導(dǎo)致過分適應(yīng)。
文檔簇文檔(文本)是各行各業(yè)都感興趣的。這些行業(yè)包括法律、醫(yī)療和情報團體。當(dāng)面對文本性材料的流水作業(yè)量的精確性時,已經(jīng)證明基于布爾(Boolean)的搜索和檢索方法是不合適的。并且,布爾搜索不能捕獲到概念性信息。
對這個問題的建議方法是設(shè)法以服從數(shù)值分析的方式提取概念性信息。一種這樣的方法是把文檔編制成三字母組的集合和記錄它們出現(xiàn)的頻率。三字母組是任何三個字符的集合,譬如,AFV、KLF、OID等。因此,有263種三字母組??崭窈蜆?biāo)點稱號不包括在內(nèi)。然后,可以通過把文檔分段成從源自那個文檔的文本的開頭開始的三字母組的特定集合來表示這個文檔。從那個文檔得出的三字母組集合和它們的頻率是特征量。如果在一個集合中的文檔具有相似的三字母組集合和頻率,那么,它們很可能涉及相同主題。如果只檢查和計數(shù)三字母組的特定子集,這就特別正確。問題是,三字母組的哪個子集描述了任何概念?;诒景l(fā)明的學(xué)習(xí)算法可以回答這個問題。
把來自《金融時報》、《戰(zhàn)爭藝術(shù)》和總統(tǒng)國會演說的100個英文文檔匯編成一個文集。把分類隨機地劃分成訓(xùn)練和測試文集。把0或1的某個值指定給所有文檔,其中,0表示令人討厭的,1表示賞心悅目的。學(xué)習(xí)算法對整個三字母組集合進行搜索,并且識別將文檔分成兩類的三字母組集合。最后的模型處在25維空間中,以及判別邊界被設(shè)置在該空間中允許的最大距離的0.35倍上。分類算法只利用了17,576種可能三字母組中的25種。一旦進行測試,就會獲得下表的結(jié)果。
表A從垂直方向讀出含混矩陣(confusion matrix)實際值,和從水平方向讀出根據(jù)本發(fā)明的算法的結(jié)果。
結(jié)果表明,算法正確地識別出26個感興趣文檔中的24個,和正確地篩出或舍棄了26個不感興趣文檔中的22個。
生物狀態(tài)的評估把上述學(xué)習(xí)算法用于開展利用55個患者血清樣本的SELDI-TOF質(zhì)譜(MS)對前列腺癌逐步進行分類,在這55個患者血清樣本中,30個通過活體解剖被診斷為前列腺癌和前列腺血清抗原(PSA)水平大于4.0ng/ml,和25個正常體PSA水平低于1ng/ml。MA數(shù)據(jù)是通過選擇7個分子量值提取的。
生成把訓(xùn)練數(shù)據(jù)組中的每個矢量指定給同質(zhì)數(shù)據(jù)簇的簇映像。簇映像包含34個簇,其中,17個是良性的,和17個是惡性的。表1顯示了映像的每個數(shù)據(jù)簇的位置和指定給每個簇的訓(xùn)練組的樣本數(shù)。
分類算法是利用把訓(xùn)練數(shù)據(jù)組排除在外的231個樣本進行測試的。使用了來自經(jīng)歷過各種臨床和病理診斷的患者的6組樣本。臨床和病理描述和算法結(jié)果如下1)24個患者PSA>4ng/ml,和通過活體解剖證明得了癌癥,其中,22個被映射到有病數(shù)據(jù)簇,2個被映射到無病數(shù)據(jù)簇;2)6個正常,均被映射到健康數(shù)據(jù)簇;3)39個得了前列腺肥大(BPH)或前列腺炎,和PSA<4ng/ml,其中,7個被映射到有病數(shù)據(jù)簇,0個被映射到健康數(shù)據(jù)簇,和32個被映射到無病數(shù)據(jù)族;4)139個得了BPH或前列腺炎,并且,4ng/ml<PSA<10ng/ml,其中,42個被映射到有病數(shù)據(jù)簇,2個被映射到健康數(shù)據(jù)簇,和95個被映射到無病數(shù)據(jù)族;5)19個得了BPH或前列腺炎,并且,PSA>10ng/ml,其中,9個被映射到有病數(shù)據(jù)簇,0個被映射到健康數(shù)據(jù)簇,和10個被映射到無病數(shù)據(jù)族。第6組數(shù)據(jù)是從通過活體解剖證明得了惡性腫瘤和PSA>10ng/ml的患者身上取出前列腺切除之前和之后的樣本得到的。正如所期望的那樣,7個手術(shù)前樣本的每一個都被指定到有病數(shù)據(jù)組。但是,在做完手術(shù)6個星期之后,PSA水平已經(jīng)降到1ng/ml以下,那時取出的樣本沒有一個不可以被指定到任何數(shù)據(jù)組。
當(dāng)評估前述測試的結(jié)果時,應(yīng)當(dāng)回想到,在PSA為2-4ng/ml和通過活體解剖診斷為良性的患者中隱藏著惡性腫瘤的比率為約30%。因此,雖然對癌癥沒有進行組織診斷,但發(fā)現(xiàn)18%和47%之間的患者PSA高,這與正確預(yù)測惡性腫瘤的存在是一致的。
權(quán)利要求
1.一種構(gòu)造配置成分類屬于至少第一狀態(tài)或與該第一狀態(tài)不同的第二狀態(tài)之一的生物樣本的模型的計算機實現(xiàn)方法,包括提供多個數(shù)據(jù)串,每個數(shù)據(jù)串是從已知為第一狀態(tài)或第二狀態(tài)的生物樣本導(dǎo)出的;使用遺傳算法來選取標(biāo)識多個數(shù)據(jù)串的每一個中的數(shù)據(jù)的第一組變量;使用第一組變量為該組數(shù)據(jù)串的每一個成員計算樣本矢量;在最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇的第一矢量空間中找出一位置;確定關(guān)于最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率;確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率是否在可接受的容限內(nèi);如果確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率在可接受的容限內(nèi),則提供在最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的第一矢量空間的所述位置;以及如果確定最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率不在可接受的容限內(nèi),則使用遺傳算法來選取與第一組變量不同的第二組變量;使用第二組變量為該組數(shù)據(jù)串的每一個成員計算樣本矢量;在最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇的第二矢量空間中找出一位置;確定關(guān)于最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率;確定最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率是否在可接受的容限內(nèi),以及如果確定最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率在可接受的容限內(nèi),則提供在最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的第二矢量空間的所述位置。
2.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率是最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的差異。
3.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,如果確定最適合使用第二組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇的變異率不在可接受的容限內(nèi),則選取與第一組變量和第二組變量都不同的第三組變量。
4.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,每一個數(shù)據(jù)串都是經(jīng)由生物測定技術(shù)從生物樣本導(dǎo)出的。
5.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,可接受的容限使用戶輸入的。
6.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,在最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇的第一矢量空間中找出一位置包括為每個樣本矢量確定關(guān)于第一矢量空間中的先前存在的質(zhì)心的樣本矢量的一個鄰域。
7.根據(jù)權(quán)利要求6所述的計算機實現(xiàn)方法,還包括確定每個樣本矢量與最接近的、先前存在的質(zhì)心的距離是否在以預(yù)定門限值之內(nèi);如果該距離超過該門限值,則基于第一矢量空間中的樣本矢量的所述位置定義新的質(zhì)心;而如果該距離小于該門限值,則分配該樣本矢量到與先前存在的質(zhì)心相關(guān)聯(lián)的簇。
8.根據(jù)權(quán)利要求7所述的計算機實現(xiàn)方法,其中,分配所述樣本矢量包括調(diào)整先前存在的質(zhì)心的位置以更接近所述樣本矢量的所述位置。
9.根據(jù)權(quán)利要求1所述的計算機實現(xiàn)方法,其中,最適合使用第一組變量計算出的樣本矢量的至少兩個數(shù)據(jù)簇中的每一簇包括一個質(zhì)心和一個決策超半徑。
10.一種利用根據(jù)權(quán)利要求1的方法構(gòu)造的、配置成分類生物樣本的模型。
全文摘要
本發(fā)明涉及分類對象的模型的計算機實現(xiàn)方法,包括使用遺傳算法提取與每個對象相關(guān)聯(lián)的數(shù)據(jù)流,以及使用模式識別算法分類對象和衡量遺傳算法的染色體的適應(yīng)性。本發(fā)明可用在分類文本和醫(yī)學(xué)樣本,預(yù)測基于價格隨其它因素而改變的金融市場的行為,并監(jiān)視復(fù)雜處理設(shè)施的狀態(tài),以便檢測即將發(fā)生的故障的領(lǐng)域中。
文檔編號G06K9/00GK1741036SQ200510089318
公開日2006年3月1日 申請日期2001年6月19日 優(yōu)先權(quán)日2000年6月19日
發(fā)明者本·希特 申請人:科雷洛吉克系統(tǒng)公司