用于生成生物標(biāo)志物簽名的系統(tǒng)和方法
【專利摘要】在此描述的系統(tǒng)和方法包括用于生成既可重現(xiàn)又可解釋的基因簽名的技術(shù)。該技術(shù)涉及對(duì)數(shù)據(jù)集進(jìn)行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體而言,在此描述的系統(tǒng)和方法包括對(duì)數(shù)據(jù)集的重復(fù)采樣、基于通過(guò)重復(fù)采樣處理生成的基因簽名的發(fā)生頻率對(duì)基因進(jìn)行排名,以及迭代地選擇最佳基因簽名。
【專利說(shuō)明】用于生成生物標(biāo)志物簽名的系統(tǒng)和方法
[0001] 相關(guān)申請(qǐng)的引用
[0002] 本發(fā)明根據(jù)35U.S.α§ 119要求在2012年6月21日提交的題為"Systemsand MethodsforGeneratingBiomarkerSignatures" 的美國(guó)臨時(shí)專利申請(qǐng)第 61/662, 658 號(hào) 的優(yōu)先權(quán)。
【技術(shù)領(lǐng)域】
[0003] 在生物醫(yī)學(xué)領(lǐng)域,識(shí)別指示特定生物狀態(tài)的物質(zhì)(即生物標(biāo)志物(biomarker))是 重要的。隨著基因組和蛋白質(zhì)組的新技術(shù)出現(xiàn),生物標(biāo)志物在生物發(fā)現(xiàn)、藥物開(kāi)發(fā)和衛(wèi)生保 健中正變得愈發(fā)重要。生物標(biāo)志物不僅對(duì)許多疾病的診斷和預(yù)后有用,而且對(duì)理解療法開(kāi) 發(fā)的基礎(chǔ)有用。生物標(biāo)志物的成功和有效識(shí)別可以加速新藥物開(kāi)發(fā)過(guò)程。隨著療法與診斷 和預(yù)后的結(jié)合,生物標(biāo)志物識(shí)別也將增強(qiáng)當(dāng)前醫(yī)療治療的質(zhì)量,從而在藥物遺傳學(xué)、藥物基 因組學(xué)和藥物蛋白質(zhì)組學(xué)的用途中發(fā)揮重要作用。
[0004] 包括高吞吐量篩選在內(nèi)的基因組和蛋白質(zhì)組分析提供了關(guān)于以細(xì)胞表達(dá)的蛋白 質(zhì)的數(shù)目和形式的大量信息并且提供了針對(duì)每一個(gè)細(xì)胞來(lái)識(shí)別特定細(xì)胞狀態(tài)的表達(dá)蛋白 質(zhì)特性的簡(jiǎn)檔的可能。在某些情況下,該細(xì)胞狀態(tài)可能是以與疾病相關(guān)聯(lián)的異常生理反應(yīng) 為特征。結(jié)果,識(shí)別并且比較來(lái)自具有疾病的患者的細(xì)胞狀態(tài)和來(lái)自正?;颊叩膶?duì)應(yīng)細(xì)胞 的細(xì)胞狀態(tài)可以提供診斷和治療疾病的機(jī)會(huì)。
[0005] 這些高吞吐量篩選技術(shù)提供了基因表達(dá)信息的大數(shù)據(jù)集。研宄者已經(jīng)嘗試開(kāi)發(fā)用 于將這些數(shù)據(jù)集組織為對(duì)個(gè)體的多樣人群是可重現(xiàn)診斷性的模式的方法。一種方法是聚集 來(lái)自多個(gè)源的數(shù)據(jù)以形成組合數(shù)據(jù)集然后將該數(shù)據(jù)集分為發(fā)現(xiàn)/訓(xùn)練集和測(cè)試/驗(yàn)證集。 然而,轉(zhuǎn)錄分析數(shù)據(jù)(profilingdata)和蛋白質(zhì)表達(dá)分析數(shù)據(jù)經(jīng)常以與樣本的可用數(shù)目有 關(guān)的大量變量為特點(diǎn)。
[0006] 來(lái)自患者群組或者控制群組的標(biāo)本的表達(dá)譜(expressionprofile)之間的觀察 差異通常被若干因素遮蔽,這些因素包括疾病或者控制人群內(nèi)的生物變化性或者未知子表 型、由研宄方案的差異引起的特定于部位的偏差、標(biāo)本處理、由儀器條件的差異(例如,芯 片批次等)引起的偏差以及由測(cè)量誤差引起的變化。
[0007] 若干基于計(jì)算機(jī)的方法已被開(kāi)發(fā)以尋找最好說(shuō)明疾病和控制樣本之間的差異的 一組特征(標(biāo)志物)。一些早期方法包括諸如UMM之類的統(tǒng)計(jì)測(cè)試、用于識(shí)別與乳腺癌有 關(guān)的生物標(biāo)志物的FDA批準(zhǔn)的ma_aprint技術(shù)、邏輯回歸技術(shù)以及諸如支持向量機(jī)(SVM) 之類機(jī)器學(xué)習(xí)方法。一般而言,從機(jī)器學(xué)習(xí)的角度,生物標(biāo)志物的選擇通常是分類任務(wù)的特 征選擇問(wèn)題。然而,這些早期解決方案面臨若干缺點(diǎn)。通過(guò)這些技術(shù)生成的簽名不是可重 現(xiàn)的,這是因?yàn)閷?duì)象的包括和排除可以導(dǎo)致不同的簽名。這些早期解決方案也不是魯棒性 的,這是因?yàn)樗鼈儗?duì)具有小樣本尺寸和高維度的數(shù)據(jù)集進(jìn)行操作。此外,通過(guò)這些技術(shù)生成 的簽名包括許多假陽(yáng)性并且難以以生物方式解釋,這是因?yàn)榧夹g(shù)和基因簽名本身都不闡明 底層生物機(jī)制。結(jié)果,因?yàn)樗鼈儾皇强芍噩F(xiàn)的并且難以解釋,因此它們對(duì)臨床診斷可能不是 特別有用。
[0008] 較新的技術(shù)涉及將關(guān)于正則通路(canonicalpathway)和蛋白質(zhì)-蛋白質(zhì)交互作 用的知識(shí)集成到基因選擇算法中。另外,若干特征選擇技術(shù)已被開(kāi)發(fā),并且這些技術(shù)包括過(guò) 濾方法、包裝方法和嵌入方法。過(guò)濾方法獨(dú)立于分類器設(shè)計(jì)而工作并且通過(guò)考慮數(shù)據(jù)的內(nèi) 在屬性來(lái)執(zhí)行特征選擇。包裝和嵌入方法通過(guò)利用特定分類模型來(lái)執(zhí)行特征選擇。包裝方 法在分類模型的預(yù)測(cè)性能的引導(dǎo)下在可能特征子集的空間中使用搜索策略。嵌入式方法利 用分類模型內(nèi)部參數(shù)來(lái)執(zhí)行特征選擇。然而,這些技術(shù)也面臨若干缺點(diǎn)。
[0009] 因此,存在對(duì)為了臨床診斷、預(yù)后或者這兩者而識(shí)別生物標(biāo)志物的改進(jìn)技術(shù)的需 要。
【發(fā)明內(nèi)容】
[0010] 如上面提到的,早期的解決方案以及更新的嵌入和包裝方法面臨若干缺點(diǎn)。具體 而言, 申請(qǐng)人:已經(jīng)認(rèn)識(shí)到這些方法依賴于所使用的具體類型的分類方法。換言之,如果分類 方法不適合用戶數(shù)據(jù)的類型,那么這些方法通常傾向于失敗或者不佳地執(zhí)行。 申請(qǐng)人:已經(jīng) 進(jìn)一步認(rèn)識(shí)到多個(gè)方法的整體傾向于做得比單獨(dú)方法更好。在此描述的計(jì)算機(jī)系統(tǒng)和計(jì)算 機(jī)程序產(chǎn)品實(shí)現(xiàn)了包括一個(gè)或多個(gè)這種整體技術(shù)并且包括用于生成可重現(xiàn)且可解釋的基 因簽名的方法。該技術(shù)涉及對(duì)數(shù)據(jù)集進(jìn)行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體 而言,在此描述的計(jì)算機(jī)實(shí)現(xiàn)的方法包括對(duì)數(shù)據(jù)集的重復(fù)采樣、基于通過(guò)重復(fù)采樣處理生 成的基因簽名的發(fā)生頻率對(duì)基因進(jìn)行排名,以及迭代地選擇最佳基因簽名。
[0011] 在某些方面,在此描述的系統(tǒng)和方法包括用于識(shí)別疾病情況的生物簽名或者一組 生物標(biāo)志物的裝置和方法。這些方法可以包括接收多個(gè)數(shù)據(jù)集,每一個(gè)數(shù)據(jù)集包括生物系 統(tǒng)中的多個(gè)生物實(shí)體中的每一個(gè)生物實(shí)體的活動(dòng)或者表達(dá)水平數(shù)據(jù)。生物系統(tǒng)可以處于若 干個(gè)狀態(tài)中的一個(gè)。例如,生物系統(tǒng)可以處于由暴露于物質(zhì)而引起的擾動(dòng)狀態(tài)。在另一個(gè) 示例中,生物系統(tǒng)可以處于疾病情況的狀態(tài),或者處于控制情況或者正常情況的狀態(tài)。這些 方法還可以包括多次迭代,針對(duì)每一次迭代,將多個(gè)數(shù)據(jù)集分為訓(xùn)練部分和測(cè)試部分。這多 個(gè)數(shù)據(jù)集中的訓(xùn)練部分可以被用來(lái)通過(guò)比較對(duì)應(yīng)于生物系統(tǒng)的兩種不同狀態(tài)(例如,疾病 狀態(tài)和正常狀態(tài))的表達(dá)水平來(lái)確定每一個(gè)生物實(shí)體的差異表達(dá)。另外,訓(xùn)練部分可以被 用來(lái)將訓(xùn)練部分中具有高于閾值的差異表達(dá)的預(yù)定數(shù)目的生物實(shí)體存儲(chǔ)作為子候選簽名。 訓(xùn)練部分還可以被用來(lái)生成基于數(shù)據(jù)集內(nèi)的識(shí)別出的生物實(shí)體的表達(dá)水平將數(shù)據(jù)集中的 每一個(gè)指派給疾病類和正常或控制類中的一個(gè)的分類規(guī)則。
[0012] 針對(duì)多次迭代中的每一次,這些方法還可以包括使用多個(gè)數(shù)據(jù)集中的測(cè)試部分來(lái) 應(yīng)用分類規(guī)則以將每一個(gè)數(shù)據(jù)集指派給疾病類和正常/控制類中的一個(gè),并且通過(guò)將每一 個(gè)數(shù)據(jù)集的指派與和該數(shù)據(jù)集相關(guān)聯(lián)的生物系統(tǒng)的狀態(tài)相比較來(lái)生成子候選簽名的性能 子測(cè)量結(jié)果。在某些實(shí)施例中,這些方法包括通過(guò)從子候選簽名的聚合中選擇頻繁排名高 的生物實(shí)體來(lái)生成具有預(yù)定數(shù)目生物實(shí)體的候選簽名,以及基于性能子測(cè)量結(jié)果來(lái)生成與 候選簽名相關(guān)聯(lián)的性能測(cè)量結(jié)果。在某些實(shí)施例中,這些方法包括針對(duì)預(yù)定數(shù)目的多個(gè)不 同值重復(fù)以上步驟中的一個(gè)或多個(gè)以生成多個(gè)候選簽名和多個(gè)相關(guān)聯(lián)的性能測(cè)量結(jié)果。然 后,與最高性能測(cè)量結(jié)果或者超過(guò)某一閾值的性能測(cè)量結(jié)果相關(guān)聯(lián)的候選簽名被存儲(chǔ)作為 生物簽名。
[0013] 在上述方法的某些實(shí)施例中,多個(gè)生物實(shí)體包括基因和miRNA中的一個(gè)或多個(gè)。 表達(dá)水平可以包括甲基化數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)和蛋白質(zhì)表達(dá)數(shù)據(jù)中的一個(gè) 或多個(gè)。在上述方法的某些實(shí)施例中,確定差異表達(dá)的步驟包括微陣列顯著性分析(SAM) 分析和Li_a分析中的至少一種。Li_a較之SAM可以是優(yōu)選的,這是因?yàn)長(zhǎng)i_a與更高效 率和對(duì)計(jì)算能力的更低要求相關(guān)聯(lián)。在這些方法的某些實(shí)施例中,生成分類規(guī)則的步驟可 以包括支持向量機(jī)方法。一般而言,分類器可以包括基于網(wǎng)絡(luò)的支持向量機(jī)、基于神經(jīng)網(wǎng)絡(luò) 的分類器、邏輯回歸分類器、基于決策樹(shù)的分類器、使用線性判別分析技術(shù)、隨機(jī)森林分析 計(jì)數(shù)的分類器,或者前述者的組合。
[0014] 在這些方法的某些實(shí)施例中,生成性能子測(cè)量結(jié)果的步驟可以包括計(jì)算正確指派 的數(shù)據(jù)集的百分比。在這些方法的某些實(shí)施例中,生成性能子測(cè)量結(jié)果的步驟包括計(jì)算所 指派的數(shù)據(jù)集的馬修相關(guān)系數(shù)。在這些方法的某些實(shí)施例中,子候選簽名的聚合可以包括 子候選簽名中包括的所有生物實(shí)體的并集。在這些方法的某些實(shí)施例中,生成性能測(cè)量結(jié) 果的步驟還可以包括求與預(yù)定數(shù)目相關(guān)聯(lián)的子候選簽名的所有性能子測(cè)量結(jié)果的平均數(shù)。 在這些方法的某些實(shí)施例中,這些方法還包括顯示與預(yù)定數(shù)目的多個(gè)不同值形成對(duì)照的多 個(gè)性能測(cè)量結(jié)果的示圖,以及可選地顯示候選簽名中包括的生物實(shí)體的列表。在某些實(shí)施 例中,這些方法包括在顯示設(shè)備上顯示與預(yù)定數(shù)目的多個(gè)不同值形成對(duì)照的多個(gè)性能測(cè)量 結(jié)果的示圖。這些方法還可以包括在顯示設(shè)備顯示候選簽名中包括的生物實(shí)體的列表。
[0015] 本發(fā)明的計(jì)算機(jī)系統(tǒng)如上所述包括用于實(shí)現(xiàn)方法的各種實(shí)施例的裝置。例如,計(jì) 算機(jī)程序產(chǎn)品被描述,該產(chǎn)品包括計(jì)算機(jī)可讀指令,這些計(jì)算機(jī)可讀指令當(dāng)在包含至少一 個(gè)處理器的計(jì)算機(jī)化系統(tǒng)中執(zhí)行時(shí)使處理器執(zhí)行在上面描述的任何方法中的一個(gè)或多個(gè) 步驟。在另一個(gè)示例中,計(jì)算機(jī)化系統(tǒng)被描述,該系統(tǒng)包含配置有非臨時(shí)計(jì)算機(jī)可讀指令的 處理器,這些非臨時(shí)計(jì)算機(jī)可讀指令當(dāng)被執(zhí)行時(shí)使處理器執(zhí)行在上面描述的任何方法。計(jì) 算機(jī)程序產(chǎn)品和在此描述的計(jì)算機(jī)化的方法可以在具有一個(gè)或多個(gè)計(jì)算設(shè)備的計(jì)算機(jī)化 系統(tǒng)中實(shí)現(xiàn),每個(gè)計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器。一般而言,在此描述的計(jì)算機(jī)化系統(tǒng)可 以包含一個(gè)或多個(gè)引擎,這一個(gè)或多個(gè)引擎包括被配置為具有硬件、固件和軟件以執(zhí)行在 此描述的一種或多種計(jì)算機(jī)化的方法的處理器或設(shè)備,例如,計(jì)算機(jī)、微處理器、邏輯器件 或者其他器件或處理器。這些引擎中的任何一個(gè)或多個(gè)可以是與一個(gè)或多個(gè)其他引擎在物 理上可分離的,或者可以包括多個(gè)在物理上可分離的組件,例如共同或者不同的電路板上 的分離處理器。本發(fā)明的計(jì)算機(jī)系統(tǒng)包含用于實(shí)現(xiàn)如上所述的方法及其各種實(shí)施例的裝 置。引擎可以時(shí)不時(shí)地互連,并且還時(shí)不時(shí)地與一個(gè)或多個(gè)數(shù)據(jù)庫(kù)連接,這一個(gè)或多個(gè)數(shù)據(jù) 庫(kù)包括可測(cè)量數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)數(shù)據(jù)庫(kù)和文獻(xiàn)數(shù)據(jù)庫(kù)。在此描述的計(jì)算機(jī)化系統(tǒng)可以包括 具有通過(guò)網(wǎng)絡(luò)接口通信的一個(gè)或多個(gè)處理器和引擎的分布式計(jì)算機(jī)化系統(tǒng)。這樣的實(shí)現(xiàn)方 式可能適合于經(jīng)由多種通信系統(tǒng)進(jìn)行的分布式計(jì)算。
【專利附圖】
【附圖說(shuō)明】
[0016] 在考慮到結(jié)合附圖理解的以下【具體實(shí)施方式】之后,本公開(kāi)的其他特征、其性質(zhì)和 各種優(yōu)點(diǎn)將會(huì)顯而易見(jiàn),在附圖中相似的引用符號(hào)自始至終指的是相似的部件,并且在附 圖中:
[0017] 圖1示出了用于識(shí)別一個(gè)或多個(gè)生物標(biāo)志物簽名的示例性系統(tǒng);
[0018] 圖2示出了用于識(shí)別一個(gè)或多個(gè)生物標(biāo)志物簽名的示例性處理;
[0019] 圖3是示出數(shù)據(jù)樣本的分類和分類規(guī)則的確定的示圖;
[0020] 圖4是示出每一個(gè)具有不同數(shù)目成分的多個(gè)生物標(biāo)志物簽名的性能的示圖; [0021] 圖5是示例性生物標(biāo)志物簽名生成工具的截屏;
[0022] 圖6示出了由圖1的系統(tǒng)生成的示例性420基因簽名生物標(biāo)志物的熱圖 (heatmap);并且
[0023]圖7是諸如圖1的系統(tǒng)中的任何組件和圖5的截屏的計(jì)算設(shè)備的框圖。
【具體實(shí)施方式】
[0024] 為了提供對(duì)在此描述的系統(tǒng)和方法的整體理解,現(xiàn)在將描述某些例示性實(shí)施例, 包括用于識(shí)別基因生物標(biāo)志物簽名的系統(tǒng)和方法。然而,本領(lǐng)域普通技術(shù)人員將會(huì)明白在 此描述的系統(tǒng)和方法可以針對(duì)其他合適應(yīng)用而被適配和修改并且這種其他添加和修改將 不脫離其范圍。
[0025] 在此描述的系統(tǒng)和方法包括用于生成可重現(xiàn)且可解釋的基因簽名的技術(shù)。這些技 術(shù)涉及對(duì)數(shù)據(jù)集進(jìn)行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體而言,在此描述的系 統(tǒng)和方法包括對(duì)數(shù)據(jù)集的重復(fù)采樣、基于通過(guò)重復(fù)采樣處理生成的基因簽名的發(fā)生頻率對(duì) 基因進(jìn)行排名,以及迭代地選擇最佳基因簽名。一般而言,在此描述的計(jì)算機(jī)化系統(tǒng)可以包 括一個(gè)或多個(gè)引擎,這一個(gè)或多個(gè)引擎包括被配置為具有硬件、固件和軟件以執(zhí)行在此描 述的一種或多種計(jì)算機(jī)化的方法的一個(gè)或多個(gè)處理裝置,例如計(jì)算機(jī)、微處理器、邏輯器件 或者其他器件或處理器。
[0026] 圖1示出了用于識(shí)別一個(gè)或多個(gè)生物標(biāo)志物簽名的示例性系統(tǒng)100。系統(tǒng)100包 括生物標(biāo)志物生成器102和生物標(biāo)志物合并器(consolidator) 104。系統(tǒng)100還包括用于 控制生物標(biāo)志物生成器102和生物標(biāo)志物合并器104的操作的某些方面的中央控制單元 (CXU) 101。在操作期間,在生物標(biāo)志物生成器102處接收到諸如基因表達(dá)數(shù)據(jù)之類的數(shù)據(jù)。 生物標(biāo)志物生成器102處理該數(shù)據(jù)以生成多個(gè)候選生物標(biāo)志物和對(duì)應(yīng)的錯(cuò)誤率。生物標(biāo)志 物合并器104接收這些候選生物標(biāo)志物和錯(cuò)誤率并且選擇具有最佳的性能測(cè)量結(jié)果和尺 寸的合適生物標(biāo)志物。
[0027] 生物標(biāo)志物生成器102包括用于處理數(shù)據(jù)和生成一組候選生物標(biāo)志物和候選錯(cuò) 誤率的若干組件。具體而言,生物標(biāo)志物生成器包括用于將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù) 據(jù)集的數(shù)據(jù)預(yù)處理引擎110。生物標(biāo)志物生成器102包括用于接收訓(xùn)練數(shù)據(jù)集并生成候選 生物標(biāo)志物的生物標(biāo)志物識(shí)別引擎112,用于接收候選生物標(biāo)志物并將測(cè)試數(shù)據(jù)分為兩類 之一(例如,疾病數(shù)據(jù)和控制數(shù)據(jù))的分類器114。生物標(biāo)志物生成器102包括用于確定候 選生物標(biāo)志物相對(duì)于由數(shù)據(jù)預(yù)處理引擎110選擇的測(cè)試數(shù)據(jù)的性能的分類器性能監(jiān)視引 擎116。分類器性能監(jiān)視引擎116生成性能測(cè)量結(jié)果,性能測(cè)量結(jié)果可以包括一個(gè)或多個(gè)候 選生物標(biāo)志物的候選錯(cuò)誤率。生物標(biāo)志物生成器102還包括用于存儲(chǔ)一個(gè)或多個(gè)候選生物 標(biāo)志物和候選性能測(cè)量結(jié)果的生物標(biāo)志物存儲(chǔ)裝置118。
[0028] 生物標(biāo)志物生成器可以受CXU101控制,CXU101繼而可以被自動(dòng)控制或是用戶 操作的。在某些實(shí)施例中,生物標(biāo)志物生成器102可以操作來(lái)生成多個(gè)候選生物標(biāo)志物,每 次將數(shù)據(jù)隨機(jī)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。為了生成這樣的多個(gè)候選生物標(biāo)志物,生物 標(biāo)志物生成器102的操作可以被迭代多次。CXU101可以接收包括候選生物標(biāo)志物的期望 數(shù)目的一個(gè)或多個(gè)系統(tǒng)迭代參數(shù),這一個(gè)或多個(gè)系統(tǒng)迭代參數(shù)繼而可以被用來(lái)確定生物標(biāo) 志物生成器102的操作可以被迭代的次數(shù)。CXU101還可以接收包括期望生物標(biāo)志物尺寸 的其他系統(tǒng)參數(shù),期望生物標(biāo)志物尺寸可以代表生物標(biāo)志物中的組件數(shù)目(例如,生物標(biāo) 志物基因簽名中的基因數(shù)目)。生物標(biāo)志物尺寸信息可以被生物標(biāo)志物識(shí)別引擎112用來(lái) 根據(jù)訓(xùn)練數(shù)據(jù)生成候選生物標(biāo)志物。參考圖2-4更詳細(xì)地描述了生物標(biāo)志物生成器102及 其各個(gè)引擎的操作。
[0029] 生物標(biāo)志物生成器102生成一個(gè)或多個(gè)候選生物標(biāo)志物和候選錯(cuò)誤率,這一個(gè)或 多個(gè)候選生物標(biāo)志物和候選錯(cuò)誤率被生物標(biāo)志物合并器104用來(lái)生成魯棒的生物標(biāo)志物。 生物標(biāo)志物合并器104包括生物標(biāo)志物合意引擎128,生物標(biāo)志物合意引擎128接收多個(gè) 候選生物標(biāo)志物并且生成具有跨這多個(gè)候選生物標(biāo)志物最頻繁發(fā)生的基因的新生物標(biāo)志 物簽名。生物標(biāo)志物合并器104包括用于確定跨這多個(gè)候選生物標(biāo)志物的總體錯(cuò)誤率的錯(cuò) 誤計(jì)算引擎130。類似于生物標(biāo)志物生成器102,生物標(biāo)志物合并器104也可以受CXU101 控制,CCU101繼而可以被自動(dòng)控制或是用戶操作的。CCU101可以接收、確定或者接收并 確定最小生物標(biāo)志物尺寸的合適閾值,并且使用該信息來(lái)確定用來(lái)操作生物標(biāo)志物生成器 102和生物標(biāo)志物合并器104兩者的迭代數(shù)目。在一個(gè)實(shí)施例中,在每次迭代期間,CXU101 使生物標(biāo)志物尺寸減一并且迭代生物標(biāo)志物生成器102和生物標(biāo)志物合并器104兩者直到 閾值被達(dá)到為止。在這樣的一個(gè)實(shí)施例中,生物標(biāo)志物合意引擎128針對(duì)每一次迭代輸出 新生物標(biāo)志物簽名和新總體錯(cuò)誤率。生物標(biāo)志物合意引擎128從而輸出各自具有從閾值起 上至最大生物標(biāo)志物尺寸的不同尺寸的一組新生物標(biāo)志物簽名。生物標(biāo)志物合并器104還 包括生物標(biāo)志物選擇引擎126,生物標(biāo)志物選擇引擎126審核這些新生物標(biāo)志物簽名中的 每一個(gè)的性能測(cè)量結(jié)果或者錯(cuò)誤率并選擇最佳生物標(biāo)志物以供輸出。參考圖2-4更詳細(xì)地 描述了生物標(biāo)志物合并器104及其各個(gè)引擎的操作。
[0030] 圖2示出了用于使用圖1中的示例性系統(tǒng)100來(lái)識(shí)別一個(gè)或多個(gè)生物標(biāo)志物簽名 的示例性處理200。處理200以在數(shù)據(jù)預(yù)處理引擎110處接收一個(gè)或多個(gè)數(shù)據(jù)集開(kāi)始(步 驟202)。一般而言,數(shù)據(jù)可以表示樣本中的多個(gè)不同基因的表達(dá)值、諸如任何生物重要分 析物的水平之類的各種表型特點(diǎn),或者這兩者。在某些實(shí)施例中,數(shù)據(jù)集可以包括疾病情況 治療的表達(dá)水平數(shù)據(jù)和控制情況治療的表達(dá)水平數(shù)據(jù)?;虮磉_(dá)水平可以指的是由基因編 碼的分子數(shù)量,例如RNA或者多肽。mRNA分子的表達(dá)水平可以包括mRNA的數(shù)量,mRNA的數(shù) 量由將mRNA編碼的基因的轉(zhuǎn)錄活動(dòng)和mRNA的穩(wěn)定性決定,mRNA的穩(wěn)定性繼而由mRNA的 半衰期決定?;虮磉_(dá)水平還可以包括與由基因編碼的給定氨基酸序列相對(duì)應(yīng)的多肽的數(shù) 量。相應(yīng)地,基因的表達(dá)水平可以對(duì)應(yīng)于從基因轉(zhuǎn)錄的mRNA的數(shù)量、由基因編碼的多肽的 數(shù)量,或者這兩者?;虻谋磉_(dá)水平還可以按照不同形式的基因產(chǎn)品的表達(dá)水平來(lái)分類。例 如,由基因編碼的RNA分子可以包括差異表達(dá)的剪接變異體、具有不同的開(kāi)始或者停止部 位的轉(zhuǎn)錄物、其他差異處理形式,或者這兩者。由基因編碼的多肽可以包含裂開(kāi)、修改形式 的多肽,或者這兩者。多肽可以通過(guò)磷酸化作用、脂化、異戊烯化、硫酸鹽化作用、羥基化、乙 ?;饔谩⒑颂腔饔?、法呢酰化、碳水化合物的添加等來(lái)修改。另外,具有給定形式修改 的多個(gè)形式的多肽可以存在。例如,多肽可以在多個(gè)部位被磷酸化并且表達(dá)不同水平的差 異磷酸化蛋白質(zhì)。
[0031] 在某些實(shí)施例中,細(xì)胞或者組織中的基因表達(dá)水平可以由基因表達(dá)譜表示?;?表達(dá)譜可以指的是諸如細(xì)胞或者組織之類的標(biāo)本中的基因的表達(dá)水平的特點(diǎn)表示。來(lái)自個(gè) 體的標(biāo)本中的基因表達(dá)譜的確定表示個(gè)體的基因表達(dá)狀態(tài)?;虮磉_(dá)譜反映了信使RNA或 者多肽或者其由細(xì)胞或者組織中的一個(gè)或多個(gè)基因編碼的形式的表達(dá)?;虮磉_(dá)譜一般可 以指的是生物細(xì)胞(核酸、蛋白質(zhì)、碳水化合物)的譜,生物細(xì)胞的譜顯示不同細(xì)胞或組織 當(dāng)中的不同表達(dá)模式。
[0032] 在某些實(shí)施例中,數(shù)據(jù)集可以包括表示樣本中的多個(gè)不同基因的基因表達(dá)值的元 素。在其他實(shí)施例中,數(shù)據(jù)集可以包括表示通過(guò)質(zhì)譜分析法檢測(cè)到的峰或者峰的高度。一 般而言,每一個(gè)數(shù)據(jù)集可以包括至少一個(gè)生物狀態(tài)類的多個(gè)形式。例如,生物狀態(tài)類可以包 括但不限于:樣本的源(即,從中獲得樣本的患者)中的疾病的存在/不存在;疾病的階段; 疾病的風(fēng)險(xiǎn);疾病復(fù)發(fā)的似然性;一個(gè)或多個(gè)基因位點(diǎn)處的共享基因型(例如,共同的HLA 單體型;基因突變;基因的修改,諸如甲基化等);暴露到劑(例如,諸如有毒物質(zhì)或者潛在 的有毒物質(zhì)、環(huán)境污染物、候選藥物等)或者情況(溫度、PH等);人口統(tǒng)計(jì)特性(年齡、性 另IJ、重量;家庭史;先存情況的歷史);對(duì)劑的抵抗、對(duì)劑的敏感性(例如,對(duì)藥物的反應(yīng)度) 等。
[0033] 數(shù)據(jù)集可以彼此獨(dú)立以減少最終分類選擇中的采集偏差。例如,它們可以使用不 同的排除或者包括標(biāo)準(zhǔn)而被從多個(gè)源采集并且可以被在不同時(shí)間采集和可以從不同地點(diǎn) 采集,即當(dāng)考慮到定義生物狀態(tài)類的特性之外的特性時(shí)數(shù)據(jù)集可以是相對(duì)異構(gòu)的。對(duì)異構(gòu) 性有貢獻(xiàn)的因素包括但不限于:由性別、年齡、種族劃分引起的生物變化性;由飲食、鍛煉、 睡眠行為引起的個(gè)體變化性;以及由血液處理的臨床方案引起的樣本處理變化性。然而,生 物狀態(tài)類可以包括一個(gè)或多個(gè)共同特性(例如,樣本源可以表示具有疾病和相同性別或者 一個(gè)或多個(gè)其他共同人口統(tǒng)計(jì)特性的個(gè)人)。
[0034] 在某些實(shí)施例中,來(lái)自多個(gè)源的數(shù)據(jù)集是通過(guò)在不同時(shí)間、在不同條件下或者在 不同時(shí)間且在不同條件下從相同的患者人群采集樣本而生成的。然而,來(lái)自多個(gè)源的數(shù) 據(jù)集不包括更大數(shù)據(jù)集的子集,即,來(lái)自多個(gè)源的數(shù)據(jù)集是獨(dú)立采集的(例如,來(lái)自不同地 點(diǎn)、在不同時(shí)間、在不同采集條件下,或者前述者的組合)
[0035] 在某些實(shí)施例中,多個(gè)數(shù)據(jù)集是從多個(gè)不同臨床試驗(yàn)地點(diǎn)獲得的并且每一個(gè)數(shù)據(jù) 集包括在每一個(gè)單獨(dú)試驗(yàn)地點(diǎn)獲得的多個(gè)患者樣本。樣本類型包括但不限于血液、血清、血 漿、乳頭抽出物、尿液、淚液、唾液、脊髓液、淋巴液、細(xì)胞、組織溶解產(chǎn)物、激光微解剖的組織 或者細(xì)胞樣本、嵌入的細(xì)胞或者組織(例如,在石蠟塊中或者冷凍);新鮮或者存檔的樣本 (例如,來(lái)自驗(yàn)尸),或者前述者的組合??梢岳鐝脑嚬苤械募?xì)胞或組織培養(yǎng)中取得樣本。 可替代地,可以從活的有機(jī)體或者從諸如單細(xì)胞有機(jī)體的一群有機(jī)體取得樣本。
[0036] 在一個(gè)示例中,當(dāng)識(shí)別特定癌癥的生物標(biāo)志物時(shí),可能從由兩個(gè)不同測(cè)試地點(diǎn)處 的獨(dú)立群組選擇的對(duì)象中采集血液樣本,從而提供將根據(jù)其形成獨(dú)立數(shù)據(jù)集的樣本。
[0037] 返回圖2,在某些實(shí)施例中,可能期望使用生物標(biāo)志物來(lái)在疾病情況治療和控制情 況治療之間進(jìn)行分類。在這種實(shí)施例中,數(shù)據(jù)可以包括例如疾病情況治療的表達(dá)水平數(shù)據(jù) 集和控制情況治療的表達(dá)水平數(shù)據(jù)集。CCU101可以設(shè)置包括每一次迭代的計(jì)數(shù)的大小、迭 代次數(shù)和初始迭代計(jì)數(shù)在內(nèi)的系統(tǒng)參數(shù)(步驟204)。在一個(gè)示例中,大小和迭代計(jì)數(shù)被設(shè) 置為1。
[0038] 數(shù)據(jù)預(yù)處理引擎110接收數(shù)據(jù)并且將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集(步驟 206)。在某些實(shí)施例中,數(shù)據(jù)預(yù)處理引擎110隨機(jī)地將數(shù)據(jù)分割或者劃分為這兩組。隨機(jī) 地劃分?jǐn)?shù)據(jù)對(duì)于預(yù)測(cè)類別和生成魯棒基因簽名可能是期望的。在其他實(shí)施例中,數(shù)據(jù)預(yù)處 理引擎110基于數(shù)據(jù)的類型或者標(biāo)簽將數(shù)據(jù)分為兩個(gè)或者更多組。一般而言,在不脫離本 公開(kāi)范圍的情況下可以按照期望的任何合適方式將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn) 練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集可以具有任何合適尺寸并且可以是相同尺寸或者不同尺寸的。在某 些實(shí)施例中,數(shù)據(jù)預(yù)處理引擎110在將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集之前可以丟棄一 條或多條數(shù)據(jù)。在某些實(shí)施例中,數(shù)據(jù)預(yù)處理引擎110在任何進(jìn)一步處理之前可以丟棄來(lái) 自訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集或者這兩者的一條或多條數(shù)據(jù)。
[0039] 數(shù)據(jù)預(yù)處理引擎110將訓(xùn)練數(shù)據(jù)集傳遞給識(shí)別候選網(wǎng)絡(luò)的生物標(biāo)志物識(shí)別引擎 112(步驟208)。生物標(biāo)志物識(shí)別引擎112還接收生物標(biāo)志物尺寸。在某些實(shí)施例中,生物 標(biāo)志物尺寸可以被選擇為可允許的最大生物標(biāo)志物尺寸,其中系統(tǒng)100進(jìn)行迭代并且倒計(jì) 數(shù)至最小生物標(biāo)志物尺寸。在某些實(shí)施例中,生物標(biāo)志物識(shí)別引擎112使用合適的統(tǒng)計(jì)技 術(shù)來(lái)確定訓(xùn)練數(shù)據(jù)的差異表達(dá)。例如,每一個(gè)訓(xùn)練數(shù)據(jù)可以包括多個(gè)訓(xùn)練數(shù)據(jù)集,其中每 一個(gè)訓(xùn)練數(shù)據(jù)集包括多個(gè)基因的探測(cè)集。對(duì)于這多個(gè)基因中的每一個(gè),數(shù)據(jù)集包括對(duì)應(yīng)于 控制的已知值和治療的另一個(gè)值。在某些實(shí)施例中,生物標(biāo)志物識(shí)別引擎112跨多個(gè)訓(xùn)練 數(shù)據(jù)集針對(duì)每一個(gè)基因來(lái)確定控制值與治療值之間的距離。該距離可以通過(guò)t統(tǒng)計(jì)值一一 諸如通過(guò)SAM或者Limma計(jì)算的溫和t統(tǒng)計(jì)值--來(lái)測(cè)量。Limma是因?qū)虮磉_(dá)微陣列 數(shù)據(jù)的分析一一尤其是用于分析差異表達(dá)的線性模型的用途(Smyth2004,Statistical ApplicationsinGeneticsandMolecularBiology,第 3 卷,第 1 號(hào),第 3 條,其通過(guò)引用 而整體結(jié)合于此)--而眾所周知的軟件方法包。1^_&由于其效率和比Sam更低的對(duì)計(jì)算 能力的要求而是優(yōu)選的。生物標(biāo)志物識(shí)別引擎112然后可以按照基因的t統(tǒng)計(jì)值來(lái)給基因 進(jìn)行排名。在某些實(shí)施例中,高排名可以表示該基因在控制和治療之間被高度差異表達(dá),并 且低排名可以表示對(duì)于該基因在控制和治療之間幾乎沒(méi)有差異。生物標(biāo)志物識(shí)別引擎112 可以選擇基因的排名列表的一部分,例如基因列表的上半部。生物標(biāo)志物識(shí)別引擎112所 選擇的基因的數(shù)目可以基于由CXU101輸入的生物標(biāo)志物尺寸。在一個(gè)示例中,一個(gè)或多 個(gè)轉(zhuǎn)錄因素即主調(diào)控基因可以被選擇。所選擇的基因然后可以是代表性的或者可以構(gòu)成候 選生物標(biāo)志物。生物標(biāo)志物識(shí)別引擎112可以將候選生物標(biāo)志物輸出給分類器114、分類器 性能監(jiān)視引擎116和生物標(biāo)志物存儲(chǔ)裝置118 (步驟210)。
[0040] 分類器114可以接收來(lái)自生物標(biāo)志物識(shí)別引擎112的一個(gè)或多個(gè)候選生物標(biāo)志 物。分類器114還可以接收來(lái)自數(shù)據(jù)預(yù)處理引擎110的一組或多組測(cè)試數(shù)據(jù)。在某些實(shí)施 例中,分類器114使用候選生物標(biāo)志物來(lái)生成分類規(guī)則(步驟212)。圖3以圖形方式示出 了這樣的一個(gè)分類規(guī)則300。分類器114可以應(yīng)用分類規(guī)則以將測(cè)試數(shù)據(jù)集指派給兩個(gè)類 中的任一個(gè)。例如,分類器114可以應(yīng)用分類以將測(cè)試數(shù)據(jù)集指派給疾病或者控制(步驟 214)。在某些實(shí)施例中,分類器114可以包括支持向量機(jī)(SVM)分類器。在其他實(shí)施例中, 分類器114可以包括基于網(wǎng)絡(luò)的SVM、基于神經(jīng)網(wǎng)絡(luò)的分類器、邏輯回歸分類器、基于決策 樹(shù)的分類器、使用線性判別分析技術(shù)、隨機(jī)森林分析技術(shù)的分類器,或者前述者的組合。
[0041] 分類器性能監(jiān)視引擎116可以使用合適的性能度量來(lái)分析分類器114的性能(步 驟216)。具體而言,當(dāng)分析分類器114的性能時(shí),分類器性能監(jiān)視引擎116可能正在分析一 個(gè)或多個(gè)候選生物標(biāo)志物的魯棒性或者性能。在某些實(shí)施例中,性能度量可以包括錯(cuò)誤率。 性能度量還可以包括被除以嘗試的總預(yù)測(cè)的正確預(yù)測(cè)的數(shù)目。性能度量可以是不脫離本公 開(kāi)范圍的任何合適度量。候選生物標(biāo)志物和對(duì)應(yīng)的性能度量可以被存儲(chǔ)在生物標(biāo)志物存儲(chǔ) 裝置118中。
[0042] 在某些實(shí)施例中,從步驟206到步驟216的處理可以被重復(fù)任何次數(shù)以生成多個(gè) 候選生物標(biāo)志物以及對(duì)應(yīng)的性能度量。在每一次重復(fù)期間,數(shù)據(jù)可以被隨機(jī)地劃分為訓(xùn)練 集和測(cè)試數(shù)據(jù)集。CXU101可以控制生物標(biāo)志物生成器102的操作來(lái)執(zhí)行這種重復(fù)分析。 在某些實(shí)施例中,CXU101可以提供固定的迭代計(jì)數(shù)R(步驟218)。在這種實(shí)施例中,可以 通過(guò)重復(fù)來(lái)生成R個(gè)候選生物標(biāo)志物,每次增加迭代編號(hào)(步驟220)。一旦迭代已經(jīng)完成, CXU101、生物標(biāo)志物生成器102或者這兩者可以計(jì)算所有候選生物標(biāo)志物的復(fù)合性能分 數(shù)。復(fù)合性能分?jǐn)?shù)可以是候選生物標(biāo)志物的性能度量的平均值。在某些實(shí)施例中,數(shù)據(jù)集 可以是不平衡的(即,例如治療和控制的不同狀態(tài)的不等數(shù)目)。在這種實(shí)施例中,可以使 用馬修相關(guān)系數(shù)(MCC)來(lái)確定性能分?jǐn)?shù)。
【權(quán)利要求】
1. 一種用于識(shí)別疾病狀態(tài)的生物簽名的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: (a) 接收多個(gè)數(shù)據(jù)集,每一個(gè)數(shù)據(jù)集包括在包括疾病狀態(tài)和控制狀態(tài)在內(nèi)的不同狀態(tài) 下的生物系統(tǒng)中的多個(gè)生物實(shí)體的表達(dá)水平; (b) 針對(duì)多次迭代中的每一次: (i) 將所述多個(gè)數(shù)據(jù)集分為訓(xùn)練部分和測(cè)試部分, (ii) 使用所述多個(gè)數(shù)據(jù)集中的訓(xùn)練部分來(lái)將所述訓(xùn)練部分中具有高于閾值的差異表 達(dá)的預(yù)定數(shù)目的生物實(shí)體存儲(chǔ)作為子候選簽名,并且生成將所述數(shù)據(jù)集中的每一個(gè)指派給 疾病類和控制類中的一個(gè)的分類規(guī)則,并且 (iii) 使用所述多個(gè)數(shù)據(jù)集中的測(cè)試部分來(lái)應(yīng)用所述分類規(guī)則以將每一個(gè)數(shù)據(jù)集指派 給所述疾病類和所述控制類中的一個(gè),并且基于所述指派生成性能子測(cè)量結(jié)果; (c) 通過(guò)從所述子候選簽名的聚合中選擇頻繁識(shí)別出的生物實(shí)體來(lái)生成具有預(yù)定數(shù)目 生物實(shí)體的候選簽名; (d) 基于所述性能子測(cè)量結(jié)果來(lái)生成與所述候選簽名相關(guān)聯(lián)的性能測(cè)量結(jié)果; (e) 針對(duì)所述預(yù)定數(shù)目的多個(gè)不同值重復(fù)步驟(b)至(d)以生成多個(gè)候選簽名和多個(gè) 相關(guān)聯(lián)的性能測(cè)量結(jié)果;以及 (f) 將與最高性能測(cè)量結(jié)果相關(guān)聯(lián)的所述候選簽名存儲(chǔ)作為所述生物簽名。
2. 如權(quán)利要求1所述的方法,還包括通過(guò)比較對(duì)應(yīng)的疾病狀態(tài)表達(dá)水平和對(duì)應(yīng)的控制 狀態(tài)表達(dá)水平來(lái)使用所述訓(xùn)練部分確定每一個(gè)生物實(shí)體的差異表達(dá)。
3. 如權(quán)利要求1-2中任一個(gè)所述的方法,其中,所述分類規(guī)則基于所述數(shù)據(jù)集內(nèi)的所 述生物實(shí)體的表達(dá)水平來(lái)指派所述數(shù)據(jù)集中的每一個(gè)。
4. 如權(quán)利要求1-3中任一個(gè)所述的方法,其中,通過(guò)將每一個(gè)數(shù)據(jù)集的指派與和所述 數(shù)據(jù)集相關(guān)聯(lián)的不同狀態(tài)相比較來(lái)生成所述性能子測(cè)量結(jié)果。
5. 如權(quán)利要求1-4中任一個(gè)所述的方法,其中,所述多個(gè)生物實(shí)體包括基因、miRNA、蛋 白質(zhì)或者前述者中的兩者或多者的組合中的一個(gè)或多個(gè)。
6. 如權(quán)利要求1-5中任一個(gè)所述的方法,其中,表達(dá)水平包括甲基化數(shù)據(jù)、基因表達(dá)數(shù) 據(jù)、miRNA表達(dá)數(shù)據(jù)和蛋白質(zhì)表達(dá)數(shù)據(jù)中的一個(gè)或多個(gè)。
7. 如權(quán)利要求1-6中任一個(gè)所述的方法,其中,確定差異表達(dá)包括微陣列顯著性分析 (SAM)分析和Limma分析中的至少一種。
8. 如權(quán)利要求1-7中任一個(gè)所述的方法,其中,生成分類規(guī)則包括支持向量機(jī)方法。
9. 如權(quán)利要求1-8中任一個(gè)所述的方法,其中,生成所述性能子測(cè)量結(jié)果包括計(jì)算正 確指派的數(shù)據(jù)集的百分比。
10. 如權(quán)利要求1-9中任一個(gè)所述的方法,其中,生成所述性能子測(cè)量結(jié)果包括計(jì)算所 指派的數(shù)據(jù)集的馬修相關(guān)系數(shù)。
11. 如權(quán)利要求1-10中任一個(gè)所述的方法,其中,所述子候選簽名的聚合包括所述子 候選簽名中包括的所有生物實(shí)體的并集。
12. 如權(quán)利要求1-11中任一個(gè)所述的方法,其中,生成所述性能測(cè)量結(jié)果包括求與所 述預(yù)定數(shù)目相關(guān)聯(lián)的子候選簽名的所有性能子測(cè)量結(jié)果的平均數(shù)。
13. 如權(quán)利要求1-12中任一個(gè)所述的方法,還包括在顯示設(shè)備上顯示與所述預(yù)定數(shù)目 的多個(gè)不同值形成對(duì)照的多個(gè)性能測(cè)量結(jié)果的示圖,以及可選地顯示所述候選簽名中包括 的生物實(shí)體的列表。
14. 一種包括計(jì)算機(jī)可讀指令的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀指令當(dāng)在包括至少 一個(gè)處理器的計(jì)算機(jī)化的系統(tǒng)中執(zhí)行時(shí)使所述處理器執(zhí)行如權(quán)利要求1-13中任一個(gè)所述 的方法中的一個(gè)或多個(gè)步驟。
15. -種包括配置有非臨時(shí)計(jì)算機(jī)可讀指令的至少一個(gè)處理器的計(jì)算機(jī)化的系統(tǒng),所 述非臨時(shí)計(jì)算機(jī)可讀指令當(dāng)被執(zhí)行時(shí)使所述至少一個(gè)處理器執(zhí)行如權(quán)利要求1-13中任一 個(gè)所述的方法。
【文檔編號(hào)】G06F19/24GK104508670SQ201380039795
【公開(kāi)日】2015年4月8日 申請(qǐng)日期:2013年6月21日 優(yōu)先權(quán)日:2012年6月21日
【發(fā)明者】向陽(yáng), 朱麗婭·亨格 申請(qǐng)人:菲利普莫里斯生產(chǎn)公司, 向陽(yáng), 朱麗婭·亨格