專利名稱:基于基因拷貝數(shù)改變的模式的非小細胞肺癌的基因組分類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于限定與非小細胞肺癌(NSCLC)相關(guān)的腫瘤、癌細胞系和受試者樣品的基因組亞組的方法。本發(fā)明還涉及按照基因組亞組裝配(assembling)成小組(panels)的腫瘤、癌細胞系和受試者樣品以用于測試一種或多種用于給受試者施用的治療性干預的功效的方法。相關(guān)領(lǐng)域的描述癌癥是特征在于臨床過程、結(jié)果和治療反應性的相當大變異性的基因組的疾病。該變異性背后的主要因素是癌癥所固有的遺傳異質(zhì)性。相同組織病理學亞型的個別腫瘤在細胞DNA中具有不同的畸變。NSCLC是世界范圍內(nèi)癌癥誘導的死亡率的最常見原因(Parkin,2001)。目前,NSCLC的特征在于組織學-通常與突出顯示細胞的具體物理特征的各種染色程序結(jié)合的顯微鏡下細胞解剖學的目視檢查。NSCLC的主要組織學亞型是腺癌(肺癌的最常見形式)、鱗狀細胞肺癌(SQ)和大細胞肺癌(LCLC) (Travis和Sobin, 1999)。約40%的患早期NSCLC的患者在外科手術(shù)去除腫瘤后5年內(nèi)復發(fā){Hoffman,2000#39}。目前用于治療NSCLC的療法只在一部分患者中有效,突出顯示了 NSCLC彼此不同的事實。相同組織病理學組內(nèi)的腫瘤遵循非常不同的臨床過程并且對治療的反應不同。因此目前NSCLC的基于組織學的分期不足以預測疾病的臨床過程或治療結(jié)果。肺腫瘤的表型多樣性伴隨相應的基因拷貝數(shù)反常模式的多樣性。染色體畸變是與許多發(fā)育疾病和癌癥關(guān)聯(lián)的有害事件。體細胞中染色體區(qū)域的擴增和缺失被認為是導致癌癥的主要因素之一。于是肺癌中基因拷貝數(shù)模式的系統(tǒng)性檢查可能用作肺癌的基于基因組學的分子分類學的基礎(chǔ)??赏ㄟ^經(jīng)典細胞遺傳學分析或熒光原位雜交(FISH)個別地檢測具有預后意義的反復染色體畸變(Recurrent chromosomal aberration) (Levsky和Singer, 2003) o然而,F(xiàn)ISH分析不能檢測整個遺傳學異常譜,因為其只查詢有限組的由應用的探針小組限定的染色體基因座。更有利的診斷工具將基于疾病的精確分類。其將使得能夠進行合理的患者選擇以進行基于受試者的NSCLC的遺傳狀態(tài)的治療。發(fā)明概述在第一方面,本發(fā)明涉及用于獲得非小細胞肺癌 基因組亞組的數(shù)據(jù)庫的方法,所述方法包括步驟(a)獲得多個,m個,包含至少一個NSCLC細胞的樣品,其中所述樣品包含細胞系或腫瘤;(b)獲得包括步驟(a)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息的數(shù)據(jù)集;(C)鑒定數(shù)據(jù)集中被正常細胞污染的樣品并且從數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(I)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法(machine learning algorithm);(2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù);(3)從數(shù)據(jù)集中消除每一個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù);(d)通過對數(shù)據(jù)集應用利用Pearson線性相異性算法的無監(jiān)督聚類算法(unsupervised clustering algorithm)估計數(shù)據(jù)集中亞組的數(shù)目 r ;(e)利用改進的基因組非負矩陣因子分解(modified genomic Non-negativeMatrix Factorization) (gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進的gNMF算法包括(I)利用公式(11)計算每100步乘性更新(multiplicative updating)后算法的
散度
權(quán)利要求
1.用于獲得非小細胞肺癌基因組亞組的數(shù)據(jù)庫的方法,所述方法包括步驟 (a)獲得多個,m個,包含至少ー個NSCLC細胞的樣品,其中所述樣品包含細胞系或腫瘤; (b)獲得包括步驟(a)中獲得的每ー個樣品的每一條染色體的至少ー個基因座的拷貝數(shù)改變信息的數(shù)據(jù)集; (C)鑒定數(shù)據(jù)集中被正常細胞污染的樣品并且從數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括 (1)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法; (2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù); (3)從數(shù)據(jù)集中消除每ー個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù); (d)通過對數(shù)據(jù)集應用利用Pearson線性相異性算法的無監(jiān)瞀聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r; (e)利用改進的基因組非負矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每ー個樣品分配至至少ー個簇,其中所述改進的gNMF算法包括 (1)利用公式(11)計算每100步乘性更新后算法的散度 DiV 11WH) = Σ Σ (K-- vU + (冊h)(η) 其中Vu是矩陣V的第i行和第j列,(WH) ,J是矩陣(W*H)的第i行和第j列,i從I運行至n,且η是數(shù)據(jù)集中區(qū)段的數(shù)目,并且j從I運行至m,且m是數(shù)據(jù)集中樣品的數(shù)目; (2)如果步驟(e)(I)中計算的散度當與對于之前100步所述算法的乘性更新所計算的散度相比較時減小不超過約O. 001%,那么終止算法; (3)隨機重復算法,進行選擇的運行數(shù),并且使用公式(12)計算每一次運行算法的H的Pearson相關(guān)系數(shù)矩陣 Cu =Ρ{Η,"H,ハニ^^--(12) W 其中C是相關(guān)矩陣,Cu是矩陣C中的第i行和第j列,H,i和Hj是矩陣H中的第i和第j列向量,P (H, i; H, P是H, i與H,彳之間的Pearson相關(guān)系數(shù),i和j從I運行至m,且m是數(shù)據(jù)集中的樣品數(shù)目,k從I運行至r,且r是來自步驟⑷的亞組的數(shù)目; (4)計算獲自步驟(e)(3)的每一次運行算法的Pearson相關(guān)系數(shù)矩陣的平均值以獲得平均相關(guān)矩陣; (5)通過使用I減步驟(e)(4)中確定的平均相關(guān)矩陣應用無監(jiān)瞀聚類算法并且將樹形圖分割至r個簇,將樣品分配至r個亞組中; (f)應用同表象相關(guān)、貝葉斯信息準則或其組合以提供來自數(shù)據(jù)集的簇的終數(shù)目,其中每ー個最終的簇限定了每ー個腫瘤或細胞系樣品的基因組亞組;和 (g)任選地使用10倍穩(wěn)定性檢驗評價步驟(f)中選擇的簇的終數(shù)目的穩(wěn)定性。
2.分類NSCLC腫瘤或細胞系的方法,包括 (a)提供通過方法開發(fā)的數(shù)據(jù)庫,所述方法包括 (i)獲得多個,m個,包含至少ー個NSCLC腫瘤或細胞系的樣品;(ii)獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每ー個樣品的每一條染色體的至少ー個基因座的拷貝數(shù)改變信息; (iii)鑒定第一數(shù)據(jù)集中被正常細胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括 (1)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法; (2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù); (3)從第一數(shù)據(jù)集中消除每ー個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù); (iv)通過對數(shù)據(jù)集應用使用Pearson線性相異性算法的無監(jiān)瞀聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r ; (v)利用改進的基因組非負矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每ー個樣品分配至至少ー個簇,其中所述改進的gNMF算法包括 (1)利用公式(11)計算每100步乘性更新后算法的散度
3.權(quán)利要求I或2的方法,其中所述無監(jiān)瞀聚類算法是等級聚類。
4.權(quán)利要求I或2的方法,其中將同表象相關(guān)用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
5.權(quán)利要求I或2的方法,其中將貝葉斯信息準則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
6.權(quán)利要求I或2的方法,其中將同表象相關(guān)和貝葉斯信息準則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
7.權(quán)利要求I或2的方法,其中多個樣品,m,包含第一、第二和第三細胞系,其中 所述第一細胞系選自 HCC827、NCI-H1437、NCI-H1563、NCI-H1568、NCI-H1623、NCI-H1651、NCI-H1693、NCI-H1755、NCI-H1793、NCI-H1838、NCI-H1944、NCI-H1975、NCI-H1993、NCI-H2023、NCI-H2073、NCI-H2085、NCI-H2087、NCI-H2122、NCI-H2126、NCI-H2228、NCI-H2291、NCI-H23、NCI-H2342、NCI-H2347、NCI-H647、NCI-H920、NCI-H969、CLS-54、LX-289、SK-LU-1、H2882、Calu-6、H358 和 H460 ; 所述第二細胞系選自 NCI-H2405、NCI-H522、SK-MES-U H157、H1819、H2009、H2887、HCC1171、HCC1359、HCCl5, HCC193、HCC366、HCC461、HCC515、HCC78、HOP-62、H0P-92 和NCI-H266 ;以及 所述第三細胞系選自 A549、Calu-3、NCI-H1734、NCI-H838 和 HCC95。
8.權(quán)利要求I或2的方法,其中多個樣品,m,由CLS-54、LX-289、SK-LU-1,SK-MES-UH157、H1819、H2009、H2882、H2887、HCC1171、HCC1359, HCC15、HCC193、HCC366、HCC461、HCC515、HCC78、HCC95、HOP-62、HOP-92、NCI-H266、NCI-H1437、NCI-H1563、NCI-H1568、NCI-H1623、NCI-H1651、NCI-H1693、NCI-H1734、NCI-H1755、NCI-H1793、NCI-H1838、NCI-H1944、NCI-H1975、NCI-H1993、NCI-H2023、NCI-H2073、NCI-H2085、NCI-H2087、NCI-H2122、NCI-H2126、NCI-H2228、NCI-H2291、NCI-H23、NCI-H2342、NCI-H2347、NCI-H2405、NCI-H522、NCI-H647、NCI-H838、NCI-H920、NCI-H969、A549、Calu-3, HCC827、Calu-6、H358和H460細胞系組成。
9.分類用于抑制或殺傷非小細胞肺癌(NSCLC)細胞的治療性干預的方法,其包括 (a)從ー小組按照基因組亞組分類的NSCLC細胞,從每ー個亞組選擇至少ー個NSCLS細胞系,其中根據(jù)下述方法裝配小組,所述方法包括 (i)獲得多個,m個,包含至少ー個NSCLC腫瘤或細胞系的樣品; (ii)獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每ー個樣品的每一條染色體的至少ー個基因座的拷貝數(shù)改變信息; (iii)鑒定第一數(shù)據(jù)集中被正常細胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括 (1)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法; (2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù); (3)從第一數(shù)據(jù)集中消除每ー個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù); (iv)通過對數(shù)據(jù)集應用利用Pearson線性相異性算法的無監(jiān)瞀聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r ; (v)利用改進的基因組非負矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每ー個樣品分配至至少ー個簇,其中所述改進的gNMF算法包括 (I)利用公式(11)計算每100步乘性更新后算法的散度
10.權(quán)利要求9的方法,其中所述無監(jiān)瞀聚類算法是等級聚類。
11.權(quán)利要求9的方法,其中同表象相關(guān)用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
12.權(quán)利要求9的方法,其中貝葉斯信息準則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
13.權(quán)利要求9的方法,其中同表象相關(guān)和貝葉斯信息準則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
14.權(quán)利要求9的方法,其中所述NSCLC細胞來自細胞系。
15.權(quán)利要求9的方法,其中多個樣品,m,包含第一、第二和第三細胞系,其中 所述第一細胞系選自 HCC827、NCI-H1437、NCI-H1563、NCI-H1568、NCI-H1623、NCI-H1651、NCI-H1693、NCI-H1755、NCI-H1793、NCI-H1838、NCI-H1944、NCI-H1975、NCI-H1993、NCI-H2023、NCI-H2073、NCI-H2085、NCI-H2087、NCI-H2122、NCI-H2126、NCI-H2228、NCI-H2291、NCI-H23、NCI-H2342、NCI-H2347、NCI-H647、NCI-H920、NCI-H969、CLS-54、LX-289、SK-LU-1、H2882、Calu-6, H358 和 H460 ;所述第二細胞系選自 NCI-H2405、NCI-H522、SK-MES-U H157、H1819、H2009、H2887、HCC1171、HCC1359、HCCl5, HCC193、HCC366、HCC461、HCC515、HCC78、HOP-62、H0P-92 和NCI-H266 ;以及 所述第三細胞系選自 A549、Calu-3、NCI-H1734、NCI-H838 和 HCC95。
16.權(quán)利要求9的方法,其中多個樣品,m,由 CLS-54、LX-289、SK-LU-1、SK-MES-1、H157、H1819、H2009、H2882、H2887、HCC1171、HCC1359、HCC15、HCC193、HCC366、HCC461、HCC515、HCC78、HCC95、HOP-62, HOP-92、NCI-H266、NCI-H1437、NCI-H1563、NCI-H1568、NCI-H1623、NCI-H1651、NCI-H1693、NCI-H1734、NCI-H1755、NCI-H1793、NCI-H1838、NCI-H1944、NCI-H1975、NCI-H1993、NCI-H2023、NCI-H2073、NCI-H2085、NCI-H2087、NCI-H2122、NCI-H2126、NCI-H2228、NCI-H2291、NCI-H23、NCI-H2342、NCI-H2347、NCI-H2405、NCI-H522、NCI-H647、NCI-H838、NCI-H920、NCI-H969、A549、Calu-3, HCC827、Calu-6, H358 和 H460 細胞系組成。
17.權(quán)利要求9的方法,其中治療性干預包括選自放射療法、化學療法、激光療法、光動力學和生物學療法的至少ー種。
18.權(quán)利要求17的方法,其中所述治療性干預是化學療法,并且所述化學療法包括施用至少ー種藥物組合物,其包含選自埃羅替尼、吉非替尼、カ比泰、順鉬、吉西他濱、紫杉醇、長春烯堿、表柔比星、長春地辛、氯尼達明、異環(huán)磷酰胺、卡鉬以及多西他賽和異環(huán)磷酰胺的活性剤。
19.權(quán)利要求18的方法,其中所述化學療法包括施用兩種或更多種活性剤。
20.裝配用于分類來自樣品的NSCLC細胞的探針小組的方法,包括 (a)裝配數(shù)據(jù)庫,包括 (i)獲得多個,m個,包括至少ー個NSCLC腫瘤或細胞系的樣品; (ii)獲得包括步驟(i)中獲得的每ー個樣品的每一條染色體的至少ー個基因座的拷貝數(shù)改變信息的第一數(shù)據(jù)集; (iii)鑒定第一數(shù)據(jù)集中被正常細胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括 (1)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法; (2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù); (3)從第一數(shù)據(jù)集中消除每ー個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù); (iv)通過對數(shù)據(jù)集應用利用Pearson線性相異性算法的無監(jiān)瞀聚類算法估計數(shù)據(jù)集中的亞組的數(shù)目r ; (v)利用改進的基因組非負矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每ー個樣品分配至至少ー個簇,其中所述改進的gNMF算法包括 (1)利用公式(11)計算每100步乘性更新后算法的散度
21.包括權(quán)利要求20的探針小組的試劑盒。
22.權(quán)利要求21的試劑盒,其中每ー個探針是FISH探針。
23.用于分類NSCLC腫瘤樣品或細胞系的試劑盒,其包括 (a)裝配數(shù)據(jù)庫的說明書,其包括用于如下方面的說明書 (i)獲得多個,m個,包含至少ー個NSCLC腫瘤或細胞系的樣品; (ii)獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每ー個樣品的每一條染色體的至少ー個基因座的拷貝數(shù)改變信息; (iii)鑒定第一數(shù)據(jù)集中被正常細胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括 (1)對數(shù)據(jù)應用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機器學習算法; (2)賦予每一個樣品如通過機器學習算法測定的正常細胞污染的概率分數(shù); (3)從第一數(shù)據(jù)集中消除每ー個得分50%或更大的含正常細胞的概率的樣品的數(shù)據(jù); (iv)通過對數(shù)據(jù)集應用利用Pearson線性相異性算法的無監(jiān)瞀聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r ; (v)利用改進的基因組非負矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每ー個樣品分配至至少ー個簇,其中所述改進的gNMF算法包括 (I)利用公式(11)計算每100步乘性更新后算法的散度
全文摘要
本發(fā)明涉及允許按照基因組概況分類非小細胞肺癌腫瘤和細胞系的方法和試劑盒,以及診斷、預測臨床結(jié)果和使患者群體分層以使用所述方法進行臨床試驗和治療的方法。
文檔編號G06F19/24GK102696034SQ200980143555
公開日2012年9月26日 申請日期2009年10月28日 優(yōu)先權(quán)日2008年10月31日
發(fā)明者D·塞米扎洛夫, K·張, R·R·列斯尼夫斯基, 盧欣 申請人:雅培制藥有限公司