外周血液白細胞轉錄模式的模塊水平分析的制作方法

文檔序號：433149閱讀：482來源：國知局

專利名稱：外周血液白細胞轉錄模式的模塊水平分析的制作方法
技術領域：
本發(fā)明一般涉及細胞的轉錄模式，并且更加特別地，涉及通過白細胞的轉錄表達模式對疾病進行診斷和預測。
長表格本發(fā)明包括長表格，其所有內容在此并入作為參考。在此一并附上包含Landscape orientation格式的所述文件的CD的兩個拷貝。

背景技術：
基因表達微陣列的廣泛應用為生物醫(yī)學研究帶來巨大的希望。該項技術已經(jīng)導致在癌癥患者中建立起預測標志1-4，以及確認與發(fā)病機制有關的基因或途徑(例如，發(fā)現(xiàn)白細胞介素-1(IL-I)在全身性幼年先天性關節(jié)炎發(fā)病機制中的作用)5。然而，盡管取得了這些重大進展，基因表達微陣列技術仍然沒有實現(xiàn)其出現(xiàn)初期給人們所帶來的希望，并且結果導致微陣列技術平臺的使用近期遭到了嚴厲批評6。主要焦點在于以下事實微陣列數(shù)據(jù)特別容易產(chǎn)生噪聲，并且當過度解釋時會導致欺騙性結果的產(chǎn)生7。此外，對微陣列數(shù)據(jù)的懷疑還在于不同試驗室和交叉平臺獲得的數(shù)據(jù)重復性低8-12。最后，在基因組范圍下對實驗結果的解釋能力有限，構成了限制微陣列研究的另一個瓶頸13。
發(fā)明概述基因組研究正面臨著分析轉錄數(shù)據(jù)的重大挑戰(zhàn)極高噪聲、難解釋以及實驗室和平臺的交叉可比性差。本發(fā)明提供了一種分析策略，在該分析的早期著重于生物相關基因的選擇，所述分析合并于分析模塊中，以克服微陣列平臺之間的不一致性。所開發(fā)的轉錄模塊可用于分析大型基因的表達數(shù)據(jù)組。通過在交叉商業(yè)化微陣列平臺中觀察到高度的可重復性證實，來源于該分析的結果易于解釋，而且特別健全。
通過挖掘大量的PBMC轉錄模式來闡明所述分析方法的應用。鑒定了重組4742個基因形成的28個轉錄模塊。使用本發(fā)明證實，通過在例如血液白細胞中的轉錄變化的組合來獨特表征的疾病，在模塊水平測量疾病成為可能。實際上，血液白細胞轉錄水平在模塊水平的變化構成了疾病或樣本的分子指紋。
本發(fā)明具有廣泛的應用。其可用于表征任意生物系統(tǒng)(如外周血單核細胞(PBMCs)、血細胞、胎兒細胞、腹膜細胞、實體器官活檢物、切除的腫瘤、原代細胞、細胞系、細胞克隆等)的模塊轉錄成分。通過該方法產(chǎn)生的模塊化PBMC轉錄數(shù)據(jù)能夠應用于分子診斷、預測、疾病嚴重程度的評估、對藥物治療的反應、藥物毒性等。使用本發(fā)明方法處理其他數(shù)據(jù)，能夠應用于如機理研究或藥物化合物篩選。事實上，數(shù)據(jù)分析策略和挖掘算法能夠在普通基因表達數(shù)據(jù)分析軟件中執(zhí)行，甚至可以用于發(fā)現(xiàn)、開發(fā)及測試新的疾病或病癥特異性模塊。本發(fā)明還可與藥物基因組學、分子診斷、生物信息學等結合，其中可使用深入表達數(shù)據(jù)來完善在臨床試驗中獲得的結果(如通過完善或從樣本群體中作亞選擇)。
更具體地說，本發(fā)明包括通過獲得患者的轉錄組來診斷疾病或病癥的陣列、設備、系統(tǒng)和方法；基于指示疾病或病癥的一個或更多轉錄模塊來分析所述轉錄組；以及基于所述轉錄組中的基因在一個或更多轉錄模塊的存在、缺失或表達水平來確定患者的疾病或病癥。所述轉錄模塊可以通過以下方式獲得迭代選擇一個或更多轉錄模塊的基因表達值，所述迭代選擇是通過從與各種疾病或病癥相匹配的各集群中選擇基因模塊，分析排除選擇的基因，以及對集群于所述疾病或病癥的亞部分的基因重復基因表達值選擇的過程；以及對每一集群迭代重復所述模塊的生成，直到用完所有的基因簇。
被選擇用于本發(fā)明的集群(cluster)的實例包括但不限于表達值集群、關鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉錄集群、復制集群、細胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細胞集群、B細胞集群、細胞因子集群、淋巴因子集群、熱休克集群及其組合。使用本發(fā)明來分析的疾病或病癥的實例包括例如自身免疫疾病、病毒感染細菌感染、癌癥以及移植排斥反應。更特別地，用于分析的疾病可以選自以下的一種或更多種病癥全身性幼年特發(fā)性關節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者和患者細菌如大腸桿菌、金黃色葡萄球菌感染、患者病毒如流感病毒A感染及其組合。甚至還可以制造出檢測與生物恐怖試劑(bioterror agent)相關的特定疾病或病癥的特異性陣列。
可以使用本發(fā)明分析的細胞包括例如外周血單核細胞(PBMCs)、血細胞、胎兒細胞、腹膜細胞、實體器官活檢物、切除的腫瘤，原代細胞、細胞系、細胞克隆及其組合。細胞可以為單個細胞、細胞的集合、組織、細胞培養(yǎng)物、體液如血液中的細胞。細胞可以獲得自組織活檢物、一種或更多種細胞群體、細胞培養(yǎng)物、細胞克隆、轉化的細胞、活檢物或單個細胞。細胞類型可以是例如腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結、內分泌腺、生殖器官、血液、神經(jīng)(nerve)、血管組織以及嗅上皮的細胞。將細胞分離后，獲得來自于這些細胞的這些mRNA并進行個體基因表達水平的分析，所述分析使用例如探針陣列、PCR、定量PCR、微珠試驗(bead-based assays)及其組合。甚至可以使用在固體支持物上的核酸雜交來進行個體基因表達水平的分析，所述雜交使用從所述細胞中收集的mRNA作為逆轉錄酶的模板，逆轉錄制得的cDNA。
在另一個實施方案中，本發(fā)明包括一種用于鑒定轉錄模塊的方法，所述方法通過以下方式進行鑒定獲得來自一名或更多名患有疾病或病癥的患者的細胞的個體基因表達水平；在劃分為集群的表格中記錄各個基因的表達值；迭代選擇一個或更多轉錄模塊的基因表達值，所述迭代選擇是通過從匹配于每種疾病或病癥的各個集群中選擇用于所述模塊的基因，從所述分析中排除所選擇的基因；并且對集群于所述疾病或病癥亞部分的基因重復基因表達值的選擇過程；以及迭代重復對于每一集群的模塊形成過程，直到用完所有的基因簇。使用本發(fā)明的轉錄模塊的實例可以選自及其組合，其中將所述樣本中基因的表達水平繪制在所述模塊中，從而來確定疾病或病癥。
本發(fā)明還包括疾病的分析工具，所述分析工具包括選自以下的一個或更多個基因模塊，例如所述的一個或更多個基因模塊足以用于區(qū)分自身免疫疾病、病毒感染、細菌感染、癌癥以及移植排斥反應。將所述模塊用于區(qū)分系統(tǒng)性紅斑狼瘡、流感病毒感染、黑色素瘤及移植排斥反應。
在一個實施方案中，所選擇的模塊可以選自漿細胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；并且通過在所述兩個模塊中含有陽性載體，將所述模塊用于鑒定系統(tǒng)性紅斑狼瘡。
在另一個實施方案中，所選擇的模塊可以選自漿細胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及漿細胞標記物CD38的基因；和血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；并且通過在這兩個模塊中既不具有陽性也不具有陰性載體，將所述模塊用于鑒定流感病毒感染。
在另一個實施方案中，所選擇的模塊可以選自漿細胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；并且通過具有漿細胞標記物的陰性載體和血小板標記物的陽性載體，將所述模塊用于鑒定黑色素瘤。
在另一個實施方案中，所選擇的模塊可以選自漿細胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)及PF4(血小板因子4)的基因；并且通過在這兩個模塊中具有陰性載體，將所述模塊用于鑒定移植排斥反應。
在另一個實施方案中，所選擇的模塊可以選自漿細胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；并且通過在這兩個模塊中具有陰性載體，將所述模塊用于鑒定流感病毒感染。
本發(fā)明的另一種實施方式為預測基因陣列，包括定制的基因陣列，所述定制基因陣列具有代表一個或更多轉錄模塊的基因的組合，其中與所述定制基因陣列相接觸的患者的轉錄組為與所述轉錄模塊相匹配的一種或更多種疾病或病癥的預測。在一個實施例中，所述患者對所述疾病或病癥的免疫反應，是由基于所述轉錄模塊中轉錄組基因的出現(xiàn)、缺失或表達水平?jīng)Q定，與某種特定疾病或病癥相關的。所述陣列能夠鑒定自身免疫疾病、病毒感染細菌感染、癌癥以及移植排斥反應。所述陣列還可以組織成兩個或兩個以上轉錄模塊，例如，可以組織成3個轉錄模塊，包括選自下列的一個或更多子模其中來自于每一模塊的一個或更多個探針特異性地結合所述模塊中的一個或更多個基因。
另外一個發(fā)明包括一種基因分析工具，所述基因分析工具包括一個或更多個基因模塊，所述基因模塊選自下列左欄中的一組和右欄中的一組的組合及其組合，其中將樣本中的基因表達水平繪制在所述模塊中來確定疾病或病癥。
通過以下方式，甚至可以將本發(fā)明的陣列、方法及系統(tǒng)用于選擇臨床試驗中的患者獲得潛在患者的轉錄組；將所述轉錄組與指示將在臨床試驗中治療的疾病或病癥的一個或更多個轉錄模塊進行比較；和基于在患者轉錄組中表達的一個或更多個基因的存在、缺失或水平來確認患者成為用于臨床試驗的好的候選者的可能性，所述的一個或更多個模塊是與臨床試驗的成功相關聯(lián)。通常，對于每一模塊而言，可以使用與樣本中轉錄體比例相關的載體，例如，當每一模塊均包括載體并且其中的一種或更多種疾病和病癥與所述的一個或更多個載體相關。因此，每個模塊可以包括與每個模塊中的一個或更多個基因的表達水平相關的載體。
本發(fā)明還包括陣列，如定制微陣列，所述陣列包括固定于固體支持物上的核酸探針，所述固體支持物包括來自于一個或更多個模塊中的足夠的探針，以提供用于區(qū)分一種或多種疾病的足夠比例的差異表達的基因，所述探針選自表3。例如，固定于固體支持物上的核酸探針陣列，其中所述陣列包括至少兩組選自如下的探針模塊其中在第一探針組中的探針具有分別對應于一種或多種疾病的一個或更多個詢問位點(interrogation position)。所述陣列可以具有100到100,000個探針，并且每個探針的長度可以為9-21個核苷。分別組織成探針組時，能夠單獨詢問。
本發(fā)明還包括一種或更多種核酸探針，所述核酸探針固定于固體支持物以形成模塊陣列，所述模塊陣列包括第一和第二探針組的至少一對探針，每組有一個或更多個如表3所定義的探針。選擇的探針組用于提供復合轉錄標記物載體，其在微陣列交叉平臺中保持一致。事實上，所述探針組甚至可以用于提供一種復合轉錄標記物載體，其在微陣列交叉平臺中保持一致并且總體顯示為滿足監(jiān)管部門要求。本領域技術人員將會認識到，使用本發(fā)明的模塊，對于迅速開發(fā)出一種或多種疾病的特異性陣列是可能的，所述特異性陣列可以用于迅速診斷或區(qū)分不同的疾病和/或病癥。
附圖的簡要說明為了更加全面地理解本發(fā)明的特征及優(yōu)點，現(xiàn)在參照所附的附圖，來詳細描述本發(fā)明，并且其中

圖1A至圖1C顯示基本微陣列數(shù)據(jù)挖掘策略步驟，所述數(shù)據(jù)挖掘策略步驟涉及公認的基因水平的微陣列數(shù)據(jù)分析(圖1A)、本發(fā)明的模塊挖掘策略圖1b以及模塊化提取算法的完全大小表示圖1C。圖1C提供模塊化提取算法的更詳細示意，其中步驟(a)表示在本文所定義的實驗系統(tǒng)(如離體PBMCs)中產(chǎn)生的數(shù)據(jù)的例子；步驟(b)表示幾個實驗組(如G1-8)所獲得的轉錄分布型；步驟(c)表示在各組中，基因基于表達分布型的相似性而分成x個集群(如x＝30)(使用K-均值聚類算法)；步驟(d)表示貫穿不同實驗組中各個基因的集群分類，所述集群分類記錄于表格中且分配模式相匹配；并且步驟(e)表示通過迭代程序選擇模塊，從貫穿所有實驗組中相同集群的最大一組基因系(set of gene)開始(在相同集群中建立8個8組)。選擇從所述核心參考模式擴展到包括具有7/8，6/8及5/8匹配的基因。一旦模塊已經(jīng)形成，所述基因就從選擇池(selection pool)里撤回。然后重復此過程，從第二大組基因開始，逐步降低嚴格性水平。
圖2貫穿獨立樣本組的模塊化基因表達分布型。通過獲得自21名健康志愿者一組樣本說明模塊間的轉錄行為差異。所述樣本模塊在所述選擇過程中不使用。圖示為轉錄分布型，各個線條表示在多重條件(樣本，x-軸)下，單個轉錄體的表達水平(y-軸)。所示為模塊1.2、1.7、2.1以及2.11的轉錄分布型。將各基因的表達歸一化到所有樣本獲得的測量中間值。
圖3文獻中出現(xiàn)的獲得四組協(xié)同表達的基因的關鍵詞分類。計算M3.1、M1.5、M1.3以及M1.2中的所有基因在與至少10種出版物有關的摘要中(涉及超過26,000篇摘要)的術語出現(xiàn)水平。從各模塊提取關鍵詞分布型(keyword profiles)，并使用選擇形成該圖。關鍵詞在摘要中的出現(xiàn)水平通過顏色范圍顯示，黃色代表高出現(xiàn)率。M3.1與干擾素有關，M1.5與病原體識別分子/髓系細胞有關，M1.3與B-細胞有關并且M1.2與血小板有關。
圖4分子微陣列分析策略。所建議的微陣列數(shù)據(jù)分析策略包括兩個基本步驟1.轉錄系統(tǒng)的表征通過一種無監(jiān)督的“聚類整合分析”(clusteringmeta-analysis)提取轉錄組分(圖1)。形成各個模塊(由唯一的ID如M1.1來確定)的基因在一個定義的實驗系統(tǒng)中的所有條件下的轉錄行為具有一致性。將轉錄模塊用兩位數(shù)字標識(如1.1)來確認。圖中顯示多重條件下(樣本)形成模塊的基因的表達分布型。將各模塊依次進行功能表征(如通過文獻分布型的分析)。結果收集到具有生物學意義的轉錄決定因素。2.系統(tǒng)微擾(perturbations)的研究獨立地對各個模塊進行研究組間比較。該分析能夠允許確認不同條件下表達水平的變化(如比較來自患者的樣本和來自健康志愿者的對照樣本)。各模塊獲得的結果如圖所示。滿足顯著性標準的基因比例(分類比較)在圈中示出，其中紅色為顯著的過表達基因的比例，藍色表示顯著的低表達(under-expressed)基因的比例。在該理論實例中，圖示出3/4(75％)的基因具有p<0.05。有兩種基因過表達(50％-紅色)以及一種基因低表達(25％-藍色)。
圖5為患者血液白細胞轉錄分布型的分析。a)基因水平分析。頂欄顯示確認SLE患者或急性流感病毒感染者及其相應對照的差異表達轉錄體的統(tǒng)計學比較(p<0.001，曼-惠特尼U檢驗(Mann Whitney U test，即秩和檢驗)，Benjamini and Hochberg錯誤發(fā)現(xiàn)率SLE＝733個轉錄體，F(xiàn)LU＝234個轉錄體)?；诒磉_模式對分組基因進行聚類分析，并且結果用熱點圖(heatmap)表示。底欄為模塊水平分析。各模塊對從患者(SLE或FLU)及相應健康志愿者PBMCs獲得的基因表達水平進行比較(p<0.05，曼-惠特尼秩和檢驗)。餅形圖說明發(fā)生顯著性變化的基因比例。圖示表明發(fā)生顯著變化的基因轉錄分布型，各線條顯示在多重條件(樣本，x-軸)下，單個轉錄體的表達水平(y-軸)。將各基因的表達歸一化到所有樣本獲得的測量值的中位數(shù)。將所得到的28個PBMC轉錄模塊結果顯示在網(wǎng)格上。用坐標來表示模塊ID(例如M2.8是指第8列第M2行)。點表示各模塊中發(fā)生顯著變化的基因比例。紅點過表達基因的比例，藍點低表達基因的比例。將功能性的解釋在網(wǎng)格上用顏色代碼示出。
圖6由疾病導致的轉錄變化模塊圖。對于各個模塊比較分離自患者及其相應健康志愿者對照的PBMCs經(jīng)測量的表達水平(曼-惠特尼秩和檢驗，在18名SLE患者和11名健康志愿者之間、16名急性流感病毒感染者和10名志愿者之間、16名轉移性黑色素瘤患者和10名志愿者之間以及16名肝移植受者和10名志愿者之間，p<0.05)。點表示各個模塊中發(fā)生顯著變化的基因比例。紅點過表達基因的比例，藍點低表達基因的比例。獲得的28個PBMC轉錄模塊的結果在網(wǎng)格上示出。用坐標來表示模塊的ID(如M2.8指示出第8列第M2行)。
圖7第三方數(shù)據(jù)組的分析。對公開發(fā)表的PBMC基因表達數(shù)據(jù)組進行分子微陣列數(shù)據(jù)分析。本研究調查運動對基因表達的影響。在運動前(Pre)、運動后(End)及運動結束后60分鐘(Re)，對15個受試者中獲得血樣。形成對3個受試者各自5個池的轉錄分布型。顯示三個轉錄模塊的表達分布型。將各個基因的表達歸一化到所有樣本獲得測量值的中位數(shù)。從所述文獻中提取的關鍵詞用綠色標示。
圖8交叉平臺有效性。在兩個不同的微陣列平臺(Affymetrix U133A&B基因芯片和Illumina Sentrix Human Ref8微珠芯片)上對來自健康捐獻者以及肝移植受者的PBMC樣本進行分析。使用同樣的總RNA池獨立地制備出生物素標記的cRNA靶點。結果所示為在兩個平臺中(Affymetrix頂欄；Illumina中間欄)共有的轉錄體小組。將各基因的表達歸一化為所有樣本獲得的測量值中位數(shù)。底欄所示為Affymetrix和Illumina平臺測得的形成各個轉錄模塊的所有基因的平均表達值。
圖9包括三幅微陣列交叉平臺的模塊級表達數(shù)據(jù)重復圖。在兩個不同的微陣列平臺(Affymetrix U133A&B基因芯片和Illumina Sentrix HumanRef8微粒芯片)上對來自健康捐贈者及肝移植受者的PBMC樣本進行分析。使用相同來源的總RNA獨立地制備出生物素標記的cRNA靶點。通過形成各個模塊的基因的平均表達值來獲得各個樣本的標準化“模塊表達水平”。由Affymetrix和Illumina平臺生成的數(shù)據(jù)衍生的模塊表達水平是高度可比的M1.2、M3.1和M3.2的Pearson相關系數(shù)分別為R2＝0.83、0.98和0.93(p<0.0001)。
發(fā)明詳述以下將詳細討論本發(fā)明的各種實施方式的制造和使用，應當理解本發(fā)明提供了多種可實施的發(fā)明構思，上述發(fā)明構思可以納入到各種具體的背景中。本文所討論的具體實施方式
僅僅是對制造和使用本發(fā)明的具體說明，并不限制本發(fā)明的范圍。
為了幫助本發(fā)明的理解，以下對若干術語進行了定義。本文所限定的術語的含義與本發(fā)明相關領域內的普通技術人員的理解一致。術語如“一個”、“一種”及“所述”并不是僅指單個的特定實體，而是包括了用于說明的一類某種特定實例。本發(fā)明中所使用的描述具體實施例的術語除了權利要求中出現(xiàn)的外，并不限制本發(fā)明的保護范圍。以下文獻中涉及的術語定義適用于本發(fā)明Singleton等編的Dictionary of Microbiology and MolecularBiology(第二版，1994)；THE CAMBRIDGE DICTIONARY OF SCIENCEAND TECHNOLOGY(Walker編輯，1988)；THE GLOSSARY OFGENETICS，第五版，R.Rieger等人(編輯)，Springer Verlag(1991)；以及Hale和Marham，THE HARPER COLLINS DICTIONARY OF BIOLOGY(1991)。
各種生化和分子生物學方法都為現(xiàn)有技術，例如詳細描述于以下文獻中的核酸的分離和純化方法WO 97/10365、WO 97/27317、LaboratoryTechniques in Biochemistry and Molecular Biology的第3章核酸探針雜交，第1部分。Theory and Nucleic Acid Preparation，(P.Tijssen編輯)Elsevier，N.Y.(1993)；以及Sambrook等編的Molecular CloningA LaboratoryManual，Cold Spring Harbor Press，N.Y.，(1989)；和Current Protocols inMolecular Biology，(Ausubel，F(xiàn).M.等人編輯)，John Wiley & Sons，Inc.，New York(1987-1999)，包括增刊部分，如增刊46(1999年4月)。
生物信息學定義本文所使用的“對象”，涉及任何項目或有意義的信息(全文通用，包括名詞、動詞、形容詞、副詞、短語、句子、符號、數(shù)字字符等)。因此，“對象”一詞是可以形成特定關系的任意事物以及可從來源獲得、確認和/或檢索到的任何事物?！皩ο蟆卑ǖ幌抻谟幸饬x的實體例如基因、蛋白、疾病、顯型、機制、藥物等。在某些方面，“對象”表示的是數(shù)據(jù)，如下文進一步所描述的。
本文所使用的“關系”，是指在同樣的單元內同時出現(xiàn)的對象(如短語、句子、兩個或兩個以上文本行、段落、網(wǎng)頁部分、頁、雜志、論文、書籍等)?？梢允俏谋?、符號、數(shù)字及其組合。
本文所使用的“元數(shù)據(jù)內容”，是指在數(shù)據(jù)源中作為文本組織的信息。元數(shù)據(jù)可以包括標準元數(shù)據(jù)如都柏林核心元數(shù)據(jù)(Dublin Core metadata)或可以特異性收集的數(shù)據(jù)。元數(shù)據(jù)格式的實例包括但不限于用于圖書館目錄的機器可讀目錄(Machine Readable Catalog，MARC)記錄、資源描述格式(Resource Description Format，RDF)以及可擴展標記語言(Extensible MarkupLanguage，XML)?？梢允謩由苫蚴峭ㄟ^自動化信息提取算法能夠產(chǎn)生元對象。
本文所使用的“引擎”，是指執(zhí)行用于其他程序的核心功能或必要功能的程序。例如，引擎可以是操作系統(tǒng)的核心程序(central program)或是與其他操作程序的整體操作相互協(xié)調的應用程序。術語“引擎”還可以指包含可改變的算法的程序，例如，可以設計一種知識搜索引擎，從而其方法通過確認可變化的關系來反映識別和排序關系的新規(guī)則。
例如通過后綴去除或詞干或利用詞表，本文所使用的“語義分析”，是指確定代表相似概念的詞之間的關系。“統(tǒng)計學分析”是指基于計算各術語(詞、詞根、詞干、n-元文法、短語等)出現(xiàn)數(shù)量的技術。收集不限于主題，用于不同背景的相同短語可以代表不同的概念。同時出現(xiàn)短語的統(tǒng)計分析能夠幫助解決詞義的歧義。“語義分析”可用于進一步通過詞類分析來減少歧義。本文所使用的一個或更多個這樣的分析分析，是指通常所說的“詞法分析”。“人工智能(AI)”，是指通過非人力的設備如計算機，來執(zhí)行人類認為值得注意的或是“智能”的任務的方法。實例包括鑒定圖像、理解口頭語語或書面語言以及解決問題。
本文所使用的術語“數(shù)據(jù)庫”是指原始數(shù)據(jù)或編輯數(shù)據(jù)的儲存庫，即使在數(shù)據(jù)字段中可以發(fā)現(xiàn)不同的信息面(informational facet)。通常對數(shù)據(jù)庫進行組織，使其內容能夠被訪問、管理和更新(例如，數(shù)據(jù)是動態(tài)的)。術語“數(shù)據(jù)庫”和“源”在本發(fā)明中也可以互換使用，因為數(shù)據(jù)和信息的基本來源是數(shù)據(jù)庫。然而，“源數(shù)據(jù)庫”和“源數(shù)據(jù)”通常是指數(shù)據(jù)，例如非結構化文本和/或結構化數(shù)據(jù)，它們被輸入識別對象和確定關系的系統(tǒng)中。源數(shù)據(jù)庫可以是或不是關系數(shù)據(jù)庫。
然而，系統(tǒng)數(shù)據(jù)庫通常包括關系數(shù)據(jù)庫或者儲存涉及對象間關系的數(shù)值的一些等同類型數(shù)據(jù)庫。
本文所使用的“系統(tǒng)數(shù)據(jù)庫”和“關系數(shù)據(jù)庫”可以互換使用，是指一種或多種被組織成表格集合的數(shù)據(jù)集合，這些表格包含適合于預定義分類的數(shù)據(jù)。例如，數(shù)據(jù)庫表格可以包括一種或多種由列定義的分類(例如屬性)，而數(shù)據(jù)庫的行可以包含對應于由列定義的分類的唯一對象。這樣，如基因的同一性的對象可能具有對應于基因的存在、缺失和/或表達水平的列。關系數(shù)據(jù)庫的行也可以被稱之為“集合”，并通常由其所在列的數(shù)值定義。關系數(shù)據(jù)庫上下文中的“域(domain)”是字段(field)，如列可以包括的有效值的范圍。
本文所使用的“知識域”，是指研究所述系統(tǒng)的操作范圍，如，所有的生物醫(yī)學數(shù)據(jù)。應當指出的是，合并來自于若干領域的數(shù)據(jù)，如生物醫(yī)學數(shù)據(jù)和工程數(shù)據(jù)，對于一個僅熟悉某范圍或研究/學科(一個領域)的普通人員來說，其優(yōu)點在于，多樣化的數(shù)據(jù)有時能夠將不能放在一起的事物聯(lián)系起來?！胺植嫉臄?shù)據(jù)庫”，是指可以在網(wǎng)絡中的不同點分散或復制的數(shù)據(jù)庫。
術語例如“數(shù)據(jù)”和“信息”經(jīng)?；Q使用，就像“信息”和“知識”。本文所使用的“數(shù)據(jù)”，是指最基本的單元，一種經(jīng)證實的測量值或一組測量值。將數(shù)據(jù)匯編成信息，但數(shù)據(jù)基本上又是獨立于信息的。相反地，源于感興趣的信息，例如，為實現(xiàn)發(fā)現(xiàn)與心血管疾病風險相關變量的目的，可以匯集關于種族、性別、身高、體重及飲食的數(shù)據(jù)(單元)。因而，能用相同數(shù)據(jù)制定出公式或創(chuàng)作關于飲食偏好的“信息”，如超市中的某種產(chǎn)品是否有較高售出的可能性。
本文所使用的“信息”，是指可以包括數(shù)字、文字、數(shù)字組、文字組的數(shù)據(jù)組或源于數(shù)據(jù)組或其結論性結果。然后“數(shù)據(jù)”是測量值或統(tǒng)計值以及信息的基本單元?！靶畔ⅰ边€可以包括其他類型的數(shù)據(jù)，如詞語、符號、文本，例如非結構化自由文本、代碼等。將“知識”寬松地定義為對于模型的原因及效果的給出充分系統(tǒng)理解的信息組。為擴充原先的實例，人口統(tǒng)計學數(shù)據(jù)、性別以及優(yōu)先購買的信息可以用于開發(fā)區(qū)域性的食品銷售市場策略，而購買者可利用民族信息作為產(chǎn)品進口的指南。重要的是要注意到，在數(shù)據(jù)、信息及知識之間沒有嚴格的界限；有時這三個術語可以看作是等價的。通常地，數(shù)據(jù)來自于調查可獲得，信息來自于相關性，并且知識來自于建模。
本文所使用的“程序”或“計算機程序”，通常是指符合特定程序語言規(guī)則的句法單元，其由聲明和陳述或指示組成，為解決或執(zhí)行特定功能、任務或問題，可分為”代碼段”。程序語言一般是一種表達程序的人工語言。
本文所使用的“系統(tǒng)”或“計算機系統(tǒng)”，通常是指一臺或更多臺計算機、周邊設備以及執(zhí)行數(shù)據(jù)處理的軟件?！笆褂谜摺被颉跋到y(tǒng)操作者”通常包括為達到數(shù)據(jù)處理和信息交換的目的，通過“用戶設備”(如計算機、無線設備等)使用計算機網(wǎng)絡來進行存取的人。“計算機”通常具有能夠執(zhí)行基本運算的功能單元，包括在無人干涉的情況下，進行大量計算操作和邏輯操作。
本文所使用的“應用軟件”或“應用程序”，通常指專門用于解決應用問題的軟件或程序?！皯脝栴}”通常是指由終端使用者提出的問題，并且其解決需要進行信息處理。
本文所使用的“自然語言”，是指其規(guī)則是基于目前的使用而不作特別規(guī)定的語言，如英語、西班牙語或漢語。本文所使用的“人工語言”，是指在使用前就已經(jīng)明確制定了其規(guī)則的語言，例如，計算機程序語言，如C、C++、Java、BASIC、FORTRAN或COBOL。
本文所使用的“統(tǒng)計相關性”，是指一個或更多個排序方案(O/E比、強度等)，如果某個關系的發(fā)生頻率顯著高于預期的隨機頻率，該關系被確定為統(tǒng)計學相關性的。
本文所使用的術語“協(xié)同調節(jié)基因”(coordinately regulated genes)或“轉錄模塊”可以互換使用，是指分組的、特定基因的基因表達分布型(如與某種基因序列相關的信號值)中。每一轉錄模塊與兩個關鍵組的數(shù)據(jù)有關，所述兩個關鍵組的數(shù)據(jù)為文獻檢索部分和從基因微陣列獲得的實證基因表達值數(shù)據(jù)?；诨虮磉_數(shù)據(jù)(上述的模塊提取算法)的分析，將該基因小組選擇到轉錄模塊中。其他步驟由以下文獻教導Chaussabel，D.和Sher，A.，Mining microarray expression data by literature profiling，Genome Biol 3，RESEARCH0055(2002)，(http://genomebiology，eom/2002/3/10/research/0055)，其相關部分引入本文作為參考，并且從感興趣的疾病或病癥(如系統(tǒng)性紅斑性狼瘡、關節(jié)炎、淋巴瘤、癌、黑色素瘤、急性感染、自身免疫性疾病、自體炎性障礙等)獲得表達數(shù)據(jù)。
下表列出了被用于開發(fā)文獻檢索部分或轉錄模塊構建的關鍵詞的實例。本領域技術人員將會認識到，可以將其他術語容易的選擇用于其他病癥，例如，具體的腫瘤、具體的傳染病、移植等。例如，將與T-細胞活化有關的基因和信號在下文中描述為模塊ID“M2.8”，其中某些關鍵詞(例如，淋巴瘤、T-細胞、CD4、CD8、TCR、胸腺、淋巴、IL2)用于識別關鍵的T-細胞相關基因，例如，T-細胞表面標記物(CD5、CD6、CD7、CD26、CD28、CD96)；由淋巴系細胞表達的分子(淋巴毒素-β、IL-2可誘導的T細胞激酶、TCF7；以及T-細胞分化蛋白mal、GATA3、STAT5B)。接下來，通過來自于患者群的相關數(shù)據(jù)將這些基因產(chǎn)生所述轉錄模塊，從而開發(fā)出完整的模塊(不考慮平臺、存在/缺失和/或是上調或下調)。在某些情況下，基因分布型(在此時)與所述疾病病癥及數(shù)據(jù)的任意特定基因簇并不相匹配，但是，在“不確定組”模塊中包括有某些生理途徑(如cAMP信號、鋅指蛋白、細胞表面標記物等)。事實上，基因表達數(shù)據(jù)小組可用于提取協(xié)同表達的基因，優(yōu)先于提取與關鍵詞檢索匹配的基因，即，每一數(shù)據(jù)小組可以在交叉參考前與第二數(shù)據(jù)小組相關聯(lián)。
表1.轉錄模塊的實例生物學定義本文所使用的術語“陣列”，是指具有連接結合到所述支持物上的一個或更多個肽或者核酸探針的固體支持物或基質。陣列通常具有一個或更多個可以與不同基質表面(一般稱為位點)結合的不同核酸或肽探針。所述的陣列，又稱為“微陣列”或“基因芯片”，可以具有10,000、20,000、30,000或40,000個基于已知基因組的可識別的不同基因，如人類基因組。將所述的平板陣列(pan-arrays)用于檢測整個“轉錄組”或在樣本中表達或發(fā)現(xiàn)的基因轉錄池(pool)，例如，表達為RNA、mRNA等的核酸可以通過RT和/或RT-PCR技術來制備互補的DNA復制子組?？梢允褂脵C械合成法、光導化學合成法等結合非平版印刷和/或照相平版印刷法和固相合成法制造陣列。
已經(jīng)描述有合成這些核酸陣列的各種技術，如在任意表面形狀或甚至是在多重表面上制備核酸陣列。陣列可以為在珠粒、凝膠、聚合物表面、纖維(如光學纖維)、玻璃或其它合適基質上的肽或核酸。陣列依照一定的方式包覆以便于診斷或其他所涉及設備的操縱，如專利號為6,955,788的美國專利，其相關部分納入本文作為參考。
本文所使用的術語“疾病”，是指有機體的生理學狀態(tài)，其細胞的生物學狀態(tài)處于非正常的狀態(tài)。疾病包括但不限于細胞、組織、身體機能、系統(tǒng)或器官的中斷、停止或紊亂，所述中斷、停止或紊亂可以是內在的、遺傳的、由于感染引起的、由于細胞功能異常、異常的細胞分裂等引起的。疾病導致通常對于生物系統(tǒng)(疾病患者)來說是有害的“病情”。對于本發(fā)明來說，任何生物學狀態(tài)，如感染(例如病毒、細菌、真菌、蠕蟲等的感染)、炎癥、自發(fā)炎癥、自身免疫性、過敏性反應、敏感癥、癌前病變、惡性腫瘤、外科手術、移植、生理學等與疾病或紊亂有關的生物學狀態(tài)，都被看作是病情。病理狀態(tài)通常等同于病情。
還可按照病情的不同水平來對其進行分類。本文所使用的疾病或病情水平，是在治療期間或之后，反映疾病發(fā)展或病情及生理應答的任意度量。一般。通常地，疾病或病情將是隨水平或階段發(fā)展的，疾病的影響會變得越來越嚴重。病情水平受樣本細胞病癥的影響。
本文所使用的術語“治療”或“治療方案”，是指那些用于減輕或改變病情的醫(yī)療步驟，例如意在減少或消除疾病的影響或癥狀而采取的藥理的、手術的、飲食的或其他技術的治療過程。治療方案，可以包括處方劑量的一種或多種藥物或外科手術。治療大多有益并且減輕病情，但是很多情況下，治療效果將是不期望的或是產(chǎn)生副作用的。治療效果也將受到該宿主的生理狀態(tài)如年齡、性別、遺傳、體重及其他疾病癥狀等的影響，。
本文所使用的術語“藥理學狀態(tài)”或“藥理學狀況”，是指那些將要，或正在和/或已經(jīng)接受了一種或多種藥物、外科手術等治療的樣本，可能會影響到樣本中一種或更多種核酸的藥理學狀態(tài)，例如，由于藥理學干預而導致核酸的新轉錄、穩(wěn)定和/或不穩(wěn)定。樣本的藥理學狀態(tài)，涉及在藥物治療前、治療中和/治療后的生物學狀態(tài)變化，可以用于診斷或預后，如本文所示。藥物治療或手術后帶來的某些變化，可能與病情有關和/或產(chǎn)生與治療無關的副作用。藥理學狀態(tài)的變化，有可能是治療持續(xù)、類型和處方藥物劑量、依照特定治療過程的程度和/或服用非處方藥的結果。
本文所使用的術語“生物學狀態(tài)”，是指為了分析表達變化而分離和純化的細胞樣本轉錄組(即收集的全部RNA轉錄體)的狀態(tài)。生物學狀態(tài)反映的是樣本中細胞的生理狀態(tài)，根據(jù)形態(tài)學顯型特征或結合檢測轉錄體的方法來測量豐度和/或細胞組成活性。
本文所使用的術語“表達分布型”，是指RNA的相對豐度、DNA或蛋白質的豐度或活性水平。表達分布型可用于表示測量例如轉錄或翻譯的狀態(tài)，可以通過任意一種測量方法，使用任意一種基因芯片、基因陣列、珠粒、多重PCR、定量PCR、run-on陣列、Northern雜交分析、Western雜交分析、蛋白表達、免疫熒光激活細胞分選術(FACS)、酶聯(lián)免疫吸附測定法(ELISA)、化學發(fā)光研究、酶法、增殖研究或其他任何商業(yè)上可利用的測定和/或分析基因表達的方法、設備和系統(tǒng)。
本文所使用的術語樣本的“轉錄狀態(tài)”，包括確認樣本中出現(xiàn)的RNA及其相對豐度，尤其是mRNAs。樣本的整體轉錄，即確認RNA及其相對豐度相結合，在本文中還被稱為轉錄組。通常地，所測量的是樣本中全部RNA的所有相關組分中的重要部分。
本文所使用的術語“模塊化轉錄載體”，是指反映“差異表達基因比例”的轉錄表達數(shù)據(jù)，如每個模塊為至少兩組(健康個體與患者)的轉錄差異表達比例。所述的載體來自于進行比較的兩組樣本。分析步驟的第一步是選擇每個模塊中的特定疾病的轉錄體組，接著是“表達水平”，某種特定疾病的組間比較，提供了各個模塊的差異表達的轉錄列表，不同的疾病產(chǎn)生不同的模塊化轉錄體子集。在表達水平上，可以通過特定疾病的已確定的差異表達基因的平均表達值，估計各單個樣本的各模塊的載體。所述方法會產(chǎn)生單個樣本的模塊化表達載體圖，例如，本文所揭露的模塊圖。所述載體模塊圖表示出來自每個樣本的各個模塊的平均表達水平(代替差異表達基因比例)。
采用本發(fā)明的方法確認和區(qū)分疾病，不僅可以在模塊級，還可以在基因水平，例如，具有相同載體的兩種疾病(轉錄體差異表達比例相同，“極性”相同)，載體的基因組成仍是疾病特異性的。基因水平的表達明顯有利于提高分析的分辨率。
更進一步地，本發(fā)明利用復合轉錄標記物。本發(fā)明所使用的術語“復合轉錄標記物”，是指相對于使用個體基因作為標記物來說，多種基因(模塊子集)的平均表達值(且所述的標記物是疾病特異性的)。由于使用者能使用多元微陣列值，如SLE或本文所揭露的表達載體，來對患者疾病的嚴重程度進行評估，復合轉錄標記物具有唯一性。最重要的是，使用本發(fā)明所提出的復合模塊轉錄標記物，其結果在微陣列交叉平臺中，具有可重復性。因而為滿足監(jiān)管部門要求提供了更大的可靠性。
本發(fā)明中使用的基因表達檢測系統(tǒng)，包括定制基因陣列，其具有針對一種或多種目標疾病的特異的和/或定制的有限的和/或基本數(shù)量的基因。與通常使用的普通平板基因組陣列(pan-genome arrays)不同，本發(fā)明所提供的方法，不僅無需建立特定平臺，便可使用所述的普通平板陣列對基因和基因組進行回顧性分析，更重要地是，本發(fā)明能夠改進定制陣列，使其能夠提供用于分析的優(yōu)化基因小組，不含其他數(shù)千的無關基因。與現(xiàn)有技術相比，本發(fā)明提供的優(yōu)化陣列和模塊的最顯著優(yōu)勢在于，節(jié)約了經(jīng)濟開支(如各個陣列、材料、設備、時間、人員、培訓等方面的費用)，更重要地是，避免了制造用于獲得大量無關數(shù)據(jù)的平板陣列對環(huán)境的影響。本發(fā)明的模塊，首次使得定制陣列設計簡單化，使其在最大化信號到噪聲比(noiseratio)時，能夠提供含有最少量探針的優(yōu)化數(shù)據(jù)。通過減少用于分析的基因總量，可以，如減少為制造獲得大量無關數(shù)據(jù)的平板基因芯片而生產(chǎn)的數(shù)千用于這些平版工藝的昂貴鉑面具。探針有限的本發(fā)明與下述方法結合使用，可以完全避免使用微陣列，例如，數(shù)字光化學陣列、球珠粒陣列、珠粒(如Luminex)、多重PCR、定量PCR、run-on陣列、Northern雜交分析、甚至蛋白表達，如Western雜交分析、2-D和3-D凝膠蛋白表達、MALDI、MALDI-TOF、免疫熒光激活細胞分選術(FACS，細胞表面或細胞內)、酶聯(lián)免疫吸附測定法(ELISA)、化學發(fā)光研究、酶法、增殖研究或其他任何商業(yè)上可利用的測定和/或分析基因表達的方法、設備和系統(tǒng)。
本發(fā)明所使用的術語“分子指紋系統(tǒng)”，是指在不同的細胞或組織、相同細胞或組織的不同亞群體、相同細胞或組織的不同病癥、相同細胞和組織的不同發(fā)育階段、或相同組織的不同細胞群體與其他疾病和/或正常細胞對照之間促進和實施表達的比較分析。有時，可以對來自樣本的正?；蛞吧偷谋磉_數(shù)據(jù)同時或基本同時進行分析，或從已存在的基因陣列表達數(shù)據(jù)庫，如公共數(shù)據(jù)庫(NCBI Gene Expression Omnibus database，NCBI基因表達綜合數(shù)據(jù)庫)中，獲得或選取表達數(shù)據(jù)。
本文所使用的術語“差異表達”，是指測量兩個或多個的樣本(如患病樣本和正常樣本)的細胞組分(如核酸、蛋白、酶活性等)變化。與對照樣相比，細胞組分可能是存在或缺失，上調或下降。使用基因芯片或基因陣列，使核酸的差異基因得到表達，如mRNA或其他RNAs(miRNA、siRNA、hnRNA、rRNA、tRNA等)，可用于區(qū)別細胞類型或核酸。最常見地是，細胞轉錄狀態(tài)的測量是通過以下方法完成的定量逆轉錄(RT)和/或定量逆轉錄多聚酶鏈式反應(RT-PCR)、基因組表達分析、翻譯后分析、基因組DNA修飾、易位、原位雜交技術等。
有些病情可以通過細胞或形態(tài)差別進行確認，尤其是在病情早期。本發(fā)明無需通過檢查細胞自身基因模塊，對特定突變體或者一個或更多基因進行識別，或更重要地是，無需識別在正常生理環(huán)境中(免疫激活、免疫耐受或甚至是免疫無能時)起作用的免疫效應細胞RNA的基因表達?；蛲蛔兛赡軙е禄蚪M表達水平的急劇變化，生物系統(tǒng)通常會通過改變其他基因的表達來補償變化。這些內在補償反應的結果是，許多微擾對可觀察的系統(tǒng)顯型影響不明顯，但是對細胞組分的組成會產(chǎn)生深刻影響。同樣地，基因轉錄體的實際拷貝數(shù)不會增加或減少，但是可能會影響轉錄體的壽命或半衰期，極大提高蛋白產(chǎn)量。本發(fā)明無需檢測實際信息，在一個具體實施例中，檢測的是效應細胞(如白細胞、淋巴細胞和/或其中的亞群體)，而不是單個信息和/或突變體。
本領域的技術人員可以意識到，樣本可以有各種來源，包括單細胞、收集細胞、組織、培養(yǎng)細胞等。在具體的實例中，甚至可能是從尿、血液、唾液、組織或組織活檢樣本等細胞分離到的足量RNA。在特定環(huán)境下，可以從以下來源獲得足量細胞和/或RNA黏膜分泌物、糞便、淚水、血漿、腹水、組織液、硬膜下積液、腦脊液、汗液、或其他體液。核酸的來源，如組織或細胞，可包括組織活檢樣本、一種或更多種細胞群體、培養(yǎng)細胞、細胞克隆、轉化細胞、活組織切片或單細胞。組織來源，包括大腦、肝臟、心臟、腎臟、肺、脾、視網(wǎng)膜、骨、神經(jīng)中樞、淋巴結、內分泌腺、生殖器官、血液、神經(jīng)、血管組織、嗅上皮。
本發(fā)明包括以下基本組成，可單獨或組合使用，即一個或更多數(shù)據(jù)挖掘算法；一個或更多模塊水平分析步驟；表征血液白血細胞的轉錄模塊；使用匯總模塊化數(shù)據(jù)對人類疾病進行分子診斷/預后的多元分析；和/或可視化模塊級數(shù)據(jù)和結果。使用本發(fā)明，可以開發(fā)和分析復合轉錄標記物，所述復合轉錄標記物可更進一步匯總為單一多元評分(multivariate score)。
數(shù)據(jù)采集速率的迅速提高，促進了利用微陣列數(shù)據(jù)和生物醫(yī)學知識的挖掘工具和算法的發(fā)展。以揭露模塊化組織和轉錄系統(tǒng)功能為目的的方法，組成了識別疾病分子信號的有潛力的方法14-16，17。事實上，所述分析能夠通過將個體基因或基因列表水平的微陣列數(shù)據(jù)概念化而轉變對大規(guī)模轉錄研究的理解。
本發(fā)明的發(fā)明人還意識到，當前基于微陣列的研究，分析數(shù)據(jù)時面臨著“臭名昭著的噪聲”的重大挑戰(zhàn)，也就是說，很難解釋數(shù)據(jù)，交叉實驗室或實驗平臺的數(shù)據(jù)不能很好的進行比較。普遍接受的分析微陣列數(shù)據(jù)的方法，始于對不同研究小組的基因差異表達子集的鑒定。其次，使用者試圖使用模式發(fā)現(xiàn)算法和已有科學知識接著將基因列表的結果解釋清楚。
沒有處理交叉平臺的較大變異，本發(fā)明揭露了一種在分析早期著重選擇生物相關基因的方法。簡而言之，所述方法包括確認表征某個特定生物系統(tǒng)的轉錄組分，為此開發(fā)出改進的數(shù)據(jù)挖掘算法，用于分析和選取來自大量收集數(shù)據(jù)中的等同表達基因或轉錄模塊。
在一個實例中，從239個血液白細胞轉錄分布型中獲得了28個轉錄模塊，含有4742個重組探針集。通過文獻分布型證明形成所述模塊的基因的函數(shù)收斂性(Functional convergence)。第二步是基于模塊研究轉錄系統(tǒng)微擾。為闡明此概念，分別獲得健康志愿者和患者的白細胞轉錄分布型，并對其進行比較和分析。通過分析公開發(fā)表的微陣列數(shù)據(jù)集，獲得確認的基因指紋策略。值得注意地是，本發(fā)明的模塊轉錄設備、系統(tǒng)和方法采用現(xiàn)已存在的數(shù)據(jù)進行驗證時，在兩個交叉商業(yè)微陣列平臺間，顯示出較高的重復性。
本發(fā)明包括為進行轉錄系統(tǒng)的模塊化分析而執(zhí)行廣泛適用的兩步微陣列數(shù)據(jù)挖掘策略。本新方法用于表征血液白細胞的轉錄信號，組成臨床相關資料最方便的來源。
在此，有可能基于兩種載體而確認、區(qū)別和/或鑒定兩種疾病，甚至是基于相同載體(+/+)的兩種疾病，如M1.3＝53％，都低于SLE和FLU，由于各載體的組成都可用于區(qū)別所述的兩種疾病。例如，兩種M1.3疾病，雖然轉錄體差異表達的比例和極性都是一致的，但是基因組成仍然是疾病特異性的。結合基因水平和模塊水平分析，顯著提高了分辨率。更進一步地，可以使用2、3、4、5、10、15、20、25、28或更多的模塊來區(qū)別疾病。
材料和方法。處理血樣。將血樣收集于酸式檸檬酸鹽葡萄糖管中(BD動脈血氣針，BD Vacutainer)，立即轉送到Baylor Institute for ImmunologyResearch，Dallas，TX進行處理。通過Ficoll密度梯度離心法從3-4ml血液中分離出外周血單核細胞(PBMCs)，立即在含有β-巰基乙醇(BME)的RLT試劑(Qiagen公司)中溶解細胞，在提取RNA步驟之前儲存于-80℃。
微陣列分析。使用RNeasy試劑盒(Qiagen公司)，根據(jù)產(chǎn)品說明書分離出總RNA，并使用Agilent 2100生物分析儀(Agilent 2100 Bioanalyzer，Agilent公司)來評估RNA完整性。
Affymetrix基因芯片所述微陣列包括在石英晶片上原位合成的短鏈寡核苷酸探針集。根據(jù)制造商(Affymetrix公司)的標準方案進行目標物標記。純化生物素化的cRNA靶序列，并將其與Affymetrix HG-U133A& U133B基因芯片(>44,000探針集)進行雜交。使用Affymetrix共聚焦激光掃描儀(Affymetrix confocal laser scanner)掃描陣列。采用微陣列套件，5.0版分析軟件(MAS 5.0；Affymetrix公司)評估熒光雜交信號，標準化信號，評價檢測信號。使用MAS5.0整體方法統(tǒng)一各基因芯片的目標密度值為500。采用基因表達分析軟件程序GeneSpring 7.1(Agilent公司)進行統(tǒng)計學分析和分層聚類。
Illumina微珠芯片所述微陣列包括固定于3μm珠粒的50mer寡核苷酸探針，且位于玻片表面的微孔內?；贗llumina公司的服務合同處理樣本使其符合要求。使用Illumina RNA擴增試劑盒(Ambion，Austin，TX)制備靶序列。cRNA靶序列與Sentrix HumanRef8微珠芯片(>25,000探針)進行雜交。使用Illumina BeadStation 500進行掃描。采用IlluminaBeadstudio軟件評估雜交熒光信號。
文獻分布型。本研究所采用一種流行的文獻分布型的算法之前已進行過詳細描述18。該方法將有相似關鍵詞的基因聯(lián)系起來。采用非監(jiān)督模式發(fā)現(xiàn)算法——分層聚類，來分析文獻摘要中術語出現(xiàn)的模式。步驟1基因文獻索引，確認相關出版物中的各個基因。步驟2使用文本處理器計算出術語出現(xiàn)頻率。步驟3通過嚴格篩選標準，選擇出相關關鍵詞(如排除所有基因中頻率高或低的術語，僅保留表征少數(shù)基因高出現(xiàn)模式的較少鑒定術語)。步驟4基于出現(xiàn)模式，雙向分層聚類基因及相關關鍵詞，形象表示出存在于基因群體中的函數(shù)關系。
模塊化數(shù)據(jù)挖掘算法。首先，確認超越個體基因水平，有可能表征生物系統(tǒng)的一個或更多轉錄組分。使用新的挖掘算法，提取協(xié)同調節(jié)基因小組，或轉錄模塊，應用于血液白細胞微陣列圖譜(圖1)。使用AffymetrixU133A&B基因芯片(>44,000探針集)做出來自總共239個外周血單核細胞(PBMCs)樣本的基因表達分布型。獲得的轉錄數(shù)據(jù)分成八個試驗組(全身型幼年特發(fā)性關節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植、黑色素瘤和急性感染，包括大腸桿菌、金黃色葡萄球菌、流感病毒A)。排除各組中在所有條件下缺乏標記的轉錄體。剩余基因通過分層聚類分成30個組(從集群C1到集群C30)。將各基因的集群分配記錄于表格中，比較所有基因的分配模式。使用迭代程序來選擇模塊，從所有研究組中屬于相同集群的最大的基因小組開始(如，在8個試驗組中發(fā)現(xiàn)8個相同集群的基因)。從核心對照模式中進行擴增選擇，包括7/8，6/8和5/8相匹配的基因。選擇基因小組的結果形成了轉錄模塊，并從選擇庫中撤回。重復開始選擇第二大組基因，逐漸降低嚴格水平。通過所述分析確認了5348個分配于28個模塊的轉錄體(提供完整列表作為輔助材料)。分別給各模塊指定一個唯一標識符，以表明輪數(shù)和選擇順序(如M3.1是在第三輪選擇種確認的第一個模塊)。
模塊清楚的顯示出“轉錄行為”。一般都假定共表達基因在功能上是相互聯(lián)系的。“牽連犯罪”的概念，特指在許多樣本中，基因強制性服從某種復雜表達模式。本發(fā)明人發(fā)現(xiàn)了轉錄模塊形式一致的生物單位，因此預測在獨立樣本組中將會保存初始數(shù)據(jù)集中確認的共表達特性。從21名健康志愿者血液中分離PBMCs獲得數(shù)據(jù)。所述樣本并不用于上述的模塊選擇過程。
圖2所示為4個不同模塊的基因表達分布型(圖2M1.2、M1.7、M2.11及M2.1)。如圖2所示，每條線代表多個樣本(在x-軸上有21個樣本)中的個體基因表達水平(y-軸)。在此例中，基因表達的差異表現(xiàn)出“健康”個體間的個體變異。各個模塊中基因的“轉錄行為”顯示一致。事實上，在所有的樣本中，基因表達的變化都表現(xiàn)為連續(xù)的(對某些樣本來說，所有基因的表達都提高而形成一個高峰，而其他所有基因的水平都較低形成傾角)。重要地是，個體間的差異隨著形成的高峰和傾角在不同樣本(M1.2，M2.11及M2.1)中表現(xiàn)為模塊特異性。更進一步地，各模塊的變化幅度也表征出，M1.2和M2.11的表達水平變化比M2.1，尤其是M1.7更大。因而，我們發(fā)現(xiàn)轉錄模塊組成獨立于生物學變量。
轉錄模塊的功能表征。接著，在功能水平表征模塊。利用文本挖掘的方法從收集各基因的生物醫(yī)學文獻中提取關鍵詞(參見文獻18)。與4個分析的模塊有關的關鍵詞的分類明顯不同(圖3)。以下為可能與特定模塊有關的關鍵詞列表。
對M1.2具有高度特異性的關鍵詞，包括血小板、聚集或血栓癥，與其有關的基因如ITGA2B(整合素α2b、血小板糖蛋白IIb)，PF4(血小板因子4)，SELP(選擇素P)和GP6(血小板糖蛋白6)。
對M1.3具有高度特異性的關鍵詞，包括B-細胞、免疫球蛋白或IgG，與其有關的基因如CD19、CD22、CD72A、BLNK(B細胞接頭)、BLK(BB淋巴細胞酪氨酸激酶)和PAX5(配對的盒裝基因，paired box gene 5，一種B-細胞譜系特異性激活劑)。
對M1.5具有高度特異性的關鍵詞，包括單核細胞、樹突狀、CD14或Toll樣、與其有關的基因如MYD88(髓樣分化因子初次應答基因88)、CD86、TLR2(Toll樣受體2)、LILRB2(白細胞免疫球蛋白樣受體B2)和CD163。
對M3.1具有高度特異性的關鍵詞，包括干擾素(IFN)、IFN-α、抗病毒或ISRE及其有關的基因如STAT1(信號轉導和轉錄激活因子1)、CXCL10(CXC趨化因子配體10、IP-10)、OAS2(寡腺苷酸合成酶2)以及MX2(粘病毒抗性2)。
術語出現(xiàn)的對照模式，指示各模塊功能顯著一致。從文獻中提取出的所有已確定的模塊信息，允許在轉錄水平對PBMC系統(tǒng)進行全面的功能表征。已確認的28個樣本PBMC各轉錄模塊的相關功能描述，如表2所示。
表228個轉錄模塊的完整功能評估基于模塊的微陣列數(shù)據(jù)挖掘策略。來自于“傳統(tǒng)的”微陣列分析的結果有著“聲明狼籍的噪聲”并且很難解釋。普遍接受的微陣列數(shù)據(jù)分析方法，包括三個基本步驟1)使用統(tǒng)計檢驗在研究組間選擇差異表達的基因；2)應用模式發(fā)現(xiàn)算法在結果基因列表中識別信號；以及3)使用從文獻或本體數(shù)據(jù)庫中獲取的知識來解釋數(shù)據(jù)。
本發(fā)明所使用的新的微陣列數(shù)據(jù)挖掘策略，強調在分析初期就選擇與生物相關的轉錄體。第一步實施的是使用以上所述的模塊挖掘算法結合深入表征各轉錄模塊的功能挖掘工具(圖4頂欄，步驟1)。分析并沒有考慮各組間的基因表達水平的差異，而是將重點放在由于生物學變異而產(chǎn)生的復雜基因表達模式(如患者群體中的個體間差異)。在定義與特定生物學系統(tǒng)相關的轉錄組分后，分析的第二步，包括通過比較不同的研究組來分析基因表達變化(圖4底欄，步驟2)。獨立進行各模塊的組間比較分析?；虮磉_的模塊級變化比例滿足顯著性標準(如圖5中的餅圖或圖6中的點所示)。特別地，在進行數(shù)以千計的試驗時，在模塊級上的比較可以避免“隨機”收集基因產(chǎn)生的“噪聲”。
在人類疾病中，模塊化PBMC轉錄分布型的微擾。為闡明上述微陣列數(shù)據(jù)挖掘策略的第二步(圖4)，從兩個小兒科病人群體(18名患系統(tǒng)性紅斑狼瘡(SLE)的兒童和16名急性流感病毒A感染的兒童中)獲得PBMC樣本基因表達數(shù)據(jù)，并進行比較和分析。各患者群都與各自的對照組(健康志愿者，分別取11份作為SLE組的對照，10份作為流感組的對照)進行比較。如圖4所示的分析圖解，在患者組和健康組間進行各個體模塊的統(tǒng)計學組間比較，并測量各模塊中發(fā)生顯著變化的基因比例(圖5)。統(tǒng)計學組間比較方法允許使用者集中分析清楚界定的含有最少量“噪聲”的基因組，從而鑒定其生物學意義。圖4為表示所述結果的關鍵圖。
所述結果表明(1)在M3.1(“干擾素相關”)中，較大比例的基因在Flu組和SLE組中都達到了顯著水平(分別為84％和94％)。觀察證實了對SLE患者的早期治療19，并確定了在急性流感感染者中存在干擾素信號。(2)在M1.3(“B-細胞相關”)中，相當比例的基因在兩組中都有顯著變化(53％)，兩個列表中有50％是重疊的。此時，與健康組相比，患者的基因一致低表達。(3)還發(fā)現(xiàn)兩種疾病的模塊差異。在模塊1.1中，發(fā)生顯著變化的基因比例在SLE患者中達到了39％，而在FIu患者中僅為7％，在0.05的顯著性水平，與預期僅偶然發(fā)生差異表達的基因比例相接近。有趣地是，所述模塊基本上專有地由編碼與漿細胞有關的免疫球蛋白鏈的基因組成。然而，所述模塊在基因表達水平和模式(未示出)上，都與B-細胞相關的模塊(M1.3)明顯不同。(4)如模塊M1.5所示，單個模塊的基因水平分析能夠用于進一步區(qū)別兩種疾病。對于M1.3來說也一樣，盡管在模塊級沒有差異(圖453％的轉錄體低表達)，在Flu組與SLE組間存在的差異能夠在基因水平識別(在M1.3中，僅有51％的轉錄本低表達，在兩個疾病組中普遍存在)。所述實例表明使用模塊結構對微陣列結果進行流線型分析及解釋。
基因表達的圖在模塊級的變化。數(shù)據(jù)可視化對于解釋復雜的數(shù)據(jù)集來說，極為重要，我們正在探索提供一種對發(fā)生在模塊級變化的全面圖解。28個PBMC轉錄模塊表示的由不同疾病導致的基因表達水平的變化(圖6)。每個疾病組與其各自的由相配年齡和性別的健康志愿者組成的對照組進行比較(18名SLE患者、16名急性流感感染者、16名轉移性黑色素瘤患者和16名接受免疫抑制藥物治療的肝移植受者與由10到11名健康個體組成的對照組相比較)。模塊級數(shù)據(jù)通過排列于網(wǎng)格中的點示出，每個位置與不同的模塊相對應(見表1對各模塊功能的注釋)。
點的亮度表明各模塊中發(fā)生顯著變化的基因比例。點的顏色表明變化的極性(紅色為過表達的基因比例；藍色為低表達的基因比例；紫色為模塊中顯著上調和低表達的基因比例，但是尚未觀察到紫色)。所述表示允許對PBMC轉錄系統(tǒng)的微擾進行快速評估。每種疾病都會生成所述的“模塊圖”。比較4幅圖，可發(fā)現(xiàn)疾病由唯一的模塊組合表征。實際上，單獨用M1.1和M1.2的結果，就足夠鑒定所有四種疾病(M1.1/M1.2SLE＝+/+；FLU＝0/O；黑色素瘤＝-/+；移植＝-/-)。M3.2中的大量基因(“炎癥”)在所有疾病中都過表達(尤其是在移植組中)，而M3.1中的基因(干擾素)在SLE患者、流感感染者、還有部分移植受者中為過表達?！昂颂求w蛋白”模塊基因(M1.7和M2.4)在SLE和Flu組中都低表達。最近發(fā)現(xiàn)，在SLE患者中，所述基因的表達水平與疾病活動為負相關(Bennett等人，已提交)。在SLE患者和接受針對T-細胞免疫抑制藥物治療的移植受者的淋巴細胞中，M2.8包括T-細胞轉錄體低表達。
有趣地是，各模塊的差異表達基因主要都是低表達或是過表達的(圖5和圖6)。然而，模塊的選擇完全基于基因表達分布型的相似性，而不是組間的表達水平變化。在各表示模塊化數(shù)據(jù)功能相關性的模塊中，基因表達的變化出現(xiàn)高極化現(xiàn)象。因此，本發(fā)明通過對患者血液白細胞轉錄分布型的模塊化分析就可進行疾病指紋識別。
在公開的數(shù)據(jù)集中確認PBMC模塊。其次，以“第三方”數(shù)據(jù)來測試上述的PBMC轉錄模塊的有效性。用Connolly等研究的運動對人PBMCs中基因表達的效應20進行測試。
簡而言之，從15名健康人體中分三次取樣(在運動前、恒定負荷循環(huán)測力運動30分鐘后及運動結束后約1小時)。使用Affymetrix U133A基因芯片，測出3類受試者各5個RNA庫的轉錄分布型。從基因表達綜合數(shù)據(jù)庫網(wǎng)站上21下載原始數(shù)據(jù)，并以模塊為基礎，對基因表達的變化進行分析。圖7為模塊M1.1(“漿細胞”)、M1.7(“核糖體蛋白質”)及M2.1(“細胞毒性細胞”)的轉錄分布型。所述各模塊的基因轉錄行為明顯不同。有趣地是，發(fā)現(xiàn)受試者庫(M1.1)、實驗條件(M2.1)或無差異(M1.7)之間的差別。這些數(shù)據(jù)清楚顯示，運動后細胞毒性細胞(cytotoxic cell)相關基因(M2.1)的表達量立刻增加，休息后，又接著降低到基線水平。該發(fā)現(xiàn)與在慣于久坐的受試者運動后觀察到的自然殺傷細胞循環(huán)提高現(xiàn)象一致22，23。Connolly等已將包括在M2.1中的某些基因列入“炎癥反應”列，但是并未將其與細胞組分可能發(fā)生的變化相聯(lián)系。在運動后，發(fā)現(xiàn)屬于“炎癥”模塊(M3.2，M3.3)的基因很少發(fā)生變化，盡管在很多疾病中，組成所述模塊的基因表達水平都有所提高(Chaussabel等人，已提交)。然而，有趣地是，在IV期黑色素瘤患者和移植受者中，免疫抑制分子特定過表達(Chaussabel等人，已提交)的現(xiàn)象，僅是在運動后的瞬時增加(未示出，M1.4；如TCF8、CREM、RGS1、TNFAIP3)。
綜合分析結果表明，所提出的模塊挖掘策略在其他獨立研究小組獲得的數(shù)據(jù)中具有效性。使用本發(fā)明，模塊化轉錄數(shù)據(jù)在微陣列交叉平臺中具有重復性。
首先，將使用兩個商業(yè)化微陣列平臺獲得的模塊化轉錄分布型作比較。從4名健康志愿者和10名肝移植受者提供的14份樣本，分離得到PBMCs。起始于相同來源的總RNA，獨立地生成靶點，并使用Affymetrix LJ133基因芯片(Baylor免疫研究所)和Illumina Human Ref8微珠芯片(于Illumina服務中心)進行分析。在兩種微陣列技術之間存在著根本的區(qū)別(參見詳細描述的方法)。將各制造商提供的探針I(yè)Ds轉化為一種唯一ID(NCBIEntrez檢索系統(tǒng)基因ID)，用于與基因表達分布型相匹配。共享獲得的基因小組數(shù)據(jù)，如圖8所示，為模塊M1.2(“血小板”)，M3.1(“干擾素”)和M3.2(“炎癥”)。由Illumina微珠芯片獲得的數(shù)據(jù)做出的圖譜表明，各模塊內的基因都有較高水平的共表達。所述觀察有重大意義，因為使用Affymetrix基因芯片獲得的基于基因表達的數(shù)據(jù)，對轉錄模塊的選擇是專有的。更進一步地，在微陣列交叉平臺中，各模塊的平均基因表達值具有高度重復性(圖8)。
所述結果表明，模塊轉錄信號穩(wěn)定，并清楚顯示，模塊級的分析，對在不同位點和不同平臺獲得的微陣列數(shù)據(jù)，具有可重復性。
對于生物系統(tǒng)來說，微陣列基因表達數(shù)據(jù)形成了一幅全面但是卻紊亂的畫面?；谖㈥嚵械难芯浚媾R著三重挑戰(zhàn)(1)噪聲，(2)數(shù)據(jù)解釋，以及(3)重復性。對于噪聲來說，本發(fā)明已成功的比較了采用現(xiàn)有技術的方法得到的恒定結果中所涉及的成千上萬的基因，包括很大比例的噪聲24。對于數(shù)據(jù)解釋來說，本發(fā)明克服了信息過載的問題。實際上，解釋微陣列數(shù)據(jù)時，通常要求研究人員檢查實驗數(shù)據(jù)，在已有的生物醫(yī)學知識中的基因組范圍內13。更擾人地是，由于對噪聲數(shù)據(jù)的過度解釋而產(chǎn)生欺騙性結果的可能性7。最后，對于重復性，在資料中詳細記載的已有技術中存在的關鍵問題是，在不同試驗室和交叉平臺中獲得的微陣列結果重復性較差，至今仍然是一個主要擾人的主要難題6，7，10-12。
由于一些原因，主流微陣列分析策略在解決該三重問題上，僅取得了有限的成功。首先，由于普遍認為統(tǒng)計檢驗是分析初始步驟的先決條件，其結果是，僅在產(chǎn)生的差異表達基因列表中進行一次生物學考慮。然而，從成千上萬的變量測試中得到數(shù)據(jù)子集，將總是含有噪聲，因此非常難解釋。本發(fā)明提供的系統(tǒng)和方法，在確定模塊特征時，就從細胞和分子生物學的角度考慮其中的細胞。本發(fā)明的第一步，考慮的是在進行真正的第一步分析時，系統(tǒng)的生物學特性，因而選擇在數(shù)百個樣本中協(xié)同表達的功能相關的基因小組。在含有極富生物學意義的基因的模塊化數(shù)據(jù)集中應用統(tǒng)計檢驗。該方法的另一個有益之處在于，通過使用轉錄模塊作為基本單位，超越了基因水平分析。轉錄模塊組成分析發(fā)生在定義的生物系統(tǒng)中的微擾的框架。所述模塊化數(shù)據(jù)格式有利于簡單化解釋模塊研究。然而，要在廣泛的生物學變異條件下初步表征各實驗系統(tǒng)，如不同的實驗條件、個體差異、以及生物材料的成本或獲取途徑，都可能成為限制。
有趣的是，已證明經(jīng)模塊水平分析的數(shù)據(jù)極其穩(wěn)定，正如在兩種商業(yè)化微陣列平臺中表現(xiàn)出的良好重現(xiàn)性。
更進一步地，對PBMC轉錄模塊的多元分析，導致“基因組評分”(genomic score)的建立，可對系統(tǒng)性紅斑狼瘡患者的疾病嚴重程度進行準確評估(Bennett等，已提交)。確定可靠的血液白細胞轉錄標記物，組成了微陣列在臨床設置中應用的重要步驟。
處理由多種類型的細胞形成的樣本，增加了分析微陣列基因表達數(shù)據(jù)的復雜水平。實際上，對轉錄差異基因表達水平的解釋，不僅可以從轉錄活性變化的角度，而且還能從細胞組分變化的角度。獲得的分析PBMC樣本的模塊化信號所反映的事實，允許我們從與活化作用有關的組分(包括與干擾素相關的基因(M3.1)，與炎癥相關的基因(M3.2)，或與發(fā)信號相關的基因(M2.11))中鑒定細胞組分(包括與血小板相關的基因M1.2，與紅血球相關的基因M2.3或與T-細胞相關的基因M2.8)。此類考慮與基于患者的研究有關，因為大量微陣列分析是在涉及多細胞的樣本中進行。
通過Affymetrix和Illumina平臺獲得的模塊化表達數(shù)據(jù)，具有高度可比性(圖9；移植組M1.2，M3.1及M3.2的皮爾森相關系數(shù)，分別為R2＝0.83、0.98及0.93，p<0.0001)。綜合考慮結果表明，模塊化轉錄數(shù)據(jù)在微陣列交叉平臺中能夠重復。該發(fā)現(xiàn)具有重要意義，因為其表明了“模塊化微陣列評分”(modular microarray scores)能夠用于評估使用獨立的微陣列平臺的患者的疾病嚴重程度。
本發(fā)明所描述的模塊級挖掘策略，可以廣泛應用于生物系統(tǒng)領域，尤其是適用于分析其他臨床相關樣本，如瘤或實體器官活檢。
從表3中所提供的一個或更多個模塊和/或一個或更多個基因中可以獲得載體的表達水平。此外，對于本領域的普通技術人員來說，依靠疾病表達分布型和使用本發(fā)明的方法，可以開發(fā)模塊并進一步提煉出模塊及模塊中的基因，是顯而易見的。例如，依靠要求的特異性水平、數(shù)據(jù)集數(shù)量、患者數(shù)量等，在某種特定疾病中，包括不同差異表達基因比例的一個或更多不同的新模塊，可以應用于基于新的數(shù)據(jù)開發(fā)新模塊，形成和組織基于新轉錄體子集的陣列，從而定義代表平均表達水平的新載體。
表1、表2及表3為長表格。本專利申請中包括長表格部分。所述表格副本可以自美國專利商標局網(wǎng)站以電子形式獲得。所述表格的電子副本還可以美國專利商標局網(wǎng)站在37CFR1.19(b)(3)所闡述的請求和付費后就可以獲得，該電子副本在該EFS遞交時附帶，并且表1、表2和表3均以其全文引入作為參考。
應當理解本文所描述的特定實施例顯示為說明的方式且不作為對本發(fā)明的限制。在不偏離本發(fā)明范圍的情況下，本發(fā)明的主要特征可以應用于各種實施方式中。本領域內的技術人員將會認識到或能夠確認，僅僅使用常規(guī)實驗，眾多的等同物都能應用于本文所描述的具體方法中。這樣的等同物被認為是在本發(fā)明的范圍內，并且被權利要求所覆蓋。
本說明書中所提到的所有出版物或專利申請都指示了本發(fā)明適合的本領域技術人員的技術水平。所有出版物或專利申請都在此都納入?yún)⒖?，其引入程度如同各個單獨的出版物或專利申請被具體地和獨立地引入作為參考。
在權利要求中，將所有連接短語，如“包含”、“包括”、“負有”、“具有”、“含有”、“涉及”等均理解為開放式，即，意味著包括但不限于。只有連接短語“由......組成”及“基本由......組成”分別為封閉或半封閉式的連接短語。
根據(jù)本發(fā)明公開的內容，本文所公開和要求保護的全部組合物和/或方法無需過度實驗即可制備和實施。由于本發(fā)明的所述組合物和方法已經(jīng)已優(yōu)選實施方式進行了描述，可以應用于所述組合物和/或方法的各種變化，以及在不偏離本發(fā)明的構思、精神和范圍的情況下所述方法在步驟上或步驟的順序上的各種變化，對于所述領域技術人員來說將是顯然的。更加具體地，在能產(chǎn)生相同或類似的結果時，化學上和生理上相關的某些試劑可以代替本文所描述的試劑，這是顯然的。所有對于所屬領域技術人員是顯然的這樣的類似的替代物和修飾，均被認為是在如所附權利要求所定義的本發(fā)明的精神、范圍和構思之內。
參考文獻
1.Golub，T.R.et al.Molecular classification of cancerclass discovery andclass prediction by gene expression monitoring.Science 286，531-7(1999).
2.Alizadeh，A.A.et al.Distincttypes of diffuse large B-celllymphomaidentified by gene expression profiling.Nature 403，503-11(2000).
3.Garber，K.Genomic medicine.Gene expression tests foretell breastcancer′s future.Science 303，1754-5(2004).
4.van de Vij ver，MJ.et al.A gene-expression signature as a predictor ofsurvivalin breast cancer.N Engl J Med 347，1999-2009(2002).
5.Pascual，V.，Allantaz，F(xiàn).，Arce，E.，Punaro，M.& Banchereau，J.Role ofnterleukin-1(IL-I)in the pathogenesis of systemic onset juvenile idiopathicarthritis and clinical response to IL-I blockade.J Exp Med 201，1479-86(2005).
6.Michiels，S.，Koscielny，S.& Hill，C.Prediction of cancer outcome withmicroarraysa multiple random validation strategy.Lancet 365，488-92(2005).
7.Ioannidis，J.P.Microarrays and molecular researchnoise discovery？Lancet 365，454-5(2005).
8.Jarvinen，A.K.et al.Are datafrom different gene expression microarrayplatforms comparable？Genomics 83，1164-8(2004).
9.Tan，P.K.et al.Evaluation of gene expression measurements fromcommercial microarray platforms.Nucleic Acids Res 31，5676-84(2003).
10.Bammler，T.et al.Standardizing global gene expression analysisbetween laboratories and across platforms.Nat Methods 2，351-6(2005).
11.Irizarry，R.A.et al.Multiple-laboratory comparison of microarrayplatforms.Nat Me/hods 2，345-50(2005).
12.Larkin，J.E.，F(xiàn)rank，B.C.，Gavras，H.，Sultana，R.& Quackenbush，J.Independence and reproducibility across microarray platforms.NatMethods 2，337-44(2005).
13.Chaussabel，D.Biomedical literature miningchallenges and solutions inthe′omics′era.Am J Pharmacogenomics 4，383-93(2004).
14.Rhodes，D.R.et al.Mining for regulatory programs in the cancertranscriptome.Nat Genet 37，579-83(2005).
15.Segal，E.，F(xiàn)riedman，N.，Koller，D.& Regev，A.A module map showingconditional activity of expression modules in cancer.Nat Genet 36，1090-8(2004).
16.Mootha，V.K.et al.PGC-I alpha-responsive genes involved in oxidativephosphorylation are coordinately downregulated in human diabetes.NatGenet 34，267-73(2003).
17.Segal，E.，F(xiàn)riedman，N.，Kaminski，N.，Regev，A.& Koller，D.Fromsignatures to modelsunderstanding cancer using microarrays.Nat Genet37 Suppl，S38-45(2005).
18.Chaussabel，D.& Sher，A.Mining microarray expression data byliterature profiling.Genome Biol 3，RESEARCH0055(2002).
19.Bennett，L.et al.Interferon and granulopoiesis signatures in systemiclupus erythematosus blood.J Exp Med 197，711-23(2003).
20.Connolly，P.H.et al.Effects of exercise on gene expression in humanperipheral blood mononuclear cells.JAppl Physiol 91，1461-9(2004).
21.Barrett，T.et al.NCBI GEOmining millions of expression profiles—database and tools.Nlcleic Acids Res 33，D562-6(2005).
22.Ogawa，K.，Oka，J.，Yama kawa，J.& Hignchi，M.A single bout ofexercise influences natural killer cells in elderly women，especially thosewho are habitually active.J Strength Cond Res 19，45-50(2005).
23.Woods，J.A.，Evans，J.K.，Wolters，B.W.，Ceddia，M.A.& McAuley，E.Effects of maximal exercise on natural killer(NK)cell cytotoxicity andresponsiveness to interferon-alpha in the young and old.J Gerontol A BiolSci Med Sci 53，B430-7(1998).
24.Tuma，R.S.Efforts aimed at reducing noise，data overload inmicroarrays.J Natl Cancer Inst 97，1173-5(2005).
權利要求
1.一種用于診斷疾病或病癥的方法，所述方法包括以下步驟
獲得來自患者的轉錄組；
基于指示某種疾病或病癥的一個或更多轉錄模塊，分析轉錄組；以及
基于轉錄組中的基因在一個或更多轉錄模塊中的存在、缺失或表達水平，確認患者的疾病或病癥。
2.權利要求1的方法，其中所述的轉錄模塊是通過以下方法獲得的
通過以下方式迭代地選擇用于一個或更多轉錄模塊的基因表達值
從與每一種疾病或病癥相匹配的每一集群中選擇用于所述模塊的基因；
從所述分析中排除所選擇的基因；和
重復所述基因表達值的選擇過程，所述選擇是用于集群于所述疾病或病癥的子部分的基因；和
迭代地重復用于每一集群模塊的形成，直到用完所有的基因集群。
3.權利要求1的方法，其中所述的集群選自表達值集群、關鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉錄集群、復制集群、細胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細胞集群、B細胞集群、細胞因子集群、淋巴因子集群、熱休克集群及其組合。
4.權利要求1的方法，其中所述的一種或多種疾病或病癥選自以下的一種或多種病癥系統(tǒng)性幼年特發(fā)性關節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者、細菌性感染患者如大腸桿菌、金黃色葡萄球菌感染患者，病毒感染如流感病毒A感染，及其組合。
5.權利要求1的方法，其中所述的一種或多種疾病或病癥選自生物恐怖試劑的感染。
6.權利要求1的方法，其中所述的細胞包括外周血單核細胞(PBMCs)、血細胞、胎兒細胞、腹膜細胞、實體器官活檢物、切除的腫瘤、初級細胞、細胞系、細胞克隆及其組合。
7.權利要求1的方法，其中所述的細胞包括單個細胞、細胞的集合、組織、細胞培養(yǎng)物、尿液和血液。
8.權利要求1的方法，其中所述的細胞包括組織活檢物、一種或多種分選的細胞群體、細胞培養(yǎng)物、細胞克隆、轉化細胞、活檢組織或單細胞。
9.權利要求1的方法，其中所述的細胞包括腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結、內分泌腺、生殖器官、血液、神經(jīng)、血管組織以及嗅覺上皮細胞。
10.權利要求1的方法，其中所述的獲得個體基因表達水平的步驟是使用探針陣列、PCR、定量PCR、珠粒陣列及其組合來進行的。
11.權利要求1的方法，其中所述的獲得個體基因表達水平的步驟是使用核酸在固體支持物上的雜交來進行的。
12.權利要求1的方法，其中所述的獲得個體基因表達水平的步驟是使用以從細胞中提取mRNA作為模板的cDNA來進行的。
13.權利要求1的方法，其中所述的模塊能夠區(qū)分自身免疫疾病、病毒感染細菌感染、癌癥和移植排斥。
14.一種用于鑒定轉錄模塊的方法，所述方法包括以下步驟
獲得細胞的個體基因表達水平，所述細胞是從患有疾病或病癥的一名或多名患者獲得的；
記錄劃分為集群的表格中的每一基因的表達值；
通過以下方式迭代選擇一個或更多轉錄模塊的基因表達值
從與每一疾病或病癥相匹配的每一集群中為所述模塊選擇基因；
從所述分析中排除所選擇的基因；和
重復所述基因表達值的選擇過程，所述選擇是用于集群于所述疾病或病癥的子部分的基因；以及
迭代地重復用于每一集群模塊的形成，直到用完所有的基因集群。
15.權利要求14的方法，其中所述的集群選自表達值集群、關鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉錄集群、復制集群、細胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細胞集群、B細胞集群、細胞因子集群、淋巴因子集群、熱休克集群及其組合。
16.權利要求14的方法，其中所述的一種或多種疾病或病癥是選自以下的一種或多種病癥系統(tǒng)性幼年特發(fā)性關節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者、細菌性感染患者如大腸桿菌、金黃色葡萄球菌感染患者，病毒感染如流感病毒A感染，及其組合。
17.權利要求14的方法，其中所述的一種或多種疾病或病癥選自生物恐怖試劑的感染。
18.權利要求14的方法，其中所述的細胞包括外周血單核細胞(PBMCs)、血細胞、胎兒細胞、腹膜細胞、實體器官活檢物、切除的腫瘤，初級細胞、細胞系、細胞克隆及其組合。
19.權利要求14的方法，其中所述的細胞包括單個細胞、細胞的集合、組織、細胞培養(yǎng)物、尿液和血液。
20.權利要求14的方法，其中所述的細胞包括組織活檢物、一種或多種分選的細胞群體、細胞培養(yǎng)物、細胞克隆、轉化細胞、活檢組織或單細胞。
21.權利要求14的方法，其中所述的細胞包括腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結、內分泌腺、生殖器官、血液、神經(jīng)、血管組織以及嗅覺上皮細胞。
22.權利要求14的方法，其中所述的獲得個體基因表達水平的步驟是使用寡核苷酸陣列來進行的。
23.權利要求14的方法，其中所述的獲得個體基因表達水平的步驟是使用在固體支持物上的核酸的雜交來進行的。
24.權利要求14的方法，其中所述的獲得個體基因表達水平的步驟是使用以從細胞中提取的mRNA作為模板的cDNA來進行的。
25.權利要求14的方法，其中所述的一種或多種轉錄模塊選自
及其組合，其中將樣本中的基因表達水平繪制在所述模塊中，以確定疾病或病癥。
26.一種疾病分析工具，所述疾病分析工具包括一種或多種選自如下的基因模塊:
并且所述的基因模塊足以區(qū)分自身免疫疾病、病毒感染細菌感染、癌癥以及移植排斥。
27.權利要求26的方法，其中所述的模塊用于區(qū)分系統(tǒng)性紅斑狼瘡、流感病毒感染、黑色素瘤以及移植排斥。
28.權利要求26的方法，其中所述被選擇的模塊是選自
漿細胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；
并且所述模塊通過在這兩個模塊中具有陽性載體來用于鑒定系統(tǒng)性紅斑狼瘡。
29.權利要求26的方法，其中所述被選擇的模塊選自
漿細胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；
并且所述模塊通過在這兩個模塊中既不具有陽性載體也不具有陰性載體來用于鑒定流感病毒感染。
30.權利要求26的方法，其中所述被選擇的模塊選自
漿細胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；
并且所述模塊通過具有漿細胞標記物的陰性載體和血小板標記物的陽性載體來用于鑒定黑色素瘤。
31.權利要求26的方法，其中所述被選擇的模塊是選自
漿細胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；
并且所述模塊是通過在這兩個模塊中具有陰性載體來用于鑒定移植排斥。
32.權利要求26的方法，其中所述被選擇的模塊是選自
漿細胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細胞標記物CD38的基因；和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因；
并且所述模塊是通過在這兩個模塊中具有陰性載體來用于鑒定流感病毒感染。
33.一種預測基因陣列，所述基因陣列包括
定制的基因陣列，所述的定制基因陣列包含代表一個或更多轉錄模塊的基因組合，其中與所述定制的基因陣列相接觸的患者轉錄組，是與所述轉錄模塊相匹配的一種或多種疾病或病癥的預測。
34.權利要求33的陣列，其中所述患者對所述疾病或病癥的免疫反應是基于轉錄組基因的存在、缺失或表達水平來確定的，且該轉錄組是基于與特定疾病或病癥相關的轉錄模塊。
35.權利要求33的陣列，其中所述的陣列能夠區(qū)分自身免疫疾病、病毒感染、細菌感染、癌癥以及移植排斥。
36.權利要求33的陣列，其中將所述陣列組織成兩個或更多的轉錄模塊。
37.權利要求33的陣列，其中將所述陣列組織成三個轉錄模塊，所述的轉錄模塊含有一個或更多選自如下的子模
并且包含特異性地結合所述模塊中的一個或更多基因的探針。
38.一種基因分析工具，所述工具包括一個或更多基因模塊，所述基因模塊選自下列左欄中的一組和右欄中的一組的組合
及其組合，其中將模塊中樣本的基因的表達水平顯示從而診斷疾病或病癥。
39.一種用于選擇臨床試驗的患者的方法，所述方法包括以下步驟
獲得預期患者的轉錄組；
將所述轉錄組與指示在所述臨床試驗中被治療的疾病或病癥的一個或更多轉錄模塊相比較；以及
基于在所述患者的轉錄組中表達的一個或更多基因的存在、缺失或水平，來確定患者是用于所述臨床試驗的好的候選者的可能性，所述患者的轉錄組是在與臨床試驗的成功相關的一個或更多轉錄模塊中。
40.權利要求39的方法，其中每一模塊包含與樣本中轉錄體比例總和相關的載體。
41.權利要求39的方法，其中每一模塊均包含載體，并且其中一種或多種疾病或病癥與所述的一種或多種載體相聯(lián)系。
42.權利要求39的方法，其中每一模塊均包含與每一模塊中的一個或更多基因表達水平相關的載體。
43.權利要求39的方法，其中每一模塊均包含載體并且所述模塊選自
漿細胞編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)，以及漿細胞標記物CD38的基因；以及
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)，以及衍生血小板免疫介體如PPBP(前血小板堿性蛋白)及PF4(血小板因子4)的基因；
并且所述模塊是用于區(qū)分系統(tǒng)性紅斑狼瘡，通過在這兩個模塊中具有陽性載體；流感病毒感染，通過在這兩個模塊中既不具有陽性載體也不具有陰性載體；黑色素瘤，通過具有用于漿細胞標記物的陰性載體和用于血小板標記物的陽性載體；通過在這兩個模塊中具有陰性載體來識別移植排斥。
44.一種固定于固體支持物的核酸探針陣列，所述核酸探針陣列包括來自于一個或更多模塊的足夠的探針，以提供足夠比例的差異表達的基因，從而區(qū)分一種或多種疾病，所述探針選自表1、2、3或其組合。
45.權利要求44的核酸探針陣列，其中數(shù)據(jù)獲得自與固定于固體支持物的核酸探針相接觸的樣本，該數(shù)據(jù)由選自如下的模塊來分類
其中在所述第一探針組中的探針具有分別對應于一種或多種疾病的一個或更多詢問位點。
46.權利要求44的陣列，其中所述的陣列具有100-100,000個探針。
47.權利要求44的陣列，其中每一探針為9-21個核苷酸。
48.權利要求44的陣列，其中在所述第二、三、四探針組中的探針設置有詢問位點。
49.一種固定于固體支持物上的核酸探針陣列，所述的陣列包括至少一對來自于第一探針組和第二探針組的探針，每組均包含有一個或更多個表1、2、3或其組合所定義的探針。
50.權利要求49的陣列，其中所述的探針組提供在微陣列交叉平臺中保持一致的復合轉錄標記物載體。
51.權利要求49的陣列，其中所述的探針組提供在微陣列交叉平臺中保持一致的復合轉錄標記物載體并且總體顯示為滿足監(jiān)管部門批準的要求。
全文摘要
本發(fā)明包括一種開發(fā)和使用轉錄模塊的設備、系統(tǒng)及方法，通過以下步驟實現(xiàn)獲得來自一名或多名某種疾病或病癥患者細胞的個體基因表達水平；在已分集群的表格中記錄各基因的表達值；從與各疾病或病癥相匹配的各集群中選擇基因模塊，迭代選擇一個或更多轉錄模塊的基因表達值；通過分析排除選擇的基因；重復基因表達值選擇集群于疾病或病癥亞組分的基因的過程；重復迭代程序形成模塊。
文檔編號C12Q1/68GK101374964SQ200680052633
公開日2009年2月25日申請日期2006年12月9日優(yōu)先權日2005年12月9日
發(fā)明者D·喬薩貝爾, J·F·班切里奧申請人:貝勒研究院

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：D.喬薩貝爾;J.F.班切里奧
技術所有人：貝勒研究院
我是此專利的發(fā)明人

上一篇：組成型植物啟動子的制作方法
上一篇：用于摻入核苷酸類似物的聚合酶的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.食品功能因子基因工程菌種的構建、智能高通量進化篩選 2.發(fā)酵工藝優(yōu)化
2、馬老師：1.酶工程與生物催化 2.釀造技術與風味分析 3.生物質資源綜合利用
3、林老師：1.釀造微生物育種及關鍵釀造工藝開發(fā) 2. 真菌基因功能及調控網(wǎng)絡解析 3.精細化學品、蛋白真菌細胞底盤開發(fā)
4、張老師：1.發(fā)酵食品安全：危害物相關基因的篩選，危害物產(chǎn)生菌的快速檢測，危害物的預警和發(fā)酵過程控制 2.真菌次級代謝與調控 3.釀造酒相關研究
5、郭老師：1.現(xiàn)代釀造技術與食品安全 2. 酵母生物學 3.生物基化學品與合成生物學
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

外周血液白細胞轉錄模式的模塊水平分析的制作方法