專利名稱:一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析的新方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析方法,屬于分析化學(xué)技術(shù)領(lǐng)域。
背景技術(shù):
代謝組學(xué)是系統(tǒng)生物學(xué)領(lǐng)域的新興技術(shù),色譜-質(zhì)譜聯(lián)用(如氣質(zhì)聯(lián)用GC-MSjf質(zhì)聯(lián)用LC-MS等)是代謝組學(xué)研究中的主流分析技術(shù)。色譜-質(zhì)譜聯(lián)用儀器往往產(chǎn)生大量數(shù)據(jù),如何對這些數(shù)據(jù)進(jìn)行有效分析,從而獲得有關(guān)研究對象的代謝輪廓特征,是目前該領(lǐng)域研究中的關(guān)鍵技術(shù)和瓶頸問題。目前,研究色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)的常用策略是以保留時(shí)間Rt-質(zhì)荷比m/z處的質(zhì)譜碎片峰強(qiáng)度為變量,先對質(zhì)譜碎片峰進(jìn)行檢測、對齊,然后將處理后的信息進(jìn)行統(tǒng)計(jì)學(xué)分析。但是,這種數(shù)據(jù)分析策略存在下列問題(I)采用該策略,每個(gè)樣品可產(chǎn)生多達(dá)上 千個(gè)變量(質(zhì)譜碎片峰的強(qiáng)度),而代謝組學(xué)研究中樣品數(shù)一般為幾十個(gè),由此將導(dǎo)致變量數(shù)與樣品數(shù)比例失衡,為后續(xù)分析帶來問題;(2)該策略關(guān)注質(zhì)譜峰信息,而質(zhì)譜峰除包括碎片離子峰外,還包括加合峰、同位素峰等,因此上述大量變量中存在約90 %的冗余信息;而且,變量一般為在某質(zhì)荷比及保留時(shí)間處記錄的強(qiáng)度信息,以上均使得后期對差異性代謝物的定性鑒別變得復(fù)雜;(3)由于代謝組學(xué)研究中內(nèi)源性代謝物的種類眾多,含量不等,有時(shí)可能出現(xiàn)色譜峰重疊、變形等現(xiàn)象,從而為數(shù)據(jù)處理過程帶來誤差,并影響后續(xù)統(tǒng)計(jì)分析結(jié)果的可靠性。為克服核磁共振代謝組學(xué)分析中差異性代謝物定性鑒別困難的問題,瑞士學(xué)者提出一種新型的代謝組學(xué)數(shù)據(jù)分析方法——代謝物投影技術(shù)(MetaboliteProjection Analysis, MPA) (F. Dieterle, A. Ross, G. Schlottebeck, H. Senn. Anal.Chem. 78(2006)3551-3561)。他們首先收集多種代謝物的核磁共振波譜,然后將這些代謝物的波譜投影至由樣品建立的統(tǒng)計(jì)分析模型,從而可對差異性代謝物直接進(jìn)行定性鑒別。但是,MPA方法是針對核磁共振數(shù)據(jù)而建立的,其必要條件是得到代謝物的核磁共振波譜信息;而生物樣本一般包含成百上千種代謝物,因此要收集如此多代謝產(chǎn)物的光譜信息是很難做到的。作為代謝組學(xué)研究中的主流分析技術(shù),色譜-質(zhì)譜數(shù)據(jù)中本身就包含了各個(gè)代謝物的質(zhì)譜信息。因此,本發(fā)明對MPA方法進(jìn)行了改進(jìn)和擴(kuò)充,建立了一種研究色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)的新策略,并可有效地解決現(xiàn)有色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析策略中存在的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是建立了一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析的新方法。該方法克服了背景技術(shù)的缺點(diǎn),無需像背景技術(shù)那樣預(yù)先收集代謝物的波譜信息,即可簡便地進(jìn)行數(shù)據(jù)分析,并對特異性代謝物進(jìn)行篩選和鑒定。本發(fā)明提供了一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析的方法,包含以下步驟(I)代謝物峰的識別
首先從研究體系(包括正常組、模型組、給藥組)的各個(gè)樣品中取出相同體積(如20微升),混合后建立質(zhì)控(QC)樣品;取QC樣品的總離子流色譜(TIC)數(shù)據(jù),選取其中信噪比大于3的色譜峰(記為peak_i),采用化學(xué)計(jì)量學(xué)方法對peak_i進(jìn)行純度檢測對于純色譜峰,記錄每個(gè)色譜峰的左(記為Lpeak i)、右邊界(記為Rpeak i)及峰值處(記為Apeak
i)的保留時(shí)間;對于經(jīng)純度檢驗(yàn)判定為重疊的色譜峰,采用化學(xué)計(jì)量學(xué)方法進(jìn)行解析,獲得重疊色譜峰中包含的純色譜與純質(zhì)譜信息;(2)代謝物純質(zhì)譜庫的建立基于QC樣品的色譜-質(zhì)譜數(shù)據(jù),對于每個(gè)色譜峰peak_i,將其在Lpeak i和Rpeak i保留時(shí)間范圍內(nèi)的所有質(zhì)譜數(shù)據(jù)進(jìn)行加 和、平均,以獲得可表征色譜峰peak_i對應(yīng)代謝物的質(zhì)譜信息;對于重疊色譜峰,采用化學(xué)計(jì)量學(xué)方法解析得到的純質(zhì)譜可直接作為表征重疊色譜峰所包含代謝物的質(zhì)譜信息;將上述二部分質(zhì)譜信息合并,即可得到QC樣品中所包含的代謝物的純質(zhì)譜庫(記為XmJ 3^里包含了研究體系中所有樣品的代謝物的純質(zhì)譜信息;(3)統(tǒng)計(jì)分析模型的建立對于研究體系中的每個(gè)樣品,將其在每個(gè)質(zhì)荷比(m/z)處記錄得到的色譜數(shù)據(jù)進(jìn)行加和,以得到其總質(zhì)譜;將所有樣品的總質(zhì)譜對齊,然后合并得到研究體系中各個(gè)樣品的總質(zhì)譜數(shù)據(jù)Xmxn,其中m為樣品數(shù),η為質(zhì)譜通道數(shù);對Xmxn進(jìn)行主成分分析(PCA)或偏最小二乘-判別分析(PLS-DA),建立統(tǒng)計(jì)分析模型,得到Xmxn的得分⑴和載荷⑵矩陣;對得分T矩陣的前二列繪圖,即可觀察得出研究體系中樣品的分類情況;(4)代謝物投影分析按照下列公式,將XMet投影至上述統(tǒng)計(jì)分析模型中的載荷矩陣P,即可得到Xsfet的得分矩陣Tsfet TMet = XMetP將TMet矩陣的前二列繪圖,則圖上每個(gè)點(diǎn)表征一個(gè)代謝物,Tsfet圖中遠(yuǎn)離原點(diǎn)的代謝物即為差異性的代謝物,且其與T矩陣前二列繪圖中各組樣品的方向一致;根據(jù)Tsfet圖上差異性代謝物的編號,可檢索Xsfet得出相應(yīng)的質(zhì)譜信息,最后通過檢索質(zhì)譜數(shù)據(jù)庫即可對差異性代謝物進(jìn)行定性鑒別。優(yōu)選地,上述方法中用于純度檢測的化學(xué)計(jì)量學(xué)方法可獨(dú)立選自直觀推導(dǎo)式演進(jìn)特征投影法、漸進(jìn)因子分析、主成分分析、導(dǎo)數(shù)法或正交投影法。更優(yōu)選地,純度檢測的化學(xué)計(jì)量學(xué)方法為直觀推導(dǎo)式演進(jìn)特征投影法。優(yōu)選地,上述方法中所述的重疊色譜峰的化學(xué)計(jì)量學(xué)解析方法可獨(dú)立選自直觀推導(dǎo)式演進(jìn)特征投影法、斷層掃描分析法、窗口因子分析法、正交投影法或多元曲線分辨法。更優(yōu)選地,重疊色譜峰的化學(xué)計(jì)量學(xué)解析方法為直觀推導(dǎo)式演進(jìn)特征投影法。本發(fā)明提供的方法具有以下積極效果I、建立了一種可對色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)進(jìn)行分析的新方法;2、采用本發(fā)明提出的代謝組學(xué)數(shù)據(jù)分析方法,可方便地篩選差異性代謝物并可直接進(jìn)行定性鑒別;3、本發(fā)明提出的方法不僅可以有效識別現(xiàn)有方法發(fā)現(xiàn)的差異性代謝物,而且還可以發(fā)現(xiàn)現(xiàn)有方法無法發(fā)現(xiàn)的一些差異性代謝物。
圖I為在心肌缺血大鼠血漿的代謝組學(xué)研究中,由各個(gè)樣品的總質(zhì)譜數(shù)據(jù)建立的PLS-DA模型中的得分圖。 -心肌缺血組;■-陽性藥組。圖2為采用本方法得出的得分矩陣Tsfet圖,每個(gè)點(diǎn)代表一個(gè)代謝物,下圖為上圖紅框中部分的放大圖。
具體實(shí)施例方式下面根據(jù)附圖和實(shí)施例詳細(xì)說明本發(fā)明的技術(shù)方案,并闡明本發(fā)明的積極效果,但是不構(gòu)成對本發(fā)明的限制。實(shí)施例心肌缺血(Myocardial ischemia, Ml)大鼠血衆(zhòng)的代謝組學(xué)研究。動(dòng)物實(shí)驗(yàn)SD雄性大鼠隨機(jī)分為3組,每組6只A.假手術(shù)組;B. MI組;C.陽性藥組。灌胃給藥,A、B組給予溶媒,C組給予硝酸異山梨酯(5mg/kg/d),連續(xù)5天。最后一天給藥后建立心肌缺血模型SD大鼠麻醉后,在第三、四肋間隙,沿胸骨左緣Icm處,剪開胸壁肌肉暴露胸腔,剪開心包膜,暴露心臟,在肺動(dòng)脈圓錐與左心耳下緣之間,用5-0縫合線結(jié)扎冠狀動(dòng)脈左前降支(假手術(shù)組省略此步驟),立即將心臟放回,排擠出胸腔空氣,用止血鉗閉合胸腔,縫合傷口。術(shù)后5小時(shí),腹腔麻醉動(dòng)物后股動(dòng)脈取血lmL,分離血漿備用。血漿衍生化步驟由于血漿內(nèi)代謝物基本無揮發(fā)性,因此必須進(jìn)行衍生化處理,方法為取大鼠血漿100 μ L,加入900 μ L甲醇,渦旋混合、超聲提取后,高速離心取上清于玻璃離心管中,以氮?dú)獯蹈?。加?5 μ L甲氧胺吡啶溶液(15mg/mL),渦旋混合,70°C反應(yīng)lh,再加入180 μ L衍生化試劑(MSTFA TMCS = 99 I),70°C反應(yīng)lh,然后轉(zhuǎn)移至離心管中,離心分離后取上清進(jìn)行GC-MS分析。實(shí)驗(yàn)儀器采用賽默飛世爾公司生產(chǎn)的氣相色譜-質(zhì)譜聯(lián)用儀(Trace UltraGC-DSQ II系統(tǒng)),色譜柱TR-5MS毛細(xì)管柱(30mX O. 25mmX O. 25 μ m),載氣氦氣,燃?xì)?br>
氫氣,助燃?xì)饪諝?。氣相色譜條件進(jìn)樣口溫度270°C,初始溫度70°C并保持lOmin,然后以10°C /min的速率升至280°C,然后保持IOmin ;質(zhì)譜條件EI離子源溫度為260°C,全掃描模式(50 600m/z,每秒掃描5次),質(zhì)譜定性鑒別采用NIST質(zhì)譜庫。將儀器提供的色譜_質(zhì)譜數(shù)據(jù)轉(zhuǎn)換為Excel格式以進(jìn)行下面數(shù)據(jù)分析(I)代謝物峰的識別 基于本研究體系的QC樣品的TIC數(shù)據(jù),共檢測得到信噪比大于3的色譜峰93個(gè),其中5個(gè)為采用HELP方法對重疊色譜峰進(jìn)行解析而得出的代謝物;對于純色譜峰保存其Lpeak i> Rpeakj及Apeak i的保留時(shí)間,對于重疊色譜峰保存經(jīng)HELP解析得出的純質(zhì)譜信息;(2)代謝物純質(zhì)譜庫的建立基于QC樣品的色譜-質(zhì)譜數(shù)據(jù),對于每個(gè)純色譜峰peak_i,將其在Lpeak i和Rpeaki保留時(shí)間范圍內(nèi)的所有質(zhì)譜數(shù)據(jù)進(jìn)行加和、平均,以獲得可表征色譜峰peak_i對應(yīng)代謝物的質(zhì)譜信息,再將該信息與HELP方法解析出的純質(zhì)譜合并,即可得到QC樣品中包含的代謝物的質(zhì)譜庫(XmJ ;(3)統(tǒng)計(jì)分析模型的建立對于MI組及陽性藥組的每個(gè)樣品,將其在每個(gè)質(zhì)荷比(m/z)處記錄得到的色譜數(shù)據(jù)進(jìn)行加和,以得到其總質(zhì)譜。將每個(gè)樣品的總質(zhì)譜對齊,從而得到研究體系中各個(gè)樣品的總質(zhì)譜數(shù)據(jù)Xmxn,其中Π1為樣品數(shù),η為質(zhì)譜通道數(shù);對Xmxn建立PLS-DA統(tǒng)計(jì)分析模型,獲得Xmxn的得分(T)和載荷(P)矩陣;對得分T矩陣的前二列繪圖(見圖I),可見MI組及陽性藥組可明顯區(qū)分;(4)代謝物投影分析按照公式TMet = XMetP,將XMet投影至上述PLS-DA模型,即可得到代謝物投影得分矩陣Tsfet ;將Tsfet矩陣的前二列繪圖(見圖2),圖上每個(gè)點(diǎn)表征一個(gè)代謝物,遠(yuǎn)離原點(diǎn)的代謝物對樣品的分類貢獻(xiàn)較大,且其與圖I中樣品的方向一致;將遠(yuǎn)離原點(diǎn)的代謝物的質(zhì)譜輸入NIST庫進(jìn)行檢索,可直接得出差異性代謝物的定性鑒別信息。表I為采用本發(fā)明提出的色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析新方法以及目前常用的代謝組學(xué)數(shù)據(jù)分析軟件一XCMS,對本研究體系進(jìn)行分析后得出的差異性代謝物的比較。表I本發(fā)明提出的方法與XCMS揭示的差異性代謝物的比較*
權(quán)利要求
1.一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析的方法,包含以下步驟 (1)代謝物峰的識別 首先從研究體系(包括正常組、模型組、給藥組)的各個(gè)樣品中取出相同體積,混合后建立質(zhì)控(QC)樣品;?。悠返目傠x子流色譜(TIC)數(shù)據(jù),選取其中信噪比大于3的色譜峰(記為peak_i),采用化學(xué)計(jì)量學(xué)方法對peak_i進(jìn)行純度檢測對于純色譜峰,記錄每個(gè)色譜峰的左(記為Lpeak i)、右邊界(記為Rpeak i)及峰值處(記為Apeak i)的保留時(shí)間;對于經(jīng)純度檢驗(yàn)判定為重疊的色譜峰,采用化學(xué)計(jì)量學(xué)方法進(jìn)行解析,獲得重疊色譜峰中包含的純色譜與純質(zhì)譜信息; (2)代謝物純質(zhì)譜庫的建立 基于QC樣品的色譜-質(zhì)譜數(shù)據(jù),對于每個(gè)色譜峰peak_i,將其在Lpeak」和Rpak」保留時(shí)間范圍內(nèi)的所有質(zhì)譜數(shù)據(jù)進(jìn)行加和、平均,以獲得可表征色譜峰peak_i對應(yīng)代謝物的質(zhì)譜信息;對于重疊色譜峰,采用化學(xué)計(jì)量學(xué)方法解析得到的純質(zhì)譜可直接作為表征重疊色譜峰所包含代謝物的質(zhì)譜信息;將上述二部分質(zhì)譜信息合并,即可得到QC樣品中所包含的代謝物的純質(zhì)譜庫(記為XMrt) ;XMrt里包含了研究體系中所有樣品的代謝物的純質(zhì)譜信息; (3)統(tǒng)計(jì)分析模型的建立 對于研究體系中的每個(gè)樣品,將其在每個(gè)質(zhì)荷比(m/z)處記錄得到的色譜數(shù)據(jù)進(jìn)行加和,以得到其總質(zhì)譜;將所有樣品的總質(zhì)譜對齊,然后合并得到研究體系中各個(gè)樣品的總質(zhì)譜數(shù)據(jù)Xmxn,其中m為樣品數(shù),η為質(zhì)譜通道數(shù)StXmxn進(jìn)行主成分分析(PCA)或偏最小二乘-判別分析(PLS-DA),建立統(tǒng)計(jì)分析模型,得到Xmxn的得分⑴和載荷⑵矩陣; (4)代謝物投影分析 按照下列公式,將Xsfet投影至上述統(tǒng)計(jì)分析模型中的載荷矩陣P,即可得到Xsfet的得分矩陣Tsfet ^Met ^MetP 將Tsfet矩陣的前二列繪圖,則圖上每個(gè)點(diǎn)表征一個(gè)代謝物,Tsfet圖中遠(yuǎn)離原點(diǎn)的代謝物即為差異性的代謝物;根據(jù)Tsfet圖上差異性代謝物的編號,可檢索Xsfet得出相應(yīng)的質(zhì)譜信息,最后通過檢索質(zhì)譜數(shù)據(jù)庫即可對差異性代謝物進(jìn)行定性鑒別。
2.如權(quán)利要求I所述的方法,其特征在于,所述的用于純度檢測的化學(xué)計(jì)量學(xué)方法可獨(dú)立選自直觀推導(dǎo)式演進(jìn)特征投影法、漸進(jìn)因子分析、主成分分析、導(dǎo)數(shù)法或正交投影法。
3.如權(quán)利要求I所述的方法,其特征在于,所述的重疊色譜峰的化學(xué)計(jì)量學(xué)解析方法可獨(dú)立選自直觀推導(dǎo)式演進(jìn)特征投影法、斷層掃描分析法、窗口因子分析法、正交投影法或多元曲線分辨法。
全文摘要
本發(fā)明為一種色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析的新方法,屬于分析化學(xué)技術(shù)領(lǐng)域。該方法基于色譜-質(zhì)譜數(shù)據(jù)特征,通過建立代謝物的質(zhì)譜庫XMet,然后將XMet投影至由研究體系中各個(gè)樣品建立的統(tǒng)計(jì)分析模型,從而可得到代謝物投影得分矩陣TMet,將TMet的前二列繪圖即可得出差異性的代謝物,并通過檢索XMet及質(zhì)譜數(shù)據(jù)庫即可對差異性代謝物進(jìn)行定性鑒別。該方法在原有方法的基礎(chǔ)上,建立了一種可對色譜-質(zhì)譜代謝數(shù)據(jù)進(jìn)行分析的新方法,從而可方便地篩選差異性代謝物并可直接進(jìn)行定性鑒別,從而有效地解決現(xiàn)有色譜-質(zhì)譜代謝組學(xué)數(shù)據(jù)分析策略中存在的問題。
文檔編號G01N30/02GK102788849SQ20121017910
公開日2012年11月21日 申請日期2012年6月1日 優(yōu)先權(quán)日2012年6月1日
發(fā)明者亓云鵬, 吳玉田, 宋云龍, 柴逸峰, 范國榮 申請人:中國人民解放軍第二軍醫(yī)大學(xué)