專利名稱:一種代謝譜峰位置分辨與對(duì)齊的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物信息技術(shù)領(lǐng)域,涉及基于色質(zhì)聯(lián)用(液相或氣相-質(zhì)譜聯(lián)用(LC/ GC-MS))技術(shù)或者色譜技術(shù)(LC/GC)的高通量代謝組分析。
背景技術(shù):
本發(fā)明是一種適用于代謝組分色質(zhì)聯(lián)用(LC/GC-MS)和色譜(LC/GS)數(shù)據(jù)分析的 新算法,可以同時(shí)完成代謝譜信號(hào)的基線校正、峰位置辨識(shí)及峰位置對(duì)齊,是代謝組數(shù)據(jù)分 析的前期關(guān)鍵步驟??捎糜谏飿悠?血清、尿樣及植物有效成分)LC/GC-MS、LC、GC數(shù)據(jù) 的預(yù)處理。代謝組是生物體內(nèi)生物化學(xué)過(guò)程的終端,包含有生物體發(fā)育、生長(zhǎng)、病理等等重要 信息。代謝組學(xué)通過(guò)分析生物樣品中(血清、尿樣或者其他組織提取物)中所有低分子量的 代謝物的濃度或者成分的變化,建立診斷、辨識(shí)技術(shù),研究生物體代謝機(jī)理[1-2]。GC/LC-MS 是目前代謝組高通量分析的重要手段。利用代謝譜信號(hào)能夠找到對(duì)照及實(shí)驗(yàn)樣本之間的差 異峰(標(biāo)志成分),利用這些差異成分可進(jìn)一步建立疾病診斷、檢測(cè)和分析的技術(shù)。基于色 譜或者色質(zhì)聯(lián)用技術(shù)分析代謝組的一般步驟為[1-2] :1,獲取樣品,包括目標(biāo)樣品和對(duì)照 樣品;2,在適宜的條件,通過(guò)實(shí)驗(yàn)技術(shù)獲取每個(gè)樣品的代謝譜;3,數(shù)據(jù)分析,主要包括實(shí)驗(yàn) 數(shù)據(jù)的預(yù)處理、差異代謝成分的檢測(cè)、建立分類和辨識(shí)模型,以及深度機(jī)理分析。利用LC/GC-MS或者LC/GC分析代謝組分時(shí),需要對(duì)多個(gè)樣本(對(duì)照和目標(biāo)樣本) 分別進(jìn)行實(shí)驗(yàn)檢測(cè)。受限于儀器的分辨能力,有些峰信號(hào)會(huì)重疊在一起,準(zhǔn)確的峰位置難以 提??;也會(huì)出現(xiàn)基線漂移的情況,造成對(duì)峰高度或者峰面積計(jì)算的誤差[3]。而且,由于系 統(tǒng)誤差和隨機(jī)誤差,同一組分的峰信號(hào)在不同的樣本中會(huì)有小的位移,致使同一代謝組分 的信號(hào)(峰)在不同的樣本數(shù)據(jù)中被錯(cuò)誤識(shí)別為兩個(gè)或者多個(gè)組分。原始代謝譜數(shù)據(jù)的這 些缺點(diǎn)要求在進(jìn)行標(biāo)志物分析之前,必須進(jìn)行重疊信號(hào)分辨、基線校正和峰位置對(duì)齊的預(yù) 處理工作。目前,已經(jīng)有一些基線校正和重疊信號(hào)的分辨方法,如小波變換技術(shù)[3-4]、去卷 積技術(shù)[5]等,這些技術(shù)大都針對(duì)一種問(wèn)題,如去卷積只解決重疊信號(hào)分辨的問(wèn)題,而對(duì)基 線校正沒(méi)有效果;而且由于相關(guān)的數(shù)學(xué)計(jì)算較復(fù)雜,所以這些方法并沒(méi)有在實(shí)際的數(shù)據(jù)預(yù) 處理中廣泛應(yīng)用。本專利基于小波變換技術(shù),可同時(shí)實(shí)現(xiàn)信號(hào)的基線校正、峰位置辨識(shí)和峰位置對(duì) 齊,效果良好,操作簡(jiǎn)單。
發(fā)明內(nèi)容
本發(fā)明根據(jù)相關(guān)的文獻(xiàn),這對(duì)目前代謝組數(shù)據(jù)分析的特點(diǎn)和要求,找到了一種可 以同時(shí)進(jìn)行基線校正、峰位置辨識(shí)的方法,在此基礎(chǔ)上,利用簡(jiǎn)單的運(yùn)算完成峰位置對(duì)齊的 工作,為標(biāo)志物的篩選提供可靠的數(shù)據(jù)。整個(gè)步驟包括代謝譜 線校正和峰位置辨識(shí)和峰位置對(duì)齊兩個(gè)環(huán)節(jié)。
該過(guò)程偽代碼如下設(shè)Si (t)代表第i個(gè)樣本代謝譜信號(hào)的小波變換信號(hào),i = 1到M(樣本數(shù)目),t 為t = to,t2,t3,. . . tN, N為信號(hào)長(zhǎng)度(時(shí)間長(zhǎng)度)。H表示第i個(gè)樣本中第t個(gè)峰的位 置。下文中%表示注釋;cutoff為閾值。Input S ;For i = 1 to MFor t = t0 to tNCompare Jt with Jt,; j = i to M ;t,= tO to tN ;%比較i樣本中中t位置和其它樣本中的所有的位置Compute d = ft,;t,= t0 to tNIf d < = cutofftnew = mean (t)replace t with tnew ;%將所有樣本中偏差小于閾值的峰位置全部用其平均值替換End ifEnd for tEnd for iOutput new S至此,新的數(shù)據(jù)集合S為經(jīng)過(guò)基線校正、峰位置辨識(shí)及峰位置對(duì)齊的數(shù)據(jù),可用于 標(biāo)志代謝成分的檢測(cè)分析。本發(fā)明的優(yōu)點(diǎn)有二 一是利用小波變換技術(shù),同時(shí)實(shí)現(xiàn)代謝譜的基線校正和重疊 峰分辨工作;一是操作簡(jiǎn)單,結(jié)果可靠,非常適合實(shí)驗(yàn)一線的操作人員進(jìn)行數(shù)據(jù)預(yù)處理。
圖1舉例說(shuō)明了對(duì)一植物代謝譜(高效液相色譜數(shù)據(jù))的基線校正和峰位置辨 識(shí),其中,虛線表示原始的代謝譜,實(shí)線代表基線校正和峰位置辨識(shí)后的譜。圖2顯示了該植物不同器官(不同位置)15各樣本代謝譜峰位置對(duì)齊后的結(jié)果。
具體實(shí)施例方式整個(gè)步驟如下步驟1 代謝譜基線校正和峰位置辨識(shí)。包括三個(gè)處理過(guò)程1,對(duì)每條代謝譜信號(hào)進(jìn)行連續(xù)小波變換(CWT)。優(yōu)化的變換尺度范圍為1到12, 步長(zhǎng)為1,母小波為墨西哥帽函數(shù)(Mexican Hat)。2,在每個(gè)時(shí)間點(diǎn)處(飛行時(shí)間),檢測(cè)每條譜信號(hào)在12個(gè)尺度上的小波變換最大 值,并記錄。這樣,對(duì)每條譜信號(hào),即可得到一個(gè)橫坐標(biāo)為時(shí)間,縱坐標(biāo)為小波變換的最大值 的新的信號(hào)。在新的信號(hào)中,基線已經(jīng)被拉平,峰位置為對(duì)應(yīng)原始譜信號(hào)中峰的位置,并且 半峰寬度變窄,分辨率增強(qiáng)。本專利中稱這種新信號(hào)為小波變換信號(hào)。該過(guò)程的數(shù)學(xué)描述 如下。
(1)小波變換信號(hào) 其中ψ為墨西哥帽函數(shù),a和b分別尺度因子和平移因子,本專利中,a的范圍為 [1,12],b為飛行時(shí)間或者保留時(shí)間(色譜中)。Wf (a, b)為小波變換系數(shù)。(2)檢測(cè)每個(gè)時(shí)間點(diǎn)的最大值(eq. 2)S (b) = MAX (fff (a, b))eq. 2其中,a從1到12。步驟2:峰位置對(duì)齊。給定一個(gè)閾值(同一代謝組分在不同樣本中峰位置的最大偏差),將各樣本小波 變換信號(hào)中偏差在閾值范圍內(nèi)的峰歸并為同一個(gè)峰,并修改各樣本中相應(yīng)的峰位置。這樣, 就得到了經(jīng)過(guò)基線校正、峰位置辨識(shí)及對(duì)齊的峰信號(hào)。利用該數(shù)據(jù),可進(jìn)入下一步標(biāo)志物的 分析流程。本方法的特征該方法根據(jù)相關(guān)的文獻(xiàn),針對(duì)代謝組學(xué)數(shù)據(jù)的特點(diǎn),建立了一種可以同時(shí)完成基 線校正、峰位置分辨并對(duì)齊的技術(shù)。方法簡(jiǎn)單、可靠,易操作,為進(jìn)一步分析提供堅(jiān)實(shí)的數(shù)據(jù) ■石出。下面以一個(gè)實(shí)例,做進(jìn)一步的說(shuō)明數(shù)據(jù)來(lái)源一種植物不同器官代謝組的高效液相色譜數(shù)據(jù),共計(jì)15個(gè)樣本。在原 始數(shù)據(jù)中,每個(gè)樣本中機(jī)器檢測(cè)出的有用信息峰的數(shù)目各不相同,峰數(shù)目最少的有44個(gè), 最多的有50個(gè)峰。而且,每個(gè)樣本中,代謝譜(信號(hào))的基線不平。更為嚴(yán)重的是,實(shí)際為 同一位置的峰在不同樣本中位置有偏移。這樣的原始數(shù)據(jù)根本無(wú)法進(jìn)行標(biāo)志物的檢測(cè)(如 主成分分析要求每個(gè)樣本的數(shù)據(jù)長(zhǎng)度必須一致),必須進(jìn)行數(shù)據(jù)的預(yù)處理,即基線校正、峰 位置辨識(shí)和峰位置對(duì)齊。本專利闡述的具體的操作過(guò)程如下(依照前述的處理過(guò)程)步驟一代謝譜基線校正和峰位置辨識(shí),包括三個(gè)處理過(guò)程1,在1到12的尺度范圍內(nèi),以1為步長(zhǎng),墨西哥帽函數(shù)為母小波,對(duì)每條譜信號(hào)進(jìn) 行連續(xù)小波變換(CWT)。2,在每個(gè)時(shí)間點(diǎn)處(此處為保留時(shí)間,對(duì)色質(zhì)聯(lián)用數(shù)據(jù)為飛行時(shí)間),檢測(cè)每條譜 信號(hào)在12個(gè)尺度上的小波變換最大值,并記錄之(稱作小波變換信號(hào))。經(jīng)過(guò)該步驟處理 的第一個(gè)樣本的數(shù)據(jù)圖示于圖1。步驟二 峰位置對(duì)齊。給定一個(gè)閾值0. 1 (同一組分在不同樣本中峰位置的最大偏差),將各樣本小波變 換信號(hào)中偏差在閾值范圍內(nèi)的峰歸并為同一個(gè)峰,并修改各樣本中相應(yīng)的峰位置。這樣,就 得到了經(jīng)過(guò)基線校正、峰位置辨識(shí)及對(duì)齊的峰信號(hào)。經(jīng)過(guò)該步驟處理的所有數(shù)據(jù)圖示于圖 2。參考文獻(xiàn)[IjGavaghan C. L.,Wilson I. D.,Nicholson J. K.,F(xiàn)EBS Lett. 2002,530 191.
5
[2]E. Μ. Lenz, I. D. Wilson, J. Proteome Res. 2007,6 :443.[3] Shao X. G.,Cai W. S.,Sun P. Y.,Zhang Μ. S.,Zhao G. W.,Anal. Chem. 1997, 69 :1722-1725.[4] Lu X. Q, Liu H. D.,Xue Ζ. H.,Wang X. Q.,J. Chem. Inf. Comput. Sci.,2004,44 1228-1237.[5] Zhang X. Q.,Zheng J. B.,Gao H.,Analyst 2000,125 :915_919·以上是對(duì)本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方式,均在本發(fā)明 的保護(hù)范圍之中。
權(quán)利要求
一種代謝譜信號(hào)基線校正、峰位置辨識(shí)及峰位置對(duì)齊的方法,其特征在于該方法包括有如下步驟步驟1代謝譜基線校正及峰位置辨識(shí)。包括以下過(guò)程1,對(duì)每條質(zhì)譜信號(hào)進(jìn)行連續(xù)小波變換(CWT)。優(yōu)化的變換尺度范圍為1到12,步長(zhǎng)為1,母小波為墨西哥帽函數(shù)(Mexican Hat)。2,在每個(gè)時(shí)間點(diǎn)處(飛行時(shí)間),檢測(cè)每條譜信號(hào)在12個(gè)尺度上的小波變換最大值,并記錄。這樣,可得到一個(gè)橫坐標(biāo)為時(shí)間,縱坐標(biāo)為小波變換的最大值的新的信號(hào)。步驟2峰位置對(duì)齊。給定一個(gè)閾值(同一組分在不同樣本中峰位置的最大偏差),將各樣本小波變換信號(hào)中偏差在閾值范圍內(nèi)的峰歸并為同一個(gè)峰,并修改各樣本中相應(yīng)的峰位置。這樣,就得到了經(jīng)過(guò)基線校正及對(duì)齊的峰信號(hào)。
2.根據(jù)權(quán)利要求1所述的一種基于小波變換的色譜信號(hào)基線校正和峰位置分辨及對(duì) 齊新方法,其特征在于在步驟1和2中得到的基線校正和峰位置對(duì)齊的新數(shù)據(jù)集。
全文摘要
本發(fā)明找到了一種可以同時(shí)完成LC/MS或者LC信號(hào)的基線校正、峰位置辨識(shí)及峰位置對(duì)齊的方法。本發(fā)明主要包括如下流程步驟1代謝譜基線校正和峰位置辨識(shí)。主要過(guò)程為1,在1到12尺的度范圍內(nèi),以墨西哥帽函數(shù)(Mexican Hat)為母小波,對(duì)每條質(zhì)譜信號(hào)進(jìn)行步長(zhǎng)為1的連續(xù)小波變換(CWT)。2,在每個(gè)時(shí)間點(diǎn)處檢測(cè)每條譜信號(hào)在各尺度上的小波變換最大值,得到一個(gè)橫坐標(biāo)為時(shí)間,縱坐標(biāo)為小波變換最大值的新信號(hào)。步驟2峰位置對(duì)齊。給定一個(gè)閾值(同一組分在不同樣本中峰位置的最大偏差),將各樣本小波變換信號(hào)中偏差在閾值范圍內(nèi)的峰歸并為同一個(gè)峰,并修改各樣本中相應(yīng)的峰位置。
文檔編號(hào)G01N30/86GK101929989SQ20091005371
公開(kāi)日2010年12月29日 申請(qǐng)日期2009年6月24日 優(yōu)先權(quán)日2009年6月24日
發(fā)明者吳劍丙, 陳喆 申請(qǐng)人:陳喆;吳劍丙