/"(卻6^As2,皆)表示表示假設(shè)糖結(jié)構(gòu)為Gi且一級(jí)質(zhì)譜為Si二級(jí)質(zhì)譜為 S2S級(jí)質(zhì)譜為的前提下,獲得四級(jí)質(zhì)譜的概率。根據(jù)假定糖結(jié)構(gòu)GiW及已產(chǎn)生的 一級(jí)質(zhì)譜Si和二級(jí)質(zhì)譜S2W及S級(jí)質(zhì)譜5/可獲得下一級(jí)質(zhì)譜實(shí)驗(yàn)中所有可能出現(xiàn)的理 論譜峰,然后再根據(jù)中實(shí)際出現(xiàn)的譜峰,基于單個(gè)理論譜峰的出現(xiàn)概率計(jì)算出 P(St\G,,S\S\Sf).
[0071]
[0072] 其中,u4表示在S含中有u4個(gè)理論譜峰出現(xiàn);v4表示在S乏中有v4個(gè)理論譜峰沒有 出現(xiàn)。
[00巧 P議護(hù),As/)根據(jù)下述公式得出;
[0074]
[0075]t基于層次貝葉斯模型,計(jì)算得到五級(jí)質(zhì)譜設(shè),S2,S/,S^,巧)后,糖結(jié)構(gòu)Gi是 正確結(jié)果的概率^2,5/,S六巧):
[0078]其中,戶的|5'1,5'2,5/,詩)為上一級(jí)質(zhì)譜的譜譜比對(duì)打分;
[0079]P侶護(hù),A皆,詩)表示假定糖結(jié)構(gòu)為Gi且一級(jí)質(zhì)譜為S1二級(jí)質(zhì)譜為S2;級(jí)質(zhì) 譜為5/四級(jí)質(zhì)譜為的前提下,獲得五級(jí)質(zhì)譜的概率。根據(jù)假定糖結(jié)構(gòu)GiW及已產(chǎn)生 的一級(jí)質(zhì)譜S\二級(jí)質(zhì)譜S2、S級(jí)質(zhì)譜及四級(jí)質(zhì)譜可獲得下一級(jí)質(zhì)譜實(shí)驗(yàn)中所有可 能出現(xiàn)的理論譜峰,然后再根據(jù)Sf中實(shí)際出現(xiàn)的譜峰,基于單個(gè)理論譜峰的出現(xiàn)概率 計(jì)算出P(巧傷,AAs/,巧)。
[0080]
[0081]其中,u5表示在中有u5個(gè)理論譜峰出現(xiàn);v5表示在Sf中有v5個(gè)理論譜峰沒 有出現(xiàn)。
[00間 /"(巧護(hù),A皆,詩誠據(jù)下述公式得出
[0083]
[0084]上述多級(jí)質(zhì)譜實(shí)驗(yàn)中,可W預(yù)先設(shè)定譜譜打分闊值,在每一級(jí)計(jì)算出譜譜打分后, 比較該級(jí)譜譜打分是否超過闊值,如果未超過,則認(rèn)為相應(yīng)的候選結(jié)構(gòu)不匹配,從候選集中 剔除該候選結(jié)構(gòu)。當(dāng)候選集中只剩唯一的候選結(jié)構(gòu)時(shí),即可停止多級(jí)質(zhì)譜實(shí)驗(yàn),直接得出鑒 定結(jié)果。
[0085] 該實(shí)施例中,采用層次貝葉斯模型將上一級(jí)質(zhì)譜信息W先驗(yàn)概率的方式,有機(jī)融 合入下一級(jí)質(zhì)譜實(shí)驗(yàn)中,最終通過糖類樣品的多級(jí)質(zhì)譜的譜譜比較,逐步縮小鑒定結(jié)果范 圍,直到篩選出唯一鑒定結(jié)果。該種方案克服了現(xiàn)有技術(shù)的多級(jí)質(zhì)譜策略的缺陷,提升了糖 結(jié)構(gòu)同分異構(gòu)體的鑒定準(zhǔn)確度。同時(shí)該實(shí)施例也避免了使用多臺(tái)不同型號(hào)的質(zhì)譜儀,能夠 在一定程度上減少糖結(jié)構(gòu)鑒定的開銷。
[0086] 進(jìn)一步地,如前文所述,所述步驟3中,傳統(tǒng)的產(chǎn)生多級(jí)質(zhì)譜的方法是;從一級(jí)譜 開始,在質(zhì)譜中選取豐度最大的離子打下一級(jí)質(zhì)譜,w此方式逐級(jí)產(chǎn)生多級(jí)質(zhì)譜。然而,在 糖鑒定中,直接選擇豐度最大的離子,對(duì)于下一級(jí)質(zhì)譜鑒定并不是提升鑒別能力的較優(yōu)選 擇。在本發(fā)明的一個(gè)優(yōu)選本實(shí)施例中,針對(duì)傳統(tǒng)的"豐度優(yōu)先離子選擇"打譜方式的不足, 設(shè)計(jì)出基于信息滴技術(shù)的最優(yōu)打譜路徑選擇算法,W使產(chǎn)生的下一級(jí)質(zhì)譜盡可能地提升鑒 別能力,W此更快實(shí)現(xiàn)糖結(jié)構(gòu)鑒定,同時(shí)減少打譜次數(shù),從而降低開銷。
[0087] 所述最優(yōu)打譜路徑算法具體包含下列步驟:
[008引步驟31 ;在當(dāng)前的質(zhì)譜中選擇產(chǎn)生下一級(jí)質(zhì)譜的候選譜峰離子。為了描述簡(jiǎn)單起 見,在此處假設(shè)樣品是糖類純樣品、且一個(gè)譜峰離子只對(duì)應(yīng)于一個(gè)糖結(jié)構(gòu)或糖的子結(jié)構(gòu)。本 步驟中,只選擇可能產(chǎn)生區(qū)分信息的離子作為產(chǎn)生下一級(jí)質(zhì)譜的候選離子。其原因在于:有 些離子在所有的候選糖結(jié)構(gòu)中對(duì)應(yīng)于相同的子結(jié)構(gòu),該些離子產(chǎn)生的下一級(jí)質(zhì)譜對(duì)候選結(jié) 構(gòu)的區(qū)分顯然是無效的,因此該類離子可W排除,在當(dāng)前的質(zhì)譜的所有譜峰所對(duì)應(yīng)的離子 中排除該類離子后就得到了候選譜峰離子。
[0089] 步驟32 ;計(jì)算各候選離子對(duì)應(yīng)的信息滴。本步驟中采用信息滴來衡量各候選離子 對(duì)于候選糖結(jié)構(gòu)的區(qū)分度。簡(jiǎn)要地說,信息滴是信息量的度量;信息滴越小,表明各個(gè)候選 離子對(duì)于候選糖結(jié)構(gòu)的區(qū)分度越大;反之,信息滴越大,表明區(qū)分度越小。假設(shè)在質(zhì)譜形成 過程中,糖結(jié)構(gòu)的每個(gè)糖巧鍵的碎裂是等概率的,對(duì)于每一個(gè)候選離子,模擬生成其所有可 能形成的下一級(jí)可能質(zhì)譜;然后每個(gè)可能質(zhì)譜存在的條件下,更新每個(gè)候選糖結(jié)構(gòu)的后驗(yàn) 概率,計(jì)算得到后驗(yàn)概率的信息滴;最后每一個(gè)候選離子的區(qū)分能力使用該離子所有可能 質(zhì)譜的平均信息滴來衡量。
[0090] 具體計(jì)算方法包括:
[0091] 步驟321 ;對(duì)于當(dāng)前實(shí)驗(yàn)質(zhì)譜中的候選離子i,分析其再次碎裂后可能產(chǎn)生的各個(gè) 碎片離子(即碎裂后的片段的帶電離子),得到每個(gè)碎片離子所對(duì)應(yīng)的理論峰,每個(gè)理論峰 在譜中出現(xiàn)或者不出現(xiàn)構(gòu)成所有理論譜的集合…,Sw,…,Si,。},其中Sw表示 第i個(gè)離子產(chǎn)生的第j種可能的質(zhì)譜。
[0092] 步驟322 ;然后計(jì)算每一個(gè)候選結(jié)構(gòu)在下一級(jí)質(zhì)譜實(shí)驗(yàn)中產(chǎn)生質(zhì)譜sy的概率P枯JGk,si,…sM),其中M表示當(dāng)前已得到的實(shí)驗(yàn)譜的個(gè)數(shù)。
[0093] 進(jìn)一步地,計(jì)算各個(gè)可能質(zhì)譜Sw分別存在的情況下,各個(gè)候選結(jié)構(gòu)是正確結(jié)構(gòu)的 概率,并計(jì)算該概率集合的信息滴H(sw);第i個(gè)離子產(chǎn)生的所有可能質(zhì)譜sw得到的信息 滴的均值H化),將H(Si)作為第i個(gè)候選峰的預(yù)計(jì)鑒別能力的度量,H(Si)越小,表示該峰 的預(yù)計(jì)鑒別能力越強(qiáng)。使用上述方法計(jì)算所有候選離子i的H(Si),選擇使得H(Si)最小的 候選離子i用于產(chǎn)生下一級(jí)質(zhì)譜。
[0094] 步驟322可用公式表示如下;計(jì)算
[0100] 其中t表示在當(dāng)前鑒定結(jié)果中有t個(gè)具有分類能力的候選離子峰;
[0101] m表示在當(dāng)前鑒定結(jié)果中有m個(gè)未能區(qū)分的候選結(jié)構(gòu);
[010引n表示使用離子i產(chǎn)生下一級(jí)質(zhì)譜,最多可W產(chǎn)生n種可能形態(tài)的質(zhì)譜;
[0103] S康示由離子i產(chǎn)生的質(zhì)譜;
[0104] sw表示第i個(gè)離子產(chǎn)生的第j種可能可能質(zhì)譜;
[01化]H(Sw)表示使用離子i產(chǎn)生的下一級(jí)質(zhì)譜的第j種可能譜Sw用于糖結(jié)構(gòu)鑒定得 到的信息滴;
[0106]sS…,sM表示已產(chǎn)生的質(zhì)譜數(shù)據(jù);如前文所述,M是已經(jīng)得到的實(shí)驗(yàn)質(zhì)譜的數(shù)目。
[0107]Gk表示第k個(gè)候選糖結(jié)構(gòu);
[0108]P(Gk|si,…,sM)表示利用本次鑒定已產(chǎn)生的質(zhì)譜數(shù)據(jù)鑒定為糖結(jié)構(gòu)Gk的先驗(yàn)概 率.
[0109]P(Gkk,j,si,…,sM)表示利用質(zhì)譜Sy結(jié)合本次鑒定已產(chǎn)生的質(zhì)譜數(shù)據(jù)可鑒定出 樣品對(duì)應(yīng)的糖結(jié)構(gòu)為Gk的概率。
[0110] 在另一個(gè)優(yōu)選實(shí)施例中,所述步驟322中在計(jì)算出各個(gè)候選離子的信息滴后,綜 合使用信息滴和離子豐度,選擇用于產(chǎn)生下一級(jí)譜的離子。滴最小的離子產(chǎn)生的質(zhì)譜,理論 上對(duì)于區(qū)分候選結(jié)構(gòu)提供的信息量是最大的。但是,在實(shí)際的實(shí)驗(yàn)譜中,有時(shí)候理論上最優(yōu) 的離子對(duì)應(yīng)的離子豐度很低,該樣可能會(huì)導(dǎo)致用它來產(chǎn)生下一級(jí)實(shí)驗(yàn)譜的效果不好。所W, 本實(shí)施例中選擇滴較小的離子的同時(shí)還保證離子豐度足夠高。為此,設(shè)定一個(gè)豐度闊值,在 超過該豐度闊值的離子中選擇滴較小的離子作為產(chǎn)生下一級(jí)譜的離子。
[0111] 本發(fā)明采用層次貝葉斯模型將已有的實(shí)驗(yàn)質(zhì)譜信息W先驗(yàn)概率的方式,有機(jī)融合 入下一次新的質(zhì)譜實(shí)驗(yàn)中;采用信息滴來獲得最優(yōu)打譜路徑;最終通過糖類樣品的多級(jí)質(zhì) 譜的譜譜比較,逐步縮小鑒定結(jié)果范圍,直到篩選出唯一鑒定結(jié)果。該種方案克服了現(xiàn)有 技術(shù)的多級(jí)質(zhì)譜策略的缺陷,理論上能夠W最少的打譜次數(shù)提供盡可能多的糖結(jié)構(gòu)碎裂信 息,提升了糖結(jié)構(gòu)同分異構(gòu)體的鑒定準(zhǔn)確度,同時(shí)也降低了多級(jí)質(zhì)譜的鑒定開銷。
[0112] 進(jìn)一步地,W下給出了基于本發(fā)明的綜合使用信息滴和離子豐度進(jìn)行離子選擇的 實(shí)施例的初步實(shí)驗(yàn)結(jié)果。
[0113] 對(duì)已知糖結(jié)構(gòu)的N-Linked純糖樣品(簡(jiǎn)稱N糖)進(jìn)行多級(jí)質(zhì)譜糖結(jié)構(gòu)鑒定實(shí)驗(yàn), 測(cè)試本發(fā)明優(yōu)選實(shí)施例多級(jí)質(zhì)譜鑒定體系的有效性;測(cè)試本發(fā)明的最優(yōu)打譜路徑算法的有 效性。
[0114] 實(shí)驗(yàn)中所使用的質(zhì)譜儀來自于島津公司生產(chǎn)的MLDI-IT-TOF質(zhì)譜儀AXIM Resonance。N糖樣品來自于Ludger公司。實(shí)驗(yàn)中使用的糖結(jié)構(gòu)庫為Cartbank糖結(jié)構(gòu)數(shù)據(jù) 庫。Cart)bank糖結(jié)構(gòu)數(shù)據(jù)庫由復(fù)雜碳水化合物研究中屯、(^complexcarbohy化ateresearch center,CCRC)于 1986 年開始創(chuàng)建,數(shù)據(jù)庫稱作CC