本發(fā)明涉及譜圖,特別涉及譜圖相似度的計算方法。
背景技術:
譜圖的匹配比對在生物醫(yī)學、化學、物理學等領域中有著廣泛的應用。
在血液細菌感染(菌血癥)的細菌鑒定工作中,由于患者的臨床表現(xiàn)不典型,給感染的診斷帶來困難。目前,臨床上菌血癥診斷的金標準是血液細菌培養(yǎng)法,但血液培養(yǎng)的陽性率極低從而導致延誤治療。相比之下,質(zhì)譜譜圖法準確度高、穩(wěn)定性好、操作簡單,易于臨床推廣。從1990年代起,基質(zhì)輔助激光解析電離源飛行時間質(zhì)譜(MALDI-TOF-MS)被用于細菌鑒定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,Rapid Communications in Mass Spectrometry 1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,Nature Biotechnology 1996,14,1584-1586.]。通過分析不同的細菌,科學家發(fā)現(xiàn)從完整的細菌細胞中可以得到具有指紋特征性的質(zhì)譜圖。通過記錄多種單一純細菌的指紋質(zhì)譜圖可以構(gòu)建細菌鑒定所需的生物特征數(shù)據(jù)庫。之后通過比對臨床樣本中采集的細菌的MALDI-TOF-MS指紋質(zhì)譜圖,可以實現(xiàn)細菌種類的鑒定[A.Croxatto,G.Prod'hom,G.Greub,Fems Microbiology Reviews 2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,Mass Spectrometry Reviews 2013,32,188-217.]。
譜圖匹配也廣泛用于蛋白質(zhì)測序工作。肽段質(zhì)量指紋譜圖(peptide mass fingerprint)匹配法用于蛋白酶解產(chǎn)物的質(zhì)譜分析,根據(jù)數(shù)據(jù)庫中已有蛋白的序列及酶解反應特征可以生成單個蛋白的理論肽段列表暨理論標準譜圖,通過比對實驗譜圖可以實現(xiàn)未知蛋白的鑒定。[Webster J,Oxley D,Methods Mol Biol 2005,310,227-240.]蛋白質(zhì)組學中常使用的“鳥槍法”(shotgun)也是依賴于質(zhì)譜圖的匹配完成的,如基于二級碎片質(zhì)譜圖的肽譜匹配打分和蛋白質(zhì)鑒定。[Fernández-Puente P,Mateos J,Blanco FJ,Ruiz-Romero C,Methods Mol Biol 2014,1156,27-38.]質(zhì)譜匹配已經(jīng)成為當今蛋白質(zhì)鑒定中至關重要的技術手段。
基于譜學方法的檢測、鑒定中最為關鍵的一步是實驗樣本和標準樣本的譜圖匹配。近年來發(fā)展了多種用于譜圖匹配的打分方法。Seongho Kim和Xiang Zhang研究了質(zhì)譜圖相似性打分的夾角余弦法、皮爾森和斯皮爾曼相關系數(shù)法、偏相關與部分相關系數(shù)法。[S.Kim,X.Zhang,Computational&Mathematical Methods in Medicine 2013,9,399-412]但是現(xiàn)有譜圖相似度打分方法靈敏度不高,導致譜圖鑒定的可靠性不足。
技術實現(xiàn)要素:
本發(fā)明為了克服現(xiàn)有技術的至少一個不足,提供一種譜圖相似度的計算方法,以實現(xiàn)鑒定可靠性高的目的。
為了實現(xiàn)上述目的,本發(fā)明采用以下技術方案:
一種譜圖相似度的計算方法,所述方法包括以下步驟:
一種譜圖相似度算法,它包括以下步驟:
(1)預處理。根據(jù)實驗譜圖得到峰列表,這些峰列表均包含峰值質(zhì)核比x、強度y和半峰寬信息fwhm。隨后對峰強度進行歸一化處理,方法是將峰值表中的強度列同時除以該列表中峰值強度的最大值并乘以100。將處理好的數(shù)據(jù)用于下一步的譜圖匹配打分。
(2)取共峰。針對實驗譜圖的峰列表,在與參考譜圖進行比對時將在實驗譜圖的峰的半峰寬范圍內(nèi)的參考譜圖的峰作為共峰。我們引入表示實驗譜圖i和參考譜圖j取l=lij個共峰后實驗譜圖i中共峰對應的峰值質(zhì)荷比構(gòu)成的向量,表示實驗譜圖i和參考譜圖j取l=lij個共峰后實驗譜圖i中共峰的峰值強度構(gòu)成的向量。
(3)任選下列兩種基于歐氏距離公式中的一種進行相似度打分。相似度打分的詳細過程如下:
(a)相對歐氏距離法。實驗譜圖i與參考譜圖j的一對共峰之間的歐式距離定義為兩共峰的質(zhì)荷比差值和峰值強度差值的平方和的平方根
對該距離進行相對化處理并對沒有匹配為共峰的我們稱之為“罰峰”的峰引入“罰分”機制。相對化處理要求以該組共峰的最大可能歐式距離為除數(shù),該最大可能歐式距離當且僅當共峰中的一支峰強趨近于0,同時兩個峰的質(zhì)荷比差值趨向于fwhmi/2時得到
因此得到該對共峰的相對歐式距離
“罰分”機制旨在突出顯示沒有匹配的“罰峰”對分值的拉低作用,在相對歐式距離法和強度加權(quán)相對歐式距離法中,由于罰峰處的歐式距離即為該組罰峰的最大可能歐式距離,因此該罰峰處的相對歐式距離為1,即對“罰峰”的罰分。經(jīng)過適當變換調(diào)整后的公式為:
式中,ni為實驗譜圖i中的峰個數(shù),nj為參考譜圖j中的峰個數(shù)。
(b)強度加權(quán)相對歐式距離法。該方法是通過求譜圖i和譜圖j的共峰的強度加權(quán)相對歐式距離并且引入對未匹配為共峰的“罰峰”的懲罰分數(shù)實現(xiàn)的,該公式中的權(quán)重系數(shù)為第k組共峰的峰強和占所有峰強度和的比例,公式為
Eu和iEu為兩種獨立的譜圖相似性計算方法,匹配得到的分數(shù)在0到1之間,得分越接近1表示相似度越高,也即峰值之間的相對歐式距離越小。
與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點:
本發(fā)明是一種綜合評價樣品譜圖與標準譜圖相似度的方法,既能反映待評價樣品譜圖與標準譜圖之間共峰的相似性,也考慮了非共峰數(shù)目及其大小對相似度評價的影響,能整體反映譜圖之間的相似程度,該相似度的大小能夠靈敏地表達樣品譜圖與標準譜圖的定性和定量差異,可靠地鑒定待評價樣品。
本發(fā)明中,通過基于歐式距離公式的相似度大小表征待評價樣品與標準樣品間的一致性,相似度越大表示它們的一致性越好;相似度越小,表示它們的差異越大。應用時,可通過經(jīng)驗或有效性試驗確定相似度閾值,凡待評價樣品相似度大于閾值的表示一致性好;根據(jù)相似度的大小也可用于樣品的分類。
為讓本發(fā)明的上述和其它目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合附圖,作詳細說明如下。
附圖說明
圖1為實驗譜圖與參考譜圖一對共峰間的歐式距離euk,最大可能歐式距離eumk,以及相對歐式距離Euk的示意圖。
具體實施方式
下面結(jié)合實施例對本發(fā)明作進一步的說明。
以Basillus subtilis ATCC 6633細菌的實驗譜圖為例,我們根據(jù)上述公式利用R語言和C語言構(gòu)建了細菌質(zhì)譜圖分析程序,上傳1張實驗譜圖后算法程序會將其與數(shù)據(jù)庫中所有的參考譜圖逐一進行相似性比對,并根據(jù)Eu和iEu分值大小排序給出數(shù)據(jù)庫檢索結(jié)果。
表1是該樣品基于相對歐式距離法的數(shù)據(jù)庫檢索結(jié)果,按照相似性得分從高到低列出數(shù)據(jù)庫中與實驗譜圖相似性最高的五張參考譜圖對應的菌株名稱及相應的相似性得分。
表2是該樣品基于強度加權(quán)相對歐式距離法的數(shù)據(jù)庫檢索結(jié)果,按照相似性得分從高到低列出數(shù)據(jù)庫中與實驗譜圖相似性最高的五張參考譜圖對應的菌株名稱及相應的相似性得分。
表1 是樣品基于相對歐式距離法的數(shù)據(jù)庫檢索結(jié)果。
表2 是樣品基于強度加權(quán)相對歐式距離法的數(shù)據(jù)庫檢索結(jié)果。
雖然本發(fā)明已由較佳實施例揭露如上,然而并非用以限定本發(fā)明,任何熟知此技藝者,在不脫離本發(fā)明的精神和范圍內(nèi),可作些許的更動與潤飾,因此本發(fā)明的保護范圍當視權(quán)利要求書所要求保護的范圍為準。