国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種肽段液相色譜保留時(shí)間預(yù)測(cè)方法及系統(tǒng)與流程

      文檔序號(hào):12466609閱讀:747來(lái)源:國(guó)知局

      本發(fā)明涉及生物信息學(xué),液相色譜保留時(shí)間預(yù)測(cè),特別涉及一種肽段液相色譜保留時(shí)間預(yù)測(cè)方法及系統(tǒng)。



      背景技術(shù):

      現(xiàn)有技術(shù)中使用“鳥(niǎo)槍法”鑒定蛋白質(zhì)時(shí),在肽段進(jìn)入質(zhì)譜儀之前,要用色譜法對(duì)其進(jìn)行分離,避免由于肽段數(shù)目過(guò)多,一次性輸入質(zhì)譜儀而造成嚴(yán)重的信號(hào)疊加,肽段在被注入色譜的強(qiáng)度達(dá)到最高時(shí)經(jīng)歷的時(shí)間為保留時(shí)間,保留時(shí)間是獨(dú)立于質(zhì)譜信息之外的另一維重要信息,在一定的反向液相色譜條件下,不同肽段的保留時(shí)間不同,根據(jù)肽段的序列等信息,可以對(duì)肽段在色譜中的保留時(shí)間進(jìn)行預(yù)測(cè),并將保留時(shí)間預(yù)測(cè)結(jié)果與質(zhì)譜信息相結(jié)合,用于提高肽段鑒定結(jié)果的靈敏度或可靠性。

      現(xiàn)有的主要的保留時(shí)間預(yù)測(cè)軟件有SSCalc、BioLCC、Elude等,它們有的只支持特定色譜條件下的預(yù)測(cè),有的不能支持有修飾肽段的預(yù)測(cè),且運(yùn)行效率低下,不能滿足當(dāng)前數(shù)據(jù)處理的要求。

      現(xiàn)有的技術(shù)存在三大問(wèn)題或缺點(diǎn):

      1.現(xiàn)有的技術(shù)能支持不同色譜條件下預(yù)測(cè)保留時(shí)間的較少。當(dāng)色譜條件發(fā)生變化時(shí),肽段的保留時(shí)間會(huì)相應(yīng)發(fā)生變化,原有模型不再適用。

      2.現(xiàn)有的技術(shù)大多針對(duì)常規(guī)的肽段,對(duì)修飾肽段的支持較少。研究發(fā)現(xiàn),特定修飾會(huì)影響肽段的保留時(shí)間,當(dāng)肽段發(fā)生修飾時(shí),現(xiàn)有模型預(yù)測(cè)不準(zhǔn)。

      3.現(xiàn)有的技術(shù)處理數(shù)據(jù)效率不高,如知名軟件Elude在多個(gè)測(cè)試數(shù)據(jù)集上的運(yùn)行時(shí)間普遍在20分鐘以上。

      發(fā)明人在進(jìn)行肽段的色譜保留時(shí)間預(yù)測(cè)研究時(shí),發(fā)現(xiàn)現(xiàn)有技術(shù)往往只支持特定色譜條件下的預(yù)測(cè),并且只支持常規(guī)肽段的預(yù)測(cè),這一方面是由于現(xiàn)有的研究方法比較局限,一些實(shí)驗(yàn)室只研究特定色譜條件下的數(shù)據(jù)集,針對(duì)該數(shù)據(jù)集挑選的參數(shù)不適用于別的色譜條件;一方面是由于研究者沒(méi)有認(rèn)識(shí)到修飾對(duì)肽段保留時(shí)間的重要影響,同時(shí),現(xiàn)有的技術(shù)普遍效率不高,是由于挑選參數(shù)的過(guò)程非常耗時(shí)。

      發(fā)明創(chuàng)造“一種高效液相色譜峰保留時(shí)間預(yù)測(cè)方法”,該發(fā)明涉及一種高效液相色譜峰保留時(shí)間預(yù)測(cè)方法。該方法包括:測(cè)定各種樣品的各種成分的標(biāo)準(zhǔn)保留時(shí)間,在每個(gè)樣品的目標(biāo)成分中選擇兩個(gè)成分作為該樣品的雙標(biāo)對(duì)照成分,獲得雙標(biāo)對(duì)照成分在待測(cè)樣品的供試品溶液中的實(shí)測(cè)保留時(shí)間,獲得其他目標(biāo)成分的實(shí)測(cè)保留時(shí)間,進(jìn)行兩點(diǎn)驗(yàn)證和多點(diǎn)驗(yàn)證等步驟。采用該發(fā)明提供的高效液相色譜峰保留時(shí)間預(yù)測(cè)方法能夠準(zhǔn)確預(yù)測(cè)待測(cè)樣品的各種成分的色譜峰的保留時(shí)間,進(jìn)而對(duì)待測(cè)樣品的色譜峰進(jìn)行定性,進(jìn)行待測(cè)樣品的鑒別。該發(fā)明所提供的方法具有較高的預(yù)測(cè)精度,適用的色譜柱數(shù)量多,明顯優(yōu)于現(xiàn)有的相對(duì)保留時(shí)間法。該發(fā)明通過(guò)測(cè)定各種樣品成分的標(biāo)準(zhǔn)保留時(shí)間,利用標(biāo)記對(duì)照成分在待測(cè)樣品中的實(shí)驗(yàn)保留時(shí)間,推算其他目標(biāo)成分相對(duì)的保留時(shí)間,與本發(fā)明不同,本發(fā)明不需要選擇標(biāo)記成分,只要獲得色譜實(shí)驗(yàn)中任意一部分肽段的實(shí)驗(yàn)保留時(shí)間,就能預(yù)測(cè)出已知序列肽段的保留時(shí)間,更加一般化。

      發(fā)明創(chuàng)造“一種預(yù)測(cè)反相高效液相色譜梯度洗脫模式保留時(shí)間的方法”,該方法獲取描述流動(dòng)相組成和容量因子關(guān)系的保留方程;運(yùn)用塔板理論對(duì)線性多階梯度洗脫條件近似處理,獲取第i階段梯度洗脫的起始體積分?jǐn)?shù)和對(duì)應(yīng)的保留因子ki;通過(guò)起始體積分?jǐn)?shù)和對(duì)應(yīng)的保留因子ki獲取待測(cè)化合物在流動(dòng)相中的濃度,根據(jù)待測(cè)化合物在流動(dòng)相中的濃度計(jì)算出待測(cè)化合物保留時(shí)間。該方法高精度的預(yù)測(cè)出任意梯度條件下的保留時(shí)間,且預(yù)測(cè)過(guò)程簡(jiǎn)單;通過(guò)三個(gè)實(shí)施例驗(yàn)證了該方法的可行性,且當(dāng)保留時(shí)間考慮儀器的滯留時(shí)間時(shí),進(jìn)一步提高了保留時(shí)間的精度。該發(fā)明基于塔板理論,使用人工構(gòu)造的保留方程預(yù)測(cè)保留時(shí)間,屬于使用實(shí)驗(yàn)參數(shù)構(gòu)造經(jīng)驗(yàn)公式的方法,與本發(fā)明不同,本發(fā)明不需要構(gòu)造經(jīng)驗(yàn)公式,通過(guò)分析并使用多維特征描述實(shí)驗(yàn)肽段在該色譜條件下的理化性質(zhì),就可以預(yù)測(cè)待測(cè)肽段的保留時(shí)間。



      技術(shù)實(shí)現(xiàn)要素:

      針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種肽段液相色譜保留時(shí)間預(yù)測(cè)方法及系統(tǒng)。

      本發(fā)明提出一種肽段液相色譜保留時(shí)間預(yù)測(cè)方法,包括:

      步驟1,對(duì)原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對(duì)于所述鑒定結(jié)果中FDR小于1%的來(lái)自目標(biāo)庫(kù)的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測(cè)試樣本;

      步驟2,使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);

      步驟3,對(duì)所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;

      步驟4,建立預(yù)測(cè)模型,對(duì)所述測(cè)試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測(cè)。

      所述步驟1包括:

      步驟11,根據(jù)修飾位點(diǎn),對(duì)肽段分別進(jìn)行處理;

      步驟12,對(duì)于同一條肽段對(duì)應(yīng)多張二級(jí)譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;

      步驟13,提取實(shí)驗(yàn)保留時(shí)間時(shí),對(duì)于給定質(zhì)荷比的肽段,在連續(xù)的一級(jí)譜圖上查找其信號(hào),并記錄所述信號(hào)的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號(hào)的起止點(diǎn),將最高強(qiáng)度對(duì)應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;

      步驟24,在處理每條肽段的過(guò)程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲(chǔ)。

      所述步驟2包括:

      步驟21,將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:

      T=∑(Ri*Ni)+b+ε

      其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;

      步驟22,為了避免梯度下降的步長(zhǎng)過(guò)小,造成收斂速度慢,以及步長(zhǎng)過(guò)大,導(dǎo)致不收斂,經(jīng)過(guò)測(cè)試,現(xiàn)將步長(zhǎng)設(shè)置為0.000001。

      所述步驟4中建立所述建立預(yù)測(cè)模型的步驟包括:

      步驟41,根據(jù)所述特征值,建立預(yù)測(cè)模型,如下所示:

      <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

      約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測(cè)保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測(cè)模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;

      步驟42,若所述測(cè)試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。

      本發(fā)明還提出一種肽段液相色譜保留時(shí)間預(yù)測(cè)系統(tǒng),包括:匹配模塊,對(duì)原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對(duì)于所述鑒定結(jié)果中FDR小于1%的來(lái)自目標(biāo)庫(kù)的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測(cè)試樣本;

      建立多元線性回歸模型模塊,用于使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);

      計(jì)算特征值模塊,用于對(duì)所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;

      建立預(yù)測(cè)模型模塊,用于建立預(yù)測(cè)模型,對(duì)所述測(cè)試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測(cè)。

      所述匹配模塊包括:

      根據(jù)修飾位點(diǎn),對(duì)肽段分別進(jìn)行處理;

      對(duì)于同一條肽段對(duì)應(yīng)多張二級(jí)譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;

      提取實(shí)驗(yàn)保留時(shí)間時(shí),對(duì)于給定質(zhì)荷比的肽段,在連續(xù)的一級(jí)譜圖上查找其信號(hào),并記錄所述信號(hào)的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號(hào)的起止點(diǎn),將最高強(qiáng)度對(duì)應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;

      在處理每條肽段的過(guò)程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲(chǔ)。

      所述建立多元線性回歸模型模塊包括:

      將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:

      T=Σ(Ri*Ni)+b+ε

      其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;

      為了避免梯度下降的步長(zhǎng)過(guò)小,造成收斂速度慢,以及步長(zhǎng)過(guò)大,導(dǎo)致不收斂,經(jīng)過(guò)測(cè)試,現(xiàn)將步長(zhǎng)設(shè)置為0.000001。

      所述建立預(yù)測(cè)模型模塊中建立所述建立預(yù)測(cè)模型的步驟包括

      根據(jù)所述特征值,建立預(yù)測(cè)模型,如下所示:

      <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

      約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測(cè)保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測(cè)模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;

      若所述測(cè)試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。

      由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:

      本發(fā)明能夠自動(dòng)化調(diào)節(jié)模型核心參數(shù)的策略,一方面可以用于不同色譜條件下帶有修飾的肽段的保留時(shí)間預(yù)測(cè),一方面大大提升了速度,在不同的數(shù)據(jù)集合上與Elude對(duì)比,速度加快了30倍以上。

      附圖說(shuō)明

      圖1為本發(fā)明流程圖。

      具體實(shí)施方式

      本發(fā)明的技術(shù)方案可以分為五個(gè)步驟:

      步驟1,使用pFind 3(pFind是目前國(guó)內(nèi)唯一的具有自主知識(shí)產(chǎn)權(quán)的蛋白質(zhì)鑒定引擎)對(duì)原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,對(duì)于該質(zhì)譜數(shù)據(jù)文件中的每張一級(jí)譜圖,得到對(duì)應(yīng)的肽段鑒定結(jié)果,即肽譜匹配。

      步驟2,對(duì)于鑒定結(jié)果中FDR(False Discovery Rate,錯(cuò)誤發(fā)現(xiàn)率)小于1%的來(lái)自目標(biāo)庫(kù)的肽譜匹配,提取相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并將其隨機(jī)等份地分為不相交的兩部分,分別是訓(xùn)練樣本和測(cè)試樣本。pFind 3通過(guò)目標(biāo)-誘餌庫(kù)方法控制譜圖層面的FDR,取FDR小于1%的來(lái)自目標(biāo)庫(kù)的肽譜匹配,表示期望肽譜匹配中至少有99%的結(jié)果是正確的,即可信肽譜匹配,可用于訓(xùn)練和測(cè)試。

      步驟3,使用訓(xùn)練樣本,將帶有修飾的氨基酸當(dāng)做“新氨基酸”,建立多元線性回歸模型,使用梯度下降的方法求解每種氨基酸的保留系數(shù)。

      步驟4,對(duì)于訓(xùn)練集中的每條肽段,提取56維特征,計(jì)算相應(yīng)的特征值。

      步驟5,使用SVR方法建立預(yù)測(cè)模型,對(duì)測(cè)試集中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測(cè)。

      所述步驟2中還包括

      步驟21,對(duì)于修飾位點(diǎn)不同的肽段,當(dāng)做不同肽段處理。

      步驟22,對(duì)于同一條肽段對(duì)應(yīng)多張二級(jí)譜圖的情況,選取得分最高的肽段,提取它的實(shí)驗(yàn)保留時(shí)間。

      步驟23,提取實(shí)驗(yàn)保留時(shí)間時(shí),對(duì)于給定質(zhì)荷比的肽段,在連續(xù)的一級(jí)譜圖上查找它的信號(hào),記錄當(dāng)前的最高強(qiáng)度,當(dāng)強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止,確定信號(hào)的起止點(diǎn),將最高強(qiáng)度對(duì)應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間。

      步驟24,在處理每條肽段的過(guò)程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,記錄在文本文件中。

      所述步驟3還包括

      步驟31,將步驟2中統(tǒng)計(jì)的修飾作為新的基團(tuán),將帶有修飾的氨基酸當(dāng)做“新氨基酸”,和現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,使用梯度下降的方法求解。多元線性回歸公式如下:

      T=∑(Ri*Ni)+b+ε

      其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),是待求解的值,Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差。Ri可以取正值和負(fù)值,取負(fù)值時(shí)代表縮短肽段的保留時(shí)間,取正值時(shí)代表延長(zhǎng)肽段的保留時(shí)間,T為訓(xùn)練集中的肽段的實(shí)驗(yàn)保留時(shí)間。

      步驟32,為了避免梯度下降的步長(zhǎng)過(guò)小,造成收斂速度慢,以及步長(zhǎng)過(guò)大,導(dǎo)致不收斂,經(jīng)過(guò)測(cè)試,現(xiàn)將步長(zhǎng)設(shè)置為0.000001。

      所述步驟4中還包括

      步驟41,對(duì)于每一條肽段,計(jì)算56維特征,如表1所示。

      表1預(yù)測(cè)模型中應(yīng)用的特征

      a帶*號(hào)的特征在計(jì)算時(shí)需要使用氨基酸的保留系數(shù),當(dāng)數(shù)據(jù)集中全部為常規(guī)肽段,不用處理修飾時(shí),這些特征分別使用步驟3中得到的保留系數(shù)和Kyte-Doolittle疏水性進(jìn)行計(jì)算。當(dāng)數(shù)據(jù)集中包含有修飾的肽段時(shí),只使用步驟3中得到的保留系數(shù)進(jìn)行計(jì)算。#表示特征維數(shù)與新氨基酸的種類有關(guān),為20加上參與計(jì)算的“新氨基酸”的種類。

      所述步驟5中還包括

      步驟51,用上述56維特征訓(xùn)練SVR模型。SVR模型的目標(biāo)函數(shù)如下:

      <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

      約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n。其中ε≥0,表示預(yù)測(cè)保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi為預(yù)測(cè)模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間。||yi-(wTxi+b)||≤ε表示預(yù)測(cè)保留時(shí)間和實(shí)際時(shí)間之間相差必須小于ε。

      步驟52,若測(cè)試集中出現(xiàn)了訓(xùn)練集中未出現(xiàn)的修飾,將帶有修飾的氨基酸按照常規(guī)的氨基酸處理,防止程序崩潰。

      本發(fā)明還提出一種肽段液相色譜保留時(shí)間預(yù)測(cè)系統(tǒng),包括:

      匹配模塊,用于對(duì)原始質(zhì)譜數(shù)據(jù)文件進(jìn)行搜索,獲取肽段-譜圖匹配作為鑒定結(jié)果,對(duì)于所述鑒定結(jié)果中FDR小于1%的來(lái)自目標(biāo)庫(kù)的肽段-譜圖匹配,提取肽段-譜圖匹配中相應(yīng)肽段的實(shí)驗(yàn)保留時(shí)間,并設(shè)置訓(xùn)練樣本與測(cè)試樣本;

      建立多元線性回歸模型模塊,用于使用所述訓(xùn)練樣本,將帶有修飾的氨基酸作為新氨基酸,建立多元線性回歸模型,使用梯度下降法求解每種氨基酸的保留系數(shù);

      計(jì)算特征值模塊,用于對(duì)所述訓(xùn)練樣本中的每條肽段,提取56維特征,并計(jì)算相應(yīng)的特征值;

      建立預(yù)測(cè)模型模塊,用于建立預(yù)測(cè)模型,對(duì)所述測(cè)試樣本中已知序列的肽段進(jìn)行保留時(shí)間預(yù)測(cè)。

      所述匹配模塊包括:

      根據(jù)修飾位點(diǎn),對(duì)肽段分別進(jìn)行處理;

      對(duì)于同一條肽段對(duì)應(yīng)多張二級(jí)譜圖的情況,選取得分最高的肽段,提取實(shí)驗(yàn)保留時(shí)間;

      提取實(shí)驗(yàn)保留時(shí)間時(shí),對(duì)于給定質(zhì)荷比的肽段,在連續(xù)的一級(jí)譜圖上查找其信號(hào),并記錄所述信號(hào)的最高強(qiáng)度,當(dāng)前強(qiáng)度小于最高強(qiáng)度的10%時(shí)停止查找,確定信號(hào)的起止點(diǎn),將最高強(qiáng)度對(duì)應(yīng)的時(shí)間作為肽段的實(shí)驗(yàn)保留時(shí)間;

      在處理每條肽段的過(guò)程中,統(tǒng)計(jì)出現(xiàn)修飾的名稱和頻率,并進(jìn)行存儲(chǔ)。

      所述建立多元線性回歸模型模塊包括:

      將所述新氨基酸與現(xiàn)有的20種自然界中存在的氨基酸一起,構(gòu)造多元線性回歸公式,所述多元線性回歸公式如下:

      T=∑(Ri*Ni)+b+ε

      其中,Ri表示組成肽段的各種氨基酸的保留系數(shù),Ni為各種氨基酸的個(gè)數(shù),b為死時(shí)間,ε為隨機(jī)誤差;

      為了避免梯度下降的步長(zhǎng)過(guò)小,造成收斂速度慢,以及步長(zhǎng)過(guò)大,導(dǎo)致不收斂,經(jīng)過(guò)測(cè)試,現(xiàn)將步長(zhǎng)設(shè)置為0.000001。

      所述建立預(yù)測(cè)模型模塊中建立所述建立預(yù)測(cè)模型的步驟包括

      根據(jù)所述特征值,建立預(yù)測(cè)模型,如下所示:

      <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

      約束條件為||yi-(wTxi+b)||≤ε,i=1,…,n,其中ε≥0,ε表示預(yù)測(cè)保留時(shí)間和實(shí)際保留時(shí)間之間最大的差距;yi表示實(shí)際保留時(shí)間;xi表示所述預(yù)測(cè)模型中各維特征的取值;w表示各維特征的權(quán)重,wT為w的轉(zhuǎn)置矩陣;b表示死時(shí)間;

      若所述測(cè)試樣本中出現(xiàn)所述訓(xùn)練樣本中未出現(xiàn)的修飾,則將帶有所述未出現(xiàn)的修飾的氨基酸按照常規(guī)的氨基酸處理。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1