基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法與流程

文檔序號(hào)：12011934閱讀：380來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法與流程

本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域，涉及一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法。

背景技術(shù)：
眾所周知，不同的蛋白質(zhì)對(duì)生物有機(jī)體生命活動(dòng)的作用各有不同，重要性也各不相同。一般來(lái)說(shuō)，在蛋白質(zhì)相互作用網(wǎng)絡(luò)中維持生物機(jī)體生命活動(dòng)所必需的蛋白質(zhì)被認(rèn)為是關(guān)鍵蛋白質(zhì)。關(guān)鍵蛋白質(zhì)的缺失將導(dǎo)致細(xì)胞死亡或者無(wú)法復(fù)制繁殖。關(guān)鍵蛋白質(zhì)的識(shí)別可以促進(jìn)藥物標(biāo)靶技術(shù)的發(fā)展【注釋：藥物靶標(biāo)是指體內(nèi)具有藥效功能并能被藥物作用的生物大分子，如某些蛋白質(zhì)和核酸等生物大分子。那些編碼靶標(biāo)蛋白的基因也被稱為靶標(biāo)基因。事先確定靶向特定疾病有關(guān)的靶標(biāo)分子是現(xiàn)代新藥開(kāi)發(fā)的基礎(chǔ)。更通俗地講，就是使用某種藥物作用在生物大分子上，影響該生物大分子，從而對(duì)疾病產(chǎn)生療效。這個(gè)生物大分子就是藥物靶標(biāo)。】。由于關(guān)鍵蛋白質(zhì)的剔除、打斷或者阻塞都可能導(dǎo)致生物體的死亡。因此，在目前抗菌素普遍存在抗藥性和藥物毒性問(wèn)題的背景下，研究一些細(xì)菌病毒的關(guān)鍵蛋白質(zhì)，有助于研發(fā)新的抗菌藥物。關(guān)鍵蛋白質(zhì)的識(shí)別還有助于合成生物研究的發(fā)展。合成生物的目標(biāo)是找出最小的能執(zhí)行特定任務(wù)的基因組。在2010年，J.CraigVenter學(xué)會(huì)的研究人員移除絲狀支原體的所有非關(guān)鍵基因，創(chuàng)造第一個(gè)具有自我復(fù)制功能的人造細(xì)菌，稱作JCVI-syn1.0。目前，識(shí)別關(guān)鍵蛋白質(zhì)的生物實(shí)驗(yàn)方法，例如單個(gè)基因敲除，RNA干擾和有條件基因敲除等，既浪費(fèi)時(shí)間又效率低下，而且只能在少量物種上實(shí)行。因此，迫切需要有效的計(jì)算方法來(lái)降低實(shí)驗(yàn)的成本，提高實(shí)驗(yàn)效率。隨著高通量的蛋白質(zhì)相互作用數(shù)據(jù)的積累，利用蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)識(shí)別關(guān)鍵蛋白質(zhì)成為了目前的研究熱點(diǎn)。根據(jù)對(duì)一些物種的觀察，如酵母，線蟲(chóng)和果蠅等，蛋白質(zhì)相互作用網(wǎng)絡(luò)中擁有高度的蛋白質(zhì)結(jié)點(diǎn)更有可能是關(guān)鍵蛋白質(zhì)。從拓?fù)涞慕嵌葋?lái)看，高度連接的蛋白質(zhì)結(jié)點(diǎn)可以維持蛋白質(zhì)相互作用網(wǎng)絡(luò)的基本特征，如果刪除這些蛋白質(zhì)結(jié)點(diǎn)將會(huì)引起整個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)的崩潰；從生物學(xué)的角度來(lái)看，這些高度連接的蛋白質(zhì)結(jié)點(diǎn)一般保證了蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能完整性。這種現(xiàn)象被認(rèn)為是生物網(wǎng)絡(luò)中普遍存在的“中心性-致死性”法則。該法則表明蛋白質(zhì)相互作用網(wǎng)絡(luò)中某一蛋白質(zhì)結(jié)點(diǎn)的拓?fù)涮卣髋c蛋白質(zhì)的關(guān)鍵性之間密切相關(guān)。近年來(lái)，一些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ū惶岢鰜?lái)識(shí)別關(guān)鍵蛋白質(zhì)，例如度中心性(DegreeCentrality,DC),介數(shù)中心性(BetweennessCentrality,BC)，接近性中心性(ClosenessCentrality,CC),子圖中心性(SubgraphCentrality,SC),特征向量中心(EigenvectorCentrality,EC),信息中心性(InformationCentrality,IC)和鄰居中心性(NeighborCentrality,NC)等等。這些方法對(duì)蛋白質(zhì)在相互作用網(wǎng)絡(luò)中的中心性進(jìn)行打分，然后將這些得分進(jìn)行排序來(lái)判斷蛋白質(zhì)是否是關(guān)鍵蛋白質(zhì)。這類方法的優(yōu)點(diǎn)是不需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì)來(lái)訓(xùn)練分類器，而是直接通過(guò)給蛋白質(zhì)打分來(lái)預(yù)測(cè)關(guān)鍵蛋白質(zhì)。這些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ǖ年P(guān)鍵蛋白質(zhì)預(yù)測(cè)準(zhǔn)確性依賴于蛋白質(zhì)相互作用網(wǎng)絡(luò)的可靠性。然而，目前可以得到的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)是不完整的，包含很多假陽(yáng)性和假陰性。這些會(huì)影響關(guān)鍵蛋白質(zhì)識(shí)別的準(zhǔn)確性。隨著高通量生物數(shù)據(jù)的增多，最近一些研究者試圖結(jié)合其它生物信息來(lái)提高識(shí)別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率。例如，Li等人通過(guò)考慮基因的功能注釋，構(gòu)建了一個(gè)加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)，通過(guò)集成網(wǎng)絡(luò)拓?fù)涮卣髋c基因表達(dá)信息提出了PeC方法。除此之外，基于機(jī)器學(xué)習(xí)的方法也被用來(lái)預(yù)測(cè)關(guān)鍵蛋白質(zhì)，常用的特征有GC內(nèi)容、蛋白質(zhì)長(zhǎng)度、ORF長(zhǎng)度等。例如，Acencio等人提出的基于機(jī)器學(xué)習(xí)的方法結(jié)合網(wǎng)絡(luò)的拓?fù)涮卣?、生物過(guò)程信息以及細(xì)胞定位等來(lái)識(shí)別關(guān)鍵蛋白質(zhì)。這些機(jī)器學(xué)習(xí)的方法通過(guò)學(xué)習(xí)一個(gè)物種中一些已知的關(guān)鍵蛋白質(zhì)的特征，訓(xùn)練出一個(gè)分類器，然后利用這個(gè)分類器來(lái)識(shí)別該物種或其它物種中的關(guān)鍵蛋白質(zhì)。機(jī)器學(xué)習(xí)方法需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì)，其性能取決于分類器的性能以及訓(xùn)練物種與預(yù)測(cè)物種之間的距離。上述各類方法從不同的角度解決了關(guān)鍵蛋白質(zhì)識(shí)別存在的一些問(wèn)題。然而，由于可利用的蛋白質(zhì)相互作用數(shù)據(jù)存在噪聲等因素，基于網(wǎng)絡(luò)水平的關(guān)鍵蛋白質(zhì)識(shí)別還存在很多挑戰(zhàn)。公開(kāi)號(hào)為102176223A的發(fā)明專利公開(kāi)了一種基于關(guān)鍵蛋白質(zhì)和局部適應(yīng)的蛋白質(zhì)復(fù)合物識(shí)別方法，其核心構(gòu)思是基于蛋白質(zhì)相互作用無(wú)向圖，并以關(guān)鍵蛋白質(zhì)為種子對(duì)關(guān)鍵蛋白質(zhì)進(jìn)行識(shí)別，這種方法雖然效果較佳，但是受制于種子的選擇，因此對(duì)于未知的蛋白質(zhì)識(shí)別難度較大。公開(kāi)號(hào)為102841985A的發(fā)明專利公開(kāi)了一種基于結(jié)構(gòu)域特征的關(guān)鍵蛋白質(zhì)識(shí)別方法【申請(qǐng)?zhí)枮?01210282873.7】，其核心構(gòu)思在于，基于首先通過(guò)數(shù)據(jù)庫(kù)或進(jìn)行蛋白質(zhì)序列分析等得到結(jié)構(gòu)域信息，在結(jié)構(gòu)域信息基礎(chǔ)上統(tǒng)計(jì)各個(gè)結(jié)構(gòu)域類型在蛋白質(zhì)中出現(xiàn)次數(shù)，通過(guò)統(tǒng)計(jì)結(jié)果計(jì)算每個(gè)蛋白質(zhì)的權(quán)重，權(quán)重越大蛋白質(zhì)成為關(guān)鍵蛋白質(zhì)的可能性越大。該方法簡(jiǎn)單有效，且僅基于蛋白質(zhì)結(jié)構(gòu)域信息，不依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)信息等，避免了生物實(shí)驗(yàn)所消耗的大量人力物力。通過(guò)與隨機(jī)方法比較，該方法能夠較準(zhǔn)確的識(shí)別關(guān)鍵蛋白質(zhì)。然而由于結(jié)構(gòu)域信息存在不完整性，會(huì)使得預(yù)測(cè)結(jié)果出現(xiàn)偏差。例如，一些的結(jié)構(gòu)域頻率低，并不是因?yàn)檎嬲哂嘘P(guān)鍵性，而是由于沒(méi)有測(cè)得這些結(jié)構(gòu)域在這個(gè)物種中所有蛋白質(zhì)中的完整分布所致。公開(kāi)號(hào)為101051335公開(kāi)了一種利用計(jì)算機(jī)模擬蛋白質(zhì)相互作用的方法【申請(qǐng)?zhí)枺?00710015493.6】，該方法只是通過(guò)計(jì)算機(jī)軟件來(lái)模擬蛋白質(zhì)相互作用，并不涉及到蛋白質(zhì)的識(shí)別。因此，有必要設(shè)計(jì)一種新型的關(guān)鍵蛋白質(zhì)識(shí)別方法。

技術(shù)實(shí)現(xiàn)要素：
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法，該基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法在關(guān)鍵蛋白質(zhì)的識(shí)別方面準(zhǔn)確性高、敏感度高。發(fā)明的技術(shù)解決方案如下：一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法，包括以下步驟：步驟1：建立亞細(xì)胞定位的蛋白質(zhì)相互作用子網(wǎng)；輸入一組蛋白質(zhì)的亞細(xì)胞定位信息和一組蛋白質(zhì)相互作用數(shù)據(jù)，其中蛋白質(zhì)的亞細(xì)胞定位信息包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡共11種亞細(xì)胞定位信息；首先在蛋白質(zhì)相互作用數(shù)據(jù)中去掉重復(fù)相互作用和自相互作用的數(shù)據(jù)；然后依據(jù)亞細(xì)胞定位信息以及經(jīng)過(guò)上述處理后的蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)建11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)；步驟2：衡量各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度；根據(jù)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的規(guī)模(子網(wǎng)的規(guī)模指子網(wǎng)中包含的蛋白質(zhì)數(shù)目)，給每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行打分，可信度的計(jì)算公式如下：其中，|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目，|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目，Smax是包含有最多蛋白質(zhì)的子網(wǎng)；步驟3：計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分：將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0；基于蛋白質(zhì)在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性得分以及不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度，按可信度的從高到底依次更新各個(gè)子網(wǎng)中的蛋白質(zhì)的關(guān)鍵性綜合得分；關(guān)鍵性綜合得分的更新公式為：對(duì)于該公式的解釋和說(shuō)明：由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的，當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過(guò)的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度，因此，更新關(guān)鍵性綜合得分的規(guī)則為，當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí)，其關(guān)鍵性綜合得分C_Ess(p)保持不變；而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí)，關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值；其中，S_Ess(Si,p)是采用中心性方法在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si上計(jì)算的蛋白質(zhì)p的關(guān)鍵性得分；P(Si)為子網(wǎng)Si的蛋白質(zhì)關(guān)鍵性得分的可信度；(例如當(dāng)采用DC中心性方法時(shí)，S_Ess(Si,p)等于蛋白質(zhì)p在子網(wǎng)Si中連接的邊的條數(shù))步驟4：輸出結(jié)果：對(duì)細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分排序并輸出排序結(jié)果。不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)從COMPARTMENTS數(shù)據(jù)庫(kù)中獲得，蛋白質(zhì)相互作用數(shù)據(jù)從公共數(shù)據(jù)庫(kù)中獲得，所述的公共數(shù)據(jù)庫(kù)包括DIP和Biogrid數(shù)據(jù)庫(kù)。COMPARTMENTS數(shù)據(jù)庫(kù)整合了來(lái)自UniProtKB，MGI，SGD，F(xiàn)lyBase，WormBase等數(shù)據(jù)庫(kù)的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息，涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫(kù)里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。有益效果：本發(fā)明基于對(duì)關(guān)鍵蛋白質(zhì)在不同亞細(xì)胞定位的分布的差異性和特異性，提出了一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)，利用蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)和相互作用數(shù)據(jù)構(gòu)建了蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)，分別對(duì)每個(gè)子網(wǎng)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分，通過(guò)對(duì)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量，并結(jié)合各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)進(jìn)行蛋白質(zhì)的關(guān)鍵性預(yù)測(cè)來(lái)計(jì)算蛋白質(zhì)的關(guān)鍵性綜合得分。本發(fā)明簡(jiǎn)單易用，試驗(yàn)表明，與已有的基于網(wǎng)絡(luò)拓?fù)涮卣鞯年P(guān)鍵蛋白質(zhì)識(shí)別方法相比較，本發(fā)明提出的方法在預(yù)測(cè)的準(zhǔn)確性、與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面都有明顯提高，能為生物學(xué)家進(jìn)行關(guān)鍵蛋白質(zhì)識(shí)別的實(shí)驗(yàn)和進(jìn)一步研究提供有價(jià)值的參考信息。附圖說(shuō)明圖1：各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)的數(shù)目圖2：各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中多定位關(guān)鍵蛋白質(zhì)以及特異性關(guān)鍵蛋白質(zhì)的數(shù)目比圖3：本發(fā)明LSED的流程圖；圖4：在酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)上不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)時(shí)，方法LSED和6種拓?fù)渲行男苑椒ㄗR(shí)別關(guān)鍵蛋白質(zhì)的數(shù)量的比較圖；圖a-f分別是比例為1％、5％、10％、15％、20％、25％時(shí)的對(duì)比圖。圖5：方法LSED和6種拓?fù)渲行男苑椒ㄅcLSED-NC的ROC曲線的比較圖；圖a-f分別為DC與LSED-DC,IC與LSED-IC,EC與LSED-EC，SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線的比較圖；圖6：方法LSED和6種拓?fù)渲行男苑椒ɑ趈ackknife曲線的比較圖；圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC，SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。圖7：方法LSED和6種拓?fù)渲行男苑椒ㄗR(shí)別的蛋白質(zhì)重疊性和差異性比較；具體實(shí)施方式以下將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明：實(shí)施例1：(1)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)構(gòu)建及關(guān)鍵蛋白質(zhì)的分布特性分析不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)可以從COMPARTMENTS數(shù)據(jù)庫(kù)中獲得。COMPARTMENTS數(shù)據(jù)庫(kù)整合了來(lái)自UniProtKB，MGI，SGD，F(xiàn)lyBase，WormBase等數(shù)據(jù)庫(kù)的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息，涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫(kù)里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。目前研究最為廣泛的物種是酵母，其蛋白質(zhì)相互作用網(wǎng)絡(luò)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)在眾多物種中是最為完整和可靠的，因此，首先基于酵母的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和實(shí)驗(yàn)驗(yàn)證。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)自于DIP數(shù)據(jù)庫(kù)2010年10月的數(shù)據(jù)。除去自相互作用和重復(fù)的相互作用，總共有5093個(gè)蛋白質(zhì)，24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來(lái)自COMPARTMENTS數(shù)據(jù)庫(kù)，酵母蛋白質(zhì)分別被11種亞細(xì)胞定位注釋，其中包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡等亞細(xì)胞定位。關(guān)鍵蛋白質(zhì)信息來(lái)源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫(kù)。在5093個(gè)蛋白質(zhì)中1167個(gè)為關(guān)鍵蛋白質(zhì)，剩余3926個(gè)蛋白質(zhì)視作非關(guān)鍵蛋白質(zhì)。將DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位，一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。每個(gè)子網(wǎng)由被這種亞細(xì)胞定位注釋的蛋白質(zhì)以及它們之間的相互作用構(gòu)成。經(jīng)過(guò)這種映射，包含分別位于兩個(gè)不同的亞細(xì)胞定位的蛋白質(zhì)的相互作用被丟掉了，這使得任何一個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中相互作用的蛋白質(zhì)都處于同一亞細(xì)胞定位，從而保證了蛋白質(zhì)相互作用的發(fā)生。我們統(tǒng)計(jì)了各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)分布以及關(guān)鍵蛋白質(zhì)分布，如圖1所示。從圖1可以看出，不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量存在很大的差異性。其中，處于蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量都顯著高于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。從圖1還可以發(fā)現(xiàn)，不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵蛋白質(zhì)與非關(guān)鍵蛋白質(zhì)的比例存在較大差異；關(guān)鍵蛋白質(zhì)在蛋白質(zhì)細(xì)胞骨架(Cytoskeleton)、細(xì)胞核(Nulceus)、內(nèi)質(zhì)網(wǎng)(Endoplasmic)、細(xì)胞質(zhì)(Cytosol)、以及高爾基體(Golgi)亞細(xì)胞定位相互作用子網(wǎng)中的比例高于關(guān)鍵蛋白質(zhì)在DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中的比例。分析的結(jié)果表明：關(guān)鍵蛋白質(zhì)在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的分布具有顯著的統(tǒng)計(jì)特性，且關(guān)鍵蛋白質(zhì)主要在某些亞細(xì)胞定位相互作用子網(wǎng)富集，這說(shuō)明并非所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性評(píng)分都對(duì)細(xì)胞內(nèi)關(guān)鍵蛋白質(zhì)的預(yù)測(cè)有用。(2)統(tǒng)計(jì)分析關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性為考察關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性，統(tǒng)計(jì)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中特異性關(guān)鍵蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))和多定位關(guān)鍵蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))占各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)的比例，統(tǒng)計(jì)結(jié)果如圖2所示。從圖2中，我們可以發(fā)現(xiàn)在蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)中，具有亞細(xì)胞特異性的關(guān)鍵蛋白質(zhì)占主要成分。另外，在蛋白質(zhì)核內(nèi)體(Endosome)定位亞細(xì)胞相互作用子網(wǎng)和蛋白質(zhì)液泡(Vacuole)亞細(xì)胞定位相互作用子網(wǎng)中，特異性關(guān)鍵蛋白質(zhì)非常少。這說(shuō)明這些蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中幾乎所有的關(guān)鍵蛋白質(zhì)能夠通過(guò)其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)識(shí)別。在1167個(gè)關(guān)鍵蛋白質(zhì)中，包括了852個(gè)特異性關(guān)鍵蛋白質(zhì)和315個(gè)交疊性關(guān)鍵蛋白質(zhì)，由此可知，大多數(shù)關(guān)鍵蛋白質(zhì)具有亞細(xì)胞定位特異性。因此分別在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測(cè)關(guān)鍵蛋白質(zhì)，能較容易地夠檢測(cè)到特異性關(guān)鍵蛋白質(zhì)，從而能夠提高關(guān)鍵蛋白質(zhì)預(yù)測(cè)的準(zhǔn)確性。(3)基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分計(jì)算基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)的流程圖如圖3所示。首先，將蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位，一共構(gòu)建了若干個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中采用中心性方法，對(duì)子網(wǎng)中各個(gè)蛋白質(zhì)的關(guān)鍵性進(jìn)行打分。然而，由于各個(gè)子網(wǎng)的網(wǎng)絡(luò)拓?fù)洳煌?，多定位蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵性評(píng)分也必然存在差異；另一方面，由于不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模等存在差異，特異性蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))為關(guān)鍵蛋白質(zhì)的可能性高低也不能簡(jiǎn)單通過(guò)唯一的關(guān)鍵性評(píng)分來(lái)決定。我們基于多個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)，計(jì)算每個(gè)蛋白質(zhì)的關(guān)鍵性綜合得分，具體步驟如下：步驟1考慮到不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確度存在差異性，我們對(duì)所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量。從上述分析可以發(fā)現(xiàn)，蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模越大(網(wǎng)絡(luò)規(guī)模指網(wǎng)絡(luò)中包含蛋白質(zhì)的數(shù)目)，特異性蛋白質(zhì)數(shù)目越多，包含的關(guān)鍵蛋白質(zhì)數(shù)目也越多，從而蛋白質(zhì)關(guān)鍵性得分的可信度越高。假設(shè)Smax是網(wǎng)絡(luò)規(guī)模最大的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)，相比于其他子網(wǎng)，該子網(wǎng)蛋白質(zhì)關(guān)鍵性得分的可信度最高。對(duì)于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si，通過(guò)考察該子網(wǎng)的規(guī)模與Smax的網(wǎng)絡(luò)規(guī)模的比值，可信度計(jì)算如公式1所示。其中，|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目，|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目，Smax是包含有最多蛋白質(zhì)的子網(wǎng)。步驟2采用一種中心性方法(DC,IC,EC,SC,BC或NC)，分別在每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)上計(jì)算各個(gè)蛋白質(zhì)的關(guān)鍵性得分。假設(shè)蛋白質(zhì)p存在于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si中，計(jì)算的關(guān)鍵性得分標(biāo)記為S_Ess(Si,p)。步驟3計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分：一個(gè)蛋白質(zhì)可能出現(xiàn)在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中，從而有多個(gè)關(guān)鍵性得分，因此需要為每個(gè)蛋白質(zhì)計(jì)算關(guān)鍵性綜合得分來(lái)衡量它的關(guān)鍵性。計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分步驟:1)將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0；2)根據(jù)子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度從高到底，依次更新各個(gè)子網(wǎng)中蛋白質(zhì)的關(guān)鍵性綜合得分。由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的，當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過(guò)的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度，因此，更新關(guān)鍵性綜合得分的規(guī)則為，當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí)，其關(guān)鍵性綜合得分C_Ess(p)保持不變；而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí)，關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值。關(guān)鍵性綜合得分的更新規(guī)則如公式2所示。例如，當(dāng)輪到可信度第i高的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si時(shí)，對(duì)子網(wǎng)中的每個(gè)蛋白質(zhì)p，比較其在子網(wǎng)Si中的關(guān)鍵性得分S_Ess(Si,p)和其關(guān)鍵性綜合得分C_Ess(p)，將其關(guān)鍵性綜合得分C_Ess(p)按公式2進(jìn)行更新。其中，otherwise為否則的意思。當(dāng)所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì)都依次檢查完畢，對(duì)細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分進(jìn)行降序排序。最后關(guān)鍵性綜合得分越高的越可能為關(guān)鍵蛋白質(zhì)。(4)基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)的有效性驗(yàn)證為了評(píng)估LSED方法的有效性，我們將LSED方法分別與幾種代表性的中心性方法結(jié)合，如DC,BC,SC,EC,IC,以及NC，計(jì)算酵母所有蛋白質(zhì)的關(guān)鍵性綜合得分，按降序排序；另外，只用按中心性方法對(duì)酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分，按降序排序，作為對(duì)照試驗(yàn)。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)自于DIP數(shù)據(jù)庫(kù)2010年10月的數(shù)據(jù)，包含有5093個(gè)蛋白質(zhì)，24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來(lái)自COMPARTMENTS數(shù)據(jù)庫(kù)，將DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位，一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。來(lái)源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫(kù)的1167個(gè)關(guān)鍵蛋白質(zhì)作為標(biāo)準(zhǔn)集，用來(lái)比較預(yù)測(cè)結(jié)果的準(zhǔn)確性。a.與六種中心性方法比較選取排在前面1％,5％,10％,15％,20％，25％的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)。再依據(jù)已知的關(guān)鍵蛋白質(zhì)集合，對(duì)比預(yù)測(cè)結(jié)果。預(yù)測(cè)正確的蛋白質(zhì)數(shù)量作為評(píng)價(jià)各個(gè)方法性能的標(biāo)準(zhǔn)。這種評(píng)價(jià)方法已經(jīng)被以前的研究廣泛采用。我們選擇不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)，然后比較LSED方法和中心方法識(shí)別關(guān)鍵蛋白質(zhì)的數(shù)量。圖4表明，相比于各種中心性方法(總稱XC)的預(yù)測(cè)結(jié)果，結(jié)合不同中心性方法的LSED方法(總稱LSED-XC)極大提高了正確預(yù)測(cè)的關(guān)鍵蛋白質(zhì)數(shù)量。當(dāng)選擇排序得分排在前1％的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)時(shí)，LSED方法的準(zhǔn)確率范圍64％-80％左右，而各種中心性方法的準(zhǔn)確率最高僅為62％。當(dāng)選擇排序得分排在前25％的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵，LSED-XC可以達(dá)到47.1％的準(zhǔn)確率，而中心性方法中準(zhǔn)確率最高為42.7％。NC是在現(xiàn)存的中心性方法中性能最好的中心性方法。與NC相比，在選擇排序得分排在前1％,5％,10％,15％,20％和25％的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)時(shí)，LSED-NC預(yù)測(cè)的準(zhǔn)確率能夠分別提高25％,15％,9.2％,12.3％,10.9％,10.9％。DC是一種廣泛使用的關(guān)鍵蛋白質(zhì)的預(yù)測(cè)方法。與DC相比，LSED-DC也體現(xiàn)了明顯的優(yōu)勢(shì)。特別是在選前1％的蛋白質(zhì)時(shí)，LSED-DC預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性是DC的1.77倍。在選擇前5％和前10％的蛋白質(zhì)時(shí)，LSED-DC預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性比DC提高了56.4％和42.9％。相比于其他中心性方法(XC)，LSED-XC的優(yōu)勢(shì)也非常明顯。我們可以發(fā)現(xiàn)，與任意一種中心性方法結(jié)合，LSED方法預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于絕大多數(shù)的中心性方法的準(zhǔn)確性。b.基于ROC曲線比較實(shí)驗(yàn)結(jié)果用ROC曲線以及其下的面積(AUC)進(jìn)一步驗(yàn)證LSED方法和各種中心性方法的性能。將細(xì)胞中所有的蛋白質(zhì)依據(jù)各個(gè)方法計(jì)算的關(guān)鍵性得分降序排序，排在前面的K個(gè)蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)(陽(yáng)性數(shù)據(jù)集)，細(xì)胞中剩下的蛋白質(zhì)作為非關(guān)鍵蛋白質(zhì)(陰性數(shù)據(jù)集)。閾值K的范圍從1到5093。隨著K取值的不同，分別計(jì)算各個(gè)方法相應(yīng)的Sensitivity和Specificity值，從而得到ROC曲線，如圖5所示。圖5(a)-(f)分別顯示了是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC，SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線對(duì)比圖。從圖5，我們可以看出各種LSED-XC的ROC曲線明顯高于各種XC中心性方法的ROC曲線。另外，我們還可以觀察到，各種LSED-XC的AUC明顯大于各種XC中心性方法的AUC。c.基于jackknife曲線比較實(shí)驗(yàn)結(jié)果我們用jackknife曲線來(lái)進(jìn)一步驗(yàn)證LSED方法以及其他XC方法的預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果如圖6所示。X軸表示的是按照各個(gè)關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法排序，排在前面的蛋白質(zhì)數(shù)量。Y軸表示的是識(shí)別的正確關(guān)鍵蛋白質(zhì)的累積數(shù)量。圖中線下的面積用來(lái)比較各個(gè)方法的性能。圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC，SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。從圖6，我們可以看出各種LSED-XC對(duì)應(yīng)的jackknife曲線位于相應(yīng)的XC對(duì)應(yīng)的jackknife曲線的上方，曲線下的面積明顯大于相應(yīng)的XC對(duì)應(yīng)的曲線下的面積。所有的實(shí)驗(yàn)結(jié)果表明LSED方法預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于各種中心性的方法。d.LSED與其他中心性方法在預(yù)測(cè)上的差異比較被各個(gè)方法排在前100位的蛋白質(zhì)，計(jì)算它們的重疊預(yù)測(cè)和差異預(yù)測(cè)。如圖7所示，LSED-XC識(shí)別的排在前100位的蛋白質(zhì)中，有一半以上與相應(yīng)的XC方法識(shí)別的蛋白質(zhì)不同。這說(shuō)明LSED方法的亞細(xì)胞特異性信息是導(dǎo)致這種不同的主要原因。為了進(jìn)一步的分析，我們比較了LSED方法和中心性方法識(shí)別的不同蛋白質(zhì)中關(guān)鍵蛋白質(zhì)的比率。如圖7所示，對(duì)比各種XC和LSED-XC方法識(shí)別的不同蛋白質(zhì)，LSED-XC能夠找到更多的不同的關(guān)鍵蛋白質(zhì)。以NC為例，在前100個(gè)蛋白質(zhì)中LSED-NC找到了56個(gè)不同的蛋白質(zhì)，其中48(48/56＝85.7％)個(gè)是關(guān)鍵蛋白質(zhì),而僅有19(48/56＝33.9％)個(gè)不同關(guān)鍵蛋白質(zhì)被NC找到而被LSED-NC忽略。這說(shuō)明，通過(guò)基于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性綜合評(píng)分比基于全局蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)鍵性評(píng)分更加準(zhǔn)確，基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分更能刻畫蛋白質(zhì)的關(guān)鍵性，且能夠降低了假陽(yáng)性相互作用對(duì)中心性計(jì)算造成的影響。綜上所述，基于本發(fā)明的基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)，亞細(xì)胞定位信息對(duì)預(yù)測(cè)出來(lái)的關(guān)鍵蛋白質(zhì)的準(zhǔn)確性以及與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面具有重要作用。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王建新;彭小清;李敏;羅軍偉;鐘堅(jiān)成
技術(shù)所有人：中南大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)亞細(xì)胞定位相關(guān)技術(shù)

細(xì)胞內(nèi)蛋白質(zhì)的合成相關(guān)技術(shù)

蛋白質(zhì)亞基相關(guān)技術(shù)

蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)相關(guān)技術(shù)

細(xì)胞周期非特異性藥物相關(guān)技術(shù)

抗原特異性t細(xì)胞相關(guān)技術(shù)

細(xì)胞周期特異性藥物相關(guān)技術(shù)

特異性免疫細(xì)胞相關(guān)技術(shù)

特異性識(shí)別抗原的細(xì)胞相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法與流程