本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域,涉及一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法。
背景技術(shù):眾所周知,不同的蛋白質(zhì)對(duì)生物有機(jī)體生命活動(dòng)的作用各有不同,重要性也各不相同。一般來(lái)說(shuō),在蛋白質(zhì)相互作用網(wǎng)絡(luò)中維持生物機(jī)體生命活動(dòng)所必需的蛋白質(zhì)被認(rèn)為是關(guān)鍵蛋白質(zhì)。關(guān)鍵蛋白質(zhì)的缺失將導(dǎo)致細(xì)胞死亡或者無(wú)法復(fù)制繁殖。關(guān)鍵蛋白質(zhì)的識(shí)別可以促進(jìn)藥物標(biāo)靶技術(shù)的發(fā)展【注釋:藥物靶標(biāo)是指體內(nèi)具有藥效功能并能被藥物作用的生物大分子,如某些蛋白質(zhì)和核酸等生物大分子。那些編碼靶標(biāo)蛋白的基因也被稱為靶標(biāo)基因。事先確定靶向特定疾病有關(guān)的靶標(biāo)分子是現(xiàn)代新藥開(kāi)發(fā)的基礎(chǔ)。更通俗地講,就是使用某種藥物作用在生物大分子上,影響該生物大分子,從而對(duì)疾病產(chǎn)生療效。這個(gè)生物大分子就是藥物靶標(biāo)。】。由于關(guān)鍵蛋白質(zhì)的剔除、打斷或者阻塞都可能導(dǎo)致生物體的死亡。因此,在目前抗菌素普遍存在抗藥性和藥物毒性問(wèn)題的背景下,研究一些細(xì)菌病毒的關(guān)鍵蛋白質(zhì),有助于研發(fā)新的抗菌藥物。關(guān)鍵蛋白質(zhì)的識(shí)別還有助于合成生物研究的發(fā)展。合成生物的目標(biāo)是找出最小的能執(zhí)行特定任務(wù)的基因組。在2010年,J.CraigVenter學(xué)會(huì)的研究人員移除絲狀支原體的所有非關(guān)鍵基因,創(chuàng)造第一個(gè)具有自我復(fù)制功能的人造細(xì)菌,稱作JCVI-syn1.0。目前,識(shí)別關(guān)鍵蛋白質(zhì)的生物實(shí)驗(yàn)方法,例如單個(gè)基因敲除,RNA干擾和有條件基因敲除等,既浪費(fèi)時(shí)間又效率低下,而且只能在少量物種上實(shí)行。因此,迫切需要有效的計(jì)算方法來(lái)降低實(shí)驗(yàn)的成本,提高實(shí)驗(yàn)效率。隨著高通量的蛋白質(zhì)相互作用數(shù)據(jù)的積累,利用蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)識(shí)別關(guān)鍵蛋白質(zhì)成為了目前的研究熱點(diǎn)。根據(jù)對(duì)一些物種的觀察,如酵母,線蟲(chóng)和果蠅等,蛋白質(zhì)相互作用網(wǎng)絡(luò)中擁有高度的蛋白質(zhì)結(jié)點(diǎn)更有可能是關(guān)鍵蛋白質(zhì)。從拓?fù)涞慕嵌葋?lái)看,高度連接的蛋白質(zhì)結(jié)點(diǎn)可以維持蛋白質(zhì)相互作用網(wǎng)絡(luò)的基本特征,如果刪除這些蛋白質(zhì)結(jié)點(diǎn)將會(huì)引起整個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)的崩潰;從生物學(xué)的角度來(lái)看,這些高度連接的蛋白質(zhì)結(jié)點(diǎn)一般保證了蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能完整性。這種現(xiàn)象被認(rèn)為是生物網(wǎng)絡(luò)中普遍存在的“中心性-致死性”法則。該法則表明蛋白質(zhì)相互作用網(wǎng)絡(luò)中某一蛋白質(zhì)結(jié)點(diǎn)的拓?fù)涮卣髋c蛋白質(zhì)的關(guān)鍵性之間密切相關(guān)。近年來(lái),一些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ū惶岢鰜?lái)識(shí)別關(guān)鍵蛋白質(zhì),例如度中心性(DegreeCentrality,DC),介數(shù)中心性(BetweennessCentrality,BC),接近性中心性(ClosenessCentrality,CC),子圖中心性(SubgraphCentrality,SC),特征向量中心(EigenvectorCentrality,EC),信息中心性(InformationCentrality,IC)和鄰居中心性(NeighborCentrality,NC)等等。這些方法對(duì)蛋白質(zhì)在相互作用網(wǎng)絡(luò)中的中心性進(jìn)行打分,然后將這些得分進(jìn)行排序來(lái)判斷蛋白質(zhì)是否是關(guān)鍵蛋白質(zhì)。這類方法的優(yōu)點(diǎn)是不需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì)來(lái)訓(xùn)練分類器,而是直接通過(guò)給蛋白質(zhì)打分來(lái)預(yù)測(cè)關(guān)鍵蛋白質(zhì)。這些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ǖ年P(guān)鍵蛋白質(zhì)預(yù)測(cè)準(zhǔn)確性依賴于蛋白質(zhì)相互作用網(wǎng)絡(luò)的可靠性。然而,目前可以得到的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)是不完整的,包含很多假陽(yáng)性和假陰性。這些會(huì)影響關(guān)鍵蛋白質(zhì)識(shí)別的準(zhǔn)確性。隨著高通量生物數(shù)據(jù)的增多,最近一些研究者試圖結(jié)合其它生物信息來(lái)提高識(shí)別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率。例如,Li等人通過(guò)考慮基因的功能注釋,構(gòu)建了一個(gè)加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),通過(guò)集成網(wǎng)絡(luò)拓?fù)涮卣髋c基因表達(dá)信息提出了PeC方法。除此之外,基于機(jī)器學(xué)習(xí)的方法也被用來(lái)預(yù)測(cè)關(guān)鍵蛋白質(zhì),常用的特征有GC內(nèi)容、蛋白質(zhì)長(zhǎng)度、ORF長(zhǎng)度等。例如,Acencio等人提出的基于機(jī)器學(xué)習(xí)的方法結(jié)合網(wǎng)絡(luò)的拓?fù)涮卣?、生物過(guò)程信息以及細(xì)胞定位等來(lái)識(shí)別關(guān)鍵蛋白質(zhì)。這些機(jī)器學(xué)習(xí)的方法通過(guò)學(xué)習(xí)一個(gè)物種中一些已知的關(guān)鍵蛋白質(zhì)的特征,訓(xùn)練出一個(gè)分類器,然后利用這個(gè)分類器來(lái)識(shí)別該物種或其它物種中的關(guān)鍵蛋白質(zhì)。機(jī)器學(xué)習(xí)方法需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì),其性能取決于分類器的性能以及訓(xùn)練物種與預(yù)測(cè)物種之間的距離。上述各類方法從不同的角度解決了關(guān)鍵蛋白質(zhì)識(shí)別存在的一些問(wèn)題。然而,由于可利用的蛋白質(zhì)相互作用數(shù)據(jù)存在噪聲等因素,基于網(wǎng)絡(luò)水平的關(guān)鍵蛋白質(zhì)識(shí)別還存在很多挑戰(zhàn)。公開(kāi)號(hào)為102176223A的發(fā)明專利公開(kāi)了一種基于關(guān)鍵蛋白質(zhì)和局部適應(yīng)的蛋白質(zhì)復(fù)合物識(shí)別方法,其核心構(gòu)思是基于蛋白質(zhì)相互作用無(wú)向圖,并以關(guān)鍵蛋白質(zhì)為種子對(duì)關(guān)鍵蛋白質(zhì)進(jìn)行識(shí)別,這種方法雖然效果較佳,但是受制于種子的選擇,因此對(duì)于未知的蛋白質(zhì)識(shí)別難度較大。公開(kāi)號(hào)為102841985A的發(fā)明專利公開(kāi)了一種基于結(jié)構(gòu)域特征的關(guān)鍵蛋白質(zhì)識(shí)別方法【申請(qǐng)?zhí)枮?01210282873.7】,其核心構(gòu)思在于,基于首先通過(guò)數(shù)據(jù)庫(kù)或進(jìn)行蛋白質(zhì)序列分析等得到結(jié)構(gòu)域信息,在結(jié)構(gòu)域信息基礎(chǔ)上統(tǒng)計(jì)各個(gè)結(jié)構(gòu)域類型在蛋白質(zhì)中出現(xiàn)次數(shù),通過(guò)統(tǒng)計(jì)結(jié)果計(jì)算每個(gè)蛋白質(zhì)的權(quán)重,權(quán)重越大蛋白質(zhì)成為關(guān)鍵蛋白質(zhì)的可能性越大。該方法簡(jiǎn)單有效,且僅基于蛋白質(zhì)結(jié)構(gòu)域信息,不依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)信息等,避免了生物實(shí)驗(yàn)所消耗的大量人力物力。通過(guò)與隨機(jī)方法比較,該方法能夠較準(zhǔn)確的識(shí)別關(guān)鍵蛋白質(zhì)。然而由于結(jié)構(gòu)域信息存在不完整性,會(huì)使得預(yù)測(cè)結(jié)果出現(xiàn)偏差。例如,一些的結(jié)構(gòu)域頻率低,并不是因?yàn)檎嬲哂嘘P(guān)鍵性,而是由于沒(méi)有測(cè)得這些結(jié)構(gòu)域在這個(gè)物種中所有蛋白質(zhì)中的完整分布所致。公開(kāi)號(hào)為101051335公開(kāi)了一種利用計(jì)算機(jī)模擬蛋白質(zhì)相互作用的方法【申請(qǐng)?zhí)枺?00710015493.6】,該方法只是通過(guò)計(jì)算機(jī)軟件來(lái)模擬蛋白質(zhì)相互作用,并不涉及到蛋白質(zhì)的識(shí)別。因此,有必要設(shè)計(jì)一種新型的關(guān)鍵蛋白質(zhì)識(shí)別方法。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法,該基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法在關(guān)鍵蛋白質(zhì)的識(shí)別方面準(zhǔn)確性高、敏感度高。發(fā)明的技術(shù)解決方案如下:一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法,包括以下步驟:步驟1:建立亞細(xì)胞定位的蛋白質(zhì)相互作用子網(wǎng);輸入一組蛋白質(zhì)的亞細(xì)胞定位信息和一組蛋白質(zhì)相互作用數(shù)據(jù),其中蛋白質(zhì)的亞細(xì)胞定位信息包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡共11種亞細(xì)胞定位信息;首先在蛋白質(zhì)相互作用數(shù)據(jù)中去掉重復(fù)相互作用和自相互作用的數(shù)據(jù);然后依據(jù)亞細(xì)胞定位信息以及經(jīng)過(guò)上述處理后的蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)建11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng);步驟2:衡量各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度;根據(jù)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的規(guī)模(子網(wǎng)的規(guī)模指子網(wǎng)中包含的蛋白質(zhì)數(shù)目),給每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行打分,可信度的計(jì)算公式如下:其中,|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目,|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目,Smax是包含有最多蛋白質(zhì)的子網(wǎng);步驟3:計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分:將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0;基于蛋白質(zhì)在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性得分以及不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,按可信度的從高到底依次更新各個(gè)子網(wǎng)中的蛋白質(zhì)的關(guān)鍵性綜合得分;關(guān)鍵性綜合得分的更新公式為:對(duì)于該公式的解釋和說(shuō)明:由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的,當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過(guò)的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,因此,更新關(guān)鍵性綜合得分的規(guī)則為,當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí),其關(guān)鍵性綜合得分C_Ess(p)保持不變;而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí),關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值;其中,S_Ess(Si,p)是采用中心性方法在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si上計(jì)算的蛋白質(zhì)p的關(guān)鍵性得分;P(Si)為子網(wǎng)Si的蛋白質(zhì)關(guān)鍵性得分的可信度;(例如當(dāng)采用DC中心性方法時(shí),S_Ess(Si,p)等于蛋白質(zhì)p在子網(wǎng)Si中連接的邊的條數(shù))步驟4:輸出結(jié)果:對(duì)細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分排序并輸出排序結(jié)果。不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)從COMPARTMENTS數(shù)據(jù)庫(kù)中獲得,蛋白質(zhì)相互作用數(shù)據(jù)從公共數(shù)據(jù)庫(kù)中獲得,所述的公共數(shù)據(jù)庫(kù)包括DIP和Biogrid數(shù)據(jù)庫(kù)。COMPARTMENTS數(shù)據(jù)庫(kù)整合了來(lái)自UniProtKB,MGI,SGD,F(xiàn)lyBase,WormBase等數(shù)據(jù)庫(kù)的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息,涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫(kù)里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。有益效果:本發(fā)明基于對(duì)關(guān)鍵蛋白質(zhì)在不同亞細(xì)胞定位的分布的差異性和特異性,提出了一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED),利用蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)和相互作用數(shù)據(jù)構(gòu)建了蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),分別對(duì)每個(gè)子網(wǎng)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分,通過(guò)對(duì)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量,并結(jié)合各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)進(jìn)行蛋白質(zhì)的關(guān)鍵性預(yù)測(cè)來(lái)計(jì)算蛋白質(zhì)的關(guān)鍵性綜合得分。本發(fā)明簡(jiǎn)單易用,試驗(yàn)表明,與已有的基于網(wǎng)絡(luò)拓?fù)涮卣鞯年P(guān)鍵蛋白質(zhì)識(shí)別方法相比較,本發(fā)明提出的方法在預(yù)測(cè)的準(zhǔn)確性、與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面都有明顯提高,能為生物學(xué)家進(jìn)行關(guān)鍵蛋白質(zhì)識(shí)別的實(shí)驗(yàn)和進(jìn)一步研究提供有價(jià)值的參考信息。附圖說(shuō)明圖1:各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)的數(shù)目圖2:各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中多定位關(guān)鍵蛋白質(zhì)以及特異性關(guān)鍵蛋白質(zhì)的數(shù)目比圖3:本發(fā)明LSED的流程圖;圖4:在酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)上不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)時(shí),方法LSED和6種拓?fù)渲行男苑椒ㄗR(shí)別關(guān)鍵蛋白質(zhì)的數(shù)量的比較圖;圖a-f分別是比例為1%、5%、10%、15%、20%、25%時(shí)的對(duì)比圖。圖5:方法LSED和6種拓?fù)渲行男苑椒ㄅcLSED-NC的ROC曲線的比較圖;圖a-f分別為DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線的比較圖;圖6:方法LSED和6種拓?fù)渲行男苑椒ɑ趈ackknife曲線的比較圖;圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。圖7:方法LSED和6種拓?fù)渲行男苑椒ㄗR(shí)別的蛋白質(zhì)重疊性和差異性比較;具體實(shí)施方式以下將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明:實(shí)施例1:(1)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)構(gòu)建及關(guān)鍵蛋白質(zhì)的分布特性分析不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)可以從COMPARTMENTS數(shù)據(jù)庫(kù)中獲得。COMPARTMENTS數(shù)據(jù)庫(kù)整合了來(lái)自UniProtKB,MGI,SGD,F(xiàn)lyBase,WormBase等數(shù)據(jù)庫(kù)的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息,涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫(kù)里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。目前研究最為廣泛的物種是酵母,其蛋白質(zhì)相互作用網(wǎng)絡(luò)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)在眾多物種中是最為完整和可靠的,因此,首先基于酵母的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和實(shí)驗(yàn)驗(yàn)證。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)自于DIP數(shù)據(jù)庫(kù)2010年10月的數(shù)據(jù)。除去自相互作用和重復(fù)的相互作用,總共有5093個(gè)蛋白質(zhì),24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來(lái)自COMPARTMENTS數(shù)據(jù)庫(kù),酵母蛋白質(zhì)分別被11種亞細(xì)胞定位注釋,其中包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡等亞細(xì)胞定位。關(guān)鍵蛋白質(zhì)信息來(lái)源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫(kù)。在5093個(gè)蛋白質(zhì)中1167個(gè)為關(guān)鍵蛋白質(zhì),剩余3926個(gè)蛋白質(zhì)視作非關(guān)鍵蛋白質(zhì)。將DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。每個(gè)子網(wǎng)由被這種亞細(xì)胞定位注釋的蛋白質(zhì)以及它們之間的相互作用構(gòu)成。經(jīng)過(guò)這種映射,包含分別位于兩個(gè)不同的亞細(xì)胞定位的蛋白質(zhì)的相互作用被丟掉了,這使得任何一個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中相互作用的蛋白質(zhì)都處于同一亞細(xì)胞定位,從而保證了蛋白質(zhì)相互作用的發(fā)生。我們統(tǒng)計(jì)了各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)分布以及關(guān)鍵蛋白質(zhì)分布,如圖1所示。從圖1可以看出,不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量存在很大的差異性。其中,處于蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量都顯著高于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。從圖1還可以發(fā)現(xiàn),不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵蛋白質(zhì)與非關(guān)鍵蛋白質(zhì)的比例存在較大差異;關(guān)鍵蛋白質(zhì)在蛋白質(zhì)細(xì)胞骨架(Cytoskeleton)、細(xì)胞核(Nulceus)、內(nèi)質(zhì)網(wǎng)(Endoplasmic)、細(xì)胞質(zhì)(Cytosol)、以及高爾基體(Golgi)亞細(xì)胞定位相互作用子網(wǎng)中的比例高于關(guān)鍵蛋白質(zhì)在DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中的比例。分析的結(jié)果表明:關(guān)鍵蛋白質(zhì)在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的分布具有顯著的統(tǒng)計(jì)特性,且關(guān)鍵蛋白質(zhì)主要在某些亞細(xì)胞定位相互作用子網(wǎng)富集,這說(shuō)明并非所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性評(píng)分都對(duì)細(xì)胞內(nèi)關(guān)鍵蛋白質(zhì)的預(yù)測(cè)有用。(2)統(tǒng)計(jì)分析關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性為考察關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性,統(tǒng)計(jì)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中特異性關(guān)鍵蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))和多定位關(guān)鍵蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))占各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)的比例,統(tǒng)計(jì)結(jié)果如圖2所示。從圖2中,我們可以發(fā)現(xiàn)在蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)中,具有亞細(xì)胞特異性的關(guān)鍵蛋白質(zhì)占主要成分。另外,在蛋白質(zhì)核內(nèi)體(Endosome)定位亞細(xì)胞相互作用子網(wǎng)和蛋白質(zhì)液泡(Vacuole)亞細(xì)胞定位相互作用子網(wǎng)中,特異性關(guān)鍵蛋白質(zhì)非常少。這說(shuō)明這些蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中幾乎所有的關(guān)鍵蛋白質(zhì)能夠通過(guò)其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)識(shí)別。在1167個(gè)關(guān)鍵蛋白質(zhì)中,包括了852個(gè)特異性關(guān)鍵蛋白質(zhì)和315個(gè)交疊性關(guān)鍵蛋白質(zhì),由此可知,大多數(shù)關(guān)鍵蛋白質(zhì)具有亞細(xì)胞定位特異性。因此分別在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測(cè)關(guān)鍵蛋白質(zhì),能較容易地夠檢測(cè)到特異性關(guān)鍵蛋白質(zhì),從而能夠提高關(guān)鍵蛋白質(zhì)預(yù)測(cè)的準(zhǔn)確性。(3)基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分計(jì)算基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)的流程圖如圖3所示。首先,將蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了若干個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中采用中心性方法,對(duì)子網(wǎng)中各個(gè)蛋白質(zhì)的關(guān)鍵性進(jìn)行打分。然而,由于各個(gè)子網(wǎng)的網(wǎng)絡(luò)拓?fù)洳煌?,多定位蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵性評(píng)分也必然存在差異;另一方面,由于不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模等存在差異,特異性蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))為關(guān)鍵蛋白質(zhì)的可能性高低也不能簡(jiǎn)單通過(guò)唯一的關(guān)鍵性評(píng)分來(lái)決定。我們基于多個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),計(jì)算每個(gè)蛋白質(zhì)的關(guān)鍵性綜合得分,具體步驟如下:步驟1考慮到不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確度存在差異性,我們對(duì)所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量。從上述分析可以發(fā)現(xiàn),蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模越大(網(wǎng)絡(luò)規(guī)模指網(wǎng)絡(luò)中包含蛋白質(zhì)的數(shù)目),特異性蛋白質(zhì)數(shù)目越多,包含的關(guān)鍵蛋白質(zhì)數(shù)目也越多,從而蛋白質(zhì)關(guān)鍵性得分的可信度越高。假設(shè)Smax是網(wǎng)絡(luò)規(guī)模最大的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),相比于其他子網(wǎng),該子網(wǎng)蛋白質(zhì)關(guān)鍵性得分的可信度最高。對(duì)于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si,通過(guò)考察該子網(wǎng)的規(guī)模與Smax的網(wǎng)絡(luò)規(guī)模的比值,可信度計(jì)算如公式1所示。其中,|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目,|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目,Smax是包含有最多蛋白質(zhì)的子網(wǎng)。步驟2采用一種中心性方法(DC,IC,EC,SC,BC或NC),分別在每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)上計(jì)算各個(gè)蛋白質(zhì)的關(guān)鍵性得分。假設(shè)蛋白質(zhì)p存在于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si中,計(jì)算的關(guān)鍵性得分標(biāo)記為S_Ess(Si,p)。步驟3計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分:一個(gè)蛋白質(zhì)可能出現(xiàn)在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中,從而有多個(gè)關(guān)鍵性得分,因此需要為每個(gè)蛋白質(zhì)計(jì)算關(guān)鍵性綜合得分來(lái)衡量它的關(guān)鍵性。計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分步驟:1)將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0;2)根據(jù)子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度從高到底,依次更新各個(gè)子網(wǎng)中蛋白質(zhì)的關(guān)鍵性綜合得分。由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的,當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過(guò)的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,因此,更新關(guān)鍵性綜合得分的規(guī)則為,當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí),其關(guān)鍵性綜合得分C_Ess(p)保持不變;而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí),關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值。關(guān)鍵性綜合得分的更新規(guī)則如公式2所示。例如,當(dāng)輪到可信度第i高的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si時(shí),對(duì)子網(wǎng)中的每個(gè)蛋白質(zhì)p,比較其在子網(wǎng)Si中的關(guān)鍵性得分S_Ess(Si,p)和其關(guān)鍵性綜合得分C_Ess(p),將其關(guān)鍵性綜合得分C_Ess(p)按公式2進(jìn)行更新。其中,otherwise為否則的意思。當(dāng)所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì)都依次檢查完畢,對(duì)細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分進(jìn)行降序排序。最后關(guān)鍵性綜合得分越高的越可能為關(guān)鍵蛋白質(zhì)。(4)基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED)的有效性驗(yàn)證為了評(píng)估LSED方法的有效性,我們將LSED方法分別與幾種代表性的中心性方法結(jié)合,如DC,BC,SC,EC,IC,以及NC,計(jì)算酵母所有蛋白質(zhì)的關(guān)鍵性綜合得分,按降序排序;另外,只用按中心性方法對(duì)酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分,按降序排序,作為對(duì)照試驗(yàn)。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來(lái)自于DIP數(shù)據(jù)庫(kù)2010年10月的數(shù)據(jù),包含有5093個(gè)蛋白質(zhì),24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來(lái)自COMPARTMENTS數(shù)據(jù)庫(kù),將DIP數(shù)據(jù)庫(kù)里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。來(lái)源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫(kù)的1167個(gè)關(guān)鍵蛋白質(zhì)作為標(biāo)準(zhǔn)集,用來(lái)比較預(yù)測(cè)結(jié)果的準(zhǔn)確性。a.與六種中心性方法比較選取排在前面1%,5%,10%,15%,20%,25%的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)。再依據(jù)已知的關(guān)鍵蛋白質(zhì)集合,對(duì)比預(yù)測(cè)結(jié)果。預(yù)測(cè)正確的蛋白質(zhì)數(shù)量作為評(píng)價(jià)各個(gè)方法性能的標(biāo)準(zhǔn)。這種評(píng)價(jià)方法已經(jīng)被以前的研究廣泛采用。我們選擇不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì),然后比較LSED方法和中心方法識(shí)別關(guān)鍵蛋白質(zhì)的數(shù)量。圖4表明,相比于各種中心性方法(總稱XC)的預(yù)測(cè)結(jié)果,結(jié)合不同中心性方法的LSED方法(總稱LSED-XC)極大提高了正確預(yù)測(cè)的關(guān)鍵蛋白質(zhì)數(shù)量。當(dāng)選擇排序得分排在前1%的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)時(shí),LSED方法的準(zhǔn)確率范圍64%-80%左右,而各種中心性方法的準(zhǔn)確率最高僅為62%。當(dāng)選擇排序得分排在前25%的蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵,LSED-XC可以達(dá)到47.1%的準(zhǔn)確率,而中心性方法中準(zhǔn)確率最高為42.7%。NC是在現(xiàn)存的中心性方法中性能最好的中心性方法。與NC相比,在選擇排序得分排在前1%,5%,10%,15%,20%和25%的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)時(shí),LSED-NC預(yù)測(cè)的準(zhǔn)確率能夠分別提高25%,15%,9.2%,12.3%,10.9%,10.9%。DC是一種廣泛使用的關(guān)鍵蛋白質(zhì)的預(yù)測(cè)方法。與DC相比,LSED-DC也體現(xiàn)了明顯的優(yōu)勢(shì)。特別是在選前1%的蛋白質(zhì)時(shí),LSED-DC預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性是DC的1.77倍。在選擇前5%和前10%的蛋白質(zhì)時(shí),LSED-DC預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性比DC提高了56.4%和42.9%。相比于其他中心性方法(XC),LSED-XC的優(yōu)勢(shì)也非常明顯。我們可以發(fā)現(xiàn),與任意一種中心性方法結(jié)合,LSED方法預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于絕大多數(shù)的中心性方法的準(zhǔn)確性。b.基于ROC曲線比較實(shí)驗(yàn)結(jié)果用ROC曲線以及其下的面積(AUC)進(jìn)一步驗(yàn)證LSED方法和各種中心性方法的性能。將細(xì)胞中所有的蛋白質(zhì)依據(jù)各個(gè)方法計(jì)算的關(guān)鍵性得分降序排序,排在前面的K個(gè)蛋白質(zhì)作為預(yù)測(cè)的關(guān)鍵蛋白質(zhì)(陽(yáng)性數(shù)據(jù)集),細(xì)胞中剩下的蛋白質(zhì)作為非關(guān)鍵蛋白質(zhì)(陰性數(shù)據(jù)集)。閾值K的范圍從1到5093。隨著K取值的不同,分別計(jì)算各個(gè)方法相應(yīng)的Sensitivity和Specificity值,從而得到ROC曲線,如圖5所示。圖5(a)-(f)分別顯示了是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線對(duì)比圖。從圖5,我們可以看出各種LSED-XC的ROC曲線明顯高于各種XC中心性方法的ROC曲線。另外,我們還可以觀察到,各種LSED-XC的AUC明顯大于各種XC中心性方法的AUC。c.基于jackknife曲線比較實(shí)驗(yàn)結(jié)果我們用jackknife曲線來(lái)進(jìn)一步驗(yàn)證LSED方法以及其他XC方法的預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果如圖6所示。X軸表示的是按照各個(gè)關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法排序,排在前面的蛋白質(zhì)數(shù)量。Y軸表示的是識(shí)別的正確關(guān)鍵蛋白質(zhì)的累積數(shù)量。圖中線下的面積用來(lái)比較各個(gè)方法的性能。圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。從圖6,我們可以看出各種LSED-XC對(duì)應(yīng)的jackknife曲線位于相應(yīng)的XC對(duì)應(yīng)的jackknife曲線的上方,曲線下的面積明顯大于相應(yīng)的XC對(duì)應(yīng)的曲線下的面積。所有的實(shí)驗(yàn)結(jié)果表明LSED方法預(yù)測(cè)關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于各種中心性的方法。d.LSED與其他中心性方法在預(yù)測(cè)上的差異比較被各個(gè)方法排在前100位的蛋白質(zhì),計(jì)算它們的重疊預(yù)測(cè)和差異預(yù)測(cè)。如圖7所示,LSED-XC識(shí)別的排在前100位的蛋白質(zhì)中,有一半以上與相應(yīng)的XC方法識(shí)別的蛋白質(zhì)不同。這說(shuō)明LSED方法的亞細(xì)胞特異性信息是導(dǎo)致這種不同的主要原因。為了進(jìn)一步的分析,我們比較了LSED方法和中心性方法識(shí)別的不同蛋白質(zhì)中關(guān)鍵蛋白質(zhì)的比率。如圖7所示,對(duì)比各種XC和LSED-XC方法識(shí)別的不同蛋白質(zhì),LSED-XC能夠找到更多的不同的關(guān)鍵蛋白質(zhì)。以NC為例,在前100個(gè)蛋白質(zhì)中LSED-NC找到了56個(gè)不同的蛋白質(zhì),其中48(48/56=85.7%)個(gè)是關(guān)鍵蛋白質(zhì),而僅有19(48/56=33.9%)個(gè)不同關(guān)鍵蛋白質(zhì)被NC找到而被LSED-NC忽略。這說(shuō)明,通過(guò)基于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性綜合評(píng)分比基于全局蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)鍵性評(píng)分更加準(zhǔn)確,基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分更能刻畫蛋白質(zhì)的關(guān)鍵性,且能夠降低了假陽(yáng)性相互作用對(duì)中心性計(jì)算造成的影響。綜上所述,基于本發(fā)明的基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識(shí)別方法(LSED),亞細(xì)胞定位信息對(duì)預(yù)測(cè)出來(lái)的關(guān)鍵蛋白質(zhì)的準(zhǔn)確性以及與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面具有重要作用。