基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法

文檔序號(hào)：6459023閱讀：409來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域，尤其涉及蛋白質(zhì)復(fù)合物的識(shí)別。技術(shù)背景在后基因組時(shí)代，系統(tǒng)地分析和全面理解生物網(wǎng)絡(luò)拓?fù)浼凹?xì)胞內(nèi)的生物化學(xué)進(jìn)程成為一個(gè)非常重要的研究課題。細(xì)胞中的每個(gè)蛋白質(zhì)并不是獨(dú)立完成被賦予的功能，而是通過與其它蛋白質(zhì)相互作用形成大的復(fù)合物，在特定的時(shí)間和空間內(nèi)完成特定的功能，而且有些蛋白質(zhì)的功能只有在復(fù)合物形成后才能發(fā)揮出來。識(shí)別這些蛋白質(zhì)復(fù)合物對(duì)預(yù)測(cè)蛋白質(zhì)功能、解釋特定的生物進(jìn)程具有重要作用。目前，用于識(shí)別蛋白質(zhì)復(fù)合物的方法包括化學(xué)實(shí)驗(yàn)測(cè)定方法、基于進(jìn)化模型的物種比較方法、基于多信息集成的分析方法和基于蛋白質(zhì)相互作用信息的聚類分析方法。化學(xué)實(shí)驗(yàn)測(cè)定方法主要包括APMS(A伍nityPurificationtechniquesusingMassSpectrometry)、TAP(TandemAffinityPurification)、iTAP(TAP與RNAi)禾口HMS-PCI(High漏throughputMassSpectromicProteinComplexIdentification)等方法。通過化學(xué)實(shí)驗(yàn)可以準(zhǔn)確地測(cè)定某一環(huán)境下的蛋白質(zhì)復(fù)合物，特別是那些比較穩(wěn)定的復(fù)合物。但環(huán)境中仍存在一定數(shù)量的不穩(wěn)定復(fù)合物，復(fù)合物內(nèi)的蛋白質(zhì)之間的相互作用是瞬時(shí)的，動(dòng)態(tài)變化的，以實(shí)驗(yàn)為基礎(chǔ)的研究方法很難捕捉到這些蛋白質(zhì)復(fù)合物，而且實(shí)驗(yàn)成本十分昂貴。基于進(jìn)化模型的物種比較方法依據(jù)不同物種間的同源信息及進(jìn)化過程中同一復(fù)合物內(nèi)的蛋白質(zhì)或集體保留或集體消失的機(jī)制，通過兩個(gè)或多個(gè)物種的比較分析識(shí)別那些在物種進(jìn)化過程中保守的蛋白質(zhì)復(fù)合物。這種基于進(jìn)化模型的物種比較方法在一定程度上提高了識(shí)別的蛋白質(zhì)復(fù)合物的可靠性，但該方法以蛋白質(zhì)的同源信息為基礎(chǔ)，對(duì)兩個(gè)蛋白質(zhì)的同源程度本身的把握就是一個(gè)難題，基于同源去識(shí)別蛋白質(zhì)復(fù)合物就變得更加困難?；诙嘈畔⒓傻姆治龇椒▌t是依據(jù)已知數(shù)據(jù)庫(kù)中的蛋白質(zhì)功能注釋、蛋白質(zhì)結(jié)構(gòu)、基因表達(dá)、亞細(xì)胞定位、蛋白質(zhì)相互作用等信息在整個(gè)基因組規(guī)模上進(jìn)行研究。ZoltdnDezso等人基于假定mRNA共表達(dá)的一組蛋白質(zhì)可能調(diào)節(jié)相同功能的假說，通過分析mRNA共表達(dá)系數(shù)來識(shí)別蛋白質(zhì)復(fù)合物。雖然基因表達(dá)和蛋白質(zhì)相互作用之間的相互關(guān)系能夠揭示出這些數(shù)據(jù)內(nèi)部之間的總體趨勢(shì)，但基因表達(dá)水平未必能夠真正代表蛋白質(zhì)豐度，特別是高通量方法產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)具有較高的假陽性，蛋白質(zhì)相互作用信息和基因表達(dá)信息之間的關(guān)系非常復(fù)雜。目前，普遍的做法是基于蛋白質(zhì)相互作用信息進(jìn)行聚類分析，將蛋白質(zhì)相互作用數(shù)據(jù)表示成一個(gè)無向圖，蛋白質(zhì)復(fù)合物對(duì)應(yīng)于其中的稠密子圖，應(yīng)用各種聚類算法來識(shí)別這些稠密子圖(又稱為"簇/Cluster"，即蛋白質(zhì)復(fù)合物)。已經(jīng)提出的聚類方法主要有SPC方法、MCODE方法，RNSC方法、LCMA方法、DPClus方法、CFinder方法和STM方法等。SPC(SuperParamagneticClustering)是一種層次聚類法。SPC方法模擬鐵磁模型的物理特性，給每個(gè)蛋白質(zhì)設(shè)定"spin"，每個(gè)spin可以存在多種狀態(tài)。對(duì)應(yīng)連接的兩個(gè)頂點(diǎn)的spins之間互相影響，spins處于相同狀態(tài)時(shí)系統(tǒng)的能量最低。同一個(gè)高連通簇內(nèi)的頂點(diǎn)對(duì)應(yīng)的spins以關(guān)聯(lián)的方式進(jìn)行浮動(dòng)，可以通過識(shí)別關(guān)聯(lián)的spins來識(shí)別蛋白質(zhì)復(fù)合物。根據(jù)Broh6e和Helden在BMCBioinformatics上給出的評(píng)估結(jié)果，SPC方法的敏感度和健壯性都較弱。MCODE(MolecularComplexDetection)是一種基于密度的局部搜索方法。MCODE方法首先根據(jù)每個(gè)頂點(diǎn)對(duì)應(yīng)鄰居頂點(diǎn)的密度計(jì)算出所有頂點(diǎn)權(quán)重，并將權(quán)重最大的頂點(diǎn)作為種子，從種子頂點(diǎn)不斷地向外擴(kuò)展，擴(kuò)展的條件是被擴(kuò)展的頂點(diǎn)權(quán)重大于給定閾值。但是，由于權(quán)重大的頂點(diǎn)彼此之間的連接并不一定稠密，MCODE方法并不能保證得到的簇是稠密的，對(duì)于那些稀疏的子圖還需要進(jìn)一步處理。RNSC是一個(gè)基于成本的局部搜索方法。RNSC方法首先隨機(jī)地將蛋白質(zhì)相互作用網(wǎng)絡(luò)分為若干個(gè)獨(dú)立簇，定義一個(gè)成本函數(shù)，然后不斷地將一個(gè)簇內(nèi)蛋白質(zhì)移至另一個(gè)簇來降低整體成本，直到這種移動(dòng)次數(shù)超過事先設(shè)定的閾值而沒有使整體成本下降。RNSC方法的缺陷在于結(jié)果質(zhì)量與方法開始生成簇的質(zhì)量關(guān)系密切，此外每個(gè)蛋白質(zhì)只屬于一個(gè)簇與蛋白質(zhì)可能參與多個(gè)復(fù)合物的事實(shí)不符。LCMA是一個(gè)基于局部團(tuán)合并的方法。LCMA方法首先將每個(gè)蛋白質(zhì)頂點(diǎn)擴(kuò)充成為一個(gè)團(tuán)，再根據(jù)這些團(tuán)之間的密切關(guān)系進(jìn)行合并。DPClus和MCODE類似，也是一種基于密度的局部搜索方法。DPClus方法首先計(jì)算出可能的蛋白質(zhì)復(fù)合物種子，然后從種子頂點(diǎn)開始不斷地向外擴(kuò)展，被擴(kuò)展的頂點(diǎn)需要滿足密度和簇性質(zhì)的要求。CFinder是一種基于團(tuán)滲透的方法，該方法將蛋白質(zhì)復(fù)合物對(duì)應(yīng)于圖中相互連通的若干k-團(tuán)的集合。由于CFinder需要枚舉網(wǎng)絡(luò)中的所有極大團(tuán)，所以對(duì)于規(guī)模比較大的網(wǎng)絡(luò)其效率成為難以克服的瓶頸。STM是一種流方法，首先計(jì)算出網(wǎng)絡(luò)中任意兩個(gè)頂點(diǎn)之間的最短路徑，并在此基礎(chǔ)上計(jì)算出任意兩個(gè)頂點(diǎn)之間的信號(hào)傳導(dǎo)關(guān)系，然后為每個(gè)頂點(diǎn)選擇一個(gè)簇表達(dá)，并在此基礎(chǔ)上進(jìn)行初步聚類，最后對(duì)這些初步獲得的簇進(jìn)行合并。在上述這些方法中，基于局部搜索和優(yōu)化的聚類方法更適用于識(shí)別比較小的簇，而大多數(shù)蛋白質(zhì)復(fù)合物都比較小，規(guī)模為5至25不等。基于局部搜索和優(yōu)化的聚類方法的難點(diǎn)在于種子的選擇和擴(kuò)充條件的制定，特別是擴(kuò)充條件對(duì)產(chǎn)生蛋白質(zhì)復(fù)合物的質(zhì)量有很大的影響。
發(fā)明內(nèi)容本發(fā)明基于對(duì)已知復(fù)合物內(nèi)蛋白質(zhì)之間的最短距離一般不超過2的發(fā)現(xiàn)，提出了一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法(IPCA)。該方法不需要其它任何輔助信息，只根據(jù)蛋白質(zhì)相互作用數(shù)據(jù)就能夠較準(zhǔn)確地識(shí)別大量具有生物意義的蛋白質(zhì)復(fù)合物，解決了化學(xué)實(shí)驗(yàn)方法很難識(shí)別動(dòng)態(tài)蛋白質(zhì)復(fù)合物的難題，而且節(jié)約了成本，并且一次可以預(yù)測(cè)出大量的蛋白質(zhì)復(fù)合物。本發(fā)明的技術(shù)方案為建立蛋白質(zhì)相互作用無向圖輸入一組蛋白質(zhì)相互作用數(shù)據(jù)，設(shè)置允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值A(chǔ)力，和一個(gè)大小在(o，i)之間的閾值r,",過濾重復(fù)的相互作用和自相互作用，建立無向計(jì)算頂點(diǎn)權(quán)重計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重，邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù)；然后，將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和，計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重，并根據(jù)權(quán)重對(duì)這些頂點(diǎn)按從大到小進(jìn)行排序，放入一個(gè)候選種子隊(duì)列S,中；如果兩個(gè)頂點(diǎn)的權(quán)重相同，或頂點(diǎn)的權(quán)重為0,則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序；選擇種子若所述候選種子隊(duì)列&不為空，將隊(duì)列^的首個(gè)頂點(diǎn)，即權(quán)重最大的頂點(diǎn)作為種子，并初始化為一個(gè)簇，將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物的初始狀態(tài)進(jìn)行擴(kuò)充；每擴(kuò)充完一個(gè)簇，隊(duì)列&中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除；隊(duì)列&為空時(shí)，整個(gè)識(shí)別過程結(jié)束；擴(kuò)充簇根據(jù)簇的所有鄰居頂點(diǎn)對(duì)簇進(jìn)行擴(kuò)充；所述簇的鄰居頂點(diǎn)指與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn)；簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán)，由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及邊的權(quán)重之和決定；首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn)，候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過程對(duì)其進(jìn)行判斷，符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇；一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇，簇的鄰居頂點(diǎn)就進(jìn)行更新，并重新計(jì)算其優(yōu)先權(quán)；擴(kuò)充判斷判斷一個(gè)候選的擴(kuò)充頂點(diǎn)是否符合兩個(gè)條件1)SiYv，wj^A力,"ECV2)/iVv》7;，若符合就將其加入該簇，并調(diào)用擴(kuò)充簇子過程對(duì)其作進(jìn)一步的擴(kuò)充；若不符合，且所有的鄰居頂點(diǎn)都己作過候選擴(kuò)充頂點(diǎn)被考察過，則對(duì)該簇的擴(kuò)充結(jié)束；若仍存在未被考察的鄰居頂點(diǎn)，則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn)；所述5P(v，w)表示蛋白質(zhì)頂點(diǎn)v和蛋白質(zhì)頂點(diǎn)"之間的最短距離，C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集；4越大，識(shí)別的蛋白質(zhì)復(fù)合物越稠密；所述/iV《是指某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間的作用概率，定義為-<formula>formulaseeoriginaldocumentpage6</formula>式(1)中^d表示蛋白質(zhì)復(fù)合物內(nèi)部蛋白質(zhì)頂點(diǎn)的數(shù)量，l&d表示蛋白質(zhì)頂點(diǎn)V與蛋白質(zhì)復(fù)合物之間作用邊的條數(shù)。本發(fā)明的方法對(duì)蛋白質(zhì)相互作用大規(guī)模數(shù)據(jù)中普遍存在的比例較高的假陽性和假陰性具有很好的健壯性，能夠在蛋白質(zhì)相互作用數(shù)據(jù)還不完善且具有較高噪聲的情況下有效地識(shí)別蛋白質(zhì)復(fù)合物，為生物學(xué)家進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的實(shí)驗(yàn)和進(jìn)一步研究提供有價(jià)值的參考信息。圖l:兩個(gè)直徑小于等于2的拓?fù)浣Y(jié)構(gòu)圖；圖2:本發(fā)明IPCA的流程圖；圖3:不同匹配閾值下IPCA從酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)中標(biāo)識(shí)出已知復(fù)合物數(shù)量比較圖；圖4:IPCA的健壯性分析，其在隨機(jī)增加一定比例的邊后識(shí)別的蛋白質(zhì)復(fù)合物與已知蛋白質(zhì)復(fù)合物匹配結(jié)果比較圖(隨機(jī)增加邊的比例從10°/。到100%，按10個(gè)百分點(diǎn)間隔)；圖5:IPCA的健壯性分析，其在隨機(jī)刪除一定比例的邊后識(shí)別的蛋白質(zhì)復(fù)合物與已知蛋白質(zhì)復(fù)合物匹配結(jié)果比較圖(隨機(jī)刪除邊的比例從10%到90%，按10個(gè)百分點(diǎn)間隔)。具體實(shí)施方式一、統(tǒng)計(jì)分析己知蛋白質(zhì)復(fù)合物的拓?fù)涮卣髂壳把芯孔顬閺V泛的物種是酵母，而且已經(jīng)具有一定數(shù)量的通過實(shí)驗(yàn)手段測(cè)定的酵母蛋白質(zhì)復(fù)合物。本發(fā)明從MIPS(MunichInformationcenterforProteinSequences)數(shù)據(jù)庫(kù)下載得到已知的酵母蛋白質(zhì)復(fù)合物和酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)。將相互作用數(shù)據(jù)去除自相互作用和冗余的相互作用，最終形成的蛋白質(zhì)相互作用網(wǎng)絡(luò)包括4546個(gè)酵母蛋白質(zhì)和12319對(duì)相互作用。整個(gè)網(wǎng)絡(luò)的平均聚集系數(shù)為0.4，網(wǎng)絡(luò)直徑為13，特征路徑長(zhǎng)度(即網(wǎng)絡(luò)內(nèi)任意兩個(gè)頂點(diǎn)之間的最短路徑長(zhǎng)度的平均值)為4.42。蛋白質(zhì)復(fù)合物數(shù)據(jù)集去除只有一個(gè)蛋白質(zhì)的復(fù)合物后共有216個(gè)，最小的復(fù)合物包括2個(gè)蛋白質(zhì)，最大的復(fù)合物包括81個(gè)蛋白質(zhì)，平均每個(gè)復(fù)合物包括6.31個(gè)蛋白質(zhì)。216個(gè)復(fù)合物中共有118個(gè)是連通的，98個(gè)非連通，對(duì)連通的復(fù)合物和非連通的復(fù)合物內(nèi)的連通部分分析其直徑和蛋白質(zhì)間的平均最短路徑長(zhǎng)度的結(jié)果如表1所示。表1酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中復(fù)合物的直徑和復(fù)合物內(nèi)蛋白質(zhì)間的平均最短路徑長(zhǎng)度<table>tableseeoriginaldocumentpage7</column></row><table>從表1可以看出，連通的復(fù)合物的直徑和非連通復(fù)合物的連通部分的直徑都遠(yuǎn)小于其所在的網(wǎng)絡(luò)的直徑。在118個(gè)連通的復(fù)合物中直徑小于等于2的占94.91%，蛋白質(zhì)間的平均最短路徑長(zhǎng)度小于等于2的占99.15%。98個(gè)非連通的復(fù)合物的連通部分直徑小于等于2的占82.66%，平均最短路徑長(zhǎng)度全部小于2.5，其中小于等于2的占93.88%。分析的結(jié)果表明復(fù)合物中的蛋白質(zhì)頂點(diǎn)之間的距離具有顯著的統(tǒng)計(jì)特性，他們之間的距離一般不超過2。所以，本發(fā)明認(rèn)為距離可以作為蛋白質(zhì)復(fù)合物識(shí)別過程中一個(gè)非常重要的參數(shù)。二、識(shí)別蛋白質(zhì)復(fù)合物的種子-擴(kuò)充模型(IPCA)由于具有相同直徑或平均最短路徑長(zhǎng)度的圖的稠密程度可能相差比較大。如圖1所示的兩個(gè)直徑小于等于2的圖的拓?fù)浣Y(jié)構(gòu)就相差甚遠(yuǎn)。所以，本發(fā)明以作用概率/A/vc來進(jìn)一步控制識(shí)別的蛋白質(zhì)復(fù)合物的稠密程度。在擴(kuò)充過程中，某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物(Cluster)之間的作用概率/A^定義為其中，|&|表示蛋白質(zhì)復(fù)合物內(nèi)部蛋白質(zhì)頂點(diǎn)的數(shù)量，l&d表示蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間作用邊的條數(shù)。用于識(shí)別蛋白質(zhì)復(fù)合物的種子擴(kuò)充模型定義如下給定一個(gè)蛋白質(zhì)頂點(diǎn)V與一個(gè)蛋白質(zhì)復(fù)合物，蛋白質(zhì)頂點(diǎn)V若屬于該蛋白質(zhì)復(fù)合物則必須滿足如下兩個(gè)條件A"，WGC;2)/M^r,"。其中，S尸(V，")表示蛋白質(zhì)頂點(diǎn)V和蛋白質(zhì)頂點(diǎn)W之間的最短距離，C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集，A。為允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值，7^是給定的一個(gè)大小在(0,1)之間的閾值，7;越大，識(shí)別的蛋白質(zhì)復(fù)合物越稠密?；诰嚯x判定的蛋白質(zhì)復(fù)合物識(shí)別方法IPCA的整個(gè)流程如圖2所示。先輸入一組蛋白質(zhì)相互作用數(shù)據(jù)。用戶可以自己設(shè)置輸入?yún)?shù)A"和4的值?；诒景l(fā)明對(duì)己知蛋白質(zhì)復(fù)合物拓?fù)涞慕y(tǒng)計(jì)分析，本發(fā)明將參數(shù)An的默認(rèn)值設(shè)置為2。方法IPCA可以劃分為4個(gè)子過程計(jì)算頂點(diǎn)權(quán)重、選擇種子、擴(kuò)充簇和擴(kuò)充判斷。子過程l:計(jì)算頂點(diǎn)權(quán)重。方法IPCA首先計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重，邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù)。然后，將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和，計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重，并根據(jù)權(quán)重對(duì)這些頂點(diǎn)進(jìn)行排序，放入一個(gè)候選種子隊(duì)列&中。如果兩個(gè)頂點(diǎn)的權(quán)重相同，或頂點(diǎn)的權(quán)重為O，則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序。計(jì)算出所有邊的權(quán)重的時(shí)間復(fù)雜度為o(iw問)，計(jì)算出所有頂點(diǎn)的權(quán)重，并將其按權(quán)重大小放入候選種子隊(duì)列&的時(shí)間復(fù)雜度為0(|W/ogW)。子過程2:選擇種子。若候選種子隊(duì)列&不為空，將隊(duì)列&的首個(gè)頂點(diǎn)，即權(quán)重最大的頂點(diǎn)，作為種子，并將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物(稱為"簇")的初始狀態(tài)進(jìn)行擴(kuò)充。候選種子隊(duì)列^的初始狀態(tài)為按權(quán)重從大到小排列的整個(gè)網(wǎng)絡(luò)圖中的所有頂點(diǎn)，每擴(kuò)充完一個(gè)簇，隊(duì)列^中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除。隊(duì)列&為空時(shí)，整個(gè)識(shí)別過程結(jié)束。子過程3:擴(kuò)充簇。對(duì)簇進(jìn)行擴(kuò)充需要考慮簇的所有鄰居頂點(diǎn)。簇的鄰居頂點(diǎn)是指那些與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn)。簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán)，由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及這些邊的權(quán)重之和決定，連接的邊數(shù)越多，權(quán)重和越大，優(yōu)先權(quán)越高。進(jìn)行簇?cái)U(kuò)充時(shí)，首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn)。候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過程對(duì)其進(jìn)行判斷，符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇。一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇，簇的鄰居頂點(diǎn)就進(jìn)行更新，并重新計(jì)算其優(yōu)先權(quán)。從簇的鄰居頂點(diǎn)產(chǎn)生候選擴(kuò)充頂點(diǎn)的時(shí)間復(fù)雜度為0(|^||K—wl+IK—wllog|rLwll)，其中l(wèi)^為簇內(nèi)的頂點(diǎn)個(gè)數(shù)，IKjvl為簇的鄰居頂點(diǎn)個(gè)數(shù)。實(shí)際上，當(dāng)一個(gè)新的候選頂點(diǎn)被加入簇后，簇的鄰居頂點(diǎn)及其優(yōu)先權(quán)只需根據(jù)該頂點(diǎn)被加入簇引起的變化進(jìn)行更新。簇的鄰居頂點(diǎn)更新的次數(shù)取決于該簇?cái)U(kuò)充終止時(shí)的規(guī)模。子過程4:擴(kuò)充判斷。一個(gè)候選的擴(kuò)充頂點(diǎn)是否被擴(kuò)充需要判斷其是否符合種子-擴(kuò)充模型中的兩個(gè)判斷條件，若符合就將其加入該簇，并調(diào)用擴(kuò)充簇子過程對(duì)其作進(jìn)一步的擴(kuò)充；若不符合，且所有的鄰居頂點(diǎn)都已作過候選擴(kuò)充頂點(diǎn)被考察過，則對(duì)該簇的擴(kuò)充結(jié)束，若仍存在未被考察的鄰居頂點(diǎn)，則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn)。判斷一個(gè)候選擴(kuò)充頂點(diǎn)是否滿足被擴(kuò)充條件的時(shí)間復(fù)雜度為0(|^|2)。為了驗(yàn)證方法IPCA的有效性，我們將方法IPCA應(yīng)用于MIPS數(shù)據(jù)庫(kù)中的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和計(jì)算機(jī)生成的與該酵母網(wǎng)絡(luò)具有相同度分布的隨機(jī)網(wǎng)絡(luò)。首先，我們將參數(shù)A"設(shè)置為2，參數(shù)r,"設(shè)置從O.l到0.9，按0.1的間隔遞增，將方法IPCA分別應(yīng)用于酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)，并將識(shí)別的復(fù)合物與已知數(shù)據(jù)庫(kù)中通過實(shí)驗(yàn)獲得的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行比較分析。識(shí)別出來的復(fù)合物(Pc)與已知復(fù)合物(i^)的匹配程度OS(Pc,Kc)的計(jì)算如下141X1^1(2)其中l(wèi)&l和Fd分別表示識(shí)別復(fù)合物和己知復(fù)合物的規(guī)模，z'表示他們交集的規(guī)模。若兩個(gè)復(fù)合物的匹配程度OS(PC。超過給定的閾值，則稱這兩個(gè)復(fù)合物匹配。對(duì)于標(biāo)準(zhǔn)復(fù)合物數(shù)據(jù)集中的已知復(fù)合物，如果存在一個(gè)或多個(gè)算法識(shí)別出來的復(fù)合物與之匹配程度OS(戶c人c)超過給定閾值，則稱該已知復(fù)合物被標(biāo)識(shí)，如果OS(尸c,尺c"l，則稱該已知復(fù)合物被完全標(biāo)識(shí)。表2給出了不同匹配閾值下已知復(fù)合物被方法IPCA和其他方法標(biāo)識(shí)出來的數(shù)量。表2不同匹配閾值下已知復(fù)合物被方法IPCA和其他方法標(biāo)識(shí)出來的數(shù)量<table>tableseeoriginaldocumentpage10</column></row><table>從表2可以看出，在不同匹配閾值下，方法IPCA標(biāo)識(shí)出來的己知復(fù)合物的數(shù)量都高于方法DPClus、CFinder、LCMA、MCODE、RNSC和STM標(biāo)識(shí)出來的已知復(fù)合物的數(shù)量。圖3描述了不同匹配閾值下方法IPCA從酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和對(duì)應(yīng)的隨機(jī)網(wǎng)絡(luò)中標(biāo)識(shí)出來的已知復(fù)合物數(shù)量。從圖3可以看出，方法IPCA在酵母網(wǎng)絡(luò)中標(biāo)識(shí)出大量的已知復(fù)合物，但在隨機(jī)網(wǎng)絡(luò)中幾乎沒有已知復(fù)合物被標(biāo)識(shí)出。這說明，方法IPCA識(shí)別的蛋白質(zhì)復(fù)合物具有很強(qiáng)的生物意義。由于目前所能獲得的蛋白質(zhì)相互作用數(shù)據(jù)都不可避免地具有較高的假陽性和假陰性，好的蛋白質(zhì)復(fù)合物識(shí)別方法應(yīng)該具有很好的健壯性。我們用隨機(jī)增加和刪除一定比例的邊來模擬蛋白質(zhì)相互作用網(wǎng)絡(luò)的假陽性和假陰性。隨機(jī)增加邊的比例從10%到100%,按10個(gè)百分點(diǎn)間隔，產(chǎn)生了10組數(shù)據(jù)，從這些高假陽性的數(shù)據(jù)中進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別，并將識(shí)別出來的結(jié)果與已知蛋白質(zhì)復(fù)合物進(jìn)行匹配，匹配的結(jié)果如圖4所示。從圖4可以看出，隨著假陽性的增強(qiáng)，方法IPCA能夠標(biāo)識(shí)出來的已知蛋白質(zhì)復(fù)合物數(shù)量幾乎沒有下降多少，說明其具有相當(dāng)高的抗噪能力。隨機(jī)刪除邊的比例從10%到90%，也按10個(gè)百分點(diǎn)間隔，重復(fù)上面的工作，匹配結(jié)果如圖5所示。從圖5可以看出，只要?jiǎng)h除邊的比例小于50%，方法IPCA能夠標(biāo)識(shí)出來的己知蛋白質(zhì)復(fù)合物數(shù)量下降的很少。當(dāng)刪除邊的比例大于50%時(shí)，標(biāo)識(shí)出的數(shù)量開始下降。當(dāng)刪除邊的比例大于80%時(shí)，標(biāo)識(shí)出的數(shù)量有了十分明顯的下降。隨機(jī)增加和刪除一定比例邊的模擬實(shí)驗(yàn)充分說明了方法IPCA對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)的假陽性和假陰性都具有相當(dāng)高的健壯性。權(quán)利要求1.一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法，其特征在于包括以下步驟(1)建立蛋白質(zhì)相互作用無向圖輸入一組蛋白質(zhì)相互作用數(shù)據(jù)，設(shè)置允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值Din，和一個(gè)大小在(0，1)之間的閾值Tin，過濾重復(fù)的相互作用和自相互作用，建立無向圖；(2)計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重，邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù)。然后，將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和，計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重，并根據(jù)權(quán)重對(duì)這些頂點(diǎn)按從大到小進(jìn)行排序，放入一個(gè)候選種子隊(duì)列Sq中；如果兩個(gè)頂點(diǎn)的權(quán)重相同，或頂點(diǎn)的權(quán)重為0，則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序；(3)選擇種子若所述候選種子隊(duì)列Sq不為空，將隊(duì)列Sq的首個(gè)頂點(diǎn)，即權(quán)重最大的頂點(diǎn)作為種子，并初始化為一個(gè)簇，將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物的初始狀態(tài)進(jìn)行擴(kuò)充；每擴(kuò)充完一個(gè)簇，隊(duì)列Sq中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除；隊(duì)列Sq為空時(shí)，整個(gè)識(shí)別過程結(jié)束；(4)擴(kuò)充簇的過程為根據(jù)簇的所有鄰居頂點(diǎn)對(duì)簇進(jìn)行擴(kuò)充；所述簇的鄰居頂點(diǎn)指與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn)；簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán)，由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及邊的權(quán)重之和決定；首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn)，候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過程對(duì)其進(jìn)行判斷，符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇；一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇，簇的鄰居頂點(diǎn)就進(jìn)行更新，并重新計(jì)算其優(yōu)先權(quán)；(5)所述擴(kuò)充判斷的過程為判斷一個(gè)候選的擴(kuò)充頂點(diǎn)是否符合兩個(gè)條件1)SP(v，u)≤Din，u∈C；2)INvC≥Tin，若符合就將其加入該簇，并調(diào)用擴(kuò)充簇子過程對(duì)其作進(jìn)一步的擴(kuò)充；若不符合，且所有的鄰居頂點(diǎn)都已作過候選擴(kuò)充頂點(diǎn)被考察過，則對(duì)該簇的擴(kuò)充結(jié)束；若仍存在未被考察的鄰居頂點(diǎn)，則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn)；所述SP(v，u)表示蛋白質(zhì)頂點(diǎn)v和蛋白質(zhì)頂點(diǎn)u之間的最短距離，C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集；Tin越大，識(shí)別的蛋白質(zhì)復(fù)合物越稠密；所述INvC是指某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間的作用概率。全文摘要本發(fā)明公開了一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法，基于對(duì)已知蛋白質(zhì)復(fù)合物中蛋白質(zhì)頂點(diǎn)之間的最短距離一般不超過2的發(fā)現(xiàn)，將蛋白質(zhì)頂點(diǎn)之間的最短距離作為蛋白質(zhì)復(fù)合物識(shí)別的一個(gè)重要參數(shù)，并利用蛋白質(zhì)頂點(diǎn)與蛋白質(zhì)復(fù)合物之間的作用概率來控制識(shí)別的蛋白質(zhì)復(fù)合物的稠密程度。本發(fā)明實(shí)現(xiàn)簡(jiǎn)單，能夠通過蛋白質(zhì)相互作用網(wǎng)絡(luò)識(shí)別大量已知的具有生物意義的蛋白質(zhì)復(fù)合物，對(duì)蛋白質(zhì)相互作用大規(guī)模數(shù)據(jù)中普遍存在的比例較高的假陽性和假陰性具有很好的健壯性，有效地解決了化學(xué)實(shí)驗(yàn)成本昂貴，單次識(shí)別數(shù)量少以及很難識(shí)別動(dòng)態(tài)復(fù)合物的生物學(xué)難題。文檔編號(hào)G06F19/00GK101246520SQ20081003083公開日2008年8月20日申請(qǐng)日期2008年3月18日優(yōu)先權(quán)日2008年3月18日發(fā)明者敏李,王建新申請(qǐng)人:中南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王建新;李敏
技術(shù)所有人：中南大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)復(fù)合物相關(guān)技術(shù)

蛋白質(zhì)復(fù)合體相關(guān)技術(shù)

復(fù)合蛋白質(zhì)相關(guān)技術(shù)

高一生物蛋白質(zhì)視頻相關(guān)技術(shù)

蛋白質(zhì)和碳水化合物相關(guān)技術(shù)

蛋白質(zhì)脂肪碳水化合物相關(guān)技術(shù)

蛋白質(zhì)的生物合成相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法