專利名稱:基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是ー種用信息學(xué)科常用的核典型相關(guān)分析方法處理生物問題的方法。具體地說是ー種用信息學(xué)科常用的核典型相關(guān)分析方法進行固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的方法。
背景技術(shù):
長期認為,蛋白質(zhì)的特定規(guī)則結(jié)構(gòu)是蛋白質(zhì)具有功能的基礎(chǔ),缺失特定規(guī)則結(jié)構(gòu)的蛋白質(zhì)是不具有活性的。而固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)的發(fā)現(xiàn)打破了這ー觀點。固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)不僅不是毫無用處的,恰恰在細胞中執(zhí)行著重要功能。許多癌癥都與不規(guī)則蛋白質(zhì)有夫。由于固有不規(guī)則蛋白質(zhì)發(fā)現(xiàn)比較困難,研究固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法可有效引導(dǎo)這類蛋白質(zhì)的發(fā)現(xiàn),并為生物制藥的研制提供基礎(chǔ)。由于關(guān)于固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的研究不到十年,相應(yīng)的預(yù)測方法不是很多。整體來看,融合多特征的預(yù)測器效果要好于基于單特征的預(yù)測器。融合多特征包括決策級融合和特征級融合兩種方式。目前,可見報道的預(yù)測方法均采用決策級融合的方式(CDF it all:しonsensus prediction of intrinsically disordered proteins basedon various cumulative distribution functions, Bin Xue;Christopher J. Oldfield;A.Keith Dunker; Vladimir N. Uversky, FEBS Letters 2009; 583 (9) : 1469-1474.)。然而,相比于決策級融合,特征級融合由于利用了更多的可識別信息,因此,有著更好的識別性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能有效提高固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)的預(yù)測精度的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。本發(fā)明的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的方法,包括下列步驟(I)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識別特征,所述結(jié)構(gòu)特征指采用窗ロ法得到的蛋白質(zhì)預(yù)測位點周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點氨基酸的Russell/Linding值、疏水性、極性和帶電性;(2)采用核典型相關(guān)分析法對所提取的特征數(shù)據(jù)進行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù);(3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),進行蛋白質(zhì)結(jié)構(gòu)識別和預(yù)測。本發(fā)明即采用特征級融合的方式對固有不規(guī)則蛋白質(zhì)的結(jié)構(gòu)進行預(yù)測,具體為基于核典型相關(guān)分析的方式對固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)的結(jié)構(gòu)進行預(yù)測,能取得比現(xiàn)有方法更好的預(yù)測效果。本發(fā)明的有益效果在干本發(fā)明利用核典型相關(guān)分析對固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)進行預(yù)測,在充分利用不同特征間離散度的同時,也利用不同特征的相關(guān)性進行多特征融合,使得預(yù)測精度得到有效提高。本發(fā)明有助于為固有不規(guī)則蛋白質(zhì)的發(fā)現(xiàn)和確認提供前期依據(jù),并為生物制藥的研制提供基礎(chǔ)。
圖I基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法流程圖。
具體實施例方式下面舉例對本發(fā)明做更詳細的描述I.蛋白質(zhì)結(jié)構(gòu)特征提取I. I氨基酸的組合頻率特征當(dāng)對蛋白質(zhì)的結(jié)構(gòu)進行研究時,蛋白質(zhì)的ー級結(jié)構(gòu),即組成蛋白質(zhì)的氨基酸序列是基礎(chǔ)研究內(nèi)容。本發(fā)明首先采用窗ロ法獲取蛋白質(zhì)氨基酸序列的組合頻率特征。定義氨基酸集』=.丨んr,/)'/ひソ入//,ん(/.'紙,V./ソん。集合』中的20個字母分別對應(yīng)著20種不同的氨基酸,其中文名稱見表I。以待進行蛋白質(zhì)結(jié)構(gòu)預(yù)測的氨基酸位點為中心,取一長度為I的窗ロ,對窗口內(nèi)的每個氨基酸出現(xiàn)的頻率進行統(tǒng)計,以反映該氨基酸位點周圍的氨基酸對其結(jié)構(gòu)傾向性的影響。為了保證前后對稱,I 一般取為奇數(shù)。設(shè)蛋白質(zhì)序列X的長度為M,那么氨基酸的組合頻率特征可以描述為
權(quán)利要求
1.一種基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,其特征是 (1)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識別特征,所述結(jié)構(gòu)特征指采用窗ロ法得到的蛋白質(zhì)預(yù)測位點周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點氨基酸的Russell/Linding值、疏水性、極性和帶電性; (2)采用核典型相關(guān)分析法對所提取的特征數(shù)據(jù)進行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù); (3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),進行蛋白質(zhì)結(jié)構(gòu)識別和預(yù)測。
2.根據(jù)權(quán)利要求I所述的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,其特征是所述采用窗ロ法得到的蛋白質(zhì)預(yù)測位點周圍氨基酸的組合頻率的提取方法為 定義氨基酸集3 =認(',/)プ:,れ< ,//,/,1ム耽]\^,(^_ノア,『,7},集合^4中的20個字母分別對應(yīng)著20種不同的氨基酸,以待進行蛋白質(zhì)結(jié)構(gòu)預(yù)測的氨基酸位點為中心,取一長度為I的窗ロ,對窗口內(nèi)的每個氨基酸出現(xiàn)的頻率進行統(tǒng)計,以反映該氨基酸位點周圍的氨基酸對其結(jié)構(gòu)傾向性的影響;1取為奇數(shù),設(shè)蛋白質(zhì)序列X的長度為M,那么氨基酸的組合頻率特征描述為
全文摘要
本發(fā)明提供的是一種基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。(1)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識別特征,所述結(jié)構(gòu)特征指采用窗口法得到的蛋白質(zhì)預(yù)測位點周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點氨基酸的Russell/Linding值、疏水性、極性和帶電性;(2)采用核典型相關(guān)分析法對所提取的特征數(shù)據(jù)進行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù);(3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識別的特征數(shù)據(jù),進行蛋白質(zhì)結(jié)構(gòu)識別和預(yù)測。本發(fā)明的預(yù)測精度得到有效提高,有助于為固有不規(guī)則蛋白質(zhì)的發(fā)現(xiàn)和確認提供前期依據(jù),并為生物制藥的研制提供基礎(chǔ)。
文檔編號G06F19/16GK102779240SQ20121020588
公開日2012年11月14日 申請日期2012年6月21日 優(yōu)先權(quán)日2012年6月21日
發(fā)明者馮偉興, 王科俊, 董彥生, 賀波, 陳若雷 申請人:哈爾濱工程大學(xué)