專利名稱:一種預(yù)測轉(zhuǎn)錄因子結(jié)合位點的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及一種預(yù)測轉(zhuǎn)錄因子與在靶基因上的結(jié)合位點的方法。
背景技術(shù):
基因轉(zhuǎn)錄有正調(diào)控和負(fù)調(diào)控之分。如細(xì)菌基因的負(fù)調(diào)控機制是當(dāng)一種阻遏蛋白 (repressor protein)結(jié)合在受調(diào)控的基因上時,基因不表達(dá);而從靶基因上去除阻遏蛋白后,RNA(核糖核酸)聚合酶識別受調(diào)控基因的啟動子,使基因得以表達(dá),這是正調(diào)控,這種阻遏蛋白是反式作用因子。轉(zhuǎn)錄因子(transcription factor, TF)便是一種起正調(diào)控作用的反式作用因子,它是基因轉(zhuǎn)錄起始過程中RNA聚合酶所需的輔助因子。真核生物基因在無轉(zhuǎn)錄因子時處于不表達(dá)狀態(tài),RNA聚合酶自身無法啟動基因轉(zhuǎn)錄,只有當(dāng)轉(zhuǎn)錄因子(蛋白質(zhì))結(jié)合在其識別的DNA(脫氧核糖核酸)序列上后,基因才開始表達(dá)。轉(zhuǎn)錄因子與其靶基因序列的結(jié)合是依據(jù)靶基因序列上特定順序序列的識別來完成的,這些特定的序列便是轉(zhuǎn)錄因子的結(jié)合位點(transcription factor binding site, TFBS),它們與轉(zhuǎn)錄因子相結(jié)合,調(diào)節(jié)著基因的轉(zhuǎn)錄過程。確定轉(zhuǎn)錄因子結(jié)合位點是理解轉(zhuǎn)錄調(diào)控機制、建立轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的關(guān)鍵問題。一個轉(zhuǎn)錄因子往往同時調(diào)控若干個基因,而它在不同基因上的結(jié)合位點具有一定的保守性,又不完全相同。較短的DNA片段在規(guī)模較大基因組中重復(fù)出現(xiàn)的次數(shù)很多,另外轉(zhuǎn)錄因子結(jié)合位點又允許一定的可變性,這給識別結(jié)合位點序列的研究工作帶來了困難,使得預(yù)測轉(zhuǎn)錄因子結(jié)合位點的算法普遍存在假陽性率偏高的問題。近年來,隨著大規(guī)模DNA測序成果的積累和生物芯片等高通量生物技術(shù)的發(fā)展, 人們對TFBS的研究也不斷地深入一方面,生物實驗驗證的TFBS不斷積累,轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)數(shù)據(jù)不斷豐富,另一方面,描述IFBS的模型不斷增多,這些新模型以增加模型復(fù)雜度為代價,更多地保留了 TFBS數(shù)據(jù)中的信息,最后,得益于多基因組測序、大規(guī)模的新一代染色質(zhì)免疫共沉淀芯片(ChlP-seq)實驗、以及染色體結(jié)構(gòu)(Chromatin structure)等研究,通過對多方面信息進(jìn)行整合,預(yù)測TFBS的算法效率也有所提高。本發(fā)明專利針對于轉(zhuǎn)錄因子結(jié)合位點預(yù)測的研究,設(shè)計了一種預(yù)測方法,以提高轉(zhuǎn)錄因子結(jié)合位點預(yù)測的準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明專利設(shè)計了一種預(yù)測轉(zhuǎn)錄因子結(jié)合位點的方法,該方法的基本實施流程如下步驟1、研究對象的基因組定位步驟2、基因啟動子序列的提取步驟3、預(yù)測轉(zhuǎn)錄因子結(jié)合位點步驟4、統(tǒng)計分析預(yù)測結(jié)果
通過以上方法,能較為準(zhǔn)確地預(yù)測出目的基因的轉(zhuǎn)錄因子結(jié)合位點,保證了預(yù)測結(jié)果的真陽性率。
圖1、本發(fā)明專利所述方法的實施流程圖
具體實施例方式本發(fā)明將以Ephx2基因的轉(zhuǎn)錄因子結(jié)合位點預(yù)測為例,介紹本發(fā)明專利所述方法的具體實施步驟步驟1、基因組定位。以Ephx2為關(guān)鍵詞,從NCBI的基因數(shù)據(jù)庫(http://WWW. ncbi. nlm. nih. gov/gene/)檢索基因信息,并下載基因序列數(shù)據(jù)到本地計算機。步驟2、提取啟動子序列。分析步驟1中的基因信息,我們可以獲得研究基因轉(zhuǎn)錄起始位點的位置信息。本實例中Ephx2的轉(zhuǎn)錄起始位點為chrl5 :45556101。利用序列編輯工具,我們提取轉(zhuǎn)錄起始位點上游4500bp,下游500bp之間的序列片段做為Ephx2的啟動子序列。步驟3、預(yù)測轉(zhuǎn)錄因子結(jié)合位點。我們使用lister程序(http //ural. wustl. edu/ resources, html)預(yù)測Ephx2的轉(zhuǎn)錄因子結(jié)合位點,設(shè)置參數(shù)relative score > 0. 9。其中轉(zhuǎn)錄因子序列來源于數(shù)據(jù)庫 TRANSFAC 7. 0 public (http //www. gene-regulation, com/ pub/databases, html),并將結(jié)果的假陽性率最小化。步驟4、統(tǒng)計步驟3中預(yù)測的本實例中目的基因Ephx2的轉(zhuǎn)錄因子結(jié)合位點預(yù)測結(jié)果,繪制轉(zhuǎn)錄因子結(jié)合位點圖。以上是對本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.本發(fā)明專利所述的一種預(yù)測轉(zhuǎn)錄因子結(jié)合位點的方法,該方法包括如下幾步主要特征步驟1、研究對象的基因組定位步驟2、基因啟動子序列的提取步驟3、預(yù)測轉(zhuǎn)錄因子結(jié)合位點步驟4、統(tǒng)計分析預(yù)測結(jié)果。
全文摘要
本發(fā)明設(shè)計了一種預(yù)測轉(zhuǎn)錄因子結(jié)合位點的方法,該方法的基本實施流程如下步驟1、研究對象的基因組定位;步驟2、基因啟動子序列的提??;步驟3、預(yù)測轉(zhuǎn)錄因子結(jié)合位點;步驟4、統(tǒng)計分析預(yù)測結(jié)果。通過該方法,能較為準(zhǔn)確地預(yù)測出目的基因的轉(zhuǎn)錄因子結(jié)合位點,有效提高預(yù)測結(jié)果的真陽性率。
文檔編號G06F19/18GK102206699SQ201010227078
公開日2011年10月5日 申請日期2010年7月14日 優(yōu)先權(quán)日2010年7月14日
發(fā)明者曾華宗 申請人:上海聚類生物科技有限公司