国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基因注釋語義相似度的計(jì)算方法

      文檔序號(hào):6459578閱讀:253來源:國知局

      專利名稱::一種基因注釋語義相似度的計(jì)算方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及一種基因注釋語義相似度的計(jì)算方法,屬于生物信息學(xué)(Bioinformatics)技術(shù)令頁域。
      背景技術(shù)
      :基因本體(geneontology,GO)是重要的基因注釋數(shù)據(jù)庫,生物學(xué)家常常使用AmiG0、QuickG0等在線工具檢索基因G0注釋。獲得基因注釋之后,需要比較基因注釋語義的相似程度,即考察某些基因的功能是否相似,或者某些基因是否共同參與了某些物質(zhì)的代謝過程等。目前比較基因的相似性主要依靠手工完成,由于生物學(xué)家通常需要比較幾十,甚至成百上千條基因,如果用手工比較這么多基因的相似性,那么將是十分耗時(shí)耗力的工作,而且手工比較還會(huì)受到主觀因素的影響。用計(jì)算機(jī)快速自動(dòng)地比較基因的相似性成為解決這個(gè)問題的重要方法,而在這種方法中,如何準(zhǔn)確地計(jì)算基因的相似度成為解決這個(gè)問題的關(guān)鍵。計(jì)算基因注釋語義的相似度常以GO為基礎(chǔ)。基于GO計(jì)算基因注釋語義相似度的基本方法是先將基因通過基因關(guān)聯(lián)文件(http:〃www.geneontology.org/GO.current,annotations,sht.ml)映射至ljGO圖的結(jié)點(diǎn)上,獲得基因注釋,計(jì)算被映射的G0結(jié)點(diǎn)的相似度;然后用GO結(jié)點(diǎn)的相似度計(jì)算基因注釋語義相似度。目前已有一些文獻(xiàn)報(bào)道了計(jì)算GO結(jié)點(diǎn)相似度的方法。這些方法中絕大部分是以Resnik's的方法為基礎(chǔ)。Resnik's方法最初是應(yīng)用于文本詞匯語義分類,后來被應(yīng)用到G0結(jié)點(diǎn)的語義分類上。應(yīng)用Resnik's方法計(jì)算基因注釋語義相似度的過程是先將基因映射到C'0圖結(jié)點(diǎn)上,并對(duì)被映射的GO結(jié)點(diǎn)及其祖先結(jié)點(diǎn)計(jì)數(shù),根據(jù)計(jì)數(shù)結(jié)果計(jì)算結(jié)點(diǎn)的信息量,通過結(jié)點(diǎn)信息量計(jì)算結(jié)點(diǎn)的相似度,最后以GO結(jié)點(diǎn)相似度計(jì)算基因的相似度。雖然Jiang等人對(duì)Resnik's方法作了改進(jìn),考慮了結(jié)點(diǎn)深度對(duì)語義相似度的影響,但是只要是基于Resnik's方法都有兩個(gè)缺點(diǎn)第一、這種方法以結(jié)點(diǎn)計(jì)數(shù)為基礎(chǔ),忽視了"屬于(is-a)"和"部分屬于(part-of)"兩種不同關(guān)系對(duì)結(jié)點(diǎn)相似度的不同影響;第二、Resnik's方法計(jì)算的結(jié)點(diǎn)語義相似度不可以被重復(fù)利用,因?yàn)閮山Y(jié)點(diǎn)的語義相似度受到它們所在集合其它結(jié)點(diǎn)的影響。由于結(jié)點(diǎn)相似度不可以重復(fù)利用,因此相同的結(jié)點(diǎn)在不同的集合中必需重復(fù)計(jì)算相似度,當(dāng)需比較的結(jié)點(diǎn)數(shù)目很多時(shí),則需要消耗大量的計(jì)算機(jī)時(shí)空資源,這是Resnik's方法最主要的缺陷。最近由Wang等人提出了一種根據(jù)關(guān)系分層遞減計(jì)算GO結(jié)點(diǎn)權(quán)重,再按GO結(jié)點(diǎn)權(quán)重計(jì)算結(jié)點(diǎn)語義相似度的方法。這種方法將需要計(jì)算相似度的結(jié)點(diǎn)權(quán)重定義為1,若其父結(jié)點(diǎn)與它的關(guān)系是"is-a",則其父結(jié)點(diǎn)的權(quán)重為它的權(quán)重與一個(gè)常數(shù)(Wang等人建議取0.8)的積;若其父結(jié)點(diǎn)與它的關(guān)系是"part-of",則其父結(jié)點(diǎn)的權(quán)重為它的權(quán)重與另一個(gè)常數(shù)(Wang等人建議取0.6)的積,依次類推。若有GO結(jié)點(diǎn)〃,"'是"的祖先結(jié)點(diǎn),如果從"'到"有多條路徑,每條路徑均可計(jì)算出不同的權(quán)重值,那么以最大權(quán)重值表示該結(jié)點(diǎn)的權(quán)重值,而忽視較小權(quán)重值的影響。Wang's方法有兩個(gè)缺點(diǎn)第一、按關(guān)系分層遞減比例難以確定,Wang建議取0.8和0.6,實(shí)際上有很大的隨意性,而遞減比較的確定對(duì)GO結(jié)點(diǎn)相似度有直接影響;第二、以最大權(quán)重值表示祖先點(diǎn)的權(quán)重值,忽視了不同路徑對(duì)GO結(jié)點(diǎn)相似度的影響。因此目前還沒有一種準(zhǔn)確計(jì)算基因注釋語義相似度的方法。
      發(fā)明內(nèi)容本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)缺陷,提供一種基因注釋語義相似度計(jì)算的方法,這種方法能準(zhǔn)確計(jì)算出基因注釋語義的相似度。為了實(shí)現(xiàn)上述目的,本發(fā)明采用的構(gòu)思是首先根據(jù)基因關(guān)聯(lián)文件將基因與GO結(jié)點(diǎn)建立關(guān)聯(lián),計(jì)算被關(guān)聯(lián)的GO結(jié)點(diǎn)的語義相似度,然后計(jì)算基因注釋語義的相似度。為了有助于理解本發(fā)明的技術(shù)方案,首先討論基因本體、GO結(jié)點(diǎn)語義相似度的計(jì)算方法,和基因注釋語義相似度的計(jì)算方法,然后再描述本發(fā)明的技術(shù)方案。1、基因本體在生物信息學(xué)領(lǐng)域中,GO是最重要的本體之一,由基因本體協(xié)會(huì)開發(fā)和維護(hù)。GO以一致的、受控的、結(jié)構(gòu)化的術(shù)語注釋基因,有效地解決了在不同數(shù)據(jù)庫中描述相同基因的不一致問題[2]。G0分別從分子功能、生物過程、細(xì)胞成份三個(gè)方面描述基因,因而GO中包括三個(gè)本體分子功能本體(molecularfunctionontology,MFO)、生物過程本體(biologicalprocessontology,BP0),以及細(xì)胞成份本體(cellularcomponentontology'CC0)。每個(gè)本體均以有向非循環(huán)圖(directedacyclicgraph,DAG)的方式組織。圖中的結(jié)點(diǎn)表示注釋基因的術(shù)語,連接結(jié)點(diǎn)的邊表示術(shù)語間的關(guān)系。關(guān)系有兩種"is-a"和"part-of"。在BP0和CC0中,兩種關(guān)系均存在,但是MF0中只有"is-a"關(guān)系。此外,特別值得注意的是,在GO圖中除根結(jié)點(diǎn)外的所有結(jié)點(diǎn)均允許有多個(gè)父結(jié)點(diǎn)和多個(gè)子結(jié)點(diǎn),這一點(diǎn)與一般的本體不同,也正是這一點(diǎn)導(dǎo)致計(jì)算GO結(jié)點(diǎn)相似度比計(jì)算一般本體結(jié)點(diǎn)的相似度更復(fù)雜。附圖1為MF0的子圖。2、GO結(jié)點(diǎn)語義相似度的計(jì)算方法2.1基本概念考慮附圖1中各結(jié)點(diǎn)的關(guān)系。從根結(jié)點(diǎn)ID3674到ID22891有兩條路徑ID3674—ID5215—ID22857—ID22891和ID3674—ID5215—ID22892—ID22891;ID22891的父結(jié)點(diǎn)有ID22857和ID22892,ID22891的子結(jié)點(diǎn)有ID15665;本發(fā)明中將結(jié)點(diǎn)自身也并入其祖先結(jié)點(diǎn)集合,因此ID22891的祖先結(jié)點(diǎn)有ID3674、ID5215、ID22857、ID22892,以及ID22891。ID22891的后繼結(jié)點(diǎn)有ID15665、ID15166、ID15168,以及附圖中沒有標(biāo)出的其它后繼結(jié)點(diǎn)。根據(jù)以上描述,可以給出以下定義。定義l:在G0圖中,將"到"的路徑集合(thesetofpaths)定義為joaffe《。,fc)={~<h,h,..,&>~|=i)a(fo二ti)a(VZ:(1<n)a(fteporenfe《,+(工)函數(shù)表示結(jié)點(diǎn)^的父結(jié)點(diǎn)集合。定義2:若結(jié)點(diǎn)^是"的祖先結(jié)點(diǎn),則至少有一條路徑從^到",因此可以定義結(jié)點(diǎn)Z的祖先結(jié)點(diǎn)集合(thesetofancestors)為:(3"casto/^(f)="1,f2,…,&,/11(Vz':(1S/蘭af)#0)}(2)在附圖1中,ancestors(ID22891)={ID3674,ID5215,ID22857,ID22892,ID22891}:ancestors(ID15250)二UD3674'ID5215,ID22857,ID22892,ID22803,ID15267,ID22838,ID5372,ID15250},ID22891與ID15250的共同祖先(thecommonancestors,CAs)結(jié)點(diǎn)有ancestors(ID22891)門ancestors(ID15250)={ID3674,ID5215,ID22857,ID22892},在此集合中,與ID22891和ID15250距離最近的共同祖先(theshortestcommonancestors,SCAs)結(jié)點(diǎn)有{ID22857,ID22892},即結(jié)點(diǎn)ID22857和ID22892分別到ID22891和ID15250的路徑不再經(jīng)過它們共同祖先集合中的其它結(jié)點(diǎn)。因此,可以將f"和"的最近共同祖先結(jié)點(diǎn)集合定義為定義3.={1(冊(cè)c/e(戸^s'(""))m7c^(/G^/75仏&))nC^'(D)二(3)這里,"e(戸林,fo))表示路徑集合中包含的所有結(jié)點(diǎn)的集合,2.2影響G0結(jié)點(diǎn)語義相似度的因素GO圖是根據(jù)結(jié)點(diǎn)所對(duì)應(yīng)的術(shù)語性質(zhì)不斷分類細(xì)化的結(jié)果。一般情況下,在G0圖中離根結(jié)點(diǎn)越近的結(jié)點(diǎn),它所表示的術(shù)語概念越抽象,宏觀程度越高,信息量越小,如ID5215只表示"轉(zhuǎn)動(dòng)活動(dòng)",沒有具體到哪種轉(zhuǎn)動(dòng)活動(dòng),相反的,結(jié)點(diǎn)離根結(jié)點(diǎn)越遠(yuǎn)的結(jié)點(diǎn),它所表示的術(shù)語概念越具體,宏觀程度越低,信息量越大,如ID15250表示"水通道活動(dòng)",水通道轉(zhuǎn)運(yùn)是一種生物轉(zhuǎn)運(yùn)方式,此結(jié)點(diǎn)不僅表示出是轉(zhuǎn)運(yùn)活動(dòng),而且指出以水作為其特定的底物,十分具體。在本發(fā)明中,將所有邊的長度均量化為l。下面考慮影響GO結(jié)點(diǎn)語義相似度的因素。路徑距離(thepathdistance,pd)在附圖1中,ID22803"被動(dòng)跨膜轉(zhuǎn)運(yùn)活動(dòng)"與ID22891"特殊底物跨膜轉(zhuǎn)運(yùn)活動(dòng)"同屬于工D22857"跨膜轉(zhuǎn)運(yùn)活動(dòng)"的子結(jié)點(diǎn),它們間為"兄弟"關(guān)系。而ID15267"通道轉(zhuǎn)運(yùn)"是ID22803的子結(jié)點(diǎn),ID22891與ID15267是"叔孫"關(guān)系。顯然"兄弟"關(guān)系比"叔孫"關(guān)系密切,"兄弟"間的相似程度要比"叔孫"間的相似程度高。若將兩結(jié)點(diǎn)的最近共同祖先結(jié)點(diǎn)分別到這兩結(jié)點(diǎn)所有路徑的平均長度之和定義為兩結(jié)點(diǎn)路徑距離,則ID22803與ID22891的路徑距離為2,ID22891與ID15267的路徑距離為3。兩結(jié)點(diǎn)的路徑距離越大,關(guān)系越疏遠(yuǎn),相似程度越低。結(jié)點(diǎn)"與fo的路徑距離可以表示為<formula>formulaseeoriginaldocumentpage7</formula>(4)這里,'是"與"'的最近共同祖先集合中的元素,f到"和"'可能有多條路徑,函數(shù)&(*)是表示求路徑的長度。第一項(xiàng)^^))表示從,到&所有路徑長度的平均值,第二項(xiàng)與第一項(xiàng)類似。路徑重合度(thesharepath,sp)在附圖1中,ID22803"被動(dòng)跨膜轉(zhuǎn)運(yùn)活動(dòng)"與ID22891"特殊底物跨膜轉(zhuǎn)運(yùn)活動(dòng)"是"兄弟"關(guān)系,ID22857"跨膜轉(zhuǎn)運(yùn)活動(dòng)"與ID22892"特殊底物轉(zhuǎn)運(yùn)活動(dòng)"也是"兄弟"關(guān)系,雖然都是"兄弟"關(guān)系,但是前兩個(gè)結(jié)點(diǎn)的概念要比后兩個(gè)結(jié)點(diǎn)具體,從語義上看它們也更相似,導(dǎo)致這一結(jié)果的原因是它們的最近共同祖先結(jié)點(diǎn)不同。ID22803與工D22891的最近共同祖先是ID22857,ID22857與ID22892的最近共同祖先是ID5215。ID22857離根結(jié)點(diǎn)ID3674比ID5215遠(yuǎn)離根結(jié)點(diǎn),若用路徑重合度表示從根結(jié)點(diǎn)到最近共同祖先結(jié)點(diǎn)的所有路徑平均長度,那么ID22803與工D22891的路徑重合度是2,ID22857與ID22892的路徑重合度是1。兩結(jié)點(diǎn)的路徑重合度越大,它們間的語義越相似。結(jié)點(diǎn)/。與"的路徑重合度可以表示為這里ro。,表示根結(jié)點(diǎn),與公式(4)相似,從根結(jié)點(diǎn)到"和"的最近共同袓先結(jié)點(diǎn)也可能有多條路徑,以所有路徑的平均長度表示"和"的路徑重合度。2.3計(jì)算GO結(jié)點(diǎn)的語義相似度根據(jù)以上對(duì)影響G0結(jié)點(diǎn)語義相似度因素分析,可以知道兩GO結(jié)點(diǎn)的語義相似度與它們的路徑距離成反比,與它們的路徑重合度成正比,同時(shí)為了避免路徑距離或路徑重合度為零的情況發(fā)生,將路徑距離和路徑重合度同時(shí)加1,因此可以將GO結(jié)點(diǎn)的語義相似度定義為,、+1將公式(4)和公式(5)代入公式(6),得.,、(i/s(戸由(r(9c^,/0)+1。,、扁("")二^--^^-:JgSC4豐,")由于集合s"^"'")可能存在多個(gè)元素,即兩結(jié)點(diǎn)可能有多個(gè)最近共同祖先結(jié)點(diǎn),例如附圖1中ID22891和ID15250的最近共同祖先結(jié)點(diǎn)有ID22857和ID22892。根據(jù)公式(7)每個(gè)最近共同祖先結(jié)點(diǎn)都可以計(jì)算出一個(gè)語義相似度。兩個(gè)G0結(jié)點(diǎn)總的語義相似度可以用平均值表示公式(8)表示根據(jù)每個(gè)最近共同祖先結(jié)點(diǎn)計(jì)算出的語義相似度的平均值表示兩結(jié)點(diǎn)總的語義相似度。公式(8)具有三個(gè)特點(diǎn)第一、結(jié)點(diǎn)的語義相似度與結(jié)點(diǎn)所在集合無關(guān),只與結(jié)點(diǎn)在G0上的位置有關(guān),而結(jié)點(diǎn)在GO圖上的位置反映了結(jié)點(diǎn)的生物性質(zhì),因此可以認(rèn)為結(jié)點(diǎn)的語義相似度反映了結(jié)點(diǎn)的生物性質(zhì);第二、以兩結(jié)點(diǎn)間所有路徑的平均長度表示兩結(jié)點(diǎn)的長度,將每條路徑對(duì)語義相似度的影響都考慮在內(nèi);第三、可以根據(jù)需要量化不同關(guān)系邊的距離。3、基因注釋語義相似度計(jì)算方法在生物學(xué)中,因?yàn)橐粋€(gè)基因可能有多種生物學(xué)功能,所以一個(gè)基因可能映射到多個(gè)MF0結(jié)點(diǎn)中,同樣地,也可能映射到多個(gè)BPO、CC0結(jié)點(diǎn)中,例如在附圖l中,基因YFL054C映射到ID5215、ID15168、ID15250三個(gè)結(jié)點(diǎn)。在這三個(gè)結(jié)點(diǎn)中,它們的語義存在包含關(guān)系,ID5215表示"轉(zhuǎn)運(yùn)活動(dòng)",ID15168表示"丙三醇跨膜轉(zhuǎn)運(yùn)活動(dòng)"、ID15250表示"水通道活動(dòng)",顯然后兩者的內(nèi)容比前者更具體,在語義上包含了前者的語義。因此可以將基因YFL054C所映射的G0結(jié)點(diǎn)集合約簡為{ID15168,ID15250},約簡后的集合相互間已不存在語義包含關(guān)系,已不能再作約簡。結(jié)點(diǎn)ID5215之所以可以被約簡是由于該結(jié)點(diǎn)位于從根結(jié)點(diǎn)到IW5i68或ID15250的路徑上,如果兩個(gè)結(jié)點(diǎn)同時(shí)位于同一條路徑上,那么蘊(yùn)含了它們間存在語義包含關(guān)系。因此可以將G0結(jié)點(diǎn)語義約簡公式定義為re蘭(力={/,,/v..,"!(V/:(1Sz.S")aVA::(1SA;《")a(zVA)ap函(7,,")=0)}(9)公式(9)表示基因g所映射的結(jié)點(diǎn)集合中,各結(jié)點(diǎn)相互間不存在路徑,即沒有包含關(guān)系。若基因&和g"所映射的結(jié)點(diǎn)集合經(jīng)約簡后分別為集合和Tw(p),計(jì)算g。和"的語義相似度需要考慮集合和^"""(W中每個(gè)元素的影響,基因&和g"總的語義相似度(thegenesemanticsimilarity,GSS)可以表示為'Ire歴(g")1xITe而(g.)I(io)公;語義相似度越大,它們的語義距離就越小,反之語義相似度越小,它們的語義距離就大,語義相似度與語義距離成反比關(guān)系,因此語義距離(thegenesemantic定義為1W式(10)以各語義相似度的平均值表示總的基因注釋語義相似度。通常情況下,根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明的技術(shù)方案如下1、一種基因注釋語義相似度的計(jì)算方法,其特征在于從基因本體(geneontology,GO)網(wǎng)站httD:〃www.巡neontology.drg下載基因關(guān)聯(lián)文件和GO文件,根據(jù)基因關(guān)聯(lián)文件將基因名稱與go結(jié)點(diǎn)之間建立關(guān)聯(lián)關(guān)系。然后先計(jì)算go結(jié)點(diǎn)的語義相似度,最后計(jì)算基因注釋語義相似度。2、根據(jù)1所述的基因注釋語義相似度計(jì)算方法,其特征在于go結(jié)點(diǎn)的語義相似度按下列公式計(jì)算上式中,w'—^,")表示g0結(jié)點(diǎn)^與"之間的語義相似度;^("'")表示g0結(jié)點(diǎn)&與"的最近共同祖先集合;IS^^(",WI表示go結(jié)點(diǎn)&與"的最近共同祖先集合中的結(jié)點(diǎn)個(gè)數(shù);^^W表示g0的根結(jié)點(diǎn),^表示g0結(jié)點(diǎn)&與"的最近共同祖先集合中的結(jié)點(diǎn),P"^W^^"0表示從ra^到結(jié)點(diǎn)f的所有路徑的集合,^(戶^(m^'"表示從ra^到結(jié)點(diǎn)^的所有路徑長度的平均值;同樣地,血^"^^》表示結(jié)點(diǎn)f到結(jié)點(diǎn)&的所有路徑長度的平均值,^Kp^K"fo))表示結(jié)點(diǎn)^到結(jié)點(diǎn)&的所有路徑長度的平均值。3、根據(jù)1所述的基因注釋語義相似度計(jì)算方法,其特征在于基因注釋語義相似度按下列公式計(jì)算上式中,G^^",g")表示基因g'"和g"的注釋語義相似度;&,&)表示經(jīng)基因gw所映射的go結(jié)點(diǎn)經(jīng)約簡后的集合,1Te"""(g》I表示基因gw所映射的go結(jié)點(diǎn)經(jīng)約簡后的集合包含的結(jié)點(diǎn)個(gè)數(shù);同樣地,^,^g")表示經(jīng)基因g"所映射的go結(jié)點(diǎn)經(jīng)約簡后的集合,1T^附"g")I表示基因所映射的go結(jié)點(diǎn)經(jīng)約簡后的集合包含的結(jié)點(diǎn)個(gè)數(shù)。本發(fā)明的有益效果在于它不但可以自動(dòng)化地大批量比較基因注釋語義的相似度,而且還可以用于生物文獻(xiàn)的語義檢索,為管理生物文獻(xiàn)提供幫助。另外它還有助于評(píng)價(jià)基因調(diào)控網(wǎng)絡(luò),進(jìn)而推進(jìn)基因調(diào)控網(wǎng)絡(luò)的構(gòu)建,這一點(diǎn)在系統(tǒng)生物學(xué)上有十分重要的科學(xué)意義。圖1分子功能本體子圖。其中,"{YFL054C}=ID15250:waterchannelactivity"表示基因YFL054C映射到編號(hào)為15250的GO結(jié)點(diǎn)上,該結(jié)點(diǎn)的注釋術(shù)語是"waterchannelactivity",即水通道活動(dòng)。其它結(jié)點(diǎn)與此相同。圖2生物代謝通路示意圖。圖3異亮氨酸降解代謝通路。圖4異亮氨酸降解基因語義距離聚類結(jié)果具體實(shí)施例方式本實(shí)施例將基因注釋語義相似度的計(jì)算方法,用于酵母菌異亮氨酸降解代謝通路中基因注釋語義相似度的計(jì)算,以證明本發(fā)明的有效性。在生物學(xué)中,如果某些基因產(chǎn)物共同參與了機(jī)體某個(gè)生物化學(xué)反應(yīng),那么說明這些基因具有相同的生物功能。假定有底物A在基因g"」,的產(chǎn)物作用下經(jīng)過3步生化反應(yīng)最終轉(zhuǎn)化為產(chǎn)物D,如附圖2所示。根據(jù)上述論斷,可以認(rèn)為附圖2中g(shù)'Ug4的功能相似,^Ug7的功能相似,W^的功能相似。若將g'U^映射到MF0圖中,根據(jù)公式(ll)計(jì)算g'Ug"相互間的語義距離,用這些語義距離可以構(gòu)成一個(gè)1()><1()的距離矩陣,以此距離矩陣為基礎(chǔ)進(jìn)行聚類。如果聚類結(jié)果正好將g'u"聚為一類,g5Ug7聚為一類,g』g'。聚為一類,說明聚類結(jié)果與g^,的生物功能分類一致,表明聚類有效,那么間接證明本發(fā)明計(jì)算方法正確。在酵母菌數(shù)據(jù)庫(http:〃pathway.yeastgenome.org/biocyc/)中,有150多條酵母菌生物代謝通路,MFO為這些代謝通路中的絕大部分基因提供注釋。為了驗(yàn)證本發(fā)明提出的方法是否有效,從酵母菌數(shù)據(jù)庫中選取異亮氨酸降解代謝通路根據(jù)上述思路分別進(jìn)行驗(yàn)證。附圖3表示異亮氨酸降解的代謝通路,從圖中可以看出,整個(gè)降解過程分三歩,總共有13個(gè)基因。這些基因中,BAT1、BAT2的功能相同;THI3、PDC1、PDC5、PDC6、AR010的功能相同;SFA1、ADH1、ADH2、ADH3、ADH4、ADH5的功能相同。將這13個(gè)基因映射到MF0圖上,計(jì)算這些基因間的語義距離,計(jì)算結(jié)果見表l。從表l中可以—看出BAT1與BAT2的語義距離很小,只有0.17,TM3、PDC1、PDC5、PDC6、AR010間的語義距離最大值小于等于0.82;SFA1、ADH1、ADH2、ADH3、ADH4、ADH5間的i吾義距離最大值小于等于0.55,即說明每組基因的生物功能十分相似。同時(shí),對(duì)這13個(gè)基因按表1的語義距離進(jìn)行層次式聚類,聚類結(jié)果如附圖4所示。表l參與異亮氨酸降解基因MFO注釋語義距離<table>tableseeoriginaldocumentpage12</column></row><table>注虛線框表示相同家族基因的語義距離,粗線框表示同一參與相同生化反應(yīng)過程基W的語義距離。從附圖3的基因語義聚類結(jié)果中,可以發(fā)現(xiàn)BAT1、BAT2距離很小,功能很相似,被歸為一類;ADH1、ADH2、ADH3、ADH4、ADH5被歸為一類;PDC1、PDC5、PDC6被歸為一類。這三組基因分別屬于三個(gè)基因家族,屬于同一家族的基因它們的功能通常相似。因此這正好與它們的生物學(xué)特性相一致。如果類間距離取5.5,如附圖4所示,可將聚類結(jié)果分為三類{THI3、AR010、PDC1、PDC5、PDC6}、UDH1,ADH4,ADH2,ADH3,ADH5,SFA1}和{BAT1,BAT2},則每個(gè)類的基因組成正好與異亮氨酸降解的三個(gè)步驟的基因組成相一致,表明聚類結(jié)果正確,說明根據(jù)本發(fā)明的方法計(jì)算基因注釋的語義距離正確。以上所述僅為本發(fā)明的優(yōu)選實(shí)施而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域或計(jì)算機(jī)領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。權(quán)利要求1.一種基因注釋語義相似度的計(jì)算方法,其特征在于從基因本體geneontology,GO網(wǎng)站http://www.geneontology.org下載基因關(guān)聯(lián)文件和GO文件,根據(jù)基因關(guān)聯(lián)文件將基因名稱與GO結(jié)點(diǎn)之間建立關(guān)聯(lián);然后先計(jì)算GO結(jié)點(diǎn)的語義相似度,最后計(jì)算基因注釋語義相似度。2.根據(jù)權(quán)利要求1所述的基因注釋語義相似度計(jì)算方法,其特征在于GO結(jié)點(diǎn)的語義相似度按下列公式計(jì)算上式中,w'附O,")表示G0結(jié)點(diǎn)L與"之間的語義相似度;SCAsO,fo)表示G0結(jié)點(diǎn)&與"的最近共同祖先集合;ISC^(、fo)J表示G0結(jié)點(diǎn)&與"的最近共同祖先集合中的結(jié)點(diǎn)個(gè)數(shù);ro^表示G0的根結(jié)點(diǎn),^表示G0結(jié)點(diǎn)/。與"的最近共同祖先集合中的結(jié)點(diǎn),pW/w(raoM)表示從ra^到結(jié)點(diǎn)^的所有路徑的集合,而(戸ffo(roof,,))表示從rao/到結(jié)點(diǎn)/的所有路徑長度的平均值;同樣地,表示結(jié)點(diǎn)^到結(jié)點(diǎn)f。的所有路徑長度的平均值,^foOtffe(f,fo))表示結(jié)點(diǎn)Z到結(jié)點(diǎn)"的所有路徑長度的平均值。3.根據(jù)權(quán)利要求1所述的基因注釋語義相似度計(jì)算方法,其特征在于基因注釋語義相似度按下列公式計(jì)算<formula>formulaseeoriginaldocumentpage2</formula>上式中,G5S(gm,g")表示基因gm和g"的注釋語義相似度;remw(g一表示基因所映射的GO結(jié)點(diǎn)經(jīng)約簡后的集合,I7^77W(g)I表示基因所映射的GO結(jié)點(diǎn)經(jīng)約簡后的集合包含的結(jié)點(diǎn)個(gè)數(shù);同樣地,Ter聰(g")表示基因g"所映射的GO結(jié)點(diǎn)經(jīng)約簡后的集合,IT^7w(&)I表示基因g"所映射的GO結(jié)點(diǎn)經(jīng)約簡后的集合包含的結(jié)點(diǎn)個(gè)數(shù)。全文摘要本發(fā)明提供了一種基因注釋語義相似度的計(jì)算方法。這種方法通過基因本體協(xié)會(huì)提供的基因本體關(guān)聯(lián)文件,將基因與基因本體結(jié)點(diǎn)建立關(guān)聯(lián)。然后先計(jì)算基因本體結(jié)點(diǎn)的語義相似度,最后根據(jù)基因本體結(jié)點(diǎn)語義相似度計(jì)算基因注釋語義相似度。本發(fā)明的有益效果在于可以自動(dòng)地、大批量地計(jì)算基因注釋語義相似度。文檔編號(hào)G06F19/00GK101359349SQ200810040050公開日2009年2月4日申請(qǐng)日期2008年7月1日優(yōu)先權(quán)日2008年7月1日發(fā)明者吳飛珍,姚文娟,施國明,妹王,鄭文嶺,陳啟龍,馬文麗申請(qǐng)人:上海大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1