国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于文本關(guān)系相似性的蛋白質(zhì)交互關(guān)系識別方法

      文檔序號:8223801閱讀:414來源:國知局
      基于文本關(guān)系相似性的蛋白質(zhì)交互關(guān)系識別方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及生物醫(yī)學(xué)文獻(xiàn)中蛋白質(zhì)交互關(guān)系的自動識別方法,具體來說設(shè)及一種 基于文本關(guān)系相似性的蛋白質(zhì)交互關(guān)系識別方法。
      【背景技術(shù)】
      [0002] 蛋白質(zhì)是生物細(xì)胞最重要的成分。蛋白質(zhì)作為生命活動的體現(xiàn)者并非孤 立存在,它們通過彼此間的作用完成細(xì)胞中的大部分過程。蛋白質(zhì)之間的交互信息 Protein-Protein Interaction, PPI對于理解單個蛋白質(zhì)的功能作用W及整個生物過程是 至關(guān)重要的,是生物學(xué)研究的重要內(nèi)容,也是解決大量醫(yī)學(xué)難題的關(guān)鍵信息。因而描述蛋白 質(zhì)之間交互關(guān)系Protein-Protein Interactions, PPI的網(wǎng)絡(luò)的建立一直是研究生物過程 關(guān)注的核屯、問題,對于生物學(xué)研究具有重要意義。因此生物領(lǐng)域?qū)<沂止さ貜尼t(yī)學(xué)文獻(xiàn)中 提取了眾多的PPI并錄入到統(tǒng)一格式的數(shù)據(jù)庫中,如BIND, DIP, HP畑,IntAct和MINT等等。 然而大量的蛋白質(zhì)交互信息仍散布在W非格式化文本形式存儲的科技文獻(xiàn)中,并且文獻(xiàn)的 數(shù)目在急劇地增長。依靠手工捜尋提取該些蛋白質(zhì)交互信息的方式顯然不能滿足實(shí)際需 要。因而如何從文獻(xiàn)中自動挖掘出蛋白質(zhì)交互信息成為重要的課題要并且吸引了大量的研 究。研究的主要任務(wù)是根據(jù)生物醫(yī)學(xué)文獻(xiàn)中的線索識別存在交互關(guān)系的蛋白質(zhì)對。識別出 的交互關(guān)系將用于PPI網(wǎng)絡(luò)的建立。
      [0003] 從文獻(xiàn)中自動挖掘蛋白質(zhì)交互信息的方法涵蓋了簡單的同現(xiàn)分析到更為復(fù)雜的 自然語言處理系統(tǒng),大體可W分為W下S類。
      [0004] 第一類根據(jù)蛋白質(zhì)的同現(xiàn)co-occurrence情況制定策略進(jìn)行分析?;谕F(xiàn)的方 法根據(jù)蛋白質(zhì)在文本中出現(xiàn)位置的相近信息,通過計(jì)算兩個蛋白質(zhì)的共現(xiàn)次數(shù)來推斷它 們之間的交互作用。該種方法基于該樣的假設(shè);如果兩個蛋白質(zhì)實(shí)體經(jīng)常出現(xiàn)在同一個句 子或摘要中,它們則存在某種關(guān)系。就是蛋白質(zhì)實(shí)體出現(xiàn)的位置越近、越經(jīng)常在一起出現(xiàn)則 越可能相關(guān),基于該樣的假設(shè)可通過統(tǒng)計(jì)同現(xiàn)頻率計(jì)算出蛋白質(zhì)實(shí)體存在關(guān)系的可能性。
      [0005] 基于共現(xiàn)的PPI識別方法的主要不足是由于蛋白質(zhì)的同現(xiàn)關(guān)系并不一定對應(yīng)交 互關(guān)系,該種方法只能抽取已出現(xiàn)的PPI,而不能發(fā)現(xiàn)新出現(xiàn)的或較少出現(xiàn)的PPI。而且該 種方法沒有充分分析包含目標(biāo)蛋白質(zhì)對的上下文對非交互關(guān)系進(jìn)行過濾,該樣所得結(jié)果中 會有大量的誤報(bào),因而該種方法的識別的精度通常不高。
      [0006] 第二類方法通過建立能夠刻畫蛋白質(zhì)交互關(guān)系的模式,將其作為規(guī)則來尋找蛋白 質(zhì)交互信息。模式匹配法是PPI關(guān)系抽取研究的一種主要方法。首先根據(jù)蛋白質(zhì)交互在句 子中的常用描述方式建立一組模式。一個模式或規(guī)則通常由單詞和詞性的序列組成,其中 標(biāo)出了形成交互關(guān)系的兩個蛋白質(zhì)的位置。抽取PPI時,通過文本匹配尋找對應(yīng)的交互信 息,如果一個模式與一個句子相匹配,則提取出句中相應(yīng)位置的蛋白質(zhì)作為存在交互關(guān)系 的蛋白質(zhì)對。
      [0007] Madkour等提出一個BioNoculars系統(tǒng)基于圖互增理論使用冗余數(shù)據(jù)構(gòu)建領(lǐng)域無 關(guān)的模板來抽取蛋白質(zhì)交互關(guān)系。該種方法需要手工編寫規(guī)則,需大量的人力和時間?;?于模式匹配的方法有助于提高PPI識別的精確度,然而由于模式集規(guī)模的限制導(dǎo)致基于規(guī) 則或模式的方法明顯地降低了召回率。為了減輕手工制定模式的負(fù)擔(dān),一些系統(tǒng)設(shè)計(jì)了自 動模式獲取的算法。比如?;痑ng等人提出了一種從語料中自動獲取模式的方法和一種基 于動態(tài)規(guī)劃的匹配算法,該方法將句子對齊,然后把句子中相似的部分提取出來作為抽取 蛋白質(zhì)交互關(guān)系的規(guī)則。自動建立的模式盡管能夠增加模式的數(shù)量,然而生成模式的質(zhì)量 仍無法滿足高精度交互關(guān)系識別的要求。
      [000引基于模式匹配的方法存在很大的局限性,其性能依賴于模式的數(shù)量和質(zhì)量而且它 無法抽取跨句子的實(shí)體關(guān)系。由于文本中蛋白質(zhì)交互關(guān)系描述語言的多樣性和句法結(jié)構(gòu)的 復(fù)雜性,簡單的句法模式難W處理復(fù)雜的句子。同時人工建立簡單的模式因其有限的覆蓋 面導(dǎo)致較低的召回率,而構(gòu)造復(fù)雜模式的過程則又需要花費(fèi)大量時間。另外,基于模式匹配 的方法在未知關(guān)鍵詞的情況下不能生成新的模式規(guī)則,從而限制了蛋白質(zhì)關(guān)系抽取的可拓 展性,一旦規(guī)則集的大小達(dá)到了一定的規(guī)模,便很難將新規(guī)則加入現(xiàn)有的規(guī)則集。而且當(dāng)關(guān) 系抽取系統(tǒng)被應(yīng)用到新領(lǐng)域的時候,基于規(guī)則的方法可能需要預(yù)先定義重新制定整個模式 規(guī)則集W適應(yīng)新的領(lǐng)域,從而降低了系統(tǒng)的可移植性。
      [0009] 第=類方法采用自然語言處理技術(shù)配合機(jī)器學(xué)習(xí)的方法?;跈C(jī)器學(xué)習(xí)的方法根 據(jù)其側(cè)重點(diǎn)不同又可分為兩種:基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒ㄔ?圖提取出對識別蛋白質(zhì)交互有效的特征,包括詞匯特征,語法特征和語義特征。文獻(xiàn)使用上 下文特征進(jìn)行蛋白質(zhì)關(guān)系抽取,該方法沒有使用任何句法信息,在Biocreative語料庫上 得到了較高的召回率,但精確度相對較低。而基于核函數(shù)的方法則側(cè)重考察衡量兩實(shí)例間 距罔的多種策略。
      [0010] 由于核函數(shù)的方法直接W結(jié)構(gòu)樹為處理對象,通過計(jì)算它們之間的相似度獲取關(guān) 系模式的有關(guān)信息,再使用支持核函數(shù)的分類器進(jìn)行關(guān)系抽取,常見的核函數(shù)有序列核, 其利用一個基于序列的核來計(jì)算兩個句子的相似性;依存樹核;圖核。文獻(xiàn)使用基于多核 的學(xué)習(xí)方法來進(jìn)行蛋白質(zhì)關(guān)系信息的抽取,融合了基于特征的核、樹核W及圖核。但是它的 計(jì)算復(fù)雜度高,訓(xùn)練和預(yù)測速度很慢,不適合數(shù)據(jù)量較大的情況。
      [0011] 相對于同現(xiàn)和規(guī)則的方法,基于機(jī)器學(xué)習(xí)的方法有效地利用了文本中描述蛋白質(zhì) 交互詞法和句法上的顯示特征,或者通過設(shè)計(jì)核函數(shù)進(jìn)一步利用句子結(jié)構(gòu)表示,如字符串 序列、句法依賴或句法分析上的隱含特征,并且能夠發(fā)現(xiàn)新的模式規(guī)則,因而取得了較好的 測試效果。然而目前基于機(jī)器學(xué)習(xí)的方法主要W單句為依據(jù)采用基于監(jiān)督的方式進(jìn)行蛋白 質(zhì)交互信息識別,該些方法主要存在S個方面的局限性。
      [0012] 給定兩個目標(biāo)蛋白質(zhì),該些基于機(jī)器學(xué)習(xí)的方法根據(jù)兩個目標(biāo)蛋白質(zhì)對共同出現(xiàn) 的很小的文本范圍通常是一句話內(nèi)的依據(jù)來判斷它們是否交互。與其它信息抽取任務(wù)一 樣,對于蛋白質(zhì)交互識別任務(wù)則定義為一個句子中任意兩個蛋白質(zhì)是否存在交互,比如下 面的例子:
      [0013] The screen identified interactions involving c-Cbl and two 14-3-3 isoforms, cytokeratin 18, human unconventional myosin IC, and a recently identified SH3 domain containing protein, SH3 PI7.
      [0014] 在該句話中,出現(xiàn)了 S個黑體文字的蛋白質(zhì),識別的任務(wù)就是判定它 們?nèi)我鈨蓚€之間是否有交互關(guān)系,即(c-Cbl,巧tokeratin 18), (c-Cbl,甜3 P17),(巧tokeratinl8,S冊P17)該S對中,哪幾對是交互對,判定的依據(jù)就該一個句子。
      [0015] 該些基于單句的方法不足之處主要有=點(diǎn)。首先,句子的復(fù)雜語法結(jié)構(gòu)使得識別 很困難,蛋白質(zhì)交互是個復(fù)雜的生物過程,很多情況下同一個句子中隱含了多個蛋白質(zhì)相 互作用信息。事實(shí)上,在專家人工對化bMed摘要標(biāo)注了交互關(guān)系的數(shù)據(jù)集,Aimed數(shù)據(jù)集 中,可能包含蛋白質(zhì)交互信息的句子有超過40%含有=個W上蛋白質(zhì)。為了闡清該些蛋白 質(zhì)間的相互作用,一個句子經(jīng)常使用復(fù)雜的語法結(jié)構(gòu),結(jié)果兩個蛋白質(zhì)的關(guān)系通常隱含其 中也就使得識別比較困難。比如在上面的句子中,c-Cbl和甜3 P17之間有很長的距離,單 詞個數(shù),即使通過句子深層次語法分析,得到它們之間的關(guān)系也比較困難。其次,該些方法 中,交互關(guān)系的上下文環(huán)境被忽略了。事實(shí)上,句子周圍的一些信息通常提供了交互的上 下文,對于識別目標(biāo)交互關(guān)系是有利的,然而,該些上下文信息在基于單句的方法中沒有考 慮。此外,一個蛋白質(zhì)交互可能會在多個研究的描述片段中,因而可能散布于多篇文章中。 所有的該些描述提供了識別目標(biāo)蛋白質(zhì)對交互的有利的依據(jù),然而該些信息在基于單句方 法中都未得到充分利用。再者,該些機(jī)器學(xué)習(xí)方法面臨少量訓(xùn)練集的困難。在基于單句的 方法中,為了建立訓(xùn)練集,需要對一句話中出現(xiàn)的每個蛋白質(zhì)對標(biāo)注其是有交互還是無交 互,該是很繁重的工作,結(jié)果導(dǎo)致該些機(jī)器學(xué)習(xí)方法只在少量的數(shù)據(jù)上訓(xùn)練,而該必然影響 到識別的精度和模型的推廣能力。
      [0016] 自然語言處理領(lǐng)域的關(guān)系相似性研究為準(zhǔn)確識別文本中的關(guān)系提供了統(tǒng)一的框 架。Medin等人將關(guān)系描述如下;關(guān)系是帶有兩個或多個參數(shù)的謂語,用來表示兩個事物間 抽象的聯(lián)系。關(guān)系相似性分析的大部分工作試圖通過比較目標(biāo)關(guān)系與一些已知關(guān)系的相似 性來識別詞對隱含的關(guān)系。通常,首先從大規(guī)模文本中抽取分布特征。該些特征刻畫了兩 個單詞之間的聯(lián)系。然后一些相似性度量策略被用來計(jì)算目標(biāo)關(guān)系與已知關(guān)系的相似性。 最后最相似的那一個關(guān)系被標(biāo)為目標(biāo)詞間的關(guān)系。
      [0017] 在所提出的方法中,蛋白質(zhì)的交互關(guān)系的預(yù)測是基于大規(guī)模文本所提供的豐富的 上下文信息。關(guān)系相似性框架包含=個模塊:收集關(guān)系的描述,關(guān)系表示和相似性計(jì)算。第 一模塊從大規(guī)模文本中獲取很可能描述兩個蛋白質(zhì)之間關(guān)系的文本集合。該些描述可W 是短語,句子或段落等。例如,化rn巧挑選了 128組包含參數(shù)化Y)的短語(如X of Y,Y 化r X,X to Y),而化kov使用了包含兩個參數(shù)的句子集。在關(guān)系表示模塊中使用了向量空 間模型。在第S個模塊中,合適的相似性度量策略被用來計(jì)算目標(biāo)關(guān)系與已知關(guān)系的距離。 最后,目標(biāo)關(guān)系被標(biāo)為已知交互關(guān)系中與其最相似的關(guān)系類別。
      [001引 目前缺乏一種能夠快速得到蛋白質(zhì)交互關(guān)系并將其加入蛋白質(zhì)交互網(wǎng)絡(luò)的蛋白 質(zhì)交互識別方法。

      【發(fā)明內(nèi)容】

      [0019] 本發(fā)明所要解決的技術(shù)問題是提供一種能夠快速得到蛋白質(zhì)交互關(guān)系并將其加 入蛋白質(zhì)交互網(wǎng)絡(luò)的基于文本關(guān)系相似性計(jì)算的蛋白質(zhì)交互識別方法。
      [0020] 為了實(shí)現(xiàn)上述目的,本發(fā)明通過如下技術(shù)方案實(shí)現(xiàn);本發(fā)明提供了一種基于文本 關(guān)系相似性的蛋白質(zhì)交互關(guān)系識別方法,包括如下步驟:
      [0021] 步驟1 ;獲取文本集中的蛋白質(zhì)對關(guān)鍵詞的句子,對所有句子進(jìn)行集合得到簽名 檔S ;每個蛋白質(zhì)對為(pi, p2),每個目標(biāo)蛋白質(zhì)對都會有簽名檔與之相對應(yīng);
      [002引步驟2 ;用特征向量來表示pi和p2之間的關(guān)系;將對應(yīng)于目標(biāo)蛋白質(zhì)對的簽名檔 中的單詞進(jìn)行預(yù)處理,去除停止詞;向量的維度對應(yīng)該一關(guān)系的特征,該些特征從多個蛋白 質(zhì)對的簽名檔中抽
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1