一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種識(shí)別方法,更具體地說(shuō),設(shè)及一種基于句法詞向量的生物醫(yī)學(xué)事 件觸發(fā)詞識(shí)別方法。
【背景技術(shù)】
[0002] 隨著系統(tǒng)生物學(xué)的快速發(fā)展,揭示生物分子、細(xì)胞、組織等之間的復(fù)雜關(guān)系的需求 愈加迫切。同時(shí),公開發(fā)表的生物醫(yī)學(xué)文獻(xiàn)也正在呈現(xiàn)爆炸式的增長(zhǎng)態(tài)勢(shì),如何從大量的生 物醫(yī)學(xué)文獻(xiàn)中挖掘生物分子、細(xì)胞、組織等之間的復(fù)雜關(guān)系而不是傳統(tǒng)的簡(jiǎn)單的二元關(guān)系 (如蛋白質(zhì)-蛋白質(zhì)關(guān)系、藥物-藥物關(guān)系等)已經(jīng)成為現(xiàn)代生物醫(yī)學(xué)文本挖掘領(lǐng)域的研究 熱點(diǎn)。
[0003] 目前,大多數(shù)生物醫(yī)學(xué)事件抽取方法大都將該任務(wù)分為兩個(gè)子任務(wù):觸發(fā)詞識(shí)別 與元素檢測(cè),而觸發(fā)詞識(shí)別在整個(gè)任務(wù)中起著決定性的作用,觸發(fā)詞識(shí)別的錯(cuò)誤將會(huì)累積 到元素檢測(cè)過(guò)程中,所W提高觸發(fā)詞識(shí)別的性能,對(duì)于整個(gè)生物醫(yī)學(xué)事件抽取來(lái)說(shuō)至關(guān)重 要。目前,觸發(fā)詞識(shí)別方法主要包括W下兩類:
[0004] 一類是基于規(guī)則匹配的方法,該方法通過(guò)對(duì)數(shù)據(jù)集中的事件特征進(jìn)行分析,手動(dòng) 構(gòu)造一些用于識(shí)別觸發(fā)詞的模式或者正則表達(dá)式,然后用自定義的模式或者正則表達(dá)式匹 配滿足該模式的觸發(fā)詞。此方法雖然在早期觸發(fā)詞識(shí)別研究中起到了一定的作用,但是幾 乎不可能窮舉所有可能的模式,而且對(duì)于在訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的模式無(wú)法預(yù)知,導(dǎo)致系 統(tǒng)泛化性能比較差,不能得到廣泛的應(yīng)用。
[0005] 另一類是基于機(jī)器學(xué)習(xí)的方法,該方法將觸發(fā)詞識(shí)別問(wèn)題看作一個(gè)多元分類問(wèn) 題,將一個(gè)詞分類為幾種事件類型中的一種,該方法重點(diǎn)在于分類模型特征向量的構(gòu)建,特 征向量的好壞決定了分類模型的優(yōu)劣。而特征向量的構(gòu)建主要取決于對(duì)于該任務(wù)的理解, 選擇那些對(duì)于識(shí)別觸發(fā)詞信息有用的特征,構(gòu)建特征向量,并利用分類器(如支持向量機(jī)、 最大滴等)進(jìn)行分類。該方法明顯優(yōu)于基于規(guī)則匹配的方法,得到了廣泛的應(yīng)用,但是仍然 存在一些缺點(diǎn),比較依賴于標(biāo)注數(shù)據(jù),當(dāng)標(biāo)注數(shù)據(jù)比較少的時(shí)候,無(wú)法保證其性能;而且,特 征的構(gòu)建主要是針對(duì)當(dāng)前數(shù)據(jù)集手動(dòng)構(gòu)造,人工干預(yù)比較大,泛化性能不好,人工構(gòu)建的特 征向量維度高并且稀疏,訓(xùn)練比較耗時(shí)。
[0006] 綜上所述,如何減少人工干預(yù),提高觸發(fā)詞識(shí)別的泛化性能,是生物醫(yī)學(xué)事件觸發(fā) 詞識(shí)別迫切需要解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0007] 為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明目的是提供一種基于句法詞向量的生物 醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法。該方法利用大量可獲得未標(biāo)注數(shù)據(jù)訓(xùn)練詞向量,精確捕獲觸發(fā) 詞的語(yǔ)義信息,并有效地降低了輸入特征維度;同時(shí)利用深度學(xué)習(xí)模型學(xué)習(xí)輸入特征之間 的隱含特征,從而更加精確地進(jìn)行分類;最后,在訓(xùn)練的過(guò)程中對(duì)詞向量信息進(jìn)行微調(diào),使 得詞向量信息更加適合該數(shù)據(jù)集,有效地提升了模型的泛化能力W及觸發(fā)詞識(shí)別性能。
[000引為了實(shí)現(xiàn)上述發(fā)明目的,解決現(xiàn)有技術(shù)中所存在的問(wèn)題,本發(fā)明采取的技術(shù)方案 是;一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法,包括W下步驟:
[0009] 步驟1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理;選擇1997年到2009年期間所有的化bmed摘 要,并對(duì)其進(jìn)行預(yù)處理,具體包括W下子步驟:
[0010] (a)、利用生物領(lǐng)域?qū)S玫腉eniaSentenceSpliter分句工具對(duì)化bmed摘要進(jìn)行 分句處理;
[001U 化)、利用生物領(lǐng)域?qū)S玫腉D巧句法分析工具對(duì)子步驟(a)中已分句的化bmed摘 要進(jìn)行句法分析;
[001引步驟2、基于句法上下文信息的詞向量訓(xùn)練;在觸發(fā)詞識(shí)別任務(wù)中,識(shí)別的對(duì)象基 本是動(dòng)詞或者起動(dòng)詞性質(zhì)作用的詞,不能只是簡(jiǎn)單地利用詞袋上下文信息,而更多地需要 利用句法上下文信息來(lái)捕獲觸發(fā)詞的精確語(yǔ)義;該里,使用改進(jìn)版的word2vec,利用GDep 句法上下文信息預(yù)測(cè)目標(biāo)詞,最終獲得基于GDep句法上下文信息的詞向量,從而可W從 大量的未標(biāo)注數(shù)據(jù)中更加精確地捕獲觸發(fā)詞的語(yǔ)義信息;在詞向量的訓(xùn)練過(guò)程中,采用 skip-gram模型進(jìn)行訓(xùn)練,并設(shè)置過(guò)濾出現(xiàn)次數(shù)少于50次的稀疏詞W及詞向量維度設(shè)置為 200 維;
[0013] 步驟3、候選觸發(fā)詞詞典的構(gòu)建;利用訓(xùn)練集中出現(xiàn)的所有觸發(fā)詞構(gòu)建觸發(fā)詞詞 典,只對(duì)在觸發(fā)詞詞典中出現(xiàn)的詞構(gòu)建相應(yīng)的特征向量進(jìn)行訓(xùn)練,該樣雖然會(huì)損失一些召 回率,但是會(huì)在準(zhǔn)確率上作出補(bǔ)償,具體包括W下子步驟:
[0014] (a)、考慮到數(shù)據(jù)集中觸發(fā)詞大多數(shù)是由一個(gè)單詞組成的,而多個(gè)單詞組成的觸發(fā) 詞不方便進(jìn)行識(shí)別,所W,只選擇訓(xùn)練集中只有一個(gè)單詞組成的觸發(fā)詞加入到候選詞典;
[0015] 化)、對(duì)候選詞典中的詞進(jìn)行詞形還原W及詞干化處理,用于對(duì)意思相近但是詞形 不同的詞進(jìn)行識(shí)別;
[0016] 步驟4、觸發(fā)詞語(yǔ)義特征向量的構(gòu)建,具體包括W下子步驟:
[0017] (a)、對(duì)于目標(biāo)詞滑動(dòng)窗口內(nèi)的所有詞對(duì)應(yīng)的詞向量進(jìn)行連接,表示該目標(biāo)詞對(duì)應(yīng) 的特征向量,取滑動(dòng)窗口大小為5 ;
[001引 化)、如果在滑動(dòng)窗口內(nèi)的詞的個(gè)數(shù)小于滑動(dòng)窗口大小,采用詞向量中的一個(gè)特殊 字符Vs"與對(duì)應(yīng)的詞向量進(jìn)行填充;
[0019] 步驟5、深度學(xué)習(xí)模型的訓(xùn)練;采用去噪找式自編碼(SDA)深度學(xué)習(xí)模型進(jìn)行訓(xùn) 練,并使用深度學(xué)習(xí)工具化eano加W實(shí)現(xiàn),具體包括W下子步驟:
[0020] (a)、非監(jiān)督預(yù)訓(xùn)練;當(dāng)深度學(xué)習(xí)模型層數(shù)較多時(shí),會(huì)發(fā)生梯度彌散現(xiàn)象,即誤差傳 遞到前面幾層時(shí)較小,對(duì)于參數(shù)的更新幾乎不起作用,故采用去噪找式自編碼神經(jīng)網(wǎng)絡(luò)模 型,利用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行非監(jiān)督預(yù)訓(xùn)練的方式對(duì)模型參數(shù)進(jìn)行初始化,初始化后的參數(shù),在 全局最優(yōu)解附近,縮短訓(xùn)練過(guò)程的收斂時(shí)間;首先,對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行特征自動(dòng)學(xué)習(xí),學(xué)習(xí) 輸入的隱含特征表示,通過(guò)公式(1)構(gòu)建輸入隱含層的輸出值,
[0021] Hi(X) =S(胖12 ?x+bi2) (1)
[0022] 式(1)中;S表示神經(jīng)單元節(jié)點(diǎn)的激活函數(shù),Wi2表示第一層與第二層之間的參數(shù) 矩陣,bi2表示偏置項(xiàng),X表示神經(jīng)網(wǎng)絡(luò)模型的輸入,Hi(X)表示輸入隱含層的輸出值,然后, 再利用一個(gè)解碼層輸出通過(guò)公式(2)對(duì)輸入值重構(gòu),
[0023] &(x) =s(r12?Hi(x)+b'12) (2)
[0024] 式似中;b'。為b。的轉(zhuǎn)置,W'。為W。的轉(zhuǎn)置,H2(x)表示對(duì)輸入值的重構(gòu),并 通過(guò)隨機(jī)梯度下降算法對(duì)公式(2)中的損失函數(shù)進(jìn)行優(yōu)化,得到模型參數(shù)0,
[0025] (3)
[0026] 式(3)中;L表示神經(jīng)網(wǎng)絡(luò)模型的輸入與輸出之間誤差的平方和,其中L(x,t)= I&(X)-XII2, 0表示模型參數(shù),N表示樣本個(gè)數(shù);通過(guò)非監(jiān)督預(yù)訓(xùn)練初始化好了第一層與 第二層之間的參數(shù)矩陣,將隱含層當(dāng)做下一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的輸入,重復(fù)上述操作便可W對(duì)各層的參數(shù)完成初始化,初始化后的參數(shù)在全局最優(yōu)解附近,縮短了訓(xùn)練過(guò)程的收斂 時(shí)間;
[0027] 化)、監(jiān)督微調(diào):利用步驟(a)將預(yù)訓(xùn)練好的參數(shù)對(duì)模型進(jìn)行參數(shù)初始化,然后利 用有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,并對(duì)參數(shù)進(jìn)行微調(diào),微調(diào)過(guò)程中優(yōu)化的損失函數(shù)通過(guò)公式(4)表 示,
[002引
[0029] 式(4)中;L(x,t) =||H2(x)-〇|I2,其中0是模型輸出的類別信息,A是正則化因 子,0表不模型參數(shù),N表不樣本個(gè)數(shù);
[0030] (C)、詞向量信息微調(diào);在訓(xùn)練過(guò)程中,通過(guò)隨機(jī)梯度下降算法對(duì)輸入的詞向量信 息進(jìn)行微調(diào),用于詞向量信息適合該數(shù)據(jù)集,得到好的結(jié)果。
[0031] 步驟6、生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別;利用步驟5訓(xùn)練得到深度學(xué)習(xí)模型,在未標(biāo)注 數(shù)據(jù)上進(jìn)行測(cè)試,識(shí)別未標(biāo)注數(shù)據(jù)中的觸發(fā)詞。
[0032] 本發(fā)明有益效果是;一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法,包括 W下步驟;1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理,2、基于句法上下文信息的詞向量訓(xùn)練,3、候選觸發(fā) 詞詞典的構(gòu)建,4、觸發(fā)詞語(yǔ)義特征向量的構(gòu)建,5、深度學(xué)習(xí)模型的訓(xùn)練,6、生物醫(yī)學(xué)事件觸 發(fā)詞的識(shí)別,與已有技術(shù)相比,本發(fā)明利用大量可獲得未標(biāo)注數(shù)據(jù)訓(xùn)練詞向量,精確捕獲觸 發(fā)詞的語(yǔ)義信息,并有效地降低了輸入特征維度;同時(shí)利用深度學(xué)習(xí)模型學(xué)習(xí)輸入特征之 間的隱含特征,從而更加精確地進(jìn)行分類;最后,在訓(xùn)練的過(guò)程中對(duì)詞向量信息進(jìn)行微調(diào), 使得詞向量信息更加適合該數(shù)據(jù)集,有效地提升了模型的泛化能力W及觸發(fā)詞識(shí)別性能。
【附圖說(shuō)明】
[0033] 圖1是本發(fā)明方法步驟流程圖。
[0034] 圖2是Gdep詞向量微平均F1值與普通詞向量微平均F1值隨迭代次數(shù)變化對(duì)比 圖。
[0035] 圖3是詞向量微調(diào)宏平均F1值與詞向量固定宏平均F1值隨迭代次數(shù)變化對(duì)比 圖。
[0036] 圖4是詞向量微調(diào)微平均F1值與詞向量固定微平均F1值隨迭代次數(shù)變化對(duì)比 圖。
[0037] 圖5是本發(fā)明方法與Pyysalo方法實(shí)驗(yàn)結(jié)果對(duì)比圖。
[003引圖6是本發(fā)明方法句法分析樹示意框圖。
【具體實(shí)施方式】
[0039] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0040] 如圖1所示,一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法,包括W下步 驟:
[004U 步驟1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理;選擇1997年到2009年期間所有的化bmed摘 要,并對(duì)其進(jìn)行預(yù)處理,具體包括W下子步驟:
[004引 (a)、利用生物領(lǐng)域?qū)S玫腉eniaSentenceSpliter分句工具對(duì)化bmed摘要進(jìn)行 分句處理;
[0043] 化)、利用生物領(lǐng)域?qū)S玫腉Dep句法分析工具對(duì)子步驟(a)中已分句的 化bmed摘要進(jìn)行句法分析;W句子"Le址otrieneB4stimulatesc-fosandc-jun genetranscriptionandAP-1bindingactivityinhumanmonocytes."為例說(shuō)明,最終 的句法分析樹示意框圖如圖6所示。
[0044] 步驟2、基于句法上下文信息的詞向量訓(xùn)練;在觸發(fā)詞識(shí)別任務(wù)中,識(shí)別的對(duì)象基 本是動(dòng)詞或者起動(dòng)詞性質(zhì)作用的詞,不能只是簡(jiǎn)單地利用詞袋上下文信息,而更多地需要 利用句法上下文信息來(lái)捕獲觸發(fā)詞的精確語(yǔ)義;該里,使用改進(jìn)版的word2vec,利用GDep 句法上下文信息預(yù)測(cè)目標(biāo)詞,最終獲得基于GDep句法上下文信息的詞向量,從而可W從大 量的未標(biāo)注數(shù)據(jù)中更加精確地捕獲觸發(fā)詞的語(yǔ)義信息;訓(xùn)練向量過(guò)程中利用的GDep依存 句法上下文信息如