一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法

文檔序號(hào)：9249219閱讀：497來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種識(shí)別方法，更具體地說(shuō)，設(shè)及一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法。
【背景技術(shù)】
[0002] 隨著系統(tǒng)生物學(xué)的快速發(fā)展，揭示生物分子、細(xì)胞、組織等之間的復(fù)雜關(guān)系的需求愈加迫切。同時(shí)，公開發(fā)表的生物醫(yī)學(xué)文獻(xiàn)也正在呈現(xiàn)爆炸式的增長(zhǎng)態(tài)勢(shì)，如何從大量的生物醫(yī)學(xué)文獻(xiàn)中挖掘生物分子、細(xì)胞、組織等之間的復(fù)雜關(guān)系而不是傳統(tǒng)的簡(jiǎn)單的二元關(guān)系 (如蛋白質(zhì)-蛋白質(zhì)關(guān)系、藥物-藥物關(guān)系等）已經(jīng)成為現(xiàn)代生物醫(yī)學(xué)文本挖掘領(lǐng)域的研究熱點(diǎn)。
[0003] 目前，大多數(shù)生物醫(yī)學(xué)事件抽取方法大都將該任務(wù)分為兩個(gè)子任務(wù)：觸發(fā)詞識(shí)別與元素檢測(cè)，而觸發(fā)詞識(shí)別在整個(gè)任務(wù)中起著決定性的作用，觸發(fā)詞識(shí)別的錯(cuò)誤將會(huì)累積到元素檢測(cè)過(guò)程中，所W提高觸發(fā)詞識(shí)別的性能，對(duì)于整個(gè)生物醫(yī)學(xué)事件抽取來(lái)說(shuō)至關(guān)重要。目前，觸發(fā)詞識(shí)別方法主要包括W下兩類：
[0004] 一類是基于規(guī)則匹配的方法，該方法通過(guò)對(duì)數(shù)據(jù)集中的事件特征進(jìn)行分析，手動(dòng) 構(gòu)造一些用于識(shí)別觸發(fā)詞的模式或者正則表達(dá)式，然后用自定義的模式或者正則表達(dá)式匹配滿足該模式的觸發(fā)詞。此方法雖然在早期觸發(fā)詞識(shí)別研究中起到了一定的作用，但是幾乎不可能窮舉所有可能的模式，而且對(duì)于在訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的模式無(wú)法預(yù)知，導(dǎo)致系統(tǒng)泛化性能比較差，不能得到廣泛的應(yīng)用。
[0005] 另一類是基于機(jī)器學(xué)習(xí)的方法，該方法將觸發(fā)詞識(shí)別問(wèn)題看作一個(gè)多元分類問(wèn) 題，將一個(gè)詞分類為幾種事件類型中的一種，該方法重點(diǎn)在于分類模型特征向量的構(gòu)建，特征向量的好壞決定了分類模型的優(yōu)劣。而特征向量的構(gòu)建主要取決于對(duì)于該任務(wù)的理解，選擇那些對(duì)于識(shí)別觸發(fā)詞信息有用的特征，構(gòu)建特征向量，并利用分類器（如支持向量機(jī)、最大滴等）進(jìn)行分類。該方法明顯優(yōu)于基于規(guī)則匹配的方法，得到了廣泛的應(yīng)用，但是仍然存在一些缺點(diǎn)，比較依賴于標(biāo)注數(shù)據(jù)，當(dāng)標(biāo)注數(shù)據(jù)比較少的時(shí)候，無(wú)法保證其性能；而且，特征的構(gòu)建主要是針對(duì)當(dāng)前數(shù)據(jù)集手動(dòng)構(gòu)造，人工干預(yù)比較大，泛化性能不好，人工構(gòu)建的特征向量維度高并且稀疏，訓(xùn)練比較耗時(shí)。
[0006] 綜上所述，如何減少人工干預(yù)，提高觸發(fā)詞識(shí)別的泛化性能，是生物醫(yī)學(xué)事件觸發(fā) 詞識(shí)別迫切需要解決的問(wèn)題。

【發(fā)明內(nèi)容】

[0007] 為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明目的是提供一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法。該方法利用大量可獲得未標(biāo)注數(shù)據(jù)訓(xùn)練詞向量，精確捕獲觸發(fā) 詞的語(yǔ)義信息，并有效地降低了輸入特征維度；同時(shí)利用深度學(xué)習(xí)模型學(xué)習(xí)輸入特征之間的隱含特征，從而更加精確地進(jìn)行分類；最后，在訓(xùn)練的過(guò)程中對(duì)詞向量信息進(jìn)行微調(diào)，使得詞向量信息更加適合該數(shù)據(jù)集，有效地提升了模型的泛化能力W及觸發(fā)詞識(shí)別性能。
[000引為了實(shí)現(xiàn)上述發(fā)明目的，解決現(xiàn)有技術(shù)中所存在的問(wèn)題，本發(fā)明采取的技術(shù)方案是；一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法，包括W下步驟：
[0009] 步驟1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理；選擇1997年到2009年期間所有的化bmed摘要，并對(duì)其進(jìn)行預(yù)處理，具體包括W下子步驟：
[0010] (a)、利用生物領(lǐng)域?qū)Ｓ玫腉eniaSentenceSpliter分句工具對(duì)化bmed摘要進(jìn)行分句處理；
[001U 化）、利用生物領(lǐng)域?qū)Ｓ玫腉D巧句法分析工具對(duì)子步驟（a)中已分句的化bmed摘要進(jìn)行句法分析；
[001引步驟2、基于句法上下文信息的詞向量訓(xùn)練；在觸發(fā)詞識(shí)別任務(wù)中，識(shí)別的對(duì)象基本是動(dòng)詞或者起動(dòng)詞性質(zhì)作用的詞，不能只是簡(jiǎn)單地利用詞袋上下文信息，而更多地需要利用句法上下文信息來(lái)捕獲觸發(fā)詞的精確語(yǔ)義；該里，使用改進(jìn)版的word2vec，利用GDep 句法上下文信息預(yù)測(cè)目標(biāo)詞，最終獲得基于GDep句法上下文信息的詞向量，從而可W從大量的未標(biāo)注數(shù)據(jù)中更加精確地捕獲觸發(fā)詞的語(yǔ)義信息；在詞向量的訓(xùn)練過(guò)程中，采用 skip-gram模型進(jìn)行訓(xùn)練，并設(shè)置過(guò)濾出現(xiàn)次數(shù)少于50次的稀疏詞W及詞向量維度設(shè)置為 200 維；
[0013] 步驟3、候選觸發(fā)詞詞典的構(gòu)建；利用訓(xùn)練集中出現(xiàn)的所有觸發(fā)詞構(gòu)建觸發(fā)詞詞典，只對(duì)在觸發(fā)詞詞典中出現(xiàn)的詞構(gòu)建相應(yīng)的特征向量進(jìn)行訓(xùn)練，該樣雖然會(huì)損失一些召回率，但是會(huì)在準(zhǔn)確率上作出補(bǔ)償，具體包括W下子步驟：
[0014] (a)、考慮到數(shù)據(jù)集中觸發(fā)詞大多數(shù)是由一個(gè)單詞組成的，而多個(gè)單詞組成的觸發(fā) 詞不方便進(jìn)行識(shí)別，所W，只選擇訓(xùn)練集中只有一個(gè)單詞組成的觸發(fā)詞加入到候選詞典；
[0015] 化）、對(duì)候選詞典中的詞進(jìn)行詞形還原W及詞干化處理，用于對(duì)意思相近但是詞形不同的詞進(jìn)行識(shí)別；
[0016] 步驟4、觸發(fā)詞語(yǔ)義特征向量的構(gòu)建，具體包括W下子步驟：
[0017] (a)、對(duì)于目標(biāo)詞滑動(dòng)窗口內(nèi)的所有詞對(duì)應(yīng)的詞向量進(jìn)行連接，表示該目標(biāo)詞對(duì)應(yīng) 的特征向量，取滑動(dòng)窗口大小為5 ;
[001引化）、如果在滑動(dòng)窗口內(nèi)的詞的個(gè)數(shù)小于滑動(dòng)窗口大小，采用詞向量中的一個(gè)特殊字符Vs"與對(duì)應(yīng)的詞向量進(jìn)行填充；
[0019] 步驟5、深度學(xué)習(xí)模型的訓(xùn)練；采用去噪找式自編碼（SDA)深度學(xué)習(xí)模型進(jìn)行訓(xùn) 練，并使用深度學(xué)習(xí)工具化eano加W實(shí)現(xiàn)，具體包括W下子步驟：
[0020] (a)、非監(jiān)督預(yù)訓(xùn)練；當(dāng)深度學(xué)習(xí)模型層數(shù)較多時(shí)，會(huì)發(fā)生梯度彌散現(xiàn)象，即誤差傳遞到前面幾層時(shí)較小，對(duì)于參數(shù)的更新幾乎不起作用，故采用去噪找式自編碼神經(jīng)網(wǎng)絡(luò)模型，利用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行非監(jiān)督預(yù)訓(xùn)練的方式對(duì)模型參數(shù)進(jìn)行初始化，初始化后的參數(shù)，在全局最優(yōu)解附近，縮短訓(xùn)練過(guò)程的收斂時(shí)間；首先，對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行特征自動(dòng)學(xué)習(xí)，學(xué)習(xí) 輸入的隱含特征表示，通過(guò)公式（1)構(gòu)建輸入隱含層的輸出值，
[0021] Hi(X) =S(胖12 ?x+bi2) (1)
[0022] 式（1)中；S表示神經(jīng)單元節(jié)點(diǎn)的激活函數(shù)，Wi2表示第一層與第二層之間的參數(shù) 矩陣，bi2表示偏置項(xiàng)，X表示神經(jīng)網(wǎng)絡(luò)模型的輸入，Hi(X)表示輸入隱含層的輸出值，然后，再利用一個(gè)解碼層輸出通過(guò)公式（2)對(duì)輸入值重構(gòu)，
[0023] &(x) =s(r12?Hi(x)+b'12) (2)
[0024] 式似中；b'。為b。的轉(zhuǎn)置，W'。為W。的轉(zhuǎn)置，H2(x)表示對(duì)輸入值的重構(gòu)，并通過(guò)隨機(jī)梯度下降算法對(duì)公式（2)中的損失函數(shù)進(jìn)行優(yōu)化，得到模型參數(shù)0，
[0025] (3)
[0026] 式（3)中；L表示神經(jīng)網(wǎng)絡(luò)模型的輸入與輸出之間誤差的平方和，其中L(x，t)= I&(X)-XII2, 0表示模型參數(shù)，N表示樣本個(gè)數(shù)；通過(guò)非監(jiān)督預(yù)訓(xùn)練初始化好了第一層與第二層之間的參數(shù)矩陣，將隱含層當(dāng)做下一個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的輸入，重復(fù)上述操作便可W對(duì)各層的參數(shù)完成初始化，初始化后的參數(shù)在全局最優(yōu)解附近，縮短了訓(xùn)練過(guò)程的收斂時(shí)間；
[0027] 化）、監(jiān)督微調(diào)：利用步驟（a)將預(yù)訓(xùn)練好的參數(shù)對(duì)模型進(jìn)行參數(shù)初始化，然后利用有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，并對(duì)參數(shù)進(jìn)行微調(diào)，微調(diào)過(guò)程中優(yōu)化的損失函數(shù)通過(guò)公式（4)表示，
[002引
[0029] 式（4)中；L(x，t) =||H2(x)-〇|I2,其中0是模型輸出的類別信息，A是正則化因子，0表不模型參數(shù)，N表不樣本個(gè)數(shù)；
[0030] (C)、詞向量信息微調(diào)；在訓(xùn)練過(guò)程中，通過(guò)隨機(jī)梯度下降算法對(duì)輸入的詞向量信息進(jìn)行微調(diào)，用于詞向量信息適合該數(shù)據(jù)集，得到好的結(jié)果。
[0031] 步驟6、生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別；利用步驟5訓(xùn)練得到深度學(xué)習(xí)模型，在未標(biāo)注數(shù)據(jù)上進(jìn)行測(cè)試，識(shí)別未標(biāo)注數(shù)據(jù)中的觸發(fā)詞。
[0032] 本發(fā)明有益效果是；一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法，包括 W下步驟；1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理，2、基于句法上下文信息的詞向量訓(xùn)練，3、候選觸發(fā) 詞詞典的構(gòu)建，4、觸發(fā)詞語(yǔ)義特征向量的構(gòu)建，5、深度學(xué)習(xí)模型的訓(xùn)練，6、生物醫(yī)學(xué)事件觸發(fā)詞的識(shí)別，與已有技術(shù)相比，本發(fā)明利用大量可獲得未標(biāo)注數(shù)據(jù)訓(xùn)練詞向量，精確捕獲觸發(fā)詞的語(yǔ)義信息，并有效地降低了輸入特征維度；同時(shí)利用深度學(xué)習(xí)模型學(xué)習(xí)輸入特征之間的隱含特征，從而更加精確地進(jìn)行分類；最后，在訓(xùn)練的過(guò)程中對(duì)詞向量信息進(jìn)行微調(diào)，使得詞向量信息更加適合該數(shù)據(jù)集，有效地提升了模型的泛化能力W及觸發(fā)詞識(shí)別性能。
【附圖說(shuō)明】
[0033] 圖1是本發(fā)明方法步驟流程圖。
[0034] 圖2是Gdep詞向量微平均F1值與普通詞向量微平均F1值隨迭代次數(shù)變化對(duì)比圖。
[0035] 圖3是詞向量微調(diào)宏平均F1值與詞向量固定宏平均F1值隨迭代次數(shù)變化對(duì)比圖。
[0036] 圖4是詞向量微調(diào)微平均F1值與詞向量固定微平均F1值隨迭代次數(shù)變化對(duì)比圖。
[0037] 圖5是本發(fā)明方法與Pyysalo方法實(shí)驗(yàn)結(jié)果對(duì)比圖。
[003引圖6是本發(fā)明方法句法分析樹示意框圖。
【具體實(shí)施方式】
[0039] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0040] 如圖1所示，一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法，包括W下步驟：
[004U 步驟1、對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理；選擇1997年到2009年期間所有的化bmed摘要，并對(duì)其進(jìn)行預(yù)處理，具體包括W下子步驟：
[004引（a)、利用生物領(lǐng)域?qū)Ｓ玫腉eniaSentenceSpliter分句工具對(duì)化bmed摘要進(jìn)行分句處理；
[0043] 化）、利用生物領(lǐng)域?qū)Ｓ玫腉Dep句法分析工具對(duì)子步驟（a)中已分句的化bmed摘要進(jìn)行句法分析；W句子"Le址otrieneB4stimulatesc-fosandc-jun genetranscriptionandAP-1bindingactivityinhumanmonocytes."為例說(shuō)明，最終的句法分析樹示意框圖如圖6所示。
[0044] 步驟2、基于句法上下文信息的詞向量訓(xùn)練；在觸發(fā)詞識(shí)別任務(wù)中，識(shí)別的對(duì)象基本是動(dòng)詞或者起動(dòng)詞性質(zhì)作用的詞，不能只是簡(jiǎn)單地利用詞袋上下文信息，而更多地需要利用句法上下文信息來(lái)捕獲觸發(fā)詞的精確語(yǔ)義；該里，使用改進(jìn)版的word2vec，利用GDep 句法上下文信息預(yù)測(cè)目標(biāo)詞，最終獲得基于GDep句法上下文信息的詞向量，從而可W從大量的未標(biāo)注數(shù)據(jù)中更加精確地捕獲觸發(fā)詞的語(yǔ)義信息；訓(xùn)練向量過(guò)程中利用的GDep依存句法上下文信息如

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王健;張建海;林鴻飛;張益嘉;
技術(shù)所有人：大連理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

支持向量機(jī)的人臉識(shí)別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于句法詞向量的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別方法