一種基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及文本處理、自然語(yǔ)言處理等領(lǐng)域,具體設(shè)及一種基于自學(xué)習(xí)規(guī)則的項(xiàng) 目名實(shí)體識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 命名實(shí)體識(shí)別是自然語(yǔ)言處理的基本問(wèn)題。在自然語(yǔ)言處理中,命名實(shí)體主要包 括實(shí)體名,如國(guó)家名、組織機(jī)構(gòu)名、地名、人名、縮寫詞,W及一些數(shù)字表達(dá)式,如貨幣值、百 分?jǐn)?shù)、時(shí)間表達(dá)式等。
[0003]由于英文命名實(shí)體的識(shí)別只需考慮詞本身的特征而不設(shè)及分詞問(wèn)題,因此實(shí)現(xiàn)難 度相對(duì)較低。根據(jù)MUC化及ACE的評(píng)測(cè)結(jié)果,英文命名實(shí)體識(shí)別的準(zhǔn)確率、召回率、F1值目 前大多可W達(dá)到90%左右。中文命名實(shí)體識(shí)別起步較晚。20世紀(jì)90年代初期開(kāi)始,國(guó)內(nèi) 一些學(xué)者對(duì)中文命名實(shí)體(如地名、人名、組織機(jī)構(gòu)名等)識(shí)別進(jìn)行了一些研究。例如,孫 茂松等在國(guó)內(nèi)比較早地開(kāi)始進(jìn)行中文人名識(shí)別,他們主要采用統(tǒng)計(jì)的方法計(jì)算姓氏和人名 用字概率;張小衡等對(duì)中文機(jī)構(gòu)名稱進(jìn)行識(shí)別與分析,主要采用人工規(guī)則對(duì)高校名進(jìn)行了 實(shí)驗(yàn)研究;Intel中國(guó)研究中屯、的化ang等在ACL2000上演示了他們開(kāi)發(fā)的一個(gè)抽取中文 命名實(shí)體W及該些實(shí)體間相互關(guān)系的信息抽取系統(tǒng),該系統(tǒng)利用基于記憶的學(xué)習(xí)(Memory BasedLearning,MBL)算法獲取規(guī)則,用W抽取命名實(shí)體及它們之間的關(guān)系。雖然目前在人 名、地名、機(jī)構(gòu)名的識(shí)別上有了較好的效果,但是對(duì)與特定種類的命名實(shí)體識(shí)別,目前的研 究仍然處于空白階段。
[0004]經(jīng)典的命名實(shí)體識(shí)別的算法有隱式馬爾科夫、條件隨機(jī)場(chǎng)、極大滴模型等統(tǒng)計(jì)方 法。對(duì)于傳統(tǒng)的統(tǒng)計(jì)方法,無(wú)法保證所有的命名實(shí)體全部被找回檢測(cè)。
[0005]為了實(shí)現(xiàn)科技類信息的信息抽取,發(fā)展更高準(zhǔn)確率及召回率的命名實(shí)體識(shí)別技術(shù) 十分必要。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供了一種基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別方法及系統(tǒng),W詞性黑名單 和關(guān)鍵詞白名單作為規(guī)則,并且詞性黑名單和關(guān)鍵詞白名單的構(gòu)造完全無(wú)需人的參與,可 W從訓(xùn)練集中自動(dòng)學(xué)習(xí)出來(lái)。本發(fā)明可W作為傳統(tǒng)識(shí)別方法的補(bǔ)充,進(jìn)而可W在原有的基 礎(chǔ)上提高準(zhǔn)確率和召回率。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明采用W下技術(shù)方案:
[000引一種基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別方法,包括W下步驟:
[0009] 1)采取多個(gè)項(xiàng)目名作為訓(xùn)練集產(chǎn)生詞性黑名單和特征詞白名單;
[0010] 2)基于上下文提示信息對(duì)待識(shí)別文本進(jìn)行切分;
[0011] 3)基于詞性黑名單對(duì)步驟2)切分后的待識(shí)別文本進(jìn)行截?cái)啵?br>[001引 4)在步驟如處理后的待識(shí)別文本中,基于特征詞白名單確認(rèn)項(xiàng)目名,獲得最終的 識(shí)別結(jié)果。
[0013] 進(jìn)一步地,所述詞性黑名單是從計(jì)算所漢語(yǔ)詞性標(biāo)記集規(guī)定的詞性中去掉所有的 項(xiàng)目名包含的詞性得到的。
[0014] 進(jìn)一步地,所述特征詞白名單是對(duì)項(xiàng)目名集合進(jìn)行詞性標(biāo)注時(shí),得到的使所有項(xiàng) 目名都包含有特征詞集合中的特征詞的最小特征詞集合。
[0015] 進(jìn)一步地,一個(gè)特征詞包含在科技項(xiàng)目名中,則稱該特征詞覆蓋項(xiàng)目名,如果特征 詞集合中所有的特征詞可W覆蓋所有的項(xiàng)目名,則稱該集合對(duì)項(xiàng)目名全覆蓋。
[0016] 進(jìn)一步地,上述最小特征詞集合通過(guò)W下方法得到:
[0017] 對(duì)訓(xùn)練集中的項(xiàng)目名進(jìn)行分詞,得到所有的詞性集合,求得詞性中對(duì)項(xiàng)目名集合 的一個(gè)最小覆蓋集,該集合定義為最小特征詞集合。
[001引進(jìn)一步地,步驟2)中,W正則表達(dá)式的形式,檢測(cè)項(xiàng)目名的上下文提示信息,將待 識(shí)別文本中正則表達(dá)式命中的句子進(jìn)行切分。
[0019] 一種基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別系統(tǒng),包括:
[0020] 語(yǔ)料訓(xùn)練模塊,用于對(duì)項(xiàng)目名進(jìn)行訓(xùn)練獲得詞性黑名單和特征詞白名單;
[0021] 文本輸入單元,用于輸入待識(shí)別文本;
[0022] 文本切分單元,用于根據(jù)上下文提示信息對(duì)待識(shí)別文本進(jìn)行切分;
[0023] 文本截?cái)鄦卧糜诟鶕?jù)詞性黑名單對(duì)文本切分單元切分后的待識(shí)別文本進(jìn)行截 斷;
[0024] 文本確認(rèn)單元,用于根據(jù)特征詞白名單對(duì)文本截?cái)鄦卧玫降捻?xiàng)目名進(jìn)行確認(rèn), 獲得最終的識(shí)別結(jié)果。
[0025] 進(jìn)一步地,所述文本切分單元基于正則表達(dá)式檢測(cè)上下文提示信息,對(duì)命中的句 子進(jìn)行切分。
[0026] 本發(fā)明的有益效果如下;
[0027] 本發(fā)明W詞性黑名單和關(guān)鍵詞白名單作為規(guī)則,并且詞性黑名單和關(guān)鍵詞白名單 的構(gòu)造完全無(wú)需人的參與,可W從訓(xùn)練集中自動(dòng)學(xué)習(xí)出來(lái)。
[002引本發(fā)明可W作為傳統(tǒng)識(shí)別方法的補(bǔ)充,進(jìn)而可W在原有的基礎(chǔ)上提高準(zhǔn)確率和召 回率。利用本發(fā)明的方法我們?cè)?500組測(cè)試語(yǔ)料上獲得了 94. 78%準(zhǔn)確率,89. 19%的召 回率和91.9%的F1值。
【附圖說(shuō)明】
[0029] 圖1是本發(fā)明基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別方法的整體流程圖。
[0030] 圖2是顯示特征詞的分布頻率示意圖。
[0031] 圖3是本發(fā)明?操作示意圖。
[0032] 圖4是隨k值增大,特征詞覆蓋項(xiàng)目名增益變化趨勢(shì)圖。
[0033] 圖5是本發(fā)明基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別系統(tǒng)的框架圖。
【具體實(shí)施方式】
[0034] 下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)描述。
[0035] 本發(fā)明基于自學(xué)習(xí)規(guī)則的項(xiàng)目名實(shí)體識(shí)別方法的整體流程如圖1所示,現(xiàn)對(duì)其中 的關(guān)鍵步驟詳細(xì)說(shuō)明如下:
[0036] 1、基于上下文提示信息的切分
[0037] 通過(guò)上下文的提示信息,我們可W獲取內(nèi)在的提示信息,我們使用常見(jiàn)的提示信 息,W正則表達(dá)式的形式,來(lái)檢測(cè)項(xiàng)目名的外在的提示信息,作為項(xiàng)目名稱檢測(cè)的上下文 條件。對(duì)于正則表達(dá)式命中的內(nèi)容,我們將命中的句子進(jìn)行切分,W…獲得了…獎(jiǎng)為例,對(duì) 了.〇 〇
[003引"XXX"項(xiàng)目獲得了國(guó)家科技進(jìn)步一等獎(jiǎng)
[0039] "YYY"項(xiàng)目被授予國(guó)家自然科學(xué)獎(jiǎng)二等獎(jiǎng)
[0040] "ZZZ"項(xiàng)目達(dá)到了世界先進(jìn)水平
[0041] W-段話為例,"2013年1月18日,中共中央、國(guó)務(wù)院在北京人民大會(huì)堂隆重舉行 了國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì),胡錦濤、習(xí)近平、溫家寶、李克強(qiáng)、劉云山等覺(jué)和國(guó)家領(lǐng)導(dǎo)人出席 大會(huì)并為2012年度獲獎(jiǎng)代表進(jìn)行頒獎(jiǎng)。2012年度國(guó)家科技獎(jiǎng)勵(lì)授獎(jiǎng)項(xiàng)目330項(xiàng),其中科技 進(jìn)步獎(jiǎng)212項(xiàng),包括特等獎(jiǎng)3項(xiàng),一等獎(jiǎng)22項(xiàng),二等獎(jiǎng)187項(xiàng)。中國(guó)抗癌協(xié)會(huì)推薦的《腫瘤 血管生成機(jī)制及其在抗血管生成治療中的應(yīng)用》項(xiàng)目榮獲國(guó)家科技進(jìn)步一等獎(jiǎng),項(xiàng)目負(fù)責(zé) 人卞修武教授上臺(tái)接受了中央領(lǐng)導(dǎo)的頒獎(jiǎng)。"。該段話中,"中國(guó)抗癌協(xié)會(huì)推薦的《腫瘤血管 生成機(jī)制及其在抗血管生成治療中的應(yīng)用》項(xiàng)目榮獲國(guó)家科技進(jìn)步一等獎(jiǎng)"首先匹配正則 表達(dá)式規(guī)則榮獲…獎(jiǎng)",然后,對(duì)該句話中,刪除掉"榮獲國(guó)家科技進(jìn)步一等獎(jiǎng)。",該樣, 就剔除掉了一部分無(wú)關(guān)信息。
[0042] 2、基于詞性黑名單的文本切分
[0043] 在科技項(xiàng)目名中,有部分的詞性在項(xiàng)目名中永遠(yuǎn)不會(huì)出現(xiàn)。在計(jì)算所漢語(yǔ)詞性標(biāo) 記集規(guī)定的96種詞性中,有35種詞性從未出現(xiàn)在項(xiàng)目名訓(xùn)練語(yǔ)料中。將詞性黑名單來(lái)作 為上一步語(yǔ)料處理的切分,使得到的切分結(jié)果盡可能與真實(shí)的結(jié)果相接近。
[0044] 例如對(duì)上一步的輸出的"2013年1月18日,中共中央、國(guó)務(wù)院在北京人民大會(huì)堂 隆重舉行了國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì),胡錦濤、習(xí)近平、溫家寶、李克強(qiáng)、劉云山等覺(jué)和國(guó)家領(lǐng) 導(dǎo)人出席大會(huì)并為2012年度獲獎(jiǎng)代表進(jìn)行頒獎(jiǎng)。2012年度國(guó)家科技獎(jiǎng)勵(lì)授獎(jiǎng)項(xiàng)目330項(xiàng), 其中科技進(jìn)步獎(jiǎng)212項(xiàng),包括特等獎(jiǎng)3項(xiàng),一等獎(jiǎng)22項(xiàng),二等獎(jiǎng)187項(xiàng)。中國(guó)抗癌協(xié)會(huì)推薦 的《腫瘤血管生成機(jī)制及其在抗血管生成治療中的應(yīng)用》項(xiàng)目,項(xiàng)目負(fù)責(zé)人卞修武教授上臺(tái) 接受了中央領(lǐng)導(dǎo)的頒獎(jiǎng)。",根據(jù)詞性黑名單切分的結(jié)果,我們得到W下幾個(gè)子字符串"中共 中央、國(guó)務(wù)院在北京人民大會(huì)堂隆重舉行"、"國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)"、"等覺(jué)和國(guó)家領(lǐng)導(dǎo)人 出席大會(huì)并為2012年度獲獎(jiǎng)代表"、"頒獎(jiǎng)"、"2012年度國(guó)家科技獎(jiǎng)勵(lì)授獎(jiǎng)項(xiàng)目330項(xiàng)"、"科 技進(jìn)步獎(jiǎng)212項(xiàng),