專利名稱:基于事件本體的動(dòng)詞語(yǔ)義信息提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自然語(yǔ)言信息抽取領(lǐng)域,具體地說(shuō)是一種基于事件本體的動(dòng)詞語(yǔ)義信 息提取方法。
背景技術(shù):
人類發(fā)展到今天,大量的信息用電子文檔的方式進(jìn)行存儲(chǔ),且近一二十年來(lái)這些 電子文檔的數(shù)量呈現(xiàn)出爆炸式的增長(zhǎng)。信息提取技術(shù)就是利用計(jì)算機(jī)技術(shù)從這些海量的電 子文檔中找到符合用戶興趣要求的信息。傳統(tǒng)的信息提取方法一般分為兩種(1)基于規(guī)則方法。這種方法事先通過人類制定的規(guī)則,通過計(jì)算機(jī)技術(shù)對(duì)信息進(jìn) 行匹配,把匹配成功的信息塊提取出來(lái)。該方法比較直觀容易被人們理解,規(guī)則數(shù)量較小時(shí) 計(jì)算機(jī)執(zhí)行速度較快。但是當(dāng)規(guī)則數(shù)量較大,規(guī)則之間的管理,規(guī)則間的一致性檢測(cè),規(guī)則 的計(jì)算時(shí)間成本都會(huì)變得困難和復(fù)雜。(2)基于統(tǒng)計(jì)的方法。這種方法有很好的數(shù)學(xué)理論支撐,是近年來(lái)在自然語(yǔ)言處理 方面的一個(gè)研究熱點(diǎn)。它從統(tǒng)計(jì)學(xué)的角度通過分析已有信息特征來(lái)預(yù)測(cè)未知信息的特征。 從目前研究的實(shí)驗(yàn)效果來(lái)看,用該方法進(jìn)行信息提取也是可行的。但是該方法需要大量的 訓(xùn)練語(yǔ)料和復(fù)雜的參數(shù)設(shè)置才能得到比較理想的結(jié)果。由于基于統(tǒng)計(jì)的方法使用的訓(xùn)練語(yǔ) 料不可能包含自然語(yǔ)言的整個(gè)領(lǐng)域,造成訓(xùn)練語(yǔ)料的不完備影響了基于統(tǒng)計(jì)方法的信息提 取精度。以上基于規(guī)則和基于統(tǒng)計(jì)的傳統(tǒng)方法對(duì)信息進(jìn)行提取,是從文本中詞形、詞的位 置和詞性等方面進(jìn)行考慮。但是對(duì)于語(yǔ)義信息的提取卻是無(wú)能為力的。近年來(lái),自然語(yǔ)言處理領(lǐng)域出現(xiàn)了另一個(gè)研究的熱點(diǎn)——利用本體知識(shí)進(jìn)行信息 提取。該方法利用本體構(gòu)建領(lǐng)域知識(shí)指導(dǎo)信息的提取過程。例如有文章報(bào)道,其題目為 一種改進(jìn)的基于本體的Web信息抽取(該文作者是柳佳剛,陳山,黃櫻,發(fā)表于2010年出 版的其月干 1J 計(jì)算機(jī)工禾呈)禾口文章 A Design of Temporal Event Extraction from Chinese Financial News (該文作者 Wenjie Li, Kam-Fai Wong, Chunfa Yuan,發(fā)表于 2003 年出版 WSif1J international Journal of Computer Processing of Oriental Languages) S 兩篇文章公開了通過本體中概念、關(guān)系和規(guī)則作為信息抽取的依據(jù),取得了一定的效果。然 而目前此種方法也存在著不足(1)缺乏本體中的先驗(yàn)知識(shí)和提取信息之間的關(guān)系描述; (2)對(duì)句子中動(dòng)詞的識(shí)別準(zhǔn)確率還有待提高;(3)缺乏對(duì)動(dòng)詞語(yǔ)義的豐富表示。因此,已有 方法對(duì)句子中動(dòng)詞識(shí)別的準(zhǔn)確率和動(dòng)詞語(yǔ)義的表達(dá)都有所不足。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明的目的在于要解決現(xiàn)有技術(shù)存 在的問題,提供了一種基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,該方法不僅通過匹配動(dòng)詞 和動(dòng)詞角色的方法提高了識(shí)別動(dòng)詞的準(zhǔn)確率,而且通過動(dòng)詞詞義信息、時(shí)間時(shí)態(tài)信息以及動(dòng)詞與動(dòng)詞角色之間的關(guān)系信息生成豐富的動(dòng)詞語(yǔ)義信息。為了達(dá)到以上目的,本發(fā)明采用下述技術(shù)方案一種基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于首先根據(jù)輸入的句子得 到句子要素?cái)?shù)組A ;其次利用角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中動(dòng)詞角色進(jìn)行提??;接著通 過動(dòng)詞和動(dòng)詞角色匹配動(dòng)詞概念的方法確定動(dòng)詞詞義;再接著根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別 動(dòng)詞的時(shí)間和時(shí)態(tài)信息;最后根據(jù)動(dòng)詞角色、動(dòng)詞詞義和動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義 信息,其具體步驟包括A、得到句子要素?cái)?shù)組A 輸入句子,從句子中取得符合句子要素的詞,由這些詞組 成句子要素?cái)?shù)組A ;
B、動(dòng)詞角色提取利用動(dòng)詞角色提取規(guī)則提取句子要素?cái)?shù)組A中的動(dòng)詞角色;C、動(dòng)詞詞義識(shí)別通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概念的方法確定動(dòng)詞 詞義;D、動(dòng)詞時(shí)間時(shí)態(tài)識(shí)別根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;E、生成動(dòng)詞語(yǔ)義信息根據(jù)上述步驟B中提取的動(dòng)詞角色、上述步驟C中識(shí)別的動(dòng) 詞詞義和上述步驟D中識(shí)別的動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義信息。上述步驟A中所述的得到句子要素?cái)?shù)組A,其操作步驟如下Al、對(duì)輸入的句子使用分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;A2、如果句子中沒有動(dòng)名詞或者動(dòng)詞忽略該句,即該句不做動(dòng)詞語(yǔ)義信息提取的 處理;A3、根據(jù)步驟Al中的分詞和詞性標(biāo)注結(jié)果,把句子中符合句子要素要求的“把”字 句或“被”字句的結(jié)構(gòu)詞、名詞、動(dòng)名詞和動(dòng)詞的詞抽取出來(lái),并以詞為單位按在原句中詞的 先后順序存放在句子要素?cái)?shù)組A中;上述步驟B中所述的動(dòng)詞角色提取,是利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A 中動(dòng)詞角色進(jìn)行提取,其操作過程如下根據(jù)句子要素?cái)?shù)組A中名詞成份、名詞成份在動(dòng)詞前后的位置以及“被”字句和 “把”字句的結(jié)構(gòu)特征,利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中的動(dòng)詞角色進(jìn)行提取;上述步驟C中所述動(dòng)詞詞義識(shí)別,是通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概 念的方法確定動(dòng)詞詞義,其操作過程如下Cl、遍歷句子要素?cái)?shù)組A中的動(dòng)詞與動(dòng)詞角色進(jìn)行匹配,其操作過程如下遍歷句子要素?cái)?shù)組A中的動(dòng)詞,在事件本體中查詢并判斷該動(dòng)詞的性質(zhì),如果該 動(dòng)詞是不及物動(dòng)詞,該動(dòng)詞只匹配動(dòng)詞前最近的動(dòng)詞角色,如果該動(dòng)詞是體賓動(dòng)詞,該動(dòng)詞 匹配動(dòng)詞前最近的動(dòng)詞角色和動(dòng)詞后最近的動(dòng)詞角色,如果該動(dòng)詞是謂賓動(dòng)詞,該動(dòng)詞匹 配動(dòng)詞前最近的動(dòng)詞角色,得到動(dòng)詞與動(dòng)詞角色匹配集合M ;C2、判斷動(dòng)詞與動(dòng)詞角色匹配集合M是否為空,如果為空,則放棄對(duì)該句提取動(dòng)詞 語(yǔ)義信息的處理,否則利用事件本體判斷動(dòng)詞和動(dòng)詞角色是否匹配,如果不匹配則將該動(dòng) 詞的詞性改為動(dòng)名詞,并重新對(duì)上一個(gè)動(dòng)詞的匹配對(duì)進(jìn)行重新識(shí)別,否則保留這個(gè)匹配對(duì); 最終如果動(dòng)詞與動(dòng)詞角色匹配集合M中沒有一個(gè)匹配對(duì)保留下來(lái),則放棄對(duì)該句提取動(dòng)詞 語(yǔ)義信息的處理,否則遍歷動(dòng)詞與動(dòng)詞角色匹配集合M的元素,由每對(duì)動(dòng)詞與動(dòng)詞角色的 匹配對(duì)映射事件本體中動(dòng)詞概念,得到動(dòng)詞詞義信息;
上述步驟D中所述動(dòng)詞時(shí)間時(shí)態(tài)特征識(shí)別,其操作過程如下根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則提取句子的時(shí)間信息和時(shí)態(tài)副詞(如已經(jīng)、了、后等詞), 識(shí)別動(dòng)詞的時(shí)間信息和時(shí)態(tài)信息;上述步驟E中所述生成動(dòng)詞語(yǔ)義信息,其操作過程如下 根據(jù)步驟B提取出動(dòng)詞角色、步驟C獲取動(dòng)詞詞義信息和步驟D得到時(shí)間時(shí)態(tài)信 息生成句子的動(dòng)詞語(yǔ)義信息。本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實(shí)質(zhì)性特點(diǎn)和顯著進(jìn)步本發(fā)明基于事件本體,通過匹配動(dòng)詞和動(dòng)詞角色的方法,提高了識(shí)別動(dòng)詞的準(zhǔn)確 率;通過動(dòng)詞詞義信息、時(shí)間時(shí)態(tài)信息及動(dòng)詞與動(dòng)詞角色間關(guān)系信息,生成豐富的動(dòng)詞語(yǔ)義 信息。解決了已有技術(shù)存在的動(dòng)詞識(shí)別準(zhǔn)確率低和動(dòng)詞語(yǔ)義表達(dá)不足的問題。
圖1是本發(fā)明所提的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法的模塊架構(gòu)圖;圖2是本發(fā)明所提的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法的總體流程圖;圖3是本發(fā)明所提及的動(dòng)詞角色提取步驟中動(dòng)詞角色提取規(guī)則結(jié)構(gòu)示意圖;圖4是本發(fā)明所提及的動(dòng)詞詞義識(shí)別步驟中識(shí)別動(dòng)詞詞義的流程圖;圖5是本發(fā)明所提及的判斷動(dòng)詞性質(zhì)的動(dòng)詞性質(zhì)判斷流程圖;圖6是本發(fā)明所提及的事件本體構(gòu)建時(shí)采用的本體元的示意圖。
具體實(shí)施例方式下文根據(jù)圖1至6給出本發(fā)明的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法的一個(gè)優(yōu) 選實(shí)施例要指出的是,所給出的實(shí)施例是用來(lái)說(shuō)明本發(fā)明方法的技術(shù)特點(diǎn)和功能特點(diǎn),使 能更易于理解本發(fā)明,而不是用來(lái)限制本發(fā)明的范圍。參照?qǐng)D1,本基于事件本體的動(dòng)詞語(yǔ)義信息提取方法包括的模塊架構(gòu)如下(1)得到句子要素?cái)?shù)組A201 對(duì)輸入的句子使用分詞工具進(jìn)行分詞并對(duì)切分出來(lái) 的單詞標(biāo)注詞性,如果句子中沒有動(dòng)名詞或動(dòng)詞,則忽略該句,否則把句子中的“把”字句或 “被”字句的結(jié)構(gòu)詞,名詞、動(dòng)名詞和動(dòng)詞的詞抽取出來(lái),并以詞為單位按在原句中詞的先后 順序存放在句子要素?cái)?shù)組A中;(2)動(dòng)詞角色提取202 根據(jù)句子要素?cái)?shù)組A中的名詞成份、名詞成份在動(dòng)詞前后 的位置以及“被”字句和“把”字句的結(jié)構(gòu)特征,利用角色提取規(guī)則205提取候選事件句數(shù) 組A中的動(dòng)詞角色;(3)動(dòng)詞語(yǔ)義識(shí)別203 遍歷句子要素組成數(shù)組A中的動(dòng)詞,在事件本體206中查 詢并判斷該動(dòng)詞的性質(zhì),如果該動(dòng)詞是不及物動(dòng)詞,該動(dòng)詞只匹配動(dòng)詞前最近的動(dòng)詞角色, 如果該動(dòng)詞是體賓動(dòng)詞,該動(dòng)詞匹配動(dòng)詞前最近的動(dòng)詞角色和動(dòng)詞后最近的動(dòng)詞角色,如 果該動(dòng)詞是謂賓動(dòng)詞,該動(dòng)詞匹配動(dòng)詞前最近的動(dòng)詞角色,得到動(dòng)詞與動(dòng)詞角色匹配集合 M ;判斷動(dòng)詞與動(dòng)詞角色匹配集合M是否為空,如果為空,則放棄對(duì)該句提取動(dòng)詞語(yǔ)義信息 的處理,否則利用事件本體判斷動(dòng)詞和動(dòng)詞角色是否匹配,如果不匹配則將該動(dòng)詞的詞性 改為動(dòng)名詞,并重新對(duì)上一個(gè)動(dòng)詞的匹配對(duì)進(jìn)行重新識(shí)別,否則保留這個(gè)匹配對(duì);最終如果 動(dòng)詞與動(dòng)詞角色匹配集合M中沒有一個(gè)匹配對(duì)保留下來(lái),則放棄對(duì)該句提取動(dòng)詞語(yǔ)義信息的處理,否則遍歷動(dòng)詞與動(dòng)詞角色匹配集合M的元素,由每對(duì)動(dòng)詞與動(dòng)詞角色的匹配對(duì)映 射事件本體中動(dòng)詞概念,得到動(dòng)詞詞義信息;(4)動(dòng)詞時(shí)態(tài)特征識(shí)別204 根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則207提取時(shí)間信息和時(shí)態(tài)副詞 (如已經(jīng)、了、后等詞),識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;(5)生成動(dòng)詞語(yǔ)義信息301 根據(jù)動(dòng)詞角色提取202提取出動(dòng)詞角色、動(dòng)詞語(yǔ)義識(shí) 別203獲取動(dòng)詞詞義信息和動(dòng)詞時(shí)態(tài)識(shí)別204得到時(shí)間時(shí)態(tài)信息生成句子中動(dòng)詞語(yǔ)義信
肩、ο參照?qǐng)D2,本基于事件本體的動(dòng)詞語(yǔ)義信息提取方法的總體流程圖包括如下步 驟A、得到句子要素?cái)?shù)組A,輸入句子,從句子中取得符合句子要素的詞,由這些詞組 成句子要素?cái)?shù)組A ;B、動(dòng)詞角色提取,利用動(dòng)詞角色提取規(guī)則提取句子要素?cái)?shù)組A中的動(dòng)詞角色;C、動(dòng)詞詞義識(shí)別,通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概念的方法確定動(dòng)詞 詞義;D、動(dòng)詞時(shí)間時(shí)態(tài)識(shí)別,根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;E、生成動(dòng)詞語(yǔ)義信息,根據(jù)上述步驟B中提取的動(dòng)詞角色、上述步驟C中識(shí)別的動(dòng) 詞詞義和上述步驟D中識(shí)別的動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義信息。上述步驟A中所述的得到句子要素?cái)?shù)組A,其操作步驟如下Al、對(duì)輸入的句子使用分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;A2、如果句子中沒有動(dòng)名詞或者動(dòng)詞忽略該句,即該句不做動(dòng)詞語(yǔ)義信息提取的 處理;A3、根據(jù)步驟Al中的分詞和詞性標(biāo)注結(jié)果,把句子中符合句子要素要求的“把”字 句或“被”字句的結(jié)構(gòu)詞、名詞、動(dòng)名詞和動(dòng)詞的詞抽取出來(lái),并以詞為單位按在原句中詞的 先后順序存放在句子要素?cái)?shù)組A中;上述步驟B中所述的動(dòng)詞角色提取,是利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A 中動(dòng)詞角色進(jìn)行提取,其操作過程如下根據(jù)句子要素?cái)?shù)組A中名詞成份、名詞成份在動(dòng)詞前后的位置以及“被”字句和 “把”字句的結(jié)構(gòu)特征,利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中的動(dòng)詞角色進(jìn)行提取;上述步驟C中所述動(dòng)詞詞義識(shí)別,是通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概 念的方法確定動(dòng)詞詞義,其操作過程如下Cl、遍歷句子要素?cái)?shù)組A中的動(dòng)詞與動(dòng)詞角色進(jìn)行匹配,其操作過程如下遍歷句子要素?cái)?shù)組A中的動(dòng)詞,在事件本體中查詢并判斷該動(dòng)詞的性質(zhì),如果該 動(dòng)詞是不及物動(dòng)詞,該動(dòng)詞只匹配動(dòng)詞前最近的動(dòng)詞角色,如果該動(dòng)詞是體賓動(dòng)詞,該動(dòng)詞 匹配動(dòng)詞前最近的動(dòng)詞角色和動(dòng)詞后最近的動(dòng)詞角色,如果該動(dòng)詞是謂賓動(dòng)詞,該動(dòng)詞匹 配動(dòng)詞前最近的動(dòng)詞角色,得到動(dòng)詞與動(dòng)詞角色匹配集合M ;C2、判斷動(dòng)詞與動(dòng) 詞角色匹配集合M是否為空,如果為空,則放棄對(duì)該句提取動(dòng)詞 語(yǔ)義信息的處理,否則利用事件本體判斷動(dòng)詞和動(dòng)詞角色是否匹配,如果不匹配則將該動(dòng) 詞的詞性改為動(dòng)名詞,并重新對(duì)上一個(gè)動(dòng)詞的匹配對(duì)進(jìn)行重新識(shí)別,否則保留這個(gè)匹配對(duì); 最終如果動(dòng)詞與動(dòng)詞角色匹配集合M中沒有一個(gè)匹配對(duì)保留下來(lái),則放棄對(duì)該句提取動(dòng)詞語(yǔ)義信息的處理,否則遍歷動(dòng)詞與動(dòng)詞角色匹配集合M的元素,由每對(duì)動(dòng)詞與動(dòng)詞角色的 匹配對(duì)映射事件本體中動(dòng)詞概念,得到動(dòng)詞詞義信息;上述步驟D中所述動(dòng)詞時(shí)間時(shí)態(tài)特征識(shí)別,其操作過程如下根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則提取句子的時(shí)間信息和時(shí)態(tài)副詞(如已經(jīng)、了、后等詞), 識(shí)別動(dòng)詞的時(shí)間信息和時(shí)態(tài)信息;上述步驟E中所述生成動(dòng)詞語(yǔ)義信息,其操作過程如下根據(jù)步驟B提取出動(dòng)詞角色、步驟C獲取動(dòng)詞詞義信息和步驟D得到時(shí)間時(shí)態(tài)信 息生成句子的動(dòng)詞語(yǔ)義信息。圖3所示,動(dòng)詞角色提取規(guī)則最佳實(shí)施例是以句子要素?cái)?shù)組A為單位,從句子要素 數(shù)組A中提取動(dòng)詞角色的一種供計(jì)算機(jī)自動(dòng)抽取的模板,它是由動(dòng)詞的角色詞、動(dòng)詞、“被” 字句和“把”字句特征以及其他語(yǔ)句成份構(gòu)成的序列。比如[{*} {Actor} # {act_word} {*} ] + 在動(dòng)詞角色提取規(guī)則中,[]中的部分是匹配的模式,{}中的部分是句子成份,*表 示句子中除動(dòng)詞角色、動(dòng)詞和“被”字句與“把”字句等句子成份外的句子成份,Actor表示 動(dòng)詞的角色詞,act_WOrd表示動(dòng)詞,{}#表示{}中內(nèi)容可以出現(xiàn)0次或1次,[]+表示[] 中的內(nèi)容至少出現(xiàn)1次。參照?qǐng)D4,對(duì)本基于事件本體的動(dòng)詞語(yǔ)義信息提取方法中動(dòng)詞詞義識(shí)別的流程步 驟如下(1)設(shè)置在句子要素?cái)?shù)組A中提取第i個(gè)動(dòng)詞的初始值為1 ;(2)在數(shù)組A中取得第i個(gè)動(dòng)詞;(3)判斷數(shù)組A中的動(dòng)詞是否已經(jīng)全部遍歷,如果遍歷完,則轉(zhuǎn)步驟(15),否則轉(zhuǎn) 步驟⑷;(4)分析該動(dòng)詞的性質(zhì),如果該動(dòng)詞是不及物動(dòng)詞性質(zhì),則轉(zhuǎn)步驟(5),如果該動(dòng) 詞是體賓動(dòng)詞性質(zhì),則轉(zhuǎn)步驟(6),如果該動(dòng)詞是謂賓動(dòng)詞性質(zhì)則轉(zhuǎn)步驟(7);(5)把動(dòng)詞前最近的角色作為該動(dòng)詞的前件角色,并把該前件角色與動(dòng)詞進(jìn)行匹 配,轉(zhuǎn)步驟⑶;(6)把動(dòng)詞前后的最近角色分別作為該動(dòng)詞的前件角色和后件角色,并把該前件 角色和后件角色與動(dòng)詞進(jìn)行匹配,轉(zhuǎn)步驟(8);(7)把動(dòng)詞前最近的角色作為該動(dòng)詞的前件角色,并把該前件角色與動(dòng)詞進(jìn)行匹 配;(8)根據(jù)事件本體中定義的動(dòng)詞與動(dòng)詞角色匹配的限制關(guān)系對(duì)該動(dòng)詞與動(dòng)詞角色 匹配對(duì)進(jìn)行判斷,如果匹配正確轉(zhuǎn)步驟(13),否則轉(zhuǎn)步驟(9);(9)將i的值減1 ;(10)判斷i的值情況如果i等于0,則轉(zhuǎn)步驟(11),否則轉(zhuǎn)步驟(12);(11)設(shè)置i的值為1;(12)將該動(dòng)詞詞性改為動(dòng)名詞,轉(zhuǎn)步驟(2);(13)將 i 的值加 1;(14)將識(shí)別出正確的匹配對(duì)加入動(dòng)詞與動(dòng)詞角色匹配集合M,轉(zhuǎn)步驟(2);(15)判斷集合M是否為空,如果為空,轉(zhuǎn)步驟(17),如果不為空,轉(zhuǎn)步驟(16);
(16)遍歷集合M中的動(dòng)詞與動(dòng)詞角色匹配對(duì),由每對(duì)動(dòng)詞與動(dòng)詞角色的匹配對(duì)映射事件本體中動(dòng)詞概念,得到動(dòng)詞詞義信息。(17)結(jié)束。參照?qǐng)D5,對(duì)本基于事件本體的動(dòng)詞語(yǔ)義信息提取方法中動(dòng)詞性質(zhì)判斷流程步驟 如下步驟501、取得預(yù)分析動(dòng)詞性質(zhì)的動(dòng)詞;步驟502、根據(jù)事件本體中定義的該動(dòng)詞性質(zhì)類型,并把該動(dòng)詞所有動(dòng)詞性質(zhì)類型 存放在動(dòng)詞性質(zhì)類型集合C中;步驟503、判斷動(dòng)詞性質(zhì)類型集合C中是否包含不及物動(dòng)詞的類型,如果包含不及 物動(dòng)詞的類型,轉(zhuǎn)步驟504,如果不包含不及物動(dòng)詞,轉(zhuǎn)步驟505 ;步驟504、判斷該動(dòng)詞后有無(wú)動(dòng)詞角色,如果有,轉(zhuǎn)步驟507,如果沒有轉(zhuǎn)步驟505 ;步驟505、判斷動(dòng)詞性質(zhì)類型集合C中是否包含謂賓動(dòng)詞的類型,如果包含謂賓動(dòng) 詞的類型,轉(zhuǎn)步驟506,如果不包含謂賓動(dòng)詞的類型,轉(zhuǎn)步驟510 ;步驟506、判斷動(dòng)詞后是否只有動(dòng)詞或動(dòng)名詞,如果只有名詞或動(dòng)名詞,轉(zhuǎn)步驟 508,否則轉(zhuǎn)步驟509 ;步驟507、設(shè)置該動(dòng)詞性質(zhì)為不及物動(dòng)詞,判斷動(dòng)詞性質(zhì)結(jié)束;步驟508、設(shè)置該動(dòng)詞性質(zhì)為體賓動(dòng)詞,判斷動(dòng)詞性質(zhì)結(jié)束;步驟509、設(shè)置該動(dòng)詞性質(zhì)為謂賓動(dòng)詞,判斷動(dòng)詞詞性結(jié)束;步驟510、設(shè)置該動(dòng)詞性質(zhì)為體賓動(dòng)詞,判斷動(dòng)詞詞性結(jié)束;圖6所示是本實(shí)施例所提及的事件本體構(gòu)建時(shí)采用的本體元的示意圖。本實(shí)施例 通過OWL (Web Ontology Language)語(yǔ)言描述事件本體,事件本體建模中涉及的本體元有(l)actConcept類6Ol表示動(dòng)詞的概念;(2) eventClass類602表示事件的分類,如交通事故類、海嘯類等;(3) ActoeProperty數(shù)據(jù)屬性603表示動(dòng)詞概念601的動(dòng)詞性質(zhì)類型,該動(dòng)詞性質(zhì) 類型分為三類不及物動(dòng)詞、體賓動(dòng)詞和謂賓動(dòng)詞;(4)MatchRole數(shù)據(jù)屬性604表示與動(dòng)詞概念601匹配的動(dòng)詞角色;(5) Language數(shù)據(jù)屬性605表示動(dòng)詞概念601的語(yǔ)法關(guān)系;(6)Time數(shù)據(jù)屬性606表示動(dòng)詞概念601的時(shí)間屬性,即動(dòng)詞所代表動(dòng)作的發(fā)生時(shí) 間;(7)Environment數(shù)據(jù)屬性607表示動(dòng)詞概念601的環(huán)境屬性,即動(dòng)作發(fā)生的場(chǎng)所 極其特征;(8) hasPartOf 對(duì)象屬性 608 表示 eventClass 類 602 由 actConc印t 類組成, hasPartOf 對(duì)象屬性的 domain 是 eventClass 類, range i actConcept 類;(9) hasSubClassOf 對(duì)象屬性 609 表示 actConcept 類與 actConcept 類之間是父子 關(guān)系,hasSubClassOf 對(duì)象屬性的 domain 禾口 range 者β是 actConcept 類。
權(quán)利要求
一種基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于首先根據(jù)輸入的句子得到句子要素?cái)?shù)組A;其次利用角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中動(dòng)詞角色進(jìn)行提??;接著通過動(dòng)詞和動(dòng)詞角色匹配動(dòng)詞概念的方法確定動(dòng)詞詞義;再接著根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;最后根據(jù)動(dòng)詞角色、動(dòng)詞詞義和動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義信息,其具體步驟如下A、得到句子要素?cái)?shù)組A輸入句子,從句子中取得符合句子要素的詞,由這些詞組成句子要素?cái)?shù)組A;B、動(dòng)詞角色提取利用動(dòng)詞角色提取規(guī)則提取句子要素?cái)?shù)組A中的動(dòng)詞角色;C、動(dòng)詞詞義通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概念的方法確定動(dòng)詞詞義;D、動(dòng)詞時(shí)間時(shí)態(tài)識(shí)別根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;E、生成動(dòng)詞語(yǔ)義信息根據(jù)上述步驟B中提取的動(dòng)詞角色、上述步驟C中識(shí)別的動(dòng)詞詞義和上述步驟D中識(shí)別的動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義信息。
2.根據(jù)權(quán)利要求1所述的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于,所述 步驟A中得到句子要素?cái)?shù)組A,其操作步驟如下Al、對(duì)輸入的句子使用分詞工具進(jìn)行分詞并對(duì)切分出來(lái)的單詞標(biāo)注詞性;A2、如果句子中沒有動(dòng)名詞或者動(dòng)詞忽略該句,即該句不做動(dòng)詞語(yǔ)義信息提取的處理;A3、根據(jù)步驟Al中的分詞和詞性標(biāo)注結(jié)果,把句子中符合句子要素要求的“把”字句或 “被”字句的結(jié)構(gòu)詞、名詞、動(dòng)名詞和動(dòng)詞的詞抽取出來(lái),并以詞為單位按在原句中詞的先后 順序存放在句子要素?cái)?shù)組A中。
3.根據(jù)權(quán)利要求1所述的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于,所述 步驟B中所述的動(dòng)詞角色提取,是利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中動(dòng)詞角色進(jìn) 行提取,其操作過程如下根據(jù)句子要素?cái)?shù)組A中名詞成份、名詞成份在動(dòng)詞前后的位置以 及“被”字句和“把”字句的結(jié)構(gòu)特征,利用動(dòng)詞角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中的動(dòng)詞 角色進(jìn)行提取。
4.根據(jù)權(quán)利要求1所述的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于,所述 步驟C中所述動(dòng)詞詞義識(shí)別,是通過動(dòng)詞和動(dòng)詞角色匹配事件本體中動(dòng)詞概念的方法確定 動(dòng)詞詞義,其操作過程如下Cl、遍歷句子要素?cái)?shù)組A中的動(dòng)詞與動(dòng)詞角色進(jìn)行匹配,其操作過程如下遍歷句子要素?cái)?shù)組A中的動(dòng)詞,在事件本體中查詢并判斷該動(dòng)詞的性質(zhì),如果該動(dòng)詞 是不及物動(dòng)詞,該動(dòng)詞只匹配動(dòng)詞前最近的動(dòng)詞角色;如果該動(dòng)詞是體賓動(dòng)詞,該動(dòng)詞匹配 動(dòng)詞前最近的動(dòng)詞角色和動(dòng)詞后最近的動(dòng)詞角色;如果該動(dòng)詞是謂賓動(dòng)詞,該動(dòng)詞匹配動(dòng) 詞前最近的動(dòng)詞角色;得到動(dòng)詞與動(dòng)詞角色匹配集合M ;C2、判斷動(dòng)詞與動(dòng)詞角色匹配集合M是否為空,如果為空,則放棄對(duì)該句提取動(dòng)詞語(yǔ)義 信息的處理,否則利用事件本體判斷動(dòng)詞和動(dòng)詞角色是否匹配,如果不匹配則將該動(dòng)詞的 詞性改為動(dòng)名詞,并重新對(duì)上一個(gè)動(dòng)詞的匹配對(duì)進(jìn)行重新識(shí)別,否則保留這個(gè)匹配對(duì);最終 如果動(dòng)詞與動(dòng)詞角色匹配集合M中沒有一個(gè)匹配對(duì)保留下來(lái),則放棄對(duì)該句提取動(dòng)詞語(yǔ)義 信息的處理,否則遍歷動(dòng)詞與動(dòng)詞角色匹配集合M的元素,由每對(duì)動(dòng)詞與動(dòng)詞角色的匹配 對(duì)映射事件本體中動(dòng)詞概念,得到動(dòng)詞詞義信息。
5.根據(jù)權(quán)利要求1所述的基于事件本體的動(dòng)詞語(yǔ)義信息提取方法,其特征在于,所述 步驟D中所述動(dòng)詞時(shí)間時(shí)態(tài)識(shí)別,其操作過程如下根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則提取時(shí)間信息 和時(shí)態(tài)副詞,識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息。
全文摘要
本發(fā)明涉及一種基于事件本體的動(dòng)詞語(yǔ)義信息提取方法。它是首先根據(jù)輸入的句子得到句子要素?cái)?shù)組A;其次利用角色提取規(guī)則對(duì)句子要素?cái)?shù)組A中的動(dòng)詞角色進(jìn)行提取;接著通過動(dòng)詞和動(dòng)詞角色匹配動(dòng)詞概念的方法確定動(dòng)詞詞義;再接著根據(jù)時(shí)間時(shí)態(tài)提取規(guī)則識(shí)別動(dòng)詞的時(shí)間和時(shí)態(tài)信息;最后根據(jù)動(dòng)詞角色、動(dòng)詞詞義和動(dòng)詞時(shí)間時(shí)態(tài)信息生成動(dòng)詞語(yǔ)義信息。由于本發(fā)明基于事件本體,通過匹配動(dòng)詞和動(dòng)詞角色的方法,提高了識(shí)別動(dòng)詞的準(zhǔn)確率,由于通過動(dòng)詞詞義信息、時(shí)間時(shí)態(tài)信息及動(dòng)詞與動(dòng)詞角色間關(guān)系信息,生成了豐富的動(dòng)詞語(yǔ)義信息,從而解決了已有技術(shù)存在的動(dòng)詞識(shí)別準(zhǔn)確率低和動(dòng)詞語(yǔ)義表達(dá)不足的問題。
文檔編號(hào)G06F17/27GK101957812SQ201010290860
公開日2011年1月26日 申請(qǐng)日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者劉宗田, 孫榮, 王先傳 申請(qǐng)人:上海大學(xué)