專利名稱:一種基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多詞表達(dá)抽取系統(tǒng)及方法,尤其涉及一種基于多代理機(jī)制的多詞 表達(dá)抽取系統(tǒng)及方法。
背景技術(shù):
隨著對(duì)自然語(yǔ)言處理領(lǐng)域中的機(jī)器翻譯、信息檢索、詞義消歧等的深入研究,研究 者發(fā)現(xiàn)影響性能提升的一個(gè)主要因素與一種有很強(qiáng)搭配關(guān)系的多個(gè)詞組成的語(yǔ)言單位的 準(zhǔn)確抽取和翻譯有關(guān)。例如“各付各”(go Dutch),“奶咖啡”(white coffee),“再來(lái)點(diǎn)”(want some more)。在漢語(yǔ)分詞時(shí),“各/付/各”,“奶/咖啡”,“再/來(lái)/點(diǎn)”被分離開來(lái),導(dǎo)致 它們不能被翻譯成一個(gè)完整的語(yǔ)言單位。這些語(yǔ)言單位在日常語(yǔ)言中頻繁使用,通常用來(lái) 表達(dá)完整的概念,而這些概念不能拆成單個(gè)詞匯來(lái)表達(dá)。它們有自己的語(yǔ)法或語(yǔ)義特性但 是結(jié)構(gòu)上又有大量的松散和變化的表達(dá)形式,這些構(gòu)成部件之間有著較為復(fù)雜的關(guān)聯(lián)。該 語(yǔ)言單位被稱為多詞表達(dá)(Multiword Expression)簡(jiǎn)稱MWE。MWE 一般被分為以下幾種(1)習(xí)語(yǔ)指語(yǔ)法語(yǔ)義上可以復(fù)合生成,但是已經(jīng)約定俗成,一般不會(huì)出現(xiàn)變體。 例如,strong tea,,。(2)詞匯化的短語(yǔ)包括句法松散的表達(dá),如“ touch a nerve (touch/find a raw nerve)";半固定表達(dá),如復(fù)合名詞;固定表達(dá),如“ad hoc”,“in addition”。利用計(jì)算機(jī)來(lái)自動(dòng)抽取和應(yīng)用MWE被認(rèn)為是進(jìn)一步研究的瓶頸。MWE抽取就是識(shí) 別出文本中的非嵌套的特定短語(yǔ)結(jié)構(gòu)。鑒于MWE在研究上的重要地位,國(guó)內(nèi)外研究者對(duì)MWE進(jìn)行了廣泛的研究。但是,研 究最多的還是MWE的抽取問(wèn)題,例如名名復(fù)合結(jié)構(gòu),固定短語(yǔ)結(jié)構(gòu)和動(dòng)詞+小品詞短語(yǔ)等等 都是當(dāng)前研究的熱點(diǎn)。從國(guó)內(nèi)外文獻(xiàn)來(lái)看,目前主流的MWE抽取主要有以下三種方法統(tǒng)計(jì) 抽取方法,知識(shí)驅(qū)動(dòng)抽取方法以及混合抽取方法。統(tǒng)計(jì)抽取方法統(tǒng)計(jì)方法主要是從文本中統(tǒng)計(jì)多個(gè)詞的出現(xiàn)頻率和共現(xiàn)信息等數(shù)據(jù),從而計(jì)算互 信息、信息熵等數(shù)據(jù),并依據(jù)以上數(shù)據(jù)使用適當(dāng)?shù)哪P蛯?duì)MWE進(jìn)行抽取?;诮y(tǒng)計(jì)的方法雖然也取得了較好的識(shí)別效果,但該類方法單純統(tǒng)計(jì)詞頻、共現(xiàn) 信息等,沒(méi)有考慮MWE的語(yǔ)法、語(yǔ)義知識(shí),因此,無(wú)法從深層次探究不同類型MWE的內(nèi)部組成 規(guī)律。知識(shí)驅(qū)動(dòng)抽取方法知識(shí)驅(qū)動(dòng)的方法中,使用了語(yǔ)言專家總結(jié)的知識(shí)或者研究者總結(jié)的規(guī)律性知識(shí)來(lái) 進(jìn)行MWE的識(shí)別。知識(shí)驅(qū)動(dòng)方法注重MWE的內(nèi)部組成規(guī)律的總結(jié),適合形式變化多變的MWE類型的抽取。混合抽取方法混合方法通常結(jié)合了統(tǒng)計(jì)方法與知識(shí)驅(qū)動(dòng)方法的優(yōu)點(diǎn),把詞頻數(shù)據(jù)、專家知識(shí)和 經(jīng)驗(yàn)規(guī)律結(jié)合使用。總體來(lái)看,無(wú)論英語(yǔ)還是漢語(yǔ),MWE抽取的準(zhǔn)確率都不是很高,距離實(shí)際應(yīng)用還有 很大的距離,因此還有較大的提升空間。知識(shí)驅(qū)動(dòng)方法可以涵蓋MWE的內(nèi)部組成規(guī)律,對(duì)形 式多變的個(gè)別MWE類型比較適合,但該方法無(wú)法把所有的知識(shí)全部總結(jié)出來(lái);隨著大規(guī)模 語(yǔ)料庫(kù)的建立和計(jì)算機(jī)技術(shù)的飛速發(fā)展,統(tǒng)計(jì)方法得到了迅猛的發(fā)展,也取得了較好的效 果,但對(duì)于一些復(fù)雜的MWE,統(tǒng)計(jì)和知識(shí)相結(jié)合的方法才能取得較好的效果??v觀MWE抽取的方法和策略,我們發(fā)現(xiàn)多數(shù)的研究者只針對(duì)某一種類型(比如復(fù) 合名詞、動(dòng)詞+小品詞等)的MWE進(jìn)行抽取,少數(shù)的研究者同時(shí)抽取了幾種類型的MWE,但是 使用的是相同的模型和算法。從MWE的分類我們可以看出,不同類型的MWE在定義、形態(tài)和 組成上有很大差別,因此上述現(xiàn)有技術(shù)中所采用的MWE抽取方法和策略無(wú)法保證獲得較高 的正確率。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的弊端,提供一種基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法。本發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng),包括輸入待抽取語(yǔ)句的語(yǔ)句 輸入模塊和輸出語(yǔ)句抽取結(jié)果的語(yǔ)句輸出模塊,還包括語(yǔ)句復(fù)制模塊,用于根據(jù)語(yǔ)句抽取單元中預(yù)定的語(yǔ)句抽取機(jī)制的數(shù)量將語(yǔ)句輸入 模塊輸入的待抽取語(yǔ)句復(fù)制出對(duì)應(yīng)數(shù)量的待抽取語(yǔ)句,并將對(duì)應(yīng)數(shù)量的待抽取語(yǔ)句對(duì)應(yīng)于 各語(yǔ)句抽取機(jī)制,分別發(fā)送至語(yǔ)句抽取單元中;第一語(yǔ)句抽取單元,用于根據(jù)其中預(yù)定的多個(gè)語(yǔ)句抽取機(jī)制對(duì)相應(yīng)接收到的各待 抽取語(yǔ)句進(jìn)行詞語(yǔ)抽取;同時(shí),根據(jù)預(yù)定的第一消歧機(jī)制對(duì)通過(guò)多個(gè)語(yǔ)句抽取機(jī)制進(jìn)行的 語(yǔ)句抽取中的沖突進(jìn)行第一消歧處理并輸出第一消歧后的語(yǔ)句抽取結(jié)果;控制模塊,用于將第一語(yǔ)句抽取單元輸出的第一消歧后的語(yǔ)句抽取結(jié)果進(jìn)行匯 總,匯總后,如果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%或以下的 詞匯進(jìn)行了第一消歧處理,則將最終語(yǔ)句抽取結(jié)果通過(guò)語(yǔ)句輸出模塊進(jìn)行輸出;如果第一 消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了第一消歧 處理,則控制模塊控制第二語(yǔ)句抽取單元進(jìn)行待抽取語(yǔ)句的詞語(yǔ)抽??;第二語(yǔ)句抽取單元,用于根據(jù)其中預(yù)定的兩個(gè)語(yǔ)句抽取機(jī)制對(duì)相應(yīng)接收到的各待 抽取語(yǔ)句進(jìn)行詞語(yǔ)抽??;同時(shí),根據(jù)預(yù)定的第二消歧機(jī)制對(duì)通過(guò)兩個(gè)語(yǔ)句抽取機(jī)制進(jìn)行的 語(yǔ)句抽取中的沖突進(jìn)行第二消歧處理,并通過(guò)語(yǔ)句輸出模塊輸出第二消歧后的語(yǔ)句抽取結(jié)^ ο本發(fā)明所述的多詞表達(dá)抽取系統(tǒng)中,所述第一語(yǔ)句抽取單元針對(duì)多個(gè)語(yǔ)句抽取中 的同一詞匯的抽取結(jié)果進(jìn)行比較,若比較結(jié)果存在沖突,則根據(jù)第一消歧原則進(jìn)行消岐處理。本發(fā)明所述的多詞表達(dá)抽取系統(tǒng)中,所述第一語(yǔ)句抽取單元中采用四個(gè)語(yǔ)句抽取
5機(jī)制,從而所述第一語(yǔ)句抽取單元進(jìn)一步包括分別與各語(yǔ)句抽取機(jī)制對(duì)應(yīng)的習(xí)語(yǔ)識(shí)別模 塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊、以及包括用于各識(shí) 別模塊之間通信的通信模塊;所述習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別 模塊之間經(jīng)由通信模塊針對(duì)同一詞匯的識(shí)別結(jié)果進(jìn)行比較處理。本發(fā)明所述的多詞表達(dá)抽取系統(tǒng)中,所述第二語(yǔ)句抽取單元中采用兩個(gè)語(yǔ)句抽取 機(jī)制,從而所述第二語(yǔ)句抽取單元進(jìn)一步包括分別與各語(yǔ)句抽取機(jī)制對(duì)應(yīng)的等級(jí)識(shí)別模塊 和忽略語(yǔ)識(shí)別模塊、以及包括用于各識(shí)別模塊之間通信的通信模塊;所述等級(jí)識(shí)別模塊和忽略語(yǔ)識(shí)別模塊之間經(jīng)由通信模塊針對(duì)同一詞的識(shí)別結(jié)果 進(jìn)行比較處理。本發(fā)明還提供一種基于多代理機(jī)制的多詞表達(dá)抽取方法,步驟包括步驟一,將接收到的語(yǔ)句進(jìn)行復(fù)制,并且接收到的語(yǔ)句進(jìn)行復(fù)制的數(shù)量與預(yù)定的 語(yǔ)句抽取機(jī)制的數(shù)量對(duì)應(yīng);步驟二,應(yīng)用預(yù)定的語(yǔ)句抽取機(jī)制對(duì)該復(fù)制后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù)預(yù) 定的消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行消歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果;步驟三,將上述輸出的多個(gè)語(yǔ)句抽取結(jié)果進(jìn)行匯總并輸出。本發(fā)明所述的多詞表達(dá)抽取方法的步驟二中,預(yù)定的語(yǔ)句抽取機(jī)制包括習(xí)語(yǔ)識(shí) 別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí)別、動(dòng)詞與小品詞識(shí)別;所述預(yù)定的消岐機(jī)制包括根據(jù)預(yù) 設(shè)的規(guī)則和上下文信息進(jìn)行消岐處理、以及根據(jù)預(yù)設(shè)的沖突判決規(guī)則進(jìn)行消岐處理。本發(fā)明所述的多詞表達(dá)抽取方法的步驟二中,將同一詞按照習(xí)語(yǔ)識(shí)別、復(fù)合名詞 識(shí)另O、動(dòng)詞和名詞識(shí)別、動(dòng)詞和小品詞識(shí)別的抽取結(jié)果進(jìn)行比較,以確定該詞在語(yǔ)句抽取中 是否沖突;對(duì)語(yǔ)句抽取結(jié)果進(jìn)行比較的過(guò)程包括當(dāng)所述習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí)別、或動(dòng)詞與小品詞識(shí)別中任意一 種識(shí)別機(jī)制接收到待抽取語(yǔ)句并進(jìn)行識(shí)別時(shí),同時(shí)將該待抽取語(yǔ)句發(fā)送至其余識(shí)別機(jī)制進(jìn) 行識(shí)別;并將經(jīng)過(guò)上述各識(shí)別機(jī)制識(shí)別過(guò)的抽取結(jié)果進(jìn)行比較。本發(fā)明所述的多詞表達(dá)抽取方法中,所述各識(shí)別機(jī)制識(shí)別過(guò)的抽取結(jié)果以知識(shí)查 詢和處理語(yǔ)言進(jìn)行交互比較。本發(fā)明所述的多詞表達(dá)抽取方法的步驟二中,若語(yǔ)句抽取結(jié)果中字?jǐn)?shù)占待抽取語(yǔ) 句總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了消歧處理,則應(yīng)用預(yù)定的第二語(yǔ)句抽取機(jī)制對(duì)所述復(fù)制 后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù)預(yù)定的第二消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行消 歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果。本發(fā)明所述的多詞表達(dá)抽取方法中,所述第二語(yǔ)句抽取機(jī)制包括將待抽取語(yǔ)句中 的詞匯分成等級(jí)的等級(jí)識(shí)別及將待抽取語(yǔ)句中的可忽略詞匯提取出來(lái)的忽略語(yǔ)識(shí)別;所述第二消歧機(jī)制為若提取出來(lái)的可忽略詞匯為通過(guò)等級(jí)識(shí)別出的低等級(jí)詞 匯,則忽略這些詞匯;若提取出來(lái)的可忽略詞匯不是通過(guò)等級(jí)識(shí)別出的低等級(jí)詞匯,則根據(jù) 預(yù)定的詞匯的等級(jí)和可忽略程度,將這些詞匯進(jìn)行保留或忽略。發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法中,將輸入的語(yǔ)句復(fù)制后 應(yīng)用不同的語(yǔ)句抽取機(jī)制進(jìn)行語(yǔ)句抽取,同時(shí),在抽取過(guò)程中進(jìn)行必要的通信,以消除語(yǔ)句 抽取過(guò)程中各種語(yǔ)句抽取機(jī)制所抽取的結(jié)果之間的沖突,再對(duì)所有的語(yǔ)句抽取結(jié)果進(jìn)行匯總輸出。本發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法中,可根據(jù)不同類型的 多詞表達(dá)語(yǔ)句而使用不同的語(yǔ)句抽取機(jī)制,大大提高了語(yǔ)句抽取的正確率。
圖1為本發(fā)明所述基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本發(fā)明所述基于多代理機(jī)制的多詞表達(dá)抽取方法的流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,以令本領(lǐng)域技術(shù)人員參照說(shuō)明書文 字能夠據(jù)以實(shí)施。本發(fā)明中所述的多代理機(jī)制,即將識(shí)別不同類型語(yǔ)句的機(jī)制加以整合,從而實(shí)現(xiàn) 一次輸出多種多詞表達(dá)結(jié)果的目的。本發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng),如圖1所示,包括了語(yǔ)句輸 入模塊、語(yǔ)句輸出模塊、以及增加設(shè)置的語(yǔ)句復(fù)制模塊、第一語(yǔ)句抽取單元、控制模塊、第二 語(yǔ)句抽取模塊。其中,所述語(yǔ)句輸入模塊用于接收待抽取的語(yǔ)句,該語(yǔ)句輸入模塊可為鍵盤等常 用的數(shù)據(jù)輸入工具。所述語(yǔ)句復(fù)制模塊用于根據(jù)后述語(yǔ)句抽取單元中預(yù)定的語(yǔ)句抽取機(jī)制的數(shù)量將 語(yǔ)句輸入模塊輸入的待抽取語(yǔ)句復(fù)制出對(duì)應(yīng)的數(shù)量的待抽取語(yǔ)句,并將對(duì)應(yīng)數(shù)量的待抽取 語(yǔ)句對(duì)應(yīng)于各語(yǔ)句抽取機(jī)制,分別發(fā)送至語(yǔ)句抽取單元中。本發(fā)明中,所述語(yǔ)句抽取單元預(yù) 置了多種語(yǔ)句抽取機(jī)制,因此,所述語(yǔ)句復(fù)制模塊根據(jù)該預(yù)置的語(yǔ)句抽取機(jī)制的數(shù)量來(lái)將 待抽取的語(yǔ)句復(fù)制為對(duì)應(yīng)的數(shù)量,再將這些復(fù)制后的待抽取語(yǔ)句發(fā)送至后續(xù)的語(yǔ)句抽取單兀。所述第一語(yǔ)句抽取單元用于根據(jù)預(yù)定的語(yǔ)句抽取機(jī)制對(duì)前述輸入的待抽取語(yǔ)句 進(jìn)行語(yǔ)句抽取。本發(fā)明中,所述預(yù)定的語(yǔ)句抽取機(jī)制包括多個(gè)不同的語(yǔ)句抽取機(jī)制,分別 由不同的模塊來(lái)實(shí)現(xiàn),例如,所述語(yǔ)句抽取單元可具體包括習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模 塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊,上述四種模塊對(duì)應(yīng)了四種不同的語(yǔ)句抽 取機(jī)制。與之對(duì)應(yīng)的,當(dāng)語(yǔ)句抽取單元中包含具有上述四種不同的語(yǔ)句抽取機(jī)制的模塊時(shí), 所述語(yǔ)句復(fù)制模塊將輸入的待抽取語(yǔ)句復(fù)制為四個(gè)待抽取語(yǔ)句。所述語(yǔ)句抽取單元內(nèi)具備多種語(yǔ)句抽取機(jī)制的模塊對(duì)輸入的待抽取語(yǔ)句進(jìn)行語(yǔ) 句抽取,在實(shí)際的語(yǔ)句抽取過(guò)程中,針對(duì)同一詞的抽取結(jié)果難免會(huì)出現(xiàn)差異,即對(duì)同一詞采 用多種不同的語(yǔ)句抽取機(jī)制而得到的抽取結(jié)果存在沖突,因此,有必要消除該沖突以獲得 更為準(zhǔn)確的輸出。于是,本發(fā)明中,還在語(yǔ)句抽取單元中預(yù)置了第一消歧機(jī)制,使得語(yǔ)句抽 取單元可根據(jù)預(yù)定的第一消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行第一消歧處理,并最終輸 出多個(gè)語(yǔ)句的抽取結(jié)果。一般來(lái)說(shuō),所述語(yǔ)句抽取單元針對(duì)多個(gè)語(yǔ)句抽取中的同一詞的抽 取結(jié)果進(jìn)行比較,若比較結(jié)果存在沖突則進(jìn)行第一消岐處理。所述第一消歧處理的機(jī)制可 包括根據(jù)預(yù)設(shè)的規(guī)則和上下文信息進(jìn)行消岐處理、以及根據(jù)預(yù)設(shè)的沖突判決規(guī)則進(jìn)行第一 消岐處理。本發(fā)明中,為確定多個(gè)語(yǔ)句抽取中的沖突,還在語(yǔ)句抽取單元中設(shè)置了通信模塊,
7所述習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊之間 經(jīng)由通信模塊針對(duì)同一詞的識(shí)別結(jié)果進(jìn)行比較處理。即所述習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別 模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊構(gòu)成聯(lián)盟,當(dāng)其中任意一個(gè)模塊接收到 輸入的語(yǔ)句后,對(duì)其中的詞進(jìn)行識(shí)別并將該詞的識(shí)別結(jié)果發(fā)送至聯(lián)盟內(nèi)其他模塊,以便與 該聯(lián)盟內(nèi)的其他模塊針對(duì)該同一詞的識(shí)別結(jié)果進(jìn)行比較,藉此來(lái)判斷針對(duì)同一詞的識(shí)別結(jié) 果是否存在沖突。在上述各模塊之間交換詞的識(shí)別結(jié)果過(guò)程中,所述通信模塊即擔(dān)當(dāng)了中 間媒介作用°該通信模塊可具體使用KQML(Knowledge Query and Manipulation Language, 知識(shí)查詢和處理語(yǔ)言)作為通信語(yǔ)言。同時(shí)需要說(shuō)明的是,上述習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模 塊、動(dòng)詞和小品詞識(shí)別模塊構(gòu)成的聯(lián)盟內(nèi),各模塊均具備身份標(biāo)識(shí)信息、所屬聯(lián)盟信息、優(yōu) 先級(jí)信息、以及功能信息,而各模塊之間的溝通尋址是通過(guò)身份標(biāo)識(shí)信息實(shí)現(xiàn)的,即任意模 塊保存聯(lián)盟內(nèi)其余模塊的身份標(biāo)識(shí)信息,以待交換詞的識(shí)別結(jié)果時(shí)使用。所述控制模塊,用于將上述第一語(yǔ)句抽取單元輸出的第一消歧后的語(yǔ)句抽取結(jié)果 進(jìn)行匯總,匯總后,如果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%或 以下的詞匯進(jìn)行了第一消歧處理,則將最終語(yǔ)句抽取結(jié)果通過(guò)語(yǔ)句輸出模塊進(jìn)行輸出;如 果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了第 一消歧處理,則控制模塊控制第二語(yǔ)句抽取單元進(jìn)行待抽取語(yǔ)句的詞語(yǔ)抽取。所述第二語(yǔ)句抽取單元,用于根據(jù)其中預(yù)定的兩個(gè)語(yǔ)句抽取機(jī)制對(duì)相應(yīng)接收到的 各待抽取語(yǔ)句進(jìn)行詞語(yǔ)抽取;同時(shí),根據(jù)預(yù)定的第二消歧機(jī)制對(duì)通過(guò)兩個(gè)語(yǔ)句抽取機(jī)制進(jìn) 行的語(yǔ)句抽取中的沖突進(jìn)行第二消歧處理,并通過(guò)語(yǔ)句輸出模塊輸出第二消歧后的語(yǔ)句抽 取結(jié)果。其中,所述第二語(yǔ)句抽取單元進(jìn)一步包括分別與各語(yǔ)句抽取機(jī)制對(duì)應(yīng)的等級(jí)識(shí)別 模塊和忽略語(yǔ)識(shí)別模塊、以及包括用于各識(shí)別模塊之間通信的通信模塊;所述等級(jí)識(shí)別模 塊和忽略語(yǔ)識(shí)別模塊之間經(jīng)由通信模塊針對(duì)同一詞的識(shí)別結(jié)果進(jìn)行比較處理。如果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上的詞匯 均進(jìn)行了第一消歧處理,則意味著第一消歧處理失敗,轉(zhuǎn)向第二消歧處理。第二消歧機(jī)制 是根據(jù)本抽取系統(tǒng)在不斷被用戶使用的過(guò)程中,將用戶的人工選擇結(jié)果通過(guò)概率統(tǒng)計(jì)得出 的,或者是通過(guò)人工有意識(shí)的輸入得出的。具體而言,第二消歧機(jī)制是通過(guò)等級(jí)識(shí)別模塊將 待抽取語(yǔ)句中的詞匯分成等級(jí),通過(guò)忽略語(yǔ)識(shí)別模塊將待抽取語(yǔ)句中的可忽略詞匯提取出 來(lái),如果提取出來(lái)的可忽略詞匯正好是通過(guò)等級(jí)識(shí)別模塊識(shí)別出的低等級(jí)詞匯,則通過(guò)第 二消歧機(jī)制忽略這些詞匯,最終輸出忽略了這些詞匯的語(yǔ)句抽取結(jié)果;如果提取出來(lái)的可 忽略詞匯不是通過(guò)等級(jí)識(shí)別模塊識(shí)別出的低等級(jí)詞匯,則通過(guò)第二消歧機(jī)制根據(jù)這些詞匯 的等級(jí)和可忽略程度進(jìn)行綜合評(píng)定,最終對(duì)這些詞匯進(jìn)行或保留或忽略的處理,最終輸出 處理后的語(yǔ)句抽取結(jié)果。例如,待抽取語(yǔ)句中包含30個(gè)漢字,則通過(guò)上述四種語(yǔ)句抽取機(jī)制進(jìn)行抽取,之 后首先通過(guò)第一消歧原則進(jìn)行第一消歧處理。對(duì)第一消歧結(jié)果進(jìn)行處理后,如果發(fā)現(xiàn)其中 的8個(gè)詞匯(假定每個(gè)詞匯中包含兩個(gè)漢字)在這四種語(yǔ)句抽取機(jī)制下的抽取結(jié)果存在沖 突,則通過(guò)第二消歧原則對(duì)通過(guò)四種語(yǔ)句機(jī)制得到的抽取結(jié)果重新進(jìn)行第二消歧,并把第 二消歧結(jié)果做為最終處理結(jié)果。第二消歧原則是比第一消歧原則更為寬泛的原則,當(dāng)通過(guò)第一消歧的結(jié)果導(dǎo)致字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上詞匯均被消歧后,放棄第一消歧原則而采用第二消歧原 則是為了確保抽取結(jié)果不要過(guò)于狹窄和局限,而擴(kuò)大抽取范圍,以免漏檢。所述語(yǔ)句輸出模塊用于輸出語(yǔ)句抽取結(jié)果。該語(yǔ)句輸出模塊可為顯示器等信息輸 出設(shè)備。本發(fā)明還提供了一種基于多代理機(jī)制的多詞表達(dá)抽取方法,如圖2所示,包括如 下步驟步驟101,將接收到的語(yǔ)句進(jìn)行復(fù)制,并且接收到的語(yǔ)句進(jìn)行復(fù)制的數(shù)量與預(yù)定的 語(yǔ)句抽取機(jī)制的數(shù)量對(duì)應(yīng)。本步驟中,所述接收到的語(yǔ)句被復(fù)制為多個(gè),具體的復(fù)制數(shù)量與后述預(yù)定的語(yǔ)句 抽取機(jī)制的數(shù)量相對(duì)應(yīng)。即預(yù)定的語(yǔ)句抽取機(jī)制的數(shù)量為幾個(gè),就將接收到的語(yǔ)句復(fù)制為 幾個(gè)。步驟102,應(yīng)用預(yù)定的語(yǔ)句抽取機(jī)制對(duì)該復(fù)制后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù) 預(yù)定的消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行消歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果。本步驟中,所述預(yù)定的語(yǔ)句抽取機(jī)制包括習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí) 別、動(dòng)詞與小品詞識(shí)別。根據(jù)該預(yù)定的語(yǔ)句抽取機(jī)制的數(shù)量為四個(gè),步驟101中接收到的語(yǔ) 句也被復(fù)制為四個(gè),該四個(gè)復(fù)制后的語(yǔ)句被分別應(yīng)用習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞 識(shí)別、動(dòng)詞與小品詞識(shí)別機(jī)制進(jìn)行語(yǔ)句抽取。在實(shí)際的語(yǔ)句抽取過(guò)程中,針對(duì)同一詞的抽取結(jié)果難免會(huì)出現(xiàn)差異,即對(duì)同一詞 采用多種不同的語(yǔ)句抽取機(jī)制而得到的抽取結(jié)果存在沖突,因此,有必要消除該沖突以獲 得更為準(zhǔn)確的輸出。于是,本步驟中,還進(jìn)一步預(yù)置了第一消歧機(jī)制,使得可根據(jù)預(yù)定的第 一消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行第一消歧處理,并最終輸出多個(gè)語(yǔ)句的抽取結(jié)^ ο具體而言,將同一詞按照習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞和名詞識(shí)別、動(dòng)詞和小品 詞識(shí)別的抽取結(jié)果進(jìn)行比較,以確定該詞在語(yǔ)句抽取中是否沖突。該對(duì)語(yǔ)句抽取結(jié)果進(jìn)行 比較的過(guò)程包括當(dāng)所述習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí)別、或動(dòng)詞與小品詞識(shí)別 中任意一種識(shí)別機(jī)制接收到待抽取語(yǔ)句并進(jìn)行識(shí)別時(shí),同時(shí)將該待抽取語(yǔ)句發(fā)送至其余識(shí) 別機(jī)制進(jìn)行識(shí)別;并將經(jīng)過(guò)上述各識(shí)別機(jī)制識(shí)別過(guò)的抽取結(jié)果進(jìn)行比較。所述各識(shí)別機(jī)制 識(shí)別過(guò)的抽取結(jié)果可通過(guò)知識(shí)查詢和處理語(yǔ)言進(jìn)行交互比較。若比較結(jié)果存在沖突則進(jìn)行 第一消岐處理,所述預(yù)定的第一消歧處理的機(jī)制可包括根據(jù)預(yù)設(shè)的規(guī)則和上下文信息進(jìn)行 第一消岐處理、以及根據(jù)預(yù)設(shè)的沖突判決規(guī)則進(jìn)行第一消岐處理。本步驟中,還可進(jìn)一步包括第二消歧機(jī)制。如果第一消歧后的語(yǔ)句抽取結(jié)果中,字 數(shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了第一消歧處理,則意味著第一消歧處理 失敗,轉(zhuǎn)向第二消歧處理。第二消歧機(jī)制是根據(jù)本抽取系統(tǒng)在不斷被用戶使用的過(guò)程中,將 用戶的人工選擇結(jié)果通過(guò)概率統(tǒng)計(jì)得出的,或者是通過(guò)人工有意識(shí)的輸入得出的。具體而言,第二消歧機(jī)制是通過(guò)將待抽取語(yǔ)句中的詞匯分成等級(jí),以及,通過(guò)將待 抽取語(yǔ)句中的可忽略詞匯提取出來(lái)。如果提取出來(lái)的可忽略詞匯正好是通過(guò)等級(jí)識(shí)別出的 低等級(jí)詞匯,則通過(guò)第二消歧機(jī)制忽略這些詞匯,最終輸出忽略了這些詞匯的語(yǔ)句抽取結(jié) 果;如果提取出來(lái)的可忽略詞匯不是通過(guò)等級(jí)識(shí)別出的低等級(jí)詞匯,則通過(guò)第二消歧機(jī)制 根據(jù)這些詞匯的等級(jí)和可忽略程度進(jìn)行綜合評(píng)定,最終對(duì)這些詞匯進(jìn)行或保留或忽略的處
9理,最終輸出處理后的語(yǔ)句抽取結(jié)果。例如,待抽取語(yǔ)句中包含30個(gè)漢字,則通過(guò)上述四種語(yǔ)句抽取機(jī)制進(jìn)行抽取,之 后首先通過(guò)第一消歧原則進(jìn)行第一消歧處理。對(duì)第一消歧結(jié)果進(jìn)行處理后,如果發(fā)現(xiàn)其中 的8個(gè)詞匯(假定每個(gè)詞匯中包含兩個(gè)漢字)在這四種語(yǔ)句抽取機(jī)制下的抽取結(jié)果存在沖 突,則通過(guò)第二消歧原則對(duì)通過(guò)四種語(yǔ)句機(jī)制得到的抽取結(jié)果重新進(jìn)行第二消歧,并把第 二消歧結(jié)果做為最終處理結(jié)果。第二消歧原則是比第一消歧原則更為寬泛的原則,當(dāng)通過(guò)第一消歧的結(jié)果導(dǎo)致字 數(shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上詞匯均被消歧后,放棄第一消歧原則而采用第二消歧原 則是為了確保抽取結(jié)果不要過(guò)于狹窄和局限,而擴(kuò)大抽取范圍,以免漏檢。步驟103,將上述輸出的多個(gè)語(yǔ)句抽取結(jié)果進(jìn)行匯總并輸出。仍以前述四種不同的語(yǔ)句抽取機(jī)制為例,當(dāng)該四種語(yǔ)句抽取機(jī)制對(duì)同一個(gè)詞的抽 取結(jié)果不一致時(shí),即根據(jù)各個(gè)抽取機(jī)制的分類置信度,指導(dǎo)各個(gè)抽取機(jī)制彼此交換信息共 同進(jìn)行決策,當(dāng)各個(gè)抽取機(jī)制達(dá)到一致決策時(shí),即獲得了最佳的語(yǔ)句解綜合結(jié)果。發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法中,將輸入的語(yǔ)句復(fù)制后 應(yīng)用不同的語(yǔ)句抽取機(jī)制進(jìn)行語(yǔ)句抽取,同時(shí),在抽取過(guò)程中進(jìn)行必要的通信,以消除語(yǔ)句 抽取過(guò)程中各種語(yǔ)句抽取機(jī)制所抽取的結(jié)果之間的沖突,再對(duì)所有的語(yǔ)句抽取結(jié)果進(jìn)行匯 總輸出。本發(fā)明所述的基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法中,可根據(jù)不同類型的 多詞表達(dá)語(yǔ)句而使用不同的語(yǔ)句抽取機(jī)制,大大提高了語(yǔ)句抽取的正確率。盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說(shuō)明書和實(shí)施方式中所列 運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地 實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細(xì)節(jié)和這里示出與描述的圖例。
權(quán)利要求
一種基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng),包括輸入待抽取語(yǔ)句的語(yǔ)句輸入模塊和輸出語(yǔ)句抽取結(jié)果的語(yǔ)句輸出模塊,其特征在于,還包括語(yǔ)句復(fù)制模塊,用于根據(jù)語(yǔ)句抽取單元中預(yù)定的語(yǔ)句抽取機(jī)制的數(shù)量將語(yǔ)句輸入模塊輸入的待抽取語(yǔ)句復(fù)制出對(duì)應(yīng)數(shù)量的待抽取語(yǔ)句,并將對(duì)應(yīng)數(shù)量的待抽取語(yǔ)句對(duì)應(yīng)于各語(yǔ)句抽取機(jī)制,分別發(fā)送至語(yǔ)句抽取單元中;第一語(yǔ)句抽取單元,用于根據(jù)其中預(yù)定的多個(gè)語(yǔ)句抽取機(jī)制對(duì)相應(yīng)接收到的各待抽取語(yǔ)句進(jìn)行詞語(yǔ)抽??;同時(shí),根據(jù)預(yù)定的第一消歧機(jī)制對(duì)通過(guò)多個(gè)語(yǔ)句抽取機(jī)制進(jìn)行的語(yǔ)句抽取中的沖突進(jìn)行第一消歧處理并輸出第一消歧后的語(yǔ)句抽取結(jié)果;控制模塊,用于將第一語(yǔ)句抽取單元輸出的第一消歧后的語(yǔ)句抽取結(jié)果進(jìn)行匯總,匯總后,如果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%或以下的詞匯進(jìn)行了第一消歧處理,則將最終語(yǔ)句抽取結(jié)果通過(guò)語(yǔ)句輸出模塊進(jìn)行輸出;如果第一消歧后的語(yǔ)句抽取結(jié)果中,字?jǐn)?shù)占待抽取語(yǔ)句中總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了第一消歧處理,則控制模塊控制第二語(yǔ)句抽取單元進(jìn)行待抽取語(yǔ)句的詞語(yǔ)抽?。坏诙Z(yǔ)句抽取單元,用于根據(jù)其中預(yù)定的兩個(gè)語(yǔ)句抽取機(jī)制對(duì)相應(yīng)接收到的各待抽取語(yǔ)句進(jìn)行詞語(yǔ)抽?。煌瑫r(shí),根據(jù)預(yù)定的第二消歧機(jī)制對(duì)通過(guò)兩個(gè)語(yǔ)句抽取機(jī)制進(jìn)行的語(yǔ)句抽取中的沖突進(jìn)行第二消歧處理,并通過(guò)語(yǔ)句輸出模塊輸出第二消歧后的語(yǔ)句抽取結(jié)果。
2.如權(quán)利要求1所述的多詞表達(dá)抽取系統(tǒng),其特征在于,所述第一語(yǔ)句抽取單元針對(duì) 多個(gè)語(yǔ)句抽取中的同一詞匯的抽取結(jié)果進(jìn)行比較,若比較結(jié)果存在沖突,則根據(jù)第一消歧 原則進(jìn)行消岐處理。
3.如權(quán)利要求2所述的多詞表達(dá)抽取系統(tǒng),其特征在于,所述第一語(yǔ)句抽取單元中采 用四個(gè)語(yǔ)句抽取機(jī)制,從而所述第一語(yǔ)句抽取單元進(jìn)一步包括分別與各語(yǔ)句抽取機(jī)制對(duì)應(yīng) 的習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊、以及 包括用于各識(shí)別模塊之間通信的通信模塊;所述習(xí)語(yǔ)識(shí)別模塊、復(fù)合名詞識(shí)別模塊、動(dòng)詞和名詞識(shí)別模塊、動(dòng)詞和小品詞識(shí)別模塊 之間經(jīng)由通信模塊針對(duì)同一詞匯的識(shí)別結(jié)果進(jìn)行比較處理。
4.如權(quán)利要求1所述的多詞表達(dá)抽取系統(tǒng),其特征在于,所述第二語(yǔ)句抽取單元中采 用兩個(gè)語(yǔ)句抽取機(jī)制,從而所述第二語(yǔ)句抽取單元進(jìn)一步包括分別與各語(yǔ)句抽取機(jī)制對(duì)應(yīng) 的等級(jí)識(shí)別模塊和忽略語(yǔ)識(shí)別模塊、以及包括用于各識(shí)別模塊之間通信的通信模塊;所述等級(jí)識(shí)別模塊和忽略語(yǔ)識(shí)別模塊之間經(jīng)由通信模塊針對(duì)同一詞的識(shí)別結(jié)果進(jìn)行 比較處理。
5.一種基于多代理機(jī)制的多詞表達(dá)抽取方法,其特征在于,步驟包括步驟一,將接收到的語(yǔ)句進(jìn)行復(fù)制,并且接收到的語(yǔ)句進(jìn)行復(fù)制的數(shù)量與預(yù)定的語(yǔ)句 抽取機(jī)制的數(shù)量對(duì)應(yīng);步驟二,應(yīng)用預(yù)定的語(yǔ)句抽取機(jī)制對(duì)該復(fù)制后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù)預(yù)定的 消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行消歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果;步驟三,將上述輸出的多個(gè)語(yǔ)句抽取結(jié)果進(jìn)行匯總并輸出。
6.如權(quán)利要求5所述的多詞表達(dá)抽取方法,其特征在于,所述步驟二中,預(yù)定的語(yǔ)句抽 取機(jī)制包括習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí)別、動(dòng)詞與小品詞識(shí)別;所述預(yù)定的消 岐機(jī)制包括根據(jù)預(yù)設(shè)的規(guī)則和上下文信息進(jìn)行消岐處理、以及根據(jù)預(yù)設(shè)的沖突判決規(guī)則進(jìn)行消岐處理。
7.如權(quán)利要求5所述的多詞表達(dá)抽取方法,其特征在于,所述步驟二中,將同一詞按照 習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞和名詞識(shí)別、動(dòng)詞和小品詞識(shí)別的抽取結(jié)果進(jìn)行比較,以確 定該詞在語(yǔ)句抽取中是否沖突;所述對(duì)語(yǔ)句抽取結(jié)果進(jìn)行比較的過(guò)程包括當(dāng)所述習(xí)語(yǔ)識(shí)別、復(fù)合名詞識(shí)別、動(dòng)詞與名詞識(shí)別、或動(dòng)詞與小品詞識(shí)別中任意一種識(shí) 別機(jī)制接收到待抽取語(yǔ)句并進(jìn)行識(shí)別時(shí),同時(shí)將該待抽取語(yǔ)句發(fā)送至其余識(shí)別機(jī)制進(jìn)行識(shí) 別;并將經(jīng)過(guò)上述各識(shí)別機(jī)制識(shí)別過(guò)的抽取結(jié)果進(jìn)行比較。
8.如權(quán)利要求7所述的多詞表達(dá)抽取方法,其特征在于,所述各識(shí)別機(jī)制識(shí)別過(guò)的抽 取結(jié)果以知識(shí)查詢和處理語(yǔ)言進(jìn)行交互比較。
9.如權(quán)利要求5所述的多詞表達(dá)抽取方法,其特征在于,所述步驟二中,若語(yǔ)句抽取結(jié) 果中字?jǐn)?shù)占待抽取語(yǔ)句總字?jǐn)?shù)70%以上的詞匯均進(jìn)行了消歧處理,則應(yīng)用預(yù)定的第二語(yǔ)句 抽取機(jī)制對(duì)所述復(fù)制后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù)預(yù)定的第二消歧機(jī)制對(duì)多個(gè)語(yǔ)句 抽取中的沖突進(jìn)行消歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果。
10.如權(quán)利要求9所述的多詞表達(dá)抽取方法,其特征在于,所述第二語(yǔ)句抽取機(jī)制包括 將待抽取語(yǔ)句中的詞匯分成等級(jí)的等級(jí)識(shí)別及將待抽取語(yǔ)句中的可忽略詞匯提取出來(lái)的 忽略語(yǔ)識(shí)別;所述第二消歧機(jī)制為若提取出來(lái)的可忽略詞匯為通過(guò)等級(jí)識(shí)別出的低等級(jí)詞匯,則 忽略這些詞匯;若提取出來(lái)的可忽略詞匯不是通過(guò)等級(jí)識(shí)別出的低等級(jí)詞匯,則根據(jù)預(yù)定 的詞匯的等級(jí)和可忽略程度,將這些詞匯進(jìn)行保留或忽略。
全文摘要
本發(fā)明公開了一種基于多代理機(jī)制的多詞表達(dá)抽取系統(tǒng)及方法,所述系統(tǒng)包括語(yǔ)句輸入模塊、語(yǔ)句輸出模塊,以及語(yǔ)句復(fù)制模塊、語(yǔ)句抽取單元、語(yǔ)句解綜合模塊。所述方法包括如下步驟將接收到的語(yǔ)句復(fù)制;應(yīng)用預(yù)定的語(yǔ)句抽取機(jī)制對(duì)該復(fù)制后的語(yǔ)句進(jìn)行語(yǔ)句抽取,以及,根據(jù)預(yù)定的消歧機(jī)制對(duì)多個(gè)語(yǔ)句抽取中的沖突進(jìn)行消歧處理并輸出多個(gè)語(yǔ)句抽取結(jié)果;將上述輸出的多個(gè)語(yǔ)句抽取結(jié)果進(jìn)行匯總并輸出。
文檔編號(hào)G06F17/27GK101908041SQ20101016436
公開日2010年12月8日 申請(qǐng)日期2010年5月6日 優(yōu)先權(quán)日2010年5月6日
發(fā)明者梁穎紅 申請(qǐng)人:江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心