国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于受限的語(yǔ)義依存分析的文本推理方法

      文檔序號(hào):6436872閱讀:204來(lái)源:國(guó)知局
      專利名稱:基于受限的語(yǔ)義依存分析的文本推理方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,特別涉及一種基于受限的語(yǔ)義依存分析的文本推理方法。
      背景技術(shù)
      近幾年,文本推理的研究在自然語(yǔ)言處理領(lǐng)域受到了廣泛關(guān)注,文本推理已從最早的純粹理論探討轉(zhuǎn)換為較大規(guī)模的理論研究團(tuán)體和經(jīng)驗(yàn)性平臺(tái)建設(shè)。2005-2007年,歐共體研究平臺(tái)PASCAL組織了三屆文本推理競(jìng)賽RTE (Recognizing Textual Entailment), 現(xiàn)由 NIST(National Institute of Standards and Technology,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院)組織接著舉辦文本推理競(jìng)賽,到目前為止,文本推理競(jìng)賽RTE系列評(píng)測(cè)競(jìng)賽已經(jīng)舉辦6 屆。計(jì)算語(yǔ) S 學(xué)十辦會(huì) ACL (The Association for Computational Linguistics)還專門(mén)組織了幾次研討會(huì),探討文本推理相關(guān)工作及其應(yīng)用。另外,日本國(guó)家科學(xué)信息系統(tǒng)中心信息檢索系統(tǒng)測(cè)試集會(huì)議(NACSIS Test Collections for IR,簡(jiǎn)稱為NT(HR)也開(kāi)始了文本推理的組織任務(wù)。從對(duì)文本推理研究的現(xiàn)狀可以看到,目前文本推理主要關(guān)注文本蘊(yùn)涵,而忽略文本預(yù)設(shè)和隱含。對(duì)于一般的描述性語(yǔ)料,如新聞?wù)Z料,可能主要涉及文本蘊(yùn)涵,但在話語(yǔ)性 (discourse)或?qū)υ捫?dialogue)語(yǔ)料中,一般會(huì)有大量的文本預(yù)設(shè)和隱含推理,所以現(xiàn)有僅關(guān)注文本蘊(yùn)涵的文本推理方法并不適用于話語(yǔ)性和對(duì)話性語(yǔ)料的推理。下面例1)給出了兩個(gè)學(xué)生A和B間的一段對(duì)話。例1) A-I 你怎么中午又吃一次麥當(dāng)勞? B-I 我早上吃過(guò)一次。(預(yù)設(shè))
      A-2:很貴吧?(隱含) B-2:我有優(yōu)惠卷。(蘊(yùn)涵)
      1)中,A第一次問(wèn)B的時(shí)候(A-I)利用了一個(gè)預(yù)設(shè)(B-1):B已經(jīng)吃了一次麥當(dāng)勞。B在 B-I中證實(shí)了這個(gè)預(yù)設(shè)。一般來(lái)說(shuō),連續(xù)兩次吃麥當(dāng)勞對(duì)于一個(gè)學(xué)生來(lái)說(shuō)比較貴,這是一種隱含知識(shí),因此A在A-2中基于這種隱含知識(shí),再次詢問(wèn)B。B在回答中,利用了“有優(yōu)惠券” 和“價(jià)格不貴”間的蘊(yùn)涵,回答A,并間接否定了 A-2所利用的隱含推理。從此例可看出,對(duì)話語(yǔ)的正確理解需要同時(shí)處理蘊(yùn)涵、預(yù)設(shè)和隱含這三種推理形式。目前,文本蘊(yùn)涵推理的策略主要有以下四種 一、分類策略
      該策略下,文本蘊(yùn)涵形式化為蘊(yùn)涵和非蘊(yùn)涵的分類問(wèn)題。根據(jù)已標(biāo)注的蘊(yùn)涵和非蘊(yùn)涵訓(xùn)練實(shí)例,學(xué)習(xí)其中的詞匯特征并建立分類器,其中大部分分類器都是基于支持向量機(jī)SVM (Support Vector Machine),而用于學(xué)習(xí)的特征主要是基于同現(xiàn)頻率或一階邏輯的詞匯句法和語(yǔ)義特征[1]。
      二、轉(zhuǎn)換策略
      該策略下,語(yǔ)段τ和假設(shè)H的推理關(guān)系取決于T的句法表示是否可以基于蘊(yùn)涵規(guī)則 (entailment rules)經(jīng)過(guò)若干轉(zhuǎn)換(transformation)而得到假設(shè)H的句法表示,所用算法包括基于樹(shù)編輯距離、保持語(yǔ)義等價(jià)性的轉(zhuǎn)換和概率模型等[μ]。三、深度語(yǔ)義分析和推理
      該策略主要采用傳統(tǒng)的邏輯推理、自然邏輯、本體推理或語(yǔ)義特征等[6]。四、性能驅(qū)動(dòng)策略
      這種策略主要是針對(duì)一些特定的語(yǔ)言形式,如詞匯相似性或矛盾(contradiction),設(shè)計(jì)正確性驅(qū)動(dòng)(precision-oriented)的模塊,利用投票機(jī)制結(jié)合這些模塊并輔以針對(duì)召回率(recall-oriented)的處理機(jī)制,該策略的關(guān)鍵仍是蘊(yùn)涵規(guī)則的自動(dòng)獲取[7]。影響文本推理性能的主要原因如下
      第一,就分類策略而言,文本推理的蘊(yùn)涵和非蘊(yùn)涵兩個(gè)類都比較龐雜,實(shí)例間的相似性難以保證,它們的區(qū)別性特征就不容易確定,所以據(jù)此建立的分類器性能不太理想;就深度語(yǔ)義分析和推理策略而言,推理知識(shí)的獲取是其主要瓶頸,沒(méi)有足夠的推理知識(shí)支撐,推理過(guò)程的性能就難以保證。第二,基于蘊(yùn)涵規(guī)則的轉(zhuǎn)換策略是目前文本推理的主要策略,深度語(yǔ)義分析和推理策略及性能驅(qū)動(dòng)策略的核心也是蘊(yùn)涵規(guī)則的自動(dòng)發(fā)現(xiàn),但目前蘊(yùn)涵規(guī)則自動(dòng)發(fā)現(xiàn)的總體性能有待提高。蘊(yùn)涵規(guī)則的自動(dòng)獲取一般分兩個(gè)步驟命題模板抽取和規(guī)則獲取,例如對(duì) 1) “魯迅是《狂人日記》的作者?!焙?) “魯迅寫(xiě)了《吶喊》、《狂人日記》等有影響的著作?!?, 其中2)蘊(yùn)涵1)。要獲取這種蘊(yùn)涵關(guān)系首先需要對(duì)它們進(jìn)行依存分析,并分別抽取其中的模板“X是Y的作者”和“X寫(xiě)Y”,然后通過(guò)詞匯相似性或分布分析確定其蘊(yùn)涵關(guān)系。第三,全局因素,如指代消解一般作為判斷蘊(yùn)涵關(guān)系的前提,其錯(cuò)誤可能會(huì)在后續(xù)的操作中發(fā)生擴(kuò)散[8_1(1]。目前文本推理系統(tǒng)的性能與各種應(yīng)用系統(tǒng)的要求尚有較大距離。根據(jù)歷屆文本蘊(yùn)涵識(shí)別RTE (Recognizing Textual Entailment)的分析報(bào)告,RTEl共有17個(gè)提交系統(tǒng), 準(zhǔn)確率介于50%和60%之間;RTE2有23個(gè)提交系統(tǒng),準(zhǔn)確率介于49%和80%之間,但只有個(gè)別系統(tǒng)接近80% ; RTE3有沈個(gè)提交系統(tǒng),準(zhǔn)確率介于45%和74%之間;RTE5和RTE6中大部分提交系統(tǒng)的準(zhǔn)確率都低于75%??梢?jiàn)就系統(tǒng)準(zhǔn)確率而言仍有較大改進(jìn)空間。本文涉及的相關(guān)文獻(xiàn)Luisa Bentivoglij Ido Daganj Hoa Trang Dang, Danilo Giampiccolo and Bernardo Magnini· 2010. The Fifth PASCAL Recognizing Textual Entailment Challenge. In Proceedings of The Fifth PASCAL Recognizing Textual Entailment Challenge, Gaithersburgj MAj USA.Roy Bar-Haimj Jonathan Berant and Ido Dagan. 2009. A Compact Forest for Scalable Inference over Entailment and Paraphrase Rules. In Proceedings of EMNLP2009, Singapore.Milen Kouylekovj Bernardo Magnini. 2005. Recognizing Textual Entailment with Tree Edit Distance Algorithm. In Proceedings of the 1st RTE Challenge.Jesus Herreraj Anselmo Penas and Felisa Verdejo. 2006. Techniques forRecognizing Textual Entailment and Semantic Equivalence. In Postproceedings of the XI conference of the Spanish Association for Artificial Intelligence. Spain.Oren Glickmanj Ido Dagan and Moshe Koppe1. 2005. A Probabilistic Lexical Approach to Textual Entailment· In Proceedings of the 19th international joint conference on Artificial intelligence, Trentoj Italy.Johan Bos and Katja Markert· 2005. Pecognising Textual Entailment with Logical Inference. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, B. C., Canada.D. G. Bobrowj C. Condoravdi,R. Crouch, V. de Paivaj L Karttunenj T. H. King, R. Nairn, L Price and A. zaenen. 2007. Precision-focused Textual Inference. In Proceedings of the ACL—PASCAL Workshop on Textual Entailment and Paraphrasing.Ido Daganj Bill Dolanj Bernardo Magnini and Dan Textual Entailment: Rational, Evaluation and Approaches. Engineering 15(4).Oscar Ferrandezj Rafael Munoz Tero1, Rafael Martinez-Barco and Manuel Palomar. 2006. Deep vs. Shallow Applied to Textual Entailment Recognition. Advances in Processing 4319/2006: 225-236.Andrew Hickl and Jeremy Bensley. 2007. A Discourse Commitment-based Framework for Recognizing Textual Entailment. In Proceedings of the ACL—PASCAL Workshop on Textual Entailment and Paraphrasing。

      發(fā)明內(nèi)容
      針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明將文本推理的判斷形式化為一個(gè)受限的語(yǔ)義依存分析問(wèn)題,并將文本推理類型從蘊(yùn)涵擴(kuò)展至預(yù)設(shè)和隱含,提出了一種綜合了蘊(yùn)涵、預(yù)設(shè)和隱含三種文本推理類型的、基于受限的語(yǔ)義依存分析的文本推理方法,該方法適用于處理較為復(fù)雜的話語(yǔ)性和對(duì)話性語(yǔ)料的推理。為了解決上述技術(shù)問(wèn)題,本發(fā)明采用如下的技術(shù)方案 一種基于受限的語(yǔ)義依存分析的文本推理方法,包括以下步驟
      步驟一、根據(jù)語(yǔ)義依存的表示機(jī)制,建立一個(gè)漢語(yǔ)文本推理標(biāo)注資源,其中,一個(gè)文本推理標(biāo)注實(shí)例包含一個(gè)語(yǔ)段Λ —個(gè)假設(shè)//、假設(shè)//的語(yǔ)義依存圖及推理類型;
      步驟二、在步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源的基礎(chǔ)上,在新輸入的語(yǔ)段Γ的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,從而判斷語(yǔ)段r是否能推理出假設(shè)
      步驟三、對(duì)步驟二的分析過(guò)程和判斷結(jié)果進(jìn)行評(píng)估、分析和概括,并利用反饋改善分析過(guò)程的性能。步驟二具體為以步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源為基礎(chǔ),在新輸入的語(yǔ)
      Roth. Recognizing Natural Language
      Munozj Patricio Semantic Analysis Natural Language
      6段r的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,得到假設(shè)//的語(yǔ)義依存圖,如果假設(shè)// 的語(yǔ)義依存圖存在的概率大于預(yù)設(shè)值々,則語(yǔ)段r可推理出假設(shè)//,否則無(wú)法推理出假設(shè)//, 其中,δ根據(jù)實(shí)驗(yàn)結(jié)果設(shè)定。上述假設(shè)//的語(yǔ)義依存圖的獲得,包括以下步驟
      1)無(wú)向樹(shù)分析,該步驟進(jìn)一步包括以下子步驟
      1.1將無(wú)向樹(shù)分析形式化為r =,其中,表示假設(shè)//的最大生成
      樹(shù),^Th為假設(shè)//的生成樹(shù)集合,θ為特征的權(quán)重向量, 為假設(shè)//的生成樹(shù)集合中的元素, /(Hi)為描寫(xiě) 的特征向量; 所述的特征有如下幾種
      a、二元特征對(duì)于任一條邊O^w2>,二元特征包括< W1W2 >、<w1;c2 >、<q,W2 > 、> ,其中,CT1和4分別指W1和巧在Hownet或同義詞詞林中所屬的概念類;
      b、結(jié)構(gòu)特征與< 2>鄰接的任一節(jié)點(diǎn)w,則<>為一結(jié)構(gòu)特征;
      C、上下文特征位于假設(shè)#中W1和馮間任一位置或巧和巧外一定距離的詞沖, 則<w,wlfw2 >為一上下文特征。d、語(yǔ)段Γ上下文特征假設(shè)H中實(shí)詞在語(yǔ)段T中一般有對(duì)應(yīng),因此語(yǔ)段T上下文特征可通過(guò)上述的上下文特征方法獲得;如果語(yǔ)段r上下文特征中有指代,則采用其指代候選參與構(gòu)成特征;
      e、語(yǔ)段Γ結(jié)構(gòu)特征對(duì)語(yǔ)段Γ進(jìn)行結(jié)構(gòu)分析,并利用語(yǔ)段T中包含的依存關(guān)系,得到語(yǔ)段r結(jié)構(gòu)特征;如果語(yǔ)段τ結(jié)構(gòu)特征中有指代,則采用其指代候選參與構(gòu)成特征;
      f、歷史特征是根據(jù)分析過(guò)程中自定義的啟發(fā)式規(guī)則特征、用來(lái)模擬由無(wú)標(biāo)記無(wú)向圖到有標(biāo)記有向圖的轉(zhuǎn)換過(guò)程;
      1. 2把訓(xùn)練數(shù)據(jù)中的每個(gè)標(biāo)記轉(zhuǎn)化為節(jié)點(diǎn),并確定最大生成樹(shù); 1. 3對(duì)步驟1. 2所得的樹(shù)進(jìn)行訓(xùn)練;
      1.4根據(jù)步驟1. 3的訓(xùn)練輸出,采用步驟1. 1中的公式^ = m-gxam.^*f(T,H,t)對(duì)新輸
      入的語(yǔ)段r和新輸入的假設(shè)//進(jìn)行解碼,即得到假設(shè)//對(duì)應(yīng)的無(wú)標(biāo)記的無(wú)向樹(shù)& ;
      2)有向圖分析,該步驟進(jìn)一步包括以下子步驟
      2.1無(wú)向圖分析將步驟1)所得的無(wú)標(biāo)記的無(wú)向樹(shù)轉(zhuǎn)換為無(wú)標(biāo)記的無(wú)向圖; 2.2標(biāo)記分析將步驟2.1所得的無(wú)標(biāo)記的無(wú)向圖轉(zhuǎn)換為有標(biāo)記的無(wú)向2. 3有向圖分析將步驟2. 2所得的有標(biāo)記的無(wú)向圖轉(zhuǎn)換為有標(biāo)記的有向圖,即得到假設(shè)//的語(yǔ)義依存圖。步驟1. 2中最大生成樹(shù)的確定是采用普里姆算法。步驟1. 3采用Perceptron實(shí)時(shí)學(xué)習(xí)算法對(duì)步驟1. 2所得的樹(shù)進(jìn)行訓(xùn)練,具體為以訓(xùn)練數(shù)據(jù)<乃反&>為輸入,以特征權(quán)重向量θ為輸出,特征權(quán)重向量θ初始
      化為O ;對(duì)每個(gè)訓(xùn)練數(shù)據(jù),根據(jù)公式^ = =計(jì)算?并計(jì)算f(TM,tB)和/(Γ,/ ,Ι*),調(diào)整特征權(quán)重向量;其中&力步驟1. 2所得的樹(shù)。步驟2. 1具體為通過(guò)支持向量機(jī)SVM對(duì)每條可能的邊進(jìn)行分類,并根據(jù)分類結(jié)果判斷是否應(yīng)該加入改邊。步驟2. 2和步驟2. 3均利用了如下規(guī)則
      規(guī)則1:[實(shí)體][屬性值]==〉[屬性值]依存于[實(shí)體]
      規(guī)則2 [實(shí)體][屬性值標(biāo)記V][屬性]==〉[實(shí)體]依存于[屬性]
      規(guī)則3:[實(shí)體]([屬性標(biāo)記L]) [屬性]==〉[實(shí)體]依存于[屬性]。步驟三中的評(píng)估、分析和概括具體包括對(duì)語(yǔ)義依存圖進(jìn)行總體分析,包括對(duì)依存、關(guān)系、方向、根節(jié)點(diǎn)及依存結(jié)構(gòu)進(jìn)行總體分析;對(duì)蘊(yùn)涵推理判斷的準(zhǔn)確率、召回率和F值進(jìn)行評(píng)估;總結(jié)概括漢語(yǔ)文本推理的主要句法和語(yǔ)義模板、三種推理類型的分布、各種數(shù)據(jù)源的比較、錯(cuò)誤發(fā)生的主要類型及原因。本發(fā)明將語(yǔ)段Γ和假設(shè)//的文本推理關(guān)系的判斷形式化為一個(gè)受限的語(yǔ)義依存分析問(wèn)題。直觀上,可把語(yǔ)段r看作一種限制,并在語(yǔ)段τ的限制下對(duì)假設(shè)//進(jìn)行語(yǔ)義依存分析,如果假設(shè)//能夠順利得到語(yǔ)義分析,則語(yǔ)段r能夠推理出假設(shè)//;否則語(yǔ)段r無(wú)法推理出假設(shè)從例如,對(duì)于ι) “魯迅是《狂人日記》的作者?!焙?) “魯迅寫(xiě)了《吶喊》、《狂人日記》等有影響的著作。”,可把2)看作限制,對(duì)ι)進(jìn)行語(yǔ)義依存分析,3)則給出了 ι)的語(yǔ)義依存分析結(jié)果3)〈狂人日記,的,作者〉〈魯迅,是,作者〉。直觀上,《狂人日記》作為一個(gè)作品有一“作者”屬性;魯迅是作者可看做“作者”的值;“的”反映“狂人日記”和屬性“作者”的關(guān)系,“是”反映“魯迅”和“作者”的關(guān)系。不難看出,2)的描述中覆蓋了這種關(guān)系。傳統(tǒng)上,句法和語(yǔ)義依存分析都是針對(duì)單個(gè)句子來(lái)說(shuō)的,沒(méi)有附加任何條件或限制。本發(fā)明提出的受限的語(yǔ)義依存分析是從一個(gè)新角度詮釋依存分析,雖然分析的對(duì)象仍是單個(gè)句子(假設(shè)//),但它是在另一個(gè)文本(語(yǔ)段Τ、的前提下進(jìn)行的,即受限的語(yǔ)義依存分析結(jié)果應(yīng)最大限度地與語(yǔ)段一致。這種視野從語(yǔ)義解釋的角度更具意義,即假設(shè)的語(yǔ)義解釋?xiě)?yīng)與語(yǔ)段最大限度地一致。另一方面,從限制(S卩,語(yǔ)段Π的角度看,對(duì)單個(gè)句子(即,假設(shè)//)的分析其實(shí)是對(duì)語(yǔ)段T的部分分析,但必須是在假設(shè)//的限制下。這不同于以往的骨架分析或淺層分析,因?yàn)楣羌芊治龊蜏\層分析都是針對(duì)句子的主要句法結(jié)構(gòu),而部分分析可能對(duì)句子的任何一個(gè)部分,可以是骨架結(jié)構(gòu),也可以是非骨架結(jié)構(gòu),如賓語(yǔ)從句。這也不同于以往的部分分析, 因?yàn)橐郧暗牟糠址治鍪菑木浞ǚ治龅臏?zhǔn)確度來(lái)判定的,即句法分析中哪些部分比較沒(méi)有歧義,就把它作為部分分析抽取出來(lái);本發(fā)明中的部分分析是由語(yǔ)段T之外的假設(shè)H限定的, 而非語(yǔ)段T本身決定的。
      與現(xiàn)有技術(shù)相比,本發(fā)明具有以下的優(yōu)點(diǎn)和有益效果
      1、本發(fā)明方法從一個(gè)嶄新的角度進(jìn)行文本推理,將文本推理的判斷形式化為一個(gè)受限的語(yǔ)義依存分析問(wèn)題,并將文本推理類型從蘊(yùn)涵擴(kuò)展至預(yù)設(shè)和隱含,并將這三種推理類型形式綜合到一個(gè)統(tǒng)一的框架中,有助于處理較復(fù)雜的話語(yǔ)性和對(duì)話性語(yǔ)料的推理;
      2、相對(duì)于現(xiàn)有的文本推理方法,本發(fā)明方法具有更高的準(zhǔn)確率;
      3、本發(fā)明方法無(wú)需抽取命題謂詞和模板,因?yàn)槊}模板存在于語(yǔ)義依存分析的結(jié)果中,簡(jiǎn)化了步驟;4、本發(fā)明方法無(wú)需抽取蘊(yùn)涵規(guī)則,而是將蘊(yùn)涵規(guī)則自動(dòng)發(fā)現(xiàn)的問(wèn)題簡(jiǎn)化為相關(guān)詞的發(fā)現(xiàn)問(wèn)題;例如在1) “魯迅是《狂人日記》的作者。”和2) “魯迅寫(xiě)了《吶喊》、《狂人日記》等有影響的著作。”中只需確定“作者”和“寫(xiě)”的相關(guān)性,所以在一定程度上降低了蘊(yùn)涵規(guī)則發(fā)現(xiàn)過(guò)程中面臨的稀疏性問(wèn)題;
      5、本發(fā)明方法將指代消解綜合在語(yǔ)義依存分析過(guò)程中,無(wú)需作為一種前提從而避免錯(cuò)誤擴(kuò)散。


      圖1為本發(fā)明方法流程圖; 圖2為語(yǔ)義依存圖實(shí)例1;
      圖3為語(yǔ)義依存圖實(shí)例2; 圖4為語(yǔ)義依存圖實(shí)例3; 圖5為獲取假設(shè)//的語(yǔ)義依存圖的流程圖; 圖6為無(wú)標(biāo)記的無(wú)向圖到有標(biāo)記的無(wú)向圖的轉(zhuǎn)換; 圖7為有標(biāo)記的無(wú)向圖到有標(biāo)記的有向圖的轉(zhuǎn)換。
      具體實(shí)施例方式文本推理的原始問(wèn)題是對(duì)任一語(yǔ)段Γ及假設(shè)//,判斷Γ是否可推理出//。為提高文本推理系統(tǒng)的性能,如推理判斷的準(zhǔn)確率(/7)、召回率(r)和廠值,廠值是準(zhǔn)確率和召回率的調(diào)和平均數(shù)(harmonic mean),即F = 2prf(p + r)。本發(fā)明將文本推理的上述原始問(wèn)題形
      式化為一個(gè)受限的語(yǔ)義依存分析問(wèn)題,受限語(yǔ)義依存分析問(wèn)題為給定語(yǔ)段Γ及假設(shè)//,在語(yǔ)段r的限制下,對(duì)假設(shè)//進(jìn)行語(yǔ)義依存分析,如果假設(shè)//能夠順利得到語(yǔ)義分析,則??赏评沓? ;否則無(wú)法推理出H??蓮膬蓚€(gè)角度直觀上看待受限語(yǔ)義依存分析問(wèn)題。第一,對(duì)假設(shè)//進(jìn)行語(yǔ)義依存分析,但其語(yǔ)義依存關(guān)系應(yīng)與語(yǔ)段r的描述一致;第二,對(duì)語(yǔ)段r進(jìn)行語(yǔ)義依存分析,但只對(duì)其進(jìn)行部分分析(partial parsing),其中的部分與假設(shè)#一致。
      下面將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。步驟一、根據(jù)語(yǔ)義依存的表示機(jī)制,建立一個(gè)漢語(yǔ)文本推理標(biāo)注資源,其中,一個(gè)文本推理標(biāo)注實(shí)例包含一個(gè)語(yǔ)段Λ —個(gè)假設(shè)//、假設(shè)//的語(yǔ)義依存圖及推理類型,推理類型包括蘊(yùn)涵、預(yù)設(shè)和隱含。本發(fā)明采用有標(biāo)記的有向圖來(lái)表示語(yǔ)義依存圖。該步驟需要解決以下問(wèn)題 1、語(yǔ)義依存圖
      本發(fā)明采用有標(biāo)記的有向圖來(lái)表示語(yǔ)義依存結(jié)果,即語(yǔ)義依存圖。圖2給出了語(yǔ)段1) 的語(yǔ)義依存圖
      1)魯迅是《狂人日記》的作者。2 )魯迅是《狂人日記》作者。3)魯迅寫(xiě)《狂人日記》。直觀上,語(yǔ)段1)表示的意義是《狂人日記》作為一本著作,必定有一個(gè)屬性或特征,即其作者,這個(gè)作者是魯迅,這也是圖2描述的結(jié)果。圖2中,“的”表示“作者”是《狂
      9人日記》的屬性,而“是”表示“魯迅”是該屬性的取值??疾煺Z(yǔ)段1)的一個(gè)簡(jiǎn)化形式語(yǔ)段 2),其中省略了一個(gè)結(jié)構(gòu)助詞“的”,其語(yǔ)義依存圖如圖3所示,圖3中《狂人日記》與“作者” 的邊上沒(méi)有標(biāo)記,這是因?yàn)檫@種屬性關(guān)系是隱含在句子中,沒(méi)有明確的標(biāo)記表示這種關(guān)系。 再考察語(yǔ)段3 ),其語(yǔ)義依存圖如圖4所示。—般來(lái)說(shuō),語(yǔ)義依存圖由節(jié)點(diǎn)和有向邊組成,有向邊反映實(shí)體與屬性間的關(guān)系或?qū)嶓w間的關(guān)系,以語(yǔ)段1)為例,實(shí)體指狂人日記和魯迅,“的”表示“作者”是《狂人日記》的屬性,而“是”表示“魯迅”是該屬性的取值,標(biāo)記即為“的”和“是”。實(shí)體與屬性間的關(guān)系可能有標(biāo)記,如圖2所示,可能沒(méi)有標(biāo)記,如圖3中“作者”和“狂人日記”的關(guān)系;實(shí)體間的關(guān)系沒(méi)有標(biāo)記,如圖4所示,因?yàn)槿绻麑傩猿霈F(xiàn),將會(huì)優(yōu)先標(biāo)記實(shí)體與屬性間的關(guān)系,因?yàn)閷?shí)體間關(guān)系是通過(guò)屬性實(shí)現(xiàn)的,如果沒(méi)有屬性出現(xiàn),才標(biāo)記實(shí)體間的關(guān)系,但不標(biāo)記其名稱或類型,如圖4中實(shí)體之間隱含了動(dòng)作的發(fā)起者Agent和動(dòng)作的接受者I^tient關(guān)系,如此就避免了人工定義一組語(yǔ)義關(guān)系。語(yǔ)義依存圖中的關(guān)系有兩類,一類是實(shí)體與實(shí)體間的關(guān)系,它們之間沒(méi)有標(biāo)記(沒(méi)有屬性出現(xiàn));另一類是實(shí)體與屬性間的關(guān)系,標(biāo)記可出現(xiàn)或不出現(xiàn),如果出現(xiàn),它是屬性標(biāo)記或?qū)傩灾禈?biāo)記。這樣定義語(yǔ)義依存結(jié)構(gòu)是合理的,因?yàn)閷?shí)體詞間要么通過(guò)屬性反映它們的關(guān)系,要么隱含它們的關(guān)系;當(dāng)采用屬性反映關(guān)系的時(shí)候,標(biāo)記可出現(xiàn)也可不出現(xiàn)。用有標(biāo)記的有向圖表示語(yǔ)義依存結(jié)構(gòu)是可行的,這是因?yàn)榈谝?,圖的節(jié)點(diǎn)對(duì)應(yīng)概念(詞);第二,圖的邊可表示關(guān)系;第三,邊的有向性表示依存方向。本發(fā)明定義的語(yǔ)義依存結(jié)構(gòu)和傳統(tǒng)的句法依存結(jié)構(gòu)是不同的,首先,句法依存主要以謂詞為中心標(biāo)注依存關(guān)系,且不標(biāo)注關(guān)系類型;而語(yǔ)義依存標(biāo)注實(shí)體間的關(guān)系或?qū)嶓w與屬性間的關(guān)系,如果實(shí)體與屬性間有標(biāo)記,則標(biāo)注它們間的關(guān)系類型,即屬性標(biāo)記或?qū)傩灾禈?biāo)記;其次,本發(fā)明區(qū)分屬性詞和實(shí)體詞,實(shí)際上把語(yǔ)義關(guān)系形式化為統(tǒng)一的實(shí)體-實(shí)體、和實(shí)體-屬性間的關(guān)系。句法依存和語(yǔ)義依存也有類似的地方,即它們判定依存方向的時(shí)候都主要依靠語(yǔ)序,但結(jié)果未必一致。比如在語(yǔ)段3)的語(yǔ)義依存中,“魯迅”依存于“作者”,而在句法依存中,“魯迅”依存于“是”,不難看出,語(yǔ)義依存反映的是語(yǔ)義關(guān)系。2、實(shí)體-實(shí)體間、實(shí)體-屬性間的關(guān)系判斷原則
      為保證標(biāo)注的一致性,需要制定統(tǒng)一合理的判定原則,包括依存、關(guān)系類型和依存方向的判定。本發(fā)明采用提問(wèn)的方法判斷實(shí)體-實(shí)體間、實(shí)體-屬性間的語(yǔ)義關(guān)系,兩個(gè)實(shí)詞若發(fā)生關(guān)系,其中一方一般可在原文背景下進(jìn)行提問(wèn),實(shí)詞指有實(shí)在意義、能夠單獨(dú)充當(dāng)句子成分、一般能單獨(dú)回答問(wèn)題的詞語(yǔ),可以為名詞、動(dòng)詞、形容詞等,此處的實(shí)詞指實(shí)體和屬性。對(duì)于語(yǔ)段3),可做如下提問(wèn)
      i)誰(shuí)寫(xiě)?
      ii)寫(xiě)了什么?
      從上述提問(wèn)的回復(fù)中,可正確確定實(shí)詞間的語(yǔ)義關(guān)聯(lián)。再例如對(duì)于下面的語(yǔ)段iii),可做iv) - ν )提問(wèn)
      iii)研究目的明確
      iv)什么目的? ν)目的如何?
      10vi)〈研究, ,目的〉,〈目的,,明確〉
      根據(jù)iv)_ ν )提問(wèn)的答案,推測(cè)語(yǔ)段2)中實(shí)詞間的語(yǔ)義關(guān)聯(lián),如vi)所示,即“研究”有一屬性“目的”,其值為“明確”。此處本發(fā)明仍避免手工定義關(guān)系,一是因?yàn)闆](méi)有標(biāo)準(zhǔn)的關(guān)系類型定義;二是從最終目的(語(yǔ)義依存)來(lái)說(shuō),關(guān)系類型標(biāo)記不必要,除非有明確的標(biāo)記詞出現(xiàn)。其次,我們結(jié)合語(yǔ)義關(guān)聯(lián)和詞序判斷語(yǔ)義依存方向。本發(fā)明定義了如下規(guī)則規(guī)則 1、規(guī)則2和規(guī)則3,其中,規(guī)則1適用于與語(yǔ)段3)結(jié)構(gòu)相同的語(yǔ)段,規(guī)則2適用于與語(yǔ)段1) 結(jié)構(gòu)相同的語(yǔ)段,規(guī)則3分別適用于與語(yǔ)段2)結(jié)構(gòu)相同的語(yǔ)段。規(guī)則1 [實(shí)體][屬性值]==〉[屬性值]依存于[實(shí)體] 規(guī)則2 [實(shí)體][屬性值標(biāo)記V][屬性]==〉[實(shí)體]依存于[屬性] 規(guī)則3:[實(shí)體]([屬性標(biāo)記L]) [屬性]==〉[實(shí)體]依存于[屬性]
      根據(jù)上述規(guī)則1,就可判斷語(yǔ)段3)中的依存方向。根據(jù)規(guī)則2和3,即可確定語(yǔ)段1) 和語(yǔ)段2)中的依存方向。上述規(guī)則的左邊是正規(guī)表達(dá)式,右邊是對(duì)應(yīng)的依存方向,如規(guī)則 3中,[屬性標(biāo)記L]可出現(xiàn)也可不出現(xiàn),分別對(duì)應(yīng)于圖2和圖3中“狂人日記”和“作者”間的關(guān)系。根據(jù)這些規(guī)則判定依存方向是可行的,因?yàn)榈谝唬@些規(guī)則不僅反映語(yǔ)義關(guān)系, 同時(shí)也包含語(yǔ)序關(guān)系,而依存方向主要取決于語(yǔ)序;第二,規(guī)則中出現(xiàn)的項(xiàng)素(item)是有限的,包括[實(shí)體]、[屬性]、[屬性標(biāo)記](méi)和[屬性值標(biāo)記](méi)等,因此規(guī)則也是很有限的。3、資源建立
      為實(shí)現(xiàn)漢語(yǔ)文本推理關(guān)系的自動(dòng)判別,本發(fā)明根據(jù)語(yǔ)義依存的表示機(jī)制,建立一個(gè)大規(guī)模的文本推理標(biāo)注資源,文本推理標(biāo)注資源中的一個(gè)文本推理標(biāo)注實(shí)例包含一個(gè)語(yǔ)段T、 一個(gè)假設(shè)H、假設(shè)H的語(yǔ)義依存圖及推理類型,其中推理類型有蘊(yùn)涵、預(yù)設(shè)和隱含三類,本實(shí)施例中所建立的文本推理標(biāo)注資源包含有5000個(gè)文本推理標(biāo)注實(shí)例。建立文本推理標(biāo)注資源的首要問(wèn)題是語(yǔ)料選取,語(yǔ)料選取一方面可利用現(xiàn)有評(píng)測(cè)任務(wù)的數(shù)據(jù),另一方面,可從新聞?wù)Z料、中小學(xué)語(yǔ)文閱讀理解和漢語(yǔ)水平考試等來(lái)源進(jìn)行語(yǔ)料選取。上述策略是可行的,因?yàn)椋谝?,在利用現(xiàn)有評(píng)測(cè)任務(wù)的數(shù)據(jù)時(shí),因?yàn)楝F(xiàn)有評(píng)測(cè)任務(wù)的數(shù)據(jù)一般有結(jié)構(gòu)化特征,可編寫(xiě)程序來(lái)抽取語(yǔ)段和假設(shè);第二,從新聞?wù)Z料中抽取語(yǔ)料, 可保證語(yǔ)料的實(shí)效性;第三,從漢語(yǔ)水平考試和閱讀理解中抽取語(yǔ)料可保證語(yǔ)料的覆蓋性。目前文本蘊(yùn)涵識(shí)別RTE (Recognizing Textual Entailment)英文的訓(xùn)練數(shù)據(jù)中包含蘊(yùn)涵、未知和矛盾三類,本發(fā)明在此未標(biāo)記未知和矛盾類,因?yàn)橐环矫嫖粗惪蓮南到y(tǒng)的輸出結(jié)果(得分)予以判斷;另一方面,矛盾類又分為兩子類,一類是相對(duì)類,例如假設(shè)“老舍是《狂人日記》的作者”相對(duì)于語(yǔ)段1)來(lái)說(shuō)是相對(duì)的假設(shè),這類假設(shè)也可從系統(tǒng)的輸出結(jié)果判定;另一類是邏輯矛盾類,如“魯迅不是《狂人日記》的作者”相對(duì)于語(yǔ)段1)來(lái)說(shuō),就是矛盾假設(shè),這類假設(shè)更多地與邏輯算子如否定有關(guān),與語(yǔ)義依存沒(méi)有多少關(guān)系,可結(jié)合語(yǔ)義依存分析和邏輯運(yùn)算處理此類假設(shè)。步驟二、在步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源的基礎(chǔ)上,在新輸入的語(yǔ)段Γ 的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,從而判斷語(yǔ)段r是否能推理出假設(shè)//。所述的步驟二具體為以步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源為基礎(chǔ),在新輸入的語(yǔ)段r的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,得到假設(shè)//的語(yǔ)義依存圖,如果假設(shè)//的語(yǔ)義依存圖存在的概率大于預(yù)設(shè)值々,則語(yǔ)段??赏评沓黾僭O(shè)//,否則無(wú)法推理出假設(shè)//,其中,δ根據(jù)實(shí)驗(yàn)結(jié)果設(shè)定。由于語(yǔ)義依存圖是一個(gè)有標(biāo)記的有向圖,為保證分析效率,本發(fā)明采用兩個(gè)階段對(duì)語(yǔ)段r和假設(shè)//進(jìn)行語(yǔ)義依存分析,從而得到假設(shè)//的語(yǔ)義依存圖。圖5所示為本發(fā)明獲得假設(shè)H的語(yǔ)義依存圖的流程圖。
      第一階段(Phase 1)為無(wú)向樹(shù)分析,第二階段(Phase II)為有向圖分析,兩個(gè)階段都采用對(duì)數(shù)線性模型進(jìn)行分析。第一階段可利用最大生成樹(shù)進(jìn)行無(wú)向樹(shù)分析,由于最大生成樹(shù)的搜索空間為^fc2),其中,η為語(yǔ)義依存圖中節(jié)點(diǎn)的個(gè)數(shù),可對(duì)搜索空間進(jìn)行全搜索,并得到精確解;第二階段的搜索空間為指數(shù)空間,無(wú)法找到最優(yōu)解,但可在第一階段Wiase I的基礎(chǔ)上確定較優(yōu)解。下面將詳細(xì)說(shuō)明假設(shè)//的語(yǔ)義依存圖的獲得過(guò)程。包括以下步驟 1、無(wú)向樹(shù)分析,該步驟又進(jìn)一步包括以下子步驟
      1.1無(wú)向樹(shù)分析問(wèn)題形式化
      將無(wú)向樹(shù)分析形式化為f· = afSf^g5^J(IU),其中,卩表示假設(shè)//的最大生成樹(shù),
      ^Th為假設(shè)//的生成樹(shù)集合,θ為特征的權(quán)重向量, 為假設(shè)//的生成樹(shù)集合中的元素, /(HC為描寫(xiě) 的特征向量。本發(fā)明的特征有如下幾種形式
      a、二元特征對(duì)于任一條邊Of^w2 >,二元特征包括< W^w2 >、0 , >、<c、,w2 >、
      <clrc2 > ,其中,。和^分別指巧和巧在此麗討或同義詞詞林中所屬的概念類。b、結(jié)構(gòu)特征與< WliW2 >鄰接的任一節(jié)點(diǎn)w,則<H>p2 >為一結(jié)構(gòu)特征。C、上下文特征位于假設(shè)#中W1和W2間任一位置或、和Β外一定距離的詞w, 則< WsWlsW2 >為一上下文特征。d、語(yǔ)段Γ上下文特征假設(shè)//中實(shí)詞在語(yǔ)段Γ中一般有對(duì)應(yīng),因此假設(shè)//中的結(jié)構(gòu)特征和上下文特征在語(yǔ)段T中可找到對(duì)應(yīng)的特征,稱為語(yǔ)段Γ特征(包括語(yǔ)段Γ上下文特征和語(yǔ)段r結(jié)構(gòu)特征)。語(yǔ)段上下文r特征可通過(guò)上述的上下文特征方法獲得;注意如果語(yǔ)段 r上下文特征中有指代(代詞或有定名詞短語(yǔ)),為防止指代消解錯(cuò)誤擴(kuò)散,可用其指代候選參與構(gòu)成特征。e、語(yǔ)段T結(jié)構(gòu)特征可對(duì)語(yǔ)段Γ進(jìn)行結(jié)構(gòu)分析,然后利用語(yǔ)段T中包含的依存關(guān)系,得到語(yǔ)段r結(jié)構(gòu)特征;注意如果語(yǔ)段r上下文特征中有指代(代詞或有定名詞短語(yǔ)),為防止指代消解錯(cuò)誤擴(kuò)散,可用其指代候選參與構(gòu)成特征。這對(duì)概括總結(jié)類型的假設(shè)//(如數(shù)字推導(dǎo))有幫助。f、歷史特征根據(jù)分析過(guò)程中的啟發(fā)式規(guī)則定義特征,用以模擬由無(wú)標(biāo)記無(wú)向圖到有標(biāo)記有向圖的轉(zhuǎn)換過(guò)程。1. 2把訓(xùn)練數(shù)據(jù)中的每個(gè)標(biāo)記轉(zhuǎn)化為節(jié)點(diǎn),并確定最大生成樹(shù)
      由于文本推理標(biāo)注資源中標(biāo)注的結(jié)果是語(yǔ)義依存圖,而無(wú)向樹(shù)分析的結(jié)果是確定最大生成樹(shù),因此需要把訓(xùn)練數(shù)據(jù)從有標(biāo)記的有向圖轉(zhuǎn)化為無(wú)標(biāo)記的無(wú)向樹(shù)。首先,把訓(xùn)練數(shù)據(jù)
      12中的每個(gè)標(biāo)記轉(zhuǎn)化為節(jié)點(diǎn),然后利用克魯斯卡爾算法或普里姆算法確定最大生成樹(shù)。1. 3對(duì)步驟1. 2所得的最大生成樹(shù)進(jìn)行訓(xùn)練
      本訓(xùn)練過(guò)程采用Perc^tron實(shí)時(shí)學(xué)習(xí)算法,具體為以訓(xùn)練數(shù)據(jù)<T,HJH>為輸以特征權(quán)重向量θ為輸出,特征權(quán)重向量θ初始化為0;對(duì)每個(gè)訓(xùn)練數(shù)據(jù)<2;//,&>,根據(jù)公式= mgm^0*f(T,Hj)計(jì)算廣,并計(jì)算/(Γ>丑知)和/(7;/£>巧,調(diào)整特征權(quán)重向量;其中,G為步驟1. 2所得的樹(shù)。1.4解碼過(guò)程由步驟1.3得到特征權(quán)重向量〃,采用步驟1.1中的公式 e = 對(duì)新輸入的語(yǔ)段Γ和新輸入的假設(shè)//進(jìn)行解碼,即得到假設(shè)//對(duì)
      應(yīng)的無(wú)標(biāo)記的無(wú)向樹(shù)&。2、有向圖分析
      有向圖分析包含無(wú)向圖分析、標(biāo)記分析和有向圖分析三個(gè)子步驟,每個(gè)步驟輸出的數(shù)據(jù)空間都呈指數(shù)性,因此不存在精確的求解算法,但是可以利用一些啟發(fā)式規(guī)則求得近似解。2.1無(wú)向圖分析
      無(wú)向圖分析指從無(wú)標(biāo)記的無(wú)向樹(shù)出發(fā)通過(guò)增加邊生成無(wú)標(biāo)記的無(wú)向圖的過(guò)程。為此我們可對(duì)每條可能的邊通過(guò)支持向量機(jī)SVM進(jìn)行分類,判斷是否應(yīng)該加入該邊,并把這些邊記作候選邊。本具體實(shí)施中分類所采用的特征同步驟1. 1中所采用的特征。2. 2標(biāo)記分析
      標(biāo)記分析指從無(wú)標(biāo)記的無(wú)向圖轉(zhuǎn)化為有標(biāo)記的無(wú)向圖的過(guò)程,為此可定義一些啟發(fā)式規(guī)則,例如前面定義的規(guī)則1、2、3。由于語(yǔ)義依存圖中的標(biāo)記只有兩種,屬性標(biāo)記和屬性值標(biāo)記,因此此類啟發(fā)式規(guī)則也是有限的。例如圖6給出一條規(guī)則,其中“的”是屬性標(biāo)記,因此在語(yǔ)義依存圖中應(yīng)當(dāng)作為邊的標(biāo)記。2. 3有向圖分析
      有向圖分析是指確定有向圖中邊的方向,即依存方向,從而將有標(biāo)記的無(wú)向圖轉(zhuǎn)換為有標(biāo)記的有向圖,為此可利用前面提到的規(guī)則1、2、3。圖7給出一個(gè)啟發(fā)式規(guī)則的應(yīng)用實(shí)例,其采用的啟發(fā)式規(guī)則是前面提到的規(guī)則2 [實(shí)體][屬性值標(biāo)記V][屬性]==〉[實(shí)體] 依存于[屬性]。由于節(jié)點(diǎn)類型及標(biāo)記都有限,此類啟發(fā)式規(guī)則也僅為有限的幾個(gè)。本步驟的解碼過(guò)程是指從無(wú)標(biāo)記無(wú)向樹(shù)到帶標(biāo)記有向圖的生成過(guò)程,此過(guò)程根據(jù)上述規(guī)則1、2、3,獲取最后語(yǔ)義依存圖及其得分。步驟三、對(duì)步驟二的分析過(guò)程和判斷結(jié)果進(jìn)行評(píng)估、分析和概括,并利用反饋改善分析過(guò)程的性能。本步驟中的評(píng)估、分析和概括具體包括對(duì)語(yǔ)義依存圖進(jìn)行總體分析,包括對(duì)依存、關(guān)系、方向、根節(jié)點(diǎn)及依存結(jié)構(gòu)進(jìn)行總體分析;對(duì)蘊(yùn)涵推理判斷的準(zhǔn)確率、召回率和F值進(jìn)行評(píng)估;總結(jié)概括漢語(yǔ)文本推理的主要句法和語(yǔ)義模板、三種推理類型的分布、各種數(shù)據(jù)源的比較、錯(cuò)誤發(fā)生的主要類型及原因。除依存結(jié)構(gòu)的總體分析評(píng)估外,節(jié)點(diǎn)評(píng)估、邊評(píng)估、推理判斷和推理類型評(píng)估都采用準(zhǔn)確率、召回率和F值這些標(biāo)準(zhǔn)是目前廣泛采用的。
      文本推理研究的興起是自然語(yǔ)言處理領(lǐng)域各項(xiàng)具體應(yīng)用任務(wù)的需求。如在問(wèn)題回答領(lǐng)域,很多問(wèn)題的正確答案無(wú)法從相關(guān)文本中直接抽取而需要一定的推理。例如對(duì)于問(wèn)題4)和相關(guān)文本描述5)
      4)誰(shuí)是《狂人日記》的作者?
      5)魯迅寫(xiě)了《吶喊》、《狂人日記》等有影響的著作。要正確回答問(wèn)題4),需要從相關(guān)文本描述5)中推理出“魯迅是《狂人日記》的作者”。在信息檢索領(lǐng)域,一般來(lái)說(shuō),正確的檢索結(jié)果(文檔)應(yīng)該一定程度上推理出查詢所描述的命題。例如,6)是一個(gè)查詢,7)給出了一個(gè)相關(guān)文本中的一段描述。6)查詢有關(guān)在臺(tái)灣舉辦漢代文物大展的時(shí)間和地點(diǎn)。7)中新社香港二月十二日電臺(tái)北消息臺(tái)北“故宮博物院”將于三月下旬舉辦 “宋代文物大展”,以使觀眾認(rèn)識(shí)中國(guó)歷史上宋代文化藝術(shù)格外昌盛的風(fēng)貌??梢钥闯觯?)給出了查詢6)所要求的活動(dòng)(“漢代文物大展”)及其時(shí)間(“三月下旬”)和地點(diǎn)(“臺(tái)北故宮博物院”)。在此意義上,7)包含的命題覆蓋了 6)描述的命題,因此 6)可看作7)的推理結(jié)果。在信息抽取領(lǐng)域,特別是對(duì)于關(guān)系抽取,由于同一種關(guān)系可用多種不同的詞語(yǔ)或模板進(jìn)行描述,因此就需要確定這些不同描述間的推理關(guān)系。例如8)給出了一個(gè)關(guān)于雇傭關(guān)系的信息抽取任務(wù),目的是抽取具有三個(gè)屬性(雇主、雇員、職位)的雇傭關(guān)系,9)給出一組文本數(shù)據(jù)。8)關(guān)系抽取 Event:雇傭關(guān)系 Attributes Employer:雇主; Employee:雇員; Role:職位
      9)數(shù)據(jù)
      1 Jim^ s employment as lawyer by his cousin ljim’ s employment of his cousin as lawyer
      ISilverton hired Stickney in 2001 as a contracted anesthetist. IPresident Clinton appointed him as ambassador
      ITo run the business, he hired Barbara Japhaj former associate general counsel at U S West, to be president and general counsel
      從9)可以看出,雇傭關(guān)系可用多種詞語(yǔ)或模板(9)中黑體所示)進(jìn)行描述,正確判斷雇傭關(guān)系就需要確定這些詞語(yǔ)或模板之間的推理關(guān)系。文本推理在自動(dòng)文摘或機(jī)器翻譯領(lǐng)域也有重要應(yīng)用。例如在多文檔自動(dòng)文摘中, 可利用推理關(guān)系判斷文摘句子的冗余;在機(jī)器翻譯中,可利用翻譯結(jié)果和標(biāo)準(zhǔn)翻譯間的推理關(guān)系評(píng)測(cè)翻譯系統(tǒng)的質(zhì)量。 另外,文本推理還可以應(yīng)用到國(guó)安領(lǐng)域的問(wèn)題回答和生物信息領(lǐng)域的關(guān)系蘊(yùn)涵, 并考察文本推理在這些應(yīng)用中的性能。
      權(quán)利要求
      1.一種基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于,包括以下步驟 步驟一、根據(jù)語(yǔ)義依存的表示機(jī)制,建立一個(gè)漢語(yǔ)文本推理標(biāo)注資源,其中,一個(gè)文本推理標(biāo)注實(shí)例包含一個(gè)語(yǔ)段Λ —個(gè)假設(shè)//、假設(shè)//的語(yǔ)義依存圖及推理類型;步驟二、在步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源的基礎(chǔ)上,在新輸入的語(yǔ)段Γ的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,從而判斷語(yǔ)段r是否能推理出假設(shè)步驟三、對(duì)步驟二的分析過(guò)程和判斷結(jié)果進(jìn)行評(píng)估、分析和概括,并利用反饋改善分析過(guò)程的性能。
      2.根據(jù)權(quán)力要求ι所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的步驟二具體為以步驟一所建立的漢語(yǔ)文本推理標(biāo)注資源為基礎(chǔ),在新輸入的語(yǔ)段r的限制下對(duì)新輸入的假設(shè)//進(jìn)行語(yǔ)義依存分析,得到假設(shè)//的語(yǔ)義依存圖,如果假設(shè) //的語(yǔ)義依存圖存在的概率大于預(yù)設(shè)值々,則語(yǔ)段r可推理出假設(shè)//,否則無(wú)法推理出假設(shè) //,其中,δ根據(jù)實(shí)驗(yàn)結(jié)果設(shè)定。
      3.根據(jù)權(quán)力要求2所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的假設(shè)//的語(yǔ)義依存圖的獲得,包括以下步驟·1)無(wú)向樹(shù)分析,該步驟進(jìn)一步包括以下子步驟·1. 1將無(wú)向樹(shù)分析形式化為^ = argm^5./(r,/f,l),其中表示假設(shè)//的最大生成樹(shù),^Th為假設(shè)//的生成樹(shù)集合,θ為特征的權(quán)重向量, 為假設(shè)//的生成樹(shù)集合中的元素, /(Γ,U)為描寫(xiě) 的特征向量; 所述的特征有如下幾種a、二元特征對(duì)于任一條邊<W1,W2 >,二元特征包括CWpw2 >、OfliC2 >、<c、,w2 > 、 h而 >,其中,A和Q分別指W和W2在Hownet或同義詞詞林中所屬的概念類;b、結(jié)構(gòu)特征與<W1jW2 >鄰接的任一節(jié)點(diǎn)w,則< w,wi,w2 >為一結(jié)構(gòu)特征;c、上下文特征位于假設(shè)#中\(zhòng)和巧間任一位置或巧和《外一定距離的詞11(則 < WsWliW2 >為一上下文特征;d、語(yǔ)段Γ上下文特征假設(shè)H中實(shí)詞在語(yǔ)段T中一般有對(duì)應(yīng),因此語(yǔ)段T上下文特征可通過(guò)上述的上下文特征方法獲得;如果語(yǔ)段Γ上下文特征中有指代,則采用其指代候選參與構(gòu)成特征;e、語(yǔ)段Γ結(jié)構(gòu)特征對(duì)語(yǔ)段Γ進(jìn)行結(jié)構(gòu)分析,并利用語(yǔ)段T中包含的依存關(guān)系,得到語(yǔ)段r結(jié)構(gòu)特征;如果語(yǔ)段T結(jié)構(gòu)特征中有指代,則采用其指代候選參與構(gòu)成特征;f、歷史特征是根據(jù)分析過(guò)程中自定義的啟發(fā)式規(guī)則特征、用來(lái)模擬由無(wú)標(biāo)記無(wú)向圖到有標(biāo)記有向圖的轉(zhuǎn)換過(guò)程;·1. 2把訓(xùn)練數(shù)據(jù)中的每個(gè)標(biāo)記轉(zhuǎn)化為節(jié)點(diǎn),并確定最大生成樹(shù); 1. 3對(duì)步驟1. 2所得的樹(shù)進(jìn)行訓(xùn)練;·1. 4根據(jù)步驟1. 3的訓(xùn)練輸出,采用步驟1. 1中的公式^ =I(ZHJ)對(duì)新輸入的語(yǔ)段r和新輸入的假設(shè)//進(jìn)行解碼,即得到假設(shè)//對(duì)應(yīng)的無(wú)標(biāo)記的無(wú)向樹(shù)& ;2)有向圖分析,該步驟進(jìn)一步包括以下子步驟·2.1無(wú)向圖分析將步驟1)所得的無(wú)標(biāo)記的無(wú)向樹(shù)轉(zhuǎn)換為無(wú)標(biāo)記的無(wú)向圖; 2.2標(biāo)記分析將步驟2.1所得的無(wú)標(biāo)記的無(wú)向圖轉(zhuǎn)換為有標(biāo)記的無(wú)向圖; 2. 3有向圖分析將步驟2. 2所得的有標(biāo)記的無(wú)向圖轉(zhuǎn)換為有標(biāo)記的有向圖,即得到假設(shè)//的語(yǔ)義依存圖。
      4.根據(jù)權(quán)力要求3所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的步驟1. 2中最大生成樹(shù)的確定是采用普里姆算法。
      5.根據(jù)權(quán)力要求3所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的步驟1. 3采用Perceptron實(shí)時(shí)學(xué)習(xí)算法對(duì)步驟1. 2所得的樹(shù)進(jìn)行訓(xùn)練,具體為以訓(xùn)練數(shù)據(jù)<Γ,^~>為輸入,以特征權(quán)重向量θ為輸出,特征權(quán)重向量θ初始化為0 ;對(duì)每個(gè)訓(xùn)練數(shù)據(jù)> ,根據(jù)公式^ = ^^&力^^計(jì)算廣并計(jì)算f(T,H,iH)和/(H巧,調(diào)整特征權(quán)重向量;其中力步驟1. 2所得的樹(shù)。
      6.根據(jù)權(quán)力要求3所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的步驟2. 1具體為通過(guò)支持向量機(jī)SVM對(duì)每條可能的邊進(jìn)行分類,并根據(jù)分類結(jié)果判斷是否應(yīng)該加入改邊。
      7.根據(jù)權(quán)力要求3所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述的標(biāo)記分析和有向圖分析均利用了如下規(guī)則規(guī)則1:[實(shí)體][屬性值]==〉[屬性值]依存于[實(shí)體]規(guī)則2 [實(shí)體][屬性值標(biāo)記V][屬性]==〉[實(shí)體]依存于[屬性]規(guī)則3:[實(shí)體]([屬性標(biāo)記L]) [屬性]==〉[實(shí)體]依存于[屬性]。
      8.根據(jù)權(quán)力要求1所述的基于受限的語(yǔ)義依存分析的文本推理方法,其特征在于 所述步驟三中的評(píng)估、分析和概括具體包括對(duì)語(yǔ)義依存圖進(jìn)行總體分析,包括對(duì)依存、關(guān)系、方向、根節(jié)點(diǎn)及依存結(jié)構(gòu)進(jìn)行總體分析;對(duì)蘊(yùn)涵推理判斷的準(zhǔn)確率、召回率和F值進(jìn)行評(píng)估;總結(jié)概括漢語(yǔ)文本推理的主要句法和語(yǔ)義模板、三種推理類型的分布、各種數(shù)據(jù)源的比較、錯(cuò)誤發(fā)生的主要類型及原因。
      全文摘要
      本發(fā)明公開(kāi)了一種基于受限的語(yǔ)義依存分析的文本推理方法,包括以下步驟步驟一、根據(jù)語(yǔ)義依存的表示機(jī)制,建立一個(gè)漢語(yǔ)文本推理標(biāo)注資源,其中,一個(gè)文本推理標(biāo)注實(shí)例包含一個(gè)語(yǔ)段T、一個(gè)假設(shè)H、假設(shè)H的語(yǔ)義依存圖及推理類型;步驟二、在漢語(yǔ)文本推理標(biāo)注資源的基礎(chǔ)上,在新輸入的語(yǔ)段T的限制下對(duì)新輸入的假設(shè)H進(jìn)行語(yǔ)義依存分析,從而判斷語(yǔ)段T是否能推理出假設(shè)H;步驟三、對(duì)步驟二的分析過(guò)程和判斷結(jié)果進(jìn)行評(píng)估、分析和概括,并利用反饋改善分析過(guò)程的性能。本發(fā)明將文本推理的判斷形式化為一個(gè)受限的語(yǔ)義依存分析問(wèn)題,并將文本推理類型從蘊(yùn)涵擴(kuò)展至預(yù)設(shè)和隱含,該方法有助于處理較為復(fù)雜的話語(yǔ)性和對(duì)話性語(yǔ)料的推理。
      文檔編號(hào)G06F17/27GK102360346SQ201110336338
      公開(kāi)日2012年2月22日 申請(qǐng)日期2011年10月31日 優(yōu)先權(quán)日2011年10月31日
      發(fā)明者史華新, 呂晨, 吳龍飛, 姬東鴻, 孫程, 張明堯, 汪輝, 滕沖, 陳波, 韓欣 申請(qǐng)人:武漢大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1