国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用具有受限結(jié)構(gòu)的文本提供具有延遲類型評估的問答的制作方法

      文檔序號:6362348閱讀:153來源:國知局
      專利名稱:使用具有受限結(jié)構(gòu)的文本提供具有延遲類型評估的問答的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明一般地涉及信息檢索系統(tǒng),更具體地說,本發(fā)明涉及一種新穎的開域查詢/回答系統(tǒng)和方法,其使用具有受限結(jié)構(gòu)的文本實(shí)現(xiàn)候選答案的延遲類型評估。
      背景技術(shù)
      有關(guān)問答(QA)的當(dāng)前問題和方法的介紹可以在基于Web的參考http: //en.wikipedia.0rg/wiki/Question_answering 中找到。一般而言,QA 是一種類型的信息檢索。如果給出文檔集合(例如萬維網(wǎng)或本地集合),則系統(tǒng)應(yīng)能夠檢索以自然語言提出的問題的答案。QA被視為比其它類型信息檢索(例如文檔檢索)需要更復(fù)雜的自然語言處理(NLP)技術(shù),并且有時被視為超越搜索引擎的后續(xù)步驟。QA研究嘗試處理各種問題類型,包括:事實(shí)、列表、定義、方式、原因、假設(shè)、語義約束和跨語言問題。搜索集合有所不同,從小型本地文檔集合到內(nèi)部組織文檔,到編譯后的新聞專線報道,再到萬維網(wǎng)。閉域QA在特定領(lǐng)域(例如,醫(yī)學(xué)或汽車維修)下處理問題,并且可以被視為更容易的任務(wù),因?yàn)镹LP系統(tǒng)可以利用通常以本體形式化的領(lǐng)域特定的知識。開域QA處理有關(guān)幾乎任何事物的問題,并且只能依賴通用本體和世界知識。另一方面,這些系統(tǒng)通常具有可從其中提取答案的更多數(shù)據(jù)。

      備選地,閉域QA可能指這樣一種情況:其中僅接受受限類型的問題,例如詢問描述性信息而不是過程信息的問題。對信息的訪問目前由兩種范式控制。第一,數(shù)據(jù)庫查詢,其回答有關(guān)結(jié)構(gòu)化記錄集合中的內(nèi)容的問題。第二,搜索,其響應(yīng)于針對非結(jié)構(gòu)化數(shù)據(jù)(例如,文本或html)集合的查詢而提供文檔鏈接集合。這種信息查詢范式的一個未解決的主要問題是:沒有能夠根據(jù)包括在文檔集合(可以是結(jié)構(gòu)化、非結(jié)構(gòu)化或這兩者)中的信息準(zhǔn)確回答實(shí)際問題的計算機(jī)程序。這種實(shí)際問題可以是寬泛的(例如“what are the risks of vitamin K deficiency (維生素K缺乏的危害是什么?)”),或者是狹窄的(例如“when and where was Hillary Clinton’s fatherborn (希拉里.克林頓的父親出生在何時何地?)”)。面臨的挑戰(zhàn)是理解查詢,查找可能包含答案的適當(dāng)文檔,以及提取正確答案以提供給用戶。需要更高級的方法以回答開域問題
      發(fā)明內(nèi)容
      本發(fā)明通過提供一種使用具有受限結(jié)構(gòu)的文本進(jìn)行具有延遲類型評估的問答的動態(tài)基礎(chǔ)架構(gòu)和方法,解決了上述需要。本發(fā)明的一個方面提供了一種系統(tǒng),所述系統(tǒng)采用處理步驟實(shí)現(xiàn)機(jī)器處理以回答問題,其中從知識源和數(shù)據(jù)庫源提取半結(jié)構(gòu)化信息(例如具有受限結(jié)構(gòu)的信息)并以適合于機(jī)器處理的形式重新表示所述信息。具體地說,提供了一種系統(tǒng)和方法,以便從具有受限結(jié)構(gòu)的源提取答案分型信息(answer-typing information),并使用該提取的類型信息對候選答案進(jìn)行評分。因此,在一個方面,提供了一種用于為自動QA系統(tǒng)使用的數(shù)據(jù)庫提供內(nèi)容的系統(tǒng)和方法。所述方法包括:自動標(biāo)識來自數(shù)據(jù)源的半結(jié)構(gòu)化文本數(shù)據(jù);從所述半結(jié)構(gòu)化文本數(shù)據(jù)自動標(biāo)識一個或多個實(shí)體-類型關(guān)系,所述實(shí)體-類型關(guān)系包括與類型關(guān)聯(lián)的一個或多個實(shí)體;自動提取所標(biāo)識的實(shí)體-類型關(guān)系;以及將所提取的實(shí)體-類型關(guān)系作為實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)存儲在所述數(shù)據(jù)庫中,其中處理設(shè)備被配置為執(zhí)行半結(jié)構(gòu)化文本和實(shí)體-類型關(guān)系的所述自動標(biāo)識、所述提取和所述存儲。進(jìn)一步就此方面而言,所述半結(jié)構(gòu)化文本包括項(xiàng)目分隔標(biāo)記,所述自動標(biāo)識半結(jié)構(gòu)化文本數(shù)據(jù)包括解析所述數(shù)據(jù)源的內(nèi)容以標(biāo)識所述項(xiàng)目分隔標(biāo)記,所述項(xiàng)目分隔標(biāo)記指定形成實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)的類型信息和實(shí)體。進(jìn)一步,所述項(xiàng)目分隔標(biāo)記包括指定類型實(shí)體的“列表”一詞的標(biāo)題、頭、詳述、圓點(diǎn)(bullet)標(biāo)記、圓括號、超文本鏈接、統(tǒng)一資源定位符或所述數(shù)據(jù)源中的表。在另一方面,提供了用于自動生成問題答案的計算機(jī)實(shí)現(xiàn)的系統(tǒng)和方法,所述方法包括以下步驟:確定與輸入查詢關(guān)聯(lián)的詞法答案類型(LAT);使用具有半結(jié)構(gòu)化內(nèi)容的數(shù)據(jù)源獲得所述輸入查詢的一 個或多個候選答案;確定來自所述半結(jié)構(gòu)化內(nèi)容的一個或多個獲得的候選答案中的每個候選答案的詞法類型(LT);比較查詢LAT與候選答案LT ;以及生成表示所比較的查詢LAT與所述候選答案LT之間的匹配度的得分,所述得分指示所獲得的候選答案的質(zhì)量,其中處理設(shè)備自動執(zhí)行所述確定查詢LAT、計算候選答案、確定LT、比較以及生成步驟中的一個或多個。在此方面,所述計算機(jī)實(shí)現(xiàn)的方法還包括:在所述半結(jié)構(gòu)化內(nèi)容中標(biāo)識一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息;以及在與QA系統(tǒng)通信的數(shù)據(jù)存儲設(shè)備中存儲實(shí)體-類型結(jié)構(gòu),每個實(shí)體-類型結(jié)構(gòu)表示所述一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息,其中所述確定詞法類型(LT)包括訪問所存儲的實(shí)體-類型結(jié)構(gòu),以便從與存儲在所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的所述一個或多個實(shí)體關(guān)聯(lián)的類型來標(biāo)識詞法類型(LT)。在此方面,所述比較包括解析每個相應(yīng)的查詢LAT和候選答案LT,以便獲得每個查詢LAT和候選答案LT的相應(yīng)術(shù)語或詞組;所述比較進(jìn)一步包括以下操作中的一個或多個:匹配相應(yīng)查詢LAT和候選答案LT的個體術(shù)語,或匹配每個相應(yīng)查詢LAT和候選答案LT的完整詞組。提供了一種用于執(zhí)行操作的計算機(jī)程序產(chǎn)品。所述計算機(jī)程序產(chǎn)品包括存儲介質(zhì),所述存儲介質(zhì)可由處理電路讀取并存儲由所述處理電路運(yùn)行以執(zhí)行方法(多個)的指令。所述方法(多個)與上面列出的相同。


      在下面給出的具體實(shí)施方式
      的上下文中理解本發(fā)明的目標(biāo)、特性和優(yōu)點(diǎn)。在附圖的上下文中理解具體實(shí)施方式
      ,所述附圖形成本公開的重要部分,其中:圖1示出了其中可以采用本發(fā)明的問/答方法的高級邏輯架構(gòu)10 ;圖2是用于在QA系統(tǒng)中進(jìn)行具有延遲類型評估的問答的方法的流程圖;圖3是示出在圖2的流程圖的步驟132處執(zhí)行的得分產(chǎn)生的流程圖;圖4示出了用于自動標(biāo)識包括可以在圖3的步驟132b處實(shí)現(xiàn)的受限結(jié)構(gòu)(“半結(jié)構(gòu)化”)的文本的頁、文檔和其它內(nèi)容的方法;圖5示出了應(yīng)用可以在圖3的步驟132c處實(shí)現(xiàn)的詞組和術(shù)語匹配功能的LATTE過程300 ;圖6示出了圖5的詞組和術(shù)語處理功能345的框圖;圖7示出了圖6中所示組件之間的LATTE過程和得分產(chǎn)生的控制500的實(shí)例流程;圖8示出了圖5-6的LATTE過程的實(shí)例流程控制;圖9示出了用于提供處理CAS數(shù)據(jù)結(jié)構(gòu)的一種類型的分析引擎的ΠΜΑ框架實(shí)現(xiàn)的一個方面;以及圖10示出了用于在一個實(shí)施例中運(yùn)行圖2-8中描述的方法步驟的示例性硬件配置。
      具體實(shí)施方式
      共同擁有、共同未決的標(biāo)題為“SYSTEMAND METHOD FOR PROVIDING QUESTION ANDANSWERS WITH DEFERRED TYPEEVALUATION”(用于提供具有延遲類型評估的問答的系統(tǒng)和方法)(在此引入作為參考)的第12/126,642號美國專利申請描述了一種QA系統(tǒng)和方法,其中自動生成問題的答案。更具體地說,它涉及比較從問題確定的詞法類型與從搜索獲得的每個候選答案所關(guān)聯(lián)的詞法類型。問題請求的詞法答案類型在此稱為“詞法答案類型”或“LAT”。與每個候選答案關(guān)聯(lián)的詞法類型在此稱為詞法類型或“LT”。所述QA系統(tǒng)使用下面針對圖1描述的系統(tǒng)和方法。證據(jù)收集和答案評分功能50是編程的處理組件,其接收(I)“詞法答案類型”(LAT),例如描述某一概念的文本字符串,以及(2) “候選答案”輸入(多個),例如描述某一實(shí)體的文本字符串。所述編程的處理組件生成輸出,所述輸出包括表示所述實(shí)體在多大程度上是所述概念的實(shí)例的判斷(例如,得分)。如下面的圖2和3中所述,這用作答案評分功能(例如,基于計算的候選答案詞法類型(LT))的一部分。如下面針對圖3所述,在處理輸入查詢以確定LAT以及搜索并獲得一個或多個候選答案之后,針對接收的每個候選答案執(zhí)行以下步驟:將所述候選答案與數(shù)據(jù)庫中的實(shí)例(包括匹配的實(shí)例132a)匹配,這導(dǎo)致生成輸出數(shù)據(jù)結(jié)構(gòu);查找(搜索)所述候選答案具有所需LAT的證據(jù),并檢索與知識庫(KB) 132b中的這些實(shí)例關(guān)聯(lián)的LT (多個);以及嘗試將LAT(多個)與LT (多個)匹配(例如,由使用解析器、語義解釋器和/或簡單模式匹配器的匹配功能確定),并產(chǎn)生表示匹配度的得分132c。更具體地說,將候選答案LT和查詢!^吖多個)表示為詞法字符串。得分(稱為“TyCor”(類型強(qiáng)制)得分)的產(chǎn)生包括三個步驟:(1)候選答案與實(shí)例匹配,(2)實(shí)例與類型關(guān)聯(lián)提取,以及(3) LAT與類型匹配。得分反映可以將候選答案“強(qiáng)制”為LAT的程度,其中較高的得分指示較好的強(qiáng)制。在一個實(shí)施例中,如在此針對圖4描述的那樣,本公開通過自動提供將“實(shí)體”(例如,問題的候選答案)與詞法類型關(guān)聯(lián)的信息源,擴(kuò)展并補(bǔ)充了在共同未決的第12/126,642號美國專利申請中描述的系統(tǒng)和方法的效用。編程組件構(gòu)建或填充信息庫,例如數(shù)據(jù)庫或知識庫(KB),它們可以用于通過促進(jìn)在針對圖3中的步驟132b描述的知識庫中自動檢索與答案實(shí)例關(guān)聯(lián)的“類型”(答案分型(typing)),完成針對每個候選答案計算一個或多個詞法類型(LT)的任務(wù)。即,如果給出實(shí)例(例如,諸如名詞之類的單詞),則所述方法自動評估指定的LT,其中答案分型數(shù)據(jù)以具有有限數(shù)量的顯式結(jié)構(gòu)(S卩,半結(jié)構(gòu)化)的形式存在。在一個方面,所述系統(tǒng)和方法產(chǎn)生在匹配中使用的實(shí)例和類型的知識庫。此外,如在此針對圖5-7描述的那樣,提供了一種系統(tǒng)和方法,它們可以用于例如在圖1的QA系統(tǒng)中執(zhí)行答案評分功能(可以在圖3中的步驟132c實(shí)現(xiàn))時,自動執(zhí)行將查詢LAT與候選答案LT “匹配”的任務(wù)。為了候選答案與實(shí)例匹配,將候選答案與知識資源(例如,數(shù)據(jù)庫或KB或網(wǎng)頁)中的一個或多個實(shí)例相匹配,其中實(shí)例采取的形式取決于知識資源,并且從知識庫(KB)檢索與這些實(shí)例關(guān)聯(lián)的詞法類型(LT)?,F(xiàn)在描述用于提取和使用來自具有受限結(jié)構(gòu)的源的分型信息,以及使用該提取的類型信息以回答問題的系統(tǒng)和方法。實(shí)際上,所述方法通常在構(gòu)建KB期間作為脫機(jī)過程執(zhí)行;但是,可以在實(shí)時運(yùn)行QA調(diào)用期間執(zhí)行,例如在第12/126,642號美國專利申請中描述的。所述系統(tǒng)和方法利用機(jī)器處理以回答問題,所述機(jī)器處理采用特殊的處理步驟,其中從各種數(shù)據(jù)源和數(shù)據(jù)庫自動提取具有受限結(jié)構(gòu)的信息并以適合于機(jī)器(自動)處理的形式重新表示。然后可以在問答中使用結(jié)果,如在共同擁有、共同未決的第12/126,642號美國專利申請中指定的那樣,因此如果給出輸入查詢LAT,則輸出是判斷,例如通過評估事物(例如,名詞或單詞或?qū)嶓w)是否屬于或具有指定的詞法答案類型,判斷實(shí)體是否是概念實(shí)例。

      現(xiàn)在針對圖4描述用于從半結(jié)構(gòu)化文本中提取實(shí)體-類型對集合的過程的一個實(shí)施例。如圖4中所示,計算機(jī)實(shí)現(xiàn)的方法在202包括自動標(biāo)識可以從數(shù)據(jù)源或數(shù)據(jù)庫等存儲、訪問或獲得的具有受限結(jié)構(gòu)(即,“半結(jié)構(gòu)化”)的頁(例如,文檔、列表和其它數(shù)據(jù)內(nèi)容)。所述數(shù)據(jù)源例如可以包括但不限于公用或?qū)S脭?shù)據(jù)庫或知識庫、內(nèi)聯(lián)網(wǎng)、因特網(wǎng)、網(wǎng)頁,可以例如使用搜索引擎、基于Web的爬取器或其它搜索工具對它們進(jìn)行搜索和/或爬取以獲得內(nèi)容。其他源可以包括存儲設(shè)備,諸如包括例如知識庫的內(nèi)容的硬盤驅(qū)動器,可以對其進(jìn)行搜索和遍歷以標(biāo)識存儲的半結(jié)構(gòu)化內(nèi)容以便處理。用于從半結(jié)構(gòu)化文本提取實(shí)體-類型對集合的過程可以作為預(yù)處理步驟執(zhí)行,或者在接收問題作為到系統(tǒng)的輸入時按需執(zhí)行。所述計算機(jī)實(shí)現(xiàn)的方法標(biāo)識的一種受限結(jié)構(gòu)是顯式標(biāo)記為具有列表(S卩,標(biāo)記的
      元素列表)的頁或文檔。例如,標(biāo)題為“List of (列表)”后跟名詞詞組的Wikipediaw
      (ffikimedia Foundation, Inc.的注冊服務(wù)商標(biāo))頁。列表指具有指定“類型”的實(shí)例列表。例如,http://en.wikipedia.0rg/wiki/List_of_poets提供詩人列表;在該列表中具有用于Robert Frost的表項(xiàng),這暗不Robert Frost是詩人。
      另一種受限結(jié)構(gòu)是標(biāo)簽(例如Wikipedia 中的類別)或統(tǒng)一資源定位符(URL)
      (例如社會化書簽(例如,來自 http://delicious, com/))。例如,Robert Frost 的Wikipedia頁具有顯式 Wikipedia 類別“English-language poets (英語詩人)”,其是“Poets bylanguage (按語言分類的詩人)”的子類別,“Poets by language (按語言分類的詩人)”是“Poets (詩人)”的子類別。因此可以斷定Robert Frost是詩人。這種文檔通常旨在便于人類讀者理解,這與設(shè)計用于機(jī)器處理的完全結(jié)構(gòu)化文本源不同。接下來,如圖4中所示,所述計算機(jī)實(shí)現(xiàn)的方法在205包括自動標(biāo)識項(xiàng)目分隔標(biāo)記。即,列表(輸入)具有例如可以使用解析功能發(fā)現(xiàn)的標(biāo)記,例如包括但不限于“列表”一詞的標(biāo)題、頭或詳述、圓點(diǎn)標(biāo)記、圓括號、可以是表列/行處的列表的指示符的超文本鏈接,或者任何可以標(biāo)識的標(biāo)記。例如在QA處理期間(在一個實(shí)施例中)或者在QA處理之前作為預(yù)處理步驟(在另一個實(shí)施例中),所標(biāo)識的列表元素(內(nèi)容)可以在知識庫或存儲器中加標(biāo)記、加標(biāo)志或以其它方式標(biāo)識(例如在磁盤、易失性或非易失性存儲裝置中),以便隨后訪問所標(biāo)識的內(nèi)容。這包括區(qū)分什么可能不是所需的列表內(nèi)容(即,不是列表表項(xiàng)的一部分)。例如,在US Poets(美國詩人)的列表中,如果列表是詩人列表,則包括年份(例如,1852)的內(nèi)容不是相關(guān)內(nèi)容,因此可不被輸出或加標(biāo)志。圖4中所示的下一個自動步驟210包括提取實(shí)體詞法-類型對。即,除了標(biāo)識具有分隔項(xiàng)目(例如,帶圓點(diǎn)的內(nèi)容列表)的頁或文檔之外,所述標(biāo)識步驟還包括標(biāo)識分隔項(xiàng)目的詞法類型,所述詞法類型可以從內(nèi)容獲得,例如列表項(xiàng)目前面的標(biāo)題或頭。在一個實(shí)施例中,例如在關(guān)系數(shù)據(jù)庫管理系統(tǒng)或更專用的數(shù)組和/或鏈接列表結(jié)構(gòu)組合中,然后將每個詞法類型和對應(yīng)標(biāo)識的項(xiàng)目(多個)配對,并使用知識庫的用于存儲對的內(nèi)部機(jī)制,將所述對存儲在知識庫中。將圖4的處理的輸出存儲在圖1的KB21中。在步驟202標(biāo)識的這種列表頁的一個公共可用的實(shí)例212是http://en.wikipedia.0rg/wiki/List_of_poets_from_the_United_States。該頁(至丨J 2010 年 7 月為止)在其帶圓點(diǎn)列表213中·包括詩人名字以及他們的生卒年份(在圓括號中)。該列表頁可以由搜索引擎或爬取器經(jīng)由Web或因特網(wǎng)搜索來標(biāo)識,或者在本地聯(lián)網(wǎng)或連接的硬盤驅(qū)動器(提供具有包含半結(jié)構(gòu)化文本的文檔的信息庫)處搜索。因此,在該實(shí)例中,如在圖4中的212處所示,可以將頁標(biāo)識為具有諸如標(biāo)題“LiStof Poets from the United States (美國詩人列表)”218之類的內(nèi)容。進(jìn)一步,所標(biāo)識的列表頁可以包括可搜索和標(biāo)識的分隔標(biāo)記215,例如圓點(diǎn),如在列表213中的每個項(xiàng)目(實(shí)體)前面所示。在該實(shí)例中,如圖4中所示,在215,以斜體文本標(biāo)記這些可以識別為列表213的項(xiàng)目的實(shí)體。在該實(shí)例中,例如從“l(fā)ist of”標(biāo)題218中為候選答案LT指定“poetsfrom the United States (美國詩人)”。在圖4中的220處,實(shí)現(xiàn)的功能執(zhí)行標(biāo)識和提取實(shí)體及其詞法類型對,它們從以下事實(shí)中推斷:列表中的實(shí)例是從列表的標(biāo)題獲得的詞法表達(dá)的“類型”的實(shí)例。在這種情況下,實(shí)例包括“Robert Frost”和其它人,并且詞法表達(dá)的類型是“poets from the UnitedStates”。在一個實(shí)施例中,可以在“類型”字段中存儲或標(biāo)記LT,并將與類型或內(nèi)容相關(guān)的標(biāo)識和提取的候選答案實(shí)例(實(shí)體或項(xiàng)目)作為鏈接結(jié)構(gòu)存儲在“實(shí)體”字段中。這些字段被編碼在知識庫中,所述知識庫可以使用關(guān)系數(shù)據(jù)庫管理系統(tǒng)或更專用的數(shù)組和/或鏈接列表結(jié)構(gòu)組合來實(shí)現(xiàn)。因此,所述知識庫存儲標(biāo)識、提取的實(shí)體-類型關(guān)系,包括與作為可搜索內(nèi)容結(jié)構(gòu)220的一個或多個候選答案實(shí)體關(guān)聯(lián)的詞法類型。在某些情況下,準(zhǔn)確提取詞法類型需要區(qū)分詞法類型與組織信息。例如,“List ofnovels by point of view (按觀點(diǎn)分類的小說列表)”提供詞法類型為“novel (小說)”的元素,并且按觀點(diǎn)組織這些元素。相比之下,“List of novels by Henry JamesCHenry James小說列表)”將提供詞法類型為“novel by Henry James (Henry James小說)”的元素,并且不提供有關(guān)列表組織的任何信息。另一方面,可能沒有必要進(jìn)行這種準(zhǔn)確判斷,具體取決于使用的特定LAT與類型匹配(LATTE)配置;例如,“中心詞”段落匹配器(參見下文),其在兩種情況下將“novel ”識別為中心詞。因此,由存儲在非瞬時性存儲介質(zhì)(例如,存儲設(shè)備)中的編程方法實(shí)現(xiàn)以便處理“l(fā)ist of”頁的實(shí)例處理元素包括用于以下操作的功能:1.標(biāo)識枚舉列表的“類型”;2.標(biāo)識列表的元素(實(shí)體)(使用列表元素的文本、有關(guān)元素的超鏈接、這些超鏈接指向的文檔的標(biāo)題等);以及3.推斷每個元素(以2標(biāo)識)屬于該類型(以I標(biāo)識)。在圖4中,在一個實(shí)施例中,自動提取實(shí)體/詞法-類型對方法的第一步驟實(shí)施一種搜索工具,以便例如從百科全書數(shù)據(jù)庫源簡單地搜索“Listof…(...列表)”文檔之后的所有文本。S卩,上面的步驟202是在資源中標(biāo)識列表承載頁,該過程可以包括過濾其標(biāo)題以“List of”開始的頁,或者可以涉及自動分類器。在一個實(shí)施例中,使用統(tǒng)計機(jī)器學(xué)習(xí)訓(xùn)練所述分類器:為學(xué)習(xí)過程提供一組列表承載頁實(shí)例和非列表承載頁實(shí)例,以及一個或多個生成特性的算法,并且所述分類器標(biāo)識建議頁是或不是列表承載頁的這些特性的某一組合。可用于該目的的特性包括結(jié)構(gòu)元素(例如,表或帶圓點(diǎn)的列表)和詞法元素(例如,頁上存在“列表” 一詞)。在一個實(shí)施例中,更準(zhǔn)確的提取需要其它邏輯。例如,許多列表名稱都提供有關(guān)列表組織的其它信息。在一個實(shí)施例中,圖4中的步驟205是將包含在原始頁中的標(biāo)記抽象成兩個與提取任務(wù)相關(guān)的元素:頭和圓點(diǎn)。頭指章節(jié)標(biāo)記,而“圓點(diǎn)”例如指定一組標(biāo)記元素,它們在頁中用于分隔列表元素。其它分隔符包括但不限于:圓點(diǎn)、表行等。第二步驟進(jìn)一步專注于可以在半結(jié)構(gòu)化文本(列表、表等)中指示列表成員的許多不同方式。例如,許多列表不僅包括元素,而且還包括有關(guān)元素的上下文和注釋,以及為了將元素與其它文本分離而實(shí)現(xiàn)的功能。此外,將提取的元素與固定知識庫中的實(shí)例相關(guān)聯(lián)
      并非易事。在某些情況下,半結(jié)構(gòu)化內(nèi)容顯式提供該信息(例如,Wikipedia i “List of”
      頁中的表項(xiàng)通常是超鏈接,并且可以將它們鏈接到的URL解釋為知識庫實(shí)例的唯一標(biāo)識符)。在其它情況下,可能需要顯式實(shí)例查找步驟,該步驟使用實(shí)現(xiàn)圖3中的步驟132a的相同機(jī)制。該步驟應(yīng)用于候選答案,并且還應(yīng)用于從列表提取的元素。在另一實(shí)施例中,可能不需要顯式查找,因?yàn)橄到y(tǒng)可以將實(shí)例名稱映射到詞法類型。所述過程進(jìn)一 步解決其中列表名稱包括連接詞的情況。例如,“List of cities andtowns along the Ohio River (俄亥俄河流經(jīng)的城市和城鎮(zhèn)列表)”的任意元素是在俄亥俄河附近的城市或城鎮(zhèn)。在一個實(shí)施例中,將其中結(jié)合詞法類型的列表標(biāo)題分成兩個不同的詞法類型,針對每個類型添加知識庫中的一個不同表項(xiàng)。在另一個實(shí)施例中,包括連接詞的整個詞法類型可以包括在知識庫中,并且將在詞組匹配(如在下文針對圖8描述的那樣,在350處理)時采用特殊邏輯以處理連接詞。在圖4中,步驟210是提取實(shí)際實(shí)體/詞法-類型對。所述詞法類型提取自頁標(biāo)題(例如,通過刪除標(biāo)題開頭的“List of”(如果有))。通過在上一步驟添加的抽象圓點(diǎn)標(biāo)記的幫助,提取每個實(shí)體。對于每個圓點(diǎn),搜索更靠近該圓點(diǎn)的超鏈接實(shí)例,并且如果在該圓點(diǎn)和下一個圓點(diǎn)之間沒有超鏈接,則不針對該圓點(diǎn)提取實(shí)體。該超鏈接的目標(biāo)將是所提取的實(shí)體/詞法-類型對的實(shí)體。如果缺少超鏈接,則擴(kuò)展該技術(shù)以便在圓點(diǎn)文本中提取作為最顯著詞組(通常為主題)的實(shí)體,如自動顯著性注釋器確定的那樣。圖4中所示的用于處理“l(fā)ist of”頁的三步驟過程是用于從具有受限結(jié)構(gòu)的源提取實(shí)體-類型對的更常見過程的一種特殊化:將更常見的形式應(yīng)用于可能不包括“l(fā)ist of”頁的源。在這種情況下采用的過程步驟將包括:1.標(biāo)識受限結(jié)構(gòu)暗示為類型的文本;2.標(biāo)識受限結(jié)構(gòu)暗示為實(shí)體的文本;3.推斷實(shí)體(以2標(biāo)識)是類型(以I標(biāo)識)的實(shí)例。例如,可以通過在文本之前存在字符串“ [[Category: ”并在文本之后存在字符串“]],,,在Wikipedia文檔中標(biāo)識類別;該類別可能是有用的詞法類型,或者可能需要規(guī)范化或推斷以產(chǎn)生詞法類型。對于
      Wikipedia 類別,具有類型的實(shí)體是頁講述內(nèi)容的實(shí)體;實(shí)體的名稱是頁標(biāo)題。因此,
      在步驟2從頁中提取標(biāo)題, 并在步驟3通過將標(biāo)題和提取的詞法類型添加到知識庫中,將
      標(biāo)題與類型關(guān)聯(lián)。例如,標(biāo)題為“Robert Frost”的1Wikipedia_:K)頁在其源中具有以下文
      本:“ [[Category: Sonneteers]] ”。在步驟I,使用上述模式提取單詞“ Sonneteers (十四行詩人)”作為詞法類型。在步驟2,從文檔標(biāo)題提取字符串“Robert Frost”。在步驟3,將對(“Sonneteers”、“Robert Frost”)添加到知識庫中。所述提取過程的結(jié)果可以還包括對應(yīng)于實(shí)體和類型的字符串對。這種對可以用于回答使用延遲類型評估的問題。延遲類型評估的一個步驟是將詞法答案類型(LAT)與某一候選答案的已知類型匹配。如果候選答案是完全結(jié)構(gòu)化知識庫中的實(shí)體,則該步驟變得相對容易,因?yàn)橹R庫表項(xiàng)(按照定義)具有其關(guān)系已知的正式、明確的類型。在一個實(shí)施例中,將LAT與某一候選答案的類型匹配考慮了直接從文本獲得實(shí)體和類型的情況。例如,如果給出詢問某人的問題,以及在詩人列表上顯示的候選答案,則在可以確定所有詩人都是人的情況下,可以僅斷定該候選答案具有有效類型。這可以使用某一字典或詞典資源實(shí)現(xiàn),如果消除LAT和已知類型的歧義使其具有特定詞義,則會更可靠。用于使用諸如字典或詞典之類的資源確定某人和詩人等術(shù)語是否相互一致的邏輯被編碼在下面描述的原始(primitive)術(shù)語匹配器中。在另一方面,現(xiàn)在結(jié)合過程300 (結(jié)合圖5描述)描述用于匹配(可以在圖3中的132c處實(shí)現(xiàn))的功能或過程。在一個方面,對QA系統(tǒng)10的證據(jù)收集和答案評分模塊50進(jìn)行編程,以便接收包括問題LAT302 (從查詢處理中獲得)的輸入以及包括候選答案詞法類型312 (例如,從知識庫中獲得)的輸入。如圖5中所不,在一個實(shí)施例中,調(diào)用文本處理功能325,并且在一個實(shí)施例中,可以執(zhí)行用于“LAT與類型匹配”的一個或多個計算機(jī)實(shí)現(xiàn)的過程,包括:1.匹配個體術(shù)語(例如,將“country (國家)”與“nation (國家)”匹配);以及2.匹配完整詞組(例如,將“country with a national currency (具有本國貨幣的國家)”與“nation with itsown currency (具有它自己貨幣的國際)”匹配)。后者(詞組匹配器)包括前者(術(shù)語匹配器)加上控制邏輯組成,實(shí)現(xiàn)所述控制邏輯以便確定要嘗試匹配哪些術(shù)語以及如何將術(shù)語匹配得分組合成詞組匹配得分。如圖5中所示,在一個實(shí)施例中,該文本處理325可以由包括如下功能的現(xiàn)成文本處理器實(shí)現(xiàn):將接收的問題LAT302和候選答案詞法類型312詞組分解成標(biāo)記,并確定標(biāo)記化后的單詞或詞組之間的語法關(guān)系或其間的語法角色。更具體地說,文本處理組件325將每個輸入分成不同的術(shù)語(例如,通過標(biāo)記化過程)。在一個實(shí)施例中,所述組件進(jìn)一步根據(jù)詞組匹配器或術(shù)語匹配器的需要,使用既定的最新自然語言處理技術(shù)應(yīng)用句法和/或語義分析;例如,它可以使用解析器標(biāo)識其輸入的中心詞,以供中心詞段落匹配器使用。例如,分解詞組將在語法上留下一個根詞和一個或多個單詞,它們修改或涉及單詞(包括中心詞(名詞)的名詞詞組的修飾語(例如,形容詞))。在一個方面,如在此提到并在圖5中所示的那樣,應(yīng)用該文本處理以產(chǎn)生問題LAT結(jié)果330和處理后的候選答案詞法類型(LT)結(jié)果340??梢栽跀?shù)據(jù)庫中將這些結(jié)果330、340組織為鏈接節(jié)點(diǎn),這些鏈接節(jié)點(diǎn)然后可以用于一個或多個匹配組件(體現(xiàn)為圖5中的編程詞組和術(shù)語匹配器組件345)。這些組件生成指示匹配度的匹配得分346。圖6示出了實(shí)例詞組和術(shù)語匹配方法345的框圖。這些功能體現(xiàn)為(I)詞組匹配和(2)術(shù)語匹配器。計算機(jī)編程的詞組匹配器組件350實(shí)現(xiàn)處理,以便接收輸入詞組對(每個對包括一個或多個術(shù)語)并產(chǎn)生有關(guān)兩個詞組之間的匹配度的判斷作為輸出。術(shù)語匹配器355采取術(shù)語對作為輸入,并產(chǎn)生有關(guān)兩個術(shù)語之間的匹配度的判斷作為輸出。在一個方面,詞組匹配組件350提供這樣的功能:確定要使用術(shù)語匹配器355比較哪些術(shù)語對以及如何將術(shù)語匹配器的結(jié)論組合成有關(guān)詞組的匹配度的結(jié)論。術(shù)語匹配器是詞組匹配器的“代表”。術(shù)語“代表”指兩個功能單元之間的關(guān)系,其中一個單元調(diào)用另一個單元以實(shí)現(xiàn)其某些功能。由圖6看來,詞組匹配器350的一個實(shí)例是中心詞詞組匹配器351,其將每個詞組視為一個中心詞加上修飾語集合,并嘗試將中心詞與中心詞匹配,將修飾語與修飾語匹配。即,中心詞詞組匹配器351組件將其指定的術(shù)語匹配器應(yīng)用于LAT的語法中心詞和候選答案詞法類型的語法中心詞。例如,這種配置有“字符串相等”術(shù)語匹配器的匹配器將為“European nation (歐洲國家)”和“nation on Earth (地球上的國家)”提供高匹配得分,因?yàn)檫@兩個詞組具有中心詞“nation”。在一個實(shí)施例中,如圖6中所示,實(shí)現(xiàn)術(shù)語匹配組件的兩個廣泛子類:1.原始術(shù)語匹配器355a采用單一、特定的匹配策略,并根據(jù)匹配度提供得分;以及2.聚合術(shù)語匹配器355b組合多個匹配器(可以是原始的或聚合的)。原始術(shù)語匹配器355a采用策略以確定輸入術(shù)語對(多個)的相互匹配程度。原始術(shù)語匹配器的一個簡單實(shí)例是“文本相等”原始術(shù)語匹配器356,其將具有相同文本的一對術(shù)語視為匹配,將任何其它術(shù)語對視為不匹配。例如,文本相等原始術(shù)語匹配器356為相同的字符串提供1.0的得分,為不相同的字符串提供0.0的得分。原始術(shù)語匹配器的一個更復(fù)雜的實(shí)例是“地理政治”術(shù)語匹配器366,其僅應(yīng)用于均為地理政治實(shí)體的術(shù)語對,并且當(dāng)術(shù)語等價( 例如,“U.S.(美國)”和“America (美國)”)和/或密切相關(guān)(例如,“U.S.”和“Texas (德克薩斯州)”)時,提供高得分。原始術(shù)語匹配器355a的一個更復(fù)雜的實(shí)例是“詞典同義詞”術(shù)語匹配器(未示出),其為屬于已知詞典中的同義詞的術(shù)語提供高得分;如果這種匹配器使用周圍上下文消除術(shù)語歧義,則其可能更準(zhǔn)確。原始術(shù)語匹配器355a的另一個實(shí)例是“字符串編輯距離”術(shù)語匹配器(未示出),其為具有大致相同字母的術(shù)語(例如,elephant =elephand)提供高得分,其在微小拼寫錯誤很常見的上下文中可以非常有用。在圖6中,聚合術(shù)語匹配器355b采用一個或多個“代表”術(shù)語匹配器,每個匹配器可以是原始355a或聚合355b。如果代表術(shù)語匹配器是聚合的,則它也具有代表,這些代表也是原始或聚合的。每個聚合術(shù)語匹配器根據(jù)其控制邏輯調(diào)用一個或多個代表。聚合術(shù)語匹配器實(shí)現(xiàn)用于根據(jù)其組合邏輯組合這些代表的得分的功能。每個原始術(shù)語匹配器采用內(nèi)部邏輯以計算得分并返回所述得分。在一個實(shí)施例中,由單個聚合術(shù)語匹配器355b組合在一起的匹配器是該匹配器的代表。每個代表術(shù)語匹配器在其代表之間實(shí)現(xiàn)如圖7中描述的控制流,并實(shí)現(xiàn)某種策略以便將代表的結(jié)果組合成單一得分。聚合術(shù)語匹配器組合功能包括其代表之間的流控制,并實(shí)現(xiàn)策略以便將應(yīng)用代表術(shù)語匹配器的結(jié) 果組合成有關(guān)術(shù)語對之間的匹配度的最終結(jié)論。在一個實(shí)施例中,所述代表的組合結(jié)果將生成單一得分。例如,聚合術(shù)語匹配器355b運(yùn)行其所有代表,然后返回所有代表的所有得分的總和。聚合術(shù)語匹配器355b的一個實(shí)例是最大得分聚合術(shù)語匹配器367,其獲得輸入術(shù)語對,將其每個代表應(yīng)用于該術(shù)語對,并返回跨所有代表的最大得分。在另一個實(shí)施例中,聚合術(shù)語匹配器355b包括得分聚合術(shù)語匹配器368 (其獲得輸入術(shù)語對)的乘積,將其每個代表應(yīng)用于該術(shù)語對,并將所有代表的所有得分相乘。在一個實(shí)施例中,聚合術(shù)語匹配器可以使用從機(jī)器學(xué)習(xí)獲得的統(tǒng)計模型,以便將代表的得分組合成所述聚合的得分。在一個實(shí)施例中,邏輯回歸是執(zhí)行如下操作的機(jī)器學(xué)習(xí)方法:獲得具有數(shù)值特性的標(biāo)記訓(xùn)練實(shí)例,并產(chǎn)生可以用于對具有數(shù)值特性的實(shí)例進(jìn)行分類的統(tǒng)計模型;它通過為每個特性指定數(shù)值權(quán)重來執(zhí)行此操作,然后通過將數(shù)值特性得分與權(quán)重相乘來計算得分。圖7示出了圖6中所示組件之間的LATTE過程和得分產(chǎn)生的控制500的實(shí)例流程。在505,在接收表示要被匹配的詞組的文本字符串作為輸入之后,詞組匹配器350al在510實(shí)現(xiàn)邏輯以選擇術(shù)語對,每個術(shù)語來自兩個輸入詞組中的每一個,所述詞組包括:要匹配的問題術(shù)語和段落術(shù)語。在510,在詞組匹配器350al確定要調(diào)用哪些術(shù)語之后,并且如果任何術(shù)語都是代表術(shù)語,則確定代表術(shù)語是否是聚合的(即,包括多個術(shù)語)。在510,如果代表術(shù)語是聚合的,則詞組匹配器調(diào)用其代表術(shù)語聚合匹配器實(shí)現(xiàn)功能355al ;否則,將調(diào)用原始術(shù)語匹配器355b。在512,聚合術(shù)語匹配器功能355al選擇其代表之一以便與該術(shù)語對相匹配;該代表是原始355b或較低級聚合匹配器實(shí)現(xiàn)功能355al。在514,原始術(shù)語匹配器355b使用其單個原子術(shù)語匹配邏輯計算指示術(shù)語對匹配程度的得分。在一個實(shí)施例中,原子算法可以確定術(shù)語對是否表示相同的事物(例如,使用包含同義詞的字典)。將結(jié)果返回到調(diào)用它的任何一個組件;該組件包括較高級聚合匹配器功能355a2或詞組匹配器功能350a2。在516,聚合術(shù)語匹配器功能355a2進(jìn)行檢查以查看它是否具有任何其它要嘗試應(yīng)用于給定術(shù)語對的代表術(shù)語匹配器,在此情況下,它返回到較低級聚合匹配器功能355al或較高級聚合匹配器功能355a3。
      在518,如果沒有更多要應(yīng)用的代表術(shù)語匹配器,則聚合術(shù)語匹配器功能355a3通過組合來自其所有代表的結(jié)果,計算術(shù)語對的最終匹配得分。將該結(jié)果返回到調(diào)用聚合術(shù)語匹配器的任何一個組件,或者返回較高級聚合功能355a2,或者返回詞組匹配器功能350a2o在520,詞組匹配器功能350a2進(jìn)行檢查以查看是否具有任何其它需要匹配的術(shù)語對,以便確定詞組匹配度。因此,詞組匹配器350a2調(diào)用詞組匹配器功能350al ;否則,將調(diào)用其它詞組匹配器功能350a3。即,在525,如果沒有更多要匹配的術(shù)語對,則詞組匹配器功能350a3通過組合來自對其代表術(shù)語匹配器的每個調(diào)用的結(jié)果,計算兩個輸入詞組的最終得分。返回該結(jié)果,作為在530結(jié)束的詞組匹配過程的最終輸出。使用如圖7中描述的匹配過程,圖8示出了圖5-6的LATTE過程的實(shí)例流程控制,其應(yīng)用于初始查詢或問題的非限制性實(shí)例“What American poet published his firstbook inl913while living in England (哪位美國詩人在1913年居住英國時出版了他的第一本書?)”。根據(jù)通用QA系統(tǒng)處理(例如在第12/126,642號美國專利申請中描述),問題分析組件在該問題中標(biāo)識 “American poet (美國詩人)”作為LAT。所述問答系統(tǒng)的候選答案生成組件針對該實(shí)例標(biāo)識搜索候選答案:例如,Robert Frost0在一個實(shí)施例中,所述方法使用半結(jié)構(gòu)化資源(例如實(shí)時獲得,或者以上面針對圖4描述的脫機(jī)方式獲得),確定該候選答案是否是LAT的實(shí)例(即,“Robert Frost”是否是“American poet”)。在應(yīng)用于該非限制性實(shí)例的圖7的實(shí)例匹配過程的流程控制中,當(dāng)LATTE過程(LAT與詞法類型匹配過程)自動作為QA系統(tǒng)過程的一部分運(yùn)行時,提供特定的問題LAT302和特定的候選答案詞法類型312。在該實(shí)例中,提取的問題LAT是“American poet” 368。實(shí)例候選答案是“Robert Frost”。在圖4中提取的對包括將“Robert Frost”與詞法類型“poets from the United States”(其是候選答案詞法類型369)相關(guān)的對。在針對圖6的處理描述的實(shí)例實(shí)施例中,接收問題LAT302 “American poet" 368和候選答案詞法類型312 “poets from the United States” 369作為到文本處理組件325的輸入。在圖8中,文本處理器的文本處理325提供輸出(例如,分成標(biāo)記、使用語法角色標(biāo)記),其中包括接收的問題LAT330和候選答案詞法類型340的版本。詞組匹配器350然后將接收這些輸入并將它們相互比較。它通過將其指定的術(shù)語匹配器應(yīng)用于從其輸入中選擇的術(shù)語來執(zhí)行此操作。用于選擇術(shù)語的算法特定于詞組匹配器的任何特定實(shí)例化;例如,中心詞詞組匹配器選擇每個詞組的中心詞以便匹配,并且還嘗試將第一輸入詞組內(nèi)的中心詞的每個修飾語與第二詞組的每個修飾語相匹配。在此非限制性實(shí)例中,文本處理325包括執(zhí)行分析,以便標(biāo)識中心詞并為術(shù)語和這些術(shù)語之間的語法關(guān)系提供詞元(le_a)形式;自然語言解析器提供所有這些信息。對于圖6的實(shí)例處理,處理實(shí)例問題LAT的結(jié)果330例如包括標(biāo)識的實(shí)例問題LAT中心詞一根或詞元化的中心詞“Poet” 370 (例如,將“poets”詞元化為中心詞“poet”),并且進(jìn)一步檢測“American” 371用作修飾名詞的形容詞,如標(biāo)記“nadj ”的連接符373所指示的那樣,該連接符指示術(shù)語之間的語法關(guān)系(例如,修飾名詞“poet”的形容詞)。同樣,候選答案詞法類型312的文本處理結(jié)果340包括:詞元化的結(jié)果中心詞“Poet” 342 (例如,將“poets”詞元化為中心詞“poet”)。所述處理進(jìn)一步包括自動檢測介詞詞組“from the UnitedStates (來自美國)”347,其中確定介詞“from”、介詞的賓語“United States”,并確定處理的候選答案詞法類型312的“the”(通常,該信息將由自然語言解析器提供)。所述根或中心詞以及所有語法關(guān)系可以在軟件程序中表示為節(jié)點(diǎn),這些節(jié)點(diǎn)由標(biāo)記的連接符互連,例如,標(biāo)記有“Pr印”的連接符343a,其將中心詞342指向介詞“from” ;標(biāo)記有“obj”的連接符343b將介詞“from”指向賓語“United States” ;以及標(biāo)記有“det”的連接符343c將賓語“United States”指向限定詞“the”,該限定詞指示詞組術(shù)語之間的語法關(guān)系,包括限定詞“the”344。詞組匹配器350然后自動應(yīng)用指定的術(shù)語匹配器,以便將問題的詞法答案類型302中的處理結(jié)果(術(shù)語)330與候選答案的詞法類型312中的結(jié)果(術(shù)語)340相比較。首先,詞組匹配器350確定問題的詞法答案類型中的哪些術(shù)語要嘗試與候選答案的詞法類型中的術(shù)語相匹配。例如,詞組匹配器確定中心詞(即,每個圖中的根節(jié)點(diǎn),在這兩種情況下都標(biāo)記有“poet”)處于相同的邏輯位置;該圖源自自然語言解析器的輸出。詞組匹配器350還確定名詞-形容詞修飾語371 (例如,“American”)所擔(dān)當(dāng)?shù)慕巧氨忍幚淼暮蜻x答案詞法類型340中的介詞賓語345 (例如“United States”)。聚合術(shù)語匹配器355則負(fù)責(zé)確定這些術(shù)語是否實(shí)際匹配。在該實(shí)例中,使用兩個代表原始術(shù)語匹配器355:“文本相等”術(shù)語匹配器356,其接收輸入并實(shí)現(xiàn)這樣的功能:確定并斷定來自問題LAT的“poet” 370和來自候選答案詞法類型的“poet” 342完全相等;以及專用的地理政治匹配器366,其從輸入確定 “American” 371 與 “United States” 345 相互一致。更具體地說,為編程處理系統(tǒng)配置中心詞詞組匹配器351,為匹配器351配置術(shù)語匹配器(例如,最大得分聚合術(shù)語匹配器355a)。為最大得分聚合術(shù)語匹配器355a配置兩個代表術(shù)語匹配器:文本相等原始匹配器356和地理政治術(shù)語匹配器366。該詞組匹配器351接收兩個詞組作為輸入:“American poet” 368 和“poet from the United States” 369。在執(zhí)行所述詞組匹配器之前,運(yùn)行文本分析,其將“poet”標(biāo)識為這些詞組中的每一個的中心詞342、370。它還指示術(shù)語之間的語法關(guān)系,例如,在第一詞組中,“American”修飾poet,在第二詞組中,“United States”修飾poet。所述詞組匹配器從每個結(jié)果330、340獲得術(shù)語對,并使用文本分 析的結(jié)果確定將第一詞組中的“poet”與第二詞組中的“poet”相比較(因?yàn)樗鼈兙瞧湓~組的中心詞)。因此,它針對該術(shù)語對調(diào)用聚合術(shù)語匹配器355b。聚合術(shù)語匹配器355b然后調(diào)用文本相等原始術(shù)語匹配器,其觀察到字符串相同并為術(shù)語對提供高得分。所述聚合術(shù)語匹配器還調(diào)用地理政治原始術(shù)語匹配器,其不提供觀點(diǎn),因?yàn)樗鼉H應(yīng)用于地理政治實(shí)體。聚合術(shù)語匹配器355b然后計算這些結(jié)果的最大值,其是來自文本相等原始術(shù)語匹配器的高得分。因此,它針對該對(“p0et”、“p0et”)具有高得分。接下來,詞組匹配器351確定將“American”與“United States”相比較,因?yàn)樗鼈兌际侵行脑~的修飾語。它通過調(diào)用聚合術(shù)語匹配器355b來執(zhí)行此操作。所述聚合術(shù)語匹配器調(diào)用文本相等原始術(shù)語匹配器356,其觀察到字符串不相同并為術(shù)語對提供O得分。所述聚合術(shù)語匹配器還調(diào)用地理政治原始術(shù)語匹配器366,其使用地理政治實(shí)體的知識庫,該知識庫斷言“American”和“United States”指相同的地方;地理政治原始術(shù)語匹配器366因此針對該術(shù)語對返回高得分。所述聚合術(shù)語匹配器獲得這兩個結(jié)果(來自文本相等匹配器的O得分,以及來自地理政治匹配器的高得分),并獲得它們之中的最大值,其為高得分。它將該高得分返回到所述詞組匹配器,該匹配器現(xiàn)在針對第一詞組中的中心詞(“poet”)和修飾語(“American”)(它們與第二詞組中的對應(yīng)術(shù)語匹配)具有高得分。它組合這些得分,并返回指示兩個詞組匹配非常好的結(jié)論。發(fā)現(xiàn)問題LAT與候選答案詞法類型匹配之后,所述系統(tǒng)斷定候選答案“RobertFrost”滿足該問題的類型要求。因此,在QA系統(tǒng)中使用時,以下兩個組件緊密集成并相互補(bǔ)充,而且還進(jìn)一步用于完全不同的設(shè)備:用于從圖4的半結(jié)構(gòu)化文本提取實(shí)體-類型對集合的過程;以及用于圖5-7中的匹配的過程。圖1示出了在第12/126,642號美國專利申請中描述的系統(tǒng)圖,其示出高級邏輯架構(gòu)10和方法,其中在一個實(shí)施例中采用使用具有受限結(jié)構(gòu)的文本進(jìn)行延遲類型評估的系統(tǒng)和方法。一般而言,如圖1中所示,高級邏輯架構(gòu)10包括查詢分析模塊20,其實(shí)現(xiàn)接收和分析用戶查詢或問題的功能。術(shù)語“用戶”可以指與系統(tǒng)交互的一個或多個人員,或者指通過機(jī)械手段生成查詢的計算機(jī)系統(tǒng)22,其中術(shù)語“用戶查詢”指這種以機(jī)械方式生成的查詢和上下文19’。提供候選答案生成模塊30,以便通過遍歷包含在主源模塊11和答案源知識庫(KB)模塊21 (包含從主源提取的關(guān)系和列表集合)中的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化源,實(shí)現(xiàn)對候選答案的搜索。所有信息源可以存儲在本地,或者分布在包括因特網(wǎng)的網(wǎng)絡(luò)上。架構(gòu)10的候選答案生成模塊30根據(jù)對檢索的數(shù)據(jù)的分析,生成多個包含候選答案的輸出數(shù)據(jù)結(jié)構(gòu)。在圖1中,證據(jù)收集和答案評分模塊50與主源11和知識庫21對接,以便在一個實(shí)施例中,同時根據(jù)具有候選答案的段落來分析證據(jù)并對每個候選答案進(jìn)行評分,以作為并行處理操作。在一個實(shí)施例中,可以采用使用通用分析系統(tǒng)(CAS)候選答案結(jié)構(gòu)的架構(gòu),如在共同擁有、已公告的第7,139,752號美國專利(其所有公開內(nèi)容在此全部引入作為參考)中所描述的那樣。

      如圖1中所示,證據(jù)收集和答案評分模塊50包括候選答案評分模塊40,以便分析檢索的段落并對所檢索的段落的每個候選答案進(jìn)行評分。答案源知識庫(KB) 21可以包括一個或多個包含關(guān)系集合(例如,類型化列表)的結(jié)構(gòu)化或半結(jié)構(gòu)化源(預(yù)先計算或以其它方式)數(shù)據(jù)庫。在一個實(shí)例實(shí)施方式中,答案源知識庫可以包括存儲在存儲系統(tǒng)(例如,硬盤驅(qū)動器)中的數(shù)據(jù)庫。答案排序模塊60提供功能以便對候選答案進(jìn)行排序并確定響應(yīng)99,響應(yīng)99經(jīng)由用戶的計算機(jī)顯示接口(未示出)或計算機(jī)系統(tǒng)22返回給用戶,其中所述響應(yīng)可以是響應(yīng)于問題的答案,或先前答案的詳細(xì)描述,或澄清的請求一當(dāng)未找到高質(zhì)量的問題答案時。還提供機(jī)器學(xué)習(xí)實(shí)施方式,其中“答案排序”模塊60包括訓(xùn)練后的模型組件(未示出),其使用機(jī)器學(xué)習(xí)技術(shù)從先前數(shù)據(jù)中產(chǎn)生。圖1中所示的處理可以在本地、在服務(wù)器或服務(wù)器群集上、在企業(yè)中,或者備選地,可以是分布式或整體式,或以其它方式與公用或私用搜索引擎結(jié)合運(yùn)行,以便以所描述的方式增強(qiáng)問答功能。因此,所述方法可以作為計算機(jī)程序產(chǎn)品(包括可由處理設(shè)備執(zhí)行的指令)提供,或者作為部署所述計算機(jī)程序產(chǎn)品的服務(wù)提供。所述架構(gòu)采用搜索引擎(例如,文檔檢索系統(tǒng))作為候選答案生成模塊30的一部分,所述搜索引擎可以專用于搜索因特網(wǎng)、公用數(shù)據(jù)庫、網(wǎng)站(例如,IMDB.com)或私用數(shù)據(jù)庫。數(shù)據(jù)庫可以存儲在任何存儲系統(tǒng)、非易失性存儲系統(tǒng)(例如,硬盤驅(qū)動器或閃存)中,并且可以通過網(wǎng)絡(luò)分發(fā)或不分發(fā)。如上所述,圖1的系統(tǒng)和方法利用通用分析系統(tǒng)(CAS),其為非結(jié)構(gòu)化信息管理架構(gòu)(UIMA)的子系統(tǒng),可處理各種ΠΜΑ組件(例如分析引擎和非結(jié)構(gòu)化信息管理應(yīng)用)之間的數(shù)據(jù)交換。CAS通過獨(dú)立于程序設(shè)計語言的類型系統(tǒng)支持?jǐn)?shù)據(jù)建模,通過強(qiáng)大的索引機(jī)制提供數(shù)據(jù)訪問,并支持針對文本數(shù)據(jù)創(chuàng)建注釋,例如在http://www.research, ibm.com/journal/s j/433/gotz.html中描述的(在此引入作為參考)。應(yīng)當(dāng)指出,CAS允許針對文檔及其注釋之間的鏈接進(jìn)行多個定義,因?yàn)閷Ψ治鰣D像、視頻或其它非文本形式有用(如在此引入的參考一第7,139,752號美國專利中教導(dǎo)的那樣)。在一個實(shí)施例中,ΠΜΑ可以作為中間件提供,以便對各種信息源中的非結(jié)構(gòu)化信息進(jìn)行有效管理和交換。所述架構(gòu)通常包括搜索引擎、數(shù)據(jù)存儲、包含流水線文檔注釋器和各種適配器的分析引擎??梢允褂忙唉∠到y(tǒng)、方法和計算機(jī)程序生成輸入查詢的答案。所述方法包括輸入文檔并運(yùn)行至少一個文本分析引擎,所述文本分析引擎包括多個耦合的注釋器以便標(biāo)記文檔數(shù)據(jù)以及標(biāo)識并注釋特定類型的語義內(nèi)容。因此,它可以用于分析問題,并從文檔集合提取實(shí)體作為問題的可能答案。如在圖1的架構(gòu)圖中更詳細(xì)地示出的那樣,“查詢分析”模塊20接收輸入,所述輸入包括例如用戶經(jīng)由其基于Web的瀏覽器設(shè)備輸入的查詢19。輸入查詢19可以包括文本字符串。查詢分析方框20還包括詞法答案類型(LAT)方框200,其實(shí)現(xiàn)功能和編程接口,以便提供有關(guān)答案類型(LAT)的附加約束。方框20中的計算包括但不限于詞法答案類型。LAT方框200包括某些功能/子功能(未示出)以確定LAT。如上所述,問題/查詢的LAT是實(shí)體的指示對象的類型(即,描述符),所述實(shí)體是問題的有效答案。實(shí)際上,LAT是自然語言理解模塊(包括模式集合和/或具有語義解釋器的解析器)檢測到的答案的描述符。參考詞法答案類型(LAT)方框200,在圖1的查詢分析模塊20中,LAT表示標(biāo)識正確答案的語義類型的問題術(shù)語。在一個實(shí)施例中,如所公知的那樣,可以通過模式LAT檢 測規(guī)則在問題中檢測LAT。將實(shí)施這些規(guī)則,并可以手動對其進(jìn)行編碼,或者機(jī)器通過關(guān)聯(lián)規(guī)則學(xué)習(xí)自動學(xué)習(xí)它們。在這種情況下,所述自然語言理解模型可以限于實(shí)施所述規(guī)則。圖2是用于在一個實(shí)施例中進(jìn)行具有延遲類型評估的問答的計算機(jī)編程方法的流程圖(如在12/126,642中描述)。一般而言,在圖2中所示的“延遲類型評估”方法中,第一處理步驟112表示以下步驟:在處理設(shè)備處接收輸入查詢,并生成數(shù)據(jù)結(jié)構(gòu)(例如,CAS結(jié)構(gòu)),其包括問題字符串和上下文,以便輸入到詞法答案類型(LAT)處理單元方框200 (圖
      1),如在步驟115指示的那樣,在方框200分析所述查詢并計算詞法答案類型(LAT)。作為在LAT處理組件中的處理結(jié)果,如在步驟115運(yùn)行的那樣,生成輸出數(shù)據(jù)結(jié)構(gòu)(例如,CAS結(jié)構(gòu)),其包括所計算的LAT,并可能包括來自原始問題的其它術(shù)語。作為在LAT方框200中的處理結(jié)果,然后如在步驟120表示的那樣,生成輸出數(shù)據(jù)結(jié)構(gòu)(例如,CAS結(jié)構(gòu)),其包括所計算的原始查詢(術(shù)語、權(quán)重)(如在共同未決的第12/152,441號美國專利申請中描述的,此申請的所有公開內(nèi)容在此全部引入作為參考)。返回圖2,在處理步驟122,執(zhí)行以下步驟:搜索候選答案文檔,并返回結(jié)果。作為在候選答案生成模塊中的處理結(jié)果,如在步驟122表示的那樣,生成輸出數(shù)據(jù)結(jié)構(gòu)(例如,CAS結(jié)構(gòu)),其包括從數(shù)據(jù)語料庫(例如,主源和知識庫)發(fā)現(xiàn)的所有文檔。在圖2中的步驟128,示出了以下步驟:使用LAT (詞法答案類型)分析每個文檔以獲得候選答案,以便產(chǎn)生一組候選答案,這些候選答案可以作為CAS結(jié)構(gòu)輸出。
      對于在此討論的實(shí)例問題,作為在候選答案生成模塊30中的處理結(jié)果,如在圖2的步驟132表示的那樣,對照查詢LAT要求檢查在文檔中發(fā)現(xiàn)的這些候選答案,并在步驟133將這些候選答案作為答案(多個)返回(根據(jù)候選答案的得分)。在上文描述的圖3是示出在圖2的流程圖的步驟132處執(zhí)行的得分產(chǎn)生的流程圖。具體地說,如圖3中所示,步驟132實(shí)現(xiàn)以下步驟:對于接收的每個候選答案,執(zhí)行將所述候選答案與數(shù)據(jù)庫中的實(shí)例匹配(步驟132a),這將導(dǎo)致生成輸出數(shù)據(jù)結(jié)構(gòu)(例如,CAS結(jié)構(gòu)),其包括匹配的實(shí)例;在知識庫(KB)中檢索與這些實(shí)例關(guān)聯(lián)的詞法類型(LT)(步驟132b);以及在步驟132c,嘗試將LAT (多個)與詞法類型(LT)匹配,從而產(chǎn)生表示匹配度的得分。更具體地說,將候選答案LT和查詢LAT (多個)表示為詞法字符串。所述得分(在此稱為“TyCor”(類型強(qiáng)制)得分)的產(chǎn)生包括三個步驟:候選答案與實(shí)例匹配,實(shí)例與類型關(guān)聯(lián)提取,以及LAT與類型匹配。所述得分反映可以將候選答案“強(qiáng)制”為LAT的程度,其中較高的得分指示較好的強(qiáng)制。在候選答案與實(shí)例匹配中,將候選答案與知識資源中的一個或多個實(shí)例匹配,其中所述實(shí)例采取的形式取決于知識資源。對于結(jié)構(gòu)化知識庫,實(shí)例可以是實(shí)體,具有百科全書源,例如Wikipedia實(shí)例可以是百科全書中的表項(xiàng),具有諸如WordNet '詞法數(shù)據(jù)庫(the Trustees of Princeton University的商標(biāo))之類的詞法源;實(shí)例可以是同義詞集合表項(xiàng)(同義詞集合),并具有非結(jié)構(gòu)化文檔(或網(wǎng)頁)集合;實(shí)例可以是在文本中出現(xiàn)的任何術(shù)語或詞組。如果發(fā)現(xiàn)多個實(shí)例,則采用使用聚合功能的匯總,以組合來自所有候選答案的得分。如果沒有發(fā)現(xiàn)適合的實(shí)例,則返回O得分。接下來,從所述資源中提取實(shí)例關(guān)聯(lián)信息。該信息將每個實(shí)例與類型或類型集合關(guān)聯(lián)。取決于所述資源,這可以采取不同的形式;在知識庫中,這對應(yīng)于將實(shí)例與類型相關(guān)的特定感興趣關(guān)系;對于百·科全書源,這可以是為實(shí)體指定詞法類型的詞法類別信息;對
      于諸如WordIVef之類的詞法資源,這是一組詞法關(guān)系,例如同義詞集合中的下義關(guān)系
      (例如,“artist” is a “person”(“藝術(shù)家”是“人”));以及對于非結(jié)構(gòu)化文檔集合,這可以是其它表示類型的術(shù)語和詞組的共現(xiàn)或接近。然后,嘗試將每個LAT與每個類型相匹配。將使用類型的詞法表現(xiàn)。例如,對于百
      科全書,這可以是表示類別的字符串;對于諸如1W0rdNef之類的詞法資源,這可以是包
      含在同義詞集合中的字符串集合。通過以下方式執(zhí)行匹配:使用字符串匹配或其它詞法資
      源(例如WordNet )以便檢查lat和類型之間的同義關(guān)系或下義關(guān)系??梢葬槍Ω信d趣
      的類型實(shí)現(xiàn)特殊邏輯;例如可以激活person匹配器邏輯,該邏輯不需要嚴(yán)格的匹配、同義詞或下義詞關(guān)系,而是LAT和類型是術(shù)語“person (人)”的下義詞。通過這種方式,例如將為“he (他)”和“painter (畫家)”提供正得分,即使它們不是嚴(yán)格的同義詞或下義詞。最后,可以經(jīng)由聚合功能,將對匹配度進(jìn)行評分的得分對集合解析為單個最終得分。因此,在圖3的步驟132a_132c中給出的實(shí)施方式中,對于在此描述的實(shí)例問題,自動對照LAT要求檢查文檔中的每個候選答案類型(LT)。這可以由圖1中所示的候選答案評分方框40執(zhí)行,作為證據(jù)收集和答案評分模塊50的一部分,具體地說,作為候選答案類型分析模塊400的一部分,模塊400例如基于其中出現(xiàn)候選答案的文檔的語法和語義分析,產(chǎn)生候選答案是正確類型的概率度量。在一個實(shí)施例中,該處理需要使用比較候選答案詞法類型(LT)與查詢LAT的自動評分功能,并需要針對每個候選答案產(chǎn)生得分。可以將評分功能表示為不同分型得分的加權(quán)組合,并且在一個實(shí)施例中,它可以表示為TyCorScore=0.2 女 TyCorffordNet+0.5 .T yCorKB+0.4 .TyCorDoc這表示以下各項(xiàng)的首選項(xiàng):更有組織的源(例如知識庫(ΚΒ)),然后是所檢索的文檔中的類型匹配,以及同義詞是優(yōu)先程度最低的類型匹配方式。可能具有其它得分組合,并且可以了解最佳評分功能,如在2008年5月14提交的共同未決的標(biāo)題為“SYSTEM AND METHOD FOR PROVIDING ANSWERS TO QUESTIONS”(用于提供問題答案的系統(tǒng)和方法)的第12/152,411號美國專利申請(所有公開內(nèi)容在此全部引入作為參考)中描述的。所述評分功能本身是數(shù)學(xué)表達(dá)式,在一個實(shí)施例中,它可以基于邏輯回歸函數(shù)(線性表達(dá)式與指數(shù)函數(shù)的組合),并且可以應(yīng)用于更大數(shù)量的分型得分?!昂蜻x答案評分”模塊40的輸出是CAS結(jié)構(gòu),其具有答案列表,這些答案的得分由答案評分模塊中的處理模塊給出,所述答案評分模塊包括在證據(jù)收集和答案評分模塊50的候選答案評分方框40中。在一個實(shí)施例中,為這些候選答案提供TyCor匹配得分,如在上文描述的那樣。最后,返回到圖2,在步驟133,返回頂層候選答案(根據(jù)其TyCor得分)。在一個實(shí)施例中,可以將圖1、4、5_7的上述模塊表示為ΠΜΑ中的功能組件,UIMA優(yōu)選地實(shí)現(xiàn)為硬件和軟件的組合,用于開發(fā)如下應(yīng)用:集成針對結(jié)構(gòu)化和非結(jié)構(gòu)化信息組合的搜索和分析。采用ΠΜΑ組件以實(shí)現(xiàn)最終用戶能力的軟件程序通常被稱為應(yīng)用、應(yīng)用程序或軟件應(yīng)用。ΠΜΑ高級架構(gòu)(圖1中示出了它的一個實(shí)施例)定義了協(xié)作實(shí)施ΠΜ應(yīng)用的大粒度組件的角色、接口和通信。其中包括能夠執(zhí)行以下操作的組件:分析非結(jié)構(gòu)化源制品(例如包含文本數(shù)據(jù)和/或圖像數(shù)據(jù)的文檔),集成和訪問結(jié)構(gòu)化源,并基于發(fā)現(xiàn)的語義內(nèi)容對制品進(jìn)行存儲、索引和搜索。盡管未示出,但ΠΜΑ高級架構(gòu)的一個非限制性實(shí)施例包括語義搜索引擎、文檔存儲、至少一個文本分析引擎(TAE)、至少一個結(jié)構(gòu)化知識源適配器、集合處理管理器、至少一個集合分析引擎,它們?nèi)颗c應(yīng)用邏輯通過接口連接。在一個實(shí)例實(shí)施例中,ΠΜΑ運(yùn)行以訪問結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息,以便以在此討論的方式生成候選答案和答案。非結(jié)構(gòu)化信息可以被視為文檔集合,并可以采取文本、圖形、靜態(tài)和動態(tài)圖像、音頻和它們的各種組合的形式。圖7中進(jìn)一步示出了 ΠΜΑ的各方面,其中示出了分析引擎(AE)600,其可以是文本分析引擎(TAE)的組件。AE600中包括通用分析系統(tǒng)(CAS) 610、注釋器620和控制器630。TAE的第二實(shí)施例(未示出)包括聚合分析引擎(包含兩個或更多個組件分析引擎以及CAS),并實(shí)現(xiàn)與AE600相同的外部接口。

      通用分析系統(tǒng)610通用分析系統(tǒng)(CAS)610作為通用工具提供,所有注釋器620均使用它訪問和修改分析結(jié)構(gòu)。因此,CAS610在注釋器620之間實(shí)現(xiàn)協(xié)作,并促進(jìn)在不同應(yīng)用和不同類型架構(gòu)(例如,松散與緊密耦合)中重用注釋器620。CAS610可以被視為約束各注釋器的操作。提供CAS610主要用于數(shù)據(jù)建模、數(shù)據(jù)創(chuàng)建和數(shù)據(jù)檢索功能。數(shù)據(jù)建模優(yōu)選地定義(數(shù)據(jù))類型的樹層次結(jié)構(gòu),如下面提供的實(shí)例表I中所示。所述類型具有屬性或性質(zhì)(被稱為特性)。在各優(yōu)選實(shí)施例中,存在少量的內(nèi)置(預(yù)定義)類型,例如整數(shù)(int)、浮點(diǎn)(float)和字符串;UIMA還包括預(yù)定義的數(shù)據(jù)類型“注釋”。數(shù)據(jù)模型在注釋器描述符中定義,并與其它注釋器共享所述數(shù)據(jù)模型。在表I中,被視為從現(xiàn)有技術(shù)非結(jié)構(gòu)化信息管理應(yīng)用擴(kuò)展以適合本發(fā)明的優(yōu)選實(shí)施例中的問答的一些“類型”包括:
      權(quán)利要求
      1.一種用于自動生成問題答案的計算機(jī)實(shí)現(xiàn)的方法,所述方法包括以下步驟: 確定與輸入查詢關(guān)聯(lián)的詞法答案類型(LAT); 使用具有半結(jié)構(gòu)化內(nèi)容的數(shù)據(jù)源獲得所述輸入查詢的一個或多個候選答案; 確定來自所述半結(jié)構(gòu)化內(nèi)容的一個或多個獲得的候選答案中的每個候選答案的詞法類型(LT); 比較查詢LAT與候選答案LT ;以及 生成表示所比較的查詢LAT與所述候選答案LT之間的匹配度的得分,所述得分指示所獲得的候選答案的質(zhì)量, 其中處理設(shè)備自動執(zhí)行所述確定查詢LAT、計算候選答案、確定LT、比較以及生成步驟中的一個或多個。
      2.根據(jù)權(quán)利要求1的計算機(jī)實(shí)現(xiàn)的方法,還包括: 在所述半結(jié)構(gòu)化內(nèi)容中標(biāo)識一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息;以及在與QA系統(tǒng)通信的數(shù)據(jù)存儲設(shè)備中存儲實(shí)體-類型結(jié)構(gòu),每個實(shí)體-類型結(jié)構(gòu)表示所述一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息,其中所述確定詞法類型(LT)包括訪問所存儲的實(shí)體-類型結(jié)構(gòu),以便從與存儲在所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的所述一個或多個實(shí)體關(guān)聯(lián)的類型來標(biāo)識詞法類型(LT ) 。
      3.根據(jù)權(quán)利要求2的計算機(jī)實(shí)現(xiàn)的方法,其中作為預(yù)處理步驟而脫機(jī)執(zhí)行所述標(biāo)識和存儲。
      4.根據(jù)權(quán)利要求2的計算機(jī)實(shí)現(xiàn)的方法,其中由QA系統(tǒng)在接收所述輸入查詢時按需執(zhí)行所述標(biāo)識和存儲。
      5.根據(jù)權(quán)利要求1的計算機(jī)實(shí)現(xiàn)的方法,其中所述比較包括解析每個相應(yīng)的查詢LAT和候選答案LT,以便獲得每個查詢LAT和候選答案LT的相應(yīng)術(shù)語或詞組。
      6.根據(jù)權(quán)利要求1的計算機(jī)實(shí)現(xiàn)的方法,其中所述比較包括匹配相應(yīng)查詢LAT和候選答案LT的個體術(shù)語,或匹配每個相應(yīng)查詢LAT和候選答案LT的完整詞組。
      7.根據(jù)權(quán)利要求6的計算機(jī)實(shí)現(xiàn)的方法,其中所述比較進(jìn)一步包括: 確定相應(yīng)的查詢LAT和候選答案LT的哪些術(shù)語要用于術(shù)語匹配; 根據(jù)相應(yīng)的查詢LAT和候選答案LT的術(shù)語之間的匹配度,獲得個體得分; 由所述處理設(shè)備組合所獲得的針對詞組匹配確定的所述匹配的得分。
      8.根據(jù)權(quán)利要求6的計算機(jī)實(shí)現(xiàn)的方法,其中術(shù)語匹配是以下之一:聚合術(shù)語匹配或原始術(shù)語匹配。
      9.一種用于為自動問答(QA)系統(tǒng)使用的數(shù)據(jù)庫提供內(nèi)容的方法,所述方法包括: 自動標(biāo)識來自數(shù)據(jù)源的半結(jié)構(gòu)化文本數(shù)據(jù); 從所述半結(jié)構(gòu)化文本數(shù)據(jù)自動標(biāo)識一個或多個實(shí)體-類型關(guān)系,所述實(shí)體-類型關(guān)系包括與類型關(guān)聯(lián)的一個或多個實(shí)體; 自動提取所標(biāo)識的實(shí)體-類型關(guān)系;以及 將所提取的實(shí)體-類型關(guān)系作為實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)存儲在所述數(shù)據(jù)庫中, 其中處理設(shè)備被配置為執(zhí)行半結(jié)構(gòu)化文本和實(shí)體-類型關(guān)系的所述自動標(biāo)識、所述提取和所述存儲。
      10.根據(jù)權(quán)利要求9的方法,其中所述半結(jié)構(gòu)化文本包括項(xiàng)目分隔標(biāo)記,半結(jié)構(gòu)化文本數(shù)據(jù)的所述自動標(biāo)識包括: 解析所述數(shù)據(jù)源的內(nèi)容以標(biāo)識所述項(xiàng)目分隔標(biāo)記,所述項(xiàng)目分隔標(biāo)記指定形成實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)的類型信息和實(shí)體。
      11.根據(jù)權(quán)利要求10的方法,其中所述項(xiàng)目分隔標(biāo)記包括指定類型實(shí)體的“列表”一詞的標(biāo)題、頭、詳述、圓點(diǎn)標(biāo)記、圓括號、超文本鏈接、統(tǒng)一資源定位符、所述數(shù)據(jù)源中的表。
      12.根據(jù)權(quán)利要求10的方法,其中所述項(xiàng)目分隔標(biāo)記包括表示包含指定類型實(shí)體的類別或子類別的標(biāo)簽。
      13.根據(jù)權(quán)利要求10的方法,其中由所述處理設(shè)備作為脫機(jī)過程而執(zhí)行半結(jié)構(gòu)化文本和實(shí)體-類型關(guān)系的所述自動標(biāo)識、所述提取和所述存儲。
      14.根據(jù)權(quán)利要求10的方法,還包括: 由所述處理設(shè)備實(shí)時使用所存儲的實(shí)體-類型數(shù)據(jù)結(jié)構(gòu),以用于確定響應(yīng)于到所述QA系統(tǒng)的查詢輸入而計算的候選答案的質(zhì)量。
      15.根據(jù)權(quán)利要求14的方法,其中使用所存儲的實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)包括:訪問所存儲的實(shí)體-類型數(shù)據(jù)結(jié)構(gòu),以便從與存儲在所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的一個或多個候選答案實(shí)體關(guān)聯(lián)的類型獲得詞法類型(LT),所述方法還包括: 在所述處理設(shè)備處接收由所述QA系統(tǒng)接收的輸入查詢的詞法答案類型(LAT); 在所述處理設(shè)備處接收與從所存儲的實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)獲得的候選答案關(guān)聯(lián)的詞法類型(LT); 由所述處理設(shè)備比較輸入查詢LAT與候選答案LT ;以及 產(chǎn)生表示所述輸入查詢LAT和所述候選答案LT之間的匹配度的得分,所述得分指示所述候選答案的質(zhì)量。
      16.一種用于生成問題答案的系統(tǒng),所述系統(tǒng)包括: 存儲設(shè)備; 一個或多個處理設(shè)備,每個處理設(shè)備在操作上連接到所述存儲設(shè)備并被配置為執(zhí)行一種方法,所述方法包括: 確定與在自動問答(QA)系統(tǒng)處接收的輸入查詢關(guān)聯(lián)的詞法答案類型(LAT); 使用具有半結(jié)構(gòu)化內(nèi)容的數(shù)據(jù)源獲得所述輸入查詢的一個或多個候選答案; 確定來自所述半結(jié)構(gòu)化內(nèi)容的一個或多個獲得的候選答案中的每個候選答案的詞法類型(LT); 在所述一個或多個處理設(shè)備處比較查詢LAT與候選答案LT ;以及生成表示所述查詢LAT與所述候選答案LT之間的匹配度的得分,所述得分指示所獲得的候選答案的質(zhì)量。
      17.根據(jù)權(quán)利要求16的系統(tǒng),其中所述處理器設(shè)備被進(jìn)一步配置為: 在所述半結(jié)構(gòu)化內(nèi)容中標(biāo)識一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息;以及 在與所述QA系統(tǒng)通信的數(shù)據(jù)存儲設(shè)備中存儲實(shí)體-類型結(jié)構(gòu),每個實(shí)體-類型結(jié)構(gòu)表示所述一個或多個實(shí)體和關(guān)聯(lián)的詞法類型信息,其中所述確定詞法類型(LT)包括訪問所存儲的實(shí)體-類型結(jié)構(gòu),以便從與存儲在所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的所述一個或多個實(shí)體關(guān)聯(lián)的類型來標(biāo)識詞法類型(LT)。
      18.根據(jù)權(quán)利要求17的系統(tǒng),其中作為預(yù)處理步驟而脫機(jī)執(zhí)行所述標(biāo)識和存儲。
      19.根據(jù)權(quán)利要求17的系統(tǒng),其中由QA系統(tǒng)在接收所述輸入查詢時按需執(zhí)行所述標(biāo)識和存儲。
      20.根據(jù)權(quán)利要求17的系統(tǒng),其中所述處理器設(shè)備被配置為解析每個相應(yīng)的查詢LAT和候選答案LT,以便獲得每個查詢LAT和候選答案LT的相應(yīng)術(shù)語或詞組。
      21.根據(jù)權(quán)利要求16的系統(tǒng),其中所述比較包括匹配相應(yīng)查詢LAT和候選答案LT的個體術(shù)語,或匹配每個相應(yīng)查詢LAT和候選答案LT的完整詞組。
      22.根據(jù)權(quán)利要求20的系統(tǒng),其中所述處理設(shè)備被進(jìn)一步配置為: 確定相應(yīng)的查詢LAT和候選答案LT的哪些術(shù)語要用于術(shù)語匹配; 根據(jù)相應(yīng)的查詢LAT和候選答案LT的術(shù)語之間的匹配度,獲得個體得分; 組合所獲得的針對詞組匹配確定的所述匹配的得分。
      23.一種用于為自動問答(QA)系統(tǒng)使用的數(shù)據(jù)庫提供內(nèi)容的系統(tǒng),所述系統(tǒng)包括: 存儲設(shè)備; 一個或多個處理設(shè)備,每個處理設(shè)備在操作上連接到所述存儲設(shè)備并被配置為執(zhí)行一種方法,以便: 自動標(biāo)識來自數(shù)據(jù)源的半結(jié)構(gòu)化文本數(shù)據(jù); 從所述半結(jié)構(gòu)化文本數(shù)據(jù)自動標(biāo)識一個或多個實(shí)體-類型關(guān)系,所述實(shí)體-類型關(guān)系包括與類型關(guān)聯(lián)的一個或多個實(shí)體;· 自動提取所標(biāo)識的實(shí)體-類型關(guān)系;以及 將所提取的實(shí)體-類型關(guān)系作為實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)存儲在所述數(shù)據(jù)庫中, 其中處理設(shè)備被配置為執(zhí)行半結(jié)構(gòu)化文本和實(shí)體-類型關(guān)系的所述自動標(biāo)識、所述提取和所述存儲。
      24.根據(jù)權(quán)利要求23的系統(tǒng),其中所述半結(jié)構(gòu)化文本包括項(xiàng)目分隔標(biāo)記,半結(jié)構(gòu)化文本數(shù)據(jù)的所述自動標(biāo)識包括: 解析所述數(shù)據(jù)源的內(nèi)容以標(biāo)識所述項(xiàng)目分隔標(biāo)記,所述項(xiàng)目分隔標(biāo)記指定形成實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)的類型信息和實(shí)體。
      25.根據(jù)權(quán)利要求24的系統(tǒng),其中所述項(xiàng)目分隔標(biāo)記包括指定類型實(shí)體的“列表”一詞的標(biāo)題、頭、詳述、圓點(diǎn)標(biāo)記、圓括號、超文本鏈接、統(tǒng)一資源定位符、所述數(shù)據(jù)源中的表。
      26.一種生成問題答案的計算機(jī)實(shí)現(xiàn)的方法,所述方法包括: 接收輸入查詢; 執(zhí)行自動查詢分析,包括確定一個或多個查詢詞法答案類型(LAT); 使用數(shù)據(jù)語料庫自動獲得所述輸入查詢的候選答案; 確定每個候選答案的一個或多個詞法類型(LT); 將一個或多個候選答案LT與一個或多個查詢LAT相比較;以及針對所比較的每個候選答案產(chǎn)生得分,所述確定每個候選答案的一個或多個詞法類型包括: 自動標(biāo)識來自數(shù)據(jù)源的半結(jié)構(gòu)化文本數(shù)據(jù); 從所述半結(jié)構(gòu)化文本數(shù)據(jù)自動標(biāo)識一個或多個實(shí)體-類型關(guān)系,所述實(shí)體-類型關(guān)系包括與類型關(guān)聯(lián)的一個或多個實(shí)體; 自動提取所標(biāo)識的實(shí)體-類型關(guān)系;以及將所提取的實(shí)體-類型關(guān)系存儲為實(shí)體-類型數(shù)據(jù)結(jié)構(gòu);以及其中所述比較包括: 將所述候選答案與所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的實(shí)體相匹配; 從與所述實(shí)體-類型數(shù)據(jù)結(jié)構(gòu)中的這些實(shí)體關(guān)聯(lián)的類型檢索候選答案LT ;以及以下操作之一:匹配相應(yīng)查詢LAT和候選答案LT的個體術(shù)語,或匹配每個相應(yīng)LAT和LT的完整詞組,其中所述詞組匹配包括一個或多個術(shù)語匹配;以及根據(jù)所產(chǎn)生的得分返 回一個或多個候選答案以便傳送給用戶。
      全文摘要
      一種用于根據(jù)任何數(shù)據(jù)語料庫進(jìn)行具有延遲類型評估的問答的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品。所述方法包括處理查詢,其中包括進(jìn)行等待直到確定“類型”(即,描述符)并提供候選答案。然后,進(jìn)行搜索以查找(搜索)所述候選答案具有所需詞法答案類型(例如,由可以利用解析器、語義解釋器和/或簡單模式匹配器的匹配功能確定)的證據(jù)。在候選答案評估之前或期間,提供用于提取和存儲來自半結(jié)構(gòu)化文本文檔的實(shí)體-類型對集合的過程。在QA處理和候選答案評分期間,實(shí)現(xiàn)一種過程以便將查詢LAT與提供的每個候選答案的詞法類型相匹配,并生成判斷匹配度的得分。
      文檔編號G06F7/00GK103250129SQ201180056447
      公開日2013年8月14日 申請日期2011年9月21日 優(yōu)先權(quán)日2010年9月24日
      發(fā)明者P·A·度布, J·J·范, D·A·弗魯茨, J·W·默多克, C·A·韋爾蒂, W·W·扎德羅茲尼 申請人:國際商業(yè)機(jī)器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1