從語(yǔ)義數(shù)據(jù)的信息提取的制作方法
【專(zhuān)利說(shuō)明】從語(yǔ)義數(shù)據(jù)的信息提取
【背景技術(shù)】
[0001] 除非在本文中另外表明,否則本部分中所述的方法對(duì)于本申請(qǐng)中的權(quán)利要求來(lái)說(shuō) 不是現(xiàn)有技術(shù)并且不由于包括在本部分中而被承認(rèn)是現(xiàn)有技術(shù)。
[0002] 大量語(yǔ)義數(shù)據(jù)可從計(jì)算機(jī)訪(fǎng)問(wèn)。例如,大量語(yǔ)義數(shù)據(jù)在萬(wàn)維網(wǎng)(WWW)上是可獲得 的。由于巨大量的語(yǔ)義數(shù)據(jù),從語(yǔ)義數(shù)據(jù)提取信息(例如,通過(guò)使用計(jì)算機(jī)等)可能是困難 的。
【發(fā)明內(nèi)容】
[0003] 本文中描述了用于從萬(wàn)維網(wǎng)上的語(yǔ)義數(shù)據(jù)提取信息的各種說(shuō)明性方法。示例方法 可包括:至少部分基于與語(yǔ)義數(shù)據(jù)對(duì)應(yīng)的本體的多個(gè)聲明來(lái)從該本體產(chǎn)生多個(gè)斷言;至少 部分基于信息表示語(yǔ)言的語(yǔ)法來(lái)確定信息候選;并且至少部分基于所述多個(gè)斷言來(lái)驗(yàn)證信 息候選。
[0004] 本公開(kāi)還描述了具有存儲(chǔ)在其中的指令的各種示例機(jī)器可讀非暫態(tài)介質(zhì),運(yùn)些指 令當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí)操作地使得語(yǔ)義數(shù)據(jù)處理模塊實(shí)現(xiàn):至少部分基于術(shù)語(yǔ)集 合(Tbox)分類(lèi)和斷言集合(Abox)采樣來(lái)從與語(yǔ)義數(shù)據(jù)對(duì)應(yīng)的本體產(chǎn)生多個(gè)斷言;至少部分 基于信息表示語(yǔ)言的語(yǔ)法來(lái)確定信息候選;并且至少部分基于所述多個(gè)斷言來(lái)驗(yàn)證信息候 選。
[0005] 本公開(kāi)另外描述了示例系統(tǒng)。示例系統(tǒng)可包括處理器和通信地禪合到處理器的語(yǔ) 義數(shù)據(jù)處理模塊,該語(yǔ)義數(shù)據(jù)處理模塊被配置為:至少部分基于術(shù)語(yǔ)集合(Tbox)分類(lèi)和斷 言集合(Abox)采樣來(lái)從與語(yǔ)義數(shù)據(jù)對(duì)應(yīng)的本體產(chǎn)生多個(gè)斷言;至少部分基于信息表示語(yǔ)言 的語(yǔ)法來(lái)確定信息候選;并且至少部分基于所述多個(gè)斷言來(lái)驗(yàn)證信息候選。
[0006] 前述概要僅僅是說(shuō)明性的,而并不意圖W任何方式是限制性的。除了說(shuō)明性的方 面,上述實(shí)施例和特征、另外的方面、實(shí)施例和特征將通過(guò)參考附圖和下面的詳細(xì)描述而變 得顯而易見(jiàn)。
【附圖說(shuō)明】
[0007] 主題在本說(shuō)明書(shū)的結(jié)論部分中被具體地指出和清楚地要求保護(hù)。通過(guò)結(jié)合附圖進(jìn) 行的W下描述和所附權(quán)利要求,本公開(kāi)的前述和其它特征將變得更充分地顯而易見(jiàn)。理解, 運(yùn)些附圖僅僅描繪了根據(jù)本公開(kāi)的幾個(gè)實(shí)施例,因此,不應(yīng)被認(rèn)為是限制其范圍,將通過(guò)使 用附圖來(lái)更具體地、更詳細(xì)地描述本公開(kāi)。
[000引在附圖中:
[0009] 圖1說(shuō)明被配置為從WWW上的語(yǔ)義數(shù)據(jù)提取信息的系統(tǒng)的框圖;
[0010] 圖2是用于從WWW上的語(yǔ)義數(shù)據(jù)提取信息的示例方法的流程圖;
[0011] 圖3說(shuō)明示例計(jì)算機(jī)程序產(chǎn)品;W及
[0012] 圖4說(shuō)明示例計(jì)算裝置的框圖,所有附圖都是依照本文所述的至少一些實(shí)施例來(lái) 安排的。
【具體實(shí)施方式】
[0013] W下描述闡述了各種示例、連同特定細(xì)節(jié)W提供要求保護(hù)的主題的透徹理解。本 領(lǐng)域技術(shù)人員將理解,要求保護(hù)的主題可在沒(méi)有本文中公開(kāi)的特定細(xì)節(jié)中的一些或多個(gè)的 情況下被實(shí)施。此外,在一些情況下,未對(duì)公知的方法、過(guò)程、系統(tǒng)、部件和/或電路進(jìn)行詳細(xì) 描述,W便避免不必要地模糊要求保護(hù)的主題。
[0014] 在W下詳細(xì)描述中,對(duì)附圖進(jìn)行參考,所述附圖形成詳細(xì)描述的一部分。除非上下 文另外指示,否則在附圖中,相似的符號(hào)通常標(biāo)識(shí)相似的部件。在詳細(xì)描述、附圖和權(quán)利要 求中描述的說(shuō)明性實(shí)施例并不意味著是限制性的。在不脫離本文所提供的主題的精神或范 圍的情況下,可W利用其它實(shí)施例,W及可W進(jìn)行其它改變。將易于理解的是,如在本文中 一般地描述的和在圖中示出的那樣,本公開(kāi)的各方面可廣泛多樣的不同配置被布置、 替代、組合和設(shè)計(jì),所有運(yùn)些都被明確地構(gòu)想,并且構(gòu)成本公開(kāi)的一部分。
[0015] 本公開(kāi)尤其是針對(duì)與從語(yǔ)義數(shù)據(jù)提取信息相關(guān)的方法、裝置、系統(tǒng)和計(jì)算機(jī)可讀 介質(zhì)進(jìn)行描寫(xiě)的。
[0016] 大量語(yǔ)義數(shù)量是可獲得的(例如,在WWW上、在LAN上、在數(shù)據(jù)中屯、中、在服務(wù)器上 等)??色@得的語(yǔ)義數(shù)據(jù)可對(duì)應(yīng)于各種不同的對(duì)象(例如,科學(xué)、歷史、體育、經(jīng)濟(jì)、社會(huì)、技術(shù) 等)。由于大量可獲得的語(yǔ)義數(shù)據(jù),從語(yǔ)義數(shù)據(jù)提取信息(例如,模式、統(tǒng)計(jì)、推論、可能有用 的事實(shí)等)可能是困難的。例如,與癌癥相關(guān)的大量語(yǔ)義數(shù)據(jù)在WWW上是可獲得的。從語(yǔ)義數(shù) 據(jù)提取信息(例如,癌癥的可能原因等)可能是困難的。
[0017] 另外,用于從存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)提取信息的一些技術(shù)可能不適用于從語(yǔ)義數(shù) 據(jù)提取信息。更具體地說(shuō),因?yàn)榇鎯?chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能具有不同于語(yǔ)義數(shù)據(jù)的格式(例 如,基于關(guān)系的VS基于圖表的,等等),所W用于從存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)提取信息的技術(shù) 可能不適用于從語(yǔ)義數(shù)據(jù)提取信息。
[0018] 一般地,語(yǔ)義數(shù)據(jù)可至少部分基于術(shù)語(yǔ)集合(Tbox)分類(lèi)和斷言集合(Abox)采樣被 組織。一般地,TBox分類(lèi)可定義語(yǔ)義數(shù)據(jù)內(nèi)的概念和/或角色之間的關(guān)系。ABox采樣可通過(guò) 使用TBox定義的概念和角色來(lái)描述關(guān)于一個(gè)或多個(gè)實(shí)體的信息。作為示例,語(yǔ)義數(shù)據(jù)可對(duì) 應(yīng)于住院的患者。運(yùn)樣的語(yǔ)義數(shù)據(jù)可具有描述概念"住院患者"的TBox分類(lèi)。語(yǔ)義數(shù)據(jù)還可 具有描述任何數(shù)量的作為"住院患者"的實(shí)體(例如,人、動(dòng)物等)的ABox采樣。
[0019] 可提供本文中所述的用于從語(yǔ)義數(shù)據(jù)提取信息的各種實(shí)施例。在一些示例中,可 通過(guò)如下操作來(lái)從語(yǔ)義數(shù)據(jù)提取信息,即,從語(yǔ)義數(shù)據(jù)產(chǎn)生斷言,從語(yǔ)義數(shù)據(jù)確定信息候 選,并且使用產(chǎn)生的斷言來(lái)對(duì)確定的信息候選應(yīng)用驗(yàn)證過(guò)程。本文中呈現(xiàn)的一些示例可描 述從在WWW上可獲得的語(yǔ)義數(shù)據(jù)提取信息。然而,運(yùn)并非意圖限制。例如,可從在數(shù)據(jù)中屯、 中、在LAN上、在服務(wù)器上等可獲得的語(yǔ)義數(shù)據(jù)提取信息。
[0020] 在一些示例中,禪合到互聯(lián)網(wǎng)的計(jì)算裝置可被配置為既從在WWW上可獲得的語(yǔ)義 數(shù)據(jù)產(chǎn)生斷言、又從該語(yǔ)義數(shù)據(jù)確定信息候選。該計(jì)算裝置可被進(jìn)一步配置為至少部分基 于產(chǎn)生的斷言來(lái)驗(yàn)證確定的信息候選。
[0021] 計(jì)算裝置可至少部分基于TBox分類(lèi)和/或ABox采樣來(lái)從與語(yǔ)義數(shù)據(jù)對(duì)應(yīng)的本體產(chǎn) 生多個(gè)斷言。在一些實(shí)施例中,計(jì)算裝置可通過(guò)將在A(yíng)Box采樣中引用的實(shí)體分配給來(lái)自 TBox分類(lèi)的概念和/或角色(例如,基于概念層次樹(shù)和/或基于角色層次樹(shù))來(lái)產(chǎn)生斷言???替換地和/或另外地,計(jì)算裝置可通過(guò)標(biāo)識(shí)ABox采樣中的模式(例如,被ABox采樣中的大多 數(shù)斷言使用的模式或諸如此類(lèi)的模式)來(lái)產(chǎn)生斷言。
[0022] 計(jì)算裝置可至少部分基于"簡(jiǎn)單性規(guī)則"來(lái)確定信息候選。例如,信息候選可被限 制為特定長(zhǎng)度。在一些示例中,長(zhǎng)度可基于信息表示語(yǔ)言的語(yǔ)法。計(jì)算裝置可至少部分基于 "新穎性規(guī)則"來(lái)確定信息候選。例如,信息候選可被要求是"新的"(例如,TBox尚未描述的、 諸如此類(lèi))。
[0023] 計(jì)算裝置可至少部分基于產(chǎn)生的斷言來(lái)驗(yàn)證確定的信息候選。在一些實(shí)施例中, 計(jì)算裝置可至少部分基于"多數(shù)決定規(guī)則"來(lái)驗(yàn)證信息候選。例如,計(jì)算裝置可確定滿(mǎn)足大 多數(shù)或產(chǎn)生的斷言的信息候選。
[0024] 圖1說(shuō)明根據(jù)本文中所述的至少一些實(shí)施例布置的、被配置為從WWW上的語(yǔ)義數(shù)據(jù) 提取信息的示例系統(tǒng)100。如所描繪的,系統(tǒng)100可包括被配置為從WWW上的語(yǔ)義數(shù)據(jù)提取信 息的計(jì)算裝置110。一般地,計(jì)算裝置110可被配置為從WWW上的一些語(yǔ)義數(shù)據(jù)產(chǎn)生斷言并確 定信息候選。例如,計(jì)算裝置110可被配置為從在WWW上可獲得的與癌癥的一個(gè)或多個(gè)原因 相關(guān)的一些語(yǔ)義數(shù)據(jù)產(chǎn)生斷言并確定信息候選。計(jì)算裝置110可進(jìn)一步被配置為至少部分 基于產(chǎn)生的斷言來(lái)驗(yàn)證確定的信息候選。下面將在討論圖1和圖2的同時(shí)W及在本文中的其 它地方提供計(jì)算裝置110從語(yǔ)義數(shù)據(jù)產(chǎn)生斷言的更多細(xì)節(jié)和示例。
[0025] 如該圖中所描繪的,計(jì)算裝置110可經(jīng)由連接140訪(fǎng)問(wèn)在WWW 130上可獲得的語(yǔ)義 數(shù)據(jù)120。在一些實(shí)施例中,計(jì)算裝置110可訪(fǎng)問(wèn)如本文中所述的足W供計(jì)算裝置110產(chǎn)生斷 言并確定信息候選的一定量的語(yǔ)義數(shù)據(jù)120。計(jì)算裝置110可W是可連接到互聯(lián)網(wǎng)的任何類(lèi) 型的計(jì)算裝置。例如,計(jì)算裝置110可W是膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、服務(wù)器、虛擬機(jī)、云計(jì) 算系統(tǒng)、分布式計(jì)算系統(tǒng)等。連接140可W是與互聯(lián)網(wǎng)的任何類(lèi)型的連接。例如,連接140可 W是有線(xiàn)連接、無(wú)線(xiàn)連接、蜂窩數(shù)據(jù)連接等。
[00%]語(yǔ)義數(shù)據(jù)120可W是使用TBox分類(lèi)122和ABox采樣124來(lái)描述實(shí)體和運(yùn)些實(shí)體與概 念和/或角色的關(guān)系的任何本體。TBox分類(lèi)122可包括描述概念層次(例如,概念之間的關(guān) 系)和/或角色層次(例如,角色之間的關(guān)系)的句子。ABox采樣124可包括陳述一個(gè)或多個(gè)實(shí) 體屬于層次中的哪里的句子(例如,實(shí)體和概念之間的關(guān)系)。
[0027] TBox分類(lèi)和ABox采樣促進(jìn)或允許確定近似的ABox,因?yàn)橥暾鸄Box的計(jì)算(所有隱 式斷言的派生)可能是困難的,尤其是對(duì)于非常大的語(yǔ)義數(shù)據(jù)集合。另一方面,更隱式的斷 言允許或關(guān)連更精確的ABox采樣,