本發(fā)明涉及使用本體生成映射的方法和設(shè)備?,F(xiàn)有技術(shù)的描述本說明書中對(duì)任何現(xiàn)有公開(或由其獲得的信息)或?qū)θ魏我阎獌?nèi)容的參考不是且不應(yīng)認(rèn)為是承認(rèn)或認(rèn)可或任何形式地建議現(xiàn)有公開(或從其獲得的信息)或已知內(nèi)容形成本說明書涉及的致力領(lǐng)域的公知常識(shí)的一部分。存在描述科學(xué)、工程和商業(yè)領(lǐng)域的方方面面的數(shù)千種公共和私人本體。本發(fā)明描述了一組過程,所述過程允許在不考慮數(shù)據(jù)結(jié)構(gòu)或缺少結(jié)構(gòu)的情況下將這些高級(jí)本體中的知識(shí)和元數(shù)據(jù)應(yīng)用于任何數(shù)據(jù)的管理。知識(shí)和數(shù)據(jù)的迅速增長(zhǎng)超出了傳統(tǒng)信息管理機(jī)制進(jìn)行管理或甚至是進(jìn)行描述的能力。諸如本體等語義網(wǎng)技術(shù)和諸如OWL(網(wǎng)絡(luò)本體語言)和RDF(資源描述框架)等新語言促成諸如健康、醫(yī)藥或工程等鏈接概念的描述以從前不可能達(dá)到的詳細(xì)程度以及以人類和機(jī)器均可理解的形式進(jìn)行描述。這些本體通常由主題專家(本體專家)團(tuán)隊(duì)創(chuàng)建,并且通常是公眾可用的。目前,對(duì)定義鏈接概念的本體的操縱主要限于學(xué)者和專業(yè)本體專家。這些本體可能包含數(shù)千種鏈接概念。即使刪除一種概念、公理或數(shù)據(jù)性質(zhì)都可能使得許多關(guān)系無效。人工確定效果是冗長(zhǎng)且乏味的過程。該項(xiàng)目所滿足的業(yè)務(wù)需求是使得具有很少或不具有本體論專業(yè)知識(shí)的人能夠以簡(jiǎn)單可理解的方式訪問本體的所有詳細(xì)內(nèi)容。另外,該人將能夠使用簡(jiǎn)化的查詢構(gòu)造機(jī)制選擇和檢查通過本體進(jìn)行描述的數(shù)據(jù)。它將能夠向仍然在執(zhí)行的原始本體中存在的所有約束和推理的數(shù)據(jù)添加記錄。最終,其將能夠生成和部署代碼和屏幕作為適合于負(fù)責(zé)人辦公室人員使用的獨(dú)立應(yīng)用。特定業(yè)務(wù)或研究需要可能要求來自多個(gè)本體的概念,所述多個(gè)本體可能來自不同學(xué)科。在這種情況下,可能要求兩個(gè)本體中的概念之間的對(duì)準(zhǔn)。這些對(duì)準(zhǔn)的本體之后可能被刪減,以給出針對(duì)業(yè)務(wù)或組織的特定需要的目標(biāo)本體。本發(fā)明不但提供所要求的對(duì)準(zhǔn)和刪減方法,而且還提供用以利用針對(duì)業(yè)務(wù)環(huán)境的同義詞和同形同音異義詞來執(zhí)行概念和寬泛初級(jí)索引的語義匹配的技術(shù)工具。利用該工具箱,用戶可以:訪問不同數(shù)據(jù)源,將其映射至語境特定本體,對(duì)不同本體進(jìn)行對(duì)準(zhǔn),并且隨后刪減對(duì)準(zhǔn)的本體以包含僅相關(guān)的信息。然后,其可以將數(shù)據(jù)提取成其所選擇的格式,經(jīng)由生成的能夠理解所討論的本體的公理和推理的生成的應(yīng)用對(duì)數(shù)據(jù)進(jìn)行訪問,并且依賴目標(biāo)數(shù)據(jù)庫利用程序代碼實(shí)現(xiàn)數(shù)據(jù)。例如,醫(yī)生可以從多個(gè)實(shí)踐管理系統(tǒng)、醫(yī)院和衛(wèi)生系統(tǒng)以及診斷和成像系統(tǒng)訪問患者記錄,無需擔(dān)心所訪問的各種記錄格式。醫(yī)學(xué)研究員可以將所述數(shù)據(jù)結(jié)合到諸如基因分析、藥物開發(fā)和測(cè)試等的實(shí)驗(yàn)室研究數(shù)據(jù)中。交通工程師可以將信號(hào)數(shù)據(jù)結(jié)合到氣壓數(shù)據(jù)、CCTV資訊、微博和事件日歷中。電信公司可以接受99%的新呼叫數(shù)據(jù)記錄結(jié)構(gòu),而無需針對(duì)制造商范圍中的每一模型為制造商創(chuàng)建的每一新電話特征編寫特定代碼。最后,在業(yè)務(wù)領(lǐng)域中,通過使用適當(dāng)?shù)卣{(diào)整的本體來描述業(yè)務(wù)問題并且隨后生成代碼以執(zhí)行所描述的業(yè)務(wù)規(guī)則,市場(chǎng)上推出新IT軟件的時(shí)間被大大縮短。這些業(yè)務(wù)規(guī)則可以訪問大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的所有方面。US-7,464,099提供一種從文件和數(shù)據(jù)庫傳遞內(nèi)容的方法。在這種情況下,文件包括內(nèi)容實(shí)例,每一內(nèi)容實(shí)例與相應(yīng)領(lǐng)域相關(guān)聯(lián),并且每一領(lǐng)域具有相應(yīng)類型。所述傳遞通過以下方式實(shí)現(xiàn):確定每一領(lǐng)域的類型,并且隨后根據(jù)相關(guān)領(lǐng)域的確定的領(lǐng)域類型在存儲(chǔ)器中存儲(chǔ)每一內(nèi)容實(shí)例。然后可以根據(jù)確定的領(lǐng)域類型將每一內(nèi)容實(shí)例傳遞至數(shù)據(jù)庫。提供一種用于基于數(shù)據(jù)庫內(nèi)的內(nèi)容創(chuàng)建XML文件的類似程序。發(fā)明概要在第一方面中,本發(fā)明提供一種使用本體生成映射的設(shè)備,所述設(shè)備包括至少一個(gè)電子處理裝置,所述電子處理裝置:確定具有相應(yīng)本體項(xiàng)的本體;根據(jù)所述本體中的至少一個(gè)確定一組本體項(xiàng);針對(duì)所述一組本體項(xiàng)中的至少一些確定本體中的本體項(xiàng)之間的對(duì)準(zhǔn),所述對(duì)準(zhǔn)至少部分地根據(jù)本體項(xiàng)的本體項(xiàng)含義進(jìn)行確定;以及根據(jù)所述對(duì)準(zhǔn)生成映射。優(yōu)選地,所述映射可以是以下中的至少一個(gè):合并本體;以及對(duì)準(zhǔn)索引。優(yōu)選地,本體可以包括:推定本體;以及正式本體。優(yōu)選地,電子處理裝置可以生成映射,以將推定本體映射至正式本體。優(yōu)選地,在將內(nèi)容從具有包括多個(gè)源數(shù)據(jù)字段的源數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)源存儲(chǔ)器傳遞內(nèi)容至具有包括多個(gè)目標(biāo)數(shù)據(jù)字段的目標(biāo)數(shù)據(jù)結(jié)構(gòu)的目標(biāo)數(shù)據(jù)存儲(chǔ)傳遞內(nèi)容的過程中使用映射,其中本體與源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián),并且其中所述電子處理裝置使用所述映射在源數(shù)據(jù)字段與目標(biāo)數(shù)據(jù)字段之間傳遞內(nèi)容。優(yōu)選地,本體可以包括與源數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的源本體和與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的目標(biāo)本體。優(yōu)選地,源本體和目標(biāo)本體可以是推定本體,并且所述源本體和所述目標(biāo)本體被映射至一個(gè)或多個(gè)正式本體。優(yōu)選地,所述電子處理裝置可以通過以下方式確定本體:生成推定本體;以及選擇多個(gè)現(xiàn)有本體中的一個(gè)。優(yōu)選地,所述電子處理裝置可以使用以下中的至少一個(gè)選擇本體:與數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的元數(shù)據(jù);以及數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)字段。優(yōu)選地,電子處理裝置可以通過以下方式選擇多個(gè)現(xiàn)有本體中的一個(gè):將數(shù)據(jù)字段與多個(gè)現(xiàn)有本體的本體項(xiàng)進(jìn)行比較;以及根據(jù)所述比較的結(jié)果選擇所述多個(gè)現(xiàn)有本體中的一個(gè)。優(yōu)選地,電子處理裝置可以通過以下方式從數(shù)據(jù)庫模式生成推定本體:識(shí)別所述模式中的表格;創(chuàng)建對(duì)應(yīng)于每一表格的本體項(xiàng);識(shí)別至少一個(gè)材料單表格;以及創(chuàng)建對(duì)應(yīng)于所述材料單表格中的每一條目的本體項(xiàng)。優(yōu)選地,電子處理裝置可以通過以下方式從數(shù)據(jù)庫模式生成推定本體:顯示對(duì)應(yīng)于所述材料單表格中的每一條目的本體項(xiàng)的指示;以及響應(yīng)于用戶輸入命令將本體項(xiàng)添加至推定本體。優(yōu)選地,電子處理裝置可以使用由數(shù)據(jù)庫模式定義的表格結(jié)構(gòu)生成本體項(xiàng)之間的關(guān)系。優(yōu)選地,推定本體可以包括:對(duì)應(yīng)于本體項(xiàng)的類別;所述類別中的至少一些的數(shù)據(jù)性質(zhì);以及定義類別之間的關(guān)系的對(duì)象性質(zhì)。優(yōu)選地,電子處理裝置:可以確定至少一個(gè)本體的索引,所述索引包括至少一個(gè)本體的本體項(xiàng)的指示;并且使用所述索引來確定:所述一組本體項(xiàng);以及本體項(xiàng)之間的對(duì)準(zhǔn)。優(yōu)選地,對(duì)于每一本體項(xiàng),所述索引可以包括對(duì)以下的指示:本體項(xiàng)含義;以及本體項(xiàng)類型。優(yōu)選地,電子處理裝置可以通過以下方式生成每一本體項(xiàng)的索引:識(shí)別本體項(xiàng)名稱;識(shí)別本體項(xiàng)類型;使用語義匹配過程識(shí)別每一本體項(xiàng)的本體含義;以及創(chuàng)建包括本體項(xiàng)名稱、本體項(xiàng)類型和本體項(xiàng)含義的指示的索引條目。優(yōu)選地,電子處理裝置生成多個(gè)本體的單個(gè)索引,并且其中所述索引條目包括與本體項(xiàng)相關(guān)聯(lián)的本體的指示。優(yōu)選地,電子處理裝置可以:顯示本體中的一個(gè)或多個(gè)本體項(xiàng)的指示;響應(yīng)于用戶輸入命令來識(shí)別至少一個(gè)本體項(xiàng);以及顯示以下中的至少一個(gè)的詳細(xì)信息:至少一個(gè)識(shí)別的本體項(xiàng);以及與至少一個(gè)識(shí)別的本體項(xiàng)相關(guān)聯(lián)的數(shù)據(jù)性質(zhì)。優(yōu)選地,電子處理裝置可以使用索引確定一個(gè)或多個(gè)本體項(xiàng)的指示。優(yōu)選地,電子處理裝置可以:響應(yīng)于用戶輸入命令來確定用戶選擇的本體項(xiàng)和對(duì)應(yīng)用戶選擇的數(shù)據(jù)性質(zhì);以及根據(jù)用戶選擇的本體項(xiàng)和對(duì)應(yīng)用戶選擇的數(shù)據(jù)性質(zhì)生成可執(zhí)行代碼,當(dāng)在計(jì)算機(jī)系統(tǒng)上執(zhí)行所述可執(zhí)行代碼時(shí)引起所述計(jì)算機(jī)系統(tǒng)顯示用于允許用戶與存儲(chǔ)在具有數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)中的內(nèi)容交互的用戶界面,所述內(nèi)容存儲(chǔ)在對(duì)應(yīng)于用戶選擇的本體項(xiàng)的數(shù)據(jù)字段中。優(yōu)選地,可執(zhí)行代碼可以引起計(jì)算機(jī)系統(tǒng)生成查詢,以用于與存儲(chǔ)在與源本體或目標(biāo)本體相一致的源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)交互。優(yōu)選地,可執(zhí)行代碼可以引起計(jì)算機(jī)系統(tǒng)根據(jù)數(shù)據(jù)性質(zhì)和用戶選擇的本體的本體項(xiàng)之間的關(guān)系中的至少一個(gè)生成查詢。優(yōu)選地,可執(zhí)行代碼可以引起計(jì)算機(jī)系統(tǒng):顯示一個(gè)或多個(gè)本體項(xiàng)的指示;響應(yīng)于用戶輸入命令來確定至少一個(gè)本體項(xiàng)的選擇;以及查詢存儲(chǔ)在與選擇的本體項(xiàng)相關(guān)聯(lián)的數(shù)據(jù)字段中的數(shù)據(jù)。優(yōu)選地,電子處理裝置可以:將本體項(xiàng)與多個(gè)潛在的本體項(xiàng)含義進(jìn)行比較;以及根據(jù)所述比較的結(jié)果選擇所述潛在本體項(xiàng)含義中的一個(gè)作為本體項(xiàng)含義。優(yōu)選地,所述電子處理裝置可以通過以下方式確定本體項(xiàng)含義:生成每一比較的結(jié)果的匹配分?jǐn)?shù);以及根據(jù)匹配分?jǐn)?shù)確定本體項(xiàng)含義。優(yōu)選地,電子處理裝置可以確定潛在的本體項(xiàng)含義是否是以下中的至少一個(gè):同義詞;反義詞;部分詞;超類;以及小類。優(yōu)選地,電子處理裝置可以在索引中存儲(chǔ)本體項(xiàng)含義的指示,所述指示包括以下中的至少一個(gè):指示定義的含義的標(biāo)識(shí)符;以及同等含義的列表。優(yōu)選地,所述電子處理裝置可以通過以下方式確定本體項(xiàng)之間的對(duì)準(zhǔn):比較多個(gè)本體項(xiàng)的本體項(xiàng)含義;生成每一比較的結(jié)果的匹配分?jǐn)?shù);以及根據(jù)匹配分?jǐn)?shù)確定對(duì)準(zhǔn)。優(yōu)選地,電子處理裝置可以基于以下中的至少一個(gè)進(jìn)一步確定所述對(duì)準(zhǔn):本體項(xiàng)之間的關(guān)系;以及本體項(xiàng)的數(shù)據(jù)性質(zhì)。優(yōu)選地,電子處理裝置可以:確定源本體中的源本體項(xiàng)之間的關(guān)系;確定目標(biāo)本體中的目標(biāo)本體項(xiàng)之間的關(guān)系;將所述關(guān)系進(jìn)行比較;以及根據(jù)所述比較的結(jié)果確定對(duì)準(zhǔn)。優(yōu)選地,電子處理裝置可以確定來自源本體的一個(gè)或多個(gè)源本體項(xiàng)與來自目標(biāo)本體的一個(gè)或多個(gè)目標(biāo)本體項(xiàng)之間的對(duì)準(zhǔn)。優(yōu)選地,電子處理裝置可以通過以下方式確定所述一組本體項(xiàng):確定選擇的本體項(xiàng);以及至少部分地根據(jù)選擇的本體項(xiàng)和選擇的本體項(xiàng)之間的關(guān)系確定所述一組本體項(xiàng)。優(yōu)選地,所述電子處理裝置可以通過以下方式確定相關(guān)的本體項(xiàng):對(duì)于每一選擇的本體項(xiàng),識(shí)別多個(gè)不同類型的關(guān)系中的每一個(gè)的定義的關(guān)系路徑長(zhǎng)度內(nèi)的本體項(xiàng);以及將所述識(shí)別的本體項(xiàng)添加至所述一組本體項(xiàng)。優(yōu)選地,電子處理裝置可重復(fù)地添加識(shí)別的本體項(xiàng),直至所有選擇的本體項(xiàng)均被關(guān)系相連。優(yōu)選地,電子處理裝置可以為不同類型的關(guān)系使用不同關(guān)系路徑長(zhǎng)度。優(yōu)選地,電子處理裝置可以根據(jù)用戶輸入命令確定關(guān)系路徑長(zhǎng)度。優(yōu)選地,設(shè)備可以包括:索引器模塊,所述索引器模塊生成指示本體中的本體項(xiàng)的索引;瀏覽器模塊,所述瀏覽器模塊允許瀏覽本體中的本體項(xiàng)并且生成體現(xiàn)本體的至少一部分的代碼,從而允許用戶與存儲(chǔ)在與所述本體相一致的數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)交互;對(duì)準(zhǔn)器模塊,所述對(duì)準(zhǔn)器模塊確定不同本體的本體項(xiàng)之間的對(duì)準(zhǔn);刪減器模塊,所述刪減器模塊至少部分地使用本體項(xiàng)之間的關(guān)系確定至少一個(gè)本體內(nèi)的一組本體項(xiàng);以及語義匹配器模塊,所述語義匹配器模塊識(shí)別本體項(xiàng)含義。在第二方面中,本發(fā)明提供一種用于使用本體生成映射的方法,所述方法包括在至少一個(gè)電子處理裝置中:確定具有相應(yīng)本體項(xiàng)的本體;根據(jù)所述本體中的至少一個(gè)確定一組本體項(xiàng);針對(duì)所述一組本體項(xiàng)中的至少一些,確定本體中的本體項(xiàng)之間的對(duì)準(zhǔn),所述對(duì)準(zhǔn)至少部分地根據(jù)本體項(xiàng)的本體項(xiàng)含義進(jìn)行確定;以及根據(jù)所述對(duì)準(zhǔn)生成映射。附圖簡(jiǎn)述現(xiàn)在將參考附圖描述本發(fā)明的實(shí)例,其中:圖1A是使用本體生成映射的方法的實(shí)例的流程圖;圖1B是基于一個(gè)示例性本體結(jié)構(gòu)的不同映射的實(shí)例的示意圖;圖2是分布式計(jì)算機(jī)架構(gòu)的實(shí)例的示意圖;圖3是基站處理系統(tǒng)的實(shí)例的示意圖;圖4是計(jì)算機(jī)系統(tǒng)的實(shí)例的示意圖;圖5是用于生成在源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)之間傳遞內(nèi)容的映射的方法的實(shí)例的流程圖;圖6是生成推定本體的方法的實(shí)例的流程圖;圖7是確定索引的方法的實(shí)例的流程圖;圖8是瀏覽本體的方法的實(shí)例的流程圖;圖9是刪減本體的方法的實(shí)例的流程圖;圖10是對(duì)準(zhǔn)本體的方法的第二實(shí)例的流程圖;圖11是語義匹配方法的實(shí)例的流程圖;圖12A和圖12B是示例性本體的示意圖;圖13是用于與本體交互的模塊的示意圖;圖14A是圖13的ETL(提取轉(zhuǎn)換加載)模塊的軟件棧的實(shí)例的示意圖;圖14B是用于實(shí)現(xiàn)圖13的ETL模塊的架構(gòu)的示意圖;圖15是圖13的瀏覽器模塊的功能性的實(shí)例的示意圖;圖16是圖13的索引器模塊的功能性的實(shí)例的示意圖;圖17A是圖13的刪減器模塊的功能性的實(shí)例的示意圖;圖17B至圖17D是刪減過程的實(shí)例的示意圖;圖18A是圖13的語義匹配器模塊的功能性的第一實(shí)例的示意圖;圖18B是圖13的語義匹配器模塊的功能性的第二實(shí)例的示意圖;圖18C是表格之間的關(guān)系的實(shí)例的示意圖;圖18D是圖13的語義匹配器模塊的功能性的第三實(shí)例的示意圖;圖19A是“事物數(shù)據(jù)庫”的實(shí)例的示意圖;圖19B是用于統(tǒng)一不同源的架構(gòu)的實(shí)例的示意圖;圖19C是圖13的對(duì)準(zhǔn)器模塊的功能性的實(shí)例的示意圖;以及圖19D和圖19E是合并本體的實(shí)例的示意圖。優(yōu)選實(shí)施方案的詳述現(xiàn)在將參考圖1A描述使用本體生成映射的方法的實(shí)例。出于該實(shí)例的目的,假設(shè)至少部分地使用如下面將更詳細(xì)地描述的電子處理裝置執(zhí)行過程,所述電子處理裝置諸如計(jì)算機(jī)系統(tǒng)的微處理器。對(duì)于至少一些實(shí)例,還假設(shè)將內(nèi)容作為一個(gè)或多個(gè)內(nèi)容實(shí)例存儲(chǔ)在數(shù)據(jù)存儲(chǔ)的內(nèi)容字段中,所述數(shù)據(jù)存儲(chǔ)充當(dāng)內(nèi)容知識(shí)庫,諸如數(shù)據(jù)庫或文件。因此,內(nèi)容字段可以是數(shù)據(jù)庫的數(shù)據(jù)庫字段,其中內(nèi)容實(shí)例對(duì)應(yīng)于數(shù)據(jù)庫記錄,包括跨一個(gè)或多個(gè)數(shù)據(jù)庫字段存儲(chǔ)的值?;蛘?,內(nèi)容字段可以是定義在文件、諸如XML文件內(nèi)的字段,所述文件可用于傳輸數(shù)據(jù),例如當(dāng)將從數(shù)據(jù)庫提取數(shù)據(jù)和/或?qū)褦?shù)據(jù)傳遞至數(shù)據(jù)庫時(shí),如根據(jù)下面的描述將變得明白。作為另一替代方案,內(nèi)容字段可以是定義在諸如RDF三元組存儲(chǔ)器等文件內(nèi)的字段,所述文件可用于傳輸數(shù)據(jù),例如當(dāng)將從數(shù)據(jù)庫提取數(shù)據(jù)和/或?qū)褦?shù)據(jù)傳遞至數(shù)據(jù)庫時(shí),如根據(jù)下面的描述也將變得明白。假設(shè)根據(jù)數(shù)據(jù)結(jié)構(gòu)對(duì)內(nèi)容進(jìn)行存儲(chǔ),所述數(shù)據(jù)結(jié)構(gòu)諸如數(shù)據(jù)庫模式、XML文檔定義、本體或模式等。出于在整個(gè)以下描述中進(jìn)行說明的目的,術(shù)語“源”被用于指代諸如數(shù)據(jù)提取自的數(shù)據(jù)庫或文件的數(shù)據(jù)存儲(chǔ),而術(shù)語“目標(biāo)”用于指代諸如數(shù)據(jù)被存儲(chǔ)進(jìn)去的數(shù)據(jù)庫或文件的數(shù)據(jù)存儲(chǔ)。這些術(shù)語僅用于說明的目的,例如用于區(qū)分可能的源和目標(biāo),并且并非意在進(jìn)行限制。術(shù)語“內(nèi)容實(shí)例”指代提取自源和/或傳遞至目標(biāo)的獨(dú)立的一段內(nèi)容,并且也并非意在進(jìn)行限制。例如,術(shù)語內(nèi)容實(shí)例可以指代具有存儲(chǔ)在多個(gè)不同數(shù)據(jù)庫字段中的值的數(shù)據(jù)庫記錄,或者一組相關(guān)數(shù)據(jù)庫記錄,或者可以指代存儲(chǔ)在單個(gè)字段內(nèi)的單個(gè)值。術(shù)語“本體”代表知識(shí),如領(lǐng)域內(nèi)的一組概念,所述知識(shí)使用共享詞匯表來表示類型、性質(zhì)和這些概念的相互關(guān)系。本體通常包括多個(gè)組件,諸如個(gè)體、類別、對(duì)象、屬性等,并且術(shù)語“本體項(xiàng)”一般用于指代這些組件并且任選地指代這些概念中的特定一些。術(shù)語“含義”意在指代特定本體項(xiàng)、內(nèi)容字段名稱等的語義解釋。因此,術(shù)語“含義”涵蓋本體項(xiàng)或內(nèi)容字段的字面含義,例如以解釋諸如同形同音異義詞、同義詞、部分詞等的問題,如下面將更詳細(xì)地描述。在該實(shí)例中,在步驟100中,電子處理裝置確定具有相應(yīng)本體項(xiàng)的本體。該過程可以任何合適的方式執(zhí)行,并且可以包括使得電子處理裝置選擇存儲(chǔ)在例如一個(gè)或多個(gè)本體數(shù)據(jù)庫中的多個(gè)現(xiàn)有本體中的一個(gè)或多個(gè),或者可以通過生成推定本體來實(shí)現(xiàn)。在一個(gè)實(shí)例中,所選擇的本體對(duì)應(yīng)于與源數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的源本體和與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的目標(biāo)本體,但是這并不是至關(guān)重要的。本體的選擇可以在源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上實(shí)現(xiàn),并且可以包括將數(shù)據(jù)結(jié)構(gòu)內(nèi)的字段與本體項(xiàng)進(jìn)行比較,直到找到合適匹配為止。該過程可能還涉及多個(gè)本體、并且因此有關(guān)該內(nèi)容的特定主題字段、與內(nèi)容有關(guān)的行業(yè)等的本體的檢查領(lǐng)域和選擇領(lǐng)域。對(duì)本體的選擇可以是自動(dòng)化的,例如通過提供電子處理裝置,所述電子處理裝置具有相關(guān)內(nèi)容的主題字段的指示;本體的選擇可以是手動(dòng)的,例如通過使得所述電子處理裝置顯示可用本體的詳細(xì)信息來允許用戶選擇這些本體;或者本體的選擇利用手動(dòng)過程和自動(dòng)化過程的組合。或者,這可涉及從源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)生成‘推定的’本體,例如使用元數(shù)據(jù)、數(shù)據(jù)庫模式等。該過程可涉及從關(guān)系型參照完整性約束得出一些本體公理,但是大多數(shù)公理將需要手動(dòng)添加或忽略。然后可以將該推定本體與現(xiàn)有豐富本體進(jìn)行對(duì)準(zhǔn)以添加元數(shù)據(jù)。在步驟110中,電子處理裝置從本體中的至少一個(gè)確定一組本體項(xiàng)。所述一組本體項(xiàng)通常是相應(yīng)本體的子組,并且代表一組相關(guān)的本體項(xiàng)。該組通常包括例如對(duì)應(yīng)于相關(guān)本體項(xiàng)的選擇的本體項(xiàng)。因此,例如,當(dāng)在映射源和目標(biāo)數(shù)據(jù)結(jié)構(gòu)中使用時(shí),所述一組本體項(xiàng)可以包括對(duì)應(yīng)于將被映射至目標(biāo)數(shù)據(jù)字段或源數(shù)據(jù)字段的源數(shù)據(jù)字段或目標(biāo)數(shù)據(jù)字段的選擇的本體項(xiàng),例如以允許提取其中的內(nèi)容并將所述內(nèi)容傳遞至目標(biāo)數(shù)據(jù)存儲(chǔ)。該組通常進(jìn)一步包括維護(hù)選擇的本體項(xiàng)之間的關(guān)系所需要的本體項(xiàng)。對(duì)該組進(jìn)行確定的方式將根據(jù)優(yōu)選實(shí)現(xiàn)方式而變化,并且可以包括選擇多個(gè)先前確定的組中的一個(gè),例如依據(jù)將提取的內(nèi)容。然而,或者,這將涉及通過識(shí)別選擇的本體項(xiàng)生成該組,并且隨后逐步地檢查相關(guān)的本體項(xiàng),直至找到連接選擇的本體項(xiàng)中的每一個(gè)的路徑。該過程有時(shí)被稱作刪減,因?yàn)樗鼘?shí)際上涉及將本體刪減成相較整個(gè)本體來說更容易管理的減少數(shù)量的本體項(xiàng),但是所述減少數(shù)量的本體項(xiàng)仍然維持本體的結(jié)構(gòu)和公理。在步驟120中,電子處理裝置針對(duì)所述一組本體項(xiàng)中的至少一些確定本體項(xiàng)之間的對(duì)準(zhǔn),其中所述對(duì)準(zhǔn)至少部分地根據(jù)本體項(xiàng)的本體項(xiàng)含義進(jìn)行確定。因此,電子處理裝置檢查至少一個(gè)本體中的本體項(xiàng)的含義,并且嘗試識(shí)別其它本體中的同等本體項(xiàng)。因此,在最簡(jiǎn)單的層面上,這可以包括識(shí)別具有相同含義的源本體項(xiàng)和目標(biāo)本體項(xiàng),但是更為常見的是將檢查源本體項(xiàng)之間的關(guān)系以及目標(biāo)本體項(xiàng)之間的關(guān)系,以識(shí)別源本體項(xiàng)和目標(biāo)本體項(xiàng)是否也具有與其它源本體項(xiàng)和目標(biāo)本體項(xiàng)類似的關(guān)系。應(yīng)注意,對(duì)準(zhǔn)不必是一對(duì)一的映射,并且一個(gè)本體中的單個(gè)本體項(xiàng)可以與其它本體中的多個(gè)本體項(xiàng)對(duì)準(zhǔn)。例如,源本體可以將個(gè)體的姓名定義成單個(gè)概念,而目標(biāo)本體可以將名和姓定義成分開的概念,在后一種情況下,在將內(nèi)容從源本體傳遞至目標(biāo)本體時(shí)將需要對(duì)內(nèi)容進(jìn)行合并。在步驟130中,電子處理裝置操作以根據(jù)所述對(duì)準(zhǔn)生成映射。所述映射可以代表本體自身之間的映射,和/或基于目標(biāo)本體項(xiàng)與源本體項(xiàng)之間的對(duì)準(zhǔn),可以代表相應(yīng)源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)中的源數(shù)據(jù)字段與目標(biāo)數(shù)據(jù)字段之間的映射。因此,例如,電子處理裝置可以確定源數(shù)據(jù)字段、對(duì)應(yīng)源本體項(xiàng),并且隨后使用所述對(duì)準(zhǔn)確定對(duì)準(zhǔn)的目標(biāo)本體項(xiàng),并且因此確定目標(biāo)數(shù)據(jù)字段。然后通常將映射存儲(chǔ)為映射文件、索引、表格、合并本體等的形式,從而允許隨后在傳遞數(shù)據(jù)的過程中進(jìn)行使用。因此,以上過程允許將兩個(gè)本體對(duì)準(zhǔn),這繼而被用于創(chuàng)建映射。該映射可被用于將不同本體中的本體項(xiàng)等同,從而允許這繼而被用于使用相應(yīng)本體將源數(shù)據(jù)字段映射至目標(biāo)數(shù)據(jù)字段。該映射可用于在源與目標(biāo)之間傳遞內(nèi)容,其中本體的使用有助于當(dāng)即使在具有不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)之間傳遞內(nèi)容時(shí)確保維持所述內(nèi)容的結(jié)構(gòu)。本體的使用還可以有助于確保維持被傳遞的內(nèi)容的完整性,或者確保隨著內(nèi)容傳遞來將所述內(nèi)容改進(jìn),例如以確保內(nèi)容呈所需要的范式,并且甚至視需要提供規(guī)范化。因此,使用本體允許隨著內(nèi)容被從源數(shù)據(jù)存儲(chǔ)傳遞至目標(biāo)數(shù)據(jù)存儲(chǔ)施加額外關(guān)系約束,以使得即使源數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)未以第三范式存儲(chǔ),也可以在傳遞過程中將其轉(zhuǎn)換成第三范式。當(dāng)該過程被用于在源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)之間創(chuàng)建映射時(shí),源本體和目標(biāo)本體可以是先前定義的本體,諸如像蓋倫本體等官方創(chuàng)建本體(一般稱作正式本體),或者可以是基于數(shù)據(jù)結(jié)構(gòu)本身生成的推定本體。這允許建立多個(gè)不同映射關(guān)系,如現(xiàn)在將參考圖1B進(jìn)行描述。在該實(shí)例中,示出具有相應(yīng)源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)S、T的源數(shù)據(jù)存儲(chǔ)和目標(biāo)數(shù)據(jù)存儲(chǔ)。每一數(shù)據(jù)存儲(chǔ)可以具有對(duì)應(yīng)推定本體150、160,其中對(duì)應(yīng)正式本體151、161也存在。這允許建立多個(gè)不同映射。例如,可在推定本體150、160之間直接創(chuàng)建映射,從而允許直接在源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)S、T之間傳遞內(nèi)容。另外地和/或替代地,可以使用上述技術(shù)在推定本體150、160與對(duì)應(yīng)正式本體151、161之間創(chuàng)建映射。該過程允許基于源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)S、T創(chuàng)建推定本體150、160,并且隨后大致上自動(dòng)地映射至正式本體151、161以據(jù)此為推定本體150、160中的本體項(xiàng)提供含義、定義和潛在的關(guān)系。將存儲(chǔ)在相應(yīng)數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)規(guī)范化的過程中也可以適用該過程。在本體151、161相同的情況下,將推定本體150、160映射至正式本體151、161允許內(nèi)容在源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)S、T之間傳遞?;蛘?,也可以對(duì)正式本體進(jìn)行對(duì)準(zhǔn),以允許它們之間的映射,從而再次允許源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)S、T之間的數(shù)據(jù)傳遞。因此,應(yīng)了解,上述技術(shù)可用于在本體之間創(chuàng)建映射,其中這些繼而用于直接在源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)之間建立映射。這方便不同源與目標(biāo)之間的內(nèi)容傳遞,并且允許根據(jù)正式數(shù)據(jù)結(jié)構(gòu)執(zhí)行該過程,從而確保以規(guī)范化形式提供內(nèi)容。因此,這不僅允許不同數(shù)據(jù)結(jié)構(gòu)之間的內(nèi)容傳遞,而且還可用于克服與以非規(guī)范化形式存儲(chǔ)的數(shù)據(jù)相關(guān)聯(lián)的問題?,F(xiàn)在將描述多個(gè)另外特征。就這一點(diǎn)而言,電子處理裝置通常被適配以執(zhí)行多個(gè)不同功能來方便上述過程,所述過程包括:生成本體的索引;允許用戶瀏覽本體并與本體交互;對(duì)準(zhǔn)本體、刪減本體和解釋本體項(xiàng)的含義,如現(xiàn)在將進(jìn)一步描述。如上面所提及,映射可以具有任何形式。當(dāng)映射介于本體之間時(shí),這可以是合并本體形式,或者呈對(duì)準(zhǔn)索引的形式,如下面將更加詳細(xì)地描述。所涉及的本體可以包括推定本體和/或正式本體,取決于優(yōu)選的實(shí)現(xiàn)方式。在一個(gè)特定實(shí)例中,電子處理裝置生成映射,以將推定本體映射至正式本體。如也提及到的,映射可以在將內(nèi)容從具有包括多個(gè)源數(shù)據(jù)字段的源數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)源存儲(chǔ)器傳遞至具有包括多個(gè)目標(biāo)數(shù)據(jù)字段的目標(biāo)數(shù)據(jù)結(jié)構(gòu)的目標(biāo)數(shù)據(jù)存儲(chǔ)傳遞內(nèi)容的過程中使用,其中本體與源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián),并且其中所述電子處理裝置使用所述映射在源數(shù)據(jù)字段與目標(biāo)數(shù)據(jù)字段之間傳遞內(nèi)容。因此,本體可以包括與源數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的源本體和與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的目標(biāo)本體,其中所述源本體和目標(biāo)本體是映射至一個(gè)或多個(gè)正式本體的推定本體。因此,在上述過程中,電子處理裝置可以通過生成推定本體或選擇多個(gè)現(xiàn)有推定本體或正式本體中的一個(gè)來確定本體。電子處理裝置通常使用與源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的元數(shù)據(jù)或者源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)的源數(shù)據(jù)字段和目標(biāo)數(shù)據(jù)字段確定源本體或目標(biāo)本體。該過程可以包括生成推定本體,或者例如從存儲(chǔ)在諸如本體數(shù)據(jù)庫的存儲(chǔ)器中的本體選擇多個(gè)現(xiàn)有本體中的一個(gè)。在該后一種情況下,電子處理裝置可以將數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)字段與多個(gè)現(xiàn)有本體的本體項(xiàng)進(jìn)行比較,并且根據(jù)比較結(jié)果選擇多個(gè)現(xiàn)有本體中的一個(gè)?;蛘撸?dāng)例如從數(shù)據(jù)庫模式生成本體時(shí),電子處理裝置通常識(shí)別所述模式中的表格,創(chuàng)建對(duì)應(yīng)于每一表格的本體項(xiàng),識(shí)別至少一個(gè)材料單表格,以及創(chuàng)建對(duì)應(yīng)于材料單表格中的每一條目的本體項(xiàng)。因此,該過程操作以檢查任何非規(guī)范化數(shù)據(jù)庫表格的內(nèi)容,并且擴(kuò)展該表格的內(nèi)容以識(shí)別額外的本體項(xiàng)。作為該過程的一部分,電子處理裝置可以顯示對(duì)應(yīng)于材料單表格中的每一條目的本體項(xiàng)的指示,并且響應(yīng)于用戶輸入命令將本體項(xiàng)添加至推定本體。這允許用戶視需要來重寫本體項(xiàng)的創(chuàng)建。當(dāng)生成推定本體時(shí),電子處理裝置可以使用由數(shù)據(jù)庫模式定義的表格結(jié)構(gòu)進(jìn)一步生成本體項(xiàng)之間的關(guān)系。該過程允許電子處理裝置生成推定本體,包括對(duì)應(yīng)于本體項(xiàng)的類別,所述類別中的至少一些的數(shù)據(jù)性質(zhì)和定義類別之間的關(guān)系的對(duì)象性質(zhì)。在一個(gè)實(shí)例中,電子處理裝置確定至少一個(gè)本體的索引,所述索引包括至少一個(gè)本體的本體項(xiàng)的指示,并且使用所述索引來確定所述一組本體項(xiàng)和本體項(xiàng)之間的對(duì)準(zhǔn)。雖然索引的使用并不是至關(guān)重要的,但是與使用整個(gè)本體相比,這大大地降低了需要處理的數(shù)據(jù)量,從而使得瀏覽、分組(刪減)和對(duì)準(zhǔn)過程可更好地易管理。索引可以是任何適當(dāng)形式,但是對(duì)于每一本體項(xiàng),通常包括本體項(xiàng)名稱、本體項(xiàng)含義的指示和本體項(xiàng)類型。索引還可包括額外信息,諸如相應(yīng)本體中的本體項(xiàng)的地址,所述地址可以采用URI(統(tǒng)一資源標(biāo)識(shí)符)等的形式。電子處理裝置通過以下方式為每一本體項(xiàng)生成索引:識(shí)別本體項(xiàng)名稱;識(shí)別本體項(xiàng)類型;使用語義匹配過程識(shí)別每一本體項(xiàng)的本體含義;以及創(chuàng)建索引條目,所述索引條目包括本體項(xiàng)名稱、本體項(xiàng)類型和本體項(xiàng)含義的指示。在一個(gè)實(shí)例中,電子處理裝置生成多個(gè)本體的單個(gè)索引,并且其中索引條目包括與本體項(xiàng)相關(guān)聯(lián)的本體的指示,但是這并不是至關(guān)重要的,并替代地,可以針對(duì)加索引的每一本體使用單獨(dú)索引。電子處理裝置通常被進(jìn)一步適配以顯示本體中的一個(gè)或多個(gè)本體項(xiàng)的指示,響應(yīng)于用戶輸入命令來識(shí)別至少一個(gè)本體項(xiàng),以及顯示至少一個(gè)識(shí)別的本體項(xiàng)和與所述至少一個(gè)識(shí)別的本體項(xiàng)相關(guān)聯(lián)的數(shù)據(jù)性質(zhì)中的至少一個(gè)的詳細(xì)信息。因此,這允許用戶瀏覽本體,并且查看其中所定義的本體項(xiàng)的詳細(xì)信息。這可用于允許用戶評(píng)估是否已使用了正確本體,理解本體范圍,探索不同本體項(xiàng)之間的關(guān)系,并且評(píng)估源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)與本體的關(guān)聯(lián)。電子處理裝置通常使用本體索引確定一個(gè)或多個(gè)本體項(xiàng)的指示。因此,應(yīng)了解,索引提供一種使電子處理裝置顯示本體項(xiàng)的列表并接著探索與選擇的本體項(xiàng)相關(guān)聯(lián)的數(shù)據(jù)性質(zhì)的快速機(jī)制,。電子處理裝置通常被適配以響應(yīng)于用戶輸入命令來確定用戶選擇的本體項(xiàng)和對(duì)應(yīng)用戶選擇的數(shù)據(jù)性質(zhì)。這不僅可以用于顯示選擇的本體項(xiàng)和數(shù)據(jù)性質(zhì)的詳細(xì)信息,而且還允許電子處理裝置生成可執(zhí)行代碼。可執(zhí)行代碼基于用戶選擇的本體項(xiàng)和數(shù)據(jù)性質(zhì),并且當(dāng)在計(jì)算機(jī)系統(tǒng)上執(zhí)行時(shí)引起計(jì)算機(jī)系統(tǒng)顯示用戶界面,所述用戶界面用于允許用戶與存儲(chǔ)在具有對(duì)應(yīng)于用戶選擇的本體項(xiàng)的數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)中的內(nèi)容交互。因此,這提供一種用于允許電子處理裝置自動(dòng)地生成可用于顯示界面的代碼的機(jī)制,所述界面允許用戶與內(nèi)容交互并且隨后從相應(yīng)源數(shù)據(jù)結(jié)構(gòu)和/或目標(biāo)數(shù)據(jù)結(jié)構(gòu)導(dǎo)出內(nèi)容或者導(dǎo)入內(nèi)容至相應(yīng)源數(shù)據(jù)結(jié)構(gòu)和/或目標(biāo)數(shù)據(jù)結(jié)構(gòu)。因此,應(yīng)了解,這允許用戶瀏覽本體內(nèi)的本體項(xiàng),并且隨后選擇對(duì)應(yīng)于數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)字段的本體項(xiàng)。這反過來允許生成代碼,所述代碼可以充當(dāng)允許用戶與存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)內(nèi)的內(nèi)容交互的接口。在一個(gè)實(shí)例中,可執(zhí)行代碼引起計(jì)算機(jī)系統(tǒng)生成查詢,所述查詢用于與存儲(chǔ)在與源本體或目標(biāo)本體相一致的源數(shù)據(jù)結(jié)構(gòu)或目標(biāo)數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)交互,例如像通過使用SPARQL(SPARQL協(xié)議和RDF查詢語言)查詢和檢索內(nèi)容。這提供一種用于快速地部署計(jì)算機(jī)軟件的機(jī)制,所述計(jì)算機(jī)軟件可以充當(dāng)至數(shù)據(jù)庫的接口。另外,由于這是基于本體生成,所以它可將定義在本體內(nèi)的關(guān)系并入代碼的結(jié)構(gòu)中,并且因此產(chǎn)生查詢。因此,這允許計(jì)算機(jī)系統(tǒng)根據(jù)數(shù)據(jù)性質(zhì)或用戶選擇的本體項(xiàng)之間的關(guān)系生成查詢。為實(shí)現(xiàn)該目的,計(jì)算機(jī)系統(tǒng)通常顯示例如來自源本體或目標(biāo)本體的一個(gè)或多個(gè)本體項(xiàng)的指示,響應(yīng)于用戶輸入命令來確定至少一個(gè)本體項(xiàng)的選擇,以及查詢存儲(chǔ)在對(duì)應(yīng)數(shù)據(jù)字段中的數(shù)據(jù)。為了確定關(guān)于本體項(xiàng)的含義,以及比較不同本體項(xiàng)的含義的類似性,通常對(duì)電子處理裝置進(jìn)行適配以執(zhí)行語義匹配。這通常涉及將本體項(xiàng)與例如存儲(chǔ)在參考數(shù)據(jù)庫(諸如概念匹配數(shù)據(jù)庫)中的多個(gè)潛在本體項(xiàng)含義進(jìn)行比較,以及根據(jù)比較結(jié)果選擇潛在本體項(xiàng)含義中的一個(gè)作為本體項(xiàng)含義。為實(shí)現(xiàn)該目的,電子處理裝置通過以下方式確定本體項(xiàng)含義:生成每一比較的結(jié)果的匹配分?jǐn)?shù),以及根據(jù)匹配分?jǐn)?shù)確定本體項(xiàng)含義。在確定匹配分?jǐn)?shù)的過程中,電子處理裝置確定潛在本體項(xiàng)含義是否是考慮中的本體項(xiàng)的同義詞、反義詞、部分詞、超類和小類中的至少一個(gè)。在已創(chuàng)建了本體項(xiàng)含義后,通常將該含義的指示存儲(chǔ)作為索引的一部分,所述指示包括指示定義的含義的標(biāo)識(shí)符和同等含義列表中的至少一個(gè)。因此,可將單個(gè)唯一標(biāo)識(shí)符分配給多個(gè)不同本體內(nèi)的每一唯一概念,從而允許共同含義由跨不同本體的共同標(biāo)識(shí)符加以識(shí)別。所述標(biāo)識(shí)符可以是唯一字母數(shù)字代碼、詞元、根詞等,取決于優(yōu)選的實(shí)現(xiàn)方式。這使得識(shí)別同等且因此對(duì)準(zhǔn)的本體項(xiàng)的過程容易得多。類似地,電子處理裝置通常通過以下方式確定本體項(xiàng)之間的對(duì)準(zhǔn):對(duì)多個(gè)本體項(xiàng)的本體項(xiàng)含義進(jìn)行比較,生成每一比較的結(jié)果的匹配分?jǐn)?shù),以及根據(jù)匹配分?jǐn)?shù)確定對(duì)準(zhǔn)。更常見地,電子處理裝置還將基于本體項(xiàng)或本體項(xiàng)的數(shù)據(jù)性質(zhì)之間的關(guān)系確定對(duì)準(zhǔn)。因此,這不僅將項(xiàng)的絕對(duì)含義納入考慮,而且還將本體的相對(duì)結(jié)構(gòu)納入考慮,以確定對(duì)準(zhǔn)是否存在。因此,電子處理裝置可以確定源本體項(xiàng)之間的關(guān)系,確定目標(biāo)本體項(xiàng)之間的關(guān)系,將所述關(guān)系進(jìn)行比較,并且根據(jù)比較結(jié)果確定源本體項(xiàng)與目標(biāo)本體項(xiàng)之間的對(duì)準(zhǔn)。電子處理裝置通常確定來自源本體的一個(gè)或多個(gè)源本體項(xiàng)和來自目標(biāo)本體的一個(gè)或多個(gè)目標(biāo)本體項(xiàng)之間的對(duì)準(zhǔn),因此這允許涵蓋一對(duì)一、多對(duì)一和一對(duì)多的關(guān)系。如上面所提及,電子處理裝置可以例如通過刪減本體來確定一組本體項(xiàng),以使得可以刪除不相關(guān)或未用于當(dāng)前應(yīng)用的本體項(xiàng),并且僅保留與當(dāng)前情況相關(guān)的那些本體項(xiàng)。在一個(gè)實(shí)例中,這通過以下方式實(shí)現(xiàn):確定選擇的本體項(xiàng),并且接著至少部分地根據(jù)所述選擇的本體項(xiàng)和本體項(xiàng)之間的關(guān)系確定所述一組本體項(xiàng)。因此,對(duì)于每一選擇的本體項(xiàng),電子處理裝置識(shí)別有關(guān)多個(gè)不同類型的關(guān)系的每一個(gè)的定義的關(guān)系路徑長(zhǎng)度內(nèi)的本體項(xiàng),并且將識(shí)別的本體項(xiàng)添加至所述一組源本體項(xiàng)。該過程可反復(fù)執(zhí)行,以使得電子處理裝置重復(fù)添加識(shí)別的本體項(xiàng),直到達(dá)到所需端點(diǎn)為止,諸如當(dāng)所有選擇的本體項(xiàng)被關(guān)系連接起來時(shí)。這隨后建立一組相關(guān)的本體項(xiàng),這組相關(guān)的本體項(xiàng)允許保留本體內(nèi)的關(guān)系,并在諸如對(duì)準(zhǔn)本體、創(chuàng)建映射等其它過程中使用。作為以上過程的一部分,可以檢查多個(gè)不同關(guān)系,以嘗試在所有選擇的本體項(xiàng)之間建立路徑,其中電子處理裝置任選地為不同類型的關(guān)系使用不同關(guān)系路徑長(zhǎng)度。因此,例如,一些類型的關(guān)系將被視為是較為重要的,并且因此當(dāng)識(shí)別關(guān)系本體項(xiàng)時(shí)通常會(huì)被給定較長(zhǎng)的路徑長(zhǎng)度。在一個(gè)實(shí)例中,路徑長(zhǎng)度可以由用戶定義,從而允許在對(duì)組的創(chuàng)建進(jìn)行控制的過程中使用人工干預(yù)。在一個(gè)實(shí)例中,為了允許執(zhí)行上述過程,可以使用多個(gè)不同工具來幫助生成映射和管理本體。在一個(gè)實(shí)例中,提供工具作為形成本體的集成包的軟件套件和數(shù)據(jù)管理工具的一部分。在一個(gè)實(shí)例中,工具包括:索引器模塊,所述索引器模塊生成指示本體中的本體項(xiàng)的索引;瀏覽器模塊,所述瀏覽器模塊允許瀏覽本體中的本體項(xiàng)并且生成體現(xiàn)本體的至少一部分的代碼,從而允許用戶與存儲(chǔ)在與所述本體相一致的數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)交互;對(duì)準(zhǔn)器模塊,所述對(duì)準(zhǔn)器模塊確定不同本體的本體項(xiàng)之間的對(duì)準(zhǔn);刪減器模塊,所述刪減器模塊至少部分地使用本體項(xiàng)之間的關(guān)系確定至少一個(gè)本體內(nèi)的一組本體項(xiàng);以及語義匹配器模塊,所述語義匹配器模塊識(shí)別本體項(xiàng)含義。然而,對(duì)相應(yīng)模塊的使用并不是至關(guān)重要的,并且可以使用其它布置。在一個(gè)實(shí)例中,可以至少部分地使用處理系統(tǒng)(諸如合適地編程的計(jì)算機(jī)系統(tǒng))來執(zhí)行過程。這可以在獨(dú)立計(jì)算機(jī)上執(zhí)行,其中微處理器執(zhí)行應(yīng)用軟件,從而允許執(zhí)行上述方法?;蛘撸^程可以由作為分布式架構(gòu)的一部分操作的一個(gè)或多個(gè)處理系統(tǒng)來執(zhí)行,現(xiàn)在將參考圖2描述的系統(tǒng)的實(shí)例。在該實(shí)例中,兩個(gè)基站201經(jīng)由通信網(wǎng)絡(luò)(諸如互聯(lián)網(wǎng)202和/或多個(gè)局域網(wǎng)(LAN)204)耦接至多個(gè)計(jì)算機(jī)系統(tǒng)203。應(yīng)了解,網(wǎng)絡(luò)202、204的配置僅用于舉例的目的,并且在實(shí)踐中,基站201、計(jì)算機(jī)系統(tǒng)203可以經(jīng)由任何適當(dāng)機(jī)制進(jìn)行通信,諸如經(jīng)由有線或無線連接,包括但不限于移動(dòng)網(wǎng)絡(luò)、諸如802.11網(wǎng)絡(luò)的專用網(wǎng)絡(luò)、互聯(lián)網(wǎng)、LAN、WAN等;以及經(jīng)由直接或點(diǎn)到點(diǎn)連接,諸如藍(lán)牙等。在一個(gè)實(shí)例中,每一基站201包括耦接至數(shù)據(jù)庫211的處理系統(tǒng)210。對(duì)基站201進(jìn)行適配以用于管理本體,例如執(zhí)行刪減或?qū)?zhǔn),并且用于生成映射,例如用于在源數(shù)據(jù)存儲(chǔ)與目標(biāo)數(shù)據(jù)存儲(chǔ)之間傳遞內(nèi)容。可以對(duì)計(jì)算機(jī)系統(tǒng)203進(jìn)行適配以與基站201通信,從而允許對(duì)過程(諸如映射生成)進(jìn)行控制,但是這并不是至關(guān)重要的,并且可以利用基站201直接控制所述過程。雖然每一基站201被示出為單個(gè)實(shí)體,但是應(yīng)了解,基站201可以跨多個(gè)地理分開的位置分布,例如通過使用被提供作為基于云計(jì)算的環(huán)境的一部分的處理系統(tǒng)210和/或數(shù)據(jù)庫211。就這一點(diǎn)而言,可以提供多個(gè)基站201,所述多個(gè)基站201中的每一個(gè)與相應(yīng)數(shù)據(jù)存儲(chǔ)或本體相關(guān)聯(lián),盡管數(shù)據(jù)存儲(chǔ)可選地可以與計(jì)算機(jī)系統(tǒng)203相關(guān)聯(lián)。然而,上述布置并不是至關(guān)重要的,并且可以使用其它合適配置。例如,過程可以在獨(dú)立計(jì)算機(jī)系統(tǒng)上執(zhí)行。合適處理系統(tǒng)210的實(shí)例在圖3中示出。在該實(shí)例中,處理系統(tǒng)210包括利用如圖所示的總線304進(jìn)行互連的至少一個(gè)微處理器300、存儲(chǔ)器301、諸如鍵盤和/或顯示器等輸入/輸出裝置302以及外部接口303。在該實(shí)例中,可利用外部接口303來將處理系統(tǒng)210連接至外圍裝置,諸如通信網(wǎng)絡(luò)202、204、數(shù)據(jù)庫211、其它存儲(chǔ)裝置等。雖然示出了單個(gè)外部接口303,但是這僅用于舉例的目的,并且在實(shí)踐中,可以提供使用各種方法的多個(gè)接口(例如,以太網(wǎng)接口、串行接口、USB、無線接口等)。在使用中,微處理器300實(shí)施呈存儲(chǔ)在存儲(chǔ)器301中的應(yīng)用軟件的形式的指令,以允許執(zhí)行索引生成、映射和從數(shù)據(jù)庫211傳遞內(nèi)容/傳遞內(nèi)容至數(shù)據(jù)庫211,以及與計(jì)算機(jī)系統(tǒng)203通信。應(yīng)用軟件可以包括一個(gè)或多個(gè)軟件模塊,并且可以在諸如操作系統(tǒng)環(huán)境等合適的實(shí)施環(huán)境中實(shí)施。因此,應(yīng)了解,處理系統(tǒng)210可以由任何合適的處理系統(tǒng)形成,所述合適的處理系統(tǒng)諸如合適地編程的計(jì)算機(jī)系統(tǒng)、PC、實(shí)施DBMS的數(shù)據(jù)庫服務(wù)器、web服務(wù)器、網(wǎng)絡(luò)服務(wù)器等。在一個(gè)特定實(shí)例中,處理系統(tǒng)210是標(biāo)準(zhǔn)處理系統(tǒng),諸如基于32位或64位英特爾架構(gòu)的處理系統(tǒng),所述處理系統(tǒng)實(shí)施存儲(chǔ)在非易失性(例如,硬盤)存儲(chǔ)裝置上的軟件應(yīng)用,但是這并不是至關(guān)重要的。然而,還將理解,處理系統(tǒng)可以是任何電子處理裝置,諸如任選地與諸如FPGA(現(xiàn)場(chǎng)可編程門陣列)等實(shí)現(xiàn)邏輯相關(guān)聯(lián)的微處理器、微芯片處理器、邏輯門配置、固件,或者是任何其它電子裝置、系統(tǒng)或布置。如圖4中所示,在一個(gè)實(shí)例中,計(jì)算機(jī)系統(tǒng)203包括利用如圖所示的總線404進(jìn)行互連的至少一個(gè)微處理器400、存儲(chǔ)器401、諸如鍵盤和/或顯示器的輸入/輸出裝置402以及外部接口403。在該實(shí)例中,可利用外部接口403將計(jì)算機(jī)系統(tǒng)203連接至外圍裝置,諸如通信網(wǎng)絡(luò)202、204、數(shù)據(jù)庫211、其它存儲(chǔ)裝置等。雖然示出了單個(gè)外部接口403,但是這僅用于舉例目的,并且在實(shí)踐中,可提供使用各種方法的多個(gè)接口(例如,以太網(wǎng)接口、串行接口、USB、無線接口等)。在使用中,微處理器400實(shí)施呈存儲(chǔ)在存儲(chǔ)器401中的應(yīng)用軟件形式的指令,以允許與基站201的通信,例如以允許操作員提供控制輸入。因此,應(yīng)了解,計(jì)算機(jī)系統(tǒng)203可以由任何合適的處理系統(tǒng)形成,諸如合適地編程的PC、互聯(lián)網(wǎng)終端、筆記本電腦、手提式PC、智能電話、PDA、web服務(wù)器等。因此,在一個(gè)實(shí)例中,處理系統(tǒng)100是標(biāo)準(zhǔn)處理系統(tǒng),諸如基于32位或64位英特爾架構(gòu)的處理系統(tǒng),所述處理系統(tǒng)實(shí)施存儲(chǔ)在非易失性(例如,硬盤)存儲(chǔ)裝置上的軟件應(yīng)用,但是這并不是至關(guān)重要的。然而,還將理解,計(jì)算機(jī)系統(tǒng)203可以是任何電子處理裝置,諸如任選地與諸如FPGA(現(xiàn)場(chǎng)可編程門陣列)等實(shí)現(xiàn)邏輯相關(guān)聯(lián)的微處理器、微芯片處理器、邏輯門配置、固件,或者是任何其它電子裝置、系統(tǒng)或布置?,F(xiàn)在將更詳細(xì)地描述用以生成映射、允許瀏覽本體、對(duì)本體加索引以及與本體交互的系統(tǒng)操作的實(shí)例,所述與本體交互包括對(duì)本體進(jìn)行對(duì)準(zhǔn)和刪減。出于這些實(shí)例的目的,假設(shè)基站201的處理系統(tǒng)210托管用于執(zhí)行過程的應(yīng)用軟件,其中由處理系統(tǒng)210執(zhí)行的操作由處理器300根據(jù)以下執(zhí)行:作為應(yīng)用軟件存儲(chǔ)在存儲(chǔ)器301中的指令和/或利用I/O裝置302從用戶接收的輸入命令,或者從計(jì)算機(jī)系統(tǒng)203接收的命令。就這一點(diǎn)而言,出于以下實(shí)例的目的,處理系統(tǒng)210實(shí)施具有多個(gè)模塊的應(yīng)用軟件,所述多個(gè)模塊包括索引器模塊、瀏覽器模塊、對(duì)準(zhǔn)器模塊、刪減器模塊、語義匹配器模塊和ETL模塊。然而,對(duì)相應(yīng)模塊的使用并不是至關(guān)重要的,并且可以使用其它布置。還將假設(shè)用戶利用呈現(xiàn)在輸入/輸出裝置302或計(jì)算機(jī)系統(tǒng)203上的GUI等與由處理系統(tǒng)210實(shí)施的應(yīng)用軟件交互。由計(jì)算機(jī)系統(tǒng)203執(zhí)行的操作由處理器400根據(jù)以下執(zhí)行:作為應(yīng)用軟件存儲(chǔ)在存儲(chǔ)器401中的指令和/或利用I/O裝置402從用戶接收的輸入命令?;?01通常是利用可用的特定網(wǎng)絡(luò)基礎(chǔ)設(shè)施與計(jì)算機(jī)系統(tǒng)203通信的服務(wù)器,并且可以例如呈企業(yè)服務(wù)器的形式,所述企業(yè)服務(wù)器與用于一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)203的用戶的數(shù)據(jù)庫211交互。然而,應(yīng)了解,上述配置僅用于舉例的目的,而非意在進(jìn)行限制,因此在實(shí)踐中可以使用任何數(shù)據(jù)庫管理系統(tǒng)。還應(yīng)了解,計(jì)算機(jī)系統(tǒng)203與基站201之間的功能性劃分可以根據(jù)特定實(shí)現(xiàn)方式而變化?,F(xiàn)在將參考圖5描述用于確定映射以及使用所述映射將內(nèi)容從源傳遞至目標(biāo)的過程的概述。出于該實(shí)例的目的,將假設(shè)處理系統(tǒng)210實(shí)現(xiàn)用于提供不同功能性的多個(gè)不同模塊。在該實(shí)例中,在步驟500中,處理系統(tǒng)210使用源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)識(shí)別源本體和目標(biāo)本體。這可以任何方式實(shí)現(xiàn),但是通常涉及基于源數(shù)據(jù)存儲(chǔ)和目標(biāo)數(shù)據(jù)存儲(chǔ)的源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)創(chuàng)建推定本體。例如,不同源數(shù)據(jù)字段和目標(biāo)數(shù)據(jù)字段的名稱可等同于本體項(xiàng),其中本體項(xiàng)之間的關(guān)系根據(jù)源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)中的關(guān)系進(jìn)行識(shí)別。將參考圖6更詳細(xì)地描述生成推定本體的過程的特定實(shí)例。在步驟510中,索引器模塊確定源本體和目標(biāo)本體的索引。索引通常呈列表的形式,所述列表包括:指示每一本體項(xiàng)的條目,相關(guān)聯(lián)的本體項(xiàng)類型(若這是已知的),以及任選地本體項(xiàng)含義。就這一點(diǎn)而言,本體項(xiàng)含義通常在步驟520中由語義匹配器模塊進(jìn)行確定,所述模塊將本體項(xiàng)與概念匹配數(shù)據(jù)庫進(jìn)行比較,并且使用比較結(jié)果識(shí)別索引中的每一本體項(xiàng)的含義。在步驟530中,將瀏覽器模塊用于瀏覽本體以及用于選擇源本體項(xiàng)或目標(biāo)本體項(xiàng)。這允許用戶選擇那些相關(guān)的本體項(xiàng),這些相關(guān)的本體項(xiàng)通常對(duì)應(yīng)于將從源數(shù)據(jù)存儲(chǔ)提取的或?qū)?dǎo)入目標(biāo)數(shù)據(jù)存儲(chǔ)中的內(nèi)容。然后,可在步驟540中使用選擇的本體項(xiàng)以允許瀏覽器模塊生成代碼,所述代碼用于與存儲(chǔ)在與相應(yīng)數(shù)據(jù)結(jié)構(gòu)相一致的數(shù)據(jù)存儲(chǔ)中的內(nèi)容交互。確切地說,這可以包括用于允許計(jì)算機(jī)系統(tǒng)生成用戶界面的代碼,用戶可以使用所述用戶界面來檢查數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)字段,選擇將被提取/導(dǎo)入的內(nèi)容,并且接著生成用以執(zhí)行提取/導(dǎo)入的必要查詢,如下面將更詳細(xì)地描述。或者,在步驟550中,刪減器模塊使用選擇的本體項(xiàng)來刪減源本體和/或目標(biāo)本體。確切地說,這允許用戶僅選擇相關(guān)的本體的那些部分,其中處理系統(tǒng)210隨后選擇維持選擇的本體項(xiàng)之間的關(guān)系所需要的額外本體項(xiàng),如下面將更詳細(xì)地描述。在已對(duì)本體中的一個(gè)或多個(gè)進(jìn)行刪減后,在步驟560中,處理系統(tǒng)210使用對(duì)準(zhǔn)器模塊來對(duì)準(zhǔn)源本體和目標(biāo)本體。這識(shí)別出源本體項(xiàng)中的一個(gè)或多個(gè)與目標(biāo)本體項(xiàng)中的一個(gè)或多個(gè)之間的相關(guān)性,從而允許在步驟570中確定源數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)之間的映射,所述映射繼而可以與由瀏覽器模塊生成的代碼一起使用,以將內(nèi)容從源數(shù)據(jù)存儲(chǔ)傳遞至目標(biāo)數(shù)據(jù)存儲(chǔ)?,F(xiàn)在將參考圖6描述用于從數(shù)據(jù)結(jié)構(gòu)(諸如數(shù)據(jù)庫模式等)生成推定本體的過程的實(shí)例。雖然該實(shí)例是針對(duì)生成關(guān)系數(shù)據(jù)庫的推定本體,但是應(yīng)了解,可以將類似概念應(yīng)用于其它數(shù)據(jù)結(jié)構(gòu),并且該實(shí)例僅用于說明的目的,而非意在進(jìn)行限制。在該實(shí)例中,在步驟600中,處理系統(tǒng)210確定數(shù)據(jù)庫中的每一表格,這通常是通過從定義數(shù)據(jù)庫模式的元數(shù)據(jù)提取該信息進(jìn)行。在步驟610中,處理系統(tǒng)210定義對(duì)應(yīng)于數(shù)據(jù)庫中的每一表格的類別。就這一點(diǎn)而言,項(xiàng)類別指代對(duì)應(yīng)于本體內(nèi)的概念的特定本體項(xiàng),如下面將更詳細(xì)地描述。在步驟620中,處理系統(tǒng)210識(shí)別具有BOM(材料單)結(jié)構(gòu)或類型結(jié)構(gòu)的任何數(shù)據(jù)庫表格。就這一點(diǎn)而言,BOM表格具有兩個(gè)“一對(duì)多”關(guān)系,并且用于列出構(gòu)成項(xiàng)目、對(duì)象或物體的所有部分。類型結(jié)構(gòu)具有一個(gè)“多對(duì)一”關(guān)系,并且僅具有一個(gè)用于限制相關(guān)表格中的值的范圍的相關(guān)屬性或列。所述表格通常用于對(duì)數(shù)據(jù)進(jìn)行不規(guī)范化處理,并且因此可以含有許多概念或類別,每一概念或類別代表相應(yīng)的本體項(xiàng)。因此,在步驟630中,處理系統(tǒng)擴(kuò)展每一類型表格和每一BOM表格,以定義對(duì)應(yīng)于表格中的每一唯一條目的另外類別。在步驟640中,處理系統(tǒng)210任選地顯示來自類型表格或BOM表格內(nèi)的每一識(shí)別類別,從而允許用戶在步驟650中確認(rèn)是否應(yīng)保留該類別。如果指示不應(yīng)保存該類型類別或BOM類別,則在步驟660中將其刪除。在已選擇了相關(guān)BOM類別后,處理系統(tǒng)210基于數(shù)據(jù)庫模式定義關(guān)系和屬性(也稱作數(shù)據(jù)對(duì)象和數(shù)據(jù)性質(zhì))。因此,表格結(jié)構(gòu)可用于識(shí)別所述識(shí)別類別之間的關(guān)系,而表格中的數(shù)據(jù)字段用于識(shí)別類別的屬性。在步驟680中,關(guān)系和屬性被繼而用于定義本體中的對(duì)象性質(zhì)和數(shù)據(jù)性質(zhì),從而允許例如在本體數(shù)據(jù)庫中生成并保存推定本體。因此,這允許僅根據(jù)對(duì)數(shù)據(jù)存儲(chǔ)(諸如數(shù)據(jù)庫)、結(jié)構(gòu)化文件等的數(shù)據(jù)結(jié)構(gòu)的分析以大致上自動(dòng)化的方式創(chuàng)建推定本體。在這之后,當(dāng)需要定義推定本體內(nèi)的不同類別的含義時(shí),可以將推定本體與正式本體進(jìn)行對(duì)準(zhǔn),如下面將更詳細(xì)地描述?,F(xiàn)在將參考圖7描述用于生成索引的過程的實(shí)例。在該實(shí)例中,在步驟700中,索引器模塊確定相關(guān)的本體。可以基于用戶輸入命令進(jìn)行確定,所述用戶輸入命令例如利用瀏覽器模塊提供或者可以接收自要求索引的另一模塊。例如,已經(jīng)生成推定本體的ETL模塊可能需要對(duì)所述本體加索引以及向索引器模塊提供所述本體的指示,或者刪減器模塊可以要求允許在本體上執(zhí)行刪減的索引。在步驟705中,索引器模塊將所述本體與通常存儲(chǔ)在索引數(shù)據(jù)庫中的一個(gè)或多個(gè)現(xiàn)有索引進(jìn)行比較,并且確定索引是否已經(jīng)存在。這可以通過以下方式實(shí)現(xiàn):比較與本體相關(guān)聯(lián)的元數(shù)據(jù),諸如具有與索引相關(guān)聯(lián)的對(duì)應(yīng)信息的本體名稱和/或地址;或者通過將一個(gè)或多個(gè)本體項(xiàng)與現(xiàn)有索引中的本體項(xiàng)進(jìn)行比較。在步驟710中,如果確定索引存在,那么在步驟715中提供索引,例如通過將索引提供給要求所述索引的模塊。否則,必須生成索引,在該情況下,在步驟720中索引器模塊選擇下一本體項(xiàng),并且隨后在步驟725中創(chuàng)建包括本體項(xiàng)名稱、本體項(xiàng)類型和本體項(xiàng)地址的指示的索引條目,所述本體項(xiàng)地址通常指示URI(統(tǒng)一資源標(biāo)識(shí)符)等。在步驟730中,索引器模塊從語義匹配器模塊獲得本體項(xiàng)的語義含義,如下面將更詳細(xì)地描述,并將該語義含義添加至索引條目。在步驟735中,索引器模塊確定是否已經(jīng)完成所有的本體項(xiàng),并且如果未完成,則過程回到步驟720,從而允許對(duì)下一本體項(xiàng)進(jìn)行選擇。否則,在步驟740中,對(duì)索引進(jìn)行存儲(chǔ)并且任選地提供至另一模塊?,F(xiàn)在將參考圖8描述用于瀏覽本體的過程的實(shí)例。在該實(shí)例中,在步驟800中,瀏覽器模塊使用本體項(xiàng)索引生成有關(guān)選擇的本體的本體項(xiàng)列表。因此,作為該過程的一部分,瀏覽器模塊可以例如基于選擇的本體的身份從索引器模塊要求本體索引。然后可以利用適當(dāng)?shù)腉UI(圖形用戶界面)向用戶顯示本體項(xiàng)列表。在步驟805中,用戶對(duì)一個(gè)或多個(gè)相關(guān)本體項(xiàng)加標(biāo)簽,之后在步驟810中選擇下一本體項(xiàng)進(jìn)行查看,從而在步驟815中允許瀏覽器模塊顯示本體項(xiàng)屏幕,所述本體項(xiàng)屏幕包括有關(guān)選擇的本體項(xiàng)的數(shù)據(jù)性質(zhì)。就這一點(diǎn)而言,數(shù)據(jù)性質(zhì)對(duì)應(yīng)于被定義成本體的一部分的本體項(xiàng)的屬性。在步驟820中,瀏覽器模塊確定用戶是否已經(jīng)選擇搜索選項(xiàng),在該情況下,在步驟825中,用戶在數(shù)據(jù)性質(zhì)的數(shù)據(jù)字段中輸入搜索項(xiàng)。在步驟830中,瀏覽器模塊隨后生成并執(zhí)行與相應(yīng)本體項(xiàng)數(shù)據(jù)性質(zhì)相關(guān)聯(lián)的數(shù)據(jù)查詢,返回結(jié)果并且向用戶顯示結(jié)果。因此,該過程允許用戶檢查將與對(duì)應(yīng)源數(shù)據(jù)存儲(chǔ)或目標(biāo)數(shù)據(jù)存儲(chǔ)中的相應(yīng)數(shù)據(jù)性質(zhì)相關(guān)聯(lián)的內(nèi)容,從而允許用戶弄清本體項(xiàng)和相關(guān)聯(lián)的數(shù)據(jù)性質(zhì)是否相關(guān)。在已經(jīng)執(zhí)行搜索后,或者如果未執(zhí)行任何搜索,則在步驟835中,用戶對(duì)相關(guān)的一個(gè)或多個(gè)數(shù)據(jù)性質(zhì)加標(biāo)簽。因此,該過程允許用戶檢查本體項(xiàng)和相關(guān)聯(lián)的數(shù)據(jù)性質(zhì),并且隨后通過對(duì)其加標(biāo)簽來選擇本體項(xiàng)和相關(guān)聯(lián)的數(shù)據(jù)性質(zhì)。在步驟840中,對(duì)本體項(xiàng)進(jìn)行檢查,以確定是否已經(jīng)選擇了與用戶相關(guān)的所有本體項(xiàng)和數(shù)據(jù)性質(zhì)。如果未選擇,則過程返回至步驟810,從而允許檢查更多的本體項(xiàng)。否則,在步驟845中,瀏覽器模塊選擇加標(biāo)簽的本體項(xiàng)和相關(guān)聯(lián)的數(shù)據(jù)性質(zhì),從而允許在其它過程中對(duì)這些進(jìn)行使用,諸如在步驟850中執(zhí)行刪減或者在步驟855中生成應(yīng)用。就這一點(diǎn)而言,應(yīng)用生成涉及使用腳本等來生成可執(zhí)行代碼,當(dāng)在計(jì)算機(jī)系統(tǒng)上執(zhí)行所述代碼時(shí)允許所述計(jì)算機(jī)系統(tǒng)顯示用戶界面,所述用戶界面用于與對(duì)應(yīng)于選擇的本體項(xiàng)或數(shù)據(jù)性質(zhì)的源或目標(biāo)中的字段中的內(nèi)容交互,如下面將更詳細(xì)地描述。因此,上述過程可用于允許用戶瀏覽本體項(xiàng)和相關(guān)聯(lián)的數(shù)據(jù)性質(zhì),以識(shí)別這些中的哪些與其希望從源導(dǎo)出的或希望導(dǎo)入到目標(biāo)中的內(nèi)容相關(guān)?,F(xiàn)在將參考圖9描述用于刪減本體的過程的實(shí)例。在該實(shí)例中,在步驟900中,選擇的本體項(xiàng)被添加作為用于刪減過程的種子。在這之后,執(zhí)行迭代過程以重復(fù)地探索與種子本體項(xiàng)相關(guān)的本體項(xiàng),直到識(shí)別出對(duì)種子本體項(xiàng)進(jìn)行互連的路徑為止。為了實(shí)現(xiàn)該目的,在步驟905中,顯示不同類型的關(guān)系和相關(guān)聯(lián)的默認(rèn)路徑長(zhǎng)度。就這一點(diǎn)而言,本體項(xiàng)可以通過諸如父、子、兄弟等不同類型的關(guān)系相關(guān)聯(lián)。因?yàn)槟承╊愋偷年P(guān)系可以比其它關(guān)系更重要,所以不同關(guān)系類型可以具有不同長(zhǎng)度。另外,可以改變針對(duì)每一關(guān)系類型探索的路徑長(zhǎng)度,從而確保將經(jīng)由更重要的關(guān)系連接至種子本體項(xiàng)的更大數(shù)量的本體項(xiàng)被包括在內(nèi)。因此,在步驟910中,用戶可以調(diào)整不同關(guān)系的路徑長(zhǎng)度,從而允許用戶對(duì)刪減過程進(jìn)行調(diào)整,例如以控制刪減的程度和/或方向。在步驟915中,通過識(shí)別由具有特定路徑長(zhǎng)度的關(guān)系相關(guān)聯(lián)的那些本體項(xiàng)來確定與選擇的本體項(xiàng)相關(guān)的本體項(xiàng)。在步驟920中,刪減器模塊確定選擇的種子項(xiàng)是否鏈接。換句話說,存在將種子本體項(xiàng)鏈接的一系列互連本體項(xiàng),并且若是這樣,則在步驟925中,刪減過程可以用來定義刪減的本體的識(shí)別的選擇的本體項(xiàng)和相關(guān)的本體項(xiàng)結(jié)束,所述選擇的本體項(xiàng)和相關(guān)的本體項(xiàng)可以被存儲(chǔ)為刪減的本體或刪減的索引。否則,在步驟930中,確定迭代是否完成,并且如果未完成,則將相關(guān)的本體項(xiàng)添加至選擇的本體項(xiàng),并且過程回到步驟915從而允許識(shí)別另外相關(guān)的本體項(xiàng)。因此,與種子本體項(xiàng)相關(guān)的本體項(xiàng)的數(shù)量逐步增加,直到種子本體項(xiàng)被關(guān)系路徑連接起來。因此,重復(fù)上述過程,直到本體被成功地刪減,此時(shí)種子本體項(xiàng)利用相關(guān)的本體項(xiàng)的路徑互連,或者直到預(yù)定數(shù)量的迭代完成且未識(shí)別到任何路徑,在這種情況下,在步驟940中停止所述過程。在該后一種情況下,這通常指示本體項(xiàng)來自不同本體,在這種情況下刪減過程連同對(duì)準(zhǔn)過程一起執(zhí)行,從而允許刪減過程跨越多個(gè)本體,如下面將更詳細(xì)地描述?;蛘?,這指示本體項(xiàng)無法容易地鏈接?,F(xiàn)在將參考圖10描述用于對(duì)準(zhǔn)源本體和目標(biāo)本體的過程的實(shí)例。在該實(shí)例中,在步驟1000中,使用索引選擇源本體項(xiàng)和/或目標(biāo)本體項(xiàng)。這可以涉及使得用戶使用瀏覽器模塊選擇本體項(xiàng),或者更典型地選擇對(duì)應(yīng)于源本體和目標(biāo)本體的包含相關(guān)源本體項(xiàng)和/或目標(biāo)本體項(xiàng)的刪減的版本的兩個(gè)刪減的本體。在步驟1005中,使用匹配程序模塊確定數(shù)對(duì)源本體項(xiàng)和目標(biāo)本體項(xiàng)的不同組合的匹配分?jǐn)?shù)。在步驟1010中,這些分?jǐn)?shù)被用于僅基于源本體和目標(biāo)本體的含義的類似程度來定義初步對(duì)準(zhǔn)。在步驟1015中,對(duì)準(zhǔn)器模塊檢查源本體項(xiàng)和目標(biāo)本體項(xiàng)的關(guān)系(對(duì)象性質(zhì))和屬性(數(shù)據(jù)性質(zhì)),以確定初步對(duì)準(zhǔn)是否正確。因此,例如這將檢查初步對(duì)準(zhǔn)的源本體項(xiàng)和目標(biāo)本體項(xiàng)是否具有類似數(shù)量的屬性,以及檢查這些項(xiàng)是否具有與其它源本體項(xiàng)或目標(biāo)本體項(xiàng)類似的關(guān)系。這可以用于識(shí)別不準(zhǔn)確的匹配,例如在項(xiàng)的每一個(gè)中,名和姓可以初步與姓名匹配,其中對(duì)關(guān)系的檢查被用于證明這應(yīng)該是多對(duì)一的關(guān)系。在步驟1020中,這可以用于改善對(duì)準(zhǔn),從而允許在步驟1025中對(duì)這些進(jìn)行存儲(chǔ)以代表源本體與目標(biāo)本體之間的對(duì)準(zhǔn)。這可以呈合并本體的形式,或者可選地呈對(duì)準(zhǔn)索引的形式?,F(xiàn)在將參考圖11描述語義匹配過程的實(shí)例。在該實(shí)例中,在步驟1100中,語義匹配模塊接收本體項(xiàng)進(jìn)行匹配。這可以基于利用瀏覽器模塊的用戶選擇,但是更常見地通過從索引器模塊或?qū)?zhǔn)器模塊接收項(xiàng)。在步驟1105中,選擇下一對(duì)組合,通過將單個(gè)本體項(xiàng)與匹配數(shù)據(jù)庫中的多個(gè)相應(yīng)項(xiàng)進(jìn)行比較,或者通過選擇下一對(duì)接收的源本體項(xiàng)和目標(biāo)本體項(xiàng)。在步驟1110中,語義匹配器模塊使用概念匹配數(shù)據(jù)庫計(jì)算語義相似性??墒褂枚鄠€(gè)方式中的任何一個(gè)確定分?jǐn)?shù),但是通常涉及應(yīng)用預(yù)定的公式,所述公式基于含義是否以任何方式相關(guān)聯(lián),諸如是否是反義詞、同義詞等來計(jì)算分?jǐn)?shù)。在一個(gè)特定實(shí)例中,這涉及例如使用諸如WordNet等詞典將本體項(xiàng)與定義進(jìn)行匹配。就這一點(diǎn)而言,WordNet是大型英文詞匯數(shù)據(jù)庫。名詞、動(dòng)詞、形容詞和副詞被歸納到認(rèn)知性同義詞集(synset)中,每一集合表示不同概念并且在以下文獻(xiàn)中加以描述:Fellbaum,Christiane(2005).WordNetandwordnets.;Brown、Keith等人(編著)的EncyclopediaofLanguageandLinguistics,第二版,Oxford:Elsevier,第665-670頁。在已經(jīng)識(shí)別出定義后,以RDF三元組的方式對(duì)此進(jìn)行表達(dá),隨后將所述RDF三元組存儲(chǔ)在數(shù)據(jù)庫中。然后可以對(duì)兩個(gè)不同含義的RDF三元組進(jìn)行查詢,以確定三元組之間的相似性,所述相似性被用于確定指示兩個(gè)本體項(xiàng)的含義的相似性的相似性分?jǐn)?shù)。在此之后,在步驟1115中,語義匹配器模塊確定項(xiàng)是否通過小類和超類布置相關(guān)聯(lián)。然后在步驟1120中,將該信息與相似性分?jǐn)?shù)結(jié)合,以計(jì)算匹配分?jǐn)?shù)。在步驟1125中,確定所有項(xiàng)對(duì)是否完成,并且如果未完成,則過程回到步驟1105,從而允許選擇下一對(duì)源本體和目標(biāo)本體以及計(jì)算匹配分?jǐn)?shù)。在已經(jīng)檢查了數(shù)據(jù)庫中的所有潛在本體項(xiàng)對(duì)和匹配概念后,在步驟1130中,語義匹配器模塊可以選擇最佳匹配,并且隨后提供對(duì)此的指示。因此,應(yīng)了解,上述過程允許用戶與本體交互,選擇相關(guān)的本體項(xiàng)以及使用此來生成用于與存儲(chǔ)在諸如數(shù)據(jù)庫或XML文件等數(shù)據(jù)存儲(chǔ)中的與相應(yīng)本體相一致的內(nèi)容交互的軟件。用戶可以進(jìn)一步調(diào)查本體,并且隨后使用刪減器模塊對(duì)所述本體進(jìn)行刪減,從而允許確定允許用戶與內(nèi)容交互的最小本體。然后可以將刪減的本體與另一刪減的本體對(duì)準(zhǔn),以使得所述刪減的本體可以被用于定義之間的映射,所述映射可以繼而被用于在具有源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)之間傳遞數(shù)據(jù)?,F(xiàn)在將描述更具體的實(shí)例。出于該實(shí)例的目的,本體被定義如下:■一組相關(guān)概念,也稱為類別或?qū)ο?,其中的一些使用也成為‘繼承’關(guān)系的子類/超類關(guān)系彼此相關(guān)聯(lián)。實(shí)例為顯示繼承的‘組織’、‘公司’、‘社團(tuán)’以及不顯示繼承的‘地塊’、‘性別’、‘人’。■一組對(duì)象性質(zhì),其提供相關(guān)類別的額外機(jī)制。例如‘位于...處/中/’‘具有性別’。這些關(guān)系允許對(duì)概念、關(guān)系和性質(zhì)進(jìn)行推斷。■與每一類別相關(guān)聯(lián)的一組數(shù)據(jù)性質(zhì)。例如,類別‘人’具有姓名、稱謂、出生日期和性別的數(shù)據(jù)性質(zhì)?!鲆唤M公理,其提供前述性質(zhì)中的任何一個(gè)之間的公式化關(guān)系。例如,“如果一個(gè)人的頭銜是‘夫人’,則其性別必定是女性”,或者“如果兩個(gè)對(duì)象具有相同的唯一標(biāo)識(shí)符,則其是同一個(gè)對(duì)象”。這些公理允許對(duì)概念、關(guān)系和性質(zhì)進(jìn)行進(jìn)一步推斷。本體可以諸如RDFS、XML、DAML、OIL、N3和OWL的多個(gè)語言進(jìn)行描述。這些語言可以具有不同方言,諸如OWL-Lite或OWL-DL。從功能性角度而言,它們不同之處在于它們管理和描述復(fù)雜關(guān)系和公理的能力。本體可以包含幾十萬種概念。用戶可以對(duì)這些概念的子集感興趣。該子集可以來自:■單個(gè)本體;■多個(gè)重疊本體;或者■多個(gè)不同本體。目標(biāo)本體中的一些概念無法預(yù)定義,并且可以不存在于源本體的任何一個(gè)中。在這種情況下,用戶可以需要手動(dòng)添加缺失概念。所需要的子集可以具有開始概念和結(jié)束概念二者或其中的任何一個(gè)。出于說明的目的,圖12A和圖12B中示出兩個(gè)極簡(jiǎn)單的示例性本體。應(yīng)了解,這些被利用來說明加索引、刪減、語義匹配和對(duì)準(zhǔn)過程,而非意在進(jìn)行限制。在這些實(shí)例中,存在兩種類型的關(guān)系,即,那些分級(jí)連接的關(guān)系和那些非分級(jí)連接的關(guān)系。在這些實(shí)例中,分級(jí)連接的類別由實(shí)線橢圓形表示,所述實(shí)線橢圓形由從超類指向子類的實(shí)線分級(jí)連接。每一子類繼承其超類的所有性質(zhì)。示出為虛線橢圓形的非分級(jí)連接的類別的集合由命名為對(duì)象性質(zhì)的線連接至任何類別,命名為對(duì)象性質(zhì)的線在此處示出為虛線。每一類別具有一組數(shù)據(jù)性質(zhì),這組數(shù)據(jù)性質(zhì)中的一些在表1中示出以用于說明。表1應(yīng)了解,本體示出類似的概念,但是存在一些差異:■一些概念具有不同名稱。我們是否能夠說‘團(tuán)體’等同于‘客戶’,‘人’等同于‘個(gè)人’、‘成員’等同于‘會(huì)員’且‘職業(yè)’等同于‘工作經(jīng)歷’?-在除‘職業(yè)’以外的每一種情況下,類別各自具有相同數(shù)據(jù)性質(zhì),因此我們可以假設(shè)它們是近乎相同的。在數(shù)學(xué)上,相同性(C1i,C2i)~1.0,其中C1i是來自第一本體的概念,并且C2i是來自第二本體的概念。■一些概念具有不同數(shù)據(jù)性質(zhì)。在‘職業(yè)’和‘工作經(jīng)歷’的情況下,其具有一些相同的數(shù)據(jù)性質(zhì)和一個(gè)‘匯報(bào)對(duì)象’,所述‘匯報(bào)對(duì)象’僅適用于‘工作經(jīng)歷’。實(shí)際上,‘工作經(jīng)歷’違背了第四范式,因?yàn)槠鋵?duì)于‘開始日期’和‘結(jié)束日期’是否指代‘職務(wù)’或是‘匯報(bào)對(duì)象’數(shù)據(jù)屬性模糊不清。■一些概念具有不同對(duì)象性質(zhì)?!ぷ鹘?jīng)歷’具有兩個(gè)與‘人’一起的對(duì)象性質(zhì),而‘職業(yè)’僅具有一個(gè)。在本體1中,‘股份’將‘公司’與‘個(gè)人’相關(guān)聯(lián),而在本體2中,其將‘公司’與‘客戶’相關(guān)聯(lián)?!鲆恍└拍畈淮嬖谟谝粋€(gè)本體中?!鲜泄尽嬖谟诒倔w2中,但是不存在于本體1中。出于這些實(shí)例的目的,系統(tǒng)執(zhí)行圖13中示出的功能性,其中這些功能性由相應(yīng)模塊實(shí)現(xiàn)。就這一點(diǎn)而言,模塊包括:■ETL(提取轉(zhuǎn)換加載)模塊1300。它提取、轉(zhuǎn)換并加載結(jié)構(gòu)化數(shù)據(jù)源內(nèi)的內(nèi)容。這包括兩個(gè)子組件,包括:-處理器1301,所述處理器利用特定本體或在不存在本體的情況下利用推定本體提取源數(shù)據(jù),處理器創(chuàng)建所述推定本體以描述數(shù)據(jù)。處理器可以部署在云計(jì)算中,或者部署在與數(shù)據(jù)相同的機(jī)器上,或者部署在可以利用信息傳送、ODBC、https、SOAP或任何等效協(xié)議訪問數(shù)據(jù)的機(jī)器上。可部署多個(gè)處理器副本,以便從多個(gè)源獲得數(shù)據(jù)。-協(xié)調(diào)器1302,所述協(xié)調(diào)器從各種處理器收集數(shù)據(jù)并且將源本體映射至目標(biāo)本體。查詢使用目標(biāo)本體寫成,并且被轉(zhuǎn)換成等效源本體查詢,從而允許使用目標(biāo)本體返回?cái)?shù)據(jù)?!霰倔w瀏覽器模塊1310,所述瀏覽器模塊包括瀏覽器程序1311、編輯器程序1312和生成器程序1313。它生成屏幕和相關(guān)聯(lián)的軟件以及對(duì)其進(jìn)行管理的數(shù)據(jù),這允許用戶瀏覽和編輯本體和由本體描述的數(shù)據(jù)。這些屏幕分兩個(gè)階段出現(xiàn)。第一階段是在生成過程期間。在該階段中,動(dòng)態(tài)地創(chuàng)建屏幕并顯示額外信息,以允許用戶選擇將生成哪些特征。在第二階段中,對(duì)屏幕進(jìn)行硬編碼,并且僅顯示指定用于生成的信息?!霰倔w索引器模塊1320。索引器模塊在一個(gè)或多個(gè)本體上創(chuàng)建所有類別名稱、數(shù)據(jù)性質(zhì)名稱和對(duì)象性質(zhì)名稱的一組鏈接的索引。另外,索引包括語義等同的項(xiàng)(例如,同義詞和同形同音異義詞),所述語義等同的項(xiàng)來自源本體、以及語義等同功能?!霰倔w刪減器模塊1330。刪減器模塊取用本體并且允許用戶指定其希望保留哪些類別、數(shù)據(jù)性質(zhì)、對(duì)象性質(zhì)和公理。使用這些保留的刪減器模塊檢查來查看本體中定義的關(guān)系型和公理型完整性得到維持?!霰倔w對(duì)準(zhǔn)器模塊1340。對(duì)準(zhǔn)器模塊取用兩個(gè)或兩個(gè)以上本體,并且使用多個(gè)技術(shù)來將各種本體中的概念彼此對(duì)準(zhǔn),或者與指定的目標(biāo)本體對(duì)準(zhǔn)。所述技術(shù)利用由索引器模塊創(chuàng)建的索引,以找出語義類似的概念。使用語義匹配器模塊對(duì)每一數(shù)據(jù)性質(zhì)和概念進(jìn)行比較。它基于本體結(jié)構(gòu)和數(shù)據(jù)性質(zhì)完善匹配?!稣Z義匹配器模塊1350。匹配程序模塊將兩個(gè)項(xiàng)或兩個(gè)項(xiàng)列表進(jìn)行比較,以確定其在例如醫(yī)藥或工程等具體上下文內(nèi)是否具有數(shù)學(xué)上定義的語義等效性程度;或者在另一給定的單個(gè)項(xiàng)的情況下,匹配器模塊將基于具體上下文提供同義詞、同形同音異義詞等的列表。通常而言,本體不具有除實(shí)例以外的任何數(shù)據(jù)實(shí)例,然而可以兩種方式中的一種將本體匹配至現(xiàn)有數(shù)據(jù)。■本體由現(xiàn)有數(shù)據(jù)構(gòu)建而成。例如,可以通過被定義成本體類別的關(guān)系型實(shí)體(表格)、被定義成本體對(duì)象性質(zhì)的關(guān)系型關(guān)系和被定義成本體數(shù)據(jù)性質(zhì)的相關(guān)的屬性(列)將關(guān)系數(shù)據(jù)庫自動(dòng)地轉(zhuǎn)換成‘推定的’本體。一些本體公理可以從關(guān)系型參照完整性約束得出,但是大多數(shù)公理將需要手動(dòng)添加或忽略。然后可以將該推定本體與現(xiàn)有的豐富本體進(jìn)行對(duì)準(zhǔn)以添加元數(shù)據(jù)?!鰧⒈倔w與數(shù)據(jù)匹配。存在多個(gè)用于執(zhí)行該操作的工具(例如,S匹配)。在不考慮數(shù)據(jù)格式的情況下,可以使用適合于源數(shù)據(jù)結(jié)構(gòu)和元數(shù)據(jù)(如果存在)的方法從源數(shù)據(jù)自動(dòng)地生成推定本體。可以使用本體編輯器程序手動(dòng)地更新該推定本體,或者使用原來生成的推定本體。在任何一種情況下,隨后使用具有主語區(qū)域本體(由ETL模塊處理器調(diào)用)和具有目標(biāo)本體(由ETL模塊協(xié)調(diào)器調(diào)用)的對(duì)準(zhǔn)器模塊對(duì)推定本體進(jìn)行對(duì)準(zhǔn)。可以使用刪減器模塊對(duì)目標(biāo)本體進(jìn)行刪減,以確保其僅包含所需的概念以及確保所述所需的概念的完整性所需要的那些概念、公理、性質(zhì)、推理和出處詳細(xì)信息。所有這些工具利用由語義匹配器模塊提供的服務(wù),以檢查兩個(gè)語義概念是否匹配,并且使用索引器模塊以尋找各種源本體和目標(biāo)本體之后的匹配概念和概念性結(jié)構(gòu)?,F(xiàn)在將更詳細(xì)地描述相應(yīng)模塊的實(shí)例。ETL模塊ELT模塊執(zhí)行所有ELT工具所常見的數(shù)據(jù)提取、轉(zhuǎn)換和加載的功能,無需使用元數(shù)據(jù)知識(shí)庫。它通過使用與源數(shù)據(jù)相關(guān)聯(lián)的元數(shù)據(jù)來確定數(shù)據(jù)結(jié)構(gòu)并接著將該元數(shù)據(jù)映射至本體來執(zhí)行該操作。它還將含義分配至數(shù)據(jù),并且因此能夠在映射和轉(zhuǎn)換數(shù)據(jù)的過程中實(shí)現(xiàn)高水平自動(dòng)化。消除對(duì)元數(shù)據(jù)知識(shí)庫的需要意味著過程的靈活性不受維護(hù)知識(shí)庫需要的人為干預(yù)約束。可自動(dòng)地適應(yīng)新數(shù)據(jù)格式和技術(shù)。在高水平下,執(zhí)行兩個(gè)主要過程。用于執(zhí)行這些過程的代碼也稱為處理器和協(xié)調(diào)器??梢圆渴鹛幚砥鞯谋姸喔北疽栽谌魏味x的位置處讀取數(shù)據(jù)。處理器可以與數(shù)據(jù)共同定位在相同的裝置上,或者處理器可以定位在云計(jì)算中并且使用遠(yuǎn)程訪問協(xié)議訪問數(shù)據(jù)。處理器從源提取元數(shù)據(jù),并且從該元數(shù)據(jù)創(chuàng)建推定本體。然后執(zhí)行一些基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換,并且將數(shù)據(jù)和本體傳遞至協(xié)調(diào)器。協(xié)調(diào)器從各種處理器接收輸入并且對(duì)準(zhǔn)其本體。然后從對(duì)準(zhǔn)的源本體將映射應(yīng)用至用戶定義的目標(biāo)本體。用戶現(xiàn)在可以看到來自各種源本體的所有數(shù)據(jù)。可以通過以下方式提取數(shù)據(jù):指定針對(duì)目標(biāo)本體的特定查詢,或者使用本體瀏覽器模塊創(chuàng)建查詢,如下面將更詳細(xì)地描述。圖14A中示出示例性ETL模塊軟件堆疊,其包括實(shí)現(xiàn)該結(jié)果所需要的各種軟件組件;而圖14B示出示例性部署,其中多個(gè)處理器利用網(wǎng)絡(luò)布置耦接至單個(gè)協(xié)調(diào)器。處理器負(fù)責(zé)從不同數(shù)據(jù)源讀取數(shù)據(jù),將數(shù)據(jù)表現(xiàn)為RDF,以及創(chuàng)建推定本體以描述數(shù)據(jù)。高級(jí)功能如下所示:■通過添加元數(shù)據(jù)和映射文件登記不同數(shù)據(jù)源?!鰧⒎墙Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成RDF?!鰧DF加載到三元組存儲(chǔ)器中?!鰧⒂成湮募D(zhuǎn)換成推定本體?!鲫U述每一源的SPAQRL端點(diǎn)。協(xié)調(diào)器負(fù)責(zé)讀取目標(biāo)本體和映射文件,以及對(duì)請(qǐng)求和響應(yīng)的轉(zhuǎn)換進(jìn)行協(xié)調(diào)。高級(jí)功能如下所示:■登記目標(biāo)本體?!鲎x取映射文件并對(duì)其加索引?!鰧PARQL查詢從目標(biāo)轉(zhuǎn)換成映射的源詞匯?!鰧㈨憫?yīng)從源轉(zhuǎn)換成目標(biāo)詞匯?!龃鎯?chǔ)轉(zhuǎn)換規(guī)則?!鲫U述目標(biāo)的SPARQL端點(diǎn)。本體瀏覽器模塊本體瀏覽器模塊操作以自動(dòng)地創(chuàng)建一組屏幕,從而允許用戶瀏覽本體,查詢由本體定義的數(shù)據(jù)以及將實(shí)例數(shù)據(jù)添加至由本體定義的數(shù)據(jù)。然后可以獨(dú)立于本體和創(chuàng)建工具將如此生成的屏幕作為完整的獨(dú)立應(yīng)用。就這一點(diǎn)而言,目前使用本體來定義鏈接的概念以及訪問數(shù)據(jù)主要限于學(xué)者和專業(yè)本體專家。原因在于不存用于允許用戶瀏覽本體并且隨后用于引導(dǎo)用戶與存儲(chǔ)在結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)交互的簡(jiǎn)單機(jī)制。因此,通過提供使得具有很少或不具有本體論專業(yè)知識(shí)的人能夠以簡(jiǎn)單可理解的方式訪問本體的所有詳細(xì)內(nèi)容的工具,這允許用戶使用簡(jiǎn)化查詢構(gòu)造機(jī)制來選擇和檢查由本體描述的數(shù)據(jù)。它將能夠向仍然在執(zhí)行的原始本體中存在的所有約束和推理的數(shù)據(jù)添加記錄。最終,它將能夠部署生成的屏幕作為適合于負(fù)責(zé)人辦公室人員使用的獨(dú)立應(yīng)用。當(dāng)檢查數(shù)據(jù)時(shí),用戶可以多個(gè)格式將其顯示出來。相關(guān)數(shù)據(jù)可以被存儲(chǔ)為例如RDF三元組。這些可以被顯示成關(guān)系型表格、電子表格、名稱-值對(duì)或任何用戶定義的格式。本體瀏覽器模塊可以存在于兩個(gè)主要形式中,作為獨(dú)立工具或其次作為現(xiàn)有本體工具的插件(諸如Protégé)。在任何一種形式中,它都可以生成特定于選擇的本體的應(yīng)用??蓪?duì)生成的應(yīng)用進(jìn)行使用,無需本體作為用于訪問、更新、刪除和添加記錄的全功能代碼集,其中執(zhí)行定義在原始本體之后的所有數(shù)據(jù)規(guī)則。因此,本體瀏覽器模塊提供可以在計(jì)算機(jī)程序中實(shí)現(xiàn)的一組過程,所述計(jì)算機(jī)程序生成屏幕和相關(guān)聯(lián)的軟件以及對(duì)其進(jìn)行管理的數(shù)據(jù),這允許用戶瀏覽和編輯本體和由本體描述的數(shù)據(jù)。這些屏幕分兩個(gè)階段出現(xiàn)。第一階段是在生成過程期間。在該階段中,動(dòng)態(tài)地創(chuàng)建屏幕并顯示額外信息,以允許用戶選擇將生成哪些特征。在第二階段中,對(duì)屏幕進(jìn)行硬編碼,并且僅顯示指定用于生成的信息。下面的表2中陳列屏幕的簡(jiǎn)述。表2這些屏幕未以通用格式生成,以使得單個(gè)屏幕用于每一類型的屏幕。屏幕布局由本體內(nèi)容動(dòng)態(tài)確定。通用類屏幕并不方便用戶使用,并且無法進(jìn)行定制。因此,過程允許用戶生成一組完整的屏幕,所述屏幕的外觀和感覺可以使用諸如層疊樣式表、模板、標(biāo)記和用戶提供的參數(shù)進(jìn)行參數(shù)化預(yù)確定。瀏覽器模塊的布置的實(shí)例在圖15中示出。就這一點(diǎn)而言,瀏覽器模塊1310從協(xié)調(diào)器1302獲取目標(biāo)本體1501或用戶定義的任何本體。瀏覽器模塊1310顯示一組屏幕1502,這組屏幕1502允許用戶瀏覽本體以及指定將本體的哪些組件生成到獨(dú)立應(yīng)用中。瀏覽器模塊1302生成獨(dú)立應(yīng)用1503,所述獨(dú)立應(yīng)用1503包括一組計(jì)算機(jī)屏幕1504以使用目標(biāo)本體中指定的結(jié)構(gòu)和規(guī)則管理數(shù)據(jù)。所述應(yīng)用可以多個(gè)模式生成,諸如僅本體或數(shù)據(jù)瀏覽器模塊,或者作為全功能數(shù)據(jù)添加、更新和刪除應(yīng)用。在這種情況下,用戶現(xiàn)在具有完整的應(yīng)用1503來管理由本體描述的數(shù)據(jù)。使用OWL或RDF文件的本體具有足夠的信息來生成網(wǎng)頁并且創(chuàng)建對(duì)應(yīng)數(shù)據(jù)庫1505來存儲(chǔ)信息。RDF或者OWL文件可以已由本體專家基于其詳細(xì)業(yè)務(wù)知識(shí)來創(chuàng)建。因此,瀏覽器模塊1310創(chuàng)建應(yīng)用1503供終端用戶查詢或輸入事務(wù)數(shù)據(jù)。OWL或RDFS文件與應(yīng)用定制文件、數(shù)據(jù)庫連接詳細(xì)信息和創(chuàng)建應(yīng)用所需要的任何其它元數(shù)據(jù)一起輸入瀏覽器模塊1310。瀏覽器模塊1310可以例如使用HTML5、JSP、JSF或任何類似技術(shù)創(chuàng)建網(wǎng)頁。瀏覽器模塊1310為本體瀏覽器模塊1310中的每一類別創(chuàng)建網(wǎng)頁,并且與該類別相關(guān)聯(lián)的每一性質(zhì)被創(chuàng)建作為頁面內(nèi)的字段。應(yīng)用1503在生成的網(wǎng)頁與數(shù)據(jù)庫1505之間建立聯(lián)系。它執(zhí)行過程以將數(shù)據(jù)從網(wǎng)頁存留至數(shù)據(jù)庫1505,以從數(shù)據(jù)庫1505提取數(shù)據(jù),查詢數(shù)據(jù)庫1505中的數(shù)據(jù)以及在網(wǎng)頁上顯示數(shù)據(jù)。瀏覽器模塊1310隨后創(chuàng)建數(shù)據(jù)庫腳本,所述腳本用于創(chuàng)建和加載用戶提供的元數(shù)據(jù)中所指定類型的數(shù)據(jù)庫。這可以是關(guān)系數(shù)據(jù)庫(RDBMS)、三元組存儲(chǔ)器、NOSQL、NewSQL、圖形數(shù)據(jù)庫或任何其它認(rèn)可的數(shù)據(jù)庫?,F(xiàn)在將更詳細(xì)地描述瀏覽器模塊的操作。就這一點(diǎn)而言,為了瀏覽本體,用戶必須能夠找到本體項(xiàng):■概念;■數(shù)據(jù)性質(zhì);■對(duì)象性質(zhì);以及■推理。這要求了兩種機(jī)制,即:■用于從本體為以上本體項(xiàng)加索引的方法,以便通過名稱搜索任何所述本體項(xiàng),如下面相關(guān)于索引器模塊所描述;以及■用于在已經(jīng)選擇特定性質(zhì)后顯示所有相關(guān)數(shù)據(jù)和對(duì)象性質(zhì)的方法。為了實(shí)現(xiàn)該目的,用戶首先選擇將在表2中描述的‘登錄屏幕’中瀏覽的本體??梢詮奈募蚓W(wǎng)址選擇該本體。在已經(jīng)選擇本體后,使用本體的索引生成類別列表。該列表顯示每一類別的名稱和描述。對(duì)于較大的列表,提供列表搜索功能,從而允許用戶通過類別名稱或者類別描述的一部分進(jìn)行搜索。還可以對(duì)數(shù)據(jù)性質(zhì)進(jìn)行搜索。在任何一種情況下,搜索將返回包含該數(shù)據(jù)性質(zhì)的類別列表。用戶隨后選擇相關(guān)類別,這使‘類別屏幕’得以顯示,包括呈窗口或標(biāo)記的小屏幕形式的四個(gè)組件,如下所示:■數(shù)據(jù)性質(zhì)組件。每一數(shù)據(jù)性質(zhì)的名稱以字段旁邊具有描述框的列表格式顯示。點(diǎn)擊字段旁邊的信息圖標(biāo)將顯示所有字段屬性和與該字段相關(guān)的任何公理。任選地(可點(diǎn)擊),也可以示出父類/超類或一個(gè)或多個(gè)相關(guān)類別■父類/超類組件。這顯示所顯示的類別的父類/超類的名稱和描述,具有至所述類別的可點(diǎn)擊鏈接。點(diǎn)擊該鏈接將引起瀏覽器模塊顯示屏幕,所述屏幕顯示當(dāng)前類別的父類?!鲎宇?小類組件。這顯示所顯示的類別的子類的名稱和描述,具有利用小類關(guān)系的可點(diǎn)擊鏈接。點(diǎn)擊這些鏈接中的一個(gè)將引起瀏覽器模塊顯示當(dāng)前類別的子類/一個(gè)或多個(gè)小類?!鰧?duì)象性質(zhì)組件。這顯示所選擇的類別的相關(guān)類別,每一相關(guān)類別具有使用對(duì)象性質(zhì)的可點(diǎn)擊鏈接。點(diǎn)擊這些鏈接中的一個(gè)將引起瀏覽器模塊顯示與當(dāng)前類別有關(guān)的類別。通過選擇類別屏幕上的‘搜索’選項(xiàng),發(fā)出查詢以返回該類別的所有數(shù)據(jù)實(shí)例。這顯示成列表,其中一行針對(duì)類別的每一實(shí)例。通過點(diǎn)擊特定的行,該行被顯示成類似于本體類別屏幕的格式化屏幕。在一個(gè)實(shí)例中,可以通過實(shí)施對(duì)結(jié)果進(jìn)行過濾的查詢來限制返回的數(shù)據(jù)。現(xiàn)在將更詳細(xì)地描述此種查詢的構(gòu)造和使用。就這一點(diǎn)而言,通過以下方式實(shí)現(xiàn)對(duì)返回給用戶的數(shù)據(jù)的過濾:從用戶獲取用戶對(duì)將返回的數(shù)據(jù)的呈過濾器形式的精確要求,并且隨后基于該過濾器生成查詢。通過將值或表達(dá)輸入到類別屏幕上的數(shù)據(jù)性質(zhì)字段中來構(gòu)建所述過濾器。例如,使用上述樣本本體以找出JohnDoe擁有多少股份,將需要以下步驟:■從類別列表屏幕選擇‘個(gè)人’類別?!鲈跀?shù)據(jù)性質(zhì)字段中,將‘John’輸入到名中,并且將‘Doe’輸入到姓中?!鰪摹畟€(gè)人’類別屏幕的對(duì)象性質(zhì)窗口選擇‘股份’類別?!鲞x擇搜索選項(xiàng)。通過選擇股份類別屏幕上的‘搜索’選項(xiàng),發(fā)出查詢以返回有關(guān)該類別但是僅由JohnDoe所擁有的所有數(shù)據(jù)性質(zhì)。過濾器已經(jīng)被生成的應(yīng)用1503轉(zhuǎn)換成SPARQL或功能上等效的查詢,所述查詢可針對(duì)存儲(chǔ)在數(shù)據(jù)庫1505中的數(shù)據(jù)實(shí)施。為了允許瀏覽器模塊1310生成應(yīng)用1503,執(zhí)行以下過程:■任選地對(duì)有關(guān)將生成的應(yīng)用的元數(shù)據(jù)進(jìn)行配置,包括以下項(xiàng)目,諸如:-公司名稱、標(biāo)志等。-將生成的應(yīng)用的名稱。-將創(chuàng)建的數(shù)據(jù)庫的名稱和類型。-數(shù)據(jù)庫的位置。-有關(guān)將生成的應(yīng)用的命名和編碼規(guī)范和標(biāo)準(zhǔn)。這包括樣式表、模板、腳本語言和其它顯示規(guī)范。-將與類別和操作相關(guān)聯(lián)的圖標(biāo)。-技術(shù)支持的地點(diǎn)和聯(lián)系方式。-錯(cuò)誤和日志信息的冗長(zhǎng)性?!鲈凇卿浧聊弧线x擇從哪一個(gè)本體進(jìn)行生成,引起瀏覽器模塊1310顯示‘類別列表’屏幕?!鲈陬悇e列表屏幕上,對(duì)將生成的每一類別加‘g’?!鲞x擇將生成的每一類別,使瀏覽器模塊1310顯示‘類別顯示’屏幕?!鲈陬悇e顯示屏幕上,最初對(duì)所有字段加標(biāo)簽‘g’。檢查將生成的每一數(shù)據(jù)性質(zhì)字段,每一超類/小類鏈接和每一對(duì)象性質(zhì)鏈接,如果不需要?jiǎng)t刪除標(biāo)簽?!瞿J(rèn)情況下,所有字段均可搜索(即,可以添加至過濾器)。將‘ns’標(biāo)簽添加至數(shù)據(jù)性質(zhì)字段將意味著字段在生成的應(yīng)用中將不可搜索?!龀?小類鏈接字段和對(duì)象性質(zhì)鏈接字段中的每一個(gè)上存在額外的字段標(biāo)簽位置。通過在這些字段中設(shè)置“l(fā)”標(biāo)簽,其將從鏈接的類別生成數(shù)據(jù)字段到生成的屏幕中。這些字段將顯示成非可更新字段?!鋈绻麑@示來自鏈接的類別的任何字段,則選擇該鏈接的類別并且對(duì)適當(dāng)字段加標(biāo)簽‘l’?!龇祷亍邦悇e顯示”屏幕,并且從將不會(huì)被執(zhí)行的每一公理描述刪除標(biāo)簽。刪除公理之前的字段很重要,因?yàn)榉駝t生成的應(yīng)用中可能會(huì)存在完整性缺失?!鲋貜?fù)步驟3至步驟9,直到已經(jīng)選擇用于生成的所有所需的類別為止?!龇祷亍邦悇e列表”屏幕,并選擇‘生成應(yīng)用’選項(xiàng)?!鏊鰬?yīng)用將由瀏覽器模塊1310生成,并且被保存到應(yīng)用元數(shù)據(jù)中指定的位置中(步驟1)。將創(chuàng)建數(shù)據(jù)庫數(shù)據(jù)庫建立和加載腳本。運(yùn)行這些腳本以將所述應(yīng)用準(zhǔn)備就緒。因此,上述瀏覽器模塊1310允許用戶瀏覽本體以及與本體交互,并且隨后通過選擇特定類別和數(shù)據(jù)性質(zhì)生成應(yīng)用1503,所述應(yīng)用1503可以用于與存儲(chǔ)在數(shù)據(jù)存儲(chǔ)1505中的與所述選擇的類別和數(shù)據(jù)性質(zhì)相一致的數(shù)據(jù)交互。本體索引器模塊索引器模塊自動(dòng)地為一個(gè)或多個(gè)本體的收集過程中使用的項(xiàng)創(chuàng)建一組索引,以幫助用戶瀏覽本體并加速對(duì)由本體定義的數(shù)據(jù)的查詢。這些索引被其它模塊用來幫助進(jìn)行對(duì)本體的對(duì)準(zhǔn)、刪減和瀏覽。索引器模塊通過創(chuàng)建所有類別名稱、數(shù)據(jù)性質(zhì)名稱以及對(duì)象性質(zhì)名稱和關(guān)系的一組鏈接的索引來為一個(gè)或多個(gè)本體加索引。索引包括來自源本體,以及來自語義等同功能的語義等同項(xiàng)?,F(xiàn)在將參考圖16描述索引程序的功能性的實(shí)例。在該實(shí)例中,索引器模塊1320利用一組屏幕1602從協(xié)調(diào)器1302接收本體1601或由用戶或處理器1301定義的任何本體,并且創(chuàng)建所有類別名稱、數(shù)據(jù)性質(zhì)名稱和對(duì)象性質(zhì)名稱的索引1603。應(yīng)了解,屏幕可以由如前面所描述的瀏覽器模塊1310生成。隨著每一本體項(xiàng)被加索引,使用概念匹配數(shù)據(jù)庫1604從語義匹配器模塊1350獲得的同義詞也被加索引。對(duì)于對(duì)象性質(zhì),由所述對(duì)象性質(zhì)鏈接的概念在索引中交叉引用?;谝陨鲜纠员倔w的概念-數(shù)據(jù)性質(zhì)-對(duì)象性質(zhì)(CDO)索引的實(shí)例在表3中示出。應(yīng)注意,這是用于說明目的的顯示形式的索引,但是在實(shí)踐中,所述索引可以存儲(chǔ)在更復(fù)雜的索引結(jié)構(gòu)中,如下面將更詳細(xì)地描述。表3即使不包括同義詞,這仍然是極為有用的索引。例如,可潛在地對(duì)兩個(gè)本體中具有相同名稱的每一個(gè)概念進(jìn)行對(duì)準(zhǔn)。對(duì)準(zhǔn)器模塊將采用每一所述對(duì),并且首先比較其對(duì)象性質(zhì)且隨后比較其數(shù)據(jù)性質(zhì)。例如,概念‘股份’作為概念出現(xiàn)在兩個(gè)本體Ont1.7和Ont2.10中。在該情況下,它似乎是類似的(S1.7,2.10=1.0,因?yàn)槊Q相同),并且從索引器模塊的角度來看這是足夠的。另外分析可由下面更詳細(xì)地描述的對(duì)準(zhǔn)器模塊執(zhí)行。通過檢查對(duì)象性質(zhì),將發(fā)現(xiàn)對(duì)象性質(zhì)是不同,如下面的表4中所示。雖然其數(shù)量和對(duì)象性質(zhì)名稱匹配,但是鑒于S1.7,2.10=0.8571,相關(guān)概念后的一個(gè)是不同的。通過檢查數(shù)據(jù)性質(zhì),我們發(fā)現(xiàn)鑒于S1.7,2.10=1.0,它具有相同數(shù)據(jù)性質(zhì)。源信息全部可以在索引程序創(chuàng)建的索引中獲得,對(duì)準(zhǔn)器模塊在源信息上執(zhí)行先前計(jì)算。表4使用語義匹配器模塊對(duì)其它概念的進(jìn)一步分析將示出“個(gè)人”是“客戶”的小類,因此給出S1.7,2.10=0.8->0.95。本體2是比本體1更通用的模型。該相似性范圍足以在兩個(gè)本體中的“股份”之間建立錨點(diǎn)。Si,j的計(jì)算由對(duì)準(zhǔn)器模塊執(zhí)行。概念之間的關(guān)系在表5中呈顯示內(nèi)容形式示出的概念到概念(C2C)表格中提取,該表格示出概念C1與概念C2如何相關(guān)聯(lián)。表5對(duì)象關(guān)系C1C2雇用Ont1.4Ont1.6雇用Ont2.4Ont2.9具有Ont1.3Ont1.5具有Ont2.3Ont2.8持有Ont1.1Ont1.5持有Ont2.1Ont2.8是Ont1.1Ont1.0是Ont1.2Ont1.0是Ont1.3Ont1.2是Ont1.4Ont1.2是Ont2.1Ont2.0是Ont2.2Ont2.0是Ont2.3Ont2.2是Ont2.4Ont2.2是Ont2.5Ont2.4是Ont2.6Ont2.4是Ont2.7Ont2.1是Ont2.7Ont2.2擁有Ont1.1Ont1.7擁有Ont2.0Ont2.10匯報(bào)對(duì)象Ont2.9Ont2.1股東Ont1.4Ont1.7股東Ont2.4Ont2.10工作地點(diǎn)Ont1.1Ont1.6工作地點(diǎn)Ont2.1Ont2.9索引是以對(duì)應(yīng)于將以上表格整理成不同順序的多種格式構(gòu)建。對(duì)準(zhǔn)器模塊可以通過執(zhí)行針對(duì)所述索引的SQL查詢來執(zhí)行其許多任務(wù)。現(xiàn)在將更詳細(xì)地描述索引結(jié)構(gòu)的實(shí)例。就這一點(diǎn)而言,使用語義匹配器模塊,確定每一同義詞集的根詞或詞元。語義匹配器模塊要求對(duì)語境進(jìn)行設(shè)置以便獲得最佳結(jié)果。一般而言,當(dāng)跨多個(gè)本體構(gòu)建索引時(shí),每一本體的語境是已知的、狹窄的,并與其它相關(guān)本體相關(guān)。索引的最終集合以多步驟過程創(chuàng)建,所述多步驟過程概括如下:■從被加索引的本體提取所有概念、對(duì)象性質(zhì)和數(shù)據(jù)性質(zhì)?!鍪褂帽?和表5中描述的格式將這些值加載到臨時(shí)表格(CDO和C2C)中。針對(duì)被加索引的每一本體將這些表格創(chuàng)建或再建成空表格?!鰧⒈倔w加載到語義匹配器模塊中。這將使用本體中所包含的任何定義檢查每一個(gè)詞的語義,并且將其與已經(jīng)加載到語義匹配器模塊中的或者可以從諸如WordNet等公共詞典中獲得的那些定義進(jìn)行比較。語境由本體提供(例如,醫(yī)學(xué)/外科或地理位置)?!稣Z義匹配器模塊定義概念I(lǐng)d,該概念I(lǐng)d是對(duì)應(yīng)于每一個(gè)同義詞系列的詞元或根詞的唯一編號(hào)?!鋈缓笫褂闷ヅ渖厦嫠枋龅呐R時(shí)表格中具有概念I(lǐng)d的項(xiàng)的項(xiàng)加載同義詞表格。■將由語義匹配器模塊識(shí)別的有關(guān)被加索引的本體中的每一項(xiàng)的所有同義詞也加載到同義詞表格中?!鋈缓笸ㄟ^代入有關(guān)CDO表格中的每一項(xiàng)的適當(dāng)概念I(lǐng)d創(chuàng)建最終CDO索引?!鋈缓笸ㄟ^代入有關(guān)C2C表格中的每一項(xiàng)的適當(dāng)概念I(lǐng)d創(chuàng)建最終C2C索引?!鰟h除臨時(shí)(顯示版本)索引?!鋈缓笸ㄟ^重復(fù)所有先前步驟加載將被加索引的下一本體。■當(dāng)已經(jīng)對(duì)所有相關(guān)本體加索引時(shí),如果在加載過程期間已識(shí)別出任何新的同義詞,針對(duì)語義匹配器模塊執(zhí)行同義詞表格的最終遍操作。■將索引加載到適當(dāng)數(shù)據(jù)庫結(jié)構(gòu)中并對(duì)其性能進(jìn)行調(diào)諧。通常來說,這將涉及跨本體索引表格創(chuàng)建多個(gè)數(shù)據(jù)庫索引。將了解,不存在使用工具或使用索引的直接用戶交互。相反,索引器模塊提供由其它模塊、工具或組件使用的服務(wù)。該索引可以提供的服務(wù)中的一些包括增強(qiáng)的能力以:■從一系列本體選擇最佳本體;■對(duì)準(zhǔn)或合并多個(gè)本體;■操縱本體;■提取同義詞;■執(zhí)行語義匹配。本體刪減器模塊刪減器模塊被設(shè)計(jì)用于允許用戶采用大型本體或一系列對(duì)準(zhǔn)的本體,并將其刪減成適合于用戶的需要的相關(guān)類別,不會(huì)因?yàn)榇笠獾貏h除包含與其相關(guān)本體項(xiàng)相關(guān)的數(shù)據(jù)或公理的組件而出現(xiàn)完整性缺失。例如,當(dāng)構(gòu)建和利用諸如解剖學(xué)基礎(chǔ)模型(FMA)等大型參考本體時(shí)出現(xiàn)問題。就這一點(diǎn)而言,F(xiàn)MA非常大型并且非常詳細(xì),盡管其性質(zhì)也非常寬泛(例如,非應(yīng)用特定)。它還嚴(yán)格遵循適當(dāng)?shù)慕T?。這些標(biāo)準(zhǔn)共同使得FMA支持許多可能應(yīng)用。然而,其也會(huì)被呈遞得較為麻煩(即,過于大型或詳細(xì)或條理化)以由任何特定應(yīng)用使用。因此,F(xiàn)MA的潛在用戶具有以下基本形式的要求:“我們確實(shí)喜歡FMA,但是它太大或者說是太過詳細(xì),不符合我們的需要,我們真的只需要基于整個(gè)FMA的子集的那些”。劃分依據(jù)隨不同應(yīng)用而變化,但是實(shí)例包括:■基于區(qū)域,即大腦或腹部?!龌谙到y(tǒng),即心血管系統(tǒng)或骨骼系統(tǒng)。■基于粒度,即僅在X射線中可見的項(xiàng)目或者僅細(xì)胞和亞細(xì)胞組分。雖然所需的本體派生物大體上基于諸如上面所描述的那些子集提取,但是隨后常常對(duì)其進(jìn)一步操縱以更好地適應(yīng)應(yīng)用需要(即,添加類別、刪除類別、刪除性質(zhì)、添加性質(zhì)等)??梢匀N方式中的一個(gè)處理此類請(qǐng)求:■針對(duì)每一新請(qǐng)求編寫程序代碼,這不是通用解決方案?!鰟?chuàng)建對(duì)本體的視圖,這需要用于定義所需的應(yīng)用知識(shí)庫(KB)的語言(未必總是適當(dāng)本體)以及可以從定義和源本體生成應(yīng)用KB的引擎。這具有添加和刪除性質(zhì)的問題?!鰟h減本體,以提供良好建模的子集本體。因此,存在對(duì)刪減的本體(諸如相關(guān)性、性能、可管理性和可測(cè)試性等)的許多需要,并且這些要求通過工具來滿足,所述工具使得具有很少或不具有本體論專業(yè)知識(shí)的人能夠安全地刪減不需要的概念。另外,人應(yīng)能夠使用簡(jiǎn)化查詢構(gòu)造機(jī)制選擇和檢查通過本體進(jìn)行描述的數(shù)據(jù)。它將能夠在執(zhí)行其刪除之前研究從本體刪除組件的影響,并且隨后將刪減的本體另存為新的本體。例如,SNOMED-CT是在臨床文件中使用的醫(yī)學(xué)項(xiàng)的大型醫(yī)學(xué)本體。它由30萬+概念組成,所述概念之間具有約140萬種關(guān)系。所述概念被劃分成19個(gè)職能領(lǐng)域。研究人員可以只對(duì)這些領(lǐng)域中的一個(gè)感興趣,例如心理健康領(lǐng)域。刪除其它18個(gè)領(lǐng)域?qū)?huì)打破醫(yī)學(xué)健康項(xiàng)與藥學(xué)項(xiàng)之間的許多關(guān)系。明顯地,研究人員可能希望保留這些項(xiàng)目。使用現(xiàn)有的工具手動(dòng)執(zhí)行該項(xiàng)工作將要求好多個(gè)月工作,并且將易出錯(cuò)。舉另外一例來說,用戶可能希望從幾個(gè)現(xiàn)有的源本體的組件創(chuàng)建新的本體,并且之后自行添加。組合的本體將包含許多將需要?jiǎng)h除的不相關(guān)概念。例如,包裹投遞公司將運(yùn)輸本體與地理定位本體結(jié)合,以創(chuàng)建允許對(duì)投遞路線進(jìn)行確定和優(yōu)化的本體。通過結(jié)合這些本體并且添加公理(諸如在機(jī)場(chǎng)開始和結(jié)束其旅程的飛機(jī)、港口的船舶和車站的火車等),將能夠構(gòu)建重寫其業(yè)務(wù)模型中的每一個(gè)概念的信息庫。然而,每一源本體中的許多內(nèi)容將是不需要的??梢允褂脛h減的本體定義代替對(duì)整個(gè)本體的視圖。該視圖可以用于諸如訪問控制、范圍管理等多個(gè)目的。為實(shí)現(xiàn)該目的,刪減器模塊連同瀏覽器模塊一起操作,以執(zhí)行以下表6中陳述的功能。表6刪減器模塊與瀏覽器模塊交互,以允許用戶指定其希望保留選擇的本體的哪些類別、數(shù)據(jù)性質(zhì)、對(duì)象性質(zhì)和公理。使用這些保留的內(nèi)容,刪減器模塊檢查本體中定義的關(guān)系型和公理型完整性得到維持。在另一版本中,用戶可以指定單個(gè)本體內(nèi)必須保留在刪減的本體中的兩個(gè)重要概念。本發(fā)明隨后對(duì)類別之間的所有概念性關(guān)系進(jìn)行映射,從而對(duì)分析指定的概念所需要的所有類別加標(biāo)簽。然后從源本體包括額外的類別、對(duì)象性質(zhì)和公理,以確保刪減的本體的完整性。在另一版本中,用戶可以指定來自不同本體的必須保留在刪減的本體中的兩個(gè)重要概念。刪減器模塊隨后嘗試對(duì)類別之間的所有概念性關(guān)系進(jìn)行映射,從而對(duì)分析指定的概念所需要的所有類別加標(biāo)簽。如果未識(shí)別到連接路徑,那么軟件將識(shí)別可能無法創(chuàng)建連接兩個(gè)起始概念的刪減的本體。將要求用戶:■放棄嘗試,或者■重新定義其目標(biāo)并重新開始,或者■通過手動(dòng)添加額外的類別或者添加來自另一本體的類別來擴(kuò)大范圍,并重新開始。如果成功,那么用戶現(xiàn)在具有完整本體,所述完整本體的大小較之組合的源本體被大大減小。刪減器模塊的布置的實(shí)例在圖17A中示出。在該實(shí)例中,刪減器模塊1330打開定義在OWL和RDFS文件中的本體1701,用戶隨后利用如在下面的表7中定義的一組屏幕1702與刪減器模塊1330交互,從而產(chǎn)生刪減的本體1703。應(yīng)了解,屏幕可以由如前面所描述的瀏覽器模塊1310生成。表7當(dāng)刪減單個(gè)本體時(shí),這是工具輔助的手動(dòng)過程,如現(xiàn)在將參考圖17B進(jìn)行描述。在該實(shí)例中,用戶選擇其所需要的概念,并且工具識(shí)別并添加完備性和完整性所需要的組件。用戶選擇一個(gè)類別作為源本體中的起始種子點(diǎn)S0,并將其加標(biāo)簽為K0表示保留。計(jì)算機(jī)進(jìn)行識(shí)別,并且將標(biāo)記為‘K0’的類別的所有父類、來自被加標(biāo)簽為K0的類別和推理的所有類別和推理加標(biāo)簽為‘K1’。這些被加標(biāo)簽的變量稱為S1-殼。用戶檢查計(jì)算機(jī)加標(biāo)簽的項(xiàng)目,并且對(duì)其重新加標(biāo)簽為K1表示保留,M1表示或許,以及D1表示丟棄。加載加標(biāo)簽的Mi和Ki組件的所有公理。然后重復(fù)該過程,逐次對(duì)i增值,直到用戶已經(jīng)對(duì)有關(guān)適當(dāng)本體的所有組件加標(biāo)簽。然后將推理器應(yīng)用至所得本地,以識(shí)別潛在錯(cuò)誤并添加推斷值。如此添加的任何概念、推理或公理被加標(biāo)簽為Kn,并且加標(biāo)簽的組件被導(dǎo)出作為刪減的本體。對(duì)于多個(gè)重疊本體,過程如在圖17C中示出。在該實(shí)例中,用戶選擇一個(gè)類別作為一個(gè)本體中的起始種子點(diǎn)S0,并且選擇另一類別作為同一本體或另一本體中的結(jié)束種子點(diǎn)E0,并且將其二者加標(biāo)簽為K表示使用‘K0s’或‘K0e’保留。計(jì)算機(jī)進(jìn)行識(shí)別,并且將標(biāo)記為‘K0x’的類別的所有父類以及來自被加標(biāo)簽為‘Knx’其中n=1的類別和推理的所有小類和推理加標(biāo)簽為‘K1s’或‘K1e’。這些被加標(biāo)簽的變量稱為S1-殼和E1-殼。S殼和E殼中的變量由下面更詳細(xì)地描述的語義匹配器模塊進(jìn)行比較。匹配程序模塊返回每一殼中的變量之間的匹配質(zhì)量的數(shù)值。如果滿足預(yù)確定的匹配質(zhì)量,則已經(jīng)確定兩個(gè)殼之間的路徑。這應(yīng)當(dāng)僅在殼重疊的情況下發(fā)生。如果起始點(diǎn)和結(jié)束點(diǎn)在相同本體中,則匹配質(zhì)量必定是1.0或確切。在任何階段,可以對(duì)加標(biāo)簽的數(shù)據(jù)類別的數(shù)據(jù)性質(zhì)進(jìn)行刪減。這通過以下方式執(zhí)行:選擇類別并且將數(shù)據(jù)字段(數(shù)據(jù)性質(zhì))標(biāo)記成‘D’表示丟棄?;诒粊G棄的字段的存在的任何推理將被忽略。重復(fù)這些步驟,逐次將n增加1,直到預(yù)確定數(shù)量的變量具有適當(dāng)匹配質(zhì)量或者達(dá)到預(yù)定義殼深度。匹配變量的殼路徑被加標(biāo)簽為‘Pjx’。如果達(dá)到預(yù)定義殼深度而未建立任何路徑,則過程已經(jīng)失敗并且本體被視為是不同的。過程停止。在該點(diǎn)處,能夠增加預(yù)定義殼深度,并且能夠手動(dòng)地改變被視為是不在從K到表示丟棄的D的范圍內(nèi)的任何概念的標(biāo)簽??梢灾匦麻_始過程。在這些已經(jīng)被建立后,可以填充S0與E0之間的路徑Pj,并且可以依據(jù)這些路徑定義骨架刪減的本體。加標(biāo)簽的Pj路徑要素的所有父類和推斷的父類也被加標(biāo)簽成屬于路徑Pj。所有公理被加載用于加標(biāo)簽的Pj路徑組件,因此創(chuàng)建擴(kuò)展的本體。將推理器應(yīng)用至擴(kuò)展的本體,以識(shí)別潛在錯(cuò)誤并添加推斷值。如此添加的任何概念、推理或公理被加標(biāo)簽,并且被導(dǎo)出作為刪減的本體的一部分。對(duì)于不同本體,過程如在圖17D中示出。就這一點(diǎn)而言,不同本體可能由于以下兩個(gè)可能原因而出現(xiàn):■用戶在嘗試對(duì)本體進(jìn)行對(duì)準(zhǔn)或者從兩個(gè)本體中的概念提取子集本體之前并未意識(shí)到它們是不同的。這是前一部分的可能失敗結(jié)果;或者■用戶知道它們是不同的,并且提供概念和性質(zhì)以允許其結(jié)合。在任何一種情況下,用戶必須提供信息以允許所述本體結(jié)合。這實(shí)際上是該過程的起始點(diǎn)。用戶選擇一個(gè)類別作為一個(gè)本體中的起始種子點(diǎn)S0,并且選擇另一類別作為另一本體中的結(jié)束種子點(diǎn)E0,并且將其二者加標(biāo)簽為K表示使用‘K0s’或‘K0e’保留。除此之外,其定義連接所述本體的一組用戶定義的路徑,如由線1710示出。這些路徑具有起始點(diǎn)‘U0Si’和結(jié)束點(diǎn)‘U0Ei’,其中‘i’是被定義的路徑編號(hào)。這些路徑形成一組連續(xù)的相關(guān)概念,從一個(gè)本體中的類別開始并且以另一本體中的類別結(jié)束。然后將上面描述的有關(guān)重疊本體的過程應(yīng)用至每一概念對(duì)S0和‘U0Si’,以及E0和‘U0Ei’,以在起始點(diǎn)/結(jié)束點(diǎn)與用戶定義的概念‘i’之間建立路徑Psi和Pei。在這些已經(jīng)被建立后,可以填充S0與E0之間的路徑Pi,并且可以依據(jù)這些路徑定義骨架刪減的本體。有關(guān)加標(biāo)簽的Pi路徑要素的所有父類和推斷的父類也被加標(biāo)簽成屬于路徑Pi。加載加標(biāo)簽的Pi路徑組件的所有公理。這被稱為擴(kuò)展的本體。將推理器應(yīng)用至擴(kuò)展的本體,以識(shí)別潛在錯(cuò)誤并添加推斷值。如此添加的任何概念、推理或公理被包括在刪減的本體1711中,所述刪減的本體1711現(xiàn)在可以導(dǎo)出。當(dāng)用戶選擇一個(gè)概念作為用于刪減的起始點(diǎn)時(shí),有必要確定應(yīng)包括在內(nèi)的額外概念。存在多個(gè)基于對(duì)象性質(zhì)和數(shù)據(jù)性質(zhì)的算法,所述算法被應(yīng)用以進(jìn)行這種確定。就這一點(diǎn)而言,對(duì)象性質(zhì)具有以下屬性:■它們命名兩個(gè)概念之間的關(guān)系?!鏊鲫P(guān)系具有方向。這被定義成從‘域’概念到‘范圍’概念。在關(guān)系數(shù)據(jù)庫術(shù)語中,域的主鍵碼變成范圍中的外鍵碼?!鋈芜x地,關(guān)系具有類型,包括:-功能性-反向功能性-過渡性-對(duì)稱性-不對(duì)稱性-反射性-不反射性而且,超類/小類關(guān)系等同于對(duì)象性質(zhì)的特殊情況。小類‘繼承’其超類的所有數(shù)據(jù)性質(zhì)和所有對(duì)象性質(zhì)。使用如上所述樣本本體,如果用于刪減的起始點(diǎn)是‘社團(tuán)’,那么其將有必要包括社團(tuán)的所有超類,即刪減的本體中的組織和團(tuán)體。類別成員將不會(huì)被包括在內(nèi)作為該關(guān)系的方向和類型,除非其自動(dòng)包括?;谕瑯拥脑?,組織和團(tuán)體的小類將不會(huì)被自動(dòng)地包括在內(nèi),且社團(tuán)的任何小類也不會(huì)被包括在內(nèi)(如果有)。然而,如果成員已經(jīng)被包括在內(nèi),那么對(duì)象性質(zhì)‘具有’和‘持有’的方向和類型將確保社團(tuán)和個(gè)人和其所有超類被自動(dòng)地包括在內(nèi)。任何概念中的數(shù)據(jù)性質(zhì)‘類型’提出警告,因?yàn)槠湟馕吨唇8拍畹拇嬖冢鑫唇8拍罴瓷鐖F(tuán)中的‘社團(tuán)類型’、成員中的‘成員類型’等。例如,‘社團(tuán)類型’概念可以包含諸如帆船、象棋、體操等所有有效值的列表?!吧鐖F(tuán)_類型”概念的社團(tuán)范圍將具有被稱作‘具有類型’的對(duì)象性質(zhì)。該概念將被自動(dòng)地包括在刪減的本體中??煽缢懈拍罨蛑鸶拍钚揎椝凶詣?dòng)包括和排除。用戶指定每一類型的對(duì)象性質(zhì)的‘包括’、‘排除’或‘請(qǐng)求’。包括特定概念的決定由專門的語義推理器使用特別是作為至推理引擎的輸入的對(duì)象性質(zhì)的本體規(guī)則做出。最初使用一階謂詞邏輯以獲得明確的包括和排除。如在‘類型’數(shù)據(jù)性質(zhì)的實(shí)例中的更多推理必須使用前向推理和反向推理鏈進(jìn)行確定。為了獲得最佳結(jié)果,可以將Novamente的概率邏輯網(wǎng)技術(shù)應(yīng)用至每一局部問題區(qū)域?,F(xiàn)在將更詳細(xì)地描述刪減器模塊的操作的實(shí)例。在該實(shí)例中,為了刪減本體,有必要識(shí)別包括在本體中的概念、數(shù)據(jù)性質(zhì)、對(duì)象性質(zhì)和推理。在一個(gè)實(shí)例中,這通過以下方式實(shí)現(xiàn):使用索引器模塊來對(duì)本體項(xiàng)目加索引,并且隨后使用瀏覽器模塊來顯示本體項(xiàng)以如先前所描述進(jìn)行選擇。確切地說,用戶選擇將在瀏覽器模塊‘登錄屏幕’中進(jìn)行刪減的本體。就這一點(diǎn)而言,可以從諸如文件、網(wǎng)址等的任何源選擇本體。在已經(jīng)選擇本體后,使用本體的索引生成類別列表。該列表顯示每一類別的名稱和描述。對(duì)于較大的列表,提供列表搜索功能,從而允許用戶通過類別名稱或者類別描述的一部分進(jìn)行搜索。還可以對(duì)數(shù)據(jù)性質(zhì)進(jìn)行搜索。在任何一種情況下,搜索將返回包含該數(shù)據(jù)性質(zhì)的類別列表。用戶隨后選擇一個(gè)類別作為起始點(diǎn)并將其加標(biāo)簽為S0。任選地,用戶然后選擇結(jié)束點(diǎn)E0。如果用戶未選擇結(jié)束點(diǎn),那么其將需要如上所述手動(dòng)地控制刪減操作。用戶還可以返回登錄屏幕并為結(jié)束點(diǎn)選擇另一本體,或者如果用戶知道所選擇的本體是不同的,則可以添加一組橋接概念和關(guān)系。如果用戶未指定橋接概念,那么過程將以如上所述的重疊本體過程為基礎(chǔ)進(jìn)行,否則其將根據(jù)不同本體過程進(jìn)行。為了控制刪減過程,可以設(shè)置多個(gè)元數(shù)據(jù)參數(shù),包括:■用于存儲(chǔ)刪減的本體的位置。■用于檢查的殼深度。■用于接受相同性的匹配質(zhì)量?!雒恳粴ね瓿珊笫欠駮和_^程以允許手動(dòng)編輯?!鲎畲筮\(yùn)行時(shí)間?!鲥e(cuò)誤和日志信息的冗長(zhǎng)性?,F(xiàn)在將更詳細(xì)地描述手動(dòng)刪減過程的實(shí)例。在該實(shí)例中,用戶僅指定用于起始刪減過程的起始點(diǎn)。用戶可以使用兩種方式中的一個(gè)執(zhí)行手動(dòng)刪減,所述兩種方式可以隨時(shí)可交換地使用?!鲇脩艨梢詮耐ǔS蔀g覽器模塊1310顯示的類別列表屏幕將待保留的類別加標(biāo)簽為‘K’。用戶可以隨時(shí)選擇‘驗(yàn)證’選項(xiàng),所述選項(xiàng)將自動(dòng)地對(duì)任何相關(guān)類別和公理加標(biāo)簽,并且在類別列表中顯示加標(biāo)簽的類別。另外,用戶可以選擇‘視圖’選項(xiàng),該選項(xiàng)將傳遞加標(biāo)簽的類別至繪圖程序,以直觀地示出選擇的類別和關(guān)系。繪圖程序可以是諸如OntoGraf等公眾可獲得的繪圖包?!龌蛘?,用戶可以通過點(diǎn)擊由瀏覽器模塊1310顯示的類別列表屏幕中的類別來打開類別顯示屏幕中的起始類別。然后,用戶可以對(duì)其希望保留的所有數(shù)據(jù)性質(zhì)、以及任何小類/超類以及對(duì)象性質(zhì)窗口中指定的任何類別加標(biāo)簽??梢酝ㄟ^點(diǎn)擊至顯示的任何相關(guān)類別的鏈接反復(fù)地執(zhí)行該過程。用戶可以隨時(shí)返回類別列表屏幕,以驗(yàn)證或查看其進(jìn)程。在用戶已經(jīng)完成對(duì)刪減的本體所需要的類別加標(biāo)簽后,其返回至類別列表屏幕并選擇“生成本體”選項(xiàng)。這引起刪減的本體在應(yīng)用元數(shù)據(jù)中指定的位置處生成。可以保存標(biāo)簽以允許容易對(duì)刪減過程進(jìn)行重新編輯?,F(xiàn)在將更詳細(xì)地描述刪減重疊本體的實(shí)例。在該實(shí)例中,用戶僅指定運(yùn)行刪減過程的起始點(diǎn)和結(jié)束點(diǎn)。所述過程如所描述在如上所述的多個(gè)重疊本體中進(jìn)行。假設(shè)應(yīng)用元數(shù)據(jù)參數(shù)已經(jīng)被設(shè)置成在殼之間暫停,過程將隨著每一殼完成而停止。在該點(diǎn)處,用戶可以驗(yàn)證或查看自動(dòng)加標(biāo)簽的項(xiàng)目,并且可以刪除其認(rèn)為不相關(guān)的任何標(biāo)簽。視圖功能將顯示兩個(gè)部分本體,直到建立連接起始點(diǎn)和結(jié)束點(diǎn)的路徑為止。通過選擇“恢復(fù)”選項(xiàng),程序?qū)⒒谙乱粴さ拇_定開始。在已識(shí)別出一個(gè)路徑之后,過程可以隨時(shí)停止。然而,或者,可以在起始點(diǎn)與結(jié)束點(diǎn)之間的確定多個(gè)不同可能路徑。在處理?xiàng)l件的指定的結(jié)束點(diǎn)已經(jīng)滿足后,過程停止并且向用戶返回狀態(tài)信息,所述狀態(tài)信息將包括以下中的一個(gè):■達(dá)到指定的最大殼深度。未發(fā)現(xiàn)路徑。本體可以是不同的。(失敗)■達(dá)到指定的最大殼深度。發(fā)現(xiàn)‘n’個(gè)路徑。要求‘m’個(gè)路徑。(部分成功)■發(fā)現(xiàn)指定數(shù)量的路徑。(完全成功)用戶可以決定通過以下方式對(duì)過程進(jìn)行擴(kuò)展:改變應(yīng)用元數(shù)據(jù)中的完成標(biāo)準(zhǔn)并且選擇恢復(fù)選項(xiàng)。如果用戶對(duì)結(jié)果滿意,則他們將選擇“生成本體”選項(xiàng)。這引起刪減的本體在應(yīng)用元數(shù)據(jù)中指定的位置處生成??梢员4鏄?biāo)簽以允許容易對(duì)刪減過程進(jìn)行重新編輯。如果用戶決定本體實(shí)際上是不同的,那么他們將進(jìn)行如下所述的操作。在該實(shí)例中,用戶指定運(yùn)行刪減過程的起始點(diǎn)和結(jié)束點(diǎn)以及一組相關(guān)橋接概念。用戶可能已經(jīng)保存來自前一嘗試的標(biāo)簽,以刪減及合并所述本體。通過選擇開始刪減選項(xiàng),過程將按照如上面所描述的不同本體過程中所描述的那樣開始。假設(shè)應(yīng)用元數(shù)據(jù)參數(shù)已經(jīng)被設(shè)置成在殼之間暫停,過程將隨著每一殼完成而停止。在該點(diǎn)處,用戶可以驗(yàn)證或查看自動(dòng)加標(biāo)簽的項(xiàng)目,并且可以刪除其認(rèn)為不相關(guān)的任何標(biāo)簽。在建立將起始點(diǎn)和結(jié)束點(diǎn)連接至用戶定義的橋接點(diǎn)中的一個(gè)之前,視圖功能將顯示許多部分本體,一個(gè)針對(duì)每一用戶定義的點(diǎn)并且一個(gè)針對(duì)起始點(diǎn)和結(jié)束點(diǎn)。通過選擇恢復(fù)選項(xiàng),過程將基于下一殼的確定開始。在源本體中的一個(gè)路徑和目標(biāo)本體中的一個(gè)路徑可以利用橋接類別進(jìn)行連接之后,過程可以隨時(shí)停止。然而,或者,可以在起始點(diǎn)與結(jié)束點(diǎn)之間確定盡可能多的路徑。在已經(jīng)滿足處理?xiàng)l件的指定的結(jié)束點(diǎn)后,過程停止并且向用戶返回狀態(tài)信息,所述狀態(tài)信息將包括以下中的一個(gè)。■達(dá)到指定的最大殼深度。未發(fā)現(xiàn)路徑。本體可以是不同的。(失敗)■達(dá)到指定的最大殼深度。發(fā)現(xiàn)‘n’個(gè)路徑。要求‘m’個(gè)路徑。(部分成功。)■發(fā)現(xiàn)指定數(shù)量的路徑。(完全成功)用戶可以決定通過以下方式對(duì)過程進(jìn)行擴(kuò)展:改變應(yīng)用元數(shù)據(jù)中的完成標(biāo)準(zhǔn)并且選擇恢復(fù)選項(xiàng)。如果用戶決定本體實(shí)際上仍然是不同的,那么他們將需要在檢查其橋接概念上花一定的努力。他們可能需要執(zhí)行手動(dòng)加標(biāo)簽,以確定路徑符合。如果用戶對(duì)結(jié)果滿足,則它們可以選擇生成本體選項(xiàng),這引起刪減的本體在應(yīng)用元數(shù)據(jù)中指定的位置處生成??梢员4鏄?biāo)簽以允許容易對(duì)刪減過程進(jìn)行重新編輯。語義匹配器模塊語義匹配器模塊允許對(duì)數(shù)學(xué)值進(jìn)行應(yīng)用,以使得當(dāng)在特定語境內(nèi)進(jìn)行考慮時(shí)兩個(gè)概念是類似的。有關(guān)該過程的名稱是‘語義匹配’,并且當(dāng)嘗試對(duì)準(zhǔn)兩個(gè)本體中的概念時(shí)其特別重要。例如,業(yè)務(wù)語境中的字詞‘公司’和‘組織’不具有完全相同的含義。所有的公司都是組織,但并不所有組織都是公司。實(shí)際上,類別公司是類別組織的子集。例如“這個(gè)組織是上市公司,而那個(gè)組織是高爾夫球社團(tuán)”。在社會(huì)語境中,公司與組織不相關(guān),但是可以與一組同伴相關(guān)。例如“JohnDoe總是與壞人為伍”。社團(tuán)和公司都是組織,因此存在一定的相似性。上市公司和未上市公司也類似,并且分享共同的父類。它們?cè)诟拍钌鲜欠衽c社團(tuán)和公司接近?公眾未上市公司(大于50個(gè)股東)和民營未上市公司(小于51個(gè)股東)概念上是否接近?其是否比上市公司和未上市公司更為接近?為了給出用于度量?jī)蓚€(gè)概念可以多相似的數(shù)學(xué)依據(jù),我們引入‘相同性’概念。存在多個(gè)公式性量度。例如,Levenstein距離(Levenshtein,1966)計(jì)數(shù)匹配兩個(gè)字符串所需要的插入和刪除;Needleman-Wunsch(Needleman,1970)距離在編輯操作上分配不同成本;Smith-Waterman(Smith,1981)另外使用至成本的字母映射;以及Monge-Elkan(Monge,1996)根據(jù)字詞之間的子字符串間隙使用變化的成本。此外,我們使用:Jaro-Winkler相似性,其計(jì)數(shù)兩個(gè)字符串之間的常見字符,即使所述常見字符被“短”距離錯(cuò)放;Q-Gram(Sutinen,1995),其計(jì)數(shù)兩個(gè)字符串之間共用的三連詞的數(shù)量;以及子字符串距離,其搜索最大的常見子字符串。然而,這些都尚未被證明是特別有效的。另一常見技術(shù)是將概念布置在單個(gè)層次樹中,其中‘事物’概念作為根。大多數(shù)相同性公式是那些被測(cè)量的類別和其常見父類之間的概念的數(shù)量和至最底層的距離的函數(shù)。然而,鑒于至底層的距離可能會(huì)根據(jù)建立本體的本體專家以及本體是否已經(jīng)被使用本體的人刪減而顯著不同這一事實(shí),至底層的距離通常是不相關(guān)的。通常來說,相同性由概念之間的邊緣數(shù)量進(jìn)行測(cè)量。其它可能性基于數(shù)據(jù)性質(zhì)的數(shù)量存在。例如,社團(tuán)和公司可能各自具有“5”個(gè)數(shù)據(jù)性質(zhì),余量(balance)保留在組織定義中;而公眾上市公司和公眾未上市公司可能各自僅具有一個(gè)屬性,余量保留在公司定義中。因此,公眾未上市公司與公眾上市公司比公司與社團(tuán)更類似(“2”個(gè)屬性而不是“10”個(gè)屬性,或者換句話說,存在較少差異,并且差異等同于距離)。‘距離’的概念被視為是重要的。兩個(gè)概念相距多遠(yuǎn)?存在基于被測(cè)量的那些類別與其常見父類之間的概念數(shù)量的公式。如果距離是“1”,那么很明顯一個(gè)概念是另一概念的超類。然而,如果距離是“2”,那么它們是同胞或?qū)O輩。這并不是特別有用的事實(shí)。距離與相同性之間存在某些關(guān)系。明顯地,如果距離是“0”,那么相同性是“1.0”,換句話說,概念是相同的,因此在實(shí)行中,該實(shí)例中僅存在一個(gè)概念。好的語義匹配器模塊應(yīng)能夠使用任何適當(dāng)公式計(jì)算相同性和匹配的距離。假定存在描述科學(xué)、工程和商業(yè)領(lǐng)域的方方面面的數(shù)千種公共和私人本體。為了對(duì)準(zhǔn)兩個(gè)本體,有必要確定兩個(gè)本體中的概念之間是否存在語義匹配。目前,對(duì)定義鏈接概念的本體論的操縱限于學(xué)者和專業(yè)本體專家。概念的定義和名稱根據(jù)語境可以有巨大的改變。為了對(duì)本體中以及跨本體的項(xiàng)進(jìn)行比較,我們需要具有用于對(duì)項(xiàng)進(jìn)行語義檢查的一些機(jī)制。兩個(gè)概念是否真的是同一事物的同義詞,或者其是否以某種其它方式相關(guān)聯(lián)。例如,組織和公司具有某些共同屬性,因此存在一定程度的相同性。所有公司都是組織,但并非所有組織都是公司(歸類)。在另一實(shí)例中,手指存在暗示手的存在。雖然它們并不相同,但是它們之間存在關(guān)系,并且一個(gè)存在暗示另一個(gè)的存在,因?yàn)橐粋€(gè)是另一個(gè)的一部分(部分詞)。給定任何兩個(gè)概念,我們想知道它們有多相似;即,相同性0->1,其中1.0暗示它們是相同的,一個(gè)是否是另一個(gè)的小類或超類(-1,0,1),以及一個(gè)是否是另一個(gè)的一部分(-1,0,1)。語義匹配器模塊包括概念數(shù)據(jù)庫、概念的含義以及概念之間的關(guān)系。它具有用于從本體加載概念的工具,用于手動(dòng)地編輯概念之間的關(guān)系和其定義,以及用于以數(shù)學(xué)定義的方式對(duì)概念進(jìn)行分析。然后可以在諸如對(duì)準(zhǔn)本體等各種情況下使用概念和其關(guān)系的這些數(shù)學(xué)定義性質(zhì),用作詞典以及用作語義概念匹配程序模塊。語義匹配器模塊概念找出特定語境(例如,醫(yī)學(xué)、業(yè)務(wù))中的同義詞、歸類(類層次)和部分詞(部分)。首先通過解析本體并且獲得類別、其注釋、類別結(jié)構(gòu)和任何‘部分’對(duì)象性質(zhì)進(jìn)行加載。然后在諸如WordNet或Watson等內(nèi)容中使用類別名稱,以確定含義和可能的同義詞。含義被與任何符號(hào)一樣解析成三元組。然后,匹配程序模塊尋找確定同義性的三元組中的數(shù)學(xué)一致性。語義匹配器模塊是獨(dú)立過程,該獨(dú)立過程評(píng)估通常來自兩個(gè)本體的兩個(gè)概念列表或者評(píng)估單個(gè)概念,從而將此與參考項(xiàng)進(jìn)行匹配以確定概念的含義。在第一種情況中,匹配程序模塊將使第一列表中的每一項(xiàng)目與第二列表中的每一項(xiàng)目組成一隊(duì)。然后對(duì)每一對(duì)i、j進(jìn)行分析,以確定以下項(xiàng)目:■語義相似性Sij。-如果項(xiàng)是同義詞,則相似性為Sij=1.0。-如果是反義詞,則Sij=-1.-如果不存在關(guān)系,則Sij=0?!鰵w類關(guān)系Subij。-如果Ci是Cj的小類,則Subij=-1。-如果Ci是Cj的超類,則Subij=1。-否則Subij=0?!霾糠衷~關(guān)系Merij。-如果Ci是Cj的一部分,則Merij=-1。-如果Cj是Ci的一部分,則Merij=1-否則Merij=0。在第二種情況中,匹配程序模塊采用單個(gè)概念和語境定義,并且產(chǎn)生有關(guān)該概念在該語境中的同義詞、小類和超類以及部分詞的列表。如果未提供語境,則跨所有語境執(zhí)行評(píng)估。下面一些實(shí)例基于醫(yī)學(xué)本體和人力資源本體已定義至SemMatch這一假定情況:■SemMat(團(tuán)體,客戶,業(yè)務(wù))=(1.0,0,0)■SemMat(團(tuán)體,個(gè)人,業(yè)務(wù))=(0.25,1,0)■SemMat(個(gè)人,客戶,業(yè)務(wù))=(0.25,-1,0)■SemMat(汽車,發(fā)動(dòng)機(jī),汽車行業(yè))=(0.1,0,1)■SemMat(汽車,車輪,汽車行業(yè))=(0.1,0,1)■SemMat(患者,人,醫(yī)學(xué))=(0.25,-1,0)■SemMat(患者,人,人力資源)=(0,0,0)■SemMat(患者,人,)=(0.25,-1,0)■SemMat(人,,醫(yī)學(xué))=定義:?jiǎn)我坏娜祟悾?同義詞:個(gè)人、人體-超類:實(shí)體、角色-小類:患者、從業(yè)者、執(zhí)行者-部分詞:-1,無+1,器官、四肢■SemMat(人,,)=語境:醫(yī)學(xué)-定義:?jiǎn)我坏娜祟?同義詞:個(gè)人、人體-超類:實(shí)體、角色-小類:患者、從業(yè)者、執(zhí)行者-部分詞:-1,無+1,器官、四肢■SemMat(人,,)=語境:人力資源-定義:?jiǎn)我坏娜祟?同義詞:個(gè)人-超類:實(shí)體、團(tuán)體、參與者-小類:雇員-部分詞:-1,家庭+1,無現(xiàn)在將參考圖18A和圖18B更詳細(xì)地描述兩個(gè)不同使用方法。語義匹配器模塊1350使用概念匹配數(shù)據(jù)庫1604來執(zhí)行其評(píng)估。在圖18A的實(shí)例中,語義匹配器模塊1350接收諸如本體項(xiàng)A、B和X、Y等兩個(gè)概念列表1801、1802并且隨后對(duì)其進(jìn)行比較,以生成有關(guān)每一可能本體項(xiàng)對(duì)的相同性分?jǐn)?shù)1803。在圖18B的實(shí)例中,接收單個(gè)概念,諸如單個(gè)本體項(xiàng)1804,并且語義匹配器模塊1350將其與概念匹配數(shù)據(jù)庫1604進(jìn)行比較并且返回同義詞列表1805。使用索引器模塊1320構(gòu)建概念匹配數(shù)據(jù)庫(CMD)1604。在可對(duì)其進(jìn)行使用之前,必須加載數(shù)據(jù)庫,通常而言將通過基于相關(guān)的語境解析本體來加載數(shù)據(jù)庫。用戶可以隨時(shí)更新數(shù)據(jù)庫以添加新的語境。CMD1604包含如表8中定義的多個(gè)表格,其中表格之間的關(guān)系在18C中示出。表8現(xiàn)在將參考圖18D詳細(xì)描述加載機(jī)制。首先,確定將加載的本體1801的整體語境,并且將所述語境輸入到ID是1的語境表中。例如,如果加載醫(yī)學(xué)本體,則所述語境將被識(shí)別為“醫(yī)學(xué)”。該種類中的本體的實(shí)例和有關(guān)每一本體的語境名稱如下所示:■不良事件報(bào)告本體AERO■非洲傳統(tǒng)醫(yī)學(xué)本體ATMO■艾倫腦圖譜(ABA)成年老鼠腦本體ABA-AMB■阿爾茨海默病本體ADO■氨基酸本體AMINO-ACID■兩棲動(dòng)物大體解剖學(xué)本體AAO■兩棲動(dòng)物分類本體ATO■解剖病理學(xué)詞匯PATHLEX■解剖實(shí)體本體AEO這些本體中的每一個(gè)具有源,所述源將被加載到源表格中,因此允許也加載“源2語境”表格。接著,從以下本體中的每一個(gè)提取以下信息并且進(jìn)行解析:■類別■對(duì)象性質(zhì)■注釋■標(biāo)簽因?yàn)樗凶衷~來自一個(gè)本體,所以語境_ID是已知的。每一類別變成字詞表格中的字詞。注釋被加載作為字詞表格中的含義。創(chuàng)建臨時(shí)表格,所述表格將字詞_ID2語境_ID與均設(shè)置為空的詞元(根含義)和概念相關(guān)聯(lián),并且針對(duì)每一類別和概念_ID被設(shè)置為空將類別2對(duì)象-性質(zhì)2類別與字詞_ID相關(guān)聯(lián)。在此之后,然后將提取的類別和其注釋加載到字詞表格中。每一類別變成字詞。每一字詞被分配唯一的字詞_ID,并且類別注釋變成字詞表格中的含義。因?yàn)樗凶衷~來自一個(gè)本體,所以如先前所描述語境_ID是已知的。創(chuàng)建臨時(shí)表格,所述表格將字詞_ID2語境_ID與均被設(shè)置為空的詞元和概念相關(guān)聯(lián),并且針對(duì)每一類別和概念_ID被設(shè)置為空將類別2對(duì)象-性質(zhì)2類別與字詞_ID相關(guān)聯(lián)。對(duì)于每一語境,第一步驟是將每一字詞與從標(biāo)準(zhǔn)詞典(諸如WordNet1802)獲得的含義和同義詞進(jìn)行匹配。然后將任何不匹配的字詞與來自其它語境的字詞進(jìn)行匹配以識(shí)別同義詞?,F(xiàn)在更加詳細(xì)地描述這些步驟。字詞表格中的每一字詞被傳遞至WordNet1802以獲得含義,并且可能地獲得有關(guān)基于該字詞的同義詞或詞干的群組的根詞或詞元。在詞法上將WordNet含義與從注釋得到的含義進(jìn)行比較。這通過將含義轉(zhuǎn)換成RDF三元組并且對(duì)三元組進(jìn)行評(píng)估完成。下面更加詳細(xì)地描述該過程。如果含義匹配,則使用新的字詞_ID將Wordnet字詞和含義加載到字詞表格中。新的字詞_ID被分配至字詞_ID_C,并且原始字詞_ID被分配至字詞_ID_P,然后將二者加載到字詞2字詞中。加載字詞_ID2語境_ID表格,其中字詞_ID被分配至Wordnet詞元作為字詞_ID且相同的語境_ID作為相關(guān)的字詞_ID,所述相關(guān)的字詞_ID被加載成字詞_ID_P。字詞_ID2語境_ID表格僅具有兩列詞元和概念。因此,為詞元分配新的字詞_ID_C,并且從字詞_ID_P分配概念。最后,為類別2對(duì)象-性質(zhì)2類別加載來自Wordnet1802的字詞_ID信息。然后,將定義有詞元的所有字詞加載到概念表格中?,F(xiàn)在可以使用已知的概念_ID和詞元更新字詞_ID2語境_ID,并且將其用于加載概念_字詞_語境表格,從而導(dǎo)致CWC_ID被分配至命名的語境中使用的每一概念和字詞。CWC_ID可用于識(shí)別類別2對(duì)象-性質(zhì)2類別中的字詞,并且一起填充CWC2CWC表格和關(guān)系_類型表格。字詞表格的第二遍操作檢查無相關(guān)詞元的每一個(gè)字詞的含義,做法是依照句法將含義與其它語境中的字詞的含義進(jìn)行比較。進(jìn)行匹配的第一含義的字詞_ID被選擇作為詞元。然后有關(guān)Wordnet識(shí)別的詞元的過程繼續(xù)。第三遍操作簡(jiǎn)單地識(shí)別作為詞元的每一字詞,每一字詞與詞元不相關(guān)。這三個(gè)遍操作完成時(shí),每一個(gè)字詞將已經(jīng)在概念表格1809中的每一可能語境中識(shí)別出。在此之后,計(jì)算相同性值。如果完整本體是已知的,那么可以通過匹配正被比較的概念的屬性(數(shù)據(jù)性質(zhì))執(zhí)行相同性的計(jì)算。屬性列表將必然地包括概念的超類的屬性。在當(dāng)前實(shí)例中,通過分析兩個(gè)字詞的含義計(jì)算相同性。英文含義被轉(zhuǎn)換成主謂賓(spo)形式的rdf三元組。這使用RDF轉(zhuǎn)換器的自然處理語言(NLP)完成。(Arndt&Auer,2014)(Augenstein等人,2013)。例如,社團(tuán)具有含義“一種類型的組織,其具有成員而不是股東,并存在以滿足其成員的某些職業(yè)需要”,所述含義可被轉(zhuǎn)換成如下面的表9中所示:表9主語謂語賓語社團(tuán)是組織社團(tuán)具有成員成員具有需要需要是職業(yè)性的社團(tuán)滿足需要組織是一種概念,所述概念如下定義;“組織是個(gè)人群體,其具有成為群體的商定理由”,所述概念可轉(zhuǎn)換成如下面的表10中所示。表10主語謂語賓語組織是個(gè)人群體組織具有個(gè)人個(gè)人具有成為群體的商定理由將組織定義插入到社團(tuán)定義中,獲得表11中示出的定義。表11然而,我們無法推斷成員是個(gè)人。對(duì)此的分析可用于確定:■社團(tuán)的成員是個(gè)人。如果具有更準(zhǔn)確地定義為成員的對(duì)象性質(zhì)的會(huì)員概念是個(gè)人而不是具有會(huì)員身份的個(gè)人,則可以做出此推斷?!龀蔀槿后w的商定理由是滿足職業(yè)需要。將相同的過程應(yīng)用至如上所述的示例性本體中的半官方機(jī)構(gòu),我們將從含義獲得半官方機(jī)構(gòu)是“創(chuàng)建人是政府的用以滿足指定的政府需要的組織”,得到表12中示出的三元組。表12主語謂語賓語半官方機(jī)構(gòu)是組織組織是個(gè)人群體組織具有個(gè)人半官方組織的創(chuàng)建人是政府政府具有需要半官方機(jī)構(gòu)滿足需要個(gè)人具有成為群體的商定理由可將此用于基于如表13中示出的常見的謂語和賓語構(gòu)建比較表。表13這允許基于以下因素使用有關(guān)相同性的公式。■有關(guān)社團(tuán)和半官方機(jī)構(gòu)的概念的三元組的數(shù)量分別由N1和N2表示,其中N1=9和N2=7■兩個(gè)概念社團(tuán)與半官方機(jī)構(gòu)之間的共同謂語(SP)的數(shù)量是5,即SP=5■兩個(gè)概念社團(tuán)與半官方機(jī)構(gòu)之間的共同謂語賓語(SPO)對(duì)的數(shù)量是4,即SPO=4例如:■相同性=SPO/SP=4/5=0.8或者■相同性=(SP+SPO)/(N1+N2)=9/16=0.5625所使用的實(shí)際公式是不相關(guān)的。重要的事實(shí)是我們可以獲得公式,所述公式提供對(duì)相同性的測(cè)量。應(yīng)了解,在整個(gè)該過程中,用戶可以使用通常由瀏覽器模塊顯示的屏幕1808與語義匹配器模塊交互。對(duì)準(zhǔn)器模塊對(duì)本體對(duì)準(zhǔn)的需要起于對(duì)整合異構(gòu)數(shù)據(jù)庫的需要,所述異構(gòu)數(shù)據(jù)庫獨(dú)立地開發(fā)并且因此各自具有其自身的數(shù)據(jù)詞匯。在涉及提供其自身的本體的許多作用因素的語義網(wǎng)語境中,本體匹配已占據(jù)幫助異構(gòu)源交互操作的關(guān)鍵位置。本體對(duì)準(zhǔn)工具發(fā)現(xiàn)“語義上等同的”數(shù)據(jù)類別,例如“卡車”和“貨車”。類別未必邏輯相同。本體對(duì)準(zhǔn)的結(jié)果是一組陳述,這組陳述代表不同本體的實(shí)體之間的一致性??梢詫S谜Z言‘表達(dá)性和聲明性本體對(duì)準(zhǔn)語言’(EDOAL)(David等人,2013)或其它語言(ZIMMERMANN等人,2006)對(duì)此進(jìn)行表達(dá)。第一要求是確定本體中被對(duì)準(zhǔn)的概念之間是否存在語義匹配,這可以使用如上所述的語義匹配器模塊進(jìn)行確定。例如,業(yè)務(wù)語境中的字詞‘公司’和‘組織’不具有完全相同的含義。所有的公司都是組織,但并不是所有的組織都是公司。實(shí)際上,類別公司是類別組織的子集。例如:“這個(gè)組織是上市公司,而那個(gè)組織是高爾夫球社團(tuán)”。在社會(huì)語境中,公司與組織不相關(guān),但是可能與一組同伴相關(guān)。例如“JohnDoe總是與壞人為伍”。社團(tuán)和公司都是組織,因此存在一定的相似性。上市公司和未上市公司也類似,并且分享共同的父類,即公司。它們?cè)诟拍钌鲜欠衽c社團(tuán)和公司接近?公眾未上市公司(大于50個(gè)股東)和民營未上市公司(小于51個(gè)股東)概念上是否接近?其是否比上市公司和未上市公司更接近?為了給出用于度量?jī)蓚€(gè)概念可以有多相似的數(shù)學(xué)依據(jù),我們引入‘相同性’概念。存在用于相同性的多個(gè)公式性量度。最常見的技術(shù)是在單個(gè)層次樹中布置概念,其中‘事物’概念作為根。大多數(shù)公式是那些被測(cè)量的類別和其常見父類之間的概念的數(shù)量和至最底層的距離的函數(shù)。然而,鑒于至底層的距離可能會(huì)根據(jù)建立本體的本體專家以及本體是否已經(jīng)被使用本體的人所刪減而顯著不同這一事實(shí),至底層的距離很可能是不相關(guān)的。通常來說,相同性由概念之間的邊緣數(shù)量進(jìn)行測(cè)量。其它可能性基于數(shù)據(jù)性質(zhì)的數(shù)量存在。例如,社團(tuán)和公司可能各自具有5個(gè)數(shù)據(jù)性質(zhì),余量保留在組織的定義中;而公眾上市公司和公眾未上市公司可能各自僅具有一個(gè)屬性,余量保留在公司定義中。因此,私營上市公司與公眾上市公司比公司與社團(tuán)更類似(2個(gè)屬性而不是10個(gè)屬性,或者換句話說,存在較少的差異,并且差異等同于距離)。推定本體(PO)是由結(jié)構(gòu)化源創(chuàng)建的本體,所述結(jié)構(gòu)化源通常是關(guān)系數(shù)據(jù)庫、xml文件或電子數(shù)據(jù)表。此種對(duì)準(zhǔn)可能具有一些非常復(fù)雜的映射,其中推定本體中的數(shù)據(jù)實(shí)例映射至完整本體中的類別。這是對(duì)準(zhǔn)的特殊情況。現(xiàn)在將參考示出“事物數(shù)據(jù)庫”的圖19A描述簡(jiǎn)單的實(shí)例,其是完全去規(guī)范化數(shù)據(jù)結(jié)構(gòu)的實(shí)例,因?yàn)槠淇赡馨獢?shù)據(jù)(且因此結(jié)構(gòu))以及四個(gè)表格內(nèi)的數(shù)據(jù)。例如,如果事物類型表格包含‘類別’的事物類型,則物表格中的每一個(gè)相關(guān)列將包含類別的名稱。類別之間的關(guān)系將定義在‘事物到事物’表格中,其中‘事物類型到事物類型’指定關(guān)系的類型。在本體項(xiàng)中,任何類型表格都可產(chǎn)生一組類別。考慮到包含一組車輛的詳細(xì)信息的表格。車輛類型表格可能已經(jīng)被用于確保僅包括有效的車輛類型。例如,汽車、貨車、拖拉機(jī),而不是嬰兒車、自行車、船舶。從本體學(xué)來說,然后可以具有有關(guān)車輛類型表格中指定的每一車輛類型的單獨(dú)類別。該概念可能是廣義的,但并非始終是適當(dāng)?shù)?。它可能引起每一個(gè)人員表被劃分成男性類別和女性類別!因此,程序應(yīng)識(shí)別數(shù)據(jù)中包含的隱藏類別可能會(huì)被暴露的每一種情況,并且將其呈現(xiàn)給用戶進(jìn)行驗(yàn)證。在一些情況下,類型表格可能包含許多類型的類型。例如,概念、數(shù)據(jù)性質(zhì)和數(shù)據(jù)性質(zhì)的性質(zhì),諸如車輛、貨車、汽車、發(fā)動(dòng)機(jī)類型、重量、千克。這可以被示出為:■汽車具有發(fā)動(dòng)機(jī)類型:柴油■汽車具有重量:2000■重量具有測(cè)量單位:千克■汽車是車輛的小類現(xiàn)在將描述事物數(shù)據(jù)庫的實(shí)例,假定如表14至表17中所示對(duì)數(shù)據(jù)庫進(jìn)行填充。表14表15表16表事物類型ID名稱A有機(jī)結(jié)構(gòu)B業(yè)務(wù)組件表17基于關(guān)系型模式的推定本體將僅示出四個(gè)類別,所述四個(gè)類別具有與表格名稱相關(guān)的名稱。然而,基于數(shù)據(jù)的本體將示出八個(gè)類別,所述八個(gè)類別基于‘事物’表格和‘事物類型’表格中的名稱以及其它兩個(gè)表格中識(shí)別的所有對(duì)象性質(zhì),如圖19B中所示。在該實(shí)例中,“業(yè)務(wù)組件”和“有機(jī)結(jié)構(gòu)”項(xiàng)從事物類型表格(表16)獲得,而剩余項(xiàng)從事物表格(表14)獲得。這是問題的實(shí)例,其中一個(gè)本體中的類別匹配另一本體中的數(shù)據(jù)實(shí)例。為了清楚起見,這識(shí)別成‘推定映射問題’(PMP)。它可能在對(duì)準(zhǔn)期間當(dāng)推定本體具有以下各項(xiàng)時(shí)顯現(xiàn):具有名稱匹配‘主鍵碼’或‘外鍵碼’的數(shù)據(jù)性質(zhì);或具有相同外鍵碼的多個(gè)實(shí)例的類別,如在‘父類’和‘子類’(BOM)中;或具有相關(guān)聯(lián)的類型類別的類別。這些實(shí)例潛在地偽裝隱藏在數(shù)據(jù)實(shí)例中的類別層次!常見對(duì)準(zhǔn)技術(shù)是將來自每一本體的概念布置到兩個(gè)層次樹中,每一層次樹具有作為根的‘事物’概念。然后引入‘距離’的數(shù)學(xué)概念,以給出用于確定對(duì)準(zhǔn)的某種數(shù)學(xué)機(jī)構(gòu)。大多數(shù)距離公式是那些被測(cè)量的類別和其常見父類之間的概念的數(shù)量和至最底層的距離的函數(shù)。然而,鑒于至底層的距離可能會(huì)根據(jù)建立本體的本體專家以及本體是否已經(jīng)被使用本體的人所刪減而顯著不同這一事實(shí),以及是否存在充當(dāng)傘形概念的‘頂層’本體,至底層的距離很可能是不相關(guān)的。本體對(duì)準(zhǔn)器模塊尋找多個(gè)本體中的常見概念,并且將所述概念從一個(gè)本體映射至另一本體,因此允許將兩個(gè)本體看成一個(gè)本體。使用所述對(duì)準(zhǔn)也可能將兩個(gè)本體合并,盡管由于存在語義不匹配傳播的可能性,這是危險(xiǎn)的過程且通常并不推薦。一般而言,沒有本體是完美的。例如,此處使用的樣本本體中存在許多建模錯(cuò)誤。明顯的是,‘股份’應(yīng)由‘客戶’而不是由‘個(gè)人’所有,并且‘工作經(jīng)歷’應(yīng)由‘客戶’而不是‘公司’進(jìn)行‘雇用’。這兩個(gè)實(shí)例示出關(guān)系從限制較多的關(guān)系移動(dòng)為限制較小的關(guān)系。雖然在這些情況下將是可能的,但是其對(duì)于將社團(tuán)的會(huì)員從‘個(gè)人’變?yōu)椤蛻簟瘜⑹菬o效的。因?yàn)闀?huì)員與個(gè)人之間的關(guān)系是‘持有’,所以類別‘會(huì)員’也被糟糕地命名。如果類別已經(jīng)被命名為‘成員’,那么關(guān)系將是‘是A’。這應(yīng)該會(huì)允許成員繼承個(gè)人的性質(zhì)。除非對(duì)象性質(zhì)‘具有’被完全定義,否則其在推斷中的使用受到限制。這些錯(cuò)誤被引入至樣本,以說明對(duì)準(zhǔn)的復(fù)雜性中的一些?,F(xiàn)在將參考圖19C更加詳細(xì)地描述對(duì)準(zhǔn)器模塊的操作。就這一點(diǎn)而言,在使用中,OWL文件和RDFS文件中定義的本體1901、1902使用對(duì)準(zhǔn)器模塊1340打開,其中用戶然后使用如下面所定義的一組屏幕與本體交互,最終產(chǎn)生由一系列對(duì)準(zhǔn)1905連接的本體1903、1904和可能的合并的對(duì)準(zhǔn)的本體1906。過程由多個(gè)小過程組成,包括:■初始化■低水平類別匹配-識(shí)別最小映射■推定的映射問題識(shí)別■對(duì)象性質(zhì)分析■數(shù)據(jù)性質(zhì)分析■多類別映射■PMP分辨率■同胞分析■最小映射分辨率因?yàn)閷?duì)準(zhǔn)可以許多步驟進(jìn)行識(shí)別,所以存在重新計(jì)算一對(duì)特定概念的對(duì)準(zhǔn)的可能性。通過維持對(duì)準(zhǔn)映射克服該問題。該映射每當(dāng)識(shí)別出對(duì)準(zhǔn)時(shí)得到更新,并且在考慮評(píng)估新的對(duì)準(zhǔn)對(duì)之前由程序?qū)τ成溥M(jìn)行咨詢,以防止重復(fù)工作??梢韵蛴脩麸@示對(duì)準(zhǔn)映射,從而允許用戶遵循對(duì)準(zhǔn)過程,查詢及重寫任何潛在對(duì)準(zhǔn),并且指導(dǎo)程序重新執(zhí)行任何過程?,F(xiàn)在更加詳細(xì)地描述這些步驟??梢詾槊恳徊襟Ei分配加權(quán)系數(shù)Wi,其中結(jié)果被結(jié)合以提供整體對(duì)準(zhǔn)分?jǐn)?shù)。這些加權(quán)系數(shù)在某些步驟中應(yīng)用。雖然給出了可能的權(quán)重積累公式,但是存在可以使用的許多可能的加權(quán)計(jì)劃。在該領(lǐng)域中,可以將機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析以及推斷用于確定合適的加權(quán)公式。在初始化過程期間,從索引器模塊獲得索引1603。在此之后,將本體1901、1902加載到語義匹配器模塊1340中。當(dāng)尚未預(yù)加載對(duì)準(zhǔn)表時(shí),則W0=0.0。在以下實(shí)例中,Wi=i用于對(duì)技術(shù)進(jìn)行說明。否則,權(quán)重Wi由用戶或機(jī)器學(xué)習(xí)或經(jīng)驗(yàn)確定的啟發(fā)式機(jī)制進(jìn)行分配。一般而言,對(duì)于任何步驟i,累積地確定的匹配值MViA通過以下方式確定:MViA=MVi-1A/Wi+(Wi-1)*MVi/Wi其中,MVi是步驟i中計(jì)算的原始匹配值。另一更加傳統(tǒng)的加權(quán)計(jì)劃將是:MV=∑MVi*Wi/∑Wi其中,MV是加權(quán)匹配值,且MVi是步驟i中的匹配值??梢栽诿恳徊襟E中或者僅在程序結(jié)束時(shí)執(zhí)行該過程,這取決于優(yōu)選實(shí)現(xiàn)方式。接著,在本體中的項(xiàng)的語義含義的基礎(chǔ)上執(zhí)行類別匹配。該過程使用語義匹配器模塊檢查每一潛在對(duì)準(zhǔn)對(duì),以基于類別名稱找出潛在匹配。如果找到對(duì)準(zhǔn),則從該對(duì)準(zhǔn)橫穿繼承鏈(對(duì)象性質(zhì)=‘...的小類’),從而使用語義匹配器模塊檢查有關(guān)另一對(duì)準(zhǔn)的類別名稱。這可能僅需要小數(shù)量的匹配,盡管能夠找到所有匹配類別。如果被匹配的本體使用相同基本本體,則完全1-1匹配是可能的。例如:■不良事件報(bào)告本體AERO■非洲傳統(tǒng)醫(yī)學(xué)本體ATMO二者均基于標(biāo)準(zhǔn)蓋倫本體,因此將預(yù)期1-1匹配。有關(guān)每一對(duì)的MV基于由語義匹配器模塊提供的分?jǐn)?shù),并且出于該實(shí)例的目的設(shè)置W1=1.0。從第一本體的底層開始,從第二本體的底層類別開始檢查每一類別。當(dāng)使用語義匹配器模塊找到的有關(guān)概念對(duì)的相同性超出有關(guān)對(duì)準(zhǔn)的閾值匹配值(MVAT)時(shí),出現(xiàn)匹配。如果找到可接受的匹配,則其被稱為潛在對(duì)準(zhǔn),并且詳細(xì)信息被記錄在對(duì)準(zhǔn)映射中。對(duì)準(zhǔn)映射記錄兩個(gè)概念,分配對(duì)準(zhǔn)Id、最小映射Id、與對(duì)準(zhǔn)相關(guān)聯(lián)的任何標(biāo)簽、分配的任何PMPId、任何強(qiáng)化Id和最后處理步驟Id。與對(duì)準(zhǔn)Id有關(guān)的單獨(dú)表格存儲(chǔ)有關(guān)每一步驟的匹配值。如果需要,可以手動(dòng)地重寫這些值??梢允褂萌魏我阎膶?duì)準(zhǔn)預(yù)加載對(duì)準(zhǔn)映射。使用用戶標(biāo)簽‘用戶發(fā)起’對(duì)這些加標(biāo)簽,并且必須設(shè)置匹配值,通常設(shè)置為1.00,盡管下限值是可能的。‘用戶發(fā)起’和MV=1.00的組合將防止該對(duì)準(zhǔn)的進(jìn)一步處理。過程繼續(xù)至下一類別,該下一類別通過對(duì)象性質(zhì)與第一本體中的當(dāng)前類別相關(guān)聯(lián)。首先處理當(dāng)前類別的超類。程序在處理其它對(duì)象性質(zhì)之前處理繼承對(duì)象性質(zhì)。在對(duì)任何小類進(jìn)行檢查之前處理當(dāng)前類別的超類。一經(jīng)發(fā)現(xiàn)使用MV<MVAT的對(duì)準(zhǔn),過程立即停止。每當(dāng)識(shí)別出潛在對(duì)準(zhǔn),將其分配至最小映射集,并給定最小映射Idmm_ID。如果識(shí)別出等級(jí)上相關(guān)的類別,則將其添加至相同的mm_ID。該步驟結(jié)束時(shí),我們將定義具有多個(gè)最小映射,所述多個(gè)最小映射潛在地滿足最小映射的標(biāo)準(zhǔn)。在每一后續(xù)步驟中對(duì)該累積的匹配值進(jìn)行改善。始終執(zhí)行對(duì)潛在PMP的識(shí)別。PMP分辨率僅當(dāng)配置文件中要求時(shí)執(zhí)行。如果未要求,則潛在PMP的識(shí)別記錄在活動(dòng)日志中,所述活動(dòng)日志隨著對(duì)準(zhǔn)被執(zhí)行作為信息報(bào)文并且被添加至累積的統(tǒng)計(jì)報(bào)告而創(chuàng)建。在一些實(shí)例中,可能不需要解析PMP,因?yàn)閮蓚€(gè)本體可能是推定本體并且可能需要保留BOM結(jié)構(gòu)。如果要求PMP分辨率,則執(zhí)行PMP加標(biāo)簽。檢查數(shù)據(jù)性質(zhì)名稱,看看是否存在以下關(guān)鍵詞,諸如:■對(duì)象性質(zhì)名稱,包含:-類型-關(guān)系-類別-概念-…■數(shù)據(jù)性質(zhì)名稱,包含:-標(biāo)識(shí)符-ID-鍵碼-父類-子類-主鍵碼-外鍵碼-…包含這些關(guān)鍵詞的數(shù)據(jù)性質(zhì)的存在不一定暗示PMP??隙ㄐ枰獞?yīng)用更多的算法。被映射至標(biāo)準(zhǔn)的任何結(jié)構(gòu)。■必須識(shí)別ERA圖中的‘類型’表。用戶必須選擇類型表中的每一行?!霰仨氉R(shí)別‘材料單’結(jié)構(gòu),并且潛在地?cái)U(kuò)展到適當(dāng)類別結(jié)構(gòu)中。在該階段中,針對(duì)每一組同等BOM表格,每一PMP中涉及的類別被加標(biāo)簽為‘PMP’,并且被給到PMP集合標(biāo)識(shí)符PMP01、PMP02、…。稍后將對(duì)其進(jìn)行解析,如下面將更詳細(xì)地描述。隨著每一PMP類別被識(shí)別,可以將詳細(xì)信息呈現(xiàn)給用戶,該用戶可以決定實(shí)例并非是PMP。該步驟未計(jì)算MV,因此MV2A=MV1A=0.5。在此之后,對(duì)與來自前一步驟的每一對(duì)準(zhǔn)對(duì)相關(guān)聯(lián)的對(duì)象性質(zhì)和其相關(guān)類別進(jìn)行分析。該步驟有時(shí)被稱作‘結(jié)構(gòu)性分析’。這將識(shí)別:■如果所有相關(guān)類別和對(duì)象性質(zhì)的名稱匹配,那么將該對(duì)加標(biāo)簽為“錨點(diǎn)”。MV=1.0。將相關(guān)的類別添加至最小映射(如果最小映射中還沒有),并重復(fù)步驟2有關(guān)該最小映射中的相關(guān)類別的數(shù)據(jù)性質(zhì)分析■如果名稱與相關(guān)超類匹配,而不與小類中的任何一個(gè)匹配,那么將該對(duì)加標(biāo)簽為“可能同胞”。MV=0.3。將超類添加至最小映射。前往下面的多類別映射?!鋈绻Q與相關(guān)超類匹配,但是僅與小類中的一些匹配,那么將該對(duì)加標(biāo)簽為“相關(guān)子集”?!鯩V計(jì)算如下:-為每一匹配小類分配2.0的權(quán)重,并且為每一其它匹配的相關(guān)類別分配1.0的權(quán)重。-將這些權(quán)重求和為匹配NM的數(shù)字。-為每一小類分配1.0的權(quán)重,并且為每一其它相關(guān)類別分配0.5的權(quán)重。-將跨兩個(gè)超類的這些權(quán)重求和為總數(shù)NA。-匹配值MV3=NM/NA?!鋈绻幌嚓P(guān)的類別匹配,則MV3=0.001?!鰧⒊愄砑又磷钚∮成?。前往下面的多類別映射。對(duì)于每一對(duì),如下計(jì)算累積的加權(quán)匹配值:MV3A=MV2A/W3+(W3-1)*MV3/W3假定W3=3MV2A=0.5來自前一實(shí)例MV3=1.0來自對(duì)象性質(zhì)匹配那么MV3A=0.5/3+2/3*1.0=0.83333在此之后,執(zhí)行數(shù)據(jù)性質(zhì)分析,以分析匹配類別的數(shù)據(jù)性質(zhì)(屬性)是否類似。有關(guān)每一對(duì)類別的分析:■使用不存在準(zhǔn)確名稱匹配的SemMat對(duì)有關(guān)每一類別的數(shù)據(jù)性質(zhì)進(jìn)行比較?!龌跀?shù)據(jù)性質(zhì)分配“匹配值”(MV)。■使用匹配類型為對(duì)準(zhǔn)對(duì)加標(biāo)簽。選擇最小映射中的下一對(duì)并重復(fù)以上過程。如果最小映射內(nèi)不存在更多的對(duì)準(zhǔn),則移動(dòng)到下一最小映射。更詳細(xì)地,如果A={a1,a2,a3,…ai}是第一概念的一組數(shù)據(jù)性質(zhì),并且B={b1,b2,b3,…bj}是第二概念的一組數(shù)據(jù)性質(zhì),則存在以下可能性:■類別中的所有數(shù)據(jù)性質(zhì)匹配。加標(biāo)簽為“準(zhǔn)確匹配”,即匹配值=1.000。■來自一個(gè)本體的數(shù)據(jù)性質(zhì)的子集匹配其它本體中的所有數(shù)據(jù)性質(zhì)。加標(biāo)簽為“子集”。即或者M(jìn)Vi=(N(A∩B)/N(B))0.5,其中N(A)是A中的數(shù)據(jù)性質(zhì)的數(shù)量,假定N(A)<N(B)■來自一個(gè)本體的數(shù)據(jù)性質(zhì)的子集匹配另一本體中的數(shù)據(jù)性質(zhì)的子集。加標(biāo)簽為“部分匹配”即MVi=N(A∩B)/N(B),其中N(A)是A中的數(shù)據(jù)性質(zhì)的數(shù)量,假定N(A)<N(B)■無數(shù)據(jù)性質(zhì)匹配。MV=0.1,加標(biāo)簽為“僅名稱”即如果MV小于預(yù)確定的閾值,(確認(rèn)值=0.1),則丟棄來自最小映射的匹配對(duì),并且使用下一匹配對(duì)繼續(xù)進(jìn)行。重復(fù)該過程,直到所有最小映射已被分析為止,在該點(diǎn)處對(duì)匹配值進(jìn)行計(jì)算:MV4A=MV3A/W4+(W4-1)*MVi/W4假定W4=4MV3A=0.833333MV4=1.0來自數(shù)據(jù)性質(zhì)匹配那么MV4A=0.8333/4+3/4*1.0=0.9583多類別映射當(dāng)一個(gè)本體中的類別已經(jīng)被劃分成另一本體中的多個(gè)小類別時(shí)發(fā)生。在所述情況下,我們將預(yù)期該對(duì)已經(jīng)被加標(biāo)簽為“可能同胞”或者“多類別映射”和“子集”。通常通過分析有關(guān)每一本體中的類別和小類中的潛在相關(guān)類別的數(shù)據(jù)性質(zhì)的數(shù)量來檢測(cè)多類別映射。如果不具有小類的本體類別具有大約等于另一本體中的類別的數(shù)據(jù)性質(zhì)數(shù)量以及具有最多數(shù)據(jù)性質(zhì)的小類的數(shù)據(jù)性質(zhì),則很可能的是,第二本體中的類別的小類已經(jīng)被去規(guī)范化到第一本體中的類別中。存在以下可能的情形?!鲆粋€(gè)本體中的單個(gè)類別中的數(shù)據(jù)性質(zhì)映射至另一本體中的類別和一個(gè)或多個(gè)小類中的數(shù)據(jù)性質(zhì)?!鲱悇e和小類中的數(shù)據(jù)性質(zhì)匹配另一本體中的類別和一些小類中的數(shù)據(jù)性質(zhì)。在第一種情況下,通過考慮第一本體類別的數(shù)據(jù)性質(zhì)與由第二本體中的類別+小類別組成的每一對(duì)的數(shù)據(jù)性質(zhì)的匹配來執(zhí)行數(shù)據(jù)性質(zhì)計(jì)數(shù)。例如,本體1中的公司不具有子類,并且本體2中具有2個(gè)子類。如果分析具有公司+上市公司(2)的公司(1)的數(shù)據(jù)性質(zhì),則示出數(shù)據(jù)性質(zhì)的數(shù)量匹配,但并不是所有的含義匹配。分析具有公司+未上市公司(B)的公司(A)的數(shù)據(jù)性質(zhì),示出數(shù)據(jù)性質(zhì)的數(shù)量和含義匹配。這可以被加標(biāo)簽為‘不同的規(guī)范化’,并且被分配匹配值MV=1.0。因?yàn)樯鲜泄竞臀瓷鲜泄緸橥?,所以可以推斷上市公司是本體2中的加強(qiáng),因此其可以被加標(biāo)簽為‘加強(qiáng)’,并且匹配值通過以下方式計(jì)算:用匹配的數(shù)據(jù)性質(zhì)的數(shù)量的兩倍除以數(shù)據(jù)性質(zhì)的總數(shù)量。MVi=2*N(A∩B)/(N(A)+N(B))其中N()是用以產(chǎn)生概念A(yù)、B和A∩B中的數(shù)據(jù)性質(zhì)的數(shù)量的函數(shù)。該方法可以推廣至兩個(gè)類別具有不同數(shù)量的子類的的情形。該情形可以被加標(biāo)簽為‘加強(qiáng)可能’,并且為所涉及的每一類別給出單個(gè)加強(qiáng)ID。多類別映射的另一情況是當(dāng)類別已經(jīng)被以不同方式規(guī)范化時(shí)。例如,車輛類別可以被劃分成小類,例如(運(yùn)動(dòng)型多用途車、轎車、轎跑、敞篷車),或者其可以按照制造商被劃分成小類(雪鐵龍、標(biāo)致、菲亞特、羅孚)。因此,兩個(gè)車輛本體可以以不同方式解析數(shù)據(jù)性質(zhì)。然而,兩個(gè)本體中的車輛的屬性將是相同的。在通常情況下,如果一組數(shù)據(jù)性質(zhì)被分配至來自兩個(gè)本體的一組小類,并且每一本體中的小類是不同的,但是定義這些類別的這組數(shù)據(jù)性質(zhì)是相同的或非常類似的,則定義的小類之間存在多對(duì)多映射。該情形也被加標(biāo)簽為‘加強(qiáng)可能’,并且為所涉及的每一類別給出單個(gè)加強(qiáng)ID。該步驟未計(jì)算MV,因此MV5A=MV4A=0.9583。PMP分辨率涉及通過識(shí)別存儲(chǔ)在表格中的去規(guī)范化類別識(shí)別推定本體中的額外類別,并且引起本體的重大加強(qiáng),所述加強(qiáng)來自所述本體。對(duì)每一PMP集合標(biāo)識(shí)符進(jìn)行分析,以確定其至如上所述的類型結(jié)構(gòu)或BOM結(jié)構(gòu)的映射。這些一般映射至圖19A中示出的ERA圖的一些布置,如通過僅映射該圖中具有匹配結(jié)構(gòu)性關(guān)系的對(duì)象性質(zhì)進(jìn)行確定。來自數(shù)據(jù)性質(zhì)實(shí)例的提取的類別的實(shí)例在表14至表17中示出。在確定映射后,生成在BOM結(jié)構(gòu)中捕獲的去規(guī)范化本體是相對(duì)簡(jiǎn)單的事物。然后可以通過基于如前面所描述的類別的語義含義返回低等級(jí)類別匹配的步驟對(duì)該生成的本體組件進(jìn)行對(duì)準(zhǔn)。在該步驟中,從BOM分析生成的類別將添加至適當(dāng)?shù)淖钚∮成?。該步驟中未計(jì)算MV,因?yàn)槠湟鸱祷刂恋偷燃?jí)類別匹配的步驟以及對(duì)新識(shí)別的類別的MV值的重新計(jì)算。在此之后,執(zhí)行加強(qiáng)分析,其中對(duì)在多類別映射過程中識(shí)別的每一加強(qiáng)_ID進(jìn)行分析,以確定來自兩個(gè)本體的小類集合是否匹配或包含同胞。例如,本體1類別組織可能具有小類社團(tuán)和公司。本體2包含半官方機(jī)構(gòu)、社團(tuán)和公司。半官方機(jī)構(gòu)是本體2中的同胞,但是未在本體1中出現(xiàn)。與其說半官方機(jī)構(gòu)不與任何東西對(duì)準(zhǔn),還不如將其識(shí)別成是對(duì)本體1的加強(qiáng)。在可以應(yīng)用加強(qiáng)之前,將有必要確定是否已經(jīng)通過分析社團(tuán)和公司的數(shù)據(jù)性質(zhì)來將半官方機(jī)構(gòu)非規(guī)范化到其它小類中的一個(gè)中。假定類別滿足將被添加作為同胞的標(biāo)準(zhǔn),應(yīng)可以確保在該階段中包含類別和小類的最小映射是相同的。該步驟中未計(jì)算新的MV。每一同胞保留其當(dāng)前MV??梢酝ㄟ^分配為1.0的當(dāng)前MV至被識(shí)別為同胞的組件而將該MV小倍數(shù)地升高。在所有類別被解析且加強(qiáng)完成后,任何重大重構(gòu)應(yīng)已經(jīng)發(fā)生,并且因此可以對(duì)最小映射進(jìn)行解析。如果將加強(qiáng)添加到前一部分中,則發(fā)生進(jìn)一步重構(gòu)。這些事實(shí)將引起改進(jìn)的最小映射。使用MV7<MVAT的對(duì)準(zhǔn),閾值將被拒絕。MVAT是有關(guān)對(duì)準(zhǔn)的匹配閾值。下一步驟是應(yīng)用冗余識(shí)別模式,以使得在每一最小映射內(nèi),冗余性、不相交性和歸類性得到確定。這將已經(jīng)主要由前面的步驟執(zhí)行。在已經(jīng)充分處理最小映射后,將所述最小映射與其類別一起記錄成一組RDF三元組。最后,必須通過查詢上面生成的RDF三元組將最小映射組裝成單個(gè)映射。這將是發(fā)現(xiàn)具有可接受的閾值的對(duì)準(zhǔn)的所有類別的圖??赡艽嬖谖磳?duì)準(zhǔn)的項(xiàng)目。使用累積的匹配公式,最終匹配值MV8=0.9375。使用線性匹配公式,MV=(1*.5+2*1+3*1)/(1+2+3)=5.5/6=0.9167。示例性對(duì)準(zhǔn)索引在表18中示出,該表示出有關(guān)上面所描述的示例性本體的對(duì)準(zhǔn)映射。已經(jīng)通過對(duì)準(zhǔn)對(duì)和步驟編號(hào)對(duì)結(jié)果排順序,以強(qiáng)調(diào)各種算法的效果。實(shí)際上,它將按照#順序(第1列)執(zhí)行。表18然后可以執(zhí)行合并過程,以產(chǎn)生合并本體1906,盡管這是任選的并且將取決于優(yōu)選的實(shí)現(xiàn)方式。如果用戶決定合并本體,那么需要做出多個(gè)決定,包括:■確定合并本體是否應(yīng)為本體1合并到本體2中,或本體2合并到本體1中,或者是否應(yīng)該為合并本體給定新的URI。這些情況在圖19D和圖19E中概略地示出?!鲞x擇MVMT作為合并的匹配閾值。一般而言,MVMT將低于MVAT,因?yàn)榭赡馨▽?shí)際上不對(duì)準(zhǔn)的相關(guān)類別?!鋈绻麑⒉粫?huì)對(duì)類別進(jìn)行合并,那么將要求做出以下決定:是否應(yīng)將類別中的二者、兩個(gè)都不或者僅一個(gè)包括在合并本體中。這可以被指定為規(guī)則,或者指定為‘請(qǐng)求’,在這種情況下合并過程將暫停,以允許用戶決定操作?!鍪欠駪?yīng)該將未發(fā)現(xiàn)對(duì)準(zhǔn)的類別添加至合并本體?例如,如果本體1由類別A、B組成,并且本體2由類別B、C組成,其中B是一組對(duì)準(zhǔn)的類別,那么合并本體應(yīng)該是A、B、C或者A、B或者B、C或者僅B?在已經(jīng)確定合并的參數(shù)后,那么合并兩個(gè)本體的類別、數(shù)據(jù)性質(zhì)和對(duì)象性質(zhì)是簡(jiǎn)單的事物。任何數(shù)據(jù)性質(zhì)實(shí)例將保留其原始URI,除非另有規(guī)定。因此,如果對(duì)準(zhǔn)的類別具有每一本體中的實(shí)例數(shù)據(jù),那么單個(gè)合并的類別將保留來自兩個(gè)本體的實(shí)例。一般而言,與對(duì)準(zhǔn)器模塊的用戶交互將用于控制對(duì)準(zhǔn)過程的目的。第一步驟是加載配置文件,所述配置文件指定將在對(duì)準(zhǔn)和合并過程中使用的參數(shù)。存在可以進(jìn)行設(shè)置的多個(gè)元數(shù)據(jù)參數(shù)。這些包括:■將對(duì)準(zhǔn)的本體的URI。■用于存儲(chǔ)對(duì)準(zhǔn)映射的位置?!鲇糜诖鎯?chǔ)合并本體的位置。■有關(guān)對(duì)準(zhǔn)的匹配閾值MVAT。■有關(guān)合并的匹配閾值MVMT。■用于在低等級(jí)類別匹配期間接受相同性的匹配質(zhì)量?!鋈芜x地使用已知對(duì)準(zhǔn)預(yù)加載對(duì)準(zhǔn)表?!鰧⒃诿恳环治霾襟E應(yīng)用的權(quán)重。這些可以通過機(jī)器學(xué)習(xí)算法進(jìn)行確定。■在合并過程中是否暫停過程以允許有關(guān)合并的用戶輸入■最大運(yùn)行時(shí)間?!鲥e(cuò)誤和日志信息的冗長(zhǎng)性?!龅鹊?。用戶然后運(yùn)行或安排過程。如果指定對(duì)用戶輸入的暫停,那么用戶根據(jù)要求提供輸入,并且利用通常由瀏覽器模塊顯示的屏幕進(jìn)行提供。當(dāng)過程完成時(shí),用戶檢查:■產(chǎn)生的報(bào)告,該報(bào)告給出對(duì)以下的統(tǒng)計(jì):-每一本體中輸入類別的數(shù)量;-對(duì)準(zhǔn)的類別的數(shù)量;-識(shí)別的PMP的數(shù)量;-擴(kuò)展的PMP的數(shù)量;-從PMP擴(kuò)展的類別的數(shù)量;-從PMP擴(kuò)展的數(shù)據(jù)性質(zhì)實(shí)例的數(shù)量;-最大和最小匹配值;-合并的類別的數(shù)量;-合并本體中的類別數(shù)量;-合并本體中的數(shù)據(jù)實(shí)例的數(shù)量;-等等;■評(píng)估錯(cuò)誤、警告和信息報(bào)文的運(yùn)行時(shí)日志?;谠撔畔?,用戶決定接受對(duì)準(zhǔn)或合并,或者改變配置參數(shù)中的一些并重新安排過程。因此,上述過程允許用戶與本體交互,以執(zhí)行包括瀏覽、刪減和對(duì)準(zhǔn)本體的多種任務(wù)。這些過程可能使用多種模塊,并且允許執(zhí)行操作,諸如確定包括推定本體和正式本體的本體之間的映射,這可能被繼而用于映射源數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)結(jié)構(gòu),以用于促進(jìn)源數(shù)據(jù)存儲(chǔ)與目標(biāo)數(shù)據(jù)存儲(chǔ)之間的內(nèi)容傳遞。在本說明書和隨后的權(quán)利要求書的全文中,除非上下文另外要求,措詞“包括”以及諸如“包含”等的變化形式應(yīng)理解為暗示包括所述整數(shù)或整數(shù)組或步驟,但不排除任何其它的整數(shù)或整數(shù)組。本領(lǐng)域技術(shù)人員應(yīng)了解,眾多變化和修改將變得明顯。對(duì)本領(lǐng)域技術(shù)人員將變得明顯的所有所述變化和修改應(yīng)被視為在先前所描述的廣義地出現(xiàn)的本發(fā)明的精神和范圍內(nèi)。當(dāng)前第1頁1 2 3