一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法
【專利摘要】本發(fā)明公開了一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法,包括:獲得JSON對(duì)象的數(shù)據(jù)交換格式并基于對(duì)象鍵值對(duì)進(jìn)行解析,獲得三元組及三元組中數(shù)據(jù)對(duì)象的唯一標(biāo)識(shí);根據(jù)唯一標(biāo)識(shí),將三元組映射為本體及實(shí)例,得到本體分類體系及多個(gè)本體數(shù)據(jù)集合。本發(fā)明解決了現(xiàn)有技術(shù)中Web內(nèi)容的結(jié)構(gòu)化標(biāo)簽需要手工創(chuàng)建以及Web數(shù)據(jù)交換無法自動(dòng)轉(zhuǎn)換成語義網(wǎng)結(jié)構(gòu)化數(shù)據(jù)的問題。
【專利說明】—種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)交換【技術(shù)領(lǐng)域】,尤其涉及一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法及系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)前Web數(shù)據(jù)的結(jié)構(gòu)化研究主要有微格式(Microformat)、微數(shù)據(jù)(Microdata)、資源描述框架的屬性(Resource Description Framework in Attributes, RDFa)。其中,Microformat通過重用現(xiàn)有的超文本標(biāo)記語言(HTML) /可擴(kuò)展超文本標(biāo)識(shí)語言(XHTML)標(biāo)簽或Web頁面的某些屬性來傳送元數(shù)據(jù),標(biāo)注事件、人物、地點(diǎn)等內(nèi)容。Microdata是第五代超文本標(biāo)記語言(HTML5)的子集,是Web內(nèi)容語義描述的一種規(guī)范。Microdata標(biāo)簽格式用于機(jī)器對(duì)網(wǎng)頁資料的語義解析和理解。RDFa是W3C推薦用來在HTML、XHTML以及其它基于XML的文檔中嵌入元數(shù)據(jù)的一種框架,元數(shù)據(jù)通過屬性的方式實(shí)現(xiàn)的。
[0003]Microformat、Microdata、RDFa都是對(duì)Web內(nèi)容進(jìn)行結(jié)構(gòu)化標(biāo)記的方式,用于人機(jī)對(duì)Web數(shù)據(jù)的理解,這三種Web語義化技術(shù)主要針對(duì)已有的頁面內(nèi)容的增強(qiáng),其缺點(diǎn)在于:需要頁面制作者在創(chuàng)建頁面時(shí)添加,不利于Web數(shù)據(jù)結(jié)構(gòu)化的自動(dòng)化處理。
[0004]同時(shí),除Web內(nèi)容的結(jié)構(gòu)化標(biāo)簽外,語義網(wǎng)技術(shù)也用于Web內(nèi)容結(jié)構(gòu)化知識(shí)的構(gòu)建,已有的研究集中于語義數(shù)據(jù)的數(shù)據(jù)傳輸解析方式的研究,如基于JavaScript表示和傳輸互聯(lián)數(shù)據(jù)的方法(JavaScript Object Notation for Linked Data, JS0N-LD)提供了語義結(jié)構(gòu)數(shù)據(jù)向數(shù)據(jù)交換格式的映射標(biāo)準(zhǔn),將關(guān)聯(lián)數(shù)據(jù)(Linked Data)轉(zhuǎn)化為JavaScript對(duì)象表示法(JavaScript Object Notation, JS0N)作數(shù)據(jù)交換,但是缺少數(shù)據(jù)交換格式向語義網(wǎng)結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換,因此也需要一種將Web數(shù)據(jù)交換格式抽取為語義增強(qiáng)數(shù)據(jù)的機(jī)制,擴(kuò)充數(shù)據(jù)的語義內(nèi)涵,便于數(shù)據(jù)基于語義的自動(dòng)化應(yīng)用。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例的目的在于提供一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法及系統(tǒng),可以解決現(xiàn)有技術(shù)中Web內(nèi)容的結(jié)構(gòu)化標(biāo)簽需要手工創(chuàng)建以及Web數(shù)據(jù)交換無法自動(dòng)轉(zhuǎn)換成語義網(wǎng)結(jié)構(gòu)化數(shù)據(jù)的問題。
[0006]一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法,其特征在于,其在Web服務(wù)對(duì)于應(yīng)用的數(shù)據(jù)請(qǐng)求返回JSON對(duì)象上實(shí)現(xiàn),所述方法包括:
[0007]獲得所述JSON對(duì)象的數(shù)據(jù)交換格式,JSON對(duì)象,包括key-value值對(duì),其中key為字符串,value為數(shù)據(jù)內(nèi)容、數(shù)組或?qū)ο?,?shù)據(jù)內(nèi)容包括字符串、數(shù)值或布爾值,數(shù)組包括數(shù)據(jù)內(nèi)容數(shù)組或?qū)ο髷?shù)組;將所述獲得的JSON對(duì)象的數(shù)據(jù)交換格式基于對(duì)象鍵值對(duì)進(jìn)行解析,使得所述對(duì)象鍵值對(duì)中嵌套的鍵值元素解析為三元組,并確定所述解析獲得的三元組中數(shù)據(jù)對(duì)象的唯一標(biāo)識(shí);
[0008]采用主謂賓〈S,P, o>的形式形成初始化的三元組數(shù)據(jù)集合;s表示主語,P表示謂語,O表不賓語;[0009]主語s:s對(duì)應(yīng)為JSON中的對(duì)象,在三元組中,對(duì)象通過唯一標(biāo)識(shí)符表示;
[0010]謂語P:p對(duì)應(yīng)為JSON中的key鍵;p包括數(shù)據(jù)屬性和對(duì)象屬性;
[0011]賓語ο:0對(duì)應(yīng)為JSON中key鍵所指向的value,ο包括數(shù)據(jù)內(nèi)容和對(duì)象(數(shù)組被分解為多個(gè)數(shù)據(jù)內(nèi)容),數(shù)據(jù)內(nèi)容包括數(shù)據(jù)的值以及數(shù)據(jù)類型;
[0012]最終生成的語義數(shù)據(jù)為OWL格式的文件,描述語法為XML/RDF、RDF/OWL、Turtle或Manchester ;
[0013]其中--類class對(duì)應(yīng)于JSON對(duì)象的抽象描述,類的實(shí)例為具體JSON對(duì)象,其為三元組中的S,O項(xiàng);屬性包括對(duì)象屬性和數(shù)據(jù)屬性,對(duì)應(yīng)于三元組中的P項(xiàng)。
[0014]最終生成的OWL格式的文件中其他的描述信息通過預(yù)定義規(guī)則推理而來,其他的描述信息包括類、屬性的約束、標(biāo)注附加信息或值域定義域。
[0015]實(shí)施本發(fā)明具有如下有益效果:
[0016]本發(fā)明實(shí)施例提出了一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取方法,能夠?qū)崿F(xiàn)Web數(shù)據(jù)的語義化標(biāo)注,將JSON數(shù)據(jù)重構(gòu)為標(biāo)準(zhǔn)的語義網(wǎng)數(shù)據(jù),應(yīng)用于語義推理計(jì)算,本發(fā)明實(shí)施例的方法具有良好的適應(yīng)性和擴(kuò)展性,能夠?qū)Σ煌臄?shù)據(jù)資源進(jìn)行語義處理,并實(shí)現(xiàn)相關(guān)領(lǐng)域數(shù)據(jù)的語義融合。
【具體實(shí)施方式】
[0017]本文提出的方法利用JSON數(shù)據(jù)交換格式中數(shù)據(jù)對(duì)象鍵值對(duì)嵌套的特性,逐層抽取Web數(shù)據(jù)的屬性,對(duì)屬性進(jìn)行語義擴(kuò)充形成具有語義約束的結(jié)構(gòu)化語義描述,并利用語義網(wǎng)技術(shù)對(duì)元數(shù)據(jù)和數(shù)值進(jìn)行建模,最終形成本體模型和實(shí)例,方法的整體框架如圖1所
/Jn ο
`[0018]圖1Web數(shù)據(jù)交換格式的語義抽取方法框架
[0019]處理過程的關(guān)鍵技術(shù)
[0020].JSON 解析
[0021]Web服務(wù)對(duì)于應(yīng)用的數(shù)據(jù)請(qǐng)求返回JSON對(duì)象,方法首先對(duì)傳輸?shù)臄?shù)據(jù)基于鍵值對(duì)進(jìn)行解析,將嵌套的鍵值元素解析為三元組集合。JSON解析是語義抽取的預(yù)處理過程,解析內(nèi)容包括數(shù)據(jù)對(duì)象的關(guān)鍵詞和值內(nèi)容,其中對(duì)于不同的值數(shù)據(jù)根據(jù)值類型進(jìn)行解析,對(duì)于值中嵌套的數(shù)據(jù)對(duì)象和數(shù)組等數(shù)據(jù)結(jié)構(gòu)進(jìn)行迭代解析。三元組由主謂賓數(shù)據(jù)<s,P, o>組成,分別表示數(shù)據(jù)對(duì)象、數(shù)據(jù)屬性、數(shù)據(jù)值,其中數(shù)據(jù)值也可能是關(guān)鍵詞對(duì)應(yīng)的其他數(shù)據(jù)對(duì)象。在實(shí)際解析中,為節(jié)省數(shù)據(jù)存儲(chǔ)量,數(shù)據(jù)對(duì)象采用唯一標(biāo)識(shí)表示。
[0022]JSON解析和語義映射實(shí)現(xiàn)了初始化的本體,本質(zhì)上是將二元的Web數(shù)據(jù)轉(zhuǎn)化為三元的語義數(shù)據(jù),將數(shù)據(jù)對(duì)象顯示的表現(xiàn)為節(jié)點(diǎn)描述,并實(shí)現(xiàn)對(duì)關(guān)聯(lián)關(guān)系的語義描述。JSON解析后的原始的三元組信息是鍵值關(guān)系的直接映射,數(shù)據(jù)語義粒度粗,但便于進(jìn)一步的語義處理,并且解析后的數(shù)據(jù)對(duì)象采用唯一標(biāo)識(shí)表示,數(shù)據(jù)對(duì)象的原始文本信息通過數(shù)據(jù)詞典存儲(chǔ)。
[0023]?語義映射
[0024]JSON解析后的數(shù)據(jù)以三元組形式存儲(chǔ),這與RDF的Turtle語法類似,便于采用語義網(wǎng)技術(shù)對(duì)數(shù)據(jù)進(jìn)行語義建模。語義映射將三元組集合進(jìn)一步解析為本體和關(guān)聯(lián)的實(shí)例,本體是對(duì)數(shù)據(jù)對(duì)象的元數(shù)據(jù)抽取,形成與JSON數(shù)據(jù)集相關(guān)的類和關(guān)聯(lián)屬性的集合。類是對(duì)數(shù)據(jù)對(duì)象概念的抽象描述,關(guān)聯(lián)屬性是分為對(duì)象屬性和數(shù)據(jù)屬性,分別表示類與類、類與數(shù)據(jù)值之間的關(guān)聯(lián)。實(shí)例是對(duì)本體內(nèi)容的實(shí)現(xiàn),包括本體類的具體化實(shí)例、對(duì)象屬性和數(shù)據(jù)屬性的引用以及屬性賦值。本體和實(shí)例的實(shí)現(xiàn)都源自相同的三元組集合,語義映射后形成的本體集合保留了數(shù)據(jù)的語義信息以及數(shù)據(jù)之間的關(guān)聯(lián)信息。
[0025]語義映射增加了初始化的語義描述,為本體構(gòu)建語義鏈接前綴,為三元組數(shù)據(jù)增加數(shù)據(jù)屬性的確認(rèn),對(duì)本體全部的語義資源以唯一 URI的形式描述。在對(duì)本體和實(shí)例的具體實(shí)現(xiàn)上,我們采用類似于Freebase的表達(dá)模式和存儲(chǔ)模式。
[0026]?語義增強(qiáng)
[0027]目前生成的本體以及實(shí)例數(shù)據(jù)集合只是對(duì)不同的JSON數(shù)據(jù)集合淺層語義的提取,而沒有關(guān)注數(shù)據(jù)集合中隱藏的語義信息。語義增強(qiáng)處理在語義映射的基礎(chǔ)上對(duì)數(shù)據(jù)包含的潛在語義進(jìn)行深入的推理和挖掘,以豐富數(shù)據(jù)的語義信息量。
[0028]語義增強(qiáng)利用本體的推理能力對(duì)本體的公理描述進(jìn)行擴(kuò)充,發(fā)現(xiàn)本體概念、屬性中相關(guān)的聲明、約束,并根據(jù)本體的特點(diǎn)和預(yù)定義的語義增強(qiáng)規(guī)則為本體標(biāo)簽說明;然后將這些語義信息應(yīng)用到對(duì)應(yīng)的數(shù)據(jù)實(shí)例中。此外,語義增強(qiáng)還采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)和語義關(guān)聯(lián)技術(shù)增強(qiáng)語義數(shù)據(jù)自身的表達(dá)含義,對(duì)數(shù)據(jù)信息對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)網(wǎng)絡(luò)的補(bǔ)充,包元數(shù)據(jù)之間的層次關(guān)系、相關(guān)關(guān)系及潛在的關(guān)聯(lián)等。語義增強(qiáng)為數(shù)據(jù)提供了更多的附加信息,用于提升應(yīng)用對(duì)數(shù)據(jù)的理解和數(shù)據(jù)處理的自動(dòng)化程度。
[0029]籲本體融合
[0030]相同或相關(guān)領(lǐng)域多個(gè)數(shù)據(jù)對(duì)象的信息覆蓋是重疊的,相互補(bǔ)充能夠形成更加完善的知識(shí)體系,而JSON解析、語義映射以及語義增強(qiáng)都是針對(duì)不同的數(shù)據(jù)對(duì)象集合分別進(jìn)行的,因此需要對(duì)多個(gè)相互關(guān)聯(lián)的數(shù)據(jù)對(duì)象集合進(jìn)行融合。本體融合利用已構(gòu)建的多個(gè)本體模型進(jìn)行對(duì)齊合并,將冗余的、描述不一致的抽象概念和關(guān)系進(jìn)行了統(tǒng)一化,形成統(tǒng)一共享的數(shù)據(jù)語義模型,并在此基`礎(chǔ)上對(duì)數(shù)據(jù)實(shí)例進(jìn)行合并,形成相互依賴的知識(shí)圖譜。
[0031]本體融合在構(gòu)建各本體文件的基礎(chǔ)上,參考已有的外部本體資源,對(duì)不同層次不同來源的語義數(shù)據(jù)進(jìn)行對(duì)齊集成,建立概念術(shù)語與約束之間的對(duì)應(yīng),增強(qiáng)對(duì)領(lǐng)域數(shù)據(jù)的全局理解,提供統(tǒng)一的語義數(shù)據(jù)規(guī)范和集合。
[0032]最后,由工程人員用戶需要對(duì)生成的本體及實(shí)例集合進(jìn)行確認(rèn)、編輯和使用。
[0033]關(guān)鍵技術(shù)實(shí)現(xiàn)
[0034]我們主要應(yīng)用本體和語義網(wǎng)技術(shù)實(shí)現(xiàn)以上的處理過程,其中的關(guān)鍵步驟包括提取本體、生成實(shí)例和多本體融合。
[0035]提取本體
[0036]已有的本體提取方法多是在數(shù)據(jù)資源的基礎(chǔ)上的手工或半自動(dòng)化構(gòu)建,需要領(lǐng)域?qū)<业慕槿?,而且本體構(gòu)建的質(zhì)量依賴于專家的意見。骨架法、T0VE、METH0NT0L0GY等傳統(tǒng)的本體構(gòu)建方法并不適用于我們面臨的Web數(shù)據(jù)的語義知識(shí)構(gòu)建任務(wù)。而自動(dòng)化構(gòu)建根據(jù)數(shù)據(jù)資源質(zhì)量和表達(dá)方式的區(qū)別又可分為基于文本內(nèi)容的本體構(gòu)建方法和基于結(jié)構(gòu)化內(nèi)容的本體構(gòu)建方法,前者主要應(yīng)用自然語言處理、統(tǒng)計(jì)機(jī)器學(xué)習(xí)等技術(shù),針對(duì)數(shù)據(jù)資源以文本為主;后者主要應(yīng)用結(jié)構(gòu)化語義的理解和映射技術(shù),針對(duì)的數(shù)據(jù)資源有較好的結(jié)構(gòu)。本文針對(duì)的是Web數(shù)據(jù)資源,且具有良好的數(shù)據(jù)結(jié)構(gòu),其定義是由數(shù)據(jù)發(fā)布者提供的,數(shù)據(jù)規(guī)范易于結(jié)構(gòu)化處理,因此我們針對(duì)這些數(shù)據(jù)特點(diǎn)采用結(jié)構(gòu)化語義的自動(dòng)提取方法抽取本體。[0037]本體的抽取主要包括層次結(jié)構(gòu)的抽取和屬性的抽取。層次結(jié)構(gòu)指類-子類,是本體中概念的繼承關(guān)系。在以分類體系構(gòu)成為主的本體中,層次關(guān)系是本體抽取的關(guān)鍵,如taxonomy本體,以實(shí)現(xiàn)概念間的分類、互斥、概念覆蓋的完備以及屬性的繼承。屬性包括概念之間的相互關(guān)系以及關(guān)系的含義、概念自身的修飾參數(shù)值以及含義、概念和屬性的約束條件等。大多數(shù)本體的提取需要同時(shí)考慮以上兩點(diǎn),但本體抽取并不都已層次結(jié)構(gòu)的提取為主,在一些分類體系簡(jiǎn)單的應(yīng)用場(chǎng)景下,屬性語義的豐富程度是本體構(gòu)建的主要工作,如在一些基因本體中,采用扁平化分類的方式對(duì)大量的基因數(shù)據(jù)進(jìn)行本體描述,而沒有復(fù)雜的層次結(jié)構(gòu)分類。
[0038]本文自動(dòng)化抽取的JSON數(shù)據(jù)對(duì)象是在Web中基于特定應(yīng)用目的進(jìn)行數(shù)據(jù)交換的具體數(shù)據(jù),而不是相關(guān)應(yīng)用場(chǎng)景或領(lǐng)域的概覽,缺少完備的數(shù)據(jù)結(jié)構(gòu)體系。不能有效反應(yīng)整體的層次結(jié)構(gòu),但是局部數(shù)據(jù)通過數(shù)據(jù)融合能夠?qū)崿F(xiàn)豐富的屬性語義的抽取,因此,在本體抽取中,我們采用扁平化的分類體系,將關(guān)注的重點(diǎn)集中于概念、關(guān)系、約束條件的抽取,建立基于本體的語義網(wǎng)絡(luò)而不是基于樹結(jié)構(gòu)的本體分類體系。在提取中,我們采用三元組映射和重組三元組的方法首先將Web數(shù)據(jù)做初始化處理,然后利用RDF三元組的特性,將三元組轉(zhuǎn)化為OWL描述的本體資源,OffL語法可根據(jù)需要選擇XML/RDF、RDF/OWL、Turtle等。
[0039]生成實(shí)例
[0040]實(shí)例是本體中概念、屬性的實(shí)現(xiàn),指本體中概念描述的具體應(yīng)用、與其他概念的關(guān)聯(lián)以及數(shù)據(jù)屬性的賦值。在通常的本體構(gòu)建步驟中,首先需要有本體概念模型的描述,然后根據(jù)本體中的概念、屬性描述匹配實(shí)例的上下文,最終生成本體概念的實(shí)例,匹配方法例如多屬性的匹配,知識(shí)網(wǎng)絡(luò)的關(guān)聯(lián)推理、概念描述的相似性匹配等。本文基于Web數(shù)據(jù)的本體實(shí)例生成也遵循一般的過程,在本體概念描述的基礎(chǔ)上完成實(shí)例和概念、屬性的匹配。Web數(shù)據(jù)本身即數(shù)據(jù)的實(shí)例,因此在對(duì)數(shù)據(jù)實(shí)例進(jìn)行本體匹配時(shí)可直接根據(jù)數(shù)據(jù)對(duì)象自身的描述而不需要進(jìn)行關(guān)聯(lián)分析和多屬性的匹配計(jì)算。匹配成功的實(shí)例通過JSON解析中使用的唯一標(biāo)識(shí)最為生成實(shí)例的標(biāo)識(shí),并通過此標(biāo)識(shí)實(shí)現(xiàn)與其他實(shí)例的屬性關(guān)聯(lián)。
[0041]多本體融合
[0042]在對(duì)Web數(shù)據(jù)資源批量處理時(shí),會(huì)產(chǎn)生多個(gè)獨(dú)立的本體數(shù)據(jù)集合,每個(gè)數(shù)據(jù)集合對(duì)應(yīng)著一種特定的應(yīng)用任務(wù),這些本體的覆蓋范圍不同,彼此之間存在多方面的不一致性,而這些本體之間又存在著數(shù)據(jù)和屬性的對(duì)應(yīng)關(guān)聯(lián),因此需要本體融合技術(shù)進(jìn)行本體數(shù)據(jù)的集成。本體融合將不同本體間存在語義映射的概念、屬性進(jìn)行標(biāo)記,根據(jù)各本體概念、屬性間的語義相似性融合直接語義映射的概念、屬性,并建立其他具有語義相似和語義關(guān)聯(lián)的概念、屬性間的連接,形成基于多本體數(shù)據(jù)重用和互操作的統(tǒng)一本體模型。本體對(duì)齊是多本體融合的關(guān)鍵,通過對(duì)齊能夠?qū)崿F(xiàn)多本體概念屬性間的語義映射。根據(jù)Web數(shù)據(jù)的發(fā)布特點(diǎn),同一數(shù)據(jù)發(fā)布者的多個(gè)數(shù)據(jù)集合應(yīng)遵循相同的數(shù)據(jù)發(fā)布規(guī)范和統(tǒng)一的數(shù)據(jù)模型,這為多本體融合提供了便利。作為多本體融合的初步實(shí)現(xiàn),我們首先對(duì)多本體中具有相同上下文的概念、屬性直接語義映射,其中概念的匹配需要領(lǐng)域詞典和同義詞詞典的支持,然后利用語義映射匹配的局部本體描述將多本體合并為一個(gè)本體。本質(zhì)上,這是一種基于局部本體對(duì)齊的本體一致性擴(kuò)展。
[0043]作為多本體融合的初步實(shí)現(xiàn),我們首先對(duì)多本體中具有相同上下文的概念、屬性直接語義映射,其中概念的匹配需要領(lǐng)域詞典和同義詞詞典的支持,然后利用語義映射匹配的局部本體描述將多本體合并為一個(gè)本體。本質(zhì)上,這是一種基于局部本體對(duì)齊的本體一致性擴(kuò)展。
[0044]數(shù)據(jù)樣例如下:
[0045]一.數(shù)據(jù)源:jason_wood.json 文件。
[0046]二.中間處理結(jié)果(初始化的三元組數(shù)據(jù)):jason_wood.tri文件。
[0047]三.最終生成的語義數(shù)據(jù):jason_wood.0wl文件。
[0048]一.數(shù)據(jù)源(數(shù)據(jù)處理對(duì)象)
[0049]采用JSON結(jié)構(gòu),key-value值對(duì),key為字符串,value為數(shù)組,對(duì)象(詞典),字符串,數(shù)值(整數(shù)、小數(shù)等),布爾類型等。
[0050]以下為jason_wood.json文件的片段。
[0051]
【權(quán)利要求】
1.一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法,其特征在于,其在Web服務(wù)對(duì)于應(yīng)用的數(shù)據(jù)請(qǐng)求返回JSON對(duì)象上實(shí)現(xiàn),所述方法包括: 獲得所述JSON對(duì)象的數(shù)據(jù)交換格式,JSON對(duì)象,包括key-value值對(duì),其中key為字符串,value為數(shù)據(jù)內(nèi)容、數(shù)組或?qū)ο?,?shù)據(jù)內(nèi)容包括字符串、數(shù)值或布爾值,數(shù)組包括數(shù)據(jù)內(nèi)容數(shù)組或?qū)ο髷?shù)組;將所述獲得的JSON對(duì)象的數(shù)據(jù)交換格式基于對(duì)象鍵值對(duì)進(jìn)行解析,使得所述對(duì)象鍵值對(duì)中嵌套的鍵值元素解析為三元組,并確定所述解析獲得的三元組中數(shù)據(jù)對(duì)象的唯一標(biāo)識(shí); 采用主謂賓<s,P, o>的形式形成初始化的三元組數(shù)據(jù)集合;s表示主語,P表示謂語,O表示賓語; 主語S:s對(duì)應(yīng)為JSON中的對(duì)象,在三元組中,對(duì)象通過唯一標(biāo)識(shí)符表示; 謂語P =P對(duì)應(yīng)為JSON中的key鍵;p包括數(shù)據(jù)屬性和對(duì)象屬性; 賓語ο:0對(duì)應(yīng)為JSON中key鍵所指向的value,ο包括數(shù)據(jù)內(nèi)容和對(duì)象,數(shù)組被分解為多個(gè)數(shù)據(jù)內(nèi)容,數(shù)據(jù)內(nèi)容包括數(shù)據(jù)的值以及數(shù)據(jù)類型; 最終生成的語義數(shù)據(jù)為OWL格式的文件,描述語法為XML/RDF、RDF/OWL、Turtle或Manchester ; 其中 類class對(duì)應(yīng)于JSON對(duì)象的抽象描述,類的實(shí)例為具體JSON對(duì)象,其為三元組中的S,ο項(xiàng);屬性包括對(duì)象屬性和數(shù)據(jù)屬性,對(duì)應(yīng)于三元組中的P項(xiàng)。
2.根據(jù)權(quán)利要求1所述的一種面向Web數(shù)據(jù)交換的自動(dòng)語義抽取的方法,其特征在于: 最終生成的OWL格式的文件中其他的描述信`息通過預(yù)定義規(guī)則推理而來,其他的描述信息包括類、屬性的約束、標(biāo)注附加信息或值域定義域。
【文檔編號(hào)】G06F17/30GK103886046SQ201410088790
【公開日】2014年6月25日 申請(qǐng)日期:2014年3月11日 優(yōu)先權(quán)日:2014年3月11日
【發(fā)明者】姚原崗, 劉暉, 易錦, 陳海強(qiáng), 趙向輝, 李維杰, 偰賡, 劉林, 張磊 申請(qǐng)人:中國(guó)信息安全測(cè)評(píng)中心