基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法
【專利摘要】基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,本發(fā)明涉及數(shù)據(jù)空間建模方法。本發(fā)明的目的是為了解決現(xiàn)有方法存在以下缺陷:1)上下文感知性較弱;2)語義關(guān)系表達(dá)能力弱;3)語義關(guān)聯(lián)推理能力弱。通過以下技術(shù)方案實現(xiàn)的:步驟一、構(gòu)建一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN;步驟二、根據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的解釋對象;步驟三、根據(jù)上下文感知的解釋對象得出上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義關(guān)聯(lián);步驟四、根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義關(guān)聯(lián)得出語義關(guān)聯(lián)推理規(guī)則。本發(fā)明應(yīng)用于數(shù)據(jù)空間建模領(lǐng)域。
【專利說明】
基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設(shè)及數(shù)據(jù)空間建模方法。
【背景技術(shù)】
[0002] 數(shù)據(jù)管理是數(shù)據(jù)庫社區(qū)的一個重要的長期目標(biāo)。然而,管理多樣化數(shù)據(jù)的需求隨 著時間和應(yīng)用不斷發(fā)生變化。目前,在越來越多的數(shù)據(jù)管理場景中(如企業(yè)與政府?dāng)?shù)據(jù)管 理、數(shù)字圖書館、個人信息管理W及科學(xué)數(shù)據(jù)管理等),數(shù)據(jù)源呈現(xiàn)高度異構(gòu)且松散關(guān)聯(lián)特 點。由于不同數(shù)據(jù)源中結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)相互影響、相互作用,因此,W-種 便捷的、集成的W及可指導(dǎo)的方式管理運(yùn)些數(shù)據(jù)已經(jīng)成為一項重大的挑戰(zhàn)性任務(wù)。為此,數(shù) 據(jù)空間W-種愿景的方式被提出,并作為一種新的數(shù)據(jù)管理抽象。它倡導(dǎo)W增量、pay-as- you-go 方式數(shù)據(jù)集成并且能夠?qū)?多)個實體之間的任意關(guān)系進(jìn)行建模。目前,數(shù)據(jù)空間 建模是數(shù)據(jù)空間中最重大挑戰(zhàn)之一。因此提出一種能夠良好地表示異構(gòu)、相互關(guān)聯(lián)的數(shù)據(jù) 源的通用模型具有重要意義。目前,在數(shù)據(jù)空間社區(qū)中,已有的數(shù)據(jù)空間模型研究工作可W 劃分為兩類:采用重構(gòu)式思想或者分解式思想。前者把數(shù)據(jù)源中結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu) 化信息塊封裝在一起,如iDM模型、1曲M模型、解釋對象模型(IOM)等,而后者則把數(shù)據(jù)源分 解為一系列單元,即最小的信息塊,如S元組數(shù)據(jù)模型(TDM)等。然而,運(yùn)兩類方法都過分強(qiáng) 調(diào)異構(gòu)數(shù)據(jù)源的表示,卻忽略W下方面:1)上下文感知信息表示。例如,在不同上下文條件 下,呈現(xiàn)不同刻面的實體信息與語義關(guān)聯(lián);2)復(fù)雜語義關(guān)系表示。例如,設(shè)及上下文依賴和 多數(shù)據(jù)源的語義關(guān)系;3)語義關(guān)聯(lián)推理。例如,支持從已有語義關(guān)系派生出隱含語義關(guān)系的 推理規(guī)則。為了便于理解,本小節(jié)通過一個案例研究闡述傳統(tǒng)的IOM模型的缺陷,并引出本 文的研究問題。與傳統(tǒng)數(shù)據(jù)管理不同的是,數(shù)據(jù)空間具有W下特征:1)異構(gòu)性和普遍性。數(shù) 據(jù)空間包含大量的、多樣化數(shù)據(jù)源,如文件、數(shù)據(jù)庫、Emails及網(wǎng)頁等。并且運(yùn)些數(shù)據(jù)源存儲 在各個地方,如個人計算機(jī)、企業(yè)與政府?dāng)?shù)據(jù)中屯、、電話等;2)上下文感知特性。在本文中, 實體(或?qū)ο?是最小的數(shù)據(jù)單元。在不同的上下文(如,時間上下文),實體信息和實體間的 語義關(guān)聯(lián)往往呈現(xiàn)不同的刻面。例如,W學(xué)術(shù)領(lǐng)域為例,在不同的時期,實體"Xin Luna Dong"撰寫得所有論文可能出現(xiàn)不同形式的名字(如,2008年之前為"Xin Dong" ,2011至 2013年期間為氣111 Luna Dong" ) ;3)語義關(guān)系的復(fù)雜性。傳統(tǒng)上,實體類級別關(guān)系的語義是 非常弱的。在數(shù)據(jù)空間中,由于關(guān)系是在實體級別構(gòu)建且一個關(guān)系可能設(shè)及到兩個或多個 實體,因此語義關(guān)系變得更加復(fù)雜。例如,上下文約束、順序約束、聚合約束及屬性約束等因 素可能進(jìn)一步增加數(shù)據(jù)空間語義關(guān)系的復(fù)雜性。4)語義關(guān)聯(lián)推理。除了直接關(guān)聯(lián)外,還存 在大量隱含關(guān)聯(lián),運(yùn)些關(guān)聯(lián)往往從常識或隱含規(guī)則中派生出來。注意,本章中后面將交互使 用"語義關(guān)聯(lián)"和"語義關(guān)系"?;诖?,我們將使用一個案例研究來說明目前數(shù)據(jù)空間建模 中最先進(jìn)方法IOM缺陷所導(dǎo)致的一些問題。假定在下面的案例研究中,我們期望表達(dá)關(guān)于發(fā) 表過程中的知識或者關(guān)系。
[0003] 實體^in Luna Dong" (2011-2013),其導(dǎo)師為Alon.Y.化levy且2001 至2007年期 間在University of Washington上學(xué)。在2006年11月19日前,她撰寫了一篇名叫"Indexing dataspace"的稿件,其中稿件的內(nèi)容是"Dataspace are col Iect ions…"且稿件中合作者 之一^in Dong"是她的名字。在2007年2月19日前,稿件被A址ai Doan(評審人名字是假定 的)評審并被要求小幅修改(注意:假定修改后內(nèi)容為"Dataspace are large col lections,)。之后,稿件被SIGMOD'07會議接收,因此^in Dong"被邀請出席該會議。 圖1展示了當(dāng)前最先進(jìn)模型(IOM模型)對應(yīng)的數(shù)據(jù)空間表示。具體來說,Person、 Conference ,Manuscript及University表示為實體或者解釋對象,它封裝了元數(shù)據(jù)信息和 數(shù)據(jù)信息。實體間的語義關(guān)聯(lián)通過含標(biāo)簽的有向邊表示,如authorOf ,reviewerOf ,and supervisorOf。注意,針對單個實體來說,其屬性可能有多值,例如,實體^in Luna Dong" 的屬性Name有兩個值(即^in 0〇叫"和^in Luna Dong")。此外,圖I中一些信息沒有列出 來,如,實體"Index化化space"內(nèi)容的兩個變體。從圖1中我們可能觀察到:已有的數(shù)據(jù)空 間建模工作主要側(cè)重于異構(gòu)實體(對象)的表示并且把實體看作為一等公民,然而,運(yùn)些方 法具有W下缺陷:1)上下文感知性較弱。圖中方法確實能夠統(tǒng)一地表示不同數(shù)據(jù)源中的結(jié) 構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化信息,但不適于表示多維信息,即不同上下文下呈現(xiàn)的不同刻 面。例如,對實體氣1]1 Luna Dong",其屬性Name有兩個值r'Xin 0〇叫"和氣;[]1 Luna Dong") 且在任何時候是共存的、等價的,但是運(yùn)種刻面信息(如,兩個值)依賴于不同的上下文,即, ^in Dong"在2008年出現(xiàn),而^in Luna Dong"在2011年至2013年出現(xiàn);2)語義關(guān)系表達(dá)能 力弱。從圖1中可知,語義關(guān)系是一種用于連接兩個實體的二元關(guān)系且由文本標(biāo)簽表示,然 而,現(xiàn)實世界中語義關(guān)系更加復(fù)雜,因為簡單語義關(guān)系并不總是常態(tài)而且可能設(shè)及多個實 體。例如,圖壞能反映案例研究中"發(fā)表過程"語義關(guān)系的整體語義;3)傳統(tǒng)方法只能掲示 直接關(guān)聯(lián)而無法支持語義關(guān)聯(lián)推理,如在實體Alon.Y.化levy、XinLunaDong、University of Washington中只存在兩種語義關(guān)聯(lián)sup ervisorOf and StudyIn,然而,在 Alon.Y.化levy和University of Washington可能存在facultyOf語義關(guān)聯(lián)。導(dǎo)致對關(guān)鍵詞 和語義關(guān)系的查詢準(zhǔn)確率低W及對關(guān)鍵詞查詢的平均響應(yīng)時間長。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是為了解決現(xiàn)有方法對關(guān)鍵詞和語義關(guān)系的查詢準(zhǔn)確率低W及對 關(guān)鍵詞查詢的平均響應(yīng)時間長的問題;而提出基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間 建模方法。
[0005] 上述的發(fā)明目的是通過W下技術(shù)方案實現(xiàn)的:
[0006] 步驟一、構(gòu)建一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型 C0SAN;步驟二、根據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的解釋對 象;步驟=、根據(jù)上下文感知的解釋對象得出上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義 關(guān)聯(lián);步驟四、根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義關(guān)聯(lián)得出語義關(guān)聯(lián)推理規(guī) 則。
[0007] 發(fā)明效果
[000引本發(fā)明在傳統(tǒng)的解釋對象模型(IOM)研究基礎(chǔ)上,提出了一種改進(jìn)的圖模型,即上 下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型(簡稱C0SAN)。首先,W案例研究的形式展示傳統(tǒng)IOM模 型的缺陷,從而引出本發(fā)明研究動機(jī);接著,引入上下文因素,把上下文信息與數(shù)據(jù)源的結(jié) 構(gòu)化信息、半結(jié)構(gòu)化信息及非結(jié)構(gòu)化信息統(tǒng)一封裝成上下文感知的解釋對象,從而表達(dá)上 下文感知的異構(gòu)信息;然后,通過一組約束組件(如上下文約束、順序約束和聚合約束等)擴(kuò) 展傳統(tǒng)的二元語義關(guān)系,從而表達(dá)復(fù)雜語義關(guān)系;此外,引入一組推理規(guī)則,W便可W從已 有的語義關(guān)系派生出隱含的語義關(guān)系。最后,通過在公開數(shù)據(jù)集DBLP上進(jìn)行了實驗,實驗驗 證了所提出的模型的有效性和可行性。使關(guān)鍵詞和語義關(guān)系的查詢準(zhǔn)確率高W及對關(guān)鍵詞 查詢的平均響應(yīng)時間短;如圖5所示,當(dāng)關(guān)鍵詞為Q2時,IOM方法平均準(zhǔn)確率為0.78,本發(fā)明 COSAN方法平均準(zhǔn)確率為0.92;關(guān)鍵詞的查詢準(zhǔn)確率提高了 18%,當(dāng)關(guān)鍵字為Q5時,IOM方法 平均準(zhǔn)確率為0.5,本發(fā)明COSAN方法平均準(zhǔn)確率為0.7;關(guān)鍵詞的查詢準(zhǔn)確率提高了40 % ; 如圖6所示,當(dāng)語義關(guān)系查詢?yōu)镽l時,IOM方法平均準(zhǔn)確率為0.83,本發(fā)明COSAN方法平均準(zhǔn) 確率為0.88;語義關(guān)系的查詢準(zhǔn)確率提高了6% ;當(dāng)語義關(guān)系查詢?yōu)镽3時,IOM方法平均準(zhǔn)確 率為0.56,本發(fā)明COSAN方法平均準(zhǔn)確率為0.76;語義關(guān)系的查詢準(zhǔn)確率提高了36% ;如圖 10所示,關(guān)鍵字查詢?yōu)镼2時,IOM方法的平均響應(yīng)時間為313,本發(fā)明COSAN方法的平均響應(yīng) 時間為286;對關(guān)鍵詞查詢的平均響應(yīng)時間縮短了27ms;當(dāng)關(guān)鍵字查詢?yōu)镼5時,IOM方法的平 均響應(yīng)時間為1040,本發(fā)明COSAN方法的平均響應(yīng)時間為850;對關(guān)鍵詞查詢的平均響應(yīng)時 間縮短了 190ms;
[0009] 為解決上面提到的問題或挑戰(zhàn),本發(fā)明提出了一種半結(jié)構(gòu)化的圖模型,稱之為 COSA飾莫型。在我們的模型中,主要考慮如下:
[0010] (1).不僅考慮結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一表示,還應(yīng)考慮上下文影響, 此外,當(dāng)表達(dá)簡單的二元語義關(guān)聯(lián)時,也應(yīng)考慮上下文,使上下文感知性強(qiáng)。
[0011] (2).傳統(tǒng)的數(shù)據(jù)空間模型過分強(qiáng)調(diào)實體表示,忽略了實體間復(fù)雜語義關(guān)系表示。 具體來說,本章通過一組約束集合進(jìn)行形式化表示,運(yùn)些約束集合表達(dá)了約束信息的不同 方面,從而掲示整體語義。此外,本章通過引入上下文、置信度之類的組件擴(kuò)展傳統(tǒng)二元語 義關(guān)聯(lián)的概念,使復(fù)雜語義關(guān)系表達(dá)能力更強(qiáng);
[0012] (3).引入一組規(guī)則來支持語義關(guān)聯(lián)推理。即,利用一些預(yù)定義的規(guī)則,我們可W從 直接語義關(guān)聯(lián)中派生出更豐富、隱含的語義關(guān)聯(lián),從而支持實體關(guān)聯(lián)網(wǎng)絡(luò)的不斷演化,具有 更強(qiáng)的語義推理能力。
[OOU]與已有的圖模型(如iDM,TDM和I0M)不同的是,本模型不僅強(qiáng)調(diào)現(xiàn)實世界實體的表 示,還強(qiáng)調(diào)邏輯實體(復(fù)雜多元語義關(guān)系)的表示。此外,通過引入推理規(guī)則的概念,語義關(guān) 聯(lián)本質(zhì)上是動態(tài)的。
[0014] 如圖5所示進(jìn)行上下文對效果的影響時,關(guān)鍵字為Q2時,IOM方法平均準(zhǔn)確率為 0.78,本發(fā)明COSAN方法平均準(zhǔn)確率為0.92;關(guān)鍵字為Q3時,IOM方法平均準(zhǔn)確率為0.72,本 發(fā)明COSAN方法平均準(zhǔn)確率為0.88 ;關(guān)鍵字為Q4時,IOM方法平均準(zhǔn)確率為0.65,本發(fā)明 COSAN方法平均準(zhǔn)確率為0.78;關(guān)鍵字為Q5時,IOM方法平均準(zhǔn)確率為0.5,本發(fā)明COSAN方法 平均準(zhǔn)確率為0.7;從圖5可知,COSA飾莫型效果明顯優(yōu)于IOM模型,運(yùn)是因為前者能夠很好地 表示上下文感知的對象W及上下文感知的語義關(guān)系,從而使得命中的節(jié)點、語義關(guān)聯(lián)更準(zhǔn) 確。另外,圖中可W觀察到一個有趣現(xiàn)象,當(dāng)查詢中關(guān)鍵詞個數(shù)比較大(如Q5),其準(zhǔn)確率增 益更加明顯。
[0015] 如圖6所示進(jìn)行不同復(fù)雜度的語義關(guān)系對效果的影響時,語義關(guān)系查詢?yōu)镽l時, IOM方法平均準(zhǔn)確率為0.83,本發(fā)明COSAN方法平均準(zhǔn)確率為0.88;語義關(guān)系查詢?yōu)镽2時, IOM方法平均準(zhǔn)確率為0.62,本發(fā)明COSAN方法平均準(zhǔn)確率為0.84;語義關(guān)系查詢?yōu)镽3時, IOM方法平均準(zhǔn)確率為O . 56,本發(fā)明COSAN方法平均準(zhǔn)確率為0.76;圖6中第一列表明,對于 基本的二元語義關(guān)系,本模型平均準(zhǔn)確率略優(yōu)于I0M,然而,對于復(fù)雜度更高的語義查詢來 說(如R2,R3),本模型顯著優(yōu)于基準(zhǔn)模型I0M,運(yùn)主要是由于本模型對多元復(fù)雜語義關(guān)系具 有強(qiáng)力的表達(dá)力,而IOM模型只能表達(dá)簡單的二元語義關(guān)系。
[0016] 如圖7所示進(jìn)行語義關(guān)聯(lián)推理對效果的影響時,關(guān)鍵字查詢?yōu)镼2時,IOM方法平均 準(zhǔn)確率為0.78,本發(fā)明COSAN方法平均準(zhǔn)確率為0.89;關(guān)鍵字查詢?yōu)镼3時,IOM方法平均準(zhǔn)確 率為0.72,本發(fā)明COSAN方法平均準(zhǔn)確率為0.84;關(guān)鍵字查詢?yōu)镼4時,IOM方法平均準(zhǔn)確率 為0.65,本發(fā)明COSAN方法平均準(zhǔn)確率為0.72;關(guān)鍵字查詢?yōu)镼5時,IOM方法平均準(zhǔn)確率為 0.5,本發(fā)明COSAN方法平均準(zhǔn)確率為0.65;從圖7可知,COSAN模型效果明顯優(yōu)于IOM模型,運(yùn) 是因為前者能夠很好地支持語義關(guān)聯(lián)推理,從而豐富實體間的語義關(guān)系。在某種意義上,減 少元組連接樹中一些不必要的邊和節(jié)點,可W使得應(yīng)答更加緊湊。
[0017] 如圖8所示進(jìn)行上下文對效率的影響時,關(guān)鍵字查詢?yōu)镼2時,IOM方法的平均響應(yīng) 時間為313,本發(fā)明COSAN方法的平均響應(yīng)時間為253;關(guān)鍵字查詢?yōu)镼3時,IOM方法的平均響 應(yīng)時間為509,本發(fā)明COSAN方法的平均響應(yīng)時間為348;關(guān)鍵字查詢?yōu)镼4時,IOM方法的平均 響應(yīng)時間為811,本發(fā)明COSAN方法的平均響應(yīng)時間為567;關(guān)鍵字查詢?yōu)镼5時,IOM方法的平 均響應(yīng)時間為1040,本發(fā)明COSAN方法的平均響應(yīng)時間為843;從圖8可知,COSAN模型對應(yīng)的 查詢性能明顯優(yōu)于IOM模型,運(yùn)是因為前者的上下文感知能力強(qiáng),從而在查詢處理時能夠取 得更好的剪枝效果(比如剪枝掉不相關(guān)的實體和語義關(guān)系),進(jìn)一步較大地降低查詢響應(yīng)時 間。
[0018] 如圖9所示進(jìn)行不同復(fù)雜度的語義關(guān)系對效果的影響時,語義關(guān)系查詢?yōu)镽2時, IOM方法的平均響應(yīng)時間為413,本發(fā)明COSAN方法的平均響應(yīng)時間為386;語義關(guān)系查詢?yōu)?R3時,IOM方法的平均響應(yīng)時間為659,本發(fā)明COSAN方法的平均響應(yīng)時間為486;語義關(guān)系查 詢?yōu)镽5時,IOM方法的平均響應(yīng)時間為981,本發(fā)明COSAN方法的平均響應(yīng)時間為667;從圖9 可知,對于基本的二元語義關(guān)系(如列R2),查詢響應(yīng)時間差不多,但是,隨著語義關(guān)系查詢 的復(fù)雜度增加,本模型對應(yīng)的性能顯著優(yōu)于I0M,即查詢響應(yīng)時間明顯降低,運(yùn)是由于本模 型具有強(qiáng)力的多元復(fù)雜語義關(guān)系表達(dá)能力,使得查詢過程中大大減少復(fù)雜語義關(guān)系匹配的 判斷代價,從而大幅降低了查詢響應(yīng)時間。
[0019] 如圖10所示進(jìn)行上下文對效率的影響時,關(guān)鍵字查詢?yōu)镼2時,IOM方法的平均響應(yīng) 時間為313,本發(fā)明COSAN方法的平均響應(yīng)時間為286;關(guān)鍵字查詢?yōu)镼3時,IOM方法的平均響 應(yīng)時間為509,本發(fā)明COSAN方法的平均響應(yīng)時間為423;關(guān)鍵字查詢?yōu)镼4時,IOM方法的平均 響應(yīng)時間為811,本發(fā)明COSAN方法的平均響應(yīng)時間為617;關(guān)鍵字查詢?yōu)镼5時,IOM方法的平 均響應(yīng)時間為1040,本發(fā)明COSAN方法的平均響應(yīng)時間為850;從圖10可知,COSAN模型對應(yīng) 的查詢響應(yīng)時間明顯少于IOM模型,運(yùn)是因為本模型具有語義關(guān)系推理能力,一旦添加新的 語義推理規(guī)則,就能夠自適應(yīng)地派生出更多豐富的語義關(guān)系,從而查詢中可W減少不必要 的節(jié)點和邊的遍歷,進(jìn)而降低查詢響應(yīng)時間。
[0020] 從圖5至圖10可得出本發(fā)明COSAN方法準(zhǔn)確率與響應(yīng)時間明與現(xiàn)有IOM方法。
【附圖說明】
[0021 ] 圖1為采用IOM模型表示的數(shù)據(jù)空間例子示意圖,publishedln為發(fā)表在,attend為 出席、參加,Index Dataspace為指數(shù)數(shù)據(jù)空間,authorOf為作者,reviewerOf為評審人, StudyIn為在哪里學(xué)習(xí),supervisorOf為導(dǎo)師;圖2為上下文感知的異構(gòu)數(shù)據(jù)空間表示圖,曰1 為文章1〇號向為會議10號前、化、口3為人1〇號,111為大學(xué)10號,£^為第一個上下文感知的基 本語義關(guān)聯(lián),ef為第二個上下文感知的基本語義關(guān)聯(lián),ef為第=個上下文感知的基本語義關(guān) 聯(lián),每為第四個上下文感知的基本語義關(guān)聯(lián),《為第五個上下文感知的基本語義關(guān)聯(lián),苗為 第六個上下文感知的基本語義關(guān)聯(lián);圖3為數(shù)據(jù)空間語義關(guān)系表示數(shù)據(jù)空間示意圖,e:為第 一個復(fù)雜語義關(guān)聯(lián),這為第二個復(fù)雜語義關(guān)聯(lián),6^為第S個復(fù)雜語義關(guān)聯(lián);圖4為COSAN模型 表示的數(shù)據(jù)空間例子數(shù)據(jù)空間示意圖,為第屯個上下文感知的基本語義關(guān)聯(lián);圖5為上下 文對效果的影響示意圖,IOM為解釋對象模型,COSAN為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模 型,Q2表示2個關(guān)鍵詞,Q3表示3個關(guān)鍵詞,Q4表示4個關(guān)鍵詞,Q5表示5個關(guān)鍵詞;圖6為不同 復(fù)雜度的語義關(guān)系對效果的影響示意圖,R2表示二元關(guān)系,N= 2; R3表示=元關(guān)系,N = 3; R5 表示五元關(guān)系,N=5;圖7為語義關(guān)聯(lián)推理對效果的影響示意圖;圖8為上下文對效率的影響 示意圖;圖9為不同復(fù)雜度的語義關(guān)系對效率的影響示意圖;圖10為語義推理對效率的影響 示意圖;圖11為本發(fā)明流程圖。
【具體實施方式】
【具體實施方式】 [0022] 一:結(jié)合圖11說明本實施方式,本實施方式的基于上下文感知和復(fù) 雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,具體是按照W下步驟制備的:
[0023] 步驟一、構(gòu)建一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型 C0SAN;步驟二、根據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的解釋對 象;步驟=、根據(jù)上下文感知的解釋對象得出上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義 關(guān)聯(lián);步驟四、根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義關(guān)聯(lián)得出語義關(guān)聯(lián)推理規(guī) 則。
[0024] 我們首先提出了一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模 型C0SAN,然后分別詳細(xì)描述了如何表示上下文感知的異構(gòu)數(shù)據(jù)和復(fù)雜語義關(guān)系,最后描述 了如何支持語義關(guān)聯(lián)推理。
【具體實施方式】 [0025] 二:本實施方式與一不同的是:所述步驟一中構(gòu)建一 種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型C0SAN;具體過程為:
[0026] 為解決上面提到的問題或挑戰(zhàn),本小節(jié)提出了一種半結(jié)構(gòu)化的圖模型,稱之為 COSA飾莫型。在我們的模型中,主要考慮如下:
[0027] (4).不僅考慮結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一表示,還應(yīng)考慮上下文影響。 此外,當(dāng)表達(dá)簡單的二元語義關(guān)聯(lián)時,也應(yīng)考慮上下文。
[0028] (5).傳統(tǒng)的數(shù)據(jù)空間模型過分強(qiáng)調(diào)實體表示,忽略了實體間復(fù)雜語義關(guān)系表示。 具體來說,本章通過一組約束集合進(jìn)行形式化表示,運(yùn)些約束集合表達(dá)了約束信息的不同 方面,從而掲示整體語義。此外,本章通過引入上下文、置信度之類的組件擴(kuò)展傳統(tǒng)二元語 義關(guān)聯(lián)的概念。
[0029] (6).引入一組規(guī)則來支持語義關(guān)聯(lián)推理。即,利用一些預(yù)定義的規(guī)則,我們可W從 直接語義關(guān)聯(lián)中派生出更豐富、隱含的語義關(guān)聯(lián),從而支持實體關(guān)聯(lián)網(wǎng)絡(luò)的不斷演化。
[0030] 遵循上述思想,
[0031] 將上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN定義為一個含標(biāo)簽的有向圖(V,E, Rules),所述復(fù)雜語義關(guān)聯(lián)指N>3,N為語義節(jié)點的個數(shù);N = 2為上下文感知的基本語義關(guān) 聯(lián);
[0032] 其中,V是語義節(jié)點集合;一個語義節(jié)點表示一個上下文感知的解釋對象0(對應(yīng)于 現(xiàn)實世界實體,見定義2.3)具體來說,一個語義節(jié)點是一個現(xiàn)實世界資源,如文本、圖像、視 頻、人W及大學(xué)等實體。;
[003引E=化Simple,Ec0mplex)是語義關(guān)聯(lián)集合;
[0034] 其中,Esimple表示上下文感知的基本語義關(guān)聯(lián)集合;一個上下文感知的基本語義關(guān) 聯(lián)esGEsi"pie(見定義2.4)是連接兩個語義節(jié)點的有向邊,它類似于簡單的二元語義關(guān)聯(lián);
[0035] Ecomplex表示復(fù)雜語義關(guān)聯(lián)集合;一個復(fù)雜語義關(guān)聯(lián)ec G Ec〇mplex(見定義2.5 )是指設(shè) 及N個語義節(jié)點的復(fù)雜關(guān)系,N>3;
[0036] Rules是語義關(guān)聯(lián)推理規(guī)則。它支持從已有的關(guān)聯(lián)派生出更多隱含或間接的關(guān)聯(lián)。
[0037] 與已有的圖模型(如iDMJDM和I0M)不同的是,本模型不僅強(qiáng)調(diào)現(xiàn)實世界實體的表 示,還強(qiáng)調(diào)邏輯實體(復(fù)雜多元語義關(guān)系)的表示。此外,通過引入推理規(guī)則的概念,語義關(guān) 聯(lián)本質(zhì)上是動態(tài)的。
【具體實施方式】 [0038] =:本實施方式與一或二不同的是:所述步驟二中根 據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的異構(gòu)數(shù)據(jù)和復(fù)雜語義關(guān) 系;具體過程為:
[0039] -、上下文感知的異構(gòu)數(shù)據(jù)表示
[0040] 本小節(jié)首先給出了一些定義,旨在形式化描述上下文感知的解釋對象;然后,使用 了一個示例演示了如何表示上下文感知的異構(gòu)數(shù)據(jù)。
[0041] 定義2.1上下文條件.
[0042] 一個上下文條件C為d Av,其中,
[0043] l)d是上下文條件C的維度名,例如,time;
[0044] 2)A 是一個操作符,如,=,聲,《,<,〉,>, in , not in , between , between+, between-,and between*;
[0045] 3)v是對應(yīng)維度d的一個值表達(dá)式,例如{b,. . .,e};
[0046] 假定:如果操作符為=或者聲,則V由單個上下文維度值組成;
[0047] 如果操作符為in or not in(在范圍內(nèi)或不在范圍內(nèi)),則v由一組線性離散的上 下文維度值組成;
[004引如果操作符為between,between-,between+,or between*,則x為V中一個元素,,其 中X分別滿足b《x《e,b<x《e,b《x<e,b<x<e;其中,b為v的最小值,e為v的最大值;Between 為; between-為b<x《e; between+為b《x<e; between*為b<x<e;將關(guān)鍵字 now 記為當(dāng) 前時間點;
[0049]如圖 2所示,下面是一些上下文條件:l)[time<2008] ;2)[time<now] ;3) [time between{6/ll/2007,6/14/2007]O
[0化0]令Cl, C2, . . .Cm為上下文條件,那么一個上下文條件集Cl由一組上下文條件組成; 形式化敘述為:
[0化1 ] 令i為正整數(shù),如果Ve,: * #,:則上下文條件集表示為Cl = ,C2,. . . Cm],否則,記為
[],W表示上下文的全集;m取值為正整數(shù);1《i《m; Cl,C2,. . . Cm為上下文條件;
[0052] 注意,對C中任意兩個上下文條件,其維度名是不一樣的,為簡單起見,本文只討論 一個時間維度(time)的上下文。
[0053] 定義2.2屬性上的上下文感知刻面
[0054] 給定語義關(guān)系集合E的一個屬性Ak,屬性Ak上的上下文感知刻面AFk為:
[00對 ^巧=佑,巧),其中,Cl是第1個上下文條件集;F/是在上下文條件集Cl下屬性Ak的 值;
[0056] 如圖2例子所示,對于對象Pi的屬性name,有W下AFk: ([time<2008], 'Xin Dong'), ([time between{2011,2013}],'Xin Luna Dong')。運(yùn)表明了對象pi的屬性name在不同上 下文下有不同的刻面,也就是說,對于對象Pi,屬性name的值在2008年前為^in Dong",而 在2011 至2013年為^in Luna Dong"。
[0057]在數(shù)據(jù)空間中,一個數(shù)據(jù)項(最小的信息單位)是一個信息塊,如文件、關(guān)系元組、 XML元素及像大學(xué)之類的抽象概念。之后,本章稱運(yùn)樣的數(shù)據(jù)項為實體或者對象。鐘鳴等人 提出的IOM模型僅僅對實體的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息建模,并且平等地對待多值 屬性中的多個屬性值,然而實體的同一多值屬性往往在不同上下文下呈現(xiàn)不同的刻面,即 多個屬性值不應(yīng)該平等地對待。事實上,同一信息在不同時間存在不同變體的現(xiàn)象非常多。 受解釋對象模型啟發(fā),本文從上下文角度進(jìn)一步擴(kuò)展解釋對象概念,形式化定義上下文感 知的解釋對象概念如下。
[005引定義2.3上下文感知的解釋對象.
[0059] -個上下文感知的解釋對象(CIO)是一個四元組(I,k,tK,xK),其中,I是對象標(biāo)示 符;K是對象類名;Te是上下文感知元組{(Ak,AFk) },其中Ak是實體E的第k個屬性,AFk是屬性 Ak的上下文感知刻面;xe是上下文感知內(nèi)容{(cl,Conti)},其中Cl是第1個上下文條件集, Conti是在上下文Cl下的非結(jié)構(gòu)化內(nèi)容;
[0060] 例2.1:圖2、表2b、表2c展示了上下文感知解釋對象建模的數(shù)據(jù)空間例子。該圖是 數(shù)據(jù)空間的一個實例,它由案例研究中的示例數(shù)據(jù)組成,運(yùn)些數(shù)據(jù)表示為上下文感知的解 釋對象(如表2c)。
[0061 ]表2b為上下文感知的異構(gòu)數(shù)據(jù)關(guān)聯(lián)表,Rid為關(guān)系ID號,asso_name為名稱, S叩ervisorOf為導(dǎo)師,31:11(171]1為在哪里學(xué)習(xí),日111:11〇1'0;1^為作者^6¥16¥〇;1^為評審人, publishedln為發(fā)表在,attend為出席、參加;表2c為上下文感知的異構(gòu)數(shù)據(jù)表示上下文感 知的解釋對象示意表,Oid為對象ID號,class為類別,person為人,a;rticle為文章, conference 為會議,uni vers ity 為大學(xué),supervisor_study 為導(dǎo)處巧―學(xué)習(xí),review-author 為 評審人-作者,publish_attend為出版-參加,,context-aware tuple為上下文感知的元組, context-aware content為上下文感知的內(nèi)容,NtXL為空集;
[0062]由于空間所限,圖2、表2b、表2c只展示了所有上下文感知解釋對象的部分信息。 例如,上下文感知的解釋對象Pi的上下文感知元組是(name, K[time<2008], 'Xin Dong'), ([time between{2011,2013}2],'Xin Luna Dong')})。注意,本章省略了其它屬性的AFs, 與IOM模型相比,本章提出的方法不僅能夠統(tǒng)一地表示結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù), 還能夠表達(dá)同一對象的不同方面(結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化塊)的上下文感知的刻面信 息。例如,對于上下文感知的解釋對象ai,它包含一個上下文感知元組(如,(title, {([time <now], ' Index dataspace ')}))和一個上下文感知的內(nèi)容(如,'([time《11/19/2006], 'Dataspace are collections---'),( [time>2/19/2007] ,'Dataspaces are large collections--- ')')。
[0063] 此外,上下文感知的解釋對象的類名可能實現(xiàn)并不知道,但是類名將會隨著pay- as-you-go 集成逐漸獲得。事實上,識別同一現(xiàn)實世界對象 (有的文獻(xiàn)稱為實體消岐、實體解 析等)也是一個有趣的主題,但不是本文關(guān)注的焦點。在本章中,上下文感知的解釋對象與 實體概念交互使用。
[0064] 表2b關(guān)聯(lián)
【具體實施方式】 [0068] 四:本實施方式與=不同的是:所述步驟=中根據(jù)上
[00 化]
[0066]
[0067] 下文感知的解釋對象得出復(fù)雜語義關(guān)系;具體過程為:
[0069] 解決了上下文感知的異構(gòu)數(shù)據(jù)表示問題,接下來,本小節(jié)解決語義關(guān)系表示。首先 研究了最能影響語義關(guān)系復(fù)雜度的重要因素。然后提出了上下文感知的基本語義關(guān)聯(lián)和復(fù) 雜語義關(guān)系運(yùn)兩個形式化定義。前者通過考慮上下文因素擴(kuò)展傳統(tǒng)的二元語義關(guān)系,后者 通過考慮一組約束形式化表示復(fù)雜的多元語義關(guān)系。最后詳細(xì)地說明了新給出的定義。據(jù) 我們所知,數(shù)據(jù)空間社區(qū)中復(fù)雜語義關(guān)系表示的工作鮮有研究。
[0070] 為解決案例研究中提到的第二個問題,本章探討了最能影響語義關(guān)系復(fù)雜性的因 素。通常,影響語義關(guān)系復(fù)雜性的重要因素如下:
[0071] (1).上下文約束。傳統(tǒng)上,語義關(guān)系通過一個簡單的文本標(biāo)簽標(biāo)示,然而,運(yùn)種方 式呈現(xiàn)的語義相對簡單。事實上,語義關(guān)系只有在特定上下文下才變得有意義。例如,語義 關(guān)聯(lián)StudyIn只有在"2001年至2007年"上下文下才有效(見第2.2小節(jié)中的案例研究)。
[0072] (2).屬性約束。除了上下文約束,通常使用屬性約束的一些信息來描述語義關(guān)系 的語義。如置信度(用于度量語義關(guān)系的強(qiáng)度)。
[0073] (3).設(shè)及實體的數(shù)量。盡管兩個實體參與(或上下文感知的解釋對象)的語義關(guān)系 非常普遍,但在許多情況下,語義關(guān)系可能包含多個實體。例如,案例研究表明實體Pi、ci和 P3(見圖2、表化、表2c)的整體(如圖3、表3b、表3c中的el。)可能構(gòu)成一種新型語義關(guān)系并掲 示了學(xué)術(shù)領(lǐng)域中的多個實體^in Dong"中哪一個是符合要求的。
[0074] 表3b為數(shù)據(jù)空間語義關(guān)系表示上下文感知的基于語義關(guān)聯(lián)示意圖,confidence為 置信度;context為上下文;表3c為數(shù)據(jù)空間語義關(guān)系表示復(fù)雜多元語義關(guān)系示意圖,G為命 名圖,orderConstraints為順序約束,attributeConstrains為屬性約束,NtXL為空集;
[0075] 表3b上下文感知的基于語義關(guān)聯(lián)
[0076]
[0077] 表3c復(fù)雜多元語義關(guān)系
[007引
[0079] (4).順序約束。除了上述因素外,順序也是反映語義關(guān)系復(fù)雜性與豐富性的及其 重要因素。實際上,設(shè)及多個實體的復(fù)雜語義關(guān)系可能包含許多二元語義關(guān)聯(lián),但是運(yùn)些關(guān) 聯(lián)可能W-定順序發(fā)生。例如,通過案例研究,我們可能發(fā)現(xiàn)一些關(guān)聯(lián)W某種順序發(fā)生(見 圖3、表3b、表3c)。
[0080] (5).聚合約束。高等級復(fù)雜語義關(guān)系往往由一些低等級復(fù)雜語義關(guān)系組成,其中 復(fù)雜語義關(guān)系本質(zhì)上可W看成帶約束條件的超圖。例如,復(fù)雜語義關(guān)系4(一種整體語義關(guān) 系)由幾個低等級的語義關(guān)系e:、苗和實體Cl組成(見圖3、表3b、表3c)。在本章中,復(fù)雜語 義關(guān)系等級的高低是指與包含的實體個數(shù)、約束限制強(qiáng)弱有關(guān)。通常,包含的實體個數(shù)越 多、約束限制越強(qiáng),則該語義關(guān)系等級越高。此外,我們把復(fù)雜語義關(guān)系看成一個"虛擬"對 象,W突出語義關(guān)系與實體在數(shù)據(jù)空間模型的地位同等重要。
[0081] 基于上述因素,接下來形式化定義上下文感知的基本語義關(guān)聯(lián)和復(fù)雜多元語義關(guān) 系如下:
[0082] -、定義上下文感知的基本語義關(guān)聯(lián);
[0083] 一個上下文感知的基本語義關(guān)聯(lián)為es= (Om, (namei, confidence ,context) ,On),
[0084] 其中,Om或者On表示一個上下文感知的解釋對象;name I表示基本語義關(guān)聯(lián)es的名 稱;conf idence表示基本語義關(guān)聯(lián)Gs的強(qiáng)度;context表示基本語義關(guān)聯(lián)Gs的上下文條件集;
[0085] 表3b展示了上下文感知的基本語義關(guān)聯(lián)的表示形式。例如,對于關(guān)聯(lián)實體ai和實 體Pi的語義關(guān)系磅來說,,它表明了苗只在2009年11月19日前有意義且其置信度為0.9。注 意,圖3、表3b、表3c中列出的置信度值是假定已知的或者事先計算好的。關(guān)于語義關(guān)系的置 信度或重要性計算問題已經(jīng)有大量的研究。
[0086] 盡管上下文感知的基本語義關(guān)聯(lián)能夠很好地表示及擴(kuò)展傳統(tǒng)的二元語義關(guān)系,但 是它無法表達(dá)更復(fù)雜的語義關(guān)系。正如前面所述,本章主要關(guān)注于復(fù)雜語義關(guān)系的幾個方 面:多個實體、順序、聚合及描述性屬性。因此,我們形式化定義復(fù)雜多元語義關(guān)系如下:
[0087] 二、定義復(fù)雜多元語義關(guān)系;
[008引一個復(fù)雜多元語義關(guān)系定義為Gc= (name2,G,orde;r ,attr),其中,name 2表示復(fù)雜 多元語義關(guān)系ec的名稱;G表示由上下文感知的解釋對象集{0}和語義關(guān)系集{e}組成的子 圖,其中語義關(guān)系集由上下文感知的基本語義關(guān)聯(lián)es或者復(fù)雜多元語義關(guān)系e'c組成,e'c> Ge ;上下文感知的解釋對象集由一個上下文感知的解釋對象Om或者On表示;
[0089] order表示G中的語義關(guān)系e發(fā)生順序,其中,表示語義關(guān)系ei的發(fā)生順序優(yōu) 先于語義關(guān)系62;
[0090] attr表示關(guān)于復(fù)雜多元語義關(guān)系Gg的一組屬性約束{(attrk, valuek)},其中, attrk和valuek分別是ec的第k個屬性和第k個屬性對應(yīng)的值;
[0091] 如果復(fù)雜多元語義關(guān)系中多個es不存在順序關(guān)系,則組件order為空集;所述多個 為大于等于2個。
[0092] 在上面的定義中,復(fù)雜多元語義關(guān)系ec中組件G表明了復(fù)雜多元語義關(guān)系不僅設(shè) 及多個實體(解釋上下文感知的解釋對象)還可能聚合了多個低等級的復(fù)雜多元語義關(guān)系 e 'C或上下文感知的基本語義關(guān)聯(lián)es。直觀上,運(yùn)種思想類似于"關(guān)系中的關(guān)系"。注意,如果 復(fù)雜多元語義關(guān)系中多個es不存在順序關(guān)系,則組件化der為空集。
[0093] 例2.2.圖3、表3b、表3c展示了數(shù)據(jù)空間中語義關(guān)系表示的例子。具體來說,存在6 種上下文感知的基本語義關(guān)聯(lián)和巧巾復(fù)雜多元語義關(guān)系。例如,復(fù)雜多元語義關(guān)系可W通 過子圖G3和一組約束表達(dá),其中G3由六個對象(如口1、口2、口3、(31、曰1和山)和;個語義關(guān)系組成, 其中包含兩個基本語義關(guān)聯(lián)(如苗和ef)和一個復(fù)雜多元語義關(guān)系(如這)組成,order是G3中 語義關(guān)系的一個順序序列,記為苗寺皆,attr包含一個屬性約束(如,這的置信度為 0.6),此外,子圖G3表明為是由基本語義關(guān)系和低等級的復(fù)雜多元關(guān)系聚合而來。
【具體實施方式】 [0094] 五:本實施方式與一、二或四不同的是:所述步驟四中 根據(jù)上下文感知的解釋對象和復(fù)雜語義關(guān)系得出語義關(guān)聯(lián)推理規(guī)則;具體過程為:語義關(guān) 聯(lián)推理規(guī)則,具體如下:
[00M]在上下文感知的解釋對象和上下文感知的基本語義關(guān)聯(lián)的基礎(chǔ)上定義=個對象 類0 1,0 2和0 3,S種上下文感知的基本語義關(guān)聯(lián)
、
,分別記為e!["I,仍,Cl]、刮"2,仍,。和
[0096] 貝リ一個語義關(guān)聯(lián)推理規(guī)則定義為化/知.v:=神",,/,;;,(、|]>< (d"j,仇,(、|]二沖7;,/,^..,(-;」!.? 記為6,1 X ef 二 ef,其中PO = pri ? pr2且C3 = Cl n C2;
[0097] 其中,Ci、C2、C3為不同指條件集,ni、n2、n3為不同name減name 2,口1'1、口'2、口〇為不 同置信度,eN eN ?為N=2時不同的基本語義關(guān)系。
[0098] 語義關(guān)聯(lián)推理規(guī)則的直覺是:共享同一個語義節(jié)點(或者對象)的一些基本語義關(guān) 聯(lián)可能派生出新的語義關(guān)聯(lián)。在本章中,語義關(guān)聯(lián)推理規(guī)則是建立在上下文感知的基本語 義關(guān)聯(lián)基礎(chǔ)上的。運(yùn)意味著不同的上下文感知的基本語義關(guān)聯(lián)組合可能產(chǎn)生不同的語義關(guān) 聯(lián)推理規(guī)則。因此,語義關(guān)聯(lián)推理規(guī)則隨著應(yīng)用不同而不同并且是W某一概率產(chǎn)生的。另 夕h同一種基本語義關(guān)聯(lián)對于不同的對象對來說,其上下文也可能不同。因此,基于運(yùn)些語 義關(guān)聯(lián)推理規(guī)則,大量隱含的或者潛在的語義關(guān)聯(lián)可W從已有的語義關(guān)聯(lián)派生而來。
[0099] 例2.3.表4a、圖4、表4c、表4d、表4e展示了 COSAN模型的完整數(shù)據(jù)空間例子。具體來 說,表4a、圖4、表4c、表4d、表4e說明了案例研究中示例所對應(yīng)的COSAN完整表示的例子。例 如,通過利用學(xué)術(shù)領(lǐng)域中的啟發(fā)式推理規(guī)則,我們能夠派生出一種新的上下文感知的基本 語義關(guān)聯(lián)苗,它連接對象P3和ui,其中,它的關(guān)聯(lián)名為facultyOf,置信度為0.72,上下文為 "[time between{2001,2007}]"。另外,由于新的語義關(guān)聯(lián)產(chǎn)生,已有的復(fù)雜多元語義關(guān)系 可能發(fā)生變化,如表4e中關(guān)系e;;。注意,表4曰、圖4、表4c、表4d、表4e只展示了一個啟發(fā)式推 理規(guī)則。
[0100] 表4a為COSAN模型表示的數(shù)據(jù)空間例子啟發(fā)式推理規(guī)則示意圖,supervisorOf為 關(guān)系名,0.8為置信度;[time between{2001,2007}]為上下文;表4c為COSAN模型表示的數(shù) 據(jù)空間例子上下文感知的解釋對象示意圖,context-aware tuple為上下文感知的元組, context-aware content為上下文感知的內(nèi)容;表4d為COSAN模型表示的數(shù)據(jù)空間例子上下 文感知的基本語義關(guān)聯(lián)示意圖,facultyOf為作者;表4e為COSAN模型表示的數(shù)據(jù)空間例子 邏輯的上下文感知的解釋對象示意圖,supe;rviso;r_s^dy為主管研究;
[0101] 表4a啟發(fā)式推理規(guī)則
[0107]表4d上下文感知的基本語義關(guān)聯(lián)
[0102]
[0103]
[0104]
[0105]
[0106]
[010 引
[0109]
[0110] 1234567 【具體實施方式】六:本實施方式與【具體實施方式】=不同的是:所述步驟四中根據(jù)上 下文感知的解釋對象和復(fù)雜語義關(guān)系得出語義關(guān)聯(lián)推理規(guī)則;具體過程為:語義關(guān)聯(lián)推理 規(guī)則,具體如下: 2 在上下文感知的解釋對象和上下文感知的基本語義關(guān)聯(lián)的基礎(chǔ)上定義=個對象 類0 1,0 2和0 3,S種上下文感知的基本語義關(guān)聯(lián)
,
,分別記為進(jìn)巧,巧,C,]、刮/?2,奶,按2 ]和 4";,八;,(.、;]; 3 則一個語義關(guān)聯(lián)推理規(guī)則定義為胤/es =村",,p/;,Ci]x苗機(jī),趴,Ci]^邱?3,巧,〔3]!, 記為。! X <,其中PO = pri ? pr2且C3 = Cl n C2; 4 其中,Ci、C2、C3為不同指條件集,ni、n2、n3為不同name減name 2,口1'1、口'2、口〇為不 同置信度,6:、這、這為N=2時不同的基本語義關(guān)系。 5 語義關(guān)聯(lián)推理規(guī)則的直覺是:共享同一個語義節(jié)點(或者對象)的一些基本語義關(guān) 6 聯(lián)可能派生出新的語義關(guān)聯(lián)。在本章中,語義關(guān)聯(lián)推理規(guī)則是建立在上下文感知的基本語 7 義關(guān)聯(lián)基礎(chǔ)上的。運(yùn)意味著不同的上下文感知的基本語義關(guān)聯(lián)組合可能產(chǎn)生不同的語義關(guān) 聯(lián)推理規(guī)則。因此,語義關(guān)聯(lián)推理規(guī)則隨著應(yīng)用不同而不同并且是W某一概率產(chǎn)生的。另 夕h同一種基本語義關(guān)聯(lián)對于不同的對象對來說,其上下文也可能不同。因此,基于運(yùn)些語 義關(guān)聯(lián)推理規(guī)則,大量隱含的或者潛在的語義關(guān)聯(lián)可W從已有的語義關(guān)聯(lián)派生而來。
[0116] 例2.3.表4a、圖4、表4c、表4d、表4e展示了COSAN模型的完整數(shù)據(jù)空間例子。具體來 說,表4a、圖4、表4c、表4d、表4e說明了案例研究中示例所對應(yīng)的COSAN完整表示的例子。例 如,通過利用學(xué)術(shù)領(lǐng)域中的啟發(fā)式推理規(guī)則,我們能夠派生出一種新的上下文感知的基本 語義關(guān)聯(lián)運(yùn),它連接對象P3和Ui,其中,它的關(guān)聯(lián)名為facultyOf,置信度為0.72,上下文為 "[time between{2001,2007}]"。另外,由于新的語義關(guān)聯(lián)產(chǎn)生,已有的復(fù)雜多元語義關(guān)系 可能發(fā)生變化,如表4e中關(guān)系4進(jìn)意,表4曰、圖4、表4c、表4d、表4e只展示了一個啟發(fā)式推 理規(guī)則。
[0117] 表4a為COSAN模型表示的數(shù)據(jù)空間例子啟發(fā)式推理規(guī)則示意圖,supervisorOf為 關(guān)系名,0.8為置信度;[time between{2001,2007}]為上下文;表4c為COSAN模型表示的數(shù) 據(jù)空間例子上下文感知的解釋對象示意圖,context-aware tuple為上下文感知的元組, context-aware content為上下文感知的內(nèi)容;表4d為COSAN模型表示的數(shù)據(jù)空間例子上下 文感知的基本語義關(guān)聯(lián)示意圖,facultyOf為作者;表4e為COSAN模型表示的數(shù)據(jù)空間例子 邏輯的上下文感知的解釋對象示意圖,supe;rviso;r_s^dy為主管研究;
[0118] 表4a啟發(fā)式推理規(guī)則
[0119] 12 2
[0122]表4c上下文感知的解釋對象
[0123]
[0124]
[0125]
[0126] 表4e邏輯的上下文感知的解釋對象
[0127]
[0128] 采用W下實施例驗證本發(fā)明的有益效果:
[0129] 實施例一;
[0130] 本實施例基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法具體是按照W下 步驟制備的:
[0131] 本節(jié)首先介紹了實驗設(shè)置情況,然后從效果和效率兩方面評估本文模型COSAN與 基準(zhǔn)測試模型I0M。
[0132] 實驗設(shè)置
[0133] 本實驗使用來自2015年3月release版本的DBLP數(shù)據(jù)作為實驗所需的基本數(shù)據(jù)集, 下載地址為http: //化Ip . uni-hier. de/。抽取的實體類別包括論文、博±論文、作者,會 議、期刊、大學(xué)機(jī)構(gòu),關(guān)系包括6種基本關(guān)系和2種復(fù)雜關(guān)系(復(fù)雜=元關(guān)系和復(fù)雜五元關(guān) 系)。在抽取過程中,有W下幾點需注意:(1)論文實體來自于i噸:roceedings記錄或者key鍵 W "journals"為前綴的Article記錄,博:t論文實體來自于地dthesiS記錄,作者實體來自 于WWW記錄或者author標(biāo)簽,會議實體來自于key鍵W "conf"為前綴的i噸;roceedings記錄 中的booktitie標(biāo)簽,期刊實體來自于journal標(biāo)簽或者key鍵W "journals"為前綴的 i叩roceedings記錄中的booktitle標(biāo)簽,大學(xué)機(jī)構(gòu)來自于school標(biāo)簽;(2)為滿足實驗要 求,本章利用year字段來作為上下文,并且只考慮作者實體(其它實體假定任何時間上下文 都成立)和語義關(guān)系的上下文;(3)2種復(fù)雜關(guān)系是3元語義關(guān)系和5元語義關(guān)系,其中=元語 義關(guān)系只設(shè)及作者、博±論文和大學(xué)機(jī)構(gòu),而五元語義關(guān)系則設(shè)及作者、博±論文、大學(xué)機(jī) 構(gòu)、論文和會議。表2.1記錄了數(shù)據(jù)集的詳細(xì)信息。表2.2記錄了部分查詢樣例,其中前4個查 詢?yōu)楹瑫r間上下文的關(guān)鍵詞查詢樣例,后3個查詢?yōu)榍山碚Z義查詢樣例。
[0134] 表 2.1 DBLP 數(shù)據(jù)集
[0135] Table2.1 DBLP da化set
[0136]
[0137] 表2.2查詢樣例
[0138] Table 2.2 如ery examples
[0139] 1234
2 I 為Q2,2 為Q3,3 為Q4,4為Q5,5 為R2,6 為R3,7 為R5; 3 Deep 1 earning 2014為查詢包含深度學(xué)習(xí)的時間為2014的實體;Database supevised learning 2013為查詢包含數(shù)據(jù)庫監(jiān)督學(xué)習(xí)的時間為2013的實體;Graph mining Big data 2015為查詢包含圖挖掘大數(shù)據(jù)的時間為2015的實體;Efficient subgraph similarity matching database 2015為查詢包含高效的子數(shù)相似性匹配數(shù)據(jù) 庫的時間為2015的實體;subgraph similarity matching au化orOf Jeffeiy Yu Xu為查 詢包含子圖相似性匹配且作者為Jeffery Yu Xu的所有實體;["dataspace,'authorOf "Xin Dong,']and[ "Xin Dong,'studyIn"University of Washington,']為查詢包含數(shù)據(jù)空間的文 章由Xin Dong寫的,并且Xin Dong在University of Washington上學(xué);["dataspace" author0f"Xi 打 Do 打 g,,]a 打 d[ "Xi 打 Do 打 g,,study I 打"University of Washi 打 gto 打,,]a 打 d[ "big data integration,,authorOf "Xin Dong,,]and[ "big data integration^^ published In "VLDB,']為查詢包含數(shù)據(jù)空間的文章由Xin Dong寫的,并且Xin Dong在University of Washington上學(xué),并且還有一篇文章也是Xin Dong寫的發(fā)表在VLDB會議上; 4 實驗環(huán)境設(shè)置如下:主機(jī)采用Intel(R)Core(TM)i5-4570CPU 3.20細(xì)z,內(nèi)存容量 為4G,硬盤容量為1TB,操作系統(tǒng)為WIN 7(64bit)。算法均采用JAVA語言實現(xiàn)。
[0144] 效果評估
[0145] 本小節(jié)實驗的目標(biāo)是從上下文、語義關(guān)系的復(fù)雜性、語義關(guān)聯(lián)推理=個方面評估 本模型COSAN與基準(zhǔn)測試模型IOM的效果。另外,本實驗采用文獻(xiàn)的評分函數(shù)選取Top-k應(yīng) 答。
[0146] (1)上下文對效果的影響
[0147] 實驗1評估了在時間上下文環(huán)境下兩種模型對應(yīng)的查詢準(zhǔn)確率對比情況。圖5橫坐 標(biāo)表示包含時間上下文的不同關(guān)鍵詞長度(2、3、4、5)的查詢,其中每類查詢分別隨機(jī)選擇 50個查詢進(jìn)行實驗,然后計算平均準(zhǔn)確率,縱坐標(biāo)表示top-10應(yīng)答的平均準(zhǔn)確率。理想情況 下,支持上下文的數(shù)據(jù)空間模型應(yīng)該產(chǎn)生更佳的應(yīng)答結(jié)果。如圖5所示進(jìn)行上下文對效果的 影響時,關(guān)鍵字為Q2時,IOM方法平均準(zhǔn)確率為0.78,本發(fā)明COSAN方法平均準(zhǔn)確率為0.92; 關(guān)鍵字為Q3時,IOM方法平均準(zhǔn)確率為0.72,本發(fā)明COSAN方法平均準(zhǔn)確率為0.88;關(guān)鍵字為 Q4時,IOM方法平均準(zhǔn)確率為0.65,本發(fā)明COSAN方法平均準(zhǔn)確率為0.78;關(guān)鍵字為Q5時, IOM方法平均準(zhǔn)確率為0.5,本發(fā)明COSAN方法平均準(zhǔn)確率為0.7;從圖5可知,COSAN模型效果 明顯優(yōu)于IOM模型,運(yùn)是因為前者能夠很好地表示上下文感知的對象W及上下文感知的語 義關(guān)系,從而使得命中的節(jié)點、語義關(guān)聯(lián)更準(zhǔn)確。另外,圖中可W觀察到一個有趣現(xiàn)象,當(dāng)查 詢中關(guān)鍵詞個數(shù)比較大(如Q5),其準(zhǔn)確率增益更加明顯。
[0148] 實驗2評估了不同復(fù)雜度的語義關(guān)系下兩種模型對應(yīng)的準(zhǔn)確率對比情況。圖6橫坐 標(biāo)表示不同復(fù)雜度的語義關(guān)系查詢,其中Rl表示簡單二元語義關(guān)系查詢,R2表示=元復(fù)雜 語義關(guān)系查詢,R3表示五元復(fù)雜語義關(guān)系查詢,每類語義關(guān)系查詢分別隨機(jī)選擇50個語義 關(guān)系查詢進(jìn)行實驗,然后計算平均值,縱坐標(biāo)表示top-10應(yīng)答的準(zhǔn)確率。理想情況下,復(fù)雜 語義關(guān)系表達(dá)力越強(qiáng)的數(shù)據(jù)模型,其查詢效果更好。如圖6所示進(jìn)行不同復(fù)雜度的語義關(guān)系 對效果的影響時,語義關(guān)系查詢?yōu)镽l時,IOM方法平均準(zhǔn)確率為0.83,本發(fā)明COSAN方法平均 準(zhǔn)確率為0.88;語義關(guān)系查詢?yōu)镽2時,IOM方法平均準(zhǔn)確率為0.62,本發(fā)明COSAN方法平均準(zhǔn) 確率為0.84;語義關(guān)系查詢?yōu)镽3時,IOM方法平均準(zhǔn)確率為0.56,本發(fā)明COSAN方法平均準(zhǔn)確 率為0.76;圖6中第一列表明,對于基本的二元語義關(guān)系,本模型平均準(zhǔn)確率略優(yōu)于I0M,然 而,對于復(fù)雜度更高的語義查詢來說(如R2,R3),本模型顯著優(yōu)于基準(zhǔn)模型I0M,運(yùn)主要是由 于本模型對多元復(fù)雜語義關(guān)系具有強(qiáng)力的表達(dá)力,而IOM模型只能表達(dá)簡單的二元語義關(guān) 系。
[0149] (2)語義關(guān)聯(lián)推理對效果的影響
[0150] 實驗3評估了語義推理規(guī)則對效果的影響。為此,本實驗定義了一種推理規(guī)則: aWAo/心/' X ""http://"W巧' 二CO _ aWAW。圖7橫坐標(biāo)表示不包含時間上下文的不同關(guān)鍵詞長度 (2、3、4、5)的查詢,其中每類查詢分別隨機(jī)選擇50個查詢進(jìn)行實驗,然后計算平均準(zhǔn)確率, 縱坐標(biāo)表示top-10應(yīng)答的平均準(zhǔn)確率。理想情況下,支持語義關(guān)聯(lián)推理的數(shù)據(jù)空間模型應(yīng) 該產(chǎn)生更佳的應(yīng)答結(jié)果。如圖7所示進(jìn)行語義關(guān)聯(lián)推理對效果的影響時,關(guān)鍵字查詢?yōu)镼2 時,IOM方法平均準(zhǔn)確率為0.78,本發(fā)明COSAN方法平均準(zhǔn)確率為0.89;關(guān)鍵字查詢?yōu)镼3時, IOM方法平均準(zhǔn)確率為0.72,本發(fā)明COSAN方法平均準(zhǔn)確率為0.84;關(guān)鍵字查詢?yōu)镼4時,IOM 方法平均準(zhǔn)確率為0.65,本發(fā)明COSAN方法平均準(zhǔn)確率為0.72;關(guān)鍵字查詢?yōu)镼5時,IOM方法 平均準(zhǔn)確率為0.5,本發(fā)明COSAN方法平均準(zhǔn)確率為0.65;從圖7可知,COSAN模型效果明顯優(yōu) 于IOM模型,運(yùn)是因為前者能夠很好地支持語義關(guān)聯(lián)推理,從而豐富實體間的語義關(guān)系。在 某種意義上,減少元組連接樹中一些不必要的邊和節(jié)點,可W使得應(yīng)答更加緊湊。
[0151] 效率評估
[0152] 本小節(jié)實驗的目標(biāo)是從上下文、語義關(guān)系的復(fù)雜性、語義關(guān)聯(lián)推理=個方面評估 本模型COSAN與基準(zhǔn)測試模型IOM的性能。為公平起見,本文實驗中采用的索引方法、剪枝策 略、評分函數(shù)及查詢方法與文獻(xiàn)[9]的IOM方法相同。
[0153] 上下文對效率的影響
[0154] 實驗4評估了在時間上下文環(huán)境下兩種模型對應(yīng)的查詢響應(yīng)時間對比情況。圖8橫 坐標(biāo)表示包含時間上下文的不同關(guān)鍵詞長度(2、3、4、5)的查詢,其中每類查詢分別隨機(jī)選 擇50個查詢進(jìn)行實驗,然后計算平均響應(yīng)時間,縱坐標(biāo)表示top-10應(yīng)答的平均響應(yīng)時間。理 想情況下,支持上下文的數(shù)據(jù)空間模型查詢響應(yīng)時間更少。如圖8所示進(jìn)行上下文對效率的 影響時,關(guān)鍵字查詢?yōu)镼2時,IOM方法的平均響應(yīng)時間為313,本發(fā)明COSAN方法的平均響應(yīng) 時間為253;關(guān)鍵字查詢?yōu)镼3時,IOM方法的平均響應(yīng)時間為509,本發(fā)明COSAN方法的平均響 應(yīng)時間為348;關(guān)鍵字查詢?yōu)镼4時,IOM方法的平均響應(yīng)時間為811,本發(fā)明COSAN方法的平均 響應(yīng)時間為567;關(guān)鍵字查詢?yōu)镼5時,IOM方法的平均響應(yīng)時間為1040,本發(fā)明COSAN方法的 平均響應(yīng)時間為843;從圖8可知,COSAN模型對應(yīng)的查詢性能明顯優(yōu)于IOM模型,運(yùn)是因為前 者的上下文感知能力強(qiáng),從而在查詢處理時能夠取得更好的剪枝效果(比如剪枝掉不相關(guān) 的實體和語義關(guān)系),進(jìn)一步較大地降低查詢響應(yīng)時間。
[0155] 語義關(guān)系的復(fù)雜性對效率的影響
[0156] 實驗5評估了不同復(fù)雜度的語義關(guān)系下兩種模型對應(yīng)的查詢響應(yīng)時間對比情況。 圖9橫坐標(biāo)表示不同復(fù)雜度的語義關(guān)系查詢,其中R2表示簡單二元語義關(guān)系查詢,R3表示= 元復(fù)雜語義關(guān)系查詢,R5表示五元復(fù)雜語義關(guān)系查詢,每類語義關(guān)系查詢分別隨機(jī)選擇50 個語義關(guān)系查詢進(jìn)行實驗,然后計算平均響應(yīng)時間,縱坐標(biāo)表示top-10應(yīng)答的準(zhǔn)確率。理想 情況下,復(fù)雜語義關(guān)系表達(dá)力越強(qiáng)的數(shù)據(jù)模型,其查詢效果更好。如圖9所示進(jìn)行不同復(fù)雜 度的語義關(guān)系對效果的影響時,語義關(guān)系查詢?yōu)镽2時,IOM方法的平均響應(yīng)時間為413,本發(fā) 明COSAN方法的平均響應(yīng)時間為386;語義關(guān)系查詢?yōu)镽3時,IOM方法的平均響應(yīng)時間為659, 本發(fā)明COSAN方法的平均響應(yīng)時間為486;語義關(guān)系查詢?yōu)镽5時,IOM方法的平均響應(yīng)時間為 981,本發(fā)明COSAN方法的平均響應(yīng)時間為667;從圖9可知,對于基本的二元語義關(guān)系(如列 R2),查詢響應(yīng)時間差不多,但是,隨著語義關(guān)系查詢的復(fù)雜度增加,本模型對應(yīng)的性能顯著 優(yōu)于I0M,即查詢響應(yīng)時間明顯降低,運(yùn)是由于本模型具有強(qiáng)力的多元復(fù)雜語義關(guān)系表達(dá)能 力,使得查詢過程中大大減少復(fù)雜語義關(guān)系匹配的判斷代價,從而大幅降低了查詢響應(yīng)時 間。
[0157] (1)語義關(guān)聯(lián)推理對效率的影響
[015引實驗6評估了語義推理規(guī)則對性能的影響。為此,推理規(guī)則同實驗3。圖10橫坐標(biāo)表 示不包含時間上下文的不同關(guān)鍵詞長度(2、3、4、5)的查詢,其中每類查詢分別隨機(jī)選擇50 個查詢進(jìn)行實驗,然后計算平均響應(yīng)時間,縱坐標(biāo)表示top-10應(yīng)答的平均響應(yīng)時間。理想情 況下,支持語義關(guān)聯(lián)推理的數(shù)據(jù)空間模型應(yīng)該產(chǎn)生更低的查詢響應(yīng)時間。如圖10所示進(jìn)行 上下文對效率的影響時,關(guān)鍵字查詢?yōu)镼2時,IOM方法的平均響應(yīng)時間為313,本發(fā)明COSAN 方法的平均響應(yīng)時間為286;關(guān)鍵字查詢?yōu)镼3時,IOM方法的平均響應(yīng)時間為509,本發(fā)明 COSAN方法的平均響應(yīng)時間為423;關(guān)鍵字查詢?yōu)镼4時,IOM方法的平均響應(yīng)時間為811,本發(fā) 明COSAN方法的平均響應(yīng)時間為617;關(guān)鍵字查詢?yōu)镼5時,IOM方法的平均響應(yīng)時間為1040, 本發(fā)明COSAN方法的平均響應(yīng)時間為850;從圖10可知,COSAN模型對應(yīng)的查詢響應(yīng)時間明顯 少于IOM模型,運(yùn)是因為本模型具有語義關(guān)系推理能力,一旦添加新的語義推理規(guī)則,就能 夠自適應(yīng)地派生出更多豐富的語義關(guān)系,從而查詢中可W減少不必要的節(jié)點和邊的遍歷, 進(jìn)而降低查詢響應(yīng)時間。
[0159 ] 從圖5至圖10可得出本發(fā)明COSAN方法準(zhǔn)確率與響應(yīng)時間明與現(xiàn)有IOM方法。
[0160]本發(fā)明還可有其它多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,本領(lǐng)域 技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但運(yùn)些相應(yīng)的改變和變形都應(yīng)屬于 本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項】
1. 基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其特征在于基于上下文感知 和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法具體是按照以下步驟進(jìn)行的: 步驟一、構(gòu)建一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型 COSAN; 步驟二、根據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的解釋對象; 步驟三、根據(jù)上下文感知的解釋對象得出上下文感知的基本語義關(guān)聯(lián)和復(fù)雜語義關(guān) 聯(lián); 步驟四、根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜語義關(guān)聯(lián)得出語義關(guān)聯(lián)推理規(guī)則。2. 根據(jù)權(quán)利要求1所述基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其特征 在于:所述步驟一中構(gòu)建一種半結(jié)構(gòu)化圖模型,稱之為上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模 型COSAN;具體過程為: 將上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN定義為一個含標(biāo)簽的有向圖(V,E, Rules),所述復(fù)雜語義關(guān)聯(lián)指NS3,N為語義節(jié)點的個數(shù);N = 2為上下文感知的基本語義關(guān) 聯(lián); 其中,V是語義節(jié)點集合;一個語義節(jié)點表示一個上下文感知的解釋對象0; E= (Esimple,Ec〇mplex)是語乂關(guān)聯(lián)集合; 其中,Esimple表示上下文感知的基本語義關(guān)聯(lián)集合;一個上下文感知的基本語義關(guān)聯(lián)es eESimpie是連接兩個語義節(jié)點的有向邊; Eccimplex表示復(fù)雜語義關(guān)聯(lián)集合;一個復(fù)雜語義關(guān)聯(lián)e。e Eccimplex是指涉及N個語義節(jié)點的 復(fù)雜關(guān)系,N>3; Rules是語義關(guān)聯(lián)推理規(guī)則。3. 根據(jù)權(quán)利要求1或2所述基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其特 征在于:所述步驟二中根據(jù)上下文感知的復(fù)雜語義關(guān)聯(lián)網(wǎng)絡(luò)模型COSAN表示上下文感知的 解釋對象;具體過程為: 步驟二一、定義上下文條件; 一個上下文條件c為dAv,其中, 1. d是上下文條件c的維度名; 2) Λ是一個操作符; 3. V是對應(yīng)維度d的一個值表達(dá)式; 假定:如果操作符為=或者辛,則V由單個上下文維度值組成; 如果操作符為in or not in,則v由一組線性離散的上下文維度值組成,in or not in 為在范圍內(nèi)或不在范圍內(nèi); 如果操作符為be tween ,between- ,between+,or between*,X為V中一個元素,其中x分別 滿足13^^<6,13〈1<6,13^^〈6,13〈1〈6;其中,13為¥的最小值,6為¥的最大值 ; 所述,between為; between-為b〈x<e; between.為b<x〈e; be tween*為b〈x〈e; 將關(guān)鍵字now記為當(dāng)前時間點; 令i為正整數(shù),如果Vc,#,則上下文條件集表示為(:1=[(31,(:2,...(^],否則,記為[],表 示上下文的全集;m取值為正整數(shù);I Si Sm; C1,C2,...⑶為上下文條件; 步驟二二、定義屬性上的上下文感知刻面; 給定語義關(guān)系集合E的一個屬性Ak,屬性Ak上的上下文感知刻面AFk為: 』F^(C,F(xiàn)/),其中, C1是第1個上下文條件集,1取值為正整數(shù); F/是在上下文條件集C1下屬性Ak的值; 步驟二三、定義上下文感知的解釋對象; 一個上下文感知的解釋對象〇是一個四元組(1,%1%乂1,其中, I是對象標(biāo)示符; K是對象類名; τε是上下文感知元組KAk,AFk)},其中Ak是語義關(guān)系集合E的第k個屬性,AF k是屬性Ak的 上下文感知刻面; Xe是上下文感知內(nèi)容{(Cl,Cont1) },其中Ci是第1個上下文條件集,Cont1是在上下文Ci 下的非結(jié)構(gòu)化內(nèi)容。4. 根據(jù)權(quán)利要求3所述基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其特征 在于:所述步驟三中根據(jù)上下文感知的解釋對象得出上下文感知的基本語義關(guān)聯(lián)和復(fù)雜語 義關(guān)聯(lián);具體過程為: 一、 定義上下文感知的基本語義關(guān)聯(lián); 一個上下文感知的基本語義關(guān)聯(lián)為es= (〇m, (namei ,confidence ,context),on), 其中,〇m或者〇n表示一個上下文感知的解釋對象;namei表示基本語義關(guān)聯(lián)^的名稱; conf idence表示基本語義關(guān)聯(lián)es的強(qiáng)度;context表示基本語義關(guān)聯(lián)es的上下文條件集; 二、 定義復(fù)雜語義關(guān)聯(lián); 一個復(fù)雜語義關(guān)聯(lián)定義為e。= (name2,G,order,attr),其中, name2表示復(fù)雜語義關(guān)聯(lián)e。的名稱; G表示由上下文感知的解釋對象集{〇}和語義關(guān)聯(lián)集{e}組成的子圖,其中語義關(guān)聯(lián)集 由上下文感知的基本語義關(guān)聯(lián)es或者復(fù)雜語義關(guān)系e'ci且成,e'c多上下文感知的解釋對 象集由一個上下文感知的解釋對象〇 m或者〇n表示; order表示G中的語義關(guān)系e發(fā)生順序,其中,ei<e2表示語義關(guān)系ei的發(fā)生順序優(yōu)先于 語義關(guān)系e2; attr表示關(guān)于復(fù)雜語義關(guān)系ec的一組屬性約束{(attrk,valuek)},其中,attrk和valuek 分別是e。的第k個屬性和第k個屬性對應(yīng)的值; 如果復(fù)雜語義關(guān)系中多個es不存在順序關(guān)系,則組件order為空集;所述多個為大于等 于2個。5. 根據(jù)權(quán)利要求1、2或4所述基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其 特征在于:所述步驟四中根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜語義關(guān)聯(lián)得出語義關(guān)聯(lián)推 理規(guī)則;具體過程為: 在上下文感知的解釋對象和上下文感知的基本語義關(guān)聯(lián)的基礎(chǔ)上定義三個對象類O1, O2和〇3,三個對象類的三種上下文感知的基本語義關(guān)聯(lián)記為PtC2RP e;[n^pr,,C,]: 則一個語義關(guān)聯(lián)推理規(guī)則定義為伽/微二^^用,^]%^%/^^]々^?,./^^ 記為eX =>.<,其中pr3 = pri · pr2且C3 = Ci 門 C2; 其中,Ci、C2、C3為不同指條件集,ηι、Π 2、η3為不同namei或仙11162,口1'1、口12 413為不同置信 度,<、<、g為N=2時不同的基本語義關(guān)系。6.根據(jù)權(quán)利要求3所述基于上下文感知和復(fù)雜語義關(guān)聯(lián)的數(shù)據(jù)空間建模方法,其特征 在于:所述步驟四中根據(jù)上下文感知的基本語義關(guān)聯(lián)和復(fù)雜語義關(guān)聯(lián)得出語義關(guān)聯(lián)推理規(guī) 則;具體過程為: 在上下文感知的解釋對象和上下文感知的基本語義關(guān)聯(lián)的基礎(chǔ)上定義三個對象類O1, O2和〇3,三個對象類的三種上下文感知的基本語義關(guān)聯(lián)記為g[?2,pr2,C :]和 CJ ; 則一個語義關(guān)聯(lián)推理規(guī)則定義為= F 乂丨, 記為eX 3 <,其中pn = pri · pr2且C3 = CiflC2; 其中,Ci、C2、C3為不同指條件集,m、n2、n3為不同name 1或name2,pri、pr2、pr3為不同置信 度,e|、<、《為N=2時不同的基本語義關(guān)系。
【文檔編號】G06F17/30GK106021297SQ201610289513
【公開日】2016年10月12日
【申請日】2016年5月4日
【發(fā)明人】王念濱, 周連科, 王紅濱, 祝官文, 宋奎勇, 何鳴, 王瑛琦
【申請人】哈爾濱工程大學(xué)