一種基于語義本體的案例表示方法

文檔序號：6419374閱讀：759來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于語義本體的案例表示方法
技術(shù)領(lǐng)域：
本發(fā)明涉及案例的表示方法，尤其是涉及一種基于語義本體的案例表示方法。
背景技術(shù)：
傳統(tǒng)的基于關(guān)鍵字的表示方法不能真正表達文本的語義信息，而且主觀性很強，關(guān)鍵字標注工作量大。后來的基于詞頻的文本表示方法雖然部分強調(diào)術(shù)語的主要性，但是不能完全反映該術(shù)語在一篇文檔中的重要性。由于本體能夠描述概念的內(nèi)涵及概念與概念之間的語義關(guān)系，并具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持，因此在信息檢索領(lǐng)域，特別是在基于語義和知識的檢索中得到了廣泛的應(yīng)用。本體是共享概念模型的明確的形式化規(guī)范說明，是概念化的精細描述，亦可以將本體看作是知識的集合，概念是現(xiàn)象的抽象模型?，F(xiàn)有的各種本體無論其在表達上采用的究竟是何種語言，在結(jié)構(gòu)上都具有相似性，大多數(shù)本體描述的都是個體(實例)、類(概念)、屬性以及關(guān)系。個體(實例)即基礎(chǔ)的、底層的對象，也即實例；類是集合(sets)、概念、對象類型或者說事物的種類，本發(fā)明稱之為概念；屬性是對象(和類)所可能具有的屬性、特征、特性、特點和參數(shù)，利用屬性可以描述一個概念，也即概念可以用屬性來表達；關(guān)系則指類與個體之間的彼此關(guān)聯(lián)所可能具有的方式，最典型的關(guān)系即父子關(guān)系。本體可以分為三種，領(lǐng)域本體(domain ontology)所建模的是某個特定領(lǐng)域，或者現(xiàn)實世界的一部分，它所表達的是那些適合于該領(lǐng)域的那些術(shù)語的特殊含義；上層本體是指一種由那些在各種各樣的領(lǐng)域本體之中都普遍適用的共同對象所構(gòu)成的模型，目前，存在著幾部現(xiàn)成可用的標準化上層本體，包括都柏林核心、WordNet ；表示本體則指將具體的一個集合用領(lǐng)域本體表示出來，并構(gòu)建成一棵表示本體樹出來，如將一篇文檔按照某個領(lǐng) 域本體的標準構(gòu)建成一棵本體樹，這棵本體樹就稱之為該文檔的表示本體。隨著那些依賴于領(lǐng)域本體的系統(tǒng)的擴展，它們往往需要將不同的領(lǐng)域本體合并成一部更為通用的表達形式。對于本體設(shè)計者來說，這就提出了一項富有挑戰(zhàn)性的難題。在同一領(lǐng)域內(nèi)，由于文化背景、受教育程度以及意識形態(tài)的不同所造成的，對于該領(lǐng)域感知 (perceptions)情況的不同，或者因為所采用的表達語言的不同，還可能出現(xiàn)不同的本體。當前，對于那些并非依據(jù)同一部基礎(chǔ)本體所編制的本體的合并工作，在很大程度上還是一種手工過程，因而既耗費時間又成本高昂。那些利用同一部基礎(chǔ)本體所提供的一套基本元素來規(guī)定領(lǐng)域本體元素之含義的領(lǐng)域本體，則可以實現(xiàn)自動化的合并。目前，存在著多項針對本體合并方面的通用技術(shù)方法的研究工作，但這個方面的研究在很大程度上依然還處于理論層面。用于編纂本體的軟件編輯器稱為“本體編輯器(ontology editor) 有時又稱為“本體論編輯器”。Protege就是其中之一，本發(fā)明所手動創(chuàng)建的本體就是使用 Prot6g6工具來生成的。而本發(fā)明所使用的本體包括領(lǐng)域本體和表示本體，其中領(lǐng)域本體可以是各種領(lǐng)域的。包括營銷、醫(yī)藥、衛(wèi)生、環(huán)保等等。在后面的具體實施方法中本發(fā)明將以營銷領(lǐng)域本體為例子闡述如何創(chuàng)建領(lǐng)域本體和如何進行表示本體的構(gòu)建。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有方法存在的缺陷而提供一種能最大程度地減少語義缺失問題并較好的支持案例語義相似度計算的基于語義本體的案例表示方法。本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn)一種基于語義本體的案例表示方法，其特征在于，使用本體的四元組這種結(jié)構(gòu)化的形式來表達非結(jié)構(gòu)化的案例，支持案例的形式化推理和檢索，支持案例的相似度計算以及案例庫的自動構(gòu)建，該方法包括以下步驟1)構(gòu)造基于案例所屬領(lǐng)域的知識本體，該知識本體包括概念集、屬性集、實例集與關(guān)系集；2)根據(jù)構(gòu)造的知識本體對給定的案例進行分詞，并得到一個概念集；3)對所述的概念集的屬性進行解析并擴展，得到基于概念集的屬性集；4)從領(lǐng)域本體的擴展概念集中的隱藏概念得出與概念集相關(guān)的關(guān)系集；5)案例通過概念集、屬性集、實例集、關(guān)系集的語義表示；6)通過案例之間的相似度計算方法來建立案例表示模型。所述的步驟1)的構(gòu)造知識本體包括以下步驟11)在領(lǐng)域本體創(chuàng)建的初始階段，列舉出所有概念，不考慮所列舉概念之間的意思是否重疊與這些概念以何種方式表達，所述的方式包括類、屬性與實例；12)步驟11)中已產(chǎn)生領(lǐng)域中大量的概念，按照一定的邏輯規(guī)則對這些概念進行分組，形成不同的工作領(lǐng)域，在同一工作領(lǐng)域的概念，對其中的每一個概念的重要性進行評估，選出關(guān)鍵性術(shù)語，摒棄那些不必要或者超出領(lǐng)域范圍的概念，得到領(lǐng)域本體的框架結(jié) 構(gòu)；13)設(shè)計元本體，重用已有的本體，定義領(lǐng)域中概念及概念之間的關(guān)系。所述的步驟6)中的相似度計算方法如下Sim(Dl，D2)表示案例文檔Dl和案例文檔D2的相似度，計算方法如下Sim(D1, D2) = wlSim(ei, ej)+w2Sim(pi, pj)+w3Sim(ri, rj)+w4Sim(Ii, Ij)；其中wl、w2、w3和w4是權(quán)重，Sim(ei，ej)表示概念相似度，Sim (pi，pj)表示屬性的相似度，Sim(ri，rj)表示關(guān)系的相似度，Sim(Ii，Ij)表示實例相似度，而Sim(ei，ej) 計算方法如下Sim (pi, pj)、Sim(ri, r j)、Sim(Ii，Ij)與 Sim(ei，ej)計算方法相同，僅把公式 (1)中的(ei，ej)分別換成(pi，pj)、(ri，rj)、(Ii，Ij)即可。
權(quán)利要求
1.一種基于語義本體的案例表示方法，其特征在于，使用本體的四元組這種結(jié)構(gòu)化的形式來表達非結(jié)構(gòu)化的案例，支持案例的形式化推理和檢索，支持案例的相似度計算以及案例庫的自動構(gòu)建，該方法包括以下步驟1)構(gòu)造基于案例所屬領(lǐng)域的知識本體，該知識本體包括概念集、屬性集、實例集與關(guān)系集；2)根據(jù)構(gòu)造的知識本體對給定的案例進行分詞，并得到一個概念集；3)對所述的概念集的屬性進行解析并擴展，得到基于概念集的屬性集；4)從領(lǐng)域本體的擴展概念集中的隱藏概念得出與概念集相關(guān)的關(guān)系集；5)案例通過概念集、屬性集、實例集、關(guān)系集的語義表示；6)通過案例之間的相似度計算方法來建立案例表示模型。
2.根據(jù)權(quán)利要求1所述的一種用基于語義本體的案例表示方法，其特征在于，所述的步驟1)的構(gòu)造知識本體包括以下步驟11)在領(lǐng)域本體創(chuàng)建的初始階段，列舉出所有概念，不考慮所列舉概念之間的意思是否重疊與這些概念以何種方式表達，所述的方式包括類、屬性與實例；12)步驟11)中已產(chǎn)生領(lǐng)域中大量的概念，按照一定的邏輯規(guī)則對這些概念進行分組，形成不同的工作領(lǐng)域，在同一工作領(lǐng)域的概念，對其中的每一個概念的重要性進行評估，選出關(guān)鍵性術(shù)語，摒棄那些不必要或者超出領(lǐng)域范圍的概念，得到領(lǐng)域本體的框架結(jié)構(gòu)；13)設(shè)計元本體，重用已有的本體，定義領(lǐng)域中概念及概念之間的關(guān)系。
3.根據(jù)權(quán)利要求1所述的一種用基于語義本體的案例表示方法，其特征在于，所述的步驟6)中的相似度計算方法如下Sim(Dl, D2)表示案例文檔Dl和案例文檔D2的相似度，計算方法如下 Sim(Dl, D2) = wlSim(ei, ej) +w2Sim(pi, pj) +w3Sim(ri, rj) +w4Sim(Ii, Ij)；其中wl、w2、w3和w4是權(quán)重，Sim(ei,ej)表示概念相似度，Sim (pi, ρ j)表示屬性的相似度，Sim(ri，rj)表示關(guān)系的相似度，Sim(Ii，I j)表示實例相似度，而Sim (ei，ej)計算方Sim (pi, ρ j), Sim (ri, r j), Sim (Ii, Ij)與 Sim(ei，ej)計算方法相同，僅把公式(1)中的(ei，ej)分別換成(pi，pj)、(ri, rj)、(Ii，Ij)即可。
4.根據(jù)權(quán)利要求1所述的一種用基于語義本體的案例表示方法，其特征在于，所述的概念集是案例文檔中關(guān)鍵的領(lǐng)域知識術(shù)語的集合。
5.根據(jù)權(quán)利要求1所述的一種基于語義本體的案例表示方法，其特征在于，所述的屬性集是以描述概念的特征的一系列參數(shù)的集合。
6.根據(jù)權(quán)利要求1所述的一種基于語義本體的案例表示方法，其特征在于，所述的實例集是概念的具體對象的集合。
7.根據(jù)權(quán)利要求1所述的一種基于語義本體的案例表示方法，其特征在于，所述的關(guān)法如下系集是概念之間的語義關(guān)系的集合。
8.根據(jù)權(quán)利要求1或5所述的一種基于語義本體的案例表示方法，其特征在于，所述的屬性集包括domain定義域和range值域，所述的domain為使用同一個參數(shù)的概念的集合， range為指用以描述domain中概念的且被屬性修飾的概念的集合。
9.根據(jù)權(quán)利要求3所述的一種基于語義本體的案例表示方法，其特征在于，所述的wl =w2 = w3 = w4 = 0. 25。
全文摘要
本發(fā)明涉及一種基于語義本體的案例表示方法，該方法包括以下步驟1)構(gòu)造基于案例所屬領(lǐng)域的知識本體，該知識本體包括概念集、屬性集、實例集與關(guān)系集；2)根據(jù)構(gòu)造的知識本體對給定的案例進行分詞，并得到一個概念集；3)對所述的概念集的屬性進行解析并擴展，得到基于概念集的屬性集；4)從領(lǐng)域本體的擴展概念集中的隱藏概念得出與概念集相關(guān)的關(guān)系集；5)案例通過概念集、屬性集、實例集、關(guān)系集的語義表示；6)通過案例之間的相似度計算方法來建立案例表示模型。與現(xiàn)有技術(shù)相比，本發(fā)明具有能夠極大程度地減少語義缺失問題，減少概念歧義的產(chǎn)生，能較好地支持案例語義相似度的計算等優(yōu)點。
文檔編號G06F17/30GK102141993SQ201010104649
公開日2011年8月3日申請日期2010年2月2日優(yōu)先權(quán)日2010年2月2日
發(fā)明者向陽, 孫繼鵬, 張波, 張?zhí)N婧, 王光亮, 王棟, 陳千申請人:同濟大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：向陽;陳千;王棟;張波;張?zhí)N婧;王光亮;孫繼鵬
技術(shù)所有人：同濟大學(xué)
我是此專利的發(fā)明人

上一篇：一種普洱茶品質(zhì)提升和品質(zhì)鑒證的新方法
上一篇：地鐵隔斷門門扇的有限元分析及優(yōu)化的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語義本體相關(guān)技術(shù)

語義網(wǎng)和本體的關(guān)系相關(guān)技術(shù)

語義網(wǎng)絡(luò)表示法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于語義本體的案例表示方法