專利名稱:一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法
技術(shù)領(lǐng)域:
本發(fā)明涉及農(nóng)業(yè)語(yǔ)義網(wǎng)絡(luò)與知識(shí)網(wǎng)格領(lǐng)域,公開(kāi)了一種根據(jù)農(nóng)業(yè)領(lǐng)域知識(shí)的變化,通過(guò)優(yōu)化本體學(xué)習(xí)規(guī)則的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法。
背景技術(shù):
隨著語(yǔ)義網(wǎng)的提出和發(fā)展,支持?jǐn)?shù)據(jù)、信息與知識(shí)的交換、共享和復(fù)用已經(jīng)成為當(dāng)今的信息系統(tǒng)要迫切面臨的任務(wù)之一。本體的構(gòu)建使得領(lǐng)域知識(shí)的共享和重用成為可能, 它是用于描述或表達(dá)某一領(lǐng)域知識(shí)或者更大范圍的一組概念或術(shù)語(yǔ)。目前,多數(shù)人認(rèn)同的本體定義是Gruber提出的“本體是共享概念化的明確的形式化的規(guī)范”。基于特定的應(yīng)用領(lǐng)域的規(guī)?;蛟圏c(diǎn)的抽象級(jí)別,可把本體論分成四種元級(jí)本體、通用本體、領(lǐng)域本體和應(yīng)用本體農(nóng)業(yè)本體屬于領(lǐng)域本體的范疇。按照聯(lián)合國(guó)糧農(nóng)組織(FAO)的定義,農(nóng)業(yè)本體是一個(gè)包含農(nóng)業(yè)術(shù)語(yǔ)、定義以及術(shù)語(yǔ)間規(guī)范關(guān)系說(shuō)明的體系。茶學(xué)作為農(nóng)業(yè)科學(xué)的一個(gè)重要分支, 因此構(gòu)建概念清晰,邏輯結(jié)構(gòu)正確的農(nóng)業(yè)領(lǐng)域本體,可以為茶學(xué)知識(shí)服務(wù)更好數(shù)據(jù)支持,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域知識(shí)的交換、共享和復(fù)用。我們?cè)跇?gòu)建農(nóng)業(yè)本體的過(guò)程中,深刻體會(huì)到手工構(gòu)建領(lǐng)域本體是一項(xiàng)復(fù)雜費(fèi)時(shí)的工作。針對(duì)手工構(gòu)建本體出現(xiàn)的種種困難,人們開(kāi)始進(jìn)行自動(dòng)或半自動(dòng)構(gòu)建本體技術(shù)。而本體學(xué)習(xí)(Ontology Learning)正是自動(dòng)或半自動(dòng)構(gòu)建本體的一系列方法和技術(shù),它通過(guò)利用各種數(shù)據(jù)源以自動(dòng)或半自動(dòng)方式新建或擴(kuò)充改編已有本體,由此構(gòu)建一個(gè)新本體,為本體的大規(guī)模構(gòu)建和應(yīng)用指明了方向。本體學(xué)習(xí)的出現(xiàn)有效解決了完全手工方式構(gòu)建本體的耗時(shí)、費(fèi)力,易出現(xiàn)傾向性錯(cuò)誤并且難于做到及時(shí)動(dòng)態(tài)更新等缺點(diǎn)。在過(guò)去十年里,出現(xiàn)了許多本體構(gòu)建工具,這些工具提供了友好的圖形化界面和一致性檢查機(jī)制。借助這些工具,用戶可以把精力集中在本體內(nèi)容的組織上,而不必了解本體描述語(yǔ)言的細(xì)節(jié),而且避免了很多錯(cuò)誤的發(fā)生,方便了本體的構(gòu)建。但是,這些工具提供的僅僅是本體編輯功能,支持的仍然是手工構(gòu)建本體的方式,由于手工方法費(fèi)時(shí)、費(fèi)力,使得本體的構(gòu)建成為一項(xiàng)艱巨的任務(wù)。本體學(xué)習(xí)無(wú)論是在減少人力消耗上,還是在提高本體構(gòu)建的質(zhì)量上,對(duì)本體建模理論的研究都具有極大的推動(dòng)作用。在本體學(xué)習(xí)過(guò)程中,農(nóng)業(yè)知識(shí)語(yǔ)料庫(kù)里的信息,尤其 www,是在持續(xù)增長(zhǎng)并不斷變化的,為了使所建本體更加合理,需要在自動(dòng)或半自動(dòng)構(gòu)建本體時(shí),根據(jù)相關(guān)領(lǐng)域知識(shí)的變化,實(shí)時(shí)地對(duì)本體學(xué)習(xí)規(guī)則進(jìn)行優(yōu)化。
發(fā)明內(nèi)容
本發(fā)明在利用本體學(xué)習(xí)構(gòu)建農(nóng)業(yè)領(lǐng)域本體的過(guò)程中,根據(jù)相關(guān)數(shù)據(jù)源的變動(dòng)、本體服務(wù)的需求,以及對(duì)已建本體的評(píng)估,構(gòu)建基于多Agent的本體學(xué)習(xí)自適應(yīng)調(diào)整的決策系統(tǒng),對(duì)本體學(xué)習(xí)規(guī)則庫(kù)進(jìn)行不斷地改進(jìn),以適應(yīng)外界環(huán)境的變化,更好地構(gòu)建本體。一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,使用多Agent技術(shù)集成預(yù)處理Agent、概念自適應(yīng)提取Agent、概念間分類關(guān)系自適應(yīng)提取Agent、概念間非分類關(guān)系提取Agent和自適應(yīng)Agent。預(yù)處理Agent采用逆向最大匹配算法進(jìn)行分詞預(yù)處理。概念提取Agent在預(yù)處理后,采用互信息技術(shù)、右上下文依賴分析、領(lǐng)域相關(guān)性判斷提取農(nóng)業(yè)領(lǐng)域概念。概念間分類關(guān)系提取Agent,在概念提取后,采用層次聚類的方法提取農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系。概念間非分類關(guān)系提取Agent,在概念提取后,采用基于關(guān)聯(lián)規(guī)則的方法提取農(nóng)業(yè)領(lǐng)域概念間非分類關(guān)系。調(diào)整概念提取Agent的自適應(yīng)Agent通過(guò)計(jì)算已提取概念的準(zhǔn)確率和召回率,結(jié)合貝葉斯網(wǎng)絡(luò)逆向推理,確定需要調(diào)整閾值的環(huán)節(jié),進(jìn)行閾值調(diào)整。調(diào)整概念間分類關(guān)系提取Agent的自適應(yīng)Agent通過(guò)計(jì)算已提取概念間分類關(guān)系的熵和純度,結(jié)合貝葉斯網(wǎng)絡(luò)逆向推理,確定需要調(diào)整閾值的環(huán)節(jié),進(jìn)行閾值調(diào)整。概念提取Agent使用改進(jìn)的合成詞提取算法進(jìn)行合成詞提取,然后通過(guò)領(lǐng)域相關(guān)性判斷,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域概念的自適應(yīng)提取。概念間分類關(guān)系的提取Agent采用概念聚類和簇聚類的層次聚類方法實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系的提取。概念間非分類關(guān)系提取Agent采用基于關(guān)聯(lián)規(guī)則的方法,通過(guò)計(jì)算支持度和置信度判斷概念間是否存在關(guān)系。本發(fā)明的有益技術(shù)效果是在已有研究成果的基礎(chǔ)上,針對(duì)農(nóng)業(yè)領(lǐng)域的本體學(xué)習(xí)的自適應(yīng)問(wèn)題,提出一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,主要包括農(nóng)業(yè)領(lǐng)域概念自適應(yīng)提取,農(nóng)業(yè)領(lǐng)域概念間關(guān)系自適應(yīng)提取和基于多Agent的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)模型集成等。本發(fā)明可以有效的提高農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建的效率,提升所構(gòu)建的農(nóng)業(yè)領(lǐng)域本體質(zhì)量,對(duì)大規(guī)模構(gòu)建農(nóng)業(yè)領(lǐng)域本體,進(jìn)一步建立農(nóng)業(yè)語(yǔ)義網(wǎng)絡(luò)與知識(shí)網(wǎng)格,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域知識(shí)的充分共享和協(xié)同服務(wù),具有一定的理論研究?jī)r(jià)值和實(shí)際意義。
圖1為基于多Agent的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)模型框架。圖2為農(nóng)業(yè)領(lǐng)域概念提取的貝葉斯網(wǎng)絡(luò)圖。圖3為 A、P、R狀態(tài)表。圖4為農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系提取貝葉斯網(wǎng)絡(luò)。圖5農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系提取貝葉斯網(wǎng)絡(luò)狀態(tài)表。
具體實(shí)施例方式以下實(shí)施用例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。構(gòu)建基于多Agent的本體學(xué)習(xí)自適應(yīng)調(diào)整的決策系統(tǒng),根據(jù)相關(guān)數(shù)據(jù)源的變動(dòng)、 本體服務(wù)的需求,以及對(duì)已建本體的評(píng)估,對(duì)本體學(xué)習(xí)規(guī)則庫(kù)進(jìn)行不斷地改進(jìn),以適應(yīng)外界環(huán)境的變化,更好地構(gòu)建本體。1、總體結(jié)構(gòu)
多Agent系統(tǒng)以其具有的協(xié)作能力和高效性、魯棒性等特點(diǎn),被廣泛地應(yīng)用在各個(gè)領(lǐng)域。本發(fā)明將農(nóng)業(yè)領(lǐng)域概念自適應(yīng)提取模塊、概念間關(guān)系自適應(yīng)提取模塊集成為一個(gè)多 Agent系統(tǒng)模型。模型的主要框架如圖1所示,主要包括人機(jī)接口、預(yù)處理Agent、概念提取 Agent、分類關(guān)系提取Agent、非分類關(guān)系提取Agent和自適應(yīng)Agent等六個(gè)部分。(1)模塊功能
人機(jī)接口是為人提供一個(gè)與多Agent系統(tǒng)交互的環(huán)境,通過(guò)人機(jī)接口可以向多Agent 系統(tǒng)輸入農(nóng)業(yè)領(lǐng)域知識(shí)、提供自適應(yīng)Agent所需的貝葉斯網(wǎng)絡(luò)條件概率表、并獲得構(gòu)建好的農(nóng)業(yè)領(lǐng)域本體;
預(yù)處理Agent對(duì)輸入的農(nóng)業(yè)語(yǔ)料進(jìn)行預(yù)處理,包括去標(biāo)點(diǎn)符號(hào)、分詞等,為概念提取 Agent提供分詞后的字符串文本;
概念提取Agent通過(guò)右上下文依賴、互信息技術(shù)和領(lǐng)域相關(guān)性判斷對(duì)預(yù)處理后的語(yǔ)料進(jìn)行概念提取。分類關(guān)系提取Agent主要利用聚類的方法提取概念間分類關(guān)系,其中概念聚類對(duì)采用自下而上的方法對(duì)概念進(jìn)行分類,層次聚類對(duì)已經(jīng)分類的概念進(jìn)行分層,形成分類體系;
非分類關(guān)系提取Agent主要采用關(guān)聯(lián)規(guī)則的方法對(duì)已提取的概念進(jìn)行非分類關(guān)系提
取;
自適應(yīng)Agent是實(shí)現(xiàn)自適應(yīng)性的重要模塊之一,作用于概念提取Agent和分類關(guān)系提取Agent,通過(guò)所輸入的條件概率分布表判斷需要調(diào)整的環(huán)節(jié),并對(duì)該環(huán)節(jié)作出調(diào)整,以實(shí)現(xiàn)自適應(yīng)性。(2)步驟流程
Step 1用戶通過(guò)人機(jī)接口將茶學(xué)語(yǔ)料導(dǎo)入模型系統(tǒng);
Step 2用戶根據(jù)實(shí)驗(yàn)數(shù)據(jù)通過(guò)人機(jī)接口設(shè)定各個(gè)自適應(yīng)Agent的條件概率分布表; Step 3茶學(xué)語(yǔ)料進(jìn)入預(yù)處理Agent進(jìn)行分詞、去標(biāo)點(diǎn)等預(yù)處理程序; Step 4經(jīng)過(guò)預(yù)處理后的茶學(xué)字符串進(jìn)入概念提取Agent,通過(guò)右上下文依賴、互信息技術(shù)、領(lǐng)域相關(guān)性判斷來(lái)進(jìn)行農(nóng)業(yè)領(lǐng)域概念的提??;
Step 5在進(jìn)行農(nóng)業(yè)領(lǐng)域概念提取的過(guò)程中,自適應(yīng)Agent通過(guò)對(duì)準(zhǔn)確率和召回率的計(jì)算,對(duì)概念提取進(jìn)行貝葉斯逆向推理,確定需要調(diào)整閾值的環(huán)節(jié)并進(jìn)行調(diào)整,以實(shí)現(xiàn)概念的自適應(yīng)提??;
Step 6已提取出的農(nóng)業(yè)領(lǐng)域概念,分別進(jìn)入分類關(guān)系提取Agent和非分類關(guān)系提取 Agent 中;
Step 7已提取的農(nóng)業(yè)領(lǐng)域概念在分類關(guān)系提取Agent中通過(guò)概念聚類、層次聚類進(jìn)行農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系的提??;
Step 8在進(jìn)行農(nóng)業(yè)領(lǐng)域概念分類關(guān)系提取的過(guò)程中,自適應(yīng)Agent通過(guò)對(duì)熵和純度的計(jì)算,對(duì)概念間非分類關(guān)系進(jìn)行貝葉斯逆向推理,確定需要調(diào)整閾值的環(huán)節(jié)并進(jìn)行調(diào)整, 以實(shí)現(xiàn)概念間分類關(guān)系的自適應(yīng)提取;
Step 9已提取的農(nóng)業(yè)領(lǐng)域概念在非分類關(guān)系提取Agent中通過(guò)基于關(guān)聯(lián)規(guī)則的方法,對(duì)農(nóng)業(yè)領(lǐng)域非分類關(guān)系進(jìn)行提??;
Step 10根據(jù)已提取好的農(nóng)業(yè)領(lǐng)域概念、概念間分類關(guān)系和非分類關(guān)系構(gòu)建農(nóng)業(yè)領(lǐng)域本體,并通過(guò)人機(jī)界面返回給用戶。
2、農(nóng)業(yè)領(lǐng)域概念自適應(yīng)提取方法
在概念提取方法中,大致可分為基于詞典的方法,基于統(tǒng)計(jì)的方法和基于規(guī)則的方法等。本文中所用到的概念提取技術(shù)都屬于基于統(tǒng)計(jì)的方法。上下文依賴分析(Context Dependency Analysis)是用來(lái)判斷某個(gè)詞語(yǔ)組合是否為一個(gè)完整的詞語(yǔ),通過(guò)分別計(jì)算左上下文依賴參數(shù)和右上下文依賴參數(shù),并與預(yù)先設(shè)置的閾值相比較,判斷詞語(yǔ)組合的完整性。定義設(shè)χ為一詞語(yǔ),L為χ左邊鄰近的詞集合,該集合為分詞后得到的此單元,可以包含單詞,詞語(yǔ)等,R為χ郵編鄰近的詞集合。則左上下文依賴和右上下文依賴分別定義為
左上下文依賴(IXD)
X 具有 LCD,如果 LSize=I L| <tl 或者 MAX α f ( α x)/f (x) >t2,其中 χ 為一詞語(yǔ),L 是 χ 左邊鄰近的詞集合,ti;、代表門(mén)限閾值,f (.)是詞語(yǔ)頻率,α e L,L|是χ左邊鄰近詞語(yǔ)的數(shù)目。右上下文依賴(RLD)
X具有RCD,如果RSize= | R | <、或者M(jìn)AX β f ( β x) /f (χ) H2,其中χ為一詞語(yǔ),R是χ右邊鄰近的詞集合,ti;、代表門(mén)限閾值,f (.)是詞語(yǔ)頻率,α e R,R|是χ右邊鄰近詞語(yǔ)的數(shù)目。(2)領(lǐng)域相關(guān)性判斷
領(lǐng)域相關(guān)性判斷有多種方法,這些方法的主要思想是,通過(guò)公式建立詞語(yǔ)頻度、語(yǔ)料庫(kù)文本之間的關(guān)系,并計(jì)算出領(lǐng)域度值,通過(guò)與閾值的比較,判斷此詞語(yǔ)的領(lǐng)域相關(guān)性。其中比較常用的有
權(quán)利要求
1.一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,使用多Agent技術(shù)集成預(yù)處理Agent、概念自適應(yīng)提取Agent、概念間分類關(guān)系自適應(yīng)提取Agent、概念間非分類關(guān)系提取Agent禾口自適應(yīng)Agent。
2.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,預(yù)處理 Agent采用逆向最大匹配算法進(jìn)行分詞預(yù)處理。
3.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念提取Agent在預(yù)處理后,采用互信息技術(shù)、右上下文依賴分析、領(lǐng)域相關(guān)性判斷提取農(nóng)業(yè)領(lǐng)域概念。
4.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念間分類關(guān)系提取Agent,在概念提取后,采用層次聚類的方法提取農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系。
5.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念間非分類關(guān)系提取Agent,在概念提取后,采用基于關(guān)聯(lián)規(guī)則的方法提取農(nóng)業(yè)領(lǐng)域概念間非分類關(guān)系。
6.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,調(diào)整概念提取Agent的自適應(yīng)Agent通過(guò)計(jì)算已提取概念的準(zhǔn)確率和召回率,結(jié)合貝葉斯網(wǎng)絡(luò)逆向推理,確定需要調(diào)整閾值的環(huán)節(jié),進(jìn)行閾值調(diào)整。
7.如權(quán)利1要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,調(diào)整概念間分類關(guān)系提取Agent的自適應(yīng)Agent通過(guò)計(jì)算已提取概念間分類關(guān)系的熵和純度,結(jié)合貝葉斯網(wǎng)絡(luò)逆向推理,確定需要調(diào)整閾值的環(huán)節(jié),進(jìn)行閾值調(diào)整。
8.如權(quán)利3要求所述的一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念提取Agent使用改進(jìn)的合成詞提取算法進(jìn)行合成詞提取,然后通過(guò)領(lǐng)域相關(guān)性判斷,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域概念的自適應(yīng)提取。
9.如權(quán)利4要求所述的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念間分類關(guān)系的提取Agent采用概念聚類和簇聚類的層次聚類方法實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域概念間分類關(guān)系的提取。
10.如權(quán)利5要求所述的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,其特征在于,概念間非分類關(guān)系提取Agent采用基于關(guān)聯(lián)規(guī)則的方法,通過(guò)計(jì)算支持度和置信度判斷概念間是否存在關(guān)系。
全文摘要
本發(fā)明涉及一種根據(jù)農(nóng)業(yè)領(lǐng)域知識(shí)的變化,通過(guò)優(yōu)化本體學(xué)習(xí)規(guī)則的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法。發(fā)明在已有研究成果的基礎(chǔ)上,針對(duì)農(nóng)業(yè)領(lǐng)域的本體學(xué)習(xí)的自適應(yīng)問(wèn)題,提出一種農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)建模方法,主要包括1、農(nóng)業(yè)領(lǐng)域概念自適應(yīng)提取,2、農(nóng)業(yè)領(lǐng)域概念間關(guān)系自適應(yīng)提取,3、基于多Agent的農(nóng)業(yè)領(lǐng)域本體自適應(yīng)學(xué)習(xí)模型集成等。本發(fā)明可以有效的提高農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建的效率,提升所構(gòu)建的農(nóng)業(yè)領(lǐng)域本體質(zhì)量,對(duì)大規(guī)模構(gòu)建農(nóng)業(yè)領(lǐng)域本體,進(jìn)一步建立農(nóng)業(yè)語(yǔ)義網(wǎng)絡(luò)與知識(shí)網(wǎng)格,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域知識(shí)的充分共享和協(xié)同服務(wù),具有一定的理論研究?jī)r(jià)值和實(shí)際意義。
文檔編號(hào)G06F17/30GK102231151SQ20111012926
公開(kāi)日2011年11月2日 申請(qǐng)日期2011年5月19日 優(yōu)先權(quán)日2011年5月19日
發(fā)明者劉超, 劉金花, 葉瓊, 張友華, 徐濟(jì)成, 李紹穩(wěn), 林瀟, 辜麗川 申請(qǐng)人:安徽農(nóng)業(yè)大學(xué)