基于命名實(shí)體庫的在線知識地圖的制作方法
【專利摘要】本發(fā)明公開了基于命名實(shí)體庫的在線知識地圖,包括以下步驟:步驟1)爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息,得到互聯(lián)網(wǎng)數(shù)據(jù)集;步驟2)抽取命名實(shí)體;步驟3)尋找屬性詞,遍歷步驟1中的互聯(lián)網(wǎng)數(shù)據(jù)集,建立命名實(shí)體與屬性詞關(guān)系集合;步驟4)量化信息,量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系;步驟5)建立知識地圖,通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系,建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu),形成知識地圖;步驟6)更新。本發(fā)明從海量新增網(wǎng)頁文本信息中抽取命名實(shí)體,自動(dòng)地建立實(shí)體節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,根據(jù)知識節(jié)點(diǎn)及其之間的關(guān)聯(lián)關(guān)系建立知識地圖,并能高效地實(shí)現(xiàn)知識地圖的更新。
【專利說明】基于命名實(shí)體庫的在線知識地圖
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種制作知識地圖的方法,具體涉及一種基于命名實(shí)體庫的在線知識地圖。
【背景技術(shù)】
[0002]知識地圖最早由英國情報(bào)學(xué)家B.C.布魯克斯在《情報(bào)學(xué)基礎(chǔ)》中提出情報(bào)學(xué)的真正任務(wù)是組織、加工和整理客官知識,繪制以各個(gè)知識單元為節(jié)點(diǎn)的知識地圖。隨著知識管理研究的發(fā)展,知識地步作為一種組織和管理的重要工具得到了廣泛地研究,被應(yīng)用于知識審計(jì)、知識組織、知識門戶、知識評價(jià)、知識體系等諸多方面。目前國內(nèi)外在知識地圖的生成技術(shù)方面主要有以下幾個(gè)方面:
[0003]迪吉科技有限公司的賀嘉生在2002提出了一種“知識地圖的建立、編輯、檢索與對應(yīng)網(wǎng)絡(luò)上信息內(nèi)容的編輯方法”【CN1448863A】,依據(jù)不同的知識范疇,建立一套向現(xiàn)有知識地圖中新增知識節(jié)點(diǎn)名稱、描述、父節(jié)點(diǎn)、型態(tài)識別碼的方法,接住輸入節(jié)點(diǎn)識別碼修改或刪除知識地圖中的節(jié)點(diǎn)名稱及節(jié)點(diǎn)描述,最終利用知識地圖進(jìn)行搜尋、分類、編輯、檢索,使所匯集的知識、信息圖書館化。
[0004]T.H.0ng等人在2005年提出了“Newsmap: —種在線新聞的知識地圖(Newsmap:Aknowledgemapforonlinenews), ,(Decision SupportSystem, Vol.39, pp.583-597, Apr.2005),通過生成層次化知識地圖的可視化技術(shù)成功的展示了商業(yè)和醫(yī)療的新聞知識。
[0005]Duen-RenLiu等人在2008年提出一種“復(fù)合電子服務(wù)的知識地圖:一種基于挖掘與建議稱合的系統(tǒng)平臺(Knowledgemapsfor compositee-services: AMining-basedsystemplatform couplingwithrecommendations) ” (ExpertSystemwithApplication, 34,pp.700-716, 2008)使用系統(tǒng)記錄中抽取知識模式,輔以數(shù)據(jù)挖掘技術(shù)構(gòu)建知識地圖。
[0006]上海交通大學(xué)的王英林等人在2011年提出了一種“基于本體的知識地圖繪制系統(tǒng)”【CN102184194A】包括本體知識庫、知識地圖標(biāo)示層和知識地圖管理層。該技術(shù)以本體數(shù)據(jù)庫的圖形結(jié)構(gòu)作為基本數(shù)據(jù)結(jié)構(gòu),通過對知識概念和知識關(guān)聯(lián)的抽取表達(dá)來實(shí)現(xiàn)對不同知識地圖的創(chuàng)建需求,并以XML形式輸出到知識地圖顯示系統(tǒng)中。其中本體知識庫存儲通用知識及知識見的關(guān)系,知識地圖表示層和本體知識庫項(xiàng)鏈,并用抽象的知識節(jié)點(diǎn)代替知識庫中的具體知識概念,知識關(guān)聯(lián)引入復(fù)合運(yùn)算,知識地圖管理層與知識地圖標(biāo)示層項(xiàng)鏈管理抽象知識和復(fù)合知識關(guān)聯(lián)的定義并存儲到獨(dú)立的數(shù)據(jù)庫中實(shí)現(xiàn)知識地圖的生成。
[0007]華中科技大學(xué)的金海教授等人在2012年提出了 “一種基于維基百科構(gòu)建概念型知識地圖的方法”【CN102609449A】從維基百科全文數(shù)據(jù)中抽取知識文檔并分析其知識信息存入數(shù)據(jù)庫,以知識節(jié)點(diǎn)格式描述將數(shù)據(jù)庫中的知識轉(zhuǎn)化為概念知識節(jié)點(diǎn)和類別知識節(jié)點(diǎn),并建立索引提供基于關(guān)鍵字的知識檢索。
[0008]銘傳大學(xué)的盧陽正等人在2012年提出的“制作知識地圖的方法”【CN103106232A】以詞匯為中心,知識地圖包含詞匯(t)、多個(gè)關(guān)聯(lián)詞匯(S)及相互間權(quán)重(W),通過建立關(guān)聯(lián)知識集Kt,S,w)}提供查詢服務(wù)。通過詞匯關(guān)聯(lián)和知識集篩選,用κ-mouns算法將關(guān)聯(lián)詞匯分組,輸出知識地圖。
[0009]這些知識地圖的生成技術(shù)需要一個(gè)特定的文檔集或者關(guān)系數(shù)據(jù)庫中抽取出特定方面的信息,每次構(gòu)建知識地圖時(shí)需要重新收集和挖掘必要的信息,面對快速發(fā)展的互聯(lián)網(wǎng)信息很難達(dá)到高效地添加新知識,實(shí)現(xiàn)高效地知識地圖的更新。
【發(fā)明內(nèi)容】
[0010]本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的以上問題,提供一種一種基于命名實(shí)體庫的在線知識地圖,本發(fā)明從海量新增網(wǎng)頁文本信息中抽取命名實(shí)體,自動(dòng)地建立實(shí)體節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,根據(jù)知識節(jié)點(diǎn)及其之間的關(guān)聯(lián)關(guān)系建立知識地圖,并能高效地實(shí)現(xiàn)知識地圖的更新。
[0011]為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
[0012]基于命名實(shí)體庫的在線知識地圖,包括以下步驟:
[0013]步驟I)爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息,得到互聯(lián)網(wǎng)數(shù)據(jù)集;
[0014]步驟2)抽取命名實(shí)體,對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取,得到命名實(shí)體;
[0015]步驟3)尋找屬性詞,遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集,尋找命名實(shí)體與屬性對,建立與命名實(shí)體相關(guān)的屬性集合;
[0016]步驟4)量化信息,量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系,使命名實(shí)體關(guān)聯(lián)屬性詞集;
[0017]步驟5)建立知識地圖,通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系,建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu),形成知識地圖。
[0018]步驟6)更新,在固定周期內(nèi)對拓補(bǔ)結(jié)構(gòu)進(jìn)行更新。
[0019]5、進(jìn)一步的,所述互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信
肩、O
[0020]進(jìn)一步的,遍歷所述步驟2中互聯(lián)網(wǎng)數(shù)據(jù)集的文檔,對每個(gè)文檔標(biāo)簽中的關(guān)鍵字進(jìn)行判別,如果為是則存儲至本地,否則忽略繼續(xù)判別。
[0021]進(jìn)一步的,所述步驟3包括以下過程:
[0022](al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集,以命名實(shí)體為中心,尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞;
[0023](a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系,形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集
入
口 ο
[0024]進(jìn)一步的,所述步驟4的量化信息具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián),建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
[0025]進(jìn)一步的,所述步驟6包括以下過程:
[0026](bl)重新爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息,得到最新的互聯(lián)網(wǎng)數(shù)據(jù)集;
[0027](b2)抽取命名實(shí)體,對最新的互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別并抽取,得到命名實(shí)體;
[0028](b3)尋找屬性詞,遍歷最新的互聯(lián)網(wǎng)數(shù)據(jù)集,尋找命名實(shí)體與屬性對,建立新的命名實(shí)體與屬性集合;[0029](b4)對步驟5中的拓?fù)浣Y(jié)構(gòu)進(jìn)行更新,將新的命名實(shí)體與屬性集合和步驟3中命名實(shí)體與屬性集合進(jìn)行對比,首先對比命名實(shí)體,一致則對比屬性集合,不一致則將新的命名實(shí)體加入知識地圖中并存儲至本地,屬性集合對比一致則繼續(xù)對比,不一致則將新的屬性集合加入知識地圖中關(guān)聯(lián)與之相對應(yīng)的命名實(shí)體并保存至本地;
[0030](b5)量化信息,量化更新后的屬性集合中屬性詞的與命名實(shí)體之間的關(guān)聯(lián)關(guān)系,使命名實(shí)體關(guān)聯(lián)屬性詞集,完成更新。
[0031]本發(fā)明的有益效果是:
[0032]本發(fā)明知識地圖的節(jié)點(diǎn)來自于命名實(shí)體,命名實(shí)體間的關(guān)系來自于命名實(shí)體的屬性,通過建立屬性間的關(guān)聯(lián)關(guān)系,將建立實(shí)體與實(shí)體之間的關(guān)系和權(quán)重,最終建立知識地圖,其中本發(fā)明完全基于一個(gè)開放的互聯(lián)網(wǎng)信息平臺,通過分析知識節(jié)點(diǎn)的屬性之間的集合關(guān)系建立知識節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系和層次關(guān)系,通過分析知識節(jié)點(diǎn)間的關(guān)系頻率和空間位置來制定傳遞函數(shù)。該發(fā)明可以更好地實(shí)現(xiàn)新知識地圖的生成、知識地圖內(nèi)新節(jié)點(diǎn)的銜接、知識節(jié)點(diǎn)內(nèi)容的更新等操作。
[0033]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。本發(fā)明的【具體實(shí)施方式】由以下實(shí)施例及其附圖詳細(xì)給出。
【專利附圖】
【附圖說明】
[0034]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0035]圖1是本發(fā)明的整體結(jié)構(gòu)流程示意圖;
[0036]圖2是本發(fā)明的實(shí)施例的拓補(bǔ)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。
[0038]參照圖1所示,基于命名實(shí)體庫的在線知識地圖,本實(shí)施例主要面向醫(yī)療數(shù)據(jù)方面,醫(yī)療體系的命名實(shí)體包括疾病、藥品、醫(yī)院、患者、醫(yī)生等名稱實(shí)體,這些命名實(shí)體包含病癥、藥品治療的疾病或癥狀、醫(yī)院地址、患者年齡、醫(yī)生頭銜等屬性詞匯。該實(shí)施例選用疾病和藥物作為命名實(shí)體,選用疾病作為實(shí)體詞的屬性,包括以下步驟:
[0039]步驟I)爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)具有醫(yī)療信息的服務(wù)器爬取網(wǎng)頁信息,得到互聯(lián)網(wǎng)數(shù)據(jù)集;互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信息,結(jié)構(gòu)化信息:我們通常接觸的數(shù)據(jù)庫所管理的信息,包括生產(chǎn)、業(yè)務(wù)、交易、客戶信息等方面的記錄。非結(jié)構(gòu)化信息:專業(yè)術(shù)語為內(nèi)容,所涵蓋的信息更為廣泛,可分為:營運(yùn)內(nèi)容(operationalcontent):如合約、發(fā)票、書信與采購記錄;部門內(nèi)容(workgroupcontent):如文書處理、電子表格、簡報(bào)檔案與電子郵件;Web內(nèi)容:如HTML與XML等格式的信息;多媒體內(nèi)容(RichMediaContent):如聲音、影片、圖形等。半結(jié)構(gòu)化數(shù)據(jù):這樣的數(shù)據(jù)和上面兩種類別都不一樣,它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大,因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié)所以不能將數(shù)據(jù)簡單的組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個(gè)表和他對應(yīng)。[0040]因此可以將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息結(jié)合在一起,使用結(jié)構(gòu)化信息來標(biāo)注訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)由帶有結(jié)構(gòu)化信息的非結(jié)構(gòu)化信息構(gòu)成,來訓(xùn)練其他的非結(jié)構(gòu)化信息,用機(jī)器學(xué)習(xí)的算法來構(gòu)建分類器。我們可以選用最大熵模型來實(shí)現(xiàn)上述的分類器。最大熵模型主要基于兩方面因素:特征空間的確定和特征的選擇。它的問題描述是設(shè)最終輸出值構(gòu)成的語言學(xué)類別有限集為Y,對于每個(gè)I屬于Y,其生成均受上下文信息X的影響和約束。已知與I有關(guān)的所有上下文信息組成的集合為X,則模型的目標(biāo)是:給定上下文X屬于X,計(jì)算輸出為I屬于Y的條件概率P (y IX)。
[0041]步驟2)抽取命名實(shí)體,對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取,得到命名實(shí)體;具體為遍歷步驟2中互聯(lián)網(wǎng)數(shù)據(jù)集的文檔,對每個(gè)文檔標(biāo)簽中的關(guān)鍵字進(jìn)行判別,如果為是則存儲至本地,否則忽略繼續(xù)判別,本實(shí)施例通過最大熵模型,通過結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),最后抽取出命名實(shí)體,此處為疾病名字和藥物名字的命名實(shí)體詞,如下:
[0042]疾病實(shí)體詞:干燥綜合征,細(xì)菌性心包炎,咖啡細(xì)菌性疫病,眼底黃斑病等;
[0043]藥物實(shí)體詞:優(yōu)可達(dá),力克保健液,伸筋丹膠囊,鼻通丸等。
[0044]雖然抽取出了命名實(shí)體詞,而網(wǎng)頁數(shù)據(jù)中很多都是來源于非專業(yè)人士,而抽取出的命名實(shí)體詞特別是疾病實(shí)體詞過于學(xué)術(shù),缺少口語性的疾病實(shí)體詞。比如疾病實(shí)體題分裂情感性精神病,三聯(lián)性精神病等,這些詞在普通口語表達(dá)中即為精神病,但是提取出的實(shí)體詞缺少這種口語行疾病名字。我們采用對實(shí)體詞進(jìn)行分詞,提取公共部分的方法,再經(jīng)由人工過濾提取出諸如精神病、感冒等口語性實(shí)體詞同學(xué)術(shù)性實(shí)體詞一起加入到知識庫中。
[0045]步驟3)尋找屬性詞,遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集,尋找命名實(shí)體與屬性對,建立與命名實(shí)體相關(guān)的屬性集合;這個(gè)集合是屬性詞組成的,命名實(shí)體是集合的名稱,內(nèi)容是所有的屬性詞,包括以下過程:
[0046](al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集,以命名實(shí)體為中心,尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞;
[0047](a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系,形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集合;
[0048](a3)屬性集合中如有相同的屬性詞,則合并并記錄出現(xiàn)頻率;此步驟也可在al中遍歷尋找屬性詞時(shí)同時(shí)實(shí)行。
[0049]由于采用的命名實(shí)體詞為疾病名字和藥物名字,所以其屬性詞就是病癥信息,是疾病實(shí)體詞的屬性詞。病癥與疾病或者藥物實(shí)體詞的區(qū)別就在于它并不是專業(yè)的術(shù)語,而是對疾病的描述,因此在知識庫網(wǎng)站或者其他資料網(wǎng)站難以抓取具體的病癥詞匯,所以我們用抓取的具有醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)數(shù)據(jù)集來提取病癥詞匯。
[0050]抽取病癥詞匯基于以下的一個(gè)事實(shí):在患者對醫(yī)生描述病情或者醫(yī)生向患者闡述該病癥狀的過程中,患者和醫(yī)生僅能用有限的詞匯去描述描述,并且這些詞匯多數(shù)是來自于口語,是屬于常見的詞匯。在得到的大數(shù)據(jù)的背景下,一般的癥狀詞匯必然是會被重復(fù)提起,并且不同的病往往會依托于相同的癥狀。所以癥狀詞匯必然是在問題答案集里面出現(xiàn)頻率較高的詞匯。
[0051]在對癥狀詞語進(jìn)行提取時(shí),進(jìn)行簡單的分詞提取出的癥狀詞諸如“發(fā)燒”“發(fā)癢”等詞匯實(shí)際上是對癥狀的不完整描述,而不是癥狀的精確描述,比如“渾身發(fā)癢”或者是“腳心發(fā)癢”才是癥狀的完整描述。因此不能僅僅依靠簡單的分詞,我們使用了 N-gram的切詞技術(shù)來提取癥狀詞匯。針對中文的N-gram的分詞技術(shù),3-grams的效果是最好的,因此分別進(jìn)行3-gram, 2-gram, 1-gram的切詞。根據(jù)上文描述的前提,癥狀詞匯必然是出現(xiàn)頻率比較高的,所以對詞匯的出現(xiàn)頻率進(jìn)行排序,然后選擇排名在前的部分詞匯即可作為屬性詞,然后與命名實(shí)體建立關(guān)聯(lián)關(guān)系。
[0052]步驟4)量化信息,量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系,使命名實(shí)體關(guān)聯(lián)屬性詞集;具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián),建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
[0053]步驟5)建立知識地圖,通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系,建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu),形成知識地圖。知識庫里面有三種詞匯:疾病名字,藥物名字,病癥詞匯。很容易就可以得到這三者的關(guān)系:病癥詞匯是個(gè)特定疾病的描述,特定的疾病能夠被藥物所醫(yī)治,特定的藥物能治愈所描述的病癥。根據(jù)這樣的關(guān)系,我們根據(jù)訓(xùn)練數(shù)據(jù)的問題答案來建立三者之間的關(guān)系。
[0054]我們基于這樣的前提,在問題答案對里面同時(shí)出現(xiàn)的實(shí)體詞詞匯和實(shí)體詞屬性詞匯是相關(guān)的,并且出現(xiàn)的頻率越聞,代表他們的相關(guān)度也越聞。比如:
[0055]問題:腳底很癢長紅點(diǎn)怎么辦?
[0056]答案:可以用達(dá)克寧試試,可以治腳氣。
[0057]在這個(gè)例子中,我們提取出了疾病實(shí)體詞“腳氣”。藥物實(shí)體詞“達(dá)克寧”,以及癥狀詞匯“腳底很癢”和“長紅點(diǎn)”。那么我們認(rèn)為這三種詞匯是有聯(lián)系的,如達(dá)克寧可以治療腳氣,腳底很癢和長紅點(diǎn)是疾病腳氣的描述癥狀。
[0058]根據(jù)出現(xiàn)的頻率越高,代表相關(guān)度越高的概念,我們采用同現(xiàn)頻率來表示他們的關(guān)聯(lián)度。假設(shè)兩個(gè)詞語W1和W2,在所有的訓(xùn)練樣例中,詞匯W1出現(xiàn)的次數(shù)為N1,詞匯W2出現(xiàn)的次數(shù)為N2,而兩個(gè)詞匯同時(shí)出現(xiàn)的次數(shù)為F12,那么計(jì)算同現(xiàn)頻率的公式為:
【權(quán)利要求】
1.基于命名實(shí)體庫的在線知識地圖,其特征在于:包括以下步驟: 步驟I)爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息,得到互聯(lián)網(wǎng)數(shù)據(jù)集; 步驟2)抽取命名實(shí)體,對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取,得到命名實(shí)體; 步驟3)尋找并建立集合,遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集,尋找命名實(shí)體與屬性對,建立與命名實(shí)體相關(guān)的屬性集合; 步驟4)量化信息,量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系,使命名實(shí)體關(guān)聯(lián)屬性詞集; 步驟5)建立知識地圖,通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系,建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu),形成知識地圖; 步驟6)更新,在設(shè)定周期內(nèi)對拓?fù)浣Y(jié)構(gòu)進(jìn)行更新。
2.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖,其特征在于:所述互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信息。
3.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖,其特征在于:遍歷所述步驟2中命名實(shí)體的判別是將互聯(lián)網(wǎng)數(shù)據(jù)集的文檔中的關(guān)鍵詞所屬結(jié)構(gòu)作為分類標(biāo)簽進(jìn)行多維度識別。
4.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖,其特征在于:所述步驟3包括以下過程: (al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集,以命名實(shí)體為中心,尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞; (a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系,形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集合。
5.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖,其特征在于:所述步驟4的量化信息具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián),建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
6.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖,其特征在于:所述步驟6包括以下過程: (bl)重新爬取網(wǎng)頁,向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息,得到最新的互聯(lián)網(wǎng)數(shù)據(jù)集; (b2)抽取命名實(shí)體,對最新的互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別并抽取,得到命名實(shí)體;(b3)尋找屬性詞,遍歷最新的互聯(lián)網(wǎng)數(shù)據(jù)集,尋找命名實(shí)體與屬性對,建立新的命名實(shí)體與屬性集合; (b4)對步驟5中的拓?fù)浣Y(jié)構(gòu)進(jìn)行更新,將新的命名實(shí)體與屬性集合和步驟3中命名實(shí)體與屬性集合進(jìn)行對比,首先對比命名實(shí)體,一致則對比屬性集合,不一致則將新的命名實(shí)體加入知識地圖中并存儲至本地,屬性集合對比一致則繼續(xù)對比,不一致則將新的屬性集合加入知識地圖中關(guān)聯(lián)與之相對應(yīng)的命名實(shí)體并保存至本地; (b5)量化信息,量化更新后的屬性集合中屬性詞的與命名實(shí)體之間的關(guān)聯(lián)關(guān)系,使命名實(shí)體關(guān)聯(lián)屬性詞集,完成更新。
【文檔編號】G06F17/30GK103955531SQ201410199271
【公開日】2014年7月30日 申請日期:2014年5月12日 優(yōu)先權(quán)日:2014年5月12日
【發(fā)明者】李華康, 過敏意, 沈耀 申請人:南京提坦信息科技有限公司