基于命名實(shí)體庫的在線知識地圖的制作方法

文檔序號：6546339閱讀：178來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于命名實(shí)體庫的在線知識地圖的制作方法
【專利摘要】本發(fā)明公開了基于命名實(shí)體庫的在線知識地圖，包括以下步驟：步驟1)爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息，得到互聯(lián)網(wǎng)數(shù)據(jù)集；步驟2)抽取命名實(shí)體；步驟3)尋找屬性詞，遍歷步驟1中的互聯(lián)網(wǎng)數(shù)據(jù)集，建立命名實(shí)體與屬性詞關(guān)系集合；步驟4)量化信息，量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系；步驟5)建立知識地圖，通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系，建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu)，形成知識地圖；步驟6)更新。本發(fā)明從海量新增網(wǎng)頁文本信息中抽取命名實(shí)體，自動(dòng)地建立實(shí)體節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系，根據(jù)知識節(jié)點(diǎn)及其之間的關(guān)聯(lián)關(guān)系建立知識地圖，并能高效地實(shí)現(xiàn)知識地圖的更新。
【專利說明】基于命名實(shí)體庫的在線知識地圖
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種制作知識地圖的方法，具體涉及一種基于命名實(shí)體庫的在線知識地圖。
【背景技術(shù)】
[0002]知識地圖最早由英國情報(bào)學(xué)家B.C.布魯克斯在《情報(bào)學(xué)基礎(chǔ)》中提出情報(bào)學(xué)的真正任務(wù)是組織、加工和整理客官知識，繪制以各個(gè)知識單元為節(jié)點(diǎn)的知識地圖。隨著知識管理研究的發(fā)展，知識地步作為一種組織和管理的重要工具得到了廣泛地研究，被應(yīng)用于知識審計(jì)、知識組織、知識門戶、知識評價(jià)、知識體系等諸多方面。目前國內(nèi)外在知識地圖的生成技術(shù)方面主要有以下幾個(gè)方面:
[0003]迪吉科技有限公司的賀嘉生在2002提出了一種“知識地圖的建立、編輯、檢索與對應(yīng)網(wǎng)絡(luò)上信息內(nèi)容的編輯方法”【CN1448863A】，依據(jù)不同的知識范疇，建立一套向現(xiàn)有知識地圖中新增知識節(jié)點(diǎn)名稱、描述、父節(jié)點(diǎn)、型態(tài)識別碼的方法，接住輸入節(jié)點(diǎn)識別碼修改或刪除知識地圖中的節(jié)點(diǎn)名稱及節(jié)點(diǎn)描述，最終利用知識地圖進(jìn)行搜尋、分類、編輯、檢索，使所匯集的知識、信息圖書館化。
[0004]T.H.0ng等人在2005年提出了“Newsmap: —種在線新聞的知識地圖(Newsmap:Aknowledgemapforonlinenews)，，(Decision SupportSystem, Vol.39, pp.583-597, Apr.2005),通過生成層次化知識地圖的可視化技術(shù)成功的展示了商業(yè)和醫(yī)療的新聞知識。
[0005]Duen-RenLiu等人在2008年提出一種“復(fù)合電子服務(wù)的知識地圖:一種基于挖掘與建議稱合的系統(tǒng)平臺(Knowledgemapsfor compositee-services: AMining-basedsystemplatform couplingwithrecommendations) ” (ExpertSystemwithApplication, 34，pp.700-716, 2008)使用系統(tǒng)記錄中抽取知識模式,輔以數(shù)據(jù)挖掘技術(shù)構(gòu)建知識地圖。
[0006]上海交通大學(xué)的王英林等人在2011年提出了一種“基于本體的知識地圖繪制系統(tǒng)”【CN102184194A】包括本體知識庫、知識地圖標(biāo)示層和知識地圖管理層。該技術(shù)以本體數(shù)據(jù)庫的圖形結(jié)構(gòu)作為基本數(shù)據(jù)結(jié)構(gòu)，通過對知識概念和知識關(guān)聯(lián)的抽取表達(dá)來實(shí)現(xiàn)對不同知識地圖的創(chuàng)建需求，并以XML形式輸出到知識地圖顯示系統(tǒng)中。其中本體知識庫存儲通用知識及知識見的關(guān)系，知識地圖表示層和本體知識庫項(xiàng)鏈，并用抽象的知識節(jié)點(diǎn)代替知識庫中的具體知識概念，知識關(guān)聯(lián)引入復(fù)合運(yùn)算，知識地圖管理層與知識地圖標(biāo)示層項(xiàng)鏈管理抽象知識和復(fù)合知識關(guān)聯(lián)的定義并存儲到獨(dú)立的數(shù)據(jù)庫中實(shí)現(xiàn)知識地圖的生成。
[0007]華中科技大學(xué)的金海教授等人在2012年提出了 “一種基于維基百科構(gòu)建概念型知識地圖的方法”【CN102609449A】從維基百科全文數(shù)據(jù)中抽取知識文檔并分析其知識信息存入數(shù)據(jù)庫，以知識節(jié)點(diǎn)格式描述將數(shù)據(jù)庫中的知識轉(zhuǎn)化為概念知識節(jié)點(diǎn)和類別知識節(jié)點(diǎn)，并建立索引提供基于關(guān)鍵字的知識檢索。
[0008]銘傳大學(xué)的盧陽正等人在2012年提出的“制作知識地圖的方法”【CN103106232A】以詞匯為中心，知識地圖包含詞匯(t)、多個(gè)關(guān)聯(lián)詞匯(S)及相互間權(quán)重(W)，通過建立關(guān)聯(lián)知識集Kt，S，w)}提供查詢服務(wù)。通過詞匯關(guān)聯(lián)和知識集篩選，用κ-mouns算法將關(guān)聯(lián)詞匯分組，輸出知識地圖。
[0009]這些知識地圖的生成技術(shù)需要一個(gè)特定的文檔集或者關(guān)系數(shù)據(jù)庫中抽取出特定方面的信息，每次構(gòu)建知識地圖時(shí)需要重新收集和挖掘必要的信息，面對快速發(fā)展的互聯(lián)網(wǎng)信息很難達(dá)到高效地添加新知識，實(shí)現(xiàn)高效地知識地圖的更新。

【發(fā)明內(nèi)容】

[0010]本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的以上問題，提供一種一種基于命名實(shí)體庫的在線知識地圖，本發(fā)明從海量新增網(wǎng)頁文本信息中抽取命名實(shí)體，自動(dòng)地建立實(shí)體節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系，根據(jù)知識節(jié)點(diǎn)及其之間的關(guān)聯(lián)關(guān)系建立知識地圖，并能高效地實(shí)現(xiàn)知識地圖的更新。
[0011]為實(shí)現(xiàn)上述技術(shù)目的，達(dá)到上述技術(shù)效果，本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
[0012]基于命名實(shí)體庫的在線知識地圖，包括以下步驟:
[0013]步驟I)爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息，得到互聯(lián)網(wǎng)數(shù)據(jù)集；
[0014]步驟2)抽取命名實(shí)體，對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取，得到命名實(shí)體；
[0015]步驟3)尋找屬性詞，遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集，尋找命名實(shí)體與屬性對，建立與命名實(shí)體相關(guān)的屬性集合；
[0016]步驟4)量化信息，量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系，使命名實(shí)體關(guān)聯(lián)屬性詞集；
[0017]步驟5)建立知識地圖，通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系，建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu)，形成知識地圖。
[0018]步驟6)更新，在固定周期內(nèi)對拓補(bǔ)結(jié)構(gòu)進(jìn)行更新。
[0019]5、進(jìn)一步的，所述互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信
肩、O
[0020]進(jìn)一步的，遍歷所述步驟2中互聯(lián)網(wǎng)數(shù)據(jù)集的文檔，對每個(gè)文檔標(biāo)簽中的關(guān)鍵字進(jìn)行判別，如果為是則存儲至本地，否則忽略繼續(xù)判別。
[0021]進(jìn)一步的，所述步驟3包括以下過程:
[0022](al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集，以命名實(shí)體為中心，尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞；
[0023](a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系，形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集
入
口 ο
[0024]進(jìn)一步的，所述步驟4的量化信息具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián)，建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
[0025]進(jìn)一步的，所述步驟6包括以下過程:
[0026](bl)重新爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息，得到最新的互聯(lián)網(wǎng)數(shù)據(jù)集；
[0027](b2)抽取命名實(shí)體，對最新的互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別并抽取，得到命名實(shí)體；
[0028](b3)尋找屬性詞，遍歷最新的互聯(lián)網(wǎng)數(shù)據(jù)集，尋找命名實(shí)體與屬性對，建立新的命名實(shí)體與屬性集合；[0029](b4)對步驟5中的拓?fù)浣Y(jié)構(gòu)進(jìn)行更新，將新的命名實(shí)體與屬性集合和步驟3中命名實(shí)體與屬性集合進(jìn)行對比，首先對比命名實(shí)體，一致則對比屬性集合，不一致則將新的命名實(shí)體加入知識地圖中并存儲至本地，屬性集合對比一致則繼續(xù)對比，不一致則將新的屬性集合加入知識地圖中關(guān)聯(lián)與之相對應(yīng)的命名實(shí)體并保存至本地；
[0030](b5)量化信息，量化更新后的屬性集合中屬性詞的與命名實(shí)體之間的關(guān)聯(lián)關(guān)系，使命名實(shí)體關(guān)聯(lián)屬性詞集，完成更新。
[0031]本發(fā)明的有益效果是:
[0032]本發(fā)明知識地圖的節(jié)點(diǎn)來自于命名實(shí)體，命名實(shí)體間的關(guān)系來自于命名實(shí)體的屬性，通過建立屬性間的關(guān)聯(lián)關(guān)系，將建立實(shí)體與實(shí)體之間的關(guān)系和權(quán)重，最終建立知識地圖，其中本發(fā)明完全基于一個(gè)開放的互聯(lián)網(wǎng)信息平臺，通過分析知識節(jié)點(diǎn)的屬性之間的集合關(guān)系建立知識節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系和層次關(guān)系，通過分析知識節(jié)點(diǎn)間的關(guān)系頻率和空間位置來制定傳遞函數(shù)。該發(fā)明可以更好地實(shí)現(xiàn)新知識地圖的生成、知識地圖內(nèi)新節(jié)點(diǎn)的銜接、知識節(jié)點(diǎn)內(nèi)容的更新等操作。
[0033]上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，并可依照說明書的內(nèi)容予以實(shí)施，以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。本發(fā)明的【具體實(shí)施方式】由以下實(shí)施例及其附圖詳細(xì)給出。
【專利附圖】

【附圖說明】
[0034]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0035]圖1是本發(fā)明的整體結(jié)構(gòu)流程示意圖；
[0036]圖2是本發(fā)明的實(shí)施例的拓補(bǔ)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]下面將參考附圖并結(jié)合實(shí)施例，來詳細(xì)說明本發(fā)明。
[0038]參照圖1所示，基于命名實(shí)體庫的在線知識地圖，本實(shí)施例主要面向醫(yī)療數(shù)據(jù)方面，醫(yī)療體系的命名實(shí)體包括疾病、藥品、醫(yī)院、患者、醫(yī)生等名稱實(shí)體，這些命名實(shí)體包含病癥、藥品治療的疾病或癥狀、醫(yī)院地址、患者年齡、醫(yī)生頭銜等屬性詞匯。該實(shí)施例選用疾病和藥物作為命名實(shí)體，選用疾病作為實(shí)體詞的屬性，包括以下步驟:
[0039]步驟I)爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)具有醫(yī)療信息的服務(wù)器爬取網(wǎng)頁信息，得到互聯(lián)網(wǎng)數(shù)據(jù)集；互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信息，結(jié)構(gòu)化信息:我們通常接觸的數(shù)據(jù)庫所管理的信息，包括生產(chǎn)、業(yè)務(wù)、交易、客戶信息等方面的記錄。非結(jié)構(gòu)化信息:專業(yè)術(shù)語為內(nèi)容，所涵蓋的信息更為廣泛，可分為:營運(yùn)內(nèi)容(operationalcontent):如合約、發(fā)票、書信與采購記錄；部門內(nèi)容(workgroupcontent):如文書處理、電子表格、簡報(bào)檔案與電子郵件;Web內(nèi)容:如HTML與XML等格式的信息；多媒體內(nèi)容(RichMediaContent):如聲音、影片、圖形等。半結(jié)構(gòu)化數(shù)據(jù):這樣的數(shù)據(jù)和上面兩種類別都不一樣，它是結(jié)構(gòu)化的數(shù)據(jù)，但是結(jié)構(gòu)變化很大，因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié)所以不能將數(shù)據(jù)簡單的組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理，由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個(gè)表和他對應(yīng)。[0040]因此可以將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息結(jié)合在一起，使用結(jié)構(gòu)化信息來標(biāo)注訓(xùn)練數(shù)據(jù)，訓(xùn)練數(shù)據(jù)由帶有結(jié)構(gòu)化信息的非結(jié)構(gòu)化信息構(gòu)成，來訓(xùn)練其他的非結(jié)構(gòu)化信息，用機(jī)器學(xué)習(xí)的算法來構(gòu)建分類器。我們可以選用最大熵模型來實(shí)現(xiàn)上述的分類器。最大熵模型主要基于兩方面因素:特征空間的確定和特征的選擇。它的問題描述是設(shè)最終輸出值構(gòu)成的語言學(xué)類別有限集為Y，對于每個(gè)I屬于Y，其生成均受上下文信息X的影響和約束。已知與I有關(guān)的所有上下文信息組成的集合為X，則模型的目標(biāo)是:給定上下文X屬于X，計(jì)算輸出為I屬于Y的條件概率P (y IX)。
[0041]步驟2)抽取命名實(shí)體，對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取，得到命名實(shí)體；具體為遍歷步驟2中互聯(lián)網(wǎng)數(shù)據(jù)集的文檔，對每個(gè)文檔標(biāo)簽中的關(guān)鍵字進(jìn)行判別，如果為是則存儲至本地，否則忽略繼續(xù)判別，本實(shí)施例通過最大熵模型，通過結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，最后抽取出命名實(shí)體，此處為疾病名字和藥物名字的命名實(shí)體詞，如下:
[0042]疾病實(shí)體詞:干燥綜合征，細(xì)菌性心包炎，咖啡細(xì)菌性疫病，眼底黃斑病等；
[0043]藥物實(shí)體詞:優(yōu)可達(dá)，力克保健液，伸筋丹膠囊，鼻通丸等。
[0044]雖然抽取出了命名實(shí)體詞，而網(wǎng)頁數(shù)據(jù)中很多都是來源于非專業(yè)人士，而抽取出的命名實(shí)體詞特別是疾病實(shí)體詞過于學(xué)術(shù),缺少口語性的疾病實(shí)體詞。比如疾病實(shí)體題分裂情感性精神病，三聯(lián)性精神病等，這些詞在普通口語表達(dá)中即為精神病，但是提取出的實(shí)體詞缺少這種口語行疾病名字。我們采用對實(shí)體詞進(jìn)行分詞，提取公共部分的方法，再經(jīng)由人工過濾提取出諸如精神病、感冒等口語性實(shí)體詞同學(xué)術(shù)性實(shí)體詞一起加入到知識庫中。
[0045]步驟3)尋找屬性詞，遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集，尋找命名實(shí)體與屬性對，建立與命名實(shí)體相關(guān)的屬性集合；這個(gè)集合是屬性詞組成的，命名實(shí)體是集合的名稱，內(nèi)容是所有的屬性詞，包括以下過程:
[0046](al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集，以命名實(shí)體為中心，尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞；
[0047](a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系，形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集合；
[0048](a3)屬性集合中如有相同的屬性詞，則合并并記錄出現(xiàn)頻率；此步驟也可在al中遍歷尋找屬性詞時(shí)同時(shí)實(shí)行。
[0049]由于采用的命名實(shí)體詞為疾病名字和藥物名字,所以其屬性詞就是病癥信息,是疾病實(shí)體詞的屬性詞。病癥與疾病或者藥物實(shí)體詞的區(qū)別就在于它并不是專業(yè)的術(shù)語，而是對疾病的描述，因此在知識庫網(wǎng)站或者其他資料網(wǎng)站難以抓取具體的病癥詞匯，所以我們用抓取的具有醫(yī)療數(shù)據(jù)的互聯(lián)網(wǎng)數(shù)據(jù)集來提取病癥詞匯。
[0050]抽取病癥詞匯基于以下的一個(gè)事實(shí):在患者對醫(yī)生描述病情或者醫(yī)生向患者闡述該病癥狀的過程中，患者和醫(yī)生僅能用有限的詞匯去描述描述，并且這些詞匯多數(shù)是來自于口語，是屬于常見的詞匯。在得到的大數(shù)據(jù)的背景下，一般的癥狀詞匯必然是會被重復(fù)提起，并且不同的病往往會依托于相同的癥狀。所以癥狀詞匯必然是在問題答案集里面出現(xiàn)頻率較高的詞匯。
[0051]在對癥狀詞語進(jìn)行提取時(shí)，進(jìn)行簡單的分詞提取出的癥狀詞諸如“發(fā)燒”“發(fā)癢”等詞匯實(shí)際上是對癥狀的不完整描述，而不是癥狀的精確描述，比如“渾身發(fā)癢”或者是“腳心發(fā)癢”才是癥狀的完整描述。因此不能僅僅依靠簡單的分詞，我們使用了 N-gram的切詞技術(shù)來提取癥狀詞匯。針對中文的N-gram的分詞技術(shù)，3-grams的效果是最好的，因此分別進(jìn)行3-gram, 2-gram, 1-gram的切詞。根據(jù)上文描述的前提，癥狀詞匯必然是出現(xiàn)頻率比較高的，所以對詞匯的出現(xiàn)頻率進(jìn)行排序，然后選擇排名在前的部分詞匯即可作為屬性詞，然后與命名實(shí)體建立關(guān)聯(lián)關(guān)系。
[0052]步驟4)量化信息，量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系，使命名實(shí)體關(guān)聯(lián)屬性詞集；具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián)，建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
[0053]步驟5)建立知識地圖，通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系，建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu)，形成知識地圖。知識庫里面有三種詞匯:疾病名字，藥物名字，病癥詞匯。很容易就可以得到這三者的關(guān)系:病癥詞匯是個(gè)特定疾病的描述，特定的疾病能夠被藥物所醫(yī)治，特定的藥物能治愈所描述的病癥。根據(jù)這樣的關(guān)系，我們根據(jù)訓(xùn)練數(shù)據(jù)的問題答案來建立三者之間的關(guān)系。
[0054]我們基于這樣的前提，在問題答案對里面同時(shí)出現(xiàn)的實(shí)體詞詞匯和實(shí)體詞屬性詞匯是相關(guān)的，并且出現(xiàn)的頻率越聞，代表他們的相關(guān)度也越聞。比如:
[0055]問題:腳底很癢長紅點(diǎn)怎么辦？
[0056]答案:可以用達(dá)克寧試試，可以治腳氣。
[0057]在這個(gè)例子中，我們提取出了疾病實(shí)體詞“腳氣”。藥物實(shí)體詞“達(dá)克寧”，以及癥狀詞匯“腳底很癢”和“長紅點(diǎn)”。那么我們認(rèn)為這三種詞匯是有聯(lián)系的，如達(dá)克寧可以治療腳氣，腳底很癢和長紅點(diǎn)是疾病腳氣的描述癥狀。
[0058]根據(jù)出現(xiàn)的頻率越高，代表相關(guān)度越高的概念，我們采用同現(xiàn)頻率來表示他們的關(guān)聯(lián)度。假設(shè)兩個(gè)詞語W1和W2，在所有的訓(xùn)練樣例中，詞匯W1出現(xiàn)的次數(shù)為N1，詞匯W2出現(xiàn)的次數(shù)為N2，而兩個(gè)詞匯同時(shí)出現(xiàn)的次數(shù)為F12，那么計(jì)算同現(xiàn)頻率的公式為:
【權(quán)利要求】
1.基于命名實(shí)體庫的在線知識地圖，其特征在于:包括以下步驟: 步驟I)爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息，得到互聯(lián)網(wǎng)數(shù)據(jù)集；步驟2)抽取命名實(shí)體，對互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別和抽取，得到命名實(shí)體；步驟3)尋找并建立集合，遍歷步驟I中的互聯(lián)網(wǎng)數(shù)據(jù)集，尋找命名實(shí)體與屬性對，建立與命名實(shí)體相關(guān)的屬性集合；步驟4)量化信息，量化屬性集合中屬性詞與命名實(shí)體之間的關(guān)聯(lián)關(guān)系，使命名實(shí)體關(guān)聯(lián)屬性詞集；步驟5)建立知識地圖，通過命名實(shí)體關(guān)聯(lián)的屬性詞集之間的關(guān)系，建立命名實(shí)體與命名實(shí)體之間的拓?fù)浣Y(jié)構(gòu)，形成知識地圖；步驟6)更新，在設(shè)定周期內(nèi)對拓?fù)浣Y(jié)構(gòu)進(jìn)行更新。
2.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖，其特征在于:所述互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容包括結(jié)構(gòu)化信息、半結(jié)構(gòu)化與非結(jié)構(gòu)化信息。
3.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖，其特征在于:遍歷所述步驟2中命名實(shí)體的判別是將互聯(lián)網(wǎng)數(shù)據(jù)集的文檔中的關(guān)鍵詞所屬結(jié)構(gòu)作為分類標(biāo)簽進(jìn)行多維度識別。
4.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖，其特征在于:所述步驟3包括以下過程: (al)遍歷互聯(lián)網(wǎng)數(shù)據(jù)集，以命名實(shí)體為中心，尋找出與命名實(shí)體相關(guān)聯(lián)的屬性詞； (a2)建立屬性詞與命名實(shí)體間的關(guān)聯(lián)關(guān)系，形成一個(gè)命名實(shí)體對應(yīng)一個(gè)屬性集合。
5.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖，其特征在于:所述步驟4的量化信息具體為將不同命名實(shí)體對應(yīng)的不同屬性集合之間相同的部分進(jìn)行整合并關(guān)聯(lián)，建立不同屬性集合之間的關(guān)聯(lián)關(guān)系。
6.根據(jù)權(quán)利要求1所述的基于命名實(shí)體庫的在線知識地圖，其特征在于:所述步驟6包括以下過程: (bl)重新爬取網(wǎng)頁，向整個(gè)互聯(lián)網(wǎng)爬取網(wǎng)頁信息，得到最新的互聯(lián)網(wǎng)數(shù)據(jù)集； (b2)抽取命名實(shí)體，對最新的互聯(lián)網(wǎng)數(shù)據(jù)集的內(nèi)容進(jìn)行識別并抽取，得到命名實(shí)體；(b3)尋找屬性詞，遍歷最新的互聯(lián)網(wǎng)數(shù)據(jù)集，尋找命名實(shí)體與屬性對，建立新的命名實(shí)體與屬性集合； (b4)對步驟5中的拓?fù)浣Y(jié)構(gòu)進(jìn)行更新，將新的命名實(shí)體與屬性集合和步驟3中命名實(shí)體與屬性集合進(jìn)行對比，首先對比命名實(shí)體，一致則對比屬性集合，不一致則將新的命名實(shí)體加入知識地圖中并存儲至本地，屬性集合對比一致則繼續(xù)對比，不一致則將新的屬性集合加入知識地圖中關(guān)聯(lián)與之相對應(yīng)的命名實(shí)體并保存至本地； (b5)量化信息，量化更新后的屬性集合中屬性詞的與命名實(shí)體之間的關(guān)聯(lián)關(guān)系，使命名實(shí)體關(guān)聯(lián)屬性詞集，完成更新。
【文檔編號】G06F17/30GK103955531SQ201410199271
【公開日】2014年7月30日申請日期:2014年5月12日優(yōu)先權(quán)日:2014年5月12日
【發(fā)明者】李華康, 過敏意, 沈耀申請人:南京提坦信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李華康;過敏意;沈耀
技術(shù)所有人：南京提坦信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

命名實(shí)體識別相關(guān)技術(shù)

中文命名實(shí)體識別相關(guān)技術(shù)

命名實(shí)體識別工具相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于命名實(shí)體庫的在線知識地圖的制作方法