国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      知識數(shù)據(jù)的處理方法及裝置的制造方法

      文檔序號:9616309閱讀:389來源:國知局
      知識數(shù)據(jù)的處理方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種知識數(shù)據(jù)的處理方法及裝置。
      【背景技術(shù)】
      [0002]近年來,互聯(lián)網(wǎng)正從僅包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng),向包含大量描述各種實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)轉(zhuǎn)變。在上述背景下,百度、Google等知名搜索引擎公司紛紛以此為基礎(chǔ),通過構(gòu)建知識圖譜來改進(jìn)搜索質(zhì)量。
      [0003]實體關(guān)聯(lián)是指將文本描述的實體信息與實體信息庫中的具體實體進(jìn)行關(guān)聯(lián),從而建立實體知識庫中實體間的關(guān)系,進(jìn)而形成完善的知識圖譜。在現(xiàn)有技術(shù)中,一般通過人工編輯方式來進(jìn)行實體關(guān)聯(lián)。然而,人工編輯方式具有耗費(fèi)人力、周期長、不適用于大規(guī)模實體數(shù)據(jù)關(guān)聯(lián)等不足之處。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明的目的在于,提供一種知識數(shù)據(jù)的處理方法及裝置,以實現(xiàn)自動、快速地將實體數(shù)據(jù)中描述的實體對象與實體信息庫中的實體對象進(jìn)行關(guān)聯(lián),從而更新完善與實體對象相關(guān)的知識圖譜。
      [0005]根據(jù)本發(fā)明的一方面,提供一種知識數(shù)據(jù)的處理方法,包括:獲取包括第一實體對象的標(biāo)識、屬性及其屬性值的實體數(shù)據(jù);從預(yù)設(shè)的實體信息庫提取分別與所述實體數(shù)據(jù)中的屬性值匹配的第二實體對象的信息;將所述第二實體對象與第一實體對象進(jìn)行關(guān)聯(lián),以更新與所述第一實體對象相關(guān)的知識圖譜。
      [0006]優(yōu)選地,所述將所述第二實體對象與第一實體對象進(jìn)行關(guān)聯(lián),以更新與所述第一實體對象相關(guān)的知識圖譜的處理包括:將所述第一實體對象相對應(yīng)的實體數(shù)據(jù)中匹配的屬性值替換為所述第二實體對象的標(biāo)識。
      [0007]優(yōu)選地,所述方法還包括:從所述實體數(shù)據(jù)提取值為專有名詞的屬性值;
      [0008]所述從預(yù)設(shè)的實體信息庫提取分別與所述實體數(shù)據(jù)中的屬性值匹配的第二實體對象的信息的處理包括:從預(yù)設(shè)的實體信息庫提取分別與所述提取的屬性值匹配的第二實體對象的信息。
      [0009]優(yōu)選地,所述從預(yù)設(shè)的實體信息庫提取分別與所述提取的屬性值匹配的第二實體對象的信息的處理包括:分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實體信息庫提取與多個候選第二實體對象的信息,分別從所述多個候選第二實體對象選取匹配度高的第二實體對象的?目息。
      [0010]優(yōu)選地,所述分別從所述多個候選第二實體對象選取匹配度高的候選第二實體對象的信息的處理包括:分別獲取包含每個所述候選第二實體對象相應(yīng)的屬性值的多個文本數(shù)據(jù),選取所述第一實體對象的標(biāo)識在所述多個文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對應(yīng)的候選第二實體對象,作為所述匹配度高的第二實體對象。
      [0011]優(yōu)選地,所述實體數(shù)據(jù)是多個包括第一實體對象的標(biāo)識、屬性及其屬性值的三元組數(shù)據(jù)。
      [0012]根據(jù)本發(fā)明的另一方面,還提供一種知識數(shù)據(jù)的處理裝置,包括:實體數(shù)據(jù)獲取模塊,用于獲取包括第一實體對象的標(biāo)識、屬性及其屬性值的實體數(shù)據(jù);實體信息提取模塊,用于從預(yù)設(shè)的實體信息庫提取分別與所述實體數(shù)據(jù)中的屬性值匹配的第二實體對象的信息;實體關(guān)聯(lián)模塊,用于將所述第二實體對象與第一實體對象進(jìn)行關(guān)聯(lián),以更新與所述第一實體對象相關(guān)的知識圖譜。
      [0013]優(yōu)選地,所述實體關(guān)聯(lián)模塊用于將所述第一實體對象相對應(yīng)的實體數(shù)據(jù)中匹配的屬性值替換為所述第二實體對象的標(biāo)識。
      [0014]優(yōu)選地,所述裝置還包括:屬性值提取模塊,用于從所述實體數(shù)據(jù)提取值為專有名詞的屬性值,所述實體信息提取模塊用于從預(yù)設(shè)的實體信息庫提取分別與所述提取的屬性值匹配的第二實體對象的信息。
      [0015]優(yōu)選地,所述實體信息提取模塊包括:候選實體信息提取單元,用于分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實體信息庫提取與多個候選第二實體對象的信息,實體信息選取單元,用于分別從所述多個候選第二實體對象選取匹配度高的第二實體對象的信息。
      [0016]優(yōu)選地,所述實體信息選取單元用于分別獲取包含每個所述候選第二實體對象相應(yīng)的屬性值的多個文本數(shù)據(jù),選取所述第一實體對象的標(biāo)識在所述多個文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對應(yīng)的候選第二實體對象,作為所述匹配度高的第二實體對象。
      [0017]優(yōu)選地,所述實體數(shù)據(jù)是多個包括第一實體對象的標(biāo)識、屬性及其屬性值的三元組數(shù)據(jù)。
      [0018]本發(fā)明實施例提供的知識數(shù)據(jù)的處理方法及裝置獲取有關(guān)第一實體對象的實體數(shù)據(jù)中的屬性值,依據(jù)獲取到的屬性值從預(yù)設(shè)實體信息庫中提取分別與其匹配的第二實體對象的信息,自動、快速地將實體數(shù)據(jù)中描述的實體對象與實體信息庫中的實體對象進(jìn)行關(guān)聯(lián),從而更新完善與實體對象相關(guān)的知識圖譜,為實體推薦等應(yīng)用領(lǐng)域提供更為豐富的數(shù)據(jù)基礎(chǔ)。
      【附圖說明】
      [0019]圖1是示出根據(jù)本發(fā)明實施例一的知識數(shù)據(jù)的處理方法的流程圖;
      [0020]圖2是示出根據(jù)本發(fā)明實施例二的知識數(shù)據(jù)的處理裝置的邏輯框圖。
      【具體實施方式】
      [0021]本發(fā)明的基本構(gòu)思是,提供一種知識數(shù)據(jù)的處理方式:依據(jù)獲取到的有關(guān)第一實體對象的實體數(shù)據(jù)中的屬性值,從預(yù)設(shè)實體信息庫中提取分別與所述屬性值匹配的第二實體對象的信息,由此,可基于提取的第二實體對象的信息,自動而快速地將第一實體對象與第二實體對象進(jìn)行關(guān)聯(lián),從而更新完善與實體對象相關(guān)的知識圖譜。
      [0022]此外,與現(xiàn)有技術(shù)相比,本發(fā)明實施例所述的知識數(shù)據(jù)的處理方法無需耗費(fèi)人力,處理周期短,適用于大規(guī)模實體數(shù)據(jù)關(guān)聯(lián),同時,可為例如實體推薦、知識推理等應(yīng)用領(lǐng)域提供更加豐富、準(zhǔn)確的數(shù)據(jù)進(jìn)行分析。
      [0023]下面結(jié)合附圖詳細(xì)描述本發(fā)明的示例性實施例知識數(shù)據(jù)的處理方法及裝置。
      [0024]實施例一
      [0025]圖1是示出根據(jù)本發(fā)明實施例一的知識數(shù)據(jù)的處理方法的流程圖??稍谌鐖D2所示的裝置上執(zhí)行該方法。
      [0026]參照圖1,在步驟S110,獲取包括第一實體對象的標(biāo)識、屬性及其屬性值的實體數(shù)據(jù)。
      [0027]這里,所述實體數(shù)據(jù)可以是多個包括第一實體對象的標(biāo)識、屬性及其屬性值的三元組數(shù)據(jù)。其中,具體地,實體對象的標(biāo)識是用于識別實體對象的,可以使用設(shè)定的字符串、統(tǒng)一資源定位符(Uniform Resource Locator, URL)等唯一標(biāo)識來作為實體對象的標(biāo)識。
      [0028]通常,將現(xiàn)實世界中的客觀事物稱為實體,例如概念、事物、人物或事件等。舉例來說,影視劇“花千骨”、百度公司以及宇宙大爆炸理論都是實體的實例。同時,每個實體具有屬性,屬性反映實體的相關(guān)信息,例如,仙俠題材、公司辦公地點(diǎn)、現(xiàn)代宇宙理論分別是上述實體對應(yīng)的屬性。對于一個實體,其對應(yīng)的屬性可以是多種多樣的,一個屬性也可以對應(yīng)一個或者多個屬性值。
      [0029]相應(yīng)地,本步驟中獲取的實體數(shù)據(jù)例如(孔子,民族,漢族)、(孔子、國籍、魯國)、(孔子、兒子、孔鯉)、(孔子,性別,男)、(孔子,生日,農(nóng)歷八月二十七)等等。其中,例如(孔子,民族,漢族)是一個三元組數(shù)據(jù)。由此可見,實體數(shù)據(jù)包含了多個三元組數(shù)據(jù)。為了便于理解,上述實體數(shù)據(jù)中實體對象的標(biāo)識寫做“孔子”,在實際應(yīng)用中,可用設(shè)定的字符串、URL來代表“孔子”。以(孔子、兒子、孔鯉)為例,“兒子”是“孔子”對應(yīng)的屬性,“孔鯉”是“兒子”對應(yīng)的屬性值,如果說孔子還有其他的兒子,屬性“兒子”還可以對應(yīng)其他的屬性值。
      [0030]在步驟S120,從預(yù)設(shè)的實體信息庫提取分別與所述實體數(shù)據(jù)中的屬性值匹配的第二實體對象的信息。
      [0031]在上述步驟S110獲取實體數(shù)據(jù)之后,所述實體數(shù)據(jù)中可能會存在無需進(jìn)行實體關(guān)聯(lián)的數(shù)據(jù),例如(孔子,生日,農(nóng)歷八月二十七),生日是明確的日期而不是實體,也就無需進(jìn)行實體關(guān)聯(lián)。再比如(孔子,性別,男),性別對應(yīng)的屬性值是男,也是無需進(jìn)行實體關(guān)耳關(guān)。
      [0032]因此,所述方法還可以包括:從所述實體數(shù)據(jù)提取值為專有名詞的屬性值。仍以上述有關(guān)“孔子”這一實體的實體數(shù)據(jù)為例,經(jīng)過提取處理后,保留下的實體數(shù)據(jù)是(孔子,民族,漢族)、(孔子、國籍、魯國)和(孔子、兒子、孔鯉)。
      [0033]相應(yīng)地,根據(jù)本發(fā)明的示例性實施例,步驟S120可包括:從預(yù)設(shè)的實體信息庫提取分別與所述提取的屬性值匹配的第二實體對象的信息。具體地,可分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實體信息庫提取與多個候選第二實體對象的信息,分別從所述多個候選第二實體對象選取匹配度高的第二實體對象的信息。其中,預(yù)設(shè)的實體信息庫為預(yù)先從網(wǎng)絡(luò)文本中獲取并數(shù)據(jù)處理的實體信息庫,預(yù)設(shè)的實體信息庫中存儲有多個實體,預(yù)設(shè)的實體信息庫可以存儲在服務(wù)器中或者其它設(shè)備中。
      [0034]優(yōu)選地,上述分別從所述多個候選第二實體對象選取匹配度高的候選第二實體對象的信息的處理包括:分別獲取包含每個所述候選第二實體對象相應(yīng)的屬性值的多個文本數(shù)據(jù),選取所述第一實體對象的標(biāo)識在所述多個文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對應(yīng)的候選第二實體對象,作為所述匹配度高的第二實體對象。
      [0035]在步驟S130,將所述第二實體對象與第一實體對象進(jìn)行關(guān)聯(lián),以更新與所述第一實體對象相關(guān)的知識圖譜。
      [0036]根據(jù)本發(fā)明的示例性實施例,步驟S130可包括:將所述第一實體對象相對應(yīng)的實體數(shù)據(jù)中匹配的屬性值替換為所述第二實體對象的標(biāo)識。
      [0037]在具體的實現(xiàn)方式中,步驟S120?S130的處理以三元組數(shù)據(jù)(亞歷山大二世,父親,尼古拉一世)為例進(jìn)行詳細(xì)說明,“亞歷山大二世”就是本實施例中所述的第一實體對象,很顯然的,屬性值“尼古拉一世”也代表一個實體,這就需要將“亞歷山大二世”與“尼古拉一世”進(jìn)行關(guān)聯(lián)。由于預(yù)設(shè)的實體信息庫可能存有多個有關(guān)“尼古拉一世”的實體數(shù)據(jù),而其中真正與“亞歷山大二世”有關(guān)聯(lián)的只有一個,由此,需要做的一
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1