国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)填充方法及系統(tǒng)的制作方法

      文檔序號:8528270閱讀:223來源:國知局
      一種數(shù)據(jù)填充方法及系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本申請涉及數(shù)據(jù)庫處理技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)填充方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]通常,在各類數(shù)據(jù)庫的數(shù)據(jù)源中,往往會存在一些空缺信息,有些是因為原始數(shù)據(jù)的缺失造成的,有些是因為操作上的失誤造成的。這些數(shù)據(jù)庫中的空缺信息會造成數(shù)據(jù)不完整,是各類數(shù)據(jù)庫中一個較為普遍的問題,數(shù)據(jù)填充技術(shù)的提出就是希望通過一些技術(shù)手段來估算、預(yù)測、或者找回數(shù)據(jù)源中的空缺信息。
      [0003]現(xiàn)有的針對字符串型數(shù)據(jù)的數(shù)據(jù)填充方法通??煞譃閮深?基于推理的數(shù)據(jù)填充方法和基于檢索的數(shù)據(jù)填充方法。
      [0004]基于推理的數(shù)據(jù)填充方法主要是結(jié)合一些給定的數(shù)據(jù)質(zhì)量規(guī)則(比如Funct1nal Dependencies屬性依賴關(guān)系),從數(shù)據(jù)集的其他部分推理出空缺處的空缺信息。比如在一個地址數(shù)據(jù)集中,已知依賴關(guān)系“城市名稱可以決定省份名稱”,在數(shù)據(jù)集其中一個元組中寫著“學(xué)校=‘南京大學(xué)’,城市=‘南京’,省份=‘江蘇’”,而另外一個元組寫著“學(xué)校=‘南航’,城市=‘南京’,省份=即第二個元組的省份為空缺信息),那么我們就可以根據(jù)依賴關(guān)系把第二個元組中空缺的省份填寫為“江蘇”。
      [0005]基于檢索的數(shù)據(jù)填充方法主要是從外部資源比如網(wǎng)絡(luò)中檢索獲取空缺處的空缺信息。當(dāng)數(shù)據(jù)集中的空缺信息在萬維網(wǎng)中存在時,該方法可以準確查找到空缺信息并填充到數(shù)據(jù)集中的空缺處。
      [0006]然而,基于推理的數(shù)據(jù)填充方法的主要缺點體現(xiàn)在對于唯一的空缺信息的填補上,也就是在數(shù)據(jù)集中的完整部分沒有出現(xiàn)與該空缺信息相應(yīng)的信息的話,那么就不可能準確地推斷和填充該空缺信息,造成數(shù)據(jù)填充的準確率低;而基于檢索的數(shù)據(jù)填充方法雖然能夠準確填充空缺信息,提高數(shù)據(jù)填充的準確率,但其在對空缺信息進行檢索時,需要在外部資源中進行海量的檢索查詢,這會產(chǎn)生大量的檢索查詢操作,相應(yīng)地就會造成很大的系統(tǒng)開銷。

      【發(fā)明內(nèi)容】

      [0007]有鑒于此,本申請?zhí)峁┮环N數(shù)據(jù)填充方法及系統(tǒng),以實現(xiàn)在較小的系統(tǒng)開銷下獲得較高的數(shù)據(jù)填充準確率。
      [0008]為了實現(xiàn)上述目的,本申請實施例提供的技術(shù)方案如下:
      [0009]一種數(shù)據(jù)填充方法,包括:
      [0010]根據(jù)數(shù)據(jù)庫中的已有數(shù)據(jù)確定所述數(shù)據(jù)庫的空缺數(shù)據(jù),并構(gòu)建所述數(shù)據(jù)庫中所有數(shù)據(jù)之間的數(shù)據(jù)依賴關(guān)系,重復(fù)執(zhí)行以下步驟,直至所述數(shù)據(jù)庫的空缺數(shù)據(jù)被填充完畢:
      [0011]根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù),根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系推斷并填充所述可推斷數(shù)據(jù),從所述數(shù)據(jù)庫的外部資源中檢索并填充所述待檢索數(shù)據(jù)。
      [0012]優(yōu)選地,所述根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),包括:
      [0013]從所述數(shù)據(jù)庫的空缺數(shù)據(jù)中,根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定與所述數(shù)據(jù)庫中的已有數(shù)據(jù)存在數(shù)據(jù)依賴關(guān)系的空缺數(shù)據(jù),作為所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù);
      [0014]根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴關(guān)系;
      [0015]以所述數(shù)據(jù)庫的各個空缺數(shù)據(jù)為節(jié)點,以各個空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴關(guān)系作為節(jié)點之間的有向邊,構(gòu)建空缺數(shù)據(jù)依賴圖,并根據(jù)所述空缺數(shù)據(jù)依賴圖確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù)。
      [0016]優(yōu)選地,所述根據(jù)所述空缺數(shù)據(jù)依賴圖確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù),包括:
      [0017]從所述空缺數(shù)據(jù)依賴圖的各個節(jié)點中,將存在相同空缺數(shù)據(jù)依賴關(guān)系且互相之間不存在任何數(shù)據(jù)依賴關(guān)系的節(jié)點合并為一個節(jié)點,進行節(jié)點合并;
      [0018]節(jié)點合并之后,對于存在從多個節(jié)點指向自身的多個有向邊的節(jié)點,刪除從多個節(jié)點指向自身的多個有向邊,生成簡化空缺數(shù)據(jù)依賴圖;
      [0019]從所述簡化空缺數(shù)據(jù)依賴圖中,將只具有從自身出發(fā)指向其它節(jié)點的有向邊的節(jié)點以及與其它節(jié)點之間不存在任何有向邊的節(jié)點集合對應(yīng)的空缺數(shù)據(jù)作為所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù);所述節(jié)點集合包括至少兩個節(jié)點。
      [0020]優(yōu)選地,所述根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù),包括:
      [0021]從所述至少一組不可推斷數(shù)據(jù)中選擇數(shù)量最少的一組數(shù)據(jù),作為一組待檢索數(shù)據(jù)。
      [0022]優(yōu)選地,所述外部資源包括互聯(lián)網(wǎng)資源。
      [0023]一種數(shù)據(jù)填充系統(tǒng),包括:
      [0024]構(gòu)建模塊,用于根據(jù)數(shù)據(jù)庫中的已有數(shù)據(jù)確定所述數(shù)據(jù)庫的空缺數(shù)據(jù),并構(gòu)建所述數(shù)據(jù)庫中所有數(shù)據(jù)之間的數(shù)據(jù)依賴關(guān)系;
      [0025]填充模塊,用于重復(fù)執(zhí)行以下步驟,直至所述數(shù)據(jù)庫的空缺數(shù)據(jù)被填充完畢:
      [0026]根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù),根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系推斷并填充所述可推斷數(shù)據(jù),從所述數(shù)據(jù)庫的外部資源中檢索并填充所述待檢索數(shù)據(jù)。
      [0027]優(yōu)選地,所述填充模塊,包括:
      [0028]第一確定模塊,用于從所述數(shù)據(jù)庫的空缺數(shù)據(jù)中,根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定與所述數(shù)據(jù)庫中的已有數(shù)據(jù)存在數(shù)據(jù)依賴關(guān)系的空缺數(shù)據(jù),作為所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù);
      [0029]第二確定模塊,用于根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴關(guān)系;
      [0030]第三確定模塊,用于以所述數(shù)據(jù)庫的各個空缺數(shù)據(jù)為節(jié)點,以各個空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴關(guān)系作為節(jié)點之間的有向邊,構(gòu)建空缺數(shù)據(jù)依賴圖,并根據(jù)所述空缺數(shù)據(jù)依賴圖確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù)。
      [0031 ] 優(yōu)選地,所述第三確定模塊,包括:
      [0032]節(jié)點合并單元,用于從所述空缺數(shù)據(jù)依賴圖的各個節(jié)點中,將存在相同空缺數(shù)據(jù)依賴關(guān)系且互相之間不存在任何數(shù)據(jù)依賴關(guān)系的節(jié)點合并為一個節(jié)點,進行節(jié)點合并;
      [0033]有向邊修剪單元,用于節(jié)點合并之后,對于存在從多個節(jié)點指向自身的多個有向邊的節(jié)點,刪除從多個節(jié)點指向自身的多個有向邊,生成簡化空缺數(shù)據(jù)依賴圖;
      [0034]查找單元,用于從所述簡化空缺數(shù)據(jù)依賴圖中,將只具有從自身出發(fā)指向其它節(jié)點的有向邊的節(jié)點以及與其它節(jié)點之間不存在任何有向邊的節(jié)點集合對應(yīng)的空缺數(shù)據(jù)作為所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù);所述節(jié)點集合包括至少兩個節(jié)點。
      [0035]優(yōu)選地,所述根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù)的填充模塊,用于:從所述至少一組不可推斷數(shù)據(jù)中選擇數(shù)量最少的一組數(shù)據(jù),作為一組待檢索數(shù)據(jù)。
      [0036]優(yōu)選地,所述外部資源包括互聯(lián)網(wǎng)資源。
      [0037]由以上本申請?zhí)峁┑囊环N數(shù)據(jù)填充方法,根據(jù)數(shù)據(jù)庫中的已有數(shù)據(jù)確定所述數(shù)據(jù)庫的空缺數(shù)據(jù),并構(gòu)建所述數(shù)據(jù)庫中所有數(shù)據(jù)之間的數(shù)據(jù)依賴關(guān)系,重復(fù)執(zhí)行以下步驟,直至所述數(shù)據(jù)庫的空缺數(shù)據(jù)被填充完畢:根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系確定所述數(shù)據(jù)庫的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù),根據(jù)所述數(shù)據(jù)庫中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴關(guān)系推斷并填充所述可推斷數(shù)據(jù),從所述數(shù)據(jù)庫的外部資源中檢索并填充所述待檢索數(shù)據(jù)。這樣,通過推斷和檢索的交替執(zhí)行,高效且高質(zhì)量地實現(xiàn)數(shù)據(jù)集中空缺數(shù)據(jù)的填充,可以實現(xiàn)在較小的系統(tǒng)開銷下獲得較高的數(shù)據(jù)填充準確率。
      【附圖說明】
      [0038]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0039]圖1為本申請?zhí)峁┑臄?shù)據(jù)填充方法的樣例數(shù)據(jù)表以及數(shù)據(jù)依賴關(guān)系的示意圖;
      [0040]圖2為本申請實施例提供的數(shù)據(jù)填充方法的交互過程的示意圖;
      [0041]圖3為本申請實施例提供的數(shù)據(jù)填充方法的構(gòu)建簡化空缺數(shù)據(jù)依賴圖的過程的示意圖;
      [0042]圖4為本申請?zhí)峁┑臄?shù)據(jù)填充方法的一種實施例的流程示意圖;
      [0043]圖5為本申請?zhí)峁┑臄?shù)據(jù)填充方法的另一種實施例的流程示意圖;
      [0044]圖6-圖10分別為本申請?zhí)峁┑臄?shù)據(jù)填充方法與現(xiàn)有技術(shù)的實驗數(shù)據(jù)對比圖;
      [0045]圖11為本申請?zhí)峁┑臄?shù)據(jù)填充系統(tǒng)的一種實施例的結(jié)構(gòu)示意圖;
      [0046]圖12為本申請?zhí)峁┑臄?shù)據(jù)填充系統(tǒng)的另一種實施例的結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0047]為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合附圖,對本申請的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本申請保護的范圍。
      [0048]下面結(jié)合附圖,對本申請的實施方案進行詳細描述。
      [0049]圖1為本申請?zhí)峁┑臄?shù)據(jù)填充方法的樣例數(shù)據(jù)表以及數(shù)據(jù)依賴關(guān)系的示意圖。
      [0050]圖4為本申請?zhí)峁┑臄?shù)據(jù)填充方法的一種實施例的流程示意圖。
      [0051
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1