国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)絡表格語義恢復方法

      文檔序號:8473055閱讀:429來源:國知局
      網(wǎng)絡表格語義恢復方法
      【技術領域】
      [0001] 本發(fā)明涉及語義恢復技術領域,尤其涉及一種網(wǎng)絡表格語義恢復方法。
      【背景技術】
      [0002] 表格中的結構信息具有很重要的價值,可以利用表的模式和實體列來尋找相關數(shù) 據(jù)表,并把它們?nèi)诤系揭黄?。還可以利用表的模式信息來探索表中不同列之間的二元關系。 在互聯(lián)網(wǎng)中包含了數(shù)量眾多的表格數(shù)據(jù),但是這些網(wǎng)絡表格大多數(shù)都缺少表頭、實體列等 結構信息,導致在網(wǎng)頁數(shù)據(jù)檢索和數(shù)據(jù)融合中無法利用這些高質量的結構化數(shù)據(jù)。為解決 這個問題,人們紛紛推出了不同類型的語義庫,用于輔助恢復表格的結構信息。
      [0003] 在語義數(shù)據(jù)庫Freebase中,以節(jié)點和節(jié)點間關系的圖狀結構來組織數(shù)據(jù),在包含 現(xiàn)實中各個實體的基礎上,還融合了各個實體之間的關系。在Wordnet詞典中將不同詞語 按照詞性組織成一個同義詞網(wǎng)絡,該同義詞網(wǎng)絡包含數(shù)量巨大的概念和關系;微軟利用數(shù) 十億的網(wǎng)頁數(shù)據(jù)和搜索日志構建了Probase語義庫,其中包含的概念達到了 270萬個,而且 還用概率量化表示了不同概念間的關聯(lián)程度。
      [0004] 現(xiàn)有技術中的一種對網(wǎng)絡表格進行語義恢復的方法為:基于Freebase、Probase 語義庫,采用并行計算等方式,為網(wǎng)絡表格恢復表頭和實體列。
      [0005] 上述現(xiàn)有技術中的對網(wǎng)絡表格進行語義恢復的方法的缺點為:由于待恢復的網(wǎng)絡 表格的規(guī)模比較大,網(wǎng)絡表格中的元組數(shù)量龐大,該方法中的并行計算等處理的計算量很 大,得到的恢復結果的準確率不高,針對某列數(shù)據(jù)往往無法得到唯一確定的列標簽,實體列 檢測時得到的也是多個可能的結果,準確率不高。該方法的魯棒性較差,在處理數(shù)值型的數(shù) 據(jù)時準確率很低。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明的實施例提供了一種網(wǎng)絡表格語義恢復方法,以實現(xiàn)對網(wǎng)絡表格進行有效 的語義恢復。
      [0007] 為了實現(xiàn)上述目的,本發(fā)明采取了如下技術方案。
      [0008] 根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)絡表格語義恢復方法,其特征在于,包括:
      [0009] 基于Probase語義庫對待恢復的網(wǎng)絡表格進行初步的語義恢復,得到所述網(wǎng)絡表 格中每列的候選概念集合;
      [0010] 根據(jù)所述網(wǎng)絡表格中不同元組之間的組合距離確定聚類算法中的各個初始聚類 中心,將所述網(wǎng)絡表格中各個元組歸納于所述各個初始聚類中心所在的簇中,調(diào)整所述各 個簇的聚類中心,根據(jù)所述各個簇的最終聚類中心獲取縮減后的網(wǎng)絡表格;
      [0011] 根據(jù)所述網(wǎng)絡表格中每列的候選概念集合和所述縮減后的網(wǎng)絡表格,恢復出所述 網(wǎng)絡表格中每列的列標簽和實體列。
      [0012] 優(yōu)選地,所述的基于Probase語義庫對網(wǎng)絡表格進行初步的語義恢復,得到所述 網(wǎng)絡表格中每列的候選概念集合,還包括:
      [0013] 基于Probase語義庫對網(wǎng)絡表格進行初步的語義恢復,得到所述網(wǎng)絡表格的候選 概念集合,基于粗糙集合理論從所述網(wǎng)絡表格中每個列的候選概念集合和網(wǎng)絡表格的候選 概念集合中得到網(wǎng)絡表格的核心概念;
      [0014] 對于所述網(wǎng)絡表格的第i列數(shù)據(jù),設基于Probase語義庫得到的候選概念集合為 CH= (Ch1,. . .,chk},對應的概率集合為P= (P1,. . .,pk},所述網(wǎng)絡表格的候選概念集合為 RC= {rc1;. . . ,rck};
      [0015] 則第i列的候選概念的代表性概率rPi的計算公式如下:
      【主權項】
      1. 一種網(wǎng)絡表格語義恢復方法,其特征在于,包括: 基于Probase語義庫對待恢復的網(wǎng)絡表格進行初步的語義恢復,得到所述網(wǎng)絡表格中 每列的候選概念集合; 根據(jù)所述網(wǎng)絡表格中不同元組之間的組合距離確定聚類算法中的各個初始聚類中屯、, 將所述網(wǎng)絡表格中各個元組歸納于所述各個初始聚類中屯、所在的簇中,調(diào)整所述各個簇的 聚類中屯、,根據(jù)所述各個簇的最終聚類中屯、獲取縮減后的網(wǎng)絡表格; 根據(jù)所述網(wǎng)絡表格中每列的候選概念集合和所述縮減后的網(wǎng)絡表格,恢復出所述網(wǎng)絡 表格中每列的列標簽和實體列。
      2. 根據(jù)權利要求1所述的網(wǎng)絡表格語義恢復方法,其特征在于,所述的基于Probase 語義庫對網(wǎng)絡表格進行初步的語義恢復,得到所述網(wǎng)絡表格中每列的候選概念集合,還包 括: 基于Probase語義庫對網(wǎng)絡表格進行初步的語義恢復,得到所述網(wǎng)絡表格的候選概念 集合,基于粗趟集合理論從所述網(wǎng)絡表格中每個列的候選概念集合和網(wǎng)絡表格的候選概念 集合中得到網(wǎng)絡表格的核屯、概念. 對于所述網(wǎng)絡表格的第i列數(shù)據(jù),設基于Probase語義庫得到的候選概念集合為CH= {油1,. . .,chj,對應的概率集合為P=柄,...,pj,所述網(wǎng)絡表格的候選概念集合為RC= {rci,. . . ,rcj; 則第i列的候選概念的代表性概率rpi的計算公式如下:
      PjGP,表示概念Cj.與第i列的相關性程度; 將代表性概率rpi大于設定的闊值的所有概念作為所述網(wǎng)絡表格的代表概念; 將所述網(wǎng)絡表格的核屯、概念和代表概念的并集作為所述網(wǎng)絡表格的典型概念。
      3. 根據(jù)權利要求2所述的網(wǎng)絡表格語義恢復方法,其特征在于,所述的根據(jù)所述網(wǎng)絡 表格中不同元組之間的組合距離確定聚類算法中的各個初始聚類中屯、,包括: 用Cen= {cen。. . .,cenj代表所述網(wǎng)絡表格中k個初始聚類中屯、,第一個初始聚類中 屯、元組ceni在網(wǎng)絡表格的元組中通過隨機的方式選取,計算剩余的各個元組與cen1之間的 組合距離,選取與ceni之間的組合距離最大的元組作為第二個初始聚類中屯、元組ceri2; 計算剩余的各個元組與ceni、ceri2之間的組合距離,將與ceni、ceri2之間的組合距離的 和值最大的元組作為第=個初始聚類中屯、元組ceri3,依次類推,將與已經(jīng)選中的各個初始 聚類中屯、之間的組合距離的和值最大的元組作為下一個初始聚類中屯、元組,直到選取全部 的K個初始聚類中屯、。
      4. 根據(jù)權利要求3所述的網(wǎng)絡表格語義恢復方法,其特征在于,所述網(wǎng)絡表格中不同 元組之間的組合距離的計算方法包括: 對于網(wǎng)絡表格T,設其候選概念集合為A=(a。. . .,a。},典型概念集合,網(wǎng) 絡表格T中任意兩個元組ti和tj.之間的組合距離集合為A=城,,其中 < 代表元組 和
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1