国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法和系統(tǒng)的制作方法

      文檔序號(hào):8258810閱讀:261來(lái)源:國(guó)知局
      一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法和系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001 ] 本發(fā)明涉及Web實(shí)體識(shí)別技術(shù)領(lǐng)域,具體是一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法。【背景技術(shù)】
      [0002] 實(shí)體中各屬性的區(qū)分能力是計(jì)算實(shí)體之間相似程度的重要因素,如果已知數(shù)據(jù)庫(kù) 中的全部數(shù)據(jù),從屬性值的分布特點(diǎn)才有可能推測(cè)屬性在區(qū)分實(shí)體方面的能力,但對(duì)于Web 數(shù)據(jù)庫(kù)的數(shù)據(jù),只能通過(guò)在查詢接口提交查詢的方式,獲取部分?jǐn)?shù)據(jù),這些部分?jǐn)?shù)據(jù)能否反 映整個(gè)數(shù)據(jù)的全貌,是我們要研宄的問(wèn)題。從數(shù)據(jù)庫(kù)中選擇隨機(jī)樣本有一些方法,Goodman 的估計(jì)法是一種無(wú)偏的隨機(jī)樣本估計(jì)方法,但是由于其產(chǎn)生的方差很高,所以在實(shí)際中并 不能很好地應(yīng)用。其他方法的前提均為已知數(shù)據(jù)庫(kù)的全部數(shù)據(jù),而在Web數(shù)據(jù)庫(kù)環(huán)境中, 這一前提條件在Web數(shù)據(jù)集成環(huán)境中顯然是不成立的,因此不再適用。隨機(jī)漫步的方法通 過(guò)提交隨機(jī)查詢對(duì)Web數(shù)據(jù)庫(kù)進(jìn)行采樣,取得了較好的隨機(jī)樣本,但是其得到的樣本是數(shù) 據(jù)庫(kù)級(jí)樣本,提交的查詢多,獲取的數(shù)據(jù)量大,相對(duì)于我們方法中的獲取屬性級(jí)隨機(jī)樣本而 言,其復(fù)雜度很高。獲取某一屬性隨機(jī)樣本的基本方法是通過(guò)在其他屬性上提交查詢收集 該屬性上的數(shù)據(jù)。但是由于屬性間存在各種各樣的相關(guān)性,因此很難保證得到的樣本是隨 機(jī)的。由此產(chǎn)生的第一個(gè)問(wèn)題:屬性級(jí)隨機(jī)樣本難獲取。
      [0003] 各屬性的屬性值分布特點(diǎn)不同,各屬性的數(shù)據(jù)類型也不同,因此,各屬性在區(qū)分實(shí) 體方面的能力存在很大的差異。由此產(chǎn)生了第二個(gè)問(wèn)題:屬性在區(qū)分實(shí)體方面的能力難計(jì) 算。
      [0004] 用戶提交查詢是不同的,在某一或某屬性組上提交查詢條件,將直接影響到返回 結(jié)果在這些屬性或?qū)傩越M合上的屬性值分布,且進(jìn)一步影響與其具有相關(guān)性屬性的值分 布,從而影響到屬性在區(qū)分實(shí)體方面的能力。由此產(chǎn)生了第三個(gè)問(wèn)題:屬性在區(qū)分實(shí)體方面 的能力在動(dòng)態(tài)變化,需要?jiǎng)討B(tài)調(diào)整各屬性在實(shí)體識(shí)別中的區(qū)分權(quán)重。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明提供了一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法,用于Web數(shù)據(jù)庫(kù)實(shí)體識(shí)別,具 有查詢次數(shù)少,結(jié)果準(zhǔn)確的優(yōu)點(diǎn)。
      [0006] 本發(fā)明采用的技術(shù)方案:一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法,包括以下步驟:
      [0007] A:通過(guò)Web數(shù)據(jù)庫(kù)查詢接□提交查詢,獲取Web數(shù)據(jù)庫(kù)中返回的部分?jǐn)?shù)據(jù),分析 Web數(shù)據(jù)庫(kù)中各屬性之間的相關(guān)性,得到?的弱相關(guān)性屬性Ai;
      [0008]B:得到弱相關(guān)性屬性化后,在該屬性上向Web數(shù)據(jù)庫(kù)提交探測(cè)查詢,將從屬性Aj 上收集到的返回結(jié)果作為屬性?的屬性級(jí)隨機(jī)樣本;
      [0009] C:分析Web數(shù)據(jù)庫(kù)的近似隨機(jī)樣本,計(jì)算各屬性在實(shí)體識(shí)別中的區(qū)分能力,即權(quán) 重;
      [0010] D:分析用戶提交的查詢,分析查詢條件涉及的屬性對(duì)返回結(jié)果各屬性的值分布的 影響,調(diào)整各屬性的權(quán)重大小;
      [0011] E:依據(jù)屬性的權(quán)重和數(shù)據(jù)類型,選擇相似度計(jì)算函數(shù),計(jì)算實(shí)體之間的相似度,進(jìn) 行實(shí)體識(shí)別。
      [0012] -種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別系統(tǒng),包括:
      [0013] Web用戶查詢模塊,用于在Web數(shù)據(jù)庫(kù)查詢接口提交查詢;
      [0014] Web數(shù)據(jù)庫(kù)模塊,用于接受用戶提交的查詢,并返回相應(yīng)的結(jié)果;
      [0015] 隨機(jī)樣本數(shù)據(jù)庫(kù),用于采集并保存從Web數(shù)據(jù)庫(kù)返回的隨機(jī)樣本數(shù)據(jù),將數(shù)據(jù)發(fā) 送給實(shí)體識(shí)別器;
      [0016] 實(shí)體識(shí)別器,用于計(jì)算屬性的區(qū)分能力、動(dòng)態(tài)權(quán)重以及實(shí)體相似度。
      [0017] 本發(fā)明的有益效果:能夠方便地獲取某一屬性的屬性級(jí)隨機(jī)樣本,準(zhǔn)確計(jì)算該屬 性在區(qū)分實(shí)體方面的區(qū)分能力,并且可以動(dòng)態(tài)調(diào)整各屬性在實(shí)體識(shí)別中的區(qū)分權(quán)重。
      【附圖說(shuō)明】
      [0018] 圖1是本發(fā)明的以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別系統(tǒng)的結(jié)構(gòu)圖;
      [0019] 圖2是本發(fā)明的以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法的流程圖;
      [0020]圖3是本發(fā)明的屬性值詞頻分布示意圖;
      [0021] 圖4是本發(fā)明的屬性相關(guān)性的例子;
      [0022] 圖5是本發(fā)明的基于查詢的屬性權(quán)重的動(dòng)態(tài)調(diào)整方法的流程圖。
      【具體實(shí)施方式】
      [0023] 以下是本發(fā)明的一個(gè)具體實(shí)施例,現(xiàn)結(jié)合附圖作進(jìn)一步說(shuō)明。
      [0024] 首先結(jié)合圖1對(duì)本發(fā)明的系統(tǒng)進(jìn)行說(shuō)明。本發(fā)明提供一種以查詢驅(qū)動(dòng)的Web實(shí)體 識(shí)別系統(tǒng),包括:Web用戶查詢模塊、Web數(shù)據(jù)庫(kù)模塊、隨機(jī)樣本數(shù)據(jù)庫(kù)和實(shí)體識(shí)別器。
      [0025] 通過(guò)Web數(shù)據(jù)庫(kù)查詢接口提交查詢,獲取Web數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù),分析Web數(shù)據(jù) 庫(kù)中各屬性之間的相關(guān)性,屬性的相關(guān)性表示了不同屬性的數(shù)據(jù)在數(shù)量和質(zhì)量上的相互依 賴性,可以通過(guò)在屬性化上提交探測(cè)查詢,然后用屬性A」上返回詞頻分布的差異性進(jìn)行衡 量。屬性詞分布的差異性越大,屬性?越依賴于屬性A,,屬性?和A,之間的屬性相關(guān)性越 強(qiáng)。根據(jù)對(duì)屬性之間的相關(guān)性進(jìn)行排序,得到最不相關(guān)的屬性化后,在該屬性上向Web數(shù) 據(jù)庫(kù)提交一些探測(cè)查詢,將在屬性?上收集到的返回結(jié)果作為屬性?的屬性級(jí)隨機(jī)樣本, 并將其存入隨機(jī)樣本數(shù)據(jù)庫(kù)。
      [0026] 屬性級(jí)隨機(jī)樣本是相對(duì)于數(shù)據(jù)庫(kù)級(jí)或表級(jí)隨機(jī)樣本而言的,不考慮表中其他屬 性,只考慮單個(gè)屬性上的值的分布情況,屬性級(jí)隨機(jī)樣本是指能夠正確反映單個(gè)屬性上的 值的總體分布情況的一部分屬性值的集合。之所以通過(guò)弱相關(guān)性屬性化來(lái)獲得屬性級(jí)隨 機(jī)樣本,是因?yàn)槿绻麑傩曰茿」的弱相關(guān)性屬性,那么在屬性A,上提交查詢,得到的在屬 性?上的屬性值的分布規(guī)律變化很小,近似可以看做A」屬性值的隨機(jī)樣本。反之,如果是 強(qiáng)相關(guān)性,那么在屬性化上提交查詢,得到的在屬性Ajl的屬性值的分布變化,將隨著查詢 條件的不同產(chǎn)生很大的差異,不能看做是?屬性值的隨機(jī)樣本。
      [0027] 實(shí)體識(shí)別器包括屬性的屬性區(qū)分能力計(jì)算、屬性的動(dòng)態(tài)權(quán)重計(jì)算以及實(shí)體相似度 計(jì)算三個(gè)部分。屬性在實(shí)體識(shí)別中的區(qū)分能力,又叫靜態(tài)權(quán)重,指當(dāng)具有相同的屬性值時(shí), 依據(jù)這個(gè)屬性值區(qū)分兩個(gè)實(shí)體是否是同一實(shí)體的能力。每個(gè)屬性在實(shí)體識(shí)別中的區(qū)分能力 是不同的,比如:如果兩本書的"出版社"屬性值都是"清華大學(xué)出版社",很難因此確定它們 是同一本書;但是如果兩本書的"書名"屬性值都是"追風(fēng)箏的人",那么它們是同一本書的 可能性就很大,所以屬性"書名"的區(qū)分能力要大于屬性"出版社"的區(qū)分能力。屬性區(qū)分 能力采用信息檢索中的信息文檔頻率的思想來(lái)表示,將每個(gè)實(shí)體視為一個(gè)短文本,一個(gè)屬 性值視為一個(gè)短語(yǔ),包含一個(gè)屬性值的實(shí)體越多,則此屬性在實(shí)體識(shí)別中的區(qū)分能力越弱。
      [0028] 屬性的動(dòng)態(tài)權(quán)重是針對(duì)某一用戶查詢,根據(jù)其與提交查詢條件涉及的屬性或?qū)傩?組的相關(guān)性,調(diào)整后得到的各屬性在實(shí)體識(shí)別中的區(qū)分能力。
      [0029] 實(shí)體相似度則依據(jù)的動(dòng)態(tài)權(quán)重及屬性的數(shù)據(jù)類型,選擇合適的相似度函數(shù),計(jì)算 實(shí)體之間的相似度,進(jìn)行實(shí)體識(shí)別,用于比較購(gòu)物或者對(duì)查詢結(jié)果進(jìn)行去重合并。
      [0030] 結(jié)合圖1、圖2對(duì)本發(fā)明提供的一種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法進(jìn)行說(shuō)明。
      [0031 ] -種以查詢驅(qū)動(dòng)的Web實(shí)體識(shí)別方法,其特征在于,該方法包括以下步驟:
      [0032] 給定一個(gè)Web數(shù)據(jù)庫(kù),其查詢接口包含n個(gè)屬性,假設(shè)需要獲取其中某個(gè)屬性?的 屬性級(jí)隨機(jī)樣本,和該屬性在實(shí)體識(shí)別方面的區(qū)分能力以及動(dòng)態(tài)調(diào)整該屬性在實(shí)體識(shí)別中 的區(qū)分權(quán)重,首先要得到?的弱相關(guān)性屬性Ai;
      [0033] A:通過(guò)Web數(shù)據(jù)庫(kù)查詢接口提交查詢,獲取Web數(shù)據(jù)庫(kù)中返回的部分?jǐn)?shù)據(jù),分析 Web數(shù)據(jù)庫(kù)中各屬性之間的相關(guān)性,得到?的弱相關(guān)性屬性Ai;
      [0034] B:得到弱相關(guān)性屬性化后,在該屬性上向Web數(shù)據(jù)庫(kù)提交探測(cè)查詢,將從屬性A」 上收集到的返回結(jié)果作為屬性?的屬性級(jí)隨機(jī)樣本;
      [0035] C:分析Web數(shù)據(jù)庫(kù)的近似隨
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1