国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法

      文檔序號:9288454閱讀:224來源:國知局
      基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法
      【技術領域】
      [0001] 本發(fā)明屬于信息處理技術領域,尤其涉及信息檢索領域中的查詢擴展以及局部上 下文分析方法。
      【背景技術】
      [0002] 互聯(lián)網(wǎng)可以視為一個不斷增長的文本語料庫,不同領域的專家學者建議將互聯(lián)網(wǎng) 上的資源作為語料的獲取來源。對語言學家而言,Web是重要的語言數(shù)據(jù)來源;自然語言處 理領域(NLP),很多研究使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)并獲得成功,研究包括機器翻譯、術語抽 取、拼音檢查和語法檢查等??梢哉f,Web相當于一個巨型的免費語料庫,收錄不同類型資 源的搜索引擎、在線數(shù)據(jù)庫便是開啟這個語料庫的"鑰匙",可以視作存儲特定類型資源的 數(shù)據(jù)源。許多研究通過搜索引擎這類數(shù)據(jù)源獲取語料數(shù)據(jù)建設新的語料庫或優(yōu)化現(xiàn)有語料 庫,通過獲取新聞文本數(shù)據(jù)用于輿情系統(tǒng)建設和新聞熱點發(fā)現(xiàn)。然而這類數(shù)據(jù)源具有許多 限制,首先他們只存儲采集自因特網(wǎng)的有限信息,其次這些數(shù)據(jù)源只向用戶提供查詢的接 口,用戶只能通過查詢從中獲取與查詢相關的數(shù)據(jù),最后數(shù)據(jù)源對返回數(shù)據(jù)的數(shù)目也有較 大限制。在本文中,定義具有上述三點性質的互聯(lián)網(wǎng)數(shù)據(jù)源為有限數(shù)據(jù)源。常見的有限數(shù) 據(jù)源包括搜索引擎、數(shù)字圖書館、視頻網(wǎng)站等包含大量數(shù)據(jù)資源的信息服務系統(tǒng)。
      [0003] 雖然有限數(shù)據(jù)源可以為研究者提供大量語料數(shù)據(jù),但是其有限的檢索結果數(shù)限制 了研究者對數(shù)據(jù)的獲取,根據(jù)2014年對通用搜索引擎的統(tǒng)計數(shù)據(jù),谷歌網(wǎng)頁搜索一次檢索 最多返回400條記錄,百度網(wǎng)頁搜索一次檢索最多返回760條記錄,雅虎網(wǎng)頁搜索一次檢索 最多返回1000條記錄。
      [0004] 針對上述問題,一種可行的方法就是通過多次拓展查詢來窮盡相關數(shù)據(jù),但是每 次拓展查詢可能會有大量重復的檢索結果,導致查詢次數(shù)過多,數(shù)據(jù)獲取效率低,無法獲取 所有相關的數(shù)據(jù)。

      【發(fā)明內容】

      [0005] 本發(fā)明針對上述現(xiàn)有技術所存在的問題,提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù) 據(jù)獲取方法。
      [0006] 本發(fā)明的技術方案為一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
      [0007] 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞 進行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對所有概念詞進 行逆向排序,選取前k個概念詞作為擴展詞集;
      [0008]
      [0009] 其中,共現(xiàn)度計算公式中idf(wj為查詢詞^的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的 共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi) = Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
      [0010] 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得 到k個查詢結果集;
      [0011] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達 至IJ,則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此 時總共查詢kXm次,此時的查詢表達式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
      [0012] 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總 數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù);
      [0013] 優(yōu)選的,所述的步驟2中,共現(xiàn)度計算公式中A默認為1。
      [0014] 本發(fā)明的有益效果是:一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通 過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限 制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔,本發(fā)明能以較少的查詢擴展次數(shù)從 有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
      【附圖說明】
      [0015] 圖1是本發(fā)明的方法流程圖。
      【具體實施方式】
      [0016] 如圖1,本發(fā)明提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
      [0017] 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞 進行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對所有概念詞進 行逆向排序,詵取前k個概念詞作為擴展詞集:
      [0018]
      [0019] 其中,共現(xiàn)度計算公式中idf(wj為查詢詞&的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的 共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi)=log(^^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
      [0020] 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得 到k個查詢結果集;
      [0021] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達 至IJ,則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此 時總共查詢kXm次,此時的查詢表達式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
      [0022] 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總 數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù);
      [0023] 在步驟2中,共現(xiàn)度計算公式中A默認為1。
      【主權項】
      1. 一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,其特征在于,包含w下步驟: 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文檔S, 構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞進行詞 性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞Ci與查詢詞 之間的共現(xiàn)度,根據(jù)概念詞C1與查詢詞W1之間的共現(xiàn)度f(C,Q),對所有概念詞進行逆向 排序,選取前k個概念詞作為擴展詞集;其中,共現(xiàn)度計算公式中i壯(Wi)為查詢詞Wi的逆文檔頻率,A為常量;co_degree(c,Wi)為每個查詢詞與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的共現(xiàn)度為 概念C與初始查詢表達式Q所有的查詢詞的共現(xiàn)數(shù)的成積和;i壯(W1)為查詢詞逆文 檔頻率,:MT(Wi)=log護^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),cU為有限數(shù)據(jù)源中包 含詞的文檔總數(shù),i壯(W1)詞語普遍重要性的度量; 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得到k個 查詢結果集; 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達到,貝U按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此時總共 查詢kXm次,此時的查詢表達式為S+tii;其間,如果累積返回的文檔總數(shù)超過總數(shù)N,則停 止; 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總數(shù)N; 此累計返回的文檔總數(shù)N指不重復的文檔數(shù)。2. 根據(jù)權利要求書1所述基于查詢擴展的捜索引擎數(shù)據(jù)獲取方法,其特征在于:在步 驟2中,共現(xiàn)度計算公式中A默認為1。
      【專利摘要】本發(fā)明公開了一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔,本發(fā)明通過多次查詢直至窮盡有限數(shù)據(jù)源中所有相關文檔;本發(fā)明將該方法應用與實際的信息檢索中,能以較少的查詢擴展次數(shù)從有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
      【IPC分類】G06F17/30
      【公開號】CN105005620
      【申請?zhí)枴緾N201510437403
      【發(fā)明人】陸偉, 樂興虎, 程齊凱
      【申請人】武漢大學
      【公開日】2015年10月28日
      【申請日】2015年7月23日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1