基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法

文檔序號：9288454閱讀：224來源：國知局

基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法
【技術領域】
[0001] 本發(fā)明屬于信息處理技術領域，尤其涉及信息檢索領域中的查詢擴展以及局部上下文分析方法。
【背景技術】
[0002] 互聯(lián)網(wǎng)可以視為一個不斷增長的文本語料庫，不同領域的專家學者建議將互聯(lián)網(wǎng) 上的資源作為語料的獲取來源。對語言學家而言，Web是重要的語言數(shù)據(jù)來源；自然語言處理領域（NLP)，很多研究使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)并獲得成功，研究包括機器翻譯、術語抽取、拼音檢查和語法檢查等?？梢哉f，Web相當于一個巨型的免費語料庫，收錄不同類型資源的搜索引擎、在線數(shù)據(jù)庫便是開啟這個語料庫的"鑰匙"，可以視作存儲特定類型資源的數(shù)據(jù)源。許多研究通過搜索引擎這類數(shù)據(jù)源獲取語料數(shù)據(jù)建設新的語料庫或優(yōu)化現(xiàn)有語料庫，通過獲取新聞文本數(shù)據(jù)用于輿情系統(tǒng)建設和新聞熱點發(fā)現(xiàn)。然而這類數(shù)據(jù)源具有許多限制，首先他們只存儲采集自因特網(wǎng)的有限信息，其次這些數(shù)據(jù)源只向用戶提供查詢的接口，用戶只能通過查詢從中獲取與查詢相關的數(shù)據(jù)，最后數(shù)據(jù)源對返回數(shù)據(jù)的數(shù)目也有較大限制。在本文中，定義具有上述三點性質的互聯(lián)網(wǎng)數(shù)據(jù)源為有限數(shù)據(jù)源。常見的有限數(shù) 據(jù)源包括搜索引擎、數(shù)字圖書館、視頻網(wǎng)站等包含大量數(shù)據(jù)資源的信息服務系統(tǒng)。
[0003] 雖然有限數(shù)據(jù)源可以為研究者提供大量語料數(shù)據(jù)，但是其有限的檢索結果數(shù)限制了研究者對數(shù)據(jù)的獲取，根據(jù)2014年對通用搜索引擎的統(tǒng)計數(shù)據(jù)，谷歌網(wǎng)頁搜索一次檢索最多返回400條記錄，百度網(wǎng)頁搜索一次檢索最多返回760條記錄，雅虎網(wǎng)頁搜索一次檢索最多返回1000條記錄。
[0004] 針對上述問題，一種可行的方法就是通過多次拓展查詢來窮盡相關數(shù)據(jù)，但是每次拓展查詢可能會有大量重復的檢索結果，導致查詢次數(shù)過多，數(shù)據(jù)獲取效率低，無法獲取所有相關的數(shù)據(jù)。

【發(fā)明內容】

[0005] 本發(fā)明針對上述現(xiàn)有技術所存在的問題，提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù) 據(jù)獲取方法。
[0006] 本發(fā)明的技術方案為一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，包含以下步驟：
[0007] 步驟1，用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構成初始查詢的結果集R，對前n篇文檔S進行正文提取、分詞和詞性標注，對所有詞進行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計算概念詞集C中每個概念詞(^與查詢詞Wl之間的共現(xiàn)度，根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c，Q)，對所有概念詞進行逆向排序，選取前k個概念詞作為擴展詞集；
[0008]
[0009] 其中，共現(xiàn)度計算公式中idf(wj為查詢詞^的逆文檔頻率，A為常量；c〇_ degree(c，Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù)，概念C與初始查詢表達式Q之間的共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和；idf(wJ為查詢詞&逆文檔頻率，idf(Wi) = Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù)，idf(Wl)詞語普遍重要性的度量；
[0010] 步驟2,根據(jù)擴展詞集構造查詢表達式，查詢表達式為S+ti，然后進行k次查詢得到k個查詢結果集；
[0011] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N，如果未達至IJ，則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞，進行第二層查詢擴展，此時總共查詢kXm次，此時的查詢表達式為S+t11;其間，如果累積返回的文檔總數(shù)超過總數(shù) N，則停止；
[0012] 步驟4,按照步驟2和步驟3迭代進行查詢擴展，直到累計返回的文檔總數(shù)等于總數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù)；
[0013] 優(yōu)選的，所述的步驟2中，共現(xiàn)度計算公式中A默認為1。
[0014] 本發(fā)明的有益效果是：一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，本發(fā)明通過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄，可以有效地避開返回記錄數(shù)的限制；以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔，本發(fā)明能以較少的查詢擴展次數(shù)從有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
【附圖說明】
[0015] 圖1是本發(fā)明的方法流程圖。
【具體實施方式】
[0016] 如圖1，本發(fā)明提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，包含以下步驟：
[0017] 步驟1，用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構成初始查詢的結果集R，對前n篇文檔S進行正文提取、分詞和詞性標注，對所有詞進行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計算概念詞集C中每個概念詞(^與查詢詞Wl之間的共現(xiàn)度，根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c，Q)，對所有概念詞進行逆向排序，詵取前k個概念詞作為擴展詞集：
[0018]
[0019] 其中，共現(xiàn)度計算公式中idf(wj為查詢詞&的逆文檔頻率，A為常量；c〇_ degree(c，Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù)，概念C與初始查詢表達式Q之間的共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和；idf(wJ為查詢詞&逆文檔頻率，idf(Wi)=log(^^)，Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù)，idf(Wl)詞語普遍重要性的度量；
[0020] 步驟2,根據(jù)擴展詞集構造查詢表達式，查詢表達式為S+ti，然后進行k次查詢得到k個查詢結果集；
[0021] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N，如果未達至IJ，則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞，進行第二層查詢擴展，此時總共查詢kXm次，此時的查詢表達式為S+t11;其間，如果累積返回的文檔總數(shù)超過總數(shù) N，則停止；
[0022] 步驟4,按照步驟2和步驟3迭代進行查詢擴展，直到累計返回的文檔總數(shù)等于總數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù)；
[0023] 在步驟2中，共現(xiàn)度計算公式中A默認為1。
【主權項】
1. 一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，其特征在于，包含w下步驟：步驟1，用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構成初始查詢的結果集R，對前n篇文檔S進行正文提取、分詞和詞性標注，對所有詞進行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計算概念詞集C中每個概念詞Ci與查詢詞之間的共現(xiàn)度，根據(jù)概念詞C1與查詢詞W1之間的共現(xiàn)度f(C，Q)，對所有概念詞進行逆向排序，選取前k個概念詞作為擴展詞集；其中，共現(xiàn)度計算公式中i壯(Wi)為查詢詞Wi的逆文檔頻率，A為常量；co_degree(c，Wi)為每個查詢詞與概念C之間的貢獻數(shù)，概念C與初始查詢表達式Q之間的共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞的共現(xiàn)數(shù)的成積和；i壯(W1)為查詢詞逆文檔頻率，:MT(Wi)=log護^)，Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，cU為有限數(shù)據(jù)源中包含詞的文檔總數(shù)，i壯(W1)詞語普遍重要性的度量；步驟2,根據(jù)擴展詞集構造查詢表達式，查詢表達式為S+ti，然后進行k次查詢得到k個查詢結果集；步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N，如果未達到，貝U按照步驟1從每個初始查詢的結果集R中選取m個擴展詞，進行第二層查詢擴展，此時總共查詢kXm次，此時的查詢表達式為S+tii;其間，如果累積返回的文檔總數(shù)超過總數(shù)N，則停止；步驟4,按照步驟2和步驟3迭代進行查詢擴展，直到累計返回的文檔總數(shù)等于總數(shù)N; 此累計返回的文檔總數(shù)N指不重復的文檔數(shù)。2. 根據(jù)權利要求書1所述基于查詢擴展的捜索引擎數(shù)據(jù)獲取方法，其特征在于：在步驟2中，共現(xiàn)度計算公式中A默認為1。
【專利摘要】本發(fā)明公開了一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，本發(fā)明通過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄，可以有效地避開返回記錄數(shù)的限制；以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔，本發(fā)明通過多次查詢直至窮盡有限數(shù)據(jù)源中所有相關文檔；本發(fā)明將該方法應用與實際的信息檢索中，能以較少的查詢擴展次數(shù)從有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
【IPC分類】G06F17/30
【公開號】CN105005620
【申請?zhí)枴緾N201510437403
【發(fā)明人】陸偉, 樂興虎, 程齊凱
【申請人】武漢大學
【公開日】2015年10月28日
【申請日】2015年7月23日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陸偉;樂興虎;程齊凱;
技術所有人：武漢大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法