基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法
【技術領域】
[0001] 本發(fā)明屬于信息處理技術領域,尤其涉及信息檢索領域中的查詢擴展以及局部上 下文分析方法。
【背景技術】
[0002] 互聯(lián)網(wǎng)可以視為一個不斷增長的文本語料庫,不同領域的專家學者建議將互聯(lián)網(wǎng) 上的資源作為語料的獲取來源。對語言學家而言,Web是重要的語言數(shù)據(jù)來源;自然語言處 理領域(NLP),很多研究使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)并獲得成功,研究包括機器翻譯、術語抽 取、拼音檢查和語法檢查等??梢哉f,Web相當于一個巨型的免費語料庫,收錄不同類型資 源的搜索引擎、在線數(shù)據(jù)庫便是開啟這個語料庫的"鑰匙",可以視作存儲特定類型資源的 數(shù)據(jù)源。許多研究通過搜索引擎這類數(shù)據(jù)源獲取語料數(shù)據(jù)建設新的語料庫或優(yōu)化現(xiàn)有語料 庫,通過獲取新聞文本數(shù)據(jù)用于輿情系統(tǒng)建設和新聞熱點發(fā)現(xiàn)。然而這類數(shù)據(jù)源具有許多 限制,首先他們只存儲采集自因特網(wǎng)的有限信息,其次這些數(shù)據(jù)源只向用戶提供查詢的接 口,用戶只能通過查詢從中獲取與查詢相關的數(shù)據(jù),最后數(shù)據(jù)源對返回數(shù)據(jù)的數(shù)目也有較 大限制。在本文中,定義具有上述三點性質的互聯(lián)網(wǎng)數(shù)據(jù)源為有限數(shù)據(jù)源。常見的有限數(shù) 據(jù)源包括搜索引擎、數(shù)字圖書館、視頻網(wǎng)站等包含大量數(shù)據(jù)資源的信息服務系統(tǒng)。
[0003] 雖然有限數(shù)據(jù)源可以為研究者提供大量語料數(shù)據(jù),但是其有限的檢索結果數(shù)限制 了研究者對數(shù)據(jù)的獲取,根據(jù)2014年對通用搜索引擎的統(tǒng)計數(shù)據(jù),谷歌網(wǎng)頁搜索一次檢索 最多返回400條記錄,百度網(wǎng)頁搜索一次檢索最多返回760條記錄,雅虎網(wǎng)頁搜索一次檢索 最多返回1000條記錄。
[0004] 針對上述問題,一種可行的方法就是通過多次拓展查詢來窮盡相關數(shù)據(jù),但是每 次拓展查詢可能會有大量重復的檢索結果,導致查詢次數(shù)過多,數(shù)據(jù)獲取效率低,無法獲取 所有相關的數(shù)據(jù)。
【發(fā)明內容】
[0005] 本發(fā)明針對上述現(xiàn)有技術所存在的問題,提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù) 據(jù)獲取方法。
[0006] 本發(fā)明的技術方案為一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
[0007] 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞 進行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對所有概念詞進 行逆向排序,選取前k個概念詞作為擴展詞集;
[0008]
[0009] 其中,共現(xiàn)度計算公式中idf(wj為查詢詞^的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的 共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi) = Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
[0010] 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得 到k個查詢結果集;
[0011] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達 至IJ,則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此 時總共查詢kXm次,此時的查詢表達式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
[0012] 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總 數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù);
[0013] 優(yōu)選的,所述的步驟2中,共現(xiàn)度計算公式中A默認為1。
[0014] 本發(fā)明的有益效果是:一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通 過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限 制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔,本發(fā)明能以較少的查詢擴展次數(shù)從 有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
【附圖說明】
[0015] 圖1是本發(fā)明的方法流程圖。
【具體實施方式】
[0016] 如圖1,本發(fā)明提供一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
[0017] 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞 進行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對所有概念詞進 行逆向排序,詵取前k個概念詞作為擴展詞集:
[0018]
[0019] 其中,共現(xiàn)度計算公式中idf(wj為查詢詞&的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個查詢詞Wl與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的 共現(xiàn)度為概念C與初始查詢表達式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi)=log(^^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
[0020] 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得 到k個查詢結果集;
[0021] 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達 至IJ,則按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此 時總共查詢kXm次,此時的查詢表達式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
[0022] 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總 數(shù)N;此累計返回的文檔總數(shù)N指不重復的文檔數(shù);
[0023] 在步驟2中,共現(xiàn)度計算公式中A默認為1。
【主權項】
1. 一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,其特征在于,包含w下步驟: 步驟1,用初始查詢表達式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文檔S, 構成初始查詢的結果集R,對前n篇文檔S進行正文提取、分詞和詞性標注,對所有詞進行詞 性過濾,從所有詞中選取概念詞集C,按公式(1)計算概念詞集C中每個概念詞Ci與查詢詞 之間的共現(xiàn)度,根據(jù)概念詞C1與查詢詞W1之間的共現(xiàn)度f(C,Q),對所有概念詞進行逆向 排序,選取前k個概念詞作為擴展詞集;其中,共現(xiàn)度計算公式中i壯(Wi)為查詢詞Wi的逆文檔頻率,A為常量;co_degree(c,Wi)為每個查詢詞與概念C之間的貢獻數(shù),概念C與初始查詢表達式Q之間的共現(xiàn)度為 概念C與初始查詢表達式Q所有的查詢詞的共現(xiàn)數(shù)的成積和;i壯(W1)為查詢詞逆文 檔頻率,:MT(Wi)=log護^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),cU為有限數(shù)據(jù)源中包 含詞的文檔總數(shù),i壯(W1)詞語普遍重要性的度量; 步驟2,根據(jù)擴展詞集構造查詢表達式,查詢表達式為S+ti,然后進行k次查詢得到k個 查詢結果集; 步驟3,判斷k次查詢累積返回的不重復文檔總數(shù)是否超過總文檔數(shù)N,如果未達到,貝U按照步驟1從每個初始查詢的結果集R中選取m個擴展詞,進行第二層查詢擴展,此時總共 查詢kXm次,此時的查詢表達式為S+tii;其間,如果累積返回的文檔總數(shù)超過總數(shù)N,則停 止; 步驟4,按照步驟2和步驟3迭代進行查詢擴展,直到累計返回的文檔總數(shù)等于總數(shù)N; 此累計返回的文檔總數(shù)N指不重復的文檔數(shù)。2. 根據(jù)權利要求書1所述基于查詢擴展的捜索引擎數(shù)據(jù)獲取方法,其特征在于:在步 驟2中,共現(xiàn)度計算公式中A默認為1。
【專利摘要】本發(fā)明公開了一種基于查詢擴展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通過查詢擴展技術執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關文檔,本發(fā)明通過多次查詢直至窮盡有限數(shù)據(jù)源中所有相關文檔;本發(fā)明將該方法應用與實際的信息檢索中,能以較少的查詢擴展次數(shù)從有限數(shù)據(jù)源中獲取所有相關的數(shù)據(jù)。
【IPC分類】G06F17/30
【公開號】CN105005620
【申請?zhí)枴緾N201510437403
【發(fā)明人】陸偉, 樂興虎, 程齊凱
【申請人】武漢大學
【公開日】2015年10月28日
【申請日】2015年7月23日