国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于搜索策略的多主題信息采集方法

      文檔序號:6523434閱讀:190來源:國知局
      一種基于搜索策略的多主題信息采集方法
      【專利摘要】本發(fā)明是一種基于搜索策略的多主題信息采集方法,其步驟如下:(1)將主題規(guī)則集拆分成原子規(guī)則集;(2)判定原子規(guī)則集中原子規(guī)則的關(guān)系;(3)將原子規(guī)則集調(diào)度到內(nèi)置搜索隊列、通用搜索隊列;(4)用和中的原子規(guī)則進行搜索采集。本發(fā)明方法針對多主題信息采集效率低下的問題,提出將主題的規(guī)則拆分成原子規(guī)則,并利用原子規(guī)則間的相同、互換、包含三種關(guān)系達到減少在互聯(lián)網(wǎng)上搜索采集次數(shù)的目的,提高了多主題信息采集的性能。
      【專利說明】一種基于搜索策略的多主題信息采集方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種信息采集技術(shù),具體地說,涉及一種基于搜索策略的多主題信息采集方法。
      【背景技術(shù)】
      [0002]主題信息采集是指有選擇性地采集那些與預(yù)先定義好的主題相關(guān)信息的行為。主題信息采集面對的是特定的行業(yè)用戶,采集的信息只限定于特定的主題。按照采集主題的范圍和規(guī)模,可以分為廣泛主題采集和具體主題采集。廣泛主題指那些涵蓋面較寬,并且和其他主題相比有較強的獨立性的一類主題。廣泛主題采集也稱作領(lǐng)域信息采集。用戶在采集這類主題時,往往并沒有太具體的要求。這類信息采集往往采集到的信息數(shù)量較多,為了達到較高的召回率,在進行信息過濾的時候所設(shè)定的閾值較低、限制較寬。比如,“交通事故”、“自然災(zāi)害”、“地震”、“火災(zāi)”等都是廣泛主題的例子。簡而言之,廣泛主題缺乏具體的要素約束,比如時間、地點、參與對象等約束要素,因而它獲取的內(nèi)容比較雜亂,采集內(nèi)容與主題的平均相關(guān)度也較低。
      [0003]具體主題涵蓋面較窄,因此意義也比較明確,采集信息的規(guī)模也較小。這類采集一般可直接服務(wù)于用戶,是目前最主要的主題信息采集模式,為此,它在進行信息過濾的時候所設(shè)定的閾值較高、限制較嚴(yán)。比如,“2008年汶川地震”、“美國斯諾登事件”、“3.15動車事故”、“2008金融危機”、“2012臺灣選舉”等都是具體主題的例子。這類主題由于有明確的約束要素,使得采集到的信息與主題的平均相關(guān)度較高。
      [0004]申請?zhí)枮?00810223523.7的現(xiàn)有技術(shù)提出了一種面向主題的信息采集方法,該方法首先根據(jù)待采集鏈接隊列中鏈接的順序,從所述待采集鏈接隊列中獲得多個鏈接,采集并存儲所述多個鏈接的頁面內(nèi)容,提取所述頁面中的新鏈接,判定所述頁面的主題相關(guān)性,提取所述頁面的相關(guān)鏈接集合,將所述新鏈接添加到所述待采集鏈接隊列中;而后,根據(jù)所述頁面的相關(guān)鏈接集合和所述頁面的主題相關(guān)性,計算所有鏈接的頁面的主題相關(guān)性,并調(diào)整添加了所述新鏈接的待采集鏈接隊列中的鏈接的順序,重復(fù)上述兩步直至采集結(jié)束。
      [0005]在2002年德國出版的會議論文集:2002年第六屆歐洲數(shù)字圖書館研究和高級技術(shù)會議(Proceedings of 2002 Conference of the European Conference on Researchand Advanced Technology for Digital Libraries),題目為:主題米集、隧道和數(shù)字圖書館(Focused crawls, tunneling, and digital libraries),作者是:D.Bergmark, C.Lagoze, and A.Sbityakov,該文提出了基于關(guān)鍵字的主題信息采集方法,沒有考慮關(guān)鍵字之間的“與”、“或”關(guān)系。
      [0006]在2012年中國出版的期刊:情報學(xué)報,題目為:一種基于局部分析面向事件的查詢擴展方法,作者是:仲兆滿,朱平,李存華,管燕,劉宗田,該文針對事件檢索問題,討論了事件要素之間的約束關(guān)系,體現(xiàn)了關(guān)鍵字之間的“與”關(guān)系。
      [0007]現(xiàn)有技術(shù)沒有考慮多主題信息采集過程中的重復(fù)采集信息的問題,效率低下。
      【發(fā)明內(nèi)容】

      [0008]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)中存在的多主題信息采集效率低下的問題,提出一種基于搜索策略的多主題信息采集方法,該方法將主題的規(guī)則拆分成原子規(guī)則,并利用原子規(guī)則間的相同、互換、包含三種關(guān)系達到減少在互聯(lián)網(wǎng)上搜索采集次數(shù)的目的,提高了多主題信息采集的性能。
      [0009]本發(fā)明所要解決的技術(shù)問題是通過以下的技術(shù)方案來實現(xiàn)的。本發(fā)明是一種基于搜索策略的多主題信息采集方法,其特點是:其具體步驟如下:
      A、將主題規(guī)則集拆分成原子規(guī)則集及&;
      B、判定原子規(guī)則集Ra中原子規(guī)則和,呢的關(guān)系;
      C、將原子規(guī)則隼IT分配到內(nèi)置搜索隊列、通用搜索隊列#;
      D、用#和f中的原子規(guī)則進行搜索采集;
      步驟A中所述的將主題規(guī)則集R拆分成原子規(guī)則隼其具體步驟如下:
      Al、依次從中取出每條主題規(guī)則Ri , Ra置空;
      A2、判段Mi中是否包含“+”關(guān)系;如果包含,則轉(zhuǎn)步驟A3 ;否則,Ra = ISg),轉(zhuǎn)步驟
      A5 ;
      A3、判斷中是否存在“與”分配律。如果存在m個(m> O),循環(huán)執(zhí)行Hi次“與”分配律運算,得到我* ;否則,Rs1 = Ri,轉(zhuǎn)步驟A4 ;
      A4、依據(jù)“ + ”關(guān)系將切分成H條原子規(guī)則,將n條原子規(guī)則放入丑〃,轉(zhuǎn)步驟
      A5 ;
      A5、得到原子規(guī)則集及》;
      步驟(C)中所述的將原子規(guī)則集把分配到內(nèi)置搜索隊列#、通用搜索隊列#,其具體步驟如下:
      Q、遍歷JT中所有原子規(guī)則,沒有關(guān)系的原子規(guī)則直接分別放入Jgr、Cc ;如果原子規(guī)則有關(guān)系,記有關(guān)系的原子規(guī)則集為Ra,,轉(zhuǎn)步驟C2 ;否則,轉(zhuǎn)步驟C6 ;
      02、從取出一條原子規(guī)則,判斷它與其他原子規(guī)則之間的關(guān)系;如果兩條原子規(guī)則^ ,選成分別放入Q1 Qc '轉(zhuǎn)步驟C5;否則,轉(zhuǎn)步驟C3 ;
      C 3、如果 < = < ,選或放入#,選和i^放入g11 ,轉(zhuǎn)步驟C 5 ;否則轉(zhuǎn)步驟C4 ;
      C4、如Jf d % ,選If放入# ,選Jlf和放入gc,轉(zhuǎn)步驟C5 ;
      C5、判斷JJff*中的原子規(guī)則是否全部分配完畢,完成轉(zhuǎn)步驟C6 ;否則,轉(zhuǎn)步驟C2 ;
      C6、得到內(nèi)置搜索隊列0和通用搜索隊列g(shù)c。
      [0010]本發(fā)明的基于搜索策略的多主題信息采集方法與現(xiàn)有技術(shù)相比較,具有以下效果:該方法將多主題的采集規(guī)則轉(zhuǎn)化為原子規(guī)則,通過判定原子規(guī)則間的三種關(guān)系,為內(nèi)置搜索引擎和通用搜索引擎分配不同的原子規(guī)則,達到了壓縮原子規(guī)則、減少網(wǎng)絡(luò)訪問次數(shù)的目的,提高了單位時間內(nèi)采集的信息數(shù)目。
      【專利附圖】

      【附圖說明】
      [0011]圖1是本發(fā)明的基于搜索策略的多主題信息采集方法的流程圖;
      圖2是圖1中步驟101所述的將主題規(guī)則集R拆分成原子規(guī)則集把的流程圖;
      圖3是圖1中步驟103所述的將原子規(guī)則集JT分配到內(nèi)置搜索隊列0"、通用搜索隊列的流程圖。
      【具體實施方式】
      [0012]下面結(jié)合附圖和【具體實施方式】對本發(fā)明的實施過程作進一步詳細的描述。
      `[0013]參照圖1,一種基于搜索策略的多主題信息采集方法,該方法包括如下步驟:
      步驟101、將主題規(guī)則集及拆分成原子規(guī)則隼JT,參照圖2,其具體步驟如下:
      步驟201、依次從及中取出每條主題規(guī)則馬,原子規(guī)則集置空。主題規(guī)則指使用關(guān)鍵詞之間的“與”(*)、“或”(+ )關(guān)系描述主題,比如,主題r為“2008汶川地震”,則主題T的規(guī)則可以為2008*(汝川+四川)*地憲,,原子規(guī)則指對主題的表示規(guī)則進行拆分,拆
      分后的關(guān)鍵詞之間僅僅存在“與”的關(guān)系,比如主題規(guī)則i? = 2008*(技M+四川)*地盡,
      拆分后得到兩條原子規(guī)則分別是R1* = 3008*瀏11*地震和R; = 2008*圓11*地震。
      [0014]步驟202、判段中是否包含“ + ”(或)關(guān)系。如果包含,轉(zhuǎn)步驟203 ;否則,Re = ^isI,轉(zhuǎn)步驟 207 ;步驟203、判斷片中是否存在“與”分配律。主題規(guī)則“與”分配律定義為:A* (B+C)
      =A*B+A*C,例如“地震*(汶川+四川)”#地震*汶川+地震*四川”。如果有,轉(zhuǎn)步驟204,;否則,轉(zhuǎn)步驟205 ;
      步驟204、假設(shè)有Hf個(in>0)存在“與”分配律,循環(huán)執(zhí)行fff次“與”分配律運算,得到Ri",轉(zhuǎn)步驟206 ;
      步驟2O5、Rf = Ri ,轉(zhuǎn)步驟206 ;
      步驟206、依據(jù)“ + ”關(guān)系將%,切分成/I條原子規(guī)則,將《條原子規(guī)則放入中,轉(zhuǎn)步驟207 ;
      步驟207、得到原子規(guī)則集?
      [0015]步驟102、判定原子規(guī)則集中原子規(guī)則的關(guān)系,其具體如下:
      B1、兩條原子規(guī)則經(jīng)過關(guān)系切分后,如果關(guān)鍵詞相同,且出現(xiàn)的順序完全
      一致,則這兩條規(guī)則存在相同關(guān)系,記作< =Rj,轉(zhuǎn)步驟B4 ;否則轉(zhuǎn)步驟B2 ;
      B2、如果關(guān)鍵詞完全相同,但出現(xiàn)的順序不一致,則這兩條規(guī)則存在互換關(guān)系,記作 ? Rj,轉(zhuǎn)步驟B4 ;否則轉(zhuǎn)步驟B3 ;
      B3、如果 < 的關(guān)鍵字是g關(guān)鍵字的真子集,則這兩條規(guī)則存在包含關(guān)系,記作
      ,轉(zhuǎn)步驟B4 ;
      B4、原子規(guī)則及;1,.#的關(guān)系判定結(jié)束。
      [0016]步驟103、將原子規(guī)則集調(diào)度到內(nèi)置搜索隊列#、通用搜索隊列#,參照
      圖3,其具體步驟如下:
      步驟301、遍歷中所有原子規(guī)則,沒有關(guān)系的原子規(guī)則直接分別放入。如
      果原子規(guī)則有關(guān)系,記有關(guān)系的原子規(guī)則集為/r*,轉(zhuǎn)步驟302 ;
      步驟302、判定^a*是否為空,如果不為空,轉(zhuǎn)步驟303 ;否則,轉(zhuǎn)步驟310 ;
      步驟303、從取出一條原子規(guī)則,判斷它與其他原子規(guī)則之間的關(guān)系。如果兩條原子規(guī)則 < = <,轉(zhuǎn)步驟306 ;否則,轉(zhuǎn)步驟304 ;步驟304、如果,轉(zhuǎn)步驟307 ;否則,轉(zhuǎn)步驟305 ;
      步驟305、如果JJf c ,轉(zhuǎn)步驟308 ;否則,轉(zhuǎn)步驟309 ;
      步驟306、選 < 或疼分別放入^ ;
      步驟307、選Jf或 < 放入f,選< 和Jf放入# ;
      步驟308、選< 放入Q1 ,選JSJ1和放入f ;
      步驟309、判斷及~中的原子規(guī)則是否全部判定完畢,完成轉(zhuǎn)步驟310 ;否則,轉(zhuǎn)步驟
      303 ;
      步驟310、得到和0^。
      [0017]步驟104、用#和#中的原子規(guī)則進行搜索采集,其具體如下:
      D1、用療中的原子規(guī)則在內(nèi)置搜索引擎中采集信息。內(nèi)置搜索引擎指網(wǎng)站自帶的用于對網(wǎng)站自身內(nèi)容進行搜索的引擎,比如微博、論壇等內(nèi)置搜索引擎。
      [0018]D2、用中的原子規(guī)則在通用搜索引擎中采集信息。通用搜索引擎指從互聯(lián)網(wǎng)
      上多種媒體中廣泛的采集收集信息,為用戶提供信息檢索服務(wù)的引擎,比如百度、谷歌等通用搜索引擎。
      [0019]使用兩種不同的采集方法,在不同的單位時間內(nèi)統(tǒng)計采集的信息量。兩種方法如下:
      (1)進行主題規(guī)則到原子規(guī)則的拆分,不考慮原子規(guī)則之間的關(guān)系,將所有的原子規(guī)則分配到內(nèi)置搜索引擎和通用搜索引擎采集,該方法記作M1 ;
      (2)進行主題規(guī)則到原子規(guī)則的拆分,考慮原子規(guī)則之間的關(guān)系,依據(jù)原子規(guī)則之間的關(guān)系分配不同的原子規(guī)則調(diào)度到內(nèi)置搜索引擎和通用搜索引擎采集,該方法記作M2,這就是本發(fā)明的方法。
      [0020]為了統(tǒng)計獲取的信息量,方法叫和M2都僅進行URL排重,不進行內(nèi)容排重。
      [0021]圍繞某省消防部門,制定的主題規(guī)則共有138條,拆分后的原子規(guī)則8223條,這些原子規(guī)則中存在包含關(guān) 系的有4146條,存在互換關(guān)系的有717條,存在相同關(guān)系的有427條。經(jīng)過關(guān)系判定后,推送到內(nèi)置搜索引擎隊列的原子規(guī)則條數(shù)為4009條,減少了 4214條,減少比例為51%,對內(nèi)置搜索目標(biāo)而言,減少了約一半的訪問工作量。推送到通用搜索引擎隊列的原子規(guī)則條數(shù)為8002條,減少了 221條,減少比例為3%。對通用搜索引擎而言,只有原子規(guī)則具有了相同關(guān)系才能減少訪問次數(shù),所以采集次數(shù)減少并不明顯。
      [0022]對獲取信息量的比較使用的評測指標(biāo):P 二其中,t指單位時間,比如
      I個小時、I天等,指單位時間內(nèi)采集到的信息數(shù)目。[0023]不同的單位時間采集到的信息量見表1所示。
      [0024]表1.不同的單位時間獲取的信息量
      【權(quán)利要求】
      1.一種基于搜索策略的多主題信息采集方法,其特征在于:其具體步驟如下: A、將主題規(guī)則集拆分成原子規(guī)則集JT1; B、判定原子規(guī)則集Jr中原子規(guī)則M1H的關(guān)系; C、將原子規(guī)則隼JT分配到內(nèi)置搜索隊列f、通用搜索隊列#; D、用#和f中的原子規(guī)則進行搜索采集;
      JSJt3T.步驟A中所述的將主題規(guī)則集R拆分成原子規(guī)則隼JT其具體步驟如下: Al、依次從中取出每條主題規(guī)則Ri , Rn置空; A2、判段Ri中是否包含“+”關(guān)系;如果包含,則轉(zhuǎn)步驟A3 ;否則,JT = py,轉(zhuǎn)步驟A5 ; A3、判斷中是否存在“與”分配律。
      2.如果存在Hf個(!?>(}),循環(huán)執(zhí)行M次“與”分配律運算,得到;否則,段/ = R1-,轉(zhuǎn)步驟A4 ; A4、依據(jù)“ + ”關(guān)系將切分成n條原子規(guī)則,將W條原子規(guī)則放入丑《,轉(zhuǎn)步驟A5 ; A5、得到原 子規(guī)則集Ra ; 步驟(C)中所述的將原子規(guī)則集分配到內(nèi)置搜索隊列#、通用搜索隊列f,其具體步驟如下: Cl、遍歷中所有原子規(guī)則,沒有關(guān)系的原子規(guī)則直接分別放入#、;如果原子規(guī)則有關(guān)系,記有關(guān)系的原子規(guī)則集為Ha',轉(zhuǎn)步驟C2 ;否則,轉(zhuǎn)步驟C6 ; C2、從及~取出一條原子規(guī)則,判斷它與其他原子規(guī)則之間的關(guān)系;如果兩條原子規(guī)則=R^ ,選2?1或分別放入Q1 Qc >轉(zhuǎn)步驟C5;否則,轉(zhuǎn)步驟C3 ; C3、如果as J^r,選或g放入f ,選 < 和g放入,轉(zhuǎn)步驟C5 ;否則轉(zhuǎn)步驟C4 ;C4、如CZi^ ,選if放入# ,選 < 和Rj放入gC,轉(zhuǎn)步驟C5 ;C5、判斷中的原子規(guī)則是否全部分配完畢,完成轉(zhuǎn)步驟C6 ;否則,轉(zhuǎn)步驟C2 ;C6、得到內(nèi)置搜索隊列jg1和 通用搜索隊列f。
      【文檔編號】G06F17/30GK103617286SQ201310677257
      【公開日】2014年3月5日 申請日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
      【發(fā)明者】仲兆滿, 李存華, 管燕 申請人:仲兆滿
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1