国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法

      文檔序號(hào):6385483閱讀:308來(lái)源:國(guó)知局
      專利名稱:一種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及搜索引擎技術(shù),尤其涉及ー種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法,該方法可用于搜索引擎網(wǎng)絡(luò)爬蟲(chóng)模塊中。
      背景技術(shù)
      目前的很多搜索引擎都涵蓋多種垂直搜索頻道,而每個(gè)垂直頻道的數(shù)據(jù)來(lái)源,90%以上要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)主動(dòng)抓取完成。由于不同垂直頻道產(chǎn)品之間存在著抓取數(shù)據(jù)類型不同、資源內(nèi)容大小各異等區(qū)另IJ,同時(shí)每個(gè)垂直頻道產(chǎn)品都更希望自己的抓取任務(wù)能夠単獨(dú)處理,不被其他業(yè)務(wù)干擾,這就要求每個(gè)垂直頻道的抓取處理任務(wù)是獨(dú)立的,但是不同垂直頻道又可能對(duì)同一個(gè)站點(diǎn)都有訪問(wèn)需求。因此會(huì)造成整體帶寬資源與搜索引擎內(nèi)部多個(gè)垂直頻道之間的矛盾。

      發(fā)明內(nèi)容
      有鑒于此,本發(fā)明的主要目的在于提供ー種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法,綜合考慮各業(yè)務(wù)抓取的獨(dú)立性需求、對(duì)互聯(lián)網(wǎng)站點(diǎn)的禮貌訪問(wèn)控制和對(duì)網(wǎng)絡(luò)帶寬的有效利用,采取多子任務(wù)抓取獨(dú)立、資源統(tǒng)一管理的方式進(jìn)行多頻道抓取,有效利用現(xiàn)有的整體帶寬等資源以更好地服務(wù)搜索引擎內(nèi)部多種類子頻道。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
      ー種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),該系統(tǒng)包括參數(shù)化控制抓取模塊、若干垂直頻道抓取定制模塊、統(tǒng)ー抓取調(diào)度模塊、通用存儲(chǔ)和計(jì)算模塊,以及抓取結(jié)果分發(fā)模塊;其中
      所述參數(shù)化控制抓取模塊,用于對(duì)待抓取的資源按照抓取內(nèi)容、抓取類型、使用的UserAgent進(jìn)行參數(shù)化配置;
      所述垂直頻道抓取定制模塊,用于管理和約定各個(gè)垂直頻道的抓取行為,并具有統(tǒng)計(jì)功能;
      所述統(tǒng)ー抓取調(diào)度模塊,用于將各垂直頻道的抓取請(qǐng)求做歸并,按照對(duì)對(duì)方站點(diǎn)的禮貌控制和壓カ情況,統(tǒng)ー調(diào)度抓??;
      所述通用存儲(chǔ)和計(jì)算模塊,用于通過(guò)配置來(lái)使用不同垂直頻道對(duì)于抓取的通用存儲(chǔ)需求和計(jì)算需求;
      所述抓取結(jié)果分發(fā)模塊,用于按照各垂直頻道抓取定制模塊的抓取行為的約定,將結(jié)果發(fā)送到指定的去處。其中所述垂直頻道抓取定制模塊的子模塊提交抓取任務(wù)須攜帶約定的令牌,通過(guò)令牌來(lái)控制抓取行為。所述統(tǒng)ー抓取調(diào)度 模塊還允許設(shè)置有優(yōu)先級(jí)、配額的多維度的調(diào)度策略。所述通用存儲(chǔ)和計(jì)算模塊,還用于將可復(fù)用的操作抽取出來(lái)。所述抓取結(jié)果分發(fā)模塊,還用作結(jié)果緩存,并對(duì)于結(jié)果的訂閱支持多對(duì)多的關(guān)系。ー種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的抓取方法,該方法包括A、為參數(shù)化控制抓取模塊配置所需的各項(xiàng)參數(shù),具體為對(duì)待抓取資源按照抓取內(nèi)容、抓取類型、使用的UserAgent的字段進(jìn)行配置;
      B、判斷各垂直頻道抓取定制模塊的子模塊提交的抓取任務(wù)是否攜帯有約定的令牌,如果有,則處理http頭信息,然后執(zhí)行步驟C ;否則,返回步驟A ;
      C、判斷待抓取的資源是否為約定的數(shù)據(jù)類型,如果是,則執(zhí)行步驟D;否則,返回步驟
      A ;
      D、進(jìn)ー步判斷待抓取的資源是否超過(guò)預(yù)設(shè)的閾值,如果否,則進(jìn)行資源抓取,然后準(zhǔn)備處理下ー個(gè);否則,返回步驟A。其中步驟A還包括對(duì)附帶參數(shù)進(jìn)行設(shè)置,以滿足定制化抓取行為的需要。本發(fā)明所提供的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法,具有以下優(yōu)點(diǎn)
      該分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的各個(gè)垂直頻道的抓取為單獨(dú)配置,能夠針對(duì)各個(gè)頻道的特點(diǎn)進(jìn)行抓取,可以滿足每個(gè)頻道的定制的需求。由于將抓取任務(wù)進(jìn)行了整合,設(shè)計(jì)時(shí)考慮到了對(duì)站點(diǎn)的壓カ控制、帶寬的利用、抓取結(jié)果的訂閱和共享等方面,滿足了統(tǒng)ー調(diào)度控制的需求。該發(fā)明能夠滿足ー個(gè)搜索引擎有多個(gè)垂直子頻道時(shí),對(duì)網(wǎng)絡(luò)爬蟲(chóng)的需求。


      圖1為本發(fā)明分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的模塊關(guān)系示意 圖2為本發(fā)明分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的抓取方法流程 圖3為本發(fā)明統(tǒng)ー調(diào)度模塊的基本邏輯示意圖。
      具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的分布式爬蟲(chóng)系統(tǒng)及其抓取方法作進(jìn)ー步詳細(xì)的說(shuō)明。圖1為本發(fā)明分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的模塊關(guān)系示意圖,如圖1所示,該系統(tǒng)具體包括參數(shù)化控制抓取模塊、若干垂直頻道抓取定制模塊、統(tǒng)ー抓取調(diào)度模塊、抓取結(jié)果的通用存儲(chǔ)和計(jì)算模塊,以及抓取結(jié)果分發(fā)模塊。其中
      所述參數(shù)化控制抓取模塊,為了更好的利用帶寬和連接等資源,對(duì)待抓取資源按照抓取內(nèi)容、抓取類型、使用的UserAgent等字段進(jìn)行參數(shù)化配置,每ー個(gè)抓取単元(可以理解成ー個(gè)url)不僅有實(shí)際的抓取url,還有ー些附帶參數(shù)用于定制自己的抓取行為,這樣就實(shí)現(xiàn)了相同的抓取框架不同的抓取行為。所述垂直頻道抓取定制模塊,用于管理和約定各個(gè)垂直頻道的抓取行為,并有一定的統(tǒng)計(jì)功能。其子模塊提交抓取任務(wù)要攜帶約定的令牌(Token),通過(guò)令牌來(lái)控制抓取行為。
      所述統(tǒng)ー抓取調(diào)度模塊,用于將各垂直頻道的抓取請(qǐng)求做歸并,按照對(duì)對(duì)方站點(diǎn)的禮貌控制和壓カ等情況,統(tǒng)ー調(diào)度抓??;并設(shè)置有優(yōu)先級(jí)、配額等幾個(gè)維度的調(diào)度策略。抓取結(jié)果的通用存儲(chǔ)和計(jì)算模塊,不同垂直頻道對(duì)于抓取的通用存儲(chǔ)需求和計(jì)算需求,也可以通過(guò)該模塊配置來(lái)使用。盡量將可復(fù)用的操作都抽取出來(lái),避免“重復(fù)造輪子”。所述抓取結(jié)果分發(fā)模塊,用于按照各垂直頻道抓取定制模塊的抓取行為的約定,將結(jié)果發(fā)送到指定的去處,并可以做一定的結(jié)果緩存,同時(shí),對(duì)于結(jié)果的訂閱也支持多對(duì)多的關(guān)系。以上所述模塊均采用多機(jī)分布式實(shí)現(xiàn),具有高度模塊化、擴(kuò)展性較強(qiáng)的特點(diǎn)。此外還包括輔助模塊,即抓取任務(wù)監(jiān)控和統(tǒng)計(jì)模塊。圖2為本發(fā)明分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的抓取方法流程圖。如圖2所示,該流程包括 步驟21 :為參數(shù)化控制抓取模塊配置所需的各項(xiàng)參數(shù)。具體為考慮到帶寬和連接等
      資源,對(duì)待抓取資源按照抓取內(nèi)容、抓取類型、使用的UserAgent等字段進(jìn)行配置,每ー個(gè)抓取単元不僅有實(shí)際的抓取url,還有ー些附帶參數(shù)用于定制自己的抓取行為,這樣就實(shí)現(xiàn)了相同的抓取框架不同的抓取行為。步驟22 :判斷各垂直頻道抓取定制模塊的子模塊提交的抓取任務(wù)是否攜帯有約定的令牌(Token),如果有,則執(zhí)行步驟23 ;否則,返回步驟21。步驟23 :處理http頭信息,然后執(zhí)行步驟24。步驟24 :判斷待抓取的資源是否為約定的數(shù)據(jù)類型,如果是,則執(zhí)行步驟25 ;否貝U,返回步驟21。步驟25 :進(jìn)ー步判斷待抓取的資源是否超過(guò)預(yù)設(shè)的閾值(如圖片尺寸大小限制在IOM以內(nèi)),如果否,則執(zhí)行步驟26 ;否則,返回步驟21。步驟26 :成功處理即進(jìn)行資源抓取,然后準(zhǔn)備處理下ー個(gè)。按照上述抓取流程,下面以新增抓取業(yè)務(wù)的流程為例說(shuō)明該抓取方法的過(guò)程。例如垂直頻道新增了ー類圖片搜索,抓取的需求都是抓取ー些jpg, gif, png等格式圖片。其抓取步驟如下
      第一,使用各垂直頻道抓取定制模塊約定抓取需求。根據(jù)該類特點(diǎn),抓取的類型都是圖片,那么content-type的集合是類似image/jpeg等;由于高清圖片用處不大,所以對(duì)資源的最大值限制為不超過(guò)10M,也就是配置IOM以上的,不抓取結(jié)果;由于圖片還涉及防盜鏈的考慮,所以需要配置指定的referer。之后約定是否需要通用存儲(chǔ)和通用計(jì)算,約定數(shù)據(jù)訂閱的出口方式。并約定配額。第二,對(duì)于訂閱數(shù)據(jù)部分,由于提供了通用編程框架,使用者僅需要填寫自己的邏輯處理部分。第三,使用封裝過(guò)的提交作業(yè)的client提交抓取請(qǐng)求。第四,可以通過(guò)統(tǒng)計(jì)平臺(tái)實(shí)時(shí)得到自己的抓取進(jìn)度,還可以得到天級(jí)別的抓取內(nèi)容按照host、http返回碼,頁(yè)面大小等維度的統(tǒng)計(jì)報(bào)表。圖3為本發(fā)明統(tǒng)ー調(diào)度模塊的基本邏輯示意圖。如圖3所示,由于將抓取任務(wù)的整合、對(duì)站點(diǎn)的壓カ控制、帶寬的利用以及抓取結(jié)果的訂閱和共享等方面,都在本發(fā)明做作了綜合考慮,滿足了統(tǒng)ー調(diào)度控制的需求。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
      權(quán)利要求
      1.一種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其特征在于,該系統(tǒng)包括參數(shù)化控制抓取模塊、若干垂直頻道抓取定制模塊、統(tǒng)一抓取調(diào)度模塊、通用存儲(chǔ)和計(jì)算模塊,以及抓取結(jié)果分發(fā)模塊;其中 所述參數(shù)化控制抓取模塊,用于對(duì)待抓取的資源按照抓取內(nèi)容、抓取類型、使用的UserAgent進(jìn)行參數(shù)化配置; 所述垂直頻道抓取定制模塊,用于管理和約定各個(gè)垂直頻道的抓取行為,并具有統(tǒng)計(jì)功能; 所述統(tǒng)一抓取調(diào)度模塊,用于將各垂直頻道的抓取請(qǐng)求做歸并,按照對(duì)對(duì)方站點(diǎn)的禮貌控制和壓力情況,統(tǒng)一調(diào)度抓?。? 所述通用存儲(chǔ)和計(jì)算模塊,用于通過(guò)配置來(lái)使用不同垂直頻道對(duì)于抓取的通用存儲(chǔ)需求和計(jì)算需求; 所述抓取結(jié)果分發(fā)模塊,用于按照各垂直頻道抓取定制模塊的抓取行為的約定,將結(jié)果發(fā)送到指定的去處。
      2.根據(jù)權(quán)利要求1所述分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其特征在于,所述垂直頻道抓取定制模塊的子模塊提交抓取任務(wù)須攜帶約定的令牌,通過(guò)令牌來(lái)控制抓取行為。
      3.根據(jù)權(quán)利要求1所述分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其特征在于,所述統(tǒng)一抓取調(diào)度模塊還允許設(shè)置有優(yōu)先級(jí)、配額的多維度的調(diào)度策略。
      4.根據(jù)權(quán)利要求1所述分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其特征在于,所述通用存儲(chǔ)和計(jì)算模塊,還用于將可復(fù)用的操作抽取出來(lái)。
      5.根據(jù)權(quán)利要求1所述分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其特征在于,所述抓取結(jié)果分發(fā)模塊,還用作結(jié)果緩存,并對(duì)于結(jié)果的訂閱支持多對(duì)多的關(guān)系。
      6.一種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的抓取方法,其特征在于,該方法包括 A、為參數(shù)化控制抓取模塊配置所需的各項(xiàng)參數(shù),具體為對(duì)待抓取資源按照抓取內(nèi)容、抓取類型、使用的UserAgent的字段進(jìn)行配置; B、判斷各垂直頻道抓取定制模塊的子模塊提交的抓取任務(wù)是否攜帶有約定的令牌,如果有,則處理http頭信息,然后執(zhí)行步驟C ;否則,返回步驟A ; C、判斷待抓取的資源是否為約定的數(shù)據(jù)類型,如果是,則執(zhí)行步驟D;否則,返回步驟A ; D、進(jìn)一步判斷待抓取的資源是否超過(guò)預(yù)設(shè)的閾值,如果否,則進(jìn)行資源抓取,然后準(zhǔn)備處理下一個(gè);否則,返回步驟A。
      7.根據(jù)權(quán)利要求6所述分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的抓取方法,其特征在于,步驟A還包括對(duì)附帶參數(shù)進(jìn)行設(shè)置,以滿足定制化抓取行為的需要。
      全文摘要
      本發(fā)明公開(kāi)一種分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)及其抓取方法,包括參數(shù)化控制抓取模塊,用于對(duì)待抓取的資源按照抓取內(nèi)容、抓取類型、使用的UserAgent進(jìn)行參數(shù)化配置;垂直頻道抓取定制模塊,用于管理和約定各個(gè)垂直頻道的抓取行為,并具有統(tǒng)計(jì)功能;統(tǒng)一抓取調(diào)度模塊,用于將各垂直頻道的抓取請(qǐng)求做歸并,按照對(duì)對(duì)方站點(diǎn)的禮貌控制和壓力情況,統(tǒng)一調(diào)度抓?。煌ㄓ么鎯?chǔ)和計(jì)算模塊,用于通過(guò)配置來(lái)使用不同垂直頻道對(duì)于抓取的通用存儲(chǔ)需求和計(jì)算需求;抓取結(jié)果分發(fā)模塊,用于按照各垂直頻道抓取定制模塊的抓取行為的約定,將結(jié)果發(fā)送到指定的去處。采用本發(fā)明,能夠進(jìn)行多頻道抓取,并有效利用現(xiàn)有的整體帶寬等資源以更好地服務(wù)搜索引擎內(nèi)部多種類子頻道。
      文檔編號(hào)G06F17/30GK103037010SQ20121057344
      公開(kāi)日2013年4月10日 申請(qǐng)日期2012年12月26日 優(yōu)先權(quán)日2012年12月26日
      發(fā)明者高立闖 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1