国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于Heritrix爬蟲的分布式采集方法及系統(tǒng)的制作方法

      文檔序號(hào):9754284閱讀:468來源:國(guó)知局
      一種基于Heritrix爬蟲的分布式采集方法及系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于計(jì)算機(jī)互聯(lián)網(wǎng)方面,涉及互聯(lián)網(wǎng)網(wǎng)頁式爬蟲采集及監(jiān)控領(lǐng)域,尤其涉及一種基于Heritrix爬蟲的分布式采集方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]目前互聯(lián)網(wǎng)搜索引擎存在廣告、垃圾網(wǎng)站和死鏈接過多問題,如搜索網(wǎng)頁鏈接打開后卻標(biāo)示著“該鏈接已被刪除”的信息或“請(qǐng)嘗試其他鏈接”等提示。其次,中文網(wǎng)站檢索的更新頻率慢,一般每隔兩至四周才由“蜘蛛”程序重新爬??;其自身系統(tǒng)數(shù)據(jù)庫(kù)龐大,也造成數(shù)據(jù)的更新速度無法大幅度提高,從而影響檢索性能的時(shí)效性。另外,互聯(lián)網(wǎng)搜索引擎不能根據(jù)用戶個(gè)性化需求進(jìn)行定制功能;比如:只檢索某個(gè)網(wǎng)站前三層URL (互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址)中的新聞視頻信息,視頻數(shù)據(jù)不能包含電影、電視劇等。
      [0003]究其原因,是由于網(wǎng)絡(luò)結(jié)構(gòu)系統(tǒng)性能過低。目前各類開源網(wǎng)絡(luò)爬蟲大多都采用集中式網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì):在一臺(tái)服務(wù)器上給定初始URLURL集合,通過爬蟲主體程序多個(gè)線程分別獲取URL URL,將URL對(duì)應(yīng)的html頁面獲取到本地進(jìn)行分析,頁面內(nèi)容提取模塊將提取可供檢索的信息,URL提取模塊提取新的指向其他頁面的鏈接,經(jīng)過一系統(tǒng)處理并保存供后續(xù)繼續(xù)爬取。當(dāng)系統(tǒng)數(shù)據(jù)規(guī)模到達(dá)一定程度(如網(wǎng)頁數(shù)達(dá)到億級(jí)別)時(shí),這種架構(gòu)模式的單機(jī)服務(wù)器硬件性能問題就突顯出來了。
      [0004]為了緩解上述問題,互聯(lián)網(wǎng)檔案館和北歐國(guó)家圖書館聯(lián)合開發(fā)出了 Heritrix。是一個(gè)由java開發(fā)的、開源的網(wǎng)絡(luò)爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。Heritrix它的執(zhí)行是遞歸進(jìn)行的,主要包括以下幾個(gè)步驟:(I)獲取預(yù)設(shè)的一個(gè)URL ; (2)獲取該URL的采集地址集;(3)解析采集地址集,并進(jìn)行歸檔;(4)從中選擇出相關(guān)的URL,并加入預(yù)設(shè)URL隊(duì)列。Heritrix由一些核心類與可插件模塊構(gòu)成,核心類可以配置,滿足實(shí)際配置需求,插件模塊可任由第三方模塊取代,可以不斷的被其感興趣的第三方改進(jìn),已成為一個(gè)比較成熟的開源爬蟲,并被廣泛使用。
      [0005]在面向監(jiān)管類系統(tǒng)中,一般的爬蟲在設(shè)計(jì)上功能顯得都比較臃腫。在監(jiān)管系統(tǒng)中,爬取的范圍是明確的,爬取的內(nèi)容是明確的,爬取的頻率基本是固定的。同樣基于鏈的發(fā)現(xiàn),而不需要遵循正常爬蟲的協(xié)議,無需給出鏈的分值、無需建立內(nèi)容索引,但需要對(duì)目標(biāo)頁面進(jìn)行結(jié)構(gòu)化抽取,并存入指定的數(shù)據(jù)庫(kù)、索引庫(kù)、分布式文件系統(tǒng)等持久化環(huán)境中。這種近乎鏡像全站的爬取方法,Heritrix有著得天獨(dú)厚的優(yōu)越性條件,但Heritrix目前無法完好支持分布式采集與調(diào)度。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明要解決的技術(shù)問題在于,針對(duì)現(xiàn)有技術(shù)的上述Heritrix目前無法完好支持分布式采集與調(diào)度缺陷,本發(fā)明對(duì)插件模塊進(jìn)行了改進(jìn),提供一種基于Heritrix爬蟲的分布式采集方法及其系統(tǒng)。
      [0007]根據(jù)本發(fā)明的第一方面,本發(fā)明提供了一種基于Heritrix爬蟲的分布式采集方法,包括以下步驟:設(shè)置一個(gè)管理服務(wù)模塊,并設(shè)置多個(gè)發(fā)布的Heritrix節(jié)點(diǎn),所述管理服務(wù)模塊為一個(gè)Heritrix節(jié)點(diǎn)管理的網(wǎng)頁系統(tǒng);通過UDP協(xié)議將所述的多個(gè)Heriteix節(jié)點(diǎn)廣播到獲取的初始種子所在的網(wǎng)段,管理服務(wù)模塊監(jiān)聽到Heriteix節(jié)點(diǎn)信息后自動(dòng)加入該節(jié)點(diǎn)并進(jìn)行管理,管理服務(wù)模塊獲取初始種子以及節(jié)點(diǎn)任務(wù),所述的種子為預(yù)置或者是來自于初始種子隊(duì)列;管理服務(wù)模塊獲取節(jié)點(diǎn)任務(wù),指定將任務(wù)建立到具體節(jié)點(diǎn)或者是全部節(jié)點(diǎn)上,管理服務(wù)模塊通過調(diào)用Heritrix的應(yīng)用程序編程接口 API在發(fā)布的Heritrix節(jié)點(diǎn)上生成配置節(jié)點(diǎn)和任務(wù)信息的配置文件管理服務(wù)模塊根據(jù)Heritrix節(jié)點(diǎn)任務(wù)生成并獲取管理服務(wù)模塊獲取的初始種子對(duì)應(yīng)網(wǎng)頁上的實(shí)際種子Meritrix節(jié)點(diǎn)從初始種子獲得實(shí)際種子信息,并解析實(shí)際種子的附加信息;Heritrix從實(shí)際種子的配置文件中獲取實(shí)際種子,并采集實(shí)際種子對(duì)應(yīng)網(wǎng)頁上生成的鏈接以及該鏈接對(duì)應(yīng)的附加信息,Heritrix自動(dòng)判別并抽取出滿足條件的鏈接生成初始種子隊(duì)列,所述附加信息包括采集層次、采集周期、節(jié)點(diǎn)分布、是否動(dòng)態(tài)代理、子域名數(shù)量限定、正則配置。
      [0008]在本發(fā)明所述的方法中,采集實(shí)際種子對(duì)應(yīng)網(wǎng)頁上生成的鏈接以及該鏈接對(duì)應(yīng)的附加信息步驟,包括:對(duì)實(shí)際種子是否使用動(dòng)態(tài)代理進(jìn)行判別后下載網(wǎng)頁,若為動(dòng)態(tài)代理,則從管理服務(wù)模塊獲取動(dòng)態(tài)代理地址信息,并動(dòng)態(tài)隨機(jī)設(shè)定一個(gè)代理地址,將采集到的信息進(jìn)行字段抽取,根據(jù)種子設(shè)定的正則信息進(jìn)行抽取,所述正則信息包括作者、標(biāo)題、內(nèi)容、來源、發(fā)布時(shí)間。
      [0009]在本發(fā)明所述的方法中,還通過擴(kuò)展Heritrix采集過程的生命周期監(jiān)聽,將監(jiān)聽到的狀態(tài)進(jìn)行判斷,若采集結(jié)束,則自動(dòng)重啟任務(wù),并且管理服務(wù)模塊從Heritrix獲取本輪采集狀況,該任務(wù)重啟后,管理服務(wù)模塊將從初始種子隊(duì)列獲取下一輪初始種子進(jìn)行采集,所述的采集情況包括:采集各種子的開始時(shí)間、結(jié)束時(shí)間、掃描網(wǎng)頁數(shù)量、持久化數(shù)量、下載字節(jié)數(shù)。
      [0010]在本發(fā)明所述的方法中,還監(jiān)控Heritrix的運(yùn)行狀態(tài),并提供Heritrix運(yùn)行狀態(tài)信息。
      [0011]進(jìn)一步的,在本發(fā)明所述的方法中,通過檢查節(jié)點(diǎn)的心跳是否超時(shí),若超時(shí),在重置分配到該節(jié)點(diǎn)的種子,使其分配到正常工作的節(jié)點(diǎn)上。
      [0012]根據(jù)本發(fā)明的第二方面,本發(fā)明提供一種基于Heritrix爬蟲的分布式采集系統(tǒng),還包括管理服務(wù)模塊以及節(jié)點(diǎn)廣播模塊,所述的結(jié)點(diǎn)廣播模塊用于將多個(gè)發(fā)布的Heritrix節(jié)點(diǎn)通過UDP協(xié)議將所述的多個(gè)Heriteix節(jié)點(diǎn)廣播到獲取的初始種子所在的網(wǎng)段,所述的管理服務(wù)模塊為一個(gè)Heritrix節(jié)點(diǎn)管理的網(wǎng)頁系統(tǒng),包括:節(jié)點(diǎn)處理單元:用于獲取初始種子,并在監(jiān)聽到結(jié)點(diǎn)廣播模塊廣播的多個(gè)發(fā)布的Heriteix節(jié)點(diǎn)信息后自動(dòng)加入該節(jié)點(diǎn)并進(jìn)行管理;任務(wù)配置單元:用于獲取節(jié)點(diǎn)任務(wù)并將任務(wù)指定到將任務(wù)建立到具體節(jié)點(diǎn)或者是全部節(jié)點(diǎn)上,通過調(diào)用Heritrix的應(yīng)用程序編程接口 API在發(fā)布的Heritrix節(jié)點(diǎn)上生成配置節(jié)點(diǎn)和任務(wù)信息的配置文件;生成獲取單元:用于根據(jù)Heritrix節(jié)點(diǎn)任務(wù)對(duì)管理服務(wù)模塊獲取的初始種子對(duì)應(yīng)網(wǎng)頁上生成鏈接,并獲取此鏈接,還用于控制Heritrix節(jié)點(diǎn)從初始種子獲得實(shí)際種子信息,并解析實(shí)際種子的附加信息。
      [0013]在本發(fā)明所述的系統(tǒng)中,管理服務(wù)模塊還包括動(dòng)態(tài)代理單元,所述的動(dòng)態(tài)代理單元隨機(jī)生成動(dòng)態(tài)代理地址,并提供給Heritrix,并對(duì)實(shí)際種子是否使用動(dòng)態(tài)代理進(jìn)行判別后下載網(wǎng)頁,若是,則從管理服務(wù)模塊獲取動(dòng)態(tài)代理地址信息,并動(dòng)態(tài)隨機(jī)設(shè)定一個(gè)代理地址,將采集到的信息進(jìn)行字段抽取,根據(jù)種子設(shè)定的正則信息進(jìn)行抽取,所述動(dòng)態(tài)代理地址為管理服務(wù)模塊隨機(jī)生成,所述正則信息包括作者、標(biāo)題、內(nèi)容、來源、發(fā)布時(shí)間。
      [0014]在本發(fā)明所述的系統(tǒng)中,還包括任務(wù)重啟模塊,所述任務(wù)重啟模塊用于擴(kuò)展Heritrix采集過程的生命周期監(jiān)聽,將監(jiān)聽到的狀態(tài)進(jìn)行判斷,若采集結(jié)束,則自動(dòng)重啟任務(wù),并且管理服務(wù)模塊從Heritrix獲取本輪采集狀況,該任務(wù)重啟后,管理服務(wù)模塊將從初始種子隊(duì)列獲取下一輪初始種子進(jìn)行采集。
      [0015]在本發(fā)明所述的系統(tǒng)中,還包括實(shí)時(shí)監(jiān)控模塊,所述實(shí)時(shí)監(jiān)控模塊用于監(jiān)控Heritrix的運(yùn)行狀態(tài),并提供Heritrix運(yùn)行狀態(tài)信息。
      [0016]在本發(fā)明所述的系統(tǒng)中,還包括節(jié)點(diǎn)監(jiān)聽模塊,所述的節(jié)點(diǎn)監(jiān)聽模塊用于檢測(cè)節(jié)點(diǎn)的心跳,當(dāng)心跳超時(shí),則重新分配到該節(jié)點(diǎn)的種子,使其分配到正常的節(jié)點(diǎn)上。
      [0017]實(shí)施本發(fā)明具有以下有益效果:
      [0018]通過增加一個(gè)Heritrix節(jié)點(diǎn)管理的網(wǎng)頁系統(tǒng),并設(shè)置多個(gè)發(fā)布的Heritrix節(jié)點(diǎn),通過UDP協(xié)議將所述的多個(gè)H
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1