問中所產(chǎn)生的任何錯誤代碼。Heritrix的運行狀態(tài)信息顯示在管理服務(wù)模塊,用戶可以在服務(wù)管理模塊支持查看這些信息。Heritrix的運行狀態(tài)信息也可以用彈窗的形式提供,用戶需要查看這些信息時,只需要點擊查看的功能按鈕即可通過彈窗查看。
[0038]S10、檢測Heritrix節(jié)點的心跳,當檢測到節(jié)點的心跳超時時,則重新分配到該節(jié)點的種子,使其分配到正常的節(jié)點上。保證任務(wù)不會因為
[0039]在一實施例中,管理服務(wù)模塊不包含動態(tài)處理單元,Heritrix運行時只使用預設(shè)的唯一代理地址。此時,步驟S5中不需要對該種子是否使用動態(tài)代理進行判別,系統(tǒng)直接下載該網(wǎng)頁并進行后續(xù)的處理。
[0040]在另一實施例中,管理服務(wù)模塊中不包含任務(wù)重啟單元,Heritrix本輪采集結(jié)束后,任務(wù)不會自動重啟,管理服務(wù)模塊從Heritrix獲取本輪采集狀況。此時若需要進行下一個任務(wù),則需要在Heritrxi的操作頁面中進行操作,從而進行下一個任務(wù)。
[0041]在上述實施例中,管理服務(wù)模塊、實時監(jiān)控模塊、狀態(tài)監(jiān)聽模塊等模塊均只設(shè)置了一組,在其他實施例中,可以還可以設(shè)置備用的模塊,在主模塊不能正常工作時,系統(tǒng)能夠使用備用模塊保證系統(tǒng)的正常工作。
[0042]Heritrix原本的工作流程包括:獲取預設(shè)的一個URL ;獲取該URL的采集地址集;解析采集地址集,并進行歸檔;從中選擇出相關(guān)的URL,并加入預設(shè)URL隊列,通過本發(fā)明,在上述步驟的基礎(chǔ)上
[0043]上面結(jié)合附圖對本發(fā)明的實施例進行了描述,但是本發(fā)明并不局限于上述的【具體實施方式】,上述的【具體實施方式】僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨和權(quán)利要求所保護的范圍情況下,還可做出很多形式,這些均屬于本發(fā)明的保護之內(nèi)。
【主權(quán)項】
1.一種基于Heritrix爬蟲的分布式采集方法,其特征在于包括以下步驟: 設(shè)置一個管理服務(wù)模塊,并設(shè)置多個發(fā)布的Heritrix節(jié)點,所述管理服務(wù)模塊為一個Heritrix節(jié)點管理的網(wǎng)頁系統(tǒng); 通過UDP協(xié)議將所述的多個Heriteix節(jié)點廣播到獲取的初始種子所在的網(wǎng)段,管理服務(wù)模塊監(jiān)聽到Heriteix節(jié)點信息后自動加入該節(jié)點并進行管理,管理服務(wù)模塊獲取初始種子以及節(jié)點任務(wù),所述的種子為預置或者是來自于初始種子隊列; 管理服務(wù)模塊獲取節(jié)點任務(wù),指定將任務(wù)建立到部分節(jié)點或者是全部節(jié)點上,管理服務(wù)模塊通過調(diào)用Heritrix的應(yīng)用程序編程接口 API在發(fā)布的Heritrix節(jié)點上生成配置節(jié)點和任務(wù)信息的配置文件; 管理服務(wù)模塊根據(jù)Heritrix節(jié)點任務(wù)生成并獲取管理服務(wù)模塊獲取的初始種子對應(yīng)網(wǎng)頁上的實際種子; Heritrix節(jié)點從初始種子獲得實際種子信息,并解析實際種子的附加信息; Heritrix從配置文件中獲取實際種子,并采集實際種子對應(yīng)網(wǎng)頁上生成的鏈接以及該鏈接對應(yīng)的附加信息,Heritrix自動判別并抽取出滿足條件的鏈接生成初始種子隊列,所述附加信息包括采集層次、采集周期、節(jié)點分布、是否動態(tài)代理、子域名數(shù)量限定、正則信肩、O2.如權(quán)利要求1所述的采集方法,其特征在于,所述的從實際種子采集實際種子對應(yīng)網(wǎng)頁上生成的鏈接以及該鏈接對應(yīng)的附加信息,包括:對實際種子是否使用動態(tài)代理進行判別后下載網(wǎng)頁,若為動態(tài)代理,則從管理服務(wù)模塊獲取動態(tài)代理地址信息,并動態(tài)隨機設(shè)定一個代理地址,將采集到的信息進行字段抽取,根據(jù)種子設(shè)定的正則信息進行抽取,所述正則信息包括作者、標題、內(nèi)容、來源、發(fā)布時間。3.如權(quán)利要求1至2任意一項所述的采集方法,其特征在于還包括:擴展Heritrix采集過程的生命周期監(jiān)聽,將監(jiān)聽到的狀態(tài)進行判斷,若采集結(jié)束,則自動重啟任務(wù),并且管理服務(wù)模塊從Heritrix獲取本輪采集狀況,該任務(wù)重啟后,管理服務(wù)模塊將從初始種子隊列獲取下一輪初始種子進行采集,所述的采集情況包括:采集各種子的開始時間、結(jié)束時間、掃描網(wǎng)頁數(shù)量、持久化數(shù)量、下載字節(jié)數(shù)。4.如權(quán)利要求1至3任意一項所述的采集方法,其特征在于還包括:檢查節(jié)點的心跳是否超時,若超時,在重置分配到該節(jié)點的種子,使其分配到正常工作的節(jié)點上。5.如權(quán)利要求1至4任意一項所述的采集方法,其特征在于還包括:監(jiān)控Heritrix的運行狀態(tài),并提供Heritrix運行狀態(tài)信息。6.一種基于Heritrix爬蟲的分布式采集的系統(tǒng),包括Heritrix,其特征在于還包括管理服務(wù)模塊以及節(jié)點廣播模塊,所述的結(jié)點廣播模塊用于將多個發(fā)布的Heritrix節(jié)點通過UDP協(xié)議將所述的多個Heriteix節(jié)點廣播到獲取的初始種子所在的網(wǎng)段,所述的管理服務(wù)模塊為一個Heritrix節(jié)點管理的網(wǎng)頁系統(tǒng),包括: 節(jié)點處理單元:用于獲取初始種子,并在監(jiān)聽到結(jié)點廣播模塊廣播的多個發(fā)布的Heriteix節(jié)點信息后自動加入該節(jié)點并進行管理; 任務(wù)配置單元:用于獲取節(jié)點任務(wù)并將任務(wù)指定到將任務(wù)建立到部分節(jié)點或者是全部節(jié)點上,通過調(diào)用Heritrix的應(yīng)用程序編程接口 API在發(fā)布的Heritrix節(jié)點上生成配置節(jié)點和任務(wù)信息的配置文件; 生成獲取單元:用于根據(jù)Heritrix節(jié)點任務(wù)在管理服務(wù)模塊獲取的初始種子對應(yīng)網(wǎng)頁上生成鏈接,并獲取此鏈接,還用于控制Heritrix節(jié)點從初始種子獲得實際種子信息,并解析實際種子的附加信息。7.如權(quán)利要求6所述的系統(tǒng),其特征在于所述的管理服務(wù)模塊還包括動態(tài)代理單元,所述的動態(tài)代理單元隨機生成動態(tài)代理地址,并提供給Heritrix,并對實際種子是否使用動態(tài)代理進行判別后下載網(wǎng)頁,若是,則從管理服務(wù)模塊獲取動態(tài)代理地址信息,并動態(tài)隨機設(shè)定一個代理地址,將采集到的信息進行字段抽取,根據(jù)種子設(shè)定的正則信息進行抽取,所述動態(tài)代理地址為管理服務(wù)模塊隨機生成,所述正則信息包括作者、標題、內(nèi)容、來源、發(fā)布時間。8.如權(quán)利要求6至7任一項所述的系統(tǒng),其特征在于還包括任務(wù)重啟模塊,所述任務(wù)重啟模塊用于擴展Heritrix采集過程的生命周期監(jiān)聽,將監(jiān)聽到的狀態(tài)進行判斷,并且管理服務(wù)模塊從Heritrix獲取本輪采集狀況,該任務(wù)重啟后,管理服務(wù)模塊將從初始種子隊列獲取下一輪初始種子進行采集。9.如權(quán)利要求6至8任一項所述的系統(tǒng),其特征在于還包括實時監(jiān)控模塊,所述實時監(jiān)控模塊用于監(jiān)控Heritrix的運行狀態(tài),并提供Heritrix運行狀態(tài)信息。10.如權(quán)利要求6至9任一項所述的系統(tǒng),其特征在于還包括節(jié)點監(jiān)聽模塊,所述的節(jié)點監(jiān)聽模塊用于檢測Heritrix節(jié)點的心跳,當心跳超時,則重新分配到該節(jié)點的種子,使其分配到正常的節(jié)點上。
【專利摘要】本發(fā)明公開了一種基于Heritrix爬蟲的分布式采集方法及系統(tǒng),包括以下步驟:設(shè)置一個管理服務(wù)模塊以及多個發(fā)布的Heritrix節(jié)點,管理服務(wù)模塊監(jiān)聽到Heriteix節(jié)點信息后自動加入該節(jié)點并進行管理,初始種子以及節(jié)點任務(wù),分配任務(wù)并生成配置文件;管理服務(wù)模塊獲取實際種子,Heritrix從實際種子的配置文件中獲取實際種子,并從實際種子采集實際種子對應(yīng)網(wǎng)頁上生成的鏈接以及該鏈接對應(yīng)的附加信息,Heritrix自動判別并抽取出滿足條件的鏈接生成初始種子隊列,Heritrix節(jié)點從初始種子獲得實際種子信息,并解析其附加信息實施本發(fā)明的有益效果是,本申請有效實現(xiàn)了Heritrix的分布式采集,有效提高了系統(tǒng)工作系能。
【IPC分類】H04L12/24, H04L12/26
【公開號】CN105515815
【申請?zhí)枴緾N201410555223
【發(fā)明人】張東升, 王艷玲, 彭威, 李波, 景曉軍, 沈智杰, 唐新民
【申請人】任子行網(wǎng)絡(luò)技術(shù)股份有限公司
【公開日】2016年4月20日
【申請日】2014年10月17日