一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)搜索引擎技術(shù)領(lǐng)域,特別涉及一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息爆炸式的增長(zhǎng),搜索引擎扮演著越來(lái)越重要的角色。搜索引擎技術(shù)中,網(wǎng)絡(luò)爬蟲(chóng)是重要的組成部分。網(wǎng)絡(luò)爬蟲(chóng)可以按照一定的規(guī)則,自動(dòng)地抓取頁(yè)面信息。
[0003]網(wǎng)絡(luò)爬蟲(chóng)工作的基本步驟包括:將需要抓取的URL (Uniform Resource Locator,統(tǒng)一資源定位符)放入待抓取隊(duì)列;從待抓取隊(duì)列中取出一個(gè)URL ;從所述URL指向的網(wǎng)站上抓取相關(guān)頁(yè)面信息;將抓取到的頁(yè)面信息保存至頁(yè)面庫(kù)中;將已經(jīng)抓取完的URL放入已抓取URL隊(duì)列。一些網(wǎng)絡(luò)爬蟲(chóng)每天需要抓取數(shù)萬(wàn)甚至百萬(wàn)、千萬(wàn)級(jí)別的網(wǎng)站,其抓取的頁(yè)面數(shù)量更是可以達(dá)到億級(jí)。為了檢測(cè)網(wǎng)絡(luò)爬蟲(chóng)在抓取海量網(wǎng)站頁(yè)面時(shí)的工作性能,需要對(duì)其進(jìn)行測(cè)試。
[0004]現(xiàn)有技術(shù)在測(cè)試網(wǎng)絡(luò)爬蟲(chóng)工作性能時(shí),會(huì)準(zhǔn)備少量的測(cè)試網(wǎng)站提交給網(wǎng)絡(luò)爬蟲(chóng)抓??;也可以直接提供大量的真實(shí)網(wǎng)站給網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行抓取。
[0005]在實(shí)現(xiàn)本申請(qǐng)過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問(wèn)題:
[0006]上述現(xiàn)有技術(shù)的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)工作性能的方法,若只通過(guò)對(duì)少量的測(cè)試網(wǎng)站進(jìn)行抓取測(cè)試,由于網(wǎng)絡(luò)爬蟲(chóng)測(cè)試抓取少量測(cè)試網(wǎng)站時(shí)負(fù)荷較低,檢測(cè)到的性能僅能代表低負(fù)荷時(shí)的性能,即無(wú)法代表網(wǎng)絡(luò)爬蟲(chóng)在處理海量網(wǎng)站時(shí)處于較高負(fù)荷狀態(tài)下的工作性能;若使用大量的真實(shí)網(wǎng)站進(jìn)行測(cè)試,那么將對(duì)這些真實(shí)網(wǎng)站形成打擾,可能會(huì)被真實(shí)網(wǎng)站屏蔽訪(fǎng)問(wèn)。
【發(fā)明內(nèi)容】
[0007]本申請(qǐng)?zhí)峁┮环N測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法及系統(tǒng),目的在于不對(duì)真實(shí)網(wǎng)站形成打擾前提下,檢測(cè)網(wǎng)絡(luò)爬蟲(chóng)抓取海量網(wǎng)站頁(yè)面時(shí)的工作性能。
[0008]為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供的一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法及系統(tǒng)是這樣實(shí)現(xiàn)的:
[0009]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0010]第一服務(wù)器配置預(yù)設(shè)數(shù)量的頂級(jí)域名,并將所述頂級(jí)域名設(shè)置為指向第二服務(wù)器的IP地址;
[0011]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器讀取所述頂級(jí)域名并根據(jù)所述頂級(jí)域名擴(kuò)展出海量域名;
[0012]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器將存儲(chǔ)的DNS服務(wù)器地址設(shè)置為所述第一服務(wù)器的地址;
[0013]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器遍歷所述海量域名,并針對(duì)每個(gè)域名向第一服務(wù)器發(fā)起所述域名到第二服務(wù)器IP地址的轉(zhuǎn)換請(qǐng)求;
[0014]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器接收第一服務(wù)器發(fā)來(lái)的根據(jù)所述域名轉(zhuǎn)換的第二服務(wù)器IP地址,并根據(jù)所述第二服務(wù)器的IP地址對(duì)第二服務(wù)器發(fā)起抓取請(qǐng)求;
[0015]第二服務(wù)器選取網(wǎng)站,并將所述網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0016]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0017]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器建立海量域名,并將所述海量域名設(shè)置為指向第二服務(wù)器的IP地址;
[0018]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器遍歷所述海量域名,并針對(duì)每個(gè)域名對(duì)第二服務(wù)器發(fā)起抓取請(qǐng)求;
[0019]第二服務(wù)器選取網(wǎng)站,并將所述網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0020]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0021]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器讀取由第一服務(wù)器配置的預(yù)設(shè)數(shù)量的頂級(jí)域名并根據(jù)所述頂級(jí)域名擴(kuò)展出海量域名;
[0022]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器將存儲(chǔ)的DNS服務(wù)器地址設(shè)置為所述第一服務(wù)器的地址;
[0023]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器遍歷所述海量域名,并針對(duì)每個(gè)域名向第一服務(wù)器發(fā)起所述域名到第二服務(wù)器IP地址的轉(zhuǎn)換請(qǐng)求;
[0024]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器接收第一服務(wù)器發(fā)來(lái)的根據(jù)所述域名轉(zhuǎn)換的第二服務(wù)器IP地址,并根據(jù)所述第二服務(wù)器的IP地址對(duì)第二服務(wù)器發(fā)起抓取請(qǐng)求;
[0025]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器對(duì)第二服務(wù)器選取的網(wǎng)站進(jìn)行抓取。
[0026]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0027]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器建立海量域名,并將所述海量域名設(shè)置為指向第二服務(wù)器的IP地址;
[0028]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器遍歷所述海量域名,并針對(duì)每個(gè)域名對(duì)第二服務(wù)器發(fā)起抓取請(qǐng)求;
[0029]網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器對(duì)第二服務(wù)器選取的網(wǎng)站進(jìn)行抓取。
[0030]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0031]第二服務(wù)器接收網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器發(fā)來(lái)的網(wǎng)站抓取請(qǐng)求;
[0032]第二服務(wù)器選取預(yù)先建立的網(wǎng)站模板并對(duì)所述選取的網(wǎng)站模板填充內(nèi)容后提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0033]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法,包括:
[0034]第二服務(wù)器接收網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器發(fā)來(lái)的網(wǎng)站抓取請(qǐng)求;
[0035]第二服務(wù)器在預(yù)先建立的海量網(wǎng)站中按預(yù)設(shè)條件調(diào)用其中的一套網(wǎng)站,并將所述調(diào)用的網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0036]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng),包括第一服務(wù)器,網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器,第二服務(wù)器,其中:
[0037]所述第一服務(wù)器,用來(lái)配置預(yù)設(shè)數(shù)量的頂級(jí)域名,并將所述頂級(jí)域名設(shè)置為指向第二服務(wù)器的IP地址;
[0038]所述網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器,用來(lái)讀取所述頂級(jí)域名并根據(jù)所述頂級(jí)域名擴(kuò)展出海量域名,將存儲(chǔ)的DNS服務(wù)器地址設(shè)置為所述第一服務(wù)器的地址,遍歷所述海量域名,并針對(duì)每個(gè)域名通過(guò)第一服務(wù)器獲取第二服務(wù)器的IP地址,根據(jù)所述第二服務(wù)器的IP地址對(duì)第二服務(wù)器發(fā)起網(wǎng)站抓取請(qǐng)求;
[0039]所述第二服務(wù)器,用來(lái)選取網(wǎng)站,并將所述網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0040]一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng),包括第一服務(wù)器,網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器,第二服務(wù)器,其中:
[0041]所述網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器,用來(lái)建立海量域名,將所述海量域名設(shè)置為指向第二服務(wù)器的IP地址,遍歷所述海量域名,并針對(duì)每個(gè)域名對(duì)第二服務(wù)器發(fā)起抓取請(qǐng)求;
[0042]所述第二服務(wù)器,用來(lái)選取網(wǎng)站,并將所述網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器抓取。
[0043]本申請(qǐng)實(shí)施例的技術(shù)方案模擬出海量的網(wǎng)站提供給網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行功能測(cè)試,能夠在不對(duì)真實(shí)網(wǎng)站形成打擾的情況下,檢測(cè)網(wǎng)絡(luò)爬蟲(chóng)抓取海量網(wǎng)站頁(yè)面時(shí)的工作性能。
【附圖說(shuō)明】
[0044]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0045]圖1是本申請(qǐng)測(cè)試網(wǎng)絡(luò)爬蟲(chóng)方法一個(gè)實(shí)施例的流程圖;
[0046]圖2是本申請(qǐng)以網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器為主體的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法的一個(gè)實(shí)施例的流程圖;
[0047]圖3是本申請(qǐng)以網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器為主體的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法的另一實(shí)施例的流程圖;
[0048]圖4是本申請(qǐng)以第二服務(wù)器為主體的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法的一個(gè)實(shí)施例的流程圖;
[0049]圖5是本申請(qǐng)以第二服務(wù)器為主體的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法的另一實(shí)施例的流程圖;
[0050]圖6是本申請(qǐng)以第二服務(wù)器為主體的測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法的另一實(shí)施例的流程圖;
[0051]圖7是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)第一實(shí)施例的功能模塊圖;
[0052]圖8是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)第一實(shí)施例中第一服務(wù)器的功能模塊圖;
[0053]圖9是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)第一實(shí)施例中網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器的功能模塊圖;
[0054]圖10是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)第二實(shí)施例的功能模塊圖;
[0055]圖11是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)第二實(shí)施例中網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器的功能模塊圖;
[0056]圖12是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)中第二服務(wù)器第一實(shí)現(xiàn)方式的功能模塊圖;
[0057]圖13是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)中第二服務(wù)器第二實(shí)現(xiàn)方式的功能模塊圖;
[0058]圖14是本申請(qǐng)一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的系統(tǒng)中第二服務(wù)器第三實(shí)現(xiàn)方式的功能模塊圖。
【具體實(shí)施方式】
[0059]本申請(qǐng)實(shí)施例提供一種測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法及系統(tǒng)。
[0060]為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
[0061]圖1是本申請(qǐng)測(cè)試網(wǎng)絡(luò)爬蟲(chóng)方法一個(gè)實(shí)施例的流程圖。如圖1所示,測(cè)試網(wǎng)絡(luò)爬蟲(chóng)的方法可以包括以下步驟:
[0062]S1:第一服務(wù)器配置預(yù)設(shè)數(shù)量的頂級(jí)域名,并將所述頂級(jí)域名設(shè)置為指向第二服務(wù)器的IP地址。
[0063]第一服務(wù)器可以配置預(yù)設(shè)數(shù)量的頂級(jí)域名與IP地址的映射關(guān)系。例如,第一服務(wù)器可以以test-1000, com和test-1001, com作為頂級(jí)域名,并且建立test-1000, com和test-1001, com到第二服務(wù)器IP地址的映射關(guān)系。進(jìn)一步地,假設(shè)第二服務(wù)器的IP地址為10.125.227.1,那么第一服務(wù)器就可以建立test-1000, com和test-1001, com到
10.125.227.1的映射關(guān)系,例如:
[0064]address = /.test-1000, com/10.125.227.1
[0065]address = /.test-1001, com/10.125.227.1
[0066]這樣,只要以test-1000, com或test-1001, com作為頂級(jí)域名的子域名均可以指向第二服務(wù)器的 IP 地址 10.125.227.1。例如,www.test-1000, com, tl.test-1001, com,t