一種爬蟲系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種爬蟲系統(tǒng),其特征在于:首先預(yù)設(shè)請求模塊、認(rèn)證模塊、下載模塊,其中請求模塊實現(xiàn)頁面發(fā)送采集請求;認(rèn)證模塊實現(xiàn)登錄認(rèn)證;下載模塊實現(xiàn)頁面進(jìn)行采集;通過瀏覽器的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包;認(rèn)證模塊實現(xiàn)對登陸認(rèn)證中POST包內(nèi)容再現(xiàn),發(fā)送到網(wǎng)頁;認(rèn)證模塊實現(xiàn)對網(wǎng)站服務(wù)器result的記錄;請求模塊把網(wǎng)絡(luò)監(jiān)聽的數(shù)據(jù)包中返回的相關(guān)記錄值和請求做集成處理;請求模塊發(fā)送頁面的采集請求;下載模塊實現(xiàn)頁面的采集。
【專利說明】一種爬蟲系統(tǒng)
[0001]本發(fā)明屬于網(wǎng)絡(luò)網(wǎng)站領(lǐng)域,涉及一種爬蟲系統(tǒng)。
【背景技術(shù)】
[0002]在當(dāng)前的網(wǎng)站中越來越多的網(wǎng)站進(jìn)行了注冊用戶瀏覽和非注冊用戶留言的區(qū)分,這使得爬蟲系統(tǒng)的要求也在改變,爬蟲系統(tǒng)不單單需要瀏覽功能,還需要增加識別注冊等功能。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提出了一種結(jié)構(gòu)簡單、易推廣的爬蟲系統(tǒng)。
[0004]本發(fā)明的目的可通過下列技術(shù)方案來實現(xiàn):一種爬蟲系統(tǒng),其特征在于:首先預(yù)設(shè)請求模塊、認(rèn)證模塊、下載模塊,其中請求模塊實現(xiàn)頁面發(fā)送采集請求;認(rèn)證模塊實現(xiàn)登錄認(rèn)證;下載模塊實現(xiàn)頁面進(jìn)行采集;通過瀏覽器的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包;認(rèn)證模塊實現(xiàn)對登陸認(rèn)證中POST包內(nèi)容再現(xiàn),發(fā)送到網(wǎng)頁;認(rèn)證模塊實現(xiàn)對網(wǎng)站服務(wù)器result的記錄;請求模塊把網(wǎng)絡(luò)監(jiān)聽的數(shù)據(jù)包中返回的相關(guān)記錄值和請求做集成處理;請求模塊發(fā)送頁面的采集請求;下載模塊實現(xiàn)頁面的采集。
[0005]在上述一種爬蟲系統(tǒng),所述認(rèn)證模塊包括自動注冊和識別驗證碼。
【專利附圖】
【附圖說明】
:
[0006]圖1:本發(fā)明的結(jié)構(gòu)示意圖。
【具體實施方式】
[0007]以下是本發(fā)明的具體實施例并結(jié)合附圖,對本發(fā)明的技術(shù)方案作進(jìn)一步的描述,但本發(fā)明并不限于這些實施例。
[0008]如圖1所示:圖1中,首先預(yù)設(shè)請求模塊、認(rèn)證模塊、下載模塊,其中請求模塊實現(xiàn)頁面發(fā)送采集請求;第一,認(rèn)證模塊實現(xiàn)登錄認(rèn)證;第二,下載模塊實現(xiàn)頁面進(jìn)行采集;第三,通過瀏覽器的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包;第四,認(rèn)證模塊實現(xiàn)對登陸認(rèn)證中POST包內(nèi)容再現(xiàn),發(fā)送到網(wǎng)頁;第五,認(rèn)證模塊實現(xiàn)對網(wǎng)站服務(wù)器result的記錄;第六,請求模塊把網(wǎng)絡(luò)監(jiān)聽的數(shù)據(jù)包中返回的相關(guān)記錄值和請求做集成處理;第七,請求模塊發(fā)送頁面的采集請求;第八,下載模塊實現(xiàn)頁面的采集。
[0009]認(rèn)證模塊包括自動注冊和識別驗證碼。
[0010]本文中所描述的具體實施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬【技術(shù)領(lǐng)域】的技術(shù)人員可以對所描述的具體實施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。
【權(quán)利要求】
1.一種爬蟲系統(tǒng),其特征在于:首先預(yù)設(shè)請求模塊、認(rèn)證模塊、下載模塊,其中請求模塊實現(xiàn)頁面發(fā)送采集請求;認(rèn)證模塊實現(xiàn)登錄認(rèn)證;下載模塊實現(xiàn)頁面進(jìn)行采集;通過瀏覽器的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包;認(rèn)證模塊實現(xiàn)對登陸認(rèn)證中POST包內(nèi)容再現(xiàn),發(fā)送到網(wǎng)頁;認(rèn)證模塊實現(xiàn)對網(wǎng)站服務(wù)器result的記錄;請求模塊把網(wǎng)絡(luò)監(jiān)聽的數(shù)據(jù)包中返回的相關(guān)記錄值和請求做集成處理;請求模塊發(fā)送頁面的采集請求;下載模塊實現(xiàn)頁面的采集。
2.根據(jù)權(quán)利要求1所述的一種爬蟲系統(tǒng),其特征在于:所述認(rèn)證模塊包括自動注冊和識別驗證碼。
【文檔編號】G06F17/30GK104391884SQ201410620759
【公開日】2015年3月4日 申請日期:2014年11月6日 優(yōu)先權(quán)日:2014年11月6日
【發(fā)明者】侯宇鵬 申請人:寧波市鄞州安業(yè)貿(mào)易有限公司