一種用于idc有害信息監(jiān)測平臺的爬蟲系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本實(shí)用新型涉及數(shù)據(jù)采集技術(shù)領(lǐng)域,特別是涉及一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)爬蟲,它不是昆蟲的名稱,而是人們?yōu)榱诵蜗竺枋鲇嬎銠C(jī)程序在網(wǎng)絡(luò)不斷通過定制的入口網(wǎng)址去提取網(wǎng)頁的鏈接,并根據(jù)這些鏈接再度抓取提取更深的其它未知的鏈接,以此下去,將這樣的程序抓取形為形容成類似爬蟲似的動作,稱之為爬蟲,爬蟲是一種自動獲取網(wǎng)頁內(nèi)容的程序,是搜索引擎的重要組成部分。為了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的功能,需要一個系統(tǒng)來實(shí)現(xiàn)。
【實(shí)用新型內(nèi)容】
[0003]本實(shí)用新型的目的在于克服現(xiàn)有技術(shù)的不足,提供一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),可以很方便的擴(kuò)充存儲空間,系統(tǒng)中的控制器結(jié)構(gòu)簡單、散熱效果良好。
[0004]本實(shí)用新型的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),它包括網(wǎng)頁抓取裝置、控制器和計算機(jī),所述的控制器包括設(shè)備盒體,設(shè)備盒體上設(shè)置有盒蓋,設(shè)備盒體內(nèi)設(shè)置有接插式控制電路板,接插式控制電路板上設(shè)置有插槽,插槽上連接有通訊裝置、URL抽取裝置、URL分析裝置和數(shù)據(jù)抽取裝置,計算機(jī)的輸出端通過通訊裝置與URL抽取裝置的輸入端連接,URL抽取裝置的輸出端與URL分析裝置的輸入端連接,URL分析裝置的輸出端分別與數(shù)據(jù)抽取裝置和網(wǎng)頁抓取裝置的輸入端連接,數(shù)據(jù)抽取裝置與網(wǎng)頁抓取裝置連接進(jìn)行數(shù)據(jù)交換,網(wǎng)頁抓取裝置的輸出端與計算機(jī)的輸入端連接。
[0005]所述的通訊裝置上設(shè)置有RS232接口、USB接口、RJ45接口、wifi模塊、3G模塊和藍(lán)牙模塊。
[0006]所述的設(shè)備盒體內(nèi)設(shè)置有風(fēng)扇。
[0007]所述的設(shè)備盒體內(nèi)設(shè)置有卡槽,所述的插接式控制電路板卡裝在卡槽內(nèi)。
[0008]所述的盒蓋上設(shè)置有掛鉤。
[0009]所述的設(shè)備盒體四側(cè)均設(shè)置有橢圓孔。
[0010]本實(shí)用新型的有益效果是:本實(shí)用新型中數(shù)據(jù)存儲在計算機(jī),可以很方便的擴(kuò)充存儲空間;此外,本實(shí)用新型中的控制器結(jié)構(gòu)簡單,內(nèi)部的插接式控制電路板卡裝在設(shè)備盒體內(nèi),連接牢固;設(shè)備盒體內(nèi)設(shè)置有風(fēng)扇,設(shè)備盒體四側(cè)均設(shè)置有橢圓孔,散熱效果良好;盒蓋上設(shè)有掛鉤,可以將控制器根據(jù)需要掛在某處,使得布線更簡潔。
【附圖說明】
[0011]圖1為本實(shí)用新型一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng)的結(jié)構(gòu)示意圖;
[0012]圖中,1-網(wǎng)頁抓取裝置,2-數(shù)據(jù)抽取裝置,3-插接式控制電路板,4-URL分析裝置,5-風(fēng)扇,6-URL抽取裝置,7-控制器,8-藍(lán)牙模塊,9-3G模塊,ΙΟ-wifi模塊,11-通訊裝置,12-RJ45 接 P,13-USB 接 P,14-RS232 接 P,15-計算機(jī)。
【具體實(shí)施方式】
[0013]下面結(jié)合附圖進(jìn)一步詳細(xì)描述本實(shí)用新型的技術(shù)方案,但本實(shí)用新型的保護(hù)范圍不局限于以下所述。
[0014]如圖1所示,一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),它包括網(wǎng)頁抓取裝置
1、控制器7和計算機(jī)15,所述的控制器7包括設(shè)備盒體,設(shè)備盒體上設(shè)置有盒蓋,設(shè)備盒體內(nèi)設(shè)置有接插式控制電路板3,接插式控制電路板3上設(shè)置有插槽,插槽上連接有通訊裝置
I1、URL抽取裝置6、URL分析裝置4和數(shù)據(jù)抽取裝置2,計算機(jī)15的輸出端通過通訊裝置11與URL抽取裝置6的輸入端連接,URL抽取裝置6的輸出端與URL分析裝置4的輸入端連接,URL分析裝置4的輸出端分別與數(shù)據(jù)抽取裝置2和網(wǎng)頁抓取裝置I的輸入端連接,數(shù)據(jù)抽取裝置2與網(wǎng)頁抓取裝置I連接進(jìn)行數(shù)據(jù)交換,網(wǎng)頁抓取裝置I的輸出端與計算機(jī)15的輸入端連接。
[0015]所述的通訊裝置11上設(shè)置有RS232接口 14、USB接口 13、RJ45接口 12、wifi模塊10、3G模塊9和藍(lán)牙模塊8。
[0016]所述的設(shè)備盒體內(nèi)設(shè)置有風(fēng)扇5,用于提高散熱能力。
[0017]所述的設(shè)備盒體內(nèi)設(shè)置有卡槽,所述的插接式控制電路板卡裝在卡槽內(nèi)。
[0018]所述的盒蓋上設(shè)置有掛鉤。
[0019]所述的設(shè)備盒體四側(cè)均設(shè)置有橢圓孔。
[0020]所述的設(shè)備盒體內(nèi)還設(shè)置有電源模塊,電源模塊分別與風(fēng)扇5、通訊裝置11、URL抽取裝置6、URL分析裝置4和數(shù)據(jù)抽取裝置2電連接。
[0021]本實(shí)用新型的工作原理為:URL抽取裝置接收計算機(jī)發(fā)送過來的種子隊(duì)列,并將種子隊(duì)列的URL地址代表的網(wǎng)頁進(jìn)行分類,分為Deep Web網(wǎng)頁和數(shù)據(jù)密集型(Data-1ntensive)網(wǎng)頁,然后分別對兩種頁面進(jìn)行抽取,找到各個類型對應(yīng)的數(shù)據(jù)抽取裝置,再把URL地址和相應(yīng)的數(shù)據(jù)抽取裝置行進(jìn)對應(yīng)記錄,并把記錄發(fā)送給URL分析裝置。URL分析裝置接收URL抽取裝置發(fā)送過來的URL地址和對應(yīng)的數(shù)據(jù)抽取裝置記錄,并對URL地址進(jìn)行查重,然后將沒有重復(fù)采集的URL地址排進(jìn)隊(duì)列,并將隊(duì)列中URL地址和對應(yīng)的數(shù)據(jù)抽取器信息發(fā)送給數(shù)據(jù)抽取裝置和網(wǎng)頁抓取裝置。數(shù)據(jù)抽取裝置對Deep Web網(wǎng)頁進(jìn)行頁面分析并提取頁面中地URL形成新的URL,相當(dāng)于表單提交后的對象,傳遞給網(wǎng)頁抓取裝置。網(wǎng)頁抓取裝置接收數(shù)據(jù)抽取裝置發(fā)送過來的URL地址,進(jìn)行網(wǎng)頁的抓取,并對采集到的頁面進(jìn)行分析,符合要求的頁面保存入計算機(jī),否則把頁面?zhèn)鬟f給數(shù)據(jù)抽取器。
【主權(quán)項(xiàng)】
1.一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:它包括網(wǎng)頁抓取裝置(1)、控制器(7)和計算機(jī)(15),所述的控制器(7)包括設(shè)備盒體,設(shè)備盒體上設(shè)置有盒蓋,設(shè)備盒體內(nèi)設(shè)置有接插式控制電路板(3 ),接插式控制電路板(3 )上設(shè)置有插槽,插槽上連接有通訊裝置(11)、URL抽取裝置(6 )、URL分析裝置(4 )和數(shù)據(jù)抽取裝置(2 ),計算機(jī)(15)的輸出端通過通訊裝置(11)與URL抽取裝置(6)的輸入端連接,URL抽取裝置(6)的輸出端與URL分析裝置(4)的輸入端連接,URL分析裝置(4)的輸出端分別與數(shù)據(jù)抽取裝置(2)和網(wǎng)頁抓取裝置(I)的輸入端連接,數(shù)據(jù)抽取裝置(2 )與網(wǎng)頁抓取裝置(I)連接進(jìn)行數(shù)據(jù)交換,網(wǎng)頁抓取裝置(I)的輸出端與計算機(jī)(15)的輸入端連接。
2.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述的通訊裝置(11)上設(shè)置有RS232接口( 14)、USB接口( 13)、RJ45接口( 12)、wifi模塊(10)、3G模塊(9)和藍(lán)牙模塊(8)。
3.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述的設(shè)備盒體內(nèi)設(shè)置有風(fēng)扇(5)。
4.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述的設(shè)備盒體內(nèi)設(shè)置有卡槽,所述的插接式控制電路板卡裝在卡槽內(nèi)。
5.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述的盒蓋上設(shè)置有掛鉤。
6.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述的設(shè)備盒體四側(cè)均設(shè)置有橢圓孔。
【專利摘要】本實(shí)用新型公開了一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),它包括網(wǎng)頁抓取裝置(1)、控制器(7)和計算機(jī)(15),所述的控制器(7)包括設(shè)備盒體,設(shè)備盒體上設(shè)有盒蓋,設(shè)備盒體內(nèi)設(shè)有接插式控制電路板(3),接插式控制電路板(3)上設(shè)有插槽,插槽上連接有通訊裝置(11)、URL抽取裝置(6)、URL分析裝置(4)和數(shù)據(jù)抽取裝置(2),計算機(jī)(15)通過通訊裝置(11)與URL抽取裝置(6)連接,URL抽取裝置(6)通過URL分析裝置(4)分別與數(shù)據(jù)抽取裝置(2)和網(wǎng)頁抓取裝置(1)連接,網(wǎng)頁抓取裝置(1)分別與數(shù)據(jù)抽取裝置(2)和計算機(jī)(15)的輸入連接。本實(shí)用新型可以很方便的擴(kuò)充存儲空間,系統(tǒng)中的控制器(7)結(jié)構(gòu)簡單、散熱效果良好。
【IPC分類】G06F17-30
【公開號】CN204515769
【申請?zhí)枴緾N201520248413
【發(fā)明人】彭光輝, 屈立笳, 陶磊, 蘇禮剛, 林偉
【申請人】成都國騰實(shí)業(yè)集團(tuán)有限公司
【公開日】2015年7月29日
【申請日】2015年4月23日