專利名稱:內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)凄t據(jù)采集系統(tǒng)的構(gòu)建方法,尤其涉及一種內(nèi)部 網(wǎng)可定制爬出系統(tǒng)構(gòu)建方法。
背景技術(shù):
隨著信息時代的到來,越來越多的企業(yè)、學(xué)校等紛紛建立起自 己的內(nèi)部網(wǎng),在內(nèi)部網(wǎng)上搭建服務(wù)器實行數(shù)據(jù)的共享來提高工作、 學(xué)習(xí)等效率。但是隨著內(nèi)部網(wǎng)數(shù)據(jù)量的激增,人們很難簡單快捷地 在內(nèi)部網(wǎng)上找到所需的凄t據(jù),因此#丈據(jù)的共享并沒有帶來顯著的效 率的提高。內(nèi)部網(wǎng)和數(shù)據(jù)共享并沒有發(fā)揮它們應(yīng)有的潛力。于是, 人們想能否通過因特網(wǎng)上的 一般搜索引擎來檢索內(nèi)部網(wǎng)上的數(shù)據(jù),
但;^艮不幸的是,由于這些數(shù)據(jù)只能在企業(yè)、學(xué)校等內(nèi)部使用、交流 和傳播,因此因特網(wǎng)上的一般搜索引擎4企索不到這些內(nèi)部網(wǎng)的數(shù) 據(jù)。為了解決這一問題,人們提出了內(nèi)部網(wǎng)搜索引擎的概念。而從 一般因特網(wǎng)上的搜索引擎轉(zhuǎn)變到內(nèi)部網(wǎng)上的搜索引擎,其他的搜索 引擎系統(tǒng)部分可以直接復(fù)制,惟一的不同是爬蟲系統(tǒng),因此內(nèi)部網(wǎng) 爬蟲系統(tǒng)是內(nèi)部網(wǎng)搜索引擎的核心。怎樣估文到爬蟲系統(tǒng)只在內(nèi)部網(wǎng) 上采集數(shù)據(jù)已受到越來越多的學(xué)者的關(guān)注。目前,還沒有一種系統(tǒng) 的行之有效的內(nèi)部網(wǎng)爬蟲構(gòu)建方法。
由于內(nèi)部網(wǎng)上的數(shù)據(jù)類型千差萬別,如音頻、視頻、圖像、文 本等,其中,音頻又包括mp3、 wma等,禍J貞又包括avi、 rm、 rmvb、 wmv等,圖像又包括jpg、 png、 tif、 bmp等,文本又包括txt、 doc、 pdf等。為了提高檢索效率和降低搜索引擎的開發(fā)難度, 提出了只針對某一類數(shù)據(jù)類型的特色搜索引擎,如音頻搜索引擎、 視頻搜索引擎、圖像搜索引擎、文本搜索引擎等。因此,爬蟲系統(tǒng) 的數(shù)據(jù)類型針對性是搭建特色搜索引擎的核心部分之一,也受到越 來越多的學(xué)者的關(guān)注。目前,也還沒有一種系統(tǒng)的行之有效的數(shù)據(jù) 類型針對型爬蟲構(gòu)建方法。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的是提供一種內(nèi)部網(wǎng)可 定制爬出系統(tǒng)構(gòu)建方法。
為達到上述目的,本發(fā)明的方法包括下列步驟 (1 )分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁;
(2) 若是web網(wǎng)頁,則分析web網(wǎng)頁,處理超鏈接信息;若不 是web網(wǎng)頁,則直接進入步驟(3);
(3) 才艮據(jù)定制下載數(shù)據(jù);
(4 )重復(fù)執(zhí)行步驟(1 ) , ( 2 )和(3 ),直到?jīng)]有需要處理的 超鏈接為止。
上述方法中,步-驟(2)進一步包凌舌 (21 ) 4是取web網(wǎng)頁內(nèi)超鏈4妄;
(22) 檢測超鏈接是否是內(nèi)部網(wǎng)的超鏈接;
(23) 若是內(nèi)部網(wǎng)的超鏈接,則保存此超鏈接;若不是內(nèi)部網(wǎng)的 超鏈接,則不保存此超鏈接。
上述方法中,步驟(3)進一步包括
(31)檢測當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù)據(jù)類型相
同;(32 )若當(dāng)前待下載凄i據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型相同, 則下載此數(shù)據(jù);若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型不 相同,則不下載此^t據(jù)。
本發(fā)明的有益效果在于,通過應(yīng)用本發(fā)明所描述的方法,可以 有效地解決爬蟲系統(tǒng)無法采集內(nèi)部網(wǎng)數(shù)據(jù)的問題;可以為搭建特色 搜索引擎所需的重要技術(shù)--爬蟲系統(tǒng)的數(shù)據(jù)類型針對性提供通用 的框架,有效地降^氐系統(tǒng)開發(fā)成本。
結(jié)合附圖,本發(fā)明的其他特點和優(yōu)點可以從下面通過舉例來對
圖1是根據(jù)本發(fā)明的一個實施方式的方法的流程圖。
圖2是根據(jù)本發(fā)明的一個實施方式所得到的超鏈接列表片段截取。
具體實施例方式
下面將結(jié)合附圖對本發(fā)明的具體實施方式
進行詳細描述。
圖1是才艮據(jù)本發(fā)明的一個實施方式的方法的流程圖。該流程開 始于步驟101,這些內(nèi)部網(wǎng)可以是企業(yè)、學(xué)校等,需要指出的是這 <又<義是舉例,內(nèi)部網(wǎng)的不同形式不構(gòu)成對本發(fā)明的限制。然后在步 驟102中,分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁。需要說明的 是起始超鏈接應(yīng)當(dāng)是包含超鏈接豐富的web網(wǎng)頁,如網(wǎng)站的首頁 等,這僅僅是最優(yōu)舉例,起始超鏈接的不同不構(gòu)成對本發(fā)明的限制。分析判斷超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁, 一種實施方式 是利用超鏈接的本身所包含的信息來進行分析。下面通過舉例來進 一步說明。如圖2所示,從201所指向的超鏈接可知,此超鏈接所 指向的數(shù)據(jù)是一個doc格式的文本數(shù)據(jù);從202所指向的超鏈接可 知,此超鏈接所指向的數(shù)據(jù)是一個htm格式的web網(wǎng)頁。另一種實 施方式是利用超《連接的錨文本,例如, 一個錨文本可能是如下文字 北京郵電大學(xué)校內(nèi)信息首頁,從這個錨文本也可以分析出此超鏈接 所指向的數(shù)據(jù)是一個web網(wǎng)頁,而且是一個包含超鏈接豐富的web 網(wǎng)頁。還有一種實施方式是通過HTTP協(xié)i義Content-Type,即通過 給服務(wù)器發(fā)送請求得到Content-Type數(shù)據(jù),來分析判斷超鏈接所指 向的數(shù)據(jù)是否是web網(wǎng)頁。以上是判斷超鏈接所指向的數(shù)據(jù)是否是 web網(wǎng)頁的三種不同的實施例,其他不同的實施例子不構(gòu)成對本發(fā) 明的限制。
若是web網(wǎng)頁,則流程進入步驟103;若不是web網(wǎng)頁,則流 程直接進入步驟107。
在步驟103,才是取web網(wǎng)頁內(nèi)超鏈接。 一個實施例是通過正則 表達式技術(shù),來匹配網(wǎng)頁源碼中的超《連接,從而定位超鏈接,進而 提取出超鏈接。
步-驟103之后,流禾呈進入步驟104。
在步驟104,將步驟103中提取出的超鏈接分析檢測是否是內(nèi) 部網(wǎng)的超鏈才妄。
下面通過超鏈接的結(jié)構(gòu)并且結(jié)合一個實施例來說明。
超鏈4妻的結(jié)構(gòu)是協(xié)"i義+主才幾域名+文件名+端口號,其中端口 號可以缺省。分析可知,其中協(xié)議可以是http、 ftp等不同形式,這 部分在內(nèi)部網(wǎng)和外部網(wǎng)是一致的,不能夠作為區(qū)分是否是內(nèi)部網(wǎng)的標(biāo)志。第二部分是主機域名,它能夠十分顯著地表示主才幾,也就是 服務(wù)器所在的網(wǎng)絡(luò)環(huán)境,即主機是位于外部網(wǎng)還是內(nèi)部網(wǎng),這就是 分析判斷的標(biāo)志。接下來是文件名和端口號,這兩部分在內(nèi)部網(wǎng)和 外部網(wǎng)也是一致的,也不能夠作為區(qū)分是否是內(nèi)部網(wǎng)的標(biāo)志。 一個 實施例是通過正則表達式技術(shù),來匹配主機域名,進而判斷是否是
內(nèi)部網(wǎng)的超鏈接。如圖2所示,這些超鏈接都是來自同一個內(nèi)部網(wǎng), 可以明顯看到所有的超《連4妻都擁有共同的內(nèi)部網(wǎng)主才幾i或名 www.buptnu.com.cn, 通過正貝'j表達式匹酉己www.buptnu.com.cn字才尋 串,能夠匹配上的屬于這一內(nèi)部網(wǎng),不能夠匹配上的不屬于這一內(nèi) 部網(wǎng)。由于在內(nèi)部網(wǎng)上主機域名是很少有限的幾個,每一個都估文如 上的處理,這樣就能夠把整個內(nèi)部網(wǎng)的超鏈接與外部網(wǎng)的超鏈接區(qū) 分開。以上是分析檢測是否是內(nèi)部網(wǎng)的超鏈接的一個實施例,其他 不同的實施例子不構(gòu)成對本發(fā)明的限制。
若是內(nèi)部網(wǎng)的超鏈接,則流程進入步驟105;若不是內(nèi)部網(wǎng)的 超鏈接,則流程進入步驟106 。
在步驟105,保存此超鏈接。
在步驟106,不保存此超鏈接。
步驟105之后,流程進入步驟107;步驟106之后,流程進入 步驟107。
在步驟107,檢測當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù) 據(jù)類型相同。如上所述的超鏈接的結(jié)構(gòu)是協(xié)議+主機域名+文件名 +端口號。其中文件名都包含有表示這個數(shù)據(jù)類型的后綴,如圖2 所示,表示數(shù)才居類型的后鄉(xiāng)農(nóng)有.doc、 .htm、 .xls、 .rar。 一個實施例 是通過正則表達式,匹配包含在超鏈接里的數(shù)據(jù)類型的后綴,然后 與預(yù)先定制的數(shù)據(jù)類型比較。若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型相同,則流考呈進入步驟108;若當(dāng)前待下載凄史據(jù)的類型 與預(yù)先定制的凝:據(jù)類型不相同,則流程進入步驟109。
在步驟108,下載此數(shù)據(jù)。
在步-驟109,不下載it匕凄t據(jù)。
步驟108之后,流程進入步驟110;步驟109之后,流程進入 步驟110。
在步驟110, 4企測在步驟105中保存的超鏈接是否全部^皮處理, 若全部被處理完了,則流程進入步驟111;若還有沒有^皮處理的超 《連*接,則流程進入步驟102。
以上結(jié)合附圖描述了本發(fā)明的具體實施方式
,各種舉例說明不 對發(fā)明的實質(zhì)內(nèi)容構(gòu)成限制,本發(fā)明不限于上面提供的實施細節(jié), 可以在不脫離本發(fā)明特征的情況下以另外的實施例實現(xiàn)。所屬4支術(shù) 領(lǐng)域的普通#支術(shù)人員在閱讀了 i兌明書后可以對以前所述的具體實 施方式估W奮改或變形,而不背離發(fā)明的實質(zhì)和范圍。
權(quán)利要求
1.一種內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法,其特征在于包括下列步驟(1)分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁;(2)若是web網(wǎng)頁,則分析web網(wǎng)頁,處理超鏈接信息;若不是web網(wǎng)頁,則直接進入步驟(3);(3)根據(jù)定制下載數(shù)據(jù);(4)重復(fù)執(zhí)行步驟(1),(2)和(3),直到?jīng)]有需要處理的超鏈接為止。
2. 根據(jù)權(quán)利要求1所述的內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法,其特 征在于步驟(2)進一步包括(21 )才是取web網(wǎng)頁內(nèi)超鏈4妄;(22 )檢測超鏈接是否是內(nèi)部網(wǎng)的超鏈接;(23 )若是內(nèi)部網(wǎng)的超鏈接,則保存此超鏈接;若不是 內(nèi)部網(wǎng)的超鏈接,則不保存此超鏈接。
3. 根據(jù)權(quán)利要求1所述的內(nèi)部網(wǎng)可定制爬蟲系統(tǒng)構(gòu)建方法,其特 征在于步驟(3)進一步包括(31 )檢測當(dāng)前待下載數(shù)據(jù)的類型是否與預(yù)先定制的數(shù) 據(jù)類型相同;(32)若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的數(shù)據(jù)類型 相同,則下載此數(shù)據(jù);若當(dāng)前待下載數(shù)據(jù)的類型與預(yù)先定制的 ^t據(jù)類型不相同,則不下載此數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種內(nèi)部網(wǎng)可定制爬出系統(tǒng)構(gòu)建方法,該方法包括下列步驟(1)分析超鏈接所指向的數(shù)據(jù)是否是web網(wǎng)頁;(2)若是web網(wǎng)頁,則分析web網(wǎng)頁,處理超鏈接信息;若不是web網(wǎng)頁,則直接進入步驟(3);(3)根據(jù)定制下載數(shù)據(jù);(4)重復(fù)執(zhí)行步驟(1),(2)和(3),直到?jīng)]有需要處理的超鏈接為止。通過應(yīng)用本發(fā)明所描述的方法,可以有效地解決爬蟲系統(tǒng)無法采集內(nèi)部網(wǎng)數(shù)據(jù)的問題;可以為搭建特色搜索引擎所需的重要技術(shù)——爬蟲系統(tǒng)的數(shù)據(jù)類型針對性提供通用的框架,有效地降低系統(tǒng)開發(fā)成本。
文檔編號G06F17/30GK101295321SQ20081012645
公開日2008年10月29日 申請日期2008年6月27日 優(yōu)先權(quán)日2008年6月27日
發(fā)明者徐蔚然, 溥 楊, 軍 郭 申請人:北京郵電大學(xué)