專利名稱:網(wǎng)絡(luò)連接設(shè)備、搜索設(shè)備及搜集搜索引擎數(shù)據(jù)源的方法
網(wǎng)絡(luò)連接設(shè)備、搜索設(shè)備及搜集搜索引擎數(shù)據(jù)源的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),特別是計(jì)算機(jī)網(wǎng)絡(luò)中的復(fù)制裝置、網(wǎng)絡(luò)連接設(shè)備、搜索設(shè)備及搜集搜索引擎數(shù)據(jù)源的方法。
背景技術(shù):
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展極大的提高了人們獲取信息的便利性。計(jì)算機(jī)網(wǎng)絡(luò)中存儲(chǔ)了海量的信息,為了便于人們查找到自己所需的信息,搜索引擎被廣泛使用。人們通過輸入關(guān)鍵詞,即可找到包含該關(guān)鍵詞的網(wǎng)頁。
搜索引擎的工作過程大致可以分為如下三個(gè)步驟
抓取網(wǎng)頁每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider,稱為網(wǎng)絡(luò)蜘蛛)。網(wǎng)頁抓取程序順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,若網(wǎng)頁上有適當(dāng)?shù)某?jí)鏈接,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
整理信息搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。搜索引擎整理信息的過程稱為"建立索引"。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。
提供檢索服務(wù)用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,這樣通過這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會(huì)在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。
從上述搜索引擎的工作過程可以看出,搜索引擎的網(wǎng)頁抓取程序只能依據(jù)已有的鏈接獲得網(wǎng)頁信息,而無法獲得以下幾種頁面的網(wǎng)頁信息
1.網(wǎng)頁之間并沒有直接或者間接的URL ( Uniform Resource Locator,統(tǒng)一資源定位符,即網(wǎng)頁地址)鏈接關(guān)系,也就是說,網(wǎng)頁本身無法通過其它網(wǎng)頁提供的鏈接訪問,只能通過手動(dòng)輸入U(xiǎn)RL的方式訪問;
2. 頁面是需要經(jīng)過用戶身份認(rèn)證才能訪問的,有的網(wǎng)頁雖然提供了接入的鏈接,但是由于需要通過用戶名和密碼登陸之后才能訪問,因此網(wǎng)頁抓取程序也無法獲得此類頁面的網(wǎng)頁信息;
3. 頁面采用了動(dòng)態(tài)數(shù)據(jù)技術(shù)(AJAX等),頁面上的數(shù)據(jù)是根據(jù)用戶輸入數(shù)據(jù)而查詢后臺(tái)生成的,不能從頁面html中直接得到。
由于上述三種頁面的網(wǎng)頁信息無法通過網(wǎng)頁抓取程序獲得,因此一定程度上限制了搜索引擎數(shù)據(jù)源的范圍。
發(fā)明內(nèi)容
基于此,有必要提供一種擴(kuò)大搜索引擎數(shù)據(jù)源的搜集搜索引擎數(shù)據(jù)源的方法。
一種搜集搜索引擎數(shù)據(jù)源的方法,包括以下步驟從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù);解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息;將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。
在優(yōu)選的實(shí)施例中,還包括記錄客戶端的請(qǐng)求信息的步驟。
在優(yōu)選的實(shí)施例中,還包括判斷在預(yù)定時(shí)間內(nèi)是否有相同URL的返回?cái)?shù)據(jù)的步驟,如果有則不對(duì)在后的相同返回?cái)?shù)據(jù)進(jìn)行處理。
在優(yōu)選的實(shí)施例中,還包括存儲(chǔ)所述返回?cái)?shù)據(jù)的步驟。
此外,還有必要4是供一種擴(kuò)大搜索引擎數(shù)據(jù)源的復(fù)制裝置。一種復(fù)制裝置,所述復(fù)制裝置用于與網(wǎng)絡(luò)連接設(shè)備相連從網(wǎng)絡(luò)連接設(shè)備復(fù)
制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),并將所述復(fù)制的返回?cái)?shù)據(jù)發(fā)
送到搜索設(shè)備作為所述搜索設(shè)備的搜索數(shù)據(jù)源。
在優(yōu)選的實(shí)施例中,所述復(fù)制裝置還用于記錄客戶端的請(qǐng)求信息,或存儲(chǔ)
所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有相同URL的返回?cái)?shù)據(jù),如果有則不
將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè)備。另外,還有必要提供一種擴(kuò)大搜索引擎數(shù)據(jù)源的網(wǎng)絡(luò)連接設(shè)備。一種網(wǎng)絡(luò)連接設(shè)備,包括連接裝置和復(fù)制裝置,所述連接裝置用于連接客戶端與頁面服務(wù)器,將頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù)發(fā)送至所述客戶端,所述復(fù)制裝置與所述連接裝置相連,從所述連接裝置復(fù)制所述頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),并將所述復(fù)制的返回?cái)?shù)據(jù)發(fā)送到搜索設(shè)備作為所述搜索設(shè)備的搜索數(shù)據(jù)源。
在優(yōu)選的實(shí)施例中,所述復(fù)制裝置還用于記錄客戶端的請(qǐng)求信息,或存儲(chǔ)
所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有相同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè)備。
此外,還有必要提供一種擴(kuò)大搜索引擎數(shù)據(jù)源的搜索設(shè)備。
一種搜索設(shè)備,包括復(fù)制裝置,用于與網(wǎng)絡(luò)連接設(shè)備相連從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù);解析裝置,與所述復(fù)制裝置相連,接收并解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息;索引裝置,與所述解析裝置相連,將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引;搜索裝置,用于查找所述索引并產(chǎn)生搜索結(jié)果。
在優(yōu)選的實(shí)施例中,所述復(fù)制裝置還用于記錄客戶端的請(qǐng)求信息,或存儲(chǔ)所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有相同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè)備。
上述復(fù)制裝置、網(wǎng)絡(luò)連接設(shè)備、搜索設(shè)備及搜集搜索引擎數(shù)據(jù)源的方法通過從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),可以獲得無法通過網(wǎng)絡(luò)蜘蛛獲得的網(wǎng)頁信息,擴(kuò)大了搜索引擎的搜索數(shù)據(jù)源。
圖1為一實(shí)施例的搜集搜索引擎數(shù)據(jù)源的方法的流程圖2為傳統(tǒng)的頁面瀏覽系統(tǒng)的示意圖3為第一實(shí)施例的頁面瀏覽系統(tǒng)的示意圖4為第二實(shí)施例的頁面瀏覽系統(tǒng)的示意圖;圖5為第三實(shí)施例的頁面瀏覽系統(tǒng)的示意圖。
具體實(shí)施方式
在用戶進(jìn)行網(wǎng)絡(luò)瀏覽操作時(shí),用戶通過客戶端提交請(qǐng)求和頁面服務(wù)器返回?cái)?shù)據(jù)都是通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行的。通過在網(wǎng)絡(luò)連接設(shè)備(交換機(jī)、路由器)上加裝復(fù)制裝置,網(wǎng)絡(luò)連接設(shè)備將返回?cái)?shù)據(jù)傳輸?shù)娇蛻舳说耐瑫r(shí),復(fù)制裝置將返回?cái)?shù)據(jù)復(fù)制一份并提供給搜索引擎作為數(shù)據(jù)源,可以獲取到傳統(tǒng)方法很難或者不可能得到的數(shù)據(jù)。也就是說,上述方法無需使用目前主流搜索引擎數(shù)據(jù)獲取技術(shù)中的網(wǎng)絡(luò)爬蟲(網(wǎng)絡(luò)蜘蛛)程序。
如圖l所示,其為一實(shí)施例的搜集搜索引擎數(shù)據(jù)源的方法的流程圖。
首先步驟S110,記錄客戶端的請(qǐng)求信息。用戶通過客戶端發(fā)出訪問頁面服務(wù)器的請(qǐng)求信息,這些請(qǐng)求信息可以包含用戶直接輸入的網(wǎng)址,該網(wǎng)址對(duì)應(yīng)的
網(wǎng)頁本身可能是無法通過其它網(wǎng)頁提供的鏈接訪問到的;也可以是包含用戶名及密碼等身份認(rèn)證信息的請(qǐng)求信息;還可以是包含用戶輸入數(shù)據(jù)的請(qǐng)求信息。
記錄的客戶端的請(qǐng)求信息可以是時(shí)間、來源IP (InternetProtocol,因特網(wǎng)協(xié)議)地址、目標(biāo)IP地址、用戶直接輸入或點(diǎn)擊的網(wǎng)址等信息中的一種或兩種以上。通過記錄這些請(qǐng)求信息,便于后續(xù)分析用戶瀏覽習(xí)慣與興趣偏好,對(duì)提供更符合用戶特性的搜索結(jié)果提供基礎(chǔ)數(shù)據(jù)支持。
步驟S120,復(fù)制返回的數(shù)據(jù)。頁面服務(wù)器在接收到客戶端的請(qǐng)求信息后,產(chǎn)生相應(yīng)的返回?cái)?shù)據(jù)(例如靜態(tài)數(shù)據(jù)或動(dòng)態(tài)數(shù)據(jù))通過網(wǎng)絡(luò)連接設(shè)備傳送到客戶端,在客戶端的瀏覽器上顯示網(wǎng)頁內(nèi)容。在頁面服務(wù)器返回的數(shù)據(jù)在網(wǎng)絡(luò)連接設(shè)備中轉(zhuǎn)的過程中,從網(wǎng)絡(luò)連接設(shè)備復(fù)制上述頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),并可將復(fù)制的數(shù)據(jù)通過存儲(chǔ)器存儲(chǔ)起來。由于通過網(wǎng)絡(luò)連接設(shè)備的數(shù)據(jù)量通常較大,通過長(zhǎng)時(shí)間累計(jì)存儲(chǔ)的數(shù)據(jù)量將更加龐大,因此可以采取如下兩種方式降低存儲(chǔ)容量其一,定期清空存儲(chǔ)的數(shù)據(jù),例如每天刪除一個(gè)月以前存儲(chǔ)的數(shù)據(jù);其二,在網(wǎng)絡(luò)連接設(shè)備收到頁面服務(wù)器返回的數(shù)據(jù)時(shí),判斷在預(yù)定時(shí)間(例如一周)內(nèi)是否有相同URL的返回?cái)?shù)據(jù),如果有則不對(duì)在后的相同返回?cái)?shù)據(jù)進(jìn)行處理(不進(jìn)行如下步驟中的S130、 S140的處理等)。步驟S130,解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息。返回?cái)?shù)據(jù)的數(shù)據(jù)包中通常也包含來源IP地址(即頁面服務(wù)器地址)、目標(biāo)IP地址(即客戶端地址)、網(wǎng)頁
信息等。網(wǎng)頁信息中可以包括文字、圖片、HTML語言中的標(biāo)簽等,通過解析上述返回?cái)?shù)據(jù),可以獲得返回?cái)?shù)據(jù)中的網(wǎng)頁信息。
步驟S140,將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。與通過網(wǎng)頁抓取程序(spider,稱為網(wǎng)絡(luò)蜘蛛)獲得網(wǎng)頁信息類似,搜索引擎不僅要保存搜集起來的網(wǎng)頁信息,還要將網(wǎng)頁信息按照一定的規(guī)則進(jìn)行編排以建立索引。由于網(wǎng)絡(luò)中大多數(shù)網(wǎng)頁還是靜態(tài)的不需要身份認(rèn)證的網(wǎng)頁,因此,通過網(wǎng)絡(luò)連接設(shè)備返回的數(shù)據(jù)中大量的網(wǎng)頁信息還是可以通過網(wǎng)絡(luò)蜘蛛獲得的,這些網(wǎng)頁信息可能已經(jīng)在搜索引擎網(wǎng)頁數(shù)據(jù)庫中存儲(chǔ)并建立了索引,相應(yīng)地,在步驟S140中建立索引的過程中可以不存儲(chǔ)URL相同的網(wǎng)頁信息或者雖然URL不同但是頁面內(nèi)容完全相同的網(wǎng)頁信息。
步驟S150,在收到搜索請(qǐng)求時(shí),在搜索引擎網(wǎng)頁數(shù)據(jù)庫中進(jìn)行搜索。搜索引擎在收到客戶端向搜索引擎發(fā)出的搜索請(qǐng)求時(shí),搜索引擎接受查詢并向客戶端返回資料。搜索引擎每時(shí)每刻都要接到來自大量客戶端幾乎同時(shí)發(fā)出的查詢,按照每個(gè)客戶端的請(qǐng)求檢查搜索引擎網(wǎng)頁數(shù)據(jù)庫的索引,在極短時(shí)間內(nèi)找到用戶需要的資料,并返回給客戶端。目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,通過這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會(huì)在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。
以下以一個(gè)具體的實(shí)例對(duì)上述方法進(jìn)行更詳細(xì)的說明。論壇A是一個(gè)需要身份驗(yàn)證才能查看的論壇,網(wǎng)絡(luò)爬蟲無法得到其中的內(nèi)容,因?yàn)椴痪邆湓L問權(quán)限。用戶B是論壇A的授權(quán)用戶,通過瀏覽器登錄并訪問了論壇A的內(nèi)容C。由于內(nèi)容C是在互聯(lián)網(wǎng)上傳輸?shù)模砸欢ㄐ枰?jīng)過運(yùn)營商的路由器設(shè)備D,因此,通過在路由設(shè)備D上將內(nèi)容C復(fù)制保存下來,并將內(nèi)容C作為搜索引擎的數(shù)據(jù)源,從而得到了沒有權(quán)限訪問到的內(nèi)容C,擴(kuò)大了搜索引擎的數(shù)據(jù)源。類似地,對(duì)于獨(dú)立的沒有其他鏈接指向的頁面及采用動(dòng)態(tài)頁面技術(shù)的頁面,也可以通過上述搜集搜索引擎數(shù)據(jù)源的方法獲得。如圖2所示,為傳統(tǒng)的頁面瀏覽系統(tǒng)的示意圖。用戶可以通過客戶端100
經(jīng)過網(wǎng)絡(luò)連接設(shè)備200訪問頁面服務(wù)器300,頁面服務(wù)器300將數(shù)據(jù)通過網(wǎng)絡(luò)連接設(shè)備200返回客戶端300。需要特別說明的是,網(wǎng)絡(luò)連接設(shè)備200可以是一臺(tái)路由器,也可以是多臺(tái)路由器,通常終端用戶的客戶端是100是要經(jīng)過多臺(tái)路由器方能訪問到頁面服務(wù)器的。
如圖3所示為第一實(shí)施例的頁面瀏覽系統(tǒng)的示意圖。頁面瀏覽系統(tǒng)還包括復(fù)制裝置400及搜索設(shè)備500。本實(shí)施例中,復(fù)制裝置400作為獨(dú)立的硬件設(shè)備連接在網(wǎng)絡(luò)連接設(shè)備200和搜索設(shè)備500之間,從網(wǎng)絡(luò)連接設(shè)備200復(fù)制頁面服務(wù)器300響應(yīng)客戶端100請(qǐng)求所產(chǎn)生的返回?cái)?shù)椐,并將復(fù)制的返回?cái)?shù)據(jù)發(fā)送到搜索設(shè)備500作為搜索設(shè)備500的搜索數(shù)據(jù)源。復(fù)制裝置400還用于記錄客戶端的請(qǐng)求信息,請(qǐng)求信息可以是時(shí)間、來源IP (Internet Protocol ,因特網(wǎng)協(xié)議)地址、目標(biāo)IP地址、用戶直接輸入或點(diǎn)擊的網(wǎng)址等信息中的一種或兩種以上。通過記錄這些請(qǐng)求信息,便于后續(xù)分析用戶瀏覽習(xí)慣與興趣偏好,對(duì)提供更符合用戶特性的搜索結(jié)果提供基礎(chǔ)數(shù)據(jù)支持。復(fù)制裝置400還可以存儲(chǔ)上述返回?cái)?shù)據(jù),為了避免復(fù)制裝置400的存儲(chǔ)容量不夠存儲(chǔ)過多的返回?cái)?shù)據(jù)或請(qǐng)求信息,復(fù)制裝置400可以定期清空存儲(chǔ)的數(shù)據(jù),例如每天刪除一個(gè)月以前存儲(chǔ)的數(shù)據(jù);另外,復(fù)制裝置400也可以在網(wǎng)絡(luò)連接設(shè)備收到頁面服務(wù)器返回的數(shù)據(jù)時(shí),判斷在預(yù)定時(shí)間(例如一周)內(nèi)是否有相同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè)備500,同時(shí)也可以不存儲(chǔ)。
搜索設(shè)備500包括解析裝置510、索引裝置520及搜索裝置530。解析裝置510從復(fù)制裝置400接收返回?cái)?shù)據(jù)并解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息。索引裝置520將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。搜索裝置530在收到搜索請(qǐng)求時(shí),在搜索引擎網(wǎng)頁數(shù)據(jù)庫中進(jìn)行搜索,并將獲得的結(jié)果返回客戶端。
如圖4所示為第二實(shí)施例的頁面瀏覽系統(tǒng)的示意圖。本實(shí)施例中,網(wǎng)絡(luò)連接設(shè)備200包括連接裝置210和復(fù)制裝置220。復(fù)制裝置220作為網(wǎng)絡(luò)連接設(shè)備的一部分連接在連接裝置210和搜索設(shè)備500之間。連接裝置210連接客戶端IOO和頁面服務(wù)器300,將頁面服務(wù)器300響應(yīng)客戶端IOO請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù)發(fā)送至所述客戶端100。復(fù)制裝置220與連接裝置210相連,從連接裝置210 復(fù)制頁面服務(wù)器300響應(yīng)客戶端100請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),并將所述復(fù)制的 返回?cái)?shù)據(jù)發(fā)送到搜索設(shè)備500作為所述搜索設(shè)備500的搜索數(shù)據(jù)源。復(fù)制裝置 220還用于記錄客戶端的請(qǐng)求信息,請(qǐng)求信息可以是時(shí)間、來源IP (Internet Protocol ,因特網(wǎng)協(xié)議)地址、目標(biāo)IP地址、用戶直接輸入或點(diǎn)擊的網(wǎng)址等信息 中的一種或兩種以上。通過記錄這些請(qǐng)求信息,便于后續(xù)分析用戶瀏覽習(xí)慣與 興趣偏好,對(duì)提供更符合用戶特性的搜索結(jié)果提供基礎(chǔ)數(shù)據(jù)支持。復(fù)制裝置220 還可以存儲(chǔ)上述返回?cái)?shù)據(jù),為了避免復(fù)制裝置220的存儲(chǔ)容量不夠存儲(chǔ)過多的 返回?cái)?shù)據(jù)或請(qǐng)求信息,復(fù)制裝置220可以定期清空存儲(chǔ)的數(shù)據(jù),例如每天刪除 一個(gè)月以前存儲(chǔ)的數(shù)據(jù);另外,復(fù)制裝置220也可以在網(wǎng)絡(luò)連接設(shè)備收到頁面 服務(wù)器返回的數(shù)據(jù)時(shí),判斷在預(yù)定時(shí)間(例如一周)內(nèi)是否有相同URL的返回 數(shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè)備500,同 時(shí)也可以不存儲(chǔ)。
如圖5所示為第三實(shí)施例的頁面瀏覽系統(tǒng)的示意圖。搜索設(shè)備500包括解 析裝置510、索引裝置520、搜索裝置530及復(fù)制裝置540。復(fù)制裝置540與網(wǎng) 絡(luò)連接設(shè)備200相連從網(wǎng)絡(luò)連接設(shè)備200復(fù)制頁面服務(wù)器300響應(yīng)客戶端100 請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù)。解析裝置510與復(fù)制裝置540相連,接收并解析所述 返回?cái)?shù)據(jù),獲得網(wǎng)頁信息。索引裝置520與所述解析裝置510相連,將網(wǎng)頁信 息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。搜索裝置530用于查找所述索引并 產(chǎn)生搜索結(jié)果。
由于網(wǎng)絡(luò)中大多數(shù)網(wǎng)頁還是靜態(tài)的不需要身份認(rèn)證的網(wǎng)頁,因此,通過網(wǎng) 絡(luò)連接設(shè)備返回的數(shù)據(jù)中大量的網(wǎng)頁信息還是可以通過網(wǎng)絡(luò)蜘蛛獲得的,這些 網(wǎng)頁信息可能已經(jīng)在搜索引擎網(wǎng)頁數(shù)據(jù)庫中存儲(chǔ)并建立了索引,相應(yīng)地,索引 裝置520還用于比較從解析裝置510處接收的網(wǎng)頁信息與已經(jīng)存儲(chǔ)的搜索引擎 網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁信息,如果已經(jīng)存儲(chǔ)有相同URL的網(wǎng)頁信息或者相同頁面 內(nèi)容的網(wǎng)頁信息,則不存儲(chǔ)從解析裝置510處接收的網(wǎng)頁信息。
復(fù)制裝置540還用于記錄客戶端的請(qǐng)求信息,請(qǐng)求信息可以是時(shí)間、來源 IP (Internet Protocol,因特網(wǎng)協(xié)議)地址、目標(biāo)IP地址、用戶直接輸入或點(diǎn)擊的網(wǎng)址等信息中的一種或兩種以上。通過記錄這些請(qǐng)求信息,便于后續(xù)分析用 戶瀏覽習(xí)慣與興趣偏好,對(duì)提供更符合用戶特性的搜索結(jié)果提供基礎(chǔ)數(shù)據(jù)支持。
復(fù)制裝置540還可以存儲(chǔ)上述返回?cái)?shù)據(jù),為了避免復(fù)制裝置540的存儲(chǔ)容量不 夠存儲(chǔ)過多的返回?cái)?shù)據(jù)或請(qǐng)求信息,復(fù)制裝置540可以定期清空存儲(chǔ)的數(shù)據(jù), 例如每天刪除一個(gè)月以前存儲(chǔ)的數(shù)據(jù);另外,復(fù)制裝置540也可以在網(wǎng)絡(luò)連接 設(shè)備收到頁面服務(wù)器返回的數(shù)據(jù)時(shí),判斷在預(yù)定時(shí)間(例如一周)內(nèi)是否有相 同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜 索設(shè)備500,同時(shí)也可以不存儲(chǔ)。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì), 但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域 的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和 改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附 權(quán)利要求為準(zhǔn)。
權(quán)利要求
1、一種搜集搜索引擎數(shù)據(jù)源的方法,其特征在于,包括以下步驟從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù);解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息;將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。
2、 根椐權(quán)利要求1所述的搜集搜索引擎數(shù)據(jù)源的方法,其特征在于,還包 括記錄客戶端的請(qǐng)求信息的步驟。
3、 根據(jù)權(quán)利要求1所述的搜集搜索引擎數(shù)據(jù)源的方法,其特征在于,還包 括判斷在預(yù)定時(shí)間內(nèi)是否有相同URL的返回?cái)?shù)據(jù)的步驟,如果有則不對(duì)在后的 相同返回?cái)?shù)據(jù)進(jìn)行處理。
4、 根據(jù)權(quán)利要求1所述的搜集搜索引擎數(shù)據(jù)源的方法,其特征在于,還包 括存儲(chǔ)所述返回?cái)?shù)據(jù)的步驟。
5、 一種復(fù)制裝置,其特征在于,所述復(fù)制裝置用于與網(wǎng)絡(luò)連接設(shè)備相連從 網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),并將所述復(fù) 制的返回?cái)?shù)據(jù)發(fā)送到搜索設(shè)備作為所述搜索設(shè)備的搜索數(shù)據(jù)源。
6、 根據(jù)權(quán)利要求5所述的復(fù)制裝置,其特征在于,所述復(fù)制裝置還用于記 錄客戶端的請(qǐng)求信息,或存儲(chǔ)所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有相同 URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜索設(shè) 備。
7、 一種網(wǎng)絡(luò)連接設(shè)備,其特征在于,所述網(wǎng)絡(luò)連接設(shè)備包括連接裝置和復(fù) 制裝置,所述連接裝置用于連接客戶端與頁面服務(wù)器,將頁面服務(wù)器響應(yīng)客戶 端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù)發(fā)送至所述客戶端,所述復(fù)制裝置與所述連接裝置相 連,從所述連接裝置復(fù)制所述頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù), 并將所述復(fù)制的返回?cái)?shù)據(jù)發(fā)送到搜索設(shè)備作為所述搜索設(shè)備的搜索數(shù)據(jù)源。
8、 根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)連接設(shè)備,其特征在于,所述復(fù)制裝置還用 于記錄客戶端的請(qǐng)求信息,或存儲(chǔ)所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有 相同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述 搜索設(shè)備。
9、 一種搜索設(shè)備,其特征在于,包括復(fù)制裝置,用于與網(wǎng)絡(luò)連接設(shè)備相連從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng) 客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù);解析裝置,與所述復(fù)制裝置相連,接收并解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息;索引裝置,與所述解析裝置相連,將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中 并建立索引;搜索裝置,用于查找所述索引并產(chǎn)生搜索結(jié)果。
10、 根據(jù)權(quán)利要求9所述的搜索設(shè)備,其特征在于,所述復(fù)制裝置還用于 記錄客戶端的請(qǐng)求信息,或存儲(chǔ)所述返回?cái)?shù)據(jù),或判斷在預(yù)定時(shí)間內(nèi)是否有相 同URL的返回?cái)?shù)據(jù),如果有則不將復(fù)制的相同URL的返回?cái)?shù)據(jù)發(fā)送到所述搜 索設(shè)備。
全文摘要
一種搜集搜索引擎數(shù)據(jù)源的方法,包括以下步驟從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù);解析所述返回?cái)?shù)據(jù),獲得網(wǎng)頁信息;將網(wǎng)頁信息存入搜索引擎網(wǎng)頁數(shù)據(jù)庫中并建立索引。上述搜集搜索引擎數(shù)據(jù)源的方法通過從網(wǎng)絡(luò)連接設(shè)備復(fù)制頁面服務(wù)器響應(yīng)客戶端請(qǐng)求所產(chǎn)生的返回?cái)?shù)據(jù),可以獲得無法通過網(wǎng)絡(luò)蜘蛛獲得的網(wǎng)頁信息,擴(kuò)大了搜索引擎的搜索數(shù)據(jù)源。此外,還提供了一種復(fù)制裝置、網(wǎng)絡(luò)連接設(shè)備及搜索設(shè)備。
文檔編號(hào)H04L29/06GK101551813SQ200910039459
公開日2009年10月7日 申請(qǐng)日期2009年5月13日 優(yōu)先權(quán)日2009年5月13日
發(fā)明者程 張 申請(qǐng)人:騰訊科技(深圳)有限公司