用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器的制造方法
【專利摘要】本發(fā)明提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器,方法包括:第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息;當(dāng)?shù)谝蛔诱{(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),將超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù);與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務(wù);第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù);第二子調(diào)度器發(fā)送子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。本發(fā)明實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新調(diào)度,降低了總調(diào)度器的負(fù)載。
【專利說(shuō)明】
用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器。
【背景技術(shù)】
[0002]搜索引擎作為網(wǎng)絡(luò)信息搜尋的工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù)。1994年,爬蟲程序被應(yīng)用到索引程序中,Yah00、G00gle等相繼出現(xiàn)。網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分,它負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁(yè),這些頁(yè)面用于建立索引從而為搜索引擎提供支持。
[0003]但至今,功能再?gòu)?qiáng)大的搜索引擎都仍然存在信息丟失、更新率低、精準(zhǔn)率低等問(wèn)題。用戶需要更快、更準(zhǔn)、更方便、更有效的查詢服務(wù)成為搜索引擎技術(shù)發(fā)展研究追求的目標(biāo)。而面對(duì)越來(lái)越龐大的網(wǎng)絡(luò)資源,提高爬蟲程序的速度已成為當(dāng)前搜索領(lǐng)域的一個(gè)焦點(diǎn)問(wèn)題,但現(xiàn)有的爬蟲程序顯然不能滿足高速爬取的需求。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器,以實(shí)現(xiàn)僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),降低總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更快速進(jìn)入搜索引擎。
[0005]根據(jù)本發(fā)明的一方面,提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度方法,包括:第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息;當(dāng)所述第一子調(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),所述第一子調(diào)度器將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù);與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù);所述第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)所述調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù);所述第二子調(diào)度器發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0006]優(yōu)選地,所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù)的處理包括:
[0007]所述總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值;
[0008]根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,所述總調(diào)度器生成至少一個(gè)總調(diào)度任務(wù),所述至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理所述超出部分的網(wǎng)絡(luò)資源的地址信息。
[0009]優(yōu)選地,所述方法還包括:所述第一子調(diào)度器發(fā)送所述網(wǎng)絡(luò)資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡(luò)資源的地址信息與所述子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。
[0010]優(yōu)選地,所述方法還包括:如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄?,以使所述總?cè)ブ仄髋袛嗨鼍W(wǎng)絡(luò)資源的地址信息與所述總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致;如果不一致,則所述第一子調(diào)度器接收所述總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。
[0011]根據(jù)本發(fā)明的另一方面,提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備,包括:地址信息獲取模塊,用于第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息;地址信息發(fā)送模塊,用于當(dāng)所述第一子調(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),所述第一子調(diào)度器將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù);調(diào)度任務(wù)接收模塊,用于與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù);調(diào)度任務(wù)生成模塊,用于所述第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)所述調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù);調(diào)度任務(wù)發(fā)送模塊,用于所述第二子調(diào)度器發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0012]優(yōu)選地,所述地址信息發(fā)送模塊具體用于所述總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,生成至少一個(gè)總調(diào)度任務(wù),所述至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理所述超出部分的網(wǎng)絡(luò)資源的地址信息。
[0013]優(yōu)選地,所述地址信息發(fā)送模塊還用于所述第一子調(diào)度器發(fā)送所述網(wǎng)絡(luò)資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡(luò)資源的地址信息與所述子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。
[0014]優(yōu)選地,所述地址信息發(fā)送模塊還用于如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄?,以使所述總?cè)ブ仄髋袛嗨鼍W(wǎng)絡(luò)資源的地址信息與所述總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致;
[0015]所述調(diào)度設(shè)備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調(diào)度器接收所述總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。
[0016]根據(jù)本發(fā)明的另一方面,提供一種子調(diào)度器,包括:信息獲取模塊,用于從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息;信息發(fā)送模塊,用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù);任務(wù)接收模塊,用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量未超過(guò)設(shè)定的調(diào)度閾值時(shí),接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù);任務(wù)生成模塊,用于根據(jù)所述總調(diào)度任務(wù)對(duì)應(yīng)的網(wǎng)絡(luò)資源的地址信息和未超過(guò)設(shè)定的調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù);任務(wù)發(fā)送模塊,用于發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0017]根據(jù)本發(fā)明的另一方面,提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng),包括:總調(diào)度器和分別與所述總調(diào)度器通信連接的至少一個(gè)如前述實(shí)施例所述的子調(diào)度器,所述總調(diào)度器接收超過(guò)設(shè)定調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù),分別發(fā)送給對(duì)應(yīng)的子調(diào)度器。
[0018]根據(jù)本發(fā)明實(shí)施例提供的用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器,通過(guò)子調(diào)度器在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù),進(jìn)一步其他未超過(guò)調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù),并發(fā)送給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
【附圖說(shuō)明】
[0019]圖1是示出根據(jù)本發(fā)明實(shí)施例一的用于網(wǎng)絡(luò)資源處理的調(diào)度方法的流程圖;
[0020]圖2是示出根據(jù)本發(fā)明實(shí)施例二的用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備的邏輯框圖;
[0021 ]圖3是示出根據(jù)本發(fā)明實(shí)施例三的子調(diào)度器的邏輯框圖;
[0022]圖4是示出根據(jù)本發(fā)明實(shí)施例四的用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]本發(fā)明的基本構(gòu)思是,提供一種基于網(wǎng)絡(luò)資源處理的兩重調(diào)度的技術(shù)方案。具體來(lái)說(shuō),在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù),進(jìn)一步其他未超過(guò)調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù),并發(fā)送給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
[0024]此外,還可增加兩重去重處理,即總?cè)ブ仄骱妥尤ブ仄鲗?shí)現(xiàn),同理可知,子去重器使得總?cè)ブ仄鞯呢?fù)載降低,極大地提升網(wǎng)絡(luò)資源處理的效率和速度。
[0025]下面結(jié)合附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例用于網(wǎng)絡(luò)資源處理的調(diào)度方法、設(shè)備、系統(tǒng)及子調(diào)度器。
[0026]實(shí)施例一
[0027]圖1是示出根據(jù)本發(fā)明實(shí)施例一的用于網(wǎng)絡(luò)資源處理的調(diào)度方法的流程圖。以下以子調(diào)度器為本發(fā)明實(shí)施例的執(zhí)行主體進(jìn)行詳細(xì)說(shuō)明。
[0028]參照?qǐng)D1,在步驟S110,第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息。
[0029]需要說(shuō)明的是,網(wǎng)絡(luò)資源的地址信息可為網(wǎng)頁(yè)的統(tǒng)一資源定位符URL。也就是說(shuō),網(wǎng)絡(luò)爬蟲設(shè)備在發(fā)現(xiàn)URL之后,并不是直接就根據(jù)URL進(jìn)行網(wǎng)絡(luò)資源的下載,而是將URL告知子調(diào)度器,由此,子調(diào)度器就可獲取到網(wǎng)絡(luò)爬蟲設(shè)備發(fā)送的網(wǎng)絡(luò)資源的地址信息。
[0030]在步驟S120,當(dāng)?shù)谝蛔诱{(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),第一子調(diào)度器將超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù)。
[0031]具體來(lái)說(shuō),第一子調(diào)度器在獲取到網(wǎng)絡(luò)爬蟲設(shè)備發(fā)送的網(wǎng)絡(luò)資源的地址信息之后,會(huì)判斷自身的網(wǎng)絡(luò)資源處理量是否超負(fù)荷,如果超負(fù)荷,就將超出部分(即超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息)發(fā)送給總調(diào)度器。
[0032]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,前述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù)的處理可以包括:總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,總調(diào)度器生成至少一個(gè)總調(diào)度任務(wù),至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理超出部分的網(wǎng)絡(luò)資源的地址信息。
[0033]也就是說(shuō),總調(diào)度器需要先獲取其他子調(diào)度器的網(wǎng)絡(luò)資源處理情況,即前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值,例如,某子調(diào)度器當(dāng)前處理的網(wǎng)絡(luò)資源的地址信息的數(shù)量為900,調(diào)度閾值為1000,可見該子調(diào)度器為未超負(fù)荷的子調(diào)度器,假設(shè)前述超出部分網(wǎng)絡(luò)資源的地址信息數(shù)量為200,那么可將其中的100個(gè)生成一個(gè)總調(diào)度任務(wù)發(fā)送給該未超負(fù)荷的子調(diào)度器。同理,另外100個(gè)生成一個(gè)總調(diào)度任務(wù)發(fā)送給另一未超負(fù)荷的子調(diào)度器。
[0034]在步驟S130,與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務(wù)。
[0035]這里需要強(qiáng)調(diào)的是,“第一”、“第二”只是一種用于區(qū)別不同子調(diào)度器的指代,并不用以限定具體的子調(diào)度器。具體地,第二子調(diào)度器就是如前所述的網(wǎng)絡(luò)資源處理量未超負(fù)荷的子調(diào)度器,從而接收總調(diào)度器發(fā)送的總調(diào)度任務(wù),繼續(xù)做相應(yīng)的處理。
[0036]在步驟S140,第二子調(diào)度器根據(jù)總調(diào)度任務(wù)的網(wǎng)絡(luò)資源的地址信息和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù)。
[0037]在步驟SI 50,第二子調(diào)度器發(fā)送子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0038]在具體的實(shí)現(xiàn)方式中,通常,由子調(diào)度器對(duì)16個(gè)網(wǎng)絡(luò)爬蟲設(shè)備進(jìn)行調(diào)度和管理。這其中包括了 URL打散、URL比例再分配、設(shè)置URL的優(yōu)先級(jí)等等。因此,需要子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的URL生成子調(diào)度任務(wù),然后將子調(diào)度任務(wù)分發(fā)給這16個(gè)網(wǎng)絡(luò)爬蟲設(shè)備。
[0039]本發(fā)明實(shí)施例的用于網(wǎng)絡(luò)資源處理的調(diào)度方法,通過(guò)子調(diào)度器在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù),進(jìn)一步其他未超過(guò)調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù),并發(fā)送給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
[0040]在上述實(shí)施例的基礎(chǔ)之上,為了避免由于重復(fù)爬取降低了網(wǎng)絡(luò)爬蟲設(shè)備的網(wǎng)絡(luò)資源處理效率,進(jìn)一步地,用于網(wǎng)絡(luò)資源處理的調(diào)度方法還可包括:第一子調(diào)度器發(fā)送網(wǎng)絡(luò)資源的地址信息給子去重器,以使子去重器判斷網(wǎng)絡(luò)資源的地址信息與子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。
[0041 ] 更進(jìn)一步地,用于網(wǎng)絡(luò)資源處理的調(diào)度方法還可包括:如果不一致,則子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄鳎允箍側(cè)ブ仄髋袛嗑W(wǎng)絡(luò)資源的地址信息與總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致;如果不一致,則第一子調(diào)度器接收總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。
[0042]在實(shí)際應(yīng)用中,URL去重是網(wǎng)絡(luò)資源處理中一項(xiàng)關(guān)鍵步驟,由于運(yùn)行中的網(wǎng)絡(luò)爬蟲主要阻塞在網(wǎng)絡(luò)交互中,因此避免重復(fù)的網(wǎng)絡(luò)交互至關(guān)重要。網(wǎng)絡(luò)爬蟲一般會(huì)將待抓取的URL放在一個(gè)隊(duì)列中,從抓取后的網(wǎng)頁(yè)中提取到新的URL,在新的URL被放入隊(duì)列之前,首先要確定這些新的URL是否被抓取過(guò),如果之前已經(jīng)抓取過(guò)了,就不再放入隊(duì)列了。因此,基于同樣的技術(shù)構(gòu)思,設(shè)置兩重去重,同樣地,子去重器使得總?cè)ブ仄鞯呢?fù)載降低,極大地提升網(wǎng)絡(luò)資源處理的效率和速度。
[0043]實(shí)施例二
[0044]基于相同的技術(shù)構(gòu)思,圖2是示出根據(jù)本發(fā)明實(shí)施例二的用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備的邏輯框圖??捎糜趫?zhí)行如圖1所示的實(shí)施例的方法步驟。
[0045]參照?qǐng)D2,用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備包括地址信息獲取模塊210、地址信息發(fā)送模塊220、調(diào)度任務(wù)接收模塊230、調(diào)度任務(wù)生成模塊240和調(diào)度任務(wù)發(fā)送模塊250。
[0046]地址信息獲取模塊210用于第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息;
[0047]地址信息發(fā)送模塊220用于當(dāng)?shù)谝蛔诱{(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),第一子調(diào)度器將超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù);
[0048]調(diào)度任務(wù)接收模塊230用于與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務(wù);
[0049]調(diào)度任務(wù)生成模塊240用于第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù);
[0050]調(diào)度任務(wù)發(fā)送模塊250用于第二子調(diào)度器發(fā)送子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0051]具體地,地址信息發(fā)送模塊220可用于總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,生成至少一個(gè)總調(diào)度任務(wù),至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理超出部分的網(wǎng)絡(luò)資源的地址信息。
[0052]進(jìn)一步地,地址信息發(fā)送模塊220還可用于第一子調(diào)度器發(fā)送網(wǎng)絡(luò)資源的地址信息給子去重器,以使子去重器判斷網(wǎng)絡(luò)資源的地址信息與子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。
[0053]更進(jìn)一步地,地址信息發(fā)送模塊220還可用于如果不一致,則子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄鳎允箍側(cè)ブ仄髋袛嗑W(wǎng)絡(luò)資源的地址信息與總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致;
[0054]調(diào)度設(shè)備還可包括:地址信息接收模塊(圖中未示出)用于如果不一致,則第一子調(diào)度器接收總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。
[0055]本發(fā)明實(shí)施例的用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備,通過(guò)子調(diào)度器在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù),進(jìn)一步其他未超過(guò)調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務(wù)和未超過(guò)調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù),并發(fā)送給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
[0056]實(shí)施例三
[0057]基于相同的技術(shù)構(gòu)思,圖3是示出根據(jù)本發(fā)明實(shí)施例三的子調(diào)度器的邏輯框圖。
[0058]參照?qǐng)D3,子調(diào)度器包括信息獲取模塊310、信息發(fā)送模塊320、任務(wù)接收模塊330、任務(wù)生成模塊340和任務(wù)發(fā)送模塊350。
[0059]信息獲取模塊310用于從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息。
[0060]這里,網(wǎng)絡(luò)資源的地址信息可為網(wǎng)頁(yè)的統(tǒng)一資源定位符URL。
[0061]信息發(fā)送模塊320用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),將超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù)。
[0062]任務(wù)接收模塊330用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量未超過(guò)設(shè)定的調(diào)度閾值時(shí),接收總調(diào)度器分發(fā)的總調(diào)度任務(wù)。
[0063]任務(wù)生成模塊340用于根據(jù)總調(diào)度任務(wù)對(duì)應(yīng)的網(wǎng)絡(luò)資源的地址信息和未超過(guò)設(shè)定的調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù)。
[0064]任務(wù)發(fā)送模塊350用于發(fā)送子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。
[0065]本發(fā)明實(shí)施例的子調(diào)度器,一方面,通過(guò)在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù);另一方面,當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量未超過(guò)設(shè)定的調(diào)度閾值時(shí)接收總調(diào)度器分發(fā)的總調(diào)度任務(wù),進(jìn)一步根據(jù)總調(diào)度任務(wù)對(duì)應(yīng)的網(wǎng)絡(luò)資源的地址信息和未超過(guò)設(shè)定的調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù),并發(fā)送給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載。并且在網(wǎng)絡(luò)資源處理量未超負(fù)荷時(shí),接收總調(diào)度器分發(fā)的總調(diào)度任務(wù)進(jìn)行相應(yīng)處理,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
[0066]實(shí)施例四
[0067]本發(fā)明實(shí)施例還提供一種用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng),圖4是示出根據(jù)本發(fā)明實(shí)施例四的用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng)的結(jié)構(gòu)示意圖。
[0068]參照?qǐng)D4,用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng)包括:總調(diào)度器410和分別與總調(diào)度器通信連接的至少一個(gè)如前述實(shí)施例的子調(diào)度器420,總調(diào)度器410接收超過(guò)設(shè)定調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù),分別發(fā)送給對(duì)應(yīng)的子調(diào)度器420。在實(shí)際應(yīng)用中,與總調(diào)度器通信的是16個(gè)子調(diào)度器,由總調(diào)度器對(duì)這16個(gè)子調(diào)度器進(jìn)行控制和管理。
[0069]本發(fā)明實(shí)施例的用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng),在網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定調(diào)度閾值時(shí),子調(diào)度器發(fā)送超過(guò)調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務(wù),總調(diào)度器根據(jù)接收的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù),分別發(fā)送給對(duì)應(yīng)的子調(diào)度器。實(shí)現(xiàn)了僅在網(wǎng)絡(luò)資源處理量超負(fù)荷時(shí),請(qǐng)求總調(diào)度器重新分配調(diào)度任務(wù),從而降低了總調(diào)度器的負(fù)載,使得網(wǎng)絡(luò)資源更加快速地進(jìn)入搜索引擎。
[0070]需要指出,根據(jù)實(shí)施的需要,可將本申請(qǐng)中描述的各個(gè)部件/步驟拆分為更多部件/步驟,也可將兩個(gè)或多個(gè)部件/步驟或者部件/步驟的部分操作組合成新的部件/步驟,以實(shí)現(xiàn)本發(fā)明的目的。
[0071]上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì)(諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)下載的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì)算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)S糜布?諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫猓?jì)算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,RAM、ROM、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問(wèn)且執(zhí)行時(shí),實(shí)現(xiàn)在此描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問(wèn)用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
[0072]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種用于網(wǎng)絡(luò)資源處理的調(diào)度方法,其特征在于,所述方法包括: 第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息; 當(dāng)所述第一子調(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),所述第一子調(diào)度器將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù); 與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù); 所述第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)所述調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù); 所述第二子調(diào)度器發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù)的處理包括: 所述總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值; 根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,生成至少一個(gè)總調(diào)度任務(wù),所述至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理所述超出部分的網(wǎng)絡(luò)資源的地址信息。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 所述第一子調(diào)度器發(fā)送所述網(wǎng)絡(luò)資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡(luò)資源的地址信息與所述子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄鳎允顾隹側(cè)ブ仄髋袛嗨鼍W(wǎng)絡(luò)資源的地址信息與所述總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致; 如果不一致,則所述第一子調(diào)度器接收所述總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。5.—種用于網(wǎng)絡(luò)資源處理的調(diào)度設(shè)備,其特征在于,所述調(diào)度設(shè)備包括: 地址信息獲取模塊,用于第一子調(diào)度器從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息; 地址信息發(fā)送模塊,用于當(dāng)所述第一子調(diào)度器的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),所述第一子調(diào)度器將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù); 調(diào)度任務(wù)接收模塊,用于與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù); 調(diào)度任務(wù)生成模塊,用于所述第二子調(diào)度器根據(jù)總調(diào)度任務(wù)和未超過(guò)所述調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù); 調(diào)度任務(wù)發(fā)送模塊,用于所述第二子調(diào)度器發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。6.根據(jù)權(quán)利要求5所述的調(diào)度設(shè)備,其特征在于,所述地址信息發(fā)送模塊具體用于所述總調(diào)度器獲取其他子調(diào)度器當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量和對(duì)應(yīng)的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個(gè)的調(diào)度閾值和當(dāng)前處理網(wǎng)絡(luò)資源的地址信息的數(shù)量的差值,生成至少一個(gè)總調(diào)度任務(wù),所述至少一個(gè)總調(diào)度任務(wù)用于指定對(duì)應(yīng)的第二子調(diào)度器處理所述超出部分的網(wǎng)絡(luò)資源的地址信息。7.根據(jù)權(quán)利要求5所述的調(diào)度設(shè)備,其特征在于,所述地址信息發(fā)送模塊還用于所述第一子調(diào)度器發(fā)送所述網(wǎng)絡(luò)資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡(luò)資源的地址信息與所述子去重器本地存儲(chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致,如果一致,則不再對(duì)判斷一致的網(wǎng)絡(luò)資源的地址信息進(jìn)行后續(xù)的處理。8.根據(jù)權(quán)利要求7所述的調(diào)度設(shè)備,其特征在于,所述地址信息發(fā)送模塊還用于如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡(luò)資源的地址信息發(fā)送給總?cè)ブ仄?,以使所述總?cè)ブ仄髋袛嗨鼍W(wǎng)絡(luò)資源的地址信息與所述總?cè)ブ仄鞅镜卮鎯?chǔ)的網(wǎng)絡(luò)資源的地址信息是否一致; 所述調(diào)度設(shè)備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調(diào)度器接收所述總?cè)ブ仄靼l(fā)送的判斷不一致的網(wǎng)絡(luò)資源的地址信息。9.一種子調(diào)度器,其特征在于,所述子調(diào)度器包括: 信息獲取模塊,用于從至少一個(gè)網(wǎng)絡(luò)爬蟲設(shè)備獲取網(wǎng)絡(luò)資源的地址信息; 信息發(fā)送模塊,用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量超過(guò)設(shè)定的調(diào)度閾值時(shí),將超過(guò)所述調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù); 任務(wù)接收模塊,用于當(dāng)本地的網(wǎng)絡(luò)資源的地址信息的數(shù)量未超過(guò)設(shè)定的調(diào)度閾值時(shí),接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務(wù); 任務(wù)生成模塊,用于根據(jù)所述總調(diào)度任務(wù)對(duì)應(yīng)的網(wǎng)絡(luò)資源的地址信息和未超過(guò)設(shè)定的調(diào)度閾值的網(wǎng)絡(luò)資源的地址信息生成子調(diào)度任務(wù); 任務(wù)發(fā)送模塊,用于發(fā)送所述子調(diào)度任務(wù)給對(duì)應(yīng)的網(wǎng)絡(luò)爬蟲設(shè)備。10.—種用于網(wǎng)絡(luò)資源處理的調(diào)度系統(tǒng),其特征在于,所述調(diào)度系統(tǒng)包括總調(diào)度器和分別與所述總調(diào)度器通信連接的至少一個(gè)如權(quán)利要求9所述的子調(diào)度器,所述總調(diào)度器接收超過(guò)設(shè)定調(diào)度閾值的超出部分的網(wǎng)絡(luò)資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡(luò)資源的地址信息生成至少一個(gè)總調(diào)度任務(wù),分別發(fā)送給對(duì)應(yīng)的子調(diào)度器。
【文檔編號(hào)】H04L29/08GK105897841SQ201510921205
【公開日】2016年8月24日
【申請(qǐng)日】2015年12月11日
【發(fā)明人】高強(qiáng)
【申請(qǐng)人】樂(lè)視網(wǎng)信息技術(shù)(北京)股份有限公司