一種資源獲取優(yōu)化裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種資源獲取優(yōu)化裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展與網(wǎng)絡(luò)信息量的不斷劇增,用戶能夠從海量的信息中快速高效的搜索有價(jià)值的信息對(duì)于互聯(lián)網(wǎng)的發(fā)展至關(guān)重要。URL (Uni form ResourceLocator,統(tǒng)一資源定位符)是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問(wèn)方法的一種簡(jiǎn)潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。因此URL數(shù)據(jù)在信息檢索中即為重要。對(duì)于搜索信息來(lái)說(shuō),網(wǎng)絡(luò)信息采集是其重要組成部分,但常常出現(xiàn)URL被重復(fù)抓取的情況,影響網(wǎng)絡(luò)信息采集的效率。。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的主要目的在于提出一種資源獲取優(yōu)化裝置和方法,旨在解決通過(guò)單機(jī)內(nèi)存或遠(yuǎn)程關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行資源獲取優(yōu)化時(shí)存在的處理能力的限制和處理速度的限制。
[0004]為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種資源獲取優(yōu)化裝置,包括:
[0005]地址確認(rèn)單元,用于確認(rèn)待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進(jìn)行簡(jiǎn)化得到簡(jiǎn)化URL;
[0006]抓取預(yù)判單元,用于當(dāng)簡(jiǎn)化URL在URL簡(jiǎn)化列表中不存在時(shí),將簡(jiǎn)化URL記錄到待抓取列表;
[0007]數(shù)據(jù)寫(xiě)入單元,用于當(dāng)所述待抓取列表中新添加的URL與已有的URL對(duì)應(yīng)的頁(yè)面內(nèi)容不同時(shí),將簡(jiǎn)化URL寫(xiě)入已抓取列表。
[0008]其中,所述裝置,還包括:
[0009]列表判斷單元,用于判斷是否存在URL簡(jiǎn)化列表;
[0010]所述地址確認(rèn)單元,具體用于:
[0011 ]當(dāng)存在URL簡(jiǎn)化列表時(shí),確認(rèn)待定URL是初始URL的域名內(nèi)的URL;
[0012]所述裝置還包括:
[0013]第一預(yù)判單元,用于當(dāng)不存在URL簡(jiǎn)化列表時(shí),判斷所述待定URL是否在已抓取列表中;
[0014I判斷記錄單元,用于若所述待定URL不在已抓取列表中,將待定URL記錄到待抓取列表。
[0015]其中,所述URL簡(jiǎn)化列表中記錄有已抓取的簡(jiǎn)化URL及其對(duì)應(yīng)MD5信息摘要;
[0016]所述地址確認(rèn)單元,包括:
[0017]子串判斷模塊,用于獲取待定URL的域名子串和初始URL的域名子串,確認(rèn)兩個(gè)域名子串相同;
[0018]摘要生成模塊,用于將所述待定URL根據(jù)參數(shù)模板過(guò)濾掉不在參數(shù)模板中的參數(shù)得到簡(jiǎn)化URL,生成簡(jiǎn)化URL的MD5信息摘要;
[0019]所述抓取預(yù)判單元,具體用于:
[0020]當(dāng)生成的簡(jiǎn)化URL的MD5信息摘要在URL簡(jiǎn)化列表中不存在時(shí),將待定URL及其對(duì)應(yīng)的MD5信息摘要記錄到待抓取列表。
[0021 ]其中,所述數(shù)據(jù)寫(xiě)入單元,包括:
[0022]摘要判斷模塊,用于判斷待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
[0023]數(shù)據(jù)寫(xiě)入模塊,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,確認(rèn)新添加的URL與已抓取的URL中的頁(yè)面內(nèi)容不同后將新添加的URL寫(xiě)入已抓取列表;否則將新添加的URL寫(xiě)入已抓取列表;
[0024]所述第一部分包括新添加的URL的查詢參數(shù)部分之外的部分。
[0025]其中,所述URL簡(jiǎn)化列表、待抓取列表和已抓取列表通過(guò)redis集群維護(hù);
[0026]所述裝置還包括:
[0027]列表添加單元,用于若資源獲取優(yōu)化時(shí)內(nèi)存不足,動(dòng)態(tài)添加redis集群規(guī)模。
[0028]此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種資源獲取優(yōu)化方法,包括:
[0029]確認(rèn)待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進(jìn)行簡(jiǎn)化得到簡(jiǎn)化URL;
[0030]當(dāng)簡(jiǎn)化URL在URL簡(jiǎn)化列表中不存在時(shí),將簡(jiǎn)化URL記錄到待抓取列表;
[0031]當(dāng)所述待抓取列表中新添加的URL與已有的URL對(duì)應(yīng)的頁(yè)面內(nèi)容不同時(shí),將簡(jiǎn)化URL寫(xiě)入已抓取列表。
[0032]其中,所述確認(rèn)待定URL是初始URL的域名內(nèi)的URL之前,還包括:
[0033]判斷是否存在URL簡(jiǎn)化列表;
[0034]所述確認(rèn)待定URL是初始URL的域名內(nèi)的URL,具體為:
[0035 ]當(dāng)存在URL簡(jiǎn)化列表時(shí),確認(rèn)待定URL是初始URL的域名內(nèi)的URL;
[0036]所述方法還包括:
[0037]當(dāng)不存在URL簡(jiǎn)化列表時(shí),判斷所述待定URL是否在已抓取列表中;
[0038]若所述待定URL不在已抓取列表中,將簡(jiǎn)化URL記錄到待抓取列表。
[0039]其中,所述URL簡(jiǎn)化列表中記錄有已抓取的簡(jiǎn)化URL及其對(duì)應(yīng)MD5信息摘要;
[0040]所述確認(rèn)待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進(jìn)行簡(jiǎn)化得到簡(jiǎn)化URL,包括:
[0041 ]獲取待定URL的域名子串和初始URL的域名子串,確認(rèn)兩個(gè)域名子串相同;
[0042]將所述待定URL根據(jù)參數(shù)模板過(guò)濾掉不在參數(shù)模板中的參數(shù)得到簡(jiǎn)化URL,生成簡(jiǎn)化URL的MD5信息摘要;
[0043 ] 所述當(dāng)簡(jiǎn)化URL在URL簡(jiǎn)化列表中不存在時(shí),將簡(jiǎn)化URL記錄到待抓取列表,具體為:
[0044]當(dāng)生成的簡(jiǎn)化URL的MD5信息摘要在URL簡(jiǎn)化列表中不存在時(shí),將待定URL及其對(duì)應(yīng)的MD5信息摘要記錄到待抓取列表。
[0045]其中,所述當(dāng)所述待抓取列表中新添加的URL與已有的URL對(duì)應(yīng)的頁(yè)面內(nèi)容不同時(shí),將簡(jiǎn)化URL寫(xiě)入已抓取列表,包括:
[0046]判斷待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
[0047]若已存在,確認(rèn)新添加的URL與已抓取的URL中的頁(yè)面內(nèi)容不同后將新添加的URL寫(xiě)入已抓取列表;否則將新添加的URL寫(xiě)入已抓取列表;
[0048]所述第一部分包括新添加的URL的查詢參數(shù)部分之外的部分。
[0049]其中,所述URL簡(jiǎn)化列表、待抓取列表和已抓取列表通過(guò)redis集群維護(hù);
[0050]所述方法還包括:
[0051]若資源獲取優(yōu)化時(shí)內(nèi)存不足,動(dòng)態(tài)添加redis集群規(guī)模。
[0052]本發(fā)明提出的資源獲取優(yōu)化裝置和方法,通過(guò)在數(shù)據(jù)庫(kù)中建立多個(gè)列表,在列表中記錄URL去重過(guò)程中的判斷目標(biāo),在多個(gè)列表中對(duì)待定URL依次判斷,避免了內(nèi)存中去重的處理能力的限制和遠(yuǎn)程關(guān)系型數(shù)據(jù)庫(kù)處理時(shí)速度的限制,實(shí)現(xiàn)了資源獲取時(shí)的能力提升和效率提升。
【附圖說(shuō)明】
[0053]圖1是本發(fā)明【具體實(shí)施方式】中提供的一種資源獲取優(yōu)化方法的第一實(shí)施例的方法流程圖。
[0054]圖2是本發(fā)明【具體實(shí)施方式】中提供的一種資源獲取優(yōu)化方法的第二實(shí)施例的方法流程圖。
[0055]圖3是本發(fā)明【具體實(shí)施方式】中提供的一種資源獲取優(yōu)化裝置的第一實(shí)施例的結(jié)構(gòu)方框圖。
[0056]圖4是本發(fā)明【具體實(shí)施方式】中提供的一種資源獲取優(yōu)化裝置的第二實(shí)施例的結(jié)構(gòu)方框圖。
[0057]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。
【具體實(shí)施方式】
[0058]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0059]現(xiàn)在將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說(shuō)明,其本身并沒(méi)有特定的意義。因此,"模塊"與"部件"可以混合地使用。
[0060]圖1是本發(fā)明【具體實(shí)施方式】中提供