一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法
【專利摘要】本發(fā)明提供一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法,該方法基于采集調(diào)度系統(tǒng),包括如下步驟:所述調(diào)度模塊發(fā)起入口域名調(diào)度;所述抽取模塊辨識(shí)抽取出的二級(jí)域名的類型并做標(biāo)記;所述調(diào)度模塊接收抽取出的二級(jí)域名并識(shí)別所述標(biāo)記;判斷識(shí)別出的信息單元是否出現(xiàn)更新;將信息單元的域名信息、歷史更新記錄加入或更新到更新單位頁。根據(jù)歷史更新記錄預(yù)測下次出現(xiàn)更新的時(shí)間點(diǎn),并在該時(shí)間點(diǎn)上執(zhí)行信息單元調(diào)度。本方法對(duì)于垂直搜索中,具有信息單元特征,且每個(gè)信息單元更新周期和更新時(shí)間點(diǎn)差異性很大的網(wǎng)站有較好的適用效果。
【專利說明】一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種網(wǎng)絡(luò)信息調(diào)度方法,具體講涉及一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法。
【背景技術(shù)】
[0002]現(xiàn)在用戶有很多個(gè)性化的搜索要求,這類要求一般范圍特定,對(duì)數(shù)據(jù)質(zhì)量要求很高,所以對(duì)應(yīng)的搜索廠商推出了基于特定方向的垂直搜索,例如新聞搜索、視頻搜索、音樂搜索、微博搜索及小說搜索等等。這些垂直頻道都有一些很明顯的特點(diǎn):1.數(shù)據(jù)類型一致,來源很窄,幾乎都是定向抓??;2.對(duì)于數(shù)據(jù)及時(shí)性要求很高,希望在第一時(shí)間收錄到系統(tǒng)中;3.數(shù)據(jù)需要持續(xù)更新;4.數(shù)據(jù)更新活躍度差異很大。
[0003]有了這些特定需求,對(duì)于采集系統(tǒng),就不能像通用爬蟲那樣抓取數(shù)據(jù)了,會(huì)用一些垂直采集特定數(shù)據(jù)的方法。例如:只采集指定網(wǎng)站的數(shù)據(jù),周期抓取對(duì)方網(wǎng)站的特定更新頁面,同時(shí)不能對(duì)對(duì)方網(wǎng)站進(jìn)行過于頻繁的抓取。
[0004]在原有的采集系統(tǒng)中,調(diào)度算法是從指定網(wǎng)站入口頁面進(jìn)入,這些頁面通常都是信息列表頁。從列表頁中抽取特定的url,通過調(diào)度,下載那些需要更新的頁面。新頁面回來后,繼續(xù)抽取url進(jìn)行調(diào)度。這樣層層深入,能夠逐漸抓取到所有的頁面。
[0005]這個(gè)方法,簡單實(shí)用,但不夠高效。第一,所有的更新必須從入口發(fā)起,即使只有少量的頁面有更新,也得把入口下所有的頁面下載一遍;第二,每個(gè)頁面的更新時(shí)間不一致,卻要統(tǒng)一按入口的更新周期被調(diào)度,不能保證頁面抓取的及時(shí)性,或?yàn)榱吮WC信息的及時(shí)性而增加調(diào)度頻次。這兩個(gè)問題,都會(huì)造成大量的下載浪費(fèi);同時(shí),還可能因?yàn)槭┘訅毫^大,導(dǎo)致對(duì)方網(wǎng)站封鎖采集方的ip出口。
[0006]例如一個(gè)網(wǎng)站,A視頻或者A小說是每日0點(diǎn)更新,B視頻或者B小說是每日10點(diǎn)更新。如果按照常用更新辦法,需要從入口頁發(fā)起采集,兩個(gè)信息單元共用一個(gè)調(diào)度時(shí)間,那么如果在0點(diǎn)的時(shí)候調(diào)度,只有A能更新,B會(huì)無效下載;如果在5點(diǎn)調(diào)度,A會(huì)更新不及時(shí),B會(huì)無效下載;如果在10點(diǎn)調(diào)度,A會(huì)更晚被收錄。而且通常一個(gè)入口會(huì)包含很多信息單元,每個(gè)信息單元的更新時(shí)間又不一致,那么該入口的采集周期會(huì)難以協(xié)調(diào)和預(yù)測,眾口難調(diào)。
[0007]所以,如何在保證每個(gè)更新信息都能被及時(shí)采集的前提下,盡量減小下載量,是一個(gè)丞需解決的問題。
【發(fā)明內(nèi)容】
[0008]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法。
[0009]為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0010]一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法,該方法基于采集調(diào)度系統(tǒng),所述采集調(diào)度系統(tǒng)包括:下載模塊、抽取模塊、框架和調(diào)度模塊;所述信息單元為垂直搜索引擎中的一個(gè)事物的信息聚類單位;其特征在于,所述方法包括如下步驟:
[0011]A.所述調(diào)度模塊發(fā)起入口域名調(diào)度;
[0012]B.所述抽取模塊辨識(shí)抽取出的二級(jí)域名的類型并做標(biāo)記;
[0013]C.所述調(diào)度模塊接收抽取出的二級(jí)域名并識(shí)別所述標(biāo)記;
[0014]D.判斷識(shí)別出的信息單元是否出現(xiàn)更新;
[0015]E.將信息單元的域名信息、歷史更新記錄加入或更新到更新單位頁。
[0016]F.根據(jù)歷史更新記錄預(yù)測下次出現(xiàn)更新的時(shí)間點(diǎn),并在該時(shí)間點(diǎn)上執(zhí)行信息單元調(diào)
[0017]度。
[0018]優(yōu)選地,步驟A包括:調(diào)度模塊根據(jù)預(yù)設(shè)期調(diào)度初始入口域名。
[0019]優(yōu)選地,步驟B中,所述二級(jí)域名的類型包括:列表頁、信息單元頁、信息單元頁下層頁面和圖片頁;所述信息單元頁為一個(gè)信息單元的頂層頁面。
[0020]優(yōu)選地,步驟C包括:
[0021]C-1.若接收到的所述二級(jí)域名的類型為列表頁,調(diào)度模塊按該二級(jí)域名所在入口的
[0022]調(diào)度周期進(jìn)行調(diào)度;返回步驟A ;
[0023]C-2.若接收到的所述二級(jí)域名的類型為信息單元頁,執(zhí)行步驟E ;
[0024]C-3.若接收到的所述二級(jí)域名的類型為信息單元頁下層頁面,直接調(diào)度該二級(jí)域名;
[0025]繼續(xù)執(zhí)行步驟D。
[0026]優(yōu)選地,步驟D包括:
[0027]D-1.生成所述信息單元的內(nèi)容指紋,并將其與頁面指紋信息表中的歷史信息進(jìn)行t匕
[0028]對(duì),以判斷該信息單元是否出現(xiàn)更新;
[0029]D-2.對(duì)所述信息單元的域名進(jìn)行結(jié)構(gòu)分析,并將其與域名排重表進(jìn)行比對(duì),以判斷
[0030]該信息單元的域名是否為首次出現(xiàn)。
[0031]優(yōu)選地,步驟E包括:調(diào)度模塊創(chuàng)建所述更新單位表;所述更新單位表包括如下字段:更新單位頁域名、更新時(shí)間點(diǎn)、更新單位位置權(quán)重、更新單位更新頁面數(shù)和歷史更新記錄;所述更新單位為有更新需求的信息單元;所述調(diào)度包括:下載更新單位頁及其下層頁面;將每次調(diào)度的更新狀況存入所述更新單位表的歷史更新記錄中。
[0032]優(yōu)選地,步驟F包括:
[0033]F-1.判斷一個(gè)更新單位是否完成全部調(diào)度,如果完成調(diào)度,將本次調(diào)度的更新狀況存入所述更新單位表的歷史更新記錄中;否則,回到步驟A ;
[0034]F-2.根據(jù)歷史更新記錄,調(diào)用預(yù)測模型,計(jì)算下次更新的時(shí)間點(diǎn),并將該時(shí)間點(diǎn)存入所述更新單位表的更新時(shí)間點(diǎn)字段中,回到步驟A ;
[0035]F-3.檢查更新單位的更新時(shí)間點(diǎn),當(dāng)?shù)竭_(dá)所述更新時(shí)間點(diǎn)時(shí),繼續(xù)執(zhí)行調(diào)度。
[0036]優(yōu)選地,所述預(yù)測模型用于計(jì)算下次的更新時(shí)間,該預(yù)測模型包括如下參數(shù):本次更新的時(shí)間點(diǎn),更新周期,未出現(xiàn)更新的時(shí)間跨度,信息單元頁所在入口的位置,歷史調(diào)度次數(shù),下載失敗次數(shù);通過所述參數(shù)的權(quán)重配置完成所述計(jì)算。
[0037]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0038]本方法提出一種精確到更新單位的調(diào)度算法,定義單個(gè)信息體的描述單位及其更新所影響的范圍,并建立信息單元級(jí)的更新記錄,對(duì)于垂直搜索中,具有信息單元特征,且每個(gè)信息單元更新周期差異性很大的網(wǎng)站有較好的適用效果;
[0039]本方法應(yīng)用于中搜視頻搜索項(xiàng)目的采集模塊中,根據(jù)每個(gè)信息單元的更新記錄,通過計(jì)算模型預(yù)測下次更新的時(shí)間,并在該時(shí)間點(diǎn)調(diào)度,大幅降低下載的消耗,同時(shí)對(duì)于視頻采集的及時(shí)性和穩(wěn)定性,有一定的提高。
【專利附圖】
【附圖說明】
[0040]圖1是本發(fā)明實(shí)施例中的調(diào)度系統(tǒng)結(jié)構(gòu)圖;
[0041]圖2是本發(fā)明實(shí)施例中更新單位表示意圖;
[0042]圖3是本發(fā)明實(shí)施例中入口調(diào)度流程圖;
[0043]圖4是本發(fā)明實(shí)施例中更新單位調(diào)度流程圖;
[0044]圖5是本發(fā)明實(shí)施例中更新單位調(diào)度時(shí)間預(yù)測流程圖。
【具體實(shí)施方式】
[0045]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
[0046]本發(fā)明實(shí)現(xiàn)了一種以更新單位作為一個(gè)調(diào)度單位進(jìn)行計(jì)算的調(diào)度方法。該方法基于這樣一個(gè)現(xiàn)狀:同一網(wǎng)站的不同更新單位的更新狀態(tài)和更新時(shí)間點(diǎn)不同,無法統(tǒng)一時(shí)間更新。對(duì)于這類信息,如果以一個(gè)更新單位為一個(gè)信息更新單位,分別處理,每一個(gè)更新單位統(tǒng)計(jì)和使用自己的更新策略,就能及時(shí)有效的更新每一個(gè)調(diào)度單位,同時(shí)減少下載消耗。
[0047]本發(fā)明中的幾個(gè)概念描述:
[0048]入口:是指一個(gè)網(wǎng)站的起始頁面,通過這個(gè)頁面,我們可以遍歷出該網(wǎng)站的信息。調(diào)度模塊會(huì)從入口開始進(jìn)行周期調(diào)度,抽取模塊會(huì)把抽取出的url在送還給調(diào)度模塊。
[0049]信息單元是指,垂直搜索引擎中,表現(xiàn)一個(gè)事物的信息聚類單位。在采集目標(biāo)網(wǎng)站中,一個(gè)信息單元所需要的數(shù)據(jù)分布在一個(gè)或多個(gè)頁面。當(dāng)頁面多于一個(gè)時(shí),分頁面位于主頁面的下層。
[0050]列表頁:是指羅列出多個(gè)更新單位的頁面。例如視頻網(wǎng)站中的頻道頁,一個(gè)頻道頁包含多個(gè)視頻。
[0051]更新單位:網(wǎng)站中的信息單元,當(dāng)部分?jǐn)?shù)據(jù)發(fā)生更新時(shí),只會(huì)影響自身。并且信息單元在展示期,總處于持續(xù)更新中與更新完結(jié)兩種狀態(tài)之一。對(duì)于這種正在更新或曾經(jīng)更新的信息單元,把它定義為一個(gè)更新單位。例如,一個(gè)視頻網(wǎng)站的一部電視劇,在某個(gè)時(shí)期,它會(huì)定時(shí)增加新的分集信息,直到全部分集更新結(jié)束,那么這個(gè)電視劇所存在的頁面上的任何更新,都視為該信息單元的更新,這些頁面就是屬于一個(gè)更新單位。
[0052]更新單位頁:是指一個(gè)更新單位的頂層頁,通過該頁面,能夠訪問到該更新單位的幾乎所有信息。例如視頻網(wǎng)站中,“快樂大本營”這個(gè)視頻的詳情頁,該頁面會(huì)描述視頻的詳情信息,也會(huì)給出所有分集的超鏈接。它就可以作為“更新單位頁”。
[0053]更新單位表:更新單位信息集合。記錄了更新單位頁的url、上次調(diào)度時(shí)間,預(yù)計(jì)下次更新的時(shí)間點(diǎn)、歷史更新的記錄及其他的相關(guān)信息等?!案聠挝槐怼比鐖D2所示。
[0054]本發(fā)明調(diào)度系統(tǒng)的結(jié)構(gòu)圖如圖1所示,其流程包括:
[0055]1)框架類負(fù)責(zé)串聯(lián)采集系統(tǒng)的多個(gè)模塊:
[0056]a.從調(diào)度模塊中獲取需要下載的url,送給下載模塊;
[0057]b.從下載模塊拿到下載數(shù)據(jù)送給抽取抽取模塊進(jìn)行內(nèi)容抽??;
[0058]c.從抽取模塊拿到抽取內(nèi)容后,判斷更新單位是否發(fā)生內(nèi)容更新;
[0059]d.把更新的內(nèi)容送給發(fā)送模塊進(jìn)行信息輸出;
[0060]e.拿到抽取url再傳給調(diào)度模塊,調(diào)度模塊的決策系統(tǒng)決定是否調(diào)度該url。
[0061]2)調(diào)度模塊負(fù)責(zé)采集系統(tǒng)的調(diào)度工作,包括入口周期調(diào)度,url存儲(chǔ),url調(diào)度,更新單位調(diào)度,入口調(diào)度算法,更新單位調(diào)度算法等工作。
[0062]3)下載模塊負(fù)責(zé)下載頁面,并對(duì)下載狀態(tài)進(jìn)行反饋,作為調(diào)度算法的依據(jù)。
[0063]4)抽取模塊負(fù)責(zé)根據(jù)人工編寫的抽取模板,從頁面中抽取需要的數(shù)據(jù),并進(jìn)行類型標(biāo)記。
[0064]具體方法是:調(diào)度模塊在啟動(dòng)時(shí),由人工加入的入口頁url開始,進(jìn)行調(diào)度;下載模塊根據(jù)url下載到入口頁的信息;抽取模塊根據(jù)抽取模板,從頁面中獲取指定內(nèi)容和待下載url。并標(biāo)記url類型為url是信息列表頁、更新單位頁、更新單位頁下層頁面、圖片頁。當(dāng)一個(gè)信息單位的主頁面和下層頁面被下載和抽取后,會(huì)被制作內(nèi)容指紋,內(nèi)容指紋會(huì)和頁面指紋信息表中的歷史信息進(jìn)行對(duì)比,分辨頁面內(nèi)容是否更新。抽取出的url會(huì)進(jìn)行結(jié)構(gòu)分析,并和url排重表進(jìn)行比對(duì),分辨url是否是新url。
[0065]框架模塊把抽取出的url和本頁調(diào)度狀態(tài)傳入調(diào)度模塊。
[0066](1)對(duì)于信息列表頁url繼續(xù)進(jìn)行調(diào)度,處理流程和入口頁處理流程一致,依次是下載、抽取、分辨url類型、繼續(xù)調(diào)度……
[0067](2)對(duì)于更新單位頁url,存入“更新單位表”中。更新單位頁url第一次進(jìn)入更新單位表中,沒有任何歷史更新記錄,需要把上次調(diào)度時(shí)間初始化為零,預(yù)計(jì)下次更新周期初始化為九小時(shí),下次更新時(shí)間點(diǎn)就是上次的更新時(shí)間加上預(yù)計(jì)更新周期且比當(dāng)前時(shí)間小時(shí)的當(dāng)前時(shí)間,所以在首次加入后,更新單位頁會(huì)立即調(diào)度。如果更新單位頁url已存在于更新單位表中,就對(duì)更新單位頁所在入口的位置、入口的id、入口的調(diào)度類型進(jìn)行修改。
[0068](3)對(duì)于更新單位頁分頁以及圖片url。這些頁面是更新單位的附屬頁面,調(diào)度模塊會(huì)根據(jù)更新單位的調(diào)度策略,對(duì)附屬頁面進(jìn)行調(diào)度。
[0069](4)更新本頁調(diào)度信息。如果本頁是更新單位的頁面之一,根據(jù)本頁的下載狀態(tài),抽取狀態(tài)、頁面更新狀態(tài),對(duì)更新單位表進(jìn)行更新。當(dāng)一個(gè)更新單位的所有頁面都被下載以及更新完畢后,就意味著該更新單位的本次調(diào)度已經(jīng)結(jié)束,同時(shí)記錄本次調(diào)度的更新狀況至|J“更新單位表”的“HISTORY”(歷史更新記錄)字段。這樣每一個(gè)更新單位都有一個(gè)自己的更新狀況記錄。接著根據(jù)歷史更新記錄,使用預(yù)測模型,計(jì)算下次可能更新的時(shí)間點(diǎn),存入“更新單位表”的“CYCLE” (更新時(shí)間點(diǎn))字段。
[0070]預(yù)測模型是一個(gè)根據(jù)歷史記錄計(jì)算未來更新時(shí)間的計(jì)算方法。通過考慮影響更新時(shí)間的多個(gè)要素以及權(quán)重組成,要素主要有更新時(shí)間點(diǎn),更新周期,未更新時(shí)間長度,更新單位頁所在入口的位置,調(diào)度歷史次數(shù),下載失敗次數(shù)。這些參數(shù)通過權(quán)重的配置,對(duì)未來的每一個(gè)按小時(shí)劃分的時(shí)間點(diǎn)進(jìn)行計(jì)算,每個(gè)時(shí)間點(diǎn)獲得一個(gè)分?jǐn)?shù),如果該時(shí)間點(diǎn)的分?jǐn)?shù)超過0.6,就把該時(shí)間點(diǎn)作為下次更新的預(yù)測時(shí)間。為了進(jìn)行更精確的預(yù)測,會(huì)有一個(gè)探測期,在探測期,當(dāng)預(yù)測時(shí)間大于九個(gè)小時(shí),就按九小時(shí)作為預(yù)測時(shí)間,對(duì)于初期采樣有更好的適用性。待探測器結(jié)束,再按實(shí)際預(yù)測時(shí)間執(zhí)行。
[0071]因?yàn)槊總€(gè)更新單位都是使用自己的更新記錄進(jìn)行預(yù)測計(jì)算的,所以能夠計(jì)算出最適合自己的調(diào)度時(shí)間點(diǎn),從而避免了舊方法中一刀切的弊端。使得正在更新的數(shù)據(jù),能夠較精確的獲得更新時(shí)間,從而獲得更短的采集時(shí)間;對(duì)于停止更新的數(shù)據(jù),能夠逐漸停止調(diào)度,節(jié)約下載資源。
[0072]最后,更新單位調(diào)度線程就負(fù)責(zé)檢查每個(gè)更新單位的調(diào)度時(shí)間點(diǎn),當(dāng)?shù)竭_(dá)調(diào)度時(shí)間點(diǎn),且當(dāng)前入口處于工作狀態(tài)時(shí),就進(jìn)行更新單位的調(diào)度。周而復(fù)始,持續(xù)更新。
[0073]例如,視頻類網(wǎng)站調(diào)度時(shí)間預(yù)測模型實(shí)現(xiàn)過程如下:
[0074]1.記錄最近128次更新單位的調(diào)度信息和更新信息,包括調(diào)度的時(shí)間和本次調(diào)度的更新頁面數(shù)量。
[0075]i1.當(dāng)本次調(diào)度結(jié)束時(shí)更新本次的調(diào)度記錄并進(jìn)行下次預(yù)測時(shí)間的計(jì)算。
[0076]ii1.計(jì)算方法是把最近的128次更新記錄放入7*24的表格中,標(biāo)示一周的144個(gè)小時(shí)。
[0077]iv.不同日期同一時(shí)間的放入一個(gè)單元格中,并累加。例如第一周周二 12點(diǎn)有更新,就放入第二列第12行,第二周周二 12點(diǎn)也更新了,也放在第二列第12行。同一時(shí)間點(diǎn)的計(jì)算方法是,距離當(dāng)前時(shí)間點(diǎn)越近的更新狀態(tài),占的比重越大,歷史越遠(yuǎn)的更新狀態(tài),占得比重越小。這樣,歷史更新記錄就被映射到一個(gè)一周的按每小時(shí)劃分的時(shí)間表里。這是根據(jù)視頻更新有周期性決定的。
[0078]V.同時(shí)根據(jù)兩次更新的時(shí)間點(diǎn),得到更新周期,并把多個(gè)更新周期去除最長和最短周期,計(jì)算一個(gè)平均的更新周期。
[0079]v1.再把記錄映射到一個(gè)一周的按每天劃分的時(shí)間表里,這是為了標(biāo)示是否每天有更新。
[0080]vi1.從當(dāng)前時(shí)間開始,計(jì)算后面每個(gè)小時(shí)的更新概率,當(dāng)更新概率大于0.6或時(shí)間超過144小時(shí),計(jì)算停止。
[0081]vii1.更新概率=初始化區(qū)參數(shù)*權(quán)重+未調(diào)度次數(shù)參數(shù)*權(quán)重+未更新周期次數(shù)參數(shù)*權(quán)重+更新周期參數(shù)*權(quán)重+當(dāng)前時(shí)間點(diǎn)歷史更新參數(shù)*權(quán)重+當(dāng)前時(shí)間點(diǎn)調(diào)度參數(shù)*權(quán)重+入口層級(jí)參數(shù)*權(quán)重+入口排序位置參數(shù)*權(quán)重+時(shí)間點(diǎn)未更新次數(shù)參數(shù)*_權(quán)重+未更新周參數(shù)*_權(quán)重;
[0082]ix.初始化區(qū)參數(shù)=當(dāng)前時(shí)間-第一次入庫時(shí)間是否小于14天,如果是,就為1,否則為O。
[0083]X.未調(diào)度次數(shù)參數(shù)=如果更新周期等于0,那么未調(diào)度次數(shù)參數(shù)等于0,否則,等于(當(dāng)前時(shí)間點(diǎn)-上次調(diào)度時(shí)間)/更新周期。當(dāng)未調(diào)度次數(shù)大于3時(shí),未調(diào)度次數(shù)=I/未調(diào)度次數(shù)。
[0084]x1.更新周期參數(shù)=如果(取絕對(duì)值(當(dāng)前時(shí)間點(diǎn)-上次更新時(shí)間-更新周期)+3600)/3600.0< = 0,更新周期參數(shù)等于I,否則等于1/((取絕對(duì)值(當(dāng)前時(shí)間點(diǎn)-上次更新時(shí)間-更新周期)+3600)/3600.0)。同時(shí),如果當(dāng)前時(shí)間點(diǎn)-上次更新時(shí)間-更新周期的結(jié)果在0-3600秒,更新周期參數(shù)再增大0.2 ;
[0085]xi1.當(dāng)前時(shí)間點(diǎn)歷史更新參數(shù)=如果該時(shí)間點(diǎn),歷史更新、調(diào)度比大于0.3,就為1,否則為0 ;
[0086]xii1.當(dāng)前時(shí)間點(diǎn)調(diào)度參數(shù)=如果當(dāng)前時(shí)間點(diǎn)在0-10點(diǎn)之間,就為1,否則為0 ;同時(shí)如果當(dāng)前時(shí)間點(diǎn)在0點(diǎn),歷史上當(dāng)日無調(diào)度或者更新/調(diào)度比大于0.2,當(dāng)日最近無更新次數(shù)小于3,,那么當(dāng)前時(shí)間點(diǎn)調(diào)度參數(shù)再擴(kuò)大4倍。
[0087]xiv.入口層級(jí)參數(shù)=1/視頻在入口下所在頁面的編號(hào)。
[0088]XV.入口排序位置參數(shù)=1/視頻在頁面中的順序號(hào)。
[0089]xv1.時(shí)間點(diǎn)未更新次數(shù)參數(shù)=log(該時(shí)間點(diǎn)未更新最近次數(shù)*時(shí)間權(quán)重)
[0090]xvi1.未更新周參數(shù)=不更新時(shí)間長度小于1周時(shí)等于0,大于一周時(shí),取一周的倍數(shù)。
[0091]xvii1.根據(jù)計(jì)算公式,當(dāng)分值大于0.6時(shí),就認(rèn)為該時(shí)間點(diǎn)的更新概率達(dá)到要求,就退出計(jì)算。或者計(jì)算144個(gè)小時(shí)還沒有找到符合的時(shí)間也結(jié)束。
[0092]xix.如果當(dāng)前時(shí)間點(diǎn)沒有更新,但歷史更新概率大于0.3,調(diào)度周期就是3600秒。
[0093]XX.如果找到了分值大于0.6的時(shí)間點(diǎn),或者沒找到,但最大分值的時(shí)間點(diǎn)的分值大于0.4,調(diào)度周期就是距離當(dāng)前的小時(shí)數(shù)*3600秒。
[0094]xx1.如果最大分值都不超過0.4,那么調(diào)度周期等于(未更新時(shí)間/更新周期)倍數(shù)按斐波那契數(shù)列*更新周期+(最大分值時(shí)間點(diǎn)到當(dāng)前時(shí)間的秒數(shù))。
[0095]xxi1.最后,如果當(dāng)前調(diào)度次數(shù)在24次以內(nèi)(初始化時(shí)期),且調(diào)度周期大于九小時(shí),就調(diào)整調(diào)度周期為九小時(shí)。這是為了在初期,為保證足夠的采樣次數(shù),和采樣密度做的限定。
[0096]最后應(yīng)當(dāng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然可以對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
【權(quán)利要求】
1.一種垂直搜索引擎中對(duì)信息單元的調(diào)度方法,該方法基于采集調(diào)度系統(tǒng),所述采集調(diào)度系統(tǒng)包括:下載模塊、抽取模塊、框架和調(diào)度模塊;所述信息單元為垂直搜索引擎中的一個(gè)事物的信息聚類單位;其特征在于,所述方法包括如下步驟: A.所述調(diào)度模塊發(fā)起入口域名調(diào)度; B.所述抽取模塊辨識(shí)抽取出的二級(jí)域名的類型并做標(biāo)記; C.所述調(diào)度模塊接收抽取出的二級(jí)域名并識(shí)別所述標(biāo)記; D.判斷識(shí)別出的信息單元是否出現(xiàn)更新; E.將信息單元的域名信息、歷史更新記錄加入或更新到更新單位頁。 F.根據(jù)歷史更新記錄預(yù)測下次出現(xiàn)更新的時(shí)間點(diǎn),并在該時(shí)間點(diǎn)上執(zhí)行信息單元調(diào)度。
2.如權(quán)利要求1所述的方法,其特征在于,步驟A包括:調(diào)度模塊根據(jù)預(yù)設(shè)期調(diào)度初始入口域名。
3.如權(quán)利要求1所述的方法,其特征在于,步驟B中,所述二級(jí)域名的類型包括:列表頁、信息單元頁、信息單元頁下層頁面和圖片頁;所述信息單元頁為一個(gè)信息單元的頂層頁面。
4.如權(quán)利要求1所述的方法,其特征在于,步驟C包括: C-1.若接收到的所述二級(jí)域名的類型為列表頁,調(diào)度模塊按該二級(jí)域名所在入口的調(diào)度周期進(jìn)行調(diào)度;返回步驟A ; C-2.若接收到的所述二級(jí)域名的類型為信息單元頁,執(zhí)行步驟E ; C-3.若接收到的所述二級(jí)域名的類型為信息單元頁下層頁面,直接調(diào)度該二級(jí)域名; 繼續(xù)執(zhí)行步驟D。
5.如權(quán)利要求1所述的方法,其特征在于,步驟D包括: D-1.生成所述信息單元的內(nèi)容指紋,并將其與頁面指紋信息表中的歷史信息進(jìn)行比對(duì),以判斷該信息單元是否出現(xiàn)更新; D-2.對(duì)所述信息單元的域名進(jìn)行結(jié)構(gòu)分析,并將其與域名排重表進(jìn)行比對(duì),以判斷該信息單元的域名是否為首次出現(xiàn)。
6.如權(quán)利要求1所述的方法,其特征在于,步驟E包括:調(diào)度模塊創(chuàng)建所述更新單位表;所述更新單位表包括如下字段:更新單位頁域名、更新時(shí)間點(diǎn)、更新單位位置權(quán)重、更新單位更新頁面數(shù)和歷史更新記錄;所述更新單位為有更新需求的信息單元;所述調(diào)度包括:下載更新單位頁及其下層頁面;將每次調(diào)度的更新狀況存入所述更新單位表的歷史更新記錄中。
7.如權(quán)利要求1所述的方法,其特征在于,步驟F包括: F-1.判斷一個(gè)更新單位是否完成全部調(diào)度,如果完成調(diào)度,將本次調(diào)度的更新狀況存入所述更新單位表的歷史更新記錄中;否則,回到步驟A ; F-2.根據(jù)歷史更新記錄,調(diào)用預(yù)測模型,計(jì)算下次更新的時(shí)間點(diǎn),并將該時(shí)間點(diǎn)存入所述更新單位表的更新時(shí)間點(diǎn)字段中,回到步驟A ; F-3.檢查更新單位的更新時(shí)間點(diǎn),當(dāng)?shù)竭_(dá)所述更新時(shí)間點(diǎn)時(shí),繼續(xù)執(zhí)行調(diào)度。
8.如權(quán)利要求7所述的方法,其特征在于,所述預(yù)測模型用于計(jì)算下次的更新時(shí)間,該預(yù)測模型包括如下參數(shù):本次更新的時(shí)間點(diǎn),更新周期,未出現(xiàn)更新的時(shí)間跨度,信息單元頁所在入口的位置,歷史調(diào)度次數(shù),下載失敗次數(shù);通過所述參數(shù)的權(quán)重配置完成所述計(jì)笪
【文檔編號(hào)】G06F17/30GK104361005SQ201410535206
【公開日】2015年2月18日 申請(qǐng)日期:2014年10月11日 優(yōu)先權(quán)日:2014年10月11日
【發(fā)明者】齊彥杰 申請(qǐng)人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司