一種搜悅采集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種采集方法,具體涉及一種搜悅采集方法。
【背景技術(shù)】
[0002]隨著信息技技術(shù)與網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活密不可分的一部分。基于Internet的網(wǎng)絡(luò)系統(tǒng)擁有者巨大的信息資源。但是這些資源大都形式分散,分布廣,給用戶查看信息帶來了很大的難度。
[0003]搜索引擎則根據(jù)用戶的需求,各種各樣是搜索應(yīng)用,使得用戶可以快捷的查看的自己想要的數(shù)據(jù)?;ヂ?lián)網(wǎng)中的資源信息,就像列表以不同的格式分散在成千上萬的網(wǎng)頁中,很好的采集這些數(shù)據(jù)以備使用就尤為重要。信息采集是一個重要的領(lǐng)域,它是以系統(tǒng)代替人工實現(xiàn)對網(wǎng)頁的數(shù)據(jù)的采集、整理等處理,提高工作效率,節(jié)省勞動力。
[0004]但目前人們希望在手機端也可以隨時查看相關(guān)信息,手機端APP隨之產(chǎn)生。搜悅則在這樣的背景下產(chǎn)生的,作為移動個人門戶的入口,可以讓用戶感受到更好的新聞閱讀體驗。搜悅采集系統(tǒng)架構(gòu)完成信息的采集、整理等工作,存儲到搜悅檢索庫中,以備搜悅使用。搜悅采集系統(tǒng)的關(guān)鍵在于信息采集,缺點是網(wǎng)絡(luò)中資訊信息噪音多,來源廣泛且雜。
【發(fā)明內(nèi)容】
[0005]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種搜悅采集方法,能夠高效、準確采集數(shù)據(jù),數(shù)據(jù)來源準確,處理快速、結(jié)果更精準,避免了普通的采集資訊中大量噪音數(shù)據(jù)影響的不足。
[0006]為了實現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0007]本發(fā)明提供一種搜悅采集方法,所述方法包括以下步驟:
[0008]步驟1:監(jiān)聽數(shù)據(jù),并對數(shù)據(jù)進行處理,得到待處理URL數(shù)據(jù);
[0009]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
[0010]所述步驟I中,監(jiān)聽的數(shù)據(jù)來源包括以下三種:
[0011](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù);
[0012](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù);
[0013](3)重新處理已入庫的數(shù)據(jù),而發(fā)起的Refresh數(shù)據(jù)。
[0014]所述步驟I具體包括以下步驟:
[0015]步驟1-1:監(jiān)聽數(shù)據(jù),校驗后保存數(shù)據(jù)到數(shù)據(jù)文件;
[0016]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
[0017]所述步驟1-1中,監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù),并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件,Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。
[0018]所述步驟1-2中,按照以上數(shù)據(jù)文件的處理優(yōu)先級依次取得URL數(shù)據(jù),將URL數(shù)據(jù)由黑名單過濾,且排重后得到URL數(shù)據(jù)增量,推入待下載任務(wù)隊列;推入待下任務(wù)隊列時依然按照Missing數(shù)據(jù)、ADD數(shù)據(jù)至Refresh數(shù)據(jù)的處理優(yōu)先級,在待下載任務(wù)隊列中排序,優(yōu)先級高的數(shù)據(jù)放在隊列頭,以確保后續(xù)處理的優(yōu)先級。
[0019]所述步驟2包括以下步驟:
[0020]步驟2-1:將待下載任務(wù)隊列的URL數(shù)據(jù)推送到下載器,由下載器下載URL數(shù)據(jù);
[0021]步驟2-2:從下載器得到下載結(jié)果,并校驗處理,區(qū)分下載結(jié)果為圖片或詳情頁;
[0022]步驟2-3:對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理,得到URL數(shù)據(jù)信息;
[0023]步驟2-4:分析URL數(shù)據(jù)信息。
[0024]所述步驟2-2中,針對圖片的下載結(jié)果,首先分析圖片信息,并處理圖片尺寸,根據(jù)實踐經(jīng)驗得到最小經(jīng)驗值,小于最小經(jīng)驗值尺寸的圖片視為垃圾圖片,則丟棄,根據(jù)需求,小于需求尺寸則無須壓縮處理,而大于需求尺寸的圖片則壓縮到需求的尺寸;然后將符合要求的圖片信息上傳圖片服務(wù)器,得到圖片ID及圖片地址,并將下載結(jié)果中原文的圖片鏈接替換成處理后的圖片地址。
[0025]所述步驟2-3中,針對詳情頁的下載結(jié)果,分析下載結(jié)果,并對下載結(jié)果進行轉(zhuǎn)碼,成功轉(zhuǎn)碼后,對其進行自動抽取,在下載結(jié)果中抽取出所需要的信息。任何一步失敗則丟棄當前詳情頁,均直接執(zhí)行步驟2-4。
[0026]所述步驟2-3中,在對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理的過程中,任何一步失敗則丟棄當前圖片或當前詳情頁,均直接執(zhí)行步驟2-4。
[0027]所述步驟2-4中,首先查看URL數(shù)據(jù)信息是否有待處理的圖片鏈接;然后查看URL數(shù)據(jù)信息是否有待處理的翻頁鏈接;
[0028]如有待處理的圖片鏈接或者翻頁鏈接,則將URL數(shù)據(jù)信息推入待下載隊列繼續(xù)處理,重復(fù)以上各步驟;如無任何待處理的圖片鏈接或者翻頁鏈接,且URL數(shù)據(jù)信息完整,則寫入發(fā)送文件,當前URL數(shù)據(jù)信息采集完成。
[0029]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0030]本發(fā)明中數(shù)據(jù)來源主要依賴資訊排重系統(tǒng),資訊排重系統(tǒng)的數(shù)據(jù)經(jīng)過前面的處理,信息更準確,質(zhì)量更好,避免內(nèi)容重復(fù);從而采集過程中不需要擔心劣質(zhì)數(shù)據(jù)的混淆,減少噪音數(shù)據(jù)干擾??蛻舳说腗issing數(shù)據(jù)的優(yōu)先處理,即快速而又準確的補充了用戶關(guān)心的部分漏缺數(shù)據(jù)。同時,該方法簡單,速度快。
【附圖說明】
[0031]圖1是本發(fā)明實施例中搜悅采集方法流程圖;
[0032]圖2是本發(fā)明實施例中數(shù)據(jù)監(jiān)聽流程圖;
[0033]圖3是本發(fā)明實施例中數(shù)據(jù)采集流程圖。
【具體實施方式】
[0034]下面結(jié)合附圖對本發(fā)明作進一步詳細說明。
[0035]如圖1,本發(fā)明提供一種搜悅采集方法,所述方法包括以下步驟:
[0036]步驟1:監(jiān)聽數(shù)據(jù),并對數(shù)據(jù)進行處理,得到待處理URL數(shù)據(jù);
[0037]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
[0038]所述步驟I中,監(jiān)聽的數(shù)據(jù)來源包括以下三種:
[0039](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù);
[0040](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù);
[0041](3)重新處理已入庫的數(shù)據(jù),而發(fā)起的Refresh數(shù)據(jù)。
[0042]如圖2,所述步驟I具體包括以下步驟:
[0043]步驟1-1:監(jiān)聽數(shù)據(jù),校驗后保存數(shù)據(jù)到數(shù)據(jù)文件;
[0044]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
[0045]所述步驟1-1中,監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù),并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件,Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。