国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種搜悅采集方法

      文檔序號:8395936閱讀:265來源:國知局
      一種搜悅采集方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種采集方法,具體涉及一種搜悅采集方法。
      【背景技術(shù)】
      [0002]隨著信息技技術(shù)與網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活密不可分的一部分。基于Internet的網(wǎng)絡(luò)系統(tǒng)擁有者巨大的信息資源。但是這些資源大都形式分散,分布廣,給用戶查看信息帶來了很大的難度。
      [0003]搜索引擎則根據(jù)用戶的需求,各種各樣是搜索應(yīng)用,使得用戶可以快捷的查看的自己想要的數(shù)據(jù)?;ヂ?lián)網(wǎng)中的資源信息,就像列表以不同的格式分散在成千上萬的網(wǎng)頁中,很好的采集這些數(shù)據(jù)以備使用就尤為重要。信息采集是一個重要的領(lǐng)域,它是以系統(tǒng)代替人工實現(xiàn)對網(wǎng)頁的數(shù)據(jù)的采集、整理等處理,提高工作效率,節(jié)省勞動力。
      [0004]但目前人們希望在手機端也可以隨時查看相關(guān)信息,手機端APP隨之產(chǎn)生。搜悅則在這樣的背景下產(chǎn)生的,作為移動個人門戶的入口,可以讓用戶感受到更好的新聞閱讀體驗。搜悅采集系統(tǒng)架構(gòu)完成信息的采集、整理等工作,存儲到搜悅檢索庫中,以備搜悅使用。搜悅采集系統(tǒng)的關(guān)鍵在于信息采集,缺點是網(wǎng)絡(luò)中資訊信息噪音多,來源廣泛且雜。

      【發(fā)明內(nèi)容】

      [0005]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種搜悅采集方法,能夠高效、準確采集數(shù)據(jù),數(shù)據(jù)來源準確,處理快速、結(jié)果更精準,避免了普通的采集資訊中大量噪音數(shù)據(jù)影響的不足。
      [0006]為了實現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
      [0007]本發(fā)明提供一種搜悅采集方法,所述方法包括以下步驟:
      [0008]步驟1:監(jiān)聽數(shù)據(jù),并對數(shù)據(jù)進行處理,得到待處理URL數(shù)據(jù);
      [0009]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
      [0010]所述步驟I中,監(jiān)聽的數(shù)據(jù)來源包括以下三種:
      [0011](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù);
      [0012](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù);
      [0013](3)重新處理已入庫的數(shù)據(jù),而發(fā)起的Refresh數(shù)據(jù)。
      [0014]所述步驟I具體包括以下步驟:
      [0015]步驟1-1:監(jiān)聽數(shù)據(jù),校驗后保存數(shù)據(jù)到數(shù)據(jù)文件;
      [0016]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
      [0017]所述步驟1-1中,監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù),并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件,Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。
      [0018]所述步驟1-2中,按照以上數(shù)據(jù)文件的處理優(yōu)先級依次取得URL數(shù)據(jù),將URL數(shù)據(jù)由黑名單過濾,且排重后得到URL數(shù)據(jù)增量,推入待下載任務(wù)隊列;推入待下任務(wù)隊列時依然按照Missing數(shù)據(jù)、ADD數(shù)據(jù)至Refresh數(shù)據(jù)的處理優(yōu)先級,在待下載任務(wù)隊列中排序,優(yōu)先級高的數(shù)據(jù)放在隊列頭,以確保后續(xù)處理的優(yōu)先級。
      [0019]所述步驟2包括以下步驟:
      [0020]步驟2-1:將待下載任務(wù)隊列的URL數(shù)據(jù)推送到下載器,由下載器下載URL數(shù)據(jù);
      [0021]步驟2-2:從下載器得到下載結(jié)果,并校驗處理,區(qū)分下載結(jié)果為圖片或詳情頁;
      [0022]步驟2-3:對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理,得到URL數(shù)據(jù)信息;
      [0023]步驟2-4:分析URL數(shù)據(jù)信息。
      [0024]所述步驟2-2中,針對圖片的下載結(jié)果,首先分析圖片信息,并處理圖片尺寸,根據(jù)實踐經(jīng)驗得到最小經(jīng)驗值,小于最小經(jīng)驗值尺寸的圖片視為垃圾圖片,則丟棄,根據(jù)需求,小于需求尺寸則無須壓縮處理,而大于需求尺寸的圖片則壓縮到需求的尺寸;然后將符合要求的圖片信息上傳圖片服務(wù)器,得到圖片ID及圖片地址,并將下載結(jié)果中原文的圖片鏈接替換成處理后的圖片地址。
      [0025]所述步驟2-3中,針對詳情頁的下載結(jié)果,分析下載結(jié)果,并對下載結(jié)果進行轉(zhuǎn)碼,成功轉(zhuǎn)碼后,對其進行自動抽取,在下載結(jié)果中抽取出所需要的信息。任何一步失敗則丟棄當前詳情頁,均直接執(zhí)行步驟2-4。
      [0026]所述步驟2-3中,在對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理的過程中,任何一步失敗則丟棄當前圖片或當前詳情頁,均直接執(zhí)行步驟2-4。
      [0027]所述步驟2-4中,首先查看URL數(shù)據(jù)信息是否有待處理的圖片鏈接;然后查看URL數(shù)據(jù)信息是否有待處理的翻頁鏈接;
      [0028]如有待處理的圖片鏈接或者翻頁鏈接,則將URL數(shù)據(jù)信息推入待下載隊列繼續(xù)處理,重復(fù)以上各步驟;如無任何待處理的圖片鏈接或者翻頁鏈接,且URL數(shù)據(jù)信息完整,則寫入發(fā)送文件,當前URL數(shù)據(jù)信息采集完成。
      [0029]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
      [0030]本發(fā)明中數(shù)據(jù)來源主要依賴資訊排重系統(tǒng),資訊排重系統(tǒng)的數(shù)據(jù)經(jīng)過前面的處理,信息更準確,質(zhì)量更好,避免內(nèi)容重復(fù);從而采集過程中不需要擔心劣質(zhì)數(shù)據(jù)的混淆,減少噪音數(shù)據(jù)干擾??蛻舳说腗issing數(shù)據(jù)的優(yōu)先處理,即快速而又準確的補充了用戶關(guān)心的部分漏缺數(shù)據(jù)。同時,該方法簡單,速度快。
      【附圖說明】
      [0031]圖1是本發(fā)明實施例中搜悅采集方法流程圖;
      [0032]圖2是本發(fā)明實施例中數(shù)據(jù)監(jiān)聽流程圖;
      [0033]圖3是本發(fā)明實施例中數(shù)據(jù)采集流程圖。
      【具體實施方式】
      [0034]下面結(jié)合附圖對本發(fā)明作進一步詳細說明。
      [0035]如圖1,本發(fā)明提供一種搜悅采集方法,所述方法包括以下步驟:
      [0036]步驟1:監(jiān)聽數(shù)據(jù),并對數(shù)據(jù)進行處理,得到待處理URL數(shù)據(jù);
      [0037]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
      [0038]所述步驟I中,監(jiān)聽的數(shù)據(jù)來源包括以下三種:
      [0039](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù);
      [0040](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù);
      [0041](3)重新處理已入庫的數(shù)據(jù),而發(fā)起的Refresh數(shù)據(jù)。
      [0042]如圖2,所述步驟I具體包括以下步驟:
      [0043]步驟1-1:監(jiān)聽數(shù)據(jù),校驗后保存數(shù)據(jù)到數(shù)據(jù)文件;
      [0044]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
      [0045]所述步驟1-1中,監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù),并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件,Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1