一種搜悅采集方法

文檔序號：8395936閱讀：265來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種搜悅采集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種采集方法，具體涉及一種搜悅采集方法。
【背景技術(shù)】
[0002]隨著信息技技術(shù)與網(wǎng)絡(luò)的發(fā)展，互聯(lián)網(wǎng)已經(jīng)成為人們生活密不可分的一部分。基于Internet的網(wǎng)絡(luò)系統(tǒng)擁有者巨大的信息資源。但是這些資源大都形式分散，分布廣，給用戶查看信息帶來了很大的難度。
[0003]搜索引擎則根據(jù)用戶的需求，各種各樣是搜索應(yīng)用，使得用戶可以快捷的查看的自己想要的數(shù)據(jù)?；ヂ?lián)網(wǎng)中的資源信息，就像列表以不同的格式分散在成千上萬的網(wǎng)頁中，很好的采集這些數(shù)據(jù)以備使用就尤為重要。信息采集是一個重要的領(lǐng)域，它是以系統(tǒng)代替人工實現(xiàn)對網(wǎng)頁的數(shù)據(jù)的采集、整理等處理，提高工作效率，節(jié)省勞動力。
[0004]但目前人們希望在手機端也可以隨時查看相關(guān)信息，手機端APP隨之產(chǎn)生。搜悅則在這樣的背景下產(chǎn)生的，作為移動個人門戶的入口，可以讓用戶感受到更好的新聞閱讀體驗。搜悅采集系統(tǒng)架構(gòu)完成信息的采集、整理等工作，存儲到搜悅檢索庫中，以備搜悅使用。搜悅采集系統(tǒng)的關(guān)鍵在于信息采集，缺點是網(wǎng)絡(luò)中資訊信息噪音多，來源廣泛且雜。

【發(fā)明內(nèi)容】

[0005]為了克服上述現(xiàn)有技術(shù)的不足，本發(fā)明提供一種搜悅采集方法，能夠高效、準確采集數(shù)據(jù)，數(shù)據(jù)來源準確，處理快速、結(jié)果更精準，避免了普通的采集資訊中大量噪音數(shù)據(jù)影響的不足。
[0006]為了實現(xiàn)上述發(fā)明目的，本發(fā)明采取如下技術(shù)方案:
[0007]本發(fā)明提供一種搜悅采集方法，所述方法包括以下步驟:
[0008]步驟1:監(jiān)聽數(shù)據(jù)，并對數(shù)據(jù)進行處理，得到待處理URL數(shù)據(jù)；
[0009]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
[0010]所述步驟I中，監(jiān)聽的數(shù)據(jù)來源包括以下三種:
[0011](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù)；
[0012](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù)；
[0013](3)重新處理已入庫的數(shù)據(jù)，而發(fā)起的Refresh數(shù)據(jù)。
[0014]所述步驟I具體包括以下步驟:
[0015]步驟1-1:監(jiān)聽數(shù)據(jù)，校驗后保存數(shù)據(jù)到數(shù)據(jù)文件；
[0016]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
[0017]所述步驟1-1中，監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù)，并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件，Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。
[0018]所述步驟1-2中，按照以上數(shù)據(jù)文件的處理優(yōu)先級依次取得URL數(shù)據(jù)，將URL數(shù)據(jù)由黑名單過濾，且排重后得到URL數(shù)據(jù)增量，推入待下載任務(wù)隊列；推入待下任務(wù)隊列時依然按照Missing數(shù)據(jù)、ADD數(shù)據(jù)至Refresh數(shù)據(jù)的處理優(yōu)先級，在待下載任務(wù)隊列中排序，優(yōu)先級高的數(shù)據(jù)放在隊列頭，以確保后續(xù)處理的優(yōu)先級。
[0019]所述步驟2包括以下步驟:
[0020]步驟2-1:將待下載任務(wù)隊列的URL數(shù)據(jù)推送到下載器，由下載器下載URL數(shù)據(jù)；
[0021]步驟2-2:從下載器得到下載結(jié)果，并校驗處理，區(qū)分下載結(jié)果為圖片或詳情頁；
[0022]步驟2-3:對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理，得到URL數(shù)據(jù)信息;
[0023]步驟2-4:分析URL數(shù)據(jù)信息。
[0024]所述步驟2-2中，針對圖片的下載結(jié)果，首先分析圖片信息，并處理圖片尺寸，根據(jù)實踐經(jīng)驗得到最小經(jīng)驗值，小于最小經(jīng)驗值尺寸的圖片視為垃圾圖片，則丟棄，根據(jù)需求，小于需求尺寸則無須壓縮處理，而大于需求尺寸的圖片則壓縮到需求的尺寸；然后將符合要求的圖片信息上傳圖片服務(wù)器，得到圖片ID及圖片地址，并將下載結(jié)果中原文的圖片鏈接替換成處理后的圖片地址。
[0025]所述步驟2-3中，針對詳情頁的下載結(jié)果，分析下載結(jié)果，并對下載結(jié)果進行轉(zhuǎn)碼，成功轉(zhuǎn)碼后，對其進行自動抽取，在下載結(jié)果中抽取出所需要的信息。任何一步失敗則丟棄當前詳情頁，均直接執(zhí)行步驟2-4。
[0026]所述步驟2-3中，在對圖片的下載結(jié)果和詳情頁的下載結(jié)果分別進行處理的過程中，任何一步失敗則丟棄當前圖片或當前詳情頁，均直接執(zhí)行步驟2-4。
[0027]所述步驟2-4中，首先查看URL數(shù)據(jù)信息是否有待處理的圖片鏈接；然后查看URL數(shù)據(jù)信息是否有待處理的翻頁鏈接；
[0028]如有待處理的圖片鏈接或者翻頁鏈接，則將URL數(shù)據(jù)信息推入待下載隊列繼續(xù)處理，重復(fù)以上各步驟；如無任何待處理的圖片鏈接或者翻頁鏈接，且URL數(shù)據(jù)信息完整，則寫入發(fā)送文件，當前URL數(shù)據(jù)信息采集完成。
[0029]與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果在于:
[0030]本發(fā)明中數(shù)據(jù)來源主要依賴資訊排重系統(tǒng)，資訊排重系統(tǒng)的數(shù)據(jù)經(jīng)過前面的處理，信息更準確，質(zhì)量更好，避免內(nèi)容重復(fù)；從而采集過程中不需要擔心劣質(zhì)數(shù)據(jù)的混淆，減少噪音數(shù)據(jù)干擾?？蛻舳说腗issing數(shù)據(jù)的優(yōu)先處理，即快速而又準確的補充了用戶關(guān)心的部分漏缺數(shù)據(jù)。同時，該方法簡單，速度快。
【附圖說明】
[0031]圖1是本發(fā)明實施例中搜悅采集方法流程圖；
[0032]圖2是本發(fā)明實施例中數(shù)據(jù)監(jiān)聽流程圖；
[0033]圖3是本發(fā)明實施例中數(shù)據(jù)采集流程圖。
【具體實施方式】
[0034]下面結(jié)合附圖對本發(fā)明作進一步詳細說明。
[0035]如圖1，本發(fā)明提供一種搜悅采集方法，所述方法包括以下步驟:
[0036]步驟1:監(jiān)聽數(shù)據(jù)，并對數(shù)據(jù)進行處理，得到待處理URL數(shù)據(jù)；
[0037]步驟2:對待處理URL數(shù)據(jù)進行下載、轉(zhuǎn)碼和抽取。
[0038]所述步驟I中，監(jiān)聽的數(shù)據(jù)來源包括以下三種:
[0039](I)統(tǒng)一資源定位器發(fā)送的Missing數(shù)據(jù)；
[0040](2)資訊排重系統(tǒng)發(fā)送的ADD數(shù)據(jù)；
[0041](3)重新處理已入庫的數(shù)據(jù)，而發(fā)起的Refresh數(shù)據(jù)。
[0042]如圖2，所述步驟I具體包括以下步驟:
[0043]步驟1-1:監(jiān)聽數(shù)據(jù)，校驗后保存數(shù)據(jù)到數(shù)據(jù)文件；
[0044]步驟1-2:處理監(jiān)聽得到的數(shù)據(jù)文件。
[0045]所述步驟1-1中，監(jiān)聽端口接收數(shù)據(jù)后解析并校驗得到URL數(shù)據(jù)，并將得到的URL數(shù)據(jù)根據(jù)各自的來源寫入相應(yīng)的數(shù)據(jù)文件，Missing數(shù)據(jù)、ADD數(shù)據(jù)和Refresh數(shù)據(jù)的處理優(yōu)先級從左往右依次遞減。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙金杰;
技術(shù)所有人：北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)處理方法及服務(wù)器的制造方法
上一篇：通過云服務(wù)器對碼圖有效性進行處理的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種搜悅采集方法