国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)的制作方法

      文檔序號:9730270閱讀:296來源:國知局
      基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)。
      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)采集和挖掘技術(shù)也在不斷發(fā)展。因此,如何準(zhǔn)確、高效、完整地從互聯(lián)網(wǎng)中獲取海量數(shù)據(jù),就成為大數(shù)據(jù)技術(shù)群中的一項(xiàng)重要技術(shù)點(diǎn)。
      [0003]為了獲取互聯(lián)網(wǎng)中的數(shù)據(jù),通常是結(jié)合爬行技術(shù),試圖下載目標(biāo)網(wǎng)站所有的網(wǎng)頁的HTML源碼,理論上這樣確實(shí)能夠保證下載內(nèi)容的完整性。然而,在具體實(shí)踐中,如果直接在客戶端使用HTTP/HTTPS協(xié)議下載目標(biāo)網(wǎng)站的HTML源碼會(huì)出現(xiàn)以下問題:部分目標(biāo)網(wǎng)站使用ajax技術(shù),并通過JavaScript將數(shù)據(jù)灌入頁面中,由于不同網(wǎng)站的ajax方式均不同,需要額外分析XHR數(shù)據(jù)流;部分目標(biāo)網(wǎng)站通過登錄身份驗(yàn)證等外圍手段對網(wǎng)站數(shù)據(jù)進(jìn)行保護(hù),因此需要對登錄過程進(jìn)行逆向分析和模擬,由于涉及加解密的JS通常經(jīng)過了代碼混淆,逆向分析的難度很大;直接對目標(biāo)網(wǎng)站進(jìn)行HTTP請求時(shí),無法控制緩存Cache,經(jīng)常會(huì)出現(xiàn)一個(gè)url重復(fù)下載的情況,造成了資源的極大浪費(fèi)。
      [0004]上述三條原因直接導(dǎo)致了目前互聯(lián)網(wǎng)數(shù)據(jù)采集性能不足,采集效率難以滿足數(shù)據(jù)的膨脹率,直接導(dǎo)致數(shù)據(jù)結(jié)果的滯后和數(shù)據(jù)內(nèi)容的缺失。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明要解決的技術(shù)問題是提供一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)。
      [0006]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
      本發(fā)明的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。
      [0007]本發(fā)明還可以采用以下技術(shù)措施:
      所述的虛瀏覽器以開源瀏覽器內(nèi)核為核心,保留網(wǎng)頁解析模塊、腳本引擎、視覺渲染模塊,去除包含界面顯示模塊、多媒體數(shù)據(jù)下載模塊和訪問記錄存儲(chǔ)模塊在內(nèi)的外圍模塊。
      [0008]所述的虛瀏覽器中包括開源Chrome內(nèi)核和PhantomJS。
      [0009]所述的負(fù)載均衡層中使用LVS服務(wù)作為負(fù)載均衡,LVS服務(wù)向外暴露出一個(gè)虛擬ip,使虛瀏覽器集群連接該虛擬ip作為HTTP代理;同時(shí),LVS將具體的HTTP請求分發(fā)給下層真實(shí)HTTP代理。
      [0010]所述的HTTP層中選用開源squid作為HTTP請求的代理服務(wù)。
      [0011 ]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
      本發(fā)明的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)中,由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層。通過使用虛瀏覽器作為下載客戶端,利用虛瀏覽器的網(wǎng)頁渲染和腳本解析引擎,可以直接獲取到JavaScript腳本在Dom上執(zhí)行、渲染后的結(jié)果。即本系統(tǒng)的使用者無需關(guān)心網(wǎng)頁上的數(shù)據(jù)生成方式,無論數(shù)據(jù)是由HTML源碼本身攜帶,還是通過ajax異步灌入,抑或是通過js實(shí)時(shí)生成,均可通過統(tǒng)一的、高效的方式進(jìn)行下載。負(fù)載均衡層中,LVS服務(wù)將下層的若干真實(shí)HTTP代理節(jié)點(diǎn)抽象出虛擬ip,當(dāng)少量代理節(jié)點(diǎn)出現(xiàn)拒絕服務(wù)時(shí),不會(huì)影響系統(tǒng)的對外服務(wù),提高了系統(tǒng)的效率,保證了系統(tǒng)的魯棒性。由于系統(tǒng)中的HTTP代理服務(wù)和虛瀏覽器處于同一子網(wǎng),能夠極大避免外部帶寬開銷和下載耗時(shí)開銷。
      【附圖說明】
      [0012]圖1是本發(fā)明的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng)的架構(gòu)示意圖。
      【具體實(shí)施方式】
      [0013]以下通過具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。
      [0014]如圖1所示,本發(fā)明的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。
      [0015]虛瀏覽器以開源瀏覽器內(nèi)核為核心,保留網(wǎng)頁解析模塊、腳本引擎、視覺渲染模塊等核心功能,去除包含界面顯示模塊、多媒體數(shù)據(jù)下載模塊和訪問記錄存儲(chǔ)模塊在內(nèi)的外圍模塊,提高虛瀏覽器的下載性能。在此基礎(chǔ)上,本系統(tǒng)將若干虛瀏覽器實(shí)例通過任務(wù)隊(duì)列機(jī)制,將其集群化,保證了系統(tǒng)的魯棒性和高效性。
      [00? 6] 虛瀏覽器中包括開源Chrome內(nèi)核和PhantomJS。其中,Chrome內(nèi)核負(fù)責(zé)進(jìn)行一般性的網(wǎng)頁下載和清染。而PhantomJS則是利用其支持用戶定制JS腳本的功能,針對Chrome內(nèi)核無法應(yīng)對的目標(biāo)網(wǎng)站(例如需登錄的網(wǎng)站),進(jìn)行個(gè)性化補(bǔ)充。
      [0017]本系統(tǒng)使用虛瀏覽器作為下載客戶端帶來的直接好處就是,利用虛瀏覽器的網(wǎng)頁清染和腳本解析引擎,可以直接獲取到JavaScript腳本在Dom上執(zhí)行、清染后的結(jié)果。也就是說,本系統(tǒng)的使用者無需關(guān)心網(wǎng)頁上的數(shù)據(jù)生成方式。無論數(shù)據(jù)是由HTML源碼本身攜帶,還是通過ajax異步灌入,抑或是通過js實(shí)時(shí)生成,均可通過統(tǒng)一的、高效的方式進(jìn)行下載。
      [0018]由于數(shù)據(jù)采集的任務(wù)量巨大,因此需要進(jìn)行負(fù)載均衡,避免HTTP代理單節(jié)點(diǎn)壓力過高。負(fù)載均衡集群起到代理中間層的作用,負(fù)載均衡層中使用LVS服務(wù)作為負(fù)載均衡,LVS服務(wù)向外暴露出一個(gè)虛擬ip,使虛瀏覽器集群連接該虛擬ip作為HTTP代理;同時(shí),LVS將具體的HTTP請求分發(fā)給下層真實(shí)HTTP代理,LVS還同時(shí)對應(yīng)有LVS備份,即LVS backup。
      [0019]負(fù)載均衡層能夠使上層虛瀏覽器在進(jìn)行HTTP請求時(shí),能夠平衡利用HTTP代理資源,避免單節(jié)點(diǎn)壓力過高導(dǎo)致的一系列問題。與此同時(shí),LVS將下層的若干真實(shí)HTTP代理節(jié)點(diǎn)抽象出虛擬ip,當(dāng)少量代理節(jié)點(diǎn)出現(xiàn)拒絕服務(wù)時(shí),不會(huì)影響系統(tǒng)的對外服務(wù),提高了系統(tǒng)的效率,保證了系統(tǒng)的魯棒性。
      [0020]HTTP層中選用開源squid作為HTTP請求的代理服務(wù)。squid具有量級輕、可移植、cache性能優(yōu)越等特點(diǎn)。因此,系統(tǒng)將若干squid服務(wù)組成HTTP代理層,下掛在負(fù)載均衡層上。
      [0021]系統(tǒng)使用HTTP代理,是為了利用其優(yōu)越的緩存機(jī)制。在大數(shù)據(jù)采集中,難免會(huì)遇到同一 url被反復(fù)下載,這時(shí),就需要利用到HTTP緩存。squid利用HTTP協(xié)議的LastModify時(shí)間戳來進(jìn)行HTTP Cache優(yōu)選和失效判斷,并通過Hash三列對緩存數(shù)據(jù)進(jìn)行存儲(chǔ)。這一Cache過程相對于上層是透明的,上層仍然會(huì)正確的獲取到完整的HTTP響應(yīng)。由于系統(tǒng)中的HTTP代理服務(wù)和虛瀏覽器處于同一子網(wǎng),能夠極大避免外部帶寬開銷和下載耗時(shí)開銷。
      [0022]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
      【主權(quán)項(xiàng)】
      1.一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),其特征在于:由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。2.根據(jù)權(quán)利要求1所述的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),其特征在于:虛瀏覽器以開源瀏覽器內(nèi)核為核心,保留網(wǎng)頁解析模塊、腳本引擎、視覺渲染模塊,去除包含界面顯示模塊、多媒體數(shù)據(jù)下載模塊和訪問記錄存儲(chǔ)模塊在內(nèi)的外圍模塊。3.根據(jù)權(quán)利要求1或2所述的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),其特征在于:虛瀏覽器中包括開源Chrome內(nèi)核和PhantomJS。4.根據(jù)權(quán)利要求3所述的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),其特征在于:負(fù)載均衡層中使用LVS服務(wù)作為負(fù)載均衡,LVS服務(wù)向外暴露出一個(gè)虛擬ip,使虛瀏覽器集群連接該虛擬ip作為HTTP代理;同時(shí),LVS將具體的HTTP請求分發(fā)給下層真實(shí)HTTP代理。5.根據(jù)權(quán)利要求3所述的基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),其特征在于:HTTP層中選用開源squid作為HTTP請求的代理服務(wù)。
      【專利摘要】一種基于虛瀏覽器下載的互聯(lián)網(wǎng)大數(shù)據(jù)采集系統(tǒng),由頂至下,包括由虛瀏覽器層、負(fù)載均衡層和HTTP代理層;其中虛瀏覽器層為系統(tǒng)的頂層,由虛瀏覽器集群構(gòu)成,發(fā)出HTTP請求;負(fù)載均衡層為系統(tǒng)的中間層,虛瀏覽器層通過負(fù)載均衡層連接HTTP代理層;HTTP代理層為系統(tǒng)的底層,依HTTP請求返回HTTP響應(yīng)。過使用虛瀏覽器作為下載客戶端,利用虛瀏覽器的網(wǎng)頁渲染和腳本解析引擎,可以直接獲取到JavaScript腳本在Dom上執(zhí)行、渲染后的結(jié)果。負(fù)載均衡層提高了系統(tǒng)的效率,保證了系統(tǒng)的魯棒性。而由于系統(tǒng)中的HTTP代理服務(wù)和虛瀏覽器處于同一子網(wǎng),能夠極大避免外部帶寬開銷和下載耗時(shí)開銷。
      【IPC分類】H04L29/08
      【公開號】CN105491131
      【申請?zhí)枴緾N201510910412
      【發(fā)明人】李天與, 楊偉鋒
      【申請人】天津海量信息技術(shù)有限公司
      【公開日】2016年4月13日
      【申請日】2015年12月10日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1