国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置的制作方法

      文檔序號:6442191閱讀:371來源:國知局
      專利名稱:基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源日益強大并呈快速增長的趨勢,越來越多的人喜歡從網(wǎng)絡(luò)上獲取信息。傳統(tǒng)的搜索引擎信息采集方法都是基于爬蟲 (Spider, Crawl等)程序?qū)崿F(xiàn)的,在一定的時期內(nèi)取得了一定的成績。但是隨著網(wǎng)絡(luò)服務(wù)的日益更新,特別是Web2. 0,ffeb3. 0, Twitter, Facebook,微博等新型網(wǎng)絡(luò)服務(wù)的推出,傳統(tǒng)的信息采集方法已經(jīng)不能滿足時代的需求。
      經(jīng)過對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),中國專利文獻號CN100501746C的專利,公告日期為2009年6月17日,記載了一種“網(wǎng)頁抓取方法和網(wǎng)頁抓取服務(wù)器”,該技術(shù)包括首先接收網(wǎng)頁請求;其次判斷所請求網(wǎng)頁是否抓取過;如果沒抓取過,則直接抓??;如果抓取過,則根據(jù)兩次時間間隔是否達到一定閾值來決定是否重新嘗試抓取,達到了則去抓取 ’最后,根據(jù)網(wǎng)頁是否更新,決定是否重新抓取。該發(fā)明專利技術(shù)仍然以傳統(tǒng)搜索引擎采集方法為主,主要存在以下
      1、浪費網(wǎng)絡(luò)資源
      傳統(tǒng)的信息采集方法需要重復試探或重復采集網(wǎng)絡(luò)上的信息,以判斷網(wǎng)絡(luò)上的信息是否已經(jīng)被更新。盡管現(xiàn)在也有技術(shù)能夠通過時間戳來判斷是否更新,以實現(xiàn)查新下載, 但大量的網(wǎng)絡(luò)服務(wù)根本不支持這種基于時間戳判斷的技術(shù),因此還只能采取復試探或重復采集網(wǎng)絡(luò)上的信息,造成了網(wǎng)絡(luò)資源的浪費。
      2、實效性差
      在面對數(shù)量龐大的網(wǎng)絡(luò)信息時,傳統(tǒng)采集技術(shù)只能采用輪詢的方法訪問某個特定采集點,因此,經(jīng)常需要至少1周以上的時間間隔才能輪詢到某些網(wǎng)站的最新信息,因此時效性較差。
      3、采集信息不全面
      由于動態(tài)網(wǎng)頁、用戶登錄等訪問權(quán)限限制,傳統(tǒng)的信息采集技術(shù)很難解決信息采集的全面性,因此大量的網(wǎng)絡(luò)信息無法被采集到。
      4、動態(tài)數(shù)據(jù)無法采集
      對于論壇、微博、Twitter等新型網(wǎng)絡(luò)服務(wù),它們的回復數(shù)、瀏覽數(shù)等數(shù)據(jù)可能瞬息變化,因此通過傳統(tǒng)的網(wǎng)絡(luò)采集方法根本不可能采集到這些信息變化過程。發(fā)明內(nèi)容
      為解決現(xiàn)有技術(shù)網(wǎng)絡(luò)信息采集不及時以及采集不全面的問題,本發(fā)明實施例提供了一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置。
      一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法,包括
      數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;
      所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方;
      所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進行存儲;
      其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
      一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集裝置,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方, 其中
      所述數(shù)據(jù)被采集方,用于和所述數(shù)據(jù)采集方協(xié)商數(shù)據(jù)采集協(xié)議,并按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方;
      所述數(shù)據(jù)采集方,用于和所述數(shù)據(jù)被采集方協(xié)商所述數(shù)據(jù)采集協(xié)議,并接收所述數(shù)據(jù)被采集方推送的特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進行存儲;
      其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
      本發(fā)明實施例所提供的基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置中,數(shù)據(jù)被采集方可以主動將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議推送給數(shù)據(jù)采集方,實現(xiàn)一個基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法可以實現(xiàn)在采集網(wǎng)絡(luò)信息時不浪費帶寬資源, 并且信息采集比較全面,及時,同時也能采集到特殊數(shù)據(jù)。
      應(yīng)用本發(fā)明實施例所提供網(wǎng)絡(luò)信息的采集方法裝置,數(shù)據(jù)被采集方可以主動將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議推送給數(shù)據(jù)采集方,實現(xiàn)一個基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法和裝置可以保證網(wǎng)絡(luò)信息采集的及時性和全面性,同時也能采集到特殊數(shù)據(jù)。


      圖1是本發(fā)明實施例網(wǎng)絡(luò)信息的采集方法的第一流程示意圖2是本發(fā)明實施例網(wǎng)絡(luò)信息的采集方法的第二流程示意圖3是本發(fā)明實施例網(wǎng)絡(luò)信息的采集方法中數(shù)據(jù)交互示意圖4是本發(fā)明實施例網(wǎng)絡(luò)信息的采集裝置的結(jié)構(gòu)圖。
      具體實施方式
      下面結(jié)合附圖對本發(fā)明實施例所提供的方法和裝置進行詳細的描述。
      實施例一
      本發(fā)明實施例提供了一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法,參照附圖1,包括
      S10,數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議,其中
      所述的數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,如系統(tǒng)的信息匯聚中心等;數(shù)據(jù)采集方被動地接收被采集方按協(xié)商的協(xié)議提交的數(shù)據(jù)信息,并存儲到相應(yīng)的存儲介質(zhì)中,如信息存儲器等設(shè)備中。
      所述的數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,主要包括門戶網(wǎng)站、論壇、博客、社交網(wǎng)絡(luò)、微博、交友網(wǎng)站等各類提供互聯(lián)網(wǎng)信息發(fā)布服務(wù)的實體,數(shù)據(jù)被采集方按照協(xié)商的數(shù)據(jù)采集協(xié)議,主動推送并更新到數(shù)據(jù)采集方。
      所述的數(shù)據(jù)采集協(xié)議,即數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則, 其中數(shù)據(jù)被采集方按這些規(guī)則把數(shù)據(jù)以結(jié)構(gòu)化的形式提交到數(shù)據(jù)采集方。其中,數(shù)據(jù)采集協(xié)議的具體規(guī)則包括采集方標示、推送頻率、采集頻道、主帖數(shù)據(jù)(例如,信息標示、標題、 主體內(nèi)容、發(fā)布者、發(fā)布時間、回復數(shù)、瀏覽數(shù)等)、評論數(shù)據(jù)(例如,評論內(nèi)容、評論者、樓層關(guān)系、評論時間、評論屬性)、同步時序等。
      S20,數(shù)據(jù)被采集方把數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到數(shù)據(jù)采集方,
      具體的,數(shù)據(jù)被采集方通過同步引擎,將所述特定數(shù)據(jù)主動推送到數(shù)據(jù)采集方。
      所述的同步引擎,其功能是能夠獲得數(shù)據(jù)被采集端的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,把這些數(shù)據(jù)信息主動推送到數(shù)據(jù)采集方,具體的,該同步引擎可以是一個硬件或者軟件或者二者的結(jié)合。
      所述的特定數(shù)據(jù),具體指在兩次采集間隔內(nèi),數(shù)據(jù)被采集方上更新過的數(shù)據(jù),如最新發(fā)布的數(shù)據(jù)、帖子瀏覽數(shù)、帖子回復數(shù)等規(guī)定的數(shù)據(jù)信息。
      需要說明的是在本發(fā)明實施例以及后續(xù)的實施例中,主動推送是指在滿足數(shù)據(jù)采集協(xié)議所設(shè)定的規(guī)則時,數(shù)據(jù)被采集方主動將特定數(shù)據(jù)發(fā)送給數(shù)據(jù)采集方。
      S30,數(shù)據(jù)采集方接收數(shù)據(jù)被采集方發(fā)送的特定數(shù)據(jù),并將所述特定數(shù)據(jù)進行存儲,包括
      數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎推送的數(shù)據(jù),并且通過存儲引擎把采集到的數(shù)據(jù)進行存儲;其中
      數(shù)據(jù)采集方可以將接收到的數(shù)據(jù)存儲在大容量存儲介質(zhì)中。
      所述的信息匯集服務(wù),其功能是并行地接收同步引擎主動推送的數(shù)據(jù)。在外圍設(shè)備配合下,可以實現(xiàn)負載均衡、容量擴展等,可以是一個硬件或軟件或二者的結(jié)合。
      所述的存儲引擎,其功能是把采集的數(shù)據(jù)按類別結(jié)構(gòu)化地存儲在采集方的大容量存儲介質(zhì)上??梢允且粋€裝置或軟件或二者的結(jié)合。
      所述的大容量存儲介質(zhì),具體為,能夠大量存儲數(shù)據(jù)信息的存儲設(shè)備。
      本發(fā)明實施例所提供的基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法中,數(shù)據(jù)被采集方可以主動將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議發(fā)送給數(shù)據(jù)采集方,實現(xiàn)一個基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法可以實現(xiàn)在采集網(wǎng)絡(luò)信息時不浪費帶寬資源,并且信息采集比較全面,及時,同時也能采集到特殊數(shù)據(jù)。
      實施例二
      本發(fā)明實施例提供了一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法,其中被采集方以典型的論壇為例,具體實施例包括以下步驟
      101、數(shù)據(jù)被采集方和數(shù)據(jù)采集方制定數(shù)據(jù)采集協(xié)議,如圖2所示,其中,數(shù)據(jù)被采集方為論壇,數(shù)據(jù)匯集中心即為數(shù)據(jù)采集方。在本發(fā)明實施例中,針對典型論壇的信息發(fā)布特征,論壇和數(shù)據(jù)匯集中心協(xié)商形成具體數(shù)據(jù)采集協(xié)議為
      論壇的標示、論壇主動推送數(shù)據(jù)的頻率、采集論壇的板塊、論壇的主帖數(shù)據(jù)(例如,主帖的標示、主帖標題、主帖的內(nèi)容、主帖的發(fā)布者、發(fā)布時間、回復數(shù)、瀏覽數(shù)等)、針對該主帖的評論或回復數(shù)據(jù)(例如,對該帖子的評論內(nèi)容、評論者、樓層關(guān)系、評論時間、評論屬性等)、同步的時間戳等協(xié)商指定其他的數(shù)據(jù)采集協(xié)議。
      103,通過同步引擎把論壇的特定數(shù)據(jù)主動推送到數(shù)據(jù)采集方,參見附圖3,該過程具體包括
      (1)論壇主動查詢數(shù)據(jù)
      論壇提交論壇標示(論壇統(tǒng)一資源定位符(URL)地址)到信息匯集服務(wù),主動查詢配置數(shù)據(jù)。具體的配置數(shù)據(jù)包括推送頻率、采集板塊列表,具體為,
      REQ(Request,請求)(URL)
      ACK(回應(yīng))(5M;國際觀察,休閑娛樂,…,股票市場)
      (2)新創(chuàng)建主帖的提交
      論壇每5分鐘檢查采集板塊中有沒有出現(xiàn)新的主帖,如果出現(xiàn)新的主帖,則把新主帖的相關(guān)信息主動推送到采集方。推送的主帖數(shù)據(jù)包括主帖的標示、主帖標題、主帖的內(nèi)容、主帖的發(fā)布者、發(fā)布時間、同步時間戳等,具體為,
      REQ(Request,請求)(主帖URL ;祝祖國生日快樂;國慶節(jié)馬上到了,預祝祖國繁榮昌盛…;samOOl ;20110929 ;20110929080500)
      ACK (回應(yīng))OK
      (3)評論或回復帖子的提交
      主帖的內(nèi)容基本不會變化,但時刻都有可能產(chǎn)生對主帖的新評論和回復數(shù)據(jù)。對于一個熱門主帖,針對其評論或回復時刻都會發(fā)生。被采集方也會每5分鐘查看是否有新的回復數(shù)據(jù)出現(xiàn)或者新的瀏覽行為出現(xiàn),如果有則按主帖標示歸類,并推送到采集方。推送的數(shù)據(jù)包括主帖標示、回復數(shù)、瀏覽數(shù)、評論記錄(評論內(nèi)容、評論者、評論時間、樓層、回復樓層、評論屬性)、同步時間戳等。
      REQ(Request,請求)(主帖 URL ; 1024 ;3231 ;(同祝、user01、x、0、20110929、+l ; 路過、user02、x+l、0、20110929、0) ;20110929080500)
      ACK (回應(yīng))OK
      105、數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎推送的數(shù)據(jù),以結(jié)構(gòu)化的形式存儲在大容量存儲介質(zhì)。
      針對本實施例,采集方會把論壇推送過來的數(shù)據(jù)進行結(jié)構(gòu)化存儲,為后期的挖掘、 檢索、分析等提供數(shù)據(jù)支持。針對論壇,需要存儲3個數(shù)據(jù)表主帖、回復(評論)、動態(tài)數(shù)據(jù)等。
      其中主貼存儲如表1所示,回復(含評論)存儲如表2所示,動態(tài)數(shù)據(jù)存儲如表3 所示,
      權(quán)利要求
      1.一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法方法,其特征在于,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
      2.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方,包括通過同步引擎,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方,其中所述同步引擎能夠獲得數(shù)據(jù)被采集方的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,將所述特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方。
      3.如權(quán)利要求2所述的方法,其特征在于,所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且所述特定數(shù)據(jù)進行存儲,包括數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎發(fā)送的所述特定數(shù)據(jù),并且通過存儲引擎將所述特定數(shù)據(jù)進行存儲,其中,所述信息匯集服務(wù)接收所述同步引擎發(fā)送所述的特定數(shù)據(jù), 所述存儲引擎將所述特定數(shù)據(jù)按類別結(jié)構(gòu)化地進行存儲。
      4.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方,包括所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議,將所述數(shù)據(jù)被采集方的特定數(shù)據(jù)以結(jié)構(gòu)化的形式主動推送到所述數(shù)據(jù)采集方。
      5.如權(quán)利要求1至4任一所述的方法,其特征在于,所述數(shù)據(jù)采集協(xié)議的具體規(guī)則包括數(shù)據(jù)采集方標示、推送頻率、采集頻道、主帖數(shù)據(jù)、評論數(shù)據(jù)、同步時序中的至少一個。
      6.一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集裝置裝置,其特征在于,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方,其中所述數(shù)據(jù)被采集方,用于和所述數(shù)據(jù)采集方協(xié)商數(shù)據(jù)采集協(xié)議,并按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方,用于和所述數(shù)據(jù)被采集方協(xié)商所述數(shù)據(jù)采集協(xié)議,并接收所述數(shù)據(jù)被采集方發(fā)送的特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
      7.如權(quán)利要求6所述的裝置,其特征在于,還包括同步引擎,用于獲得數(shù)據(jù)被采集方的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,將所述特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方。
      8.如權(quán)利要求7所述的裝置,其特征在于,還包括信息匯集服務(wù)和存儲引擎,其中所述信息匯集服務(wù),用于接收所述同步引擎發(fā)送的所述特定數(shù)據(jù),并且通過所述存儲引擎將所述特定數(shù)據(jù)進行存儲;所述存儲引擎,用于將接收到的特定數(shù)據(jù)按類別結(jié)構(gòu)化地進行存儲。
      9.如權(quán)利要求7所述的裝置,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議,將所述數(shù)據(jù)被采集方的特定數(shù)據(jù)以結(jié)構(gòu)化的形式主動推送到所述數(shù)據(jù)采集方。
      10.如權(quán)利要求6至9任一所述的裝置,其特征在于,所述數(shù)據(jù)采集協(xié)議的具體規(guī)則包括數(shù)據(jù)采集方標示、推送頻率、采集頻道、主帖數(shù)據(jù)、評論數(shù)據(jù)、同步時序中的至少一個。
      全文摘要
      本發(fā)明實施例提供了一種基于主動推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置,其中該方法包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。本發(fā)明實施例所提供的方法和裝置可以實現(xiàn)網(wǎng)絡(luò)信息采集的及時性和全面性,能為搜索引擎、網(wǎng)絡(luò)信息分析應(yīng)用提供新型的采集技術(shù)。
      文檔編號G06F17/30GK102521379SQ20111042875
      公開日2012年6月27日 申請日期2011年12月19日 優(yōu)先權(quán)日2011年12月19日
      發(fā)明者劉功申, 李建華, 李生紅, 王士林, 胡佩華, 許陽 申請人:上海交通大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1