国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息的分布式采集方法及系統(tǒng)的制作方法

      文檔序號:6610193閱讀:197來源:國知局
      專利名稱:信息的分布式采集方法及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及空間信息處理技術(shù),特別是涉及空間信息的分布式采集方法及 系統(tǒng)。
      背景技術(shù)
      作為空間信息中使用最頻繁應(yīng)用最廣泛的信息,興趣點信息的采集與更新 技術(shù)是影響地理信息系統(tǒng)應(yīng)用的重要問題。所述興趣點信息是指與空間位置有 關(guān)的人們感興趣的或者對人們有用的信息,例如餐館、商場、住宅區(qū)等。采集 興趣點信息的目的是用于地圖制作過程,并最終體現(xiàn)在網(wǎng)絡(luò)地圖服務(wù)、導(dǎo)航服 務(wù)等空間信息服務(wù)中。地圖制作者將利用所述興趣點信息編繪地圖,終端用戶 可以通過網(wǎng)絡(luò)地圖服務(wù)、車載導(dǎo)航系統(tǒng)或基于位置的服務(wù)來使用這些興趣點信 息。因此,興趣點信息是那些終端用戶在使用地圖時所感興趣的信息,它們是 網(wǎng)絡(luò)電子地圖或?qū)Ш降貓D的重要組成部分,是一類專業(yè)性很強的信息。
      目前主要采用的信息采集方法是分區(qū)分片人工實地調(diào)查,然后再輸入數(shù)據(jù) 處理系統(tǒng)進行匯總分析,最終得到符合應(yīng)用需求的興趣點信息。這種信息采集 方式由于前期的人工采集周期太長、采集速度太慢,導(dǎo)致信息最終發(fā)布時面臨 部分信息失效的危險,從而無法保證信息的有效性。而且,還會影響信息更新 的速度。并且,所述方式耗時耗力,成本較高。

      發(fā)明內(nèi)容
      本發(fā)明所要解決的技術(shù)問題是提供信息的分布式采集方法及系統(tǒng),以解決 太長的采集周期無法保證信息釆集的及時性和有效性的問題,提高信息采集和 更新的速度,降低采集成本。
      為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下
      技術(shù)方案
      一種信息采集方法,包括 通過配置采集參數(shù),編制采集任務(wù); 根據(jù)所述采集參數(shù),將任務(wù)分解為多個任務(wù)包; 服務(wù)端調(diào)度分布式客戶端,將采集參數(shù)和任務(wù)包分發(fā)給請求的客戶端; 客戶端執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁并采集需要的信息。
      其中,按照以下步驟配置采集參數(shù)分析網(wǎng)站結(jié)構(gòu)規(guī)律,使用預(yù)定義的模 式語言配置釆集網(wǎng)站的URL;分析網(wǎng)頁結(jié)構(gòu)規(guī)律,使用采集模板配置頁面采集 信息;配置任務(wù)分解參數(shù)。
      優(yōu)選的,還包括對編制的采集任務(wù)執(zhí)行有效性測試,測試通過后再分解 為任務(wù)包分發(fā)。
      其中,服務(wù)端按照以下步驟調(diào)度客戶端偵聽客戶端發(fā)起的配置請求,選 擇一個任務(wù),將任務(wù)的采集參數(shù)發(fā)送給請求的客戶端;偵聽客戶端的任務(wù)請求, 將請求任務(wù)的一個任務(wù)包發(fā)送給客戶端;接收并保存客戶端回傳的采集結(jié)果;
      接收客戶端發(fā)起的更新請求,更新相應(yīng)的任務(wù)包狀態(tài)。
      其中,客戶端按照以下步驟執(zhí)行采集任務(wù)解析任務(wù)采集參數(shù),并根據(jù)網(wǎng) 站的URL獲取需要采集的網(wǎng)頁;根據(jù)所述模板信息從頁面中采集得到原始結(jié) 果;對所述原始結(jié)果進行加工處理,將最終的采集結(jié)果回傳給服務(wù)器。
      一種信息采集系統(tǒng),包括
      任務(wù)編制子系統(tǒng),用于通過配置采集參數(shù),編制采集任務(wù);并根據(jù)所述采 集參數(shù),將任務(wù)分解為多個任務(wù)包;
      執(zhí)行服務(wù)端,用于將采集參數(shù)和任務(wù)包分發(fā)給請求的執(zhí)行客戶端,調(diào)度分 布式執(zhí)行客戶端完成信息釆集;
      執(zhí)行客戶端,用于執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁并采集需要的信

      其中,所述任務(wù)編制子系統(tǒng)包括網(wǎng)站分析單元,用于分析網(wǎng)站結(jié)構(gòu)規(guī)律, 使用預(yù)定義的模式語言來配置釆集網(wǎng)站的URL;網(wǎng)頁分析單元,用于分析網(wǎng)頁 結(jié)構(gòu)規(guī)律,使用采集模板配置頁面采集信息;任務(wù)分發(fā)單元,用于配置任務(wù)分 解參數(shù),將任務(wù)分解為多個任務(wù)包發(fā)送到執(zhí)行服務(wù)器。
      優(yōu)選的,所述任務(wù)編制子系統(tǒng)還包括任務(wù)測試單元,用于對編制的釆集 任務(wù)執(zhí)行有效性測試,測試通過后再觸發(fā)所述任務(wù)分發(fā)單元。
      其中,所述執(zhí)行服務(wù)端包括配置發(fā)布單元,用于偵聽執(zhí)行客戶端發(fā)起的 配置請求,選擇一個任務(wù),將任務(wù)的采集參數(shù)發(fā)送給請求的執(zhí)行客戶端;任務(wù) 發(fā)布單元,用于偵聽執(zhí)行客戶端的任務(wù)請求,將請求任務(wù)的一個任務(wù)包發(fā)送給 執(zhí)行客戶端;回傳單元,用于接收并保存執(zhí)行客戶端回傳的采集結(jié)果;更新單
      元,用于接收執(zhí)行客戶端的更新請求,更新相應(yīng)的任務(wù)包狀態(tài)。
      優(yōu)選的,所述任務(wù)編制子系統(tǒng)與執(zhí)行服務(wù)端之間通過內(nèi)部網(wǎng)絡(luò)連接,執(zhí)行
      服務(wù)端與各執(zhí)行客戶端之間通過外部網(wǎng)絡(luò)連接;并且執(zhí)行服務(wù)端與執(zhí)行客戶端
      之間采用自定義協(xié)議進行通信。
      根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果 首先,本發(fā)明實施例提供了一種任務(wù)編制工具,協(xié)助用戶根據(jù)需要配置任 務(wù)采集參數(shù),然后將編制好的釆集任務(wù)分解成任務(wù)包配置到服務(wù)端;服務(wù)端負
      責(zé)在多任務(wù)環(huán)境下調(diào)度分布式客戶端執(zhí)行采集任務(wù),客戶端根據(jù)所述采集參數(shù) 執(zhí)行任務(wù)包,從網(wǎng)頁采集興趣點信息,并將釆集結(jié)果返回服務(wù)端保存。所述方 法利用了網(wǎng)絡(luò)上分布的空間信息量,將信息抽取技術(shù)和分布式技術(shù)結(jié)合起來, 提供一種高效穩(wěn)定的信息采集方案和任務(wù)調(diào)度方案,可以充分利用網(wǎng)絡(luò)資源和 計算資源,有效地提高信息采集的效率和數(shù)據(jù)更新的速度,從而保證采集信息 的有效性。
      其次,采用分布式技術(shù)部署采集系統(tǒng),將單臺計算機處理的工作交由多臺 計算機組成的客戶機-服務(wù)器(CS)系統(tǒng)來完成,可大大提高信息采集的速度。 通過合理設(shè)計,可實現(xiàn)興趣點信息的定期采集和及時更新,加快數(shù)據(jù)采集和更 新的速度,降低釆集成本。
      再次,在多任務(wù)調(diào)度過程中,為協(xié)調(diào)各任務(wù)的執(zhí)行,系統(tǒng)采用客戶端主動 發(fā)送請求、服務(wù)端偵聽客戶端的策略進行任務(wù)調(diào)度,提高服務(wù)相應(yīng)速度;而且, 為平衡服務(wù)端和客戶端的壓力,通過參數(shù)設(shè)置(任務(wù)分解參數(shù))控制任務(wù)分發(fā), 從而平衡任務(wù)執(zhí)行速度。
      再次,為保證服務(wù)端的穩(wěn)定不間斷運行,制定了服務(wù)端和客戶端之間的通 信協(xié)議,該協(xié)議基于TCP、 FTP、 IP等標準網(wǎng)絡(luò)協(xié)議,能夠提高整個信息采集 過程的效率。
      最后,在任務(wù)編制工具中自主開發(fā)設(shè)計采集模板,提供給用戶編制釆集任 務(wù),從而高效完成信息采集任務(wù)。


      圖1是本發(fā)明所述信息的分布式采集系統(tǒng)實施例的結(jié)構(gòu)圖; 圖2是圖1所示實施例中采集任務(wù)編制工具10的結(jié)構(gòu)示意圖3a和圖3b分別是圖1所示實施例中網(wǎng)站分析界面的示意圖; 圖4a和圖4b分別是圖1所示實施例中網(wǎng)頁分析界面的示意圖; 圖5a是本發(fā)明實施例中同一個網(wǎng)頁中包含多個興趣點信息的頁面示意
      圖5b是對應(yīng)圖5a的網(wǎng)頁源文件片斷示意圖; 圖6是圖1所示實施例中任務(wù)分發(fā)界面的示意圖; 圖7是圖1所示實施例中采集任務(wù)執(zhí)行服務(wù)端20的結(jié)構(gòu)示意圖; 圖8a是本發(fā)明所述信息的分布式采集方法實施例的流程圖; 圖8b是圖8a所示實施例中服務(wù)端與客戶端之間的工作流程圖。
      具體實施例方式
      為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
      對本發(fā)明作進一步詳細的說明。
      隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式增長,網(wǎng)絡(luò)中分布的空 間信息量非??捎^,本發(fā)明在進行興趣點信息釆集時就充分利用了這一資源, 提出一種通過網(wǎng)絡(luò)采集興趣點信息的方案。
      由于網(wǎng)絡(luò)中存在的興趣點信息通常具有半結(jié)構(gòu)化的特征,即具有一定結(jié)構(gòu) 但語義不夠確定,典型的如HTML網(wǎng)頁,有些字段是確定的,有些字)殳則不確定, 所以可以利用信息抽取技術(shù)采集這些信息。信息抽取的基本過程為分析興趣 點網(wǎng)頁結(jié)構(gòu),根據(jù)網(wǎng)頁結(jié)構(gòu)建立信息采集模板,然后進行樣本訓(xùn)練,直到驗證 采集模板有效后正式進行信息釆集。
      此外,采用分布式技術(shù)部署采集系統(tǒng),將單臺計算機處理的工作交由多臺 計算機組成的客戶機-服務(wù)器(CS)系統(tǒng)來完成,可大大提高興趣點信息采集的 速度。通過合理設(shè)計,可實現(xiàn)興趣點信息的定期釆集和及時更新,加快數(shù)據(jù)釆 集和更新的速度,降低釆集成本。
      當然,本發(fā)明并不限于興趣點信息的采集,雖然主要針對空間信息這一類 專業(yè)領(lǐng)域較強的信息采集,但也可用于其他應(yīng)用中。下面將以興趣點信息的采 集為例進4于全文說明。
      本發(fā)明提供了 一種信息的分布式采集系統(tǒng)實施例,為實現(xiàn)興趣點信息采 集,首先需要設(shè)置一個采集任務(wù)編制工具,該工具具^f言息抽取的功能,并為
      用戶提供一個易用界面進行任務(wù)編制。同時,還需要設(shè)計一個分布式采集方案,
      部署相應(yīng)的服務(wù)端系統(tǒng)和客戶端系統(tǒng);服務(wù)端系統(tǒng)對編制工具分發(fā)過來的任務(wù)
      進行集中調(diào)度,客戶端系統(tǒng)則與服務(wù)端交互完成采集任務(wù)。其中,分布式采集 方案的設(shè)計將直接影響信息釆集的速度和系統(tǒng)的穩(wěn)定性。
      參照圖1,是所述信息的分布式采集系統(tǒng)實施例的結(jié)構(gòu)圖,所述系統(tǒng)主要
      包括采集任務(wù)編制工具10 、釆集任務(wù)執(zhí)行服務(wù)端2 0和采集任務(wù)執(zhí)行客戶端30。 其中,采集任務(wù)編制工具IO提供一個圖形用戶界面,協(xié)助用戶編制出高效的 采集任務(wù),并將編制好的采集任務(wù)配置到服務(wù)端20;服務(wù)端20負責(zé)對所述采 集任務(wù)進行調(diào)度,直到所有任務(wù)執(zhí)行完畢;客戶端30是一組分布式的計算機, 從月良務(wù)端20獲得分發(fā)的任務(wù)包,根據(jù)任務(wù)包訪問網(wǎng)絡(luò)采集興趣點信息,并把 采集到的結(jié)果上傳到服務(wù)端20。
      所述采集系統(tǒng)的工作過程是釆集任務(wù)編制工具IO提供的圖形用戶界面, 提供了 一種網(wǎng)站結(jié)構(gòu)和頁面結(jié)構(gòu)的分析方式,用戶通過一些簡單的操作即可完 成任務(wù)的編制,編制的任務(wù)經(jīng)測試有效后按預(yù)定的方式發(fā)布到采集任務(wù)執(zhí)行服 務(wù)端20;發(fā)布到采集任務(wù)執(zhí)行服務(wù)端20的每個任務(wù)由任務(wù)的配置信息和對整 個任務(wù)進行分解后的任務(wù)包組成,采集任務(wù)執(zhí)行服務(wù)端20負責(zé)調(diào)度多個采集 任務(wù),偵聽從外部發(fā)起的請求,多個采集任務(wù)執(zhí)行客戶端30主動向采集任務(wù) 執(zhí)行服務(wù)端20發(fā)送請求,對于每一個請求采集任務(wù)執(zhí)行服務(wù)端20從未執(zhí)行的 任務(wù)包列表中選擇一個分發(fā)出去;釆集任務(wù)執(zhí)行客戶端30獲得任務(wù)包后根據(jù) 配置信息開始執(zhí)行采集任務(wù),并對采集結(jié)果進行分析過濾及結(jié)構(gòu)化處理后提交 到采集任務(wù)執(zhí)行服務(wù)端20;采集任務(wù)執(zhí)行客戶端30在執(zhí)行完任務(wù)后繼續(xù)向采 集任務(wù)執(zhí)行服務(wù)端20發(fā)送請求,直到所有任務(wù)都執(zhí)行完畢。下面分別詳細說 明。
      采集任務(wù)編制工具10主要用于對需要釆集的任務(wù)進行參數(shù)設(shè)置,并根據(jù) 參數(shù)設(shè)置將任務(wù)分解為多個任務(wù)包發(fā)送到服務(wù)端20。本實施例中,興趣點信 息的采集是基于網(wǎng)頁結(jié)構(gòu)分析的,用戶需要從網(wǎng)頁源文件分析得到需要采集信 息的一些描述信息,這樣系統(tǒng)才能正確地進行信息采集。采集任務(wù)編制工具 IO包括四個處理單元,參照圖2所示,分別是網(wǎng)站分析單元101、網(wǎng)頁分析單 元102、任務(wù)測試單元103和任務(wù)分發(fā)單元104。其中,用戶操作的主界面由 網(wǎng)站分析單元101和網(wǎng)頁分析單元102提供,該主界面是一個存在兩種屬性頁
      面的對話框,兩種屬性頁面分別進行網(wǎng)站分析和網(wǎng)頁分析,用戶按照頁面提示 信息進行簡單設(shè)置即可完成任務(wù)編制工作。
      網(wǎng)站分析單元101用于分析信息釆集網(wǎng)站的結(jié)構(gòu),并使用預(yù)定義的模式語 言記錄網(wǎng)站結(jié)構(gòu)規(guī)律。由于同一個網(wǎng)站的URL結(jié)構(gòu)具有相同或相似的變化規(guī) 律,網(wǎng)站分析單元101利用這種規(guī)律生成一個設(shè)置模板,供用戶設(shè)置需要采集 的網(wǎng)站地址參數(shù),采集任務(wù)時就是從這些網(wǎng)站URL獲取網(wǎng)頁內(nèi)容。網(wǎng)站分析單 元101提供的核心界面如圖3a所示,提供了采集網(wǎng)站的URL模板,用戶在模 板中輸入的信息表示了一組規(guī)律性的URL集合,其顯示結(jié)果參見圖3b,該URL 集合是針對同一個網(wǎng)站的多個網(wǎng)頁URL,在任務(wù)執(zhí)行時所述URL集合將按照用 戶給定的參數(shù)被分解為多個任務(wù)包。所述界面上允許用戶使用系統(tǒng)預(yù)定義的符 號表示特殊的語義,以增強系統(tǒng)的功能,如URL模板輸入框中可以使用符號[**: 表示URL中變化的部分。
      網(wǎng)頁分析單元102用于分析采集網(wǎng)頁的結(jié)構(gòu),并根據(jù)網(wǎng)頁結(jié)構(gòu)生成一個采 集模板,該模板提供了分析網(wǎng)頁時用到的參數(shù)設(shè)置,根據(jù)這些參數(shù)設(shè)置可以從 通過上述URL獲取的網(wǎng)頁內(nèi)容中抽取出用戶所需的興趣點信息。釆集模板的核 心界面可參照圖4a,是一個采集字段列表,圖4b是每個字段的詳細信息,供 用戶輸入設(shè)置,用戶需要根據(jù)具體網(wǎng)頁源文件的內(nèi)容進行設(shè)定。所述采集模板 采用四元組〈字^殳,前標識符,后標識符,過濾串〉的形式表示興趣點信息的基 本信息單元,如餐館的名稱、地址等。其中,字,史表示信息單元的名稱,前后 標識符用于標識該信息單元在網(wǎng)頁中出現(xiàn)的位置,過濾字串是對信息單元進行 二次處理,如進行過濾、替換、添加等才乘作。如前所述,為增強系統(tǒng)功能,該 界面也允許用戶使用系統(tǒng)預(yù)定義的符號表示特殊的語義,如前后標識符和過濾 字串可以使用(*)表示任意多個字符,等等。
      上述圖3a和圖4b是供用戶輸入設(shè)置參數(shù)的操作界面,而圖3b和圖4a是 供用戶瀏覽設(shè)置參數(shù)的顯示界面。而且,所述URL模板和采集模板可以根據(jù)網(wǎng) 站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)的變化作相應(yīng)修改,但目的都是為了從網(wǎng)頁源文件中采集興 趣點信息。
      優(yōu)選的,對于同一個頁面存在多個興趣點信息的情況,網(wǎng)頁分析單元102
      提供了設(shè)定循環(huán)標識的界面。例如,有些任務(wù)存在一個頁面有多個興趣點的情
      況,如圖5a所示,頁面上列出了多家餐廳的店名、地址和電話信息,所述網(wǎng) 頁對應(yīng)的源文件片段如圖5b。分析所述源文件片斷,發(fā)現(xiàn)每個興趣點信息都 是以字符串"〈trXtd nowrap〉"開頭,因此將所述字符串:&為循環(huán)標識,系 統(tǒng)即可將該頁面所有的興趣點信息采集下來。
      任務(wù)測試單元103是優(yōu)選設(shè)置單元,用于驗證編制任務(wù)的有效性。為保證 采集系統(tǒng)的運行效率和采集結(jié)果的有效性,網(wǎng)站分析單元101和網(wǎng)頁分析單元 102分別提供的網(wǎng)站結(jié)構(gòu)規(guī)律(如URL模板)和采集模板需要經(jīng)過樣本訓(xùn)練, 驗證有效后再進行正式的信息采集。任務(wù)測試單元103通過抽取部分編制任務(wù) 作為樣本進行測試運行,檢測網(wǎng)站結(jié)構(gòu)規(guī)律和采集模板的有效性,從而檢測網(wǎng) 站分析單元101和網(wǎng)頁分析單元102的參數(shù)設(shè)置情況。
      任務(wù)分發(fā)單元104用于將編制成功的采集任務(wù)配置到服務(wù)端20,對任務(wù) 的分發(fā)分兩步完成,首先從網(wǎng)站分析單元101和網(wǎng)頁分析單元102提取任務(wù)的 釆集參數(shù),包括網(wǎng)站結(jié)構(gòu)規(guī)律和采集模板設(shè)置,然后根據(jù)用戶設(shè)置的分解參數(shù) 將任務(wù)分解為多個任務(wù)包。任務(wù)分發(fā)單元104提供了操作界面供用戶進行任務(wù) 分發(fā),參照圖6所示,用戶需要設(shè)置的參數(shù)主要在右下方,進行任務(wù)分解的參 數(shù)為"發(fā)包上限值"。例如,圖中所示用戶輸入的發(fā)包上限值為3,由于任務(wù) 的URL總數(shù)為25 (該值由系統(tǒng)通過網(wǎng)站分析的結(jié)果自動計算得到),因而分解 后總的任務(wù)包數(shù)為9個(25=3 x 8+1 )。任務(wù)分發(fā)單元104將包含采集參數(shù)的任 務(wù)配置信息和分解的任務(wù)包配置到服務(wù)端20。
      在采集任務(wù)編制工具10中,網(wǎng)站分析單元101、網(wǎng)頁分析單元102和任 務(wù)測試單元103的作用是協(xié)助編制出有效的任務(wù)供分發(fā),任務(wù)分發(fā)單元104 是任務(wù)編制工具10與服務(wù)端20的接口 ,根據(jù)用戶設(shè)置的參數(shù)對任務(wù)進行分解, 供服務(wù)端2Q調(diào)度。
      采集任務(wù)執(zhí)行服務(wù)端20負責(zé)采集任務(wù)的調(diào)度,通過調(diào)度多個采集任務(wù)執(zhí) 行客戶端30來執(zhí)行任務(wù)包。參照圖7,是所述服務(wù)端20的結(jié)構(gòu)示意圖。為緩 解服務(wù)端壓力,服務(wù)端20配置了四個服務(wù),包括配置發(fā)布單元201、任務(wù)發(fā) 布單元202、回傳單元203和更新單元204。其中,所述配置發(fā)布單元201負 責(zé)多任務(wù)的配置信息發(fā)布,任務(wù)發(fā)布單元202負責(zé)多任務(wù)的任務(wù)包發(fā)布,回傳
      單元203負責(zé)保存客戶端30返回的采集結(jié)果,更新單元204負責(zé)多任務(wù)的任 務(wù)包狀態(tài)更新。服務(wù)端20還設(shè)置任務(wù)列表來管理采集任務(wù)編制工具10編制的 采集任務(wù),列表記錄了被分解任務(wù)包的相關(guān)信息。
      服務(wù)端20的四個服務(wù)單元并行工作配置發(fā)布單元201偵聽客戶端30發(fā) 起的配置請求,從任務(wù)列表中獲取一個任務(wù),將任務(wù)的配置信息發(fā)送給客戶端 30;任務(wù)發(fā)布單元202偵聽客戶端30發(fā)起的任務(wù)請求,根據(jù)客戶端請求的任 務(wù)將該任務(wù)中尚未執(zhí)行的一個(或幾個)任務(wù)包發(fā)送給客戶端;回傳單元203 接收客戶端30上傳的任務(wù)包執(zhí)行結(jié)果,并保存到數(shù)據(jù)庫;更新單元204接收 服務(wù)端30發(fā)起的更新請求,更新任務(wù)列表中指定任務(wù)的相應(yīng)任務(wù)包狀態(tài)。
      服務(wù)端20不斷地從任務(wù)列表中獲取多個任務(wù),并對正在調(diào)度的任務(wù)進行 標記;對于調(diào)度中的每一個任務(wù),讀取相應(yīng)的任務(wù)包供客戶端30執(zhí)行。
      客戶端30負責(zé)根據(jù)任務(wù)包訪問網(wǎng)絡(luò),采集興趣點信息。每個客戶端30的 工作過程是第一,客戶端30啟動后首先向服務(wù)端20發(fā)送配置請求,解析服 務(wù)端20返回的任務(wù)配置信息,包括任務(wù)名稱、FTP設(shè)置(供結(jié)果上傳)、釆集 網(wǎng)站信息(對應(yīng)編制任務(wù)的網(wǎng)站分析結(jié)果)、模板的采集參數(shù)信息(對應(yīng)編制 任務(wù)的網(wǎng)頁分析結(jié)果)等;第二,客戶端30繼續(xù)向服務(wù)端20發(fā)送任務(wù)請求, 再根據(jù)服務(wù)端20返回的任務(wù)包信息分析得到需要執(zhí)行的URL列表,根據(jù)所述 列表直接訪問相關(guān)網(wǎng)址獲取需要采集的網(wǎng)頁內(nèi)容;第三,客戶端30根據(jù)任務(wù) 配置信息中模板的采集參數(shù)進行數(shù)據(jù)匹S己,通過參數(shù)信息中前后標識符可定位 得到原始結(jié)果;第四,客戶端30再根據(jù)采集參數(shù)中的過濾字串對原始結(jié)果進 行數(shù)據(jù)加工,生成結(jié)構(gòu)化的結(jié)果;第五,客戶端30將最終結(jié)果上傳到服務(wù)端 20。
      上述信息采集系統(tǒng)通過采集互聯(lián)網(wǎng)上的興趣點信息并加工處理,得到適用 于各種空間信息服務(wù)的結(jié)果數(shù)據(jù),與傳統(tǒng)采集方式相比,大大提高了信息采集 速度。而且,在多任務(wù)調(diào)度過程中,為協(xié)調(diào)各任務(wù)的執(zhí)行,系統(tǒng)采用客戶端主 動發(fā)送請求、服務(wù)端偵聽客戶端的策略進行任務(wù)調(diào)度,提高服務(wù)相應(yīng)速度。
      優(yōu)選的,系統(tǒng)為平衡服務(wù)端和客戶端的壓力,通過參數(shù)設(shè)置(任務(wù)分解參 數(shù))控制任務(wù)分發(fā),從而平衡任務(wù)執(zhí)行速度。在任務(wù)分發(fā)時用戶需要輸入?yún)?shù) "發(fā)包上限值",用于限制任務(wù)包的粒度,這個值越大,客戶端一次獲得的任
      務(wù)量將越大,相應(yīng)的與服務(wù)端的交互將越少。同時需要輸入?yún)?shù)"內(nèi)存分配數(shù)", 表示一次載入服務(wù)中的最大任務(wù)包數(shù)量,這個值越小,服務(wù)端需要使用的內(nèi)存 越少,相應(yīng)的與數(shù)據(jù)庫的交互將越頻繁。在實際使用時,需要根據(jù)任務(wù)量大小 進行合理設(shè)置。
      優(yōu)選的,為保證系統(tǒng)安全,采集任務(wù)編制工具通過內(nèi)部網(wǎng)絡(luò)與采集任務(wù)執(zhí) 行服務(wù)端連接,采集任務(wù)執(zhí)行客戶端通過外部網(wǎng)絡(luò)與采集任務(wù)執(zhí)行服務(wù)端連 接。而且,采集系統(tǒng)為保證服務(wù)端的穩(wěn)定不間斷運行,制定了服務(wù)端和客戶端
      之間的通信協(xié)議,該協(xié)議基于TCP、 FTP、 IP等標準網(wǎng)絡(luò)協(xié)議,特指服務(wù)端和 客戶端之間進行通信而制定的協(xié)議。比如在客戶端與服務(wù)端的配置服務(wù)進行交 互時,客戶端發(fā)送的請求格式如下
      http: 〃127. 0. 0. l/PServ/servlet/PServ/dispatch taskname=bj-ct 表示請求任務(wù)名為bj-ct的任務(wù)包,服務(wù)端接收到請求后,如果有任務(wù)包 可以分發(fā),將返回客戶端以下4各式的內(nèi)容Type=l&Pattern=*, *, * ;而如果 沒有該任務(wù)名的任務(wù)包則返回以下格式的內(nèi)容Type=3,等等。
      需要說明的是,上述采集系統(tǒng)實施例是本發(fā)明的優(yōu)選方案,應(yīng)用于多任務(wù) 環(huán)境下進行高效處理?;诒景l(fā)明思想,還可以有其他的系統(tǒng)架構(gòu)方式,例如, 采用單機運行執(zhí)行采集任務(wù),此時只需要一個采集任務(wù)編制工具,利用編制工 具提供的任務(wù)測試單元進行興趣點采集。該方案將任務(wù)編制和執(zhí)行統(tǒng)一在一 起,不存在任務(wù)執(zhí)行服務(wù)端和任務(wù)執(zhí)行客戶端,在執(zhí)行效率上將低于上述實施 例方案。
      而且,采集任務(wù)編制工具的實現(xiàn)也可有其他方式,例如,針對各類網(wǎng)站結(jié) 構(gòu)的特點,抽取共性最大的部分制成自動化采集模板。這類自動化模板與本發(fā) 明實施例提供的采集模板區(qū)別在于,實施例所述模板每次需針對不同網(wǎng)站結(jié)構(gòu) 調(diào)整沖莫々反設(shè)置,而自動化沖莫板可以針對類似的網(wǎng)站結(jié)構(gòu),通過自動化的學(xué)習(xí)訓(xùn) 練來采集不同網(wǎng)站的信息。這種模^1只能對一小部分結(jié)構(gòu)類似的網(wǎng)站進行信息 釆集,由于采集范圍小導(dǎo)致采集效果不理想,但本發(fā)明實施例提供的模板可以 針對用戶選定的具有規(guī)律性結(jié)構(gòu)的任意網(wǎng)站進行采集,達到符合要求的采集效 果。
      其次,本發(fā)明不限定分布式處理系統(tǒng)中服務(wù)端與客戶端之間的交互方式,本發(fā)明實施例采用的是客戶端主動發(fā)起請求、服務(wù)端偵聽到請求再分配任務(wù)的 方式,客戶端啟動后可以參與執(zhí)行,也可以不向服務(wù)端發(fā)送請求,所以本發(fā)明 不排除服務(wù)端主動控制客戶端向客戶端下發(fā)任務(wù)的執(zhí)行方式,或者其他的分布 式調(diào)度方式。
      基于上述采集系統(tǒng),本發(fā)明還提供了一種興趣點信息的分布式采集方法,
      參照圖8a,是所述采集方法優(yōu)選實施例的流程圖。
      步驟810,分析網(wǎng)站結(jié)構(gòu),利用任務(wù)編制工具設(shè)置采集網(wǎng)站。首先,可通 過各種方式(如搜索引擎、報紙、雜志等途徑)確定需要從哪些網(wǎng)站采集興趣 點信息;然后,針對每一個網(wǎng)站的結(jié)構(gòu)規(guī)律,在URL模板中輸入網(wǎng)址參數(shù),單 獨設(shè)置一個任務(wù)來采集信息。
      步驟811,分析網(wǎng)頁結(jié)構(gòu),利用任務(wù)編制工具設(shè)置采集模板。如前所述, 針對模板的四元組形式分別輸入設(shè)置參數(shù)。
      步驟812,根據(jù)任務(wù)量大小,利用任務(wù)編制工具設(shè)置任務(wù)分解參數(shù),即上 述的"發(fā)包上限值"。
      步驟813,用戶設(shè)定好以上采集參數(shù)后, 一個任務(wù)就編制完成,任務(wù)編制 工具通過抽取任務(wù)樣本測試運行,驗證用戶編制的任務(wù)是否有效。
      以上步驟是整個信息采集過程的預(yù)處理部分,任務(wù)編制是一個反復(fù)迭代的 過程,直到采集結(jié)果符合要求為止。
      步驟814,任務(wù)編制有效后,任務(wù)編制工具提取采集參數(shù)(包括網(wǎng)站分析 結(jié)果和網(wǎng)頁分析結(jié)果),然后根據(jù)用戶設(shè)置的任務(wù)分解參數(shù)將任務(wù)分解為相應(yīng) 數(shù)量的任務(wù)包,將任務(wù)配置到服務(wù)端,服務(wù)端更新任務(wù)列表。其中,每個任務(wù) 包括任務(wù)的配置信息和對整個任務(wù)進行分解后的任務(wù)包,配置信息包括任務(wù)名 稱、FTP設(shè)置(供結(jié)果上傳)、采集網(wǎng)站信息(對應(yīng)編制任務(wù)的網(wǎng)站分析結(jié)果)、 模板的采集參數(shù)信息(對應(yīng)編制任務(wù)的網(wǎng)頁分析結(jié)果)等信息。
      步驟815,服務(wù)端對用戶編制的采集任務(wù)進行調(diào)度,并調(diào)度多個客戶端執(zhí) 行任務(wù)包,直到所有任務(wù)執(zhí)行完畢。服務(wù)端與客戶端之間的交互包括任務(wù)調(diào)度 和信息采集兩部分,在多任務(wù)多客戶端應(yīng)用環(huán)境下,服務(wù)端對任務(wù)的分配、管 理和維護方法是通過任務(wù)調(diào)度策略來完成,而客戶端負責(zé)根據(jù)服務(wù)端的調(diào)度進 行信息釆集。
      服務(wù)端與客戶端之間的工作流程如圖8b所示,服務(wù)端提供了配置服務(wù)、
      分發(fā)服務(wù)、回傳服務(wù)和更新服務(wù)來緩解服務(wù)端壓力,工作流程如下 步驟820,客戶端啟動,向服務(wù)端發(fā)送配置請求;
      步驟821,服務(wù)端偵聽客戶端發(fā)起的配置請求,當配置服務(wù)收到請求后讀 取任務(wù)列表,將一個任務(wù)的配置信息發(fā)送給客戶端,并標記任務(wù)的執(zhí)行狀態(tài);
      步驟822,客戶端解析配置信息,根據(jù)配置信息初始化各項參數(shù),然后繼 續(xù)向服務(wù)端發(fā)送任務(wù)請求;
      步驟823,服務(wù)端繼續(xù)偵聽客戶端發(fā)起的任務(wù)請求,當分發(fā)服務(wù)收到請求 后,將請求任務(wù)的一個尚未執(zhí)行的任務(wù)包發(fā)送給客戶端,并標記任務(wù)的執(zhí)行狀 態(tài);
      步驟824,客戶端收到任務(wù)包后,開始按照預(yù)定的程序訪問網(wǎng)絡(luò)執(zhí)行采集 任務(wù),采集完后將結(jié)果上傳到服務(wù)端,服務(wù)端上的回傳服務(wù)接收結(jié)果并保存;
      步驟825,客戶端在成功上傳采集結(jié)果后向服務(wù)端發(fā)送任務(wù)更新請求,服 務(wù)端上的更新服務(wù)收到請求后更新相應(yīng)的任務(wù)包狀態(tài)??蛻舳死^續(xù)順序執(zhí)行請 求配置、請求任務(wù)包、上傳結(jié)果、更新任務(wù)包,直到服務(wù)端所有任務(wù)都執(zhí)行完 畢。
      所述信息采集方法將信息抽取技術(shù)和分布式技術(shù)結(jié)合起來,提供一種高效 穩(wěn)定的信息采集方案和任務(wù)調(diào)度方案,可以充分利用網(wǎng)絡(luò)資源和計算資源,有 效地提高信息采集的效率和數(shù)據(jù)更新的速度,從而保證釆集信息的有效性。
      上述方法實施例中未詳述的部分可以參見系統(tǒng)實施例的相關(guān)部分,為了篇 幅考慮,在此不再詳述。
      以上對本發(fā)明所提供的信息的分布式釆集方法及系統(tǒng),進行了詳細介紹,
      說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般 技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
      及應(yīng)用范圍上均會有改變之處。 綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
      權(quán)利要求
      1.一種信息采集方法,其特征在于,包括通過配置采集參數(shù),編制采集任務(wù);根據(jù)所述采集參數(shù),將任務(wù)分解為多個任務(wù)包;服務(wù)端調(diào)度分布式客戶端,將采集參數(shù)和任務(wù)包分發(fā)給請求的客戶端;客戶端執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁并采集需要的信息。
      2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照以下步驟配置采集參數(shù)分析網(wǎng)站結(jié)構(gòu)規(guī)律,使用預(yù)定義的模式語言配置采集網(wǎng)站的URL; 分析網(wǎng)頁結(jié)構(gòu)規(guī)律,使用采集4莫板配置頁面采集信息; 配置任務(wù)分解參數(shù)。
      3、 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,還包括對編制的采 集任務(wù)執(zhí)行有效性測試,測試通過后再分解為任務(wù)包分發(fā)。
      4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,服務(wù)端按照以下步驟調(diào)度 客戶端偵聽客戶端發(fā)起的配置請求,選擇一個任務(wù),將任務(wù)的采集參數(shù)發(fā)送給請 求的客戶端;偵聽客戶端的任務(wù)請求,將請求任務(wù)的一個任務(wù)包發(fā)送給客戶端;接收并保存客戶端回傳的采集結(jié)果; 接收客戶端發(fā)起的更新請求,更新相應(yīng)的任務(wù)包狀態(tài)。
      5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,客戶端按照以下步驟執(zhí)行采集任務(wù)解析任務(wù)采集參數(shù),并根據(jù)網(wǎng)站的URL獲取需要采集的網(wǎng)頁; 根據(jù)所述模板信息從頁面中采集得到原始結(jié)果; 對所述原始結(jié)果進行加工處理,將最終的采集結(jié)果回傳纟會y5良務(wù)器。
      6、 一種信息采集系統(tǒng),其特征在于,包括任務(wù)編制子系統(tǒng),用于通過配置采集參數(shù),編制采集任務(wù);并根據(jù)所述采 集參數(shù),將任務(wù)分解為多個任務(wù)包;執(zhí)行服務(wù)端,用于將采集參數(shù)和任務(wù)包分發(fā)給請求的執(zhí)行客戶端,調(diào)度分布式執(zhí)行客戶端完成信息采集;執(zhí)行客戶端,用于執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁并采集需要的信自
      7、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述任務(wù)編制子系統(tǒng)包括 網(wǎng)站分析單元,用于分析網(wǎng)站結(jié)構(gòu)規(guī)律,使用預(yù)定義的模式語言來配置采集網(wǎng)站的URL;網(wǎng)頁分析單元,用于分析網(wǎng)頁結(jié)構(gòu)規(guī)律,使用采集模板配置頁面釆集信息; 任務(wù)分發(fā)單元,用于配置任務(wù)分解參數(shù),將任務(wù)分解為多個任務(wù)包發(fā)送到 執(zhí)行服務(wù)器。
      8、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述任務(wù)編制子系統(tǒng)還包 括任務(wù)測試單元,用于對編制的采集任務(wù)執(zhí)行有效性測試,測試通過后再觸 發(fā)所述任務(wù)分發(fā)單元。
      9、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述執(zhí)行服務(wù)端包括 配置發(fā)布單元,用于偵聽執(zhí)行客戶端發(fā)起的配置請求,選擇一個任務(wù),將任務(wù)的采集參數(shù)發(fā)送給請求的執(zhí)行客戶端;任務(wù)發(fā)布單元,用于偵聽執(zhí)行客戶端的任務(wù)請求,將請求任務(wù)的一個任務(wù)包發(fā)送給執(zhí)行客戶端;回傳單元,用于接收并保存執(zhí)行客戶端回傳的采集結(jié)果;更新單元,用于接收執(zhí)行客戶端的更新請求,更新相應(yīng)的任務(wù)包狀態(tài)。
      10、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于所述任務(wù)編制子系統(tǒng)與執(zhí) 行服務(wù)端之間通過內(nèi)部網(wǎng)絡(luò)連接,執(zhí)行服務(wù)端與各執(zhí)行客戶端之間通過外部網(wǎng) 絡(luò)連接;并且執(zhí)行服務(wù)端與執(zhí)行客戶端之間采用自定義協(xié)議進行通信。
      全文摘要
      本發(fā)明公開了一種信息的分布式采集方法及系統(tǒng),解決太長的采集周期無法保證信息采集的及時性和有效性的問題,提高信息采集和更新的速度,降低采集成本。所述方法包括通過配置采集參數(shù),編制采集任務(wù);根據(jù)所述采集參數(shù),將任務(wù)分解為多個任務(wù)包;服務(wù)端調(diào)度分布式客戶端,將采集參數(shù)和任務(wù)包分發(fā)給請求的客戶端;客戶端執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁并采集需要的信息。所述方法利用了網(wǎng)絡(luò)上分布的空間信息量,將信息抽取技術(shù)和分布式技術(shù)結(jié)合起來,提供一種高效穩(wěn)定的信息采集方案和任務(wù)調(diào)度方案,可以充分利用網(wǎng)絡(luò)資源和計算資源,有效地提高信息采集的效率和數(shù)據(jù)更新的速度,從而保證采集信息的有效性。
      文檔編號G06F17/40GK101370024SQ20071012032
      公開日2009年2月18日 申請日期2007年8月15日 優(yōu)先權(quán)日2007年8月15日
      發(fā)明者吳運超, 孫亞夫, 張高峰 申請人:北京靈圖軟件技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1