信息抓取方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明實施例設及信息技術領域,尤其設及一種信息抓取方法及裝置。
【背景技術】
[0002] 信息抓取是一個將非結構化的信息從網站中抓取出來保存到結構化的數(shù)據庫中 的過程。信息抓取是企業(yè)信息化的根基和第一步,只有利用先進的技術作好了信息抓取工 作,才能為信息化帶來最大的價值。
[0003] 信息抓取主要應用在W下幾個方面:關鍵信息抓取:獲取各種因特網上各種各樣 的專業(yè)信息數(shù)據庫;競爭情報系統(tǒng):通過關鍵字監(jiān)視網絡媒體上自己與競爭對手的市場信 息;企業(yè)內容管理:批量精確地獲取外部內容,并自動化處理;數(shù)據庫營銷:抽取留言本,論 壇,新聞組上面目標潛在用戶的留言信息與聯(lián)系信息;企業(yè)整合口戶:在EIP中嵌入外部網 站的實時內容;比較系統(tǒng):商品價格比較系統(tǒng);網絡信息集成:從多個同類網站中抽取信息 并集成在一起,如個人簡歷,招聘信息,租賃信息,商品信息,公司名錄;個性化信息代理:將 個人或企業(yè)感興趣的多個網站最新內容整合在一起,通過Email的形式或者網頁形式提供 給用戶,節(jié)約用戶的逐個網站下載并瀏覽的時間等等。由此可見信息抓取非一般的價值且 高精度的信息抓取價值更高。
[0004] 然而,現(xiàn)有的信息抓取系統(tǒng)均需投入大量的硬件資源,否則無法保證抓取信息的 實時性。與此同時,對于不同抓取目標站點,現(xiàn)有技術信息抓取難W均保持文本高度準確。
[0005] 因此,一種新的信息抓取方法亟待提出。
【發(fā)明內容】
[0006] 本發(fā)明實施例提供一種信息抓取方法及裝置,用W解決現(xiàn)有技術中信息抓取非實 時、資源消耗大的缺陷。
[0007] 本發(fā)明實施例提供一種信息抓取方法,包括:
[000引統(tǒng)計信息網站列表,并將所述信息網站對應的列表頁保存在第一數(shù)據庫中的列表 頁數(shù)據庫,其中,所述列表頁中保存有所述信息網站與對應的詳情頁鏈接地址的對照關系;
[0009] 從所述第一數(shù)據庫中讀取所述列表頁的內容,抓取符合預設抓取策略的所述詳情 頁鏈接地址并將所述抓取后的所述詳情頁鏈接地址保存在所述第一數(shù)據庫中的詳情頁數(shù) 據庫;
[0010] 將所述詳情頁鏈接地址分配到不同的抓取機器上進行抓取,并將抓取得到的網頁 詳情數(shù)據保存在第二數(shù)據庫中;
[0011] 根據所述第一數(shù)據庫中的數(shù)據庫狀態(tài)碼從所述第二數(shù)據庫中抓取出相應的所述 網頁詳情數(shù)據,并抽取目標字段,保存為目標格式。
[0012] 進一步地,統(tǒng)計信息網站列表,并將將所述信息網站對應的列表頁保存在第一數(shù) 據庫中,包括:
[0013] 訪問互聯(lián)網進行數(shù)據下載,當判定下載成功之后,抽取目標信息網站的詳情頁鏈 接地址,并w所述目標信息網站和對應的所述詳情頁鏈接地址更新所述詳情頁數(shù)據庫,其 中,所述數(shù)據為目標信息網站及對應的所述詳情頁鏈接地址。
[0014] 進一步地,所述詳情頁鏈接地址保存在所述第一數(shù)據庫中,包括;
[0015] 每保存一個新的所述詳情頁鏈接地址,則計算所述列表頁中出現(xiàn)的最新詳情頁比 例,從而動態(tài)規(guī)劃抓取間隔,更新所述第一數(shù)據庫中的下次抓取時間字段。
[0016] 進一步地,從所述第一數(shù)據庫中讀取所述列表頁的內容,包括:
[0017] 讀取所述第一數(shù)據庫,查詢下次抓取時間字段,若判定下次抓取時間小于當前時 間,則通過查詢所述第一數(shù)據庫中的所述抓取狀態(tài)碼獲取所述列表頁中待抓取的所述詳情 頁鏈接地址,并修改所述數(shù)據庫狀態(tài)碼為正在抓取。
[0018] 進一步地,將所述詳情頁鏈接地址分配到不同的抓取機器上進行抓取,并將抓取 得到的網頁詳情數(shù)據保存在第二數(shù)據庫中,包括:
[0019] 將所述詳情頁鏈接地址分配到不同的所述抓取機器后,通過修改所述第一數(shù)據庫 中的所述數(shù)據庫狀態(tài)碼來監(jiān)控相應詳情頁的抓取狀態(tài),并將抓取到的網頁詳情數(shù)據保存到 所述第二數(shù)據庫。
[0020] 進一步地,所述第一數(shù)據庫為關系型數(shù)據庫,包括:MySQL、0racle、DB2、Microsoft SQL Server、Mic;rosoft Access ;所述第二數(shù)據庫為非關系型數(shù)據庫,包括:Cassandra、 皿日36、1?1日1<:、¥〇1(161]1〇1'1:、化日(316抓8。
[0021] 進一步地,將所述詳情頁鏈接地址分配到不同的抓取機器上進行抓取,包括:
[0022] 所述抓取機器根據預設的格式下載目標信息,并將所述目標信息數(shù)據保存到本地 磁盤用W備份數(shù)據。
[0023] 進一步地,根據所述第一數(shù)據庫中的數(shù)據庫狀態(tài)碼從所述第二數(shù)據庫中抓取出相 應的所述網頁詳情數(shù)據,并抽取目標字段,保存為目標格式,包括:
[0024] 根據預設頻率將所述目標信息數(shù)據從所述本地磁盤中讀取至所述第二數(shù)據庫,抽 取所述目標字段并結構化所述目標字段;
[0025] 將所述結構化的所述目標字段保存在抽取列表中,通過關聯(lián)列表頁標簽,生成目 標格式并導入到目標系統(tǒng)中。
[0026] 本發(fā)明實施例提供一種信息抓取裝置,包括:
[0027] 統(tǒng)計模塊,用于統(tǒng)計信息網站列表,并將所述信息網站對應的列表頁保存在第一 數(shù)據庫中的列表頁數(shù)據庫,其中,所述列表頁中保存有所述信息網站與對應的U化地址的對 照關系;
[0028] 采集模塊,用于從所述第一數(shù)據庫中讀取所述列表頁的內容,抓取出符合預設抓 取策略的所述詳情頁鏈接地址并將所述抓取后的所述詳情頁鏈接地址保存在所述第一數(shù) 據庫中;
[0029] 調度模塊,用于將所述詳情頁鏈接地址分配到不同的抓取子模塊上進行抓取,并 將抓取得到的網頁詳情數(shù)據保存在第二數(shù)據庫中的詳情頁數(shù)據庫;
[0030] 解析模塊,用于根據所述第一數(shù)據庫中的數(shù)據庫狀態(tài)碼從所述第二數(shù)據庫中抓取 出相應的所述網頁詳情數(shù)據,并抽取目標字段,保存為目標格式。
[0031] 進一步地,所述統(tǒng)計模塊用于,訪問互聯(lián)網進行數(shù)據下載,當判定下載成功之后, 抽取目標信息網站的詳情頁鏈接地址,并W所述目標信息網站和對應的所述詳情頁鏈接地 址更新所述詳情頁數(shù)據,其中,所述數(shù)據為目標信息網站及對應的所述詳情頁鏈接地址。
[0032] 進一步地,所述統(tǒng)計模塊用于,每保存一個新的所述詳情頁鏈接地址,則計算所述 列表頁中出現(xiàn)的最新詳情頁比例,從而動態(tài)規(guī)劃抓取間隔,更新所述第一數(shù)據庫中的下次 抓取時間字段。
[0033] 進一步地,所述采集模塊用于,讀取所述第一數(shù)據庫,查詢下次抓取時間字段,若 判定下次抓取時間小于當前時間,則通過查詢所述第一數(shù)據庫中的所述抓取狀態(tài)碼獲取所 述列表頁中待抓取的所述詳情頁鏈接地址,并修改所述數(shù)據庫狀態(tài)碼為正在抓取。
[0034] 進一步地,所述調度模塊用于,將所述詳情頁鏈接地址分配到不同的所述抓取機 器,并通過修改所述第一數(shù)據庫中的所述數(shù)據庫狀態(tài)碼來監(jiān)控相應詳情頁的抓取狀態(tài),并 獎抓取到的所述網頁詳情數(shù)據保存到所述第二數(shù)據庫。
[0035] 進一步地,所述第一數(shù)據庫為關系型數(shù)據庫,包括:MySQL、0racle、DB2、Microsoft SQL Server、Mic;rosoft Access ;所述第二數(shù)據庫為非關系型數(shù)據庫,包括:Cassandra、 皿日36、1?1日1<:、¥〇1(161]1〇1'1:、化日(316抓8。
[0036] 進一步地,所述抓取子模塊用于,接收所述調度模塊分配的所述詳情頁鏈接地址, 并根據預設的格式下載目標信息,并將所述目標信息數(shù)據保存到本地磁盤用W備份數(shù)據。
[0037] 進一步地,所述解析模塊用于,根據預設頻率將所述目標信息數(shù)據從所述本地磁 盤中讀取至所述第二數(shù)據庫,抽取所述目標字段并結構化所述目標字段;將所述結構化的 所述目標字段保存在抽取列表中,通過關聯(lián)列表頁標簽,生成目標格式并導入到