一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法

文檔序號(hào)：6540322閱讀：252來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法
【專利摘要】本發(fā)明提供一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法，集成多個(gè)搜索引擎，對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集，然后對(duì)采集信息進(jìn)行有效的組織，及時(shí)發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括：生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊。能及時(shí)發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源。
【專利說明】一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法
[0001]【技術(shù)領(lǐng)域】
本發(fā)明是一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法，通常適于用企業(yè)或者政府單位在網(wǎng)絡(luò)上搜索相關(guān)的新聞信息，通過對(duì)數(shù)據(jù)的分析得到?jīng)Q策性的結(jié)果。
【背景技術(shù)】
[0002]現(xiàn)在的網(wǎng)絡(luò)信息采集系統(tǒng)大多采用直接對(duì)網(wǎng)站進(jìn)行采集的方式，實(shí)現(xiàn)不僅復(fù)雜，而且由于網(wǎng)站模塊的不同，ulr的頻繁變化，需要不斷的對(duì)采集的采集網(wǎng)站的url進(jìn)行監(jiān)控維護(hù)；而且采集的范圍也有限，對(duì)采集系統(tǒng)的負(fù)載要求也較高，降低了采集效率。
[0003]元搜索引擎就是對(duì)多個(gè)搜索引擎的整合、調(diào)用、控制和優(yōu)化利用，簡(jiǎn)單的說，就是通過一站式的搜索，將輸入的關(guān)鍵詞在多個(gè)搜索引擎的查詢結(jié)果統(tǒng)一返回，用戶只需要通過一次搜索就可以看到多個(gè)搜索引擎的搜索結(jié)果，較好的解決了單個(gè)搜索引擎覆蓋范圍窄的問題。
[0004]目前，基于元搜索的采集實(shí)現(xiàn)都非常的復(fù)雜，實(shí)際使用時(shí)實(shí)現(xiàn)非常的復(fù)雜，沒有一個(gè)簡(jiǎn)單的統(tǒng)一的方法。

【發(fā)明內(nèi)容】

[0005]本發(fā)明就是實(shí)現(xiàn)一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法，能夠根據(jù)此方法快速高效的實(shí)現(xiàn)一個(gè)元搜索采集器。
[0006]集成多個(gè)搜索引擎，對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集，然后對(duì)采集信息進(jìn)行有效的組織，及時(shí)發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊。
[0007]生成采集起始URL模塊對(duì)每個(gè)搜索引擎的搜索采集任務(wù)都設(shè)置為是一個(gè)爬蟲任務(wù)，每個(gè)爬蟲任務(wù)對(duì)應(yīng)一個(gè)配置文件，配置文件中配置:搜索URL的中文字符編碼格式，搜索頁的其實(shí)頁碼，每頁返回的搜索結(jié)果的數(shù)據(jù)，翻頁時(shí)頁碼的增長(zhǎng)的步長(zhǎng)，該搜索引擎返回結(jié)果的總數(shù)，結(jié)果列表頁的編碼格式，URL語法格式，抽取結(jié)果列表頁抽取規(guī)則。根據(jù)每個(gè)搜索引擎的不同的URL語法格式，將中文關(guān)鍵詞進(jìn)行對(duì)應(yīng)的編碼，在填充入其中的參數(shù)值，就構(gòu)造出了每個(gè)搜索引擎對(duì)應(yīng)的采集起始URL。
[0008]模擬瀏覽器行為模塊實(shí)現(xiàn)網(wǎng)頁采集反屏蔽，通過如下方法:對(duì)采集任務(wù)間隔進(jìn)行控制，固定間隔加上隨機(jī)間隔；構(gòu)造代理頭池和IP池，每次爬取網(wǎng)頁時(shí)，隨機(jī)切換一個(gè)userAgent 和 IP0
[0009]網(wǎng)頁去重采用REDIS內(nèi)存數(shù)據(jù)庫來存儲(chǔ)已下載的URL，通過REDIS的set數(shù)據(jù)結(jié)構(gòu)構(gòu)造一個(gè)URL非重復(fù)隊(duì)列，排除URL重復(fù)，如URL重復(fù)則不對(duì)網(wǎng)頁再次進(jìn)行下載。
[0010]網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取，并且過濾掉垃圾信息。該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集，實(shí)現(xiàn)多層的采集。
[0011]本發(fā)明可實(shí)現(xiàn)一種簡(jiǎn)單的基于元搜索的通用采集器，集成多個(gè)搜索引擎，對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集，然后對(duì)采集信息進(jìn)行有效的組織，及時(shí)發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)。
【專利附圖】

【附圖說明】
[0012]附圖1為本發(fā)明中的實(shí)現(xiàn)流程示意圖。
【具體實(shí)施方式】
[0013]參照附圖1，一種基于元搜索的網(wǎng)絡(luò)信息采集器實(shí)現(xiàn)方法流程如下:
(I)首先，通過生成采集起始URL模塊(I)讀取配置文件中的關(guān)鍵詞、搜索屬性，生成
URL。
[0014]關(guān)鍵詞配置文件可采用txt、excel、xml格式,舉例如下:
【權(quán)利要求】
1.一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法，其特征在于集成多個(gè)搜索引擎，對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集，然后對(duì)采集信息進(jìn)行有效的組織，及時(shí)發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊；生成采集起始URL模塊生成搜索引擎搜索URL ；模擬瀏覽器行為模塊將訪問網(wǎng)站行為偽裝成瀏覽器的行為，實(shí)現(xiàn)采集的反屏蔽；搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊將搜索并下載到的結(jié)果進(jìn)行結(jié)構(gòu)信息(標(biāo)題、來源、發(fā)布時(shí)間、摘要、URL)提??；網(wǎng)頁去重將提取到的搜索結(jié)果的URL進(jìn)行去重，避免相同網(wǎng)站進(jìn)行重復(fù)下載；網(wǎng)頁正文抽模塊下載并提取搜索結(jié)果的正文，將正文以及模塊結(jié)構(gòu)化的信息存儲(chǔ)到數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于所述生成采集起始URL模塊，可支持若干的主流搜索引擎，對(duì)同樣的關(guān)鍵詞進(jìn)行并行搜索。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的模擬瀏覽器行為模塊，可通過不同的手段實(shí)現(xiàn)模擬瀏覽器行為，包括:對(duì)采集任務(wù)間隔進(jìn)行控制，固定間隔加上隨機(jī)間隔；夠著代池和IP池，隨機(jī)切換USerAgent和IP。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁去重，可通過內(nèi)存數(shù)據(jù)庫實(shí)現(xiàn)url的去重，并可計(jì)算某個(gè)網(wǎng)頁的重復(fù)次數(shù)，為計(jì)算網(wǎng)頁重要程度提供數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取，并且過濾掉垃圾信息；該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集，實(shí)現(xiàn)多層的采集。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取，并且過濾掉垃圾信息；該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集，實(shí)現(xiàn) 多層的采集。
【文檔編號(hào)】G06F17/30GK103902667SQ201410092387
【公開日】2014年7月2日申請(qǐng)日期:2014年3月14日優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】劉粉粉申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉粉粉
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：一種消息隊(duì)列的設(shè)計(jì)與實(shí)現(xiàn)方法
上一篇：用于虛擬硬件存儲(chǔ)器保護(hù)的系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

身份證信息采集器相關(guān)技術(shù)

58信息采集器相關(guān)技術(shù)

58同城信息采集器相關(guān)技術(shù)

分類信息采集器相關(guān)技術(shù)

信息采集器相關(guān)技術(shù)

淘寶賣家信息采集器相關(guān)技術(shù)

企業(yè)信息采集器相關(guān)技術(shù)

銀行卡信息采集器相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法