一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法
【專利摘要】本發(fā)明提供一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法,集成多個(gè)搜索引擎,對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集,然后對(duì)采集信息進(jìn)行有效的組織,及時(shí)發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊。能及時(shí)發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源。
【專利說明】一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法
[0001]【技術(shù)領(lǐng)域】
本發(fā)明是一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法,通常適于用企業(yè)或者政府單位在網(wǎng)絡(luò)上搜索相關(guān)的新聞信息,通過對(duì)數(shù)據(jù)的分析得到?jīng)Q策性的結(jié)果。
【背景技術(shù)】
[0002]現(xiàn)在的網(wǎng)絡(luò)信息采集系統(tǒng)大多采用直接對(duì)網(wǎng)站進(jìn)行采集的方式,實(shí)現(xiàn)不僅復(fù)雜,而且由于網(wǎng)站模塊的不同,ulr的頻繁變化,需要不斷的對(duì)采集的采集網(wǎng)站的url進(jìn)行監(jiān)控維護(hù);而且采集的范圍也有限,對(duì)采集系統(tǒng)的負(fù)載要求也較高,降低了采集效率。
[0003]元搜索引擎就是對(duì)多個(gè)搜索引擎的整合、調(diào)用、控制和優(yōu)化利用,簡(jiǎn)單的說,就是通過一站式的搜索,將輸入的關(guān)鍵詞在多個(gè)搜索引擎的查詢結(jié)果統(tǒng)一返回,用戶只需要通過一次搜索就可以看到多個(gè)搜索引擎的搜索結(jié)果,較好的解決了單個(gè)搜索引擎覆蓋范圍窄的問題。
[0004]目前,基于元搜索的采集實(shí)現(xiàn)都非常的復(fù)雜,實(shí)際使用時(shí)實(shí)現(xiàn)非常的復(fù)雜,沒有一個(gè)簡(jiǎn)單的統(tǒng)一的方法。
【發(fā)明內(nèi)容】
[0005]本發(fā)明就是實(shí)現(xiàn)一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法,能夠根據(jù)此方法快速高效的實(shí)現(xiàn)一個(gè)元搜索采集器。
[0006]集成多個(gè)搜索引擎,對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集,然后對(duì)采集信息進(jìn)行有效的組織,及時(shí)發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊。
[0007]生成采集起始URL模塊對(duì)每個(gè)搜索引擎的搜索采集任務(wù)都設(shè)置為是一個(gè)爬蟲任務(wù),每個(gè)爬蟲任務(wù)對(duì)應(yīng)一個(gè)配置文件,配置文件中配置:搜索URL的中文字符編碼格式,搜索頁的其實(shí)頁碼,每頁返回的搜索結(jié)果的數(shù)據(jù),翻頁時(shí)頁碼的增長(zhǎng)的步長(zhǎng),該搜索引擎返回結(jié)果的總數(shù),結(jié)果列表頁的編碼格式,URL語法格式,抽取結(jié)果列表頁抽取規(guī)則。根據(jù)每個(gè)搜索引擎的不同的URL語法格式,將中文關(guān)鍵詞進(jìn)行對(duì)應(yīng)的編碼,在填充入其中的參數(shù)值,就構(gòu)造出了每個(gè)搜索引擎對(duì)應(yīng)的采集起始URL。
[0008]模擬瀏覽器行為模塊實(shí)現(xiàn)網(wǎng)頁采集反屏蔽,通過如下方法:對(duì)采集任務(wù)間隔進(jìn)行控制,固定間隔加上隨機(jī)間隔;構(gòu)造代理頭池和IP池,每次爬取網(wǎng)頁時(shí),隨機(jī)切換一個(gè)userAgent 和 IP0
[0009]網(wǎng)頁去重采用REDIS內(nèi)存數(shù)據(jù)庫來存儲(chǔ)已下載的URL,通過REDIS的set數(shù)據(jù)結(jié)構(gòu)構(gòu)造一個(gè)URL非重復(fù)隊(duì)列,排除URL重復(fù),如URL重復(fù)則不對(duì)網(wǎng)頁再次進(jìn)行下載。
[0010]網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取,并且過濾掉垃圾信息。該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集,實(shí)現(xiàn)多層的采集。
[0011]本發(fā)明可實(shí)現(xiàn)一種簡(jiǎn)單的基于元搜索的通用采集器,集成多個(gè)搜索引擎,對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集,然后對(duì)采集信息進(jìn)行有效的組織,及時(shí)發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)。
【專利附圖】
【附圖說明】
[0012]附圖1為本發(fā)明中的實(shí)現(xiàn)流程示意圖。
【具體實(shí)施方式】
[0013]參照附圖1,一種基于元搜索的網(wǎng)絡(luò)信息采集器實(shí)現(xiàn)方法流程如下:
(I)首先,通過生成采集起始URL模塊(I)讀取配置文件中的關(guān)鍵詞、搜索屬性,生成
URL。
[0014]關(guān)鍵詞配置文件可采用txt、excel、xml格式,舉例如下:
【權(quán)利要求】
1.一種基于元搜索的網(wǎng)絡(luò)信息采集器簡(jiǎn)單實(shí)現(xiàn)方法,其特征在于集成多個(gè)搜索引擎,對(duì)搜索關(guān)鍵詞并行進(jìn)行搜索采集,然后對(duì)采集信息進(jìn)行有效的組織,及時(shí)發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊; 生成采集起始URL模塊生成搜索引擎搜索URL ; 模擬瀏覽器行為模塊將訪問網(wǎng)站行為偽裝成瀏覽器的行為,實(shí)現(xiàn)采集的反屏蔽; 搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊將搜索并下載到的結(jié)果進(jìn)行結(jié)構(gòu)信息(標(biāo)題、來源、發(fā)布時(shí)間、摘要、URL)提??; 網(wǎng)頁去重將提取到的搜索結(jié)果的URL進(jìn)行去重,避免相同網(wǎng)站進(jìn)行重復(fù)下載; 網(wǎng)頁正文抽模塊下載并提取搜索結(jié)果的正文,將正文以及模塊結(jié)構(gòu)化的信息存儲(chǔ)到數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述生成采集起始URL模塊,可支持若干的主流搜索引擎,對(duì)同樣的關(guān)鍵詞進(jìn)行并行搜索。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的模擬瀏覽器行為模塊,可通過不同的手段實(shí)現(xiàn)模擬瀏覽器行為,包括:對(duì)采集任務(wù)間隔進(jìn)行控制,固定間隔加上隨機(jī)間隔;夠著代池和IP池,隨機(jī)切換USerAgent和IP。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁去重,可通過內(nèi)存數(shù)據(jù)庫實(shí)現(xiàn)url的去重,并可計(jì)算某個(gè)網(wǎng)頁的重復(fù)次數(shù),為計(jì)算網(wǎng)頁重要程度提供數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集,實(shí)現(xiàn)多層的采集。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對(duì)不同的網(wǎng)站的網(wǎng)頁進(jìn)行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進(jìn)行采集,實(shí)現(xiàn) 多層的采集。
【文檔編號(hào)】G06F17/30GK103902667SQ201410092387
【公開日】2014年7月2日 申請(qǐng)日期:2014年3月14日 優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】劉粉粉 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司