国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法

      文檔序號(hào):6579081閱讀:232來(lái)源:國(guó)知局
      專利名稱:基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,特別是一種基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)
      件方法。
      背景技術(shù)
      在這個(gè)信息爆炸的時(shí)代,網(wǎng)絡(luò)媒體以其快速的新聞發(fā)布,廣泛的新聞傳播而逐漸 取代電視,報(bào)紙等傳統(tǒng)媒體成為現(xiàn)在主流的新聞傳播方式。 當(dāng)前的幾大新聞門(mén)戶網(wǎng)站"新浪網(wǎng)"、"新華網(wǎng)"、"網(wǎng)易"都擁有自己強(qiáng)大的新聞采 訪、編輯和發(fā)布團(tuán)隊(duì),每天的新聞發(fā)布數(shù)量達(dá)到數(shù)千條。新聞網(wǎng)站一般涵蓋了各個(gè)類別的新 聞國(guó)內(nèi)新聞、國(guó)際新聞、社會(huì)新聞、娛樂(lè)新聞、軍事新聞、體育新聞、財(cái)經(jīng)新聞、科技新聞等。 同時(shí)每個(gè)新聞門(mén)戶也都有各自的特色,比如"新華網(wǎng)"的時(shí)政新聞,"新浪網(wǎng)"的體育新聞, "網(wǎng)易"的社會(huì)新聞。因此,整合多個(gè)新聞門(mén)戶網(wǎng)站的新聞可以讓用戶得到更全面,更豐富, 更具有特色的新聞資訊。 如何有效地提取網(wǎng)絡(luò)中的信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎作為一個(gè)輔助人們 檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但通用性搜索引擎存在以下的局限 性 1、通用搜索引擎的目標(biāo)是獲得盡可能大的網(wǎng)絡(luò)覆蓋率,這就進(jìn)一步加深了有限的 搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾。 2、網(wǎng)絡(luò)數(shù)據(jù)的形式豐富、網(wǎng)絡(luò)技術(shù)不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻/視頻等不同形 式的數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為 力,不能很好的發(fā)現(xiàn)和獲取。 3、通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查 詢。 4、不同領(lǐng)域、不同北京的用戶具有不同的檢索目的、需求,通用搜索引擎返回的結(jié) 果包含大量的用戶不關(guān)心的信息。 為解決上述缺點(diǎn),一種定向抓取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)頁(yè)爬蟲(chóng)應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(chóng)是 一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它可以自動(dòng)地從網(wǎng)絡(luò)中抓取網(wǎng)頁(yè),是搜索引擎的重要組成。其工 作原理是網(wǎng)頁(yè)爬蟲(chóng)從初始設(shè)定的一個(gè)或者多個(gè)初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前網(wǎng)頁(yè)上抽取新的URL,然后根據(jù)網(wǎng)頁(yè)分析算法過(guò)濾掉 與主題無(wú)關(guān)的連接,保留有用的連接并將其放入等待訪問(wèn)的URL隊(duì)列中,直到滿足一定的 停止條件。采用網(wǎng)頁(yè)爬蟲(chóng)可以對(duì)多個(gè)數(shù)據(jù)源同時(shí)進(jìn)行抓取。 以新聞信息為例,說(shuō)明網(wǎng)絡(luò)爬蟲(chóng)存在的缺點(diǎn)1、由于每個(gè)新聞網(wǎng)站的對(duì)新聞的發(fā) 布是,可能是相同的文章的復(fù)制,也可能是關(guān)于同一件事不同的網(wǎng)站發(fā)布了不同的文章,網(wǎng) 頁(yè)爬蟲(chóng)在抓取數(shù)據(jù)時(shí),很可能將這些重復(fù)的信息也抓取進(jìn)來(lái),不僅浪費(fèi)網(wǎng)絡(luò)資源,存儲(chǔ)資 源,而且對(duì)今后的數(shù)據(jù)維護(hù)造成極大的麻煩。2、網(wǎng)頁(yè)中有大量的URL都是指向與新聞無(wú)關(guān) 的無(wú)效信息,如廣告、博客、導(dǎo)航網(wǎng)頁(yè)等,若爬蟲(chóng)將這些URL也抓取進(jìn)來(lái),也會(huì)造成網(wǎng)絡(luò)資源、存儲(chǔ)資源的浪費(fèi),以后后續(xù)維護(hù)的困難。3、現(xiàn)有的網(wǎng)頁(yè)爬蟲(chóng)是先將網(wǎng)頁(yè)抓取、下載后再 進(jìn)行有效性分析,大量的無(wú)關(guān)網(wǎng)頁(yè)將被下載,浪費(fèi)有限的存儲(chǔ)資源。4、隨著網(wǎng)頁(yè)抓取量的增 多,無(wú)關(guān)網(wǎng)頁(yè)被下載再進(jìn)行分析過(guò)濾,造成算法的效率低下。

      發(fā)明內(nèi)容
      為克服現(xiàn)有技術(shù)的算法效率低下,容易抓取重復(fù)內(nèi)容的網(wǎng)頁(yè),資源浪費(fèi)大,數(shù)據(jù)維
      護(hù)困難的缺點(diǎn),本發(fā)明提供了一種算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁(yè),資源浪費(fèi)小,數(shù)
      據(jù)維護(hù)方便的基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法。
      基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,包括以下步驟 1)、構(gòu)造能將網(wǎng)頁(yè)中的新聞的標(biāo)題和內(nèi)容抽取出來(lái)的解析器,用所述的解析器解 析新聞網(wǎng)頁(yè); 2)、構(gòu)建新聞網(wǎng)頁(yè)的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁(yè)與新聞集中的新聞網(wǎng) 頁(yè)之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來(lái)表征; 3)、將當(dāng)前抓取的新聞網(wǎng)頁(yè)與所述的新聞集進(jìn)行比對(duì),判斷它們之間的相似度是 否高于所述的閾值; 4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁(yè)加入新聞集中,若相似度高于所述的 閾值,則舍棄該新聞,抓取下一個(gè)網(wǎng)頁(yè); 5)、抓取當(dāng)前網(wǎng)頁(yè)的URL,判斷此URL是否指向新聞網(wǎng)頁(yè),若URL不指向新聞網(wǎng)頁(yè), 則舍棄此URL ;若是指向新聞網(wǎng)頁(yè),則與存儲(chǔ)有已訪問(wèn)過(guò)的URL的已訪問(wèn)隊(duì)列進(jìn)行比對(duì),判 斷此URL是否被訪問(wèn)過(guò); 6)、若此URL存在于所述的已訪問(wèn)隊(duì)列中,則舍棄此URL ;若此URL不存在于所述 的已訪問(wèn)隊(duì)列中,則將此URL存入一待訪問(wèn)隊(duì)列中;
      7)、從待訪問(wèn)隊(duì)列中依次提取URL進(jìn)行訪問(wèn);
      8)、重復(fù)執(zhí)行步驟1-9。 進(jìn)一步,所述的解析器是通過(guò)學(xué)習(xí)多個(gè)新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,
      所述的解析器解析網(wǎng)頁(yè)得到的是新聞網(wǎng)頁(yè)中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。 進(jìn)一步,所述的步驟(3)由以下步驟組成 (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個(gè)關(guān)鍵 詞的權(quán)重; (3. 2)根據(jù)經(jīng)驗(yàn),選取該文本中N個(gè)權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集
      合C = {(、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)}, 其中& :第i個(gè)關(guān)鍵詞;Wi :第i個(gè)關(guān)鍵詞的權(quán)重; (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個(gè)子 集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與&之間的相似度的閾 值,所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個(gè)數(shù)來(lái)表征; (3. 4)將集合C與新聞集中的每個(gè)&進(jìn)行比對(duì),判斷它們的相似度是否高于所述 的閾值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù) 新聞; (3. 5)將非重復(fù)新聞加入新聞集中。
      進(jìn)一步,若經(jīng)(3.4)判斷集合C為非重復(fù)新聞,則將新聞內(nèi)容文本利用中文分詞技 術(shù)提取出文本中的關(guān)鍵詞以及每個(gè)關(guān)鍵詞的權(quán)重,再一次順序執(zhí)行(3.2)到(3.4);若此次 判斷仍然為非重復(fù)新聞,再將此新聞加入新聞集中。 進(jìn)一步,所述的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁(yè)包括以下步驟 (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁(yè)的URL作為訓(xùn)練集,采用劃分
      聚類算法對(duì)這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類; (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL 解析器對(duì)每個(gè)類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個(gè)類別的正則表達(dá)式;
      (5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁(yè)的URL,判斷該網(wǎng)頁(yè)是否具有新聞網(wǎng) 頁(yè)的URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁(yè)的URL ;若否,則認(rèn)為此URL指向 新聞以外的其它網(wǎng)頁(yè),將此URL舍棄。 本發(fā)明的技術(shù)構(gòu)思是在網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)頁(yè)之前進(jìn)行重復(fù)數(shù)據(jù)過(guò)濾,避免重復(fù)數(shù)
      據(jù)的下載,減少了爬蟲(chóng)需要抓取的數(shù)據(jù)量,節(jié)約了存儲(chǔ)資源;爬蟲(chóng)在抓取URL時(shí),先判斷URL
      是否指向有效信息,將無(wú)關(guān)網(wǎng)頁(yè)的URL過(guò)濾,保證了爬取數(shù)據(jù)的純凈度與準(zhǔn)確性,即下載下
      來(lái)的均為有效網(wǎng)頁(yè),算法的效率高,網(wǎng)絡(luò)資源的消耗有效降低,存儲(chǔ)資源的浪費(fèi)少;由于只
      需存儲(chǔ)有效信息即可,數(shù)據(jù)的存儲(chǔ)量降低,后續(xù)的數(shù)據(jù)維護(hù)的困難度降低。 本發(fā)明的優(yōu)點(diǎn)是算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁(yè),資源浪費(fèi)小,數(shù)據(jù)維護(hù)方便。


      圖1為本發(fā)明的總的流程圖 圖2為當(dāng)前抓取的新聞與新聞集中各新聞比對(duì)的流程圖
      圖3為另一種當(dāng)前抓取的新聞與新聞集中各新聞比對(duì)的流程圖
      圖4為判斷URL是否被訪問(wèn)過(guò)的流程圖
      具體實(shí)施方式

      實(shí)施例一
      參照附圖1、2、4 基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,包括以下步驟
      1、基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,包括以下步驟 1)、構(gòu)造能將網(wǎng)頁(yè)中的新聞的標(biāo)題和內(nèi)容抽取出來(lái)的解析器,用所述的解析器解 析新聞網(wǎng)頁(yè); 2)、構(gòu)建新聞網(wǎng)頁(yè)的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁(yè)與新聞集中的新聞網(wǎng) 頁(yè)之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來(lái)表征; 3)、將當(dāng)前抓取的新聞網(wǎng)頁(yè)與所述的新聞集進(jìn)行比對(duì),判斷它們之間的相似度是 否高于所述的閾值; (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個(gè)關(guān)鍵 詞的權(quán)重; (3. 2)根據(jù)經(jīng)驗(yàn),選取該文本中N個(gè)權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集
      6合C = {(、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)}, 其中& :第i個(gè)關(guān)鍵詞;Wi :第i個(gè)關(guān)鍵詞的權(quán)重; (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個(gè)子 集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與&之間的相似度的閾 值,所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個(gè)數(shù)來(lái)表征;
      (3. 4)將集合C與新聞集中的每個(gè)&進(jìn)行比對(duì),判斷它們的相似度是否高于所述 的閾值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù) 新聞; (3. 5)將非重復(fù)新聞加入新聞集中。 4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁(yè)加入新聞集中,若相似度高于所述的 閾值,則舍棄該新聞,抓取下一個(gè)網(wǎng)頁(yè); 5)、抓取當(dāng)前網(wǎng)頁(yè)的URL,判斷此URL是否指向新聞網(wǎng)頁(yè),若URL不指向新聞網(wǎng)頁(yè), 則舍棄此URL ;若是指向新聞網(wǎng)頁(yè),則與存儲(chǔ)有已訪問(wèn)過(guò)的URL的已訪問(wèn)隊(duì)列進(jìn)行比對(duì),判 斷此URL是否被訪問(wèn)過(guò); (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁(yè)的URL作為訓(xùn)練集,采用劃分 聚類算法對(duì)這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類; (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL 解析器對(duì)每個(gè)類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個(gè)類別的正則表達(dá)式;
      (53)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁(yè)的URL,判斷該網(wǎng)頁(yè)是否具有新聞網(wǎng) 頁(yè)的URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁(yè)的URL;若否,則認(rèn)為此URL指向 新聞以外的其它網(wǎng)頁(yè),將此URL舍棄。 6)、若此URL存在于所述的已訪問(wèn)隊(duì)列中,則舍棄此URL ;若此URL不存在于所述 的已訪問(wèn)隊(duì)列中,則將此URL存入一待訪問(wèn)隊(duì)列中;
      7)、從待訪問(wèn)隊(duì)列中依次提取URL進(jìn)行訪問(wèn);
      8)、重復(fù)執(zhí)行步驟1-9。 所述的解析器是通過(guò)學(xué)習(xí)多個(gè)新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,所述的
      解析器解析網(wǎng)頁(yè)得到的是新聞網(wǎng)頁(yè)中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
      實(shí)施例二
      參照附圖1、3、4 本實(shí)施例與實(shí)施例一的區(qū)別之處在于若經(jīng)(3. 4)判斷集合C為非重復(fù)新聞,則將 新聞?wù)奈谋纠弥形姆衷~技術(shù)提取出文本中的關(guān)鍵詞以及每個(gè)關(guān)鍵詞的權(quán)重,再一次順 序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞,再將此新聞加入新聞集中。其余相 同。 本說(shuō)明書(shū)實(shí)施例所述的內(nèi)容僅僅是對(duì)發(fā)明構(gòu)思的實(shí)現(xiàn)形式的列舉,本發(fā)明的保護(hù) 范圍不應(yīng)當(dāng)被視為僅限于實(shí)施例所陳述的具體形式,本發(fā)明的保護(hù)范圍也及于本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明構(gòu)思所能夠想到的等同技術(shù)手段。
      權(quán)利要求
      基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,包括以下步驟1)、構(gòu)造能將網(wǎng)頁(yè)中的新聞的標(biāo)題和內(nèi)容抽取出來(lái)的解析器,用所述的解析器解析新聞網(wǎng)頁(yè);2)、構(gòu)建新聞網(wǎng)頁(yè)的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁(yè)與新聞集中的新聞網(wǎng)頁(yè)之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來(lái)表征;3)、將當(dāng)前抓取的新聞網(wǎng)頁(yè)與所述的新聞集進(jìn)行比對(duì),判斷它們之間的相似度是否高于所述的閾值;4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁(yè)加入新聞集中,若相似度高于所述的閾值,則舍棄該新聞,抓取下一個(gè)網(wǎng)頁(yè);5)、抓取當(dāng)前網(wǎng)頁(yè)的URL,判斷此URL是否指向新聞網(wǎng)頁(yè),若URL不指向新聞網(wǎng)頁(yè),則舍棄此URL;若是指向新聞網(wǎng)頁(yè),則與存儲(chǔ)有已訪問(wèn)過(guò)的URL的已訪問(wèn)隊(duì)列進(jìn)行比對(duì),判斷此URL是否被訪問(wèn)過(guò);6)、若此URL存在于所述的已訪問(wèn)隊(duì)列中,則舍棄此URL;若此URL不存在于所述的已訪問(wèn)隊(duì)列中,則將此URL存入一待訪問(wèn)隊(duì)列中;7)、從待訪問(wèn)隊(duì)列中依次提取URL進(jìn)行訪問(wèn);8)、重復(fù)執(zhí)行步驟1-9。
      2. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,其特征在于所述的解 析器是通過(guò)學(xué)習(xí)多個(gè)新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,所述的解析器解析網(wǎng)頁(yè)得 到的是新聞網(wǎng)頁(yè)中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
      3. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,其特征在于所述的步驟(3)由以下步驟組成(3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個(gè)關(guān)鍵詞的 權(quán)重;(3.2)根據(jù)經(jīng)驗(yàn),選取該文本中N個(gè)權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集合C={ (、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)},其中ti :第i個(gè)關(guān)鍵詞;Wi :第i個(gè)關(guān)鍵詞的權(quán)重;(3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個(gè)子集& 中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與Q之間的相似度的閾值,所 述的相似度由兩集合的具有相同排序位置的關(guān)鍵詞個(gè)數(shù)來(lái)表征;(3. 4)將集合C與新聞集中的每個(gè)&進(jìn)行比對(duì),判斷它們的相似度是否高于所述的閾 值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù)新聞;(3. 5)將非重復(fù)新聞加入新聞集中。
      4. 如權(quán)利要求3所述的基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,其特征在于若經(jīng)(3. 4) 判斷集合C為非重復(fù)新聞,則將新聞內(nèi)容文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以 及每個(gè)關(guān)鍵詞的權(quán)重,再一次順序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞,再 將此新聞加入新聞集中。
      5. 如權(quán)利要求3或4所述的基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,其特征在于所述 的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁(yè)包括以下步驟(5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁(yè)的URL作為訓(xùn)練集,采用劃分聚類算法對(duì)這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類;(5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL解析 器對(duì)每個(gè)類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個(gè)類別的正則表達(dá)式;(5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁(yè)的URL,判斷該網(wǎng)頁(yè)是否具有新聞網(wǎng)頁(yè)的 URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁(yè)的URL;若否,則認(rèn)為此URL指向新聞 以外的其它網(wǎng)頁(yè),將此URL舍棄。
      全文摘要
      基于新聞去重的網(wǎng)頁(yè)爬蟲(chóng)的構(gòu)建方法,包括以下步驟構(gòu)造解析器解析新聞網(wǎng)頁(yè);構(gòu)建新聞集;設(shè)定網(wǎng)頁(yè)之間的相似度的閾值;將當(dāng)前抓取的新聞網(wǎng)頁(yè)與新聞集進(jìn)行比對(duì),判斷相似度是否高于閾值;若低于閾值,則將當(dāng)前網(wǎng)頁(yè)加入新聞集中;若高于閾值,則舍棄該新聞,抓取下一個(gè)網(wǎng)頁(yè);抓取當(dāng)前網(wǎng)頁(yè)的URL,判斷此URL是否指向新聞網(wǎng)頁(yè),若是,判斷此URL是否被訪問(wèn)過(guò);若否,則舍棄;若此URL已被訪問(wèn)過(guò),則舍棄此URL;若此URL未被訪問(wèn)過(guò),則存入待訪問(wèn)隊(duì)列;從待訪問(wèn)隊(duì)列中依次提取URL進(jìn)行訪問(wèn);重復(fù)執(zhí)行上述步驟。本發(fā)明的優(yōu)點(diǎn)是算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁(yè),資源浪費(fèi)小,數(shù)據(jù)維護(hù)方便。
      文檔編號(hào)G06F17/30GK101694658SQ200910153588
      公開(kāi)日2010年4月14日 申請(qǐng)日期2009年10月20日 優(yōu)先權(quán)日2009年10月20日
      發(fā)明者卜佳俊, 李輝, 梁雄君, 陳偉, 陳純 申請(qǐng)人:浙江大學(xué);
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1