国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網頁鏈接的檢測方法和裝置與流程

      文檔序號:11155075閱讀:583來源:國知局
      網頁鏈接的檢測方法和裝置與制造工藝

      本申請涉及網絡領域,具體而言,涉及一種網頁鏈接的檢測方法和裝置。



      背景技術:

      隨著互聯(lián)網的發(fā)展,出現(xiàn)了很多網站,網站的網頁錯鏈數量是影響用戶體驗的一個重要因素。

      網頁錯鏈的意思是由于編輯或者程序等問題造成鏈接錯誤,造成鏈接的文字與鏈接到的內容頁不符,比如,鏈接的文字是“劉備入川為什么不用諸葛亮隨行”,點擊鏈接文字后,得到的網頁的內容是關于某某明星出行有若干助理隨行的,這樣網站的用戶體驗是非常差的。目前,大多使用人工來檢測網頁鏈接的正確性,不僅繁瑣效率低,且易出錯。

      針對上述的問題,目前尚未提出有效的解決方案。



      技術實現(xiàn)要素:

      本申請實施例提供了一種網頁鏈接的檢測方法和裝置,以至少解決無法高效檢測網頁鏈接的正確性的技術問題。

      根據本申請實施例的一個方面,提供了一種網頁鏈接的檢測方法,包括:提取第一網頁上的網絡鏈接的標題,其中,所述第一網頁是待檢測網站的任意一個具有鏈接的網頁;提取所述網絡鏈接鏈接到的第二網頁的標題;判斷所述網絡鏈接的標題與所述第二網頁的標題是否相同;以及在判斷出所述網絡鏈接的標題與所述第二網頁的標題相同的情況下,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁。

      進一步地,在判斷所述網絡鏈接的標題與所述第二網頁的標題是否相同之后,所述方法還包括:在判斷出所述網絡鏈接的標題與所述第二網頁的標題不相同的情況下,計算所述網絡鏈接的標題與所述第二網頁的標題的相似度;判斷所述相似度是否在第一預設范圍之內;以及如果判斷出所述相似度在所述第一預設范圍之內,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁。

      進一步地,在判斷所述相似度是否在第一預設范圍之內之后,所述方法還包括: 如果判斷出所述相似度不在所述第一預設范圍之內,將所述網絡鏈接的標題進行分詞,得到第一分詞結果;將所述第二網頁的標題和內容進行分詞,得到第二分詞結果;計算所述第一分詞結果和所述第二分詞結果的匹配度;如果所述第一分詞結果和所述第二分詞結果的所述匹配度在第二預設范圍之內,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁;以及如果所述第一分詞結果和所述第二分詞結果的所述匹配度不在第二預設范圍之內,確定所述第二網頁是所述網絡鏈接的錯誤鏈接網頁。

      進一步地,在提取所述網絡鏈接鏈接到的第二網頁的標題之前,所述方法還包括:在所述待檢測網站上部署網絡爬蟲;提取所述網絡爬蟲在所述第一網頁上爬取到的所述網絡鏈接的地址;以及確定爬取到的地址所表示的網頁為所述第二網頁。

      進一步地,在所述待檢測網站部署網絡爬蟲之后,所述方法還包括:設置所述網絡爬蟲在所述待檢測網站上的爬取層級;以及控制所述網絡爬蟲按照所述爬取層級進行爬取。

      根據本申請實施例的另一方面,提供了一種網頁鏈接的檢測裝置,包括:第一提取單元,用于提取第一網頁上的網絡鏈接的標題,其中,所述第一網頁是待檢測網站的任意一個具有鏈接的網頁;第二提取單元,用于提取所述網絡鏈接鏈接到的第二網頁的標題;第一判斷單元,用于判斷所述網絡鏈接的標題與所述第二網頁的標題是否相同;以及第一確定單元,用于在判斷出所述網絡鏈接的標題與所述第二網頁的標題相同的情況下,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁。

      進一步地,所述裝置還包括:第一計算單元,用于在所述第一判斷單元判斷所述網絡鏈接的標題與所述第二網頁的標題是否相同之后,當判斷出所述網絡鏈接的標題與所述第二網頁的標題不相同時,計算所述網絡鏈接的標題與所述第二網頁的標題的相似度;第二判斷單元,用于判斷所述相似度是否在第一預設范圍之內;以及第二確定單元,用于如果判斷出所述相似度在所述第一預設范圍之內,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁。

      進一步地,所述裝置還包括:第一分詞單元,用于在所述第二判斷單元判斷所述相似度是否在第一預設范圍之內之后,當判斷出所述相似度不在所述第一預設范圍之內時,將所述網絡鏈接的標題進行分詞,得到第一分詞結果;第二分詞單元,用于將所述第二網頁的標題和內容進行分詞,得到第二分詞結果;第二計算單元,用于計算所述第一分詞結果和所述第二分詞結果的匹配度;第三確定單元,用于當所述第一分詞結果和所述第二分詞結果的所述匹配度在第二預設范圍之內時,確定所述第二網頁是所述網絡鏈接的正確鏈接網頁;以及第四確定單元,用于當所述第一分詞結果和所述第二分詞結果的所述匹配度不在第二預設范圍之內時,確定所述第二網頁是所述網 絡鏈接的錯誤鏈接網頁。

      進一步地,所述裝置還包括:部署單元,用于在所述第二提取單元提取所述網絡鏈接鏈接到的第二網頁的標題之前,在所述待檢測網站上部署網絡爬蟲;第三提取單元,用于提取所述網絡爬蟲在所述第一網頁上爬取到的所述網絡鏈接的地址;以及第五確定單元,用于確定爬取到的地址所表示的網頁為所述第二網頁。

      進一步地,所述裝置還包括:設置單元,用于在所述部署單元在所述待檢測網站部署網絡爬蟲之后,設置所述網絡爬蟲在所述待檢測網站上的爬取層級;以及控制單元,用于控制所述網絡爬蟲按照所述爬取層級進行爬取。

      在本申請實施例中,采用提取第一網頁上的網絡鏈接的標題,其中,第一網頁是待檢測網站的任意一個具有鏈接的網頁,提取網絡鏈接鏈接到的第二網頁的標題,判斷網絡鏈接的標題與第二網頁的標題是否相同,在判斷出網絡鏈接的標題與第二網頁的標題相同的情況下,確定第二網頁是網絡鏈接的正確鏈接網頁的方式,通過提取網頁上的網絡鏈接的標題和網絡鏈接鏈接到的新的網頁的標題,比較這兩個標題是否相同,如果這兩個標題相同,則說明網絡鏈接鏈接到的新的網頁是網絡鏈接的正確鏈接網頁,達到了檢測網頁鏈接的正確性的目的,從而實現(xiàn)了高效檢測網頁鏈接正確性的技術效果,進而解決了無法高效檢測網頁鏈接的正確性的技術問題。

      附圖說明

      此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:

      圖1是根據本申請實施例的網頁鏈接的檢測方法的流程圖;

      圖2是根據本申請實施例所提供的網頁鏈接的檢測方法進行網頁鏈接的檢測的流程圖;以及

      圖3是根據本申請實施例的網頁鏈接的檢測裝置的示意圖。

      具體實施方式

      為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于 本申請保護的范圍。

      需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本申請的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。

      根據本申請實施例,提供了一種網頁鏈接的檢測方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

      圖1是根據本申請實施例的網頁鏈接的檢測方法的流程圖,如圖1所示,該方法包括如下步驟:

      步驟S102,提取第一網頁上的網絡鏈接的標題,其中,第一網頁是待檢測網站的任意一個具有鏈接的網頁。

      步驟S104,提取網絡鏈接鏈接到的第二網頁的標題。

      步驟S106,判斷網絡鏈接的標題與第二網頁的標題是否相同。

      步驟S108,在判斷出網絡鏈接的標題與第二網頁的標題相同的情況下,確定第二網頁是網絡鏈接的正確鏈接網頁。

      待檢測網站上有若干個網頁,這些網頁中,有的網頁上有網絡鏈接,有的網頁上沒有網絡鏈接,通過點擊第一網頁上的網絡鏈接,用戶可以定位到新的網頁,這個新的網頁即為網絡鏈接鏈接到的網頁,也就是第二網頁。需要注意的是,某一個網頁是第一網頁還是第二網頁不是絕對的,而是相對的。例如,網頁A上有一個網絡鏈接L1,通過點擊網絡鏈接L1,定位到網頁B,則網頁A為第一網頁,網頁B為第二網頁。網頁B上有一個網絡鏈接L2,通過點擊網絡鏈接L2,定位到網頁C,則網頁B為第一網頁,網頁C為第二網頁。第二網頁上包括標題和內容。判斷第一網頁上的網絡鏈接的標題與第二網頁上的標題是否完全相同,如果判斷出第一網頁上的網絡鏈接的標題與第二網頁上的標題完全相同,則第二網頁是第一網頁的網絡鏈接的正確鏈接網頁。如果判斷出第一網頁上的網絡鏈接的標題與第二網頁上的標題不完全相同,則需要進一步判斷第二網頁是否為第一網頁的網絡鏈接的正確鏈接網頁。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“劉備入川為什么不用諸葛亮隨行”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“劉備入川為什么不用諸葛亮隨行”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題相同,故網頁P2是網頁P1的網絡鏈接的正確鏈接網頁。

      再例如,網頁P上有3個網絡鏈接,分別為網絡鏈接L1、網絡鏈接L2和網絡鏈接L3,網絡鏈接L1的標題是“萬圣節(jié)的起源”,網絡鏈接L2的標題是“韓國傳統(tǒng)節(jié)日”,網絡鏈接L3的標題是“家的慢節(jié)奏生活品味”,點擊網絡鏈接L1,得到網頁P1;點擊網絡鏈接L2,得到網頁P2;點擊網絡鏈接L3,得到網頁P3。網頁P為第一網頁,網頁P1、網頁P2和網頁P3均為第二網頁。網頁P1的標題是“萬圣節(jié)的起源”,網頁P2的標題是“韓國傳統(tǒng)節(jié)日”,網頁P3的標題是“家的生活品味”。由于網頁P1的標題與網頁P的網絡鏈接L1的標題完全相同,故網頁P1是網頁P的網絡鏈接L1的正確鏈接網頁。由于網頁P2的標題與網頁P的網絡鏈接L2的標題完全相同,故網頁P2是網頁P的網絡鏈接L2的正確鏈接網頁。網頁P3的標題與網頁P的網絡鏈接L3的標題不完全相同,故需要進一步判斷網頁P3是否為網頁P的網絡鏈接L3的正確鏈接網頁。

      通過提取網頁上的網絡鏈接的標題和網絡鏈接鏈接到的新的網頁的標題,比較這兩個標題是否相同,如果這兩個標題相同,則說明網絡鏈接鏈接到的新的網頁是網絡鏈接的正確鏈接網頁,達到了檢測網頁鏈接的正確性的目的,從而實現(xiàn)了高效檢測網頁鏈接正確性的技術效果,進而解決了無法高效檢測網頁鏈接的正確性的技術問題。

      可選地,在判斷網絡鏈接的標題與第二網頁的標題是否相同之后,本申請實施例所提供的網頁鏈接的檢測方法還包括:在判斷出網絡鏈接的標題與第二網頁的標題不相同的情況下,計算網絡鏈接的標題與第二網頁的標題的相似度;判斷相似度是否在第一預設范圍之內;以及如果判斷出相似度在第一預設范圍之內,確定第二網頁是網絡鏈接的正確鏈接網頁。

      即,如果判斷出網絡鏈接的標題與鏈接到的網頁的標題不完全相同的情況下,繼續(xù)計算網絡鏈接的標題與鏈接到的網頁的標題的相似度,如果相似度很高,那么該網絡鏈接鏈接到的網頁很可能是該網絡鏈接的正確鏈接網頁??梢圆捎米址ヅ涞确绞接嬎阆嗨贫?。第一預設范圍可以預先設置,例如設置成(70%,100%]或者(80%,100%],等等。相似度如果在第一預設范圍之內,那么可以確定網絡鏈接鏈接到的網頁是該網絡鏈接的正確鏈接網頁。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“劉備入川為什么不用諸葛 亮隨行”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“劉備進入四川時為什么不用諸葛亮隨行”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題不相同,因此計算網頁P1的網絡鏈接的標題和網頁P2上的標題的相似度。設置第一預設范圍為(75%,100%]。假設計算出相似度是78%,在第一預設范圍之內,故可以確定網頁P2是網頁P1的網絡鏈接的正確鏈接網頁。

      可選地,在判斷相似度是否在第一預設范圍之內之后,本申請實施例所提供的網頁鏈接的檢測方法還包括:如果判斷出相似度不在第一預設范圍之內,將網絡鏈接的標題進行分詞,得到第一分詞結果;將第二網頁的標題和內容進行分詞,得到第二分詞結果;計算第一分詞結果和第二分詞結果的匹配度;如果第一分詞結果和第二分詞結果的匹配度在第二預設范圍之內,確定第二網頁是網絡鏈接的正確鏈接網頁;以及如果第一分詞結果和第二分詞結果的匹配度不在第二預設范圍之內,確定第二網頁是網絡鏈接的錯誤鏈接網頁。

      如果第一網頁上的網絡鏈接的標題與網絡鏈接鏈接到的第二網頁的標題不相同,且二者的相似度不在第一預設范圍之內,則將第一網頁的網絡鏈接的標題進行分詞,將第二網頁的標題和內容進行分詞,將兩個分詞結果進行匹配,得到匹配度,如果匹配度在第二預設范圍之內,則第二網頁是網絡鏈接的正確鏈接網頁;如果匹配度不在第二預設范圍之內,則第二網頁是網絡鏈接的錯誤鏈接網頁。對語句進行分詞時,需要去除掉一些動詞及連詞,計算每個詞的個數,將出現(xiàn)頻率高的若干個詞提取出來。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“袁隆平與超級水稻”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“袁隆平的故事”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題不相同,因此計算網頁P1的網絡鏈接的標題和網頁P2上的標題的相似度。設置第一預設范圍為(75%,100%]。假設計算出相似度是40%,不在第一預設范圍之內。設置第二預設范圍為(80%,100%]。將網絡鏈接的標題“袁隆平與超級水稻”進行分詞,得到第一分詞結果。將網頁P2上的標題和內容進行分詞,得到第二分詞結果。計算得到第一分詞結果和第二分詞結果的匹配度為89%,在第二預設范圍之內,故網頁P2是網頁P1上的網絡鏈接的正確鏈接網頁。

      可選地,在提取網絡鏈接鏈接到的第二網頁的標題之前,本申請實施例所提供的網頁鏈接的檢測方法還包括:在待檢測網站上部署網絡爬蟲;提取網絡爬蟲在第一網頁上爬取到的網絡鏈接的地址;以及確定爬取到的地址所表示的網頁為第二網頁。

      即,在需要進行檢測的網站上部署網絡爬蟲,提取網絡爬蟲爬取到的網絡鏈接的 地址,該地址即為第二網頁的地址,該地址可以是URL地址。

      可選地,在待檢測網站部署網絡爬蟲之后,本申請實施例所提供的網頁鏈接的檢測方法還包括:設置網絡爬蟲在待檢測網站上的爬取層級;以及控制網絡爬蟲按照爬取層級進行爬取。

      網站具有一定的深度。以組織結構為樹形結構的網站為例進行說明,網站首頁視為第一級網頁,第一級網頁的網絡鏈接鏈接到的網頁為第二級網頁,第二級網頁的網絡鏈接鏈接到的網頁為第三級網頁,以此類推可以得到一個完整的樹形鏈接結構。在整個樹形結構中,鏈接的層數為網頁鏈接的深度。由于深度非常大的網頁很難被用戶訪問,而且被搜索引擎收錄的可能性也較低,因此,需要設置一個爬取層級,使得網絡爬蟲只爬取層級小于等于預設爬取層級的網頁,這樣,可以大大提高網絡爬蟲爬取網頁的效率。

      圖2是根據本申請實施例所提供的網頁鏈接的檢測方法進行網頁鏈接的檢測的流程圖。如圖2所示,使用該檢測方法進行網頁鏈接的檢測時,主要包括以下幾個步驟:

      步驟S202,在需要進行檢測的網站部署網絡爬蟲。

      步驟S204,提取網頁的網絡鏈接。該網頁即為第一網頁。

      步驟S206,爬取網絡鏈接鏈接到的網頁。該網絡鏈接鏈接到的網頁為第二網頁。

      步驟S208,提取網絡鏈接鏈接到的網頁的標題。步驟S208的具體實施方式與上述步驟S104相同。

      步驟S210,判斷網絡鏈接的標題與該網絡鏈接鏈接到的網頁的標題是否相同。如果判斷出網絡鏈接的標題與該網絡鏈接鏈接到的網頁的標題相同,執(zhí)行步驟S212;如果判斷出網絡鏈接的標題與該網絡鏈接鏈接到的網頁的標題不相同,執(zhí)行步驟S214。步驟S210的具體實施方式與上述步驟S106相同。

      步驟S212,確定網絡鏈接鏈接到的網頁是該網絡鏈接的正確鏈接網頁。步驟S212的具體實施方式與上述步驟S108相同。

      步驟S214,計算網絡鏈接的標題與該網絡鏈接鏈接到的網頁的標題之間的相似度。

      步驟S216,判斷相似度是否大于等于第一預設值。如果判斷出相似度大于等于第一預設值,執(zhí)行步驟S212;如果判斷出相似度小于第一預設值,執(zhí)行步驟S218。第一預設值即為上述第一預設范圍。

      步驟S218,將網絡鏈接的標題進行分詞,將該網絡鏈接鏈接到的網頁的標題、內容 進行分詞,計算這兩個分詞結果的匹配度。

      步驟S220,判斷匹配度是否大于等于第二預設值。如果判斷出匹配度大于等于第二預設值,執(zhí)行步驟S212;如果判斷出匹配度小于第二預設值,執(zhí)行步驟S222。第二預設值即為上述第二預設范圍。

      步驟S222,確定網絡鏈接鏈接到的網頁是該網絡鏈接的錯誤鏈接網頁。

      通過上述實施例,達到了檢測網頁鏈接的正確性的目的,從而實現(xiàn)了高效檢測網頁鏈接正確性的技術效果,進而解決了無法高效檢測網頁鏈接的正確性的技術問題。

      根據本申請實施例,還提供了一種網頁鏈接的檢測裝置。該網頁鏈接的檢測裝置可以執(zhí)行上述網頁鏈接的檢測方法,上述網頁鏈接的檢測方法也可以通過該網頁鏈接的檢測裝置實施。

      圖3是根據本申請實施例的網頁鏈接的檢測裝置的示意圖。如圖3所示,該裝置包括第一提取單元32、第二提取單元34、第一判斷單元36和第一確定單元38。

      第一提取單元32用于提取第一網頁上的網絡鏈接的標題,其中,第一網頁是待檢測網站的任意一個具有鏈接的網頁。

      第二提取單元34用于提取網絡鏈接鏈接到的第二網頁的標題。

      第一判斷單元36用于判斷網絡鏈接的標題與第二網頁的標題是否相同。

      第一確定單元38用于在判斷出網絡鏈接的標題與第二網頁的標題相同的情況下,確定第二網頁是網絡鏈接的正確鏈接網頁。

      待檢測網站上有若干個網頁,這些網頁中,有的網頁上有網絡鏈接,有的網頁上沒有網絡鏈接,通過點擊第一網頁上的網絡鏈接,用戶可以定位到新的網頁,這個新的網頁即為網絡鏈接鏈接到的網頁,也就是第二網頁。需要注意的是,某一個網頁是第一網頁還是第二網頁不是絕對的,而是相對的。例如,網頁A上有一個網絡鏈接L1,通過點擊網絡鏈接L1,定位到網頁B,則網頁A為第一網頁,網頁B為第二網頁。網頁B上有一個網絡鏈接L2,通過點擊網絡鏈接L2,定位到網頁C,則網頁B為第一網頁,網頁C為第二網頁。第二網頁上包括標題和內容。判斷第一網頁上的網絡鏈接的標題與第二網頁上的標題是否完全相同,如果判斷出第一網頁上的網絡鏈接的標題與第二網頁上的標題完全相同,則第二網頁是第一網頁的網絡鏈接的正確鏈接網頁。如果判斷出第一網頁上的網絡鏈接的標題與第二網頁上的標題不完全相同,則需要進一步判斷第二網頁是否為第一網頁的網絡鏈接的正確鏈接網頁。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“劉備入川為什么不用諸葛亮隨行”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“劉備入川為什么不用諸葛亮隨行”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題相同,故網頁P2是網頁P1的網絡鏈接的正確鏈接網頁。

      再例如,網頁P上有3個網絡鏈接,分別為網絡鏈接L1、網絡鏈接L2和網絡鏈接L3,網絡鏈接L1的標題是“萬圣節(jié)的起源”,網絡鏈接L2的標題是“韓國傳統(tǒng)節(jié)日”,網絡鏈接L3的標題是“家的慢節(jié)奏生活品味”,點擊網絡鏈接L1,得到網頁P1;點擊網絡鏈接L2,得到網頁P2;點擊網絡鏈接L3,得到網頁P3。網頁P為第一網頁,網頁P1、網頁P2和網頁P3均為第二網頁。網頁P1的標題是“萬圣節(jié)的起源”,網頁P2的標題是“韓國傳統(tǒng)節(jié)日”,網頁P3的標題是“家的生活品味”。由于網頁P1的標題與網頁P的網絡鏈接L1的標題完全相同,故網頁P1是網頁P的網絡鏈接L1的正確鏈接網頁。由于網頁P2的標題與網頁P的網絡鏈接L2的標題完全相同,故網頁P2是網頁P的網絡鏈接L2的正確鏈接網頁。網頁P3的標題與網頁P的網絡鏈接L3的標題不完全相同,故需要進一步判斷網頁P3是否為網頁P的網絡鏈接L3的正確鏈接網頁。

      通過提取網頁上的網絡鏈接的標題和網絡鏈接鏈接到的新的網頁的標題,比較這兩個標題是否相同,如果這兩個標題相同,則說明網絡鏈接鏈接到的新的網頁是網絡鏈接的正確鏈接網頁,達到了檢測網頁鏈接的正確性的目的,從而實現(xiàn)了高效檢測網頁鏈接正確性的技術效果,進而解決了無法高效檢測網頁鏈接的正確性的技術問題。

      可選地,本申請實施例所提供的網頁鏈接的檢測裝置還包括第一計算單元、第二判斷單元和第二確定單元。第一計算單元用于在第一判斷單元判斷網絡鏈接的標題與第二網頁的標題是否相同之后,當判斷出網絡鏈接的標題與第二網頁的標題不相同時,計算網絡鏈接的標題與第二網頁的標題的相似度。第二判斷單元用于判斷相似度是否在第一預設范圍之內。第二確定單元用于如果判斷出相似度在第一預設范圍之內,確定第二網頁是網絡鏈接的正確鏈接網頁。

      即,如果判斷出網絡鏈接的標題與鏈接到的網頁的標題不完全相同的情況下,繼續(xù)計算網絡鏈接的標題與鏈接到的網頁的標題的相似度,如果相似度很高,那么該網絡鏈接鏈接到的網頁很可能是該網絡鏈接的正確鏈接網頁??梢圆捎米址ヅ涞确绞接嬎阆嗨贫?。第一預設范圍可以預先設置,例如設置成(70%,100%]或者(80%,100%],等等。相似度如果在第一預設范圍之內,那么可以確定網絡鏈接鏈接到的網頁是該網絡鏈接的正確鏈接網頁。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“劉備入川為什么不用諸葛亮隨行”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“劉備進入四川時為什么不用諸葛亮隨行”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題不相同,因此計算網頁P1的網絡鏈接的標題和網頁P2上的標題的相似度。設置第一預設范圍為(75%,100%]。假設計算出相似度是78%,在第一預設范圍之內,故可以確定網頁P2是網頁P1的網絡鏈接的正確鏈接網頁。

      可選地,本申請實施例所提供的網頁鏈接的檢測裝置還包括第一分詞單元、第二分詞單元、第二計算單元、第三確定單元和第四確定單元。第一分詞單元用于在第二判斷單元判斷相似度是否在第一預設范圍之內之后,當判斷出相似度不在第一預設范圍之內時,將網絡鏈接的標題進行分詞,得到第一分詞結果。第二分詞單元用于將第二網頁的標題和內容進行分詞,得到第二分詞結果。第二計算單元用于計算第一分詞結果和第二分詞結果的匹配度。第三確定單元用于當第一分詞結果和第二分詞結果的匹配度在第二預設范圍之內時,確定第二網頁是網絡鏈接的正確鏈接網頁。第四確定單元,用于當第一分詞結果和第二分詞結果的匹配度不在第二預設范圍之內時,確定第二網頁是網絡鏈接的錯誤鏈接網頁。

      如果第一網頁上的網絡鏈接的標題與網絡鏈接鏈接到的第二網頁的標題不相同,且二者的相似度不在第一預設范圍之內,則將第一網頁的網絡鏈接的標題進行分詞,將第二網頁的標題和內容進行分詞,將兩個分詞結果進行匹配,得到匹配度,如果匹配度在第二預設范圍之內,則第二網頁是網絡鏈接的正確鏈接網頁;如果匹配度不在第二預設范圍之內,則第二網頁是網絡鏈接的錯誤鏈接網頁。對語句進行分詞時,需要去除掉一些動詞及連詞,計算每個詞的個數,將出現(xiàn)頻率高的若干個詞提取出來。

      例如,網頁P1上有一個網絡鏈接,網絡鏈接的標題為“袁隆平與超級水稻”,點擊這個網絡鏈接,得到網頁P2,則網頁P1為第一網頁,網頁P2為第二網頁,網頁P2上具有標題和內容,網頁P2上的標題是“袁隆平的故事”。由于網頁P1的網絡鏈接的標題和網頁P2上的標題不相同,因此計算網頁P1的網絡鏈接的標題和網頁P2上的標題的相似度。設置第一預設范圍為(75%,100%]。假設計算出相似度是40%,不在第一預設范圍之內。設置第二預設范圍為(80%,100%]。將網絡鏈接的標題“袁隆平與超級水稻”進行分詞,得到第一分詞結果。將網頁P2上的標題和內容進行分詞,得到第二分詞結果。計算得到第一分詞結果和第二分詞結果的匹配度為89%,在第二預設范圍之內,故網頁P2是網頁P1上的網絡鏈接的正確鏈接網頁。

      可選地,本申請實施例所提供的網頁鏈接的檢測裝置還包括部署單元、第三提取 單元和第五確定單元。部署單元用于在第二提取單元提取網絡鏈接鏈接到的第二網頁的標題之前,在待檢測網站上部署網絡爬蟲。第三提取單元用于提取網絡爬蟲在第一網頁上爬取到的網絡鏈接的地址。第五確定單元,用于確定爬取到的地址所表示的網頁為第二網頁。

      即,在需要進行檢測的網站上部署網絡爬蟲,提取網絡爬蟲爬取到的網絡鏈接的地址,該地址即為第二網頁的地址,該地址可以是URL地址。

      可選地,本申請實施例所提供的網頁鏈接的檢測裝置還包括設置單元和控制單元。設置單元用于在部署單元在待檢測網站部署網絡爬蟲之后,設置網絡爬蟲在待檢測網站上的爬取層級??刂茊卧?,用于控制網絡爬蟲按照爬取層級進行爬取。

      網站具有一定的深度。以組織結構為樹形結構的網站為例進行說明,網站首頁視為第一級網頁,第一級網頁的網絡鏈接鏈接到的網頁為第二級網頁,第二級網頁的網絡鏈接鏈接到的網頁為第三級網頁,以此類推可以得到一個完整的樹形鏈接結構。在整個樹形結構中,鏈接的層數為網頁鏈接的深度。由于深度非常大的網頁很難被用戶訪問,而且被搜索引擎收錄的可能性也較低,因此,需要設置一個爬取層級,使得網絡爬蟲只爬取層級小于等于預設爬取層級的網頁,這樣,可以大大提高網絡爬蟲爬取網頁的效率。

      所述網頁鏈接的檢測裝置包括處理器和存儲器,上述第一提取單元32、第二提取單元34、第一判斷單元36和第一確定單元38等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應的功能。

      處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來高效檢測網頁鏈接的正確性。

      存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。

      本申請還提供了一種計算機程序產品,當在數據處理設備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:提取第一網頁上的網絡鏈接的標題,其中,第一網頁是待檢測網站的任意一個具有鏈接的網頁,提取網絡鏈接鏈接到的第二網頁的標題,判斷網絡鏈接的標題與第二網頁的標題是否相同,在判斷出網絡鏈接的標題與第二網頁的標題相同的情況下,確定第二網頁是網絡鏈接的正確鏈接網頁。

      上述本申請實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

      在本申請的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。

      在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信鏈接可以是通過一些接口,單元或模塊的間接耦合或通信鏈接,可以是電性或其它的形式。

      所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

      另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。

      所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本申請的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。

      以上所述僅是本申請的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護范圍。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1