重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置。所述重復(fù)網(wǎng)頁(yè)識(shí)別方法包括:從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合;依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。本發(fā)明實(shí)施例公開(kāi)的重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置利用互聯(lián)網(wǎng)網(wǎng)頁(yè)之間的相互鏈接關(guān)系提高了重復(fù)網(wǎng)頁(yè)的識(shí)別效率。
【專(zhuān)利說(shuō)明】重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及網(wǎng)絡(luò)數(shù)據(jù)通信【技術(shù)領(lǐng)域】,尤其涉及一種重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝 置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)為廣大民眾普遍使用的今天,新的網(wǎng)站、網(wǎng)頁(yè)層出不窮。在眾多的網(wǎng)頁(yè) 中,有相當(dāng)一部分是重復(fù)網(wǎng)頁(yè)。重復(fù)網(wǎng)頁(yè)是指實(shí)質(zhì)內(nèi)容相同的網(wǎng)頁(yè),例如,顯示內(nèi)容完全相 同的網(wǎng)頁(yè);正文內(nèi)容相同,但標(biāo)題不同的網(wǎng)頁(yè);正文內(nèi)容相同,但輔助內(nèi)容不同的網(wǎng)頁(yè)等。 有研究顯示,重復(fù)網(wǎng)頁(yè)占據(jù)當(dāng)今互聯(lián)網(wǎng)上網(wǎng)頁(yè)總數(shù)的70%。有數(shù)量如此之大的重復(fù)性的數(shù) 據(jù),對(duì)于任何一個(gè)搜索引擎來(lái)說(shuō),都不得不說(shuō)是相當(dāng)大的處理障礙。
[0003] 現(xiàn)有的重復(fù)網(wǎng)頁(yè)識(shí)別方案都是對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)獨(dú)立的進(jìn)行重復(fù)網(wǎng)頁(yè)識(shí)別,并沒(méi) 有利用網(wǎng)頁(yè)之間的相互關(guān)系進(jìn)行識(shí)別。因此,造成了重復(fù)網(wǎng)頁(yè)的識(shí)別效率低下。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明實(shí)施例提出一種重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置,以提高重復(fù)網(wǎng)頁(yè)的 識(shí)別效率。
[0005] 第一方面,本發(fā)明實(shí)施例提供了一種重復(fù)網(wǎng)頁(yè)識(shí)別方法,所述方法包括:
[0006] 從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存 儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合;
[0007] 依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè) 中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0008] 第二方面,本發(fā)明實(shí)施例提供了一種重復(fù)網(wǎng)頁(yè)識(shí)別裝置,所述裝置包括:
[0009] 原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊,用于從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將 所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合;
[0010] 候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊,用于依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原 始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至 重復(fù)網(wǎng)頁(yè)集合。
[0011] 本發(fā)明實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法和裝置,通過(guò)從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一 組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合,依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè) 的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng) 頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合,從而利用網(wǎng)頁(yè)之間的相互鏈接關(guān)系搜索 重復(fù)網(wǎng)頁(yè),提高了重復(fù)網(wǎng)頁(yè)的識(shí)別效率。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0012] 通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它 特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0013] 圖1是本發(fā)明第一實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程圖;
[0014] 圖2是本發(fā)明第二實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中原始重復(fù)網(wǎng)頁(yè)識(shí)別的流程 圖;
[0015] 圖3是本發(fā)明第三實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中候選重復(fù)網(wǎng)頁(yè)識(shí)別的流程 圖;
[0016] 圖4是本發(fā)明第四實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程圖;
[0017] 圖5是本發(fā)明第四實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程示意圖;
[0018] 圖6是本發(fā)明第五實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中重復(fù)網(wǎng)頁(yè)驗(yàn)證的流程圖; [0019] 圖7是本發(fā)明第六實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描 述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于 描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0021] 圖1示出了本發(fā)明的第一實(shí)施例。
[0022] 圖1是本發(fā)明第一實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程圖。所述重復(fù)網(wǎng)頁(yè)識(shí)別 方法由重復(fù)網(wǎng)頁(yè)識(shí)別裝置執(zhí)行,并且,所述重復(fù)網(wǎng)頁(yè)識(shí)別裝置集成在用于識(shí)別重復(fù)網(wǎng)頁(yè)的 服務(wù)器中。
[0023] 參見(jiàn)圖1,所述重復(fù)網(wǎng)頁(yè)識(shí)別方法包括:
[0024] S110,從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù) 網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0025] 在互聯(lián)網(wǎng)大為流行的今天,互聯(lián)網(wǎng)上有數(shù)量規(guī)模巨大的網(wǎng)頁(yè)。在這些不同的網(wǎng)頁(yè) 中,重復(fù)網(wǎng)頁(yè)占據(jù)了其中相當(dāng)?shù)谋戎?。所謂重復(fù)網(wǎng)頁(yè),就是指網(wǎng)頁(yè)的內(nèi)容代碼完全相同,或 者差異非常小的網(wǎng)頁(yè)。由于重復(fù)網(wǎng)頁(yè)的存在,搜索引擎在進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的過(guò)程中就需 要對(duì)重復(fù)的網(wǎng)頁(yè)進(jìn)行剔除,以便提供給用戶(hù)唯一的網(wǎng)頁(yè)信息。
[0026] 通常情況下,在兩個(gè)重復(fù)網(wǎng)頁(yè)的相同位置的鏈接所指向的網(wǎng)頁(yè)也是重復(fù)網(wǎng)頁(yè)。本 實(shí)施例通過(guò)網(wǎng)頁(yè)之間的這種鏈接關(guān)系,迭代的識(shí)別互聯(lián)網(wǎng)上的重復(fù)網(wǎng)頁(yè),從而提高重復(fù)網(wǎng) 頁(yè)識(shí)別的效率。
[0027] 由于是根據(jù)網(wǎng)頁(yè)之間的鏈接關(guān)系迭代的識(shí)別重復(fù)網(wǎng)頁(yè),所以首先需要從互聯(lián)網(wǎng)網(wǎng) 頁(yè)中識(shí)別出至少一組原始重復(fù)網(wǎng)頁(yè),以作為后續(xù)進(jìn)行迭代的基礎(chǔ)。每組原始重復(fù)網(wǎng)頁(yè)包括 至少兩個(gè)代碼相同或者差異很小的重復(fù)網(wǎng)頁(yè)。優(yōu)選的,可以通過(guò)相同反向鏈接數(shù)量以及錨 文本相似度識(shí)別出一組原始重復(fù)網(wǎng)頁(yè)。
[0028] 對(duì)于一個(gè)網(wǎng)絡(luò)文檔來(lái)說(shuō),所有指向該文檔的鏈接都是它的反向鏈接。網(wǎng)頁(yè)上將文 本作為一個(gè)超鏈接,指向其他網(wǎng)頁(yè),則這樣的鏈接被稱(chēng)為錨文本鏈接,而錨文本鏈接所對(duì)應(yīng) 的呈現(xiàn)給用戶(hù)的文本被稱(chēng)為錨文本。所述錨文本相似度是錨文本代碼中相同代碼占全部錨 文本代碼的比率。
[0029] 所述重復(fù)網(wǎng)頁(yè)集合是由不同的重復(fù)網(wǎng)頁(yè)組成的集合。在識(shí)別出原始重復(fù)網(wǎng)頁(yè)以 后,將識(shí)別得出的原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)到所述重復(fù)網(wǎng)頁(yè)集合。優(yōu)選的,可以將所述原始重復(fù)網(wǎng) 頁(yè)的統(tǒng)一資源定位符(Uniform resource locator, URL)存儲(chǔ)至所述重復(fù)網(wǎng)頁(yè)集合,以記錄 所述原始重復(fù)網(wǎng)頁(yè)。
[0030] S120,依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系 的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0031] 針對(duì)每組原始重復(fù)網(wǎng)頁(yè),從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別到原始重復(fù)網(wǎng)頁(yè)以后,可以從所述 原始重復(fù)網(wǎng)頁(yè)的鏈接所指向的網(wǎng)頁(yè)中識(shí)別出另外一組重復(fù)網(wǎng)頁(yè)。識(shí)別出的該組重復(fù)網(wǎng)頁(yè)稱(chēng) 為一級(jí)重復(fù)網(wǎng)頁(yè)。類(lèi)似的,可以從所述一級(jí)重復(fù)網(wǎng)頁(yè)的鏈接所指向的網(wǎng)頁(yè)中識(shí)別出二級(jí)重 復(fù)網(wǎng)頁(yè)。以此類(lèi)推,可以依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別出多級(jí)候選重復(fù) 網(wǎng)頁(yè),添加到一個(gè)重復(fù)網(wǎng)頁(yè)集合中。
[0032] 優(yōu)選的,可以利用XPATH以及錨文本從已識(shí)別的重復(fù)網(wǎng)頁(yè)中識(shí)別重復(fù)鏈接,再計(jì) 算所述重復(fù)鏈接所指向的網(wǎng)頁(yè)的相似度,最后根據(jù)網(wǎng)頁(yè)的相似度識(shí)別互聯(lián)網(wǎng)網(wǎng)頁(yè)是否有重 復(fù)網(wǎng)頁(yè)。其中,XPATH是可擴(kuò)展標(biāo)記語(yǔ)言(Extensiblemarkuplanguage,XML)路徑語(yǔ)言,是 萬(wàn)維網(wǎng)聯(lián)盟(World wide web consortium, W3C)關(guān)于查詢(xún)部分XML文檔的通用語(yǔ)言標(biāo)準(zhǔn)。
[0033] 需要說(shuō)明的是,本實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法不僅適用于使用超文本標(biāo)記語(yǔ) 言(Hypertext markup language, HTML)寫(xiě)成的靜態(tài)網(wǎng)頁(yè),而且對(duì)于使用動(dòng)態(tài)服務(wù)器頁(yè)面 (Active server page, ASP)、Java 服務(wù)器頁(yè)面(Java server page, JSP)等語(yǔ)言寫(xiě)成的動(dòng)態(tài) 網(wǎng)頁(yè)同樣適用。
[0034] 本實(shí)施例通過(guò)從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),將所述至少一組原始 重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合,再依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重 復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù) 網(wǎng)頁(yè)集合,實(shí)現(xiàn)了通過(guò)互聯(lián)網(wǎng)網(wǎng)頁(yè)之間的鏈接關(guān)系迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),提高了重復(fù) 網(wǎng)頁(yè)的識(shí)別效率。
[0035] 圖2示出了本發(fā)明的第二實(shí)施例。
[0036] 圖2是本發(fā)明第二實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中原始重復(fù)網(wǎng)頁(yè)識(shí)別的流程 圖。參見(jiàn)圖2,所述重復(fù)網(wǎng)頁(yè)識(shí)別方法以本發(fā)明第一實(shí)施例為基礎(chǔ),進(jìn)一步的,從互聯(lián)網(wǎng)網(wǎng) 頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合包 括:
[0037] S111,根據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)獲取設(shè)定網(wǎng)頁(yè)資源的至少兩個(gè)反向鏈接網(wǎng)頁(yè)的 錨文本以及鏈接地址。
[0038] 所述互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)是一個(gè)預(yù)先建立的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中存儲(chǔ)著預(yù)先收 集的互聯(lián)網(wǎng)上不同網(wǎng)頁(yè)之間的鏈接關(guān)系。比如網(wǎng)頁(yè)A的頁(yè)面有一個(gè)鏈接指向了網(wǎng)頁(yè)B,那 么,在所述互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)中就會(huì)存儲(chǔ)網(wǎng)頁(yè)A指向網(wǎng)頁(yè)B的鏈接關(guān)系。所述互聯(lián)網(wǎng) 網(wǎng)頁(yè)鏈接關(guān)系庫(kù)是獲取原始重復(fù)網(wǎng)頁(yè)的依據(jù)。
[0039] 所述設(shè)定網(wǎng)頁(yè)資源是指互聯(lián)網(wǎng)網(wǎng)頁(yè)中的某個(gè)或某些網(wǎng)頁(yè),其作為識(shí)別重復(fù)網(wǎng)頁(yè)的 起始網(wǎng)頁(yè)??梢詮娜我庖粋€(gè)網(wǎng)頁(yè)開(kāi)始識(shí)別其重復(fù)網(wǎng)頁(yè)。設(shè)定網(wǎng)頁(yè)資源優(yōu)選采用互聯(lián)網(wǎng)上設(shè) 定網(wǎng)頁(yè)的統(tǒng)一資源定位符(Uniform resource locator, URL)來(lái)表示該網(wǎng)頁(yè)。通過(guò)所述設(shè)定 網(wǎng)頁(yè)資源,可以獲取所述設(shè)定網(wǎng)頁(yè)資源所表示的設(shè)定網(wǎng)頁(yè)的至少兩個(gè)反向鏈接網(wǎng)頁(yè)。所述 反向鏈接網(wǎng)頁(yè),就是網(wǎng)頁(yè)上有鏈接指向所述設(shè)定網(wǎng)頁(yè)資源的網(wǎng)頁(yè)。例如,A網(wǎng)頁(yè)中存在一個(gè) 鏈接,該鏈接指向B網(wǎng)頁(yè),B網(wǎng)頁(yè)是設(shè)定網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)頁(yè),則A網(wǎng)頁(yè)即是B網(wǎng)頁(yè)的反向 鏈接網(wǎng)頁(yè)。
[0040] 本實(shí)施例是通過(guò)對(duì)所述至少兩個(gè)反向鏈接網(wǎng)頁(yè)的錨文本以及鏈接地址進(jìn)行比較 而識(shí)別重復(fù)網(wǎng)頁(yè)的。因此,在獲取設(shè)定網(wǎng)頁(yè)資源的至少兩個(gè)反向鏈接網(wǎng)頁(yè)以后,獲取所述至 少兩個(gè)反向鏈接網(wǎng)頁(yè)的錨文本以及鏈接地址。
[0041] 假設(shè)獲取到了設(shè)定網(wǎng)頁(yè)資源的兩個(gè)反向鏈接網(wǎng)頁(yè):A網(wǎng)頁(yè)及B網(wǎng)頁(yè)。A網(wǎng)頁(yè)和B網(wǎng) 頁(yè)上否有它們各自的反向鏈接,而每個(gè)反向鏈接都對(duì)應(yīng)有它們各自的錨文本。分別獲取A 網(wǎng)頁(yè)以及B網(wǎng)頁(yè)的所有反向鏈接,以及每個(gè)反向鏈接對(duì)應(yīng)的錨文本,以便對(duì)A網(wǎng)頁(yè)同B網(wǎng)頁(yè) 是否可以組成重復(fù)網(wǎng)頁(yè)組進(jìn)行識(shí)別。
[0042] S112,將反向鏈接網(wǎng)頁(yè)中相同反向鏈接數(shù)量超過(guò)預(yù)定相同反向鏈接數(shù)量閾值,并 且錨文本相似度超過(guò)錨文本相似度閾值的反向鏈接網(wǎng)頁(yè)作為重復(fù)網(wǎng)頁(yè)組。
[0043] 獲取所述至少兩個(gè)反向鏈接網(wǎng)頁(yè)的錨文本以及鏈接地址之后,計(jì)算反向鏈接網(wǎng)頁(yè) 中相同反向鏈接的數(shù)量,以及反向鏈接網(wǎng)頁(yè)的錨文本相似度。其中,反向鏈接是否相同可 以通過(guò)比對(duì)反向鏈接地址來(lái)識(shí)別,也就是將鏈接地址完全相同的反向鏈接作為相同反向鏈 接。假設(shè)設(shè)定網(wǎng)頁(yè)資源有兩個(gè)反向鏈接網(wǎng)頁(yè),A網(wǎng)頁(yè)及B網(wǎng)頁(yè),并且相同反向鏈接數(shù)量閾值 是45,那么當(dāng)A網(wǎng)頁(yè)與B網(wǎng)頁(yè)上的鏈接地址完全相同的反向鏈接的數(shù)量超過(guò)45個(gè)的時(shí)候, A網(wǎng)頁(yè)與B網(wǎng)頁(yè)中相同反向鏈接數(shù)量就超過(guò)了預(yù)定相同反向鏈接數(shù)量閾值。
[0044] 所述錨文本相似度可以通過(guò)計(jì)算相同錨文本在所有錨文本代碼中所占的比率而 計(jì)算得到。計(jì)算所述反向鏈接網(wǎng)頁(yè)的相同反向鏈接數(shù)量以及錨文本相似度以后,將相同反 向鏈接數(shù)量超過(guò)預(yù)定的相同反向鏈接數(shù)量閾值,且錨文本相似度超過(guò)錨文本相似度閾值的 反向鏈接網(wǎng)頁(yè)作為重復(fù)網(wǎng)頁(yè)組。
[0045] S113,計(jì)算所述重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度,并將相似度滿(mǎn)足設(shè)定閾值的網(wǎng) 頁(yè)作為一組原始重復(fù)網(wǎng)頁(yè)。
[0046] 通過(guò)計(jì)算相同反向鏈接數(shù)量及錨文本相似度確定重復(fù)網(wǎng)頁(yè)組之后,計(jì)算所述重復(fù) 網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度。所述網(wǎng)頁(yè)相似度是不同網(wǎng)頁(yè)之間相同代碼占網(wǎng)頁(yè)所有代碼的 比率。計(jì)算所述重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度之后,將所述網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度與設(shè)定閾 值進(jìn)行比較,并將網(wǎng)頁(yè)相似度大于設(shè)定閾值的網(wǎng)頁(yè)作為一組原始重復(fù)網(wǎng)頁(yè)。
[0047] 本實(shí)施例通過(guò)根據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)獲取設(shè)定網(wǎng)頁(yè)資源的至少兩個(gè)反向鏈 接網(wǎng)頁(yè)的錨文本以及鏈接地址,根據(jù)相同反向鏈接數(shù)量以及錨文本相似度確定重復(fù)網(wǎng)頁(yè) 組,并根據(jù)重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度確定原始重復(fù)網(wǎng)頁(yè),使得能夠根據(jù)設(shè)定網(wǎng)頁(yè)資 源獲取原始重復(fù)網(wǎng)頁(yè),為迭代計(jì)算重復(fù)網(wǎng)頁(yè)提供了基礎(chǔ)。
[0048] 圖3示出了本發(fā)明的第三實(shí)施例。
[0049] 圖3是本發(fā)明第三實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中候選重復(fù)網(wǎng)頁(yè)識(shí)別的流程 圖。參見(jiàn)圖3,所述重復(fù)網(wǎng)頁(yè)識(shí)別方法以本發(fā)明第一實(shí)施例為基礎(chǔ),進(jìn)一步的,依據(jù)互聯(lián)網(wǎng)網(wǎng) 頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù) 網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合包括:
[0050] S121,將所述至少一組原始重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),根據(jù)當(dāng)前網(wǎng)頁(yè)上的錨文本識(shí) 別無(wú)效鏈接,并將所述無(wú)效鏈接從當(dāng)前網(wǎng)頁(yè)上去除。
[0051] 所述原始重復(fù)網(wǎng)頁(yè)中包括若干網(wǎng)頁(yè)鏈接,其中的一部分網(wǎng)頁(yè)鏈接有其對(duì)應(yīng)的錨文 本。
[0052] 有一些錨文本對(duì)應(yīng)的網(wǎng)頁(yè)鏈接對(duì)于識(shí)別重復(fù)網(wǎng)頁(yè)是無(wú)效的。比如錨文本"首頁(yè)", 其對(duì)應(yīng)的網(wǎng)頁(yè)鏈接一般都指向同一個(gè)網(wǎng)站的一個(gè)固定頁(yè)面,因此,該錨文本對(duì)應(yīng)的網(wǎng)頁(yè)鏈 接對(duì)于識(shí)別重復(fù)網(wǎng)頁(yè)是無(wú)效的。將這類(lèi)錨文本對(duì)應(yīng)的鏈接定義為無(wú)效鏈接。此外,其他對(duì) 識(shí)別重復(fù)網(wǎng)頁(yè)無(wú)幫助的鏈接也可以視為無(wú)效鏈接,可以根據(jù)需求設(shè)置關(guān)鍵詞、模板等,從而 在網(wǎng)頁(yè)中按需清除掉無(wú)效鏈接,以免干擾后續(xù)識(shí)別工作。
[0053] 在識(shí)別重復(fù)網(wǎng)頁(yè)的過(guò)程中,首先將所述原始重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),識(shí)別當(dāng)前網(wǎng) 頁(yè)上的錨文本來(lái)識(shí)別無(wú)效鏈接,然后將無(wú)效鏈接從當(dāng)前網(wǎng)頁(yè)中去除,以避免對(duì)候選重復(fù)網(wǎng) 頁(yè)的誤識(shí)別。
[0054] S122,獲取當(dāng)前網(wǎng)頁(yè)中XPATH相同、錨文本相同或相近的重復(fù)鏈接。
[0055] XPATH是可擴(kuò)展標(biāo)記語(yǔ)言(Extensible markup language, XML)路徑語(yǔ)言,是萬(wàn)維 網(wǎng)聯(lián)盟(World wide web consortium, W3C)關(guān)于查詢(xún)部分XML文檔的通用語(yǔ)言標(biāo)準(zhǔn)。XPATH 給出從某個(gè)節(jié)點(diǎn)起的查詢(xún)路徑,搜索文檔。使用XPATH可以在XML層次結(jié)構(gòu)中快速定位和 提取信息,它的內(nèi)建函數(shù)提供了全面的功能,可以方便的處理數(shù)值及文本數(shù)據(jù)。XPATH本質(zhì) 上是與具有層次結(jié)構(gòu)的XML數(shù)據(jù)模型相匹配的查詢(xún)語(yǔ)言,它可以通過(guò)任何方向?yàn)g覽樹(shù)來(lái)選 擇節(jié)點(diǎn),并根據(jù)節(jié)點(diǎn)的值和位置應(yīng)用謂詞。
[0056] 由于HTML與XML語(yǔ)言的相似性,而大部分的網(wǎng)頁(yè)都是使用HTML語(yǔ)言編寫(xiě)而成的, 所以,可以使用XPATH對(duì)網(wǎng)頁(yè)中不同鏈接對(duì)應(yīng)的節(jié)點(diǎn)進(jìn)行定位。如果兩個(gè)鏈接在當(dāng)前網(wǎng)頁(yè) 中的XPATH相同,則說(shuō)明這兩個(gè)鏈接在當(dāng)前網(wǎng)頁(yè)中所在的位置相同。利用這一點(diǎn),本實(shí)施例 通過(guò)XPATH來(lái)選擇重復(fù)鏈接。
[0057] 選擇重復(fù)鏈接還需要參考鏈接的錨文本。如果兩個(gè)鏈接在當(dāng)前網(wǎng)頁(yè)上的XPATH相 同,并且其對(duì)應(yīng)的錨文本相同,那么這兩個(gè)鏈接是重復(fù)鏈接;另外,如果兩個(gè)鏈接在當(dāng)前網(wǎng) 頁(yè)上的XPATH相同,而且其對(duì)應(yīng)的錨文本相近,則這兩個(gè)鏈接也被認(rèn)為是重復(fù)鏈接。而鏈接 對(duì)應(yīng)的錨文本是否相近可以通過(guò)預(yù)先配置的錨文本近義詞詞典來(lái)進(jìn)行辨認(rèn)。
[0058] S123,將所述重復(fù)鏈接指向的網(wǎng)頁(yè)作為候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0059] 所述重復(fù)網(wǎng)頁(yè)集合是用來(lái)存儲(chǔ)重復(fù)網(wǎng)頁(yè)的集合。在通過(guò)XPATH以及錨文本識(shí)別出 重復(fù)鏈接以后,將所述重復(fù)鏈接指向的網(wǎng)頁(yè)作為候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至所述重復(fù)網(wǎng)頁(yè)集合。
[0060] S124,將所述候選重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),返回執(zhí)行所述去除無(wú)效鏈接的操作,直 至獲取到的新的候選重復(fù)網(wǎng)頁(yè)的數(shù)量小于或等于設(shè)定穩(wěn)定值。
[0061] 在根據(jù)XPATH以及錨文本識(shí)別出所述原始重復(fù)網(wǎng)頁(yè)所直接鏈接的候選重復(fù)網(wǎng)頁(yè) 以后,再將所述候選重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),迭代的獲取當(dāng)前網(wǎng)頁(yè)所直接連接的候選重復(fù) 網(wǎng)頁(yè),也就是下一級(jí)候選重復(fù)網(wǎng)頁(yè)。
[0062] 在不斷迭代獲取下一級(jí)候選重復(fù)網(wǎng)頁(yè)的過(guò)程中,所述重復(fù)網(wǎng)頁(yè)集合中存儲(chǔ)的網(wǎng)頁(yè) 的數(shù)量會(huì)不斷增長(zhǎng)。由于互聯(lián)網(wǎng)網(wǎng)頁(yè)的總量雖然龐大,但畢竟有限,所以不斷迭代獲取下一 級(jí)候選重復(fù)網(wǎng)頁(yè)的過(guò)程中,所述重復(fù)網(wǎng)頁(yè)集合中的網(wǎng)頁(yè)數(shù)量會(huì)逐漸穩(wěn)定在一個(gè)數(shù)量上,也 就是獲取到的信息候選重復(fù)網(wǎng)頁(yè)的數(shù)量小于或等于設(shè)定穩(wěn)定值。此時(shí),停止對(duì)所述候選重 復(fù)網(wǎng)頁(yè)的迭代獲取,并以所述重復(fù)網(wǎng)頁(yè)集合中存儲(chǔ)的候選重復(fù)網(wǎng)頁(yè)作為最終獲取重復(fù)網(wǎng)頁(yè) 的結(jié)果。
[0063] 本實(shí)施例通過(guò)迭代的執(zhí)行從網(wǎng)頁(yè)上去除無(wú)效鏈接,利用錨文本以及XPATH識(shí)別重 復(fù)鏈接,以及將所述重復(fù)鏈接所指向的網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合,實(shí)現(xiàn)了根據(jù)互聯(lián)網(wǎng)上網(wǎng) 頁(yè)之間的相互連接關(guān)系獲取重復(fù)網(wǎng)頁(yè),進(jìn)一步的提高了重復(fù)網(wǎng)頁(yè)的識(shí)別效率。
[0064] 圖4及圖5示出了本發(fā)明的第四實(shí)施例。
[0065] 圖4是本發(fā)明第四實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程圖。所述重復(fù)網(wǎng)頁(yè)識(shí)別 方法以本發(fā)明第一實(shí)施例為基礎(chǔ),進(jìn)一步的,在依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少 一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè) 存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合之后,還包括:對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證。
[0066] 參見(jiàn)圖4,所述重復(fù)網(wǎng)頁(yè)識(shí)別方法包括:
[0067] S410,從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù) 網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0068] S420,依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系 的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0069] S430,對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證。
[0070] 通過(guò)XATH以及錨文本相似度對(duì)重復(fù)網(wǎng)頁(yè)進(jìn)行識(shí)別已經(jīng)具有很好的識(shí)別率,因此, 所述重復(fù)網(wǎng)頁(yè)集合中存儲(chǔ)的候選重復(fù)網(wǎng)頁(yè)大部分就是重復(fù)網(wǎng)頁(yè)。但是,不能排除通過(guò)XPATH 以及錨文本相似度識(shí)別出的候選重復(fù)網(wǎng)頁(yè)實(shí)際上內(nèi)容完全不同。所以需要對(duì)所述重復(fù)網(wǎng)頁(yè) 集合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證。
[0071] 對(duì)重復(fù)網(wǎng)頁(yè)的驗(yàn)證可以通過(guò)讀取所述重復(fù)網(wǎng)頁(yè)的內(nèi)容,再計(jì)算重復(fù)網(wǎng)頁(yè)之間的網(wǎng) 頁(yè)相似度,最后認(rèn)定網(wǎng)頁(yè)相似度高于預(yù)定閾值的網(wǎng)頁(yè)為重復(fù)網(wǎng)頁(yè)。
[0072] 圖5是本發(fā)明第四實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法的流程示意圖。參見(jiàn)圖5,執(zhí)行 所述重復(fù)網(wǎng)頁(yè)識(shí)別方法的服務(wù)器首先從互聯(lián)網(wǎng)中進(jìn)行原始重復(fù)網(wǎng)頁(yè)的獲取501,然后對(duì)獲 取到的原始重復(fù)網(wǎng)頁(yè)進(jìn)行重復(fù)特征提取502。提取到所述原始重復(fù)網(wǎng)頁(yè)的重復(fù)特征以后,根 據(jù)預(yù)先建立的互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)511迭代的進(jìn)行候選重復(fù)網(wǎng)頁(yè)獲取503,并將獲取的 候選重復(fù)網(wǎng)頁(yè)存入重復(fù)頁(yè)面集合512。最后,對(duì)所述重復(fù)頁(yè)面集合512中存儲(chǔ)的重復(fù)頁(yè)面進(jìn) 行頁(yè)面抓取504和結(jié)果驗(yàn)證505。
[0073] 本實(shí)施例通過(guò)在迭代獲取重復(fù)網(wǎng)頁(yè)后,通過(guò)頁(yè)面讀取對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重 復(fù)網(wǎng)頁(yè)進(jìn)行驗(yàn)證,進(jìn)一步的提高了對(duì)重復(fù)網(wǎng)頁(yè)進(jìn)行識(shí)別的準(zhǔn)確率。
[0074] 圖6示出了本發(fā)明的第五實(shí)施例。
[0075] 圖6是本發(fā)明第五實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別方法中重復(fù)網(wǎng)頁(yè)驗(yàn)證的流程圖。參 見(jiàn)圖6,所述重復(fù)網(wǎng)頁(yè)識(shí)別方法以本發(fā)明第四實(shí)施例為基礎(chǔ),進(jìn)一步的,對(duì)所述重復(fù)網(wǎng)頁(yè)集 合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證包括:
[0076] S431,抓取所述重復(fù)網(wǎng)頁(yè)集合中重復(fù)網(wǎng)頁(yè)的代碼。
[0077] 在進(jìn)行重復(fù)網(wǎng)頁(yè)驗(yàn)證之前,所述重復(fù)網(wǎng)頁(yè)集合中存儲(chǔ)有原始重復(fù)網(wǎng)頁(yè)以及候選重 復(fù)網(wǎng)頁(yè)。將所述原始重復(fù)網(wǎng)頁(yè)以及候選重復(fù)網(wǎng)頁(yè)統(tǒng)稱(chēng)為重復(fù)網(wǎng)頁(yè)。
[0078] 對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證,可以是比對(duì)所述重復(fù)網(wǎng)頁(yè) 集合中重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,并將網(wǎng)頁(yè)內(nèi)容完全相同或者基本相同的網(wǎng)頁(yè)確認(rèn)為實(shí)際重復(fù) 網(wǎng)頁(yè)。
[0079] 由于需要對(duì)重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容進(jìn)行比對(duì),所以首先需要抓取所述重復(fù)網(wǎng)頁(yè)集合 中重復(fù)網(wǎng)頁(yè)的代碼。
[0080] S432,根據(jù)所述重復(fù)網(wǎng)頁(yè)的代碼計(jì)算重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度。
[0081] 所述網(wǎng)頁(yè)相似度是網(wǎng)頁(yè)代碼中相同代碼占全部網(wǎng)頁(yè)代碼的比率。在抓取重復(fù)網(wǎng)頁(yè) 的代碼以后,根據(jù)所抓取的重復(fù)網(wǎng)頁(yè)的代碼計(jì)算所述重復(fù)網(wǎng)頁(yè)的相似度。計(jì)算的過(guò)程可以 是,首先統(tǒng)計(jì)所述重復(fù)網(wǎng)頁(yè)中相同代碼的代碼量,再統(tǒng)計(jì)所述重復(fù)網(wǎng)頁(yè)的總代碼量,最后依 據(jù)相同代碼的代碼量與總代碼量的比值確定所述網(wǎng)頁(yè)相似度。
[0082] S433,確認(rèn)網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù)網(wǎng)頁(yè)作為實(shí)際重復(fù)網(wǎng)頁(yè)。
[0083] 計(jì)算所述重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度以后,將所述網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù) 網(wǎng)頁(yè)作為實(shí)際重復(fù)網(wǎng)頁(yè)。
[0084] 本實(shí)施例通過(guò)抓取重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)代碼,計(jì)算重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度,以及確認(rèn) 網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù)網(wǎng)頁(yè)為實(shí)際重復(fù)網(wǎng)頁(yè),實(shí)現(xiàn)了對(duì)重復(fù)網(wǎng)頁(yè)的驗(yàn)證,提高 了對(duì)重復(fù)網(wǎng)頁(yè)進(jìn)行識(shí)別的準(zhǔn)確率。
[0085] 圖7示出了本發(fā)明的第六實(shí)施例。
[0086] 圖7是本發(fā)明第六實(shí)施例提供的重復(fù)網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)圖。參見(jiàn)圖7,所述重復(fù) 網(wǎng)頁(yè)識(shí)別裝置包括:原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊710以及候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊720。
[0087] 所述原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊710用于從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng) 頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0088] 所述候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊720用于依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少 一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè) 存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0089] 優(yōu)選的,所述重復(fù)網(wǎng)頁(yè)識(shí)別裝置還包括:重復(fù)網(wǎng)頁(yè)驗(yàn)證模塊730。
[0090] 所述重復(fù)網(wǎng)頁(yè)驗(yàn)證模塊730用于在從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系 的網(wǎng)頁(yè)中識(shí)別重復(fù)網(wǎng)頁(yè),并將該重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合之后,對(duì)所述重復(fù)網(wǎng)頁(yè)集合 中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證。
[0091] 優(yōu)選的,所述原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊710包括:特征提取單元711、重復(fù)網(wǎng)頁(yè)組確 定單元712以及重復(fù)網(wǎng)頁(yè)確定單元713。
[0092] 所述特征提取單元711用于根據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)獲取設(shè)定網(wǎng)頁(yè)資源的至 少兩個(gè)反向鏈接網(wǎng)頁(yè)的錨文本以及鏈接地址。
[0093] 所述重復(fù)網(wǎng)頁(yè)組確定單元712用于將反向鏈接網(wǎng)頁(yè)中相同反向鏈接數(shù)量超過(guò)預(yù) 定相同反向鏈接數(shù)量閾值,并且錨文本相似度超過(guò)錨文本相似度閾值的反向鏈接網(wǎng)頁(yè)作為 重復(fù)網(wǎng)頁(yè)組。
[0094] 所述重復(fù)網(wǎng)頁(yè)確定單元713用于計(jì)算所述重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度,并將 相似度滿(mǎn)足設(shè)定閾值的網(wǎng)頁(yè)作為一組原始重復(fù)網(wǎng)頁(yè)。
[0095] 優(yōu)選的,所述錨文本相似度是錨文本代碼中相同代碼占全部錨文本代碼的比率。
[0096] 優(yōu)選的,所述候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊720包括:無(wú)效鏈接去除單元721、候選鏈接 獲取單元722、重復(fù)網(wǎng)頁(yè)集合存儲(chǔ)單元723以及執(zhí)行單元724。
[0097] 所述無(wú)效鏈接去除單元721用于將所述至少一組原始重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),根 據(jù)當(dāng)前網(wǎng)頁(yè)上的錨文本識(shí)別無(wú)效鏈接,并將所述無(wú)效鏈接從當(dāng)前網(wǎng)頁(yè)上去除。
[0098] 所述候選鏈接獲取單元722用于獲取當(dāng)前網(wǎng)頁(yè)中XPATH相同、錨文本相同或相近 的重復(fù)鏈接。
[0099] 所述重復(fù)網(wǎng)頁(yè)集合存儲(chǔ)單元723用于將所述重復(fù)鏈接指向的網(wǎng)頁(yè)作為候選重復(fù) 網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
[0100] 所述執(zhí)行單元724用于將所述候選重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),返回執(zhí)行所述去除無(wú) 效鏈接的操作,直至獲取到的新的候選重復(fù)網(wǎng)頁(yè)的數(shù)量小于或等于設(shè)定穩(wěn)定值。
[0101] 優(yōu)選的,所述重復(fù)網(wǎng)頁(yè)驗(yàn)證模塊730包括:代碼抓取單元731、網(wǎng)頁(yè)相似度計(jì)算單 元732以及重復(fù)網(wǎng)頁(yè)確定單元733。
[0102] 所述代碼抓取單元731用于抓取所述重復(fù)網(wǎng)頁(yè)集合中重復(fù)網(wǎng)頁(yè)的代碼。
[0103] 所述網(wǎng)頁(yè)相似度計(jì)算單元732用于根據(jù)所述重復(fù)網(wǎng)頁(yè)的代碼計(jì)算重復(fù)網(wǎng)頁(yè)的網(wǎng) 頁(yè)相似度。
[0104] 所述重復(fù)網(wǎng)頁(yè)確定單元733用于確認(rèn)網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù)網(wǎng)頁(yè)作 為實(shí)際重復(fù)網(wǎng)頁(yè)。
[0105] 優(yōu)選的,所述網(wǎng)頁(yè)相似度是網(wǎng)頁(yè)代碼中相同代碼占全部網(wǎng)頁(yè)代碼的比率。
[0106] 上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0107] 本領(lǐng)域普通技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì) 算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò) 上,可選地,他們可以用計(jì)算機(jī)裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ) 裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多 個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和 軟件的結(jié)合。
[0108] 本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間的相同或相似的部分互相參見(jiàn)即可。
[0109] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域技術(shù)人員 而言,本發(fā)明可以有各種改動(dòng)和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同 替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種重復(fù)網(wǎng)頁(yè)識(shí)別方法,其特征在于,包括: 從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至 重復(fù)網(wǎng)頁(yè)集合; 依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭 代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述 至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù) 網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合之后,還包括: 對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè)是否重復(fù)進(jìn)行驗(yàn)證。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重 復(fù)網(wǎng)頁(yè),并將所述至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合包括: 根據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)獲取設(shè)定網(wǎng)頁(yè)資源的至少兩個(gè)反向鏈接網(wǎng)頁(yè)的錨文本以 及鏈接地址; 將反向鏈接網(wǎng)頁(yè)中相同反向鏈接數(shù)量超過(guò)預(yù)定相同反向鏈接數(shù)量閾值,并且錨文本相 似度超過(guò)錨文本相似度閾值的反向鏈接網(wǎng)頁(yè)作為重復(fù)網(wǎng)頁(yè)組; 計(jì)算所述重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度,并將相似度滿(mǎn)足設(shè)定閾值的網(wǎng)頁(yè)作為一組 原始重復(fù)網(wǎng)頁(yè)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述錨文本相似度是錨文本代碼中相同 代碼占全部錨文本代碼的比率。
5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈 接關(guān)系的網(wǎng)頁(yè)中識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合包括: 將所述至少一組原始重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),根據(jù)當(dāng)前網(wǎng)頁(yè)上的錨文本識(shí)別無(wú)效鏈 接,并將所述無(wú)效鏈接從當(dāng)前網(wǎng)頁(yè)上去除; 獲取當(dāng)前網(wǎng)頁(yè)中XPATH相同、錨文本相同或相近的重復(fù)鏈接; 將所述重復(fù)鏈接指向的網(wǎng)頁(yè)作為候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合; 將所述候選重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),返回執(zhí)行所述去除無(wú)效鏈接的操作,直至獲取到 的新的候選重復(fù)網(wǎng)頁(yè)的數(shù)量小于或等于設(shè)定穩(wěn)定值。
6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè)是否 重復(fù)進(jìn)行驗(yàn)證包括: 抓取所述重復(fù)網(wǎng)頁(yè)集合中重復(fù)網(wǎng)頁(yè)的代碼; 根據(jù)所述重復(fù)網(wǎng)頁(yè)的代碼計(jì)算重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度; 確認(rèn)網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù)網(wǎng)頁(yè)作為實(shí)際重復(fù)網(wǎng)頁(yè)。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述網(wǎng)頁(yè)相似度是網(wǎng)頁(yè)代碼中相同代碼 占全部網(wǎng)頁(yè)代碼的比率。
8. -種重復(fù)網(wǎng)頁(yè)識(shí)別裝置,其特征在于,包括: 原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊,用于從互聯(lián)網(wǎng)網(wǎng)頁(yè)中識(shí)別至少一組原始重復(fù)網(wǎng)頁(yè),并將所述 至少一組原始重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合; 候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊,用于依據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏈接關(guān)系,從與所述至少一組原始重 復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中迭代的識(shí)別候選重復(fù)網(wǎng)頁(yè),并將所述候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù) 網(wǎng)頁(yè)集合。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括: 重復(fù)網(wǎng)頁(yè)驗(yàn)證模塊,用于在從與所述至少一組原始重復(fù)網(wǎng)頁(yè)有鏈接關(guān)系的網(wǎng)頁(yè)中識(shí)別 重復(fù)網(wǎng)頁(yè),并將該重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重復(fù)網(wǎng)頁(yè)集合之后,對(duì)所述重復(fù)網(wǎng)頁(yè)集合中的重復(fù)網(wǎng)頁(yè) 是否重復(fù)進(jìn)行驗(yàn)證。
10. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述原始重復(fù)網(wǎng)頁(yè)識(shí)別模塊包括: 特征提取單元,用于根據(jù)互聯(lián)網(wǎng)網(wǎng)頁(yè)鏈接關(guān)系庫(kù)獲取設(shè)定網(wǎng)頁(yè)資源的至少兩個(gè)反向鏈 接網(wǎng)頁(yè)的錨文本以及鏈接地址; 重復(fù)網(wǎng)頁(yè)組確定單元,用于將反向鏈接網(wǎng)頁(yè)中相同反向鏈接數(shù)量超過(guò)預(yù)定相同反向鏈 接數(shù)量閾值,并且錨文本相似度超過(guò)錨文本相似度閾值的反向鏈接網(wǎng)頁(yè)作為重復(fù)網(wǎng)頁(yè)組; 重復(fù)網(wǎng)頁(yè)確定單元,用于計(jì)算所述重復(fù)網(wǎng)頁(yè)組中網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度,并將相似度滿(mǎn)足 設(shè)定閾值的網(wǎng)頁(yè)作為一組原始重復(fù)網(wǎng)頁(yè)。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述錨文本相似度是錨文本代碼中相 同代碼占全部錨文本代碼的比率。
12. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述候選重復(fù)網(wǎng)頁(yè)識(shí)別模塊包括: 無(wú)效鏈接去除單元,用于將所述至少一組原始重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),根據(jù)當(dāng)前網(wǎng)頁(yè) 上的錨文本識(shí)別無(wú)效鏈接,并將所述無(wú)效鏈接從當(dāng)前網(wǎng)頁(yè)上去除; 候選鏈接獲取單元,用于獲取當(dāng)前網(wǎng)頁(yè)中XPATH相同、錨文本相同或相近的重復(fù)鏈接; 重復(fù)網(wǎng)頁(yè)集合存儲(chǔ)單元,用于將所述重復(fù)鏈接指向的網(wǎng)頁(yè)作為候選重復(fù)網(wǎng)頁(yè)存儲(chǔ)至重 復(fù)網(wǎng)頁(yè)集合; 執(zhí)行單元,用于將所述候選重復(fù)網(wǎng)頁(yè)作為當(dāng)前網(wǎng)頁(yè),返回執(zhí)行所述去除無(wú)效鏈接的操 作,直至獲取到的新的候選重復(fù)網(wǎng)頁(yè)的數(shù)量小于或等于設(shè)定穩(wěn)定值。
13. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述重復(fù)網(wǎng)頁(yè)驗(yàn)證模塊包括: 代碼抓取單元,用于抓取所述重復(fù)網(wǎng)頁(yè)集合中重復(fù)網(wǎng)頁(yè)的代碼; 網(wǎng)頁(yè)相似度計(jì)算單元,用于根據(jù)所述重復(fù)網(wǎng)頁(yè)的代碼計(jì)算重復(fù)網(wǎng)頁(yè)的網(wǎng)頁(yè)相似度; 重復(fù)網(wǎng)頁(yè)確定單元,用于確認(rèn)網(wǎng)頁(yè)相似度高于相似度閾值的重復(fù)網(wǎng)頁(yè)作為實(shí)際重復(fù)網(wǎng) 頁(yè)。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述網(wǎng)頁(yè)相似度是網(wǎng)頁(yè)代碼中相同代 碼占全部網(wǎng)頁(yè)代碼的比率。
【文檔編號(hào)】G06F17/30GK104063506SQ201410324553
【公開(kāi)日】2014年9月24日 申請(qǐng)日期:2014年7月8日 優(yōu)先權(quán)日:2014年7月8日
【發(fā)明者】李羽, 顏俊偉, 李 浩 申請(qǐng)人:百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司