国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      統(tǒng)一資源定位符url中無效參數(shù)的識別設(shè)備及方法

      文檔序號:6514471閱讀:251來源:國知局
      統(tǒng)一資源定位符url中無效參數(shù)的識別設(shè)備及方法
      【專利摘要】本發(fā)明涉及搜索引擎【技術(shù)領(lǐng)域】,其公開了統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備及方法,其中所述設(shè)備包括:URL獲取單元,適于獲取多個網(wǎng)頁鏈接的URL;URL片段組合提取單元,適于分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合;統(tǒng)計單元,適于統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;有效性判斷單元,適于針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷。提高識別重復(fù)鏈接的效率,進而提高了搜索引擎抓取信息的效率。
      【專利說明】統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備及方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及搜索引擎【技術(shù)領(lǐng)域】,具體涉及統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備及方法。
      【背景技術(shù)】
      [0002]隨著計算機網(wǎng)絡(luò)技術(shù)的飛躍發(fā)展和計算機設(shè)備的迅速普及,越來越多的人們利用計算機和互聯(lián)網(wǎng)來獲取信息,互聯(lián)網(wǎng)能夠給人們帶來的服務(wù)也越來越豐富和多樣化,存在于互聯(lián)網(wǎng)上的數(shù)據(jù)呈現(xiàn)出爆炸式的增長,以中文網(wǎng)頁為例,互聯(lián)網(wǎng)上的中文網(wǎng)頁鏈接數(shù)量已經(jīng)達到萬億規(guī)模。
      [0003]搜索引擎是伴隨著互聯(lián)網(wǎng)信息爆炸式增長過程出現(xiàn)的技術(shù),旨在滿足人們在互聯(lián)網(wǎng)的海量信息中搜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互聯(lián)網(wǎng)中搜集各種各樣的信息,進而對信息進行加工和整理;另一方面,搜索引擎將加工整理后的信息以一定的次序展示給用戶,來滿足用戶的檢索需求。在搜索引擎搜集互聯(lián)網(wǎng)信息時,一個重要的依據(jù)便是統(tǒng)一資源定位符URL (也可以理解為網(wǎng)頁對應(yīng)的網(wǎng)址),這是因為URL對于每一個網(wǎng)頁都是唯一的,即在互聯(lián)網(wǎng)上每一個網(wǎng)頁對應(yīng)于唯一的一個URL,搜索引擎可以依據(jù)URL來獲取對應(yīng)網(wǎng)頁中的信息。但在當今互聯(lián)網(wǎng)上數(shù)量龐大的URL中,存在著不同URL對應(yīng)的不同頁面,但頁面本身的內(nèi)容是相同的情況,尤其是在當今動態(tài)網(wǎng)頁技術(shù)越來越多的被使用,導(dǎo)致URL不同但網(wǎng)頁的主體內(nèi)容相同的情況也在迅速的增加,這就給搜索引擎技術(shù)的應(yīng)用提出了一個問題:如何在數(shù)量龐大的URL中識別重復(fù)的鏈接,以減少重復(fù)信息的收錄,提高搜集信息的效率。

      【發(fā)明內(nèi)容】

      [0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備,和相應(yīng)的統(tǒng)一資源定位符URL中無效參數(shù)的識別方法。
      [0005]依據(jù)本發(fā)明的一個方面,提供了一種統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備,包括:
      [0006]URL獲取單元,適于獲取多個網(wǎng)頁鏈接的URL ;
      [0007]URL片段組合提取單元,適于分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合;
      [0008]統(tǒng)計單元,適于統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;
      [0009]有效性判斷單元,適于針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷。
      [0010]可選地,還包括:
      [0011]保存單元,用于將所述有效性判斷單元對目標URL片段組中各URL參數(shù)的有效性進行判斷的結(jié)果,保存為無效片段組合列表;
      [0012]待測URL提取單元,適于獲取待測的網(wǎng)頁鏈接對應(yīng)的待測URL地址;
      [0013]URL片段組合提取單元,適于從所述待測URL地址中提取URL片段組合;
      [0014]URL參數(shù)檢測單元,適于根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性。
      [0015]可選地,所述URL片段組合提取單元,適于:
      [0016]從所述待測URL地址中提取所述待測URL地址中包括的動態(tài)文件的文件名以及對應(yīng)的URL參數(shù),將提取到的所述動態(tài)文件的文件名以及所述對應(yīng)的URL參數(shù)進行組合,作為所述URL片段組合。
      [0017]可選地,所述無效片段組合列表中保存有無效片段組合及組合中各URL參數(shù)的有效性信息。
      [0018]可選地,所述URL參數(shù)檢測單元,適于:以所述URL片段組合查詢所述無效片段組合列表,查詢無效片段組合列表中是否存在相匹配的無效片段組合;
      [0019]如存在,則根據(jù)相匹配的無效片段組合及其中各URL參數(shù)的有效性信息,判斷所述URL片段組合中URL參數(shù)的有效性。
      [0020]可選地,所述統(tǒng)計單元,包括:
      [0021 ] 第一統(tǒng)計子單元,適于統(tǒng)計包含有同一 URL片段組合的URL的數(shù)目,將該數(shù)目確定為所述URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;
      [0022]或,
      [0023]第二統(tǒng)計子單元,適于統(tǒng)計同一 URL片段組合對應(yīng)的不同互聯(lián)網(wǎng)位置的數(shù)目,將該數(shù)目確定為所述URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;其中,所述互聯(lián)網(wǎng)位置由URL中的網(wǎng)絡(luò)路徑確定。
      [0024]可選地,所述統(tǒng)計單元,包括:
      [0025]第三統(tǒng)計子單元,適于統(tǒng)計包含有同一 URL片段組合的URL的數(shù)目,將該數(shù)目確定為所述URL片段組合的第一出現(xiàn)頻次;
      [0026]第四統(tǒng)計子單元,適于統(tǒng)計同一 URL片段組合對應(yīng)的不同互聯(lián)網(wǎng)位置的數(shù)目,將該數(shù)目確定為所述URL片段組合的第二出現(xiàn)頻次;其中,所述互聯(lián)網(wǎng)位置由URL中的網(wǎng)絡(luò)路徑確定;
      [0027]確定子單元,適于將所述第一出現(xiàn)頻次以及第二出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合。
      [0028]可選地,所述確定子單元,包括:
      [0029]聯(lián)合頻次計算子單元,適于根據(jù)第一出現(xiàn)頻次、第二出現(xiàn)頻次以及各自預(yù)置的權(quán)重,計算URL片段組合的聯(lián)合頻次;
      [0030]聯(lián)合確定子單元,適于將聯(lián)合頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合。
      [0031]可選地,所述有效性判斷單元,包括:
      [0032]抽樣單元,適于在包含有所述目標URL片段組合的URL中抽取預(yù)置數(shù)量的URL ;
      [0033]有效性判斷子單元,適于基于所述抽樣單元抽取的所述預(yù)置數(shù)量的URLJig#URL片段組合中各參數(shù)的有效性進行判斷。
      [0034]可選地,所述有效性判斷單元,具體適于:
      [0035]針對各個目標URL片段組合,對包含有所述目標URL片段組合的URL,對比分別去掉所述URL的每個參數(shù)前后網(wǎng)頁內(nèi)容的變化情況,如果去掉某參數(shù)前后網(wǎng)頁內(nèi)容一致,則確定該參數(shù)對應(yīng)于目標URL片段組中的參數(shù)的為無效參數(shù)。
      [0036]可選地,所述URL片段組合提取單元,具體適于:
      [0037]如果某URL中包含動態(tài)文件的文件名以及對應(yīng)的至少兩個參數(shù),則將所述動態(tài)文件的文件名以及對應(yīng)的各個參數(shù)作為該URL中的URL片段組合提取出來。
      [0038]可選地,所述有效性判斷單元,適于:
      [0039]針對各個目標URL片段組合,從包含有所述目標URL片段組合的URL中,抽取分布在不同互聯(lián)網(wǎng)位置的預(yù)置數(shù)目的URL,并基于抽取出的URL,對目標URL片段組中各參數(shù)的有效性進行判斷。
      [0040]根據(jù)本發(fā)明的另一方面,提供了一種URL中無效參數(shù)的識別方法,包括:
      [0041]獲取多個網(wǎng)頁鏈接的URL ;
      [0042]分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合;
      [0043]統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;
      [0044]針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷。
      [0045]可選地,還包括:
      [0046]將所述有效性判斷單元對目標URL片段組中各URL參數(shù)的有效性進行判斷的結(jié)果,保存為無效片段組合列表;
      [0047]獲取待測的網(wǎng)頁鏈接對應(yīng)的待測URL地址;
      [0048]從所述待測URL地址中提取URL片段組合;
      [0049]根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性。
      [0050]可選地,所述從所述待測URL地址中提取URL片段組合,包括:
      [0051]從所述待測URL地址中提取所述待測URL地址中包括的動態(tài)文件的文件名以及對應(yīng)的URL參數(shù),將提取到的所述動態(tài)文件的文件名以及所述對應(yīng)的URL參數(shù)進行組合,作為所述URL片段組合;
      [0052]所述無效片段組合列表中保存有無效片段組合及組合中各參數(shù)的有效性信息。
      [0053]可選地,所述無效片段組合列表中保存有無效片段組合及組合中各URL參數(shù)的有效性信息。
      [0054]可選地,所述根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性,包括:
      [0055]以所述URL片段組合查詢所述無效片段組合列表,查詢無效片段組合列表中是否存在相匹配的無效片段組合;
      [0056]如存在,則根據(jù)相匹配的無效片段組合及其中各URL參數(shù)的有效性信息,判斷所述URL片段組合中URL參數(shù)的有效性。
      [0057]可選地,所述統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合,包括:
      [0058]統(tǒng)計包含有同一 URL片段組合的URL的數(shù)目,將該數(shù)目確定為所述URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;
      [0059]或,
      [0060]統(tǒng)計同一 URL片段組合對應(yīng)的不同互聯(lián)網(wǎng)位置的數(shù)目,將該數(shù)目確定為所述URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;其中,所述互聯(lián)網(wǎng)位置由URL中的網(wǎng)絡(luò)路徑確定。
      [0061]可選地,所述統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合,包括:
      [0062]統(tǒng)計包含有同一 URL片段組合的URL的數(shù)目,將該數(shù)目確定為所述URL片段組合的第一出現(xiàn)頻次;
      [0063]統(tǒng)計同一 URL片段組合對應(yīng)的不同互聯(lián)網(wǎng)位置的數(shù)目,將該數(shù)目確定為所述URL片段組合的第二出現(xiàn)頻次;其中,所述互聯(lián)網(wǎng)位置由URL中的網(wǎng)絡(luò)路徑確定;
      [0064]將所述第一出現(xiàn)頻次以及第二出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合。
      [0065]可選地,所述將所述第一出現(xiàn)頻次以及第二出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合,包括:
      [0066]根據(jù)第一出現(xiàn)頻次、第二出現(xiàn)頻次以及各自預(yù)置的權(quán)重,計算URL片段組合的聯(lián)合頻次;
      [0067]將聯(lián)合頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合。
      [0068]可選地,所述針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各參數(shù)的有效性進行判斷,包括:
      [0069]在包含有所述目標URL片段組合的URL中抽取預(yù)置數(shù)量的URL ;
      [0070]基于所述抽樣單元抽取的所述預(yù)置數(shù)量的URL,對目標URL片段組合中各參數(shù)的有效性進行判斷。
      [0071]可選地,所述針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各參數(shù)的有效性進行判斷,包括:
      [0072]針對各個目標URL片段組合,對包含有所述目標URL片段組合的URL,對比分別去掉所述URL的每個參數(shù)前后網(wǎng)頁內(nèi)容的變化情況,如果去掉某參數(shù)前后網(wǎng)頁內(nèi)容一致,則確定該參數(shù)對應(yīng)于目標URL片段組中的參數(shù)的為無效參數(shù)。
      [0073]可選地,所述分別從各URL中提取URL片段組合,包括:
      [0074]如果某URL中包含動態(tài)文件的文件名以及對應(yīng)的至少兩個參數(shù),則將所述動態(tài)文件的文件名以及對應(yīng)的各個參數(shù)作為該URL中的URL片段組合提取出來。
      [0075]可選地,所述針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各參數(shù)的有效性進行判斷,包括:
      [0076]針對各個目標URL片段組合,從包含有所述目標URL片段組合的URL中,抽取分布在不同互聯(lián)網(wǎng)位置的預(yù)置數(shù)目的URL,并基于抽取出的URL,對目標URL片段組中各參數(shù)的有效性進行判斷。
      [0077]根據(jù)本發(fā)明的統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備,可以獲取多個網(wǎng)頁鏈接的URL ;進而分別獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合;統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合;針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷?;讷@取到的多個網(wǎng)頁鏈接的URL,通過統(tǒng)計和過濾,對符合條件的具有相同的URL片段組合進行一次性判斷,解決了搜索引擎?zhèn)鹘y(tǒng)的識別重復(fù)鏈接中的無效參數(shù)時,需要檢測收集到的所有鏈接的無效參數(shù),并且對每個參數(shù)都要窮舉其所有可能性并分別進行一一判斷,識別效率低下的問題。達到了快速識別無效鏈接中的參數(shù),提高識別重復(fù)鏈接的效率。
      [0078]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
      【專利附圖】

      【附圖說明】
      [0079]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
      [0080]圖1示出了根據(jù)本發(fā)明一個實施例的統(tǒng)一資源定位符URL地址中無效參數(shù)的識別方法的流程圖;
      [0081]圖2示出了根據(jù)本發(fā)明一個實施例的統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備不意圖;
      [0082]圖3示出了根據(jù)本發(fā)明一個實施例的另一統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備示意圖;
      [0083]圖4示出了根據(jù)本發(fā)明一個實施例的再一統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備示意圖;
      [0084]圖5示出了根據(jù)本發(fā)明一個實施例的又一統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備示意圖;
      [0085]圖6示出了根據(jù)本發(fā)明一個實施例的又另一統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備示意圖;
      [0086]圖7示出了根據(jù)本發(fā)明一個實施例的又再一統(tǒng)一資源定位符URL地址中無效參數(shù)的識別設(shè)備示意圖;以及
      [0087]圖8示出了根據(jù)本發(fā)明一個實施例的統(tǒng)一資源定位符URL地址中無效參數(shù)的識別方法的應(yīng)用舉例示意圖。
      【具體實施方式】
      [0088]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
      [0089]請參見圖1,為本發(fā)明實施例提供的統(tǒng)一資源定位符URL地址中無效參數(shù)的識別方法流程圖,如圖所示,該方法可以包括以下步驟:
      [0090]S110:獲取多個網(wǎng)頁鏈接的URL ;
      [0091]首先可以獲取待測的網(wǎng)頁鏈接對應(yīng)的待測URL地址,互聯(lián)網(wǎng)中,每一個頁面都有唯一的URL與之對應(yīng),在對URL地址進行無效參數(shù)的檢測時,可以首先獲取待測的URL地址,待測URL地址可以通過搜索引擎服務(wù)器抓取,或者也可以通過用戶瀏覽器對所瀏覽的網(wǎng)頁的URL地址進行提取,作為待測URL地址。或者也可以通過搜索引擎服務(wù)器抓取,與用戶瀏覽器抓取相結(jié)合的方式,以更加全面的獲取互聯(lián)網(wǎng)上的待測URL。針對出現(xiàn)無效參數(shù)大多是在動態(tài)網(wǎng)頁的網(wǎng)址中,在獲取待測URL地址時,可以僅獲取地址中包含有動態(tài)文件的文件名以及所使用的參數(shù)的地址,將這樣的網(wǎng)址作為待測URL地址。
      [0092]S120:分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合;
      [0093]在獲取到待測URL地址后,接下來可以從待測URL地址中提取URL片段組合,URL片段組合中包括了待測URL地址中包括的動態(tài)文件名,以及所使用的對應(yīng)參數(shù)名。即從待測URL地址中提取URL片段組合的過程,可以是從待測URL地址中提取動態(tài)文件名,以及所使用的各個參數(shù),并將待測URL中提取出來的動態(tài)文件名以及各個參數(shù)組合為URL片段組合的過程。
      [0094]在URL不同但網(wǎng)頁的主體內(nèi)容相同的頁面中,大多是使用了動態(tài)網(wǎng)頁技術(shù)的頁面,在這種頁面的URL中,常常會包含動態(tài)運行的程序文件的文件名,以及所程序所使用的參數(shù)。其中,一個頁面的URL中可以只包含一個參數(shù),也可以包括兩個或兩個以上參數(shù)。可以將使用動態(tài)網(wǎng)頁技術(shù)的頁面的URL作為待測URL,并將其中的動態(tài)文件名,以及一個或多個URL參數(shù)提取出來并組合在一起,作為該待測URL的URL片段組合。例如在步驟SllO中,獲取到帶檢測的URL為:
      [0095]http://bbs.xxxxx.`com.cn/viewthread.php?page=l&sid=yyy&tid=zzzz
      [0096]其中viewthread.php為該待測URL中包含的動態(tài)文件名,且該待測URL中還包含了 sid,tid兩個參數(shù)??梢詫⒃摯郎yURL中包含的動態(tài)文件名以及各個參數(shù)提取出來,并組合作為該待測URL對應(yīng)的URL片段組合。如待測URL中動態(tài)文件名以及各個參數(shù)所組成的URL片段組合可以是:
      [0097]viewthread.php+sid+tid
      [0098]實際的應(yīng)用于計算機時,URL片段組合中的有效性與否可以以二進制數(shù)來標識,如可以以二進制數(shù)O代表有效,以二進制數(shù)I代表無效。
      [0099]S130:統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合。
      [0100]在統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合的過程中,對于不經(jīng)常出現(xiàn)的,或者點擊率不高的URL,或含有特定片段組合的URL可以過濾掉,從而僅利用經(jīng)常出現(xiàn)的或者點擊率較高的URL,或含有特定片段組合的URL生成無效片段組合列表,從而挑選出普遍性大,影響URL數(shù)量多的動態(tài)程序及其對應(yīng)的URL片段組合,來建立無效組合列表,使無效片段組合列表中的無效片段組合更加具有普遍性,以及更廣泛的實用性。具體的,可以對樣本URL中的URL片段組合的出現(xiàn)頻次進行統(tǒng)計,獲得每個URL片段組合的影響面;或者對同一 URL片段組合對應(yīng)的不同互聯(lián)網(wǎng)位置的數(shù)目進行統(tǒng)計,獲得每個URL片段組合的普遍性。因此具體的過濾可以有多種實現(xiàn)方式,下面對過濾作為樣本的URL片段組合的過程進行具體的介紹。
      [0101]首先可以從獲取到的作為樣本的網(wǎng)頁鏈接的URL中,提出URL片段組合,提取的過程與S102中從待測URL中提取URL片段組合的過程類似,所提取出的URL片段組合的形式類似于:
      [0102]動態(tài)文件+參數(shù)列表;
      [0103]比如 forum, php+authorid, mod, page, tid, sid
      [0104]其中forum, php代表了 URL中提取的動態(tài)文件的文件名,authorid, mod, page, tid, sid則代表了 URL中提取的各參數(shù)的參數(shù)名。
      [0105]假設(shè)從各網(wǎng)頁鏈接的URL中分別提取了 URL片段組合,以及統(tǒng)計數(shù)據(jù),如表1所示:
      [0106]表1
      [0107]
      【權(quán)利要求】
      1.一種統(tǒng)一資源定位符URL中無效參數(shù)的識別設(shè)備,包括: URL獲取單元,適于獲取多個網(wǎng)頁鏈接的URL ; URL片段組合提取單元,適于分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合; 統(tǒng)計單元,適于統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合; 有效性判斷單元,適于針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷。
      2.如權(quán)利要求1所述的設(shè)備,還包括: 保存單元,用于將所述有效性判斷單元對目標URL片段組中各URL參數(shù)的有效性進行判斷的結(jié)果,保存為無效片段組合列表; 待測URL提取單元,適于獲取待測的網(wǎng)頁鏈接對應(yīng)的待測URL地址; URL片段組合提取單元,適于從所述待測URL地址中提取URL片段組合; URL參數(shù)檢測單元,適于根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性。
      3.如權(quán)利要求1或2所述的設(shè)備,所述URL片段組合提取單元,適于: 從所述待測URL地址中提取所述待測URL地址中包括的動態(tài)文件的文件名以及對應(yīng)的URL參數(shù),將提取到的所述動態(tài)文件的文件名以及所述對應(yīng)的URL參數(shù)進行組合,作為所述URL片段組合。
      4.如權(quán)利要求1-3任一項所述的設(shè)備,所述無效片段組合列表中保存有無效片段組合及組合中各URL參數(shù)的有效性信息。
      5.如權(quán)利要求1-4任一項所述的設(shè)備,所述URL參數(shù)檢測單元,適于:以所述URL片段組合查詢所述無效片段組合列表,查詢無效片段組合列表中是否存在相匹配的無效片段組合; 如存在,則根據(jù)相匹配的無效片段組合及其中各URL參數(shù)的有效性信息,判斷所述URL片段組合中URL參數(shù)的有效性。
      6.—種URL中無效參數(shù)的識別方法,包括: 獲取多個網(wǎng)頁鏈接的URL ; 分別從獲取到的多個網(wǎng)頁鏈接的URL中提取出所述URL片段組合; 統(tǒng)計各URL片段組合的出現(xiàn)頻次,并將出現(xiàn)頻次符合預(yù)置條件的URL片段組合確定為目標URL片段組合; 針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數(shù)的有效性進行判斷。
      7.如權(quán)利要求6所述的方法,還包括: 將所述有效性判斷單元對目標URL片段組中各URL參數(shù)的有效性進行判斷的結(jié)果,保存為無效片段組合列表; 獲取待測的網(wǎng)頁鏈接對應(yīng)的待測URL地址; 從所述待測URL地址中提取URL片段組合; 根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性。
      8.如權(quán)利要求6或7所述的方法,所述從所述待測URL地址中提取URL片段組合,包括: 從所述待測URL地址中提取所述待測URL地址中包括的動態(tài)文件的文件名以及對應(yīng)的URL參數(shù),將提取到的所述動態(tài)文件的文件名以及所述對應(yīng)的URL參數(shù)進行組合,作為所述URL片段組合; 所述無效片段組合列表中保存有無效片段組合及組合中各參數(shù)的有效性信息。
      9.如權(quán)利要求6-8任一項所述的方法,所述無效片段組合列表中保存有無效片段組合及組合中各URL參數(shù)的有效性信息。
      10.如權(quán)利要求6-9任一項所述的方法,所述根據(jù)無效片段組合列表判斷所述URL片段組合中URL參數(shù)的有效性,包括: 以所述URL片段組合查詢所述無效片段組合列表,查詢無效片段組合列表中是否存在相匹配的無效片段組合; 如存在,則根據(jù)相匹配的無效片段組合及其中各URL參數(shù)的有效性信息,判斷所述URL片段組合中URL參數(shù)的有效性。
      【文檔編號】G06F17/30GK103530336SQ201310462262
      【公開日】2014年1月22日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
      【發(fā)明者】魏少俊 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1