国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)站鏡像的檢測方法及裝置的制造方法

      文檔序號:9350100閱讀:182來源:國知局
      一種網(wǎng)站鏡像的檢測方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)站鏡像的檢測方法及裝置。
      【背景技術(shù)】
      [0002] "網(wǎng)站"是構(gòu)成互聯(lián)網(wǎng)的重要主體之一。對于網(wǎng)站所有者而言,網(wǎng)站的排名和流量 是網(wǎng)站的核心價值,能夠與在線廣告投放等商業(yè)模式相結(jié)合,為網(wǎng)站所有者帶來可觀的商 業(yè)利益。然而,現(xiàn)在互聯(lián)網(wǎng)上出現(xiàn)一種稱為"網(wǎng)站惡意鏡像"的侵權(quán)行為,對網(wǎng)站所有者的 利益造成嚴(yán)重?fù)p害。該行為是指:侵權(quán)者將原始網(wǎng)站的內(nèi)容復(fù)制到自己掌握的多個域名上, 形成原始網(wǎng)站的多個惡意鏡像網(wǎng)站,當(dāng)這些鏡像網(wǎng)站被搜索引擎檢索收錄后,用戶通過搜 索引擎查找相關(guān)信息時,就會被分流到侵權(quán)者掌握的大量鏡像網(wǎng)站上,不僅使侵權(quán)者輕易 獲取大量流量以及其背后的商業(yè)價值,而且還對原始網(wǎng)站的排名和流量造成嚴(yán)重影響,侵 害了原始網(wǎng)站所有者的權(quán)益。
      [0003] 原始網(wǎng)站所有者發(fā)現(xiàn)其擁有的網(wǎng)站惡意鏡像后,一般通過屏蔽鏡像域名被訪問等 方式,防止侵權(quán)者繼續(xù)盜取原始網(wǎng)站的內(nèi)容。但由于互聯(lián)網(wǎng)上存在大量的免費(fèi)域名資源,因 此侵權(quán)者很容易以低廉的成本更換域名后,再次盜取原始網(wǎng)站的內(nèi)容,建立惡意鏡像網(wǎng)站。 因此,需要一種網(wǎng)站鏡像的檢測方法及裝置,以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明提供一種網(wǎng)站鏡像的檢測方法及裝置,在保證檢測準(zhǔn)確性的同時,提高網(wǎng) 站鏡像檢測的效率。
      [0005] 本發(fā)明采用的技術(shù)方案是:
      [0006] -種網(wǎng)站鏡像的檢測方法,其包括:計算待檢測網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo) 題信息的相似度,若所述相似度超過設(shè)定閾值,則所述待檢測網(wǎng)站為疑似網(wǎng)站;比對所述疑 似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素,若滿足預(yù) 設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站。
      [0007] 優(yōu)選地,所述計算待檢測網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若所 述相似度超過設(shè)定閾值,則所述待檢測網(wǎng)站為疑似網(wǎng)站之前,所述方法還包括:加載待檢測 網(wǎng)站的網(wǎng)頁內(nèi)容;從待檢測網(wǎng)站的網(wǎng)頁內(nèi)容中提取標(biāo)題。
      [0008] 優(yōu)選地,所述計算待檢測網(wǎng)站的標(biāo)題信息與所述原始網(wǎng)站的標(biāo)題信息的相似度, 具體包括:將待檢測網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題分別進(jìn)行中英文分詞;提取待檢測網(wǎng)站 的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建立待檢測索引和原始索引;分別比對所 述待檢測索引中的單詞和所述原始索引中的單詞,以計算待檢測網(wǎng)站的標(biāo)題信息與所述原 始網(wǎng)站的標(biāo)題信息的相似度。
      [0009] 優(yōu)選地,比對所述疑似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng)頁結(jié) 構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站之前,所述方法還包 括:篩選所述疑似網(wǎng)站中疑似網(wǎng)頁的文檔對象模型DOM樹節(jié)點(diǎn),保留反映DOM樹形結(jié)構(gòu)的關(guān) 鍵節(jié)點(diǎn),篩選所述原始網(wǎng)站中原始網(wǎng)頁的文檔對象模型DOM樹節(jié)點(diǎn),保留反映DOM樹形結(jié)構(gòu) 的原始節(jié)點(diǎn);在所述關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn)上分別附加位置屬性,構(gòu)建疑似網(wǎng)頁的可視化元 素樹和原始網(wǎng)頁的可視化元素樹。
      [0010] 優(yōu)選地,所述篩選所述疑似網(wǎng)站中疑似網(wǎng)頁的文檔對象模型DOM樹節(jié)點(diǎn),保留反 映DOM樹形結(jié)構(gòu)的關(guān)鍵節(jié)點(diǎn),具體包括:確定所述疑似網(wǎng)頁的視覺邊界;刪除分隔欄;刪除 節(jié)點(diǎn)面積小于設(shè)定下限值的關(guān)鍵節(jié)點(diǎn);刪除節(jié)點(diǎn)面積小于閾值的關(guān)鍵節(jié)點(diǎn)所包含的所有子 節(jié)點(diǎn),以歸并零碎區(qū)域;刪除節(jié)點(diǎn)面積大于設(shè)定上限值并且包含所有子節(jié)點(diǎn)的關(guān)鍵節(jié)點(diǎn)。
      [0011] 優(yōu)選地,所述位置屬性包括位置四元組:關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域 的左上角頂點(diǎn)對應(yīng)地與疑似網(wǎng)頁或者原始網(wǎng)頁的頁面上邊緣的像素距離為頂坐標(biāo)top、關(guān) 鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的左上角頂點(diǎn)對應(yīng)地與疑似網(wǎng)頁或者原始網(wǎng)頁的頁 面左邊緣的像素距離為左坐標(biāo)left、關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的像素高度 height以及關(guān)鍵節(jié)點(diǎn)或者原始節(jié)點(diǎn)顯示的矩形區(qū)域的像素寬度width。
      [0012] 優(yōu)選地,所述比對所述疑似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素和所述原始網(wǎng)站的網(wǎng) 頁結(jié)構(gòu)中的可視化元素,具體包括:判斷關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn)的相似性:分別將疑似網(wǎng)頁 的可視化元素樹上的關(guān)鍵節(jié)點(diǎn)和原始網(wǎng)頁的可視化元素樹上的原始節(jié)點(diǎn)分別變?yōu)榫€性列 表;依次比對線性列表上的關(guān)鍵節(jié)點(diǎn)和原始節(jié)點(diǎn),則關(guān)鍵節(jié)點(diǎn)的節(jié)點(diǎn)面積等同于原始節(jié)點(diǎn) 的節(jié)點(diǎn)面積,并且滿足以下任一條件的節(jié)點(diǎn)對具有相似性:A、水平位置差異符合整體位移, 且頂坐標(biāo)相同;B、垂直位置差異符合整體位移,且左坐標(biāo)相同;C、水平和垂直位置差異均 符合整體位移;D、水平位置差異符合整體位移,且底坐標(biāo)至網(wǎng)頁底部的距離相同。
      [0013] 優(yōu)選地,若滿足預(yù)設(shè)條件,則判定所述疑似網(wǎng)站為鏡像網(wǎng)站,具體包括:若滿足: C - k/A+D - t/B+w>0時,判定所述疑似網(wǎng)頁與所述原始網(wǎng)頁相似,所述疑似網(wǎng)站為鏡像網(wǎng) 站,其中:遍歷節(jié)點(diǎn)占比:A =遍歷的節(jié)點(diǎn)總數(shù)/鏡像節(jié)點(diǎn)總數(shù);遍歷面積占比=遍歷的 節(jié)點(diǎn)總面積/鏡像節(jié)點(diǎn)總面積;相似結(jié)點(diǎn)占比:C =相似的節(jié)點(diǎn)總數(shù)/遍歷的節(jié)點(diǎn)總數(shù);相 似面積占比:D =相似的節(jié)點(diǎn)總面積/遍歷的節(jié)點(diǎn)總面積;參數(shù)k、t、w的取值在實際應(yīng)用中 根據(jù)訓(xùn)練集進(jìn)行計算。
      [0014] 本發(fā)明還提供了一種網(wǎng)站鏡像的檢測裝置,其包括:網(wǎng)站標(biāo)題驗證模塊:用于計 算待檢測網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若所述相似度超過設(shè)定閾值, 則所述待檢測網(wǎng)站為疑似網(wǎng)站;網(wǎng)頁結(jié)構(gòu)比對模塊:用于比對所述疑似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中 的可視化元素和所述原始網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定所述 疑似網(wǎng)站為鏡像網(wǎng)站。
      [0015] 優(yōu)選地,所述網(wǎng)頁標(biāo)題驗證模塊,還用于:將待檢測網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題 分別進(jìn)行中英文分詞;提取待檢測網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建 立待檢測索引和原始索引;分別比對所述待檢測索引中的單詞和所述原始索引中的單詞, 以計算待檢測網(wǎng)站的標(biāo)題信息與所述原始網(wǎng)站的標(biāo)題信息的相似度。
      [0016] 采用上述技術(shù)方案,本發(fā)明至少具有下列效果:
      [0017] 本發(fā)明的網(wǎng)站鏡像的檢測方法可以準(zhǔn)確的檢測出原始網(wǎng)站的鏡像網(wǎng)站,并且檢測 效率較高。
      【附圖說明】
      [0018] 圖1為本發(fā)明第一實施例網(wǎng)站鏡像的檢測方法的流程圖;
      [0019] 圖2為本發(fā)明第二實施例網(wǎng)站鏡像的檢測方法的流程圖;
      [0020] 圖3為本發(fā)明第三實施例網(wǎng)站鏡像的檢測方法的流程圖;
      [0021] 圖4為本發(fā)明第四實施例網(wǎng)站鏡像的檢測裝置的方框圖。
      【具體實施方式】
      [0022] 為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效,以下結(jié)合附圖 及較佳實施例,對本發(fā)明進(jìn)行詳細(xì)說明如后。
      [0023] 本發(fā)明提供的網(wǎng)站鏡像的檢測方法包括前級檢測步驟和后級檢測步驟,下面將詳 細(xì)地描述本發(fā)明的網(wǎng)站鏡像的檢測方法及其各個步驟。
      [0024] 第一實施例
      [0025] 如圖1所示,本實施例的網(wǎng)站鏡像的檢測方法包括:前級驗證步驟SlO:計算待檢 測網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,若相似度超過設(shè)定閾值,則待檢測網(wǎng) 站為疑似網(wǎng)站。
      [0026] 后級驗證步驟S20 :比對疑似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)中的可視化元素和原始網(wǎng)站的網(wǎng)頁 結(jié)構(gòu)中的可視化元素,若滿足預(yù)設(shè)條件,則判定疑似網(wǎng)站為鏡像網(wǎng)站。
      [0027] 前級驗證步驟僅是對待檢測網(wǎng)站的標(biāo)題信息進(jìn)行驗證,與原始網(wǎng)站的標(biāo)題信息的 相似度,該步驟檢測速度快,具有較高的準(zhǔn)確性。而后級驗證步驟是對符合前級驗證步驟的 疑似網(wǎng)站的網(wǎng)頁結(jié)構(gòu)進(jìn)行驗證,復(fù)雜性較高,速度較慢,但具有非常高的準(zhǔn)確性。前后兩級 驗證,使得前級驗證步驟能夠從輸入的大量待檢測網(wǎng)站中快速排除明顯不具有相似度的待 檢測網(wǎng)站,后級驗證步驟再對剩余的具有相似度的少量疑似網(wǎng)站樣本進(jìn)行精確判定,這樣 從總體上在保證網(wǎng)站鏡像準(zhǔn)確性的同時,盡可能提高檢測效率。
      [0028] 作為優(yōu)選地,計算待檢測網(wǎng)站的標(biāo)題信息與原始網(wǎng)站的標(biāo)題信息的相似度,具體 包括:步驟S100:將待檢測網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題分別進(jìn)行中英文分詞;步驟S101: 提取待檢測網(wǎng)站的標(biāo)題和原始網(wǎng)站的標(biāo)題中的中英文單詞,分別建
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1