技術(shù)總結(jié)
本申請(qǐng)公開了用于識(shí)別網(wǎng)站的方法、裝置及服務(wù)器。該方法的一具體實(shí)施方式包括:獲取待識(shí)別網(wǎng)站的網(wǎng)頁(yè)集合;識(shí)別該網(wǎng)頁(yè)集合中的異常網(wǎng)頁(yè),其中,該異常網(wǎng)頁(yè)中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;確定識(shí)別出的異常網(wǎng)頁(yè)在該網(wǎng)頁(yè)集合中的比率;根據(jù)所確定的比率,確定該待識(shí)別網(wǎng)站是否為垃圾網(wǎng)站。該實(shí)施方式提高了識(shí)別垃圾網(wǎng)站的效率。
技術(shù)研發(fā)人員:鄒紅建;方高林;付立波
受保護(hù)的技術(shù)使用者:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
文檔號(hào)碼:201710057271
技術(shù)研發(fā)日:2017.01.26
技術(shù)公布日:2017.06.13