本申請涉及計算機技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及用于識別網(wǎng)站的方法、裝置及服務(wù)器。
背景技術(shù):
垃圾網(wǎng)站,通常是指利用搜索引擎運算算法的缺陷,采用針對搜索引擎的作弊手段,使其獲得高于其網(wǎng)絡(luò)信息質(zhì)量排名效果的網(wǎng)站。垃圾網(wǎng)站排在搜索結(jié)果列表中靠前的位置以欺騙用戶點擊,這種行為增加了檢索信息的難度,降低了檢索效率。
然而,現(xiàn)有的識別垃圾網(wǎng)站的方式,通常是基于網(wǎng)站之間的鏈接關(guān)系計算頁面重要性,識別出垃圾網(wǎng)站,這種方式計算量較大,從而,存在著對垃圾網(wǎng)站的識別效率低的問題。
技術(shù)實現(xiàn)要素:
本申請的目的在于提出一種改進的用于識別網(wǎng)站的方法、裝置及服務(wù)器,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請?zhí)峁┝艘环N用于識別網(wǎng)站的方法,上述方法包括:獲取待識別網(wǎng)站的網(wǎng)頁集合;識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站。
第二方面,本申請?zhí)峁┝艘环N用于識別網(wǎng)站裝置,上述裝置包括:獲取單元,用于獲取待識別網(wǎng)站的網(wǎng)頁集合;識別單元,用于識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;比率確定單元,用于確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;垃圾網(wǎng)站確定單元,用于根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站。
第三方面,本申請?zhí)峁┝艘环N服務(wù)器,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)上述一個或多個程序被上述一個或多個處理器執(zhí)行,使得上述一個或多個處理器實現(xiàn)上述第一方面的用于識別網(wǎng)站的方法。
第四方面,本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述第一方面的用于識別網(wǎng)站的方法。
本申請?zhí)峁┑挠糜谧R別網(wǎng)站的方法、裝置及服務(wù)器,通過獲取待識別網(wǎng)站的網(wǎng)頁集合;識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站,可以利用垃圾網(wǎng)站通常堆砌與文本無關(guān)的圖片這一特點,高效率地識別垃圾網(wǎng)站。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的用于識別網(wǎng)站的方法的第一個實施例的流程圖;
圖3是根據(jù)本申請的用于識別網(wǎng)站的方法的一個應(yīng)用場景的示意圖;
圖4是根據(jù)本申請的用于識別網(wǎng)站的方法的第二個實施例的流程圖;
圖5是根據(jù)本申請的用于識別網(wǎng)站的方法中的步驟的可選實現(xiàn)方式的流程圖;
圖6是根據(jù)本申請的用于識別網(wǎng)站的方法中的步驟的可選實現(xiàn)方式的流程圖;
圖7是根據(jù)本申請的用于識別網(wǎng)站的方法中的步驟的可選實現(xiàn)方式的流程圖;
圖8是根據(jù)本申請的用于識別網(wǎng)站的方法的第三個實施例的流程圖;
圖9是根據(jù)本申請的用于識別網(wǎng)站裝置的一個實施例的結(jié)構(gòu)示意圖;
圖10是適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了可以應(yīng)用本申請的用于識別網(wǎng)站的方法或用于識別網(wǎng)站裝置的實施例的示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括網(wǎng)站服務(wù)器101、102、103,網(wǎng)絡(luò)104和網(wǎng)絡(luò)監(jiān)控服務(wù)器105。網(wǎng)絡(luò)104用以在網(wǎng)站服務(wù)器101、102、103和網(wǎng)絡(luò)監(jiān)控服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
網(wǎng)站服務(wù)器101、102、103可以是對各種網(wǎng)站的提供支持的服務(wù)器,網(wǎng)站服務(wù)器可以生成各種能夠顯示在終端設(shè)備上的網(wǎng)頁。
網(wǎng)絡(luò)監(jiān)控服務(wù)器105可以通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁,對抓取的網(wǎng)頁按照網(wǎng)站域名進行聚簇,得到某一網(wǎng)站的網(wǎng)頁。通過得到的某一網(wǎng)站的網(wǎng)頁,識別垃圾網(wǎng)站。需要說明的是,網(wǎng)站服務(wù)器與網(wǎng)絡(luò)監(jiān)控服務(wù)器之間可能不存在直接通信,而是通過網(wǎng)絡(luò)監(jiān)控服務(wù)器抓取網(wǎng)站服務(wù)器生成的網(wǎng)頁產(chǎn)生間接通信。
需要說明的是,本申請實施例所提供的用于識別網(wǎng)站的方法一般由網(wǎng)絡(luò)監(jiān)控服務(wù)器105執(zhí)行,相應(yīng)地,用于識別網(wǎng)站裝置一般設(shè)置于網(wǎng)絡(luò)監(jiān)控服務(wù)器105中。
應(yīng)該理解,圖1中的網(wǎng)站服務(wù)器、網(wǎng)絡(luò)和網(wǎng)絡(luò)監(jiān)控服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的網(wǎng)站服務(wù)器、網(wǎng)絡(luò)和網(wǎng)絡(luò)監(jiān)控服務(wù)器。
繼續(xù)參考圖2,其示出了根據(jù)本申請的用于識別網(wǎng)站的方法的一個實施例的流程200。上述的用于識別網(wǎng)站的方法,包括以下步驟:
步驟201,獲取待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以通過各種方式獲取上述待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以獲取預(yù)先存儲的待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以通過聚簇通過對網(wǎng)絡(luò)爬蟲抓取的頁面,按照網(wǎng)站域名進行聚簇,得到多個網(wǎng)站的各自的網(wǎng)頁集合。選取其中一個網(wǎng)站作為待識別網(wǎng)站,并獲取該網(wǎng)站的網(wǎng)頁集合。
在本實施例的一些可選的實現(xiàn)方式中,上述網(wǎng)頁集合可以是某一時間點待識別網(wǎng)站的所有的網(wǎng)頁集合;上述網(wǎng)頁集合還可以是預(yù)設(shè)時間段內(nèi)待識別網(wǎng)站的新增或有更新的網(wǎng)頁的集合。
步驟202,識別網(wǎng)頁集合中的異常網(wǎng)頁。
在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以通過各種方法識別上述網(wǎng)頁集合中的異常網(wǎng)頁。在這里,異常網(wǎng)頁是指網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于預(yù)設(shè)的相關(guān)度閾值的網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,識別上述網(wǎng)頁集合中的異常網(wǎng)頁可以通過以下方式實現(xiàn):對于上述網(wǎng)頁集合中的每一個網(wǎng)頁,利用預(yù)先建立的識別模型,確定該網(wǎng)頁中的圖片信息和該網(wǎng)頁的對應(yīng)文本之間的相關(guān)度,基于所確定的相關(guān)度,識別該網(wǎng)頁是否為異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,識別上述網(wǎng)頁集合中的異常網(wǎng)頁可以通過以下方式實現(xiàn):可以先獲取大量的其他網(wǎng)站的網(wǎng)頁,與上述網(wǎng)頁集合中的網(wǎng)頁一起,組成待聚簇網(wǎng)頁集合?;趫D片的內(nèi)容對待聚簇網(wǎng)頁集合中的網(wǎng)頁進行聚簇,得到一個或多個網(wǎng)頁簇。獲取網(wǎng)頁簇中各個網(wǎng)頁的對應(yīng)文本,生成對應(yīng)文本集合。識別對應(yīng)文本集合中與該對應(yīng)文本集合中其他對應(yīng)文本的主題差距比較大的對應(yīng)文本,作為異常對應(yīng)文本。然后基于異常對應(yīng)文本,識別上述異常對應(yīng)文本所屬或所對應(yīng)的網(wǎng)頁是否為異常網(wǎng)頁。
需要說明的是,本申請涉及的聚簇算法、分類算法以及如何利用聚簇算法、分類算法進行運算,是本領(lǐng)域技術(shù)人員所公知的,在本申請中不再贅述。
在本實施例的一些可選的實現(xiàn)方式中,網(wǎng)頁的對應(yīng)文本可以是該網(wǎng)頁中的全部文本,也可以是對全體文本進行提取得到的主要文本,也可以是該網(wǎng)頁各個文本域中的子文本,還可以是搜索文本。在這里,上述搜索文本可以通過首先獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,然后解析所獲取的搜索式并提取關(guān)鍵詞而生成。
在本實施例的一些可選的實現(xiàn)方式中,可以將識別出的網(wǎng)頁簇中的異常網(wǎng)頁與上述網(wǎng)頁集合做交集,得到上述網(wǎng)頁集合中的異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,可以響應(yīng)于識別出的異常對應(yīng)文本所屬的或所對應(yīng)的網(wǎng)頁是上述網(wǎng)頁集合中的網(wǎng)頁,將識別出的異常對應(yīng)文本所屬的或所對應(yīng)的網(wǎng)頁確定為上述網(wǎng)頁集合中的異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,識別上述網(wǎng)頁集合中的異常網(wǎng)頁可以通過以下方式實現(xiàn):獲取預(yù)設(shè)圖片文本特征向量集合,其中,預(yù)設(shè)圖片文本特征向量通過解析已識別出的垃圾網(wǎng)站的異常網(wǎng)頁,提取并拼接圖片特征和文本特征而生成;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,分別提取并拼接圖片特征和文本特征,生成待識別圖片文本特征向量;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,響應(yīng)于該網(wǎng)頁的待識別圖片文本特征與上述預(yù)設(shè)圖片文本特征向量集合中的至少一個預(yù)設(shè)圖片文本特征向量的相似度大于圖片文本閾值,確定該網(wǎng)頁為異常網(wǎng)頁。
步驟203,確定識別出的異常網(wǎng)頁在網(wǎng)頁集合中的比率。
在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以確定識別出的上述網(wǎng)頁集合中的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率。在這里,可以將識別出的上述網(wǎng)頁集合中的異常網(wǎng)頁的數(shù)量除以網(wǎng)頁集合中網(wǎng)頁的總數(shù)量,作為上述比率。
步驟204,根據(jù)所確定的比率,確定待識別網(wǎng)站是否為垃圾網(wǎng)站。
在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以根據(jù)所確定的比率,確定待識別網(wǎng)站是否為垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,可以當(dāng)所確定的比率大于預(yù)設(shè)的異常網(wǎng)頁比率閾值時,確定上述待識別網(wǎng)站為垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,還可以在確定上述待識別網(wǎng)站為垃圾網(wǎng)站后,利用所確定的垃圾網(wǎng)站的圖片或圖片信息與文本信,查找并識別其他的垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,利用所確定的垃圾網(wǎng)站的圖片查找并識別其他的垃圾網(wǎng)站可以通過以下步驟實現(xiàn):獲取所確定的垃圾網(wǎng)站的異常網(wǎng)頁以及待識別網(wǎng)頁集合,其中,上述待識別網(wǎng)頁集合包括上述垃圾網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁;解析上述異常網(wǎng)頁和上述待識別網(wǎng)頁集合中的每個網(wǎng)頁,提取該網(wǎng)頁中的圖片的圖片特征生成圖片特征向量;利用聚簇或分類算法對得到的各個圖片特征向量進行運算而對上述異常網(wǎng)頁和上述待識別網(wǎng)頁集合中的網(wǎng)頁進行聚簇或分類,得到至少一個子網(wǎng)頁集合;確定包括上述異常網(wǎng)頁的子網(wǎng)頁集合中的待識別網(wǎng)頁為垃圾網(wǎng)頁;確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站。
作為示例,所確定的垃圾網(wǎng)站中的網(wǎng)頁中的圖片可能是賭博主題的圖片,與該異常網(wǎng)頁處于同一子網(wǎng)頁集合中的待識別網(wǎng)頁中的圖片的主題很可能也是賭博,則確定與該異常網(wǎng)頁處于同一子網(wǎng)頁集合中的待識別網(wǎng)頁為垃圾網(wǎng)頁,進而確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站,通過這種方式可以快速識別大批垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,利用所確定的垃圾網(wǎng)站的圖片信息與文本信息查找并識別其他的垃圾網(wǎng)站可以通過以下步驟實現(xiàn):獲取所確定的垃圾網(wǎng)站的異常網(wǎng)頁以及待識別網(wǎng)頁集合,其中,上述待識別網(wǎng)頁集合包括上述垃圾網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁;解析上述異常網(wǎng)頁和上述待識別網(wǎng)頁集合中的每個網(wǎng)頁,提取并拼接該網(wǎng)頁的圖片特征和文本特征,生成圖片文本特征向量;利用聚簇或分類算法對得到的各個圖片文本特征向量進行運算而對上述待識別網(wǎng)頁集合中的圖片進行聚簇或分類,得到至少一個子網(wǎng)頁集合;確定包括上述異常網(wǎng)頁的子網(wǎng)頁集合中的待識別網(wǎng)頁為垃圾網(wǎng)頁;確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站。
作為示例,所確定的垃圾網(wǎng)站中的異常網(wǎng)頁中的圖片信息和文本信息之間的相關(guān)度較小,例如,異常網(wǎng)頁的圖片文本特征向量可能是汽車主題的圖片特征向量和賭博主題的文本特征向量拼接得到,與該異常網(wǎng)頁處于同一子網(wǎng)頁集合中的待識別網(wǎng)頁中的圖片文本特征向量很可能也是汽車主題的圖片特征向量和賭博主題的文本特征向量的組合,則確定與該異常網(wǎng)頁處于同一子網(wǎng)頁集合中的待識別網(wǎng)頁圖片信息和文本信息相關(guān)度較低,并將該待識別網(wǎng)頁確定為垃圾網(wǎng)頁,進而確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站,通過這種方式可以快速識別大批垃圾網(wǎng)站。
下面給出根據(jù)本實施例的用于識別網(wǎng)站的方法的一個應(yīng)用場景:首先,網(wǎng)絡(luò)監(jiān)控服務(wù)器獲取待識別網(wǎng)站的網(wǎng)頁集合;之后,網(wǎng)絡(luò)監(jiān)控服務(wù)器可以識別出上述網(wǎng)頁集合中的異常網(wǎng)頁,異常網(wǎng)頁是指網(wǎng)頁中的圖片信息和文本信息的相關(guān)度小于預(yù)設(shè)的相關(guān)度閾值的網(wǎng)頁,例如圖3示出的網(wǎng)頁,圖片的主題為汽車,文本“博彩開獎,即買即中;機不可失,時不再來”的主題為博彩,汽車和博彩的相關(guān)度較低;然后,網(wǎng)絡(luò)監(jiān)控服務(wù)器可以統(tǒng)計網(wǎng)頁集合中異常網(wǎng)頁的比率;最后,上述網(wǎng)絡(luò)監(jiān)控服務(wù)器可以根據(jù)異常網(wǎng)頁在上述網(wǎng)頁集合中的比率,確定上述待識別網(wǎng)站是否是垃圾網(wǎng)站。
本申請的上述實施例提供的方法,通過獲取待識別網(wǎng)站的網(wǎng)頁集合;識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站,可以利用垃圾網(wǎng)站通常堆砌與文本無關(guān)的圖片這一特點,高效率地識別垃圾網(wǎng)站。
繼續(xù)參考圖4,其示出了根據(jù)本申請的用于識別網(wǎng)站的方法的一個實施例的流程400。上述的用于識別網(wǎng)站的方法,包括以下步驟:
步驟401,獲取待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例中,在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以通過各種方式獲取上述待識別網(wǎng)站的網(wǎng)頁集合。
步驟402,確定待聚簇網(wǎng)頁集合,并利用聚簇算法對待聚簇網(wǎng)頁集合中的網(wǎng)頁中的圖片進行聚簇,得到圖片簇。
在本實施例中,上述電子設(shè)備可以首先確定待聚簇網(wǎng)頁集合,然后利用聚簇算法對上述待聚簇網(wǎng)頁集合中的網(wǎng)頁中的圖片進行聚簇,得到一個或多個圖片簇。在這里,上述待聚簇網(wǎng)頁集合包括上述網(wǎng)頁集合中的網(wǎng)頁和除上述待識別網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁。
可以理解,本步驟的目的是獲取大批網(wǎng)頁,以輔助識別網(wǎng)頁集合中的網(wǎng)頁。得到的圖片簇可以是一個或多個,為了方便說明,以下步驟的說明是針對一個圖片簇而言。
步驟403,確定圖片簇中的圖片所屬的網(wǎng)頁。
在本實施例中,上述電子設(shè)備可以確定步驟402確定的圖片簇中的各個圖片所屬的網(wǎng)頁。對于某一個確定的圖片簇,可以確定該圖片簇中的圖片所屬的網(wǎng)頁。
步驟404,基于對應(yīng)文本集合中的異常對應(yīng)文本,識別上述異常網(wǎng)頁。
在本實施例中,上述電子設(shè)備可以基于對應(yīng)文本集合中的異常對應(yīng)文本,識別上述異常網(wǎng)頁。在這里,上述對應(yīng)文本集合包括上述圖片簇中的圖片所屬的網(wǎng)頁對應(yīng)的文本,上述異常對應(yīng)文本與上述對應(yīng)文本集合中的除上述異常對應(yīng)文本之外的其它對應(yīng)文本的語義相似度小于預(yù)設(shè)的第一語義相似度閾值。
在本實施例中,網(wǎng)頁的對應(yīng)文本可以是該網(wǎng)頁中的全部文本,也可以是對全體文本進行提取得到的主要文本,也可以是該網(wǎng)頁各個文本域中的子文本,還可以是搜索文本。在這里,上述搜索文本可以通過首先獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,然后解析所獲取的搜索式并提取關(guān)鍵詞而生成。
在本實施例的一些可選的實現(xiàn)方式中,步驟404可以通過圖5所示的流程500實現(xiàn):
步驟501,提取圖片簇中的各個圖片所屬的網(wǎng)頁中的文本,生成文本集合。
在本實現(xiàn)方式中,上述電子設(shè)備可以提取上述步驟403得到的圖片簇中的各個圖片所屬的網(wǎng)頁中的文本,生成文本集合。
在本實現(xiàn)方式中,提取的網(wǎng)頁中的文本可以是網(wǎng)頁的全部文本,也可以能夠反映網(wǎng)頁的主題的主要文本。作為示例,可以從網(wǎng)頁的全部文本中去除廣告文本,得到主要文本。
步驟502,識別文本集合中的異常文本。
在本實現(xiàn)方式中,上述電子設(shè)備可以識別步驟501中生成的文本集合中的異常文本。在這里,上述異常文本與上述文本集合中的除上述異常文本之外的其它文本的語義相似度小于第二語義相似度閾值。
可選地,識別文本集合中的異常文本可以通過以下方式實現(xiàn):基于上述文本集合中各個文本之間的語義相似度,對上述各個文本對應(yīng)的文本特征向量進行聚類運算,得到聚類中心;確定與上述聚類中心的距離大于預(yù)設(shè)距離閾值的文本特征向量;將所確定文本特征向量對應(yīng)的文本識別為異常文本??梢岳斫猓绾卫镁垲愡\算對各個文本特征向量進行運算,這一技術(shù)本身是本領(lǐng)域技術(shù)人員所公知的,在此不再贅述。
步驟503,響應(yīng)于識別出的異常文本提取自網(wǎng)頁集合中的網(wǎng)頁,將異常文本所屬的網(wǎng)頁識別為異常網(wǎng)頁。
在本實現(xiàn)方式中,上述電子設(shè)備可以響應(yīng)于識別出的異常文本提取自網(wǎng)頁集合中的網(wǎng)頁,將上述異常文本所屬的網(wǎng)頁識別為上述網(wǎng)頁集合中的異常網(wǎng)頁。
可以理解的是,識別出的異常文本可以提取自除上述待識別網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁,這種情況下,識別出的異常文本所屬的網(wǎng)頁也是異常網(wǎng)頁,但不是上述網(wǎng)頁集合中的異常網(wǎng)頁,不在本實施例所示方法的對異常網(wǎng)頁的統(tǒng)計之中。
可選地,步驟404還可以通過圖6所示的流程600實現(xiàn):
步驟601,對于上述各個圖片所屬的網(wǎng)頁的每個網(wǎng)頁,解析該網(wǎng)頁并提取該網(wǎng)頁各個文本域中的子文本。
在本實現(xiàn)方式中,上述電子設(shè)備可以對于上述圖片簇中各個圖片所屬的網(wǎng)頁中的每個網(wǎng)頁,解析該網(wǎng)頁,進而提取該網(wǎng)頁各個文本域中的子文本。
在本實現(xiàn)方式中,文本域可以是處于頁面不同位置的放置文本的區(qū)域,例如,頁面標題文本域、圖片標題文本域、導(dǎo)航欄文本域等。相應(yīng)地,各個文本域中的子文本可以是頁面標題子文本、圖片標題子文本、導(dǎo)航欄子文本等。需要說明的是,在這里的子文本是相對于頁面中的全部文本而言。作為示例,頁面標題子文本是頁面標題文本域中的全部文本,相對于頁面中的全部文本而言是子文本,而不是頁面標題文本域中的部分文本。
步驟602,根據(jù)文本域?qū)μ崛〉淖游谋具M行劃分,生成多個與文本域相關(guān)聯(lián)的子文本集合。
在本實現(xiàn)方式中,上述電子設(shè)備可以根據(jù)文本域?qū)Σ襟E601所提取的子文本進行劃分,生成多個子文本集合,其中,各個子文本集合分別與文本域相關(guān)聯(lián)。作為示例,劃分得到的頁面標題子文本集合中的子文本均為頁面標題子文本,劃分得到的圖片標題子文本集合中的子文本均為圖片標題子文本。
步驟603,對于多個子文本集合中的每個子文本集合,識別該子文本集合中的異常子文本。
在本實現(xiàn)方式中,上述電子設(shè)備可以對于多個子文本集合中的每個子文本,識別該子文本集合中的異常子文本。在這里,上述異常子文本與該子文本集合中的除上述異常子文本之外的其它子文本的語義相似度小于第二語義相似度閾值。作為示例,子文本集合中的大部分子文本的主題均為汽車,個別子文本的主題為動物,則識別出主題為動物的個別子文本為異常子文本。
可選地,識別該子文本集合中的異常子文本可以通過以下步驟實現(xiàn):基于上述子文本集合中各個子文本之間的語義相似度,對上述各個子文本對應(yīng)的子文本特征向量進行聚類運算,得到聚類中心;確定與上述聚類中心的距離大于預(yù)設(shè)距離閾值的子文本特征向量;將所確定子文本特征向量對應(yīng)的子文本識別為異常子文本。
步驟604,對于網(wǎng)頁集合中每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量與該網(wǎng)頁的文本域總數(shù)量的比值,并且響應(yīng)于比值大于異常文本域閾值,識別該網(wǎng)頁為異常網(wǎng)頁。
在本實現(xiàn)方式中,上述電子設(shè)備可以對于上述網(wǎng)頁集合中的每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量與該網(wǎng)頁的文本域總數(shù)量的比值。
可選地,可以將步驟603中識別出的異常子文本與網(wǎng)頁集合中的網(wǎng)頁的子文本做交集,確定上述網(wǎng)頁集合中的網(wǎng)頁的子文本中哪些是異常子文本,然后對于上述網(wǎng)頁集合中的每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量。
可選地,步驟404可以通過圖7所示的流程700實現(xiàn):
步驟701,對于所確定的每個網(wǎng)頁,獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,解析所獲取的搜索式并提取關(guān)鍵詞生成搜索文本。
在本實現(xiàn)方式中,上述電子設(shè)備可以對于步驟403所確定的每個網(wǎng)頁,獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,并解析所獲取的搜索式提取關(guān)鍵詞生成搜索文本。
作為示例,某網(wǎng)頁包括動物園中的老虎傷人的信息,該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時,搜索式可能為“老虎傷人”“動物園事故”“老虎”,解析搜索式提取關(guān)鍵詞生成搜索文本可能為“動物園、老虎、傷人、事故”。
步驟702,對于包括各個圖片所屬的網(wǎng)頁的搜索文本的搜索文本集合,識別搜索文本集合中的異常搜索文本。
在本實現(xiàn)方式中,上述電子設(shè)備可以識別上述搜索文本集合中的異常搜索文本。上述搜索文本集合中包括上述各個圖片所屬的網(wǎng)頁的搜索文本。
可選地,識別搜索文本集合中的異常搜索文本可以通過以下方式實現(xiàn):基于上述搜索文本集合中各個搜索文本之間的語義相似度,對上述各個搜索文本對應(yīng)的搜索文本特征向量進行聚類運算,得到聚類中心;確定與上述聚類中心的距離大于預(yù)設(shè)距離閾值的搜索文本特征向量;將所確定搜索文本特征向量對應(yīng)的搜索文本識別為異常搜索文本。
步驟703,響應(yīng)于識別出的異常搜索文本對應(yīng)的網(wǎng)頁為上述網(wǎng)頁集合中的網(wǎng)頁,確定識別出的異常搜索文本對應(yīng)的網(wǎng)頁為異常網(wǎng)頁。
在本實現(xiàn)方式中,上述電子設(shè)備可以響應(yīng)于識別出的異常搜索文本對應(yīng)的網(wǎng)頁為上述網(wǎng)頁集合中的網(wǎng)頁,確定識別出的異常搜索文本對應(yīng)的網(wǎng)頁為上述異常網(wǎng)頁。
步驟405,確定識別出的異常網(wǎng)頁在網(wǎng)頁集合中的比率。
步驟406,根據(jù)所確定的比率,確定待識別網(wǎng)站是否為垃圾網(wǎng)站。
步驟405和步驟406的實現(xiàn)可以參考步驟203和步驟204中的說明,在此不再贅述。
從圖4中可以看出,與圖2對應(yīng)的實施例相比,本實施例中的用于識別網(wǎng)站的方法的流程400突出了基于圖片內(nèi)容對大量網(wǎng)頁進行聚簇,再對網(wǎng)頁簇中的網(wǎng)頁對應(yīng)的文本進行識別,確定出異常文本,本實施例利用了相似圖片所屬的網(wǎng)頁中的文本的主題也應(yīng)相似,而垃圾網(wǎng)站的網(wǎng)頁中的圖片信息和文本信息往往差異較大這一特點,識別異常網(wǎng)頁。由此,本實施例描述的方案可以高效識別異常網(wǎng)頁,進而高效識別異常網(wǎng)站。
繼續(xù)參考圖8,其示出了根據(jù)本申請的用于識別網(wǎng)站的方法的一個實施例的流程800。上述的用于識別網(wǎng)站的方法,包括以下步驟:
步驟801,獲取待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例中,用于識別網(wǎng)站的方法運行于其上的電子設(shè)備(例如圖1所示的網(wǎng)絡(luò)監(jiān)控服務(wù)器)可以通過各種方式獲取上述待識別網(wǎng)站的網(wǎng)頁集合。
步驟802,確定上述網(wǎng)頁集合中的每個網(wǎng)頁的對應(yīng)文本,并分別提取該網(wǎng)頁中的圖片的圖片特征和上述對應(yīng)文本的文本特征,生成圖片特征向量和對應(yīng)文本特征向量。
在本實施例中,上述電子設(shè)備可以確定上述網(wǎng)頁集合中的每個網(wǎng)頁的對應(yīng)文本,并分別提取該網(wǎng)頁中的圖片的圖片特征和上述對應(yīng)文本的文本特征,生成圖片特征向量和對應(yīng)文本特征向量。
在本實施例中,網(wǎng)頁的對應(yīng)文本可以是該網(wǎng)頁中的全部文本,也可以是對全體文本進行提取得到的主要文本,也可以是該網(wǎng)頁各個文本域中的子文本,還可以是搜索文本。在這里,上述搜索文本可以通過首先獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,然后解析所獲取的搜索式并提取關(guān)鍵詞而生成。
步驟803,對于上述網(wǎng)頁集合中的每個網(wǎng)頁,將生成的圖片特征向量和對應(yīng)文本特征向量導(dǎo)入預(yù)先建立的識別模型,確定導(dǎo)入的圖片特征向量和對應(yīng)文本特征向量之間的相關(guān)度。
在本實施例中,上述電子設(shè)備可以對于上述網(wǎng)頁集合中的每個網(wǎng)頁,將生成的圖片特征向量和對應(yīng)文本特征向量導(dǎo)入預(yù)先建立的識別模型,確定導(dǎo)入的圖片特征向量和對應(yīng)文本特征向量之間的相關(guān)度。
在本實施例中,上述識別模型可以通過人工標注的樣本或從用戶的行為日志中挖掘得到的樣本進行訓(xùn)練。在這里,樣本可以是成對的圖片、文本。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本可以包括上述網(wǎng)頁集合中的每個網(wǎng)頁中的文本,步驟803可以包括:對于上述網(wǎng)頁集合中的每個網(wǎng)頁,將生成的圖片特征向量和文本特征向量導(dǎo)入預(yù)先建立的識別模型,確定導(dǎo)入的圖片特征向量和文本特征向量之間的相關(guān)度。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本可以包括上述網(wǎng)頁集合中的每個網(wǎng)頁中的搜索文本,步驟803可以包括:對于上述網(wǎng)頁集合中的每個網(wǎng)頁,將生成的圖片特征向量和搜索文本特征向量導(dǎo)入預(yù)先建立的識別模型,確定導(dǎo)入的圖片特征向量和搜索文本特征向量之間的相關(guān)度。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本包括上述網(wǎng)頁中至少一個文本域中的子文本,步驟803可以包括:解析上述網(wǎng)頁集合中的每個網(wǎng)頁,分別提取該網(wǎng)頁中的圖片特征和子文本特征而生成圖片特征向量和子文本特征向量集合,其中,子文本為網(wǎng)頁中至少一個文本域中的文本;將對于上述子文本特征向量集合中的每個子文本特征向量,將該子文本特征向量與上述圖片特征向量導(dǎo)入預(yù)先建立的識別模型,確定該子文本特征與上述圖片特征向量之間的相關(guān)度。
步驟804,對于上述網(wǎng)頁集合中的每個網(wǎng)頁,根據(jù)所確定的相關(guān)度,確定該網(wǎng)頁是否為上述異常網(wǎng)頁。
在本實施例中,上述電子設(shè)備可以對于上述網(wǎng)頁集合中的每個網(wǎng)頁,根據(jù)所確定的相關(guān)度,確定該網(wǎng)頁是否為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本包括上述網(wǎng)頁集合中的每個網(wǎng)頁中的文本或搜索文本,步驟804可以通過以下方式實現(xiàn):對于上述網(wǎng)頁集合中的每個網(wǎng)頁,響應(yīng)于所確定的相關(guān)度小于相關(guān)度閾值,確定該網(wǎng)頁為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本包括上述網(wǎng)頁中至少一個文本域中的子文本,步驟804可以通過以下方式實現(xiàn):響應(yīng)于所確定的相關(guān)度小于相關(guān)度閾值,將該子文本確定為異常子文本;對于上述網(wǎng)頁集合中每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量與該網(wǎng)頁的文本域總數(shù)量的比值,并響應(yīng)于上述比值大于異常文本域閾值,識別該網(wǎng)頁為異常網(wǎng)頁。
步驟805,確定識別出的異常網(wǎng)頁在網(wǎng)頁集合中的比率。
步驟806,根據(jù)所確定的比率,確定待識別網(wǎng)站是否為垃圾網(wǎng)站。
步驟805和步驟806的實現(xiàn)可以參考步驟203和步驟204中的說明,在此不再贅述。
從圖8中可以看出,與圖2對應(yīng)的實施例相比,本實施例中的用于識別網(wǎng)站的方法的流程800突出了利用預(yù)先建立的識別模型,確定網(wǎng)頁中的圖片和對應(yīng)文本之間的相關(guān)度,從而快速識別異常網(wǎng)頁和垃圾網(wǎng)站。
進一步參考圖9,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N用于識別網(wǎng)站裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
如圖9所示,本實施例上述的用于識別網(wǎng)站裝置900包括:獲取單元901、識別單元902、比率確定單元903和垃圾網(wǎng)站確定單元904。其中,獲取單元901,用于獲取待識別網(wǎng)站的網(wǎng)頁集合;識別單元902,用于識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;比率確定單元903,用于確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;垃圾網(wǎng)站確定單元904,用于根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站。
在本實施例中,用于識別網(wǎng)站裝置900的獲取單元901可以通過各種方式獲取上述待識別網(wǎng)站的網(wǎng)頁集合。
在本實施例中,用于識別網(wǎng)站裝置900的識別單元902可以通過各種方法識別上述網(wǎng)頁集合中的異常網(wǎng)頁。
在本實施例中,用于識別網(wǎng)站裝置900的比率確定單元903可以確定識別出的上述網(wǎng)頁集合中的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率。
在本實施例中,用于識別網(wǎng)站裝置900的垃圾網(wǎng)站確定單元904可以根據(jù)所確定的比率,確定待識別網(wǎng)站是否為垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,上述識別單元包括第一識別子單元(未示出),用于:確定待聚簇網(wǎng)頁集合,并利用聚簇算法對上述待聚簇網(wǎng)頁集合中的網(wǎng)頁中的圖片進行聚簇,得到圖片簇,其中,上述待聚簇網(wǎng)頁集合包括上述網(wǎng)頁集合中的網(wǎng)頁和除上述待識別網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁;確定上述圖片簇中的圖片所屬的網(wǎng)頁;基于對應(yīng)文本集合中的異常對應(yīng)文本,識別上述異常網(wǎng)頁,其中,上述對應(yīng)文本集合包括上述圖片簇中的圖片所屬的網(wǎng)頁對應(yīng)的文本,上述異常對應(yīng)文本與上述對應(yīng)文本集合中的除上述異常對應(yīng)文本之外的其它對應(yīng)文本的語義相似度小于第一語義相似度閾值。
在本實施例的一些可選的實現(xiàn)方式中,上述第一識別子單元,還用于:提取上述圖片簇中的各個圖片所屬的網(wǎng)頁中的文本,生成文本集合;識別上述文本集合中的異常文本,其中,上述異常文本與上述文本集合中的除上述異常文本之外的其它文本的語義相似度小于第二語義相似度閾值;響應(yīng)于識別出的異常文本提取自上述網(wǎng)頁集合中的網(wǎng)頁,將上述異常文本所屬的網(wǎng)頁識別為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述第一識別子單元,還用于:基于上述文本集合中各個文本之間的語義相似度,對上述各個文本對應(yīng)的文本特征向量進行聚類運算,得到聚類中心;確定與上述聚類中心的距離大于預(yù)設(shè)距離閾值的文本特征向量;將所確定的文本特征向量對應(yīng)的文本識別為異常文本。
在本實施例的一些可選的實現(xiàn)方式中,上述第一識別子單元,還用于:對于所確定的每個網(wǎng)頁,解析該網(wǎng)頁并提取該網(wǎng)頁各個文本域中的子文本;根據(jù)文本域?qū)μ崛〉淖游谋具M行劃分,生成多個與文本域相關(guān)聯(lián)的子文本集合;對于多個子文本集合中的每個子文本集合,識別該子文本集合中的異常子文本,其中,上述異常子文本與該子文本集合中的除上述異常子文本之外的其它子文本的語義相似度小于第三語義相似度閾值。
在本實施例的一些可選的實現(xiàn)方式中,上述第一識別子單元,還用于:對于上述網(wǎng)頁集合中每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量與該網(wǎng)頁的文本域總數(shù)量的比值,并響應(yīng)于上述比值大于異常文本域閾值,識別該網(wǎng)頁為異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述第一識別子單元,還用于:對于所確定的每個網(wǎng)頁,獲取該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式,解析所獲取的搜索式并提取關(guān)鍵詞生成搜索文本;對于包括上述各個圖片所屬的網(wǎng)頁的搜索文本的搜索文本集合,識別搜索文本集合中的異常搜索文本,其中,上述異常搜索文本與上述搜索文本集合中除上述異常搜索文本之外的其它搜索文本的語義相似度小于第四語義相似度閾值;響應(yīng)于識別出的異常搜索文本對應(yīng)的網(wǎng)頁為上述網(wǎng)頁集合中的網(wǎng)頁,確定識別出的異常搜索文本對應(yīng)的網(wǎng)頁為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述識別單元包括第二識別子單元(未示出),用于:確定上述網(wǎng)頁集合中的每個網(wǎng)頁的對應(yīng)文本,并分別提取該網(wǎng)頁中的圖片的圖片特征和上述對應(yīng)文本的文本特征,成圖片特征向量和對應(yīng)文本特征向量;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,將生成的圖片特征向量和對應(yīng)文本特征向量導(dǎo)入預(yù)先建立的識別模型,確定導(dǎo)入的圖片特征向量和對應(yīng)文本特征向量之間的相關(guān)度,其中,上述識別模型用于表征圖片特征向量、對應(yīng)文本特征向量與圖片特征向量和對應(yīng)文本特征向量之間的相關(guān)度的對應(yīng)關(guān)系;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,根據(jù)所確定的相關(guān)度,確定該網(wǎng)頁是否為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本包括上述網(wǎng)頁集合中的每個網(wǎng)頁中的文本或搜索文本,其中,上述搜索文本通過解析該網(wǎng)頁作為搜索結(jié)果呈現(xiàn)時的搜索式并提取關(guān)鍵詞而生成;以及上述第二識別子單元,還用于:對于上述網(wǎng)頁集合中的每個網(wǎng)頁,響應(yīng)于所確定的相關(guān)度小于相關(guān)度閾值,確定該網(wǎng)頁為上述異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述對應(yīng)文本包括上述網(wǎng)頁中至少一個文本域中的子文本;以及上述第二識別子單元,還用于:響應(yīng)于所確定的相關(guān)度小于相關(guān)度閾值,將該子文本確定為異常子文本;對于上述網(wǎng)頁集合中每個網(wǎng)頁,確定該網(wǎng)頁中的異常子文本數(shù)量與該網(wǎng)頁的文本域總數(shù)量的比值,并響應(yīng)于上述比值大于異常文本域閾值,識別該網(wǎng)頁為異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述識別單元包括第三識別子單元(未示出),用于:獲取預(yù)設(shè)圖片文本特征向量集合,其中,預(yù)設(shè)圖片文本特征向量通過解析已識別出的垃圾網(wǎng)站的異常網(wǎng)頁,提取并拼接圖片特征和文本特征而生成;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,分別提取并拼接圖片特征和文本特征,生成待識別圖片文本特征向量;對于上述網(wǎng)頁集合中的每個網(wǎng)頁,響應(yīng)于該網(wǎng)頁的待識別圖片文本特征與上述預(yù)設(shè)圖片文本特征向量集合中的至少一個預(yù)設(shè)圖片文本特征向量的相似度大于圖片文本閾值,確定該網(wǎng)頁為異常網(wǎng)頁。
在本實施例的一些可選的實現(xiàn)方式中,上述垃圾網(wǎng)站確定單元,還用于:當(dāng)所確定的比率大于異常網(wǎng)頁比率閾值時,確定上述待識別網(wǎng)站為垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置還包括第一查找單元(未示出),用于:獲取所確定的垃圾網(wǎng)站的異常網(wǎng)頁以及待識別網(wǎng)頁集合,其中,上述待識別網(wǎng)頁集合包括上述垃圾網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁;解析上述異常網(wǎng)頁和上述待識別網(wǎng)頁集合中的每個網(wǎng)頁,提取該網(wǎng)頁中的圖片的圖片特征生成圖片特征向量;利用聚簇或分類算法對得到的各個圖片特征向量進行運算而對上述待識別網(wǎng)頁集合中的圖片進行聚簇或分類,得到至少一個子網(wǎng)頁集合;確定包括上述異常網(wǎng)頁的子網(wǎng)頁集合中的待識別網(wǎng)頁為垃圾網(wǎng)頁;確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置還包括第二查找單元(未示出),用于:獲取所確定的垃圾網(wǎng)站的異常網(wǎng)頁以及待識別網(wǎng)頁集合,其中,上述待識別網(wǎng)頁集合包括上述垃圾網(wǎng)站之外的其它預(yù)設(shè)網(wǎng)站的網(wǎng)頁;解析上述異常網(wǎng)頁和上述待識別網(wǎng)頁集合中的每個網(wǎng)頁,提取并拼接該網(wǎng)頁的圖片特征和文本特征,生成圖片文本特征向量;利用聚簇或分類算法對得到的各個圖片文本特征向量進行運算而對上述待識別網(wǎng)頁集合中的圖片進行聚簇或分類,得到至少一個子網(wǎng)頁集合;確定包括上述異常網(wǎng)頁的子網(wǎng)頁集合中的待識別網(wǎng)頁為垃圾網(wǎng)頁;確定上述垃圾網(wǎng)頁所屬的網(wǎng)站為垃圾網(wǎng)站。
本實施例中各單元和各子單元的實現(xiàn)細節(jié)和技術(shù)效果,可參考本申請其他實施例中的說明,在此不再贅述。
下面參考圖10,其示出了適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機系統(tǒng)1000的結(jié)構(gòu)示意圖。圖10示出的服務(wù)器僅僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。
如圖10所示,計算機系統(tǒng)1000包括中央處理單元(CPU)1001,其可以根據(jù)存儲在只讀存儲器(ROM)1002中的程序或者從存儲部分1008加載到隨機訪問存儲器(RAM)1003中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。在RAM 1003中,還存儲有系統(tǒng)1000操作所需的各種程序和數(shù)據(jù)。CPU 1001、ROM 1002以及RAM 1003通過總線1004彼此相連。輸入/輸出(I/O)接口1005也連接至總線1004。
以下部件連接至I/O接口1005:包括鍵盤、鼠標等的輸入部分1006;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分1007;包括硬盤等的存儲部分1008;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1009。通信部分1009經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器1010也根據(jù)需要連接至I/O接口1005。可拆卸介質(zhì)1011,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器1010上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分1008。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分1009從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)1011被安裝。在該計算機程序被中央處理單元(CPU)1001執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。需要說明的是,本申請上述的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、RF等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括獲取單元、識別單元、比率確定單元和垃圾網(wǎng)站確定單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,獲取單元還可以被描述為“用于獲取待識別網(wǎng)站的網(wǎng)頁集合的單元”。
作為另一方面,本申請還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的服務(wù)器所包含的;也可以是單獨存在,而未裝配入該裝置中。上述計算機可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被該裝置執(zhí)行時,使得該裝置:獲取待識別網(wǎng)站的網(wǎng)頁集合;識別上述網(wǎng)頁集合中的異常網(wǎng)頁,其中,上述異常網(wǎng)頁中的圖片信息與文本信息的相關(guān)度小于相關(guān)度閾值;確定識別出的異常網(wǎng)頁在上述網(wǎng)頁集合中的比率;根據(jù)所確定的比率,確定上述待識別網(wǎng)站是否為垃圾網(wǎng)站。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。