基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器,其中,方法包括:根據(jù)提取的頁面的多個(gè)內(nèi)容片段,獲取與每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,對(duì)頁面進(jìn)行初步的識(shí)別,如果存在特征ID的匹配,認(rèn)為該頁面是可能的惡意頁面,根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分;根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。根據(jù)該方案,對(duì)頁面的識(shí)別結(jié)合了頁面中的多個(gè)內(nèi)容片斷,以及多項(xiàng)頁面信息;該方案不依賴于服務(wù)器端的黑白名單數(shù)據(jù)庫,而是通過特征庫和對(duì)頁面信息的綜合評(píng)分實(shí)現(xiàn)對(duì)惡意/欺詐/釣魚頁面的高效率的識(shí)別。
【專利說明】基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,基于WEB的應(yīng)用日益普及,人們通過瀏覽器可以查詢銀行賬戶、網(wǎng)上購物、電子商務(wù)、查詢信息、獲取知識(shí)、進(jìn)行娛樂等,WEB為人們提供了方便和快捷的交互方式。然而,人們?cè)谏暇W(wǎng)沖浪瀏覽網(wǎng)頁的同時(shí),經(jīng)常會(huì)遭遇到惡意網(wǎng)站的侵襲,導(dǎo)致計(jì)算機(jī)被病毒、木馬等感染。
[0003]惡意網(wǎng)站,例如釣魚網(wǎng)站、或者是欺詐,仿冒網(wǎng)站等,主要是通過仿冒真實(shí)網(wǎng)站的URL地址或是頁面內(nèi)容,偽裝成銀行及電子商務(wù)等類型的網(wǎng)站,或是利用真實(shí)網(wǎng)站服務(wù)器程序上的漏洞,在該網(wǎng)站的某些網(wǎng)頁中插入危險(xiǎn)的網(wǎng)頁代碼,以此來騙取用戶銀行或信用卡賬號(hào)、密碼等私人資料。惡意網(wǎng)頁中包含著許多敏感的特征,例如,金融欺詐類的惡意網(wǎng)頁會(huì)在文字、圖片等方面仿冒官網(wǎng),或是在真實(shí)網(wǎng)頁中插入虛假票務(wù)、虛假中獎(jiǎng)、假冒網(wǎng)銀、虛假購物等信息,這些特征大多以文本串的形式出現(xiàn)在網(wǎng)頁中。
[0004]現(xiàn)有的為了防范惡意網(wǎng)站的主要手段是當(dāng)用戶訪問某網(wǎng)站時(shí),客戶端將網(wǎng)站的URL發(fā)送至服務(wù)器端的黑白名單數(shù)據(jù)庫進(jìn)行查詢,然而由于釣魚網(wǎng)站不斷更新?lián)Q代,這種方法對(duì)釣魚網(wǎng)站等惡意網(wǎng)站的檢出率不高并具有滯后性?;蛘呤峭ㄟ^基于文本的方法進(jìn)行識(shí)另O,例如通過提取頁面中關(guān)鍵詞,并將關(guān)鍵詞上傳至服務(wù)器,在黑名單數(shù)據(jù)庫中匹配,這種方法效率比較低下,而且容易受文字順序等因素的影響,誤判率較高。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法,包括:在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID;將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配;若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分;根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。
[0007]根據(jù)本發(fā)明的另一方面,提供了一種客戶端,包括:服務(wù)器下發(fā)的特征庫,用于存儲(chǔ)服務(wù)器對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ;提取模塊,用于在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段;特征ID獲取模塊,用于獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID ;第一匹配模塊,用于將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配;評(píng)估分獲取模塊,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分;處理模塊,用于根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。
[0008]根據(jù)本發(fā)明的另一方面,提供了一種服務(wù)器,包括:特征庫,用于存儲(chǔ)對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ;網(wǎng)絡(luò)接口,用于將特征庫下放給客戶端。
[0009]根據(jù)本發(fā)明的另一方面,提供了一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng),包括上述客戶端和服務(wù)器。
[0010]根據(jù)本發(fā)明的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法及系統(tǒng)、客戶端、服務(wù)器,根據(jù)提取的頁面的多個(gè)內(nèi)容片段,獲取與每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,對(duì)頁面進(jìn)行初步的識(shí)別,如果存在特征ID的匹配,認(rèn)為該頁面是可能的惡意頁面,根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分;根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。根據(jù)該方案,對(duì)頁面的識(shí)別結(jié)合了頁面中的多個(gè)內(nèi)容片斷,以及多項(xiàng)頁面信息;該方案不依賴于服務(wù)器端的黑白名單數(shù)據(jù)庫,而是通過特征庫和對(duì)頁面信息的綜合評(píng)分實(shí)現(xiàn)對(duì)惡意/欺詐/釣魚頁面的高效率的識(shí)別。通過上述多層次的識(shí)別,降低了誤判率,提高了識(shí)別準(zhǔn)確率。
[0011]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0012]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0013]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法的流程圖;
[0014]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法的流程圖;
[0015]圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法的流程圖;
[0016]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的客戶端的結(jié)構(gòu)示意圖;
[0017]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的服務(wù)器的結(jié)構(gòu)示意圖;
[0018]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0020]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法,如圖I所示,該方法包括如下步驟:
[0021]步驟S110,在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID。
[0022]對(duì)內(nèi)容片段的提取在訪問頁面加載完成后進(jìn)行。內(nèi)容片段可以是頁面上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù)。頁面加載完成是指頁面中全部的顯示內(nèi)容加載完成,包括文字、圖片、表單等。
[0023]具體的,在對(duì)網(wǎng)站的訪問過程中,首先需要根據(jù)網(wǎng)站的URL獲取網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁文檔,一般為HTML (Hyper Text Mark-up Language,超文本標(biāo)記語言)文檔,并由瀏覽器解析該HTML文檔,將運(yùn)行HTML文檔中的JS腳本,下載HTML文檔中的規(guī)定的資源文件,再進(jìn)行網(wǎng)頁的加載,以顯示到顯示屏幕上。
[0024]在一次網(wǎng)頁的訪問過程中,BHO(Browser Helper Object,瀏覽器輔助對(duì)象)機(jī)制提供了三個(gè)事件:BeforeNavigate2, NavigateComplete〗和 DocumentComplete2 事件。
[0025]在IE瀏覽器中,通過響應(yīng)“BeforeNavigate2”事件可以獲取IE當(dāng)前加載的URL。
[0026]而在其他瀏覽器中,如在火狐(Firefox)瀏覽器中使用火狐擴(kuò)展機(jī)制提供的指定響應(yīng)事件接口,獲取火狐瀏覽器當(dāng)前加載的URL。在谷歌(chrome)瀏覽器中使用網(wǎng)景插件應(yīng)用程序編程接口(Netscape Plugin Application Programming Interface,簡稱:NPAPI)插件機(jī)制,獲取谷歌瀏覽器當(dāng)前加載的URL。
[0027]特征ID是由特定算法生成的,與提取出的每個(gè)內(nèi)容片段唯一對(duì)應(yīng)的一組二進(jìn)制數(shù)據(jù)。
[0028]例如,可以獲取瀏覽器調(diào)用meta協(xié)議時(shí)必須調(diào)用的函數(shù),例如可以是CWindow::MetaRefreshTimerCallback函數(shù);或者瀏覽器運(yùn)行jscript時(shí)必須調(diào)用的函數(shù),例如可以為 CDoc::DoNavigate 函數(shù)。
[0029]在HTML文檔中,規(guī)定有網(wǎng)頁上的各種資源文件的地址、屬性、顯示方式的標(biāo)簽,包括有<meta>標(biāo)簽,還可能包括有js腳本。瀏覽器在解析網(wǎng)頁文檔的過程中,會(huì)依次根據(jù)標(biāo)簽調(diào)用瀏覽器或系統(tǒng)函數(shù)進(jìn)行解析。
[0030]步驟S120,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配。
[0031]特征庫是大量的惡意/欺詐/釣魚頁面中的包含惡意信息的內(nèi)容片段對(duì)應(yīng)的特征ID的集合。如果從訪問頁面提取的特征ID在特征庫中找不到與其匹配的特征ID,就表明頁面中不具有常見的惡意/欺詐/釣魚的內(nèi)容片段,可以將該頁面識(shí)別為安全頁面,允許用戶的訪問行為。
[0032]步驟S130,若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分。
[0033]如果存在特征ID的匹配,該頁面可能是惡意/欺詐/釣魚頁面。在該步驟中通過對(duì)頁面各項(xiàng)信息的評(píng)分進(jìn)行進(jìn)一步的判定。
[0034]頁面信息包括:URL,頁面的refer信息,注冊(cè)時(shí)間,注冊(cè)郵箱,公司名稱,HOST、IP及其變動(dòng)時(shí)間、變動(dòng)頻率等。
[0035]步驟S140,根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。
[0036]頁面的評(píng)估分高于設(shè)定閾值, 則攔截頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;否則,允許頁面的訪問行為。
[0037]根據(jù)本發(fā)明上述實(shí)施例提供的方法,根據(jù)提取的頁面的多個(gè)內(nèi)容片段,獲取與每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,對(duì)頁面進(jìn)行初步的識(shí)別,如果存在特征ID的匹配,認(rèn)為該頁面是可能的惡意頁面,根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分;根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。根據(jù)該方案,對(duì)頁面的識(shí)別結(jié)合了頁面中的多個(gè)內(nèi)容片斷的特征ID,以及多項(xiàng)頁面信息;該方案不依賴于服務(wù)器端的黑白名單數(shù)據(jù)庫,而是通過特征庫和對(duì)頁面信息的綜合評(píng)分實(shí)現(xiàn)對(duì)惡意/欺詐/釣魚頁面的高效率的識(shí)別。通過上述多層次的識(shí)別,降低了誤判率,提高了識(shí)別準(zhǔn)確率。
[0038]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法,如圖2所示,該方法包括如下步驟:
[0039]步驟S210,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID。
[0040]對(duì)內(nèi)容片段的提取在訪問頁面加載完成后進(jìn)行。內(nèi)容片段可以是頁面上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù)。頁面加載完成首先是指頁面中全部的顯示內(nèi)容加載完成,包括文字、圖片、表單等。對(duì)于動(dòng)態(tài)網(wǎng)頁,顯示的內(nèi)容卻可能隨著時(shí)間或數(shù)據(jù)庫操作的結(jié)果而發(fā)生改變,過早的提取頁面內(nèi)容可能無法包含全部必需的內(nèi)容片段,從而造成誤判。例如,頁面代碼中可能腳本,腳本運(yùn)行中可能會(huì)替換頁面中的部分內(nèi)容。這時(shí),對(duì)內(nèi)容片段的提取應(yīng)在所有腳本加載、運(yùn)行完成之后,以及DOM組件加載完成后進(jìn)行。[0041]頁面可能是具有多個(gè)子框架頁面的嵌套網(wǎng)頁,在內(nèi)嵌頁中顯示其他頁面的內(nèi)容。這種情況下,頁面事件加載完成還包括所有內(nèi)嵌頁面也加載完成。
[0042]在某些情況下,也可以為頁面的加載設(shè)置一個(gè)等待時(shí)間,等待時(shí)間結(jié)束后即認(rèn)為頁面已加載完成,開始提取內(nèi)容片段。例如,一些惡意網(wǎng)站在頁面內(nèi)容展示完成之后,也一直保持加載狀態(tài),造成等待的時(shí)間過長,無法及時(shí)檢測(cè)。通過設(shè)置等待時(shí)間,可以避免這種情況的發(fā)生。
[0043]內(nèi)容片段的提取具體是指提取不定長的網(wǎng)頁片段,對(duì)這些網(wǎng)頁片段做窮舉,篩選和淘汰,得到最終的內(nèi)容片段。具體地,可以這樣進(jìn)行:從第一個(gè)字節(jié)開始,依次遍歷后面長度為1,2,3,……直到預(yù)設(shè)上限字節(jié)長度的二進(jìn)制數(shù)據(jù)片段;對(duì)每個(gè)片段進(jìn)行篩選,如果是無用片段,則丟棄,如果是有用片段,記錄該片段;當(dāng)前字節(jié)片段遍歷完成后,按照相同的邏輯處理下一字節(jié)。
[0044]為每個(gè)記錄的片段生成特征ID,特征ID是二進(jìn)制數(shù)據(jù)。內(nèi)容片段與生成的特征ID唯一對(duì)應(yīng)。具體地,可以利用哈希算法為每個(gè)內(nèi)容片段生成特征ID。
[0045]步驟S220,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,如果提取的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,執(zhí)行步驟S240,否則執(zhí)行步驟S230。
[0046]特征庫由服務(wù)器生成,是大量的惡意/欺詐/釣魚頁面中的惡意內(nèi)容片段對(duì)應(yīng)的特征ID的集合。具體地,服務(wù)器通過機(jī)器學(xué)習(xí)算法對(duì)大量的網(wǎng)站頁面提取內(nèi)容片段,獲取惡意/欺詐/釣魚頁面的樣本,統(tǒng)計(jì)出經(jīng)常在惡意/欺詐/釣魚網(wǎng)站中出現(xiàn)的內(nèi)容片段。例如,對(duì)學(xué)習(xí)樣本進(jìn)行數(shù)據(jù)挖掘,得到樣本特征,對(duì)這些樣本特征進(jìn)行特征選取,計(jì)算出特征向量,對(duì)特征向量進(jìn)行機(jī)器學(xué)習(xí),建立識(shí)別模型,利用模擬測(cè)試的方法檢查模型的精度,根據(jù)精度檢查的結(jié)果將該樣本加入正常樣本或惡意樣本。然后,按照特定的算法,例如,哈希算法,為這些片段生成特征ID,將生成的特征ID加入到特征庫中。例如,可以利用貝葉斯統(tǒng)計(jì)概率模型和神經(jīng)網(wǎng)絡(luò)模型,對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí)建立特征庫。
[0047]服務(wù)器對(duì)生成的特征庫進(jìn)行維護(hù)。該步驟中所說的與特征庫中的特征ID進(jìn)行匹配是在本地完成的,這樣更具有效率和靈活性。具體地,服務(wù)器根據(jù)最新的統(tǒng)計(jì)樣本定期地對(duì)特征庫中的特征ID做更新,將更新的特征庫同步給客戶端。進(jìn)一步地,服務(wù)器可以對(duì)特征庫進(jìn)行刪除,得到一個(gè)精簡的特征庫,例如,精簡的數(shù)據(jù)庫中保留根據(jù)一段時(shí)間內(nèi)的統(tǒng)計(jì)的樣本,將惡意/欺詐/釣魚頁面上最常見的內(nèi)容片段對(duì)應(yīng)的特征ID,客戶端將該精簡的特征庫下載到本地。服務(wù)器端的特征庫與本地相比更全面精準(zhǔn)。這樣,對(duì)于常見頁面的識(shí)別不需要經(jīng)過服務(wù)器端,提高了效率。
[0048]步驟S230,允許頁面的訪問行為。
[0049]如果從訪問頁面的內(nèi)容片段中提取的特征ID中在本地的特征庫中找不到與其匹配的特征ID,就表明頁面中不具有常見的惡意/欺詐/釣魚的內(nèi)容片段,將該頁面識(shí)別為安全頁面,允許用戶的訪問行為
[0050]步驟S240,根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分。
[0051]具體地,根據(jù)以下有關(guān)頁面的邏輯結(jié)果中的一個(gè)或多個(gè)的組合,計(jì)算頁面的評(píng)估分:頁面的URL是否屬于本地黑/白名單;頁面的URL是否屬于高危域名或高危IP ;頁面的refer信息是否為高危refer信息;根據(jù)匹配的至少一個(gè)特征ID而判定的頁面內(nèi)容是否為高危頁面內(nèi)容;頁面對(duì)應(yīng)的網(wǎng)站服務(wù)器是否為高危服務(wù)器;頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)郵箱是否屬于郵箱黑名單;頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)時(shí)間是否短于預(yù)設(shè)時(shí)長。以上的邏輯結(jié)果僅為示例,可以將任何,例如,還可以包括網(wǎng)站備案信息、網(wǎng)站漏洞以及惡意關(guān)鍵詞等。
[0052]為網(wǎng)站設(shè)定初始分值。為上述每項(xiàng)邏輯結(jié)果設(shè)定預(yù)設(shè)分值,從初始分值開始,依次判定上述邏輯結(jié)果是否正常,對(duì)正常的邏輯結(jié)果,在頁面當(dāng)前分值上減去該邏輯結(jié)果的預(yù)設(shè)分值,作為新的頁面分值,對(duì)非正常的邏輯結(jié)果,加上預(yù)設(shè)分值。重復(fù)上述過程,直到所有邏輯結(jié)果檢驗(yàn)完成,獲得最終評(píng)估分。
[0053]每項(xiàng)邏輯結(jié)果的預(yù)設(shè)分值可能不同,這可以根據(jù)該邏輯結(jié)果對(duì)頁面安全性的影響而確定。例如,對(duì)于頁面URL是否屬于白名單,可以為其設(shè)置較高的分值,如40分,S卩如果該頁面URL屬于白名單(可信網(wǎng)站、政府機(jī)關(guān)網(wǎng)站),則在當(dāng)前分值減去40分;而對(duì)IP,refer信息,注冊(cè)時(shí)間等邏輯結(jié)果,可將預(yù)設(shè)分值設(shè)定為10分。
[0054]對(duì)于一些對(duì)頁面識(shí)別結(jié)果有決定性的邏輯結(jié)果,可以在判定該邏輯結(jié)果之后中斷上述評(píng)估分過程,而直接得出最終評(píng)估分。例如,如果頁面URL是已經(jīng)過人工審核的惡意網(wǎng)站,不再進(jìn)行后續(xù)結(jié)果的判定,直接將評(píng)估分設(shè)為100分。
[0055]步驟S250,將計(jì)算的頁面評(píng)估分與預(yù)設(shè)的閾值相比較,如果頁面評(píng)估分高于預(yù)設(shè)閾值執(zhí)行步驟S260,否則執(zhí)行步驟S230。
[0056]將評(píng)估分低于預(yù)設(shè)閾值的頁面確認(rèn)為安全頁面,例如,可以將預(yù)設(shè)閾值設(shè)為60分。
[0057]步驟S260,將計(jì)算的匹配的特征ID上報(bào)給服務(wù)器端,以供服務(wù)器端將匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID。
[0058]對(duì)評(píng)估分高于預(yù)設(shè)閾值的頁面,進(jìn)一步根據(jù)頁面的模板ID做精準(zhǔn)的識(shí)別,以降低對(duì)頁面的誤判率。
[0059]頁面的模板ID是對(duì)步驟S210中獲取的一個(gè)或多個(gè)特征ID組合計(jì)算得到的一組二進(jìn)制數(shù)據(jù)。模板ID可以是通過特定的快速哈希算法生成的定長的二進(jìn)制數(shù)據(jù),例如,通過MD5算法生成的64位的二進(jìn)制串。與特征ID類似地,不同特征ID以相同的順序組合,按照相同的算法計(jì)算得到的模板ID是唯一的并且是不可逆的。
[0060]可選地,該步驟中還可以向服務(wù)器上傳匹配的模板ID對(duì)應(yīng)頁面的URL,以供服務(wù)器將該頁面的URL加入惡意網(wǎng)址庫。為保護(hù)用戶的隱私,可以對(duì)URL加密,計(jì)算URL的特征值作為密文??蛇x地,特征值可以為根據(jù)MD5 (Message Digest Algorithm,消息摘要算法第五版)計(jì)算得到的哈希值,或SHAl (Secure Hash Algorithm,安全哈希算法)碼,或CRC(Cyclic Redundancy Check,循環(huán)冗余校驗(yàn))碼等可唯一標(biāo)識(shí)原信息的特征碼。需要說明的是,在上傳URL的密文到服務(wù)器的時(shí)候,需要首先屏蔽可能帶有用戶密碼的網(wǎng)址字符串,不上傳此類URL,以便保證用戶信息的安全。
[0061]步驟S270,若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,確定頁面為惡意/欺詐/釣魚頁面,將結(jié)果返回至客戶端。
[0062]模板庫的生成方式與特征庫類似,服務(wù)器端獲取惡意/欺詐/釣魚頁面的樣本,對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí),建立模板庫。機(jī)器學(xué)習(xí)的過程與步驟S220中描述的相同。例如,模板庫中的模板ID是按照貝葉斯統(tǒng)計(jì)概率模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)惡意/欺詐/釣魚頁面的惡意內(nèi)容片段的組合方式進(jìn)行機(jī)器學(xué)習(xí),然后根據(jù)相應(yīng)片段在特征庫中的特征ID,將特征ID進(jìn)行組合后通過MD5算法生成得到的。
[0063]只通過特征ID無法對(duì)頁面做出準(zhǔn)確的判斷,因?yàn)橛糜谏稍撎卣鱅D的內(nèi)容片段也可能出現(xiàn)在安全網(wǎng)站中。例如,該內(nèi)容片段是對(duì)應(yīng)于“中獎(jiǎng)”這一關(guān)鍵詞的一組編碼,“中獎(jiǎng)”是惡意網(wǎng)站中一種常見的欺詐手段,但也可能出現(xiàn)在官方的彩票管理網(wǎng)站或合法抽獎(jiǎng)活動(dòng)等安全網(wǎng)站上。因此,只根據(jù)這特征ID將該網(wǎng)頁識(shí)別為惡意網(wǎng)站會(huì)導(dǎo)致較高的誤判率。而在該步驟中通過匹配多個(gè)特征ID組合生成的模板ID能夠進(jìn)行準(zhǔn)確的判斷。例如,在訪問頁面中除了“中獎(jiǎng)”,還包括獎(jiǎng)金數(shù)額“XX萬元”,“手續(xù)費(fèi)”,“驗(yàn)證碼”,“匯款地址”等字樣,可以確定該頁面屬于惡意/欺詐/釣魚頁面。模板ID就是將上述字樣對(duì)應(yīng)的內(nèi)容片段生成的特征ID按一定順序組合計(jì)算產(chǎn)生的一個(gè)二進(jìn)制數(shù)據(jù),由于內(nèi)容片段、特征ID和模板ID之間的唯一對(duì)應(yīng)關(guān)系,根據(jù)模板ID就可以對(duì)頁面內(nèi)容做出判斷。
[0064]如果至少一個(gè)模板ID中具有與釣魚網(wǎng)頁識(shí)別庫中的模板ID匹配的模板ID,將訪問頁面確定為惡意/欺詐/釣魚頁面。
[0065]可選地,該步驟中還可以包括:確定匹配的模板ID所對(duì)應(yīng)的分類信息,將分類信息返回給客戶端。
[0066]具體的分類類別名稱在本實(shí)施例的方法實(shí)施之前由人工設(shè)定,主要類別包括:中獎(jiǎng)頁面,虛假銀行頁面,虛假購物頁面等,在每個(gè)主要類別下還可以進(jìn)行更精細(xì)的分類,例如中獎(jiǎng)頁面可以進(jìn)一步包括“中國好聲音”中獎(jiǎng)頁面,“我要上春晚”中獎(jiǎng)詐騙頁面等。
[0067]具體地,服務(wù)器端通過對(duì)大量的惡意/欺詐/釣魚頁面類型和頁面生成的模板ID進(jìn)行機(jī)器學(xué)習(xí),得到分類的規(guī)則,預(yù)先建立模板ID與分類信息之間的對(duì)應(yīng)關(guān)系,接收客戶端上報(bào)的模板ID后,根據(jù)分類規(guī)則將該模板ID劃分到相應(yīng)的類別下。機(jī)器學(xué)習(xí)的具體方式可參照步驟S220中的描述進(jìn)行。[0068]步驟S280,客戶端接收返回結(jié)果,根據(jù)該結(jié)果,對(duì)頁面進(jìn)行攔截,或給出風(fēng)險(xiǎn)提示,風(fēng)險(xiǎn)提示中還可以包括服務(wù)器獲取的頁面分類信息。
[0069]圖2所示的方法僅為本發(fā)明實(shí)施例的一種可選的實(shí)施方式。作為另一種實(shí)施方式,在步驟S250判斷出頁面的評(píng)估分高于預(yù)設(shè)的閾值,就可以直接對(duì)頁面進(jìn)行攔截。
[0070]根據(jù)本發(fā)明上述實(shí)施例提供的方法,判定訪問頁面加載完成后,從頁面中提取多個(gè)內(nèi)容片段,為提取的內(nèi)容片段生成特征ID,首先將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,如果存在匹配的特征ID,則認(rèn)為該頁面可能是惡意/欺詐/釣魚頁面,進(jìn)一步結(jié)合頁面評(píng)估分和模板ID對(duì)頁面做更準(zhǔn)確的判斷。計(jì)算頁面評(píng)估分,將評(píng)估分低于閾值的頁面確認(rèn)為安全頁面,允許訪問,將評(píng)估分高于閾值的頁面的特征ID上報(bào)至服務(wù)器,服務(wù)器生成模板ID根據(jù)模板ID進(jìn)行確認(rèn)根據(jù)該方案,通過特征ID、頁面評(píng)估分以及模板ID對(duì)頁面進(jìn)行了多層次的識(shí)別,能夠極大地降低誤判率。對(duì)頁面的識(shí)別可以在客戶端完成,或通過客戶端與服務(wù)器交互,具有靈活性,在網(wǎng)購中能及時(shí)地防止釣魚和欺詐行為,可以檢測(cè)到虛假票務(wù),虛假中獎(jiǎng),假冒網(wǎng)銀,虛假購物。
[0071]圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法,如圖3所示,該方法包括如下步驟:
[0072]步驟S310,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID。
[0073]步驟S320,將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,如果提取的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,執(zhí)行步驟S330,否則執(zhí)行步驟S390。
[0074]步驟S310,S320的實(shí)施方式與上一實(shí)施例中的步驟S210,S220相同,此處不再贅述。
[0075]步驟S330,將匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID。
[0076]步驟S340,將至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配,如果至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,執(zhí)行步驟S370,否則執(zhí)行步驟S350。
[0077]模板ID的計(jì)算方式以及服務(wù)器如何生成模板庫已在上一實(shí)施例中描述。區(qū)別在于,本實(shí)施例中,模板ID的計(jì)算和匹配在本地完成。則在本實(shí)施例方法執(zhí)行之前,還包括將服務(wù)器中的模板庫下發(fā)至本地??蛇x地,服務(wù)器可以對(duì)特征庫進(jìn)行刪除,得到一個(gè)精簡的模板庫,例如,根據(jù)一段時(shí)間內(nèi)的統(tǒng)計(jì)的樣本,將惡意/欺詐/釣魚頁面上最常見的內(nèi)容片段組合對(duì)應(yīng)的模板ID保留在精簡的模板庫中。
[0078]具體的,可以采用DOM樹的技術(shù)對(duì)網(wǎng)頁內(nèi)容進(jìn)行檢測(cè)并設(shè)定可信度值。將用戶上傳的網(wǎng)頁內(nèi)容進(jìn)行解析,解析出多個(gè)特征項(xiàng),根據(jù)設(shè)定的規(guī)則將多個(gè)特征項(xiàng)生成DOM樹。
[0079]云服務(wù)器端的學(xué)習(xí)裝置具有學(xué)習(xí)的功能,在云服務(wù)器端存儲(chǔ)有多種檢測(cè)樣本,檢測(cè)樣本包括:虛假信息、醫(yī)療廣告、釣魚網(wǎng)站等等的樣本,檢測(cè)樣本也都是采用DOM樹的形式,每個(gè)DOM樹的節(jié)點(diǎn)包括節(jié)點(diǎn)名稱、節(jié)點(diǎn)值等信息。通過對(duì)檢測(cè)樣本進(jìn)行解析,獲取當(dāng)網(wǎng)頁是虛假信息、醫(yī)療廣告、釣魚網(wǎng)站等時(shí),DOM樹結(jié)構(gòu)上的各個(gè)特征項(xiàng)所對(duì)應(yīng)的特征數(shù)據(jù)。
[0080]當(dāng)對(duì)用戶上傳的網(wǎng)頁內(nèi)容進(jìn)行檢測(cè)時(shí),解析由網(wǎng)頁內(nèi)容生成的DOM樹,判斷DOM樹中的特征項(xiàng)所對(duì)應(yīng)的數(shù)據(jù),是否與學(xué)習(xí)裝置學(xué)習(xí)的檢測(cè)樣本的特征項(xiàng)所對(duì)應(yīng)的特征數(shù)據(jù)相等或相近,如果相等或相近,則被檢測(cè)的網(wǎng)頁被認(rèn)定與檢測(cè)樣本相同或相近,即用戶上傳的網(wǎng)頁內(nèi)容為是虛假信息、醫(yī)療廣告或釣魚網(wǎng)站等的網(wǎng)頁。[0081]例如,對(duì)于釣魚網(wǎng)站網(wǎng)頁的判斷,學(xué)習(xí)裝置解析對(duì)釣魚網(wǎng)站的檢測(cè)樣本進(jìn)行解析,獲取釣魚網(wǎng)站網(wǎng)頁中的各個(gè)特征項(xiàng)所對(duì)應(yīng)的特征數(shù)據(jù)。云服務(wù)器端將用戶上傳的支付頁面生成DOM樹,針對(duì)支付頁面內(nèi)容DOM樹中的η個(gè)節(jié)點(diǎn)的特征值進(jìn)行DOM樹解析、識(shí)別,判斷該網(wǎng)頁內(nèi)容是否與已經(jīng)確定為釣魚網(wǎng)站的內(nèi)容相似度,得出該網(wǎng)頁的可信度等。選取用戶上傳的支付頁面生成DOM樹中的特征,例如,解析出用戶上傳的支付頁面生成DOM樹中第3層中的第5個(gè)元素帶有class名稱“alipay”,與釣魚網(wǎng)站檢測(cè)樣本中的特征數(shù)據(jù)相同,根據(jù)DOM樹結(jié)構(gòu)上的特征值的匹配可以判定該網(wǎng)頁為釣魚網(wǎng)站的網(wǎng)頁,在網(wǎng)購中能及時(shí)地防止釣魚和欺詐行為,可以檢測(cè)到虛假票務(wù),虛假中獎(jiǎng),假冒網(wǎng)銀,虛假購物。
[0082]客戶端將該精簡的模板庫下載到本地。這樣,對(duì)于常見頁面的識(shí)別不需要經(jīng)過服務(wù)器端,提高了效率。
[0083]步驟S350,根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分。
[0084]步驟S360,將計(jì)算得到的頁面評(píng)估分與預(yù)設(shè)的閾值比較,如果高于預(yù)設(shè)閾值執(zhí)行步驟S380,否則執(zhí)行步驟S390。
[0085]關(guān)于頁面評(píng)估分的具體方式可參見上一實(shí)施例中的步驟S240。
[0086]步驟S370,將匹配的模板ID上報(bào)給服務(wù)器端,確定匹配的模板ID對(duì)應(yīng)的分類信
肩、O
[0087]關(guān)于分類信息的確定,詳見步驟S270中的介紹。
[0088]該步驟為可選步驟,在步驟S340判斷結(jié)果為是的情況下,可以直接執(zhí)行步驟S380,無需查詢分類信息。
[0089]步驟S380,攔截頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示。
[0090]該步驟由客戶端根據(jù)返回結(jié)果完成,風(fēng)險(xiǎn)提示中還可以包括步驟S370中獲得的分類信息。
[0091]步驟S390,允許頁面的訪問行為。
[0092]在不存在匹配的特征ID時(shí),允許訪問;或存在匹配的特征ID而不存在匹配的模板ID,且頁面評(píng)估分不高于預(yù)設(shè)閾值時(shí),允許訪問。
[0093]根據(jù)本發(fā)明上述實(shí)施例提供的方法,判定訪問頁面加載完成后,從頁面中提取多個(gè)內(nèi)容片段,為提取的內(nèi)容片段生成特征ID,首先將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,如果存在匹配的特征ID,則認(rèn)為該頁面可能是惡意/欺詐/釣魚頁面,進(jìn)一步結(jié)合頁面評(píng)估分和模板ID對(duì)頁面做更準(zhǔn)確的判斷;首先在本地計(jì)算模板ID并在本地模板庫中匹配,如果模板ID匹配,將頁面確認(rèn)為惡意/欺詐/釣魚頁面,否則,計(jì)算頁面的評(píng)估分,將評(píng)估分低于閾值的頁面確認(rèn)為安全頁面。根據(jù)該方案,通過特征ID、頁面評(píng)估分以及模板ID對(duì)頁面進(jìn)行了多層次的識(shí)別,能夠極大地降低誤判率。對(duì)頁面的識(shí)別可以在客戶端完成,或通過客戶端與服務(wù)器交互,具有靈活性,在網(wǎng)購中能及時(shí)地防止釣魚和欺詐行為,可以檢測(cè)到虛假票務(wù),虛假中獎(jiǎng),假冒網(wǎng)銀,虛假購物。
[0094]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的客戶端的結(jié)構(gòu)示意圖,如圖4所示,該客戶端包括:
[0095]服務(wù)器下發(fā)的特征庫,用于存儲(chǔ)服務(wù)器對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID。
[0096]服務(wù)器生成特征庫,對(duì)服務(wù)器可以對(duì)特征庫進(jìn)行精簡和刪除,得到一個(gè)精簡的特征庫,下發(fā)到本地。
[0097]提取模塊410,用于在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段。
[0098]提取模塊410對(duì)內(nèi)容片段的提取在頁面加載完成后進(jìn)行。提取的內(nèi)容片段可以是頁面上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù)。這里,頁面加載完成首先是指頁面中全部的顯示內(nèi)容加載完成,包括文字、圖片、表單等。對(duì)于動(dòng)態(tài)網(wǎng)頁,顯示的內(nèi)容卻可能隨著時(shí)間或數(shù)據(jù)庫操作的結(jié)果而發(fā)生改變,過早的提取頁面內(nèi)容可能無法包含全部必需的內(nèi)容片段,從而造成誤判。例如,頁面代碼中可能腳本,腳本運(yùn)行中可能會(huì)替換頁面中的部分內(nèi)容。這時(shí),對(duì)內(nèi)容片段的提取應(yīng)在所有腳本運(yùn)行完成之后,以及DOM組件加載完成后進(jìn)行。
[0099]頁面可能是具有多個(gè)子框架頁面的嵌套網(wǎng)頁,在內(nèi)嵌頁中顯示其他頁面的內(nèi)容。這種情況下,頁面加載完成還包括所有內(nèi)嵌頁面也加載完成。
[0100]在某些情況下,也可以為頁面的加載設(shè)置一個(gè)等待時(shí)間,等待時(shí)間結(jié)束后即認(rèn)為頁面已加載完成,開始提取內(nèi)容片段。例如,一些惡意網(wǎng)站在頁面內(nèi)容展示完成之后,也一直保持加載狀態(tài),造成等待的時(shí)間過長,無法及時(shí)檢測(cè)。通過設(shè)置時(shí)間,可以避免這種情況的發(fā)生。 [0101]提取模塊410對(duì)內(nèi)容片段的提取是通過提取不定長的網(wǎng)頁內(nèi)容片段實(shí)現(xiàn)的,提取模塊410對(duì)網(wǎng)頁的片段做窮舉,篩選和淘汰,得到最終的內(nèi)容片段。具體地,可以這樣進(jìn)行:提取模塊410從第一個(gè)字節(jié)開始,依次遍歷后面長度為1,2,3,……直到預(yù)設(shè)上限字節(jié)長度的二進(jìn)制數(shù)據(jù)片段;對(duì)每個(gè)二進(jìn)制數(shù)據(jù)片段進(jìn)行篩選,如果是無用片段,則丟棄,如果是有用片段,記錄該二進(jìn)制數(shù)據(jù)片段作為內(nèi)容片段;當(dāng)前字節(jié)片段遍歷完成后,提取模塊410按照相同的邏輯處理下一字節(jié)。
[0102]特征ID獲取模塊420,用于獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID。特征ID獲取模塊420生成的特征ID是二進(jìn)制數(shù)據(jù),并且生成的特征ID與提取模塊410獲取的頁面元素唯一對(duì)應(yīng)。具體地,特征ID獲取模塊420可以利用哈希算法為每個(gè)頁面元素生成特征ID。
[0103]第一匹配模塊430,用于將特征ID獲取模塊420獲取的特征ID與特征庫中的特征ID進(jìn)行匹配。
[0104]評(píng)估分獲取模塊440,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分。
[0105]評(píng)估分獲取模塊440根據(jù)以下有關(guān)頁面的邏輯結(jié)果的一個(gè)或多個(gè)的組合,計(jì)算頁面的評(píng)估分:頁面的URL是否屬于本地黑/白名單;頁面的URL是否屬于高危域名或高危IP ;頁面的refer信息是否為高危refer信息;根據(jù)匹配的至少一個(gè)特征ID而判定的頁面內(nèi)容是否為高危頁面內(nèi)容;頁面對(duì)應(yīng)的網(wǎng)站服務(wù)器是否為高危服務(wù)器;頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)郵箱是否屬于郵箱黑名單;頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)時(shí)間是否短于預(yù)設(shè)時(shí)長。
[0106]具體地,評(píng)估分獲取模塊440為網(wǎng)站設(shè)定初始分值。為上述每項(xiàng)邏輯結(jié)果設(shè)定預(yù)設(shè)分值,從初始分值開始,依次判定上述邏輯結(jié)果是否正常,對(duì)正常的邏輯結(jié)果,在頁面當(dāng)前分值上減去該邏輯結(jié)果的預(yù)設(shè)分值,作為新的頁面分值,對(duì)非正常的邏輯結(jié)果,加上預(yù)設(shè)分值。重復(fù)上述過程,直到所有邏輯結(jié)果檢驗(yàn)完成,獲得最終評(píng)估分。
[0107]評(píng)估分獲取模塊440為每項(xiàng)邏輯結(jié)果預(yù)設(shè)的分值可能不同,這可以根據(jù)該邏輯結(jié)果對(duì)頁面安全性的影響而確定。例如,對(duì)于頁面URL是否屬于白名單,可以為其設(shè)置較高的分值,如40分,即如果該頁面URL屬于白名單(可信網(wǎng)站、政府機(jī)關(guān)網(wǎng)站),則在當(dāng)前分值上減40分;而對(duì)IP,refer信息,注冊(cè)時(shí)間等邏輯結(jié)果,可將預(yù)設(shè)分值設(shè)定為10分。
[0108]對(duì)于一些對(duì)頁面識(shí)別結(jié)果有決定性的邏輯結(jié)果,評(píng)估分獲取模塊440可以在判定該邏輯結(jié)果之后中斷上述評(píng)估分過程,而直接得出最終評(píng)估分。例如,如果頁面URL是已經(jīng)過人工審核的惡意網(wǎng)站,不再進(jìn)行后續(xù)結(jié)果的判定,直接將評(píng)估分設(shè)為100分。 [0109]處理模塊450,用 于根據(jù)頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)頁面的訪問行為進(jìn)行處理。
[0110]處理模塊450包括:比較單元4501,用于將頁面的評(píng)估分與設(shè)定閾值進(jìn)行比較。處理單元4502,用于若比較單元4501經(jīng)過比較得到頁面的評(píng)估分高于設(shè)定閾值,則攔截頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;否則,允許頁面的訪問行為。
[0111]處理單元4502還用于:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中不具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則允許頁面的訪問行為。
[0112]客戶端還包括:上報(bào)接口 460,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將匹配的至少一個(gè)特征ID上報(bào)給服務(wù)器端,以供服務(wù)器端將匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配;若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定匹配的模板ID所對(duì)應(yīng)的分類信息;將分類信息返回給客戶端;
[0113]接收接口 470,用于接收服務(wù)器端返回的匹配的模板ID所對(duì)應(yīng)的分類信息.[0114]處理單元4501還用于在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示分類信息。
[0115]上報(bào)接口 460還用于:若比較單元4501確定頁面的評(píng)估分高于設(shè)定閾值,則將頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將頁面的URL加入惡意網(wǎng)址庫。圖4中未示出比較單元4501與上報(bào)接口 460的連接關(guān)系。
[0116]客戶端還包括:服務(wù)器下發(fā)的模板庫,用于存儲(chǔ)由特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID。
[0117]模板ID獲取模塊480,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID。
[0118]模板ID獲取模塊480對(duì)第一匹配模塊430得出的匹配的特征ID組合計(jì)算得到模板ID。模板ID可以是模板ID獲取模塊480通過特定的快速哈希算法生成的定長的二進(jìn)制數(shù)據(jù),例如,通過MD5算法生成的64位的二進(jìn)制串。與特征ID類似地,不同特征ID以相同的順序組合,按照相同的算法計(jì)算得到的模板ID是唯一的并且是不可逆的。
[0119]第二匹配模塊490,用于將至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配。
[0120]處理模塊450還用于若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則攔截頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示。圖4中未示出第二匹配模塊490與處理模塊450中處理單元4502的連接關(guān)系。
[0121]評(píng)估分獲取模塊440還用于若至少一個(gè)模板ID中不具有與模板庫中的模板ID匹配的模板ID,則根據(jù)頁面的信息,計(jì)算頁面的評(píng)估分。
[0122]上報(bào)接口 460還用于若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將匹配的模板ID上報(bào)給服務(wù)器端,以供服務(wù)器端根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定匹配的模板ID所對(duì)應(yīng)的分類信息;
[0123]上報(bào)接口 460還用于:若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將頁面的URL加入惡意網(wǎng)址庫。
[0124]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的服務(wù)器的結(jié)構(gòu)示意圖,如圖5所示,該服務(wù)器包括:
[0125]特征庫,用于存儲(chǔ)對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ;
[0126]網(wǎng)絡(luò)接口 510,用于將特征庫下放給客戶端。
[0127]服務(wù)器還包括:模板庫,用于存儲(chǔ)由特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID。
[0128]模板庫的生成方式與特征庫類似,服務(wù)器端獲取惡意/欺詐/釣魚頁面的樣本,對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí),建立模板庫。例如,模板庫中的模板ID是按照貝葉斯統(tǒng)計(jì)概率模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)惡意/欺詐/釣魚頁面的惡意內(nèi)容片段的組合方式進(jìn)行機(jī)器學(xué)習(xí),然后根據(jù)相應(yīng)片段在特征庫中的特征ID,將特征ID進(jìn)行組合后通過MD5算法生成得到的。
[0129]匹配模塊520,用于將經(jīng)由網(wǎng)絡(luò)接口 510接收到的客戶端上報(bào)的匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配;
[0130]分類模塊530,用于若至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定匹配的模板ID所對(duì)應(yīng)的分類信
肩、O
[0131]分類類別名稱由人工預(yù)先設(shè)定,主要類別包括:中獎(jiǎng)頁面,虛假銀行頁面,虛假購物頁面等,在每個(gè)主要類別下還可以進(jìn)行更精細(xì)的分類,例如中獎(jiǎng)頁面可以進(jìn)一步包括“中國好聲音”中獎(jiǎng)頁面,“我要上春晚”中獎(jiǎng)詐騙頁面等。
[0132]具體地,分類模塊530通過對(duì)大量的惡意/欺詐/釣魚頁面類型和頁面生成的模板ID進(jìn)行機(jī)器學(xué)習(xí),得到分類的規(guī)則,預(yù)先建立模板ID與分類信息之間的對(duì)應(yīng)關(guān)系,網(wǎng)絡(luò)接口 510接收客戶端上報(bào)的模板ID后,分類模塊530根據(jù)分類規(guī)則將該模板ID劃分到相應(yīng)的類別下。
[0133]網(wǎng)絡(luò)接口 510還用于向客戶端返回匹配的模板ID所對(duì)應(yīng)的分類信息。
[0134]網(wǎng)絡(luò)接口 510還用于接收客戶端上報(bào)的由頁面的URL以及鑒定識(shí)別信息加密得到的密文.[0135]服務(wù)器還包括:惡意網(wǎng)址庫540,用于存儲(chǔ)網(wǎng)絡(luò)接口 510接收的頁面的URL。
[0136]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的釣魚網(wǎng)頁的檢測(cè)系統(tǒng)的結(jié)構(gòu)示意圖,如圖6所示,該系統(tǒng)包括客戶端400和服務(wù)器500,其中有關(guān)客戶端400的具體結(jié)構(gòu)和功能可參見客戶端實(shí)施例的描述,有關(guān)服務(wù)器500的具體結(jié)構(gòu)和功能可參見服務(wù)器實(shí)施例的描述,在此不再贅述。
[0137]根據(jù)本發(fā)明上述實(shí)施例提供的客戶端、服務(wù)器和基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng),客戶端判定訪問頁面加載完成后,提取模塊從頁面中提取多個(gè)內(nèi)容片段,特征ID獲取模塊為提取的內(nèi)容片段生成特征ID,第一匹配模塊將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,如果存在匹配的特征ID,則認(rèn)為該頁面可能是惡意/欺詐/釣魚頁面,進(jìn)一步通過頁面評(píng)估分和模板ID對(duì)頁面做更準(zhǔn)確的判斷。具體地,可以先通過評(píng)估分獲取模塊計(jì)算頁面評(píng)估分,將評(píng)估分低于閾值的頁面確認(rèn)為安全頁面,允許訪問,將評(píng)估分高于閾值的頁面的特征ID通過上報(bào)接口上報(bào)至服務(wù)器,服務(wù)器通過網(wǎng)絡(luò)接口接收特征ID后,由匹配模塊生成模板ID根據(jù)模板ID進(jìn)行確認(rèn);或者,首先在客戶端的模板ID獲取模塊計(jì)算中計(jì)算得到模板ID并在本地模板庫中匹配,如果模板ID匹配,將頁面確認(rèn)為惡意/欺詐/釣魚頁面,否則,執(zhí)行上述頁面評(píng)估的過程。根據(jù)該方案,通過特征ID、頁面評(píng)估分以及模板ID對(duì)頁面進(jìn)行了多層次的識(shí)別,能夠極大地降低誤判率。對(duì)頁面的識(shí)別可以在客戶端完成,或通過客戶端與服務(wù)器交互,具有靈活性,在網(wǎng)購中能及時(shí)地防止釣魚和欺詐行為,可以檢測(cè)到虛假票務(wù),虛假中獎(jiǎng),假冒網(wǎng)銀,虛假購物。
[0138]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0139]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0140]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0141 ] 本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0142]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0143]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0144]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0145]本發(fā)明公開了:
[0146]Al、一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的方法,包括:
[0147]在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID ;
[0148]將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配;
[0149]若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分;
[0150]根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理。
[0151]A2、根據(jù)Al所述的方法,所述特征庫是預(yù)先從服務(wù)器端下載的;所述服務(wù)器端獲取惡意/欺詐/釣魚頁面的樣本,對(duì)所述樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫;所述服務(wù)器端定期更新所述特征庫并同步給客戶端。
[0152]A3、根據(jù)A2所述的方法,所述對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫具體為:利用貝葉斯統(tǒng)計(jì)概率模型和神經(jīng)網(wǎng)絡(luò)模型,對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫。
[0153]A4、根據(jù)A1-A3任一項(xiàng)所述的方法,所述根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理進(jìn)一步包括:
[0154]將所述頁面的評(píng)估分與所述設(shè)定閾值進(jìn)行比較,若所述頁面的評(píng)估分高于設(shè)定閾值,則攔截所述頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;否則,允許所述頁面的訪問行為。
[0155]A5、根據(jù)A1-A3任一項(xiàng)所述的方法,還包括:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中不具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則允許所述頁面的訪問行為。
[0156]A6、根據(jù)A1-A4任一項(xiàng)所述的方法,所述根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分具體為:根據(jù)以下有關(guān)所述頁面的邏輯結(jié)果中的一個(gè)或多個(gè)的組合,計(jì)算所述頁面的評(píng)估分:
[0157]所述頁面的URL是否屬于本地黑/白名單;[0158]所述頁面的URL是否屬于高危域名或高危IP ;
[0159]所述頁面的refer信息是否為高危refer信息;
[0160]根據(jù)所述匹配的至少一個(gè)特征ID而判定的所述頁面內(nèi)容是否為高危頁面內(nèi)容;
[0161]所述頁面對(duì)應(yīng)的網(wǎng)站服務(wù)器是否為高危服務(wù)器;
[0162]所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)郵箱是否屬于郵箱黑名單;
[0163]所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)時(shí)間是否短于預(yù)設(shè)時(shí)長。
[0164]A7、根據(jù)A4所述的方法,所述服務(wù)器端還包含模板庫,所述模板庫中包含由所述特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID ;
[0165]所述方法還包括:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將所述匹配的至少一個(gè)特征ID上報(bào)給服務(wù)器端,以供所述服務(wù)器端將所述匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與所述模板庫中的模板ID進(jìn)行匹配;若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類信息;將所述分類信息返回給客戶端;
[0166]接收所述服務(wù)器端返回的所述匹配的模板ID所對(duì)應(yīng)的分類信息,在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示所述分類信息。
[0167]A8、根據(jù)A4所述的方法,還包括:
[0168]若所述頁面的評(píng)估分高于設(shè)定閾值,則將所述頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將所述頁面的URL加入惡意網(wǎng)址庫。
[0169]A9、根據(jù)A1-A8任一項(xiàng)所述的方法,所述提取頁面的多個(gè)內(nèi)容片段進(jìn)一步包括:
[0170]從所述頁面的第一個(gè)字節(jié)開始,依次遍歷多個(gè)預(yù)定長度的二進(jìn)制數(shù)據(jù)片段;
[0171]對(duì)每個(gè)二進(jìn)制數(shù)據(jù)片段進(jìn)行篩選,若為無用片段,則丟棄;若為有用片段,則記錄該二進(jìn)制數(shù)據(jù)片段作為所述內(nèi)容片段。
[0172]A10、根據(jù)Al所述的方法,還包括:
[0173]若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將所述至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配;
[0174]若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則攔截所述頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;
[0175]若所述至少一個(gè)模板ID中不具有與模板庫中的模板ID匹配的模板ID,則執(zhí)行根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分的步驟。
[0176]All、根據(jù)AlO所述的方法,還包括:
[0177]若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將匹配的模板ID上報(bào)給服務(wù)器端,以供所述服務(wù)器端根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類信息;
[0178]接收所述服務(wù)器端返回的所述匹配的模板ID所對(duì)應(yīng)的分類信息,在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示所述分類信息。
[0179]A12、根據(jù)AlO所述的方法,還包括:
[0180]若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將所述頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將所述頁面的URL加入惡意網(wǎng)址庫。
[0181]B13、一種客戶端,包括:
[0182]服務(wù)器下發(fā)的特征庫,用于存儲(chǔ)服務(wù)器對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID;
[0183]提取模塊,用于在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段;
[0184]特征ID獲取模塊,用于獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID ;
[0185]第一匹配模塊,用于將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配;
[0186]評(píng)估分獲取模塊,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分;
[0187]處理模塊,用于根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理。
[0188]B14、根據(jù)B13所述的客戶端,所述處理模塊包括:
[0189]比較單元,用于將所述頁面的評(píng)估分與所述設(shè)定閾值進(jìn)行比較;
[0190]處理單元,用于若所述比較單元經(jīng)過比較得到所述頁面的評(píng)估分高于設(shè)定閾值,則攔截所述頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;否則,允許所述頁面的訪問行為。
[0191]B15、根據(jù)B14所述的客戶端,所述處理單元還用于:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中不具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則允許所述頁面的訪問行為。
[0192]B16、根據(jù)B13或B14所述的客戶端,所述評(píng)估分獲取模塊根據(jù)以下有關(guān)所述頁面的邏輯結(jié)果的一個(gè)或多個(gè)的組合,計(jì)算所述頁面的評(píng)估分:
[0193]所述頁面的URL是否屬于本地黑/白名單;
[0194]所述頁面的URL是否屬于高危域名或高危IP ;
[0195]所述頁面的refer信息是否為高危refer信息;
[0196]根據(jù)所述匹配的至少一個(gè)特征ID而判定的所述頁面內(nèi)容是否為高危頁面內(nèi)容;
[0197]所述頁面對(duì)應(yīng)的網(wǎng)站服務(wù)器是否為高危服務(wù)器;
[0198]所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)郵箱是否屬于郵箱黑名單;
[0199]所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)時(shí)間是否短于預(yù)設(shè)時(shí)長。
[0200]B17、根據(jù)B14所述的客戶端,還包括:
[0201]上報(bào)接口,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將所述匹配的至少一個(gè)特征ID上報(bào)給服務(wù)器端,以供所述服務(wù)器端將所述匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與所述模板庫中的模板ID進(jìn)行匹配;若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類信息;將所述分類信息返回給客戶端;
[0202]接收接口,用于接收所述服務(wù)器端返回的所述匹配的模板ID所對(duì)應(yīng)的分類信息;
[0203]所述處理單元還用于在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示所述分類信息。
[0204]B18、根據(jù)B17所述的客戶端,所述上報(bào)接口還用于:若所述頁面的評(píng)估分高于設(shè)定閾值,則將所述頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將所述頁面的URL加入惡意網(wǎng)址庫。
[0205]B19、根據(jù)B13-B18任一項(xiàng)所述的客戶端,所述提取模塊進(jìn)一步用于:從所述頁面的第一個(gè)字節(jié)開始,依次遍歷多個(gè)預(yù)定長度的二進(jìn)制數(shù)據(jù)片段;對(duì)每個(gè)二進(jìn)制數(shù)據(jù)片段進(jìn)行篩選,若為無用片段,則丟棄;若為有用片段,則記錄該二進(jìn)制數(shù)據(jù)片段作為所述內(nèi)容片段。
[0206]B20、根據(jù)B13所述客戶端,還包括:
[0207]服務(wù)器下發(fā)的模板庫,用于存儲(chǔ)由特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID ;
[0208]模板ID獲取模塊,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID ;
[0209]第二匹配模塊,用于將所述至少一個(gè)模板ID與模板庫中的模板ID進(jìn)行匹配;
[0210]所述處理模塊還用于若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則攔截所述頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;
[0211]所述評(píng)估分獲取模塊具體用于若所述至少一個(gè)模板ID中不具有與模板庫中的模板ID匹配的模板ID,則根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分。
[0212]B21、根據(jù)B20所述的客戶端,還包括:
[0213]上報(bào)接口,用于若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將匹配的模板ID上報(bào)給服務(wù)器端,以供所述服務(wù)器端根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類信息;
[0214]接收接口,用于接收所述服務(wù)器端返回的所述匹配的模板ID所對(duì)應(yīng)的分類信息;
[0215]所述處理模塊還用于在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示所述分類信息。
[0216]B22、根據(jù)B21所述的客戶端,所述上報(bào)接口還用于:若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,則將所述頁面的URL以及鑒定識(shí)別信息加密成密文上報(bào)給服務(wù)器端,以供服務(wù)器端將所述頁面的URL加入惡意網(wǎng)址庫。
[0217]C23、一種服務(wù)器,包括:
[0218]特征庫,用于存儲(chǔ)對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ;
[0219]網(wǎng)絡(luò)接口,用于將所述特征庫下放給客戶端。
[0220]C24、根據(jù)C23所述的服務(wù)器,還包括:
[0221]模板庫,用于存儲(chǔ)由所述特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID ;
[0222]匹配模塊,用于將經(jīng)由所述網(wǎng)絡(luò)接口接收到的客戶端上報(bào)的匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與所述模板庫中的模板ID進(jìn)行匹配;
[0223]分類模塊,用于若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類
信息;
[0224]所述網(wǎng)絡(luò)接口還用于向客戶端返回所述匹配的模板ID所對(duì)應(yīng)的分類信息。[0225]C25、根據(jù)C23所述的服務(wù)器,所述網(wǎng)絡(luò)接口還用于接收客戶端上報(bào)的由所述頁面的URL以及鑒定識(shí)別信息加密得到的密文;
[0226]所述服務(wù)器還包括:惡意網(wǎng)址庫,用于存儲(chǔ)所述頁面的URL。
[0227]D26、一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng),包括:B13-B22任一項(xiàng)所述的客戶端和C23-C25任一項(xiàng)所述的服務(wù)器。
【權(quán)利要求】
1.一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)的方法,包括: 在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID ; 將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配; 若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分; 根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的方法,所述特征庫是預(yù)先從服務(wù)器端下載的;所述服務(wù)器端獲取惡意/欺詐/釣魚頁面的樣本,對(duì)所述樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫;所述服務(wù)器端定期更新所述特征庫并同步給客戶端。
3.根據(jù)權(quán)利要求2所述的方法,所述對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫具體為:利用貝葉斯統(tǒng)計(jì)概率模型和神經(jīng)網(wǎng)絡(luò)模型,對(duì)樣本進(jìn)行機(jī)器學(xué)習(xí)建立所述特征庫。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,所述根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理進(jìn)一步包括: 將所述頁面的評(píng)估分與所述設(shè)定閾值進(jìn)行比較,若所述頁面的評(píng)估分高于設(shè)定閾值,則攔截所述頁面的訪問行為或進(jìn)行風(fēng)險(xiǎn)提示;否則,允許所述頁面的訪問行為。
5.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,還包括:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中不具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則允許所述頁面的訪問行為。
6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,所述根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分具體為:根據(jù)以下有關(guān)所述頁面的邏輯結(jié)果中的一個(gè)或多個(gè)的組合,計(jì)算所述頁面的評(píng)估分: 所述頁面的URL是否屬于本地黑/白名單; 所述頁面的URL是否屬于高危域名或高危IP ; 所述頁面的refer信息是否為高危refer信息; 根據(jù)所述匹配的至少一個(gè)特征ID而判定的所述頁面內(nèi)容是否為高危頁面內(nèi)容; 所述頁面對(duì)應(yīng)的網(wǎng)站服務(wù)器是否為高危服務(wù)器; 所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)郵箱是否屬于郵箱黑名單; 所述頁面對(duì)應(yīng)的網(wǎng)站注冊(cè)時(shí)間是否短于預(yù)設(shè)時(shí)長。
7.根據(jù)權(quán)利要求4所述的方法,所述服務(wù)器端還包含模板庫,所述模板庫中包含由所述特征庫中的多個(gè)特征ID進(jìn)行各種組合計(jì)算得到的多個(gè)模板ID ; 所述方法還包括:若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將所述匹配的至少一個(gè)特征ID上報(bào)給服務(wù)器端,以供所述服務(wù)器端將所述匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將該至少一個(gè)模板ID與所述模板庫中的模板ID進(jìn)行匹配;若所述至少一個(gè)模板ID中具有與模板庫中的模板ID匹配的模板ID,根據(jù)預(yù)先建立的模板ID與分類信息的對(duì)應(yīng)關(guān)系,確定所述匹配的模板ID所對(duì)應(yīng)的分類信息;將所述分類信息返回給客戶端; 接收所述服務(wù)器端返回的所述匹配的模板ID所對(duì)應(yīng)的分類信息,在進(jìn)行風(fēng)險(xiǎn)提示的同時(shí)展示所述分類信息。
8.一種客戶端,包括:服務(wù)器下發(fā)的特征庫,用于存儲(chǔ)服務(wù)器對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ; 提取模塊,用于在訪問頁面加載完成后,提取頁面的多個(gè)內(nèi)容片段; 特征ID獲取模塊,用于獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID ; 第一匹配模塊,用于將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配;評(píng)估分獲取模塊,用于若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)所述頁面的信息,計(jì)算所述頁面的評(píng)估分; 處理模塊,用于根據(jù)所述頁面的評(píng)估分與設(shè)定閾值的比較結(jié)果,對(duì)所述頁面的訪問行為進(jìn)行處理。
9.一種服務(wù)器,包括: 特征庫,用于存儲(chǔ)對(duì)惡意/欺詐/釣魚頁面的樣本進(jìn)行機(jī)器學(xué)習(xí)而得到的特征ID ; 網(wǎng)絡(luò)接口,用于將所述特征庫下放給客戶端。
10.一種基于特征庫檢測(cè)釣魚欺詐網(wǎng)頁的系統(tǒng),包括:權(quán)利要求8所述的客戶端和權(quán)利要求9所述的服務(wù)器 。
【文檔編號(hào)】H04L29/06GK103685307SQ201310729000
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月25日 優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】陳勁, 牛成 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司