網(wǎng)站驗(yàn)證方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明實(shí)施例涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)站驗(yàn)證方法及裝置。
【背景技術(shù)】
[0002] 非法網(wǎng)站是指以從事反動(dòng)、涉黃、賭博等不良應(yīng)用為目的或其他非正常應(yīng)用而存 在的網(wǎng)站。
[0003] 目前,針對(duì)非法網(wǎng)站的識(shí)別主要是通過網(wǎng)絡(luò)監(jiān)督管理結(jié)構(gòu)通過對(duì)相關(guān)網(wǎng)站的內(nèi)容 進(jìn)行人工審核,來判斷該網(wǎng)站是否涉嫌非法,然而,通過人工識(shí)別非法網(wǎng)站需要耗費(fèi)大量的 人力物力,效率非常低下;
[0004] 為了提高非法網(wǎng)站的識(shí)別效率,現(xiàn)有技術(shù)中,通過分析現(xiàn)有的非法網(wǎng)站的內(nèi)容語 義,確定識(shí)別非法網(wǎng)站的關(guān)鍵詞,例如,賭博網(wǎng)站中通常會(huì)出現(xiàn)六合彩這樣的關(guān)鍵詞,通過 在海量的網(wǎng)站中抽取網(wǎng)站,對(duì)該抽取的網(wǎng)站進(jìn)行文本挖掘,假設(shè)出現(xiàn)六合彩這樣的關(guān)鍵詞 達(dá)到預(yù)設(shè)的閾值,則判斷該抽取的網(wǎng)站非法的概率較大;
[0005] 然而,現(xiàn)有技術(shù)中,只能根據(jù)已經(jīng)出現(xiàn)的非法網(wǎng)站來確定識(shí)別非法網(wǎng)站的關(guān)鍵詞, 在海量的網(wǎng)站中,有些非法網(wǎng)站是比較隱蔽的,例如是現(xiàn)有的已經(jīng)出現(xiàn)的非法網(wǎng)站的變種 網(wǎng)站,利用現(xiàn)有的已經(jīng)出現(xiàn)的非法網(wǎng)站確定的識(shí)別關(guān)鍵詞是不能識(shí)別變種的非法網(wǎng)站,因 此,現(xiàn)有的非法網(wǎng)站識(shí)別方法存在識(shí)別正確率不高的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供一種網(wǎng)站驗(yàn)證方法及裝置,用以解決現(xiàn)有的非法網(wǎng)站識(shí)別方法 存在識(shí)別正確率不高的問題。
[0007] 第一方面,本發(fā)明提供一種網(wǎng)站驗(yàn)證方法,包括:
[0008] 獲取待驗(yàn)證網(wǎng)站的源代碼中包括的關(guān)鍵字集合;
[0009] 查詢黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù),若所述關(guān)鍵字集合中至少出現(xiàn)兩個(gè)黑名單關(guān)鍵 字,且所述兩個(gè)黑名單關(guān)鍵字之間存在對(duì)應(yīng)關(guān)系,則將所述待驗(yàn)證網(wǎng)站確定為候選黑名單 網(wǎng)站,所述候選黑名單網(wǎng)站表示所述待驗(yàn)證網(wǎng)站是未知且危險(xiǎn)概率較大的網(wǎng)站;
[0010] 所述黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù)中包括多個(gè)黑名單關(guān)鍵字組,每個(gè)黑名單關(guān)鍵字組 中至少包括存在對(duì)應(yīng)關(guān)系的兩個(gè)黑名單關(guān)鍵子。
[0011] 可選地,所述的方法還包括:
[0012] 將黑名單網(wǎng)站集合中每個(gè)黑名單網(wǎng)站的源代碼中包括的黑名單關(guān)鍵字組成一個(gè) 集合,得到多個(gè)黑名單關(guān)鍵字集合;
[0013] 利用大數(shù)據(jù)分析技術(shù),分析所述多個(gè)黑名單關(guān)鍵字集合中,若第一黑名單關(guān)鍵字 和第二黑名單關(guān)鍵字同時(shí)在所述多個(gè)黑名單關(guān)鍵字集合中出現(xiàn)的次數(shù)超過預(yù)設(shè)的次數(shù)閾 值,則確定所述第一黑名單關(guān)鍵字和所述第二黑名單關(guān)鍵字之間存在對(duì)應(yīng)關(guān)系;
[0014] 將所述第一黑名單關(guān)鍵字和所述第二黑名單關(guān)鍵字之間的對(duì)應(yīng)關(guān)系保存在所述 黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù)中。
[0015] 可選地,所述將所述待驗(yàn)證網(wǎng)站確定為候選黑名單網(wǎng)站之后,包括:
[0016] 獲取所述待驗(yàn)證網(wǎng)站的統(tǒng)一資源定位符;
[0017] 查詢白名單網(wǎng)站集合,所述白名單網(wǎng)站集合中包括驗(yàn)證過的多個(gè)白名單網(wǎng)站的統(tǒng) 一資源定位符;
[0018] 判斷所述待驗(yàn)證網(wǎng)站的統(tǒng)一資源定位符是否在所述白名單網(wǎng)站集合中,若是則確 定所述待驗(yàn)證網(wǎng)站為白名單網(wǎng)站,否則將所述待驗(yàn)證網(wǎng)站保存到候選黑名單網(wǎng)站集合中。 [0019] 可選地,將所述待驗(yàn)證網(wǎng)站保存到候選黑名單網(wǎng)站集合中之后,包括:
[0020] 獲取所述候選黑名單網(wǎng)站集合的訪問記錄,所述訪問記錄中包括預(yù)設(shè)時(shí)間段內(nèi)訪 問過所述候選黑名單網(wǎng)站集合中的候選黑名單網(wǎng)站的終端標(biāo)識(shí)以及對(duì)應(yīng)的訪問次數(shù);
[0021] 根據(jù)聚類算法對(duì)所述候選黑名單網(wǎng)站集合的訪問記錄進(jìn)行聚類分析,將所述候選 黑名單網(wǎng)站集合劃分為多個(gè)候選黑名單網(wǎng)站子集;
[0022] 根據(jù)黑名單網(wǎng)站集合分別確定所述多個(gè)候選黑名單網(wǎng)站子集的合法性,所述黑名 單網(wǎng)站集合中包括驗(yàn)證過的多個(gè)黑名單網(wǎng)站的統(tǒng)一資源定位符。
[0023] 可選地,根據(jù)黑名單網(wǎng)站集合分別確定所述多個(gè)候選黑名單網(wǎng)站子集的合法性, 包括:
[0024] 分別將各候選黑名單網(wǎng)站子集中的每個(gè)候選黑名單網(wǎng)站的統(tǒng)一資源定位符與所 述黑名單網(wǎng)站集合中包括的統(tǒng)一資源定位符進(jìn)行比較;
[0025] 若所述候選黑名單網(wǎng)站子集與所述黑名單網(wǎng)站集合中相同的統(tǒng)一資源定位符的 數(shù)量大于預(yù)設(shè)閾值,則確定所述候選黑名單網(wǎng)站子集中的網(wǎng)站為非法網(wǎng)站。
[0026] 第二方面,本發(fā)明提供一種網(wǎng)站驗(yàn)證裝置,其包括:
[0027] 獲取模塊,用于獲取待驗(yàn)證網(wǎng)站的源代碼中包括的關(guān)鍵字集合,所述關(guān)鍵字集合 中包括多個(gè)關(guān)鍵字;
[0028] 確定模塊,用于查詢黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù),若所述關(guān)鍵字集合中至少出現(xiàn)兩 個(gè)黑名單關(guān)鍵字,且所述兩個(gè)黑名單關(guān)鍵字之間存在對(duì)應(yīng)關(guān)系,則將所述待驗(yàn)證網(wǎng)站確定 為候選黑名單網(wǎng)站,所述候選黑名單網(wǎng)站表示所述待驗(yàn)證網(wǎng)站是未知且危險(xiǎn)概率較大的網(wǎng) 站;
[0029] 所述黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù)中包括多個(gè)黑名單關(guān)鍵字組,每個(gè)黑名單關(guān)鍵字組 中至少包括存在對(duì)應(yīng)關(guān)系的兩個(gè)黑名單關(guān)鍵子。
[0030] 可選地,所述獲取模塊,還用于將黑名單網(wǎng)站集合中每個(gè)黑名單網(wǎng)站的源代碼中 包括的黑名單關(guān)鍵字組成一個(gè)集合,得到多個(gè)黑名單關(guān)鍵字集合;
[0031] 所述確定模塊,還用于利用大數(shù)據(jù)分析技術(shù),分析所述多個(gè)黑名單關(guān)鍵字集合中, 若第一黑名單關(guān)鍵字和第二黑名單關(guān)鍵字同時(shí)在所述多個(gè)黑名單關(guān)鍵字集合中出現(xiàn)的次 數(shù)超過預(yù)設(shè)的次數(shù)閾值,則確定所述第一黑名單關(guān)鍵字和所述第二黑名單關(guān)鍵字之間存在 對(duì)應(yīng)關(guān)系;
[0032] 所述裝置還包括:
[0033] 保存模塊,用于將所述確定模塊確定的第一黑名單關(guān)鍵字和所述第二黑名單關(guān)鍵 字之間的對(duì)應(yīng)關(guān)系保存在所述黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù)中。
[0034] 可選地,所述獲取模塊,還用于獲取所述待驗(yàn)證網(wǎng)站的統(tǒng)一資源定位符;
[0035] 所述獲取模塊,還用于查詢白名單網(wǎng)站集合,獲取所述白名單網(wǎng)站集合中每一個(gè) 白名單網(wǎng)站的統(tǒng)一資源定位符;
[0036] 所述確定模塊,還用于判斷所述待驗(yàn)證網(wǎng)站的統(tǒng)一資源定位符是否與所述白名單 網(wǎng)站集合中的其中一個(gè)網(wǎng)站的統(tǒng)一資源定位符相匹配,若是則確定所述待驗(yàn)證網(wǎng)站為白名 單網(wǎng)站,否則將所述待驗(yàn)證網(wǎng)站保存到候選黑名單網(wǎng)站集合中。
[0037] 可選地,所述獲取模塊,還用于獲取所述候選黑名單網(wǎng)站集合的訪問記錄,所述訪 問記錄中包括預(yù)設(shè)時(shí)間段內(nèi)訪問過所述候選黑名單網(wǎng)站集合中的候選黑名單網(wǎng)站的終端 標(biāo)識(shí)以及對(duì)應(yīng)的訪問次數(shù);
[0038] 所述裝置還包括:
[0039] 分析模塊,用于根據(jù)聚類算法對(duì)所述候選黑名單網(wǎng)站集合的訪問記錄進(jìn)行聚類分 析,將所述候選黑名單網(wǎng)站集合劃分為多個(gè)候選黑名單網(wǎng)站子集;
[0040] 所述確定模塊,還用于根據(jù)黑名單網(wǎng)站集合分別確定所述多個(gè)候選黑名單網(wǎng)站子 集的合法性,所述黑名單網(wǎng)站集合中包括驗(yàn)證過的多個(gè)黑名單網(wǎng)站的統(tǒng)一資源定位符。
[0041] 可選地,所述確定模塊具體用于:
[0042] 分別將各候選黑名單網(wǎng)站子集中的每個(gè)候選黑名單網(wǎng)站的統(tǒng)一資源定位符與所 述黑名單網(wǎng)站集合中包括的統(tǒng)一資源定位符進(jìn)行比較;
[0043] 若所述候選黑名單網(wǎng)站子集與所述黑名單網(wǎng)站集合中相同的統(tǒng)一資源定位符的 數(shù)量大于預(yù)設(shè)閾值,則確定所述候選黑名單網(wǎng)站子集中的網(wǎng)站為非法網(wǎng)站。
[0044] 采用本發(fā)明實(shí)施例所述的方法,是根據(jù)黑名單關(guān)鍵字對(duì)應(yīng)關(guān)系庫(kù),確定待驗(yàn)證網(wǎng) 站中的關(guān)鍵子集合中是否存在對(duì)應(yīng)關(guān)系的黑名單關(guān)鍵子庫(kù),若存在則將待驗(yàn)證網(wǎng)站確定為 未知且危險(xiǎn)概率較大的網(wǎng)站;由于本發(fā)明實(shí)施例不只是根據(jù)已經(jīng)出現(xiàn)