仿冒域名檢測方法及設(shè)備的制作方法
【專利摘要】本發(fā)明提供一種仿冒域名檢測方法及設(shè)備。該仿冒域名檢測方法包括:獲取待檢測域名;將所述待檢測域名的關(guān)鍵詞的各中文字符,分別與預(yù)先獲取的目標(biāo)域名的關(guān)鍵詞的各中文字符組成匹配對;根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值;若所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,大于等于預(yù)設(shè)關(guān)鍵詞相似度閾值,則判定所述待檢測域名為所述目標(biāo)域名的仿冒域名。本發(fā)明提供的仿冒域名檢測方法及設(shè)備能夠?qū)崿F(xiàn)仿冒中文域名的有效檢測。
【專利說明】仿冒域名檢測方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及一種仿冒域名檢測方法及設(shè)備,屬于網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著科技的普及化,網(wǎng)絡(luò)通訊技術(shù)以不可取代的地位深入各個(gè)領(lǐng)域,而網(wǎng)絡(luò)安全問題也日益嚴(yán)峻,其中以網(wǎng)絡(luò)釣魚問題尤為突出。
[0003]網(wǎng)絡(luò)釣魚,是指通過發(fā)送垃圾電子郵件等方式,將收信用戶引誘到一個(gè)通過精心設(shè)計(jì)與目標(biāo)組織的網(wǎng)站非常相似的釣魚網(wǎng)站上,并獲取收信人在此網(wǎng)站上輸入的個(gè)人敏感信息的網(wǎng)絡(luò)犯罪行為。隨著電子商務(wù)和互聯(lián)網(wǎng)應(yīng)用的普及和發(fā)展,網(wǎng)絡(luò)釣魚造成的損失日益嚴(yán)重。由于域名是網(wǎng)站面向終端用戶的入口,網(wǎng)絡(luò)釣魚者行為常常要采用和目標(biāo)域名相似的域名,來使得用戶誤以為釣魚網(wǎng)站為正規(guī)的目標(biāo)網(wǎng)站。因此,域名仿冒行為是釣魚攻擊的一個(gè)重要特征,所以在進(jìn)行釣魚網(wǎng)站和郵件的檢測時(shí),需要進(jìn)行URL的域名部分的相似性分析,即仿冒域名檢測。
[0004]目前的仿冒域名檢測,主要是通過計(jì)算兩個(gè)英文域名的字符串的編輯距離來實(shí)現(xiàn)的。但隨著國際化域名(International Domain Names, IDN)的興起,域名注冊字符集進(jìn)一步擴(kuò)大,不可避免地將出現(xiàn)大量的相似性字符。中文域名是國際化域名的重要組成部分。漢字較大的字庫空間以及象形、形聲的造字規(guī)則產(chǎn)生了大量的相似字符,而網(wǎng)絡(luò)釣魚常常會(huì)利用這些相似字符來構(gòu)造仿冒域名,對網(wǎng)絡(luò)用戶進(jìn)行欺騙。目前針對英文域名的相似性檢測方法無法有效檢測出中文域名的仿冒域名。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種仿冒域名檢測方法及設(shè)備,用以實(shí)現(xiàn)仿冒中文域名的有效檢測。
[0006]根據(jù)本發(fā)明實(shí)施例的一方面,提供一種仿冒域名檢測方法,包括:
[0007]獲取待檢測域名;
[0008]將所述待檢測域名的關(guān)鍵詞的各中文字符,分別與預(yù)先獲取的目標(biāo)域名的關(guān)鍵詞的各中文字符組成匹配對;
[0009]根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音和/或字形,確定所述各匹配對的相似度值;
[0010]根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值;
[0011 ] 若所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,大于等于預(yù)設(shè)關(guān)鍵詞相似度閾值,則判定所述待檢測域名為所述目標(biāo)域名的仿冒域名。
[0012]進(jìn)一步地,在上述實(shí)施例的仿冒域名檢測方法中,所述根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執(zhí)行以下操作:
[0013]根據(jù)預(yù)設(shè)語音相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的語音相似度值;
[0014]若所述語音相似度值大于等于預(yù)設(shè)語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值;
[0015]若所述語音相似度值小于所述預(yù)設(shè)語音相似度閾值,則根據(jù)預(yù)設(shè)字形相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的字形相似度值,并將所述字形相似度值確定為所述匹配對的相似度值。
[0016]進(jìn)一步地,在上述實(shí)施例的仿冒域名檢測方法中,所述根據(jù)預(yù)設(shè)語音相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的語音相似度值,包括:
[0017]獲取所述兩個(gè)中文字符的拼音序列字符串;
[0018]計(jì)算所述兩個(gè)中文字符的拼音序列字符串的編輯距離;
[0019]根據(jù)所述編輯距離確定所述兩個(gè)中文字符的語音相似度值。
[0020]進(jìn)一步地,在上述實(shí)施例的仿冒域名檢測方法中,所述根據(jù)預(yù)設(shè)字形相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的字形相似度值,包括:
[0021]獲取所述兩個(gè)中文字符的Unicode編碼;
[0022]根據(jù)所述Unicode編碼,從點(diǎn)陣字庫中獲取分別與所述兩個(gè)中文字符對應(yīng)的0_1矩陣;
[0023]根據(jù)所述0-1矩陣確定所述兩個(gè)中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點(diǎn)個(gè)數(shù),特征值Cp為所述中文字符的交點(diǎn)個(gè)數(shù),特征值G為所述中文字符的虧格數(shù),特征值S為所述中文字符的筆劃數(shù);
[0024]根據(jù)所述兩個(gè)中文字符的特征向量中相同特征值的差值,確定所述兩個(gè)中文字符的字形相似度值。
[0025]進(jìn)一步地,在上述實(shí)施例的仿冒域名檢測方法中,所述根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,包括:
[0026]初始化編輯距離矩陣:
[0027]
【權(quán)利要求】
1.一種仿冒域名檢測方法,其特征在于,包括: 獲取待檢測域名; 將所述待檢測域名的關(guān)鍵詞的各中文字符,分別與預(yù)先獲取的目標(biāo)域名的關(guān)鍵詞的各中文字符組成匹配對; 根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值; 若所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,大于等于預(yù)設(shè)關(guān)鍵詞相似度閾值,則判定所述待檢測域名為所述目標(biāo)域名的仿冒域名。
2.根據(jù)權(quán)利要求1所述的仿冒域名檢測方法,其特征在于,所述根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執(zhí)行以 下操作: 根據(jù)預(yù)設(shè)語音相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的語音相似度值; 若所述語音相似度值大于等于預(yù)設(shè)語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 若所述語音相似度值小于所述預(yù)設(shè)語音相似度閾值,則根據(jù)預(yù)設(shè)字形相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的字形相似度值,并將所述字形相似度值確定為所述匹配對的相似度值。
3.根據(jù)權(quán)利要求2所述的仿冒域名檢測方法,其特征在于,所述根據(jù)預(yù)設(shè)語音相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的語音相似度值,包括: 獲取所述兩個(gè)中文字符的拼首序列字符串; 計(jì)算所述兩個(gè)中文字符的拼音序列字符串的編輯距離; 根據(jù)所述編輯距離確定所述兩個(gè)中文字符的語音相似度值。
4.根據(jù)權(quán)利要求2所述的仿冒域名檢測方法,其特征在于,所述根據(jù)預(yù)設(shè)字形相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的字形相似度值,包括: 獲取所述兩個(gè)中文字符的Unicode編碼; 根據(jù)所述Unicode編碼,從點(diǎn)陣字庫中獲取分別與所述兩個(gè)中文字符對應(yīng)的0-1矩陣; 根據(jù)所述0-1矩陣確定所述兩個(gè)中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點(diǎn)個(gè)數(shù),特征值Cp為所述中文字符的交點(diǎn)個(gè)數(shù),特征值G為所述中文字符的虧格數(shù),特征值S為所述中文字符的筆劃數(shù); 根據(jù)所述兩個(gè)中文字符的特征向量中相同特征值的差值,確定所述兩個(gè)中文字符的字形相似度值。
5.根據(jù)權(quán)利要求1-4任一所述的仿冒域名檢測方法,其特征在于,所述根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,包括: 初始化編輯距離矩陣:, ^0.1,..*,"0',i,...,e^tln -1 I
"Ul,iA.!,…,iA",.?.? + 1 D=…
—(.U”(*1.1 1.“ i^mUJ i"%^*+l,w+t J 其中,m為所述待檢測域名的關(guān)鍵詞的字符長度,η為所述目標(biāo)域名的關(guān)鍵詞的字符長度,i,j,m,n均為正整數(shù),且滿足0〈i彡m+l,0〈j彡n+1 ; 按照以下公式對所述編輯距離矩陣的各元素進(jìn)行賦值: d0,0=0,di;0=i, d0;J=j, d ^ Imm(d,^ , , )+bsim(i, j),如丨4#,U
L/ —I ’ ‘i,卜 I y h,j X 其匕 其中,sim(i,j)為所述待檢測域名的關(guān)鍵詞中第i個(gè)中文字符和所述目標(biāo)域名的關(guān)鍵詞的第j個(gè)中文字符組成的匹配對的相似度值; 將dm+1,n+1的值確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的編輯距離,并根據(jù)所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的編輯距離,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,其中所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的編輯距離與相似度值呈反比關(guān)系。
6.一種仿冒域名檢測設(shè)備,其特征在于,包括: 獲取模塊,用于獲取待 檢測域名; 預(yù)處理模塊,用于將所述待檢測域名的關(guān)鍵詞的各中文字符,分別與預(yù)先獲取的目標(biāo)域名的關(guān)鍵詞的各中文字符組成匹配對; 第一相似度計(jì)算模塊,用于根據(jù)各匹配對內(nèi)兩個(gè)中文字符的語音和/或字形,確定所述各匹配對的相似度值; 第二相似度計(jì)算模塊,用于根據(jù)所述各匹配對的相似度值,確定所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值; 判定模塊,用于若所述待檢測域名的關(guān)鍵詞與所述目標(biāo)域名的關(guān)鍵詞的相似度值,大于等于預(yù)設(shè)關(guān)鍵詞相似度閾值,則判定所述待檢測域名為所述目標(biāo)域名的仿冒域名。
7.根據(jù)權(quán)利要求6所述的仿冒域名檢測設(shè)備,其特征在于,所述第一相似度計(jì)算模塊具體包括: 語音相似度計(jì)算單元,用于計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的語音相似度值; 確定單元,用于若所述語音相似度值大于等于預(yù)設(shè)語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 字形相似度計(jì)算單元,用于若所述語音相似度值小于所述預(yù)設(shè)語音相似度閾值,則根據(jù)預(yù)設(shè)字形相似度算法,計(jì)算所述匹配對內(nèi)兩個(gè)中文字符的字形相似度值; 所述確定單元還用于將所述字形相似度值確定為所述匹配對的相似度值。
8.根據(jù)權(quán)利要求7所述的仿冒域名檢測設(shè)備,其特征在于,所述語音相似度計(jì)算單元具體用于: 獲取所述兩個(gè)中文字符的拼首序列字符串; 計(jì)算所述兩個(gè)中文字符的拼音序列字符串的編輯距離; 根據(jù)所述編輯距離確定所述兩個(gè)中文字符的語音相似度值。
9.根據(jù)權(quán)利要求7所述的仿冒域名檢測設(shè)備,其特征在于,所述字形相似度計(jì)算單元具體用于: 獲取所述兩個(gè)中文字符的Unicode編碼; 根據(jù)所述Unicode編碼,從點(diǎn)陣字庫中獲取分別與所述兩個(gè)中文字符對應(yīng)的0-1矩陣; 根據(jù)所述0-1矩陣確定所述兩個(gè)中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C為所述中文字符的連通域,特征值E為所述中文字符的端點(diǎn)個(gè)數(shù),特征值Cp為所述中文字符的交點(diǎn)個(gè)數(shù),特征值G為所述中文字符的虧格數(shù),特征值S為所述中文字符的筆劃數(shù); 根據(jù)所述兩個(gè)中文字符的特征向量中相同特征值的差值,確定所述兩個(gè)中文字符的字形相似度值。
10.根據(jù)權(quán)利要求6-9任一所述的仿冒域名檢測設(shè)備,其特征在于,所述第二相似度計(jì)算模塊具體用于: 初始化編輯距離矩陣:
【文檔編號】H04L29/06GK103428307SQ201310346713
【公開日】2013年12月4日 申請日期:2013年8月9日 優(yōu)先權(quán)日:2013年8月9日
【發(fā)明者】李海靈, 洪博, 王利明 申請人:中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心