本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)的數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及一種對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法及設(shè)備。
背景技術(shù):
網(wǎng)絡(luò)上的域名與ip地址之間存在對應(yīng)關(guān)系,使用域名是為了方便人們記憶,但機(jī)器之間的通信卻需要ip地址,將域名轉(zhuǎn)換為ip地址的工作是由域名系統(tǒng)(dns)中的解析服務(wù)器完成的。
目前,從dns流量數(shù)據(jù)中采集域名數(shù)據(jù)已成為通過互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析的一種重要方法。從海量互聯(lián)網(wǎng)數(shù)據(jù)中選擇合適的域名數(shù)據(jù)源,并且形成域名基準(zhǔn)表是一項(xiàng)非常有意義的工作,而且,從dns流量數(shù)據(jù)中采集的域名數(shù)據(jù)也最全面。對dns流量數(shù)據(jù)進(jìn)行采集的主要方式是,在dns解析服務(wù)器處部署節(jié)點(diǎn)服務(wù)器,并且對經(jīng)由dns解析服務(wù)器的全部域名解析ip進(jìn)行采集,從而獲取域名數(shù)據(jù)。
此外,除了從dns流量數(shù)據(jù)中采集域名ip關(guān)系數(shù)據(jù)外,使用eu(executionunit,執(zhí)行單元)設(shè)備也能夠獲取域名和ip的對應(yīng)關(guān)系。通過在運(yùn)營商企業(yè)處部署eu采集設(shè)備,eu設(shè)備將采集通過該運(yùn)營商的全部httpget請求和httpsget請求,將請求的域名和ip的對應(yīng)關(guān)系以及域名的存活狀態(tài)記錄;通過這部分?jǐn)?shù)據(jù)可以獲取域名和ip的對應(yīng)關(guān)系,并對域名的存活狀態(tài)進(jìn)行劃分。
然而,由于dns在設(shè)計(jì)上存在某些缺陷,使得不法用戶能夠利用這些缺陷向dns發(fā)起攻擊,攻擊類型主要包括:直接在域名數(shù)據(jù)庫中修改域名對應(yīng)的ip地址;通過獲取dns請求包中的序列id并發(fā)送添加了錯(cuò)誤信息的應(yīng)答包而進(jìn)行dns欺騙;利用ip欺騙等方法惡意修改dns解析服務(wù)器的緩存中的域名和ip的映射信息。
eu采集的活躍流量數(shù)據(jù),由于采集范圍小,僅能獲取通過當(dāng)前運(yùn)營商機(jī)房的流量數(shù)據(jù),因此數(shù)據(jù)覆蓋度較差,并且活躍數(shù)據(jù)由于采集的是網(wǎng)絡(luò)中全部經(jīng)由機(jī)房的請求數(shù)據(jù),未經(jīng)區(qū)分,存在大量的噪音數(shù)據(jù)。而dns流量數(shù)據(jù)由于存在前述惡意攻擊行為,其中采集到的域名數(shù)據(jù)中也存在大量的噪音數(shù)據(jù),這些噪音數(shù)據(jù)的形式主要包括:
1.異常噪音域名:包括非法域名、ip格式域名、ip端口格式域名等。
2.需進(jìn)行ip糾錯(cuò)的域名:撥測的結(jié)果為114跳轉(zhuǎn)、無法解析出對應(yīng)的ip地址且沒有提供實(shí)際訪問內(nèi)容的域名。
3.惡意泛域名:不正規(guī)、量大且雜亂無章、鮮有內(nèi)容展示、且沒有進(jìn)行統(tǒng)計(jì)的意義的域名。
4.不存在的域名:無法解析出接入ip地址、且通過撥測確定其不存在接入ip地址的域名,這部分?jǐn)?shù)據(jù)同樣能被節(jié)點(diǎn)服務(wù)器提取,但是這部分域名數(shù)據(jù)并不存在。
5.不存活域名,對于無法解析出接入ip地址、且通過撥測確定其存在接入ip地址、而通過進(jìn)一步模擬http/https請求并且確定其http/https響應(yīng)的狀態(tài)碼不在合理范圍內(nèi)的域名。
6.域名地域范圍混亂,從dns流量數(shù)據(jù)中采集到的域名數(shù)據(jù)的接入ip地址可能是應(yīng)分配給世界上的其它地理位置的ip地址,這對于針對某一特定地點(diǎn)生成域名基準(zhǔn)表來說是極大的不準(zhǔn)確因素。
如果不對帶有噪音數(shù)據(jù)的這些dns流量數(shù)據(jù)進(jìn)行篩選,那么最終獲得的域名數(shù)據(jù)就會(huì)帶有這些噪音數(shù)據(jù),例如,會(huì)增加進(jìn)行dns查詢所需要的時(shí)間,從而無法直接使用。
因此,至少需要提出一種技術(shù)方案,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。
根據(jù)本發(fā)明的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法,包括:
步驟1:從網(wǎng)絡(luò)中獲取至少包含域名與ip地址的對應(yīng)關(guān)系的域名數(shù)據(jù);
步驟2:對域名數(shù)據(jù)進(jìn)行篩選,并且保存經(jīng)篩選的域名數(shù)據(jù),其中,篩選包括以下步驟中的至少一項(xiàng):
步驟2-1:剔除包含異常噪音域名的域名數(shù)據(jù),異常噪音域名至少包括非法域名、ip格式域名、ip端口格式域名;
步驟2-2:剔除包含需進(jìn)行ip糾錯(cuò)的域名的域名數(shù)據(jù),需進(jìn)行ip糾錯(cuò)的域名為撥測的結(jié)果為114跳轉(zhuǎn)、無法解析出對應(yīng)的ip地址且沒有提供實(shí)際訪問內(nèi)容的域名;
步驟2-3:剔除包含惡意泛域名的域名數(shù)據(jù),惡意泛域名為不正規(guī)、量大且雜亂無章、鮮有內(nèi)容展示、且沒有進(jìn)行統(tǒng)計(jì)的意義的域名;
步驟2-4:剔除包含不存在的域名的域名數(shù)據(jù),不存在的域名為無法解析出接入ip地址、且通過撥測確定其不存在接入ip地址的域名;
步驟2-5:剔除包含不存活域名的域名數(shù)據(jù),不存活域名為無法解析出接入ip地址、且通過撥測確定其存在接入ip地址、而通過進(jìn)一步模擬http/https請求并且確定其http/https響應(yīng)的狀態(tài)碼不正確的域名;
步驟2-6:保留包含屬于指定地域的ip地址的域名數(shù)據(jù)。
根據(jù)本發(fā)明的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法,在其步驟1之前還包括:
步驟3:在網(wǎng)絡(luò)中的dns服務(wù)器節(jié)點(diǎn)部署能夠獲取包含(源ip地址,源端口號(hào),解析目標(biāo)ip地址,端口號(hào),cname)的五元組數(shù)據(jù)的檢測設(shè)備,以及/或者在網(wǎng)絡(luò)中部署能夠獲取包含(域名,源ip,目的ip)的活躍數(shù)據(jù)的eu采集設(shè)備。
根據(jù)本發(fā)明的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法,在其步驟2之后還包括:
步驟4:將從人工上報(bào)ip地址庫或第三方ip地址庫和第三方接口查詢中獲得的域名的地域或歸屬地屬性添加到域名數(shù)據(jù)中。
根據(jù)本發(fā)明的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法,其步驟2-3包括:
步驟2-3-1:針對域名選擇下列各項(xiàng)中的至少一項(xiàng)進(jìn)行統(tǒng)計(jì),并且為所選各項(xiàng)分配權(quán)重:短時(shí)間內(nèi)產(chǎn)生的域名的數(shù)量、域名訪問時(shí)間的集中程度與域名訪問量的比值、域名訪問中的源ip地址的重復(fù)數(shù)量、該域名的網(wǎng)站返回的內(nèi)容的一致性、該域名的網(wǎng)站返回空內(nèi)容的比率;
步驟2-3-2:將所選各項(xiàng)的加權(quán)值的求和結(jié)果大于設(shè)定閾值的域名確定為惡意泛域名,并且剔除包含該惡意泛域名的域名數(shù)據(jù)。
結(jié)合對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法,本發(fā)明還提出了一種對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的設(shè)備,包括存儲(chǔ)器、一個(gè)或多個(gè)處理器;以及,一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中,并且被配置成由所述一個(gè)或多個(gè)處理器執(zhí)行,以完成對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法中的步驟。
結(jié)合對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法,本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可被處理器執(zhí)行以完成對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法中的步驟。
本發(fā)明的優(yōu)點(diǎn)在于:可以對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選,從而剔除了通過dns流量數(shù)據(jù)獲得的域名數(shù)據(jù)中的諸如惡意泛域名數(shù)據(jù)的噪音數(shù)據(jù),能夠有效的提升域名數(shù)據(jù)的質(zhì)量。實(shí)現(xiàn)了通過dns流量數(shù)據(jù)獲得準(zhǔn)確的域名數(shù)據(jù)。
附圖說明
通過閱讀下文具體實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出具體實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明實(shí)施方式的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法的示意圖。
圖2示出了根據(jù)本發(fā)明實(shí)施方式的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法可以包括的示例步驟的示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施方式。雖然附圖中顯示了本公開的示例性實(shí)施方式,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
圖1示出了根據(jù)本發(fā)明實(shí)施方式的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法100的示意圖。
如圖1所示,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法100包括以下步驟:
步驟s101:從網(wǎng)絡(luò)中獲取至少包含域名與ip地址的對應(yīng)關(guān)系的域名數(shù)據(jù)。
步驟s102:對域名數(shù)據(jù)進(jìn)行篩選,并且保存經(jīng)篩選的域名數(shù)據(jù)。
盡管在圖1中未示出,但是步驟s102中的篩選可以包括以下步驟中的至少一項(xiàng):
步驟s102-1:剔除包含異常噪音域名的域名數(shù)據(jù),異常噪音域名至少包括非法域名、ip格式域名、ip端口格式域名。
例如,在針對異常域名噪音數(shù)據(jù)進(jìn)行處理的步驟s102-1中,輸入數(shù)據(jù)為初步的dns流量(域名)數(shù)據(jù),這部分?jǐn)?shù)據(jù)中存在大量的異常和噪音域名,需要進(jìn)行嚴(yán)格且有效的處理,將非法域名、ip格式域名、ip端口格式域名進(jìn)行過濾。其中非法域名是非域名格式的字符串,ip格式域名直接用ip作為域名,ip端口域名則使用ip及端口號(hào)作為域名。這些域名都無法進(jìn)入域名基準(zhǔn)表,并且這部分域名沒有統(tǒng)計(jì)的意義,需要直接進(jìn)行剔除。
步驟s102-2:剔除包含需進(jìn)行ip糾錯(cuò)的域名的域名數(shù)據(jù),需進(jìn)行ip糾錯(cuò)的域名為撥測的結(jié)果為114跳轉(zhuǎn)、無法解析出對應(yīng)的ip地址且沒有提供實(shí)際訪問內(nèi)容的域名。
例如,在針對需進(jìn)行ip糾錯(cuò)的域名進(jìn)行處理的步驟s102-2中,建立114ip表,并人工維護(hù)該表,經(jīng)過一定時(shí)間的積累后會(huì)獲得一個(gè)完善的114ip表。將去除噪音數(shù)據(jù)的dns流量域名數(shù)據(jù)中的域名對應(yīng)ip同114表中的ip進(jìn)行比對,剔除所有的114ip對應(yīng)的域名。
步驟s102-3:剔除包含惡意泛域名的域名數(shù)據(jù),惡意泛域名為不正規(guī)、量大且雜亂無章、鮮有內(nèi)容展示、且沒有進(jìn)行統(tǒng)計(jì)的意義的域名。
例如,經(jīng)初步降噪后的dns流量域名數(shù)據(jù)在進(jìn)行撥測前,需要對其中混雜的大量惡意泛域名數(shù)據(jù)進(jìn)行剔除。惡意泛域名往往是用于實(shí)施攻擊的,因此不僅需要將惡意泛域名從域名中剔除,還需要建表統(tǒng)計(jì)惡意泛域名的情況。惡意泛域名的域名是隨機(jī)的,混雜于大量的合法正常域名中,直接通過觀察域名的字符串無法之間判斷一個(gè)域名是否為惡意泛域名。
步驟s102-4:剔除包含不存在的域名的域名數(shù)據(jù),不存在的域名為無法解析出接入ip地址、且通過撥測確定其不存在接入ip地址的域名。
例如,在將惡意泛域名數(shù)據(jù)剔除后,考慮到剩余的域名數(shù)量大量降低,可以進(jìn)行撥測處理。
例如,通過dig或nslookup等撥測手段對于降噪后的域名數(shù)據(jù)進(jìn)行撥測,將沒有與域名對應(yīng)的ip地址的域名數(shù)據(jù)剔除(即,剔除包含不存在的域名的域名數(shù)據(jù))。
步驟s102-5:剔除包含不存活域名的域名數(shù)據(jù),不存活域名為無法解析出接入ip地址、且通過撥測確定其存在接入ip地址、而通過進(jìn)一步模擬http/https請求并且確定其http/https響應(yīng)的狀態(tài)碼不正確的域名。
例如,將撥測獲得的域名-ip關(guān)系使用socket或curl命令進(jìn)行http和https撥測,返回值不為200的為不存活域名,將不存活的域名剔除,最終得到存活且存在的域名數(shù)據(jù)以及域名-ip關(guān)系數(shù)據(jù)。
步驟s102-6:保留包含屬于指定地域的ip地址的域名數(shù)據(jù)。
如上文所述,域名地域范圍混亂,從dns流量數(shù)據(jù)中采集到的域名數(shù)據(jù)的接入ip地址可能是應(yīng)分配給世界上的其它任何一個(gè)地理位置的ip地址,這對于針對某一特定地點(diǎn)生成域名基準(zhǔn)表來說是極大的不準(zhǔn)確因素。
例如,考慮到所獲取的域名數(shù)據(jù)是包含域名-ip地址關(guān)系的數(shù)據(jù),可以使用接口關(guān)聯(lián)人工上報(bào)ip地址庫或第三方ip地址庫和第三方接口查詢來獲取域名的地域或歸屬地屬性的方法,來針對采集到的域名數(shù)據(jù)進(jìn)行所屬真實(shí)位置的劃分,從而提升域名基準(zhǔn)表的準(zhǔn)確度。這是因?yàn)?,通過人工上報(bào)ip數(shù)據(jù)和第三方接口ip數(shù)據(jù)都能夠獲得一個(gè)已知ip的所屬地市以及運(yùn)營商、企業(yè)等信息。這樣就能夠結(jié)合存在且存活的域名ip結(jié)果,并且利用域名和ip的對應(yīng)關(guān)系,確定域名數(shù)據(jù)是否包含屬于指定地域的ip地址,從而在某個(gè)dns解析服務(wù)器的緩存或數(shù)據(jù)庫中只保存指定區(qū)域的域名數(shù)據(jù)。
可選地,如圖1所示,在步驟s101之前,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法100還包括:
步驟s103:在網(wǎng)絡(luò)中的dns服務(wù)器節(jié)點(diǎn)部署能夠獲取包含(源ip地址,源端口號(hào),解析目標(biāo)ip地址,端口號(hào),cname)的五元組數(shù)據(jù)的檢測設(shè)備,以及/或者在網(wǎng)絡(luò)中部署能夠獲取包含(域名,源ip,目的ip)的活躍數(shù)據(jù)的eu采集設(shè)備。
可選地,如圖1所示,步驟s102之后,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法100還包括:
步驟s104:將從人工上報(bào)ip地址庫或第三方ip地址庫中獲得的域名的地域或歸屬地屬性添加到域名數(shù)據(jù)中。
例如,考慮到所獲取的域名數(shù)據(jù)是包含域名-ip地址關(guān)系的數(shù)據(jù),可以使用接口關(guān)聯(lián)人工上報(bào)ip地址庫或第三方ip地址庫來獲取域名的地域或歸屬地屬性的方法,來針對采集到的域名數(shù)據(jù)進(jìn)行所屬真實(shí)位置的劃分,從而提升域名基準(zhǔn)表的準(zhǔn)確度。這是因?yàn)?,通過人工上報(bào)ip數(shù)據(jù)和第三方接口ip數(shù)據(jù)都能夠獲得一個(gè)已知ip的所屬地市以及運(yùn)營商、企業(yè)等信息。這樣就能夠結(jié)合存在且存活的域名ip結(jié)果,并且利用域名和ip的對應(yīng)關(guān)系,對域名的地域及歸屬等屬性進(jìn)行補(bǔ)充。以提高域名數(shù)據(jù)的可靠性。
可選地,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法100,其步驟s102-3包括:
步驟s102-3-1:針對域名選擇下列各項(xiàng)中的至少一項(xiàng)進(jìn)行統(tǒng)計(jì),并且為所選各項(xiàng)分配權(quán)重:短時(shí)間內(nèi)產(chǎn)生的域名的數(shù)量、域名訪問時(shí)間的集中程度與域名訪問量的比值、域名訪問中的源ip地址的重復(fù)數(shù)量、該域名的網(wǎng)站返回的內(nèi)容的一致性、該域名的網(wǎng)站返回空內(nèi)容的比率。
步驟s102-3-2:將所選各項(xiàng)的加權(quán)值的求和結(jié)果大于設(shè)定閾值的域名確定為惡意泛域名,并且剔除包含該惡意泛域名的域名數(shù)據(jù)。
更具體地,通過采用以下加權(quán)算法對一個(gè)域名是否是惡意泛域名進(jìn)行判斷。這些惡意泛域名的判斷方法以及加權(quán)算法如下:
a)短時(shí)間內(nèi)產(chǎn)生的域名的數(shù)量:短時(shí)間內(nèi)大量產(chǎn)生的域名,由于惡意泛域名進(jìn)行攻擊的時(shí)間集中,所以這部分域名有一定幾率為惡意泛域名。加權(quán)規(guī)則為,在x分鐘內(nèi)同時(shí)出現(xiàn)的域名數(shù)量大于y,則給這部分域名一個(gè)加權(quán)值a。
b)域名訪問時(shí)間的集中程度與域名訪問量的比值:訪問量時(shí)間集中且訪問量小的域名,惡意泛域名只有在進(jìn)行攻擊時(shí)才有訪問量,且訪問量很低,因此滿足這部分條件的域名有一定幾率為惡意泛域名。加權(quán)規(guī)則為:在一個(gè)周期x天內(nèi),僅在y分鐘內(nèi)出現(xiàn)訪問量,且訪問量小于z的域名,給定這部分域名一個(gè)加權(quán)b。
c)域名訪問中的源ip地址的重復(fù)數(shù)量:大量域名的源ip重復(fù),惡意泛域名的攻擊往往從單一ip處開展,因此大量的域名源ip相同,則這部分域名有一定幾率為惡意泛域名。加權(quán)規(guī)則為,超過x的域名的源ip相同,給定這部分域名一個(gè)加權(quán)值c。
d)該域名的網(wǎng)站返回的內(nèi)容的一致性:網(wǎng)頁返回內(nèi)容一致的域名,惡意泛域名是機(jī)械生產(chǎn)的大量域名,返回的內(nèi)容會(huì)有大量的重復(fù),因此可以判斷超過一定量的域名返回內(nèi)容相同時(shí),這部分域名有一定的幾率為惡意泛域名。判斷規(guī)則為,超過x個(gè)域名的返回內(nèi)容相同(不為空),給這些域名一個(gè)加權(quán)值d。
e)該域名的網(wǎng)站返回空內(nèi)容的比率:網(wǎng)頁返回內(nèi)容為空的域名,不提供內(nèi)容服務(wù)的域名有一定幾率為惡意泛域名。判斷規(guī)則為,網(wǎng)頁返回內(nèi)容為空的域名給定一個(gè)加權(quán)值e。
當(dāng)域名經(jīng)過這5種方法判斷后,將其獲得的加權(quán)值進(jìn)行求和,當(dāng)這些值的和大于閾值f時(shí),判斷該域名為惡意泛域名,否則不為惡意泛域名。可選地,將判斷為惡意泛域名的域名數(shù)據(jù)保存至惡意泛域名庫,其他數(shù)據(jù)進(jìn)行下一步處理。
為了使本領(lǐng)域的技術(shù)人員更清楚地理解本發(fā)明的上述技術(shù)方案,下面將結(jié)合具體的實(shí)施例來進(jìn)行描述。
圖2示出了根據(jù)本發(fā)明實(shí)施方式的對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法可以包括的示例步驟的示意圖。
如圖2所示,對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的方法可以包括以下步驟:
1.dns節(jié)點(diǎn)部署探針采集五元組信息和執(zhí)行單元(eu)采集的活躍域名數(shù)據(jù)(對應(yīng)步驟s103)。
2.初步降噪過濾,去除噪音數(shù)據(jù)(對應(yīng)步驟s102-1)。
3.對降噪后的域名數(shù)據(jù)進(jìn)行糾錯(cuò)域名判斷,去除114ip域名數(shù)據(jù)(對應(yīng)步驟s102-2)。
4.對得到的非114ip域名數(shù)據(jù)進(jìn)行惡意泛域名去除,且將惡意泛域名數(shù)據(jù)保存至泛域名庫中(對應(yīng)步驟s102-3)。
5.從去除惡意泛域名后的域名數(shù)據(jù)中去除包含不存在域名的域名數(shù)據(jù),得到包含存在域名的存在域名數(shù)據(jù)(對應(yīng)步驟s102-4)。
6.從包含存在域名的域名數(shù)據(jù)中去除包含不存活域名的域名數(shù)據(jù),得到包含存活域名的存活域名數(shù)據(jù)(對應(yīng)步驟s102-5)。
7.使用上報(bào)ip數(shù)據(jù)和第三方接口查詢結(jié)果數(shù)據(jù),依據(jù)撥測獲得的域名ip關(guān)系,對域名的地域及(或)歸屬情況進(jìn)行標(biāo)注(對應(yīng)步驟s104)。
8.獲得域名基準(zhǔn)庫(對應(yīng)步驟s102中的保存經(jīng)篩選的域名數(shù)據(jù))。
需要了解的是,本發(fā)明的上述技術(shù)方案不一定包括圖2所示的所有步驟。
如上所述,根據(jù)本發(fā)明的上述技術(shù)方案可以包括不同的域名處理方法,有效且合理的將原從dns流量數(shù)據(jù)中獲得的域名數(shù)據(jù)中的異常域名數(shù)據(jù)、需進(jìn)行ip糾錯(cuò)的域名數(shù)據(jù)、惡意泛域名數(shù)據(jù)、不存在/不存活數(shù)據(jù)進(jìn)行剔除,并通過獲取的域名ip關(guān)系對域名數(shù)據(jù)進(jìn)屬性補(bǔ)充,獲得準(zhǔn)確且全面的域名基準(zhǔn)表數(shù)據(jù)。
結(jié)合對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法,本發(fā)明還提出了一種對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的設(shè)備,包括存儲(chǔ)器、一個(gè)或多個(gè)處理器;以及,一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中,并且被配置成由所述一個(gè)或多個(gè)處理器執(zhí)行,以完成對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法中的步驟。
結(jié)合對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法,本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可被處理器執(zhí)行以完成對網(wǎng)絡(luò)采集的域名數(shù)據(jù)進(jìn)行篩選的上述方法中的步驟。
根據(jù)本發(fā)明的上述技術(shù)方案能夠剔除異常噪音數(shù)據(jù)和惡意泛域名數(shù)據(jù)、校準(zhǔn)域名ip關(guān)系、將地域歸屬屬性的域名數(shù)據(jù)補(bǔ)充錄入域名數(shù)據(jù)基準(zhǔn)表中,能夠基于對dns流量數(shù)據(jù)的處理得到準(zhǔn)確且全面的域名數(shù)據(jù)。
根據(jù)本發(fā)明的上述技術(shù)方案能夠提供完善的dns流量域名處理流程。綜合了眾多域名有效性判斷方法,逐步將異常噪音域名數(shù)據(jù)、需進(jìn)行ip糾錯(cuò)的域名數(shù)據(jù)、惡意泛域名數(shù)據(jù)、不存在域名數(shù)據(jù)、不存活域名數(shù)據(jù)進(jìn)行剔除,并使用上報(bào)ip數(shù)據(jù)和第三方接口查詢結(jié)果數(shù)據(jù),對于撥測得到的域名ip關(guān)系進(jìn)行所屬地域及企業(yè)歸屬情況等屬性進(jìn)行補(bǔ)充,最終獲得準(zhǔn)確且全面的域名基準(zhǔn)表。提供了不同于現(xiàn)有技術(shù)的具有創(chuàng)造性的技術(shù)方案。
根據(jù)本發(fā)明的上述技術(shù)方案還支持采用加權(quán)方式判斷惡意泛域名。在進(jìn)行惡意泛域名判斷時(shí),使用了加權(quán)判斷方式,當(dāng)一個(gè)域名在全部惡意泛域名加權(quán)判斷中各個(gè)判斷項(xiàng)的加權(quán)值大于閾值時(shí),則判斷該域名為惡意泛域名。
根據(jù)本發(fā)明的上述技術(shù)方案還支持組合判斷域名是否存在/存活。先判斷域名是否存在,將不存在的域名剔除,并使用存在判斷中獲取的域名ip關(guān)系去做存活判斷,最終獲得存在且存活的域名,以及域名和ip的對應(yīng)關(guān)系。
根據(jù)本發(fā)明的上述技術(shù)方案還能夠結(jié)合域名的地域及歸屬屬性。使用人工上報(bào)和第三方接口數(shù)據(jù)活躍ip的地域及歸屬屬性,并通過存在存活判斷獲取的域名ip關(guān)系對域名的對應(yīng)屬性進(jìn)行補(bǔ)充。
根據(jù)本發(fā)明的上述技術(shù)方案能夠解決從dns流量中剔除其中存在的大量的異常噪音數(shù)據(jù)、惡意泛域名數(shù)據(jù)、不存在/不存活域名、不準(zhǔn)確的域名-ip關(guān)系中的至少一種的問題,并且也能夠解決從dns流量中獲取的域名數(shù)據(jù)缺乏域名的地域及歸屬屬性的問題等。
綜上所述,根據(jù)本發(fā)明的上述技術(shù)方案通過有效的降噪方式,將噪音數(shù)據(jù)去除,降低后面的撥測處理數(shù)據(jù)量,提升了數(shù)據(jù)處理效率。能夠使基準(zhǔn)表的域名數(shù)據(jù)中的惡意泛域名比例大比例降低,使其中的域名數(shù)據(jù)擁有準(zhǔn)確的域名ip關(guān)系,使其中的域名數(shù)據(jù)有地域?qū)傩砸约皻w屬運(yùn)營商企業(yè)等信息。
以上所述,僅為本發(fā)明示例性的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。