專利名稱:可信網(wǎng)站的識別方法和收集系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種可信網(wǎng)站的識別方法和收集系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)時代大多數(shù)軟件都是通過互聯(lián)網(wǎng)分發(fā)的,其中,下載站、論壇、官方網(wǎng)站下載鏈接是軟件發(fā)布的重要通道。目前,大部分下載站、論壇都允許用戶自由提交內(nèi)容。例如,很多下載站、論壇都提供了上傳組件,普通的網(wǎng)站用戶通過這些上傳組件就可以將自己想發(fā)布的軟件上傳,供其他用戶下載使用。而不法分子恰好可以利用這一點(diǎn),傳播病毒、木馬、強(qiáng)制捆綁插件等惡意樣本。這一方面帶來了巨大的網(wǎng)絡(luò)安全隱患,另一方面又給有下載需求的用戶造成了很大的安全風(fēng)險。
而官方網(wǎng)站發(fā)布的軟件可信度很高。因此,為了保障有下載需求的用戶的網(wǎng)絡(luò)安全,需要識別出互聯(lián)網(wǎng)中所有可信度較高的網(wǎng)站的下載鏈接,以供用戶安全下載。發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的可信網(wǎng)站的識別方法和收集系統(tǒng)。
根據(jù)本發(fā)明的一個方面,提供了一種可信網(wǎng)站的識別方法,包括
提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志,根據(jù)所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量;
根據(jù)當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度,并根據(jù)當(dāng)前網(wǎng)站的可信度和樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站;
其中,根據(jù)當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度進(jìn)一步包括所述當(dāng)前網(wǎng)站的可信度與所述樣本數(shù)量成反比,與所述用戶數(shù)量成正比。
根據(jù)本發(fā)明的另一個方面,提供了一種可信網(wǎng)站的收集系統(tǒng),包括可信樣本數(shù)據(jù)庫以及服務(wù)器,其中所述服務(wù)器,適于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志,根據(jù)提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識并統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量,根據(jù)統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度,根據(jù)獲取的當(dāng)前網(wǎng)站的可信度和統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站;
所述可信樣本數(shù)據(jù)庫,適于收集經(jīng)所述服務(wù)器判定的官方網(wǎng)站。
可選地,所述服務(wù)器包括
提取模塊,用于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志;
統(tǒng)計(jì)模塊,用于根據(jù)所述提取模塊提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量;
獲取模塊,用于根據(jù)所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度;
識別模塊,用于根據(jù)所述獲取模塊獲取的當(dāng)前網(wǎng)站的可信度和所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站。
由于下載網(wǎng)站的鏈接中會有一些壓縮包,有可能包括一些惡意腳本等,或者是被惡意程序利用的文件等,而通過本發(fā)明的可信網(wǎng)站的識別方法和收集系統(tǒng),能夠識別出可信度較高的官方網(wǎng)站,一方面,提高服務(wù)器收集正確的可信網(wǎng)站的效率,避免服務(wù)器下載到一些被惡意軟件利用的文件,另外一方面為有下載需求的用戶提供了可靠的下載網(wǎng)站,從而降低了用戶下載到惡意樣本的風(fēng)險,提高了用戶的網(wǎng)絡(luò)安全保障。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式
。
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中
圖I示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別方法流程圖2示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別方法的另一流程圖3示意性示除了根據(jù)本發(fā)明再一個實(shí)施例的可信網(wǎng)站的識別方法中更新樣本閾值進(jìn)行可信度判定的流程示意圖。
圖4示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別裝置的框圖5示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別裝置的又一框圖6示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的收集系統(tǒng)的框圖。
具體實(shí)施方式
下面結(jié)合附圖和具體的實(shí)施方式對本發(fā)明作進(jìn)一步的描述。
本發(fā)明實(shí)施例可以應(yīng)用于計(jì)算機(jī)系統(tǒng)/服務(wù)器,其可與眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置一起操作。適于與計(jì)算機(jī)系統(tǒng)/服務(wù)器一起使用的眾所周知的計(jì)算系統(tǒng)、 環(huán)境和/或配置的例子包括但不限于個人計(jì)算機(jī)系統(tǒng)、服務(wù)器計(jì)算機(jī)系統(tǒng)、瘦客戶機(jī)、厚客戶機(jī)、手持或膝上設(shè)備、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)個人電腦、小型計(jì)算機(jī)系統(tǒng)、大型計(jì)算機(jī)系統(tǒng)和包括上述任何系統(tǒng)的分布式云計(jì)算技術(shù)環(huán)境,等坐寸ο
計(jì)算機(jī)系統(tǒng)/服務(wù)器可以在由計(jì)算機(jī)系統(tǒng)執(zhí)行的計(jì)算機(jī)系統(tǒng)可執(zhí)行指令(諸如程序模塊)的一般語境下描述。通常,程序模塊可以包括例程、程序、目標(biāo)程序、組件、邏輯、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或者實(shí)現(xiàn)特定的抽象數(shù)據(jù)類型。計(jì)算機(jī)系統(tǒng)/服務(wù)器可以在分布式云計(jì)算環(huán)境中實(shí)施,分布式云計(jì)算環(huán)境中,任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的。在分布式云計(jì)算環(huán)境中,程序模塊可以位于包括存儲設(shè)備的本地或遠(yuǎn)程計(jì)算系統(tǒng)存儲介質(zhì)上。
互聯(lián)網(wǎng)上每天都會產(chǎn)生大量的新的文件,其中大部分是新的軟件和升級補(bǔ)丁包, 這些新的軟件和升級補(bǔ)丁包可以收集到服務(wù)器端的白名單數(shù)據(jù)庫中的文件。為了及時將這些新的軟件和升級補(bǔ)丁包收錄進(jìn)入白名單數(shù)據(jù)庫中,首先要查看這些軟件的發(fā)布渠道,通??梢酝ㄟ^查看這些軟件的官方網(wǎng)站來確定發(fā)布渠道,然后對這些官方網(wǎng)站進(jìn)行監(jiān)控。
服務(wù)器端的白名單數(shù)據(jù)庫對合法程序的白名單還可以進(jìn)行收集更新,具體可以由以下方式實(shí)現(xiàn)。
第一方式由技術(shù)人員周期性通過手工、利用蜘蛛或網(wǎng)絡(luò)爬蟲和/或用戶上傳對合法程序進(jìn)行收集;通過手工或通過工具自動甄別所述合法程序的程序特征和或程序行為并保存在所述白名單中。
第二方式根據(jù)現(xiàn)有已知白名單中的合法程序特征及其對應(yīng)的程序行為,對未知程序特征及程序行為進(jìn)行分析,以更新白名單。
本發(fā)明實(shí)施例的識別可信網(wǎng)站的系統(tǒng),可以通過獲取下載文件的下載日志,并對下載日志進(jìn)行分析,下載日志中提取當(dāng)前網(wǎng)站,從當(dāng)前網(wǎng)站中確認(rèn)官方網(wǎng)站,最后將官方網(wǎng)站中外掛和/或私服網(wǎng)站過濾掉。通過對軟件的下載日志進(jìn)行分析,可以獲取到更加準(zhǔn)確的下載信息 。
圖I示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別方法流程圖。如圖I 所示,本實(shí)施例中,可信網(wǎng)站的識別流程可以包括如下步驟
步驟S11,提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志;
當(dāng)互聯(lián)網(wǎng)中某個客戶端設(shè)備在某個下載網(wǎng)站上下載某些軟件的時候,可以采集客戶端設(shè)備的下載行為,并將客戶端設(shè)備的下載行為記載為軟件的下載日志。該下載日志中會記錄一些軟件的下載信息,例如軟件的下載路徑、軟件下載的網(wǎng)站信息等,通過這些下載信息,可以獲取到軟件下載的具體情況。
例如,下載日志中有兩個軟件的網(wǎng)站信息分別為http://www. badiu. com/xxxx和 http://www. baidu. com/yyyy,可以從這兩個軟件下載的網(wǎng)站信息中提取出侯選網(wǎng)站標(biāo)識信息均為www. baidu. com。當(dāng)然,還可以通過其他方式提取網(wǎng)站標(biāo)識信息,本發(fā)明對此并不加以限制。其中,當(dāng)前網(wǎng)站可以是下載站網(wǎng)站或論壇網(wǎng)站等等。
下載日志中一般包含如下信息客戶端設(shè)備下載的軟件的簽名、客戶端設(shè)備下載軟件的路徑、軟件下載的網(wǎng)站信息和下載的軟件文件名。當(dāng)然,所述下載日志中還可以包括一些其他信息,例如軟件的下載時間等,本發(fā)明實(shí)施例對此并不加以限制比如,下載日志中還可以包括用戶id、下載文件的哈希值(hash值)、下載文件的父頁面、用戶下載文件當(dāng)前頁面的URL (UniformResource Locator,統(tǒng)一資源定位符)等。下載文件的哈希值用于唯一標(biāo)識下載文件。哈希值也可以稱為md5值,如果下載文件是壓縮包文件,下載日志中還要包含壓縮包里的文件的md5值。
步驟S12,根據(jù)步驟Sll提取的下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量;
步驟S13,根據(jù)步驟S12統(tǒng)計(jì)得到的當(dāng)前網(wǎng)站的樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度;
一般來說,在一設(shè)定時間段內(nèi)從官方網(wǎng)站下載文件的種類比較少,因?yàn)楣俜骄W(wǎng)站上提供的下載文件的更新速度較慢,而且版本相對比較少。如果同一個人從一個網(wǎng)站下載的各文件相對隨機(jī),而且很多客戶端在設(shè)定時間段內(nèi)均從該網(wǎng)站下載了同一個文件,則可以判定該文件是相對可信的,而提供該文件的網(wǎng)站應(yīng)該是官方網(wǎng)站。
有上述可知,假設(shè)一段時間內(nèi)從某一網(wǎng)站有m個用戶下載了 η種樣本,如果η值比較小,m比較大,η值就比較可信?;诖耍@取當(dāng)前網(wǎng)站的可信度的一種方式可以是當(dāng)前網(wǎng)站的可信度與樣本數(shù)量(通過步驟S12獲得)成反比,與用戶數(shù)量(通過步驟S 12獲得)成正比。
在本發(fā)明實(shí)施例中,可以通過如下的公式(I)計(jì)算可信度
ff=m/η 公式(I)
上述公式(I)中,W為當(dāng)前網(wǎng)站的可信度,m為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的用戶數(shù)量,η為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量。
步驟S14,根據(jù)步驟S13獲取的當(dāng)前網(wǎng)站的可信度和步驟S12統(tǒng)計(jì)得到的當(dāng)前網(wǎng)站的樣本數(shù)量識別當(dāng)前網(wǎng)站是否為官方網(wǎng)站。
假設(shè)以上述的公式(I)來計(jì)算可信度,如果η值小于預(yù)設(shè)的樣本數(shù)閾值,且W值大于預(yù)設(shè)的可信度閾值,則可以判定當(dāng)前網(wǎng)站為官方網(wǎng)站。
其中,樣本數(shù)閾值和可信度閾值可以根據(jù)經(jīng)驗(yàn)獲取。比如,取樣本數(shù)閾值>=6的情況下,可信度閾值>=1.5的下載鏈接中有85% (正確率)都是官網(wǎng)下載鏈接,占全部官網(wǎng)下載站的75%(查全率)。調(diào)低樣本數(shù)閾值,就會降低正確率,提升查全率;反之,調(diào)高樣本數(shù)閾值,會提高正確率,降低查全率。調(diào)高可信度閾值,會提升正確率,降低查全率。
在本發(fā)明其他實(shí)施例中,若通過步驟S14判定當(dāng)前網(wǎng)站為官方網(wǎng)站時,還可以進(jìn)一步由該官方網(wǎng)站抓取下載鏈接。并且,還可以進(jìn)一步將抓取的下載鏈接保存到白名單中。 抓取操作可以通過各種網(wǎng)絡(luò)爬蟲業(yè)務(wù)和/或網(wǎng)站監(jiān)控業(yè)務(wù)來完成。
通過步驟S14可以識別的官方網(wǎng)站中可能還包括外掛網(wǎng)站、私服網(wǎng)站等第三方網(wǎng)站??紤]到外掛網(wǎng)站樣本、私服網(wǎng)站樣本的特殊性,需要對外掛網(wǎng)站、私服網(wǎng)站單獨(dú)處理。因此,可選地,在步驟S14之后,還可以進(jìn)一步從識別出的官方網(wǎng)站中排除外掛網(wǎng)站、私服網(wǎng)站,以確定需要可信網(wǎng)站。若判定當(dāng)前網(wǎng)站為可信網(wǎng)站時,還可以進(jìn)一步由該可信網(wǎng)站抓取下載鏈接。并且,還可以進(jìn)一步將抓取的下載鏈接保存到白名單中。
外掛網(wǎng)站和私服網(wǎng)站的去除可以利用貝葉斯分類器完成。本發(fā)明實(shí)施例中,利用貝葉斯文本分類器對網(wǎng)頁中的文字信息做特征統(tǒng)計(jì),計(jì)算給定網(wǎng)頁屬于外掛官網(wǎng)的概率, 如果該概率值大于設(shè)定的概率閾值,則認(rèn)為其是外掛官網(wǎng)。
除了需要去除外掛網(wǎng)站外,還可以去除私服網(wǎng)站具體方法可以如下
首先,獲得私服網(wǎng)站的參考樣本,利用貝葉斯文本分類器對私服網(wǎng)站參考樣本參考樣本的網(wǎng)頁內(nèi)容進(jìn)行文本分詞,并分別在私服網(wǎng)站類別上統(tǒng)計(jì)所分得的詞組的詞頻從而得到兩個參考向量
V-SOFT= {wordl_count, word2_count,…,wordn_count}
其次,獲取一個待分類網(wǎng)頁,將該待分類網(wǎng)頁的內(nèi)容進(jìn)行文本分詞,得到向量
V-UNKNOffN= {wordl_count, word2_count,…,wordn_count}
之后,分別計(jì)算由V-UNKN0WN到V-SOFT的距離,根據(jù)所獲得的上述距離與相應(yīng)閾值進(jìn)行比對,上述距離小于對應(yīng)閾值時,則說明待分類網(wǎng)頁越靠近私服網(wǎng)站的類別,從而可以分辨是否是私服網(wǎng)站,通過這種方式對該待分類網(wǎng)站進(jìn)行分類,當(dāng)然本方式不僅限于分類私服網(wǎng)站,還可以用于分類其他網(wǎng)站。
最后,由官方網(wǎng)站中剔除私服網(wǎng)站、外掛網(wǎng)站。
本發(fā)明實(shí)施例的可信網(wǎng)站的識別方法,能夠識別出可信度較高的官方網(wǎng)站,從而為有下載需求的用戶提供了可靠的下載網(wǎng)站,降低了用戶下載到惡意樣本的風(fēng)險,提高了用戶的網(wǎng)絡(luò)安全保障。
圖2示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別方法的另一流程圖。 如圖2所示,可信網(wǎng)站的識別方法可以包括
步驟S21、根據(jù)當(dāng)前網(wǎng)站的url確定對應(yīng)的日志存儲服務(wù)器的地址;一般地,用戶對當(dāng)前網(wǎng)站進(jìn)行資源下載操作時,產(chǎn)生的一系列數(shù)據(jù)信息,這些信息以日志的形式記載在日志存儲服務(wù)器上,每一行日志都記載著對日期、時間、使用者及下載當(dāng)前網(wǎng)站上資源等相關(guān)操作的描述。
步驟S22、根據(jù)所述日志存儲服務(wù)器地址的地址,提取當(dāng)前網(wǎng)站在一設(shè)定時間內(nèi)的下載日志;
為了可以快速有效地評估當(dāng)前網(wǎng)站的可信性,優(yōu)選地,從日志存儲服務(wù)器上截取部分下載日志來進(jìn)行處理,在截取時,可以以時間點(diǎn)為依據(jù)進(jìn)行時間段的劃分,提取某一時間段內(nèi)即設(shè)定時間段內(nèi)的下載日志,以便進(jìn)行快速有效的分析。該設(shè)定時間段的長短并不做特別限定,可以依據(jù)數(shù)據(jù)運(yùn)算效率以及可信性判定的可靠性來進(jìn)行設(shè)置。
步驟S23、從提取到的下載日志中獲取用戶標(biāo)識和下載文件標(biāo)識;
由于下載日志中,大多都包含下載當(dāng)前網(wǎng)站資源的用戶標(biāo)識(id)、以及當(dāng)前網(wǎng)站上被下載的資源即下載文件標(biāo)識(id),通過用戶標(biāo)識可以識別出在當(dāng)前網(wǎng)站上,設(shè)定時間段內(nèi)下載了資源的用戶,而通過下載文件標(biāo)識即可識別出當(dāng)前網(wǎng)站上被用戶下載的文件。
步驟S24、根據(jù)提取的設(shè)定時間段內(nèi)的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量;
如前所述,由于本實(shí)施例中只是提取了設(shè)定時間段內(nèi)容的下載日志,因此,在統(tǒng)計(jì)分析時,相應(yīng)地,只針對設(shè)定時間段內(nèi),下載日志中的用戶標(biāo)識和下載文件標(biāo)識進(jìn)行,可以通過登錄并下載當(dāng)前網(wǎng)站資源的注冊用戶名進(jìn)行統(tǒng)計(jì),也可以根據(jù)匿名訪問當(dāng)前網(wǎng)站并下載資源的IP地址進(jìn)行統(tǒng)計(jì)。
步驟S25、根據(jù)當(dāng)前網(wǎng)站的可信度與樣本數(shù)量成反比,與用戶數(shù)量成正比,獲取當(dāng)前網(wǎng)站的可信度;
在本發(fā)明實(shí)施例中,可以通過如下的公式(I)計(jì)算可信度
ff=m/η 公式(I)
上述公式(I)中,W為當(dāng)前網(wǎng)站的可信度,m為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的用戶數(shù)量,η為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量。
可理解的,本發(fā)明實(shí)施例也可以采用其他類似非線性的可信度計(jì)算方法,來獲取當(dāng)前網(wǎng)站的可信度,在此不再贅述。
步驟S26、判斷可信度是否不小于設(shè)定的可信度閾值,如果是則執(zhí)行步驟S27 ;否則,執(zhí)行步驟29 ;
步驟S27、判斷樣本數(shù)量是否不小于設(shè)定的樣本閾值,如果是,則執(zhí)行步驟30 ;否則,執(zhí)行步驟29。8
步驟29、判定當(dāng)前網(wǎng)站為非官方網(wǎng)站;
步驟30、判定當(dāng)前網(wǎng)站為官方網(wǎng)站。
在步驟S30之后,可以去除官方網(wǎng)站中的私服網(wǎng)站、外掛網(wǎng)站等第三方網(wǎng)站后得到可信網(wǎng)站,并且收集到可信網(wǎng)站后,可以周期性通過手工、利用蜘蛛或網(wǎng)絡(luò)爬蟲和/或用戶上傳對可信網(wǎng)站的文件進(jìn)行收集;后續(xù)通過手工或通過工具自動甄別文件相關(guān)的程序的程序特征和或程序行為并保存在白名單數(shù)據(jù)庫。
可以進(jìn)一步的根據(jù)現(xiàn)有已知白名單中的合法程序特征及其對應(yīng)的程序行為,對未知程序特征及程序行為進(jìn)行分析,以更新白名單。
圖3示意性示除了根據(jù)本發(fā)明再一個實(shí)施例的可信網(wǎng)站的識別方法中更新樣本閾值進(jìn)行可信度判定的流程示意圖。如圖3所示,本實(shí)施例中,與上述圖2所示實(shí)施例不同的是,為了提高可信判定的準(zhǔn)確率,防止錯判的情況出現(xiàn),針對不同時長的設(shè)定時間段的可信度進(jìn)行處理,與此同時更新樣本閾值,其可以包括如下步驟
步驟S31、針對當(dāng)前設(shè)定時間段內(nèi),根據(jù)當(dāng)前網(wǎng)站的可信度與樣本數(shù)量成反比,與用戶數(shù)量成正比,獲取當(dāng)前設(shè)定時間段內(nèi)容當(dāng)前網(wǎng)站的可信度;
在本發(fā)明實(shí)施例中,可以通過如下的公式(I)計(jì)算可信度
ff=m/n 公式(I)
上述公式(I)中,W為當(dāng)前網(wǎng)站的可信度,m為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的用戶數(shù)量,η為設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量。
可理解的,本發(fā)明實(shí)施例也可以采用其他類似非線性的可信度計(jì)算方法,來獲取當(dāng)前網(wǎng)站的可信度,在此不再贅述。
步驟S32、判斷針對當(dāng)前設(shè)定時間段內(nèi)對應(yīng)的可信度是否不小于設(shè)定的可信度閾值,如果是則執(zhí)行步驟S33 ;否則,執(zhí)行步驟S34 ;
步驟S33、判斷針對當(dāng)前設(shè)定時間段內(nèi)樣本數(shù)量是否不小于設(shè)定的樣本閾值,如果是,則執(zhí)行步驟S35 ;否則,執(zhí)行步驟S34。
步驟S34、判定當(dāng)前網(wǎng)站為非官方網(wǎng)站;
步驟S35、針對另一設(shè)定時間段內(nèi),根據(jù)當(dāng)前網(wǎng)站的可信度與樣本數(shù)量成反比,與用戶數(shù)量成正比,獲取另一設(shè)定時間段內(nèi)容當(dāng)前網(wǎng)站的可信度,并執(zhí)行步驟S36 ;
步驟S35中,獲取另一設(shè)定時間段內(nèi)的可信度可參見上述圖I中針對當(dāng)前時間段內(nèi)可信度的計(jì)算方法,在此不再贅述。
步驟S36、判斷針對該另一設(shè)定時間段內(nèi)對應(yīng)的可信度是否不小于設(shè)定的可信度閾值,如果是則執(zhí)行步驟S37 ;否則,執(zhí)行步驟34 ;
步驟S37、更新樣本閾值;
步驟S38、判斷針對該另一設(shè)定時間段內(nèi)樣本數(shù)量是否不小于更新后的樣本閾值, 如果是,則執(zhí)行步驟39 ;否則,執(zhí)行步驟S35。
步驟S39、判定當(dāng)前網(wǎng)站為官方網(wǎng)站。
在步驟S39之后,可以去除官方網(wǎng)站中的私服網(wǎng)站、外掛網(wǎng)站等第三方網(wǎng)站后得到可信網(wǎng)站,并且收集到可信網(wǎng)站后,可以周期性通過手工、利用蜘蛛或網(wǎng)絡(luò)爬蟲和/或用戶上傳對可信網(wǎng)站的文件進(jìn)行收集;后續(xù)通過手工或通過工具自動甄別文件相關(guān)的程序的程序特征和或程序行為并保存在白名單數(shù)據(jù)庫。
可以進(jìn)一步的根據(jù)現(xiàn)有已知白名單中的合法程序特征及其對應(yīng)的程序行為,對未知程序特征及程序行為進(jìn)行分析,以更新白名單。
由于本方案能提高了收集的文件的來源網(wǎng)站可信的幾率,所以可以提高白名單 (可信網(wǎng)站)的收集的效率。
需要說明的是,參照圖3所示的實(shí)施例,可以有多個設(shè)定的時間內(nèi),并分別統(tǒng)計(jì)多個對應(yīng)的可信度,依據(jù)該多個對應(yīng)的可信度,來進(jìn)行當(dāng)前網(wǎng)站的可信性判斷,詳述過程在此不再贅述。
另外,根據(jù)步驟S14中的描述,調(diào)低樣本數(shù)閾值,就會降低正確率,提升查全率;反之,調(diào)高樣本數(shù)閾值,會提高正確率,降低查全率。調(diào)高可信度閾值,會提升正確率,降低查全率。因此,本實(shí)施例中僅通過更新樣本閾值來進(jìn)行網(wǎng)站可信性的判斷。
在另一實(shí)施例中還可以通過更新可信度閾值來進(jìn)行網(wǎng)站可信性的判斷,在此不再贅述。
圖4示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別裝置的框圖。如圖4 所示,本實(shí)施例中,可信網(wǎng)站的識別裝置可以包括提取模塊41、統(tǒng)計(jì)模塊42、獲取模塊43和識別模塊44。提取模塊41用于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志。統(tǒng)計(jì)模塊42 用于根據(jù)提取模塊41提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量。獲取模塊43 用于根據(jù)統(tǒng)計(jì)模塊42統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度。識別模塊44用于根據(jù)獲取模塊43獲取的當(dāng)前網(wǎng)站的可信度和統(tǒng)計(jì)模塊42統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站。識別模塊44還用于從識別的所述官方網(wǎng)站中清理第三方網(wǎng)站后,獲得可信網(wǎng)站。
其中,識別模塊44還可以用于在樣本數(shù)量小于預(yù)設(shè)的樣本數(shù)閾值,且當(dāng)前網(wǎng)站的可信度大于預(yù)設(shè)的可信度閾值時,判定當(dāng)前網(wǎng)站為官方網(wǎng)站。
在本發(fā)明實(shí)施例中,圖5示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的識別裝置的又一框圖??尚啪W(wǎng)站的識別裝置還可以包括抓取模塊45。抓取模塊45與識別模塊 44相連,用于在識別模44塊判定當(dāng)前網(wǎng)站為官方網(wǎng)站時,由所述官方網(wǎng)站抓取下載鏈接; 所述抓取模塊45還用于在所述識別模塊44判定所述當(dāng)前網(wǎng)站為可信網(wǎng)站時,由所述可信網(wǎng)站抓取下載鏈接。進(jìn)一步地,可信網(wǎng)站的識別裝置還可以包括保存模塊46。保存模塊46 與上述的抓取模塊45相連,用于將抓取模塊45抓取的下載鏈接保存到白名單數(shù)據(jù)庫中。
其中,當(dāng)前網(wǎng)站的可信度可以與所述樣本數(shù)量成反比,與所述用戶數(shù)量成正比。
其中,當(dāng)前網(wǎng)站可以是下載站網(wǎng)站或論壇網(wǎng)站等等。
本發(fā)明實(shí)施例的可信網(wǎng)站的識別裝置,通過執(zhí)行上述的可信網(wǎng)站的識別方法,能夠識別出可信度較高的官方網(wǎng)站,從而為有下載需求的用戶提供了可靠的下載網(wǎng)站,降低了用戶下載到惡意樣本的風(fēng)險,提高了用戶的網(wǎng)絡(luò)安全保障。
圖6示意性示出了根據(jù)本發(fā)明一個實(shí)施例的可信網(wǎng)站的收集系統(tǒng)的框圖。如圖5 所示,本實(shí)施例中,可信網(wǎng)站的收集系統(tǒng)可以包括服務(wù)器51和可信樣本數(shù)據(jù)庫52。
服務(wù)器51包括CPU或者DSP等具有數(shù)據(jù)處理功能的處理器集群511,以執(zhí)行提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志、根據(jù)提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和1用戶數(shù)量、根據(jù)所統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度、 根據(jù)獲取的當(dāng)前網(wǎng)站的可信度和統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站;
在服務(wù)器51,可以通過其CPU或者DSP控制有線網(wǎng)卡或者無線網(wǎng)卡訪問當(dāng)前網(wǎng)站以提取當(dāng)前網(wǎng)站的下載日志。
可信樣本數(shù)據(jù)庫52用于收集經(jīng)所述服務(wù)器51判定的官方網(wǎng)站。
可選地,所述服務(wù)器包括
提取模塊,用于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志;
統(tǒng)計(jì)模塊,用于根據(jù)所述提取模塊提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量;
獲取模塊,用于根據(jù)所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度;
識別模塊,用于根據(jù)所述獲取模塊獲取的當(dāng)前網(wǎng)站的可信度和所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站。
可選地,所述識別模塊還用于在所述樣本數(shù)量小于預(yù)設(shè)的樣本數(shù)閾值,且所述當(dāng)前網(wǎng)站的可信度大于預(yù)設(shè)的可信度閾值時,判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站。
可選地,所述服務(wù)器還包括抓取模塊,與所述識別模塊相連,用于在所述識別模塊判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站時,由所述官方網(wǎng)站抓取下載鏈接。
可選地,所述識別模塊,還用于從識別的所述官方網(wǎng)站中清理第三方網(wǎng)站后,獲得可信網(wǎng)站。
可選地,所述抓取模塊,還用于在所述識別模塊判定所述當(dāng)前網(wǎng)站為可信網(wǎng)站時, 由所述可信網(wǎng)站抓取下載鏈接。
可選地,所述服務(wù)器還包括保存模塊,與所述抓取模塊相連,用于將所述抓取模塊抓取的下載鏈接保存到白名單數(shù)據(jù)庫中。
本實(shí)施例中,有關(guān)官方網(wǎng)站識別裝置及其各個功能模塊的技術(shù)描述可參見上述實(shí)施例,在此不再贅述。
本發(fā)明實(shí)施例的可信網(wǎng)站的收集系統(tǒng),可以通過獲取下載文件的下載日志,并對下載日志進(jìn)行分析,下載日志中提取當(dāng)前網(wǎng)站,從當(dāng)前網(wǎng)站中確認(rèn)官方網(wǎng)站,最后將官方網(wǎng)站中外掛和/或私服網(wǎng)站等第三方網(wǎng)站過濾掉。通過對軟件的下載日志進(jìn)行分析,可以獲取到更加準(zhǔn)確的下載信息。
本文中所稱的“一個實(shí)施例”、“實(shí)施例”或者“一個或者多個實(shí)施例”意味著,結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或者特性包括在本發(fā)明的至少一個實(shí)施例中。此外,請注意, 這里“在一個實(shí)施例中”的詞語例子不一定全指同一個實(shí)施例。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下被實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
此外,還應(yīng)當(dāng)注意,本說明書中使用的語言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。
權(quán)利要求
1.一種可信網(wǎng)站的識別方法,其特征在于,包括 提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志,根據(jù)所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量; 根據(jù)當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度,并根據(jù)當(dāng)前網(wǎng)站的可信度和樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站; 其中,根據(jù)當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度進(jìn)一步包括所述當(dāng)前網(wǎng)站的可信度與所述樣本數(shù)量成反比,與所述用戶數(shù)量成正比。
2.如權(quán)利要求I所述的可信網(wǎng)站的識別方法,其特征在于,還包括 若判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站時,由所述官方網(wǎng)站抓取下載鏈接,將抓取的下載鏈接保存到白名單數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求I所述的可信網(wǎng)站的識別方法,其特征在于,還包括 從識別的所述官方網(wǎng)站中清理第三方網(wǎng)站后,獲得可信網(wǎng)站。
4.如權(quán)利要求3所述的方法,其特征在于,還包括 若判定所述當(dāng)前網(wǎng)站為可信網(wǎng)站時,由所述可信網(wǎng)站抓取下載鏈接,將抓取的下載鏈接保存到白名單數(shù)據(jù)庫中。
5.如權(quán)利要求I所述的可信網(wǎng)站的識別方法,其特征在于,根據(jù)當(dāng)前網(wǎng)站的可信度和樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站,進(jìn)一步包括 若所述樣本數(shù)量小于預(yù)設(shè)的樣本數(shù)閾值,且所述當(dāng)前網(wǎng)站的可信度大于預(yù)設(shè)的可信度閾值,則判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站。
6.一種可信網(wǎng)站的收集系統(tǒng),包括可信樣本數(shù)據(jù)庫以及服務(wù)器,其中 服務(wù)器,適于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志,根據(jù)提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識并統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量,根據(jù)統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度,根據(jù)獲取的當(dāng)前網(wǎng)站的可信度和統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站; 可信樣本數(shù)據(jù)庫,適于收集經(jīng)所述服務(wù)器判定的官方網(wǎng)站。
7.如權(quán)利要求6所述的收集系統(tǒng),其特征在于,所述服務(wù)器包括 提取模塊,用于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志; 統(tǒng)計(jì)模塊,用于根據(jù)所述提取模塊提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識,統(tǒng)計(jì)出當(dāng)前網(wǎng)站在所述設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量; 獲取模塊,用于根據(jù)所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的所述樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度; 識別模塊,用于根據(jù)所述獲取模塊獲取的當(dāng)前網(wǎng)站的可信度和所述統(tǒng)計(jì)模塊統(tǒng)計(jì)出的樣本數(shù)量識別所述當(dāng)前網(wǎng)站是否為官方網(wǎng)站。
8.如權(quán)利要求7所述的收集系統(tǒng),其特征在于, 所述識別模塊還用于在所述樣本數(shù)量小于預(yù)設(shè)的樣本數(shù)閾值,且所述當(dāng)前網(wǎng)站的可信度大于預(yù)設(shè)的可信度閾值時,判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站。
9.如權(quán)利要求7所述的收集系統(tǒng),其特征在于,所述服務(wù)器還包括 抓取模塊,與所述識別模塊相連,用于在所述識別模塊判定所述當(dāng)前網(wǎng)站為官方網(wǎng)站時,由所述官方網(wǎng)站抓取下載鏈接。
10.根據(jù)權(quán)利要求7所述的收集系統(tǒng),其特征在于, 所述識別模塊,還用于從識別的所述官方網(wǎng)站中清理第三方網(wǎng)站后,獲得可信網(wǎng)站。
11.如權(quán)利要求10所述的收集系統(tǒng),其特征在于, 所述抓取模塊,還用于在所述識別模塊判定所述當(dāng)前網(wǎng)站為可信網(wǎng)站時,由所述可信網(wǎng)站抓取下載鏈接。
12.如權(quán)利要求9或11所述的收集系統(tǒng),其特征在于,所述服務(wù)器還包括 保存模塊,與所述抓取模塊相連,用于將所述抓取模塊抓取的下載鏈接保存到白名單數(shù)據(jù)庫中。
全文摘要
本發(fā)明公開了一種可信網(wǎng)站的識別方法和收集系統(tǒng)。該收集系統(tǒng)包括可信樣本數(shù)據(jù)庫和服務(wù)器,該服務(wù)器適于提取當(dāng)前網(wǎng)站在一設(shè)定時間段內(nèi)的下載日志,根據(jù)提取的所述下載日志中的用戶標(biāo)識和下載文件標(biāo)識并統(tǒng)計(jì)出當(dāng)前網(wǎng)站在設(shè)定時間段內(nèi)進(jìn)行過下載操作的下載鏈接的樣本數(shù)量和用戶數(shù)量,根據(jù)統(tǒng)計(jì)出的當(dāng)前網(wǎng)站的樣本數(shù)量和用戶數(shù)量獲取當(dāng)前網(wǎng)站的可信度,根據(jù)獲取的當(dāng)前網(wǎng)站的可信度和統(tǒng)計(jì)出的樣本數(shù)量識別當(dāng)前網(wǎng)站是否為官方網(wǎng)站;可信樣本數(shù)據(jù)庫,適于收集經(jīng)服務(wù)器判定的官方網(wǎng)站。采用本發(fā)明的技術(shù)方案,能夠識別出可信度較高的官方網(wǎng)站,從而為有下載需求的用戶提供了可靠的下載網(wǎng)站,降低了用戶下載到惡意樣本的風(fēng)險,提高了用戶的網(wǎng)絡(luò)安全保障。
文檔編號H04L29/08GK102984162SQ20121051847
公開日2013年3月20日 申請日期2012年12月5日 優(yōu)先權(quán)日2012年12月5日
發(fā)明者于春功, 張超旭 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司