一種基于語言模型的應(yīng)用協(xié)議識別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及面向原始網(wǎng)絡(luò)數(shù)據(jù)流報文負(fù)載的高準(zhǔn)確性與強(qiáng)魯棒性的應(yīng)用協(xié)議識 別技術(shù),具體涉及一種基于語言模型的應(yīng)用協(xié)議識別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 應(yīng)用協(xié)議識別需要協(xié)議關(guān)鍵字。協(xié)議關(guān)鍵字是數(shù)據(jù)報文中的一組字節(jié)子序列或者 計算統(tǒng)計量,其可以用于區(qū)分不同應(yīng)用協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)流。高準(zhǔn)確性與強(qiáng)魯棒性的協(xié)議的 自動推斷工作在目前與未來的網(wǎng)絡(luò)與安全服務(wù)中至關(guān)重要,例如,基于網(wǎng)絡(luò)的入侵檢測與 防范系統(tǒng),網(wǎng)絡(luò)流量測量,網(wǎng)絡(luò)檢測和質(zhì)量與服務(wù)等。這里以其在入侵檢測與防范系統(tǒng)中的 應(yīng)用作為一個具體的例子。在實踐中,入侵檢測與防范系統(tǒng)通常通過對數(shù)據(jù)報文的綜合解 析從而實現(xiàn)對數(shù)據(jù)報文實施有效的管理規(guī)則。值得注意的是傳統(tǒng)的入侵檢測與防范系統(tǒng)在 流量監(jiān)控中采用的做法是將數(shù)據(jù)報文負(fù)載與協(xié)議關(guān)鍵字進(jìn)行簡單的規(guī)則匹配。然而,這種 粗粒度的關(guān)鍵字檢查方法面臨著兩個重要的挑戰(zhàn):(1)在入侵檢測與防范系統(tǒng)中的協(xié)議解 析器不包含協(xié)議網(wǎng)絡(luò)數(shù)據(jù)流中統(tǒng)計規(guī)律不顯著的協(xié)議關(guān)鍵字;(2)傳統(tǒng)的協(xié)議解析器缺乏 可以用于擴(kuò)展協(xié)議數(shù)據(jù)知識的自學(xué)習(xí)與持續(xù)學(xué)習(xí)能力。
[0003] 在真實的網(wǎng)絡(luò)環(huán)境中,這些問題也導(dǎo)致了入侵檢測與防范系統(tǒng)在準(zhǔn)確性和魯棒性 方面的下降表現(xiàn)。因此現(xiàn)代化的入侵檢測與防范系統(tǒng)需要更為魯棒的解析器從而更好地實 現(xiàn)其功能。除了優(yōu)化入侵檢測與防范系統(tǒng)之外,高準(zhǔn)確性與強(qiáng)魯棒性的協(xié)議關(guān)鍵字自動推 斷工作對于深入理解協(xié)議規(guī)范(如協(xié)議格式逆向工程和協(xié)議狀態(tài)自動機(jī)推斷等)同樣是十 分關(guān)鍵的?;诰W(wǎng)絡(luò)數(shù)據(jù)流的協(xié)議規(guī)范自動推斷方法以應(yīng)用協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)流作為基本輸 入,進(jìn)而實現(xiàn)協(xié)議規(guī)范的自動推斷。值得注意的是新興應(yīng)用協(xié)議(如Peer-to-Peer應(yīng)用協(xié) 議)呈現(xiàn)爆炸式的發(fā)展速度,這種新現(xiàn)象引發(fā)對于安全和網(wǎng)絡(luò)管理領(lǐng)域的廣泛關(guān)注。然而, 這些在互聯(lián)網(wǎng)中出現(xiàn)的新興應(yīng)用協(xié)議沒有公開可得到的協(xié)議技術(shù)文檔。例如,Internet2組 織通過測量的方法發(fā)現(xiàn)近50%的網(wǎng)絡(luò)數(shù)據(jù)流屬于未定義的網(wǎng)絡(luò)應(yīng)用。因此,為了實現(xiàn)協(xié)議 規(guī)范推斷工作,我們需要首先識別與該協(xié)議向?qū)?yīng)的網(wǎng)絡(luò)數(shù)據(jù)流。
[0004] 傳統(tǒng)的應(yīng)用協(xié)議識別方法與系統(tǒng)在現(xiàn)實應(yīng)用過程中存在三點局限性:(1)協(xié)議關(guān) 鍵字推斷工作中的完整性受限于給定的網(wǎng)絡(luò)數(shù)據(jù)流中應(yīng)用協(xié)議行為的多樣性。(2)協(xié)議關(guān) 鍵字的推測方法是統(tǒng)計量敏感的,因此無法處理因數(shù)據(jù)報文字符或數(shù)據(jù)報文字符串子串的 統(tǒng)計量較小時的情況。(3)此前有關(guān)協(xié)議關(guān)鍵字推斷的研究工作在計算效率和復(fù)雜性上存 在較大的局限性。本發(fā)明擬解決現(xiàn)有方法或系統(tǒng)中存在的上述三點技術(shù)缺陷。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于設(shè)計并實現(xiàn)一種基于語言模型的網(wǎng)絡(luò)協(xié)議識別方法及系統(tǒng),使 得其在網(wǎng)絡(luò)協(xié)議識別過程中,充分挖掘網(wǎng)絡(luò)消息報文中潛在的協(xié)議語義信息,并在在線網(wǎng) 絡(luò)協(xié)議流量分類過程中具有高準(zhǔn)確率和強(qiáng)魯棒性。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于語言模型的應(yīng)用協(xié)議識別方法,包括離線階段和在線階段;
[0008] 所述離線階段包括如下步驟:
[0009] 1)將混雜的原始網(wǎng)絡(luò)數(shù)據(jù)報文劃分為兩類:一類是目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集 合,另一類是非目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合;
[0010] 2)以步驟1)得到的目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合作為輸入,構(gòu)建目標(biāo)應(yīng)用協(xié)議 的語言模型;
[0011] 3)利用步驟2)得到的語言模型,提取已經(jīng)標(biāo)記類別的網(wǎng)絡(luò)數(shù)據(jù)報文的協(xié)議關(guān)鍵 字,該協(xié)議關(guān)鍵字作為網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征;
[0012] 4)利用步驟3)得到的網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征,采用有監(jiān)督或無監(jiān)督學(xué)習(xí)方法 對離線數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,獲得目標(biāo)應(yīng)用協(xié)議的檢測模型;
[0013] 所述在線階段包括如下步驟:
[0014] 5)根據(jù)離線階段中步驟2)得到的語言模型,提取待測網(wǎng)絡(luò)數(shù)據(jù)報文的協(xié)議關(guān)鍵 字作為其分類特征;
[0015] 6)根據(jù)步驟5)得到的待測網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征和離線階段中步驟4)得到的 檢測模型,對待測網(wǎng)絡(luò)數(shù)據(jù)報文的協(xié)議類別屬性進(jìn)行判別,并輸出判別結(jié)果。
[0016] -種基于語言模型的應(yīng)用協(xié)議識別系統(tǒng),包括用于離線階段的協(xié)議數(shù)據(jù)采集模 塊、協(xié)議語言建模模塊、協(xié)議關(guān)鍵字推斷模塊、集成學(xué)習(xí)模塊,以及用于在線階段的協(xié)議關(guān) 鍵字推斷模塊、協(xié)議分類器模塊;其中,
[0017] 協(xié)議數(shù)據(jù)采集模塊負(fù)責(zé)將混雜的原始網(wǎng)絡(luò)數(shù)據(jù)報文劃分為兩類:一類是目標(biāo)應(yīng)用 協(xié)議的數(shù)據(jù)報文集合,另一類是非目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合;
[0018] 協(xié)議語言建模模塊負(fù)責(zé)以目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合作為輸入,構(gòu)建目標(biāo)應(yīng)用 協(xié)議的語言模型;
[0019] 離線階段的協(xié)議關(guān)鍵字推斷模塊負(fù)責(zé)利用所述語言模型提取已經(jīng)標(biāo)記類別的網(wǎng) 絡(luò)數(shù)據(jù)報文的協(xié)議關(guān)鍵字,該協(xié)議關(guān)鍵字作為網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征;
[0020] 集成學(xué)習(xí)模塊負(fù)責(zé)利用所述網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征,采用有監(jiān)督或無監(jiān)督學(xué)習(xí) 方法對離線數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,獲得目標(biāo)應(yīng)用協(xié)議的檢測模型;
[0021] 在線階段的協(xié)議關(guān)鍵字推斷模塊負(fù)責(zé)根據(jù)離線階段得到的語言模型,提取待測網(wǎng) 絡(luò)數(shù)據(jù)報文的協(xié)議關(guān)鍵字作為其分類特征;
[0022] 協(xié)議分類器模塊負(fù)責(zé)根據(jù)待測網(wǎng)絡(luò)數(shù)據(jù)報文的分類特征和離線階段得到的檢測 模型,對待測網(wǎng)絡(luò)數(shù)據(jù)報文的協(xié)議類別屬性進(jìn)行判別,并輸出判別結(jié)果。
[0023] 本發(fā)明設(shè)計并實現(xiàn)了一個新穎的應(yīng)用協(xié)議識別方法及系統(tǒng),該方法及系統(tǒng)通過提 取協(xié)議報文中的高準(zhǔn)確性與強(qiáng)魯棒性的協(xié)議關(guān)鍵字信息,從而實現(xiàn)效果更優(yōu)的在線應(yīng)用協(xié) 議識別與分類。本發(fā)明的關(guān)鍵技術(shù)點在于:通過挖掘低階與高階n-gram模型之間的關(guān)聯(lián)關(guān) 系,本發(fā)明能夠處理給定協(xié)議n-gram集合中未出現(xiàn)或者低統(tǒng)計頻率的n-gram的"零概率" 難題;從而本方法和系統(tǒng)在真實的網(wǎng)絡(luò)環(huán)境中能夠恢復(fù)未見或者不完整的協(xié)議關(guān)鍵字。通 過采用基于半監(jiān)督學(xué)習(xí)的集成學(xué)習(xí)算法,本發(fā)明能夠從此前尚未特征化的原始網(wǎng)絡(luò)流量中 持續(xù)地獲得新的協(xié)議數(shù)據(jù)報文,通過這些新的協(xié)議數(shù)據(jù)報文進(jìn)一步地提高在線階段分類器 的性能。
[0024] 利用本發(fā)明的方法對能對網(wǎng)絡(luò)數(shù)據(jù)流實現(xiàn)有效的協(xié)議識別,與現(xiàn)有技術(shù)相比,具 有如下優(yōu)點:
[0025] 1.能夠有效識別以單個字節(jié)字段(及以上)為協(xié)議控制命令的網(wǎng)絡(luò)應(yīng)用協(xié)議報 文,如以UDP作為傳輸層協(xié)議的Peer-to-Peer類網(wǎng)絡(luò)應(yīng)用協(xié)議。
[0026] 2.能有效利用大量尚未標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)報文集合,從中發(fā)現(xiàn)有助于提高數(shù)據(jù)的多 樣性的協(xié)議樣本,進(jìn)而提高應(yīng)用協(xié)議識別分類器的準(zhǔn)確率。
【附圖說明】
[0027] 圖1是基于語言模型的應(yīng)用協(xié)議識別方法及系統(tǒng)的離線階段流程圖。
[0028] 圖2是基于語言模型的網(wǎng)絡(luò)應(yīng)用協(xié)議識別方法的在線階段流程圖。
[0029] 圖3是基于Hierarchical Pitman-Yor Process的協(xié)議語言模型構(gòu)建流程圖。
[0030]圖4是一種基于語義敏感的網(wǎng)絡(luò)協(xié)議識別系統(tǒng)架構(gòu)圖。
[0031] 圖5是PPLive協(xié)議實驗結(jié)果圖。
[0032] 圖6是PPStream協(xié)議實驗結(jié)果圖。
【具體實施方式】
[0033] 為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面通過具體實施例和 附圖,對本發(fā)明做進(jìn)一步說明。
[0034] 本發(fā)明的基于語言模型的網(wǎng)絡(luò)協(xié)議識別方法以混雜的網(wǎng)絡(luò)數(shù)據(jù)流為輸入,自動地 從網(wǎng)絡(luò)流量中對目標(biāo)應(yīng)用協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行準(zhǔn)確識別。該方法只分析TCP或UDP協(xié)議 的數(shù)據(jù)報文的載荷部分,無需應(yīng)用程序的可執(zhí)行代碼,是一種基于網(wǎng)絡(luò)的協(xié)議識別解決方 案。同時,該方法不依賴協(xié)議規(guī)范中的先驗知識,因此其可解決文本類應(yīng)用協(xié)議(如SMTP) 和二進(jìn)制類應(yīng)用協(xié)議(如SopCast)的識別問題。該方法由兩個主要階段構(gòu)成:離線階段和 在線階段。
[0035] 離線階段由協(xié)議數(shù)據(jù)采集,協(xié)議語言建模,協(xié)議關(guān)鍵字推斷、集成學(xué)習(xí)四個模塊構(gòu) 成。其流程圖如圖1所示。
[0036] 1.協(xié)議數(shù)據(jù)采集:協(xié)議數(shù)據(jù)采集模塊是將混雜的原始網(wǎng)絡(luò)數(shù)據(jù)報文劃分為兩種 類別:一類是屬于目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合;另一類屬于非目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文 集合。
[0037] 2.協(xié)議語言建模:協(xié)議語言建模以目標(biāo)應(yīng)用協(xié)議的數(shù)據(jù)報文集合作為輸入,使用 Hierarchical Pitman-Yor Process Language Model (HPYLM)構(gòu)建目標(biāo)應(yīng)用協(xié)議的語言模 型,協(xié)議語言建模的輸出