專利名稱:一種基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)安全檢測(cè)與網(wǎng)絡(luò)流量控制技術(shù)領(lǐng)域,特別是涉及一種基于 關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法。
背景技術(shù):
現(xiàn)有應(yīng)用層協(xié)議識(shí)別的方法,主要包括基于端口號(hào)的識(shí)別方法、基于人工 建立的正則表達(dá)式的方法、基于流的統(tǒng)計(jì)特性的方法?;趨f(xié)議端口號(hào)的方法, 因?yàn)樵S多標(biāo)準(zhǔn)的應(yīng)用使用非標(biāo)準(zhǔn)的端口號(hào),非標(biāo)準(zhǔn)的應(yīng)用使用標(biāo)準(zhǔn)端口號(hào),例
如非法應(yīng)用和攻擊冒用熟知端口號(hào)(例如80端口),以躲避防火墻的過(guò)濾和流 量管理設(shè)備的限制,使得基于端口號(hào)識(shí)別應(yīng)用的方法已經(jīng)變得不適用?;谡?則表達(dá)式的應(yīng)用識(shí)別方法,通過(guò)對(duì)應(yīng)用層數(shù)據(jù)的正則表達(dá)式匹配,可以識(shí)別應(yīng) 用,而無(wú)需關(guān)心該應(yīng)用采用什么端口號(hào)。但這種方法要求事先經(jīng)過(guò)大量的人工 分析來(lái)獲取應(yīng)用的獨(dú)特特征,并用正則表達(dá)式來(lái)反映這種特征,所以不適合于 采用自動(dòng)的方法來(lái)識(shí)別應(yīng)用?;诹魈卣鞯姆椒ǎ鋬?yōu)點(diǎn)是不需要了解應(yīng)用層 數(shù)據(jù)內(nèi)容,但其識(shí)別的精確性則不夠高。在所有這些方法中,還沒(méi)有見(jiàn)到對(duì)應(yīng) 用層協(xié)議進(jìn)行跟蹤的技術(shù)。防火墻雖然可以對(duì)協(xié)議狀態(tài)進(jìn)行跟蹤,但主要還是 局限于對(duì)傳輸層及IP層的協(xié)議狀態(tài)的跟蹤,而且這種協(xié)議狀態(tài)跟蹤實(shí)際上是協(xié) 議過(guò)程的再現(xiàn),也需要事先經(jīng)過(guò)大量的人工分析和編程實(shí)現(xiàn)。
通過(guò)對(duì)應(yīng)用的識(shí)別,在流量控制技術(shù)領(lǐng)域,人們就可以實(shí)現(xiàn)對(duì)不同應(yīng)用的 不同的對(duì)待。例如,對(duì)某些應(yīng)用賦予較高的優(yōu)先級(jí)使之占用較多的網(wǎng)絡(luò)資源,某些應(yīng)用被限速以提供較小的帶寬,甚至某些應(yīng)用被過(guò)濾以避免其對(duì)網(wǎng)絡(luò)的影 響。在網(wǎng)絡(luò)安全檢測(cè)技術(shù)領(lǐng)域,通過(guò)提取關(guān)鍵詞序列的正常行為,可以發(fā)現(xiàn)應(yīng) 用層協(xié)議過(guò)程的異常行為,從而可以實(shí)現(xiàn)對(duì)異常應(yīng)用層協(xié)議的限制,避免對(duì)網(wǎng) 絡(luò)的攻擊,尤其是發(fā)現(xiàn)和防御那些未知的應(yīng)用層攻擊。與應(yīng)用層協(xié)議識(shí)別的方 法相比,對(duì)應(yīng)用層協(xié)議過(guò)程的跟蹤方法,能夠了解應(yīng)用層正在發(fā)生的事情,因 而可以更細(xì)粒度地了解應(yīng)用層行為,從而發(fā)現(xiàn)更隱蔽的應(yīng)用層攻擊行為。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于關(guān)鍵詞序列的應(yīng)用 識(shí)別與跟蹤方法。
為了實(shí)現(xiàn)本發(fā)明目的,采用的技術(shù)方案如下 一種基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,包括如下步驟
(1) 建立關(guān)鍵詞集合;
(2) 從應(yīng)用層數(shù)據(jù)中匹配關(guān)鍵詞;
(3) 對(duì)匹配得到的關(guān)鍵詞序列進(jìn)行語(yǔ)法樹(shù)判決和評(píng)估; (4 )對(duì)關(guān)鍵詞序列進(jìn)行跟蹤以及對(duì)應(yīng)用類型進(jìn)行識(shí)別。
它獲取關(guān)鍵詞集的方法,是事先對(duì)已知應(yīng)用層協(xié)議的關(guān)鍵詞、關(guān)鍵特征進(jìn) 行收集,獲得關(guān)鍵詞集,或者是通過(guò)對(duì)未知應(yīng)用層協(xié)議進(jìn)行數(shù)據(jù)挖掘,獲得關(guān) 鍵詞集;所述關(guān)鍵詞可以是一個(gè)字符、 一個(gè)字符串、 一個(gè)正則表達(dá)式、或者一 個(gè)可識(shí)別的特征;把這些關(guān)鍵詞進(jìn)行編號(hào){1= keyword, 2=keyword2, ......};
它的從應(yīng)用層數(shù)據(jù)中匹配已知關(guān)鍵詞的方法,是把應(yīng)用會(huì)話過(guò)程中兩個(gè)方 向傳輸?shù)姆纸M都按照出現(xiàn)的時(shí)間順序進(jìn)行應(yīng)用層數(shù)據(jù)重組;關(guān)鍵詞匹配方法是 采用字符串匹配算法以及正則表達(dá)式匹配算法,把已重組的應(yīng)用層數(shù)據(jù)與關(guān)鍵詞集中的每個(gè)關(guān)鍵詞進(jìn)行匹配設(shè)當(dāng)前被匹配發(fā)現(xiàn)的關(guān)鍵詞是第f個(gè),關(guān)鍵詞 是&,關(guān)鍵詞之間的字節(jié)數(shù)是A,關(guān)鍵詞之間字符串特征是乂,(即0-ASCII字
符串,或者l=Binary串),關(guān)鍵詞之間的時(shí)間間隔是r,,第f個(gè)觀測(cè)向量是
4, 到目前為止獲得的關(guān)鍵詞序列是&,&, ...,&,對(duì)應(yīng)的觀測(cè)向量序列是
G, <92,…,Q;
本發(fā)明的語(yǔ)法樹(shù)的構(gòu)成方法,是事先采集大量的關(guān)鍵詞序列及其對(duì)應(yīng)的觀 測(cè)向量序列,組成訓(xùn)練集;再利用訓(xùn)練集來(lái)訓(xùn)練語(yǔ)法樹(shù)PPTA(probabilistic prefix tree acceptor),其方》去具體如下
1、 樹(shù)中每一條路徑代表訓(xùn)練集中至少一個(gè)關(guān)鍵詞序列,每一條從狀態(tài)/到 狀態(tài)_/的轉(zhuǎn)移線(/J)代表一個(gè)關(guān)鍵詞;
2、 采用這條轉(zhuǎn)移線的概率%決定于訓(xùn)練集中的關(guān)鍵詞序列采用該轉(zhuǎn)移線 的頻次,且從每個(gè)狀態(tài)轉(zhuǎn)移出去的概率和i:/^歸一化為1;
3、 對(duì)應(yīng)于每一條轉(zhuǎn)移線都有觀測(cè)向量Q的概率分布~(0,)= ~(;);
4、 在訓(xùn)練得到語(yǔ)法樹(shù)PPTA后,對(duì)訓(xùn)練集中的所有關(guān)鍵詞序列都計(jì)算它們 的熵;并得到這些熵的均值p和方差cj。
本發(fā)明的計(jì)算關(guān)鍵詞序列的熵S的方法是
s = inl%,。,i(o1).~2zu(<92)、.,《,i,,zu(coj〃,其中尺2,…,&是關(guān)鍵詞序
列,Q,", ...,(9,是對(duì)應(yīng)的觀測(cè)向量序列,O代表PPTA的根節(jié)點(diǎn),"叫代表第 一個(gè)關(guān)鍵詞&出現(xiàn)的概率, 一力代表第J'個(gè)關(guān)鍵詞《出現(xiàn)的概率,也即從狀 態(tài)"到狀態(tài)6的轉(zhuǎn)移概率,氣—力((9》則是在該狀態(tài)轉(zhuǎn)移過(guò)程中獲得觀測(cè)向量
(^的概率。本發(fā)明的對(duì)關(guān)鍵詞序列進(jìn)行跟蹤的方法,是通過(guò)語(yǔ)法樹(shù)對(duì)關(guān)鍵詞序列及其 觀測(cè)向量序列進(jìn)行正常性評(píng)估;具體的評(píng)估方法是當(dāng)一個(gè)關(guān)鍵詞序列及其觀
測(cè)向量序列的熵是S時(shí),用M-
S — //
對(duì)其行為進(jìn)行評(píng)估;M越小,該序列越正
常;隨著關(guān)鍵詞序列及其觀測(cè)向量序列的增長(zhǎng),其評(píng)估值M將發(fā)生變化;當(dāng)一 個(gè)應(yīng)用會(huì)話結(jié)束時(shí),如果它的M仍然很小,則把該關(guān)鍵詞序列及其對(duì)應(yīng)的觀測(cè) 向量序列作為樣本序列,加入到訓(xùn)練集中,用于后續(xù)的PPTA更新。
本發(fā)明的對(duì)應(yīng)用類型識(shí)別的方法,是當(dāng)有多種應(yīng)用時(shí),對(duì)每種應(yīng)用都建立 一個(gè)PPTA;把一個(gè)關(guān)鍵詞序列及其觀測(cè)向量序列歸類為使得其評(píng)估值M最大 的PPTA所代表的應(yīng)用類型。
與現(xiàn)有方法相比,本發(fā)明的基于關(guān)鍵詞序列的應(yīng)用識(shí)別方法,只需要知道 應(yīng)用層協(xié)議的關(guān)鍵詞,就可以通過(guò)自動(dòng)建立語(yǔ)法樹(shù),來(lái)描述應(yīng)用層協(xié)議的過(guò)程, 并進(jìn)一步利用該語(yǔ)法樹(shù)來(lái)對(duì)關(guān)鍵詞序列及其觀測(cè)序列進(jìn)行評(píng)估和判決,從而實(shí) 現(xiàn)對(duì)應(yīng)用的識(shí)別和跟蹤;它不需要人工對(duì)應(yīng)用層協(xié)議的了解和編程,也不需要 人工分析應(yīng)用的獨(dú)特特征并寫(xiě)出正則表達(dá)式。如果采用數(shù)據(jù)挖掘方法,它還可 以從應(yīng)用層數(shù)據(jù)中挖掘出關(guān)鍵詞,避免了人工收集應(yīng)用層協(xié)議的關(guān)鍵詞這一過(guò) 程,因而可以實(shí)現(xiàn)對(duì)未知應(yīng)用的全自動(dòng)的建模、識(shí)別和跟蹤。
圖1為本發(fā)明的一個(gè)實(shí)施例的示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的說(shuō)明。
本發(fā)明如附圖1所示,通過(guò)采集應(yīng)用層的關(guān)鍵詞序列來(lái)識(shí)別應(yīng)用和對(duì)應(yīng)用 過(guò)程進(jìn)行跟蹤。具體步驟如下1. 建立關(guān)鍵詞集
關(guān)鍵詞可以是應(yīng)用層數(shù)據(jù)中的一個(gè)特定的字符、字符串、或正則表達(dá)式表 示的復(fù)雜的字符之間的邏輯關(guān)系、或者一個(gè)可識(shí)別的字符串特征。關(guān)鍵詞集的 建立方法包括
a) 人工收集通過(guò)査閱標(biāo)準(zhǔn)文件或者通過(guò)對(duì)網(wǎng)絡(luò)上采集的應(yīng)用層數(shù)據(jù)的分 析,找到已知應(yīng)用層協(xié)議的關(guān)鍵詞、關(guān)鍵特征,以獲得關(guān)鍵詞集;
b) 自動(dòng)采集通過(guò)對(duì)網(wǎng)絡(luò)上采集的已知或未知應(yīng)用層數(shù)據(jù)的數(shù)據(jù)挖掘,獲 得頻繁出現(xiàn)的字符串,以這些字符串構(gòu)成關(guān)鍵詞集;
把關(guān)鍵詞集中的關(guān)鍵詞進(jìn)行編號(hào),例如按照出現(xiàn)的先后順序進(jìn)行編號(hào),或 者按照字典順序進(jìn)行編號(hào)(bkeywor山,2^keyword2,……};
2. 從應(yīng)用層數(shù)據(jù)中匹配己知關(guān)鍵詞
a) 應(yīng)用層數(shù)據(jù)重組把應(yīng)用會(huì)話過(guò)程中兩個(gè)方向傳輸?shù)姆纸M都按照出現(xiàn)的 時(shí)間順序進(jìn)行應(yīng)用層數(shù)據(jù)重組;重組方法是,把新采集到的分組的數(shù)據(jù)部分附 加到應(yīng)用層數(shù)據(jù)的后部;
b) 關(guān)鍵詞匹配每采集到一個(gè)分組,都對(duì)應(yīng)用層數(shù)據(jù)進(jìn)行關(guān)鍵詞匹配。即 把已重組的應(yīng)用層數(shù)據(jù)與關(guān)鍵詞集中的每個(gè)關(guān)鍵詞都進(jìn)行匹配。匹配算法包括 字符串匹配算法以及正則表達(dá)式匹配算法;
C)獲得觀測(cè)向量設(shè)當(dāng)前被匹配發(fā)現(xiàn)的關(guān)鍵詞是第f個(gè),關(guān)鍵詞是&,關(guān)
鍵詞&與尺w之間的字節(jié)數(shù)是丄,,關(guān)鍵詞之間這個(gè)長(zhǎng)度為A的字符串的特征是
A(即這A個(gè)字符中如果有一個(gè)字符的最高位為1,則該字符串的特征為Binaiy 串,因此令^產(chǎn)1,否則為ASCII字符串,令^尸0),關(guān)鍵詞之間的時(shí)間間隔是zi, 則第?個(gè)觀測(cè)向量是0產(chǎn)(丄,,^, rf);所以,到目前為止獲得的關(guān)鍵詞序列是&,《2, ...,&,對(duì)應(yīng)的觀測(cè)向量序列是<9l5 02, 6>,;
4. 獲取訓(xùn)練集
對(duì)于一個(gè)給定類型的應(yīng)用,采集其大量的關(guān)鍵詞序列及其對(duì)應(yīng)的觀測(cè)向量
序列,組成訓(xùn)練集;
5. 用訓(xùn)練集構(gòu)造語(yǔ)法樹(shù)
利用訓(xùn)練集來(lái)訓(xùn)練語(yǔ)法樹(shù)PPTA (probabilistic prefix tree acceptor),其方法具 體如下
a) 生成語(yǔ)法樹(shù)PPTA: PPTA初始只有一個(gè)狀態(tài)O;每一個(gè)關(guān)鍵詞序列都從 狀態(tài)0出發(fā),沿著PPTA樹(shù)中的路徑往前推進(jìn)設(shè)當(dāng)前狀態(tài)是/,當(dāng)前的關(guān)鍵詞
是&,如果從當(dāng)前狀態(tài)向其它狀態(tài)轉(zhuǎn)移的轉(zhuǎn)移線中,有一條轉(zhuǎn)移線對(duì)應(yīng)于輸入
值&,則沿著該轉(zhuǎn)移線推進(jìn)到下一個(gè)狀態(tài);如果沒(méi)有對(duì)應(yīng)于&的轉(zhuǎn)移線,則增 加一個(gè)狀態(tài)y,并把轉(zhuǎn)移線(/,力的輸入標(biāo)記為如此進(jìn)行,直到訓(xùn)練集中的每 一個(gè)關(guān)鍵詞序列都能在PPTA中找到一條狀態(tài)轉(zhuǎn)移路徑;
b) 計(jì)算狀態(tài)轉(zhuǎn)移概率在生成語(yǔ)法樹(shù)PPTA過(guò)程中,當(dāng)訓(xùn)練集中的一個(gè)關(guān)
鍵詞序列通過(guò)PPTA中的一條轉(zhuǎn)移線(/, y')時(shí),都對(duì)該轉(zhuǎn)移線的計(jì)數(shù)器CV加1;
在訓(xùn)練集中的所有關(guān)鍵詞序列都經(jīng)過(guò)了 PPTA之后,令從狀態(tài)/到狀態(tài)_/的轉(zhuǎn)移 概率 -q/ZQ ,即它的每一行都滿足i; =1的歸一化條件;
乂 ■/
c)計(jì)算觀測(cè)向量的概率密度分布對(duì)應(yīng)于每一條轉(zhuǎn)移線(z'j)都可以類似統(tǒng) 計(jì)得到觀測(cè)向量0產(chǎn)(丄,,^, tO的概率密度分布~((9,)= ^") ~〈^),其中假
定O,的各分量4, r,統(tǒng)計(jì)獨(dú)立;
d)計(jì)算訓(xùn)練集中所有關(guān)鍵詞序列的熵在訓(xùn)練得到語(yǔ)法樹(shù)PPTA后,對(duì)訓(xùn)
練集中的每一個(gè)關(guān)鍵詞序列都用下式計(jì)算它們的熵& =1+0,0,.仏2(。2).….a,丄,((9,)J〃 , 其中...,&是第/個(gè)關(guān)鍵詞序列,",02, G是對(duì)應(yīng)的觀測(cè)向量序列, 、代表第一個(gè)關(guān)鍵詞&出現(xiàn)的概率,^代表第_/個(gè)關(guān)鍵詞《出現(xiàn)的概率, 也即從狀態(tài)"到狀態(tài)//的轉(zhuǎn)移概率,則是在該狀態(tài)轉(zhuǎn)移過(guò)程中獲得 觀測(cè)向量^的概率;
e)計(jì)算這些熵的均值p和方差CJ;
6.對(duì)應(yīng)用過(guò)程進(jìn)行正常性評(píng)估和跟蹤控制
當(dāng)一個(gè)關(guān)鍵詞序列及其觀測(cè)向量序列的熵是S時(shí),用^ =
對(duì)其行為進(jìn)
行評(píng)估;M越小,該序列越正常;隨著關(guān)鍵詞序列及其觀測(cè)向量序列的增長(zhǎng), 其評(píng)估值M將發(fā)生變化;該值的大小可以用作對(duì)該應(yīng)用過(guò)程進(jìn)行流量控制或者 安全檢測(cè)和防御的依據(jù),例如M越小賦給越高的優(yōu)先權(quán);
7. 為PPTA的更新獲取新的樣本序列
當(dāng)一個(gè)應(yīng)用會(huì)話結(jié)束時(shí),如果它的M仍然很小,則把該關(guān)鍵詞序列及其對(duì) 應(yīng)的觀測(cè)向量序列作為樣本序列,加入到訓(xùn)練集中,用于后續(xù)的PPTA更新;
8. 對(duì)應(yīng)用進(jìn)行識(shí)別
當(dāng)網(wǎng)絡(luò)中有多種應(yīng)用時(shí),對(duì)每種應(yīng)用都建立一個(gè)PPTA;求出一個(gè)未知應(yīng)
用的關(guān)鍵詞序列及其觀測(cè)向量序列相對(duì)于每一個(gè)PPTA的評(píng)估值M;最后把該 未知應(yīng)用歸類為使得其評(píng)估值M最大的那個(gè)PPTA所代表的應(yīng)用類型。
權(quán)利要求
1、一種基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征在于包括如下步驟(1)建立關(guān)鍵詞集合;(2)從應(yīng)用層數(shù)據(jù)中匹配關(guān)鍵詞;(3)對(duì)匹配得到的關(guān)鍵詞序列進(jìn)行語(yǔ)法樹(shù)判決和評(píng)估;(4)對(duì)關(guān)鍵詞序列進(jìn)行跟蹤以及對(duì)應(yīng)用類型進(jìn)行識(shí)別。
2、 根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特 征在于所述步驟(1)建立關(guān)鍵詞集合的具體操作如下對(duì)已知應(yīng)用層協(xié)議的關(guān)鍵詞或關(guān)鍵特征進(jìn)行收集,獲得關(guān)鍵詞集; 或者對(duì)未知應(yīng)用層協(xié)議進(jìn)行數(shù)據(jù)挖掘,獲得關(guān)鍵詞集。
3、 根據(jù)權(quán)利要求2所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特 征在于所述步驟(2)從應(yīng)用層數(shù)據(jù)中匹配關(guān)鍵詞的具體操作如下把應(yīng)用會(huì)話過(guò)程中兩個(gè)方向傳輸?shù)姆纸M都按照出現(xiàn)的時(shí)間順序進(jìn)行應(yīng)用 層數(shù)據(jù)重組,采用字符串匹配算法以及正則表達(dá)式匹配算法,把已重組的應(yīng)用 層數(shù)據(jù)與關(guān)鍵詞集的每個(gè)關(guān)鍵詞進(jìn)行匹配設(shè)定當(dāng)前被匹配發(fā)現(xiàn)的關(guān)鍵詞是第 f個(gè),關(guān)鍵詞是&,關(guān)鍵詞之間的字節(jié)數(shù)是丄,,關(guān)鍵詞之間字符串特征是A,關(guān)鍵詞之間的時(shí)間間隔是r,,第?個(gè)觀測(cè)向量是(9,=仏,為,r,),獲得的關(guān)鍵詞序 列是&,&, ...,&,對(duì)應(yīng)的觀測(cè)向量序列是Q, (92,O,。
4、 根據(jù)權(quán)利要求3所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征 在于所述步驟(3)還包括語(yǔ)法樹(shù)的構(gòu)成方法,其通過(guò)采集大量的關(guān)鍵詞序列及 其對(duì)應(yīng)的觀測(cè)向量序列,組成訓(xùn)練集,再利用訓(xùn)練集來(lái)訓(xùn)練語(yǔ)法樹(shù)PPTA ,其具體如下(31) 樹(shù)中每一條路徑代表訓(xùn)練集中至少一個(gè)關(guān)鍵詞序列,每一條從狀態(tài)/到狀態(tài)y'的轉(zhuǎn)移線(/,/)代表一個(gè)關(guān)鍵詞;(32) 采用這條轉(zhuǎn)移線的概率 決定于訓(xùn)練集中的關(guān)鍵詞序列采用該轉(zhuǎn)移 線的頻次,且從每個(gè)狀態(tài)轉(zhuǎn)移出去的概率和S/^歸一化為1;(33) 對(duì)應(yīng)于每一條轉(zhuǎn)移線都有觀測(cè)向量0產(chǎn)(丄,,^, r》的概率分布~(6>,)= ~仏)柳柳。
5、 根據(jù)權(quán)利要求4所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征 在于所述步驟(3)在訓(xùn)練得到PPTA后,對(duì)訓(xùn)練集中的所有關(guān)鍵詞序列都計(jì)算 它們的熵,并得到這些熵的均值)Li和方差a。
6、 根據(jù)權(quán)利要求5所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征在于所述的計(jì)算關(guān)鍵詞序列的熵S的方法如下S = l+o,JW.^Z^O^).其中Q, (92,…,O,是對(duì)應(yīng)的觀測(cè)向量序列,0代表PPTA的根節(jié)點(diǎn),"叫代表第一個(gè)關(guān)鍵詞&出現(xiàn)的概率, 代表第7'個(gè)關(guān)鍵詞《出現(xiàn)的概率,也即從狀態(tài)到狀態(tài)^的轉(zhuǎn)移概率, 6" (0》則是在該狀態(tài)轉(zhuǎn)移過(guò)程中獲得觀測(cè)向量Q的概率,..., &是關(guān) 鍵詞序列。
7、 根據(jù)權(quán)利要求6所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征 在于所述步驟(4)對(duì)關(guān)鍵詞序列進(jìn)行跟蹤通過(guò)語(yǔ)法樹(shù)對(duì)關(guān)鍵詞序列及其觀測(cè)向 量序列進(jìn)行正常性評(píng)估,具體的評(píng)估方法如下當(dāng)一個(gè)關(guān)鍵詞序列及其觀測(cè)向量序列的熵是S時(shí),用M-S — //對(duì)其行為進(jìn)行評(píng)估,M越小,該序列越正常;隨著關(guān)鍵詞序列及其觀測(cè)向量序列的增長(zhǎng),其評(píng)估值M將發(fā)生變化;當(dāng)一個(gè)應(yīng)用會(huì)話結(jié)束時(shí),如果它的M仍然很小,則 把該關(guān)鍵詞序列及其對(duì)應(yīng)的觀測(cè)向量序列作為樣本序列,加入到訓(xùn)練集中,用 于后續(xù)的PPTA更新。
8、根據(jù)權(quán)利要求7所述的基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,其特征 在于所述步驟(4)對(duì)應(yīng)用類型識(shí)別的方法,是當(dāng)有多種應(yīng)用時(shí),對(duì)每種應(yīng)用都 建立一個(gè)PPTA,把一個(gè)關(guān)鍵詞序列及其觀測(cè)向量序列歸類為使得其評(píng)估值M 最大的PPTA所代表的應(yīng)用類型。
全文摘要
本發(fā)明提供一種基于關(guān)鍵詞序列的應(yīng)用識(shí)別與跟蹤方法,包括如下步驟(1)建立關(guān)鍵詞集合;(2)從應(yīng)用層數(shù)據(jù)中匹配關(guān)鍵詞;(3)對(duì)匹配得到的關(guān)鍵詞序列進(jìn)行語(yǔ)法樹(shù)判決和評(píng)估;(4)對(duì)關(guān)鍵詞序列進(jìn)行跟蹤以及對(duì)應(yīng)用類型進(jìn)行識(shí)別。本發(fā)明不需要人工對(duì)應(yīng)用層協(xié)議的了解和編程,也不需要人工分析應(yīng)用的獨(dú)特特征并寫(xiě)出正則表達(dá)式,可以實(shí)現(xiàn)對(duì)已知或未知應(yīng)用的自動(dòng)建模、識(shí)別和跟蹤,進(jìn)而實(shí)現(xiàn)對(duì)應(yīng)用及其過(guò)程的細(xì)粒度的流量控制和安全防御。
文檔編號(hào)H04L29/06GK101442535SQ20081022018
公開(kāi)日2009年5月27日 申請(qǐng)日期2008年12月19日 優(yōu)先權(quán)日2008年12月19日
發(fā)明者余順爭(zhēng) 申請(qǐng)人:中山大學(xué)