一種用于Web會話聚合的關(guān)鍵Cookies識別方法
【專利摘要】通過Cookie識別進(jìn)行會話合并是Web日志預(yù)處理的關(guān)鍵步驟,直接影響后續(xù)的Web日志的挖掘。針對傳統(tǒng)的會話合并存在的效率不高、準(zhǔn)確率不高的問題,本發(fā)明提出了一種用于Web會話聚合的關(guān)鍵Cookies識別方法。該方法用于識別用戶相關(guān)的user-Cookies和用戶瀏覽網(wǎng)站終端的terminal-Cookies。該方法不僅結(jié)合的前人提出的CookiePicker系統(tǒng)實(shí)現(xiàn)了識別user-Cookies,并且利用top-k的思想識別terminal-Cookies。最終將兩者結(jié)合起來形成最終的key-Cookies。本方法的優(yōu)點(diǎn)是可以快速地識別出用戶相關(guān)的Cookie信息,從而很好地應(yīng)用于會話合并。
【專利說明】—種用于Web會話聚合的關(guān)鍵Cookies識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種可用于Web會話合并的關(guān)鍵Cookies識別方法,屬于Web日志預(yù)處理領(lǐng)域。
【背景技術(shù)】
[0002]Web日志挖掘是指將關(guān)聯(lián)規(guī)則、聚類分析、預(yù)測等挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶訪問Web頁面的模式。Web日志預(yù)處理是在Web日志挖掘前,對Web日志進(jìn)行清理、過濾以及重新組合的過程。Web日志挖掘的數(shù)據(jù)預(yù)處理部分結(jié)果的準(zhǔn)確性直接影響了 Web日志挖掘的效率與準(zhǔn)確性。
[0003]識別用戶會話是Web日志預(yù)處理中最重要的部分。有時候,單純的依靠URL (英文全稱為Uniform Resource Locator)識別的用戶會話并不全面。這個時候需要依靠Cookie中的信息判斷若干不完整的用戶會話是否屬于同一個用戶。換句話說,就是將識別出來的不完整的用戶會話進(jìn)行合并。會話合并是將識別出的不完整的會話中所有的Cookies項(xiàng)都取出來比較。每一個用戶會話都擁有很多網(wǎng)站,每個網(wǎng)站都有很多Cookies項(xiàng)。
[0004]Cookie是指某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)(通常這些Cookies是經(jīng)過加密)?;贖TTP的請求模式,Cookie的存儲形式為name = value。這里的name是網(wǎng)站自定義的。這里的value是網(wǎng)站根據(jù)自身信息和用戶信息給定的。由此可知,各個網(wǎng)站的各個不同的Cookie項(xiàng)的含義各不相同。
[0005]CookiePicker是自動利用Cookie信息來幫助Web用戶制定決策的系統(tǒng),該系統(tǒng)包括幾個特點(diǎn):自動制定決策;高準(zhǔn)確性;較低的運(yùn)行開銷,其內(nèi)容具體見如下參考文獻(xiàn):
[0006]Chuan Yue, Mengjun Xie, Haining Wang, “Automatic Cookie Usage Settingwith CookiePicker,,,37th Annual IEEE/IFIP International Conference on DependableSystems and Networks(DSN; 07),ISBN:0-7695-2855_4。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是識別出不同網(wǎng)站的key-Cookies,通過這些key-Cookies可使會話合并的效率明顯提升,key-Cookies為用于識別用戶的個人信息和用戶的上網(wǎng)終端的信息的Cookies信息。
[0008]為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種用于Web會話聚合的關(guān)鍵Cookies識別方法,其特征在于,步驟為:
[0009]步驟1、獲取Web日志文件,提取出Web日志文件中每條記錄的站點(diǎn)名稱Site ;
[0010]步驟2、以站點(diǎn)名稱Site為分組依據(jù)將Web日志文件中的所有記錄分組,使得同一站點(diǎn)名稱Site的記錄都合并到一個組,并建立其與相應(yīng)站點(diǎn)名稱Site的對應(yīng)關(guān)系,第i個站點(diǎn)名稱Sitei對應(yīng)記錄組List [Record] i ;
[0011]步驟3、在步驟2得到的各個記錄組中提取所有包含用戶信息的Cookie項(xiàng)的名稱,并保存至不同的用戶信息Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)用戶信息Cookie項(xiàng)名稱列表 list [user-Cookies]i ;
[0012]步驟4、在步驟2得到的各個記錄組中提取所有包含瀏覽網(wǎng)站的終端信息的Cookie項(xiàng)的名稱,并保存至不同的終端信息Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)終端信息Cookie項(xiàng)名稱列表list [terminal-Cookies]i ;
[0013]步驟5、將步驟3得到的各用戶信息Cookie項(xiàng)名稱列表與步驟4得到的各終端信息Cookie項(xiàng)名稱列表以站點(diǎn)名稱Site作為等值連接的條件進(jìn)行連接操作,得到各個站點(diǎn)名稱Site的關(guān)鍵Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)關(guān)鍵Cookie項(xiàng)名稱列表list[key-Cookies] i0
[0014]優(yōu)選地,所述步驟3包括:
[0015]步驟3.1、利用正則表達(dá)式匹配同一記錄組的所有Cookie項(xiàng)中是否有滿足條件的郵箱信息,若有,則將包含該郵箱信息的Cookie項(xiàng)的名稱放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的用戶信息Cookie項(xiàng)名稱列表中,并進(jìn)入步驟3.2,若無,直接進(jìn)入步驟3.2,其中,所使用的正則表達(dá)式為:
[0016]" ~ ([a-zA-Z0-9_ \ \.\ \ -]) +\\@ (([a-zA-ZO—9 \ \ _]) + \ \.) + ([a_zA_Z]{2,4})+$";
[0017]步驟3.2、利用CookiePicker系統(tǒng)在同一記錄組的所有Cookie項(xiàng)中識別出包含用戶信息的Cookie項(xiàng)的名稱放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的用戶信息Cookie項(xiàng)名稱列表中。
[0018]優(yōu)選地,所述步驟4包括:
[0019]步驟4.1、計(jì)算同一記錄組中,各個Cookie項(xiàng)出現(xiàn)的頻率:
[0020]步驟4.2、利用top-k思想,選取出現(xiàn)頻率較高的幾個Cookie項(xiàng),將這些Cookie項(xiàng)放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的終端信息Cookie項(xiàng)名稱列表中。
[0021]本發(fā)明的前半段提出的是基于前人的CookiePicker系統(tǒng)提出一些改進(jìn)的方法來更好的識別user-Cookies,后半段是基于top_k思想識別用戶瀏覽網(wǎng)站的瀏覽器或者電腦的 Cookie 信息,稱之為 terminal-Cookies。
[0022]本發(fā)明具有如下優(yōu)點(diǎn):
[0023]本方法將Cookie的處理由人工變成了自動化。這樣減少了開支,并且能夠適應(yīng)大部分網(wǎng)站的Cookie識別,經(jīng)過本方法自動識別key-Cookies使得會話的聚合變的更加高效。
【專利附圖】
【附圖說明】
[0024]圖1為本發(fā)明識別網(wǎng)站關(guān)鍵Cookie的流程圖;
[0025]圖2為本發(fā)明將Web日志數(shù)據(jù)記錄分組的數(shù)據(jù)流圖;
[0026]圖3為本發(fā)明將一個站點(diǎn)數(shù)據(jù)聚合在一起的數(shù)據(jù)流圖;
[0027]圖4為本發(fā)明識別網(wǎng)站Cookies信息中用戶信息Cookie項(xiàng)的數(shù)據(jù)流圖;
[0028]圖5為本發(fā)明識別網(wǎng)站Cookies信息中終端信息Cookie項(xiàng)的數(shù)據(jù)流圖;
[0029]圖6為本發(fā)明合并user-Cookies和terminal-Cookies的數(shù)據(jù)流圖。
【具體實(shí)施方式】[0030]為使本發(fā)明更明顯易懂,茲以優(yōu)選實(shí)施例,并配合附圖作詳細(xì)說明如下。
[0031]本發(fā)明提供了一種基于關(guān)鍵Cookies識別的Web會話合并方法,圖1為根據(jù)本發(fā)明示例性實(shí)施例的識別網(wǎng)站關(guān)鍵Cookie的流程圖,具體包括如下步驟:
[0032]步驟101:從網(wǎng)絡(luò)供應(yīng)商處獲取到Web日志文件,數(shù)據(jù)記錄格式為表1所示,包括8個字段,根據(jù)其中的URL字段利用一個Map任務(wù)提取出每個站點(diǎn)的站點(diǎn)名稱Site ;
[0033]
【權(quán)利要求】
1.一種用于Web會話聚合的關(guān)鍵Cookies識別方法,其特征在于,步驟為: 步驟1、獲取Web日志文件,提取出Web日志文件中每條記錄的站點(diǎn)名稱Site ; 步驟2、以站點(diǎn)名稱Site為分組依據(jù)將Web日志文件中的所有記錄分組,使得同一站點(diǎn)名稱Site的記錄都合并到一個組,并建立其與相應(yīng)站點(diǎn)名稱Site的對應(yīng)關(guān)系,第i個站點(diǎn)名稱Sitei對應(yīng)記錄組List [Record] i ; 步驟3、在步驟2得到的各個記錄組中提取所有包含用戶信息的Cookie項(xiàng)的名稱,并保存至不同的用戶信息Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)用戶信息Cookie項(xiàng)名稱列表 list [user-Cookies]i ; 步驟4、在步驟2得到的各個記錄組中提取所有包含瀏覽網(wǎng)站的終端信息的Cookie項(xiàng)的名稱,并保存至不同的終端信息Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)終端信息 Cookie 項(xiàng)名稱列表 list [terminal-Cookies]i ; 步驟5、將步驟3得到的各用戶信息Cookie項(xiàng)名稱列表與步驟4得到的各終端信息Cookie項(xiàng)名稱列表以站點(diǎn)名稱Site作為等值連接的條件進(jìn)行連接操作,得到各個站點(diǎn)名稱Site的關(guān)鍵Cookie項(xiàng)名稱列表,第i個站點(diǎn)名稱Sitei對應(yīng)關(guān)鍵Cookie項(xiàng)名稱列表list[key-Cookies] i0
2.如權(quán)利要求1所述的一種用于Web會話聚合的關(guān)鍵Cookies識別方法,其特征在于,所述步驟3包括: 步驟3.1、利用正則表達(dá) 式匹配同一記錄組的所有Cookie項(xiàng)中是否有滿足條件的郵箱信息,若有,則將包含該郵箱信息的Cookie項(xiàng)的名稱放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的用戶信息Cookie項(xiàng)名稱列表中,并進(jìn)入步驟3.2,若無,直接進(jìn)入步驟3.2,其中,所使用的正則表達(dá)式為:
"~ ([a-zA-Z0_9_ \ \.\ \ -]) + \ \ i (([a-zA-ZO-9 \ \ -]) + \ \.) + ([a_zA_Z]{2,4})+$"; 步驟3.2、利用CookiePicker系統(tǒng)在同一記錄組的所有Cookie項(xiàng)中識別出包含用戶信息的Cookie項(xiàng)的名稱放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的用戶信息Cookie項(xiàng)名稱列表中。
3.如權(quán)利要求1所述的一種用于Web會話聚合的關(guān)鍵Cookies識別方法,其特征在于,所述步驟4包括: 步驟4.1、計(jì)算同一記錄組中,各個Cookie項(xiàng)出現(xiàn)的頻率: 步驟4.2、利用top-k思想,選取出現(xiàn)頻率較高的幾個Cookie項(xiàng),將這些Cookie項(xiàng)放入與當(dāng)前站點(diǎn)名稱Site對應(yīng)的終端信息Cookie項(xiàng)名稱列表中。
【文檔編號】H04L29/06GK103944916SQ201410181682
【公開日】2014年7月23日 申請日期:2014年4月28日 優(yōu)先權(quán)日:2014年4月28日
【發(fā)明者】陳德華, 沈昌干, 潘喬, 羅昕 申請人:東華大學(xué), 上海云屹信息技術(shù)有限公司