一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)的制作方法

文檔序號：6563656閱讀：209來源：國知局

專利名稱：一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及數(shù)據(jù)處理領域，特別是涉及一種分布式計算網(wǎng)絡的日志文件分沖斤方法和系統(tǒng)。
背景技術：
隨著互聯(lián)網(wǎng)上信息服務的發(fā)展，許多政府部門、公司、大專院校、科研院
所等都已經(jīng)擁有或正在建設自己的網(wǎng)站。每個網(wǎng)站的后面都運行著一個Web 服務器，Web服務器是一個用于管理Web頁面的軟件，并使這些頁面通過本地網(wǎng)絡或Internet供客戶瀏覽器使用?，F(xiàn)在較常用的Web服務器包括Apache、 IIS和Iplanet的Enterprise服務器。對網(wǎng)站的管理，要求不僅僅關注服務器每天的吞吐量，還要了解網(wǎng)站各頁面的訪問情況，根據(jù)各頁面的點擊頻率來改善網(wǎng)頁的內(nèi)容和質(zhì)量、提高內(nèi)容的可讀性，跟蹤包含有商業(yè)交易的步驟以及管理Web網(wǎng)站"幕后"的婆:據(jù)等。
尤其對于以電子商務或搜索引擎為業(yè)務的網(wǎng)絡公司而言，更是如此；需要
對web服務器的運行和訪問情況進行詳細和周全的分析，了解網(wǎng)站運行情況，發(fā)現(xiàn)網(wǎng)站存在的不足，促進網(wǎng)站的更好發(fā)展，而這些要求都可以通過對web 服務器的日志文件的統(tǒng)計和分析來做到。常見的日志分析工具有WebTrends、 Wusage、 wwwstat、 http-analyze、 pwebstats、 WebStat Explorer, webalizer、 AWStats 等。對日志文件進行分析、查看的過程，就是從大量數(shù)據(jù)中挖掘出來未知的、有價值的模式或者規(guī)律，為決策服務的復雜過程。
由于網(wǎng)站的內(nèi)容總是在不斷地更新和變化中，因此，網(wǎng)站管理人員需要及時地獲知日志文件的分析結果，例如可以在第二天上班時看到前一天的頁面訪問量(PV， Page View )等統(tǒng)計數(shù)據(jù)。與此同時，隨著互聯(lián)網(wǎng)的不斷普及，上網(wǎng) 人數(shù)的不斷增加，Web網(wǎng)站的訪問量從十萬，百萬級別上升到千萬，上億級別； Web服務器的日志文件的數(shù)據(jù)量也從幾十MB到幾十GB，甚至達到TB的數(shù) 量級。而相應的對日志文件的統(tǒng)計和分析的時間要求卻并沒有P爭低。因此，如何及時有效地對不斷增加的日志文件進行分析和統(tǒng)計，就成為本領域技術人員所必需面臨的問題。
目前較為常見的是采用基于分布式計算網(wǎng)絡的日志分析方法。分布式計算網(wǎng)絡是由多臺計算機構成的計算集群。分布式處理的基本思想是將文件分割成多個小的文件，各個文件之間互不相關。這樣每個部分就可以分別在各臺機器上執(zhí)行，最后將分析結果合并就可以了。如圖l所示，是分布式計算網(wǎng)絡的一種拓樸結構圖。其中日志分析服務器110負責從web服務器獲取日志文件，將劃分好地日志文件分別發(fā)送至節(jié)點121、 122和123進行分析。分析完成后，再由日志分析服務器110從各節(jié)點取得分析結果對其匯總合并，并最終得到該 web服務器的日志分析結果。當前采用分布式處理方式對日志文件進行分析時，普遍的做法是按照網(wǎng)站結構劃分日志文件，例如，如果一個網(wǎng)站的內(nèi)容由新聞、論壇和博客三部分組成，那么就將新聞日志、論壇日志和博客日志劃分出來由節(jié)點121、 122和123分別處理。當然，用戶可才艮據(jù)劃分日志的多少決定是否增加新的節(jié)點。現(xiàn)實中，用戶在訪問一個網(wǎng)站時的行為往往是連續(xù)的，而上述處理方式，將導致一個即訪問了新聞頻道，又訪問了論壇、博客的用戶的日志信息，被分成三個部分，造成無法得到該用戶完整的訪問路徑。例如用戶訪問了 8個頁面，前兩個頁面(ual，ua2)訪問新聞，第3、 4個頁面(ub3,ub4 ) 訪問論壇，第5 、 6個頁面(ua5，ua6 )訪問新聞，最后兩個頁面(uc7,uc8 )訪問博客。這種情況下用戶的訪問路徑就被切分成了三部分，第一部分是用戶在新聞頻道的訪問路徑ual，ua2，ua5，ua6;第二部分是用戶在論壇的訪問路徑ua3， ua4;第三部分是用戶在博客的訪問路徑uc7，uc8。這樣以來，原本關聯(lián)的內(nèi)容由三個節(jié)點分別處理，導致用戶的訪問過程^皮割裂，也就無法分析出不同內(nèi)容之間的關系了。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)，以解決現(xiàn)有技術中由于日志文件被分割處理，導致無法獲取用盧完整的訪問過程，無法分析出不同內(nèi)容之間關系的問題。
為解決上述問題，本發(fā)明公開了一種基于分布式網(wǎng)絡的日志文件分析方
法，包括以下步驟
將用戶標識與相應的日志信息存儲在日志文件中；
將所述日志文件劃分為多個目標文件，所述目標文件中含有相同用戶標識的日志信息；
使用兩個以上的節(jié)點分別對所述目標文件進行分析并得到分析結果；
合并各節(jié)點的分析結果。
其中，所述日志文件是web服務器的日志文件。
其中，所述web服務器是由至少一個服務器組成的服務器集群，所述日志文件為日志文件集，包括該服務器集群中各個服務器產(chǎn)生的日志文件。
優(yōu)選的，所述將日志文件劃分為多個目標文件的過程包括
將所述日志文件下載到日志分析服務器；
曰志分析服務器將所述日志文件發(fā)送至相應的各個節(jié)點；
節(jié)點對收到的日志文件按用戶標識分割為標識文件，將具有相同用戶標識的日志信息放入同一個標識文件中，并將該標識文件發(fā)送至日志分析服務器；
日志分析服務器收集各個節(jié)點發(fā)送的標識文件，將具有相同用戶標識的標識文件合并為一個文件作為目標文件。
優(yōu)選的，所述節(jié)點將日志文件分割為目標文件之前還包括節(jié)點過濾所述曰志文件中與日志分析無關的信息。
優(yōu)選的，所述節(jié)點對目標文件進行分析之前還包括對目標文件中的曰志
信息按其生成時間排序。
優(yōu)選的，所述用戶標識由web服務器，根據(jù)用戶的IP和隨機數(shù)產(chǎn)生，并
保存在用戶本地;f幾器中。
優(yōu)選的，所述用戶標識存儲在用戶本地機器的Cookie中。本發(fā)明還公開了一種基于分布式計算網(wǎng)絡的日志丈件分析系統(tǒng)，包括日志分析服務器和多個節(jié)點，其中，所述日志分析服務器包括
收集單元，用于收集web服務器的日志文件，所述日志文件含有用戶標識及與該用戶標識相應的日志信息；
存儲單元，用于存儲收集單元收集的日志文件；第一接口單元，用于接收和發(fā)送數(shù)據(jù)；
劃分單元，用于將所述存儲單元中的日志文件劃分為多個目標文件，所述目標文件由具有相同用戶標識的日志信息組成；所述節(jié)點包括
第二接口單元，用于接收和發(fā)送數(shù)據(jù)；處理單元，用于對目標文件進行分析；
所述日志分析服務器還包括和并單元，用于合并各節(jié)點的分析結果。優(yōu)選的，所述日志文件是web服務器的日志文件，所述web服務器是由
至少一個服務器組成的服務器集群，所述日志文件為日志文件集，包括該服務
器集群中各個服務器產(chǎn)生的日志文件。優(yōu)選的，所述節(jié)點還包括
過濾單元，用于過濾日志文件中與日志分析無關的信息；分割單元，用于對過濾單元過濾后的日志文件按用戶標識分割為標識文件，將具有相同用戶標識的日志信息放入同一個標識文件中；所述劃分單元還包括
目標文件生成單元，用于將各個節(jié)點發(fā)送的具有相同用戶標識的標識文件合并為一個文件作為目標文件。優(yōu)選的，所述節(jié)點還包括
排序單元，用于對目標文件中的日志信息按其生成時間排序。
與現(xiàn)有4支術相比，本發(fā)明具有以下優(yōu)點
本發(fā)明通過在web服務器的日志信息中記錄用戶標識，這樣即使日志文件被分割，或者該日志文件是一個日志文件集，都可以利用用戶標識在位于不同的日志信息之間建立關聯(lián)關系。進一步的，本發(fā)明根據(jù)用戶標識將日志文件劃分為目標文件，讓目標文件中含有一個用戶在訪問網(wǎng)站時的所有日志信息，如此以來，解決了現(xiàn)有技術使用分布式計算網(wǎng)絡分析日志時存在的無法分析用戶不同訪問內(nèi)容之間關系的問題。

圖l是分布式計算網(wǎng)絡的拓樸結構圖；圖2是訪問web服務器的步驟流程圖3是本發(fā)明所述的基于分布式計算網(wǎng)絡的日志分析方法的步驟流程圖；圖4是本發(fā)明所述的基于分布式計算網(wǎng)絡的日志分析系統(tǒng)的結構框圖。
具體實施例方式
本發(fā)明的應用環(huán)境為瀏覽器/服務器(Browser/Server)結構。為了更好地理解本發(fā)明，在介紹具體實施方式
之前，首先對使用瀏覽器訪問web服務器的基本原理作一簡單說明。
參照圖2，圖2示出了使用瀏覽器訪問web服務器的步驟流程圖。步驟S21,用戶通過瀏覽器訪問web服務器。步驟S22， web服務器將用戶的訪問信息寫入日志。步驟S23, web服務器將用戶訪問的網(wǎng)頁數(shù)據(jù)傳給用戶。所述日志文件是由用戶訪問網(wǎng)站的多條信息記錄構成，包括用戶的IP，訪問時間，訪問的瀏覽器類型。目前大多數(shù)web服務器記錄的日志內(nèi)容和格式符合w3c的標準。下面是一個新聞日志文件news.log中的日志信息 213.42.2.21 - - [13/Oct/2006:00:14:32 +0800] "Get/china.alibaba.com/news/1.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 其中，
213.42.2.21 ，為web服務器的IP地址； 13/Oct/2006:00:14:32 +0800,為用戶訪問的時間； /china.alibaba.com/news/1 .html HTTP/1.1，為用戶訪問的網(wǎng)頁； Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1),為用戶計算機環(huán)境信息、瀏覽器類型。
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。
本發(fā)明所述的基于分布式計算網(wǎng)絡的日志文件分析方法包括將用戶標識與相應的日志信息存儲在日志文件中；將所述日志文件劃分為多個目標文件，所述目標文件中含有相同用戶標識的日志信息；使用兩個以上的節(jié)點分別對所述目標文件進行分析并得到分析結果；合并各節(jié)點的分析結果。
圖3示出了根據(jù)本發(fā)明一個優(yōu)選實施例的日志文件分析方法的步驟流程圖。下面參照圖3對本發(fā)明的一個優(yōu)選實施例作詳細描述。
步驟301:將用戶標識和該用戶訪問web服務器時相應的日志信息存儲在曰志文件中。
優(yōu)選的，所述用戶標識是由部署在web服務器上的程序，根據(jù)用戶的IP 和隨機數(shù)產(chǎn)生，并通過網(wǎng)絡傳送給用戶，保存在用戶本地機器中。優(yōu)選的，將所述用戶標識存儲在用戶計算機的Cookie中。Cookie是Web服務器保存在用戶硬盤上的一段文本。Cookie允許一個Web站點在用戶的電腦上保存信息并且隨后再耳又回它。信息的片斷以'名/值'對(name-value pairs)的形式儲存。當用戶訪問網(wǎng)站時，如果用戶計算機的Cookie中已經(jīng)存在用戶標識，則瀏覽器將存儲在該Cookie中的用戶標識發(fā)送給web服務器；若沒有，web服務器會根據(jù)規(guī)則生成一個用戶標識，例如213.42.2.21.1160722884331.1 0，當web月l 務器給用戶發(fā)送網(wǎng)頁時將該用戶標識作為Cookie添加到網(wǎng)頁的HTTP頭信息中，伴隨網(wǎng)頁數(shù)據(jù)傳回到用戶的瀏覽器，瀏覽器將所述含有用戶標識的Cookie 存儲到用戶計算機中，以便再次訪問該網(wǎng)站時將用戶標識傳送給web服務器。
用戶訪問網(wǎng)站時，web服務器將網(wǎng)頁數(shù)據(jù)傳送回瀏覽器的同時，將用戶標識和訪問信息存儲在日志文件中。例如，將用戶標識 2".42.2.27."6072288433f."/ 0和相應的訪問信息存儲在日志文件中的結果如下
213.42.2.21—[13/Oct/2006:00:14:32+0800]"Get/china.alibaba.com/news/1.html HTTP/1.r 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
當然，上述web服務器根據(jù)用戶的IP和隨機數(shù)產(chǎn)生用戶標識并存儲在用戶計算機Cookie中的方法只是本發(fā)明優(yōu)選的方法。使用什么內(nèi)容、何種方式產(chǎn)生、存儲用戶標識，本發(fā)明對此并不作限制，只要能夠區(qū)分出用戶身份即可。例如，可以使用該用戶在網(wǎng)站的注冊帳戶、用戶計算機網(wǎng)卡地址等。
步驟302:將web服務器生成的日志文件劃分為多個目標文件，所述目標文件中含有相同用戶標識的日志信息。
優(yōu)選的，本發(fā)明中web服務器是由多個服務器組成的服務器集群，其中每個服務器各自產(chǎn)生相應的日志文件。例如，若一個網(wǎng)站的內(nèi)容分為新聞、論壇和博客三個頻道，那么其中的每一個頻道將分別由一臺服務器提供訪問服務。當用戶通過網(wǎng)站主頁進入新聞頻道時，由新聞服務器將用戶訪問的網(wǎng)頁數(shù) 據(jù)傳送給用戶，顯示在用戶的瀏覽器中。同時，將用戶的訪問信息寫入該服務器的日志文件中。這樣，對于該服務器集群中的三臺服務器，將會生成三個曰志文件。對于服務器集群來說，其日志文件實際上是一個日志文件集，包括了各個服務器生成的日志文件。
本發(fā)明優(yōu)選的，按照以下方法將日志文件劃分為目標文件當需要分析日志文件時，從服務器集群中的各服務器收集日志文件并將其下載到日志分析服務器。當然，若web服務器是一臺服務器，產(chǎn)生一個日志文件，則日志分析服務器需要對該日志文件按照內(nèi)容將其分割為多個容量較小的日志文件，以符合分布式計算的要求；日志分析服務器將下載到的日志文件發(fā)送到與其相應的各個節(jié)點；各節(jié)點對收到的日志文件進行過濾，去除與日志分析無關的信息，以減小日志文件的容量；節(jié)點對所述日志文件按用戶標識分割為標識文件，將具有相同用戶標識的記錄放入同一個標識文件中，然后將標識文件發(fā)送至日志分析服務器；日志分析服務器收集各個節(jié)點發(fā)送的標識文件，將具有相同用戶標識的標識文件合并為一個文件作為目標文件。本發(fā)明將日志文件發(fā)送到各節(jié)
點進行過濾和分割，在由日志分析服務器合并為目標文件的原因在于，日志文件的容量通常較大，這樣做可以盡可能提高日志分析的效率。當然，本領域的技術人員也可以利用其他方式生成日志文件，例如在日志分析服務器完成對日志文件的過濾、分割以及合并操作生成目標文件。
通過上述搡作，將具有相同用戶標識的日志信息整合為一個目標文件，使得分散存儲于不同日志文件中的日志信息之間建立了關聯(lián)關系。
步驟303:使用兩個以上節(jié)點分別對所述目標文件進行分析處理得到分析結果。
使用兩個以上節(jié)點組成的分布式計算網(wǎng)絡對日志文件進行處理是針對大容量日志文件的一種有效的分析方法。但是，由于分布式處理需要將日志文件劃分為幾個部分分別處理，由于現(xiàn)有的處理方式是按照內(nèi)容劃分日志文件，因此同一個用戶的日志信息將被分散到不同的機器中，導致無法得出該用戶訪問內(nèi)容之間的關系。而本發(fā)明用于處理的目標文件，存儲了同一用戶訪問過的所有日志信息，很好地解決了上述問題。
優(yōu)選的，對目標文件分析之前，各節(jié)點按照訪問時間對該文件中日志信息進行排序。如此以來，該目標文件準確地反映了用戶訪問網(wǎng)站不同內(nèi)容時的先后順序，據(jù)此可進一步分析出不同內(nèi)容之間的關系。例如，用戶點擊某產(chǎn)品的廣告進入該產(chǎn)品的主頁，最后購買該產(chǎn)品。通過分析該用戶日志文件中訪問路徑的先后順序，就可以知道有多少用戶是通過點擊廣告購買該產(chǎn)品的，得出該廣告的投放效果。
步驟304:對分布式計算網(wǎng)絡中各節(jié)點上的分析結果進行合并，形成所述日志文件的分析結果。
下面結合實施例1用一個例子說明本發(fā)明所述的方法。例如，一個網(wǎng)站的 web服務器是由100臺服務器組成的服務器集群，這樣就會產(chǎn)生100個日志文件，若每個日志文件100M,總的日志文件就有10G。 ^:用由5個節(jié)點組成的分布式計算網(wǎng)絡分析日志文件。首先從web服務器中得到IOO個日志文件；然后過濾掉與日志分析無關的內(nèi)容；按照用戶標識對100個日志文件重新分組生成 5個目標文件，每個目標文件容量為2G，其中具有相同用戶標識的日志信息都被分在同一個目標文件中；分布式計算網(wǎng)絡的各節(jié)點對目標文件按時間排序后
進行分析處理；最后，將各個節(jié)點的分析結果合并得到全部日志文件的分析結果。采用上述處理方式，即使web服務器日志文件的容量繼續(xù)增加，只需增加分布式網(wǎng)絡的節(jié)點凄t即可。
以上對本發(fā)明的基于分布式網(wǎng)絡的日志文件分析方法作了介紹，下面結合應用環(huán)境以一個具體的實施例對本發(fā)明所述的方法作進一步詳細說明。
在本例中，web服務器集群包括三臺服務器，分別提供新聞、論壇和博客三種服務，并分別產(chǎn)生3個日志文件news, log、 club, log和blog. log。相應的，分布式計算網(wǎng)絡由日志分析服務器和節(jié)點1、節(jié)點2和節(jié)點3組成。各日志文件的內(nèi)容如下曰志文件news, log:
213.42,2.21 —[13/Oct/2006:00:14:32+0800]"Get/china.alibaba.com/news/1 .html HTTP/1.r' 200 40348 "-" "Moz川a/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2".42.2.2"760722884337."/ 0
213.42.2.21--[13/Oct/2006:00:14:33+0800"Get/china.alibaba.com/news/2.html HTTP/1.1" 200 40348 " "Mozilla/4,0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:34+0800]"Get/china.alibaba.com/news/3.html HTTP/1.1" 200 40348 "-" "Moz川a/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42,2.21--13/Oct/2006:00:14:35+0800]"Get/china.alibaba.com/news/4.html HTTP/1.1" 200 40348 "-" "Moz川a/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:36+0800]"Get/china.alibaba.com/news/5.html HTTP/1.r' 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:36+0800]"Get/china.alibaba.com/news/5.jpg HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2".42.2.27. "6072288433" 0
日志文件club, log:
213.42.2.21:13/oct/2006:00:14:42+0800"Getzchina.alibaba.com/club/1.htm一
HTTP/1.r- 200 40348 ----- :Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1y-
2f 3.42.2.21 =60722884331./ 0
213.42.2.21上13/oct/2006:00:14:43+0800"Get/china.a一ibaba.com/club/2.html
HTTP/1.1= 200 40348 ----- "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
273.42.2.2， .-23456789223、 0
213.422.21--13/octz2006:00:14:44+0800rGetzchina.alibaba.com/club/3.html
HTTP/1.1" 200 40348 =-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
2f3.42.2.21 ./234567S9S23.^ 0
213.42.2.21丄13/oct/2006:00:14:45+0800"Get/china.alibaba.com/club/4.html
HTTP/14 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6b; Windows NT 5.1)
273.42.2.217i722l33: 0
213.42.2.21丄13/Oct/2006:00:14:46+0800"Getzchina.alibaba.8m/club/5.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
60.123.45.6i13/oct/2006:00:14:46+0800rGet/china.alibaba.8m/clcb/5.html
!HTTP/1.r 200 40348 ----- -Mozilla/4.0 (compatible; MSIE 6.0; windows NT 5.1)"
EI、t>$ blog. log:
213.42.2.21--13/oct/2006:00:14:22+0800"Get/china.alibaba.com/blog/1.html
HTTP/1.1" 200 40348 "-" =Mozilla/4.0 (compatible; MSIE 6.0; windows NT 5.1)"
213.42.2.2，7i722i33f」0
213.42.2.21--13/oct/2006:00:14:23+0800rGetzchina.alibaba.com/blog/2.html
HTTP/1.1" 200 40348 "-" -Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
2f3.42.2.21 .T234567S9S23.^ 0
213.42.2.21i13/octz2006:00:14:24+0800"Getzchina.alibaba.com/blog/3.html
工T叫p/1.r 200 40348 :-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21--l13/octz2006:00:14:25+0800"Getzchina.alibaba.com/blog/4.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:26+0800]"Get/china.alibaba.com/blog/5.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
下面是日志分析的具體過程
步驟a:將上述三個日志文件下載到分布式計算網(wǎng)絡中的日志分析服務器。
步驟b:日志分析服務器將日志文件new.log傳給節(jié)點1 ，將dub.log傳給節(jié)點2, blog.log傳給節(jié)點3。
各節(jié)點收到日志文件后執(zhí)行以下操作
步驟c:將日志文件中的不需要分析的日志信息過濾掉，例如根據(jù)IP地址、 URL類型等，在本例中new.log的最后一條日志因為是訪問的是jpg文件，所以被過濾掉。
步驟d: 4艮據(jù)用戶標識對日志文件切分。
文件news.log將被切分成三個文件news—1 .log, news—2.log, news—3.log。相同用戶標識的日志信息被保存在同一個文件中。其中， news—1.log的內(nèi)容包4舌
213.42.2.21—[13/Oct/2006:00:14:32+0800"Get/china.alibaba.com/news/1.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MS舊6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:35+0800]"Get/china.alibaba.com/news/4.html HTTP/1.1" 200 40348 "-" "Mozilla/4,0 (compatible; MSIE 6.0; Windows NT 5.1)'
213.42.2.21—[13/Oct/2006:00:14:36+0800]"Get/china.alibaba.com/news/5.html HTTP/1.1" 200 40348 "陽,'"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)'
news—2.log的內(nèi)容包括
213,42.2.21—[13/Oct/2006:00:14:33+0800''Get/china.alibaba.com/news/2.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21--[13/Oct/2006:00:14:34+0800]"Get/china.alibaba.com/news/3.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 273.42.2.27."/234567890723.4 0
news_3.log內(nèi)容為空。
用同樣的方法將club.log切分為3個文件club一l.log，club—2.log，club—3.log, 將相同用戶標識的信息放在同一個文件中，其中， club—1.log的內(nèi)容包4舌
213.42.2.21—[13/Oct/2006:00:14:42+0800"Get/china.alibaba.com/club/1.html HTTP/1,1" 200 40348 "-" "Mozilla/4,0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21--[13/Oct/2006:00:14:45+0800]"Get/china.alibaba.com/club/4.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2".42.2.2"76072288433" 0
213.42.2.21—[13/Oct/2006:00:14:46+0800"Get/china.alibaba.com/club/5.html
HTTP/1.r' 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
club_2.log的內(nèi)容包才舌
213.42.2.21—[13/Oct/2006:00:14:43+0800"Get/china.alibaba.com/club/2.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
213.42.2.21—[13/Oct/2006:00:14:44+0800]"Get/china.alibaba.com/club/3.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
club—3.log的內(nèi)容包4舌
60.123,45.6—[13/Oct/2006:00:14:46+0800"Ge麵na.alibaba.com/club/5.html HTTP/11" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)' 60. "/23.45.6.9876543210987.2 0
采用同樣的方法將blog. log分成blog-l, log, blog—2. log, blog_3.log 三個文件，將相同用戶標識的信息放入同一個文件中。各文件具體內(nèi)容這里不再贅述。
步驟e:各節(jié)點將切分后的文件發(fā)送至日志分析服務器。
步驟f:日志分析服務器將具有相同用戶標識的文件合并為一個文件，該
文件即所述的目標文件。
在本例中日志分析服務器共收到9個文件，將其中的new_l.log，
club—1. log, blog —1. log合并成filtedl. log, new—2. log, club—2. log,
blog—2. log合并成filted2. log, new—3. log, club—3. log， blog_3. log合并
成fi 1 ted3. log。
步驟g:日志分析服務器將目標文件filtedl.log、 filted2.log和 filted3. log分別發(fā)送至節(jié)點1、節(jié)點2和節(jié)點3。
步驟h:各節(jié)點對所收到的目標文件按日志信息的訪問時間進行排序。
其中節(jié)點l對文件filtedl. log排序后的結杲如下
213.42.2.21—[13/Oct/2006:00:14:22+0800r'Get/china.alibaba.com/blog/1.html HTTP/1.1" 200 40348 "陽""Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42,2.21—[13/Oct/2006:00:14:25+0800]''Get/china.alibaba.com/blog/4.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213,42.2.21—[13/Oct/2006:00:14:26+0800]"Get/china.aHbaba.com/blog/5.html HTTP/1.1" 200 40348 " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42.2.21—[13/Oct/2006:00:14:32+0800"Get/china.alibaba.com/news/1.html HTTP/1.1" 200 40348 "陽""Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42.2.21—[13/Oct/2006:00:14:35+0800]"Get/china,alibaba.com/news/4.html
HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6,0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0213.42.2.21—[13/Oct/2006:00:14:36+0800]"Get/china.alibaba.com/news/5.html HTTP/1.r 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42.2.21—[13/Oct/2006:00:14:42+0800"Get/china.alibaba.com/club/1.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42,2.21--[13/Oct/2006:00:14:45+0800]"Get/china.alibaba.com/club/4.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
213.42.2.21--[13/Oct/2006:00:14:46+0800]"Get/china.alibaba.com/club/5.html HTTP/1.1" 200 40348 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 213.42.2.21.1160722884331.1 0
步驟i:各節(jié)點對排序后的文件進行分析得到分析結果。其中，F(xiàn)ilterl.log的分析結果是9個PV， 1個訪問用戶，1條訪問路徑； Filter2.log的分析結果是6個PV, 1個訪問用戶，1條訪問路徑；Filter3.log的分析結果是1個PV， l個訪問用戶，l個訪問路徑。
步驟j:各節(jié)點將分析結果發(fā)送至日志分析服務器，由日志分析服務器對所有結果進行合并得到web服務器全部日志的分析結果。
該web服務器的全部日志分析結果為16個PV， 3個訪問用戶，分別是 213.42.2.21.1160722884331.1 、 213.42.2.21.1234567890123.4 和 60.123.45.6.9876543210987.2,和3條訪問路徑，同時可分析得出用戶在訪問新聞和論壇之間的先后關系。
以上，結合具體實施例描述了本發(fā)明的一種基于分布式計算網(wǎng)絡的日志分析方法。參照以上有關本發(fā)明的介紹，如圖4所示，是本發(fā)明所述的一種基于分布式計算網(wǎng)絡的日志分析系統(tǒng)，包括日志分析服務器410和相應的節(jié)點420，其中，
所述日志分析服務器410包括
收集單元412，用于收集web服務器的日志文件，所述日志文件含有用戶標識及與該用戶標識相應的日志信息；
存儲單元413，用于存儲收集單元412收集的日志文件；第一接口單元411，用于接收和發(fā)送數(shù)據(jù)；
劃分單元414，用子將所迷存儲單元413中的日志丈件劃分為多個目標丈件，所述目標文件由具有相同用戶標識的日志信息組成；所述節(jié)點420包括
第二接口單元421，用于接收和發(fā)送數(shù)據(jù)；處理單元425，用于對目標文件進行分析；
所述日志分析服務器410還包括和并單元416，用于合并各節(jié)點的分析結果。
其中，所述日志文件是web服務器的日志文件，所述web服務器是由至少一個服務器組成的服務器集群，所述日志文件為日志文件集，包括該服務器集群中各個服務器產(chǎn)生的日志文件。
優(yōu)選的，所述節(jié)點420還包括
過濾單元422,用于過濾日志文件中與日志分析無關的信息；分割單元423,用于對經(jīng)過濾單元422過濾的日志文件按用戶標識分割為標識文件，將具有相同用戶標識的日志信息;改入同一個標識文件中；所述劃分單元414還包括
目標文件生成單元415,用于將各個節(jié)點發(fā)送的具有相同用戶標識的標識文件合并為一個文件作為目標文件。
優(yōu)選的，所述節(jié)點420還包括排序單元424，用于對目標文件中的日志信息按其生成時間排序。
收集單元412從web服務器集群的各服務器中收集日志文件存儲在存儲單元413,然后通過第一接口單元411將所述日志文件發(fā)送至各個節(jié)點；由過濾單元422對第二接口單元421收到的日志文件進行過濾，去除與日志分析無關的信息，然后分割單元423對經(jīng)過濾單元422過濾的日志文件按用戶標識分
割為標識文件，將具有相同用戶標識的日志信息放入同一個標識文件中，并通
過第二接口單元421將所述標識文件發(fā)送至日志分析服務器；目標文件生成單
目標文件，然后再通過第一接口單元411將生成的目標文件發(fā)送至各個節(jié)點；對于每一個收到目標文件的節(jié)點，首先由排序單元424對所述目標文件按照文件中日志信息的生成時間排序，然后再由處理單元425對其分析得到分析結果，最后將該分析結果通過第二接口單元421發(fā)回日志分析服務器；最后，由合并單元416對各節(jié)點發(fā)送的日志分析結果進行合并，得到該web服務器曰志文件的分析結果。
以上對本發(fā)明所提供的一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)，進行了詳細介紹，本文中應用了具體個例對本發(fā)明的原理及實施方式進
同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1、一種基于分布式計算網(wǎng)絡的日志文件分析方法，其特征在于，包括以下步驟將用戶標識與相應的日志信息存儲在日志文件中；將所述日志文件劃分為多個目標文件，所述目標文件中含有相同用戶標識的日志信息；使用兩個以上的節(jié)點分別對所述目標文件進行分析并得到分析結果；合并各節(jié)點的分析結果。
2、根據(jù)權利要求1所述的日志文件分析方法，其特征在于，所述日志文件是web服務器的日志文件。
3、根據(jù)權利要求2所述的日志文件分析方法，其特征在于，所述web服務器是由至少一個服務器組成的服務器集群，所述日志文件為日志文件集，包括該服務器集群中各個服務器產(chǎn)生的日志文件。
4、根據(jù)權利要求1或3所述的日志文件分析方法，其特征在于，所述將日志文件劃分為多個目標文件的過程包括將所述日志文件下栽到日志分析服務器；曰志分析服務器將所述日志文件發(fā)送至相應的各個節(jié)點；節(jié)點對收到的日志文件按用戶標識分割為標識文件，將具有相同用戶標識的日志信息放入同一個標識文件中，并將該標識文件發(fā)送至日志分析服務器；日志分析服務器收集各個節(jié)點發(fā)送的標識文件，將具有相同用戶標識的標識文件合并為一個文件作為目標文件。
5、根據(jù)權利要求4所述的日志文件分析方法，其特征在于，所述節(jié)點將日志文件分割為目標文件之前還包括節(jié)點過濾所述日志文件中與日志分析無關的信息。
6、根據(jù)權利要求5所述的日志文件分析方法，其特征在于，所述節(jié)點對目標文件進行分析之前還包括對目標文件中的日志信息按其生成時間排序。
7、根據(jù)權利要求1所述的日志文件分析方法，其特征在于，所述用戶標識由web服務器，4艮據(jù)用戶的IP和隨機數(shù)產(chǎn)生，并保存在用戶本地機器中。
8、根據(jù)權利要求7所述的日志文件分析方法，其特征在于，所述用戶標識存儲在用戶本地才幾器的Cookie中。
9、一種基于分布式計算網(wǎng)絡的日志文件分析系統(tǒng)，其特征在于，包括日志分析服務器和多個節(jié)點，其中，所述日志分析服務器包括收集單元，用于收集web服務器的日志文件，所述日志文件含有用戶標識及與該用戶標識相應的日志信息；存儲單元，用于存儲收集單元收集的日志文件；第一接口單元，用于接收和發(fā)送數(shù)據(jù)；劃分單元，用于將所述存儲單元中的日志文件劃分為多個目標文件，所述目標文件由具有相同用戶標識的日志信息組成；所述節(jié)點包括第二接口單元，用于接收和發(fā)送數(shù)據(jù)；處理單元，用于對目標文件進行分析；所述日志分析服務器還包括和并單元，用于合并各節(jié)點的分析結果。
10、根據(jù)權利要求9所述的日志文件分析系統(tǒng)，其特征在于，所述日志文件是web服務器的日志文件，所述web服務器是由至少一個服務器組成的服務器集群，所述日志文件為日志文件集，包括該服務器集群中各個服務器產(chǎn)生的日志文件。
11、根據(jù)權利要求10所述的日志文件分析系統(tǒng)，其特征在于，所述節(jié)點還包括過濾單元，用于過濾日志文件中與日志分析無關的信息；分割單元，用于對過濾單元過濾后的日志文件4安用戶標識分割為標識文件，將具有相同用戶標識的日志信息放入同一個標識文件中；所述劃分單元還包括目標文件生成單元，用于將各個節(jié)點發(fā)送的具有相同用戶標識的標識文件合并為一個文件作為目標文件。
12、根據(jù)權利要求11所述的日志文件分析系統(tǒng)，其特征在于，所述節(jié)點還包括排序單元，用于對目標文件中的日志信息按其生成時間排序。
全文摘要
本發(fā)明公開了一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)。所述方法包括將用戶標識與相應的日志信息存儲在日志文件中；將所述日志文件劃分為多個目標文件，所述目標文件中含有相同用戶標識的日志信息；使用兩個以上的節(jié)點分別對所述目標文件進行分析并得到分析結果；合并各節(jié)點的分析結果。這樣，通過用戶標識在不同的日志文件中建立關聯(lián)，并可進一步分析用戶訪問網(wǎng)站不同內(nèi)容之間的關系。
文檔編號G06F17/30GK101192227SQ20061016083
公開日2008年6月4日申請日期2006年11月30日優(yōu)先權日2006年11月30日
發(fā)明者吳偉勛, 張金銀, 昂李, 李江華申請人:阿里巴巴公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：吳偉勛;李江華;張金銀;李昂
技術所有人：阿里巴巴集團控股有限公司
我是此專利的發(fā)明人

上一篇：查詢結果排序方法以及信息查詢系統(tǒng)的制作方法
上一篇：視頻內(nèi)容分析中感興趣區(qū)域軌跡的校正方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)絡與分布式計算相關技術

網(wǎng)絡分布式計算相關技術

分布式計算方法相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于分布式計算網(wǎng)絡的日志文件分析方法和系統(tǒng)的制作方法