国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法

      文檔序號(hào):7801694閱讀:933來(lái)源:國(guó)知局
      一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法
      【專(zhuān)利摘要】本發(fā)明涉及一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法,包括步驟如下:(1)分析對(duì)象確定;(2)頁(yè)面埋點(diǎn);(3)日志收集;(4)HDFS分布式文件系統(tǒng)存儲(chǔ);(5)分布式匯總計(jì)算;(6)結(jié)果展現(xiàn)。本發(fā)明所述方法支持海量(億級(jí)別/天)訪(fǎng)問(wèn)量的網(wǎng)站,準(zhǔn)實(shí)時(shí)的展現(xiàn)網(wǎng)站瀏覽量、點(diǎn)擊量等數(shù)據(jù),并支持明細(xì)數(shù)據(jù)毫秒級(jí)查詢(xún)。本發(fā)明所述的方法完全基于開(kāi)源軟件開(kāi)發(fā),使用普通pcserver,普通sata硬盤(pán),系統(tǒng)架構(gòu)使用冗余設(shè)計(jì),任何數(shù)據(jù)節(jié)點(diǎn)或磁盤(pán)損壞后數(shù)據(jù)都不會(huì)丟失。本發(fā)明各個(gè)環(huán)節(jié)都實(shí)現(xiàn)自動(dòng)化,支持圖形化監(jiān)控,運(yùn)維簡(jiǎn)單。
      【專(zhuān)利說(shuō)明】一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法,屬于網(wǎng)絡(luò)監(jiān)控分析的【技術(shù)領(lǐng)域】?!颈尘凹夹g(shù)】
      [0002]傳統(tǒng)的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為的分析方法,是根據(jù)用戶(hù)訪(fǎng)問(wèn)網(wǎng)站功能的url日志,導(dǎo)入關(guān)系數(shù)據(jù)庫(kù)匯總分析,數(shù)據(jù)量大耗時(shí),很難做到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)分析展現(xiàn)用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為,耗時(shí)耗人工且信息丟失,用戶(hù)不產(chǎn)生頁(yè)面請(qǐng)求的行為將被丟失,無(wú)法支撐大并發(fā)的電子商務(wù)網(wǎng)站分析用戶(hù)訪(fǎng)問(wèn)行為,因此依據(jù)現(xiàn)有的傳統(tǒng)的網(wǎng)站行為的分析方法很難對(duì)廣告投放等網(wǎng)絡(luò)營(yíng)銷(xiāo)提供及時(shí)的數(shù)據(jù)支撐依據(jù)。

      【發(fā)明內(nèi)容】

      [0003]針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法。該方法通過(guò)監(jiān)聽(tīng)用戶(hù)頁(yè)面操作行為,將用戶(hù)在網(wǎng)頁(yè)上的操作行為通過(guò)監(jiān)聽(tīng)收集起來(lái),存入hdfs分布式文件系統(tǒng),利用hadoop-hive進(jìn)行分布式匯總快速大數(shù)據(jù)運(yùn)算,每隔半小時(shí)統(tǒng)計(jì)一次數(shù)據(jù),實(shí)現(xiàn)用戶(hù)網(wǎng)站行為的準(zhǔn)實(shí)時(shí)統(tǒng)計(jì)分析,為廣告投放等網(wǎng)絡(luò)營(yíng)銷(xiāo)提供準(zhǔn)實(shí)時(shí)數(shù)據(jù)支撐,整個(gè)過(guò)程自動(dòng)化不需要人工干預(yù)。對(duì)大數(shù)據(jù)的快速計(jì)算模型。
      [0004]本發(fā)明的技術(shù)方案如下:
      [0005]一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法,包括步驟如下:
      [0006](I)分析對(duì)象確定:用戶(hù)在網(wǎng)站上的操作行為包括網(wǎng)頁(yè)頁(yè)面瀏覽和網(wǎng)頁(yè)頁(yè)面內(nèi)對(duì)可點(diǎn)擊元素的點(diǎn)擊;所述網(wǎng)頁(yè)的頁(yè)面使用URL作為標(biāo)識(shí),所述網(wǎng)頁(yè)頁(yè)面可點(diǎn)擊元素使用ID作為標(biāo)識(shí);定義分析對(duì)象包括:用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面URL的訪(fǎng)問(wèn)(PV:page view)數(shù)量、用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素的點(diǎn)擊(CV:click view)數(shù)量以及不同用戶(hù)類(lèi)型、不同時(shí)間、不同地域所分別對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面訪(fǎng)問(wèn)數(shù)量和網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊數(shù)量;
      [0007](2)頁(yè)面埋點(diǎn):在需要做用戶(hù)行為分析的網(wǎng)站的框架頁(yè)面添加用按照步驟(I)確定分析對(duì)象后形成的用戶(hù)行為分析的腳本文件,即可實(shí)現(xiàn)監(jiān)聽(tīng)并跟蹤用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為,當(dāng)用戶(hù)按照步驟(I)所述的分析對(duì)象對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行訪(fǎng)問(wèn)或?qū)W(wǎng)頁(yè)頁(yè)面元素進(jìn)行點(diǎn)擊時(shí),自動(dòng)請(qǐng)求一次日志服務(wù)器的IK大小的圖片,實(shí)現(xiàn)往標(biāo)簽服務(wù)器打點(diǎn)的目的;
      [0008](3)日志收集:日志收集使用apache作為日志服務(wù)器,用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素操作時(shí),將對(duì)分析對(duì)象的操作及操作者的信息拼裝成對(duì)圖片請(qǐng)求的參數(shù),發(fā)送給日志服務(wù)器apache,日志服務(wù)器apache每收到一次請(qǐng)求即記錄一條日志記錄,實(shí)現(xiàn)日志收集;通過(guò)分析頁(yè)面瀏覽日志收集用戶(hù)在網(wǎng)站打開(kāi)網(wǎng)頁(yè)的信息,通過(guò)分析用戶(hù)在網(wǎng)站上的點(diǎn)擊按鈕、鏈接、圖片的日志收集用戶(hù)在網(wǎng)站網(wǎng)頁(yè)中的點(diǎn)擊行為;
      [0009](4) HDFS分布式文件系統(tǒng)存儲(chǔ):將收集的apache日志服務(wù)器所存的日志通過(guò)Hadoop Hive結(jié)構(gòu)化后存儲(chǔ)到Hadoop分布式文件系統(tǒng)中,Hadoop分布式文件系統(tǒng)(HadoopDistributed File System HDFS)是運(yùn)行在通用硬件(普通pcserver或者普通pc)上的分布式文件系統(tǒng);所述hadoop提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案。HDFS通過(guò)一個(gè)高效的分布式算法,將數(shù)據(jù)的訪(fǎng)問(wèn)和存儲(chǔ)分布在大量服務(wù)器之中,在可靠地多備份存儲(chǔ)的同時(shí)還能將訪(fǎng)問(wèn)分布在集群中的各個(gè)服務(wù)器之上,是傳統(tǒng)存儲(chǔ)構(gòu)架的一個(gè)顛覆性的發(fā)展;
      [0010](5)分布式匯總計(jì)算:利用Hadoop Hive支持HSql的特性,通過(guò)書(shū)寫(xiě)HSql在HDFS集群環(huán)境下,利用Hadoop的MapReduce在多臺(tái)機(jī)器上并行計(jì)算,計(jì)算每個(gè)網(wǎng)頁(yè)頁(yè)面每半小時(shí)、每天、每月的瀏覽量和點(diǎn)擊量;如:某天12:00?12:30半小時(shí)內(nèi),網(wǎng)站所有URL都有哪些用戶(hù)點(diǎn)擊了,點(diǎn)擊了多少次等;
      [0011](6)結(jié)果展現(xiàn):分布式匯總計(jì)算的統(tǒng)計(jì)結(jié)果通過(guò)Apache Sqoop將網(wǎng)站、網(wǎng)頁(yè)頁(yè)面、用戶(hù)、按鈕的訪(fǎng)問(wèn)數(shù)量的數(shù)據(jù)自動(dòng)從HDFS中轉(zhuǎn)移至Mysql關(guān)系數(shù)據(jù)庫(kù)表中,使用java web程序訪(fǎng)問(wèn)mysql數(shù)據(jù)庫(kù),以html頁(yè)面圖表和列表的方式展現(xiàn)網(wǎng)頁(yè)、廣告、圖片、按鈕實(shí)時(shí)和一段時(shí)間內(nèi)的網(wǎng)頁(yè)頁(yè)面瀏覽量或網(wǎng)頁(yè)頁(yè)面的點(diǎn)擊量;所述網(wǎng)頁(yè)頁(yè)面瀏覽量、網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊的明細(xì)數(shù)據(jù)以列式存儲(chǔ)在HBase分布式數(shù)據(jù)庫(kù)中,支持毫秒級(jí)的查詢(xún)。為廣告投放、網(wǎng)站營(yíng)銷(xiāo)等提供延遲半小時(shí)的準(zhǔn)實(shí)時(shí)訪(fǎng)問(wèn)量數(shù)據(jù)依據(jù),指導(dǎo)網(wǎng)站更精準(zhǔn)的投放廣告,開(kāi)展網(wǎng)上營(yíng)銷(xiāo)。
      [0012]本發(fā)明的優(yōu)勢(shì):
      [0013]1.本發(fā)明所述方法支持海量(億級(jí)別/天)訪(fǎng)問(wèn)量的網(wǎng)站,準(zhǔn)實(shí)時(shí)的展現(xiàn)網(wǎng)站瀏覽量、點(diǎn)擊量等數(shù)據(jù),并支持明細(xì)數(shù)據(jù)毫秒級(jí)查詢(xún)。
      [0014]2.本發(fā)明所述的方法完全基于開(kāi)源軟件開(kāi)發(fā),使用普通pcserver,普通sata硬盤(pán),系統(tǒng)架構(gòu)使用冗余設(shè)計(jì),任何數(shù)據(jù)節(jié)點(diǎn)或磁盤(pán)損壞后數(shù)據(jù)都不會(huì)丟失。本發(fā)明各個(gè)環(huán)節(jié)都實(shí)現(xiàn)自動(dòng)化,支持圖形化監(jiān)控,運(yùn)維簡(jiǎn)單。
      [0015]3.本發(fā)明所述方法支持網(wǎng)站快速使用,安裝簡(jiǎn)單,報(bào)表展現(xiàn)只需簡(jiǎn)單修改SQL,可靈活定制,并可根據(jù)客戶(hù)個(gè)性化需求只需增加一些指標(biāo),增加一些展現(xiàn)SQL即可實(shí)現(xiàn)個(gè)性化改造,快速實(shí)現(xiàn)。
      【專(zhuān)利附圖】

      【附圖說(shuō)明】
      [0016]圖1為本發(fā)明所述方法的系統(tǒng)架構(gòu)圖。該架構(gòu)圖從在網(wǎng)站頁(yè)面中部署腳本,日志收集,日志自動(dòng)提交至hadoop的分布式文件系統(tǒng),并存儲(chǔ)至HBase,基于hive做匯總計(jì)算后,利用sqoop同步至mysql關(guān)系數(shù)據(jù)庫(kù),通過(guò)用戶(hù)行為分析統(tǒng)計(jì)分析系統(tǒng)提供匯總結(jié)果查詢(xún),接口服務(wù),明細(xì)數(shù)據(jù)查詢(xún),其中明細(xì)數(shù)據(jù)查詢(xún)由HBase提供快速檢索支持。
      [0017]圖2為用戶(hù)行為分析結(jié)果展現(xiàn)示例圖,是新商盟電子商務(wù)網(wǎng)站,利用本發(fā)明實(shí)現(xiàn)的網(wǎng)站2013年9月26日的網(wǎng)站概覽數(shù)據(jù),折線(xiàn)圖為25日和26日的整個(gè)網(wǎng)站頁(yè)面瀏覽展示,由每半小時(shí)累計(jì)一次的數(shù)據(jù)形成。
      【具體實(shí)施方式】
      [0018]下面結(jié)合實(shí)施例和說(shuō)明書(shū)附圖對(duì)本發(fā)明做詳細(xì)的說(shuō)明,但不限于此。
      [0019]實(shí)施例1、
      [0020]一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法,包括步驟如下:
      [0021](I)分析對(duì)象確定:用戶(hù)在網(wǎng)站上的操作行為包括網(wǎng)頁(yè)頁(yè)面瀏覽和網(wǎng)頁(yè)頁(yè)面內(nèi)對(duì)可點(diǎn)擊元素的點(diǎn)擊;所述網(wǎng)頁(yè)的頁(yè)面使用URL作為標(biāo)識(shí),所述網(wǎng)頁(yè)頁(yè)面可點(diǎn)擊元素使用ID作為標(biāo)識(shí);定義分析對(duì)象包括:用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面URL的訪(fǎng)問(wèn)(PV:page view)數(shù)量、用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素的點(diǎn)擊(CV:click view)數(shù)量以及不同用戶(hù)類(lèi)型、不同時(shí)間、不同地域所分別對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面訪(fǎng)問(wèn)數(shù)量和網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊數(shù)量;
      [0022](2)頁(yè)面埋點(diǎn):在需要做用戶(hù)行為分析的網(wǎng)站的框架頁(yè)面添加用按照步驟(I)確定分析對(duì)象后形成的用戶(hù)行為分析的腳本文件,即可實(shí)現(xiàn)監(jiān)聽(tīng)并跟蹤用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為,當(dāng)用戶(hù)按照步驟(I)所述的分析對(duì)象對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行訪(fǎng)問(wèn)或?qū)W(wǎng)頁(yè)頁(yè)面元素進(jìn)行點(diǎn)擊時(shí),自動(dòng)請(qǐng)求一次日志服務(wù)器的IK大小的圖片,實(shí)現(xiàn)往標(biāo)簽服務(wù)器打點(diǎn)的目的;
      [0023](3)日志收集:日志收集使用apache作為日志服務(wù)器,用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素操作時(shí),將對(duì)分析對(duì)象的操作及操作者的信息拼裝成對(duì)圖片請(qǐng)求的參數(shù),發(fā)送給日志服務(wù)器apache,日志服務(wù)器apache每收到一次請(qǐng)求即記錄一條日志記錄,實(shí)現(xiàn)日志收集;通過(guò)分析頁(yè)面瀏覽日志收集用戶(hù)在網(wǎng)站打開(kāi)網(wǎng)頁(yè)的信息,通過(guò)分析用戶(hù)在網(wǎng)站上的點(diǎn)擊按鈕、鏈接、圖片的日志收集用戶(hù)在網(wǎng)站網(wǎng)頁(yè)中的點(diǎn)擊行為;
      [0024](4) HDFS分布式文件系統(tǒng)存儲(chǔ):將收集的apache日志服務(wù)器所存的日志通過(guò)Hadoop Hive結(jié)構(gòu)化后存儲(chǔ)到Hadoop分布式文件系統(tǒng)中,Hadoop分布式文件系統(tǒng)(HadoopDistributed File System HDFS)是運(yùn)行在通用硬件(普通pcserver或者普通pc)上的分布式文件系統(tǒng);所述hadoop提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案。HDFS通過(guò)一個(gè)高效的分布式算法,將數(shù)據(jù)的訪(fǎng)問(wèn)和存儲(chǔ)分布在大量服務(wù)器之中,在可靠地多備份存儲(chǔ)的同時(shí)還能將訪(fǎng)問(wèn)分布在集群中的各個(gè)服務(wù)器之上,是傳統(tǒng)存儲(chǔ)構(gòu)架的一個(gè)顛覆性的發(fā)展;
      [0025](5)分布式匯總計(jì)算:利用Hadoop Hive支持HSql的特性,通過(guò)書(shū)寫(xiě)HSql在HDFS集群環(huán)境下,利用Hadoop的MapReduce在多臺(tái)機(jī)器上并行計(jì)算,計(jì)算每個(gè)網(wǎng)頁(yè)頁(yè)面每半小時(shí)、每天、每月的瀏覽量和點(diǎn)擊量;如:某天12:00?12:30半小時(shí)內(nèi),網(wǎng)站所有URL都有哪些用戶(hù)點(diǎn)擊了,點(diǎn)擊了多少次等;
      [0026](6)結(jié)果展現(xiàn):分布式匯總計(jì)算的統(tǒng)計(jì)結(jié)果通過(guò)Apache Sqoop將網(wǎng)站、網(wǎng)頁(yè)頁(yè)面、用戶(hù)、按鈕的訪(fǎng)問(wèn)數(shù)量的數(shù)據(jù)自動(dòng)從HDFS中轉(zhuǎn)移至Mysql關(guān)系數(shù)據(jù)庫(kù)表中,使用java web程序訪(fǎng)問(wèn)mysql數(shù)據(jù)庫(kù),以html頁(yè)面圖表和列表的方式展現(xiàn)網(wǎng)頁(yè)、廣告、圖片、按鈕實(shí)時(shí)和一段時(shí)間內(nèi)的網(wǎng)頁(yè)頁(yè)面瀏覽量或網(wǎng)頁(yè)頁(yè)面的點(diǎn)擊量;所述網(wǎng)頁(yè)頁(yè)面瀏覽量、網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊的明細(xì)數(shù)據(jù)以列式存儲(chǔ)在HBase分布式數(shù)據(jù)庫(kù)中,支持毫秒級(jí)的查詢(xún)。為廣告投放、網(wǎng)站營(yíng)銷(xiāo)等提供延遲半小時(shí)的準(zhǔn)實(shí)時(shí)訪(fǎng)問(wèn)量數(shù)據(jù)依據(jù),指導(dǎo)網(wǎng)站更精準(zhǔn)的投放廣告,開(kāi)展網(wǎng)上營(yíng)銷(xiāo)。
      [0027]利用上述所述的方法實(shí)現(xiàn)對(duì)以下網(wǎng)站進(jìn)行監(jiān)控分析:新商盟電子商務(wù)網(wǎng)站W(wǎng)WW.xinshangmeng.com 使用的例子:
      [0028]1、新商盟網(wǎng)站是統(tǒng)一前端框架的jsp頁(yè)面負(fù)責(zé)頁(yè)面展示,可以點(diǎn)擊的元素主要是一些按鈕、菜單或圖片鏈接等,因此對(duì)新商盟網(wǎng)站用戶(hù)的行為進(jìn)行分析,主要分析頁(yè)面的瀏覽和頁(yè)面元素的點(diǎn)擊頁(yè)面以jsp頁(yè)面的url為標(biāo)識(shí),頁(yè)面元素以頁(yè)面元素的id或name或label為標(biāo)識(shí)。
      [0029]2、在新商盟網(wǎng)站前端框架層頁(yè)面layout, jsp中引入用戶(hù)行為分析收集信息的js文件 install_up_beacon.js 和
      [0030]up_beacon.js。js負(fù)責(zé)在打開(kāi)頁(yè)面或點(diǎn)擊頁(yè)面元素時(shí),請(qǐng)求標(biāo)簽服務(wù)器記錄日志。[0031]3、日志收集采取記錄apache服務(wù)器access日志的方式,一條日志為一個(gè)頁(yè)面瀏覽或點(diǎn)擊事件,日志以固定格式記錄訪(fǎng)問(wèn)事件的各種參數(shù),如:時(shí)間、用戶(hù)、用戶(hù)所屬公司、用戶(hù)使用瀏覽器版本、ip地址等。每半小時(shí)生成一個(gè)新的日志文件。
      [0032]4、日志服務(wù)器生成的日志文件,通過(guò)自動(dòng)化程序,直接load進(jìn)hadoop分布式文件系統(tǒng),因?yàn)槊織l記錄都是結(jié)構(gòu)化的,load進(jìn)hdfs時(shí),結(jié)構(gòu)化到hive的表中,供hive做匯總計(jì)算,明細(xì)數(shù)據(jù)同時(shí)存入hbase數(shù)據(jù)庫(kù),目前新商盟網(wǎng)站用戶(hù)行為分析分布式文件系統(tǒng)服務(wù)器采用5臺(tái)廉價(jià)pc服務(wù)器,進(jìn)行存儲(chǔ)計(jì)算。
      [0033]5、使用hive的hsql對(duì)load進(jìn)來(lái)的結(jié)構(gòu)化好的數(shù)據(jù),做匯總計(jì)算,按照半小時(shí)、天、月等維度及訪(fǎng)問(wèn)用戶(hù)所屬的地域或組織機(jī)構(gòu)進(jìn)行計(jì)算,匯總結(jié)果存儲(chǔ)在hive的表中。如每天網(wǎng)站的頁(yè)面瀏覽量,按鈕點(diǎn)擊量,用戶(hù)量,用戶(hù)停留時(shí)長(zhǎng)等。
      [0034]6、將匯總結(jié)果使用sqoop程序由hdfs轉(zhuǎn)移至關(guān)系數(shù)據(jù)庫(kù)mysql,使用web應(yīng)用的報(bào)表、圖表展現(xiàn),并為網(wǎng)站提供接口,供網(wǎng)站使用,明細(xì)數(shù)據(jù)直接訪(fǎng)問(wèn)hbase數(shù)據(jù)庫(kù),實(shí)時(shí)展現(xiàn)。如圖2所示,為新商盟網(wǎng)站某天的實(shí)時(shí)訪(fǎng)問(wèn)情況。
      【權(quán)利要求】
      1.一種監(jiān)控分析網(wǎng)站用戶(hù)行為的方法,包括步驟如下: (1)分析對(duì)象確定:用戶(hù)在網(wǎng)站上的操作行為包括網(wǎng)頁(yè)頁(yè)面瀏覽和網(wǎng)頁(yè)頁(yè)面內(nèi)對(duì)可點(diǎn)擊元素的點(diǎn)擊;所述網(wǎng)頁(yè)的頁(yè)面使用URL作為標(biāo)識(shí),所述網(wǎng)頁(yè)頁(yè)面可點(diǎn)擊元素使用ID作為標(biāo)識(shí);定義分析對(duì)象包括:用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面URL的訪(fǎng)問(wèn)(PV:page view)數(shù)量、用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素的點(diǎn)擊(CV:click view)數(shù)量以及不同用戶(hù)類(lèi)型、不同時(shí)間、不同地域所分別對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面訪(fǎng)問(wèn)數(shù)量和網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊數(shù)量; (2)頁(yè)面埋點(diǎn):在需要做用戶(hù)行為分析的網(wǎng)站的框架頁(yè)面添加用按照步驟(I)確定分析對(duì)象后形成的用戶(hù)行為分析的腳本文件,當(dāng)用戶(hù)按照步驟(I)所述的分析對(duì)象對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行訪(fǎng)問(wèn)或?qū)W(wǎng)頁(yè)頁(yè)面元素進(jìn)行點(diǎn)擊時(shí),自動(dòng)請(qǐng)求一次日志服務(wù)器的IK大小的圖片,實(shí)現(xiàn)往標(biāo)簽服務(wù)器打點(diǎn)的目的; (3)日志收集:日志收集使用apache作為日志服務(wù)器,用戶(hù)對(duì)網(wǎng)頁(yè)頁(yè)面元素操作時(shí),將對(duì)分析對(duì)象的操作及操作者的信息拼裝成對(duì)圖片請(qǐng)求的參數(shù),發(fā)送給日志服務(wù)器apache,日志服務(wù)器apache每收到一次請(qǐng)求即記錄一條日志記錄,實(shí)現(xiàn)日志收集;通過(guò)分析頁(yè)面瀏覽日志收集用戶(hù)在網(wǎng)站打開(kāi)網(wǎng)頁(yè)的信息,通過(guò)分析用戶(hù)在網(wǎng)站上的點(diǎn)擊按鈕、鏈接、圖片的日志收集用戶(hù)在網(wǎng)站網(wǎng)頁(yè)中的點(diǎn)擊行為; (4)HDFS分布式文件系統(tǒng)存儲(chǔ):將收集的apache日志服務(wù)器所存的日志通過(guò)HadoopHive結(jié)構(gòu)化后存儲(chǔ)到Hadoop分布式文件系統(tǒng)中,Hadoop分布式文件系統(tǒng)(HadoopDistributed File System HDFS)是運(yùn)行在通用硬件(普通pcserver或者普通pc)上的分布式文件系統(tǒng); (5)分布式匯總計(jì)算:利用HadoopHive支持HSql的特性,通過(guò)書(shū)寫(xiě)HSql在HDFS集群環(huán)境下,利用Hadoop的MapReduce在多臺(tái)機(jī)器上并行計(jì)算,計(jì)算每個(gè)網(wǎng)頁(yè)頁(yè)面每半小時(shí)、每天、每月的瀏覽量和點(diǎn)擊量; (6)結(jié)果展現(xiàn):分布式匯總計(jì)算的統(tǒng)計(jì)結(jié)果通過(guò)ApacheSqoop將網(wǎng)站、網(wǎng)頁(yè)頁(yè)面、用戶(hù)、按鈕的訪(fǎng)問(wèn)數(shù)量的數(shù)據(jù)自動(dòng)從HDFS中轉(zhuǎn)移至Mysql關(guān)系數(shù)據(jù)庫(kù)表中,使用java web程序訪(fǎng)問(wèn)mysql數(shù)據(jù)庫(kù),以html頁(yè)面圖表和列表的方式展現(xiàn)網(wǎng)頁(yè)、廣告、圖片、按鈕實(shí)時(shí)和一段時(shí)間內(nèi)的網(wǎng)頁(yè)頁(yè)面瀏覽量或網(wǎng)頁(yè)頁(yè)面的點(diǎn)擊量;所述網(wǎng)頁(yè)頁(yè)面瀏覽量、網(wǎng)頁(yè)頁(yè)面元素點(diǎn)擊的明細(xì)數(shù)據(jù)以列式存儲(chǔ)在HBase分布式數(shù)據(jù)庫(kù)中,支持毫秒級(jí)的查詢(xún)。
      【文檔編號(hào)】H04L12/26GK103916293SQ201410157305
      【公開(kāi)日】2014年7月9日 申請(qǐng)日期:2014年4月15日 優(yōu)先權(quán)日:2014年4月15日
      【發(fā)明者】楊函濤 申請(qǐng)人:浪潮軟件股份有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1