国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用戶點(diǎn)擊行為鏈的處理方法及裝置與流程

      文檔序號:11133984閱讀:1355來源:國知局
      用戶點(diǎn)擊行為鏈的處理方法及裝置與制造工藝

      本發(fā)明涉及互聯(lián)網(wǎng)行為分析技術(shù)領(lǐng)域,尤其涉及一種用戶點(diǎn)擊行為鏈的處理方法及裝置。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)科技的發(fā)展,各種圍繞互聯(lián)網(wǎng)的分析和研究越來越多。例如在互聯(lián)網(wǎng)企業(yè)中,海量的用戶點(diǎn)擊行為日志是最重要的數(shù)據(jù)資產(chǎn)之一,通過對用戶點(diǎn)擊日志處理,并構(gòu)建用戶點(diǎn)擊行為鏈,進(jìn)而挖掘用戶的行為模式、興趣點(diǎn)等等,可以為推薦、廣告預(yù)估等業(yè)務(wù)提供強(qiáng)有力的數(shù)據(jù)支持。因此,用戶點(diǎn)擊行為鏈的構(gòu)建在互聯(lián)網(wǎng)大數(shù)據(jù)處理中處于非?;A(chǔ)和關(guān)鍵的位置。

      隨著數(shù)據(jù)應(yīng)用和數(shù)據(jù)融合的發(fā)展,用戶點(diǎn)擊行為鏈分析不再局限于同一產(chǎn)品線、同一企業(yè)內(nèi)部,而往往是跨產(chǎn)品線、跨企業(yè)的融合數(shù)據(jù)。由于不同產(chǎn)品線和企業(yè)間收集的用戶點(diǎn)擊日志由于日志規(guī)則、用戶標(biāo)識等的不兼容,現(xiàn)有技術(shù)中,通常僅能夠?qū)Ω鱾€產(chǎn)品線分別做點(diǎn)擊行為鏈的劃分和分析。使用時,再基于簡單的用戶標(biāo)識關(guān)聯(lián)信息,分別抽取對應(yīng)于各產(chǎn)品線中的行為鏈數(shù)據(jù)。即現(xiàn)有技術(shù)的跨產(chǎn)品線的用戶點(diǎn)擊行為鏈,而只是把各產(chǎn)品線的數(shù)據(jù)簡單累加到一起。

      但是,實(shí)際應(yīng)用中用戶的點(diǎn)擊行為在各產(chǎn)品線之間往往會出現(xiàn)交叉現(xiàn)象,但是現(xiàn)有技術(shù)的方案對這種交叉跳轉(zhuǎn)行為沒有進(jìn)行有效處理,導(dǎo)致現(xiàn)有技術(shù)所構(gòu)建的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較差,不能準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明提供了一種用戶點(diǎn)擊行為鏈的處理方法的方法和裝置,用于提高構(gòu)建的用戶點(diǎn)擊行為鏈的準(zhǔn)確性,以使得用戶點(diǎn)擊行為鏈能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。

      本發(fā)明提供一種用戶點(diǎn)擊行為鏈的處理方法,所述方法包括:

      根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

      根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

      對各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的方法中,根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列,具體包括:

      從各所述產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識的點(diǎn)擊行為信息按照時間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點(diǎn)擊行為信息包括點(diǎn)擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標(biāo)識以及通用用戶標(biāo)識。

      進(jìn)一步可選地,如上所述的方法中,所述通用用戶標(biāo)識包括IP信息、瀏覽器標(biāo)識、硬件設(shè)備標(biāo)識和媒體訪問控制地址中的至少一個。

      進(jìn)一步可選地,如上所述的方法中,根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇,具體包括:

      根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

      根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點(diǎn)和所述鏈出點(diǎn),將同一所述用戶標(biāo)識在同一所述產(chǎn)品線中的所述鏈入點(diǎn),分別與在同一所述產(chǎn)品線對應(yīng)的相鄰的所述鏈出點(diǎn)或者在同一所述產(chǎn)品線對應(yīng)的后相鄰的所述鏈入點(diǎn)之間的行為序列,劃分為各所述用戶的行為簇。

      進(jìn)一步可選地,如上所述的方法中,對各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

      根據(jù)各所述通用用戶標(biāo)識,對各所述產(chǎn)品線的所述用戶進(jìn)行匹配;

      將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的方法中,根據(jù)各所述通用用戶標(biāo)識,對各所述產(chǎn)品線的所述用戶進(jìn)行匹配,具體包括:

      將不同所述產(chǎn)品線中,所述通用用戶標(biāo)識相同的用戶匹配為同一個所述用戶。

      進(jìn)一步可選地,如上所述的方法中,將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

      提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

      提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

      根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的方法中,根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

      對于各所述鏈出點(diǎn)和各所述鏈入點(diǎn),計算所述鏈出點(diǎn)當(dāng)前鏈接URL的hostname與所述鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

      計算所述鏈出點(diǎn)后向鏈接的URL的hostname與所述鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

      計算所述鏈出點(diǎn)當(dāng)前鏈接URL的path與所述鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

      計算所述鏈出點(diǎn)后向鏈接的URL的path與所述鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

      計算所述鏈出點(diǎn)的所述點(diǎn)擊時間戳和所述鏈入點(diǎn)的所述點(diǎn)擊時間戳的差值;

      根據(jù)各所述鏈出點(diǎn)和各所述鏈入點(diǎn)對應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn);

      根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn),將同一所述用戶的各個所述行為簇鏈接起來,生成對應(yīng)所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的方法中,所述預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;所述采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

      本發(fā)明還提供一種用戶點(diǎn)擊行為鏈的處理裝置,所述裝置包括:

      行為序列生成模塊,用于根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

      行為簇劃分模塊,用于根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

      全網(wǎng)點(diǎn)擊行為鏈生成模塊,用于對各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的裝置中,所述行為序列生成模塊,具體用于從各所述產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識的點(diǎn)擊行為信息按照時間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點(diǎn)擊行為信息包括點(diǎn)擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標(biāo)識以及通用用戶標(biāo)識。

      進(jìn)一步可選地,如上所述的裝置中,所述通用用戶標(biāo)識包括IP信息、瀏覽器標(biāo)識、硬件設(shè)備標(biāo)識和媒體訪問控制地址中的至少一個。

      進(jìn)一步可選地,如上所述的裝置中,所述行為簇劃分模塊,具體用于:

      根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

      根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點(diǎn)和所述鏈出點(diǎn),將同一所述用戶標(biāo)識在同一所述產(chǎn)品線中的所述鏈入點(diǎn),分別與在同一所述產(chǎn)品線對應(yīng)的相鄰的所述鏈出點(diǎn)或者在同一所述產(chǎn)品線對應(yīng)的后相鄰的所述鏈入點(diǎn)之間的行為序列,劃分為各所述用戶的行為簇。

      進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈生成模塊,具體包括:

      用戶匹配單元,用于根據(jù)各所述通用用戶標(biāo)識,對各所述產(chǎn)品線的所述用戶進(jìn)行匹配;

      全網(wǎng)點(diǎn)擊行為鏈生成單元,用于將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的裝置中,所述用戶匹配單元,用于將不同所述產(chǎn)品線中,所述通用用戶標(biāo)識相同的用戶匹配為同一個所述用戶。

      進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈生成單元,具體包括:

      提取子單元,用于提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

      所述提取子單元,還用于提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

      全網(wǎng)點(diǎn)擊行為鏈子單元,用于根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈子單元,具體用于:

      對于各所述鏈出點(diǎn)和各所述鏈入點(diǎn),計算所述鏈出點(diǎn)當(dāng)前鏈接URL的hostname與所述鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

      計算所述鏈出點(diǎn)后向鏈接的URL的hostname與所述鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

      計算所述鏈出點(diǎn)當(dāng)前鏈接URL的path與所述鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

      計算所述鏈出點(diǎn)后向鏈接的URL的path與所述鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

      計算所述鏈出點(diǎn)的所述點(diǎn)擊時間戳和所述鏈入點(diǎn)的所述點(diǎn)擊時間戳的差值;

      根據(jù)各所述鏈出點(diǎn)和各所述鏈入點(diǎn)對應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn);

      根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn),將同一所述用戶的各個所述行為簇鏈接起來,生成對應(yīng)所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,如上所述的裝置中,所述預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;所述采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

      本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法及裝置,通過根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。通過采用本發(fā)明的技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本發(fā)明的技術(shù)方案,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本發(fā)明的技術(shù)方案,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

      【附圖說明】

      圖1為本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法實(shí)施例的流程圖。

      圖2為本發(fā)明實(shí)施例的匹配的鏈入點(diǎn)和鏈出點(diǎn)的關(guān)系圖。

      圖3為本發(fā)明實(shí)施例的一種用戶的全網(wǎng)點(diǎn)擊行為鏈的示意圖。

      圖4為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例一的結(jié)構(gòu)圖。

      圖5為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例二的結(jié)構(gòu)圖。

      【具體實(shí)施方式】

      為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。

      圖1為本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法實(shí)施例的流程圖。如圖1所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,具體可以包括如下步驟:

      100、根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;

      101、根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;

      102、對各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法的執(zhí)行主體為戶點(diǎn)擊行為鏈的處理裝置,該裝置可以設(shè)置在一個網(wǎng)絡(luò)管理設(shè)備中,用于進(jìn)行該公司內(nèi)或者公司內(nèi)外的全網(wǎng)session分析。例如,本實(shí)施例的技術(shù)方案可以適用于百度公司,其對應(yīng)的各產(chǎn)品線可以包括搜索、百度百科、百度貼吧、百度地圖等等百度域內(nèi)產(chǎn)品線,或者還可以包括微博、愛奇藝等域外數(shù)據(jù)。由于每個產(chǎn)品線對用戶標(biāo)識的定義都不盡相同,采集的用戶日志信息也千差萬別,直接基于時間序列構(gòu)建用戶行為鏈就變的非常困難。因此,本實(shí)施例中,首先根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列。具體地,各產(chǎn)品線內(nèi)部的用戶行為日志通常會有獨(dú)立的用戶標(biāo)識字段,用于標(biāo)識同一用戶。在產(chǎn)品線內(nèi)部,可基于獨(dú)立而明確的用戶標(biāo)識進(jìn)行聚合,并按時間序列進(jìn)行排序,由此得到每個產(chǎn)品線內(nèi)的基礎(chǔ)用戶的行為序列。每一個產(chǎn)品線內(nèi)可以采集到多個用戶的點(diǎn)擊行為信息,對應(yīng)生成多個用戶的行為序列。

      本實(shí)施例中,針對不同產(chǎn)品線的用戶點(diǎn)擊行為信息進(jìn)行融合處理,這些點(diǎn)擊行為信息可以從對應(yīng)產(chǎn)品線的日志數(shù)據(jù)中獲取。因此,首先需要明確若干通用的日志信息或日志字段,所謂“通用”,是指這些信息或字段在所有典型的點(diǎn)擊日志中都會被包含。因此,本實(shí)施例的點(diǎn)擊行為信息即通用日志信息或字段包括但不限于:

      用戶標(biāo)識:用于標(biāo)識該用于在該產(chǎn)品線內(nèi)的標(biāo)識;

      點(diǎn)擊時間戳:記錄點(diǎn)擊行為發(fā)生時的時間戳;

      當(dāng)前鏈接的統(tǒng)一資源定位符(Uniform Resoure Locator;URL):記錄點(diǎn)擊行為發(fā)生的當(dāng)前頁面URL;

      前向鏈接的URL:記錄導(dǎo)入當(dāng)前頁面的URL,即當(dāng)前頁面的前一頁面URL,可以簡稱為前鏈的URL;

      后向鏈接的URL:記錄由當(dāng)前頁面導(dǎo)出的目標(biāo)頁面URL,即當(dāng)前頁面的后一頁面的URL,可以簡稱為后鏈的URL;

      通用用戶標(biāo)識:包括但不限于IP信息、瀏覽器標(biāo)識、硬件設(shè)備信息以及媒體訪問控制(Media Access Control;MAC)地址中的至少一個。

      因此,步驟100具體可以為從各產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識的點(diǎn)擊行為信息按照時間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點(diǎn)擊行為信息包括點(diǎn)擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標(biāo)識以及通用用戶標(biāo)識。

      生成各用戶在各產(chǎn)品線內(nèi)的行為序列之后,可以將同一用戶在同一各產(chǎn)品線內(nèi)具有先后時序關(guān)系的行為序列作為一個行為簇,即根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇。具體地,步驟101“根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇”,具體可以包括如下步驟:

      (a1)根據(jù)各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

      (a2)根據(jù)各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn),將同一用戶標(biāo)識在同一產(chǎn)品線中的鏈入點(diǎn),分別與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點(diǎn)或者在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點(diǎn)之間的行為序列,劃分為各用戶的行為簇。

      具體地,在劃分用戶在每個產(chǎn)品線的行為簇時,可以根據(jù)該用戶在該產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn)來劃分。鏈入點(diǎn)可以定義為當(dāng)前用戶行為日志的前鏈的URL不屬于本產(chǎn)品線,即當(dāng)前用戶行為是從其他產(chǎn)品線跳轉(zhuǎn)過來的。鏈出點(diǎn)定義為當(dāng)前用戶行為日志的后鏈的URL不屬于本產(chǎn)品線,即從當(dāng)前用戶行為跳轉(zhuǎn)至其他產(chǎn)品線。同一個產(chǎn)品線,同一個用戶可以包括多個鏈出點(diǎn),也可以包括多個鏈入點(diǎn),在劃分行為簇時,將同一用戶標(biāo)識在同一產(chǎn)品線中的鏈入點(diǎn)與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點(diǎn)(包括該鏈出點(diǎn))之間的行為序列,劃分為該用戶的一個行為簇。另外,對于有的用戶的行為序列,存在鏈入點(diǎn),而不存在相鄰的鏈出點(diǎn),然后再多一段時間,再會存在一個后相鄰的鏈入點(diǎn)。此時還可以將同一用戶標(biāo)識在同一產(chǎn)品線中的鏈入點(diǎn)與在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點(diǎn)(不包括該鏈入點(diǎn))之間的行為序列,劃分為該用戶的一個行為簇。用戶的行為簇是生成全網(wǎng)用戶行為鏈的最小不可分單元。特殊的,當(dāng)一用戶日志既是日志鏈入點(diǎn),又是鏈出點(diǎn)時,該條日志獨(dú)立形成一用戶行為簇。也就是說,用戶的行為簇不限制有幾條用戶的點(diǎn)擊行為信息,可以只包括一條,也可以包括多條。

      根據(jù)劃分好的行為簇,對各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,從而將全網(wǎng)的同一用戶的各個行為簇鏈接在一起,從而生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。通過采用本實(shí)施例的技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

      進(jìn)一步可選地,在上述實(shí)施例的技術(shù)方案的基礎(chǔ)上,步驟102“對各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括如下步驟:

      (b1)根據(jù)各通用用戶標(biāo)識,對各產(chǎn)品線的用戶進(jìn)行匹配;

      例如該步驟具體可以包括:將不同產(chǎn)品線中,通用用戶標(biāo)識相同的用戶匹配為同一個用戶。

      由于跨產(chǎn)品線之間往往不存在統(tǒng)一的明確用戶標(biāo)識,無法直接對某一用戶的所有行為進(jìn)行聚合。另外,由于產(chǎn)品線之間日志信息采集上的差異,簡單的比較鏈入點(diǎn)鏈出點(diǎn)的URL是否相同來進(jìn)行跳轉(zhuǎn)匹配,也是很難行得通的。因此,本實(shí)施例中,首先基于通用用戶標(biāo)識的模糊聚合。由于各產(chǎn)品線用戶日志信息雖然沒有統(tǒng)一的明確的用戶標(biāo)識,但是都會收集前述的通用用戶標(biāo)識信息,包括但不限于IP信息、瀏覽器標(biāo)識、硬件設(shè)備信息以及mac地址等等中的至少一個,通用用戶標(biāo)識用于標(biāo)識該用戶所使用的硬件的信息。可根據(jù)這些通用用戶標(biāo)識對用戶行為簇進(jìn)行模糊聚合,即將通用用戶標(biāo)識相同的用戶作為同一用戶,可以有效縮小后續(xù)用戶跳轉(zhuǎn)行為鏈匹配的搜索范圍。

      具體在根據(jù)通用用戶標(biāo)識對用戶行為簇進(jìn)行模糊聚合時,可以認(rèn)為,不同產(chǎn)品線的點(diǎn)擊行為信息對應(yīng)的通用用戶標(biāo)識中的IP信息、瀏覽器標(biāo)識、硬件設(shè)備信息以及mac地址只要有一個相同,可以認(rèn)為是同一用戶,為了提高匹配的準(zhǔn)確性,不同產(chǎn)品線中的點(diǎn)擊行為信息中的通用用戶標(biāo)識中的IP信息、瀏覽器標(biāo)識、硬件設(shè)備信息以及mac地址中相同的越多,說明匹配的準(zhǔn)確性越高。因此,在實(shí)施時,也可以將匹配的標(biāo)準(zhǔn)設(shè)置為:不同產(chǎn)品線的點(diǎn)擊行為信息對應(yīng)的通用用戶標(biāo)識中的IP信息、瀏覽器標(biāo)識、硬件設(shè)備信息以及mac地址中預(yù)設(shè)數(shù)值個相同,這個預(yù)設(shè)數(shù)值可以根據(jù)每個產(chǎn)品的需求,設(shè)置為一個、兩個、或者三個或者其他數(shù)值個。另外,通用用戶標(biāo)識除了上述參數(shù),還可以進(jìn)一步擴(kuò)展包括其他標(biāo)識用戶的信息。

      (b2)將匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      例如,該步驟(b2)“將匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括如下步驟:

      (c1)提取匹配后屬于同一用戶的各個行為簇的鏈出點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

      (c2)提取匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

      (c3)根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      通過對同一用戶的鏈出點(diǎn)和鏈入點(diǎn)的精確匹配,可以實(shí)現(xiàn)確定跨產(chǎn)品線的用戶跳轉(zhuǎn)行為鏈打通。由于日志信息記錄的偏差,直接匹配鏈出點(diǎn)和鏈入點(diǎn)的URL是否相同并不可取。為此,本實(shí)施例中通過拆解鏈入點(diǎn)的URL和鏈出點(diǎn)URL的組成子域分別比較來提升對信息偏差的容忍度。URL的一般結(jié)構(gòu)為:protocol://hostname[:port]/path/[;parameters][?query]#fragment,其中hostname和path是關(guān)鍵信息,為此,本實(shí)施例中針對各個鏈出鏈入的URL、前向鏈接的URL、后向鏈接的URL分別提取hostname及path。

      然后根據(jù)提取的匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)的上述信息以及匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳,將各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      例如,步驟(c3)“根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括:

      (d1)對于各鏈出點(diǎn)和各鏈入點(diǎn),計算鏈出點(diǎn)當(dāng)前鏈接URL的hostname與鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

      (d2)計算鏈出點(diǎn)后向鏈接的URL的hostname與鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

      (d3)計算鏈出點(diǎn)當(dāng)前鏈接URL的path與鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

      (d4)計算鏈出點(diǎn)后向鏈接的URL的path與鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

      (d5)計算鏈出點(diǎn)的點(diǎn)擊時間戳和鏈入點(diǎn)的點(diǎn)擊時間戳的差值;

      (d6)根據(jù)各鏈出點(diǎn)和各鏈入點(diǎn)對應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn);

      (d7)根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈。

      由于匹配的鏈入點(diǎn)和鏈出點(diǎn)具有圖2所示的關(guān)系。因此本實(shí)施例中通過步驟(d1)-(d4)計算第一相似度到第四相似度,以確定鏈出點(diǎn)和鏈入點(diǎn)是否匹配。具體計算時,可以參考兩個字符串的最長公共子串的長度與兩者中較長字符串長度的比值:

      其中str1和str2分別為要比較的兩個客體,如在計算第一相似度時,str1對應(yīng)鏈出點(diǎn)當(dāng)前鏈接URL的hostname,str2對應(yīng)鏈入點(diǎn)的前向鏈接的URL的hostname。如在計算第二相似度時,str1對應(yīng)鏈出點(diǎn)后向鏈接的URL的hostname,str2對應(yīng)鏈入點(diǎn)的當(dāng)前鏈接URL的hostname。如在計算第三相似度時,str1對應(yīng)鏈出點(diǎn)當(dāng)前鏈接URL的path,str2對應(yīng)鏈入點(diǎn)的前向鏈接的URL的path。如在計算第四相似度時,str1對應(yīng)鏈出點(diǎn)后向鏈接的URL的path,str2對應(yīng)鏈入點(diǎn)的當(dāng)前鏈接URL的path。

      經(jīng)上述步驟(d1)-(d5)提取特征之后,然后通過機(jī)器學(xué)習(xí)方法確定預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型。具體地,利用人工標(biāo)注的方式獲得一定量的訓(xùn)練樣本集,即對于一些確定是匹配的鏈出點(diǎn)和對應(yīng)鏈入點(diǎn)對,以及確定的一些不匹配的鏈出點(diǎn)和對應(yīng)鏈入點(diǎn)對,分別進(jìn)行人工標(biāo)注,從而得到大量的訓(xùn)練樣本集。然后分別利用訓(xùn)練的樣本集訓(xùn)練鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,從而確定鏈入點(diǎn)和鏈出點(diǎn)的匹配模型的參數(shù),從而確定預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型。

      然后,將上述步驟(d1)-(d5)計算的第一相似度、第二相似度、第三相似度以及第四相似度點(diǎn)和點(diǎn)擊時間戳的差值,分別輸入到預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型中,從而可以輸出對應(yīng)的鏈入點(diǎn)和鏈出點(diǎn)是否匹配的結(jié)果。通過對所有的鏈出點(diǎn)和鏈入點(diǎn)采用上述方式進(jìn)行確定,可以得到所有匹配的鏈出點(diǎn)和鏈入點(diǎn)。

      本實(shí)施例的機(jī)器學(xué)習(xí)方法包括但不限于邏輯回歸、決策樹或者支持向量機(jī)(Support Vector Machine;SVM)方法。

      最后,根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈,即根據(jù)各行為簇的鏈入點(diǎn)和鏈出點(diǎn)的匹配結(jié)果,導(dǎo)出用戶的全網(wǎng)點(diǎn)擊行為鏈。例如圖3為本發(fā)明實(shí)施例的一種用戶的全網(wǎng)點(diǎn)擊行為鏈的示意圖。如圖3所示,首先找到具有最早時間戳的行為簇G1,假設(shè)G1具有鏈出點(diǎn)G1o,確定G1o的最佳匹配鏈入點(diǎn)為G2i,此鏈入點(diǎn)屬于行為簇G2,則可將行為簇G1和G2串聯(lián)起來,通過G1o—>G2i實(shí)現(xiàn)跳轉(zhuǎn)。依次進(jìn)行,直至無法找到合適的鏈出鏈入匹配,或者行為簇?zé)o鏈出點(diǎn)時停止,由此即可獲得一條用戶的全網(wǎng)點(diǎn)擊行為鏈。

      上述實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過采用上述技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

      圖4為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例一的結(jié)構(gòu)圖。如圖4所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,具體可以包括:行為序列生成模塊10、行為簇劃分模塊11和全網(wǎng)點(diǎn)擊行為鏈生成模塊12。

      其中,行為序列生成模塊10用于根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;行為簇劃分模塊11用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;全網(wǎng)點(diǎn)擊行為鏈生成模塊12用于對行為簇劃分模塊11劃分的各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,通過采用上述模塊實(shí)現(xiàn)用戶點(diǎn)擊行為鏈的處理,與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)原理以及技術(shù)效果相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

      圖5為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例二的結(jié)構(gòu)圖。如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置在上述圖4所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,行為序列生成模塊10具體用于從各產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識的點(diǎn)擊行為信息按照時間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點(diǎn)擊行為信息包括點(diǎn)擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標(biāo)識以及通用用戶標(biāo)識。

      進(jìn)一步可選地,其中的通用用戶標(biāo)識包括IP信息、瀏覽器標(biāo)識、硬件設(shè)備標(biāo)識和媒體訪問控制地址中的至少一個。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,行為簇劃分模塊11具體用于:

      根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

      根據(jù)各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn),將同一用戶標(biāo)識在同一產(chǎn)品線中的鏈入點(diǎn),分別與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點(diǎn)或者在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點(diǎn)之間的行為序列,劃分為各用戶的行為簇。

      進(jìn)一步可選地,如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,全網(wǎng)點(diǎn)擊行為鏈生成模塊12具體包括:用戶匹配單元121和全網(wǎng)點(diǎn)擊行為鏈生成單元122。

      其中用戶匹配單元121用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線內(nèi)的行為序列中的點(diǎn)擊行為信息中的各通用用戶標(biāo)識,對各產(chǎn)品線的用戶進(jìn)行匹配;

      全網(wǎng)點(diǎn)擊行為鏈生成單元122用于將用戶匹配單元121匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      例如,用戶匹配單元121用于將不同產(chǎn)品線中,通用用戶標(biāo)識相同的用戶匹配為同一個用戶。

      進(jìn)一步可選地,如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,全網(wǎng)點(diǎn)擊行為鏈生成單元122具體包括:提取子單元1221和全網(wǎng)點(diǎn)擊行為鏈子單元1222。

      其中提取子單元1221用于根據(jù)用戶匹配單元121的匹配結(jié)果,提取匹配后屬于同一用戶的各個行為簇的鏈出點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;提取子單元1221還用于提取匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;全網(wǎng)點(diǎn)擊行為鏈子單元1222用于根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點(diǎn)的點(diǎn)擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,全網(wǎng)點(diǎn)擊行為鏈子單元1222具體用于:

      對于各鏈出點(diǎn)和各鏈入點(diǎn),計算鏈出點(diǎn)當(dāng)前鏈接URL的hostname與鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

      計算鏈出點(diǎn)后向鏈接的URL的hostname與鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

      計算鏈出點(diǎn)當(dāng)前鏈接URL的path與鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

      計算鏈出點(diǎn)后向鏈接的URL的path與鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

      計算鏈出點(diǎn)的點(diǎn)擊時間戳和鏈入點(diǎn)的點(diǎn)擊時間戳的差值;

      根據(jù)各鏈出點(diǎn)和各鏈入點(diǎn)對應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn);

      根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈。

      進(jìn)一步可選地,預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

      本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,通過采用上述模塊實(shí)現(xiàn)用戶點(diǎn)擊行為鏈的處理,與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)原理以及技術(shù)效果相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

      在本發(fā)明所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式。

      所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

      另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

      上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實(shí)施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機(jī)存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

      以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1