一種用戶行為數(shù)據(jù)的分析方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種用戶行為數(shù)據(jù)的分析方法和裝置,用于準(zhǔn)確分析用戶行為,提高廣告推送對(duì)象的針對(duì)性。本發(fā)明實(shí)施例方法包括:獲取用戶注冊(cè)到數(shù)據(jù)源后在數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù),其中,數(shù)據(jù)源中包括注冊(cè)到數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),行為數(shù)據(jù)為記錄用戶在數(shù)據(jù)源中的行為的數(shù)據(jù)信息;從用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,用戶標(biāo)簽是用于表征用戶的行為的信息;獲取預(yù)置的定向人群特征,定向人群特征為滿足定向特征要求的人群所具有的特征;根據(jù)用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和用戶標(biāo)簽從數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群,目標(biāo)用戶群包括符合定向人群特征的多個(gè)用戶。
【專(zhuān)利說(shuō)明】一種用戶行為數(shù)據(jù)的分析方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種用戶行為數(shù)據(jù)的分析方法和裝置。
【背景技術(shù)】
[0002] 用戶在數(shù)據(jù)源上注冊(cè)后,用戶在數(shù)據(jù)源上會(huì)進(jìn)行各種行為,比如在A官網(wǎng)上發(fā)表 評(píng)論,在B官網(wǎng)上拍下寶貝并支付,數(shù)據(jù)源會(huì)保存用戶的行為類(lèi)數(shù)據(jù),為了準(zhǔn)確描述用戶在 數(shù)據(jù)源中進(jìn)行的相關(guān)行為,需要對(duì)用戶行為進(jìn)行分析,通常需要先對(duì)用戶的注冊(cè)類(lèi)數(shù)據(jù)和 行為類(lèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,例如對(duì)注冊(cè)類(lèi)數(shù)據(jù)和行為類(lèi)數(shù)據(jù)進(jìn)行過(guò)濾、轉(zhuǎn)換、集成等,從 預(yù)處理過(guò)的用戶數(shù)據(jù)中提取出用戶標(biāo)簽(tag)。
[0003] 提取出的用戶標(biāo)簽之后,可以根據(jù)用戶標(biāo)簽與預(yù)先設(shè)定的興趣類(lèi)別進(jìn)行匹配,以 用戶標(biāo)簽與預(yù)先設(shè)定的興趣類(lèi)別的匹配度來(lái)反映分析出的用戶行為,廣告商可以根據(jù)分析 出的用戶行為向符合廣告商要求的用戶推送廣告,以宣傳產(chǎn)品或服務(wù)。常用的技術(shù)手段可 以是將提取出的用戶標(biāo)簽與設(shè)定的標(biāo)準(zhǔn)興趣進(jìn)行相似性匹配計(jì)算,以將用戶標(biāo)簽歸類(lèi)到最 準(zhǔn)確的興趣類(lèi)別下,從而分析出用戶行為,進(jìn)而根據(jù)分析出的用戶行為向符合廣告商要求 的興趣類(lèi)型的用戶推送廣告。
[0004] 但是現(xiàn)有技術(shù)中,用戶標(biāo)簽的提取是基于用戶的注冊(cè)類(lèi)數(shù)據(jù)和行為類(lèi)數(shù)據(jù)進(jìn)行 的,并且僅根據(jù)提取出的用戶標(biāo)簽與設(shè)定的標(biāo)準(zhǔn)興趣就完成了相似度的計(jì)算,但是僅依靠 用戶標(biāo)簽并不能完全反映出的用戶行為,這將導(dǎo)致在后續(xù)計(jì)算用戶標(biāo)簽和標(biāo)準(zhǔn)興趣的相似 度時(shí)計(jì)算出的相似度不能準(zhǔn)確的分析出用戶行為,并且不同種類(lèi)的廣告商所希望廣告被推 送到的用戶群也是不同的,但是現(xiàn)有技術(shù)中所有興趣類(lèi)型所匹配的用戶標(biāo)簽并沒(méi)有任何差 另IJ,廣告商按照這樣分析出的用戶行為進(jìn)行廣告推送,廣告推送對(duì)象的針對(duì)性不高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例提供了一種用戶行為數(shù)據(jù)的分析方法和裝置,用于準(zhǔn)確分析用戶行 為,提高廣告推送對(duì)象的針對(duì)性。
[0006] 為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
[0007] 第一方面,本發(fā)明實(shí)施例提供一種用戶行為數(shù)據(jù)的分析方法,包括:
[0008] 獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù),其中,所述數(shù)據(jù)源中 包括注冊(cè)到所述數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),所述行為數(shù)據(jù)為記錄用戶在所 述數(shù)據(jù)源中的行為的數(shù)據(jù)信息;
[0009] 從所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,所述用戶標(biāo)簽是用于表 征所述用戶的行為的信息;
[0010] 獲取預(yù)置的定向人群特征,所述定向人群特征為滿足定向特征要求的人群所具有 的特征;
[0011] 根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有 用戶中提取符合定向人群特征的目標(biāo)用戶群,所述目標(biāo)用戶群包括符合定向人群特征的多 個(gè)用戶。
[0012] 第二方面,本發(fā)明實(shí)施例還提供一種用戶行為數(shù)據(jù)的分析裝置,包括:
[0013] 數(shù)據(jù)獲取模塊,用于獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù), 其中,所述數(shù)據(jù)源中包括注冊(cè)到所述數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),所述行為 數(shù)據(jù)為記錄用戶在所述數(shù)據(jù)源中的行為的數(shù)據(jù)信息;
[0014] 標(biāo)簽提取模塊,用于從所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,所 述用戶標(biāo)簽是用于表征所述用戶的行為的信息;
[0015] 特征獲取模塊,用于獲取預(yù)置的定向人群特征,所述定向人群特征為滿足定向特 征要求的人群所具有的特征;
[0016] 用戶群提取模塊,用于根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和所述用戶標(biāo)簽 從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群,所述目標(biāo)用戶群包括符 合定向人群特征的多個(gè)用戶。
[0017] 從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
[0018] 在本發(fā)明實(shí)施例中,首先獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù) 據(jù),從用戶在在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,然后獲取預(yù)置的定向人群特征, 最后根據(jù)用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和上述用戶標(biāo)簽從數(shù)據(jù)源的所有用戶中提取符 合定向人群特征的目標(biāo)用戶群,其中提取到的目標(biāo)用戶群包括符合定向人群特征的多個(gè)用 戶。由于可以根據(jù)用戶在數(shù)據(jù)源產(chǎn)生的行為數(shù)據(jù)和提取出的用戶標(biāo)簽對(duì)數(shù)據(jù)源中的所有用 戶進(jìn)行用戶行為分析,可以提高用戶行為分析的準(zhǔn)確度,并且可以根據(jù)設(shè)定的定向人群特 征從數(shù)據(jù)源中的所有用戶提取符合定向人群特征要求的用戶,提取到的符合定向人群特征 要求的所有用戶構(gòu)成目標(biāo)用戶群,由于可以根據(jù)不同的廣告商要求來(lái)設(shè)定定向人群特征, 故不同廣告需求所提取出的目標(biāo)用戶群也是不同的,在進(jìn)行廣告推送時(shí)只針對(duì)符合定向人 群特征的目標(biāo)用戶群來(lái)推送,故提高了廣告推送對(duì)象的針對(duì)性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0019] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域的技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
[0020] 圖1為本發(fā)明實(shí)施例提供的一種用戶行為數(shù)據(jù)的分析方法的流程方框示意圖;
[0021] 圖2-a為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析方法的流程示意圖;
[0022] 圖2_b為本發(fā)明實(shí)施例提供的規(guī)則挖掘的實(shí)現(xiàn)方式流程示意圖;
[0023] 圖2-c為本發(fā)明實(shí)施例提供的模型訓(xùn)練的實(shí)現(xiàn)方式流程示意圖;
[0024] 圖3_a為本發(fā)明實(shí)施例提供的一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意圖;
[0025] 圖3_b為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0026] 圖3-c為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0027] 圖3-d為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0028] 圖3_e為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0029] 圖3_f為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0030] 圖3_g為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0031] 圖3_h為本發(fā)明實(shí)施例提供的另一種用戶行為數(shù)據(jù)的分析裝置的組成結(jié)構(gòu)示意 圖;
[0032] 圖4為本發(fā)明實(shí)施例提供的用戶行為數(shù)據(jù)的分析方法應(yīng)用于服務(wù)器的組成結(jié)構(gòu) 示意圖。
【具體實(shí)施方式】
[0033] 本發(fā)明實(shí)施例提供了一種用戶行為數(shù)據(jù)的分析方法和裝置,用于準(zhǔn)確分析用戶行 為,提高廣告推送對(duì)象的針對(duì)性。
[0034] 為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明 實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,下面所描述 的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而非全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域的 技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0035] 本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)"第一"、"第二"等是用于區(qū)別 類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的術(shù)語(yǔ)在適當(dāng)情 況下可以互換,這僅僅是描述本發(fā)明的實(shí)施例中對(duì)相同屬性的對(duì)象在描述時(shí)所采用的區(qū)分 方式。
[0036] 本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)"第一"、"第二"等是用于區(qū)別 類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的術(shù)語(yǔ)在適當(dāng)情 況下可以互換,這僅僅是描述本發(fā)明的實(shí)施例中對(duì)相同屬性的對(duì)象在描述時(shí)所采用的區(qū)分 方式。此外,術(shù)語(yǔ)"包括"和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,以 便包含一系列單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于那些單元,而是可包括沒(méi)有清 楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它單元。
[0037] 以下分別進(jìn)行詳細(xì)說(shuō)明。
[0038] 本發(fā)明移動(dòng)設(shè)備的用戶行為數(shù)據(jù)的分析方法的一個(gè)實(shí)施例,可以包括:從用戶在 數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽;根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和所 述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群,所述目標(biāo)用 戶群包括符合定向人群特征的多個(gè)用戶。
[0039] 請(qǐng)參閱圖1所示,本發(fā)明一個(gè)實(shí)施例提供的用戶行為數(shù)據(jù)的分析方法,可以包括 如下步驟:
[0040] 101、獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù)。
[0041] 其中,數(shù)據(jù)源包括注冊(cè)到所述數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),行為數(shù) 據(jù)為記錄用戶在數(shù)據(jù)源中的行為的數(shù)據(jù)信息。
[0042] 在本發(fā)明實(shí)施例中,數(shù)據(jù)源(Data Source)是提供某種所需要數(shù)據(jù)的器件或原始 媒體,即數(shù)據(jù)的來(lái)源,在數(shù)據(jù)源中存儲(chǔ)了所有建立數(shù)據(jù)庫(kù)連接的信息,通過(guò)提供的數(shù)據(jù)源名 稱可以找到相應(yīng)的數(shù)據(jù)庫(kù),數(shù)據(jù)源記錄下注冊(cè)到該數(shù)據(jù)源的所有用戶的行為數(shù)據(jù)。
[0043] 用戶在數(shù)據(jù)源上注冊(cè)后,用戶在數(shù)據(jù)源上會(huì)進(jìn)行各種行為,數(shù)據(jù)源會(huì)保存用戶的 行為數(shù)據(jù),首先從用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,其中在一個(gè)數(shù)據(jù)源中 可以有多個(gè)用戶分別產(chǎn)生多個(gè)行為數(shù)據(jù),并且一個(gè)用戶也可以在多個(gè)數(shù)據(jù)源中分別產(chǎn)生多 個(gè)行為數(shù)據(jù),本發(fā)明實(shí)施例中,數(shù)據(jù)源的選取可以是一個(gè)也可以是多個(gè),并且在選取了多個(gè) 數(shù)據(jù)源時(shí)還可以根據(jù)各個(gè)數(shù)據(jù)源中產(chǎn)生的數(shù)據(jù)類(lèi)型以及數(shù)據(jù)真實(shí)性以及測(cè)評(píng)結(jié)果來(lái)為每 個(gè)數(shù)據(jù)源設(shè)置權(quán)重,則對(duì)用戶產(chǎn)生的行為數(shù)據(jù)就可以從選取的多個(gè)數(shù)據(jù)源來(lái)提取。
[0044] 102、從用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽。
[0045] 其中,用戶標(biāo)簽是用于表征所述用戶的行為的信息。
[0046] 在本發(fā)明實(shí)施例中,用戶標(biāo)簽可以反映用戶在數(shù)據(jù)源中的產(chǎn)生的行為數(shù)據(jù),并且 對(duì)一個(gè)數(shù)據(jù)源中的多個(gè)行為數(shù)據(jù)也可以分別提取到多個(gè)用戶標(biāo)簽,而一個(gè)用戶在多個(gè)數(shù)據(jù) 源中產(chǎn)生的多個(gè)行為數(shù)據(jù)也可以提取到多個(gè)用戶標(biāo)簽,通過(guò)對(duì)用戶在數(shù)據(jù)源中產(chǎn)生行為數(shù) 據(jù)的提取可以得到用戶標(biāo)簽,需要說(shuō)明的是,本發(fā)明實(shí)施例中還可以根據(jù)用戶在數(shù)據(jù)源中 的注冊(cè)數(shù)據(jù)以及用戶在數(shù)據(jù)源中的行為數(shù)據(jù)來(lái)提取用戶標(biāo)簽。
[0047] 在本發(fā)明的一些實(shí)施例中,可以對(duì)首先對(duì)用戶在數(shù)據(jù)源中的注冊(cè)數(shù)據(jù)和行為數(shù)據(jù) 進(jìn)行數(shù)據(jù)預(yù)處理,例如可以對(duì)數(shù)據(jù)進(jìn)行遷移,將數(shù)據(jù)從多個(gè)數(shù)據(jù)源遷移到hadoop集群上, 也可以對(duì)異常數(shù)據(jù)清洗,例如將亂碼等信息過(guò)濾掉,還可以對(duì)沒(méi)有任何意義的數(shù)據(jù)進(jìn)行過(guò) 濾,還可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,例如字符集轉(zhuǎn)換成統(tǒng)一的編碼,對(duì)搜搜等源數(shù)據(jù)進(jìn)行解碼,還 可以對(duì)數(shù)據(jù)進(jìn)行集成,例如將所有數(shù)據(jù)源整理成統(tǒng)一的格式。
[0048] 在本發(fā)明的一些實(shí)施例中,可以對(duì)用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)進(jìn)行分詞,從 中提取到關(guān)鍵詞作為用戶標(biāo)簽。其中分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的 詞。目前的分詞方法效率都很高,單機(jī)版的算法對(duì)于50M的文件進(jìn)行分詞,20分鐘內(nèi)可完 成,Hadoop版的算法對(duì)于67G的文件進(jìn)行分詞(約1億條記錄),在1小時(shí)15分鐘內(nèi)可以完 成。
[0049] 本發(fā)明實(shí)施例中,對(duì)關(guān)鍵詞提取可以基于TFIDF改進(jìn)算法進(jìn)行的。主要思想是如 果某個(gè)詞或短語(yǔ)在用戶產(chǎn)生的行為數(shù)據(jù)中出現(xiàn)的頻率(TF,Term Frequency)高,并且在其 他行為數(shù)據(jù)中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)區(qū)分不 同特征。另外通過(guò)逆向文件頻率(inverse document frequency, IDF)來(lái)一個(gè)詞語(yǔ)普遍重要 性的度量。對(duì)于用戶的某個(gè)行為數(shù)據(jù)內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)數(shù)據(jù)源中的低文 件頻率,可以產(chǎn)生出高權(quán)重的TFIDF,此時(shí)該詞語(yǔ)就可以選擇成為用戶行為數(shù)據(jù)的關(guān)鍵詞。
[0050] 103、獲取預(yù)置的定向人群特征。
[0051] 其中,定向人群特征為滿足定向特征要求的人群所具有的特征。
[0052] 在本發(fā)明實(shí)施例中,獲取預(yù)置的定向人群特征即提取到對(duì)數(shù)據(jù)源中所有用戶進(jìn)行 篩選的篩選標(biāo)準(zhǔn),那么對(duì)于篩選標(biāo)準(zhǔn)的不同,獲取到的定向人群特征也是不同的,其中定向 人群特征描述了滿足定向特征要求的人群所應(yīng)該具有的特征。定向人群特征的設(shè)定與本 發(fā)明實(shí)施例提供的用戶行為數(shù)據(jù)的分析方法需要具體應(yīng)用到哪些領(lǐng)域也有關(guān)系,例如本發(fā) 明實(shí)施例提供的用戶行為數(shù)據(jù)的分析方法應(yīng)用到廣告的推送中時(shí),那么對(duì)于不同的廣告商 提出不同的廣告推送對(duì)象需求時(shí),可以設(shè)定滿足廣告商需求的定向人群特征,例如,廣告商 為母嬰產(chǎn)品廠商,那么針對(duì)母嬰產(chǎn)品廠商希望設(shè)定的定向人群特征必定是母嬰類(lèi)人群,如 果廣告商為游戲產(chǎn)品廠商,那么針對(duì)游戲產(chǎn)品廠商設(shè)定的定向人特征必定是喜歡游戲類(lèi)人 群,故本發(fā)明實(shí)施例中需要根據(jù)具體的應(yīng)用場(chǎng)景來(lái)設(shè)定定向人群特征。
[0053] 104、根據(jù)用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和上述用戶標(biāo)簽從數(shù)據(jù)源的所有用戶 中提取符合定向人群特征的目標(biāo)用戶群。
[0054] 其中,目標(biāo)用戶群包括符合定向人群特征的多個(gè)用戶。
[0055] 在本發(fā)明實(shí)施例中,從用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取到用戶標(biāo)簽之后, 使用用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和提取出的用戶標(biāo)簽就可以分析用戶行為,例如可以 通過(guò)用戶產(chǎn)生的行為數(shù)據(jù)和用戶標(biāo)簽分析出用戶的興趣愛(ài)好體系、用戶的消費(fèi)能力、感興 趣的電商甚至用戶的婚戀狀態(tài)。通過(guò)對(duì)行為數(shù)據(jù)結(jié)合提取出用戶標(biāo)簽對(duì)用戶行為分析,可 以提高分析出數(shù)據(jù)源中各個(gè)用戶的用戶行為準(zhǔn)確性,與現(xiàn)有技術(shù)中僅通過(guò)用戶標(biāo)簽與標(biāo)準(zhǔn) 興趣的相似度來(lái)分析用戶行為相比,準(zhǔn)確性更好,另外本發(fā)明實(shí)施例中可以根據(jù)用戶產(chǎn)生 的行為數(shù)據(jù)和用戶標(biāo)簽按照設(shè)定的定向人群特征來(lái)對(duì)數(shù)據(jù)源中的所有用戶進(jìn)行分析,將符 合定向人群特征的多個(gè)用戶納入到目標(biāo)用戶群,那么在不同的廣告商提出不同的廣告推送 對(duì)象需求時(shí),可以設(shè)定滿足廣告商需求的定向人群特征,以根據(jù)廣告商希望的定向人群特 征來(lái)篩選出目標(biāo)用戶群,那么按這樣篩選出的目標(biāo)用戶群來(lái)向用戶推送廣告,可以有更強(qiáng) 的廣告推送對(duì)象的針對(duì)性,也能夠及時(shí)迎合用戶本身的需要,從而實(shí)現(xiàn)廣告商和用戶的雙 贏。例如,廣告商為母嬰產(chǎn)品廠商,那么母嬰產(chǎn)品廠商希望設(shè)定的定向人群特征必定是母嬰 類(lèi)人群,則本發(fā)明實(shí)施例中就可以按照設(shè)定的母嬰類(lèi)人群特征來(lái)數(shù)據(jù)源中所有用戶進(jìn)行篩 選,從而提取到符合母嬰類(lèi)人群特征的目標(biāo)用戶群,例如從數(shù)據(jù)源中提取用戶采購(gòu)母嬰產(chǎn) 品的行為數(shù)據(jù),從數(shù)據(jù)源中提取發(fā)布嬰幼兒照片行為數(shù)據(jù),并且對(duì)這些行為數(shù)據(jù)以及產(chǎn)生 行為數(shù)據(jù)的用戶標(biāo)簽進(jìn)行用戶行為分析,可以分析出該用戶為女性、感興趣的電商類(lèi)別是 母嬰產(chǎn)品,則將這些符合母嬰類(lèi)人群特征的用戶提取到目標(biāo)用戶群,則當(dāng)廣告商向提取出 的目標(biāo)用戶群來(lái)推送母嬰產(chǎn)品及相關(guān)服務(wù)的廣告信息時(shí),能夠有較高的針對(duì)性,同時(shí)對(duì)于 接收到廣告的用戶來(lái)說(shuō),其本身確實(shí)關(guān)注點(diǎn)就在母嬰相關(guān)服務(wù)上,則可以直接購(gòu)買(mǎi)該廣告 類(lèi)服務(wù),而無(wú)需再去主動(dòng)搜尋和母嬰類(lèi)服務(wù)相關(guān)的信息,便于用戶的使用。
[0056] 需要說(shuō)明的是,在本發(fā)明實(shí)施例中在從數(shù)據(jù)源的所有用戶中提取符合定向人群特 征的目標(biāo)用戶群時(shí),可以按照本發(fā)明實(shí)際應(yīng)用場(chǎng)景的需求有多種實(shí)現(xiàn)手段,接下來(lái)進(jìn)行詳 細(xì)說(shuō)明。
[0057] 在本發(fā)明的一些實(shí)施例中,根據(jù)用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和用戶標(biāo)簽從數(shù) 據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群,具體可以包括如下步驟:
[0058] A1、按照定向人群特征的要求從數(shù)據(jù)源中已經(jīng)劃分的類(lèi)目中提取定向類(lèi)目;
[0059] A2、統(tǒng)計(jì)數(shù)據(jù)源中用戶標(biāo)簽符合定向類(lèi)目的用戶行為次數(shù);
[0060] A3、將數(shù)據(jù)源中用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的用戶提取到目標(biāo)用戶群中,其 中,目標(biāo)用戶群包括用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的所有用戶。
[0061] 其中,步驟A1至步驟A3描述的是通過(guò)規(guī)則挖掘的方式從數(shù)據(jù)源的所有用戶中提 取目標(biāo)用戶群,步驟A1中,從數(shù)據(jù)源中已經(jīng)劃分的類(lèi)目中提取能夠滿足定向人群特征的要 求的定向類(lèi)目,即對(duì)于定向人群特征的要求按照數(shù)據(jù)源中已經(jīng)劃分的類(lèi)目來(lái)設(shè)定定向類(lèi) 目,其中可以選取一個(gè)數(shù)據(jù)源也可以選取多個(gè)數(shù)據(jù)源,根據(jù)定向人群特征提取出的定向類(lèi) 目可以是一個(gè)類(lèi)目也可以是多個(gè)類(lèi)目。在數(shù)據(jù)源中通常會(huì)已經(jīng)劃分出固定的類(lèi)目,例如騰 訊分析網(wǎng)就已經(jīng)根據(jù)論壇的類(lèi)型整理出專(zhuān)有的定向類(lèi)目,在易迅、拍拍等數(shù)據(jù)源中也設(shè)定 專(zhuān)門(mén)的定向頻道,這些頻道中劃分有數(shù)碼、母嬰等類(lèi)型。步驟A2中對(duì)數(shù)據(jù)源中的用戶標(biāo)簽 按照定向類(lèi)目進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出用戶標(biāo)簽符合定向類(lèi)目的用戶行為次數(shù),將各個(gè)用戶的行 為次數(shù)作為用戶符合定向人群的分值。步驟A3中設(shè)定有定向類(lèi)目閾值,將統(tǒng)計(jì)出的各個(gè) 用戶的用戶行為次數(shù)與定向類(lèi)目閾值進(jìn)行比較,可以找出超過(guò)定向類(lèi)目閾值的用戶行為次 數(shù),將這些用戶行為次數(shù)對(duì)應(yīng)的用戶提取到目標(biāo)用戶群中。
[0062] 需要說(shuō)明的是,在本發(fā)明實(shí)施例中,步驟A2統(tǒng)計(jì)數(shù)據(jù)源中用戶標(biāo)簽符合定向類(lèi)目 的用戶行為次數(shù),具體可以包括:通過(guò)如下方式計(jì)算數(shù)據(jù)源中用戶標(biāo)簽符合定向類(lèi)目的用 戶行為次數(shù)number :
[0063]
【權(quán)利要求】
1. 一種用戶行為數(shù)據(jù)的分析方法,其特征在于,包括: 獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù),其中,所述數(shù)據(jù)源中包括 注冊(cè)到所述數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),所述行為數(shù)據(jù)為記錄用戶在所述數(shù) 據(jù)源中的行為的數(shù)據(jù)信息; 從所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,所述用戶標(biāo)簽是用于表征所 述用戶的行為的信息; 獲取預(yù)置的定向人群特征,所述定向人群特征為滿足定向特征要求的人群所具有的特 征; 根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶 中提取符合定向人群特征的目標(biāo)用戶群,所述目標(biāo)用戶群包括符合定向人群特征的多個(gè)用 戶。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群, 包括: 按照所述定向人群特征的要求從所述數(shù)據(jù)源中已經(jīng)劃分的類(lèi)目中提取定向類(lèi)目; 統(tǒng)計(jì)所述數(shù)據(jù)源中用戶標(biāo)簽符合所述定向類(lèi)目的用戶行為次數(shù); 將所述數(shù)據(jù)源中用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的用戶提取到所述目標(biāo)用戶群中,所 述目標(biāo)用戶群包括用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的所有用戶。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述統(tǒng)計(jì)所述數(shù)據(jù)源中用戶標(biāo)簽符合所 述定向類(lèi)目的用戶行為次數(shù),包括: 通過(guò)如下方式計(jì)算所述數(shù)據(jù)源中用戶標(biāo)簽符合所述定向類(lèi)目的用戶行為次數(shù) number :
其中,共N個(gè)數(shù)據(jù)源,所述λ i為第i個(gè)數(shù)據(jù)源的權(quán)重,所述第i個(gè)數(shù)據(jù)源共Μ個(gè)定向 類(lèi)目,所述count為用戶在每個(gè)數(shù)據(jù)源上的第j個(gè)定向類(lèi)目下的用戶行為次數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群, 包括: 按照所述定向人群特征的要求獲取所述定向人群特征具有的關(guān)鍵詞; 使用所述關(guān)鍵詞與提取出的所述用戶標(biāo)簽進(jìn)行匹配,計(jì)算出所述數(shù)據(jù)源中所有用戶標(biāo) 簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù); 根據(jù)所述數(shù)據(jù)源中所有用戶標(biāo)簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù)、遺忘因子計(jì) 算所述數(shù)據(jù)源中每個(gè)用戶的定向人群分值; 將所述數(shù)據(jù)源中定向人群分值超過(guò)定向人群關(guān)聯(lián)閾值的用戶提取到所述目標(biāo)用戶群 中,所述目標(biāo)用戶群包括所述數(shù)據(jù)源中定向人群分值超過(guò)定向人群關(guān)聯(lián)閾值的所有用戶。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述按照所述定向人群特征的要求獲取 所述定向人群特征具有的關(guān)鍵詞之后,還包括: 根據(jù)獲取到所述關(guān)鍵詞獲取與所述關(guān)鍵詞有聯(lián)系但不匹配所述定向人群特征的過(guò)濾 詞; 所述使用所述關(guān)鍵詞與提取出的所述用戶標(biāo)簽進(jìn)行匹配,計(jì)算出所述數(shù)據(jù)源中所有用 戶標(biāo)簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù),包括: 使用所述關(guān)鍵詞、所述過(guò)濾詞分別與提取出的所述用戶標(biāo)簽進(jìn)行匹配; 計(jì)算所述數(shù)據(jù)源中所有用戶標(biāo)簽與所述關(guān)鍵詞匹配成功且去除掉與所述過(guò)濾詞匹配 成功的用戶行為次數(shù)。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)源中所有用戶標(biāo)簽與 所述關(guān)鍵詞匹配成功的用戶行為次數(shù)、遺忘因子計(jì)算所述數(shù)據(jù)源中每個(gè)用戶的定向人群分 值,包括: 通過(guò)如下方式計(jì)算所述數(shù)據(jù)源中每個(gè)用戶的定向人群分值score :
其中,共有N個(gè)數(shù)據(jù)源,所述λ i為第i個(gè)數(shù)據(jù)源的權(quán)重,所述Si為第i個(gè)數(shù)據(jù) 源中用戶標(biāo)簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù),所述F(X)為遺忘因子,所述
所述cur為計(jì)算所述score時(shí)的當(dāng)前時(shí)間,所述est為用戶行為 產(chǎn)生的時(shí)間,所述hi為半衰期,所述begin_time為所述數(shù)據(jù)源中記錄的行為數(shù)據(jù)的起始時(shí) 間,所述end_time為所述數(shù)據(jù)源中記錄的行為數(shù)據(jù)的終止時(shí)間,所述γ為所述定向人群分 值的取值范圍控制參數(shù),所述b為所述定向人群分值的增長(zhǎng)速度控制參數(shù)。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群, 包括: 按照所述定向人群特征從所述數(shù)據(jù)源中的所有用戶中選取訓(xùn)練樣本集; 從所述訓(xùn)練樣本集中的用戶標(biāo)簽中提取行為特征,所述行為特征的特征值為用于表征 所述行為特征的詞語(yǔ)的詞頻-逆向文件頻率TF-IDF ; 對(duì)所述行為特征使用分類(lèi)方法訓(xùn)練分類(lèi)模型; 使用所述分類(lèi)模型對(duì)所述數(shù)據(jù)源中的所有用戶進(jìn)行分類(lèi),得到所述目標(biāo)用戶群,所述 目標(biāo)用戶群包括經(jīng)過(guò)所述分類(lèi)模型篩選的所有用戶。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述TF-IDF通過(guò)如下方式計(jì)算:
其中,所述tf (t,d)為所述數(shù)據(jù)源中用戶行為次數(shù),所述t為用于表征所述行為特征的 詞語(yǔ),所述d為所述數(shù)據(jù)源中行為數(shù)據(jù),所述N為所有用戶的用戶行為次數(shù),所述ni為被選 取做訓(xùn)練樣本集的用戶行為次數(shù)。
9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群 之后,還包括: 獲取所述目標(biāo)用戶群中所有用戶的人群特征分布; 將所述人群特征分布中超過(guò)特征分布范圍的所述目標(biāo)用戶群中的用戶過(guò)濾掉,得到第 一修正目標(biāo)用戶群,所述第一修正目標(biāo)用戶群包括所述人群特征分布中在所述特征分布范 圍內(nèi)的所述目標(biāo)用戶群中的用戶。
10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群 之后,還包括: 對(duì)用戶在所述數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)進(jìn)行更新; 按照更新后的行為數(shù)據(jù)對(duì)符合定向人群特征的目標(biāo)用戶群進(jìn)行修正,得到第二修正目 標(biāo)用戶群,所述第二修正目標(biāo)用戶群包括從更新后的行為數(shù)據(jù)中提取到更新的用戶標(biāo)簽以 及根據(jù)更新后的行為數(shù)據(jù)和更新的用戶標(biāo)簽提取到的符合定向人群特征的多個(gè)用戶。
11. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行 為數(shù)據(jù)和所述用戶標(biāo)簽從所述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群 之后,還包括: 對(duì)所述目標(biāo)用戶群中多個(gè)用戶與所述定向人群特征的關(guān)聯(lián)性進(jìn)行驗(yàn)證; 對(duì)所述目標(biāo)用戶群中所述關(guān)聯(lián)性小于關(guān)聯(lián)性閾值的用戶對(duì)應(yīng)的數(shù)據(jù)源中的行為數(shù)據(jù) 進(jìn)行修正; 按照修正后的行為數(shù)據(jù)對(duì)符合定向人群特征的目標(biāo)用戶群進(jìn)行修正,得到第三修正目 標(biāo)用戶群,所述第三修正目標(biāo)用戶群包括從修正后的行為數(shù)據(jù)中提取到修正的用戶標(biāo)簽以 及根據(jù)修正后的行為數(shù)據(jù)和修正的用戶標(biāo)簽提取到的符合定向人群特征的多個(gè)用戶。
12. -種用戶行為數(shù)據(jù)的分析裝置,其特征在于,包括: 數(shù)據(jù)獲取模塊,用于獲取用戶注冊(cè)到數(shù)據(jù)源后在所述數(shù)據(jù)源中產(chǎn)生的行為數(shù)據(jù),其中, 所述數(shù)據(jù)源中包括注冊(cè)到所述數(shù)據(jù)源中的所有用戶各自產(chǎn)生的行為數(shù)據(jù),所述行為數(shù)據(jù)為 記錄用戶在所述數(shù)據(jù)源中的行為的數(shù)據(jù)信息; 標(biāo)簽提取模塊,用于從所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)中提取用戶標(biāo)簽,所述用 戶標(biāo)簽是用于表征所述用戶的行為的信息; 特征獲取模塊,用于獲取預(yù)置的定向人群特征,所述定向人群特征為滿足定向特征要 求的人群所具有的特征; 用戶群提取模塊,用于根據(jù)所述用戶在數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)和所述用戶標(biāo)簽從所 述數(shù)據(jù)源的所有用戶中提取符合定向人群特征的目標(biāo)用戶群,所述目標(biāo)用戶群包括符合定 向人群特征的多個(gè)用戶。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述用戶群提取模塊,包括: 定向類(lèi)目提取子模塊,用于按照所述定向人群特征的要求從所述數(shù)據(jù)源中已經(jīng)劃分的 類(lèi)目中提取定向類(lèi)目; 第一用戶行為統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述數(shù)據(jù)源中用戶標(biāo)簽符合所述定向類(lèi)目的用戶 行為次數(shù); 第一用戶群提取子模塊,用于將所述數(shù)據(jù)源中用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的用戶 提取到所述目標(biāo)用戶群中,所述目標(biāo)用戶群包括用戶行為次數(shù)超過(guò)定向類(lèi)目閾值的所有用 戶。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第一用戶行為統(tǒng)計(jì)子模塊,具體用 于通過(guò)如下方式計(jì)算所述數(shù)據(jù)源中用戶標(biāo)簽符合所述定向類(lèi)目的用戶行為次數(shù)number :
其中,共N個(gè)數(shù)據(jù)源,所述λ i為第i個(gè)數(shù)據(jù)源的權(quán)重,所述第i個(gè)數(shù)據(jù)源共Μ個(gè)定向 類(lèi)目,所述count為用戶在每個(gè)數(shù)據(jù)源上的第j個(gè)定向類(lèi)目下的用戶行為次數(shù)。
15. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述用戶群提取模塊,包括: 關(guān)鍵詞獲取子模塊,用于按照所述定向人群特征的要求獲取所述定向人群特征具有的 關(guān)鍵詞; 第二用戶行為統(tǒng)計(jì)子模塊,用于使用所述關(guān)鍵詞與提取出的所述用戶標(biāo)簽進(jìn)行匹配, 計(jì)算出所述數(shù)據(jù)源中所有用戶標(biāo)簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù); 人群分值計(jì)算子模塊,用于根據(jù)所述數(shù)據(jù)源中所有用戶標(biāo)簽與所述關(guān)鍵詞匹配成功的 用戶行為次數(shù)、遺忘因子計(jì)算所述數(shù)據(jù)源中每個(gè)用戶的定向人群分值; 第二用戶群提取子模塊,用于將所述數(shù)據(jù)源中定向人群分值超過(guò)定向人群關(guān)聯(lián)閾值的 用戶提取到所述目標(biāo)用戶群中,所述目標(biāo)用戶群包括所述數(shù)據(jù)源中定向人群分值超過(guò)定向 人群關(guān)聯(lián)閾值的所有用戶。
16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述用戶群提取模塊,還包括:過(guò)濾詞 獲取子模塊,其中, 所述過(guò)濾詞獲取子模塊,用于根據(jù)獲取到所述關(guān)鍵詞獲取與所述關(guān)鍵詞有聯(lián)系但不匹 配所述定向人群特征的過(guò)濾詞; 所述第二用戶行為統(tǒng)計(jì)子模塊,具體用于使用所述關(guān)鍵詞、所述過(guò)濾詞分別與提取出 的所述用戶標(biāo)簽進(jìn)行匹配;計(jì)算所述數(shù)據(jù)源中所有用戶標(biāo)簽與所述關(guān)鍵詞匹配成功且去除 掉與所述過(guò)濾詞匹配成功的用戶行為次數(shù)。
17. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述人群分值計(jì)算子模塊,用于通過(guò)如 下方式計(jì)算所述數(shù)據(jù)源中每個(gè)用戶的定向人群分值score :
其中,共有N個(gè)數(shù)據(jù)源,所述λ i為第i個(gè)數(shù)據(jù)源的權(quán)重,所述Si為第i個(gè)數(shù)據(jù) 源中用戶標(biāo)簽與所述關(guān)鍵詞匹配成功的用戶行為次數(shù),所述F(X)為遺忘因子,所述
,所述cur為計(jì)算所述score時(shí)的當(dāng)前時(shí)間,所述est為用戶行為 產(chǎn)生的時(shí)間,所述hi為半衰期,所述begin_time為所述數(shù)據(jù)源中記錄的行為數(shù)據(jù)的起始時(shí) 間,所述end_time為所述數(shù)據(jù)源中記錄的行為數(shù)據(jù)的終止時(shí)間,所述γ為所述定向人群分 值的取值范圍控制參數(shù),所述b為所述定向人群分值的增長(zhǎng)速度控制參數(shù)。
18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述用戶群提取模塊,包括: 樣本選取子模塊,用于按照所述定向人群特征從所述數(shù)據(jù)源中的所有用戶中選取訓(xùn)練 樣本集; 行為特征提取子模塊,用于從所述訓(xùn)練樣本集中的用戶標(biāo)簽中提取行為特征,所述行 為特征的特征值為用于表征所述行為特征的詞語(yǔ)的詞頻-逆向文件頻率TF-IDF ; 模型訓(xùn)練子模塊,用于對(duì)所述行為特征使用分類(lèi)方法訓(xùn)練分類(lèi)模型; 用戶分類(lèi)子模塊,用于使用所述分類(lèi)模型對(duì)所述數(shù)據(jù)源中的所有用戶進(jìn)行分類(lèi),得到 所述目標(biāo)用戶群,所述目標(biāo)用戶群包括經(jīng)過(guò)所述分類(lèi)模型篩選的所有用戶。
19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述行為特征提取子模塊提取到的行 為特征的TFIDF通過(guò)如下方式計(jì)算:
其中,所述tf (t,d)為所述數(shù)據(jù)源中用戶行為次數(shù),所述t為用于表征所述行為特征的 詞語(yǔ),所述d為所述數(shù)據(jù)源中行為數(shù)據(jù),所述N為所有用戶的用戶行為次數(shù),所述ni為被選 取做訓(xùn)練樣本集的用戶行為次數(shù)。
20. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述用戶行為數(shù)據(jù)的分析裝置,還包 括: 特征分布獲取模塊,用于獲取所述目標(biāo)用戶群中所有用戶的人群特征分布; 第一用戶群修正模塊,用于將所述人群特征分布中超過(guò)特征分布范圍的所述目標(biāo)用戶 群中的用戶過(guò)濾掉,得到第一修正目標(biāo)用戶群,所述第一修正目標(biāo)用戶群包括所述人群特 征分布中在所述特征分布范圍內(nèi)的所述目標(biāo)用戶群中的用戶。
21. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述用戶行為數(shù)據(jù)的分析裝置,還包 括: 行為數(shù)據(jù)更新模塊,用于對(duì)用戶在所述數(shù)據(jù)源上產(chǎn)生的行為數(shù)據(jù)進(jìn)行更新; 第二用戶群修正模塊,用于按照更新后的行為數(shù)據(jù)對(duì)符合定向人群特征的目標(biāo)用戶群 進(jìn)行修正,得到第二修正目標(biāo)用戶群,所述第二修正目標(biāo)用戶群包括從更新后的行為數(shù)據(jù) 中提取到更新的用戶標(biāo)簽以及根據(jù)更新后的行為數(shù)據(jù)和更新的用戶標(biāo)簽提取到的符合定 向人群特征的多個(gè)用戶。
22. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述用戶行為數(shù)據(jù)的分析裝置,還包 括: 關(guān)聯(lián)性驗(yàn)證模塊,用于對(duì)所述目標(biāo)用戶群中多個(gè)用戶與所述定向人群特征的關(guān)聯(lián)性進(jìn) 行驗(yàn)證; 行為數(shù)據(jù)修正模塊,用于對(duì)所述目標(biāo)用戶群中所述關(guān)聯(lián)性小于關(guān)聯(lián)性閾值的用戶對(duì)應(yīng) 的數(shù)據(jù)源中的行為數(shù)據(jù)進(jìn)行修正; 第三用戶群修正模塊,用于按照修正后的行為數(shù)據(jù)對(duì)符合定向人群特征的目標(biāo)用戶群 進(jìn)行修正,得到第三修正目標(biāo)用戶群,所述第三修正目標(biāo)用戶群包括從修正后的行為數(shù)據(jù) 中提取到修正的用戶標(biāo)簽以及根據(jù)修正后的行為數(shù)據(jù)和修正的用戶標(biāo)簽提取到的符合定 向人群特征的多個(gè)用戶。
【文檔編號(hào)】G06Q30/02GK104090888SQ201310670424
【公開(kāi)日】2014年10月8日 申請(qǐng)日期:2013年12月10日 優(yōu)先權(quán)日:2013年12月10日
【發(fā)明者】宋亞娟, 李勇, 肖磊, 柳金晶, 王滔, 賴曉平, 王潔 申請(qǐng)人:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司