本發(fā)明涉及計算機技術領域,具體涉及一種數(shù)據(jù)處理方法、裝置及設備。
背景技術:
隨著網(wǎng)絡中內(nèi)容的爆炸式增長,如何基于用戶的興趣向用戶推薦感興趣的內(nèi)容是一個亟待解決的問題。為了解決該問題,可以根據(jù)用戶的反饋、點擊閱讀等用戶行為,結合內(nèi)容本身的標簽屬性,統(tǒng)計用戶行為在各個標簽上的分布,作為內(nèi)容推薦的依據(jù)。然而在實踐中發(fā)現(xiàn),熱門內(nèi)容的大量展示和點擊往往導致用戶行為集中在一些熱門標簽上,無法突出用戶的個性化興趣,從而導致內(nèi)容推薦的效率較低。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種數(shù)據(jù)處理方法、裝置及設備,能夠突出用戶的個性化興趣,提高內(nèi)容推薦的效率。
本發(fā)明實施例第一方面提供一種數(shù)據(jù)處理方法,包括:
根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重;
計算所述用戶在所述每個標簽上的累計權重與所述用戶在所有標簽上的總累計權重之間的比值,作為所述用戶在所述每個標簽的累計權重分布;
根據(jù)所述用戶在所述每個標簽上的累計權重分布以及所述場景下所有用戶在所述每個標簽上對應的總累計權重分布,確定所述用戶在所述每個標簽上的興趣權重;
利用所述每個標簽以及所述每個標簽上所述用戶的興趣權重生成所述場景下所述用戶的興趣分布向量。
可選的,針對場景集合中的每個場景,利用所述用戶在所述場景下所述每個標簽上的興趣權重、所述用戶在所述場景下在所有標簽上的總累計權重以及所述用戶在所述場景集合中所有場景下的總累計權重,確定所述用戶在所述場景下在所述每個標簽上的興趣權重比例;
針對每個標簽,計算所述用戶在所述所有場景下在所述標簽上的所述興趣權重比例之和,作為所述用戶在所述所有場景下在所述標簽上的總興趣權重;
利用所述每個標簽以及所述用戶在所述每個標簽對應的所述總興趣權重,生成所述用戶在所述所有場景下的最終的興趣分布向量。
可選的,根據(jù)用戶在場景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標簽向量,所述標簽向量包括所述每條信息具有的標簽以及所述每個標簽的權重。
可選的,所述根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條行為信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重,包括:針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算所述每條信息的每個標簽的權重與所述每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為所述每條信息的整體權重;計算所述用戶的歷史行為對應的所有信息的整體權重之和,作為所述用戶在所述每個標簽上的累計權重。
可選的,以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。
相應的,本發(fā)明實施例第二方面還提供一種數(shù)據(jù)處理裝置,,包括:
第一獲取模塊,用于根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重;
計算模塊,用于計算所述用戶在所述每個標簽上的累計權重與所述用戶在所有標簽上的總累計權重之間的比值,作為所述用戶在所述每個標簽的累計權重分布;
確定模塊,用于根據(jù)所述用戶在所述每個標簽上的累計權重分布以及所述場景下所有用戶在所述每個標簽上對應的總累計權重分布,確定所述用戶在所述每個標簽上的興趣權重;
生成模塊,用于利用所述每個標簽以及所述每個標簽上所述用戶的興趣權重生成所述場景下所述用戶的興趣分布向量。
可選的,所述確定模塊還用于:
針對場景集合中的每個場景,利用所述用戶在所述場景下所述每個標簽上的興趣權重、所述用戶在所述場景下在所有標簽上的總累計權重以及所述用戶在所述場景集合中所有場景下的總累計權重,確定所述用戶在所述場景下在所述每個標簽上的興趣權重比例;
所述計算模塊,還用于針對每個標簽,計算所述用戶在所述所有場景下在所述標簽上的所述興趣權重比例之和,作為所述用戶在所述所有場景下在所述標簽上的總興趣權重;
所述生成模塊,還用于利用所述每個標簽以及所述用戶在所述每個標簽對應的所述總興趣權重,生成所述用戶在所述所有場景下的最終的興趣分布向量。
可選的,量化模塊,用于根據(jù)用戶在場景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標簽向量,所述標簽向量包括所述每條信息具有的標簽以及所述每個標簽的權重。
可選的,所述第一獲取模塊,具體用于:
針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算所述每條信息的每個標簽的權重與所述每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為所述每條信息的整體權重;
計算所述用戶的歷史行為對應的所有信息的整體權重之和,作為所述用戶在所述每個標簽上的累計權重。
可選的,第二獲取模塊,用于以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。
本發(fā)明實施例第三方面還提供了一種數(shù)據(jù)處理設備,包括:處理器、存儲器、通信接口和通信總線;
所述處理器、所述存儲器和所述通信接口通過所述總線連接并完成相互間的通信;所述存儲器存儲可執(zhí)行程序代碼;所述處理器通過讀取所述存儲器中存儲的可執(zhí)行程序代碼來運行與所述可執(zhí)行程序代碼對應的程序,以用于執(zhí)行一種數(shù)據(jù)處理方法;其中,所述方法包括:
根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重;
計算所述用戶在所述每個標簽上的累計權重與所述用戶在所有標簽上的總累計權重之間的比值,作為所述用戶在所述每個標簽的累計權重分布;
根據(jù)所述用戶在所述每個標簽上的累計權重分布以及所述場景下所有用戶在所述每個標簽上對應的總累計權重分布,確定所述用戶在所述每個標簽上的興趣權重;
利用所述每個標簽以及所述每個標簽上所述用戶的興趣權重生成所述場景下所述用戶的興趣分布向量。
本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取該用戶在每個標簽上的累計權重,可以確定該用戶在每個標簽上的興趣權重,從而可以生成在該場景下該用戶的興趣分布向量,以突出用戶的個性化興趣,提高內(nèi)容推薦的效率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;
圖2是本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;
圖3是本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;
圖4是本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖;
圖5是本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖;
圖6是本發(fā)明實施例提供的一種數(shù)據(jù)處理設備的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
在當前信息全球化的趨勢下,一個全球化的產(chǎn)品要同時面對不同的用戶群體,因此,需要一套統(tǒng)一的建模機制或者服務來對用戶的歷史行為數(shù)據(jù)進行處理獲取用戶的興趣模型。然而,在實踐中發(fā)現(xiàn),不同場景下,例如,來自不同國家、地區(qū)、語種的用戶,屬于不同的用戶群體,由于其文化背景、經(jīng)濟水平等社會因素的影響,其對所需新聞的需求有較大的差異,其接收的信息集合以及用戶興趣的分布也會有較大的差異。例如,一些發(fā)達國家可能更關注于金融、時尚,一些發(fā)展中國家可能更關注于緊急發(fā)展、社會、生活類的新聞,相應地,不同地區(qū)的群體也會偏好不同的體育項目;再例如,不同國家、地區(qū)、語種的用戶看到的新聞集合也大有不同,對應的用戶行為產(chǎn)生的標簽分布也會有較大的差異;再例如,有些地區(qū)的用戶屬于多語種用戶,其在不同語種下的興趣標簽集合需要進行整合,才能得到完整和統(tǒng)一的用戶興趣集合,為后續(xù)的新聞推薦或者產(chǎn)品推送提供完整、準確、全面的用戶興趣模型。又例如,用戶在PC、手機等移動終端上多種應用上的操作均能反映用戶的喜好,通過收集、匯總用戶在不同應用上的行為,可以為用戶興趣建模提供更多的數(shù)據(jù)支持,有助于提升用戶興趣建模的完整和準確度。然而,不同應用產(chǎn)品上的人群,其看到內(nèi)容以及對應得到反饋的標簽整體分布也相應地會有明顯的差異。例如,在瀏覽器、體育、游戲應用上投放的新聞或其他內(nèi)容,得到反饋的內(nèi)容的特征分布具有明顯的差異,這兩種應用上用戶得出的不同標簽的整體流行度。
綜上所述,在對用戶的歷史行為數(shù)據(jù)進行處理的過程中,需要使用整體的內(nèi)容及標簽流行度作為偏差來輔助用戶個性化興趣建模。因此,本發(fā)明實施例中的數(shù)據(jù)處理方法可以考慮不同場景(包括但不限于國家、地區(qū)、語言、產(chǎn)品)下用戶群體和新聞整體的區(qū)別。針對不同場景下的用戶的歷史行為數(shù)據(jù),計算所有場景下的總累計權重分布作為計算相應用戶的興趣模型的偏差。即,本發(fā)明實施例可以將各個場景下推導出的用戶興趣進行整合,建立統(tǒng)一的用戶興趣特征模型,為后續(xù)的推薦任務、產(chǎn)品、新聞等信息提供完整統(tǒng)一的用戶興趣模型。本發(fā)明實施例中,通過考慮用戶在不同場景下的參與度作為當前用戶興趣的置信度,通過線性加權融合用戶在不同場景下的興趣,得到當前用戶的最終興趣模型。
進一步的,本發(fā)明實施例可以對用戶的興趣模型采用周期性更新計算流程,每隔一個固定時間片對用戶當前興趣模型進行更新。由于新聞內(nèi)容和對應的標簽集合,以及用戶興趣隨著時間會發(fā)生變化,該實施方式可以更加突出用戶的近期行為,并及時反映用戶短期興趣的變化。對用戶閱讀過的新聞、信息或者使用的應用,根據(jù)其閱讀或使用時間距離當前時間的時長,使用時間衰減法,設置用戶的歷史行為數(shù)據(jù)中每次閱讀或使用行為對用戶當前興趣分布的重要程度。
以下對本發(fā)明實施例提供的數(shù)據(jù)處理方法、系統(tǒng)和設備進行詳細介紹。
請參閱圖1,圖1為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設置在終端或者服務器中,本發(fā)明實施例不做限定。如圖1所示,該數(shù)據(jù)處理方法可以包括以下步驟:
101、數(shù)據(jù)處理系統(tǒng)根據(jù)場景集合中每條信息的特征,將每條信息量化為標簽向量。
本發(fā)明實施例中,標簽向量包括每條信息具有的標簽以及每個標簽在該條信息中的權重。用戶的興趣通常使用標簽化的特征集合來刻畫描述,如用戶對“娛樂”、“籃球”等標簽偏好程度,即興趣度。用tk表示一個標簽,用戶μ歷史上閱讀過的新聞集合記作C(μ)。對每個新聞Ci,其特征的標簽表示為<(t1,wi1),(t2,wi2),…,(tn,win)>,其中wik表示標簽tk在Ci中的重要程度。例如,針對新聞推薦,對用戶閱讀過的新聞上的標簽進行本發(fā)明實施例所述的數(shù)據(jù)處理,就可以得到用戶的歷史行為數(shù)據(jù)在各個標簽上的興趣向量分布。
本發(fā)明實施例中,將用戶所使用的各個應用,如游戲應用、購物應用、新聞類應用、瀏覽器應用等產(chǎn)品,以及國家、地區(qū)、語言等統(tǒng)稱為不同的場景,相應地,該場景不限于上述內(nèi)容;本發(fā)明實施例中,將用戶閱讀過的新聞、使用的應用等統(tǒng)稱為信息,相應地,該信息可以包括但不限于上述內(nèi)容。本發(fā)明實施例根據(jù)每條信息的特征可以將每條信息歸納出包括多個標簽,例如,該信息為用戶閱讀過的新聞集合,則可以設置信息的標簽為娛樂、社會、明星、犯罪、影視、政治、國際、科技、健康等,即每條信息可以對應多個標簽。本發(fā)明實施例中,將標簽在該條信息中的重要程度設置為標簽的權重。
舉例來說,用S表示包括各種場景的場景集合,s表示S中的一個特定場景,用戶μ在場景s中的歷史行為數(shù)據(jù)所對應的信息集合記作C(μ),每條信息記作Ci,每條信息包括的標簽可以為n個,分別為t1,t2,…,tk,…,tn,wik表示標簽tk在該條信息Ci中的重要程度,即標簽tk的權重。因此,每條信息Ci所量化的標簽向量為<(t1,wi1),(t2,wi2),…,(tk,wik),…,(tn,win)>。
102、數(shù)據(jù)處理系統(tǒng)根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取該用戶在每個標簽上的累計權重。
本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)可以根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的標簽向量獲取用戶在每個標簽上的累計權重。
可選地,數(shù)據(jù)處理系統(tǒng)可以執(zhí)行以下步驟來確定用戶在標簽上的累計權重:
針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算所述每條信息的每個標簽的權重與所述每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為所述每條信息的整體權重;計算所述用戶的歷史行為對應的所有信息的整體權重之和,作為所述用戶在所述每個標簽上的累計權重。
該實施方式可以根據(jù)用戶對每條信息的閱讀或使用時間距離當前時間的時長,使用時間衰減法來設置標簽的權重,將標簽的權重乘以衰減因子后的權重也可以稱為標簽在該條信息的整體權重,從而,使得數(shù)據(jù)處理系統(tǒng)獲得的用戶興趣模型可以反映用戶的歷史行為數(shù)據(jù)中每次閱讀或使用行為對用戶當前興趣模型的重要程度。
舉例來說,計算信息Ci的標簽tk的權重wik與該條信息Ci對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為該條信息的整體權重,具體為:計算用戶μ的歷史行為對應的所有信息(即信息集合C(μ))的整體權重之和,作為用戶μ在標簽tk上的累計權重具體為:
其中,衰減因子中,α為預設時間衰減參數(shù)(通常,0<α≤1),Ti為信息對應的歷史行為產(chǎn)生時刻距離當前時刻的時長,也就是用戶對每條信息的閱讀或使用時間距離當前時間的時長。
103、數(shù)據(jù)處理系統(tǒng)計算該用戶在每個標簽上的累計權重與該用戶在所有標簽上的總累計權重之間的比值,作為該用戶在每個標簽的累計權重分布。
本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)通過步驟103可以統(tǒng)計出用戶在某個場景的標簽分布,即用戶的歷史行為數(shù)據(jù)在每個標簽的比例情況。
具體的,用戶μ在標簽tk上的累計權重為相應地,用戶μ在場景s的所有標簽t1,t2,…,tk,…,tn上的總累計權重為:相應地,用戶μ在標簽tk上的累計權重分布即為兩者的比值:
104、數(shù)據(jù)處理系統(tǒng)根據(jù)該用戶在每個標簽上的累計權重分布以及該場景下所有用戶在每個標簽上對應的總累計權重分布,確定該用戶在每個標簽上的興趣權重。
本發(fā)明實施例中,單個用戶在單個標簽上的累計權重分布如步驟103所示,例如,用戶μ在標簽tk上的累計權重分布為相應地,場景下所有用戶在每個標簽上對應的總累計權重分布即為:所有用戶在該標簽上對應的累計權重與所有用戶在所有標簽上對應的總累計權重之和之間的比值。
例如,場景s下所有用戶在標簽tk上對應的累計權重為:
場景s下所有用戶在所有標簽上對應的總累計權重為:
相應的,場景s下所有用戶在標簽tk上對應的總累計權重分布即為:
反映了場景s下用戶群體在各標簽上的總累計權重分布,從而,可以利用該總累計權重分布向量來衡量場景s下各標簽的熱門程度,即總累計權重分布越大的標簽,越熱門,其所對應的信息、新聞、應用等中該標簽的權重越大,該信息、新聞、應用被用戶群體受歡迎的程度越高。
相應地,步驟104中,用戶在每個標簽上的興趣權重就可以根據(jù)上述的用戶在每個標簽上的累計權重分布以及所有用戶在每個標簽上的總累計權重分布來確定該用戶在該標簽上分布的差異,利用該差異即可表示用戶在該標簽上的興趣度。具體的,用戶μ在標簽tk的累計權重分布與所有用戶即用戶群體在此標簽tk上的總累計權重分布的差異為:
其中,平滑系數(shù)∈的大小,可根據(jù)過去的預測數(shù)與實際數(shù)比較而定。差額大,則平滑系數(shù)應取大一些;反之,則取小一些。平滑系數(shù)愈大,則近期傾向性變動影響愈大;反之,則近期的傾向性變動影響愈小,愈平滑。
該差異反映了用戶在標簽tk上的興趣度與用戶群體在該標簽tk上的興趣度的差異,因此可以利用該差異作為用戶的興趣權重,從而可以更加清楚的反映用戶的在該標簽上的個性化興趣,相應的,多個標簽的興趣權重即可構成該用戶在該場景的個性化的興趣分布向量。
可選的,當用戶在標簽上的累計權重分布小于用戶群體在標簽上的總累計權重分布時,該差異為小于0的數(shù)值,也就是說該標簽并不是用戶感興趣的標簽,因此,為了更加直觀的反映用戶的興趣分布向量,可去除小于0的興趣權重,即用戶μ在標簽tk上的興趣權重為:
用戶在標簽上的累計權重分布小于用戶群體在標簽上的總累計權重分布時,該差異為小于0的數(shù)值,從某種程度上說,該類標簽是用戶不感興趣的標簽,因此,可以利用小于0的興趣權重對應的標簽來去除掉向用戶推送的內(nèi)容中對應的部分內(nèi)容,降低內(nèi)容推送的錯誤率,即用戶μ在標簽tk上的不感興趣權重為:
105、數(shù)據(jù)處理系統(tǒng)利用每個標簽以及每個標簽上用戶的興趣權重生成該場景下該用戶的興趣分布向量。
例如,場景s下用戶μ的興趣分布向量為:
可見,本發(fā)明實施例可以利用信息的標簽向量與用戶的興趣分布向量之間的匹配度來確定是否將該信息推送給該用戶,與傳統(tǒng)的單純利用用戶的累計權重分布作為用戶興趣分布向量進行內(nèi)容推薦的方法相比,該實施方式所構建的用戶的興趣分布向量可以更加突出用戶興趣中的“個性化”興趣,即步驟104所示利用單個用戶的累計權重分布與所有用戶的累計權重分布之間的差異來確定用戶在某個標簽上的興趣權重,可以提取用戶的獨特興趣。例如,用戶點擊閱讀熱門事件的新聞,比如“奧運會”,與用戶點擊閱讀冷門事件的新聞相比,其反映出用戶對該類新聞對應的標簽的興趣程度是不同的,故本發(fā)明實施例所述的數(shù)據(jù)處理方法可以構建更加貼合用戶真實興趣的興趣分布向量,從而,可以在某個場景下向用戶推送更加感興趣的內(nèi)容,提高內(nèi)容推送的準確率。
請參閱圖2,圖2為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設置在終端或者服務器中,本發(fā)明實施例不做限定。圖2所示的數(shù)據(jù)處理方法與圖1所示的數(shù)據(jù)處理方法相比,圖2所示的數(shù)據(jù)處理方法可以整合多場景下用戶的興趣分布向量,獲得用戶在不同場景下整體的興趣分布向量。具體的,具體的,圖2所示的該數(shù)據(jù)處理方法還可以包括以下步驟:
106、數(shù)據(jù)處理系統(tǒng)針對場景集合中的每個場景,利用該用戶在該場景下每個標簽上的興趣權重、該用戶在該場景下在所有標簽上的總累計權重以及該用戶在所有場景下的總累計權重,確定該用戶在該場景下在每個標簽上的興趣權重比例。
本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)可以通過步驟105得到該用戶μ在場景下該每個標簽上的興趣權重數(shù)據(jù)處理系統(tǒng)可以通過步驟103得到用戶μ在場景s的所有標簽t1,t2,…,tk,…,tn上的總累計權重相應的,數(shù)據(jù)處理系統(tǒng)可以根據(jù)得到用戶μ在所有場景下的總累計權重Nμ,即其中,s∈S;相應的,該用戶μ在場景s下在標簽tk上的興趣權重比例為:
舉例來說,用戶μ在場景s下在標簽t1上的興趣權重比例可以是在標簽t2上的興趣權重比例可以是
107、數(shù)據(jù)處理系統(tǒng)針對每個標簽,計算該用戶在所有場景下在該標簽上的興趣權重比例之和,作為該用戶在所有場景下在該標簽上的總興趣權重。
本發(fā)明實施例中,該用戶在該場景下在每個標簽上的興趣權重比例可以通過步驟106來獲得,相應的,用戶在所有場景下在每個標簽上的總興趣權重即為:該用戶在所有場景下每個標簽上的興趣權重比例之和來作為該用戶在在該標簽上的總興趣權重wμk,也就是針對所有場景的最終的興趣權重。
例如,用戶μ在場景s下在標簽tk上的興趣權重比例為那么就可以得到該用戶在所有場景下在該標簽tk上的總興趣權重wμk:
108、數(shù)據(jù)處理系統(tǒng)利用每個標簽以及用戶在每個標簽對應的總興趣權重,生成該用戶在所有場景下的最終的興趣分布向量。
例如,用戶μ在所有場景下的最終的興趣分布向量可以為:
Preference(μ)=<wμ1,wμ2,…,wμn>
其中,系統(tǒng)可以將其用稀疏向量表示,用其更新用戶當前興趣模型。例如,wμ1為用戶μ針對標簽t1的總興趣權重,即為用戶μ對標簽t1的興趣度;wμ2為用戶μ針對標簽t2的總興趣權重,即為用戶μ對標簽t2的興趣度。
可見,圖3所示的實施例中,數(shù)據(jù)處理系統(tǒng)不僅可以通過步驟101-105得到單個場景中用戶的興趣權重以及單場景下用戶的興趣分布向量,還可以由步驟106-108整合場景集合中各個場景下的興趣權重,對各個場景下的興趣分布向量中的興趣權重進行線性加權,得到用戶在所有場景下對各個標簽的總興趣權重,以得到所有場景中用戶的最終的興趣分布向量,可見,本發(fā)明實施例可以針對不同場景更加全面地計算出用戶完整的興趣分布,彌補了用戶在跨場景時用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準確、全面的用戶興趣模型。
請參閱圖3,圖3為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設置在終端或者服務器中,本發(fā)明實施例不做限定。圖3所示的數(shù)據(jù)處理方法與圖2所示的數(shù)據(jù)處理方法相比,圖3所示的數(shù)據(jù)處理方法可以通過周期性的獲得用戶在所有場景下的歷史行為數(shù)據(jù),并通過圖2所示的各步驟確定用戶在所有場景下的興趣分布向量。具體的,圖3所示的該數(shù)據(jù)處理方法可以包括圖2所示的所有步驟,并且步驟102可以包括:步驟102a、步驟102b以及步驟102c,具體地:
102a、數(shù)據(jù)處理系統(tǒng)以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。
本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)可以預設在場景下對用戶的興趣分布向量的更新周期,以更新用戶的興趣模型。因此,數(shù)據(jù)處理系統(tǒng)可以以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。其中,該預設周期可以是預設的更新周期。
需要說明的是,此處數(shù)據(jù)處理系統(tǒng)以預設周期獲取的用戶在各場景下的歷史行為數(shù)據(jù),可以是數(shù)據(jù)處理系統(tǒng)在每次更新了用戶的興趣模型后,清空之前的歷史行為數(shù)據(jù)后記錄新的關于該用戶的歷史行為數(shù)據(jù),還可以是在場景下關于用戶所有的歷史行為數(shù)據(jù),未進行相關清空操作,本發(fā)明實施例對其不做限制。
需要說明的是,數(shù)據(jù)處理系統(tǒng)可以根據(jù)用戶針對場景集合中每個場景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取該用戶在每個標簽上的累計權重。上述歷史行為數(shù)據(jù)可以記錄在用戶在一個或多個場景下所執(zhí)行的消息閱讀操作的日志信息中。其中,該消息閱讀操作的日志信息可以包括用戶所閱讀的消息內(nèi)容、閱讀時間、消息備注等,本發(fā)明實施例對此不做限制。通俗的來說,該日志信息可以是用戶的歷史閱讀記錄、歷史閱讀足跡或歷史閱讀足跡等。當然,用戶可以通過點擊、滑動等觸控操作,在當前頁面或者跳轉(zhuǎn)頁面來閱讀相應消息。
本發(fā)明實施例中,在執(zhí)行完步驟102a后,可以執(zhí)行步驟102b。
102b、數(shù)據(jù)處理系統(tǒng)針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算每條信息的每個標簽的權重與每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為每條信息的整體權重。
102c、數(shù)據(jù)處理系統(tǒng)計算所述用戶的歷史行為對應的所有信息的整體權重之和,作為所述用戶在所述每個標簽上的累計權重。
本發(fā)明實施例中,對步驟102b以及步驟102c的具體描述可以參考實施例1中對步驟102的相關描述部分,此處將不再進行進一步的闡釋。
可見,本發(fā)明實施例中,數(shù)據(jù)處理系統(tǒng)可以通過周期性的獲取用戶在各場景下的歷史行為數(shù)據(jù),以更新用戶在該場景下的興趣分布向量,若結合實施例2來看的話,數(shù)據(jù)處理系統(tǒng)還可以更新用戶在多場景下的最終的興趣分布向量,以便更新數(shù)據(jù)處理系統(tǒng)中關于該用戶的興趣模型,從而方便后續(xù)內(nèi)容推薦相關的工作。
請參閱圖4,圖4為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖,該數(shù)據(jù)處理裝置可以應用于數(shù)據(jù)處理系統(tǒng)中,該數(shù)據(jù)處理系統(tǒng)可以設置在終端或者服務器中,本發(fā)明實施例不做限定。如圖4所示,該數(shù)據(jù)處理裝置可以包括:
第一獲取模塊401,用于根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取該用戶在每個標簽上的累計權重。
本發(fā)明實施例中,第一獲取模塊401可以針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算每條信息的每個標簽的權重與每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為每條信息的整體權重;計算該用戶的歷史行為對應的所有信息的整體權重之和,作為該用戶在每個標簽上的累計權重。
計算模塊402,用于計算該用戶在每個標簽上的累計權重與該用戶在所有標簽上的總累計權重之間的比值,作為該用戶在每個標簽的累計權重分布。
確定模塊403,用于根據(jù)該用戶在每個標簽上的累計權重分布以及該場景下所有用戶在每個標簽上對應的總累計權重分布,確定該用戶在每個標簽上的興趣權重。
生成模塊404,用于利用每個標簽以及每個標簽上該用戶的興趣權重生成該場景下該用戶的興趣分布向量。
可見,圖4所示的實施例中,數(shù)據(jù)處理系統(tǒng)可以利用信息的標簽向量與用戶的興趣分布向量之間的匹配度來確定是否將該信息推送給該用戶,與傳統(tǒng)的單純利用用戶的累計權重分布作為用戶興趣分布向量進行內(nèi)容推薦的方法相比,該實施方式所構建的用戶的興趣分布向量可以更加突出用戶興趣中的“個性化”興趣,其中,數(shù)據(jù)處理系統(tǒng)利用單個用戶的累計權重分布與所有用戶的累計權重分布之間的差異來確定用戶在某個標簽上的興趣權重,可以提取用戶的獨特興趣。例如,用戶點擊閱讀熱門事件的新聞,比如“奧運會”,與用戶點擊閱讀冷門事件的新聞相比,其反映出用戶對該類新聞對應的標簽的興趣程度是不同的,故本發(fā)明實施例所述的數(shù)據(jù)處理方法可以構建更加貼合用戶真實興趣的興趣分布向量,從而,可以在某個場景下向用戶推送更加感興趣的內(nèi)容,提高內(nèi)容推送的準確率。
請一并參閱圖5,圖5為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖,該數(shù)據(jù)處理裝置可以應用于數(shù)據(jù)處理系統(tǒng)中,該數(shù)據(jù)處理系統(tǒng)可以設置在終端或者服務器中,本發(fā)明實施例不做限定。圖5是在圖4的基礎上優(yōu)化得到的。其中,該數(shù)據(jù)處理裝置包括第一獲取模塊401、計算模塊402、確定模塊403、生成模塊404,還包括量化模塊405、第二獲取模塊406,其中,該裝置包括:
可選的,確定模塊403,還用于針對場景集合中的每個場景,利用該用戶在該場景下每個標簽上的興趣權重、該用戶在該場景下在所有標簽上的總累計權重以及該用戶在該場景集合中所有場景下的總累計權重,確定該用戶在該場景下在每個標簽上的興趣權重比例。
可選的,計算模塊402,還用于針對每個標簽,計算該用戶在所有場景下在該標簽上的興趣權重比例之和,作為該用戶在所有場景下在該標簽上的總興趣權重。
可選的,生成模塊404,還用于利用每個標簽以及該用戶在每個標簽對應的總興趣權重,生成該用戶在所有場景下的最終的興趣分布向量。
本發(fā)明實施例中,確定模塊403可以針對場景集合中的每個場景,確定該用戶在該場景下在每個標簽上的興趣權重比例,并且可以由計算模塊402得到該用戶在所有場景下在該標簽上的總興趣權重,然后交由生成模塊404生成該用戶在所有場景下的最終的興趣分布向量,以更加全面地計算出用戶完整的興趣分布,彌補了用戶在跨場景時用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準確、全面的用戶興趣模型。
可選的,量化模塊405,用于根據(jù)用戶在場景下歷史行為數(shù)據(jù)中每條信息的特征,將該每條信息量化為標簽向量,該標簽向量包括每條信息具有的標簽以及每個標簽的權重。
可選的,第二獲取模塊406,用于以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。
可見,圖5所示的實施例中,數(shù)據(jù)處理系統(tǒng)可以數(shù)據(jù)處理系統(tǒng)不僅可以得到單個場景中用戶的興趣權重以及單場景下用戶的興趣分布向量,還可以整合場景集合中各個場景下的興趣權重,對各個場景下的興趣分布向量中的興趣權重進行線性加權,得到用戶在所有場景下對各個標簽的總興趣權重,以得到所有場景中用戶的最終的興趣分布向量,可見,本發(fā)明實施例可以針對不同場景更加全面地計算出用戶完整的興趣分布,彌補了用戶在跨場景時用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準確、全面的用戶興趣模型。并且,數(shù)據(jù)處理系統(tǒng)還可以通過周期性的獲取用戶在各場景下的歷史行為數(shù)據(jù),以更新用戶在該場景下的興趣分布向量,并且還可以更新用戶在多場景下的最終的興趣分布向量,以便更新數(shù)據(jù)處理系統(tǒng)中關于該用戶的興趣模型,從而方便后續(xù)內(nèi)容推薦相關的工作。
請參閱圖6,圖6是本發(fā)明實施例提供的一種數(shù)據(jù)處理設備的結構示意圖,如圖所示,該數(shù)據(jù)處理設備可以包括:至少一個處理器601,例如CPU(Central Processing Unit,中央處理器),至少一個通信接口603,存儲器604,至少一個通信總線602。其中,通信總線602用于實現(xiàn)這些組件之間的連接通信。其中,通信接口603可以包括顯示屏(Display)、鍵盤(Keyboard),可選通信接口603還可以包括標準的有線接口、無線接口。存儲器604可以是高速RAM存儲器(Ramdom Access Memory,易揮發(fā)性隨機存取存儲器),也可以是非不穩(wěn)定的存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器604可選的還可以是至少一個位于遠離前述處理器601的存儲裝置。其中處理器601可以結合圖4和5所描述的裝置,存儲器604中存儲一組程序代碼,且處理器601調(diào)用存儲器604中存儲的程序代碼,以用于執(zhí)行一種數(shù)據(jù)處理方法,即用于執(zhí)行以下操作:
根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重;
計算所述用戶在所述每個標簽上的累計權重與所述用戶在所有標簽上的總累計權重之間的比值,作為所述用戶在所述每個標簽的累計權重分布;
根據(jù)所述用戶在所述每個標簽上的累計權重分布以及所述場景下所有用戶在所述每個標簽上對應的總累計權重分布,確定所述用戶在所述每個標簽上的興趣權重;
利用所述每個標簽以及所述每個標簽上所述用戶的興趣權重生成所述場景下所述用戶的興趣分布向量。
本發(fā)明實施例中,處理器601調(diào)用存儲器604中的程序代碼,還用于執(zhí)行以下操作:
針對場景集合中的每個場景,利用所述用戶在所述場景下所述每個標簽上的興趣權重、所述用戶在所述場景下在所有標簽上的總累計權重以及所述用戶在所述場景集合中所有場景下的總累計權重,確定所述用戶在所述場景下在所述每個標簽上的興趣權重比例;
針對每個標簽,計算所述用戶在所述所有場景下在所述標簽上的所述興趣權重比例之和,作為所述用戶在所述所有場景下在所述標簽上的總興趣權重;
利用所述每個標簽以及所述用戶在所述每個標簽對應的所述總興趣權重,生成所述用戶在所述所有場景下的最終的興趣分布向量。
本發(fā)明實施例中,處理器601調(diào)用存儲器604中的程序代碼,根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重之前,還用于執(zhí)行以下操作:
根據(jù)用戶在場景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標簽向量,所述標簽向量包括所述每條信息具有的標簽以及所述每個標簽的權重。
本發(fā)明實施例中,處理器601調(diào)用存儲器604中的程序代碼,根據(jù)用戶在場景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條行為信息的各標簽的權重獲取所述用戶在每個標簽上的累計權重,可以執(zhí)行以下操作:
針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算所述每條信息的每個標簽的權重與所述每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為所述每條信息的整體權重;
計算所述用戶的歷史行為對應的所有信息的整體權重之和,作為所述用戶在所述每個標簽上的累計權重。
本發(fā)明實施例中,處理器601調(diào)用存儲器604中的程序代碼,針對用戶在場景下的歷史行為數(shù)據(jù)中的每條信息,計算所述每條信息的每個標簽的權重與所述每條信息對應的歷史行為產(chǎn)生時刻距離當前時刻的衰減因子之間的乘積,作為所述每條信息的整體權重之前,還用于執(zhí)行以下操作:
以預設周期獲取用戶在各場景下的歷史行為數(shù)據(jù)。
其中,通信總線602可以是外設部件互連標準(peripheral component interconnect,簡稱PCI)總線或擴展工業(yè)標準結構(extended industry standard architecture,簡稱EISA)總線等。所述通信總線602可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖6中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
其中,存儲器604可以包括易失性存儲器(英文:volatile memory),例如隨機存取存儲器(英文:random-access memory,縮寫:RAM);存儲器也可以包括非易失性存儲器(英文:non-volatile memory),例如快閃存儲器(英文:flash memory),硬盤(英文:hard disk drive,縮寫:HDD)或固態(tài)硬盤(英文:solid-state drive,縮寫:SSD);存儲器604還可以包括上述種類的存儲器的組合。
其中,處理器601可以是中央處理器(英文:central processing unit,縮寫:CPU),網(wǎng)絡處理器(英文:network processor,縮寫:NP)或者CPU和NP的組合。
其中,處理器601還可以進一步包括硬件芯片。上述硬件芯片可以是專用集成電路(英文:application-specific integrated circuit,縮寫:ASIC),可編程邏輯器件(英文:programmable logic device,縮寫:PLD)或其組合。上述PLD可以是復雜可編程邏輯器件(英文:complex programmable logic device,縮寫:CPLD),現(xiàn)場可編程邏輯門陣列(英文:field-programmable gate array,縮寫:FPGA),通用陣列邏輯(英文:generic array logic,縮寫:GAL)或其任意組合。
可選地,所述存儲器604還用于存儲程序指令。所述處理器601可以調(diào)用所述程序指令,實現(xiàn)如本申請圖1,2和3實施例中所示的數(shù)據(jù)處理方法。
本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
以上所揭露的僅為本發(fā)明一種較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分流程,并依本發(fā)明權利要求所作的等同變化,仍屬于發(fā)明所涵蓋的范圍。