本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法及裝置。
背景技術(shù):
在現(xiàn)有技術(shù)中,用戶可以通過瀏覽器或者APP獲取需要的內(nèi)容,在訪問一個內(nèi)容服務(wù)商的時候,內(nèi)容服務(wù)提供商一般希望向用戶推薦用戶希望看到的數(shù)據(jù),或者,用戶感興趣的數(shù)據(jù),以增加用戶的粘性。
在現(xiàn)有技術(shù)中,一般關(guān)注用戶上一次訪問的數(shù)據(jù),根據(jù)用戶上次訪問的數(shù)據(jù)向用戶進行推薦,這種處理方法僅僅是考慮了一個方面,而并沒有考慮到在內(nèi)容服務(wù)商側(cè)所進行的處理,從而達不到內(nèi)容服務(wù)商的要求。
針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種數(shù)據(jù)處理方案,以至少解決了現(xiàn)有技術(shù)中僅僅根據(jù)用戶上次訪問的數(shù)據(jù)來進行推薦造成的無法滿足內(nèi)容服務(wù)商要求的問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種數(shù)據(jù)處理方法,包括:根據(jù)至少一個維度獲取數(shù)據(jù),其中,所述維度用于表示與數(shù)據(jù)被推薦相關(guān)的屬性;根據(jù)各個數(shù)據(jù)對應(yīng)的維度對獲取到的數(shù)據(jù)進行合并;將合并后的數(shù)據(jù)按照預(yù)定規(guī)則進行排序,其中,所述預(yù)定規(guī)則能夠被編輯,排序后的數(shù)據(jù)用于向用戶進行推薦。
進一步地,根據(jù)所述各個數(shù)據(jù)對應(yīng)的維度對獲取到的數(shù)據(jù)進行合并包括:對對應(yīng)于不同維度的數(shù)據(jù)進行去重;將所述不同維度對應(yīng)在去重之后的數(shù)據(jù)上。
進一步地,在將獲取到的數(shù)據(jù)按照所述預(yù)定規(guī)則進行排序之后,所述方法還包括:判斷排序之后的數(shù)據(jù)是否屬于需要剔除的數(shù)據(jù);根據(jù)判斷結(jié)果從獲取到的數(shù)據(jù)中將需要剔除的數(shù)據(jù)進行剔除;保存剔除之后的數(shù)據(jù)。
進一步地,在所述至少一個維度包括數(shù)據(jù)的質(zhì)量的情況下,所述方法還包括:根據(jù)質(zhì)量模型對數(shù)據(jù)的質(zhì)量進行評估,其中,所述質(zhì)量模型是根據(jù)與所述質(zhì)量對應(yīng)的至少一個參數(shù)構(gòu)造的;保存評估得到的該數(shù)據(jù)對應(yīng)的質(zhì)量。
進一步地,在所述數(shù)據(jù)為對多個用戶發(fā)布的情況下,所述至少一個參數(shù)包括以下至少之一:所述數(shù)據(jù)發(fā)布的時間、所述多個用戶對所述數(shù)據(jù)的回復(fù)數(shù)量、所述多個用戶對所述數(shù)據(jù)的回復(fù)率、所述多個用戶對所述數(shù)據(jù)的收藏數(shù)、所述多個用戶對所述數(shù)據(jù)的收藏率、所述多個用戶對所述數(shù)據(jù)稱贊的數(shù)量、所述多個用戶對所述數(shù)據(jù)稱贊的比例、所述數(shù)據(jù)的長度、所述數(shù)據(jù)包含的多媒體數(shù)據(jù)、對所述數(shù)據(jù)進行操作的用戶的級別、訪問總量、單位時間的訪問量、獨立用戶的訪問量。
進一步地,所述回復(fù)率為所述回復(fù)數(shù)量與所述訪問總量或所述獨立用戶的訪問量的比值,和/或;所述收藏率為所述收藏數(shù)與所述訪問總量或所述獨立用戶的訪問量的比值,和/或;所述被贊的比例為所述被贊數(shù)與所述訪問總量或所述獨立用戶的訪問量的比值。
進一步地,所述質(zhì)量模型為使用已有的高質(zhì)量數(shù)據(jù)作為正例樣本訓(xùn)練得到的。
進一步地,還包括:獲取用戶的信息,其中,所述用戶的信息用于標(biāo)識該用戶對數(shù)據(jù)的關(guān)注;根據(jù)所述用戶的信息獲取數(shù)據(jù)并排序,從排序之后的數(shù)據(jù)中獲取向所述用戶推薦的數(shù)據(jù);將向所述用戶推薦的數(shù)據(jù)推薦給所述用戶。
進一步地,所述用戶的信息包括至少兩類標(biāo)簽,其中,第一類標(biāo)簽用于標(biāo)識所述用戶訪問過的數(shù)據(jù)和/或操作過的數(shù)據(jù),第二類標(biāo)簽用于標(biāo)識所述用戶的狀態(tài)。
進一步地,所述第一類標(biāo)簽包括至少一個標(biāo)簽,所述至少一個標(biāo)簽根據(jù)所述用戶訪問和/或操作數(shù)據(jù)的時間來決定該標(biāo)簽的權(quán)重,所述權(quán)重作為向所述用戶推薦數(shù)據(jù)的依據(jù)。
根據(jù)本發(fā)明實施例的另一個方面,還提供了一種數(shù)據(jù)處理裝置,包括:獲取模塊,用于根據(jù)至少一個維度獲取數(shù)據(jù),其中,所述維度用于表示與數(shù)據(jù)被推薦相關(guān)的屬性;合并模塊,用于根據(jù)各個數(shù)據(jù)對應(yīng)的維度對獲取到的數(shù)據(jù)進行合并;排序模塊,用于將合并后的數(shù)據(jù)按照預(yù)定規(guī)則進行排序,其中,所述預(yù)定規(guī)則能夠被編輯,排序后的數(shù)據(jù)用于向用戶進行推薦。
在本發(fā)明實施例中,通過在內(nèi)容服務(wù)商側(cè)對數(shù)據(jù)進行處理,然后這些處理后的數(shù)據(jù)將被用于數(shù)據(jù)的推薦,從而實現(xiàn)了靈活推薦的目的,進而解決了現(xiàn)有技術(shù)中僅僅根據(jù)用戶上次訪問的數(shù)據(jù)來進行推薦造成的無法滿足內(nèi)容服務(wù)商要求的問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)處理方法的示意圖;
圖2是根據(jù)本發(fā)明實施例的一種可選的數(shù)據(jù)處理裝置的示意圖;
圖3是根據(jù)本發(fā)明實施例的一種可選實施例的推薦內(nèi)容來源的示意圖;
圖4是根據(jù)本發(fā)明實施例的推薦系統(tǒng)的示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本發(fā)明實施例,提供了一種數(shù)據(jù)處理方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本發(fā)明實施例的數(shù)據(jù)處理方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,根據(jù)至少一個維度獲取數(shù)據(jù),其中,維度用于表示與數(shù)據(jù)被推薦相關(guān)的屬性;
步驟S104,根據(jù)各個數(shù)據(jù)對應(yīng)的維度對獲取到的數(shù)據(jù)進行合并;
步驟S106,將合并后的數(shù)據(jù)按照預(yù)定規(guī)則進行排序,其中,預(yù)定規(guī)則能夠被編輯,排序后的數(shù)據(jù)用于向用戶進行推薦。
在上述步驟中,可以在服務(wù)器側(cè)對數(shù)據(jù)進行處理,處理之后的數(shù)據(jù)可以用于向用戶進行推薦,通過上述步驟,可以獲取到至少一個維度的數(shù)據(jù),然后對數(shù)據(jù)進行了處理,相比于現(xiàn)有技術(shù),對數(shù)據(jù)的處理更加有利于向用戶的推薦,從而實現(xiàn)了靈活推薦的目的,進而解決了現(xiàn)有技術(shù)中僅僅根據(jù)用戶上次訪問的數(shù)據(jù)來進行推薦造成的無法滿足內(nèi)容服務(wù)商要求的問題。
在本實施例中,還提供了一種數(shù)據(jù)處理裝置,如圖2所示,該裝置包括:
獲取模塊22,用于根據(jù)至少一個維度獲取數(shù)據(jù),其中,維度用于表示與數(shù)據(jù)被推薦相關(guān)的屬性;
合并模塊24,用于根據(jù)各個數(shù)據(jù)對應(yīng)的維度對獲取到的數(shù)據(jù)進行合并;
排序模塊26,用于將合并后的數(shù)據(jù)按照預(yù)定規(guī)則進行排序,其中,預(yù)定規(guī)則能夠被編輯,排序后的數(shù)據(jù)用于向用戶進行推薦。
在上述描述中,至少一個維度可以根據(jù)實際的需要來進行設(shè)置,例如,編輯推薦可以作為一個維度,帖子質(zhì)量大于閾值可以作為一個維度等等。
在某種特定的情況下,同一個數(shù)據(jù)(例如,文章)可能出現(xiàn)到多個維度當(dāng)中,例如,該數(shù)據(jù)可以是編輯推薦的,同時又是帖子質(zhì)量超過閾值的。為了防止同樣的數(shù)據(jù)出現(xiàn),可以在合并的時候進行去重,但是,需要把該數(shù)據(jù)的多個維度標(biāo)識在該數(shù)據(jù)上。該去重可以按照如下步驟進行:首先對對應(yīng)于不同維度的數(shù)據(jù)進行去重,然后可以將不同維度對應(yīng)在去重之后的數(shù)據(jù)上。這樣的處理既減少了數(shù)據(jù)量,又保留了一個數(shù)據(jù)所對應(yīng)的不同維度,從而為后續(xù)的推薦做準(zhǔn)備。
有時,出于某種目的考慮,有些數(shù)據(jù)是不能被推薦的,例如,違反國家法律或者違反社會公德的數(shù)據(jù)。此時可以通過黑名單的方式將這些數(shù)據(jù)刪除,如果需要刪除的數(shù)據(jù)比較多,也可以通過白名單的方式進行??蛇x地,本發(fā)明實施例還可以根據(jù)用戶所在的地理位置選擇所推薦的數(shù)據(jù)。在該可選實施例中,將獲取到的數(shù)據(jù)按照預(yù)定規(guī)則進行排序,可以判斷排序之后的數(shù)據(jù)是否屬于需要剔除的數(shù)據(jù);根據(jù)判斷結(jié)果從獲取到的數(shù)據(jù)中將需要剔除的數(shù)據(jù)進行剔除;保存剔除之后的數(shù)據(jù)。通過該可選實施方式,可以對一些數(shù)據(jù)進行屏蔽,從而符合要求。
對數(shù)據(jù)的剔除,僅僅是將有危害的數(shù)據(jù)進行了屏蔽。當(dāng)然,也是需要按照數(shù)據(jù)的質(zhì)量來進行處理。在本可選實施例中,在至少一個維度包括數(shù)據(jù)的質(zhì)量的情況下,還可以根據(jù)質(zhì)量模型對數(shù)據(jù)的質(zhì)量進行評估,該質(zhì)量模型是根據(jù)與質(zhì)量對應(yīng)的至少一個參數(shù)構(gòu)造的;保存評估得到的該數(shù)據(jù)對應(yīng)的質(zhì)量。通過質(zhì)量評估模型可以使數(shù)據(jù)的推薦的質(zhì)量提高。質(zhì)量模型可以是根據(jù)經(jīng)驗搭建的,有些質(zhì)量模型也為使用已有的高質(zhì)量數(shù)據(jù)作為正例樣本訓(xùn)練得到的。這種處理方式可以對質(zhì)量的評估進行靈活的調(diào)整。
數(shù)據(jù)的質(zhì)量有很多種體現(xiàn)方式,例如,在數(shù)據(jù)為對多個用戶發(fā)布的情況下,至少一個參數(shù)包括以下至少之一:數(shù)據(jù)發(fā)布的時間、多個用戶對數(shù)據(jù)的回復(fù)數(shù)量、多個用戶對數(shù)據(jù)的回復(fù)率、多個用戶對數(shù)據(jù)的收藏數(shù)、多個用戶對數(shù)據(jù)的收藏率、多個用戶對數(shù)據(jù)稱贊的數(shù)量、多個用戶對數(shù)據(jù)稱贊的比例、數(shù)據(jù)的長度、數(shù)據(jù)包含的多媒體數(shù)據(jù)、對數(shù)據(jù)進行操作的用戶的級別、訪問總量、單位時間訪問量、獨立用戶的訪問量。
作為一個可選的實施方式,上述參數(shù)還可以包括如下至少之一:回復(fù)率為回復(fù)數(shù)量與訪問總量或獨立用戶的訪問量的比值,和/或;收藏率為收藏數(shù)與訪問總量或獨立用戶的訪問量的比值,和/或;被贊的比例為被贊數(shù)與訪問總量或獨立用戶的訪問量的比值。
在得到上述數(shù)據(jù)之后,還可以根據(jù)上述數(shù)據(jù)進行推薦。在一個可選的實施方式中,還可以考慮結(jié)合用戶的信息。在該可選的實施方式中,可以獲取用戶的信息,其中,用戶的信息用于標(biāo)識該用戶對數(shù)據(jù)的關(guān)注;然后根據(jù)用戶的信息獲取數(shù)據(jù)并排序,從排序之后的數(shù)據(jù)中獲取向用戶推薦的數(shù)據(jù)并將數(shù)據(jù)推薦給用戶。通過該可選實施方式,可以結(jié)合用戶的信息來進行推薦。
在一個可選的實施方式中,可以用標(biāo)簽表示用戶的信息,例如,用戶的信息包括至少兩類標(biāo)簽,其中,第一類標(biāo)簽用于標(biāo)識用戶訪問過的數(shù)據(jù)和/或操作過的數(shù)據(jù),第二類標(biāo)簽用于標(biāo)識用戶的狀態(tài)。在標(biāo)簽比較多的時候,還可以引入權(quán)重。例如,第一類標(biāo)簽包括至少一個標(biāo)簽,至少一個標(biāo)簽根據(jù)用戶訪問和/或操作數(shù)據(jù)的時間來決定該標(biāo)簽的權(quán)重,權(quán)重作為向用戶推薦數(shù)據(jù)的依據(jù)。
下面結(jié)合一個可選實施例進行說明。
在本可選實施例中,可以實現(xiàn)如下的效果:
1.動態(tài)的推薦是個性化的,每個用戶看到的都是適合自己且優(yōu)質(zhì)的內(nèi)容。即“千人千面”。
為了做到這一點,可以讀取每個用戶的看帖記錄、搜索記錄,根據(jù)用戶看不同類型內(nèi)容的多寡(此處用帖子標(biāo)簽來分類)來猜測用戶的興趣推薦她可能感興趣的內(nèi)容。還可以根據(jù)用戶的信息,例如,用戶孕育孩子的信息,此時可以根據(jù)用戶寶寶年齡,預(yù)產(chǎn)期等信息來推薦對用戶孕育有幫助的內(nèi)容。除此之外還可以采用協(xié)同過濾來推薦部分話題。
在本實施例中,帖子是否是一個優(yōu)質(zhì)的,值得推送出去的帖子,主要由質(zhì)量模型來判斷。該模型通過話題回復(fù)量、話題長短、受關(guān)注程度等指標(biāo)來計算帖子是否優(yōu)質(zhì)。
2.盡量節(jié)約運營的人力成本,大部分工作應(yīng)由算法自動完成。
有了算法幫助,工作人員日常最大的工作就是為帖子分類(即打標(biāo)簽),由于每日有海量的新帖產(chǎn)生,為了節(jié)約人力,在本實施例中用機器學(xué)習(xí)自動為帖子打標(biāo)簽。工作人員只需要對少數(shù)典型帖子分類作為訓(xùn)練集即可。
3.可靈活接入不同的業(yè)務(wù),包括用戶生產(chǎn)內(nèi)容(UGC)、專業(yè)生產(chǎn)內(nèi)容(PGC)、廣告、運營活動。
在本實施例中設(shè)計了一套內(nèi)容排序規(guī)則來滿足靈活介入。這套排序規(guī)則可以滿足廣告客戶與各部門運營的需求。
4.適量隨機的推送,保證呈現(xiàn)給用戶一個開放的內(nèi)容生態(tài),不會限制在自己的興趣圈子里面。
下面對上述幾個方面進行說明。
推薦系統(tǒng)內(nèi)容框架
推薦內(nèi)容來源有很多種類型,圖3是根據(jù)本發(fā)明實施例的一種可選實施例的推薦內(nèi)容來源的示意圖,在圖3中,涉及到了按照質(zhì)量排序,隨機排序、按照權(quán)重排序、按照發(fā)表時間排序等。這些不同的排序可以看作是不同的維度。
本質(zhì)來說,該推薦系統(tǒng)內(nèi)容來源包括四類:
第一類:純智能推薦-包括按標(biāo)簽計算出質(zhì)量較高的帖,協(xié)同過濾帖,按狀態(tài)匹配的內(nèi)容,這部分內(nèi)容占大部分。
第二類:半智能半人工-在按興趣匹配的基礎(chǔ)上,人工可以定義一些話題更有優(yōu)先級。
第三類:純?nèi)斯ね扑]-小編強推是純?nèi)斯み\營;小編認為能火的帖子,可設(shè)為“潛力帖”可增加其曝光。
第四類:用戶自篩選-用戶關(guān)注的人發(fā)表的內(nèi)容會出現(xiàn)在動態(tài)。
標(biāo)簽框架
為了能夠讓機器能夠進行更精準(zhǔn)的推薦,新的標(biāo)簽框架包括三個維度:
主題-內(nèi)容描述的主要對象:主題會標(biāo)識在內(nèi)容上,也會包含在用戶興趣中。例如用戶經(jīng)常關(guān)注“美食”主題的帖子,在本實施例中,也會認為用戶喜歡“美食”這個主題,我們會給用戶優(yōu)先推薦“美食”相關(guān)的話題。
主題是一個樹形結(jié)構(gòu)。
體裁-內(nèi)容發(fā)表的動機、訴求。體裁包括“教程/知識”、“討論”、“曬圖”、“問答”等等,體裁會影響推薦的時機。例如“美食”主題的話題會有“廣告”體裁與“教程”體裁,“美食”相關(guān)的“教程”就不會在不合適的時間向用戶推薦。
適用狀態(tài)-內(nèi)容是指適用什么樣的用戶,例如,孕育相關(guān)的內(nèi)容適用于什么階段的媽媽或準(zhǔn)媽媽。適用狀態(tài)包括從備孕、懷孕到寶寶6歲所有的孕育階段。它能保證用戶在每一個階段都能看到適合自己的孕育知識。
在本實施例中,每一篇內(nèi)容都包含上述三個維度的標(biāo)簽,以此保證推薦的精準(zhǔn)性。
圖4中示出了推薦系統(tǒng)的技術(shù)框架,在圖4中,涉及到內(nèi)容來源、質(zhì)量判斷模型等,下面對此進行說明。
1.多種來源的內(nèi)容混合
動態(tài)的信息包括類似微博(我關(guān)注的人發(fā)表的內(nèi)容)、今日頭條(根據(jù)興趣匹配的內(nèi)容)、雜志(每天小編精選的內(nèi)容)、孕期伴侶(和我孕育狀態(tài)息息相關(guān)的內(nèi)容)等多種形式。
2.帖子質(zhì)量判斷模型
該計算方法先假設(shè)以下特征與話題質(zhì)量有一定的關(guān)聯(lián)性:
PV/最后更新時間-發(fā)帖時間
·回復(fù)數(shù)/PV
·收藏數(shù)/UV
·被贊數(shù)/UV
·帖子內(nèi)容長度
·是否有圖片
·發(fā)帖和回帖用戶的平均等級
備注:PV是page view,即頁面訪問量;UV是unique visitor獨立訪客訪問數(shù)
假設(shè)這些特征滿足一定"條件"后,該話題會變?yōu)?推薦帖"。工作人員挑選的精華帖/推薦帖作為樣本,計算出各個特征值權(quán)重,各個特征值線性加權(quán)后,將計算結(jié)果帶入sigmoid函數(shù),其輸出值作為帖子質(zhì)量,例如,如果值大于0.5則認為是推薦帖,小于0.5則認為不是推薦帖。
備注:Sigmoid函數(shù)所涉及到的邏輯回歸,是一個標(biāo)準(zhǔn)的模型。
3.區(qū)分用戶狀態(tài)標(biāo)簽、興趣標(biāo)簽
對用戶推薦內(nèi)容是根據(jù)用戶身上的標(biāo)簽來定,而標(biāo)簽包括兩類,一是興趣標(biāo)簽,例如八卦、寵物、化妝等;一類是狀態(tài)標(biāo)簽(與孕育狀態(tài)相關(guān)的標(biāo)簽),例如寶寶護理、早教、月子等等。為用戶打兩類標(biāo)簽的方式是不同的。
用戶興趣標(biāo)簽
·用戶興趣標(biāo)簽通過用戶的看帖行為產(chǎn)生,用戶標(biāo)簽與閱讀過的話題的主題是完全相關(guān)的
·用戶的興趣標(biāo)簽是從主題中選取,每個用戶的每個標(biāo)簽都有權(quán)重,權(quán)重越大表示對該主題越感興趣
·權(quán)重會隨自然時間衰減,目前是模擬圓形的函數(shù)曲線衰減,公式為:
Δdays是指上次更新這個標(biāo)簽的日期與用戶第一次打上某標(biāo)簽的日期相差的天數(shù)。如果x天內(nèi),用戶沒有對某標(biāo)簽有行為,該標(biāo)簽的權(quán)重就會衰減到0。
·用戶在有看帖行為時,會更新標(biāo)簽,更新過程為先衰減其身上的標(biāo)簽,再將當(dāng)前看帖的標(biāo)簽以及權(quán)重累加到用戶身上。
例:假設(shè)取x為45,某用戶有tag1、tag2、tag3共3個標(biāo)簽,分別在2015.12.13,2016.1.14,2015.11.11打上,權(quán)重分別為12,10,5。在2016.2.2,用戶有看帖行為,看的帖子有3個標(biāo)簽,tag2,tag3,tag4,該帖子的質(zhì)量為0.6。
經(jīng)過更新,tag1由于與當(dāng)前日期已經(jīng)相隔51天,大于45天,權(quán)重衰減到0,而新看的帖沒有tag1這個標(biāo)簽,所以tag1的權(quán)重為0。tag2與當(dāng)前日期相隔19天,那么tag2的權(quán)重應(yīng)為tag3與當(dāng)前日期相隔83天,大于45天,權(quán)重衰減為0,又因為新看的帖包含tag3,因此tag3的權(quán)重為0+0.6=0.6。tag4是新增的標(biāo)簽,權(quán)重為帖子的質(zhì)量0.6。
·部分tag是強相關(guān)的,例如關(guān)注"婆媳關(guān)系"的和關(guān)注"夫妻情感"可視為同一tag
tag合并的原則是:關(guān)注人群高度重合且內(nèi)容相近或機器無法區(qū)分的多個tag可合并。
4.用戶狀態(tài)標(biāo)簽
每個狀態(tài)相關(guān)的主題,都有“適用狀態(tài)”屬性,例如“輔食”適用于4個月到1歲的寶寶。我們會按比例為她推薦該狀態(tài)相關(guān)的內(nèi)容,由于每類用戶對孕育話題的興趣不一樣(例如懷孕用戶對該類話題明顯比有寶寶的用戶需求強),比例也會隨著調(diào)整。
5.改變排序規(guī)則簡單方便。
排序規(guī)則通過配置的方式控制,所以想增加刪除數(shù)據(jù)來源,改變各來源順序,都可以通過修改配置文件的方式實現(xiàn),不需要改動代碼,簡單方便。
6.實時推薦系統(tǒng)
能根據(jù)當(dāng)前用戶點擊行為,實時計算用戶的興趣點,并更新用戶的興趣標(biāo)簽。因此可以實時的捕捉用戶的興趣變化,并馬上響應(yīng),是一個無延遲的線上實時推薦系統(tǒng)。
結(jié)合新的標(biāo)簽體系可對不同場景進行微調(diào),由于新的標(biāo)簽體系有“主題”與“體裁”兩個維度,因此可以很方便地對細微場景進行優(yōu)化。例如同樣是對“婆媳八卦”感興趣的用戶,對喜歡回帖的用戶推薦“討論”型話題,而對喜歡看帖不回的用戶推薦“故事”型話題,實現(xiàn)資源配置最優(yōu)化。
總的來說,“主題”用于判斷“用戶是否感興趣”,“體裁”用于判斷“在什么場景下推薦(或不推薦)”。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。