基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù),特別涉及一種基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)己經(jīng)表現(xiàn)為了去中心化,開放,共享的特點,這些特點影響并改變著人們的生活方式?;ヂ?lián)網(wǎng)已經(jīng)不再只是用戶發(fā)布消息和獲取消息的媒介,更多的是人與人之間的交流互動平臺。隨著社交網(wǎng)絡(luò)的出現(xiàn)與發(fā)展,社交網(wǎng)絡(luò)開始擁有龐大的用戶群體,并且用戶在社交網(wǎng)絡(luò)上可以表達自己的觀點,頻繁地更新微博,將自己感興趣的信息分享給好友,不斷添加自己感興趣的用戶擴展自己的愛好群等。如此海量的數(shù)據(jù)讓用戶很容易迷失在信息的海洋中,要想更快、更準確地尋找到用戶自己需要的數(shù)據(jù)變得更加的困難。基于傳統(tǒng)的搜索獲取信息的推送方式己經(jīng)不適合。價值高、可靠性強的信息無法展示在它感興趣的用戶面前。目前沒有有效方法對這些數(shù)據(jù)進行深度分析并挖掘深層次的有用信息,為用戶提供個性化的推送服務(wù)。
【發(fā)明內(nèi)容】
[0003]為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法,包括:
[0004]采集歷史會話數(shù)據(jù)并進行預處理,由會話主題分布得到用戶主題分布,根據(jù)每個用戶的關(guān)注數(shù)和被關(guān)注數(shù)獲取用戶的特征行為以確定會話發(fā)起用戶,將會話發(fā)起用戶根據(jù)用戶興趣特征推送給會話參與用戶。
[0005]優(yōu)選地,所述采集歷史會話數(shù)據(jù)并進行預處理,進一步包括:
[0006]通過數(shù)據(jù)清洗將無用數(shù)據(jù)清除,通過數(shù)據(jù)預處理和分詞,將會話的內(nèi)容信息轉(zhuǎn)化為結(jié)構(gòu)向量;收集縮寫詞和全稱的映射表,對會話的內(nèi)容進行替換處理;將無意義字符進行過濾處理;從用戶會話中提取代表會話的主題以及目標用戶信息;采用條件隨機場算法進行中文分詞;在分詞系統(tǒng)中輸入會話的內(nèi)容,經(jīng)過分詞處理后,將輸出的會話數(shù)據(jù)轉(zhuǎn)換為詞條序列。
[0007]優(yōu)選地,所述根據(jù)每個用戶的關(guān)注數(shù)和被關(guān)注數(shù)獲取用戶的特征行為,進一步包括:
[0008]通過會話用戶的被關(guān)注數(shù)、關(guān)注人數(shù)和發(fā)布的會話數(shù)為標準來進行定量分析;針對不同的特征對用戶進行群體分類;設(shè)定被關(guān)注數(shù)的閾值來增加和減少來計算用戶的平均被關(guān)注數(shù);通過決策樹對會話發(fā)起用戶和會話參與用戶進行分類;
[0009]度量會話參與用戶%和會話發(fā)起用戶Ut之間的主題分布比值向量VdPVt的相似度sim(up,ut):
[0010]sim(up,ut) = (Vp.Vt)/|Vp.Vt
[0011 ]將相似度高于預定閾值的會話發(fā)起用戶作為推送的候選集推送給會話參與用戶;
[0012]根據(jù)每個會話發(fā)起用戶的社交關(guān)系和所發(fā)起會話的主題比值,估計每個主題下的高影響力用戶;若主題T下的會話發(fā)起用戶Ut在該主題下會話發(fā)起用戶總數(shù)為Nu,該用戶發(fā)的會話總數(shù)Wu,包含主題T的會話數(shù)Nw,則會話發(fā)起用戶的影響力計算為:
[0013]imp(ut) = (ut/Nu)*(Wu/Nw)
[0014]根據(jù)會話發(fā)起用戶的推送列表,統(tǒng)計會話發(fā)起用戶比值最多的主題,然后推送該主題下的會話發(fā)起用戶。
[0015]本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0016]本發(fā)明提出了一種基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法,從多角度分析用戶的興趣需求,準確刻畫用戶的興趣愛好的前提下增加用戶潛在興趣的發(fā)掘,提高推送結(jié)果的多樣性和準確性。
【附圖說明】
[0017]圖1是根據(jù)本發(fā)明實施例的基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法的流程圖。
【具體實施方式】
[0018]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中的一些或者所有細節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0019]本發(fā)明的一方面提供了一種基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法。圖1是根據(jù)本發(fā)明實施例的基于大數(shù)據(jù)分析的內(nèi)容呈現(xiàn)方法流程圖。
[0020]本發(fā)明的方法基于會話數(shù)據(jù)采集、會話主題分類、會話發(fā)起用戶提取和會話發(fā)起用戶推送。會話數(shù)據(jù)采集架構(gòu)通過API分布式抓取需要的數(shù)據(jù),為會話發(fā)起用戶推送提供資源。會話主題分類通過文本挖掘為每個會話確定一個主題,會話發(fā)起用戶提取通過會話主題分布矩陣轉(zhuǎn)換為用戶主題分布矩陣,作為用戶的興趣特征,對用戶的特征行為進行統(tǒng)計,結(jié)合用戶的關(guān)注數(shù)和被關(guān)注數(shù)兩個特征對用戶進行分類,將用戶分為會話參與用戶和會話發(fā)起用戶。通過會話發(fā)起用戶的提取,為推送算法找到推送的主體;所述會話發(fā)起用戶推送通過推送算法將會話參與用戶感興趣的會話發(fā)起用戶推送給會話參與用戶,本發(fā)明還結(jié)合高影響力用戶和主題之間的關(guān)聯(lián)關(guān)系,可以挖掘會話參與用戶的潛在主題愛好。
[0021 ]為了快速準確獲取會話數(shù)據(jù),本發(fā)明搭建分布式并行數(shù)據(jù)抓取架構(gòu)。系統(tǒng)架構(gòu)由兩部分組成,在一定的時間間隔上,采集服務(wù)器觸發(fā)客戶端抓取數(shù)據(jù),將抓取的內(nèi)容保存到分布式數(shù)據(jù)庫中,并將會話ID和用戶ID存儲到ID數(shù)據(jù)庫中。ID數(shù)據(jù)庫提供兩個功能,一個是存儲ID,為后續(xù)的用戶維度和會話維度作為ID緩存。第二個是為了實現(xiàn)重復控制,防止重復抓取相同的用戶和會話,如果檢測到已經(jīng)抓取過的用戶和會話就不會調(diào)用API接口去抓取,也不會將數(shù)據(jù)保存在分布式數(shù)據(jù)庫,設(shè)置了事務(wù)分配服務(wù)器,每臺抓取客戶端向事務(wù)服務(wù)器申請ID事務(wù),將信息抓取后存入分布式數(shù)據(jù)庫后再向事務(wù)服務(wù)器申請ID。如果有抓取需求的改變,可以根據(jù)事務(wù)的需要適當增加或減少客戶端,而不需要更改整個系統(tǒng)的架構(gòu)。
[0022]為消除歧義性進一步挖掘潛在語義,所以在第一步的時候通過數(shù)據(jù)清洗將無用數(shù)據(jù)清除,提高會話數(shù)據(jù)的質(zhì)量。分詞和主題提取是會話內(nèi)容分析的基礎(chǔ),通過數(shù)據(jù)預處理和分詞,將會話的內(nèi)容信息轉(zhuǎn)化為結(jié)構(gòu)向量。
[0023]抓取下來的數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù),必須對需要的信息進行會話文本信息的提取還有進行一些文本處理工作。具體的處理有以下幾種。(I)通過收集縮寫詞和全稱的映射表,對會話的內(nèi)容進行替換處理;(2)將表情符號和無意義字符進行過濾處理;(3)從用戶會話中提取代表會話的主題以及目標用戶信息。
[0024]采用的是條件隨機場算法進行中文分詞。在分詞系統(tǒng)中輸入會話的內(nèi)容,然后經(jīng)過會話預處理、分詞算法后,輸出的會話數(shù)據(jù)就變成一條條的詞條序列,詞與詞之間是用空格分割開來。
[0025]在每個領(lǐng)域上都有一些專門從事某個方向的用戶,本發(fā)明稱作會話發(fā)起用戶。這些會話發(fā)起用戶可能是信息傳播的關(guān)鍵中介,也可能是熱點信息的來源。會話發(fā)起用戶在社交網(wǎng)絡(luò)中起到消息傳播的作用,他們能夠制造關(guān)于某些主題的會話和轉(zhuǎn)發(fā)某些主題的會話,大部