用戶個人品性預測方法
【專利摘要】本發(fā)明公開了一種用戶個人品性預測方法,旨在克服現(xiàn)有技術存在的整體精準度不高、適用性不強、特征權重及用戶個人品性標記閾值分配過于主觀化等問題,該方法的步驟為:1.由特征解析與表示模塊實現(xiàn)用戶個人品性相關特征集合的解析和表示;2.由特征分析和預處理模塊實現(xiàn)多元數(shù)據(jù)類型的歸一化;3.由參數(shù)學習模塊實現(xiàn)特征權重的分配以及用戶個人品性標記最低閾值的確定;4.由用戶個人品性預測模塊實現(xiàn)用戶個人品性的預測。
【專利說明】用戶個人品性預測方法
【技術領域】
[0001]本發(fā)明涉及一種社會網絡個體認知領域的用戶個人品性預測方法,更確切地說,本發(fā)明涉及一種用戶個人品性預測方法。
【背景技術】
[0002]社會網絡的迅速發(fā)展為用戶行為學習和建模提供了豐富的信息。用戶個人品性主要體現(xiàn)在對事物的態(tài)度和所采取的言行上,對用戶交互行為發(fā)揮著隱性的作用。
[0003]目前,實現(xiàn)用戶個人品性的預測主要有兩種方法:一種是僅基于用戶基本網絡結構特征,利用機器學習和統(tǒng)計分析方法對其進行建模;另一種是在用戶基本網絡特征基礎上,引入詞典資源,分析用戶的語言學特征,從中抽取用戶文本的情感傾向,利用機器學習和統(tǒng)計分析的方法完成對用戶個人品性的預測分析。
[0004]雖然針對社會網絡進行用戶個人品性的預測問題已有一定的研究工作,但仍然存在一些不足,主要體現(xiàn)在:
[0005]1.整體精準度不高
[0006]目前,盡管針對某一種用戶個人品性的預測精準度較高,但就整體而言,用戶個人品性的平均預測精準度卻不高。
[0007]2.適用性不強
[0008]由于不同的文化背景和社會習慣,國內外的社會網絡可能存在一定的差異,而且目前的用戶個人品性預測模型缺少針對國內社會網絡的適用性研究。
[0009]3.特征權重及用戶個人品性標記最低閥值的分配過于主觀化
[0010]對于用戶個人品性相關特征的權重及用戶個人品性標記最低閥值的分配缺少系統(tǒng)方法和理論的支持,過于主觀化。
【發(fā)明內容】
[0011]本發(fā)明所要解決的技術問題是克服了現(xiàn)有技術存在的整體精準度不高、適用性不強、特征權重及用戶個人品性標記閥值分配過于主觀化的問題,提出一種用戶個人品性預測方法。
[0012]為解決上述技術問題,本發(fā)明是采用如下技術方案實現(xiàn)的:所述的用戶個人品性預測方法,包括如下步驟:
[0013]1.由特征解析與表示模塊實現(xiàn)用戶個人品性相關特征的解析和表示:
[0014](I)通過新浪微博API獲取新浪微博用戶初始的用戶個人特征集合、關系特征集合、興趣特征集合和發(fā)表狀態(tài)集合;
[0015](2)對用戶個人特征集合、關系特征集合進行預處理;
[0016](3)計算用戶的情感極性特征;
[0017](4)基于步驟(I) (2) (3)得到的結果,將用戶個人品性特征分別表示為{tender,actDays, verified, labg, favouritesAct, statusesAct}, {followersAct, friendsAct,bifollowerAct}, {(i0, ω0), Q1, ω ),…,(im, ωω)}和 Ε。
[0018]其中:{gender,actDays, verified, lang, favouritesAct, statusesAct}為用戶個人特征集合,gender為用戶性別,actDays為用戶的活躍天數(shù),verified為用戶是否是新浪微博認證用戶,Iang為用戶當前的語言版本,favouritesAct為用戶的收藏活躍頻率,statusesAct為用戶發(fā)表的微博的活躍頻率;{followersAct, friendsAct,bifollowerAct}為用戶關系特征集合,followersAct為用戶的粉絲活躍頻率,friendsAct為用戶的關注活躍頻率,bifollowerAct為用戶的互粉活躍頻率;Kitl, ω0), (i17 Q1),…,(im,ωπ)}為用戶興趣特征集合,1為用戶第m個興趣名稱,ωπ*用戶第m個興趣的權重;E為用戶的情感極性特征。
[0019]2.由特征分析和預處理模塊實現(xiàn)多元數(shù)據(jù)類型的歸一化。
[0020]3.由參數(shù)學習模塊實現(xiàn)特征權重的分配以及用戶個人品性標記最低閥值的確定:
[0021](I)分配各個特征權重;
[0022](2)確定用戶個人品性標記的最低閥值。
[0023]4.由用戶個人品性預測模塊實現(xiàn)基于最低閥值的用戶個人品性多標記的預測。
[0024]技術方案中所述的用戶個人特征集合、關系特征集合預處理,步驟如下:
[0025](I)將用戶注冊微博賬號的日期基于某一時間點轉換為用戶注冊微博賬號的天數(shù),即用戶活躍天數(shù),記為:actDays,并將其加入到用戶個人特征集合中,同時將用戶的注冊時間從集合中移除,即得到用戶個人特征集合{gender, actDays, verified, lang,favouritesCount, statusesCount};
[0026](2)基于用戶活躍天數(shù),計算用戶個人特征集合和關系特征集合中數(shù)值型元素的活躍頻率,計算公式如下:
[0027]featureActj = | J^eaturei |/actDays
[0028]其中KeatureActi為第i個特征的活躍頻率,!feature」為第i個特征的絕對值,即得到新定義的用戶個人特征集合{gender, actDays, verified, lang, favouritesAct,statusesAct}和關系特征集合{followersAct, friendsAct, bifollowerAct}。
[0029]技術方案中所述的用戶情感極性特征的計算,步驟如下:
[0030](I)應用NLPIR漢語分詞系統(tǒng),從發(fā)表狀態(tài)集合中抽取出形容詞和副詞列表,記為:
[0031]Emotion_words = (e0.e”...,e」)
[0032]其中:ej為第j個形容詞或者副詞;
[0033](2)基于知網的中文情感分析用詞語集,計算用戶的情感極性特征,其計算公式如下:
【權利要求】
1.用戶個人品性預測方法,其特征在于,所述的用戶個人品性預測方法包括如下步驟: (1)由特征解析與表示模塊實現(xiàn)用戶個人品性相關特征的解析和表示: 1)通過新浪微博API獲取新浪微博用戶初始的用戶個人特征集合、關系特征集合、興趣特征集合和發(fā)表狀態(tài)集合; 2)對用戶個人特征集合、關系特征集合進行預處理; 3)計算用戶的情感極性特征; 4)基于步驟1)2)3)的結果,將用戶個人品性特征表示為:
{gender, ac tDays, verified, lang, favouritesAct, statusesAct}, (followersAct, friendsAct, bifollowerAct), C(i0, ω0), (i17 Co1),...,(im, com)}和 E。 其中:{gender, actDays, verified, lang, favouritesAct, statusesAct}為用戶個人特征集合,gender為用戶性別,actDays為用戶的活躍天數(shù),verified為用戶是否是新浪微博認證用戶,Iang為用戶當前的語言版本,favouritesAct為用戶的收藏活躍頻率,statusesAct為用戶發(fā)表的微博的活躍頻率;{followersAct, friendsAct,bifollowerAct}為用戶關系特征集合,followersAct為用戶的粉絲活躍頻率,friendsAct為用戶的關注活躍頻率,bifollowerAct為用戶的互粉活躍頻率;Kitl, ω0), (i17 Q1),…,(im,ωω))為用戶興趣特征集合,乜為用戶第m個興趣名稱,ωπ為用戶第1]1個興趣的權重;E為用戶的情感極性特征。 (2)由特征分析和預處理模塊實現(xiàn)多元數(shù)據(jù)類型的歸一化; (3)由參數(shù)學習模塊實現(xiàn)特征權重的分配以及用戶個人品性標記最低閥值的確定: 1)分配各個特征權重; 2)確定用戶個人品性標記的最低閥值; (4)由用戶個人品性預測模塊實現(xiàn)基于最低閥值的用戶個人品性的預測。
2.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)用戶個人特征集合、關系特征集合預處理包括如下步驟: (1)將用戶注冊微博賬號的日期基于某一時間點轉換為用戶注冊微博賬號的天數(shù),即用戶活躍天數(shù),記為:actDays,并將其加入到用戶個人特征集合中,同時將用戶的注冊時間從集合中移除,即得到用戶個人特征集合{gender, actDays, verified, lang, favouritesCount, statusesCount); (2)基于用戶活躍天數(shù),計算用戶個人特征集合和關系特征集合中數(shù)值型元素的活躍頻率,計算公式如下:
featureActj = |Featurei |/actDays 其中:featureActi為第i個特征的活躍頻率,!feature」為第i個特征的絕對值,即得到新定義的用戶個人特征集合{gender, actDays, verified, lang, favouritesAct,statusesAct}和關系特征集合{followgrsAct, friendsAct, bifollowerAct}。
3.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)用戶情感極性特征的計算包括如下步驟: (I)應用NLPIR漢語分詞系統(tǒng),從發(fā)表狀態(tài)集合中抽取出形容詞和副詞列表,記為:
Emotion_words = (e0.θ17..., ej)其中A為第j個形容詞或者副詞;(2)基于知網的中文情感分析用詞語集,計算用戶的情感極性特征,其計算公式如下:
4.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)歸一化多元類型數(shù)據(jù)包括如下步驟: (1)初始化數(shù)值型用戶個人品性特征值的離散中心點集合,其計算公式如下:
5.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)特征權重的分配包括如下步驟: (I)計算特征的信息熵,其計算公式如下:
6.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)用戶個人品性標記最低閥值的確定包括如下步驟: (1)初始化用戶個人品性標記最低閥值,其計算公式如下:
mi [O] = min {an, ai2, ai3,...} + (max{an, ai2, ai3,...} -min, ai2>, ai3,...}) 其中:{an,ai2,ni3,...}為第i個用戶個人品性標記分數(shù)的取值集合,Hii [0]為第i個用戶個人品性標記分數(shù)的初始中心點,即初始最低閥值;(2)應用Kohonen’s featur e-maps聚類算法獲得收斂的用戶個人品性標記最低閥值。
7.按照權利要求1所述的用戶個人品性預測方法,其特征在于,所述的實現(xiàn)用戶個人品性預測包括如下步驟: (1)基于特征權重計算某一用戶與其他所有用戶之間的距離,其計算公式如下:
【文檔編號】G06F17/30GK103995820SQ201410081840
【公開日】2014年8月20日 申請日期:2014年3月6日 優(yōu)先權日:2014年3月6日
【發(fā)明者】王英, 左萬利, 王萌萌, 王鑫, 彭濤, 田中生, 趙秋月 申請人:吉林大學