1.一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,該方法包括:
獲取網(wǎng)站上的用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合;
根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖;
根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度;以及
將所述權(quán)威度與所述待關(guān)聯(lián)數(shù)據(jù)集合進行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。
2.如權(quán)利要求1所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖的步驟之前,該方法還包括:
根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合進行用戶興趣畫像。
3.如權(quán)利要求2所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合進行用戶興趣畫像的步驟,具體包括:
根據(jù)所述用戶基本信息中的具體用戶uk確定該具體用戶uk對應(yīng)的歷史行為數(shù)據(jù)集合V;
計算所述待關(guān)聯(lián)數(shù)據(jù)集合中的待關(guān)聯(lián)數(shù)據(jù)項vh與歷史行為數(shù)據(jù)集合V之間的相似度;
根據(jù)所述相似度獲得具體用戶uk對待關(guān)聯(lián)數(shù)據(jù)項vh的興趣度I(vh,uk);以及
根據(jù)所述興趣度I(vh,uk)進行用戶興趣畫像。
4.如權(quán)利要求3所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,所述興趣度I(vh,uk)的具體計算公式為:
其中,t為相似度計算維度;T為相似度計算維度總數(shù);wt為維度權(quán)重因子;vo為用戶歷史行為數(shù)據(jù)項;μt(vo,uk)為具體用戶uk對其歷史行為數(shù)據(jù)項vo的興趣偏好;St(vh,vo)為待關(guān)聯(lián)數(shù)據(jù)項vh與用戶歷史行為數(shù)據(jù)項vo在相似度計算維度t下的相似性。
5.如權(quán)利要求1所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖的步驟,具體包括:
根據(jù)所述用戶基本信息獲取具體用戶ui和具體用戶uj之間的基本信息相似度S(ij);
根據(jù)所述基本信息相似度S(ij)獲取具體用戶ui和具體用戶uj在特定主題維度Al下的關(guān)聯(lián)度Tl(ij);
獲取具體用戶ui的歷史行為數(shù)據(jù)集合和具體用戶uj的歷史行為數(shù)據(jù)集合在特定主題維度Al下的關(guān)聯(lián)緊密程度以及
根據(jù)所述關(guān)聯(lián)度Tl(ij)和所述關(guān)聯(lián)緊密程度構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖。
6.如權(quán)利要求5所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,基本信息相似度S(ij)的表達式為:
其中,為對應(yīng)基本信息項的相似度;P為個人基本信息的條目數(shù);如果個人基本信息條目中的第p條屬性是離散型變量,當且僅當具體用戶ui和具體用戶uj具有相同的屬性值時,將設(shè)定為1,否則將設(shè)置成為0;如果個人基本信息條目中的第p條屬性是連續(xù)型變量,的取值如下:
其中,和分別是具體用戶ui和具體用戶uj在屬性上的取值;K為用戶總數(shù)。
7.如權(quán)利要求1所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度的步驟,具體包括:
根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖建立面向主題維度的加權(quán)網(wǎng)絡(luò)模型;以及
對每個主題維度下的加權(quán)網(wǎng)絡(luò)模型運行URank算法,計算該主題維度下用戶的權(quán)威度。
8.如權(quán)利要求7所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,所述權(quán)威度URl的具體迭代求解公式具體為:
URl=(1-β)·El+β·PlN×URl
其中,PlN為規(guī)范化的轉(zhuǎn)移概率矩陣;β為阻尼因數(shù),用于保證傳播概率的穩(wěn)定性;El為均勻隱形傳態(tài)矢量。
9.如權(quán)利要求7所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,所述轉(zhuǎn)移概率矩陣的具體計算公式為:
其中,為從具體用戶ui隨機沖浪到具體用戶uj的轉(zhuǎn)移概率;為從具體用戶ui隨機沖浪到其它具體用戶的轉(zhuǎn)移概率之和,其值為1;k為用戶總數(shù)。
10.如權(quán)利要求9所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,所述轉(zhuǎn)移概率的具體計算公式為:
其中,udij用于標識數(shù)據(jù)項dj是否是具體用戶ui的歷史行為數(shù)據(jù),當且僅當數(shù)據(jù)項dj為具體用戶ui的歷史行為數(shù)據(jù)時,udij=1,否則udij=0;Tl(ij)為具體用戶ui和具體用戶uj在特定主題維度Al下的關(guān)聯(lián)度。
11.如權(quán)利要求1所述的基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,所述數(shù)據(jù)關(guān)聯(lián)結(jié)果R(vh,uk)的具體計算公式為:
其中,μ(vh,Al)為指示變量,用以表明待關(guān)聯(lián)數(shù)據(jù)項vh是否屬于特定主題維度Al;URtl為具體用戶ut(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項vh所屬主題維度Al下的權(quán)威度;ξ為權(quán)重因子;I(vh,ut)為具體用戶ut(t≠k)對待關(guān)聯(lián)數(shù)據(jù)項vh的喜好程度;Tl(tk)為目標用戶uk與具體用戶ut(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項vh所屬主題維度Al下的關(guān)聯(lián)度。