基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法與流程

文檔序號(hào)：11144035閱讀：1119來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，尤其涉及一種數(shù)據(jù)關(guān)聯(lián)方法，具體來(lái)說(shuō)就是一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法。

背景技術(shù)：

隨著電子購(gòu)物平臺(tái)及其相關(guān)信息技術(shù)的飛速發(fā)展，電子網(wǎng)絡(luò)購(gòu)物已成為人們生活中不可或缺的組成部分。然而網(wǎng)絡(luò)中信息資源的數(shù)量大大超出了人們的處理能力，“網(wǎng)絡(luò)信息過(guò)載”問(wèn)題日趨嚴(yán)重。因此，新興電子購(gòu)物網(wǎng)絡(luò)在便利人們?nèi)粘Ｉ畹耐瑫r(shí)，也對(duì)現(xiàn)有信息檢索、個(gè)性化推薦服務(wù)、精準(zhǔn)營(yíng)銷等數(shù)據(jù)關(guān)聯(lián)問(wèn)題帶來(lái)了巨大的機(jī)遇和挑戰(zhàn)。因此，為滿足用戶越來(lái)越高的信息服務(wù)要求，向用戶精準(zhǔn)推送感興趣數(shù)據(jù)項(xiàng)目的數(shù)據(jù)關(guān)聯(lián)技術(shù)應(yīng)運(yùn)而生，并引起了國(guó)內(nèi)外學(xué)者和用戶的廣泛關(guān)注。然而，現(xiàn)有數(shù)據(jù)關(guān)聯(lián)方法存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、精準(zhǔn)度不高等缺陷。

現(xiàn)有技術(shù)中，可將數(shù)據(jù)關(guān)聯(lián)方法歸納成三個(gè)主要類別：基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法、協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法和混合數(shù)據(jù)關(guān)聯(lián)方法。其中，基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法從內(nèi)容角度挖掘用戶信息需求與數(shù)據(jù)對(duì)象的關(guān)聯(lián)，通過(guò)度量用戶模型與數(shù)據(jù)項(xiàng)模型的相似性來(lái)實(shí)現(xiàn)對(duì)備選數(shù)據(jù)項(xiàng)的關(guān)聯(lián)預(yù)測(cè)；但由于其沒(méi)有充分利用用戶群體知識(shí)，導(dǎo)致其關(guān)聯(lián)的數(shù)據(jù)項(xiàng)目與用戶模型耦合度過(guò)于緊密，無(wú)法發(fā)現(xiàn)用戶的潛在信息需求，很難實(shí)現(xiàn)具有一定聯(lián)想功能的數(shù)據(jù)關(guān)聯(lián)服務(wù)。協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法的應(yīng)用前景則更加廣泛，其基于群體知識(shí)進(jìn)行數(shù)據(jù)關(guān)聯(lián)，即興趣和偏好相似的用戶之間可以共享各自的信息體驗(yàn)，通過(guò)發(fā)現(xiàn)與用戶興趣相似的鄰居用戶，并將鄰居用戶感興趣的數(shù)據(jù)項(xiàng)與目標(biāo)用戶進(jìn)行關(guān)聯(lián)；但實(shí)際應(yīng)用中，協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法也存在著一些其難以克服的問(wèn)題或缺陷，例如：當(dāng)用戶無(wú)任何數(shù)據(jù)關(guān)聯(lián)歷史，該模型則無(wú)法對(duì)該新用戶的興趣偏愛(ài)進(jìn)行建模；與此相對(duì)應(yīng)的就是新數(shù)據(jù)項(xiàng)問(wèn)題，當(dāng)出現(xiàn)新的數(shù)據(jù)項(xiàng)時(shí)，很少甚至沒(méi)有用戶與其發(fā)生過(guò)關(guān)聯(lián)，進(jìn)而導(dǎo)致關(guān)聯(lián)算法無(wú)法實(shí)現(xiàn)相似度計(jì)算和關(guān)聯(lián)度預(yù)測(cè)。如上所述，基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法和協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法都是通過(guò)單一的、各不相同的關(guān)聯(lián)策略來(lái)實(shí)現(xiàn)信息與用戶的關(guān)聯(lián)服務(wù)，其優(yōu)缺點(diǎn)各有不同?；诖?，本領(lǐng)域技術(shù)人員提出并嘗試將上述兩種關(guān)聯(lián)方法通過(guò)不同形式進(jìn)行組合，進(jìn)而也就形成了基于多種關(guān)聯(lián)策略和機(jī)制的混合數(shù)據(jù)關(guān)聯(lián)方法，然而實(shí)踐證明混合數(shù)據(jù)關(guān)聯(lián)方法仍存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、精準(zhǔn)度不高等不足。

因此，本領(lǐng)域技術(shù)人員亟待研發(fā)出一種能夠適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng)，匹配精準(zhǔn)度高，并且能夠發(fā)現(xiàn)用戶潛在信息需求的數(shù)據(jù)關(guān)聯(lián)方法。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明要解決的技術(shù)問(wèn)題在于提供一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法及裝置，解決了現(xiàn)有數(shù)據(jù)關(guān)聯(lián)方法存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、匹配精準(zhǔn)度不高等問(wèn)題。

為了解決上述技術(shù)問(wèn)題，本發(fā)明的具體實(shí)施方式提供一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法，包括：獲取網(wǎng)站上的用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合；根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖；根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度；將所述權(quán)威度與所述待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。

根據(jù)本發(fā)明的上述具體實(shí)施方式可知，基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法至少具有以下有益效果或特點(diǎn)：深化分析用戶的歷史行為數(shù)據(jù)，構(gòu)建用戶興趣畫像模型；通過(guò)對(duì)多個(gè)用戶間不同主題下的關(guān)聯(lián)度分析，構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)；結(jié)合加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性，提出Urank算法，用以計(jì)算用戶在多個(gè)不同主題下的權(quán)威度與影響力，進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)精準(zhǔn)度，可以適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng)，并且可以發(fā)現(xiàn)用戶的潛在信息需求，提高用戶體驗(yàn)度。

應(yīng)了解的是，上述一般描述及以下具體實(shí)施方式僅為示例性及闡釋性的，其并不能限制本發(fā)明所欲主張的范圍。

附圖說(shuō)明

下面的所附附圖是本發(fā)明的說(shuō)明書的一部分，其繪示了本發(fā)明的示例實(shí)施例，所附附圖與說(shuō)明書的描述一起用來(lái)說(shuō)明本發(fā)明的原理。

圖1為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例一的流程圖；

圖2為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例二的流程圖；

圖3為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例三的流程圖；

圖4為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)系統(tǒng)的示意框圖；

圖5為本發(fā)明具體實(shí)施方式提供的一種具體用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型；

圖6為本發(fā)明具體實(shí)施方式提供的一種面向不同主題維度的用戶影響力計(jì)算示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，下面將以附圖及詳細(xì)敘述清楚說(shuō)明本發(fā)明所揭示內(nèi)容的精神，任何所屬技術(shù)領(lǐng)域技術(shù)人員在了解本發(fā)明內(nèi)容的實(shí)施例后，當(dāng)可由本發(fā)明內(nèi)容所教示的技術(shù)，加以改變及修飾，其并不脫離本發(fā)明內(nèi)容的精神與范圍。

本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明，但并不作為對(duì)本發(fā)明的限定。另外，在附圖及實(shí)施方式中所使用相同或類似標(biāo)號(hào)的元件/構(gòu)件是用來(lái)代表相同或類似部分。

關(guān)于本文中所使用的“第一”、“第二”、…等，并非特別指稱次序或順位的意思，也非用以限定本發(fā)明，其僅為了區(qū)別以相同技術(shù)用語(yǔ)描述的元件或操作。

關(guān)于本文中所使用的方向用語(yǔ)，例如：上、下、左、右、前或后等，僅是參考附圖的方向。因此，使用的方向用語(yǔ)是用來(lái)說(shuō)明并非用來(lái)限制本創(chuàng)作。

關(guān)于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均為開(kāi)放性的用語(yǔ)，即意指包含但不限于。

關(guān)于本文中所使用的“及/或”，包括所述事物的任一或全部組合。

關(guān)于本文中所使用的用語(yǔ)“大致”、“約”等，用以修飾任何可以微變化的數(shù)量或誤差，但這些微變化或誤差并不會(huì)改變其本質(zhì)。一般而言，此類用語(yǔ)所修飾的微變化或誤差的范圍在部分實(shí)施例中可為20％，在部分實(shí)施例中可為10％，在部分實(shí)施例中可為5％或是其他數(shù)值。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)了解，前述提及的數(shù)值可依實(shí)際需求而調(diào)整，并不以此為限。

某些用以描述本申請(qǐng)的用詞將于下或在此說(shuō)明書的別處討論，以提供本領(lǐng)域技術(shù)人員在有關(guān)本申請(qǐng)的描述上額外的引導(dǎo)。

圖1為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例一的流程圖，如圖1所示，利用網(wǎng)站上的用戶基本信息和用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖，再根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度，從而將權(quán)威度與待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。

該附圖所示的具體實(shí)施方式包括：

步驟101：獲取網(wǎng)站上的用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合。其中，用戶基本信息包括：年齡、性別、職業(yè)、所在城市、興趣愛(ài)好等；用戶歷史行為數(shù)據(jù)集合包括用戶歷史購(gòu)買行為、用戶電子商務(wù)網(wǎng)站瀏覽與評(píng)論行為等；待關(guān)聯(lián)數(shù)據(jù)集合為電子商務(wù)網(wǎng)站商品集(或電子商務(wù)網(wǎng)站商品子集)。

步驟102：根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖。用戶間關(guān)系結(jié)構(gòu)圖為面向主題維度的關(guān)聯(lián)度評(píng)估圖模型?；谒鶚?gòu)建的用戶間關(guān)系結(jié)構(gòu)圖，可以有效計(jì)算客戶不同主題維度下的權(quán)威度，以提升數(shù)據(jù)關(guān)聯(lián)效果。

步驟103：根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。利用URank算法根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。

步驟104：將所述權(quán)威度與所述待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。

參見(jiàn)圖1，深化分析用戶的歷史行為數(shù)據(jù)，構(gòu)建用戶興趣畫像模型；通過(guò)對(duì)多個(gè)用戶間不同主題下的關(guān)聯(lián)度分析，構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)；結(jié)合加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性，提出Urank算法，用以計(jì)算用戶在多個(gè)不同主題下的權(quán)威度與影響力，進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)精準(zhǔn)度，可以適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng)，并且可以發(fā)現(xiàn)用戶的潛在信息需求，提高用戶體驗(yàn)度。

圖2為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例二的流程圖，如圖2所示，根據(jù)用戶基本信息和用戶歷史行為數(shù)據(jù)集合進(jìn)行用戶興趣畫像。用戶興趣畫像最終用于數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊。

該附圖所示的具體實(shí)施方式中，在步驟102之前，該方法還包括：

步驟101-1：根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合進(jìn)行用戶興趣畫像。

參見(jiàn)圖2，用戶歷史行為數(shù)據(jù)集合較好地折射出用戶的興趣愛(ài)好，用戶歷史行為數(shù)據(jù)集合中的某些數(shù)據(jù)也極好地反應(yīng)了用戶的個(gè)人偏好和側(cè)重點(diǎn)，再結(jié)合用戶基本信息和待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行用戶興趣畫像，從而可以精準(zhǔn)反映用戶的興趣愛(ài)好。

圖3為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例三的流程圖，如圖3所示，根據(jù)用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行用戶興趣畫像；根據(jù)用戶基本信息和用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖；根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。

該附圖所示的具體實(shí)施方式中，步驟101-1具體包括：

步驟101-11：根據(jù)所述用戶基本信息中的具體用戶u_k確定該具體用戶u_k對(duì)應(yīng)的歷史行為數(shù)據(jù)集合V。

步驟101-12：計(jì)算所述待關(guān)聯(lián)數(shù)據(jù)集合中的待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h與歷史行為數(shù)據(jù)集合V之間的相似度。

步驟101-13：根據(jù)所述相似度獲得具體用戶u_k對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h的興趣度I(v_h,u_k)。

步驟101-14：根據(jù)所述興趣度I(v_h,u_k)進(jìn)行用戶興趣畫像。

本發(fā)明的具體實(shí)施例中，所述興趣度I(v_h,u_k)的具體計(jì)算公式為：

其中，t為某一具體相似度計(jì)算維度；T為相似度計(jì)算維度總數(shù)；w_t為維度權(quán)重因子；v_o為用戶歷史行為數(shù)據(jù)項(xiàng)；μ_t(v_o,u_k)為具體用戶u_k對(duì)其歷史行為數(shù)據(jù)項(xiàng)v_o的興趣偏好；S_t(v_h,v_o)為待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h與用戶歷史行為數(shù)據(jù)項(xiàng)v_o在相似度計(jì)算維度t下的相似性。

步驟102具體包括：

步驟1021：根據(jù)所述用戶基本信息獲取具體用戶u_i和具體用戶u_j之間的基本信息相似度S^(ij)。

步驟1022：根據(jù)所述基本信息相似度S^(ij)獲取具體用戶u_i和具體用戶u_j在特定主題維度A_l下的關(guān)聯(lián)度T_l^(ij)。

步驟1023：獲取具體用戶u_i的歷史行為數(shù)據(jù)集合和具體用戶u_j的歷史行為數(shù)據(jù)集合在特定主題維度A_l下的關(guān)聯(lián)緊密程度

步驟1024：根據(jù)所述關(guān)聯(lián)度T_l^(ij)和所述關(guān)聯(lián)緊密程度構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖。

本發(fā)明的具體實(shí)施例中，基本信息相似度S^(ij)的表達(dá)式為：

其中，為對(duì)應(yīng)基本信息項(xiàng)的相似度，P為個(gè)人基本信息的條目數(shù)；如果個(gè)人基本信息條目中的第p條屬性是離散型的(如，性別等)，當(dāng)且僅當(dāng)具體用戶u_i和具體用戶u_j具有相同的屬性值時(shí)，將設(shè)定為1，否則將設(shè)置成為0；對(duì)于連續(xù)型變量(如，年齡、身高等)，的取值如下：

其中，和分別是具體用戶u_i和具體用戶u_j在屬性上的取值；K為用戶總數(shù)。

步驟103具體包括：

步驟1031：根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖建立面向主題維度的加權(quán)網(wǎng)絡(luò)模型。

步驟1032：對(duì)每個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)模型運(yùn)行URank算法，計(jì)算該主題維度下用戶的權(quán)威度。

本發(fā)明的具體實(shí)施例中，所述權(quán)威度UR_l的具體迭代求解公式具體為：

UR_l＝(1-β)·E_l+β·P_l^N×UR_l

其中，P_l^N為規(guī)范化的轉(zhuǎn)移概率矩陣；β為阻尼因數(shù)，用于保證傳播概率的穩(wěn)定性；E_l為均勻隱形傳態(tài)矢量。

進(jìn)一步地，所述轉(zhuǎn)移概率矩陣的具體計(jì)算公式為：

其中，為從具體用戶u_i隨機(jī)沖浪到具體用戶u_j的轉(zhuǎn)移概率；為從具體用戶u_i隨機(jī)沖浪到其它具體用戶的轉(zhuǎn)移概率之和，其值為1；k為用戶總數(shù)。

進(jìn)一步地，所述轉(zhuǎn)移概率的具體計(jì)算公式為：

其中，ud_ij用于標(biāo)識(shí)數(shù)據(jù)項(xiàng)d_j是否是具體用戶u_i的歷史行為數(shù)據(jù)，當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)d_j為具體用戶u_i的歷史行為數(shù)據(jù)時(shí)，ud_ij＝1，否則ud_ij＝0；T_l^(ij)為具體用戶u_i和具體用戶u_j在特定主題維度A_l下的關(guān)聯(lián)度；ud_ik用于標(biāo)識(shí)數(shù)據(jù)項(xiàng)d_k是否是具體用戶u_i的歷史行為數(shù)據(jù)，當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)d_k為具體用戶u_i的歷史行為數(shù)據(jù)時(shí)，ud_ik＝1，否則ud_ik＝0。

本發(fā)明的具體實(shí)施例中，所述數(shù)據(jù)關(guān)聯(lián)結(jié)果R(v_h,u_k)的具體計(jì)算公式為：

其中，μ(v_h,A_l)為指示變量，用以表明待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h是否屬于特定主題維度A_l；UR_tl為具體用戶u_t(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h所屬主題維度A_l下的權(quán)威度；ξ為權(quán)重因子；I(v_h,u_t)為具體用戶u_t(t≠k)對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h的喜好程度；T_l^(tk)為目標(biāo)用戶u_k與具體用戶u_t(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h所屬主題維度A_l下的關(guān)聯(lián)度。

本發(fā)明通過(guò)深化分析用戶的歷史行為數(shù)據(jù)，構(gòu)建用戶興趣畫像模型；通過(guò)對(duì)多個(gè)用戶間不同主題維度下的關(guān)聯(lián)度分析，構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)結(jié)構(gòu)；結(jié)合拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性，提出URank算法，用以計(jì)算用戶在多個(gè)不同主題維度下的權(quán)威度與影響力，進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)質(zhì)量。

數(shù)據(jù)關(guān)聯(lián)系統(tǒng)主要由三部分組成：信息獲取模塊1、系統(tǒng)處理模塊2和數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3，上述模塊順序連接，圖4為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)系統(tǒng)的示意框圖，圖4為各模塊間數(shù)據(jù)流向圖，其中：

信息獲取模塊1用于獲取用戶個(gè)人基本信息、用戶歷史行為數(shù)據(jù)、待關(guān)聯(lián)數(shù)據(jù)集，以上信息、數(shù)據(jù)主要由平臺(tái)所提供，如電子商務(wù)網(wǎng)站平臺(tái)等。其中個(gè)人基本信息主要包括：年齡、性別、職業(yè)、所在城市、興趣愛(ài)好等；用戶歷史行為數(shù)據(jù)則包括用戶的歷史購(gòu)買行為、用戶電子商務(wù)網(wǎng)站瀏覽與評(píng)論行為等；而待關(guān)聯(lián)數(shù)據(jù)集則為電子商務(wù)網(wǎng)站商品集(或其子集)。

系統(tǒng)處理模塊2基于系統(tǒng)數(shù)據(jù)輸入(用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù))進(jìn)行用戶興趣畫像，并構(gòu)建用戶間關(guān)系譜系結(jié)構(gòu)，基于所構(gòu)建的用戶間關(guān)系譜系結(jié)構(gòu)有效度量用戶不同主題維度下的權(quán)威度與影響力。

數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3有效融合系統(tǒng)處理與待關(guān)聯(lián)數(shù)據(jù)集，并計(jì)算輸出數(shù)據(jù)關(guān)聯(lián)結(jié)果。

基于本系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)方法處理過(guò)程如下：

步驟1：信息獲取模塊1獲取用戶個(gè)人基本信息、用戶歷史行為數(shù)據(jù)、待關(guān)聯(lián)數(shù)據(jù)集；

步驟2：系統(tǒng)處理模塊2基于用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù)進(jìn)行用戶興趣畫像；

步驟3：系統(tǒng)處理模塊2基于用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù)構(gòu)建用戶間關(guān)系譜系結(jié)構(gòu)；

步驟4：系統(tǒng)處理模塊2基于所構(gòu)建的用戶間關(guān)系譜系結(jié)構(gòu)度量用戶不同主題維度下的權(quán)威度與影響力；

步驟5：數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3將用戶不同主題維度下的權(quán)威度與影響力計(jì)算結(jié)果與待關(guān)聯(lián)數(shù)據(jù)集進(jìn)行融合，并計(jì)算輸出數(shù)據(jù)關(guān)聯(lián)結(jié)果。

下面對(duì)該數(shù)據(jù)關(guān)聯(lián)方法主要組成部分用戶興趣畫像計(jì)算模型、用戶間不同主題維度下的關(guān)聯(lián)度計(jì)算圖模型、用戶在不同主題維度下的權(quán)威度與影響力計(jì)算算法和數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊分別加以闡述。

上述步驟2中用戶興趣畫像計(jì)算模型

用戶的歷史行為在某種程度上較好地折射出了用戶的興趣愛(ài)好，并且用戶歷史行為中的某些數(shù)據(jù)也極好地反應(yīng)了用戶的個(gè)人偏好和側(cè)重點(diǎn)，而且這些數(shù)據(jù)具有如下共性：與該用戶的其他歷史行為數(shù)據(jù)極其相似或者相關(guān)，也就是所說(shuō)的典型性歷史行為數(shù)據(jù)。

給定某個(gè)具體用戶u_k及其歷史行為數(shù)據(jù)集合V＝{v₁,v₂,...,v_H}，對(duì)于某項(xiàng)待關(guān)聯(lián)數(shù)據(jù)v_h而言，可以根據(jù)其與用戶歷史行為數(shù)據(jù)集合V的相似性推導(dǎo)出用戶u_k對(duì)該項(xiàng)數(shù)據(jù)的重視程度，也就是用戶u_k對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h的偏好程度。簡(jiǎn)言之，待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h與用戶歷史行為數(shù)據(jù)集合V越相似，說(shuō)明數(shù)據(jù)項(xiàng)v_h在數(shù)據(jù)集合V中越處于“核心”地位，越能體現(xiàn)用戶u_k的“核心”興趣，用戶u_k對(duì)其的偏好度越強(qiáng)。為此，本發(fā)明將用戶u_k對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h的興趣度I(v_h,u_k)量化為：

其中，t為相似性計(jì)算維度；w_t為維度權(quán)重因子；v_o為用戶歷史行為數(shù)據(jù)項(xiàng)；

μ_t(v_o,u_k)為用戶u_k對(duì)其歷史行為數(shù)據(jù)項(xiàng)v_o的興趣偏好；S_t(v_h,v_o)為待關(guān)聯(lián)數(shù)據(jù)項(xiàng)v_h與用戶歷史行為數(shù)據(jù)項(xiàng)v_o在衡量維度t下的相似性。

步驟3中所述客戶間關(guān)系譜系結(jié)構(gòu)計(jì)算圖模型

為了準(zhǔn)確計(jì)算不同用戶之間在不同主題維度下的關(guān)聯(lián)度，即構(gòu)建客戶間關(guān)系譜系結(jié)構(gòu)，本發(fā)明構(gòu)建了面向主題維度的關(guān)聯(lián)度評(píng)估圖模型，圖5為本發(fā)明具體實(shí)施方式提供的一種具體用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型，如圖5所示。其構(gòu)建基礎(chǔ)有如下兩點(diǎn)：

1.對(duì)于用戶u_i和u_j而言，二者個(gè)人基本信息的相似性S^(ij)從某種意義上決定著二者在某一特定主題維度A_l下的關(guān)聯(lián)度，記為T_l^(ij)；

2.與此同時(shí)，用戶u_i和u_j在某一特定主題維度A_l下的歷史行為數(shù)據(jù)關(guān)聯(lián)緊密程度在某種程度上也反映了二者在該主題維度下的關(guān)聯(lián)度。

為提高該圖模型計(jì)算的準(zhǔn)確性，本發(fā)明為每個(gè)變量引入輔助變量并對(duì)相關(guān)變量做如下說(shuō)明：

S^(ij)為用戶u_i和u_j之間的個(gè)人基本信息相似性向量，且P為個(gè)人基本信息的條目數(shù)。如果個(gè)人基本信息條目中的第p條屬性是離散型的，那么本發(fā)明將設(shè)定為1，當(dāng)且僅當(dāng)用戶u_i和u_j具有相同的屬性值，否則將其設(shè)置成0。對(duì)于連續(xù)性變量，的取值處理如下：

其中，和分別是用戶u_i和u_j在屬性p上的取值，K為用戶總數(shù)；T_l^(ij)是指用戶u_i和u_j在特定主題維度A_l上的關(guān)聯(lián)度；是指用戶u_i和u_j歷史行為數(shù)據(jù)在特定主題維度A_l下的關(guān)聯(lián)緊密程度。

用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型，通過(guò)對(duì)條件依賴進(jìn)行建模，展示變量間的因果依存關(guān)系，基于這種依存關(guān)系，對(duì)其聯(lián)合概率分布進(jìn)行如下分解：

本發(fā)明采用已被廣泛引用的高斯分布(Gaussian Distribution)對(duì)條件概率P(T_l^(ij)|S^(ij))進(jìn)行建模求解，即：

其中，w_l是待估計(jì)的P維權(quán)重向量，v是高斯模型中的方差。

同理，本發(fā)明對(duì)T_l^(ij)和之間的依存關(guān)系做同樣模擬：

其中，α_l和β_l為L(zhǎng)維的系數(shù)向量。

為了有效避免過(guò)擬合問(wèn)題，本發(fā)明使用L₂規(guī)則對(duì)參數(shù)w_l、α_l和β_l進(jìn)行正則化，并將其視為高斯先驗(yàn)?zāi)Ｐ停?/p>

給定的用戶對(duì)μ＝U×U，聯(lián)合概率分布可做如下推導(dǎo)：

由于不同主題維度下的聯(lián)合概率分布是相互獨(dú)立地，本發(fā)明僅給出第l種主題維度下的對(duì)數(shù)似然函數(shù)：

對(duì)數(shù)似然函數(shù)L是凹函數(shù)，本發(fā)明采用梯度增量的方法分別對(duì)參數(shù)w_l、α_l、β_l和變量T_l^(ij)進(jìn)行優(yōu)化，其坐標(biāo)方向梯度分別為：

采用坐標(biāo)上升優(yōu)化方案對(duì)w_l、α_l、β_l和T_l^(ij)利用牛頓迭代法進(jìn)行更新直至收斂：

對(duì)于參數(shù)w_l，本發(fā)明對(duì)其進(jìn)行領(lǐng)回歸(Ridge Regression)：

w_l＝(λ₁vI+S^TS)^-1S^TT_l

其中，

步驟4中用戶在不同主題維度下的權(quán)威度與影響力計(jì)算算法

本發(fā)明綜合利用用戶的個(gè)人基本信息、歷史行為數(shù)據(jù)等，深入研究用戶間的不同主題維度下的關(guān)聯(lián)度，基于其上，融入拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)，提出了URank算法用以計(jì)算用戶在不同主題維度下的權(quán)威度與影響力。圖6為本發(fā)明具體實(shí)施方式提供的一種面向不同主題維度的用戶影響力計(jì)算示意圖，如圖6所示，用戶在不同主題維度下的權(quán)威度與影響力的計(jì)算過(guò)程主要有如下幾個(gè)步驟：

1.首先，建立面向主題維度的加權(quán)網(wǎng)絡(luò)模型。

2.其次，抽取出各個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)模型。在主題維度A_l所對(duì)應(yīng)的加權(quán)網(wǎng)絡(luò)G_l中，節(jié)點(diǎn)表示與主題A_l相關(guān)的用戶，邊的權(quán)重標(biāo)示主題維度A_l下用戶間的關(guān)聯(lián)度。

3.對(duì)每個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)G_l運(yùn)行URank算法，計(jì)算該主題網(wǎng)絡(luò)下用戶的權(quán)威度與影響力。

定義1.面向主題的加權(quán)網(wǎng)絡(luò)對(duì)于給定的主題維度A_l和初始的網(wǎng)絡(luò)結(jié)構(gòu)G，我們將網(wǎng)絡(luò)G_l稱為面向主題A_l的加權(quán)網(wǎng)絡(luò)，當(dāng)且僅當(dāng)G_l滿足如下兩個(gè)限定條件：

(1)網(wǎng)絡(luò)G中的節(jié)點(diǎn)用戶均出現(xiàn)在網(wǎng)絡(luò)G_l中；

(2)對(duì)于任意兩個(gè)節(jié)點(diǎn)用戶i和j，如果他們之間的面向主題維度A_l的關(guān)聯(lián)度T_l^(ij)大于零，那么在網(wǎng)絡(luò)G_l中節(jié)點(diǎn)u_i和u_j之間存在連接邊，并且邊的權(quán)值等于T_l^(ij)。

在隨機(jī)沖浪過(guò)程(Random Surfer Process)中，在特定主題維度A_l下，由節(jié)點(diǎn)u_i到u_j的轉(zhuǎn)移概率的定義如下：

定義2.給定某一具體的主題維度A_l及與之對(duì)應(yīng)的面向主題的網(wǎng)絡(luò)G_l，轉(zhuǎn)移矩陣P_l中的每一個(gè)元素也就是說(shuō)由節(jié)點(diǎn)u_i隨機(jī)沖浪到節(jié)點(diǎn)u_j的轉(zhuǎn)移概率的定義如下：

其中，ud_ij＝1當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)d_j是具體用戶u_i的歷史行為數(shù)據(jù)，否則將其設(shè)置成為0。

轉(zhuǎn)移概率主要由用戶u_i和u_j之間的兩個(gè)因素所決定：第一個(gè)因素是用戶u_j所關(guān)聯(lián)的數(shù)據(jù)項(xiàng)數(shù)。u_j所關(guān)聯(lián)的數(shù)據(jù)項(xiàng)越多，那么u_i所閱讀的數(shù)據(jù)項(xiàng)中源于u_j的部分所占的比例就越高。因此，用戶u_i將從用戶u_j接收更多的信息，并且更可能受到用戶u_j的影響；第二個(gè)因素就是用戶u_i和u_j在特定主題維度A_l下的關(guān)聯(lián)度T_l^(ij)。T_l^(ij)的值越大，說(shuō)明用戶u_i和u_j在主題維度A_l下的關(guān)聯(lián)性越強(qiáng)。因此，可以認(rèn)為用戶u_i和u_j在這一領(lǐng)域有著更相似的興趣偏好，并且彼此相互影響。值得注意的是：

并不等于1,。因此，我們需要對(duì)進(jìn)行規(guī)范化處理：

基于上述所定義的轉(zhuǎn)移概率，本發(fā)明提出了面向特定主題的UserRank算法以挖掘用戶在不同主題維度下的權(quán)威度與影響力。

定義3.將某一具體主題維度A_l上的URank記為UR_l，其迭代求解公式如下：

UR_l＝(1-β)·E_l+β·P_l^N×UR_l

其中P_l^N為上述定義的規(guī)范化的轉(zhuǎn)移概率矩陣，β為阻尼因數(shù)(Damping Factor)，用于保證傳播概率的穩(wěn)定性，E_l為均勻隱形傳態(tài)矢量(Uniform Teleportation Vector0)?；谏鲜龇椒ǎ景l(fā)明分別求解每個(gè)用戶在不同主題維度下的權(quán)威性與影響力，并采用K×L矩陣UR來(lái)表示，其中K為用戶總數(shù)，L為主題的維度數(shù)，UR_il為用戶u_i在主題維度A_l下的權(quán)威度與影響力。

步驟5中數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊

目標(biāo)用戶u_k與數(shù)據(jù)項(xiàng)v_h之間的關(guān)聯(lián)性計(jì)算主要考慮如下三要素：

1.用戶u_t(t≠k)對(duì)數(shù)據(jù)項(xiàng)v_h的喜好程度，由“用戶興趣偏計(jì)算模型”求得，即I(v_h,u_t)；

2.目標(biāo)用戶u_k與用戶u_t(t≠k)在數(shù)據(jù)項(xiàng)v_h所屬主題維度A_l下的關(guān)聯(lián)度T_l^(tk)；

3.用戶u_t(t≠k)在數(shù)據(jù)項(xiàng)v_h所屬主題維度A_l下的權(quán)威度與影響力UR_tl。

具體求解公式：

其中，μ(v_h,A_l)為指示變量，用以表明數(shù)據(jù)項(xiàng)v_h是否屬于特定主題維度A_l。

上述的本發(fā)明實(shí)施例可在各種硬件、軟件編碼或兩者組合中進(jìn)行實(shí)施。例如，本發(fā)明的實(shí)施例也可為在數(shù)據(jù)信號(hào)處理器(Digital Signal Processor，DSP)中執(zhí)行上述方法的程序代碼。本發(fā)明也可涉及計(jì)算機(jī)處理器、數(shù)字信號(hào)處理器、微處理器或現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array，F(xiàn)PGA)執(zhí)行的多種功能?？筛鶕?jù)本發(fā)明配置上述處理器執(zhí)行特定任務(wù)，其通過(guò)執(zhí)行定義了本發(fā)明揭示的特定方法的機(jī)器可讀軟件代碼或固件代碼來(lái)完成?？蓪④浖a或固件代碼發(fā)展為不同的程序語(yǔ)言與不同的格式或形式。也可為不同的目標(biāo)平臺(tái)編譯軟件代碼。然而，根據(jù)本發(fā)明執(zhí)行任務(wù)的軟件代碼與其他類型配置代碼的不同代碼樣式、類型與語(yǔ)言不脫離本發(fā)明的精神與范圍。

以上所述僅為本發(fā)明示意性的具體實(shí)施方式，在不脫離本發(fā)明的構(gòu)思和原則的前提下，任何本領(lǐng)域的技術(shù)人員所做出的等同變化與修改，均應(yīng)屬于本發(fā)明保護(hù)的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙小建;胥克良;胡凱樂(lè);劉意;
技術(shù)所有人：中國(guó)工商銀行股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶行為軌跡數(shù)據(jù)分析相關(guān)技術(shù)

用戶行為數(shù)據(jù)相關(guān)技術(shù)

用戶行為數(shù)據(jù)分析相關(guān)技術(shù)

app用戶行為數(shù)據(jù)采集相關(guān)技術(shù)

大數(shù)據(jù)用戶行為分析相關(guān)技術(shù)

用戶行為數(shù)據(jù)采集相關(guān)技術(shù)

用戶行為數(shù)據(jù)分析模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法與流程