用于處理用戶信息的方法和設(shè)備的制造方法
【專利摘要】本公開的實(shí)施例涉及用于處理用戶信息的方法和設(shè)備。該方法包括:從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,該特征向量包括用戶身份信息和用戶行為信息;根據(jù)特征向量將多個(gè)用戶聚類為多個(gè)分組;基于特征向量和分組,確定多個(gè)用戶中的每個(gè)用戶的得分;以及基于多個(gè)用戶的各自得分,向多個(gè)用戶中的至少一部分用戶推薦信息。本公開的實(shí)施例通過半監(jiān)督學(xué)習(xí)方式來處理用戶信息,能夠準(zhǔn)確地確定用戶得分并且有效地進(jìn)行推薦。
【專利說明】
用于處理用戶信息的方法和設(shè)備
技術(shù)領(lǐng)域
[0001] 本公開的實(shí)施例總體上設(shè)及信息處理領(lǐng)域,更具體地設(shè)及基于協(xié)同過濾來處理用 戶信息的方法和設(shè)備。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)站或應(yīng)用程序(例如,APP)的用戶規(guī)模不斷增 加。面對(duì)大量的用戶信息,通常需要對(duì)運(yùn)些用戶信息進(jìn)行分析處理。傳統(tǒng)的信息處理方法包 括信息收集、信息加工、信息存儲(chǔ)W及信息分析等。
[0003] 協(xié)同過濾是一種基于用戶相似性來進(jìn)行推薦的方法,其通過與當(dāng)前用戶相似的其 他用戶對(duì)于某一項(xiàng)目的實(shí)際評(píng)分,來預(yù)測當(dāng)前用戶對(duì)于該項(xiàng)目的評(píng)分。然而,傳統(tǒng)的協(xié)同過 濾方法僅考慮一些用戶行為信息,并且對(duì)用戶行為的度量僅限一項(xiàng)打分,而未考慮其他行 為屬性,此外,用戶評(píng)分矩陣也非常稀疏。因此,傳統(tǒng)的協(xié)同過濾方法無法準(zhǔn)確且有效地處 理用戶信息。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本公開的各實(shí)施例提出了一種用于處理用戶信息的方法和設(shè)備。本公 開的實(shí)施例通過半監(jiān)督學(xué)習(xí)方式來處理用戶信息,對(duì)多個(gè)用戶進(jìn)行聚類分組,并且基于用 戶的分組信息來確定用戶得分,從而能夠準(zhǔn)確地確定用戶得分并且有效地進(jìn)行推薦。
[0005] 根據(jù)本公開的一個(gè)方面,提供了一種用于處理用戶信息的方法。該方法包括:從服 務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,該特征向量包括用戶身份信息和用戶行為信 息;根據(jù)特征向量將多個(gè)用戶聚類為多個(gè)分組;基于特征向量和分組,確定多個(gè)用戶中的每 個(gè)用戶的得分;W及基于多個(gè)用戶的各自得分,向多個(gè)用戶中的至少一部分用戶推薦信息。
[0006] 根據(jù)本公開的另一方面,提供了一種用于處理用戶信息的設(shè)備。該設(shè)備包括處理 器,該處理器被配置為:從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,該特征向量包括 用戶身份信息和用戶行為信息;根據(jù)特征向量將多個(gè)用戶聚類為多個(gè)分組;基于特征向量 和分組,確定多個(gè)用戶中的每個(gè)用戶的得分;W及基于多個(gè)用戶的各自得分,向多個(gè)用戶中 的至少一部分用戶推薦信息。
【附圖說明】
[0007] 結(jié)合附圖并參考W下詳細(xì)說明,本公開的各實(shí)施例的特征、優(yōu)點(diǎn)及其他方面將變 得更加明顯,在此W示例性而非限制性的方式示出了本公開的若干實(shí)施例,在附圖中:
[000引圖1圖示了根據(jù)本公開的實(shí)施例的計(jì)算機(jī)系統(tǒng)100的示例圖;
[0009] 圖2圖示了根據(jù)本公開的實(shí)施例的用于處理用戶信息的方法200的流程圖;
[0010] 圖3圖示了根據(jù)本公開的實(shí)施例的用于對(duì)用戶進(jìn)行聚類的方法300的流程圖;
[0011] 圖4圖示了根據(jù)本公開的實(shí)施例的用于確定用戶得分的方法400的流程圖;
[0012] 圖5圖示了根據(jù)本公開的實(shí)施例的用于判斷用戶類型的方法500的流程圖;
[0013] 圖6圖示了根據(jù)本公開的實(shí)施例的用于處理用戶信息的另一方法600的流程圖;
[0014] 圖7圖示了根據(jù)本公開的實(shí)施例的用戶得分分布的示意圖700; W及
[0015] 圖8圖示了可W用來實(shí)施本公開的實(shí)施例的設(shè)備800的示意性框圖。
【具體實(shí)施方式】
[0016] W下參考附圖詳細(xì)描述本公開的各個(gè)示例性實(shí)施例。附圖中的流程圖和框圖示出 了根據(jù)本公開的各種實(shí)施例的方法和系統(tǒng)的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。應(yīng)當(dāng)注意, 流程圖或框圖中的每個(gè)方框可W代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序 段、或代碼的一部分可W包括一個(gè)或多個(gè)用于實(shí)現(xiàn)各個(gè)實(shí)施例中所規(guī)定的邏輯功能的可執(zhí) 行指令。也應(yīng)當(dāng)注意,在有些作為備選的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可W按照不同于附 圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可W基本并行地執(zhí)行,或者它 們有時(shí)也可W按照相反的順序執(zhí)行,運(yùn)取決于所設(shè)及的功能。同樣應(yīng)當(dāng)注意的是,流程圖 和/或框圖中的每個(gè)方框、W及流程圖和/或框圖中的方框的組合,可W使用執(zhí)行規(guī)定的功 能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可W使用專用硬件與計(jì)算機(jī)指令的組合來 實(shí)現(xiàn)。
[0017] 本文所使用的術(shù)語"包括"、"包含"及類似術(shù)語應(yīng)該被理解為是開放性的術(shù)語,即 "包括/包含但不限于",表示還可W包括其他內(nèi)容。術(shù)語"基于"是"至少部分地基于"。術(shù)語 "一個(gè)實(shí)施例"表示"至少一個(gè)實(shí)施例";術(shù)語"另一實(shí)施例"表示"至少一個(gè)另外的實(shí)施例", AfrAfr 寸寸O
[0018] 機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù) 測的算法。機(jī)器學(xué)習(xí)方法包括監(jiān)督機(jī)器學(xué)習(xí)方法、非監(jiān)督機(jī)器學(xué)習(xí)方法W及半監(jiān)督機(jī)器學(xué) 習(xí)方法,監(jiān)督機(jī)器學(xué)習(xí)是指利用已知標(biāo)簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型;非監(jiān) 督機(jī)器學(xué)習(xí)是指在利用無標(biāo)簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型;半監(jiān)督機(jī)器學(xué)習(xí) 方法是指監(jiān)督機(jī)器學(xué)習(xí)方法和非監(jiān)督機(jī)器學(xué)習(xí)方法的組合使用。
[0019] 在本公開的實(shí)施例中,術(shù)語"用戶信息"表示與用戶有關(guān)的信息,其可W包括用戶 自身的靜態(tài)信息(例如,身份信息)和用戶生成的動(dòng)態(tài)信息(例如,行為信息)。術(shù)語"特征向 量"表示根據(jù)從樣本(例如,用戶信息)所提取的特征信息而構(gòu)建的多維向量,向量的維度等 于特征信息類型的數(shù)目,特征向量例如可W包括用戶信息中的用戶身份信息和用戶行為信 息等。
[0020] 應(yīng)當(dāng)理解,給出運(yùn)些示例性實(shí)施例僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn) 而實(shí)現(xiàn)本公開的實(shí)施例,而并非W任何方式限制發(fā)明的范圍。
[0021] 圖1圖示了根據(jù)本公開的實(shí)施例的計(jì)算機(jī)系統(tǒng)100的示例圖。如圖1所示,系統(tǒng)100 包括服務(wù)器110、第一用戶設(shè)備120、第二用戶設(shè)備130W及第S用戶設(shè)備140,其中第一用戶 設(shè)備120、第二用戶設(shè)備130W及第S用戶設(shè)備140通過網(wǎng)絡(luò)150連接到服務(wù)器110。在一些實(shí) 施例中,網(wǎng)絡(luò)150可W包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線通信網(wǎng) 絡(luò)等。
[0022] 在一些實(shí)施例中,第一用戶設(shè)備120可W為臺(tái)式計(jì)算機(jī),第二用戶設(shè)備130可W為 膝上型計(jì)算機(jī),第=用戶設(shè)備140可W為智能移動(dòng)設(shè)備。其中智能移動(dòng)設(shè)備是指各種擁有接 入互聯(lián)網(wǎng)能力、搭載各種操作系統(tǒng)(包括但不限于i〇S、ArKlroid,Windows Phone等)、可根據(jù) 用戶需求定制各種功能的終端設(shè)備,包括但不限于智能手機(jī)、平板電腦、智能可穿戴設(shè)備 等。
[0023] 在一個(gè)實(shí)施例,第=用戶設(shè)備140可W訪問服務(wù)器110提供的網(wǎng)頁。在另一個(gè)實(shí)施 例中,第S用戶設(shè)備140可W通過安裝在其上的應(yīng)用程序(例如,APP)訪問服務(wù)器110提供的 內(nèi)容。在一些實(shí)施例中,第=用戶設(shè)備140可W向服務(wù)器發(fā)送使用第=用戶設(shè)備140的用戶 的個(gè)人身份信息,同時(shí),服務(wù)器110可W記錄第S用戶設(shè)備140的用戶訪問服務(wù)器110時(shí)的訪 問行為信息。
[0024] 雖然圖1中僅示出了一個(gè)服務(wù)器110,然而系統(tǒng)100可W包括多個(gè)分布地部署的多 個(gè)服務(wù)器;雖然圖1中僅示出了=個(gè)用戶設(shè)備,然而明顯可W存在更多個(gè)用戶設(shè)備,本公開 的實(shí)施例的范圍不限于此。此外,系統(tǒng)100中還可W包括路由器、交換機(jī)等其他網(wǎng)絡(luò)部件。
[0025] 圖2圖示了根據(jù)本公開的實(shí)施例的用于處理用戶信息的方法200的流程圖。在步驟 202,從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,特征向量包括用戶身份信息和用戶 行為信息。其中,用戶身份信息是指用戶注冊(cè)或者登記的與用戶身份有關(guān)的信息,用戶行為 信息是指用戶訪問由服務(wù)器110提供的網(wǎng)頁或內(nèi)容時(shí)的行為信息。例如,服務(wù)器110中存儲(chǔ) 多個(gè)用戶的用戶信息,可W從服務(wù)器110獲得多個(gè)用戶的用戶信息,并且基于用戶信息來抽 取并生成用戶的特征向量Bn(fl,f2,???fm),其中n表示第n個(gè)用戶,m表示特征向量中特征類 型的個(gè)數(shù)。
[00%]在一些實(shí)施例中,用戶身份信息可W包括W下各項(xiàng)中的至少一項(xiàng):年齡、性別、城 市、職業(yè)、教育程度W及收入水平,用戶行為信息可W包括W下各項(xiàng)中的至少一項(xiàng):登錄服 務(wù)器110或相關(guān)服務(wù)器的次數(shù)、登錄服務(wù)器110或相關(guān)服務(wù)器的時(shí)間長度、登錄服務(wù)器110或 相關(guān)服務(wù)器時(shí)使用的終端類型、對(duì)服務(wù)器110提供的網(wǎng)頁或內(nèi)容的瀏覽次數(shù)W及從服務(wù)器 110或相關(guān)服務(wù)器購買的次數(shù)。在一些實(shí)施例中,可W僅獲取預(yù)定時(shí)間段內(nèi)的用戶行為,例 如,從用戶注冊(cè)到完成預(yù)定任務(wù)之間的時(shí)間段,或者例如=個(gè)月的時(shí)間段。
[0027] 方法200繼續(xù)進(jìn)行到步驟204,根據(jù)特征向量,將多個(gè)用戶聚類為多個(gè)分組。例如, 可W通過無監(jiān)督學(xué)習(xí)算法(例如,k-means聚類算法)將多個(gè)用戶聚類為K個(gè)分組,而不需要 提前預(yù)設(shè)分組的個(gè)數(shù),其中K表示聚類后的用戶分組的個(gè)數(shù)。
[0028] 在步驟206,基于特征向量和分組,確定多個(gè)用戶中的每個(gè)用戶的得分。例如,同時(shí) 基于第n個(gè)用戶的特征向量和第n個(gè)用戶所屬的分組,來確定第n個(gè)用戶的得分Sn。也就是 說,同時(shí)基于特征向量和所屬分組二者來確定用戶的得分,用戶的分組是用戶的得分的一 個(gè)影響因素。
[0029] 方法200繼續(xù)進(jìn)行到步驟208,基于多個(gè)用戶的各自得分,向多個(gè)用戶中的至少一 部分用戶推薦信息。例如,基于第n個(gè)用戶的得分,來確定第n個(gè)用戶是否是預(yù)定類型的用 戶,繼而判斷是否向第n個(gè)用戶進(jìn)行推薦。在一些實(shí)施例中,僅當(dāng)用戶得分大于預(yù)定闊值時(shí), 才向該用戶進(jìn)行推薦,較高的得分意味著更有可能是潛在用戶,因而有效地提高了推薦的 成功率。
[0030] 圖3圖示了根據(jù)本公開的實(shí)施例的用于對(duì)用戶進(jìn)行聚類的方法300的流程圖。方法 300可W視作上文參考圖2描述的方法200中的步驟204的一個(gè)示例實(shí)現(xiàn)方式。在步驟302,將 每個(gè)用戶初始化為一個(gè)分組,即初始的分組數(shù)目等于用戶的數(shù)目。例如,將每個(gè)用戶作為一 個(gè)分組(例如類),得到初始分組的集合{groupp I gro叫ipGCluster},其中P表示第P個(gè)分組。 在步驟304,確定所有分組中的每兩個(gè)分組之間的相似性。例如,計(jì)算第P個(gè)分組與第q個(gè)分 組之間的相似性sim(cp,cq)。在步驟306,將相似性大于闊值相似性的兩個(gè)分組進(jìn)行合并。例 如,如果第P個(gè)分組與第q個(gè)分組之間的相似性sim( Cp,Cq化于闊值,則將第P個(gè)分組與第q個(gè) 分組進(jìn)行合并,形成一個(gè)新的分組。
[0031] 方法300繼續(xù)進(jìn)行到步驟308,判斷是否滿足收斂條件。在一個(gè)實(shí)施例中,收斂條件 可W為所有分組之間的相似性都小于闊值。在另一個(gè)實(shí)施例中,收斂條件可W為分組的結(jié) 果變得穩(wěn)定,即分組的數(shù)目不再發(fā)生變化。如果沒有滿足收斂條件,則繼續(xù)迭代執(zhí)行步驟 304和306,直到滿足收斂條件。如果已經(jīng)滿足收斂條件,則完成聚類分組過程,得到分組集 合{groupp I gro啡pGGroup}。方法300通過自底向上的分層聚類方法,可W準(zhǔn)確地對(duì)多個(gè)用 戶進(jìn)行聚類。
[0032] 在一些實(shí)施例中,可W根據(jù)多個(gè)分組中的每個(gè)分組中的所有用戶的總得分,確定 多個(gè)分組的排序。例如,排名越靠前的分組,其中的用戶的整體購買行為可能性較大,因此 可W將多個(gè)分組進(jìn)行排序,并且按照排序向分組中的用戶依次進(jìn)行信息推薦。
[0033] 圖4圖示了根據(jù)本公開的實(shí)施例的用于確定用戶得分的方法400的流程圖。方法 400可W視作上文參考圖2描述的方法200中的步驟206的一個(gè)示例實(shí)現(xiàn)。在步驟402,生成基 于特征向量和分組二者的用戶評(píng)分模型,其中用戶評(píng)分模型可W表示為Sn = LR(fnl,fn2..., fni,group。),其中Sn表示第n個(gè)用戶的得分,LR表示邏輯斯蒂回歸方程,i表示特征向量的數(shù) 目,fni表示第n個(gè)用戶的第i個(gè)特征向量,group。表示第n個(gè)用戶所屬的分組。
[0034] 接下來,可W通過有監(jiān)督方式對(duì)用戶評(píng)分模型進(jìn)行訓(xùn)練,在步驟404,向多個(gè)用戶 中的每個(gè)用戶添加標(biāo)簽,標(biāo)簽可W通過不同的標(biāo)簽值(諸如,0和1)來指示不同的用戶類型, 諸如潛在的繼續(xù)購買用戶和退出用戶。標(biāo)簽值可W根據(jù)其他信息人工進(jìn)行設(shè)定,也可W根 據(jù)用戶的后續(xù)行為而自動(dòng)地確定。在步驟406,利用標(biāo)簽來訓(xùn)練用戶評(píng)分模型,使得用戶評(píng) 分模型能夠?qū)哂胁煌瑯?biāo)簽值的用戶進(jìn)行區(qū)分。在步驟408,確定能夠?qū)哂胁煌瑯?biāo)簽值的 用戶進(jìn)行區(qū)分的闊值得分。例如,高于闊值得分的用戶表示潛在的繼續(xù)購買用戶,低于闊值 得分的用戶表示不大可能繼續(xù)購買的用戶,即退出用戶。
[0035] 方法400繼續(xù)進(jìn)行到步驟410,使用訓(xùn)練后的用戶評(píng)分模型,確定多個(gè)用戶中的每 個(gè)用戶的得分。例如,通過訓(xùn)練后的用戶評(píng)分模型,確定每個(gè)用戶的用戶得分,從而可W確 定每個(gè)用戶的用戶類型。
[0036] 在一些實(shí)施例中,可W輸出多個(gè)用戶中的、具有大于所述闊值得分的得分的所有 用戶。例如,排名越靠前的用戶,其購買行為可能性較大,因此可W輸出潛在購買的用戶列 表,并且向運(yùn)些用戶推薦信息。
[0037] 圖5圖示了根據(jù)本公開的實(shí)施例的用于判斷用戶類型的方法500的流程圖。在訓(xùn)練 出用戶評(píng)分板型Sn = LR(fnl,fn2. . . ,fni,gr〇UPn)之后,對(duì)于新加入的用戶,根據(jù)用戶的用戶 信息,例如用戶身份信息,可W確定用戶的類型。因此,即使在沒有用戶行為信息的情況下, 也可W確定用戶的類型。在步驟502,從服務(wù)器獲得新的用戶的特征向量。在步驟504,根據(jù) 新的用戶的特征向量,將新的用戶分類到特定分組,例如通過對(duì)數(shù)似然相似度來計(jì)算用戶 之間的相似度。在一個(gè)實(shí)施例中,可W確定新的用戶與多個(gè)用戶中的每個(gè)用戶之間的相似 度,并且將新的用戶分類到與新的用戶具有最高相似度的用戶的分組。在另一個(gè)實(shí)施例中, 可W將多個(gè)分組中的每個(gè)分組的向量的均值作為分組中屯、,并且確定新的用戶的特征向量 與多個(gè)分組中的每個(gè)分組的分組中屯、的相似度,然后將新的用戶分類到與新的用戶分類具 有最高相似度的分組。
[0038] 方法500繼續(xù)進(jìn)行到步驟506,使用用戶評(píng)分模型,確定新的用戶的得分,例如使用 方法400訓(xùn)練出的用戶評(píng)分模型,根據(jù)新的用戶的特征向量來確定新的用戶的得分。在步驟 508,確定新的用戶的得分是否大于闊值得分。如果新的用戶的得分大于闊值得分,則在步 驟510,確定新的用戶屬于預(yù)定類型的用戶。如果新的用戶的得分小于闊值得分,則在步驟 512,確定新的用戶不屬于預(yù)定類型的用戶。通過本公開的實(shí)施例的基于半監(jiān)督方式訓(xùn)練出 的用戶評(píng)分模型,即使用戶還沒有產(chǎn)生較多的用戶行為信息,也能夠有效地判斷新用戶的 用戶類型。
[0039] 在一些實(shí)施例中,可W利用新的用戶的標(biāo)簽來更新用戶評(píng)分模型Sn = LR(fnl, fn2. . .,fni,gr〇UPn)的模型參數(shù)和所述闊值得分。例如,在一段時(shí)間之后,新的用戶的標(biāo)簽值 可W被確定,因此,可W利用新的用戶的標(biāo)簽值來繼續(xù)訓(xùn)練用戶評(píng)分模型,使得用戶評(píng)分模 型的準(zhǔn)確性不斷提高。
[0040] 圖6圖示了根據(jù)本公開的實(shí)施例的處理用戶信息的另一方法600的流程圖。如圖6 所示,數(shù)據(jù)庫601(例如,圖1中的服務(wù)器110中的數(shù)據(jù)庫)中存儲(chǔ)與多個(gè)用戶有關(guān)的用戶信 息,例如用戶身份信息和用戶行為信息。在步驟602,從數(shù)據(jù)庫601抽取每個(gè)用戶的特征向量 Bn(fl,f2,...fm),其中n表示第n個(gè)用戶,m表示特征向量中特征類型的個(gè)數(shù)。其中用戶身份 信息可W包括但不限于:年齡、性別、城市、職業(yè)、教育程度W及收入水平,用戶行為信息可 W包括但不限于登錄服務(wù)器次數(shù)、登錄服務(wù)器的時(shí)間長度、登錄服務(wù)器時(shí)使用的終端類型、 對(duì)服務(wù)器提供的網(wǎng)頁或內(nèi)容的瀏覽次數(shù)W及從服務(wù)器購買的次數(shù)。例如,可W建立針對(duì)用 戶身份信息和用戶行為信息的特征矩陣。
[0041 ]表1:用戶身份信息和用戶行為信息的特征矩陣
[0042]
[0043] 方法600繼續(xù)進(jìn)行到步驟604,根據(jù)所抽取的特征向量,將數(shù)據(jù)庫601中的多個(gè)用戶 聚類為多個(gè)分組,例如,聚類為G1、G2、G3和G4共四個(gè)分組。然后,在步驟606,基于特征向量 和分組來生成用戶評(píng)分模型Score = f (fi,f2. . .,fi,G;roup),并且確定能夠?qū)哂胁煌瑯?biāo)簽 值區(qū)分的闊值得分St。
[0044] 接下來,當(dāng)新的用戶加入時(shí),可W利用已生成的用戶評(píng)分模型來確定新的用戶的 得分,在步驟608,獲取新的用戶的特征向量,在步驟610,根據(jù)新的用戶的特征向量,確定新 的用戶將被分類分組,例如,新的用戶被分類到分組G3。然后,在步驟612,根據(jù)新的用戶的 特征向量和分組,計(jì)算并獲取新的用戶的得分。
[0045] 圖7圖示了根據(jù)本公開的實(shí)施例的用戶得分分布的示意圖700。如圖7所示,大于闊 值得分的用戶可W被確定為預(yù)定類型的用戶,例如潛在的繼續(xù)購買的用戶,而小于闊值得 分的用戶可W被確定為非預(yù)定類型的用戶,例如不大可能繼續(xù)購買的用戶,即退出用戶。因 此,可W根據(jù)用戶的得分來向用戶進(jìn)行不同程度的推薦(例如,向潛在用戶電話或者短信推 薦相關(guān)產(chǎn)品),從而不僅提高了推薦的成功率,使得潛在用戶能夠轉(zhuǎn)化為實(shí)際購買用戶。同 時(shí),避免了向不大可能繼續(xù)購買的用戶的推薦,因而也能夠減少了低成功率推薦的資源浪 費(fèi)。
[0046] 本公開的實(shí)施例通過半監(jiān)督學(xué)習(xí)方式(即無監(jiān)督的聚類和有監(jiān)督的評(píng)分)來處理 用戶信息,對(duì)用戶進(jìn)行聚類分組,并且基于用戶的分組來確定用戶得分,從而能夠準(zhǔn)確地確 定用戶得分并且有效地進(jìn)行推薦。此外,本公開的實(shí)施例同時(shí)考慮了用戶身份信息和用戶 行為信息,能夠提高聚類和推薦的準(zhǔn)確性。
[0047] 在一些實(shí)施例中,本公開的實(shí)施例中的方法200、300、400、500和600可^應(yīng)用于電 子商務(wù)系統(tǒng)或互聯(lián)網(wǎng)P2P^eer-to斗eer)業(yè)務(wù)中。根據(jù)用戶注冊(cè)時(shí)的身份信息和用戶在互 聯(lián)網(wǎng)業(yè)務(wù)中的行為信息,可W將用戶聚類為多個(gè)分組,然后根據(jù)用戶的分組情況,可W確定 用戶的得分,該得分能夠反映用戶的購買意向,例如是潛在繼續(xù)購買的用戶,還是很可能退 出的用戶。因此,通過將根據(jù)本公開的實(shí)施例的方法應(yīng)用于互聯(lián)網(wǎng)P2P業(yè)務(wù)中,能夠提高用 戶的留存率,并且能夠進(jìn)行針對(duì)性的推薦。
[0048] 此外,針對(duì)新加入互聯(lián)網(wǎng)業(yè)務(wù)的新的用戶,可W根據(jù)用戶的用戶信息快速確定用 戶的分組情況,并根據(jù)用戶的用戶信息和分組情況確定用戶的得分。也就是說,即使在具有 很少的用戶行為信息的情況下,也可W確定用戶的類型。因此,本公開的實(shí)施例的方法能夠 對(duì)互聯(lián)網(wǎng)業(yè)務(wù)的新的用戶的購買意向快速地進(jìn)行判斷,并且能夠提高信息推薦的效率和準(zhǔn) 確性。
[0049] 此外,還提供了一種用于處理用戶信息的設(shè)備。該設(shè)備包括處理器,該處理器被配 置為:從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,該特征向量包括用戶身份信息和 用戶行為信息;根據(jù)特征向量將多個(gè)用戶聚類為多個(gè)分組;基于特征向量和分組,確定多個(gè) 用戶中的每個(gè)用戶的得分;W及基于多個(gè)用戶的各自得分,向多個(gè)用戶中的至少一部分用 戶推薦信息。應(yīng)當(dāng)理解,該設(shè)備可W利用各種方式來實(shí)現(xiàn)。例如,在某些實(shí)施例中,該設(shè)備可 W通過硬件、軟件或者軟件和硬件的結(jié)合來實(shí)現(xiàn)。其中,硬件部分可W利用專用邏輯來實(shí) 現(xiàn);軟件部分則可W存儲(chǔ)在存儲(chǔ)器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計(jì) 硬件來執(zhí)行。本公開的實(shí)施例的設(shè)備和裝置不僅可W由諸如超大規(guī)模集成電路或口陣列、 諸如邏輯忍片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場可編程口陣列、可編程邏輯設(shè)備等的可編 程硬件設(shè)備的硬件電路實(shí)現(xiàn),也可W用例如由各種類型的處理器所執(zhí)行的軟件實(shí)現(xiàn),還可 W由上述硬件電路和軟件的結(jié)合來實(shí)現(xiàn)。
[0050] 圖8圖示了可W用來實(shí)施本公開的實(shí)施例的設(shè)備800的示意性框圖。如圖所示,設(shè) 備800包括中央處理單元(CPU)SOl,其可W根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(R0M)802中的計(jì)算機(jī)程 序指令或者從存儲(chǔ)單元808加載到隨機(jī)訪問存儲(chǔ)器(RAM)803中的計(jì)算機(jī)程序指令,來執(zhí)行 各種適當(dāng)?shù)膭?dòng)作和處理。在RAM 803中,還可存儲(chǔ)設(shè)備800操作所需的各種程序和數(shù)據(jù)。CPU 801、R0M 802W及RAM 803通過總線804彼此相連。輸入/輸出(I/O)接口805也連接至總線 804。
[0化1 ] 設(shè)備800中的多個(gè)部件連接至I/O接口 805,包括:輸入單元806,例如鍵盤、鼠標(biāo)等; 輸出單元807,例如各種類型的顯示器、揚(yáng)聲器等;存儲(chǔ)單元808,例如磁盤、光盤等;W及通 信單元809,例如網(wǎng)卡、調(diào)制解調(diào)器、無線通信收發(fā)機(jī)等。通信單元809允許設(shè)備800通過諸如 因特網(wǎng)的計(jì)算機(jī)網(wǎng)絡(luò)和/或各種電信網(wǎng)絡(luò)與其他設(shè)備交換信息/數(shù)據(jù)。
[0化2] 上文所描述的各個(gè)過程和處理,例如方法200、300、400、500和600,可由處理單元 801執(zhí)行。例如,在一些實(shí)施例中,方法200、300、400、500和600,可被實(shí)現(xiàn)為計(jì)算機(jī)軟件程 序,其被有形地包含于機(jī)器可讀介質(zhì),例如存儲(chǔ)單元808。在一些實(shí)施例中,計(jì)算機(jī)程序的部 分或者全部可W經(jīng)由ROM 802和/或通信單元809而被載入和/或安裝到設(shè)備800上。當(dāng)計(jì)算 機(jī)程序被加載到RAM 803并由CPU 801執(zhí)行時(shí),可W執(zhí)行上文描述的方法200、300、400、500 和600,的一個(gè)或多個(gè)步驟。
[0053] 計(jì)算機(jī)程序產(chǎn)品可W包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上載有用于執(zhí)行本公開的各個(gè) 方面的計(jì)算機(jī)可讀程序指令。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可W是可W保持和存儲(chǔ)由指令執(zhí)行設(shè)備 使用的指令的有形設(shè)備。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可W是一一但不限于一一電存儲(chǔ)設(shè)備、 磁存儲(chǔ)設(shè)備、光存儲(chǔ)設(shè)備、電磁存儲(chǔ)設(shè)備、半導(dǎo)體存儲(chǔ)設(shè)備或者上述的任意合適的組合。計(jì) 算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取 存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器化PROM或閃存)、靜態(tài)隨機(jī)存取 存儲(chǔ)器(SRAM)、便攜式壓縮盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能盤(DVD)、記憶棒、軟盤、機(jī) 械編碼設(shè)備、例如其上存儲(chǔ)有指令的打孔卡或凹槽內(nèi)凸起結(jié)構(gòu)、W及上述的任意合適的組 合。運(yùn)里所使用的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)不被解釋為瞬時(shí)信號(hào)本身,諸如無線電波或者其他 自由傳播的電磁波、通過波導(dǎo)或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈 沖)、或者通過電線傳輸?shù)碾娦盘?hào)。
[0054] 應(yīng)當(dāng)注意,盡管在上文的詳細(xì)描述中提及了設(shè)備的若干裝置或子裝置,但是運(yùn)種 劃分僅僅是示例性而非強(qiáng)制性的。實(shí)際上,根據(jù)本公開的實(shí)施例,上文描述的兩個(gè)或更多裝 置的特征和功能可W在一個(gè)裝置中具體化。反之,上文描述的一個(gè)裝置的特征和功能可W 進(jìn)一步劃分為由多個(gè)裝置來具體化。
[0055] W上所述僅為本公開的實(shí)施例可選實(shí)施例,并不用于限制本公開的實(shí)施例,對(duì)于 本領(lǐng)域的技術(shù)人員來說,本公開的實(shí)施例可W有各種更改和變化。凡在本公開的實(shí)施例的 精神和原則之內(nèi),所作的任何修改、等效替換、改進(jìn)等,均應(yīng)包含在本公開的實(shí)施例的保護(hù) 范圍之內(nèi)。
[0056] 雖然已經(jīng)參考若干具體實(shí)施例描述了本公開的實(shí)施例,但是應(yīng)該理解,本公開的 實(shí)施例并不限于所公開的具體實(shí)施例。本公開的實(shí)施例旨在涵蓋在所附權(quán)利要求的精神和 范圍內(nèi)所包括的各種修改和等同布置。所附權(quán)利要求的范圍符合最寬泛的解釋,從而包含 所有運(yùn)樣的修改及等同結(jié)構(gòu)和功能。
【主權(quán)項(xiàng)】
1. 一種用于在計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中處理用戶信息的方法,包括: 從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,所述特征向量包括用戶身份信息和 用戶行為信息; 根據(jù)所述特征向量,將所述多個(gè)用戶聚類為多個(gè)分組; 基于所述特征向量和所述分組,確定所述多個(gè)用戶中的每個(gè)用戶的得分;以及 基于所述多個(gè)用戶的各自得分,向所述多個(gè)用戶中的至少一部分用戶推薦信息。2. 根據(jù)權(quán)利要求1所述的方法,其中所述用戶身份信息包括以下各項(xiàng)中的至少一項(xiàng):年 齡、性別、城市、職業(yè)、教育程度以及收入水平,所述用戶行為信息包括以下各項(xiàng)中的至少一 項(xiàng):登錄所述服務(wù)器或相關(guān)服務(wù)器的次數(shù)、登錄所述服務(wù)器或相關(guān)服務(wù)器的時(shí)間長度、登錄 所述服務(wù)器或相關(guān)服務(wù)器時(shí)使用的終端類型、對(duì)所述服務(wù)器提供的網(wǎng)頁或內(nèi)容的瀏覽次數(shù) 以及從所述服務(wù)器或相關(guān)服務(wù)器購買的次數(shù)。3. 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述特征向量,將所述多個(gè)用戶聚類為多個(gè)分 組包括: 將每個(gè)用戶初始化為一個(gè)分組; 迭代執(zhí)行以下操作,直到滿足收斂條件: 確定所有分組中的每兩個(gè)分組之間的相似性;以及 將相似性大于閾值相似性的兩個(gè)分組進(jìn)行合并。4. 根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中基于所述特征向量和所述分組,確定所 述多個(gè)用戶中的每個(gè)用戶的得分包括: 生成基于所述特征向量和所述分組二者的用戶評(píng)分模型,其中所述用戶評(píng)分模型由以 下公式表示: Sn - LR(fnl , fn2 . . . , fni , glOUPn) 其中Sn表示第n個(gè)用戶的得分,LR表示邏輯斯蒂回歸方程,i表示特征向量的數(shù)目,fni表 示第η個(gè)用戶的第i個(gè)特征向量,groupn表示第η個(gè)用戶所屬的分組;以及 使用所述用戶評(píng)分模型,確定所述多個(gè)用戶中的每個(gè)用戶的得分。5. 根據(jù)權(quán)利要求4所述的方法,還包括: 向所述多個(gè)用戶中的每個(gè)用戶添加標(biāo)簽; 利用所述標(biāo)簽來訓(xùn)練所述用戶評(píng)分模型,使得所述用戶評(píng)分模型能夠?qū)哂胁煌瑯?biāo)簽 值的用戶進(jìn)行區(qū)分;以及 確定能夠?qū)哂胁煌瑯?biāo)簽值的用戶進(jìn)行區(qū)分的閾值得分。6. 根據(jù)權(quán)利要求5所述的方法,還包括: 從所述服務(wù)器獲得新的用戶的特征向量; 根據(jù)所述新的用戶的特征向量,將所述新的用戶分類到特定分組; 使用所述用戶評(píng)分模型,確定所述新的用戶的得分; 確定所述新的用戶的得分是否大于所述閾值得分; 響應(yīng)于所述新的用戶的得分大于所述閾值得分,確定所述新的用戶屬于預(yù)定類型的用 戶;以及 響應(yīng)于所述新的用戶的得分小于所述閾值得分,確定所述新的用戶不屬于所述預(yù)定類 型的用戶。7. 根據(jù)權(quán)利要求6所述的方法,其中根據(jù)所述新的用戶的特征向量,將所述新的用戶分 類到特定分組包括: 確定所述新的用戶與所述多個(gè)用戶中的每個(gè)用戶之間的相似度;以及 將所述新的用戶分類到與所述新的用戶具有最高相似度的用戶的分組。8. 根據(jù)權(quán)利要求6所述的方法,其中根據(jù)所述新的用戶的特征向量,將所述新的用戶分 類到特定分組包括: 將所述多個(gè)分組中的每個(gè)分組的向量的均值作為分組中心; 確定所述新的用戶的特征向量與所述多個(gè)分組中的每個(gè)分組的所述分組中心的相似 度;以及 將所述新的用戶分類到與所述新的用戶分類具有最高相似度的分組。9. 一種用于處理用戶信息的設(shè)備,包括: 處理器,所述處理器被配置為: 從服務(wù)器獲得多個(gè)用戶中的每個(gè)用戶的特征向量,所述特征向量包括用戶身份信息和 用戶行為信息; 根據(jù)所述特征向量,將所述多個(gè)用戶聚類為多個(gè)分組; 基于所述特征向量和所述分組,確定所述多個(gè)用戶中的每個(gè)用戶的得分;以及 基于所述多個(gè)用戶的各自得分,向所述多個(gè)用戶中的至少一部分用戶推薦信息。10. 根據(jù)權(quán)利要求9所述的設(shè)備,其中所述用戶身份信息包括以下各項(xiàng)中的至少一項(xiàng): 年齡、性別、城市、職業(yè)、教育程度以及收入水平,所述用戶行為信息包括以下各項(xiàng)中的至少 一項(xiàng):登錄所述服務(wù)器或相關(guān)服務(wù)器的次數(shù)、登錄所述服務(wù)器或相關(guān)服務(wù)器的時(shí)間長度、登 錄所述服務(wù)器或相關(guān)服務(wù)器時(shí)使用的終端類型、對(duì)所述服務(wù)器提供的網(wǎng)頁或內(nèi)容的瀏覽次 數(shù)以及從所述服務(wù)器或相關(guān)服務(wù)器購買的次數(shù)。11. 根據(jù)權(quán)利要求9所述的設(shè)備,其中根據(jù)所述特征向量,將所述多個(gè)用戶聚類為多個(gè) 分組包括: 將每個(gè)用戶初始化為一個(gè)分組; 迭代執(zhí)行以下操作,直到滿足收斂條件: 確定所有分組中的每兩個(gè)分組之間的相似性;以及 將相似性大于閾值相似性的兩個(gè)分組進(jìn)行合并。12. 根據(jù)權(quán)利要求9-11中任一項(xiàng)所述的設(shè)備,其中基于所述特征向量和所述分組,確定 所述多個(gè)用戶中的每個(gè)用戶的得分包括: 生成基于所述特征向量和所述分組二者的用戶評(píng)分模型,其中所述用戶評(píng)分模型由以 下公式表示: Sn - LR(fnl , fn2 . . . , fni , glOUPn) 其中Sn表示第n個(gè)用戶的得分,LR表示邏輯斯蒂回歸方程,i表示特征向量的數(shù)目,fni表 示第η個(gè)用戶的第i個(gè)特征向量,groupn表示第η個(gè)用戶所屬的分組;以及 使用所述用戶評(píng)分模型,確定所述多個(gè)用戶中的每個(gè)用戶的得分。13. 根據(jù)權(quán)利要求12所述的設(shè)備,所述處理器還被配置為: 向所述多個(gè)用戶中的每個(gè)用戶添加標(biāo)簽; 利用所述標(biāo)簽來訓(xùn)練所述用戶評(píng)分模型,使得所述用戶評(píng)分模型能夠?qū)哂胁煌瑯?biāo)簽 值的用戶進(jìn)行區(qū)分;以及 確定能夠?qū)哂胁煌瑯?biāo)簽值的用戶進(jìn)行區(qū)分的閾值得分。14. 根據(jù)權(quán)利要求13所述的設(shè)備,所述處理器還被配置為: 從所述服務(wù)器獲得新的用戶的特征向量; 根據(jù)所述新的用戶的特征向量,將所述新的用戶分類到特定分組; 使用所述用戶評(píng)分模型,確定所述新的用戶的得分; 確定所述新的用戶的得分是否大于所述閾值得分; 響應(yīng)于所述新的用戶的得分大于所述閾值得分,確定所述新的用戶屬于預(yù)定類型的用 戶;以及 響應(yīng)于所述新的用戶的得分小于所述閾值得分,確定所述新的用戶不屬于所述預(yù)定類 型的用戶。15. 根據(jù)權(quán)利要求14所述的設(shè)備,其中根據(jù)所述新的用戶的特征向量,將所述新的用戶 分類到特定分組包括: 確定所述新的用戶與所述多個(gè)用戶中的每個(gè)用戶之間的相似度;以及 將所述新的用戶分類到與所述新的用戶具有最高相似度的用戶的分組。16. 根據(jù)權(quán)利要求14所述的設(shè)備,其中根據(jù)所述新的用戶的特征向量,將所述新的用戶 分類到特定分組包括: 將所述多個(gè)分組中的每個(gè)分組的向量的均值作為分組中心; 確定所述新的用戶的特征向量與所述多個(gè)分組中的每個(gè)分組的所述分組中心的相似 度;以及 將所述新的用戶分類到與所述新的用戶分類具有最高相似度的分組。
【文檔編號(hào)】G06F17/30GK106021376SQ201610310618
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月11日
【發(fā)明人】單憶南, K·拉加塞圖帕蒂, 孫亞, 畢鵬
【申請(qǐng)人】上海點(diǎn)榮金融信息服務(wù)有限責(zé)任公司