用于推斷用戶人口統(tǒng)計的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請要求2012年6月 21 日提交的題為"Method and Apparatus For Inferring User Demographics Based on Ratings"的美國臨時申請No. 61/662, 609 的優(yōu)先權(quán),出于任 何理由通過全文引用將該申請并入本文。
技術(shù)領(lǐng)域
[0002]
[0003] 本發(fā)明一般地設(shè)及推薦者系統(tǒng)中的用戶剖析(profiling)和用戶隱私。更具體 地,本發(fā)明設(shè)及人口統(tǒng)計信息推斷。
【背景技術(shù)】
[0004] 在不同背景下并針對多種類型的用戶產(chǎn)生數(shù)據(jù),已對推斷用戶的人口統(tǒng)計進行了 研究。在交互網(wǎng)絡(luò)的背景下,已經(jīng)展示了有助于使用針對博客的基于鏈接的信息和來自 化cebook的社交網(wǎng)絡(luò)數(shù)據(jù)推斷人口統(tǒng)計的圖表結(jié)構(gòu)。其它工作依賴于根據(jù)用戶的筆跡而得 到的文本特征來推斷人口統(tǒng)計。
[0005] 基于文本的推斷的主要缺點在于大多用戶不提供書面評論,因此該些方法是不可 用的。類似地,推薦者系統(tǒng)可能無法找到它們想要推斷其詳情的用戶的社交網(wǎng)絡(luò)。
[0006] 可W看出,需要一種基于盡可能少的信息的用戶人口統(tǒng)計推斷方法。本發(fā)明關(guān)注 于該種推斷方法。
【發(fā)明內(nèi)容】
【發(fā)明內(nèi)容】
[0007] 是為了 W簡化的形式介紹對構(gòu)思的選擇,其中將在【具體實施方式】中詳細(xì) 介紹發(fā)明構(gòu)思。并非為了標(biāo)識所要求保護的主題的關(guān)鍵特征或基本特征,也不是 為了限制所要求保護的主題的范圍。
[000引本發(fā)明包括使用新用戶的電影排名來確定新用戶的人口統(tǒng)計信息的方法和裝置。 所述方法包括:使用訓(xùn)練數(shù)據(jù)集來訓(xùn)練用于確定人口統(tǒng)計信息的推斷引擎,所述訓(xùn)練數(shù)據(jù) 集包括來自多個其它用戶的電影排名和人口統(tǒng)計信息。然后,接收來自新用戶的電影排名, 其中接收到來自特定用戶的電影排名而沒有人口統(tǒng)計信息。使用已訓(xùn)練的推斷引擎來確定 新用戶的人口統(tǒng)計信息。推斷引擎可W是推薦者系統(tǒng)的一部分,所述推薦者系統(tǒng)利用所確 定的人口統(tǒng)計信息向新用戶提供推薦或向新用戶提供針對性的廣告。
[0009] 參考附圖,根據(jù)對說明性實施例的W下詳細(xì)描述,將清楚本發(fā)明的其它特征和優(yōu) 點。
【附圖說明】
[0010] 當(dāng)結(jié)合附圖理解時,將更好地理解上述
【發(fā)明內(nèi)容】
W及下文對說明性實施例的詳細(xì) 描述,其中附圖僅是示例性的,而不是為了限制所要求保護的本發(fā)明。
[0011] 圖1示出了根據(jù)本發(fā)明的多個方面的推斷引擎的示例性環(huán)境實施例;
[0012] 圖2a描述了針對Flixster訓(xùn)練數(shù)據(jù)集的不同分類器的受試者工作特征(ROC) 圖;
[0013] 圖化描述了針對Movielens訓(xùn)練數(shù)據(jù)集的不同分類器的受試者工作特征(ROC) 圖;
[0014] 圖2c描述了根據(jù)Flixster訓(xùn)練數(shù)據(jù)集的規(guī)模的精確度增加;
[0015] 圖3示出了根據(jù)本發(fā)明的多個方面的使用的示例流程圖;W及
[0016] 圖4示出了根據(jù)本發(fā)明的多個方面的示例推斷引擎。
【具體實施方式】
[0017] 在對多個說明性實施例的W下描述中,參考附圖,其中所述附圖形成描述的一部 分,并且示例性地示出了所述附圖,可W實施本發(fā)明的多種實施例。應(yīng)理解,可W使用其他 實施例,并且可W進行結(jié)構(gòu)和功能性的修改,而不脫離本發(fā)明的范圍。
[0018] 通過人口統(tǒng)計信息(例如,性別、年齡、收入或種族)剖析用戶在針對性廣告?zhèn)鬟f 和個性化的內(nèi)容分發(fā)中是十分重要的。推薦者系統(tǒng)同樣可W從該種信息中獲益W提供個性 化的推薦。然而,推薦者系統(tǒng)的用戶通常不會自愿提供該種信息。該可能是有意的一-為 了保護他們的隱私,或是無意的一-由于懶惰或不感興趣。該樣,從由于收集來自多個用戶 的用戶排名而出現(xiàn)的模式提取有意義信息的傳統(tǒng)協(xié)同過濾方法避開使用該種信息,而代之 W僅依賴于用戶提供的評級。
[0019] 首先,向推薦者系統(tǒng)公開評級可能表現(xiàn)為相當(dāng)無害的行為。必然存在用戶根據(jù)該 公開獲得的功效一-即,發(fā)現(xiàn)相關(guān)內(nèi)容/項目的能力。不管怎樣,已經(jīng)存在了大量的工作, 該些工作指示用戶人口統(tǒng)計與社交網(wǎng)絡(luò)、博客和微博等上的用戶行為相關(guān),并因此可W根 據(jù)社交網(wǎng)絡(luò)、博客和微博等上的用戶行為推斷出。因此,詢問是否還可W根據(jù)向協(xié)同過濾系 統(tǒng)公開的信息推斷出人口統(tǒng)計信息(例如,年齡、性別、種族或甚至政治傾向)是很自然的。 實際上,無關(guān)于評級值,可W將用戶已與項目交互(例如,已觀看特定電影、已聘聽特定歌 曲、或已購買產(chǎn)品)該一事實與人口統(tǒng)計信息相關(guān)。
[0020] 該種推斷的潛在成功具有若干重要暗示。一方面,從推薦者的角度,關(guān)于人口統(tǒng)計 信息來剖析用戶為若干應(yīng)用開啟了道路;除了推薦之外,由于廣告刊登者主要對針對性的 特定人口統(tǒng)計人群感興趣,該種剖析可W通過廣告提供產(chǎn)生附加收入。本發(fā)明關(guān)注于該種 推斷技術(shù)。假定用戶希望推斷的信息是他們的性別;盡管如此,當(dāng)要推斷不同人口統(tǒng)計特征 (年齡、種族、政治傾向等)時,也可應(yīng)用本發(fā)明的方法。此外,盡管特定實施例針對的是電 影評級,然而該僅是示例性的??蒞使用任何類型的評級,包括但不限于對歌曲、數(shù)字游戲、 產(chǎn)品、餐廳等的評級。為了理解的簡潔性和清楚性,主要使用利用電影評級來確定人口統(tǒng)計 信息的示例,但是還可W應(yīng)用其它類型的評級。
[0021] 圖1描述了本文所述的推斷引擎的示例系統(tǒng)100或環(huán)境。其它環(huán)境也是可能的。 圖1的系統(tǒng)100描述了推薦者系統(tǒng)130,所述推薦者系統(tǒng)130向網(wǎng)絡(luò)120上的用戶提供內(nèi)容 推薦。推薦者系統(tǒng)的典型示例包括由例如Netflix巧:、Hulu忠'、Amazon譚等內(nèi)容供 應(yīng)商運行的內(nèi)容推薦者系統(tǒng)。通常,推薦者系統(tǒng)100向進行訂閱的用戶提供備選數(shù)字內(nèi)容。 該種內(nèi)容可W包括流傳輸視頻、DVD投遞、書、文章和商品。在流傳輸視頻的示例實例中,可 w基于用戶過去的電影選擇或精選的用戶分析特征,向用戶推薦備選電影。將流傳輸視頻 的實例作為一個示例實施例進行考慮。
[0022] 在本發(fā)明的上下文中,推斷引擎135可W是可根據(jù)由用戶125提供的非人口統(tǒng)計 信息推斷人口統(tǒng)計信息的數(shù)據(jù)處理設(shè)備,其中用戶125向推薦者系統(tǒng)130發(fā)送電影評級。 推斷引擎135用于處理由用戶125提供的電影評級并推薦人口統(tǒng)計信息。在一個示例實例 中,所討論的人口統(tǒng)計信息是性別。但是本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識到,根據(jù)本發(fā)明的多個方 面,還可W推斷其它人口統(tǒng)計信息。該種人口統(tǒng)計信息可W包括但不限于年齡、種族、政治 傾向等。
[0023] 根據(jù)本發(fā)明的一個方面,如下所述,推斷引擎135使用通過用戶1、2到n(分別為 105、110到115)獲取的訓(xùn)練數(shù)據(jù)進行操作。該些用戶通過推薦者系統(tǒng)130向推斷引擎135 提供電影評級數(shù)據(jù)W及人口統(tǒng)計信息。可W隨著用戶105到115使用推薦者系統(tǒng),獲取訓(xùn) 練數(shù)據(jù)集。備選地,推斷引擎可W在通過輸入端口 136直接輸入的一個或更多個數(shù)據(jù)加載 中輸入訓(xùn)練數(shù)據(jù)集。端口 136可W用于從網(wǎng)絡(luò)、硬盤驅(qū)動器或包含訓(xùn)練數(shù)據(jù)的其它數(shù)據(jù)源 輸入訓(xùn)練數(shù)據(jù)集。
[0024] 推斷引擎135使用算法來處理訓(xùn)練數(shù)據(jù)集。推斷引擎135隨后使用包含電影評級 的用戶125(用戶幻輸入。電影評級包含一個或更多個的電影標(biāo)識信息,例如,電影片名或 電影索引(movie index)或參考編號和評級值,W便推斷關(guān)于用戶125的人口統(tǒng)計信息。本 討論所用的"電影片名"或更廣義地"電影標(biāo)識符"是標(biāo)識符,例如用戶觀看的電影、展覽、紀(jì) 錄片、電視劇、數(shù)字游戲或其它數(shù)字內(nèi)容的名稱或題目或數(shù)據(jù)庫索引。評級值是用戶125所 評判的對所觀看數(shù)字內(nèi)容的主觀度量。一般情況下,評級值是由用戶125進行的質(zhì)量評估, 并在1到5的數(shù)值范圍內(nèi)分級;1是較低的主觀分?jǐn)?shù),5是較高的主觀分?jǐn)?shù)。本領(lǐng)域技術(shù)人 員應(yīng)認(rèn)識到可W同樣使用其它分級,例如,1到10的數(shù)字?jǐn)?shù)值范圍、字母數(shù)值范圍、五星數(shù) 值范圍、10個半星數(shù)值范圍或從"差"到"優(yōu)秀"的詞語數(shù)值范圍。應(yīng)注意,根據(jù)本發(fā)明的多 個方面,由用戶125提供的信息不包含人口統(tǒng)計信息,推斷引擎135僅根據(jù)用戶125的電影 評級確定用戶125的人口統(tǒng)計信息。
[0025] 根據(jù)本發(fā)明的一個方面,將訓(xùn)練數(shù)據(jù)集用于教導(dǎo)推斷引擎135。訓(xùn)練數(shù)據(jù)集可 用于推薦者系統(tǒng)130和推斷引擎135二者?,F(xiàn)在設(shè)置訓(xùn)練數(shù)據(jù)集的特征。訓(xùn)練數(shù)據(jù)集包 括N= {1,...,N}個用戶的集合,其中每個用戶對類別M中的電影的子集具有給定評級。 &心表示的是電影的集合,針對于該電影集合,用戶i G N的評級在該數(shù)據(jù)集中,通過 TyU E Si)來表示用戶i G N對電景多j G M給出的評級。此外,對于每個i G N,訓(xùn)練集合 還包含2進制變量{0,1},指示用戶的性別(比特0映射到男性用戶)。假定訓(xùn)練數(shù) 據(jù)集是純粹的:評級或性別標(biāo)簽都未被篡改或混淆。
[0026] 將貫穿本文的推薦機制假定為是矩陣因式分解,因為該是商業(yè)系統(tǒng)通常使用的。 盡管將矩陣因式分解用作示例,然而可W使用任何推薦機制。備選的推薦機制包括鄰近方 法(用戶的聚集)、項目的上下文相似性或本領(lǐng)域技術(shù)人員所知道的其它機制??蒞通過 將所提供的評級添加到訓(xùn)練集合的評級矩陣并對其進行因式分解,來產(chǎn)生針對集合M\S。的 評級。更具體地,將每個用戶i G N U{0}與潛在的特征矢量《,? € Kd相關(guān)聯(lián)。將每個電影 j G M與潛在特征矢量11"相關(guān)聯(lián)。正則化均方差被定義為;
[0027] ^ 的廣< I{(巧 > + A lUi ||!+ 又w 巧[li ifc:)V'U[0jjfc5, feJVVlQ] j 芭 M.
[002引其中y是整個數(shù)據(jù)集的平均評級。通過在梯度下降上最小化MSE,來構(gòu)造矢量Ui、 Vi。使用d = 20 W及入=0. 3的值。因此對用戶和電影二者進行了剖析,通過< ivv