一種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法
【專利摘要】本發(fā)明涉及一種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法,包括:收集歷史記錄中的用戶?項目評分數(shù)據(jù),建立用戶?項目評分矩陣;采用皮爾森相似度計算方法計算目標用戶與其他用戶之間的相似度;選擇相似度較高的前N個用戶生成最近鄰居候選集;對于最近鄰居候選集里的用戶,根據(jù)目標用戶與此集里用戶共同評分項集的數(shù)據(jù),計算目標用戶與此集里用戶之間評分的平均誤差,進而計算可信度,平均誤差越大,與目標用戶之間的可信度越小;選取可信度較高的K個用戶生成目標用戶的最近鄰居集,0<K<N。本發(fā)明可以提高推薦的準確度。
【專利說明】
-種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設及一種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法。
【背景技術(shù)】
[0002] 隨著"互聯(lián)網(wǎng)+"時代的到來W及電子商務的迅速發(fā)展,電子商務網(wǎng)站利用電子商 務推薦系統(tǒng)向用戶推薦商品信息,提供相關(guān)的建議,協(xié)助用戶做出購物決策。作為傳統(tǒng)的推 薦技術(shù)的一種,協(xié)同過濾推薦算法簡單且高效,得到了推薦系統(tǒng)的廣泛且成功的應用。
[0003] 協(xié)同過濾推薦方法主要分為基于鄰居集和基于模型的推薦方法。其中,基于鄰居 集的推薦方法又分為基于用戶和基于項目的方法?;谟脩舻耐扑]方法的核屯、思想是將與 目標用戶相似的最近鄰居用戶所喜歡的項目推薦給目標用戶。其中,基于用戶的協(xié)同過濾 推薦方法在應用中遇到了一些挑戰(zhàn),主要是因為僅依靠傳統(tǒng)的相似度計算得到的最近鄰居 集存在較大誤差,數(shù)據(jù)稀疏問題更使得傳統(tǒng)協(xié)同過濾推薦不夠準確。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在克服現(xiàn)有技術(shù)上的不足,提出一種電子商務推薦系統(tǒng)中用戶最近鄰居 集的優(yōu)化選取方法,不但可W提高推薦準確度,而且能夠解決數(shù)據(jù)稀疏帶來的問題。為了達 到上述目的,本發(fā)明采用如下的技術(shù)方案:
[0005] -種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法,包括下列步驟:
[0006] (1)收集歷史記錄中的用戶-項目評分數(shù)據(jù),建立用戶-項目評分矩陣;
[0007] (2)采用皮爾森相似度計算方法計算目標用戶與其他用戶之間的相似度;
[0008] (3)選擇相似度較高的前N個用戶生成最近鄰居候選集;
[0009] (4)對于最近鄰居候選集里的用戶,根據(jù)目標用戶與此集里用戶共同評分項集的 數(shù)據(jù),計算目標用戶與此集里用戶之間評分的平均誤差,進而計算可信度,平均誤差越大, 與目標用戶之間的可信度越小;
[0010] (5)選取可信度較高的K個用戶生成目標用戶的最近鄰居集,0<K<N。
[0011] 本發(fā)明提供的電子商務推薦系統(tǒng)中用戶最近鄰居的優(yōu)化選取方法,首先計算目標 用戶與其他用戶的相似度,然后選取相似度較高的用戶生成最近鄰居候選集,然后計算目 標用戶與最近鄰居候選集中用戶之間的可信度,選取可信度較高的用戶生成目標用戶的最 近鄰居集。通過本方法可W提高最近鄰居集的準確度。
【附圖說明】
[0012] 圖1是用戶最近鄰居集的優(yōu)化選取流程圖。
【具體實施方式】
[0013] 本發(fā)明的技術(shù)方案是:
[0014] (1)收集歷史記錄中的用戶-項目評分數(shù)據(jù),建立用戶-項目評分矩陣:
[0015]
[0016] (2)計算目標用戶與其他用戶之間的相似度。在計算其他用戶與目標用戶之間的 相似度時,考慮二者間的共同評分項,采用經(jīng)典的皮爾森相似度計算方法,具體方法如下所 示:
[0017]
[001引其中,a和b代表兩個用戶,sim(a,b)表示用戶a和b之間的相似度,Ra康示用戶a對 項目i的評分,Iab表示兩個用戶的共同評分項集,表示用戶a的評分均值 Ia I表示用戶a評價過的項目個數(shù)。
[0019] (3)設(KR/<K化/和K的值需要依據(jù)具體推薦系統(tǒng)設定),根據(jù)(2)計算得到的其他 用戶對目標用戶的相似度,選取相似度較高的個用戶作為目標用戶a的最近鄰居候選集 (a),W備最近鄰居集N(a)的后續(xù)選取。
[0020] (4)用戶a與其他用戶的可信度計算方法如下。設用戶b為目標用戶a的最近鄰居候 選集妒(a)中的某個用戶,項目i為共同評分項集Iab中的某個項目,基于用戶b的評分可W利 用下述公式對用戶a在項目i上的評分進行預測。
[0021]
[002^ 其中Pa康示用戶b對用戶a在項目i上的預測評分,是表示用戶a的平均評分。通過 計算用戶b對用戶a在共同評分項集Iab中的每一個項目上的預測評分與用戶a的對相應項目 的實際評分之間的差值,可W得到用戶b對用戶a的預測評分平均誤差,計算公式如下:
[0023]
[0024] (5)預測評分平均誤差Hab越大,用戶a與用戶b之間的可信度越小,運是一個反相關(guān) 的關(guān)系,所^利用公;1^
將預測評分平均誤差Hab歸一化到區(qū)間[0,1]內(nèi),得到 用戶a對用戶b的可信度T(a,b),其中T(a,b)越大,說明用戶a對用戶b的可信度越高。
[0025] (6)基于對目標用戶與最近鄰居候選集滬(a)中所有用戶之間的可信度的計算,選 取可信度較高的前K個用戶構(gòu)成目標用戶的最近鄰居集N(a)。
【主權(quán)項】
1. 一種電子商務推薦系統(tǒng)中用戶最近鄰居集的優(yōu)化選取方法,包括下列步驟: (1) 收集歷史記錄中的用戶-項目評分數(shù)據(jù),建立用戶-項目評分矩陣; (2) 采用皮爾森相似度計算方法計算目標用戶與其他用戶之間的相似度; (3) 選擇相似度較高的前N個用戶生成最近鄰居候選集; (4) 對于最近鄰居候選集里的用戶,根據(jù)目標用戶與此集里用戶共同評分項集的數(shù)據(jù), 計算目標用戶與此集里用戶之間評分的平均誤差,進而計算可信度,平均誤差越大,與目標 用戶之間的可信度越??; (5) 選取可信度較高的K個用戶生成目標用戶的最近鄰居集,0〈Κ〈Ν。
【文檔編號】G06Q30/02GK106022838SQ201610371000
【公開日】2016年10月12日
【申請日】2016年5月27日
【發(fā)明人】金志剛, 張子洋
【申請人】天津大學