專利名稱:基于評(píng)分的協(xié)同過濾推薦方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及協(xié)同過濾推薦技術(shù)領(lǐng)域,特別涉及一種基于評(píng)分的協(xié)同過濾推薦方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展把我們帶進(jìn)了信息爆炸的時(shí)代,海量信息的同時(shí)呈現(xiàn),不僅使用戶很難從中發(fā)現(xiàn)自已感興趣的內(nèi)容,而且使得大量少為人知的信息成為網(wǎng)絡(luò)中的 “暗信息”,無法被一般用戶獲取。推薦系統(tǒng)通過建立用戶與項(xiàng)目(例如產(chǎn)品、電影、音樂、 節(jié)目等)之間的二元關(guān)系,利用用戶歷史選擇信息或相似性關(guān)系挖掘用戶潛在的興趣愛好,進(jìn)而進(jìn)行推薦。
目前已存在許多經(jīng)典推薦系統(tǒng),協(xié)同過濾推薦系統(tǒng)是最早被提出并得到廣泛應(yīng)用的推薦系統(tǒng)。其核心思想就是基于評(píng)分相似的最近鄰居的評(píng)分?jǐn)?shù)據(jù)向目標(biāo)用戶產(chǎn)生推薦。 由于最近鄰居對(duì)項(xiàng)目的評(píng)分與目標(biāo)用戶非常相似,因此目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分可以通過最近鄰居對(duì)該項(xiàng)目評(píng)分的加權(quán)平均值逼近。Typestry是最早提出來的基于協(xié)同過濾的推薦系統(tǒng),目標(biāo)用戶需要指出與自己興趣愛好比較類似的其他用戶。GroupLens是基于用戶評(píng)分的自動(dòng)化協(xié)同過濾推薦系統(tǒng),用于電影和新聞推薦。其他利用協(xié)同過濾方法進(jìn)行推薦的系統(tǒng)還有Amazon, com的書籍推薦系統(tǒng),Jester的笑話推薦系統(tǒng)等等。
與一般的推薦系統(tǒng)相比,協(xié)同過濾推薦系統(tǒng)具有兩大優(yōu)點(diǎn)一是對(duì)推薦對(duì)象沒有特殊的要求,能處理音樂、電影等難以進(jìn)行文本結(jié)構(gòu)化表示的對(duì)象;二是具有推薦新信息的能力,可以發(fā)現(xiàn)用戶潛在的但自己尚未察覺的興趣偏好。
傳統(tǒng)的協(xié)同過濾推薦系統(tǒng)利用不同用戶間共同評(píng)分項(xiàng)目計(jì)算相似性,主流的相似性計(jì)算方法包括余弦相似性方法和相關(guān)相似性方法;目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分通過相似性較大的鄰居對(duì)項(xiàng)目的評(píng)分的加權(quán)平均值進(jìn)行預(yù)測(cè)。可以看出,協(xié)同過濾推薦系統(tǒng)的推薦精度取決于用戶間相似性計(jì)算的準(zhǔn)確度。然而在用戶和項(xiàng)目數(shù)量龐大的網(wǎng)絡(luò)系統(tǒng)中用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏情況下,難以找到用戶間共同評(píng)分項(xiàng)目,從而導(dǎo)致用戶間相似性計(jì)算結(jié)果不準(zhǔn)確甚至無法計(jì)算相似性。協(xié)同過濾推薦系統(tǒng)得到了廣泛應(yīng)用的同時(shí),也面臨著很多問題,例如如何對(duì)新用戶進(jìn)行推薦或如何推薦新產(chǎn)品給用戶即冷啟動(dòng)問題,評(píng)分稀疏性問題,算法可擴(kuò)展性問題等。另外,傳統(tǒng)的協(xié)同過濾推薦算法隨著用戶數(shù)量的增多,計(jì)算量成線性加大,實(shí)時(shí)性能越來越差,同時(shí)響應(yīng)速度也越來越慢。發(fā)明內(nèi)容
(一)要解決的技術(shù)問題
本發(fā)明要解決的技術(shù)問題是如何在用戶和項(xiàng)目數(shù)量龐大的協(xié)同過濾推薦系統(tǒng)中用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏情況下,解決難以找到用戶間共同評(píng)分項(xiàng)而導(dǎo)致無法計(jì)算相似性或相似性不準(zhǔn)確的問題。
( 二)技術(shù)方案
為解決上述技術(shù)問題,本發(fā)明提供了一種基于評(píng)分的協(xié)同過濾推薦方法,包括以下步驟Sl 遍歷當(dāng)前網(wǎng)絡(luò)系統(tǒng)中的所有用戶,獲得所有用戶的歷史評(píng)分?jǐn)?shù)據(jù);S2:根據(jù)所有用戶各自的歷史評(píng)分?jǐn)?shù)據(jù)的統(tǒng)計(jì)特征確定各個(gè)用戶之間的相似程度;S3:選擇與當(dāng)前用戶相似程度最高的k個(gè)其它用戶,根據(jù)所述k個(gè)其它用戶對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù),來對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè);S4 對(duì)每個(gè)用戶的預(yù)測(cè)結(jié)果進(jìn)行篩選,產(chǎn)生對(duì)每個(gè)用戶的推薦項(xiàng)目。優(yōu)選地,步驟S2中各個(gè)用戶之間的相似程度通過下列公式進(jìn)行計(jì)算,
權(quán)利要求
1.一種基于評(píng)分的協(xié)同過濾推薦方法,其特征在于,包括以下步驟S1遍歷當(dāng)前網(wǎng)絡(luò)系統(tǒng)中的所有用戶,獲得所有用戶的歷史評(píng)分?jǐn)?shù)據(jù);S2根據(jù)所有用戶各自的歷史評(píng)分?jǐn)?shù)據(jù)的統(tǒng)計(jì)特征確定各個(gè)用戶之間的相似程度;S3選擇與當(dāng)前用戶相似程度最高的k個(gè)其它用戶,根據(jù)所述k個(gè)其它用戶對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù),來對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè);S4對(duì)每個(gè)用戶的預(yù)測(cè)結(jié)果進(jìn)行篩選,產(chǎn)生對(duì)每個(gè)用戶的推薦項(xiàng)目。
2.如權(quán)利要求1所述的方法,其特征在于,步驟S2中各個(gè)用戶之間的相似程度通過下列公式進(jìn)行計(jì)算,
3.如權(quán)利要求2所述的方法,其特征在于,步驟S3中通過下式來對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè),
4.如權(quán)利要求1 3中任一項(xiàng)所述的方法,其特征在于,步驟S4中對(duì)每個(gè)用戶的預(yù)測(cè)結(jié)果進(jìn)行篩選時(shí),通過將當(dāng)前用戶的未評(píng)分項(xiàng)目的預(yù)測(cè)分?jǐn)?shù)與當(dāng)前用戶的歷史評(píng)分?jǐn)?shù)據(jù)的均值進(jìn)行比較,若大于均值,則作為推薦項(xiàng)目。
5.一種基于評(píng)分的協(xié)同過濾推薦系統(tǒng),其特征在于,包括歷史數(shù)據(jù)統(tǒng)計(jì)模塊,用于遍歷當(dāng)前網(wǎng)絡(luò)系統(tǒng)中的所有用戶,獲得所有用戶的歷史評(píng)分?jǐn)?shù)據(jù);相似程度計(jì)算模塊,用于根據(jù)所有用戶各自的歷史評(píng)分?jǐn)?shù)據(jù)的統(tǒng)計(jì)特征確定各個(gè)用戶之間的相似程度;預(yù)測(cè)模塊,用于選擇與當(dāng)前用戶相似程度最高的k個(gè)其它用戶,根據(jù)所述k個(gè)其它用戶對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù),來對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè);篩選模塊,用于對(duì)每個(gè)用戶的預(yù)測(cè)結(jié)果進(jìn)行篩選,產(chǎn)生對(duì)每個(gè)用戶的推薦項(xiàng)目。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,相似程度計(jì)算模塊中各個(gè)用戶之間的相似程度通過下列公式進(jìn)行計(jì)算,
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,預(yù)測(cè)模塊中通過下式對(duì)當(dāng)前用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè),Pu,, =K+ \~Γ Y,sim(u,x)(rxl -rx)xeS(u)其中,Pu, i為當(dāng)前用戶U的未評(píng)分項(xiàng)目i的預(yù)測(cè)分?jǐn)?shù),S(U)為k個(gè)其它用戶中對(duì)當(dāng)前用戶U的未評(píng)分項(xiàng)目i進(jìn)行過評(píng)分的用戶集合,ru為用戶X對(duì)當(dāng)前用戶u的未評(píng)分項(xiàng)目i 的評(píng)分,用戶χ為S(U)中的某個(gè)元素。
8.如權(quán)利要求5 7中任一項(xiàng)所述的系統(tǒng),其特征在于,篩選模塊中對(duì)每個(gè)用戶的預(yù)測(cè)結(jié)果進(jìn)行篩選時(shí),通過將當(dāng)前用戶的未評(píng)分項(xiàng)目的預(yù)測(cè)分?jǐn)?shù)與當(dāng)前用戶的歷史評(píng)分?jǐn)?shù)據(jù)的均值進(jìn)行比較,若大于均值,則作為推薦項(xiàng)目。
全文摘要
本發(fā)明公開了一種基于評(píng)分的協(xié)同過濾推薦方法及系統(tǒng),涉及協(xié)同過濾推薦技術(shù)領(lǐng)域,本發(fā)明利用用戶歷史評(píng)分?jǐn)?shù)據(jù)的統(tǒng)計(jì)特征計(jì)算各個(gè)用戶之間的相似程度,通過與當(dāng)前用戶相似程度較高的其他用戶來計(jì)算當(dāng)前用戶未評(píng)價(jià)過的項(xiàng)目,實(shí)現(xiàn)了在用戶和項(xiàng)目數(shù)量龐大的協(xié)同過濾推薦系統(tǒng)中用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏情況下,解決了難以找到用戶間共同評(píng)分項(xiàng)而導(dǎo)致無法計(jì)算相似性或相似性不準(zhǔn)確的問題,能夠?qū)崿F(xiàn)準(zhǔn)確且快速的項(xiàng)目推薦。
文檔編號(hào)G06F17/30GK102495864SQ201110382078
公開日2012年6月13日 申請(qǐng)日期2011年11月25日 優(yōu)先權(quán)日2011年11月25日
發(fā)明者曹軍威, 謝峰, 陳震 申請(qǐng)人:清華大學(xué)