一種協(xié)同過(guò)濾處理器的制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種協(xié)同過(guò)濾處理器,包括采用改進(jìn)的K-means算法對(duì)用戶(hù)聚類(lèi)、選出與目標(biāo)用戶(hù)屬性相近的用戶(hù)組成的簇、得到目標(biāo)用戶(hù)的最近鄰居集合和產(chǎn)生推薦集四個(gè)步驟。本發(fā)明的主要思想是通過(guò)聚類(lèi)將特征相同的用戶(hù)聚為一類(lèi)降低矩陣的維度,減少空間復(fù)雜度,然后通過(guò)矩陣分解對(duì)稀疏矩陣進(jìn)行填補(bǔ),對(duì)填補(bǔ)的矩陣再進(jìn)行協(xié)同過(guò)濾。
【專(zhuān)利說(shuō)明】一種協(xié)同過(guò)濾處理器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及推薦【技術(shù)領(lǐng)域】,更具體的講是一種基于k-means聚類(lèi)的協(xié)同過(guò)濾算法處理器,主要思想是通過(guò)聚類(lèi)將特征相同的用戶(hù)聚為一類(lèi)降低矩陣的維度,減少空間復(fù)雜度,然后通過(guò)矩陣分解對(duì)稀疏矩陣進(jìn)行填補(bǔ),對(duì)填補(bǔ)的矩陣再進(jìn)行協(xié)同過(guò)濾。
[0002]
【背景技術(shù)】
[0003]隨著互聯(lián)網(wǎng)的普及和計(jì)算機(jī)技術(shù)的迅速發(fā)展,信息量爆炸性的增長(zhǎng),個(gè)性化的推薦系統(tǒng)成為繼搜索引擎以后,一個(gè)越來(lái)越受關(guān)注的研究領(lǐng)域。隨著學(xué)者們的研究,越來(lái)越多的推薦算法被提出,其中包括:基于內(nèi)容的推薦,協(xié)同過(guò)濾推薦算法以及組合推薦算法。
[0004]協(xié)同過(guò)濾作為當(dāng)前應(yīng)用最成功的推薦技術(shù),在很多領(lǐng)域中得到了實(shí)際的應(yīng)用,但其仍存在許多問(wèn)題需要解決。推薦系統(tǒng)中普遍存在數(shù)據(jù)稀疏性、冷啟動(dòng)和可擴(kuò)展性等問(wèn)題。基于鄰域的算法是協(xié)同過(guò)濾算法中最基本的算法,該算法分為兩大類(lèi),一類(lèi)是基于用戶(hù)的協(xié)同過(guò)濾算法,另一類(lèi)是基于項(xiàng)目的協(xié)同過(guò)濾算法?;卩徲虻乃惴ǖ娜秉c(diǎn)是:當(dāng)該矩陣非常稀疏時(shí),算法很難為目標(biāo)用戶(hù)找到相似用戶(hù),從而使推薦質(zhì)量受到很大的限制。如果在計(jì)算之前根據(jù)相似性對(duì)用戶(hù)進(jìn)行聚類(lèi),準(zhǔn)確的選取鄰用戶(hù),就可以減小計(jì)算量的同時(shí),提供較為準(zhǔn)確的推薦結(jié)果。
[0005]
【發(fā)明內(nèi)容】
[0006]為解決上述問(wèn)題,本發(fā)明公開(kāi)了一種協(xié)同過(guò)濾處理器,基于聚類(lèi)協(xié)同過(guò)濾算法,它首先利用k-means聚類(lèi)算法將具有相似興趣愛(ài)好的用戶(hù)分配到相同的類(lèi)中;然后在每一類(lèi)中,采用基于用戶(hù)的協(xié)同過(guò)濾算法來(lái)計(jì)算用戶(hù)間的相似性和形成最近鄰居,完成未評(píng)分?jǐn)?shù)據(jù)的預(yù)測(cè),產(chǎn)生Top-N推薦。聚類(lèi)技術(shù)大大縮小了計(jì)算的范圍,提高了推薦算法的運(yùn)行速度。實(shí)驗(yàn)表明,本發(fā)明明顯提高了推薦系統(tǒng)的推薦質(zhì)量。
[0007]本發(fā)明是采取以下技術(shù)方案實(shí)現(xiàn)的:一種協(xié)同過(guò)濾處理器,包括采用改進(jìn)的K-means算法對(duì)用戶(hù)聚類(lèi)、選出與目標(biāo)用戶(hù)屬性相近的用戶(hù)組成的簇、得到目標(biāo)用戶(hù)的最近鄰居集合和產(chǎn)生推薦集四個(gè)步驟。
[0008]本發(fā)明的實(shí)現(xiàn)還包括以下的技術(shù)方案:
(I)對(duì)MovieLens數(shù)據(jù)集進(jìn)行預(yù)處理,采用改進(jìn)的K-means算法對(duì)用戶(hù)聚類(lèi)。
[0009](2)選出與目標(biāo)用戶(hù)屬性相近的用戶(hù)組成的簇,對(duì)該簇構(gòu)建原始的用戶(hù)-項(xiàng)目評(píng)分矩陣。
[0010](3)計(jì)算得到目標(biāo)用戶(hù)的最近鄰居集合。
[0011](4)根據(jù)最近鄰居集對(duì)項(xiàng)目的評(píng)分值,計(jì)算目標(biāo)用戶(hù)對(duì)待推薦項(xiàng)的評(píng)分,產(chǎn)生TopN推薦集。
[0012]其中k-mean基本算法描述目前,使用最廣泛的聚類(lèi)技術(shù)是K-means算法。其基本算法可描述為:先隨機(jī)選定k個(gè)對(duì)象為k個(gè)簇的中心,再計(jì)算剩下的對(duì)象與各中心的相似度,把這些對(duì)象分配到相應(yīng)的簇中,然后選出新的k個(gè)聚類(lèi)中心。重復(fù)以上步驟,直到k個(gè)中心穩(wěn)定不再變化為止。如公式(2.1)所示:
【權(quán)利要求】
1.一種協(xié)同過(guò)濾處理器,包括采用改進(jìn)的K-means算法對(duì)用戶(hù)聚類(lèi)、選出與目標(biāo)用戶(hù)屬性相近的用戶(hù)組成的簇、得到目標(biāo)用戶(hù)的最近鄰居集合和產(chǎn)生推薦集四個(gè)步驟。
2.根據(jù)權(quán)利要求1所述的一種協(xié)同過(guò)濾處理器,其特征在于:所述采用改進(jìn)的K-means算法對(duì)用戶(hù)聚類(lèi)步驟中選擇評(píng)分?jǐn)?shù)量最多的k個(gè)用戶(hù)為初始聚類(lèi)的中心。
3.根據(jù)權(quán)利要求1所述的一種協(xié)同過(guò)濾處理器,其特征在于:所述得到目標(biāo)用戶(hù)的最近鄰居集合步驟采用修正的余弦相似度作為實(shí)現(xiàn)方法。
4.根據(jù)權(quán)利要求1所述的一種協(xié)同過(guò)濾處理器,其特征在于:所述產(chǎn)生推薦集步驟采用K近鄰方法。
【文檔編號(hào)】G06F17/30GK103886003SQ201310433610
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】牛曉芳 申請(qǐng)人:天津思博科科技發(fā)展有限公司