一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法
【專利摘要】本發(fā)明公開了一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,首先根據(jù)商品分類建立商品分類層次樹,并根據(jù)分類層次樹對具體商品進行歸類;接下來分別為每個具體商品和具體商品層上一層的類別進行最小支持度閾值設置,閾值設置涉及時間因素、具體商品價格因素以及具體商品品牌因素的影響,在支持度閾值設定基礎上,再利用多最小支持度關聯(lián)規(guī)則擴展算法挖掘頻繁項集和產(chǎn)生規(guī)則;最后采用Top-N推薦方法為每位用戶生成推薦。本發(fā)明在為用戶做個性化推薦時,考慮了多種因素對具體商品和類別的多最小支持度閾值設定的影響,能較好的體現(xiàn)不同物品的特征,同時緩解了推薦系統(tǒng)中數(shù)據(jù)稀疏性問題和冷啟動問題,能更加準確的為用戶進行個性化推薦。
【專利說明】一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法
【技術領域】
[0001]本發(fā)明公開了一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,具體涉及一種給特定用戶推薦個性化商品的方法,屬于推薦系統(tǒng)【技術領域】。
【背景技術】
[0002]個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。隨著電子商務規(guī)模的不斷擴大,商品個數(shù)和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產(chǎn)品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應運而生。個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎上的一種高級商務智能平臺,以幫助電子商務網(wǎng)站為其顧客購物提供完全個性化的決策支持和信息服務。目前主要的個性化推薦方法主要有基于內(nèi)容的推薦,協(xié)同過濾推薦和混合推薦。孫多[I]結(jié)合興趣度和聚類技術對客戶的個人興趣進行評價,提出了基于興趣度的聚類協(xié)同過濾推薦系統(tǒng),該方法有效緩解了整個用戶矩陣數(shù)據(jù)極端稀疏并且實時性效果不理想的問題。李忠俊等人[2]提出了一種基于對基于內(nèi)容的推薦系統(tǒng)和協(xié)同過濾系統(tǒng)同構(gòu)化整合的推薦模型,該算法同時擁有協(xié)同過濾推薦系統(tǒng)和基于內(nèi)容推薦系統(tǒng)的優(yōu)點,并且在一定程度上避免了基于內(nèi)容或協(xié)同過濾的傳統(tǒng)推薦系統(tǒng)各自的缺點。陳澤等人[3]結(jié)合用戶-項目評分矩陣和項目-類別關聯(lián)矩陣,提出了一種新的混合推薦模型。該模型提出一種新的項目關聯(lián)度度量方法,并分別以項目關聯(lián)度和用戶項目評分信息為權(quán)值構(gòu)建一個基于用戶-項目的加權(quán)兩層圖模型,結(jié)合隨機游走算法給出了基于加權(quán)兩層圖的推薦算法。
[0003]關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域的一個重要分支,主要用來挖掘數(shù)據(jù)集中數(shù)據(jù)項之間有趣的關聯(lián)關系,廣泛應用于零售業(yè),通過挖掘具有較高概率被消費者同時購買的商品,為商品陳列和促銷提供決策依據(jù)。施平安等人[4]提出關聯(lián)規(guī)則的時間適用性概念,設置時間段相關的支持度閾值。毛宇星等人[5]通過對分類數(shù)據(jù)的深入研究,提出了一種高效的多層關聯(lián)規(guī)則挖掘方法。李杰等人[6]提出了適用于個性化推薦的強關聯(lián)規(guī)則的概念,并給出了一種基于矩陣的強關聯(lián)規(guī)則挖掘算法,提高了規(guī)則挖掘效率。劉枚蓮等人[7]針對用戶評分數(shù)據(jù)稀疏性問題,通過對事務數(shù)據(jù)庫項目空間關聯(lián)性分析,提出基于雙向關聯(lián)規(guī)則項目評分預測的推薦算法,推薦精度和效率明顯優(yōu)于傳統(tǒng)的推薦算法。
[0004]但是關聯(lián)規(guī)則挖掘算法的效果容易受支持度設置的影響。統(tǒng)一的最小支持度設置,或僅僅依賴項目出現(xiàn)頻率設置項目最小支持度閾值,使得關聯(lián)規(guī)則算法挖掘規(guī)則時有很多局限性。支持度閾值設置過低容易導致規(guī)則數(shù)目指數(shù)級增長,設置過高使得算法不能發(fā)現(xiàn)更多有意義的規(guī)則。本發(fā)明針對關聯(lián)規(guī)則算法的支持度設置問題,提出了根據(jù)具體商品的信息計算商品自適應支持度的方法,并結(jié)合多最小支持度關聯(lián)規(guī)則算法挖掘有意義的規(guī)則,從而為用戶進行個性化推薦。
[0005]參考文獻:
[0006][I],孫多.基于興趣度的聚類協(xié)同過濾推薦系統(tǒng)的設計.安徽大學學報:自然科學版,2007,31 (5):19-22 ;
[0007][2],李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型.計算機科學,2009,36 (12) =142-145 ;
[0008][3],陳澤,王國胤,胡峰.基于加權(quán)兩層圖的混合推薦方法.計算機科學,2012,39(12):171-176 ;
[0009][4],施平安,陳文偉,黃金才.關聯(lián)規(guī)則時間適用性及其發(fā)現(xiàn)方法.計算機應用研究,2001 (6):18-20 ;
[0010][5],毛宇星,陳彤兵,施伯樂.一種高效的多層和概化關聯(lián)規(guī)則挖掘方法.軟件學報,2011,22 (12) =2965-2980 ;
[0011][6],李杰,徐勇,王云峰,朱昭賢.面向個性化推薦的強關聯(lián)規(guī)則挖掘.系統(tǒng)工程理論與實踐,2009,29 (8) =144-152 ;
[0012][7],劉枚蓮,劉同存,張峰.基于雙向關聯(lián)規(guī)則項目評分預測的推薦算法研究.武漢理工大學學報,2011,33 (9) =150-155 ;
[0013][8], Bing Liu著,俞勇,薛貴榮,韓定一譯.Web數(shù)據(jù)挖掘.北京:清華大學出版社,2012:20-27。
【發(fā)明內(nèi)容】
[0014]本發(fā)明所要解決的技術問題是:針對傳統(tǒng)推薦算法依賴用戶評分、推薦結(jié)果對數(shù)據(jù)稀疏問題和冷啟動問題敏感問題,以及傳統(tǒng)關聯(lián)規(guī)則算法為所有商品設置單一的且僅僅依賴商品出現(xiàn)頻率的統(tǒng)一支持度`的問題,提出一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,過程中為每個商品和類別產(chǎn)生自適應的支持度閾值,挖掘出更多有意義的關聯(lián)規(guī)則,對用戶做出更加準確的推薦。
[0015]本發(fā)明為解決上述技術問題采用以下技術方案:
[0016]一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,包括以下步驟:
[0017]步驟一、根據(jù)商品分類信息建立商品分類層次樹,并將數(shù)據(jù)集中商品按照商品分類層次樹進行歸類;
[0018]步驟二、在每類商品中設置商品最小支持度閾值:
count(Xj,) ( price(X},)\I
[0019]MISxl = --^fx I I ——χ a + ----X(1-Cr)I
k t Otal(Xf) \ pmax JJrrandQCk)
[0020]其中,count (Xk)是t時段內(nèi)商品Xk的交易量,total (Xi)為是t時段內(nèi)類別Xi的交易量,且Xk e XijPrice(Xk)為商品Xk的價格,pmax為類別Xi中商品的最高價格,brand (Xk)即為商品Xk的品牌權(quán)重,α為商品價格因素對計算商品最小支持度閾值的影響權(quán)重,1-α為商品品牌對計算商品最小支持度閾值的影響權(quán)重;
[0021]步驟三、以分類層次樹中具體商品層的上一層為類別,為每個類別設置類別最小支持度閾值:
[0022]MlSxi = Σχ.^.JuJixjy X 義
[0023]其中,X ‘、Xi^均為商品的類別,XlPf為X ‘的子類別,λ為類別最小支持度閾值的影響參數(shù);[0024]步驟四、根據(jù)步驟二和步驟三中得到的商品最小支持度閾值和類別最小支持度閾值,利用多最小支持度關聯(lián)規(guī)則算法分別挖掘商品頻繁項集和類別頻繁項集,并產(chǎn)生相應的規(guī)則,具體如下:
[0025](401)將所有商品按照自身的商品最小支持度閾值MIS進行升序排序,并存儲于項目集合M中;
[0026](402)設I = U1, i2,…,im}為所有商品item的集合,事務數(shù)據(jù)集T = <T1;Τ2,...,Τη>表示網(wǎng)站所有用戶歷史商品交易記錄,其中每個事務Ti是用戶一次商品交易記錄,Ti是商品的集名I ^/,并且每個事務1\都有一個唯一的標識符TID,m、n為正整數(shù),掃描事務數(shù)據(jù)集T,計算其中每個商品的實際支持度sup (item);
[0027](403)按存儲順序從項目集合M中找出第一個滿足SupQtemi)≥MISQtemi)的項目iteiv將其加入集合L中,對于項目集合M中Uemi之后的每個項目item」,如果sup (item」)≥MIS Qtemi),則將item」加入集合L中;
[0028](404)在集合L中找到滿足sup Qtem1)≥MISQtem1)的所有商品Uem1,并將Item1加入頻繁I項集F1中,并設定頻繁項集的基數(shù)k = 2 ;
[0029](405)判斷頻繁k-Ι項集Flri是否為空,若空則跳轉(zhuǎn)到步驟(408),否則進入步驟
(406);
[0030](406)若參數(shù)k = 2,則按存儲順序遍歷集合L,對每個items e L,若items滿足sup (items)≥MIS (items),對于集合L中items之后的每個itemh,在itemh滿足SupUtemh)≥ MIS(Items)且 \sup (Ltemh) — sup (items)\ 幺 φ 時,將候選項集{items,itemj加入候選k項集Ck中,其中,φ為最大支持度差別;
[0031]若k古2,則在頻繁k-Ι項集Flri中遍歷查找所有只有最后一項元素不同的頻繁項集對f\,f2,
[0032]fl = Iitem1, item2, itemk_2, item^J ,
[0033]f2 = Utempitem2, itemk_2, item' k_J ,
[0034]SMISQtenv1) < MIS (item/ ^1)且(itemk_1) — sup (Lteml^1)]幺少,則將候選項集 c = Utem1, item2,…,itemk_2, Uenv1, item' k_J 加入候選 k 項集 Ck 中;
[0035]接著遍歷c中每個(k-Ι)大小的子集s,當c [I] e s或者MIS(c[2]) = MIS(c[l])時,如果.s € 則將候選k項集Ck中候選項集c刪除,其中,c [I]為候選項集c的第I個元素,c [2]為候選項集c的第2個元素;
[0036](407)遍歷事務數(shù)據(jù)集T,計算候選k項集Ck中每個候選項集c的支持度sup (c),若候選項集c滿足sup (c) ^ MIS (c [I]),則將候選項集c加入頻繁k項集Fk中,將參數(shù)k值加I,并跳轉(zhuǎn)到步驟(405);
[0037](408)將各級頻繁項集Fk加入頻繁項集集合F中;
[0038](409)由頻繁項集集合F產(chǎn)生關聯(lián)規(guī)則,對于k頻繁項集集合Fk e F,其中k = 2,3,...,對于每個k頻繁項集fk e Fk, fk = Utem1, item2,..., itemk},由k頻繁項集fk生成的關聯(lián)規(guī)則過程如下:
[0039]對任一 Uemi e fk,產(chǎn)生的關聯(lián)規(guī)則r形式為Ifk-Uemi — Uemi,此規(guī)則的真實置信度conf_of_r計算公式為:
[0040]conf_of_r = sup (fk) /sup (^-1temi),[0041]其中(fk-1tenii)是k頻繁項集fk中去除Uemi后剩余的所有item集合;由所有k頻繁項集集合Fk生成的關聯(lián)規(guī)則中,若關聯(lián)規(guī)則r的置信度conf_of_r ^ minconf,則將此規(guī)則r加入到規(guī)則集R中;
[0042]步驟五、利用具體商品的規(guī)則為用戶進行個性化推薦,具體如下:
[0043]根據(jù)用戶的歷史購物記錄匹配商品關聯(lián)規(guī)則,當規(guī)則的前項A中的商品都是用戶曾經(jīng)感興趣過的商品,且后項B中的商品不是用戶曾經(jīng)感興趣過的商品時,將此規(guī)則加入候選規(guī)則集合,此規(guī)則后項B對應的商品Uemf作為候選推薦商品;
[0044]對每個候選推薦商品itemf,計算分值
【權(quán)利要求】
1.一種基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,其特征在于,包括以下步驟: 步驟一、根據(jù)商品分類信息建立商品分類層次樹,并將數(shù)據(jù)集中商品按照商品分類層次樹進行歸類; 步驟二、在每類商品中設置商品最小支持度閾值:
countfX,,) ( priced)'I MlSxu = -xll--———χα+ --—^ X (1- a)]
k total(XL) y pmax Jbrand(Xk) 其中,Count(Xk)是t時段內(nèi)商品Xk的交易量,total (Xi)為是t時段內(nèi)類別Xi的交易量,且Xk e Xi, Price(Xk)為商品Xk的價格,pmax為類別Xi中商品的最高價格,brand(Xk)即為商品Xk的品牌權(quán)重,α為商品價格因素對計算商品最小支持度閾值的影響權(quán)重,1-α為商品品牌對計算商品最小支持度閾值的影響權(quán)重; 步驟三、以分類層次樹中具體商品層的上一層為類別,為每個類別設置類別最小支持度閾值:
MlSxi = v counKxi\ X I
χ Σχ;εχ.Count(XJ) 其中,X ‘、Χ、Χ』_均為商品的類別,$和)^_為X ‘的子類別,λ為類別最小支持度閾值的影響參數(shù); 步驟四、根據(jù)步驟二和步驟三中得到的商品最小支持度閾值和類別最小支持度閾值,利用多最小支持度關聯(lián)規(guī)則算法分別挖掘商品頻繁項集和類別頻繁項集,并產(chǎn)生相應的規(guī)貝U,具體如下: (401)將所有商品按照自身的商品最小支持度閾值MIS進行升序排序,并存儲于項目集合M中; (402)設I= U1, i2,..., im}為所有商品item的集合,事務數(shù)據(jù)集T = <T1; T2,,Τη>表示網(wǎng)站所有用戶歷史商品交易記錄,其中每個事務Ti是用戶一次商品交易記錄,Ti是商品的集合,? c /,并且每個事務Ti都有一個唯一的標識符TID,m、η為正整數(shù),掃描事務數(shù)據(jù)集Τ,計算其中每個商品的實際支持度sup (item); (403)按存儲順序從項目集合M中找出第一個滿足SupQtemi)≥MISQtemi)的項目iteiv將其加入集合L中,對于項目集合M中Uemi之后的每個項目item」,如果sup (item」)≥MIS Qtemi),則將item」加入集合L中; (404)在集合L中找到滿足supQtem1)≥MISQtem1)的所有商品Uem1,并將Uem1加入頻繁I項集F1中,并設定頻繁項集的基數(shù)k = 2 ; (405)判斷頻繁k-Ι項集Flri是否為空,若空則跳轉(zhuǎn)到步驟(408),否則進入步驟(406); (406)若參數(shù)k= 2,則按存儲順序遍歷集合L,對每個items e L,若items滿足sup (items)≥MIS (items),對于集合L中items之后的每個itemh,在itemh滿足sup (itemh)≥ MIS (items)且 (Ltemh) — sup (items-)| 仝 φ 時,將候選項集{items,itemj加入候選k項集Ck中,其中,爐為最大支持度差別; 若k古2,則在頻繁k-Ι項集Flri中遍歷查找所有只有最后一項元素不同的頻繁項集對fl,f2,
fj = Utem1, item2, itemk_2, item^J ,
2.根據(jù)權(quán)利要求1所述的基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,其特征在于:若所述步驟五中用戶得到的商品推薦數(shù)目不足N個,則利用類別關聯(lián)規(guī)則進行補充推薦。
3.根據(jù)權(quán)利要求1所述的基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,其特征在于:所述步驟二中,對每類商品根據(jù)時間段t、商品價格、商品品牌,設置具體商品的最小支持度閾值。
4.根據(jù)權(quán)利要求1所述的基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,其特征在于:所述步驟四中,利用多最小支持度關聯(lián)規(guī)則算法挖掘商品分類層次樹中最底層商品層和該商品層上一層類別層的頻繁項集,不涉及商品分類層次樹中其他層次的頻繁項集。
5.根據(jù)權(quán)利要求2所述的基于自適應多最小支持度的關聯(lián)規(guī)則推薦方法,其特征在于:利用類別關聯(lián)規(guī)則進行補充推薦時,首先根據(jù)用戶興趣匹配類別關聯(lián)規(guī)則,根據(jù)匹配到的用戶感興趣的類別,將此類別 中最受其他用戶歡迎的商品推薦給該用戶。
【文檔編號】G06Q30/02GK103700005SQ201310688735
【公開日】2014年4月2日 申請日期:2013年12月17日 優(yōu)先權(quán)日:2013年12月17日
【發(fā)明者】馬廷淮, 周金娟, 朱節(jié)中, 曹杰 申請人:南京信息工程大學