基于item-based的歌曲推薦優(yōu)化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了基于item-based的歌曲推薦優(yōu)化方法及系統(tǒng),該系統(tǒng)包括第一檢測(cè)模塊、第二檢測(cè)模塊、第三檢測(cè)模塊以及計(jì)算模塊。該方法包括:檢測(cè)出第一歌曲的出現(xiàn)次數(shù);檢測(cè)出第二歌曲的出現(xiàn)次數(shù);檢測(cè)出第一歌曲和第二歌曲的共同出現(xiàn)次數(shù);根據(jù)第一歌曲的出現(xiàn)次數(shù)、第二歌曲的出現(xiàn)次數(shù)以及第一歌曲和第二歌曲的共同出現(xiàn)次數(shù),從而計(jì)算第一歌曲與第二歌曲之間的余弦距離。通過使用本發(fā)明,能大大地減少計(jì)算余弦距離時(shí)所占用的內(nèi)存空間,以及可快速地實(shí)現(xiàn)歌曲推薦。本發(fā)明可廣泛應(yīng)用于歌曲推薦的數(shù)據(jù)處理領(lǐng)域中。
【專利說明】基于item-based的歌曲推薦優(yōu)化方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及用于歌曲推薦的數(shù)據(jù)處理方法,尤其設(shè)及一種基于item-based的歌 曲推薦優(yōu)化數(shù)據(jù)處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 技術(shù)詞解釋;
[000引基于物品的最近鄰?fù)扑](item-based) 物品為中心尋找相似物品推薦給用戶 的方法。
[0004] 余弦距離;也稱為余弦相似度,是用向量空間中兩個(gè)向量夾角的余弦值作為衡量 兩個(gè)個(gè)體間差異的大小的度量。
[0005] 多值評(píng)分;用戶對(duì)物品的評(píng)分分值有多種情況,例如評(píng)分分值可W在1至5之間。
[0006] 二元評(píng)分;用戶對(duì)物品的評(píng)分分值只有兩種情況,常見的情況是評(píng)分為0或1。
[0007] 用戶收藏行為數(shù)據(jù);用戶收藏歌曲的信息數(shù)據(jù),即記錄每個(gè)用戶收藏了哪些歌曲。 [000引用戶收藏列表:用戶收藏歌曲的列表信息,從用戶收藏行為數(shù)據(jù)得出,例如:用戶 a收藏了歌曲A、歌曲B,則用戶a的用戶收藏列表中含有歌曲A和歌曲B。
[0009] MapRe化ce ;-種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。
[0010] 目前,對(duì)于用于歌曲推薦該一領(lǐng)域的數(shù)據(jù)處理方法,其通常是采用基于物品的最 近鄰?fù)扑](item-based)該一方法來實(shí)現(xiàn)的。在基于物品的最近鄰?fù)扑]中,利用用戶來描述 物品,即表示為一個(gè)物品由一個(gè)用戶評(píng)分向量列表來描述,然后再W用戶評(píng)分向量列表來 計(jì)算物品間的相似程度。而通過計(jì)算出的物品間的相似程度,進(jìn)而實(shí)現(xiàn)歌曲的推薦。
[0011] 而對(duì)于傳統(tǒng)的基于物品的最近鄰?fù)扑]該一方法,其計(jì)算物品間的相似程度的常用 度量方式為余弦距離。在計(jì)算物品A和物品B之間的余弦距離時(shí),即在計(jì)算物品A和物品 B之間的相似程度時(shí),其計(jì)算公式(1)如下所示:
[0012]
【權(quán)利要求】
1. 基于item-based的歌曲推薦優(yōu)化方法,其特征在于:其包括: A、 對(duì)多個(gè)用戶收藏列表進(jìn)行第一歌曲的檢測(cè),從而檢測(cè)出第一歌曲的出現(xiàn)次數(shù); B、 對(duì)多個(gè)用戶收藏列表進(jìn)行第二歌曲的檢測(cè),從而檢測(cè)出第二歌曲的出現(xiàn)次數(shù); C、 對(duì)多個(gè)用戶收藏列表進(jìn)行第一歌曲和第二歌曲的檢測(cè),從而檢測(cè)出第一歌曲和第二 歌曲的共同出現(xiàn)次數(shù); D、 根據(jù)第一歌曲的出現(xiàn)次數(shù)、第二歌曲的出現(xiàn)次數(shù)以及第一歌曲和第二歌曲的共同出 現(xiàn)次數(shù),從而計(jì)算第一歌曲與第二歌曲之間的余弦距離。
2. 根據(jù)權(quán)利要求1所述基于item-based的歌曲推薦優(yōu)化方法,其特征在于:所述步驟 D中所述的計(jì)算第一歌曲與第二歌曲之間的余弦距離,其所采用的計(jì)算公式為:
其中,A表示為第一歌曲,B表示為第二歌曲,sim(A,B)表示為第一歌曲與第二歌曲之 間的余弦距離,乂表示為第一歌曲的出現(xiàn)次數(shù),&表示為第二歌曲的出現(xiàn)次數(shù),Nab表示為 第一歌曲和第二歌曲的共同出現(xiàn)次數(shù)。
3. 根據(jù)權(quán)利要求1所述基于item-based的歌曲推薦優(yōu)化方法,其特征在于:所述步驟 A至步驟D均利用MapReduce軟件來實(shí)現(xiàn)。
4. 基于item-based的歌曲推薦優(yōu)化系統(tǒng),其特征在于:其包括: 第一檢測(cè)模塊,用于對(duì)多個(gè)用戶收藏列表進(jìn)行第一歌曲的檢測(cè),從而檢測(cè)出第一歌曲 的出現(xiàn)次數(shù); 第二檢測(cè)模塊,用于對(duì)多個(gè)用戶收藏列表進(jìn)行第二歌曲的檢測(cè),從而檢測(cè)出第二歌曲 的出現(xiàn)次數(shù); 第三檢測(cè)模塊,用于對(duì)多個(gè)用戶收藏列表進(jìn)行第一歌曲和第二歌曲的檢測(cè),從而檢測(cè) 出第一歌曲和第二歌曲的共同出現(xiàn)次數(shù); 計(jì)算模塊,用于根據(jù)第一歌曲的出現(xiàn)次數(shù)、第二歌曲的出現(xiàn)次數(shù)以及第一歌曲和第二 歌曲的共同出現(xiàn)次數(shù),從而計(jì)算第一歌曲與第二歌曲之間的余弦距離。
5. 根據(jù)權(quán)利要求4所述基于item-based的歌曲推薦優(yōu)化系統(tǒng),其特征在于:所述的計(jì) 算第一歌曲與第二歌曲之間的余弦距離,其所采用的計(jì)算公式為:
其中,A表示為第一歌曲,B表示為第二歌曲,sim(A,B)表示為第一歌曲與第二歌曲之 間的余弦距離,乂表示為第一歌曲的出現(xiàn)次數(shù),&表示為第二歌曲的出現(xiàn)次數(shù),Nab表示為 第一歌曲和第二歌曲的共同出現(xiàn)次數(shù)。
【文檔編號(hào)】G06F17/30GK104504009SQ201410757787
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】趙淦森, 何建濤, 王欣明, 周尚勤 申請(qǐng)人:華南師范大學(xué)