一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,其特征在于,包括以下步驟:1)通過(guò)用戶的網(wǎng)絡(luò)數(shù)據(jù)獲取用戶的物品需求信息,建立用戶需求特征庫(kù);2)根據(jù)物品網(wǎng)絡(luò)數(shù)據(jù)建立物品信息特征庫(kù);3)采用文本和語(yǔ)義相似度算法將用戶需求特征和物品信息特征進(jìn)行匹配,計(jì)算物品信息與用戶需求之間的相似度并排序、過(guò)濾,最后產(chǎn)生推薦結(jié)果;4)將生成的推薦結(jié)果反饋回用戶需求特征庫(kù)和物品信息特征庫(kù)并且訓(xùn)練更新。與現(xiàn)有技術(shù)相比,本發(fā)明具有信息全面、適應(yīng)性廣等優(yōu)點(diǎn)。
【專利說(shuō)明】一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其是涉及一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方 法
【背景技術(shù)】
[0002] 隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí) 代,海量信息同時(shí)呈現(xiàn),無(wú)論是對(duì)于信息消費(fèi)者還是信息生產(chǎn)者而言都是很大的挑戰(zhàn):對(duì)于 信息消費(fèi)者,一方面用戶很難從中發(fā)現(xiàn)自己感興趣的部分,另一方面也使得大量少人問(wèn)津 的信息成為網(wǎng)絡(luò)中的"暗信息",無(wú)法被一般用戶獲?。憾鴮?duì)于信息生產(chǎn)者,如何讓自己生產(chǎn) 的信息脫穎而出,受到廣大用戶的關(guān)注,也是一件非常困難的事情,傳統(tǒng)的搜索算法只能呈 現(xiàn)給用戶一樣的排序結(jié)果,無(wú)法針對(duì)不同用戶的不同的興趣愛(ài)好提供相應(yīng)的服務(wù),個(gè)性化 推薦系統(tǒng)應(yīng)運(yùn)而生,能夠有效解決信息過(guò)載的問(wèn)題,個(gè)性化推薦系統(tǒng)通過(guò)建立用戶與信息 之間的二元關(guān)系,一方面幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的信息,另一方面讓信息能夠展現(xiàn)在 對(duì)它感興趣的用戶面前,從而實(shí)現(xiàn)信息消費(fèi)者和信息生產(chǎn)者的雙贏。
[0003] 個(gè)性化推薦系統(tǒng)的本質(zhì)是通過(guò)一定方式將用戶和物品聯(lián)系起來(lái),聯(lián)系用戶和物品 的常用方式主要分為以下三類:
[0004] (1)社會(huì)化推薦,即利用好友給自己推薦物品;
[0005] (2)基于內(nèi)容的推薦,即通過(guò)分析用戶的歷史興趣記錄,向用戶推薦與其歷史記錄 相似度較高的物品;
[0006] (3)基于協(xié)同過(guò)濾的推薦,即分析與目標(biāo)用戶的歷史興趣相似度較高的鄰居用戶, 將鄰居用戶感興趣的物品推薦給目標(biāo)用戶。
[0007] 在互聯(lián)網(wǎng)的各類網(wǎng)站中都可以看到推薦系統(tǒng)的應(yīng)用,而個(gè)性化推薦系統(tǒng)的主要作 用是通過(guò)分析大量用戶行為日志,給不同的用戶提供不同的個(gè)性化頁(yè)面展示,來(lái)提高網(wǎng)站 的點(diǎn)擊率和物品成交轉(zhuǎn)化率,廣泛利用個(gè)性化推薦系統(tǒng)的領(lǐng)域包括電子商務(wù)、電影和視頻、 音樂(lè)、社交網(wǎng)絡(luò)、個(gè)性化郵件和廣告等。著名的電子商務(wù)網(wǎng)站亞馬遜就是個(gè)性化推薦系統(tǒng)的 積極應(yīng)用者和推廣者,亞馬遜的個(gè)性化推薦服務(wù)深入到了其各類產(chǎn)品中,其中最主要的應(yīng) 用有個(gè)性化商品推薦列表和相關(guān)商品的推薦列表。
[0008] 然而,基于內(nèi)容的推薦算法和協(xié)同過(guò)濾推薦算法都各自存在不足之處,基于內(nèi)容 的推薦算法需要提取物品的特性,自動(dòng)化的特征提取方法廣泛應(yīng)用于文本數(shù)據(jù),但是較難 應(yīng)用于多媒體數(shù)據(jù):并且為用戶推薦的物品僅限于與該用戶的歷史記錄相似的物品,結(jié)果 多樣性較差。對(duì)于沒(méi)有歷史記錄的新用戶難以通過(guò)基于內(nèi)容的推薦算法進(jìn)行推薦,存在新 用戶的冷啟動(dòng)問(wèn)題,協(xié)同過(guò)濾推薦算法由于考慮用戶之間的相似度,因此可以克服自動(dòng)化 程度低、推薦結(jié)果不豐富等弊端,但是,協(xié)同過(guò)濾推薦算法是基于大量歷史數(shù)據(jù)集的,因而 存在稀疏問(wèn)題和冷啟動(dòng)問(wèn)題,對(duì)于沒(méi)有歷史記錄的新用戶和沒(méi)有被用戶有過(guò)正反饋的新物 品都難以通過(guò)協(xié)同過(guò)濾推薦算法進(jìn)行推薦,另外,如何動(dòng)態(tài)地從用戶社交網(wǎng)絡(luò)數(shù)據(jù)中提取 用戶的需求和偏好信息,將推薦算法結(jié)合用戶社交網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生推薦結(jié)果,為用戶解決信 息過(guò)載的問(wèn)題,目前暫時(shí)還沒(méi)有相關(guān)的較為成熟的應(yīng)用。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于用戶網(wǎng)絡(luò) 數(shù)據(jù)的物品信息推薦方法
[0010] 本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
[0011] 一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,包括以下步驟:
[0012] 1)通過(guò)用戶的網(wǎng)絡(luò)數(shù)據(jù)獲取用戶的物品需求信息,建立用戶需求特征庫(kù);
[0013] 2)根據(jù)物品網(wǎng)絡(luò)數(shù)據(jù)建立物品信息特征庫(kù);
[0014] 3)采用文本和語(yǔ)義相似度算法將用戶需求特征和物品信息特征進(jìn)行匹配,計(jì)算物 品信息與用戶需求之間的相似度并排序、過(guò)濾,最后產(chǎn)生推薦結(jié)果;
[0015] 4)將生成的推薦結(jié)果反饋回用戶需求特征庫(kù)和物品信息特征庫(kù)并且訓(xùn)練更新。
[0016] 所述的步驟1)包括以下步驟:
[0017] 11)通過(guò)網(wǎng)絡(luò)軟件或網(wǎng)絡(luò)信息手段獲取用戶公開(kāi)的網(wǎng)絡(luò)信息;
[0018] 12)從公開(kāi)的信息中進(jìn)行預(yù)處理后,采用TF-IDF方法提取用戶信息關(guān)鍵詞,所述 的TF-IDF提取關(guān)鍵詞的方法為計(jì)算TF-IDF關(guān)鍵詞權(quán)值 Wi,」,Wi,」的計(jì)算式為:
[0019] j = TF^ j^IDFj
【權(quán)利要求】
1. 一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,其特征在于,包括以下步驟: 1) 通過(guò)用戶的網(wǎng)絡(luò)數(shù)據(jù)獲取用戶的物品需求信息,建立用戶需求特征庫(kù): 2) 根據(jù)物品網(wǎng)絡(luò)數(shù)據(jù)建立物品信息特征庫(kù); 3) 采用文本和語(yǔ)義相似度算法將用戶需求特征和物品信息特征進(jìn)行匹配,計(jì)算物品信 息與用戶需求之間的相似度并排序、過(guò)濾,最后產(chǎn)生推薦結(jié)果: 4) 將生成的推薦結(jié)果反饋回用戶需求特征庫(kù)和物品信息特征庫(kù)并且訓(xùn)練更新。
2. 根據(jù)權(quán)利要求1所述的一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,其特征在于, 所述的步驟1)包括以下步驟: 11) 通過(guò)網(wǎng)絡(luò)軟件或網(wǎng)絡(luò)信息手段獲取用戶公開(kāi)的網(wǎng)絡(luò)信息; 12) 從公開(kāi)的信息中進(jìn)行預(yù)處理后,采用TF-IDF方法提取用戶信息關(guān)鍵詞,所述的 TF-IDF提取關(guān)鍵詞的方法為計(jì)算TF-IDF關(guān)鍵詞權(quán)值Wi,」,Wi,」的計(jì)算式為: wi,j = TFi,j*IDFi
其中,nq表示詞i在文檔j中出現(xiàn)的次數(shù),分母Σ1%./則是文檔j中所有詞出現(xiàn)的次 J k 數(shù)之和,IdI是文檔總數(shù),分母I {chh e d} I是包含詞條&的文檔數(shù)目。 13) 將用戶信息關(guān)鍵詞作為用戶的需求特征列表參數(shù),建立用戶需求特征庫(kù)。
3. 根據(jù)權(quán)利要求1所述的一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,其特征在于, 所述的步驟2)包括以下步驟: 21) 通過(guò)網(wǎng)絡(luò)軟件或網(wǎng)絡(luò)信息手段獲取物品的網(wǎng)絡(luò)信息并提取關(guān)鍵詞; 22) 通過(guò)物品信息關(guān)鍵詞建立物品信息特征庫(kù)。
4. 根據(jù)權(quán)利要求1所述的一種基于用戶網(wǎng)絡(luò)數(shù)據(jù)的物品信息推薦方法,其特征在于, 所述的步驟3)包括以下步驟: 31) 根據(jù)用戶需求特征庫(kù)和物品信息特征庫(kù)列出關(guān)鍵詞詞頻向量,通過(guò)文本相似度算 法得到關(guān)鍵詞詞頻向量的相似度cos Θ,cos Θ的計(jì)算式為:
其中,A為用戶需求特征庫(kù)關(guān)鍵詞詞頻向量,B為物品信息特征庫(kù)關(guān)鍵詞詞頻向量。 32) 基于同義詞詞林結(jié)構(gòu),采用語(yǔ)義相似度算法計(jì)算用戶需求特征庫(kù)和物品信息特征 庫(kù)關(guān)鍵詞的語(yǔ)義相似度Sim (C,D),Sim (C,D)的計(jì)算式為: 當(dāng)C和D兩個(gè)義項(xiàng)不在同一棵樹(shù)上時(shí), Sim(C, D) = f = 0. 1 當(dāng)C和D兩個(gè)義項(xiàng)在同一棵樹(shù)上,并且在第二層分支上時(shí),
當(dāng)C和D兩個(gè)義項(xiàng)在第三層分支上時(shí),
當(dāng)C和D兩個(gè)義項(xiàng)在第四層分支上時(shí),
當(dāng)C和D兩個(gè)義項(xiàng)在第五層分支上時(shí),
其中,η是分支層的節(jié)點(diǎn)總數(shù),k是兩個(gè)分支間的距離; 33)根據(jù)文本相似度和語(yǔ)義相似度分別判斷物品和用戶特征之間是否匹配,對(duì)結(jié)果進(jìn) 行計(jì)算排序,并向用戶推送結(jié)果。
【文檔編號(hào)】G06F17/30GK104156450SQ201410403849
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年8月15日 優(yōu)先權(quán)日:2014年8月15日
【發(fā)明者】黃震華, 張佳雯, 方強(qiáng), 向陽(yáng) 申請(qǐng)人:同濟(jì)大學(xué)