一種增強相似度關(guān)聯(lián)的相似性度量方法以及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種增強相似度關(guān)聯(lián)的相似性度量方法以及系統(tǒng)。所述增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于,計算比較對象之間的相似度矩陣;以及針對所述得到的比較對象之間的相似度矩陣與所述相似度矩陣的轉(zhuǎn)置矩陣,利用上述計算所述相似度矩陣的方法進行計算,以得到增強相似度關(guān)聯(lián)的比較對象之間的增強相似度矩陣。
【專利說明】一種增強相似度關(guān)聯(lián)的相似性度量方法以及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域,特別涉及信息處理領(lǐng)域中的增強相似性關(guān)聯(lián)的相似性度量的方法以及系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)前,在眾多領(lǐng)域均涉及相似性度量,并基于各種已有的相似性度量方法進行相似性分析。例如在互聯(lián)網(wǎng)行業(yè)等領(lǐng)域所涉及的相似性分析。
[0003]例如在個性化推薦領(lǐng)域等,服務(wù)器收集存儲了用戶及其操作對象的大量數(shù)據(jù),經(jīng)常需要根據(jù)用戶已進行的操作向用戶推薦用戶可能感興趣的相關(guān)操作對象,在推薦的過程中通常需要計算出要推薦的操作對象與用戶進行操作的操作對象的相似度,以將相似度高的操作對象推薦給用戶。
[0004]在已知物體和物體之間相似度的情況下,對于某個物體,往往需要增強物體之間的關(guān)聯(lián),得到更多和該物體關(guān)聯(lián)的物體,這對用戶來說選擇范圍變大,被用戶接受推薦的可能性也變大。然而,當(dāng)前主要是依靠變更相似度計算方法來增強相似性關(guān)聯(lián)。這種利用多種相似度計算方法來增強相似性關(guān)聯(lián)的方法存在著準確度低、計算復(fù)雜的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明就是鑒于現(xiàn)有技術(shù)中相似度度量的方法存在的問題而做出的,本發(fā)明其目的在于提供一種新的增強相似性關(guān)聯(lián)的相似性度量方法和系統(tǒng)。
[0006]一種增強相似度關(guān)聯(lián)的相似性度量方法,包括以下步驟:獲取比較對象之間的相似度矩陣;以及計算所述得到的比較對象之間的相似度矩陣與其自身轉(zhuǎn)置矩陣的乘積,以得到增強相似度關(guān)聯(lián)的比較對象之間的增強相似度矩陣。
[0007]—種增強相似性關(guān)聯(lián)的相似性度量系統(tǒng),包括:相似性矩陣獲取單元,所述相似性矩陣獲取單元獲取比較對象之間的相似度矩陣;以及相似度增強運算單元,所述相似度增強運算單元針對所述得到的比較對象之間的相似度矩陣所述相似度矩陣的轉(zhuǎn)置矩陣,利用上述計算所述相似度矩陣的方法進行計算,以得到增強相似度關(guān)聯(lián)的比較對象之間的增強相似度矩陣。
[0008]根據(jù)上述的增強相似性關(guān)聯(lián)的相似性度量方法和系統(tǒng),能夠通過增強相似性關(guān)聯(lián)來擴大比較對象之間的關(guān)聯(lián)范圍,并通過方差收回來保持不變的誤差。
【專利附圖】
【附圖說明】
[0009]圖1示出實施例1的相似性度量方法的流程圖;
[0010]圖2示出實施例2的相似性度量方法的流程圖;
[0011]圖3是示出相似性度量系統(tǒng)的框圖;
[0012]圖4示出實施例1的增強相似性關(guān)聯(lián)的方法的流程圖;
[0013]圖5示出實施例2的增強相似性關(guān)聯(lián)的方法的流程圖;
[0014]圖6示出增強相似性關(guān)聯(lián)的相似性度量系統(tǒng)的框圖;
[0015]圖7示出又一相似性度量方法的流程圖;
[0016]圖8示出又一相似性度量系統(tǒng)的框圖。
【具體實施方式】
[0017]關(guān)于屬性向量值服從均勻分布下的相似度計算
[0018]在個性化推薦的過程中,對于已知用戶、物品、以及用戶對物品的操作歷史的情況,如何能夠在未知用戶和物品的屬性向量的情況下計算出用戶和用戶、或者物品和物品之間的相似度。
[0019]下面,本發(fā)明給出一種新的相似性定義,首先針對屬性向量值服從在負無窮大到正無窮大上的均勻分布的情況進行介紹。
[0020]物體可以用η維屬性向量描述,物體a的屬性向量為[a[l],a[2],a[3],……,
a[n]],物體b的屬性向量為[b[l],b[2],b[3],......, b [η] ], sim(a, b)表示物體a和物體
b的在給定權(quán)重為k和方差向量為[δ2[1],δ2[2],δ2[3],……,δ2[η]]情況下的相似度值。
【權(quán)利要求】
1.一種增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于,包括以下步驟: 計算比較對象之間的相似度矩陣;以及 針對得到的所述比較對象之間的相似度矩陣與所述相似度矩陣的轉(zhuǎn)置矩陣,利用上述計算所述相似度矩陣的方法進行計算,以得到增強相似度關(guān)聯(lián)的比較對象之間的增強相似度矩陣。
2.根據(jù)權(quán)利要求1所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于,通過以下步驟計算所 述比較對象之間的相似度矩陣: 收集用戶訪問物品的行為,并獲取用戶、物品、以及用戶對物品的操作行為的數(shù)據(jù); 對獲取的數(shù)據(jù)進行分析以建立用戶與物品之間交互關(guān)系矩陣; 根據(jù)所述用戶與物品之間交互關(guān)系矩陣,針對每個用戶,計算出物品被所述每個用戶操作的次數(shù)相對于所述物品被所有用戶操作的次數(shù)的概率,生成與所述用戶與物品之間交互關(guān)系矩陣對應(yīng)的物品相對于用戶的概率矩陣; 根據(jù)所述用戶與物品之間交互關(guān)系矩陣,針對每個物品,計算出用戶操作所述每個物品的次數(shù)相對于所述用戶操作所有物品的次數(shù)的概率,生成與所述用戶與物品之間交互關(guān)系矩陣對應(yīng)的用戶相對于物品的概率矩陣; 計算所述用戶相對于物品的概率矩陣與所述物品相對于用戶的概率矩陣的乘積,得到作為所述比較對象的物品與物品之間的相似度矩陣。
3.根據(jù)權(quán)利要求1或2所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 計算增強相似度矩陣中各元素的平方與該元素所在的行的各元素的平方和的比作為新的元素,從而得到進行方差收回計算后的所述比較對象之間的方差收回相似矩陣。
4.根據(jù)權(quán)利要求2所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于: 所述物品相對于用戶的概率的概率密度是服從相同或者相近方差的正態(tài)分布密度,所述用戶相對于物品的概率的概率密度是服從相同或者相近方差的正態(tài)分布密度。
5.根據(jù)權(quán)利要求2所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 在生成所述物品相對于用戶的概率矩陣時,以用戶為行,依次將各物品被該用戶的操作次數(shù)除以該用戶進行過的操作總次數(shù)來得到概率矩陣,如果所述用戶沒有操作任何物品,則所述物品相對于用戶的概率矩陣的該行取滿足元素值都相同且和為I的值, 在生成所述用戶相對于物品的概率矩陣時,首先生成所述用戶與物品之間交互關(guān)系矩陣的轉(zhuǎn)置矩陣作為物品與用戶之間交互關(guān)系矩陣,然后以物品為行,依次將各用戶操作該物品的操作次數(shù)除以該物品被進行過的操作總次數(shù)來得到概率矩陣,如果該行對應(yīng)的物品沒有被操作過,則所述用戶相對于物品的概率矩陣的該行取滿足元素值都相同且和為I的值。
6.根據(jù)權(quán)利要求2所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 計算所述物品相對于用戶的概率矩陣與所述用戶相對于物品的概率矩陣的乘積,得到作為所述比較對象的用戶與用戶之間的相似度矩陣。
7.根據(jù)權(quán)利要求1所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于,數(shù)據(jù)獲取步驟,獲取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a對集合b中的元素item_b無差別的相似性操作次數(shù)sim(item_a, item_b);相似度計算步驟,執(zhí)行基于下式的作為所述比較對象的集合b內(nèi)部元素UemJ3i與元素 item—bj 的相似性值 sim’(Item—t^,Item—b)的計算,
其中,i, j, m, η表示集合b中元素的標號,k是歸一化因子。
8.根據(jù)權(quán)利要求7所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 將相似性操作發(fā)生時間設(shè)為t (item_a, item_b),并設(shè)
在考慮與時間有關(guān)的時間濾波函數(shù)f(t(item_am, UemjDi), t(item_am, item_bj))的情況下,集合b內(nèi)部的元素UemJ3i與元素的相似性值為
9.根據(jù)權(quán)利要求8所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 所述時間濾波函數(shù)f (t(item_am, UemjDi), t(item_am, item_bj))是低通濾波函數(shù),在時間上越接近,函數(shù)值越大。
10.根據(jù)權(quán)要求9所述的增強相似度關(guān)聯(lián)的相似性度量方法,其特征在于, 所述時間濾波函數(shù)為:
其中,β是小于I大于O的低通濾波系數(shù)。
11.一種增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于,包括: 相似性矩陣獲取單元,所述相似性矩陣獲取單元獲取比較對象之間的相似度矩陣;以及 相似度增強運算單元,所述相似度增強運算單元針對所述得到的比較對象之間的相似度矩陣所述相似度矩陣的轉(zhuǎn)置矩陣,利用上述計算所述相似度矩陣的方法進行計算,以得到增強相似度關(guān)聯(lián)的比較對象之間的增強相似度矩陣。
12.根據(jù)權(quán)利要求11所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 所述相似性矩陣獲取單元包括: 數(shù)據(jù)收集單元,所述數(shù)據(jù)收集單元收集用戶訪問物品的行為并獲取用戶、物品、以及用戶對物品的操作行為的數(shù)據(jù); 數(shù)學(xué)模型建立單元,所述數(shù)學(xué)模型建立單元對獲取的數(shù)據(jù)進行分析,建立用戶與物品之間交互關(guān)系矩陣; 概率矩陣生成單元,根據(jù)所述用戶與物品之間交互關(guān)系矩陣,針對每個用戶,計算出物品被所述每個用戶操作的次數(shù)相對于所述物品被所有用戶操作的次數(shù)的概率,生成與所述用戶與物品之間交互關(guān)系矩陣對應(yīng)的物品相對于用戶的概率矩陣;并根據(jù)所述用戶與物品之間交互關(guān)系矩陣,針對每個物品,計算出用戶操作所述每個物品的次數(shù)相對于所述用戶操作所有物品的次數(shù)的概率,生成與所述用戶與物品之間交互關(guān)系矩陣對應(yīng)的用戶相對于物品的概率矩陣; 相似度計算單元,所述相似度計算單元計算所述用戶相對于物品的概率矩陣與所述物品相對于用戶的概率矩陣的乘積,得到作為所述比較對象的物品與物品之間的相似度矩陣。
13.根據(jù)權(quán)利要求11或12所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于,包括: 方差收回計算單元,所述方差收回計算單元計算所述增強相似度矩陣中各元素的平方與該元素所在的行的各元素的平方和的比作為新的元素,從而得到進行方差收回計算后的所述比較對象之間的方差收回相似矩陣。
14.根據(jù)權(quán)利要求12所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 所述物品相對于用戶的概率的概率密度是服從相同或者相近方差的正態(tài)分布密度,所述用戶相對于物品的概率的概率密度是服從相同或者相近方差的正態(tài)分布密度。
15.根據(jù)權(quán)利要求12所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 在概率矩陣生成單元生成物品相對于用戶的概率矩陣時,以用戶為行,依次將各物品被該用戶的操作次數(shù)除以該用戶進行過的操作總次數(shù)來得到概率矩陣,如果所述用戶沒有操作任何物品,則所述物品相對于用戶的概率矩陣的該行取滿足元素值都相同且和為I的值, 在概率矩陣生成單元生成用戶相對于物品的概率矩陣時,首先生成所述用戶與物品之間交互關(guān)系矩陣的轉(zhuǎn)置矩陣作為物品與用戶之間交互關(guān)系矩陣,然后以物品為行,依次將各用戶操作該物品的操作次數(shù)除以該物品被進行過的操作總次數(shù)來得到概率矩陣,如果該行對應(yīng)的物品沒有被操作過,則所述用戶相對于物品的概率矩陣的該行取滿足元素值都相同且和為I的值。
16.根據(jù)權(quán)利要求11所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 所述相似度計算單元計算計算所述物品相對于用戶的概率矩陣與所述用戶相對于物品的概率矩陣的乘積,得到作為所述比較對象的用戶與用戶之間的相似度矩陣。
17.根據(jù)權(quán)利要求11所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于,包括: 數(shù)據(jù)獲取單元,其獲取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a對集合b中的元素item_b無差別的相似性操作次數(shù)sim(item_a, item_b); 相似度計算單元,其執(zhí)行基于下式的作為所述比較對象的集合b內(nèi)部元素UemJ3i與元素item_bj的相似性值sim’(ItemjDi, Item_bj)的計算,
其中,i, j, m, η表示集合中元素的標號,k是歸一化因子。
18.根據(jù)權(quán)利要求17所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于,將相似性操作發(fā)生時間設(shè)為t (item_a, item_b),并設(shè)
在考慮與時間有關(guān)的時間濾波函數(shù)f(t(item_am, UemjDi), t(item_am, item_bj))的情況下,集合b內(nèi)部的元素UemJ3i與元素的相似性值為
19.根據(jù)權(quán)利要求18所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 所述時間濾波函數(shù)f (t(item_am, UemjDi), t(item_am, item_bj))是低通濾波函數(shù),在時間上越接近,函數(shù)值越大。
20.根據(jù)權(quán)利要求19所述的增強相似度關(guān)聯(lián)的相似性度量系統(tǒng),其特征在于, 所述時間濾波函數(shù)為:
其中,β是小于I大于O的低通濾波系數(shù)。
【文檔編號】G06Q30/02GK104077365SQ201410260834
【公開日】2014年10月1日 申請日期:2014年6月12日 優(yōu)先權(quán)日:2014年6月12日
【發(fā)明者】朱寶 申請人:百度移信網(wǎng)絡(luò)技術(shù)(北京)有限公司