一種基于關(guān)系傳播網(wǎng)絡(luò)的多維數(shù)據(jù)空間相似度匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種相似度匹配方法,尤其是設(shè)及一種基于關(guān)系傳播網(wǎng)絡(luò)的多維數(shù)據(jù) 空間相似度匹配方法。
【背景技術(shù)】
[0002] 數(shù)據(jù)對象之間相似度的計算是許多科學(xué)和應(yīng)用領(lǐng)域的基本要求,如人臉識別的基 本方法就是通過計算兩張人臉之間的相似程度來判別兩張人臉是不是同一張人臉或者一 張臉和另一張臉"比較像",生物識別中也需要計算相似度作為研究基礎(chǔ),如判斷給定的植 物葉子屬于哪種植物,即是通過計算給定的植物葉子與植物信息庫中的各種葉子相似度, 如果給定的植物葉子與植物信息庫中的植物P的葉子通過某種方法計算的相似度最大,貝U 可W認(rèn)定:此指定的葉子屬于植物P。
[0003] 傳統(tǒng)上,相似度的計算都是在相同類型數(shù)據(jù)對象之間進(jìn)行,如上述人臉識別中是 計算兩張人臉之間的相似性,人臉屬于同一類型的數(shù)據(jù)對象,生物識別中是計算植物類型 之間的相似性。因此,傳統(tǒng)的相似度應(yīng)用領(lǐng)域決定了傳統(tǒng)的相似度計算算法也多是在同一 類型數(shù)據(jù)對象空間內(nèi)進(jìn)行計算,傳統(tǒng)的相似度算法所利用的信息也就僅僅限于同類數(shù)據(jù)對 象空間之內(nèi)的已知信息?,F(xiàn)在是一個信息急速增長的時代,人們所能獲得的數(shù)據(jù)不再局限 與某一維數(shù)據(jù)對象空間,在相似度計算領(lǐng)域,大規(guī)模多維數(shù)據(jù)空間的數(shù)據(jù)信息正促使一些 新的相似度算法的提出,運(yùn)些新的相似度算法能夠從多個數(shù)據(jù)空間內(nèi)挖掘相似關(guān)系,通過 綜合多維數(shù)據(jù)空間內(nèi)的信息來計算不同數(shù)據(jù)對象之間的相似性。
[0004] SimRank算法是Jeh和Widom在2002年提出的,SimRank算法認(rèn)為數(shù)據(jù)對象之間不是 孤立的,而是有相似關(guān)系的,所有數(shù)據(jù)對象之間的相似關(guān)系組成了數(shù)據(jù)對象相似關(guān)系網(wǎng)絡(luò), 而相似網(wǎng)絡(luò)中每一條邊就代表了邊的兩端數(shù)據(jù)對象之間的相似關(guān)系,而邊的權(quán)重即代表了 邊的兩端數(shù)據(jù)對象之間相似關(guān)系的強(qiáng)弱,如圖1所示,圖中虛線框為SimRank算法應(yīng)用的數(shù) 據(jù)空間,虛線框內(nèi)的小圓點代表該數(shù)據(jù)空間內(nèi)的數(shù)據(jù)對象,數(shù)據(jù)對象之間的連線代表數(shù)據(jù) 對象之間具有相似關(guān)系,圖中可看出a和b為數(shù)對空間中的兩個數(shù)據(jù)對象,若要計算數(shù)據(jù)對 象a和數(shù)據(jù)對象b之間的相似性可W將既與數(shù)據(jù)對象a又與數(shù)據(jù)對象b有相似關(guān)系的數(shù)據(jù)對 象考慮進(jìn)來,設(shè)S (a,b)表示數(shù)據(jù)對象a和數(shù)據(jù)對象b之間的相似度,則:
[0005]
[0006] 其中,|R(a) I表示和數(shù)據(jù)對象a有相似關(guān)系的數(shù)據(jù)對象的個數(shù),即圖1中直接與數(shù) 據(jù)對象a相連的數(shù)據(jù)對象的個數(shù),I R(b) I表示和數(shù)據(jù)對象a有相似關(guān)系的數(shù)據(jù)對象的個數(shù), 即圖1中直接與數(shù)據(jù)對象b相連的數(shù)據(jù)對象的個數(shù),Ri(a)表示第i個和數(shù)據(jù)對象a有相似關(guān) 系(相連)的數(shù)據(jù)對象,町化)表示第j個和數(shù)據(jù)對象b有相似關(guān)系(相連)的數(shù)據(jù)對象,所WS (Ri(a),R^b))即表示的是與數(shù)據(jù)對象a相連的第i個數(shù)據(jù)對象和與數(shù)據(jù)對象b相連的第j個 數(shù)據(jù)對象之間的相似關(guān)系,
則是與數(shù)據(jù)對象a相連的數(shù)據(jù)對象與 和數(shù)據(jù)對象b相連的數(shù)據(jù)對象之兩兩之間相似度的求和,C是一個常數(shù)。SimRank算法的優(yōu)點 為:該算法綜合考慮了不同數(shù)據(jù)對象之間的相似關(guān)系,通過數(shù)據(jù)對象與其他數(shù)據(jù)對象的相 似關(guān)系來求指定數(shù)據(jù)對象之間的相似度,但是SimRank算法沒有對不同數(shù)據(jù)對象之間的相 似度關(guān)系進(jìn)行分類,使得算法在向多維數(shù)據(jù)空間的擴(kuò)展上缺少理論依據(jù)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種可W擴(kuò)展到任 意維數(shù)據(jù)空間之上,用于求出任意兩維數(shù)據(jù)空間之內(nèi)的任意兩個數(shù)據(jù)對象的相似度的基于 關(guān)系傳播網(wǎng)絡(luò)的多維數(shù)據(jù)空間相似度匹配方法。
[0008] 本發(fā)明的目的可W通過W下技術(shù)方案來實現(xiàn):
[0009] -種基于關(guān)系傳播網(wǎng)絡(luò)的多維數(shù)據(jù)空間相似度匹配方法,該方法包括如下步驟:
[0010] (1)建立η個不同數(shù)據(jù)空間的關(guān)系傳播網(wǎng)絡(luò),并建立其關(guān)系傳播矩陣RTN:
[0011]
[001 ^ 矩陣RTN各元素記作RSij,其中i = 1,2……η,j = 1,2……η,RSu為數(shù)據(jù)空間Si和數(shù) 據(jù)空間&的相似關(guān)系矩陣,RSu均為Cl Xc苗隹矩陣,其中Cl為數(shù)據(jù)空間Si中的數(shù)據(jù)對象個 數(shù),Cj為數(shù)據(jù)空間&中的數(shù)據(jù)對象個數(shù);
[OOU] (2)分另輸定數(shù)據(jù)空間Si和數(shù)據(jù)空間S油似關(guān)系重要性權(quán)重矩陣λυ,對于任意i = 1,2......n,滿足
[0014] (3)根據(jù)關(guān)系傳播矩陣RTN和重要性權(quán)重矩陣λυ建立常矩陣R,具體為:
[0016] 其中
,其維數(shù)與關(guān)系傳播矩陣RT腺隹數(shù)相同;
[0017] (4)賦值1( = 0,獲取初始相似度傳播矩陣1^5*^ = 6,其中抓5*^與關(guān)系傳播矩陣腳於隹 數(shù)相同,Ε為單位矩陣;
[001引 (5)計算
[0019] (6)判斷ABS(SUM(RTSK"-RTSK))含F(xiàn)是否成立,其中洲M(RTSK"-RTSK)表示對矩陣 (RTSK"-RTSK)中各元素求和,ABS (SUM( RTSK"-RTSK))表示矩陣(RTSK"-RTSK)中各元素求和 后的絕對值,F(xiàn)為相似度闊值,若ABS(SUM(RTSK+i-RTSK))非成立,則賦值RTS = RTSK+M呆存 得到相似度傳播矩陣RTS并執(zhí)行步驟(7),否則賦值Κ=Κ+1,返回步驟(5);
[0020] (7)獲取相似度傳播矩陣RTS中的元素,進(jìn)行多維數(shù)據(jù)空間中的數(shù)據(jù)對象之間的匹 配。
[002。 步驟(1)中所述的RSij具體為:
[0022]
[002;3] 矩陣RSi沖各元素記作RSij化,f),其中1非< ci,1 y < Cj,RSu化,f)為數(shù)據(jù)空間 Si中第k個數(shù)據(jù)對象和數(shù)據(jù)空間S沖的第f個數(shù)據(jù)對象之間的相似關(guān)系。
[0024] 所述 RSii(k,f)溺足:
[0025]
[0026] 步驟(2)中采用專家評定法確定數(shù)據(jù)空間Si和數(shù)據(jù)空間&相似關(guān)系重要性權(quán)重矩 陣入ij。
[0027] 所述的專家評定法具體包括W下步驟:
[002引(201)分別獲取m個專家評定的η個數(shù)據(jù)空間兩兩之間的相對重要性程度矩陣mS
[0029]
[0030] 矩陣Mk中的各元素記作/Mf,/M^'為第k個專家評定的第i個數(shù)據(jù)空間和第j個數(shù) 據(jù)空間的相對重要性程度,其中i = l,2......n,j = l,2......n,k=l,2......m;
[0031] (202)根據(jù)相對重要性程度矩陣Mk分別獲取每個專家評定的第η個數(shù)據(jù)空間的相 對權(quán)重《:
[0032]
[0033] 其中1 = 1,2......n,k = l,2......m;
[0034] (203)對于k=l,2……m,將η個數(shù)據(jù)空間按《分別從小到大進(jìn)行排序,分別得到第 k個專家的排序序列,假設(shè)第i個數(shù)據(jù)空間在排序前為第i位,排序后為第fk(i)位,則第k個 專家評定第i個數(shù)據(jù)空間排在第j位的程度為pk(i,j):
[0035]
,.
[0036] 其中 i = i,2......η, j = 1,2......η;
[0037] (204)根據(jù)Pk(ij)計算出m個專家綜合評定的第i個數(shù)據(jù)空間排在第j位的程度為
[00;3 引
[0039] 其中1 = 1,2......η, j = 1,2......η;
[0040] (205)根據(jù)P(i,j)分別計算第i個數(shù)據(jù)空間在第η個數(shù)據(jù)空間的重要程度W(i):
[0041]
[0042] 其中 i = l,2……η;
當(dāng)前第1頁
1 
2 
3 
4