一種數(shù)據(jù)對比方法
【專利摘要】本發(fā)明實施例公開了一種信息標(biāo)引和檢索方法,所述方法包括:A、確定待對比的數(shù)據(jù)所在的各個樹形結(jié)構(gòu);B、將所述各個樹形結(jié)構(gòu)分別進行一維化抽取,以獲取所述各個樹形結(jié)構(gòu)的一維原語鏈表;C、將所述各個樹形結(jié)構(gòu)的一維原語鏈表的葉節(jié)點進行相似性匹配,以獲取匹配后的相似葉節(jié)點組合;D、將所述相似葉節(jié)點組合中的數(shù)據(jù)進行對比。由上,本發(fā)明實施例有利于有效提高數(shù)據(jù)對比效率和準(zhǔn)確度,降低后續(xù)使用數(shù)據(jù)的使用成本。
【專利說明】
一種數(shù)據(jù)對比方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)對比方法。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)醫(yī)療領(lǐng)域中,在根據(jù)紙質(zhì)病歷進行數(shù)據(jù)錄入時,為了保證錄入數(shù)據(jù)的準(zhǔn) 確性,需要通過雙盲錄入并將病歷數(shù)據(jù)進行結(jié)構(gòu)化處理以能夠反映出實際的病歷數(shù)據(jù)結(jié) 構(gòu)。在雙盲錄入結(jié)束后需要對兩個錄入員錄入的數(shù)據(jù)進行一致性校驗。由于醫(yī)療行業(yè)的領(lǐng) 域特性,錄入的病歷數(shù)據(jù)進行結(jié)構(gòu)化后,往往會形成深層嵌套樹結(jié)構(gòu)數(shù)據(jù)。由于深層嵌套樹 結(jié)構(gòu)復(fù)雜,在對雙盲錄入數(shù)據(jù)進行數(shù)據(jù)比對時,會影響數(shù)據(jù)對比的對比效率和準(zhǔn)確度,增大 了后續(xù)使用數(shù)據(jù)的使用成本。
【發(fā)明內(nèi)容】
[0003] 有鑒于此,本發(fā)明的主要目的在于提供一種數(shù)據(jù)對比的方法,有利于有效提高數(shù) 據(jù)對比效率和準(zhǔn)確度,降低后續(xù)使用數(shù)據(jù)的使用成本。
[0004] 本發(fā)明實施例提供一種數(shù)據(jù)對比方法,包括以下步驟:
[0005] A、確定待對比的數(shù)據(jù)所在的各個樹形結(jié)構(gòu);
[0006] B、將所述各個樹形結(jié)構(gòu)分別進行一維化抽取,以獲取所述各個樹形結(jié)構(gòu)的一維原 語鏈表;
[0007] C、將所述各個樹形結(jié)構(gòu)的一維原語鏈表的葉節(jié)點進行相似性匹配,以獲取匹配后 的相似葉節(jié)點組合;
[0008] D、將所述相似葉節(jié)點組合中的數(shù)據(jù)進行對比。
[0009] 優(yōu)選地,所述步驟B包括:
[0010]獲取各個樹形結(jié)構(gòu)中從根節(jié)點到葉節(jié)點的路徑;
[0011] 生成所述路徑上的每級節(jié)點對應(yīng)的抽取原語,并將所述抽取原語串聯(lián)成一維原語 鏈表;
[0012] 其中,當(dāng)所述葉節(jié)點為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,為所述葉節(jié)點生成指定原語。
[0013] 優(yōu)選地,所述步驟B還包括:
[0014] 根據(jù)唯一,性哈希對所述一維原語鏈表進行哈希,以獲取結(jié)構(gòu)一致的哈希值。
[0015] 優(yōu)選地,當(dāng)所述葉節(jié)點為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,所述步驟C包括:
[0016] 根據(jù)所述哈希值和數(shù)據(jù)點加權(quán)因子對所述各個樹形結(jié)構(gòu)的一維原語鏈表的葉節(jié) 點進行相似性匹配,以獲取匹配后的相似葉節(jié)點組合。
[0017] 優(yōu)選地,所述步驟C還包括:
[0018] 若所述各個樹形結(jié)構(gòu)的一維原語鏈表的對應(yīng)位置的葉節(jié)點不匹配,則將所述對應(yīng) 位置的相鄰位置的指定數(shù)量的葉節(jié)點進行匹配。
[0019] 優(yōu)選地,所述步驟C還包括:
[0020] 在每獲取到一組匹配的相似葉節(jié)點組合后,對所述葉節(jié)點組合進行排除標(biāo)記。
[0021] 優(yōu)選地,所述步驟C還包括:
[0022] 將所述相似性匹配結(jié)束時未獲得匹配的葉節(jié)點進行缺失標(biāo)記。
[0023] 優(yōu)選地,所述步驟D還包括:
[0024] 將所述數(shù)據(jù)對比結(jié)果中具有差異的部分進行數(shù)據(jù)差異標(biāo)記。
[0025] 由上可以看出,本發(fā)明提供了一種數(shù)據(jù)對比的方法,有利于有效提高數(shù)據(jù)對比效 率和準(zhǔn)確度,降低后續(xù)使用數(shù)據(jù)的使用成本。
【附圖說明】
[0026] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其它的附圖。
[0027] 圖1為本發(fā)明實施例提供的一種樹形結(jié)構(gòu)數(shù)據(jù)對比方法流程示意圖;
[0028] 圖2為本發(fā)明實施例提供的一種樹形數(shù)據(jù)結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0030] 為克服現(xiàn)有技術(shù)中的缺陷,本申請實施例提供一種樹形結(jié)構(gòu)數(shù)據(jù)對比的方法,有 利于有效提高數(shù)據(jù)對比效率和準(zhǔn)確度,降低數(shù)據(jù)后續(xù)的使用成本。
[0031] 實施例一
[0032] 如圖1所示,為本發(fā)明實施例中提供的一種樹形結(jié)構(gòu)數(shù)據(jù)對比的方法,具體步驟如 下:
[0033] S101,確定待對比的數(shù)據(jù)所在的各個樹形結(jié)構(gòu)。
[0034] 在本實施例中,根據(jù)用戶輸入的數(shù)據(jù)對比指示確定待比對的數(shù)據(jù)集合,并進一步 獲取該數(shù)據(jù)集合所在的樹形結(jié)構(gòu)。例如,用戶輸入W數(shù)據(jù)對比指示后,系統(tǒng)分別獲取雙盲錄 入中兩個錄入員錄入的W數(shù)據(jù)所在的樹形結(jié)構(gòu),假設(shè)該樹形結(jié)構(gòu)分別為A樹和B樹。如圖2所 示,為A樹和B樹的結(jié)構(gòu)示意圖。
[0035] S102,將所述各個樹形結(jié)構(gòu)分別進行一維化抽取,分別獲取所述各個樹形結(jié)構(gòu)的 一維原語鏈表。
[0036]在本實施例中,分別對S101中的A樹和B樹進行一維化抽取,具體為:
[0037] A、分別獲取A樹和B樹中根節(jié)點到達(dá)各個葉節(jié)點的各條路徑;
[0038] B、為各條路徑上的各個節(jié)點生成對應(yīng)的抽取原語,并將所述抽取原語分別串聯(lián)成 一維原語鏈表;其中,若某一路徑上的葉節(jié)點為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,為該同質(zhì)結(jié)構(gòu)體數(shù)據(jù)生 成特殊的具有標(biāo)記性的SSD原語,以方便后續(xù)進行對比。該路徑上的其他節(jié)點的原語的生成 按照常規(guī)生成方法生成,在此不再贅述。若某一路徑上的葉節(jié)點不是同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,則 該路徑上的節(jié)點的原語的生成都按照常規(guī)生成方法生成,在此不再贅述。例如,如圖2所示, 其中,對于A樹中al. 2其下子節(jié)點為一組同質(zhì)結(jié)構(gòu)體數(shù)據(jù),即,葉節(jié)點Ml、M2、M3為同質(zhì)結(jié)構(gòu) 體數(shù)據(jù)。對于B樹中al.2其下子節(jié)點同樣為一組同質(zhì)結(jié)構(gòu)體數(shù)據(jù),即,葉節(jié)點M3、M1為同質(zhì)結(jié) 構(gòu)體數(shù)據(jù)。
[0039] C、根據(jù)唯一,性哈希對該一維原語鏈表進行哈希,獲取結(jié)構(gòu)一致的哈希值,以方便 后續(xù)進行相似鏈表的匹配。
[0040] 由上,分別獲取得到了 A樹和B樹的結(jié)構(gòu)一致的一維原語鏈表集合A'和B'。具體如 下所示:
[0041 ] A樹的一維原語鏈表為:
[0042] aalal. 1
[0043] aalal. 2M1
[0044] aalal.2M2
[0045] aalal.2M3
[0046] aalal. 3
[0047] aa2
[0048] B樹的一維原語鏈表結(jié)構(gòu)類似,為:
[0049] aalal. 1
[0050] aalal.2M3 [0051 ] aalal.2M1
[0052] aalal. 3
[0053] aa2
[0054] S103,將一維原語鏈表集合A'和B'中的一維原語鏈表中的葉節(jié)點進行相似匹配。
[0055] 在本實施例中,根據(jù)哈希值和數(shù)據(jù)點加權(quán)因子,分別將一維鏈表集合A'中的一維 鏈表與一維鏈表集合B'中的一維鏈表中的葉節(jié)點進行匹配,以獲取到匹配后的葉節(jié)點組 合。
[0056] 具體地,根據(jù)所述一維原語鏈表中是否有指定原語,可以判斷該一維原語鏈表中 是否包含SSD結(jié)構(gòu)。其中,若一維原語鏈表中不含有SSD原語,則說明該一維原語鏈表中不包 含SSD結(jié)構(gòu),則可以根據(jù)路徑信息和哈希值直接找到兩個集合的鏈表中對應(yīng)的葉節(jié)點進行 字符串對比即可。
[0057] 若一維鏈表中若一維原語鏈表中含有SSD原語,則說明該一維原語鏈表中包含SSD 結(jié)構(gòu),則需要進行相似性匹配;具體如下:
[0058]例如,當(dāng)對A樹中的a 1.2下的子節(jié)點與B樹中的a 1.2下的子節(jié)點進行相似性匹配 時,具體為:
[0059] 首先,將A樹中的Ml中的al. 2.1分別對比B樹中的Ml和M3中的al. 2.1,并分別產(chǎn)生 一個分?jǐn)?shù)si和sr,以及點位加權(quán)值為wi和wr。
[0060] 其次,將A樹中的Ml中的al. 2.2分別對比B樹中的Ml和M3中的al. 2.2,并分別產(chǎn)生 一個分?jǐn)?shù)S2和S2',以及點位加權(quán)值為W2和W2'。
[0061] .....
[0062]假設(shè)M結(jié)構(gòu)體中一共有n個點位,以此類推,一共對比產(chǎn)生Sm個分?jǐn)?shù),點位加權(quán)值為 ffn〇
[0063] 那么相似性結(jié)果分別為:
[0064] TotalScore(S*)l = SlXWl+S2XW2+S3XW3+....SnXWn
[0065] TotalScore(總分)2 = S1,XW1+S2, XW2+S3, XW3+. ? ? .Sn,XWn
[0066]為了保證匹配后的相似度,設(shè)定一個分?jǐn)?shù)閾值。最終totalScore分?jǐn)?shù)最高,且超過 設(shè)定的分?jǐn)?shù)閾值時,則配對的數(shù)據(jù)結(jié)構(gòu)體相匹配。例如TotalScore(總分)1分?jǐn)?shù)最高,且 Total Score (總分)1大于設(shè)定的分?jǐn)?shù)閾值,貝ijA樹中的Ml和B樹中的Ml相匹配。匹配完成后, 則將相匹配的A樹中的Ml和B樹中的Ml進行匹配成功標(biāo)記,以便后續(xù)配對時不再進行調(diào)用, 提尚對比效率。
[0067]同理,可以將A樹中的M2與B樹中剩余的M3進行配對。假設(shè)得到的該配對的 TotalScore分?jǐn)?shù)低于設(shè)定的分?jǐn)?shù)閾值,則匹配不成功,則進行缺失標(biāo)記,例如標(biāo)記為B樹中 的M2缺失,以便后續(xù)進行進一步的處理。
[0068] 同理,可以將A樹中的M3與B樹中的M3進行配對。假設(shè)得到的該配對的TotalScore 分?jǐn)?shù)高于設(shè)定的分?jǐn)?shù)閾值,則匹配成功。
[0069] 上述兩個示例樹A樹和B樹,按上述算法匹配后,最終匹配結(jié)果如下:
[0071] 考慮到在實際應(yīng)用中,錄入項的排序不會發(fā)生大的變化,所以在遍歷時,只遍歷兩 個樹對應(yīng)位置的元素以及該位置相鄰位置的元素,例如,假設(shè)A樹和B樹中M結(jié)構(gòu)體的點位較 多時,當(dāng)A樹中Ml與B樹中對應(yīng)位置的M3不匹配,則進一步將A樹中Ml與B樹中對應(yīng)位置的M3 的相鄰位置的幾組數(shù)據(jù)進行匹配。其中,為了提高對比的準(zhǔn)確性和效率,對前述的相鄰位置 的數(shù)據(jù)的組數(shù)設(shè)定一個組數(shù)閾值,例如該組數(shù)閾值可以是5。
[0072] 需要說明的是,若B樹SSD葉節(jié)點的數(shù)量比A樹SSD葉節(jié)點的數(shù)量多,在相似性匹配 結(jié)束后,將B樹中剩余的未獲得匹配的葉節(jié)點進行缺失標(biāo)記,以便后續(xù)進行處理。
[0073] S104,對相似葉節(jié)點組合中的數(shù)據(jù)進行對比。
[0074] 在本實施例中,通過對匹配到的相似鏈表的葉節(jié)點的數(shù)據(jù)的精確字符串進行對 比,即可得到雙盲錄入時的差異性。
[0075]將對比得到的具有差異性的部分進行標(biāo)記,以備后續(xù)的進一步的處理。
[0076]綜上所述,本申請實施例提供了一種樹形結(jié)構(gòu)數(shù)據(jù)對比的方法,有利于有效提高 數(shù)據(jù)對比效率和準(zhǔn)確度,降低數(shù)據(jù)后續(xù)的使用成本。
[0077]實施例二
[0078]為了進一步說明本申請,本實施例中提供了一種具體應(yīng)用場景下的樹形結(jié)構(gòu)數(shù)據(jù) 對比的方法,具體步驟如下:
[0079] S201,根據(jù)用戶輸入的數(shù)據(jù)對比指示確定待比對的數(shù)據(jù)集合,并進一步獲取該數(shù) 據(jù)集合所在的樹形結(jié)構(gòu)。例如,用戶輸入患者Z的在W醫(yī)院的某次住院治療中喉鏡檢查的數(shù) 據(jù)對比指示后,系統(tǒng)分別獲取雙盲錄入中兩個錄入員錄入的患者Z在W醫(yī)院的某次住院治療 中喉鏡檢查的數(shù)據(jù)所在的樹形結(jié)構(gòu),如圖2所示,假設(shè)該樹形結(jié)構(gòu)分別為樹A和樹B,則待對 比的數(shù)據(jù)為樹A和樹B的數(shù)據(jù)。
[0080] S202,將所述各個樹形結(jié)構(gòu)分別進行一維化抽取,以獲取所述各個樹形結(jié)構(gòu)的一 維原語鏈表。
[0081 ]在本實施例中,分別對S201中的A樹和B樹進行一維化抽取,具體為:
[0082] A、分別獲取A樹和B樹中根節(jié)點到達(dá)各個葉節(jié)點的各條路徑;
[0083] B、為各條路徑上的各個節(jié)點生成對應(yīng)的抽取原語,并將所述抽取原語分別串聯(lián)成 一維原語鏈表;其中,若各條路徑上的節(jié)點中為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,為該同質(zhì)結(jié)構(gòu)體數(shù)據(jù)生 成特殊的具有標(biāo)記性的SSD原語,方便后續(xù)進行對比。該路徑上的其他節(jié)點的原語的生成按 照常規(guī)生成方法生成,在此不再贅述。若某一路徑上的葉節(jié)點不是同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,則該 路徑上的節(jié)點的原語的生成都按照常規(guī)生成方法生成,在此不再贅述。如圖2所示,其中,對 于A樹中al. 2其下子節(jié)點為一組同質(zhì)結(jié)構(gòu)體數(shù)據(jù),即,葉節(jié)點M1、M2、M3為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)。 對于B樹中al. 2其下子節(jié)點同樣為一組同質(zhì)結(jié)構(gòu)體數(shù)據(jù),即,葉節(jié)點M3、M1為同質(zhì)結(jié)構(gòu)體數(shù) 據(jù)。
[0084] 其中,A樹中的葉節(jié)點Ml、M2、M3分別對應(yīng)X錄入員錄入的3組信息,具體為:
[0086] 其中,B樹中的葉節(jié)點M3、M1分別對應(yīng)Y錄入員錄入的2組信息,具體為:
[0088] 對于兩個錄入員錄入的A樹和B樹中的其他葉節(jié)點的信息,由于可以直接進行相關(guān) 對比,所以在此不再贅述。
[0089] 根據(jù)唯一性哈希對該一維原語鏈表進行哈希,獲取結(jié)構(gòu)一致的哈希值,以方便后 續(xù)進行相似葉節(jié)點的匹配。
[0090] 由上,分別獲取得到了 A樹和B樹的結(jié)構(gòu)一致的一維原語鏈表集合A'和B'。具體如 下所示:
[0091] A樹的一維原語鏈表為:
[0092] aalal. 1
[0093] aalal. 2M1
[0094] aalal.2M2
[0095] aalal.2M3
[0096] aalal. 3
[0097] aa2
[0098] B樹的一維原語鏈表結(jié)構(gòu)類似,為:
[0099] aalal. 1 [0100] aalal.2M3
[0101] aalal.2M1
[0102] aalal. 3
[0103] aa2
[0104] 需要說明的是,圖2僅為示意圖,其中的[1213中的&1.2.1、&1.2.2、 &1.2.3僅示 意性的表示錄入員錄入的信息。
[0105] S203,將一維原語鏈表集合A'和B'中的葉節(jié)點進行相似匹配。
[0106] 具體地,根據(jù)所述一維原語鏈表中是否有指定原語,可以判斷該一維原語鏈表中 是否包含SSD結(jié)構(gòu)。其中,若一維原語鏈表中不含有SSD原語,則說明該一維原語鏈表中不包 含SSD結(jié)構(gòu),則可以根據(jù)路徑信息和哈希值直接找到兩個集合的鏈表中對應(yīng)的葉節(jié)點進行 字符串對比即可。
[0107] 若一維鏈表中包含SSD結(jié)構(gòu)則需要根據(jù)哈希值和數(shù)據(jù)點加權(quán)因子匹配相似葉節(jié) 點;具體如下:
[0108]例如,當(dāng)對A樹中的al. 2其下的子節(jié)點與B樹中的al. 2其下的子節(jié)點進行相似性匹 配時,具體為:
[0109]首先,將A樹中的Ml中的"時間"分別對比B樹中的Ml和M3中的"時間",并分別產(chǎn)生 一個分?jǐn)?shù)si和sr,以及點位加權(quán)值為wi和wr。
[0110]其次,將A樹中的Ml中的"部位"分別對比B樹中的Ml和M3中的"部位",并分別產(chǎn)生 一個分?jǐn)?shù)S2和S2',以及點位加權(quán)值為W2和W2'。
[0111] .....
[0112]假設(shè)M結(jié)構(gòu)體中一共有n個點位,以此類推,一共對比產(chǎn)生Sm個分?jǐn)?shù),點位加權(quán)值為 ffn〇
[0113]那么相似性結(jié)果分別為:
[0114] TotalScore(S*)l = SlXWl+S2XW2+S3XW3+....SnXWn
[0115] TotalScore(總分)2 = S1,XW1+S2, XW2+S3, XW3+. ? ? .Sn,XWn
[0116]為了保證匹配后的相似度,設(shè)定一個分?jǐn)?shù)閾值。最終totalScore分?jǐn)?shù)最高,且超過 設(shè)定的分?jǐn)?shù)閾值時,則配對的數(shù)據(jù)結(jié)構(gòu)體相匹配。例如TotalScore(總分)1分?jǐn)?shù)最高,且 Total Score (總分)1大于設(shè)定的分?jǐn)?shù)閾值,貝ijA樹中的Ml和B樹中的Ml相匹配。匹配完成后, 則將相匹配的A樹中的Ml和B樹中的Ml進行匹配成功標(biāo)記,以便后續(xù)配對時不再進行調(diào)用, 提尚對比效率。
[0117] 同理,可以將A樹中的M2與B樹中的M3進行配對。假設(shè)得到的該配對的TotalScore 分?jǐn)?shù)低于設(shè)定的分?jǐn)?shù)閾值,則匹配不成功,則進行缺失標(biāo)記,例如標(biāo)記為B樹中的M2缺失,以 便后續(xù)進行進一步的處理。
[0118] 同理,可以將A樹中的M3與B樹中的M3進行配對。假設(shè)得到的該配對的TotalScore 分?jǐn)?shù)高于設(shè)定的分?jǐn)?shù)閾值,則匹配成功。
[0119] 上述兩個示例樹A樹和B樹,按上述算法匹配后,最終匹配結(jié)果如下:
[0122]考慮到在實際應(yīng)用中,錄入項的排序不會發(fā)生大的變化,所以在遍歷時,只遍歷兩 個樹對應(yīng)位置的元素以及該位置相鄰位置的元素,例如,假設(shè)A樹和B樹中M結(jié)構(gòu)體的點位較 多時,當(dāng)A樹中Ml與B樹中對應(yīng)位置的M3不匹配,則進一步將A樹中Ml與B樹中對應(yīng)位置的M3 的相鄰位置的幾組數(shù)據(jù)進行匹配。其中,為了提高對比的效率,對前述的相鄰位置的數(shù)據(jù)的 組數(shù)設(shè)定一個組數(shù)閾值,例如該組數(shù)閾值可以是5。
[0123] 需要說明的是,若B樹SSD葉節(jié)點的數(shù)量比A樹SSD葉節(jié)點的數(shù)量多,在相似性匹配 結(jié)束后,將B樹中剩余的未獲得匹配的葉節(jié)點進行缺失標(biāo)記,以便后續(xù)進行處理。
[0124] S204,對相似葉節(jié)點組合中的數(shù)據(jù)進行對比。
[0125] 在本實施例中,通過對匹配到的相似鏈表的葉節(jié)點的數(shù)據(jù)的精確字符串進行對 比,即可得到雙盲錄入時的差異性。
[0126] 將對比得到的具有差異性的部分進行標(biāo)記,以備后續(xù)的進一步的處理。
[0127] 綜上所述,本申請實施例提供了一種樹形結(jié)構(gòu)數(shù)據(jù)對比的方法,有利于有效提高 數(shù)據(jù)對比效率和準(zhǔn)確度,降低數(shù)據(jù)后續(xù)的使用成本。
[0128] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種數(shù)據(jù)對比的方法,其特征在于,包括以下步驟: A、 確定待對比的數(shù)據(jù)所在的各個樹形結(jié)構(gòu); B、 將所述各個樹形結(jié)構(gòu)分別進行一維化抽取,以獲取所述各個樹形結(jié)構(gòu)的一維原語鏈 表; C、 將所述各個樹形結(jié)構(gòu)的一維原語鏈表的葉節(jié)點進行相似性匹配,以獲取匹配后的相 似葉節(jié)點組合; D、 將所述相似葉節(jié)點組合中的數(shù)據(jù)進行對比。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B包括: 獲取各個樹形結(jié)構(gòu)中從根節(jié)點到葉節(jié)點的路徑; 生成所述路徑上的每級節(jié)點對應(yīng)的抽取原語,并將所述抽取原語串聯(lián)成一維原語鏈 表; 其中,當(dāng)所述葉節(jié)點為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,為所述葉節(jié)點生成指定抽取原語。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B還包括: 根據(jù)唯一1性哈希對所述一維原語鏈表進行哈希,以獲取結(jié)構(gòu)一致的哈希值。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)所述葉節(jié)點為同質(zhì)結(jié)構(gòu)體數(shù)據(jù)時,所述 步驟C包括: 根據(jù)所述哈希值和數(shù)據(jù)點加權(quán)因子對所述各個樹形結(jié)構(gòu)的一維原語鏈表的葉節(jié)點進 行相似性匹配,以獲取匹配后的相似葉節(jié)點組合。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟C還包括: 若所述各個樹形結(jié)構(gòu)的一維原語鏈表的對應(yīng)位置的葉節(jié)點不匹配,則將所述對應(yīng)位置 的相鄰位置的指定數(shù)量的葉節(jié)點進行匹配。6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟C還包括: 在每獲取到一組匹配的相似葉節(jié)點組合后,對所述葉節(jié)點組合進行排除標(biāo)記。7. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟C還包括: 將所述相似性匹配結(jié)束時未獲得匹配的葉節(jié)點進行缺失標(biāo)記。8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟D還包括: 將所述數(shù)據(jù)對比結(jié)果中具有差異的部分進行數(shù)據(jù)差異標(biāo)記。
【文檔編號】G06F17/30GK105893601SQ201610249104
【公開日】2016年8月24日
【申請日】2016年4月20日
【發(fā)明人】侯波林, 官昌戰(zhàn), 羅立剛
【申請人】零氪科技(北京)有限公司