一種數(shù)據(jù)去重方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,特別是涉及一種數(shù)據(jù)去重方法及系統(tǒng)。
【背景技術(shù)】
[0002]本發(fā)明主要針對數(shù)據(jù)平臺中的數(shù)據(jù)進行數(shù)據(jù)去重。數(shù)據(jù)平臺,是指承載了海量數(shù)據(jù)的系統(tǒng),比如數(shù)據(jù)共享和交易平臺。數(shù)據(jù)去重,是指識別出因不同名稱、作者、來源、格式而存在的同一份數(shù)據(jù)的多份拷貝,避免同一份數(shù)據(jù)被以不同形式保存在數(shù)據(jù)平臺中。
[0003]由于數(shù)據(jù)平臺中的數(shù)據(jù)可以被共享和交易,因此當(dāng)數(shù)據(jù)平臺中存在重復(fù)數(shù)據(jù)時,將會對數(shù)據(jù)使用者造成困擾,也會對數(shù)據(jù)提供者造成損失。例如,當(dāng)一份數(shù)據(jù)被數(shù)據(jù)提供者A上傳至數(shù)據(jù)平臺后,又被數(shù)據(jù)提供者B上傳至該數(shù)據(jù)平臺。如果未進行數(shù)據(jù)去重,則對于數(shù)據(jù)使用者來說,可能會因為下載兩份內(nèi)容相同的數(shù)據(jù),而導(dǎo)致金錢、時間和精力的浪費;對于數(shù)據(jù)提供者來說,假設(shè)數(shù)據(jù)提供者A為數(shù)據(jù)版權(quán)的和合法所有者,則數(shù)據(jù)提供者A會由于數(shù)據(jù)使用者采用了數(shù)據(jù)提供者B提供的相同數(shù)據(jù),而損失掉將該數(shù)據(jù)提供給該數(shù)據(jù)使用者時可獲得的收益。可見,數(shù)據(jù)去重對于數(shù)據(jù)平臺來說是十分重要的。
[0004]現(xiàn)有技術(shù)中的數(shù)據(jù)去重方法,主要是對待存儲的數(shù)據(jù)建立摘要或指紋。通常采用計算數(shù)據(jù)的哈希值(包括md5,crc32,sha256等算法)的方式建立摘要或指紋。然后將待存儲數(shù)據(jù)的哈希值與已存儲數(shù)據(jù)的哈希值進行比對,如果相同,即判定待存儲數(shù)據(jù)與某個已存儲數(shù)據(jù)相同。之后,再采取進一步措施刪除重復(fù)數(shù)據(jù)。
[0005]但是,上述方法不適用于于數(shù)據(jù)平臺。一方面由于數(shù)據(jù)平臺中存儲的數(shù)據(jù)很多,對于大量數(shù)據(jù)進行哈希值計算的代價過高,并且對于哈希值的存儲也會占用較大存儲空間。通常PB級別的數(shù)據(jù)會生成TB級別的哈希表,不僅占用大量存儲空間,還會導(dǎo)致對于哈希值的檢索效率降低,從而降低數(shù)據(jù)去重效率。另一方面,由于數(shù)據(jù)平臺存儲的數(shù)據(jù)量很大,哈希值發(fā)生計算碰撞的可能性也較高,這又會導(dǎo)致把原本不同的數(shù)據(jù)誤判為重復(fù)數(shù)據(jù)。
[0006]基于上述原因,導(dǎo)致現(xiàn)有技術(shù)中,對于數(shù)據(jù)平臺中的數(shù)據(jù)去重工作,只能交由人工完成。但是,由于數(shù)據(jù)平臺中的數(shù)據(jù)量過多,導(dǎo)致人工進行數(shù)據(jù)去重的效率十分低下。
[0007]因此,亟需一種可以有效縮小數(shù)據(jù)去重范圍的數(shù)據(jù)去重方法,以便將人工進行數(shù)據(jù)去重的工作量控制在可接受的范圍內(nèi)。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是提供一種數(shù)據(jù)去重方法及系統(tǒng),可以有效縮小數(shù)據(jù)去重范圍的數(shù)據(jù)去重方法,以便將人工進行數(shù)據(jù)去重的工作量控制在可接受的范圍內(nèi)。
[0009]為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
[0010]一種數(shù)據(jù)去重方法,包括:
[0011]獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù);
[0012]確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息;
[0013]將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對,得到元數(shù)據(jù)信息相似度;
[0014]獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息;
[0015]獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息;
[0016]比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;
[0017]對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均,得到總相似度;
[0018]按照所述總相似度對所述已存儲數(shù)據(jù)進行排序;
[0019]將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)。
[0020]可選的,所述將所述待處理數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)之后,還包括:
[0021]將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對所述疑似重復(fù)數(shù)據(jù)與所述已存儲數(shù)據(jù)進行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲數(shù)據(jù)的信息構(gòu)成。
[0022]可選的,所述將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,還包括:
[0023]當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時,將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺。
[0024]可選的,所述比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度,具體包括:
[0025]采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0026]一種數(shù)據(jù)去重系統(tǒng),包括:
[0027]待處理數(shù)據(jù)獲取單元,用于獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù);
[0028]元數(shù)據(jù)信息確定單元,用于確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息;
[0029]元數(shù)據(jù)信息比對單元,用于將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對,得到元數(shù)據(jù)信息相似度;
[0030]第一數(shù)據(jù)描述信息獲取單元,用于獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息;
[0031]第二數(shù)據(jù)描述信息獲取單元,用于獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息;
[0032]數(shù)據(jù)描述信息比對單元,用于比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;
[0033]總相似度計算單元,用于對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均,得到總相似度;
[0034]排序單元,用于按照所述總相似度對所述已存儲數(shù)據(jù)進行排序;
[0035]疑似重復(fù)數(shù)據(jù)標記單元,用于將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)。
[0036]可選的,還包括:
[0037]疑似重復(fù)數(shù)據(jù)發(fā)送單元,用于將所述待處理數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)之后,將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對所述疑似重復(fù)數(shù)據(jù)與所述已存儲數(shù)據(jù)進行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲數(shù)據(jù)的信息構(gòu)成。
[0038]可選的,還包括:
[0039]待處理數(shù)據(jù)保存單元,用于將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時,將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺。
[0040]可選的,所述數(shù)據(jù)描述信息比對單元,具體包括:
[0041]海明距離計算子單元,用于采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0042]根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果:
[0043]本發(fā)明實施例中的數(shù)據(jù)去重方法及系統(tǒng),通過將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對,得到元數(shù)據(jù)信息相似度;比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均,得到總相似度;按照所述總相似度對所述已存儲數(shù)據(jù)進行排序;將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù);可以縮小數(shù)據(jù)去重范圍,從而有效降低人工進行數(shù)據(jù)去重的工作量,使人工進行數(shù)據(jù)去重的工作量被控制在可接受的范圍內(nèi)。
【附圖說明】
[0044]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0045]圖1為本發(fā)明的數(shù)據(jù)去重方法實施例的流程圖;
[0046]圖2為本發(fā)明的數(shù)據(jù)去重系統(tǒng)實施例的結(jié)構(gòu)圖。
【具體實施方式】
[0047]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0048]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
[0049]圖1為本發(fā)明的數(shù)據(jù)去重方法實施例的流程圖。如圖1所示,該方法可以包括:
[0050]步驟101:獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù);
[0051 ] 所述待處理數(shù)據(jù)可以是各種類型的數(shù)據(jù)。例如,可以是文本類型的數(shù)據(jù)、圖片類型的數(shù)據(jù)等等。
[0052]步驟102:確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息;
[0053]所述元數(shù)據(jù)信息可以是對于所述待處理數(shù)據(jù)的具有摘要性質(zhì)的關(guān)鍵詞。
[0054]例如,所述元數(shù)據(jù)信息可以包括數(shù)據(jù)ID、標題、分類、格式、關(guān)鍵詞和來源等信息。
[0055]步驟103:將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對,得到元數(shù)據(jù)信息相似度;
[0056]所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)也具有對應(yīng)的元數(shù)據(jù)信息??梢詫⒋幚頂?shù)據(jù)的元數(shù)據(jù)信息與已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對。
[0057]所述元數(shù)據(jù)信息相似度,可以根據(jù)待處理數(shù)據(jù)與已存儲數(shù)據(jù)之間相同的元數(shù)據(jù)信息的個數(shù)進行確定。例如,可以采用相同的元數(shù)據(jù)信息的個數(shù)除以待處理數(shù)據(jù)所具有的元數(shù)據(jù)信息的總個數(shù),得到相同的元數(shù)據(jù)信息在總體元數(shù)據(jù)信息中所占比例,將該比例作為元數(shù)據(jù)信息相似度。假設(shè)所述元數(shù)據(jù)信息包括數(shù)據(jù)ID、標題、分類、格式、關(guān)鍵詞和來源共6項,其中待處理數(shù)據(jù)的元數(shù)據(jù)信息中有4項信息與已存儲數(shù)據(jù)的元數(shù)據(jù)信息相同,則相似度可以確定為66.7%。
[0058]步驟104:獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息;
[0059]所述數(shù)據(jù)描述信息,是指用于對數(shù)據(jù)內(nèi)容進行描述的信息。所述數(shù)據(jù)描述信息通??梢杂扇斯ぞ庉嬌伞?br>[0060]假設(shè)有一份待存儲數(shù)據(jù)為隨機采樣的40個亞洲人的人臉圖像信息數(shù)據(jù)。則相應(yīng)的第一數(shù)據(jù)描述信息就可以為“亞洲隨機40人人臉圖像信息”。
[0061]步驟105:獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息;
[0062]步驟106:比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;
[0063]具體的,可以采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0064]步驟107:對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均,得到總相似度;
[0065]具體的,對于所述元數(shù)據(jù)信息相似度和所述