一種數(shù)據(jù)去重方法及系統(tǒng)的制作方法

文檔序號：8487921閱讀：374來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)去重方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域，特別是涉及一種數(shù)據(jù)去重方法及系統(tǒng)。
【背景技術(shù)】
[0002]本發(fā)明主要針對數(shù)據(jù)平臺中的數(shù)據(jù)進行數(shù)據(jù)去重。數(shù)據(jù)平臺，是指承載了海量數(shù)據(jù)的系統(tǒng)，比如數(shù)據(jù)共享和交易平臺。數(shù)據(jù)去重，是指識別出因不同名稱、作者、來源、格式而存在的同一份數(shù)據(jù)的多份拷貝，避免同一份數(shù)據(jù)被以不同形式保存在數(shù)據(jù)平臺中。
[0003]由于數(shù)據(jù)平臺中的數(shù)據(jù)可以被共享和交易，因此當(dāng)數(shù)據(jù)平臺中存在重復(fù)數(shù)據(jù)時，將會對數(shù)據(jù)使用者造成困擾，也會對數(shù)據(jù)提供者造成損失。例如，當(dāng)一份數(shù)據(jù)被數(shù)據(jù)提供者A上傳至數(shù)據(jù)平臺后，又被數(shù)據(jù)提供者B上傳至該數(shù)據(jù)平臺。如果未進行數(shù)據(jù)去重，則對于數(shù)據(jù)使用者來說，可能會因為下載兩份內(nèi)容相同的數(shù)據(jù)，而導(dǎo)致金錢、時間和精力的浪費；對于數(shù)據(jù)提供者來說，假設(shè)數(shù)據(jù)提供者A為數(shù)據(jù)版權(quán)的和合法所有者，則數(shù)據(jù)提供者A會由于數(shù)據(jù)使用者采用了數(shù)據(jù)提供者B提供的相同數(shù)據(jù)，而損失掉將該數(shù)據(jù)提供給該數(shù)據(jù)使用者時可獲得的收益。可見，數(shù)據(jù)去重對于數(shù)據(jù)平臺來說是十分重要的。
[0004]現(xiàn)有技術(shù)中的數(shù)據(jù)去重方法，主要是對待存儲的數(shù)據(jù)建立摘要或指紋。通常采用計算數(shù)據(jù)的哈希值(包括md5，crc32，sha256等算法)的方式建立摘要或指紋。然后將待存儲數(shù)據(jù)的哈希值與已存儲數(shù)據(jù)的哈希值進行比對，如果相同，即判定待存儲數(shù)據(jù)與某個已存儲數(shù)據(jù)相同。之后，再采取進一步措施刪除重復(fù)數(shù)據(jù)。
[0005]但是，上述方法不適用于于數(shù)據(jù)平臺。一方面由于數(shù)據(jù)平臺中存儲的數(shù)據(jù)很多，對于大量數(shù)據(jù)進行哈希值計算的代價過高，并且對于哈希值的存儲也會占用較大存儲空間。通常PB級別的數(shù)據(jù)會生成TB級別的哈希表，不僅占用大量存儲空間，還會導(dǎo)致對于哈希值的檢索效率降低，從而降低數(shù)據(jù)去重效率。另一方面，由于數(shù)據(jù)平臺存儲的數(shù)據(jù)量很大，哈希值發(fā)生計算碰撞的可能性也較高，這又會導(dǎo)致把原本不同的數(shù)據(jù)誤判為重復(fù)數(shù)據(jù)。
[0006]基于上述原因，導(dǎo)致現(xiàn)有技術(shù)中，對于數(shù)據(jù)平臺中的數(shù)據(jù)去重工作，只能交由人工完成。但是，由于數(shù)據(jù)平臺中的數(shù)據(jù)量過多，導(dǎo)致人工進行數(shù)據(jù)去重的效率十分低下。
[0007]因此，亟需一種可以有效縮小數(shù)據(jù)去重范圍的數(shù)據(jù)去重方法，以便將人工進行數(shù)據(jù)去重的工作量控制在可接受的范圍內(nèi)。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的是提供一種數(shù)據(jù)去重方法及系統(tǒng)，可以有效縮小數(shù)據(jù)去重范圍的數(shù)據(jù)去重方法，以便將人工進行數(shù)據(jù)去重的工作量控制在可接受的范圍內(nèi)。
[0009]為實現(xiàn)上述目的，本發(fā)明提供了如下方案:
[0010]一種數(shù)據(jù)去重方法，包括:
[0011]獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù)；
[0012]確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息；
[0013]將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對，得到元數(shù)據(jù)信息相似度；
[0014]獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息；
[0015]獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息；
[0016]比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息，得到數(shù)據(jù)描述相似度；
[0017]對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均，得到總相似度；
[0018]按照所述總相似度對所述已存儲數(shù)據(jù)進行排序；
[0019]將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)。
[0020]可選的，所述將所述待處理數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)之后，還包括:
[0021]將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端，以便對所述疑似重復(fù)數(shù)據(jù)與所述已存儲數(shù)據(jù)進行人工審核；所述數(shù)據(jù)列表由排序后的所述已存儲數(shù)據(jù)的信息構(gòu)成。
[0022]可選的，所述將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后，還包括:
[0023]當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時，將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺。
[0024]可選的，所述比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息，得到數(shù)據(jù)描述相似度，具體包括:
[0025]采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離，根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0026]一種數(shù)據(jù)去重系統(tǒng)，包括:
[0027]待處理數(shù)據(jù)獲取單元，用于獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù)；
[0028]元數(shù)據(jù)信息確定單元，用于確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息；
[0029]元數(shù)據(jù)信息比對單元，用于將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對，得到元數(shù)據(jù)信息相似度；
[0030]第一數(shù)據(jù)描述信息獲取單元，用于獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息；
[0031]第二數(shù)據(jù)描述信息獲取單元，用于獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息；
[0032]數(shù)據(jù)描述信息比對單元，用于比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息，得到數(shù)據(jù)描述相似度；
[0033]總相似度計算單元，用于對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均，得到總相似度；
[0034]排序單元，用于按照所述總相似度對所述已存儲數(shù)據(jù)進行排序；
[0035]疑似重復(fù)數(shù)據(jù)標記單元，用于將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)。
[0036]可選的，還包括:
[0037]疑似重復(fù)數(shù)據(jù)發(fā)送單元，用于將所述待處理數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)之后，將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端，以便對所述疑似重復(fù)數(shù)據(jù)與所述已存儲數(shù)據(jù)進行人工審核；所述數(shù)據(jù)列表由排序后的所述已存儲數(shù)據(jù)的信息構(gòu)成。
[0038]可選的，還包括:
[0039]待處理數(shù)據(jù)保存單元，用于將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后，當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時，將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺。
[0040]可選的，所述數(shù)據(jù)描述信息比對單元，具體包括:
[0041]海明距離計算子單元，用于采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離，根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0042]根據(jù)本發(fā)明提供的具體實施例，本發(fā)明公開了以下技術(shù)效果:
[0043]本發(fā)明實施例中的數(shù)據(jù)去重方法及系統(tǒng)，通過將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對，得到元數(shù)據(jù)信息相似度；比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息，得到數(shù)據(jù)描述相似度；對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均，得到總相似度；按照所述總相似度對所述已存儲數(shù)據(jù)進行排序；將排序后的所述已存儲數(shù)據(jù)中的前η個數(shù)據(jù)標記為疑似重復(fù)數(shù)據(jù)；可以縮小數(shù)據(jù)去重范圍，從而有效降低人工進行數(shù)據(jù)去重的工作量，使人工進行數(shù)據(jù)去重的工作量被控制在可接受的范圍內(nèi)。
【附圖說明】
[0044]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0045]圖1為本發(fā)明的數(shù)據(jù)去重方法實施例的流程圖；
[0046]圖2為本發(fā)明的數(shù)據(jù)去重系統(tǒng)實施例的結(jié)構(gòu)圖。
【具體實施方式】
[0047]下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0048]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
[0049]圖1為本發(fā)明的數(shù)據(jù)去重方法實施例的流程圖。如圖1所示，該方法可以包括:
[0050]步驟101:獲取上傳至數(shù)據(jù)平臺的待處理數(shù)據(jù)；
[0051 ] 所述待處理數(shù)據(jù)可以是各種類型的數(shù)據(jù)。例如，可以是文本類型的數(shù)據(jù)、圖片類型的數(shù)據(jù)等等。
[0052]步驟102:確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息；
[0053]所述元數(shù)據(jù)信息可以是對于所述待處理數(shù)據(jù)的具有摘要性質(zhì)的關(guān)鍵詞。
[0054]例如，所述元數(shù)據(jù)信息可以包括數(shù)據(jù)ID、標題、分類、格式、關(guān)鍵詞和來源等信息。
[0055]步驟103:將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對，得到元數(shù)據(jù)信息相似度；
[0056]所述數(shù)據(jù)平臺的已存儲數(shù)據(jù)也具有對應(yīng)的元數(shù)據(jù)信息?？梢詫⒋幚頂?shù)據(jù)的元數(shù)據(jù)信息與已存儲數(shù)據(jù)的元數(shù)據(jù)信息進行比對。
[0057]所述元數(shù)據(jù)信息相似度，可以根據(jù)待處理數(shù)據(jù)與已存儲數(shù)據(jù)之間相同的元數(shù)據(jù)信息的個數(shù)進行確定。例如，可以采用相同的元數(shù)據(jù)信息的個數(shù)除以待處理數(shù)據(jù)所具有的元數(shù)據(jù)信息的總個數(shù)，得到相同的元數(shù)據(jù)信息在總體元數(shù)據(jù)信息中所占比例，將該比例作為元數(shù)據(jù)信息相似度。假設(shè)所述元數(shù)據(jù)信息包括數(shù)據(jù)ID、標題、分類、格式、關(guān)鍵詞和來源共6項，其中待處理數(shù)據(jù)的元數(shù)據(jù)信息中有4項信息與已存儲數(shù)據(jù)的元數(shù)據(jù)信息相同，則相似度可以確定為66.7%。
[0058]步驟104:獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息；
[0059]所述數(shù)據(jù)描述信息，是指用于對數(shù)據(jù)內(nèi)容進行描述的信息。所述數(shù)據(jù)描述信息通?？梢杂扇斯ぞ庉嬌伞?br>[0060]假設(shè)有一份待存儲數(shù)據(jù)為隨機采樣的40個亞洲人的人臉圖像信息數(shù)據(jù)。則相應(yīng)的第一數(shù)據(jù)描述信息就可以為“亞洲隨機40人人臉圖像信息”。
[0061]步驟105:獲取所述已存儲數(shù)據(jù)的第二數(shù)據(jù)描述信息；
[0062]步驟106:比對所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息，得到數(shù)據(jù)描述相似度；
[0063]具體的，可以采用SimHash算法計算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離，根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0064]步驟107:對所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進行加權(quán)平均，得到總相似度；
[0065]具體的，對于所述元數(shù)據(jù)信息相似度和所述

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王大亮;楊琪;
技術(shù)所有人：數(shù)據(jù)堂（北京）科技股份有限公司;
我是此專利的發(fā)明人

上一篇：一種加強框緣條厚度設(shè)計方法
上一篇：一種負荷形態(tài)獲取方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

紙橋承重制作方法相關(guān)技術(shù)

紙繩拖重制作方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)去重方法及系統(tǒng)的制作方法