數(shù)據(jù)描述相似度,可以分配不同的權(quán)重。例如,可以為數(shù)據(jù)描述相似度分配第一權(quán)重,為元數(shù)據(jù)信息相似度分配第二權(quán)重,所述第一權(quán)重大于所述第二權(quán)重,這樣可以使數(shù)據(jù)描述相似度在總相似度中所占的比重增大,從而使得對(duì)于相似度的計(jì)算更加精準(zhǔn)。
[0066]步驟108:按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;
[0067]具體的,可以按照總相似度由高到低的順序?qū)λ鲆汛鎯?chǔ)數(shù)據(jù)進(jìn)行排序??傁嗨贫茸罡叩囊汛鎯?chǔ)數(shù)據(jù),將位于首位。
[0068]步驟109:將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù);
[0069]其中,η為自然數(shù),η的取值可以根據(jù)實(shí)際需求進(jìn)行設(shè)定。例如,η可以取8、9或10等等。
[0070]將所述待處理數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)后,可以將所述待處理數(shù)據(jù)交由人工審核。對(duì)于疑似重復(fù)數(shù)據(jù),可以不將疑似重復(fù)數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
[0071]綜上所述,本實(shí)施例中,通過將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度;比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度;按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù);可以縮小數(shù)據(jù)去重范圍,從而有效降低人工進(jìn)行數(shù)據(jù)去重的工作量,使人工進(jìn)行數(shù)據(jù)去重的工作量被控制在可接受的范圍內(nèi)。
[0072]實(shí)際應(yīng)用中,所述將所述待處理數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)之后,還可以包括以下步驟:
[0073]將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對(duì)所述疑似重復(fù)數(shù)據(jù)與所述已存儲(chǔ)數(shù)據(jù)進(jìn)行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲(chǔ)數(shù)據(jù)的信息構(gòu)成。
[0074]由于數(shù)據(jù)內(nèi)容本身的多樣性和復(fù)雜性,導(dǎo)致對(duì)于數(shù)據(jù)的比對(duì)過程無法由計(jì)算機(jī)完全勝任。具體的,對(duì)于一份較龐大的數(shù)據(jù),對(duì)于其中的某些數(shù)據(jù)進(jìn)行刪除或修改等編輯之后,新生成的數(shù)據(jù)是否能被認(rèn)為與原數(shù)據(jù)是同一份數(shù)據(jù),這只能夠由人工審核才能確定。因此,上述步驟可以使對(duì)于數(shù)據(jù)的比對(duì)過程更加精確。
[0075]實(shí)際應(yīng)用中,所述將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,還可以包括以下步驟:
[0076]當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時(shí),將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
[0077]因?yàn)楫?dāng)經(jīng)過人工審核確認(rèn)待存儲(chǔ)數(shù)據(jù)與已存儲(chǔ)數(shù)據(jù)不同時(shí),待存儲(chǔ)數(shù)據(jù)與已存儲(chǔ)數(shù)據(jù)相同的概率基本為零,因此,此時(shí)可以確定待存儲(chǔ)數(shù)據(jù)與已存儲(chǔ)數(shù)據(jù)不相同,從而將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
[0078]本發(fā)明還公開了一種數(shù)據(jù)去重系統(tǒng)。圖2為本發(fā)明的數(shù)據(jù)去重系統(tǒng)實(shí)施例的結(jié)構(gòu)圖。如圖2所示,該系統(tǒng)可以包括:
[0079]待處理數(shù)據(jù)獲取單元201,用于獲取上傳至數(shù)據(jù)平臺(tái)的待處理數(shù)據(jù);
[0080]元數(shù)據(jù)信息確定單元202,用于確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息;
[0081]元數(shù)據(jù)信息比對(duì)單元203,用于將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度;
[0082]第一數(shù)據(jù)描述信息獲取單元204,用于獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息;
[0083]第二數(shù)據(jù)描述信息獲取單元205,用于獲取所述已存儲(chǔ)數(shù)據(jù)的第二數(shù)據(jù)描述信息;
[0084]數(shù)據(jù)描述信息比對(duì)單元206,用于比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;
[0085]總相似度計(jì)算單元207,用于對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度;
[0086]排序單元208,用于按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;
[0087]疑似重復(fù)數(shù)據(jù)標(biāo)記單元209,用于將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)。
[0088]本實(shí)施例中,通過將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度;比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度;按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù);可以縮小數(shù)據(jù)去重范圍,從而有效降低人工進(jìn)行數(shù)據(jù)去重的工作量,使人工進(jìn)行數(shù)據(jù)去重的工作量被控制在可接受的范圍內(nèi)。
[0089]實(shí)際應(yīng)用中,該系統(tǒng)還可以包括:
[0090]疑似重復(fù)數(shù)據(jù)發(fā)送單元,用于將所述待處理數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)之后,將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對(duì)所述疑似重復(fù)數(shù)據(jù)與所述已存儲(chǔ)數(shù)據(jù)進(jìn)行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲(chǔ)數(shù)據(jù)的信息構(gòu)成。
[0091]實(shí)際應(yīng)用中,所述系統(tǒng)還可以包括:
[0092]待處理數(shù)據(jù)保存單元,用于將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時(shí),將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
[0093]實(shí)際應(yīng)用中,所述數(shù)據(jù)描述信息比對(duì)單元206,具體可以包括:
[0094]海明距離計(jì)算子單元,用于采用SimHash算法計(jì)算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
[0095]本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的系統(tǒng)而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說明即可。
[0096]本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)去重方法,其特征在于,包括: 獲取上傳至數(shù)據(jù)平臺(tái)的待處理數(shù)據(jù); 確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息; 將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度; 獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息; 獲取所述已存儲(chǔ)數(shù)據(jù)的第二數(shù)據(jù)描述信息; 比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度; 對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度; 按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序; 將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述待處理數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)之后,還包括: 將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對(duì)所述疑似重復(fù)數(shù)據(jù)與所述已存儲(chǔ)數(shù)據(jù)進(jìn)行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲(chǔ)數(shù)據(jù)的信息構(gòu)成。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,還包括: 當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時(shí),將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度,具體包括: 采用SimHash算法計(jì)算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
5.一種數(shù)據(jù)去重系統(tǒng),其特征在于,包括: 待處理數(shù)據(jù)獲取單元,用于獲取上傳至數(shù)據(jù)平臺(tái)的待處理數(shù)據(jù); 元數(shù)據(jù)信息確定單元,用于確定所述待處理數(shù)據(jù)的元數(shù)據(jù)信息; 元數(shù)據(jù)信息比對(duì)單元,用于將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度; 第一數(shù)據(jù)描述信息獲取單元,用于獲取所述待處理數(shù)據(jù)的第一數(shù)據(jù)描述信息; 第二數(shù)據(jù)描述信息獲取單元,用于獲取所述已存儲(chǔ)數(shù)據(jù)的第二數(shù)據(jù)描述信息; 數(shù)據(jù)描述信息比對(duì)單元,用于比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度; 總相似度計(jì)算單元,用于對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度; 排序單元,用于按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;疑似重復(fù)數(shù)據(jù)標(biāo)記單元,用于將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前η個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,還包括: 疑似重復(fù)數(shù)據(jù)發(fā)送單元,用于將所述待處理數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)之后,將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端,以便對(duì)所述疑似重復(fù)數(shù)據(jù)與所述已存儲(chǔ)數(shù)據(jù)進(jìn)行人工審核;所述數(shù)據(jù)列表由排序后的所述已存儲(chǔ)數(shù)據(jù)的信息構(gòu)成。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,還包括: 待處理數(shù)據(jù)保存單元,用于將包含有所述疑似重復(fù)數(shù)據(jù)的信息的數(shù)據(jù)列表發(fā)送至人工審核客戶端之后,當(dāng)所述疑似重復(fù)數(shù)據(jù)與所述待處理數(shù)據(jù)不同時(shí),將所述待處理數(shù)據(jù)保存至所述數(shù)據(jù)平臺(tái)。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述數(shù)據(jù)描述信息比對(duì)單元,具體包括: 海明距離計(jì)算子單元,用于采用SimHash算法計(jì)算所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的海明距離,根據(jù)所述海明距離確定所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息之間的的數(shù)據(jù)描述相似度。
【專利摘要】本發(fā)明公開一種數(shù)據(jù)去重方法及系統(tǒng)。所述方法包括:將所述待處理數(shù)據(jù)的元數(shù)據(jù)信息與所述數(shù)據(jù)平臺(tái)的已存儲(chǔ)數(shù)據(jù)的元數(shù)據(jù)信息進(jìn)行比對(duì),得到元數(shù)據(jù)信息相似度;比對(duì)所述第一數(shù)據(jù)描述信息與所述第二數(shù)據(jù)描述信息,得到數(shù)據(jù)描述相似度;對(duì)所述元數(shù)據(jù)信息相似度和所述數(shù)據(jù)描述相似度進(jìn)行加權(quán)平均,得到總相似度;按照所述總相似度對(duì)所述已存儲(chǔ)數(shù)據(jù)進(jìn)行排序;將排序后的所述已存儲(chǔ)數(shù)據(jù)中的前n個(gè)數(shù)據(jù)標(biāo)記為疑似重復(fù)數(shù)據(jù)。采用本發(fā)明的方法或系統(tǒng),可以縮小數(shù)據(jù)去重范圍,從而有效降低人工進(jìn)行數(shù)據(jù)去重的工作量,使人工進(jìn)行數(shù)據(jù)去重的工作量被控制在可接受的范圍內(nèi)。
【IPC分類】G06F17-30
【公開號(hào)】CN104809256
【申請(qǐng)?zhí)枴緾N201510266694
【發(fā)明人】王大亮, 楊琪
【申請(qǐng)人】數(shù)據(jù)堂(北京)科技股份有限公司
【公開日】2015年7月29日
【申請(qǐng)日】2015年5月22日