一種分布式環(huán)境下的實時數(shù)據(jù)同步方法
【專利摘要】本發(fā)明公開了一種分布式環(huán)境下的實時數(shù)據(jù)同步方法,該方法首先建立分中心實時數(shù)據(jù)中心和總中心實時數(shù)據(jù)中心,采集數(shù)據(jù)實時交換進入數(shù)據(jù)中心,按配置存入數(shù)據(jù)中心的融合庫、落選庫;然后同步總中心和分中心的數(shù)據(jù),在同步過程中,分中心負責發(fā)起同步操作及維護歷次同步操作間的增量一致性,總中心負責響應分中心發(fā)起的同步及按照配置完成同步過程;應用本發(fā)明的方法,可有效解決分布環(huán)境下各部門實時數(shù)據(jù)不一致導致的沖突及業(yè)務無法運作等問題,同時該方法可以提高數(shù)據(jù)同步的準確性及效率。
【專利說明】一種分布式環(huán)境下的實時數(shù)據(jù)同步方法
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)同步【技術領域】,尤其涉及一種分布式環(huán)境下的實時數(shù)據(jù)同步方法。
【背景技術】
[0002]對于目前現(xiàn)存的數(shù)據(jù)采集系統(tǒng),數(shù)據(jù)到數(shù)據(jù)庫中的過程存在許多問題,比如在水文領域,通過遙測站采集的數(shù)據(jù),數(shù)據(jù)質(zhì)量、數(shù)據(jù)穩(wěn)定性及安全性都比較低,尤其是在政府部門應用的采集系統(tǒng),與工業(yè)采集有一定的區(qū)別,政府部門和各地市級部門需要大量的數(shù)據(jù)共享和交換,而且各部門都有各自的采集系統(tǒng),對于相同的采樣點的采集,存在各部門數(shù)據(jù)不一致的情況,原因主要為:省中心和地市級中心遙測站采集的數(shù)據(jù)不一樣;省中心和地市級中心各自對采集數(shù)據(jù)的修改操作,導致數(shù)據(jù)不一樣。針對以上兩種常見情況,我們需要分布式環(huán)境下的實時數(shù)據(jù)同步方法解決由于數(shù)據(jù)不一致導致的沖突。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于針對目前實時數(shù)據(jù)同步及時性及數(shù)據(jù)一致性較差等缺陷,提供一種分布式環(huán)境下的實時數(shù)據(jù)同步方法,以提高數(shù)據(jù)同步的準確性及效率。
[0004]本發(fā)明是通過以下技術方案實現(xiàn)的:一種分布式環(huán)境下的實時數(shù)據(jù)同步方法,該方法包括如下步驟:
(1)建立分中心實時數(shù)據(jù)中心;
(2)建立總中心實時數(shù)據(jù)中心;
(3)同步總中心和分中心的數(shù)據(jù)。
[0005]所述步驟I和步驟2通過以下子步驟來實現(xiàn):
(1.1)采集終端自動采集的數(shù)據(jù)進入到自動庫中,對自動庫進行編號,對自動庫設定優(yōu)先級。
[0006](1.2)人工錄入的數(shù)據(jù)進入到人工庫中。
[0007](1.3)采集數(shù)據(jù)進入融合庫和落選庫,該步驟具體為:
(1.3.1)過濾,對本次采集得到的數(shù)據(jù)進行過濾。一次采集的數(shù)據(jù)中經(jīng)常會出現(xiàn)“同一條”數(shù)據(jù),所述“同一條”數(shù)據(jù)指的是數(shù)據(jù)的主鍵相等,即產(chǎn)生數(shù)據(jù)的站點和產(chǎn)生數(shù)據(jù)的時間都相同的數(shù)據(jù);對“同一條”數(shù)據(jù),如果兩條數(shù)據(jù)完全相同,則棄掉后來的那條,如果前一條數(shù)據(jù)某字段為空,而另一條數(shù)據(jù)恰好該字段有值,則將此值補入到前一條數(shù)據(jù)。如果前一條數(shù)據(jù)和后一條數(shù)據(jù)某個字段值不同,產(chǎn)生沖突,則按照事先設定的設備優(yōu)先級選取優(yōu)先級高的值。將這些操作做好日志,保留過濾后的數(shù)據(jù)到下一步。
[0008](1.3.2)質(zhì)量判定,對過濾后的數(shù)據(jù)進行質(zhì)量判定,將錯誤數(shù)據(jù)和可疑數(shù)據(jù)存入落選庫,只保留好數(shù)據(jù)到融合庫。預先對數(shù)據(jù)的各個實時數(shù)據(jù)設置錯誤域和可疑域。一旦數(shù)據(jù)的某個屬性落入錯誤域和可疑域,則將此數(shù)據(jù)打上錯誤或者可疑標記,做好日志,并將此數(shù)據(jù)存入落選庫。[0009](1.3.3)去重,對質(zhì)量判定后的好數(shù)據(jù)進行去重。對所有過濾后的數(shù)據(jù),去檢查融合庫中是否有“相同”數(shù)據(jù)。如果有,則按照過濾的方式,將兩條“相同”數(shù)據(jù)合并,并做好日志。
[0010](1.3.4)修改錯誤/可疑數(shù)據(jù)。對落選庫中的數(shù)據(jù),管理人員進行核對審查,將無用數(shù)據(jù)刪除,對有用數(shù)據(jù)則經(jīng)過人工修改后再合并入融合庫中,做好日志。
[0011](1.4)將融合庫中的數(shù)據(jù)按需進行數(shù)據(jù)同步。融合庫中數(shù)據(jù)的數(shù)據(jù)格式如下:
【權利要求】
1.一種分布式環(huán)境下的實時數(shù)據(jù)同步方法,其特征在于,該方法包括如下步驟: (O建立分中心實時數(shù)據(jù)中心; (2)建立總中心實時數(shù)據(jù)中心; (3)同步總中心和分中心的數(shù)據(jù); 所述步驟I和步驟2通過以下子步驟來實現(xiàn): (1.1)采集終端自動采集的數(shù)據(jù)進入到自動庫中,對自動庫進行編號,對自動庫設定優(yōu)先級; (1.2)人工錄入的數(shù)據(jù)進入到人工庫中; (1.3)采集數(shù)據(jù)進入融合庫和落選庫,該步驟具體為: (1.3.1)過濾,對本次采集得到的數(shù)據(jù)進行過濾;一次采集的數(shù)據(jù)中經(jīng)常會出現(xiàn)“同一條”數(shù)據(jù),所述“同一條”數(shù)據(jù)指的是數(shù)據(jù)的主鍵相等,即產(chǎn)生數(shù)據(jù)的站點和產(chǎn)生數(shù)據(jù)的時間都相同的數(shù)據(jù),對“同一條”數(shù)據(jù),如果兩條數(shù)據(jù)完全相同,則棄掉后來的那條,如果前一條數(shù)據(jù)某字段為空,而另一條數(shù)據(jù)恰好該字段有值,則將此值補入到前一條數(shù)據(jù),如果前一條數(shù)據(jù)和后一條數(shù)據(jù)某個字段值不同,產(chǎn)生沖突,則按照事先設定的設備優(yōu)先級選取優(yōu)先級高的值,將這些操作做好日志,保留過濾后的數(shù)據(jù)到下一步; (1.3.2)質(zhì)量判定,對過濾后的數(shù)據(jù)進行質(zhì)量判定,將錯誤數(shù)據(jù)和可疑數(shù)據(jù)存入落選庫,只保留好數(shù)據(jù)到融合 庫;預先對數(shù)據(jù)的各個實時數(shù)據(jù)設置錯誤域和可疑域,一旦數(shù)據(jù)的某個屬性落入錯誤域和可疑域,則將此數(shù)據(jù)打上錯誤或者可疑標記,做好日志,并將此數(shù)據(jù)存入落選庫; (1.3.3)去重,對質(zhì)量判定后的好數(shù)據(jù)進行去重;對所有過濾后的數(shù)據(jù),去檢查融合庫中是否有“相同”數(shù)據(jù),如果有,則按照過濾的方式,將兩條“相同”數(shù)據(jù)合并,并做好日志;(1.3.4)修改錯誤/可疑數(shù)據(jù);對落選庫中的數(shù)據(jù),管理人員進行核對審查,將無用數(shù)據(jù)刪除,對有用數(shù)據(jù)則經(jīng)過人工修改后再合并入融合庫中,做好日志; (1.4)將融合庫中的數(shù)據(jù)按需進行數(shù)據(jù)同步;融合庫中數(shù)據(jù)的數(shù)據(jù)格式如下:
【文檔編號】H04L29/08GK103825930SQ201310561924
【公開日】2014年5月28日 申請日期:2013年11月12日 優(yōu)先權日:2013年11月12日
【發(fā)明者】丁伯良, 邱超, 金輝明, 張子健, 王志鵬, 胡斌, 胡嘉鋒 申請人:浙江省水文局, 浙江成功軟件開發(fā)有限公司