一種分布式數(shù)據(jù)存儲處理方法及存儲處理系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種分布式數(shù)據(jù)存儲處理方法及存儲處理系統(tǒng)。對大批量來源數(shù)據(jù),按照等比大小進行切分為M個數(shù)據(jù)塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進行存儲;將所述M個數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個不同的服務(wù)器,進行存儲。能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時更短,時效性更強,支持數(shù)據(jù)的修改與刪除操作,并能夠提供實時查詢功能。
【專利說明】
一種分布式數(shù)據(jù)存儲處理方法及存儲處理系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種分布式數(shù)據(jù)存儲處理方法及存儲處理系統(tǒng),特別是涉及一種適用于對大數(shù)據(jù)來源進行分析存儲的分布式數(shù)據(jù)存儲處理方法及存儲處理系統(tǒng)。
【背景技術(shù)】
[0002]目前,數(shù)據(jù)處理成為數(shù)據(jù)挖掘、數(shù)據(jù)分析的主要方式。例如,網(wǎng)站日志就是一個大數(shù)據(jù)量的數(shù)據(jù)。再例如,工作生活中無處不在的網(wǎng)絡(luò)流量。這樣的數(shù)據(jù)具有以下特點:(1)數(shù)據(jù)量大;(2)具有時間屬性,即時序性。
[0003]數(shù)據(jù)分析通常分為離線處理與交互式查詢,針對不同的數(shù)據(jù)形式,采用不同形式數(shù)據(jù)處理方法。離線處理的特點:(1)數(shù)據(jù)量龐大;(2)時效性差。如何快速的分析數(shù)據(jù),尤其是在數(shù)據(jù)量很大的情況下,滿足各種要求一直都是技術(shù)上的難點。而且現(xiàn)在的分布式數(shù)據(jù)處理系統(tǒng)中存在如下缺陷。
[0004](I)對數(shù)據(jù)進行處理時,當數(shù)據(jù)量非常大的時候,數(shù)據(jù)處理和數(shù)據(jù)分析變量十分耗時,而且不支持數(shù)據(jù)的修改與刪除操作?,F(xiàn)有的分布式數(shù)據(jù)處理系統(tǒng)一般采用重新進行數(shù)據(jù)分析來完成修改與刪除,這個過程是非常耗時。
[0005](2)對于大數(shù)據(jù)量的處理,分布并行計算已成為趨勢。而現(xiàn)在的并行計算系統(tǒng),基本離線處理與交互式查詢二者不能兼得,對在大量的數(shù)據(jù)處理與分析后的結(jié)果,無法立即提供查詢的功能,需要將結(jié)果導入到其它系統(tǒng)才能進行查詢操作。
[0006]綜上所述,現(xiàn)有技術(shù)中對大批量數(shù)據(jù)進行分布式數(shù)據(jù)處理時,耗時時間長,不支持數(shù)據(jù)的修改與刪除操作,并且離線處理與交互式查詢二者能不能兼得。
【發(fā)明內(nèi)容】
[0007]本發(fā)明要解決的技術(shù)問題是提供一種分布式數(shù)據(jù)存儲處理方法及系統(tǒng),能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時更短,時效性更強,支持數(shù)據(jù)的修改與刪除操作,并能夠提供實時查詢功能。
[0008]本發(fā)明采用的技術(shù)方案如下:
一種分布式數(shù)據(jù)存儲處理方法,其特征在于:對大批量來源數(shù)據(jù),按照等比大小進行切分為M個數(shù)據(jù)塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進行存儲;將所述M個數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個不同的服務(wù)器,進行存儲,所述M和N為大于等于2的自然數(shù)。
[0009]數(shù)據(jù)切分后進行分別存儲,并建立索引,使數(shù)據(jù)處理速度更快,耗時更短,同時能夠支持數(shù)據(jù)的修改與刪除操作,并能夠進行實時查詢。
[0010]所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進行切分,對于不滿足基本大小的部分,單獨作為一個數(shù)據(jù)塊。
[0011 ]例如,對于一個大數(shù)據(jù)來源,其指定切分的塊的基本大小為64MB每塊,則按照64MB每塊的大小進行切分,對于不滿足64MB大小的部分,單獨作為一個數(shù)據(jù)塊。
[0012]如果只是需要展示查看所要查找到的數(shù)據(jù)內(nèi)容,則進行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容進行匯總存儲到指定位置。
[0013]由于所要找的數(shù)據(jù)內(nèi)容可能分布在不同的存儲位置,因此,要將找到的數(shù)據(jù)內(nèi)容進行匯總后再進行存儲展示。
[0014]如果需要進一步對查找到的內(nèi)容進行提取匯總計算,則進行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進行計算,從而得出所需求的具體數(shù)據(jù)內(nèi)容;
四、將步驟三中得出的數(shù)據(jù)內(nèi)容進行結(jié)果匯總計算,存儲到指定位置。
[0015]例如,要找到某一個手機號碼A下與另外一個手機號碼B的通訊記錄,則可以先找到有關(guān)手機號碼A的數(shù)據(jù)內(nèi)容存放的具體位置,然后將找到的內(nèi)容交給本地服務(wù)器進行計算,找出其與手機號碼B的通訊記錄的數(shù)據(jù)內(nèi)容,各個服務(wù)器將計算結(jié)果進行交互匯總后,存儲到指定位置。
[0016]所述步驟四中,將數(shù)據(jù)內(nèi)容進行結(jié)果匯總時,將數(shù)據(jù)進行分批單節(jié)點計算匯總,再對分批單節(jié)點匯總的結(jié)果進行總結(jié)果匯總。
[0017]在需要結(jié)果匯總的數(shù)據(jù)量非常大或者分類較多的情況下,能夠進行分批量進行單節(jié)點匯總,對幾個單節(jié)點匯總計算的結(jié)果再進行匯總,得出最終結(jié)果。
[0018]一種分布式數(shù)據(jù)存儲處理系統(tǒng),其特征在于:包括,
數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進行切分為M個數(shù)據(jù)塊;
索引建立模塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引;
索引存儲模塊,存儲建立的索引;
數(shù)據(jù)塊分發(fā)模塊,將所述M個數(shù)據(jù)塊進行分發(fā)存儲;
服務(wù)器模塊,包括N個,存儲數(shù)據(jù)分發(fā)模塊所分發(fā)的M個數(shù)據(jù)塊;
所述M和N為大于等于2的自然數(shù)。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時更短,時效性更強,支持數(shù)據(jù)的修改與刪除操作,并能夠提供實時查詢功能。
【附圖說明】
[0020]圖1為本發(fā)明其中一實施例的大數(shù)據(jù)量來源分布式數(shù)據(jù)存儲系統(tǒng)的原理示意圖。
[0021]圖2為圖1所示實施例中的大數(shù)據(jù)量分布式數(shù)據(jù)處理系統(tǒng)的原理示意圖。
【具體實施方式】
[0022]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0023]本說明書(包括摘要和附圖)中公開的任一特征,除非特別敘述,均可被其他等效或者具有類似目的的替代特征加以替換。即,除非特別敘述,每個特征只是一系列等效或類似特征中的一個例子而已。
[0024]如圖1所示的分布式數(shù)據(jù)存儲處理方法,對大批量來源數(shù)據(jù),按照等比大小進行切分為M個數(shù)據(jù)塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進行存儲;將所述M個數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個不同的服務(wù)器,進行存儲,所述M和N為大于等于2的自然數(shù)。在本具體實施例中,M=N=3。對數(shù)據(jù)A進行切分為數(shù)據(jù)塊B、C和D,分別將數(shù)據(jù)塊對應(yīng)存儲與服務(wù)器B,服務(wù)器C和服務(wù)器D下的磁盤組空間中。
[0025]數(shù)據(jù)切分后進行分別存儲,并建立索引,使數(shù)據(jù)處理速度更快,耗時更短,同時能夠支持數(shù)據(jù)的修改與刪除操作,并能夠進行實時查詢。
[0026]進一步地,所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進行切分,對于不滿足基本大小的部分,單獨作為一個數(shù)據(jù)塊。
[0027]如果只是需要展示查看所要查找到的數(shù)據(jù)內(nèi)容,則進行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容進行匯總存儲到指定位置。
[0028]如圖2所示,如果需要進一步對查找到的內(nèi)容進行提取匯總計算,則進行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進行計算,從而得出所需求的具體數(shù)據(jù)內(nèi)容;
四、將步驟三中得出的數(shù)據(jù)內(nèi)容進行結(jié)果匯總計算,存儲到指定位置。
[0029]所述步驟四中,將數(shù)據(jù)內(nèi)容進行結(jié)果匯總時,將數(shù)據(jù)進行分批單節(jié)點計算匯總,再對分批單節(jié)點匯總的結(jié)果進行總結(jié)果匯總。
[0030]基于上述數(shù)據(jù)存儲處理方法的分布式數(shù)據(jù)存儲處理系統(tǒng),包括,
數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進行切分為M個數(shù)據(jù)塊;
索引建立模塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引;
索引存儲模塊,存儲建立的索引;
數(shù)據(jù)塊分發(fā)模塊,將所述M個數(shù)據(jù)塊進行分發(fā)存儲;
服務(wù)器模塊,包括N個,存儲數(shù)據(jù)分發(fā)模塊所分發(fā)的M個數(shù)據(jù)塊;
所述M和N為大于等于2的自然數(shù)。
[0031 ] 在本具體實施例中,M=N=3。
【主權(quán)項】
1.一種分布式數(shù)據(jù)存儲處理方法,其特征在于:對大批量來源數(shù)據(jù),按照等比大小進行切分為M個數(shù)據(jù)塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進行存儲;將所述M個數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個不同的服務(wù)器,進行存儲,所述M和N為大于等于2的自然數(shù)。2.根據(jù)權(quán)利要求1所述的分布式數(shù)據(jù)存儲處理方法,其特征在于:所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進行切分,對于不滿足基本大小的部分,單獨作為一個數(shù)據(jù)塊。3.根據(jù)權(quán)利要求1或2所述的分布式數(shù)據(jù)存儲處理方法,其特征在于:進行數(shù)據(jù)查找的具體方法步驟為: 一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引; 二、通過索弓I找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置; 三、把找到的數(shù)據(jù)內(nèi)容進行匯總存儲到指定位置。4.根據(jù)權(quán)利要求1或2所述的分布式數(shù)據(jù)存儲處理方法,其特征在于:進行數(shù)據(jù)查找的具體方法步驟為: 一、分布式計算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引; 二、通過索弓I找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置; 三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進行計算,從而得出所需求的具體數(shù)據(jù)內(nèi)容; 四、將步驟三中得出的數(shù)據(jù)內(nèi)容進行結(jié)果匯總計算,存儲到指定位置。5.根據(jù)權(quán)利要求4所述的分布式數(shù)據(jù)存儲處理方法,其特征在于:所述步驟四中,將數(shù)據(jù)內(nèi)容進行結(jié)果匯總時,將數(shù)據(jù)進行分批單節(jié)點計算匯總,再對分批單節(jié)點匯總的結(jié)果進行總結(jié)果匯總。6.一種分布式數(shù)據(jù)存儲處理系統(tǒng),其特征在于:包括, 數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進行切分為M個數(shù)據(jù)塊; 索引建立模塊,對每個切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引; 索引存儲模塊,存儲建立的索引; 數(shù)據(jù)塊分發(fā)模塊,將所述M個數(shù)據(jù)塊進行分發(fā)存儲; 服務(wù)器模塊,包括N個,存儲數(shù)據(jù)分發(fā)模塊所分發(fā)的M個數(shù)據(jù)塊; 所述M和N為大于等于2的自然數(shù)。
【文檔編號】G06F17/30GK106055691SQ201610406253
【公開日】2016年10月26日
【申請日】2016年6月12日
【發(fā)明人】李軼夫, 羅鷹, 林康, 鐘峰, 魯驍, 姚珊, 姜棟, 張建松, 司成祥
【申請人】成都科來軟件有限公司, 國家計算機網(wǎng)絡(luò)與信息安全管理中心