一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置的制造方法
【專利摘要】本發(fā)明提供了一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置,此存儲(chǔ)裝置包括:數(shù)據(jù)采集模塊、數(shù)據(jù)傳遞模塊、數(shù)據(jù)分類模塊、數(shù)據(jù)存儲(chǔ)模塊,此方法包括:數(shù)據(jù)采集傳遞,將不同地點(diǎn)和不同傳感器采集的信息數(shù)據(jù)進(jìn)行收集;數(shù)據(jù)劃分,將采集的信息數(shù)據(jù)基于時(shí)間和空間的方式進(jìn)行劃分,劃分好的數(shù)據(jù)進(jìn)入到存儲(chǔ)模塊進(jìn)行存儲(chǔ);數(shù)據(jù)存儲(chǔ),數(shù)據(jù)采用分片方式進(jìn)行數(shù)據(jù)存儲(chǔ)。本發(fā)明將不同地點(diǎn)、不同傳感器描述的不同事件信息分類保存,加快了后續(xù)數(shù)據(jù)提取、統(tǒng)計(jì)和分析。
【專利說明】
一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種數(shù)據(jù)存儲(chǔ)技術(shù),尤其涉及一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和Intranet技術(shù)的飛快發(fā)展,使得非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。這時(shí),主要用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)的局限性暴露地越來越明顯。因而,數(shù)據(jù)庫(kù)技術(shù)相應(yīng)地進(jìn)入了“后關(guān)系數(shù)據(jù)庫(kù)時(shí)代”,發(fā)展進(jìn)入基于網(wǎng)絡(luò)應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)時(shí)代。非結(jié)構(gòu)化數(shù)據(jù)的迅猛發(fā)展,對(duì)存儲(chǔ)的容量空間是一大考驗(yàn),非結(jié)構(gòu)化數(shù)據(jù)的多存儲(chǔ)系統(tǒng)不僅在存儲(chǔ)能力上具有強(qiáng)容錯(cuò)、高可用和可擴(kuò)展等特征,并且其可以利用不同類型的存儲(chǔ)組件展示一個(gè)數(shù)據(jù)集的多種服務(wù)視圖來提供更豐富的數(shù)據(jù)服務(wù)。
[0003]在非結(jié)構(gòu)化數(shù)據(jù)多存儲(chǔ)系統(tǒng)內(nèi),主數(shù)據(jù)庫(kù)與其它數(shù)據(jù)存儲(chǔ)組件分布在不同的網(wǎng)絡(luò)節(jié)點(diǎn)中,并以網(wǎng)絡(luò)鏈路相連。需要同步的數(shù)據(jù)以字節(jié)流的形式在數(shù)據(jù)鏈路中傳輸。由于非結(jié)構(gòu)化數(shù)據(jù)海量異構(gòu)的自然屬性,它們之間的數(shù)據(jù)同步過程必須符合如下幾個(gè)條件:高效性,數(shù)據(jù)同步組件以較高的吞吐量完成數(shù)據(jù)的傳輸;時(shí)效性,數(shù)據(jù)必須以一個(gè)較小的延時(shí)在存儲(chǔ)組件之間同步;可擴(kuò)展性,數(shù)據(jù)同步組件必須在系統(tǒng)數(shù)據(jù)量增大時(shí)提供有效的水平擴(kuò)展手段。非結(jié)構(gòu)數(shù)據(jù)的劃分存儲(chǔ)一直是一個(gè)難題,不僅影響了存儲(chǔ)的信息量,以及存儲(chǔ)成本,而且對(duì)后續(xù)的檢索效率和全面性都有很大影響。
【發(fā)明內(nèi)容】
[0004]針對(duì)上述問題,本發(fā)明提出了一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置,實(shí)現(xiàn)非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)的時(shí)序性,加快后續(xù)數(shù)據(jù)處理分析。
[0005]本發(fā)明提出了一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,包括:
a.數(shù)據(jù)采集傳遞:將不同地點(diǎn)和不同傳感器采集的信息數(shù)據(jù)進(jìn)行收集;
b.數(shù)據(jù)劃分:將采集的信息數(shù)據(jù)基于時(shí)間和空間的方式進(jìn)行劃分,劃分好的數(shù)據(jù)進(jìn)入到存儲(chǔ)模塊進(jìn)行存儲(chǔ);
c.數(shù)據(jù)存儲(chǔ):數(shù)據(jù)采用分片方式進(jìn)行數(shù)據(jù)存儲(chǔ)。
[0006]進(jìn)一步,所述數(shù)據(jù)劃分中基于空間的劃分方式采用網(wǎng)格的形式進(jìn)行地理空間的劃分,所述網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ),當(dāng)數(shù)據(jù)存儲(chǔ)量達(dá)到儲(chǔ)存數(shù)據(jù)塊的儲(chǔ)存容量時(shí),數(shù)據(jù)將自動(dòng)存入分布式文件系統(tǒng)。
[0007]進(jìn)一步,所述數(shù)據(jù)存儲(chǔ)的分片方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引。
[0008]進(jìn)一步,所述數(shù)據(jù)存儲(chǔ)利用元信息記錄網(wǎng)格和時(shí)間段儲(chǔ)存到文件的映射信息系中。
[0009]進(jìn)一步,所述數(shù)據(jù)的全文索引實(shí)現(xiàn)了數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和數(shù)據(jù)聚集的處理方法。
[0010]本發(fā)明還提供一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,包括數(shù)據(jù)采集模塊、數(shù)據(jù)傳遞模塊、數(shù)據(jù)分類模塊、數(shù)據(jù)存儲(chǔ)模塊,所述數(shù)據(jù)采集模塊將收集的數(shù)據(jù)通過數(shù)據(jù)傳遞模塊輸送到數(shù)據(jù)分類模塊,所述數(shù)據(jù)分類模塊根據(jù)時(shí)間和空間來劃分?jǐn)?shù)據(jù)信息,并通過分片方式將數(shù)據(jù)信息存儲(chǔ)到所述數(shù)據(jù)存儲(chǔ)模塊中。
[0011]進(jìn)一步,所述數(shù)據(jù)分類模塊采用網(wǎng)格的形式進(jìn)行地理空間的劃分,網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ)。
[0012]進(jìn)一步,所述數(shù)據(jù)存儲(chǔ)模塊的分片存儲(chǔ)方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引。
[0013]進(jìn)一步,所述數(shù)據(jù)存儲(chǔ)模塊中采用8MB-16MB的數(shù)據(jù)塊。
[0014]本發(fā)明的有益效果為:一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法與裝置,可根據(jù)不同地點(diǎn)、不同傳感器的不同信息數(shù)據(jù),根據(jù)空間和時(shí)序性進(jìn)行數(shù)據(jù)劃分存儲(chǔ),便于數(shù)據(jù)的過濾、轉(zhuǎn)換、分組和聚集處理,加快了后續(xù)數(shù)據(jù)的提取、統(tǒng)計(jì)和分析效率。
【附圖說明】
[0015]
圖1為本發(fā)明一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法流程圖;
圖2為本發(fā)明一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置示意圖。
【具體實(shí)施方式】
[0016]結(jié)合圖1所示,一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,包括以下步驟:
a.數(shù)據(jù)采集傳遞:將不同地點(diǎn)和不同傳感器采集的信息數(shù)據(jù)進(jìn)行收集;b.數(shù)據(jù)劃分:將采集的信息數(shù)據(jù)基于時(shí)間和空間的方式進(jìn)行劃分,劃分好的數(shù)據(jù)進(jìn)入到存儲(chǔ)模塊進(jìn)行存儲(chǔ);c.數(shù)據(jù)存儲(chǔ):數(shù)據(jù)采用分片方式進(jìn)行數(shù)據(jù)存儲(chǔ)。
[0017]所述數(shù)據(jù)劃分中基于空間的劃分方式采用網(wǎng)格的形式進(jìn)行地理空間的劃分,所述網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ),當(dāng)數(shù)據(jù)存儲(chǔ)量達(dá)到儲(chǔ)存數(shù)據(jù)塊的儲(chǔ)存容量時(shí),數(shù)據(jù)將自動(dòng)存入分布式文件系統(tǒng)。其中,所述數(shù)據(jù)存儲(chǔ)的分片方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引。存儲(chǔ)中利用元信息記錄網(wǎng)格和時(shí)間段儲(chǔ)存到文件的映射信息系中。此種存儲(chǔ)方法存儲(chǔ)的數(shù)據(jù)全文索引實(shí)現(xiàn)了數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和數(shù)據(jù)聚集的處理。
[0018]結(jié)合圖2所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,包括數(shù)據(jù)采集模塊、數(shù)據(jù)傳遞模塊、數(shù)據(jù)分類模塊、數(shù)據(jù)存儲(chǔ)模塊,所述數(shù)據(jù)采集模塊將收集的數(shù)據(jù)通過數(shù)據(jù)傳遞模塊輸送到數(shù)據(jù)分類模塊,所述數(shù)據(jù)分類模塊根據(jù)時(shí)間和空間來劃分?jǐn)?shù)據(jù)信息,所述數(shù)據(jù)存儲(chǔ)模塊為8MB的數(shù)據(jù)塊,采用分片方式進(jìn)行數(shù)據(jù)存儲(chǔ)。所述數(shù)據(jù)分類模塊采用網(wǎng)格的形式進(jìn)行地理空間的劃分,網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ)。所述數(shù)據(jù)存儲(chǔ)模塊的分片存儲(chǔ)方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引。
[0019]實(shí)施例一:
首先通過數(shù)據(jù)采集模塊將不同地點(diǎn)和傳感器的數(shù)據(jù)信息進(jìn)行收集,然后通過數(shù)據(jù)傳遞模塊傳遞給數(shù)據(jù)分類模塊,根據(jù)事件數(shù)據(jù)的時(shí)間和坐標(biāo)信息,首先采用網(wǎng)格的形式進(jìn)行空間劃分,每個(gè)網(wǎng)格為對(duì)應(yīng)地理空間的一個(gè)正方形區(qū)域,再按照時(shí)間的先后排列,最后將劃分好的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊,該數(shù)據(jù)存儲(chǔ)模塊選用8MB的數(shù)據(jù)塊采用分片存儲(chǔ)方式,將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引,實(shí)現(xiàn)數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和數(shù)據(jù)聚集的處理,便于后續(xù)數(shù)據(jù)檢索。
[0020]實(shí)施例二:
首先通過數(shù)據(jù)采集模塊將不同地點(diǎn)和傳感器的數(shù)據(jù)信息進(jìn)行收集,然后通過數(shù)據(jù)傳遞模塊傳遞給數(shù)據(jù)分類模塊,根據(jù)事件數(shù)據(jù)的時(shí)間和坐標(biāo)信息,首先采用網(wǎng)格的形式進(jìn)行空間劃分,每個(gè)網(wǎng)格為對(duì)應(yīng)地理空間的一個(gè)正方形區(qū)域,再按照時(shí)間的先后排列,最后將劃分好的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)存儲(chǔ)模塊,該數(shù)據(jù)存儲(chǔ)模塊選用16MB的數(shù)據(jù)塊采用分片存儲(chǔ)方式,將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引,實(shí)現(xiàn)數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和數(shù)據(jù)聚集的處理,便于后續(xù)數(shù)據(jù)檢索。
[0021]以上顯示和描述了本發(fā)明的基本原理和主要特征以及本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。
【主權(quán)項(xiàng)】
1.一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,包括: a.數(shù)據(jù)采集傳遞:將不同地點(diǎn)和不同傳感器采集的信息數(shù)據(jù)進(jìn)行收集; b.數(shù)據(jù)劃分:將采集的信息數(shù)據(jù)基于時(shí)間和空間的方式進(jìn)行劃分,劃分好的數(shù)據(jù)進(jìn)入到存儲(chǔ)模塊進(jìn)行存儲(chǔ); c.數(shù)據(jù)存儲(chǔ):數(shù)據(jù)采用分片方式進(jìn)行數(shù)據(jù)存儲(chǔ)。2.根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,其特征在于,所述數(shù)據(jù)劃分中基于空間的劃分方式采用網(wǎng)格的形式進(jìn)行地理空間的劃分,所述網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ),當(dāng)數(shù)據(jù)存儲(chǔ)量達(dá)到儲(chǔ)存數(shù)據(jù)塊的儲(chǔ)存容量時(shí),數(shù)據(jù)將自動(dòng)存入分布式文件系統(tǒng)。3.根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,其特征在于,所述數(shù)據(jù)存儲(chǔ)的分片方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索弓I。4.根據(jù)權(quán)利要求3所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,其特征在于,所述數(shù)據(jù)存儲(chǔ)利用元信息記錄網(wǎng)格和時(shí)間段儲(chǔ)存到文件的映射信息系中。5.根據(jù)權(quán)利要求3所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的方法,其特征在于,數(shù)據(jù)的全文索引實(shí)現(xiàn)了數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分組和數(shù)據(jù)聚集的處理方法。6.—種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,其特征在于,包括數(shù)據(jù)采集模塊、數(shù)據(jù)傳遞模塊、數(shù)據(jù)分類模塊、數(shù)據(jù)存儲(chǔ)模塊,所述數(shù)據(jù)采集模塊將收集的數(shù)據(jù)通過數(shù)據(jù)傳遞模塊輸送到數(shù)據(jù)分類模塊,所述數(shù)據(jù)分類模塊根據(jù)時(shí)間和空間來劃分?jǐn)?shù)據(jù)信息,并通過分片方式將數(shù)據(jù)信息存儲(chǔ)到所述數(shù)據(jù)存儲(chǔ)模塊中。7.根據(jù)權(quán)利要求6所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,其特征在于,所述數(shù)據(jù)分類模塊采用網(wǎng)格的形式進(jìn)行地理空間的劃分,網(wǎng)格為對(duì)應(yīng)于地理空間的一個(gè)正方形區(qū)域,每個(gè)網(wǎng)格的地理空間的事件再按照時(shí)間先后順序進(jìn)行存儲(chǔ)。8.根據(jù)權(quán)利要求7所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,其特征在于,所述數(shù)據(jù)存儲(chǔ)模塊的分片存儲(chǔ)方式為將每個(gè)Shard分成一系列的Segment,每個(gè)Segment包含一系列的Event,再對(duì)Event抽取特定的域Field,以及對(duì)整個(gè)Event信息進(jìn)行分詞,最后創(chuàng)建全文索引。9.根據(jù)權(quán)利要求8所述的一種非結(jié)構(gòu)化事件日志數(shù)據(jù)的劃分和存儲(chǔ)的裝置,其特征在于,所述數(shù)據(jù)存儲(chǔ)模塊中采用8MB-16MB的數(shù)據(jù)塊。
【文檔編號(hào)】G06F17/30GK106055697SQ201610416197
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】陳凌岳
【申請(qǐng)人】安徽天樞信息科技有限公司