一種面向?qū)崟r數(shù)據(jù)庫的實時文件系統(tǒng)數(shù)據(jù)組織管理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及實時數(shù)據(jù)庫技術(shù)和實時文件系統(tǒng)技術(shù),特別是指一種針對實時數(shù)據(jù)庫 的實時文件系統(tǒng)數(shù)據(jù)組織管理的方法。
【背景技術(shù)】
[0002] 實時數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)與實時系統(tǒng)結(jié)合的產(chǎn)物。實時數(shù)據(jù)庫在流程行業(yè)(石 化,電力,鋼鐵)有著廣泛的應(yīng)用。它可用于生產(chǎn)過程的自動采集、存儲和監(jiān)視,也可在線存 儲每個工藝采樣點的多年數(shù)據(jù),是企業(yè)MES的核心。實時數(shù)據(jù)庫的最主要特征就是其數(shù)據(jù) 和任務(wù)具有顯式定時限制,但是由于實時數(shù)據(jù)庫主要應(yīng)用于流程行業(yè),而流程行業(yè)通常采 樣點數(shù)規(guī)模比較大,要求實時性的同時也要求完成大規(guī)模歸檔數(shù)據(jù)的存儲和檢索,以便以 后分析和事故追憶,因此實時數(shù)據(jù)庫如何高效地對所要存儲的數(shù)據(jù)進行有效的組織管理, 就成了決定實時數(shù)據(jù)庫性能好壞的關(guān)鍵因素。
[0003] 目前的實時數(shù)據(jù)庫產(chǎn)品,在歷史數(shù)據(jù)組織管理上,存在諸多問題,主要體現(xiàn)在底層 采用通用的文件系統(tǒng),如ext4、FAT32等,而大多數(shù)通用文件系統(tǒng)采用層次結(jié)構(gòu)和目錄索引 機制,這種分級機制在文件分類管理、文件數(shù)目的動態(tài)增減、文件數(shù)據(jù)的動態(tài)增長方面有著 高效的性能,但是在特定的應(yīng)用需求下,如存儲管理以點為單元的大規(guī)模工業(yè)數(shù)據(jù)時,則會 限制系統(tǒng)的性能。
[0004] 將歸檔數(shù)據(jù)建立在普通文件系統(tǒng)之上,除了建立歸檔數(shù)據(jù)本身的數(shù)據(jù)索引信息 外,還需要在文件系統(tǒng)層上建立和維護文件系統(tǒng)本身的目錄、文件之間的索引關(guān)系。隨著采 集點規(guī)模的增大,單位時間內(nèi)數(shù)據(jù)的增多,將會給數(shù)據(jù)庫系統(tǒng)帶來很大的時延。歸檔數(shù)據(jù)具 有較明顯的時間序列性和以點為單位的獨立性,可以利用這一特征,將實時數(shù)據(jù)庫中數(shù)據(jù) 的歸檔管理與文件系統(tǒng)中數(shù)據(jù)的管理結(jié)合起來,減少數(shù)據(jù)索引建立的次數(shù)和時間,滿足實 時數(shù)據(jù)庫能夠及時的將歸檔數(shù)據(jù)寫入到磁盤上的要求,同時,也能夠消除原來文件系統(tǒng)的 一些限制,如目錄數(shù)、文件數(shù)、文件大小的限制等。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的主要目的在于提供一種面向?qū)崟r數(shù)據(jù)庫的實時文件系統(tǒng)數(shù)據(jù) 組織管理的方法,該方法采用了數(shù)據(jù)庫和文件系統(tǒng)融合的技術(shù),所述的數(shù)據(jù)庫和文件系統(tǒng) 融合技術(shù)是指將實時數(shù)據(jù)庫中歸檔數(shù)據(jù)的索引方式和文件系統(tǒng)中數(shù)據(jù)的索引方式融合在 一起,即在文件系統(tǒng)中實現(xiàn)歷史數(shù)據(jù)的組織和管理。所述的數(shù)據(jù)組織管理方法按照工業(yè)采 樣批次的時間信息來存取歸檔數(shù)據(jù),保證了大規(guī)模工業(yè)采集數(shù)據(jù)的高速寫入。
[0006] 所述的數(shù)據(jù)組織管理的方法是按照時間段-點-時間段來管理數(shù)據(jù),如圖1所示。 主要包括以下6方面的內(nèi)容:按照不同時間段組織數(shù)據(jù),結(jié)合點索引,結(jié)構(gòu)化的數(shù)據(jù)塊,索 引數(shù)據(jù)與磁盤的累計數(shù)據(jù)量沒有關(guān)系,數(shù)據(jù)順序存儲和數(shù)據(jù)索引方式。
[0007] 所述的按照不同時間段組織數(shù)據(jù),是指工業(yè)數(shù)據(jù)含有較強的時間信息,同時這些 數(shù)據(jù)不斷的按照時間序列寫入到磁盤上,因此將數(shù)據(jù)的時間信息分為不同的時間段,按照 時間段來組織管理數(shù)據(jù),采用時間作為索引,時間段與普通文件系統(tǒng)中的目錄類似,在查找 數(shù)據(jù)時,首先選中目標時間段,然后在目標時間段內(nèi)查詢數(shù)據(jù),從而減少數(shù)據(jù)查詢時間。
[0008] 所述的結(jié)合點索引,是指在時間段與時間段之間,加入點索引信息,使得原來在兩 個不同的時間段之間同一個點的數(shù)據(jù)通過點索引信息的存在連接起來,便于在數(shù)據(jù)塊間逆 向遍歷查詢。
[0009] 所述的結(jié)構(gòu)化的數(shù)據(jù)塊,是指在常規(guī)的文件系統(tǒng)中,數(shù)據(jù)是被上一層索引所管理, 其地址信息記錄在上一層索引中。在本發(fā)明中,由于每一個點在一個時間段內(nèi)的數(shù)據(jù)量比 較小,同時每一個點的數(shù)據(jù)相對于這個時間段而言,這些數(shù)據(jù)類似碎文件。如果管理這么多 碎文件,會占用很大的磁盤空間,同時預(yù)留的空間會帶來很多磁盤碎片。因此我們在數(shù)據(jù)塊 中做了一次索引記錄,這樣,在整個磁盤使用過程中,不會造成磁盤碎片。
[0010] 所述的索引數(shù)據(jù)與磁盤的累計數(shù)據(jù)量沒有關(guān)系,是指在索引某點的數(shù)據(jù)時,與該 點的累計數(shù)據(jù)量無關(guān),與該點在某個時間段內(nèi)的數(shù)據(jù)量有關(guān),而在這個相關(guān)的時間段內(nèi),該 點的數(shù)據(jù)規(guī)模是很小的,在索引時,對內(nèi)存的壓力小,因此,在索引多個點同一時刻的數(shù)據(jù) 時,也不會造成系統(tǒng)崩潰。
[0011] 所述的數(shù)據(jù)順序存儲,是指實時數(shù)據(jù)庫中的歸檔數(shù)據(jù)按照時間順序不斷的寫入數(shù) 據(jù)庫,如果采用常規(guī)文件系統(tǒng),需要不斷的移動磁頭,來維護數(shù)據(jù)文件的索引信息。而本發(fā) 明將同一批歸檔數(shù)據(jù)順序?qū)懭氪疟P,減少磁頭的移動和尋找合適磁道的時間,同時也能夠 減少系統(tǒng)調(diào)用的時間。
[0012] 所述的數(shù)據(jù)索引方式,是指在文件系統(tǒng)系統(tǒng)中從上到下共含有四級時間信息,如 圖2所示。第一級的時間段跨度最大。第二級的時間段跨度比較小,通??梢詾?4小時、10 小時、1小時,第二級時間段的跨度要根據(jù)配置的點數(shù)規(guī)模、點的采樣頻率、點的壓縮率來確 定,如果時間跨度太大,其索引信息的有效性將會降低。第三級時間段是包含在數(shù)據(jù)中,這 一級的時間信息只和某一個具體的點有關(guān)系,因此第三級時間段的時間跨度和某個點的采 樣率相關(guān),如果點的采樣率在秒級,那么這一級的時間間隔就是數(shù)秒,每一條數(shù)據(jù)中含有時 間信息,時間信息是前向做差分。在第二級時間段信息和第三級時間段信息之間加入了點 索引信息,將原來按照時間排列的數(shù)據(jù)拆分為按照點管理。點以后的時間段信息只和點有 關(guān)系,從這一級時間開始,可以逆向回朔的方法來索引數(shù)據(jù),向前回滾的過程中,跨越的時 間段和具體的采樣點有關(guān)。最后一級的時間信息是跟隨每一條數(shù)據(jù)的,這符合對工業(yè)數(shù)據(jù) 的定義〈點、時間、數(shù)值〉,保證了數(shù)據(jù)的完整性。
[0013] 按照如圖2所示的數(shù)據(jù)索引方式,對累計一批的歸檔數(shù)據(jù),將其按照數(shù)據(jù)塊的格 式歸檔到一個數(shù)據(jù)塊中,所述的數(shù)據(jù)塊格式為〈點、時間偏移、數(shù)值〉,提取第三級時間段信 息、第二級時間段信息、第一級時間段信息,然后將新的索引信息更新到不同的時間段中, 同時更新第二級時間段中的點信息。如果第二級時間段溢出,則需要建立新的第二級時間 段在磁盤上。同理,如果第一級時間段溢出,則需要建立新的第一級時間段。因為時間是均 勻流逝的,所以第一級時間段和第二級時間段在時間軸上等間隔分布的。
[0014] 查詢某一點在某一時刻的數(shù)據(jù),將目標時間按照三個時間段的時間間隔,得到三 個時間段,然后從根目錄查找第一級時間段,如果失敗,則不存在目標數(shù)據(jù),在第一個時間 段下再查找第二級時間段,如果失敗,則目標時間段不存在。然后在第二級時間段內(nèi)查找目 標點,如果目標點不存在,則不含有目標點的數(shù)據(jù),然后找到這個點在最后一級時間段,查 看是否命中目標時間點,如果沒有命中,則需要向前回滾來查詢目標時間段。
[0015] 為了提高目標數(shù)據(jù)的命中率,減少查詢時間和磁頭移動的距離,在文件系統(tǒng)中保 留了每個點的以下信息。點建立時間(St),采樣周期(T),數(shù)據(jù)壓縮率(R),所述的數(shù)據(jù)壓縮 率這一數(shù)值是長期統(tǒng)計分析獲得的,采樣點的數(shù)據(jù)在一個周期內(nèi)波動,則其壓縮率會穩(wěn)定 的集中于某一值。設(shè)一塊可以寫入該點數(shù)據(jù)條目為N,兩個第二級時間段的時間間隔為TR, 則可以計算出目標數(shù)據(jù)的第二級時間段滿一塊的周期tb,tb的計算公式如下
[0016]
【主權(quán)項】
1. 一種實時文件系統(tǒng)數(shù)據(jù)組織管理方法,其特征在于:按照時間段-點-時間段來管 理數(shù)據(jù),該方法包括:按照不同時間段組織數(shù)據(jù),結(jié)合點索引,結(jié)構(gòu)化的數(shù)據(jù)塊,索引數(shù)據(jù)與 磁盤的累計數(shù)據(jù)量沒有關(guān)系,數(shù)據(jù)順序存儲和數(shù)據(jù)索引方式。
2. 根據(jù)權(quán)利要求1所述實時文件系統(tǒng)數(shù)據(jù)組織管理方法,其特征在于:所述的按照不 同時間段組織數(shù)據(jù),是指將數(shù)據(jù)的時間信息分為不同的時間段,共含有四級時間段,采用時 間作為索引,在查找數(shù)據(jù)時,首先選中目標時間段,然后在目標時間段內(nèi)查詢數(shù)據(jù),從而減 少數(shù)據(jù)查詢時間。
3. 根據(jù)權(quán)利要求1所述實時文件系統(tǒng)數(shù)據(jù)組織管理方法,其特征在于:所述的結(jié)合點 索引,是指在時間段與時間段之間,加入點索引信息,使得原來在兩個不同的時間段之間同 一個點的數(shù)據(jù)通過點索引信息的存在連接起來,便于在數(shù)據(jù)塊間逆向遍歷查詢。
4. 根據(jù)權(quán)利要求1所述實時文件系統(tǒng)數(shù)據(jù)組織管理方法,其特征在于:所述的數(shù)據(jù)順 序存儲,是指歸檔數(shù)據(jù)按照時間順序不斷的寫入數(shù)據(jù)庫時,將同一批歸檔數(shù)據(jù)順序?qū)懭氪?盤,減少磁頭的移動和尋找合適磁道的時間,同時也能夠減少系統(tǒng)調(diào)用的時間。
5. 根據(jù)權(quán)利要求1所述實時文件系統(tǒng)數(shù)據(jù)組織管理方法,其特征在于:所述的數(shù)據(jù)索 引方式,是指在文件系統(tǒng)系統(tǒng)中從上到下共含有四級時間信息,第一級的時間段跨度最大, 通常為1年,第二級的時間段跨度比較小,通??梢詾橐惶?,第二級時間段的跨度要根據(jù)配 置的點數(shù)規(guī)模、點的采樣頻率、點的壓縮率來確定,第三級時間段是包含在數(shù)據(jù)中,第三級 的時間信息只和某一個具體的點有關(guān)系,因此第三級時間段的時間跨度和某個點的采樣率 相關(guān),如果點的采樣率在秒級,那么這一級的時間間隔就是數(shù)秒,每一條數(shù)據(jù)中含有時間信 息,時間信息是前向做差分,在第二級時間段信息和第三個時間段信息之間加入了點索引 信息,將原來按照時間排列的數(shù)據(jù)拆分為按照點管理,點以后的時間段信息只和點有關(guān)系, 從這一級時間開始,可以逆向回朔的方法來索引數(shù)據(jù),向前回滾的過程中,跨越的時間段和 具體的采樣點有關(guān),最后一級的時間信息是跟隨每一條數(shù)據(jù)的,這符合對工業(yè)數(shù)據(jù)的定義〈 點、時間、數(shù)值〉,保證了數(shù)據(jù)的完整性。
【專利摘要】本發(fā)明公開了一種面向?qū)崟r數(shù)據(jù)庫的實時文件系統(tǒng)數(shù)據(jù)組織管理方法,該方法主要包括:采用了數(shù)據(jù)庫和文件系統(tǒng)融合的技術(shù),將實時數(shù)據(jù)庫中歸檔數(shù)據(jù)的索引方式和文件系統(tǒng)中數(shù)據(jù)的索引方式融合在一起,即在文件系統(tǒng)中實現(xiàn)歷史數(shù)據(jù)的組織和管理。數(shù)據(jù)組織管理方法按照時間段-點-時間段來管理數(shù)據(jù),如說明書摘要附圖所示,按照工業(yè)采樣批次的時間信息來存取歸檔數(shù)據(jù),將數(shù)據(jù)的時間信息分為不同的時間段,共含有四級時間段,采用時間作為索引。保證了大規(guī)模工業(yè)采集數(shù)據(jù)的高速寫入。
【IPC分類】G06F17-30
【公開號】CN104731779
【申請?zhí)枴緾N201310692742
【發(fā)明人】徐新國, 康衛(wèi), 李林, 朱廷劭
【申請人】中國電子信息產(chǎn)業(yè)集團有限公司第六研究所
【公開日】2015年6月24日
【申請日】2013年12月18日