国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于數(shù)倉數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設備及介質(zhì)與流程

      文檔序號:39622784發(fā)布日期:2024-10-11 13:44閱讀:47來源:國知局
      一種用于數(shù)倉數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設備及介質(zhì)與流程

      本發(fā)明屬于數(shù)據(jù)管理,涉及一種用于數(shù)倉數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設備及介質(zhì)。


      背景技術:

      1、在當前企業(yè)數(shù)據(jù)倉庫(data?warehouse)環(huán)境中,隨著業(yè)務規(guī)模的不斷擴大和數(shù)據(jù)量的急劇增加,數(shù)據(jù)生命周期管理成為了一個亟待解決的問題。數(shù)倉中累積的冗余數(shù)據(jù)和失效數(shù)據(jù),由于缺乏有效的管理機制,不僅占據(jù)了大量寶貴的存儲資源,降低了it資源的整體利用率,還嚴重影響了數(shù)據(jù)的準確性和可靠性,進而企業(yè)的對決策效率和業(yè)務發(fā)展構成威脅。

      2、現(xiàn)有的數(shù)倉數(shù)據(jù)生命周期管理方法主要包括以下幾種,但每種方法均存在其固有的局限性和挑戰(zhàn):

      3、定期清理方式:該方式依賴于預設的時間規(guī)則進行數(shù)據(jù)清理,如“刪除一年前的數(shù)據(jù)”。然而,這種方法忽視了數(shù)據(jù)的實際使用價值和業(yè)務需求,容易導致重要歷史數(shù)據(jù)或需長期保存的數(shù)據(jù)被誤刪除,影響業(yè)務的連續(xù)性和數(shù)據(jù)的完整性。

      4、基于數(shù)據(jù)訪問頻率的方式:此方法依據(jù)數(shù)據(jù)的訪問頻率來決定其生命周期,但現(xiàn)實中的數(shù)據(jù)訪問模式往往復雜多變,且存在訪問不規(guī)律的情況。這可能導致高價值但訪問頻率低的數(shù)據(jù)被錯誤地刪除,或低價值但頻繁訪問的數(shù)據(jù)占用過多資源,無法有效優(yōu)化存儲結構。

      5、基于數(shù)據(jù)價值的方式:該策略試圖通過評估數(shù)據(jù)的價值和重要性來制定清理策略。然而,數(shù)據(jù)價值的評估往往受到主觀判斷的影響,難以做到客觀公正。同時,全面的價值評估過程需要耗費大量的人力、物力和時間成本,增加了管理的復雜性和難度。

      6、基于元數(shù)據(jù)管理的方式:通過維護和管理元數(shù)據(jù)來識別數(shù)據(jù)的生命周期,是一種更為精細化的管理手段。但元數(shù)據(jù)的管理本身就是一個復雜的過程,需要投入大量的資源和精力來確保元數(shù)據(jù)的準確性和完整性。此外,元數(shù)據(jù)的不完整或丟失也可能導致數(shù)據(jù)生命周期管理策略的失效。

      7、鑒于上述問題,開發(fā)一種高效、智能的數(shù)倉數(shù)據(jù)生命周期管理方法顯得尤為重要。


      技術實現(xiàn)思路

      1、本發(fā)明的目的在于解決現(xiàn)有技術中缺乏有效的數(shù)據(jù)生命周期管理策略的問題,提供一種用于數(shù)倉數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設備及介質(zhì)。

      2、為達到上述目的,本發(fā)明采用以下技術方案予以實現(xiàn):

      3、一種用于數(shù)倉數(shù)據(jù)生命周期管理的方法,包括以下步驟:

      4、定時獲取hdfs鏡像文件,將hdfs鏡像文件解析為csv格式文件,并上傳到hdfs中;

      5、分析并提取表級信息,對上傳的csv格式文件進行解析,獲取每張表的表級信息,并將表級信息下發(fā)到數(shù)據(jù)生命周期管理系統(tǒng);

      6、查詢hive元數(shù)據(jù)庫,通過查詢hive元數(shù)據(jù)庫,獲取數(shù)倉中所有表的名稱、所屬庫、描述、創(chuàng)建時間、創(chuàng)建人信息;

      7、擴展表信息,為數(shù)倉中的每張表添加維護人信息及標簽;

      8、數(shù)據(jù)庫分類與生命周期策略配置,根據(jù)存儲數(shù)據(jù)的重要性,對數(shù)倉中的數(shù)據(jù)庫進行分類,并為每類數(shù)據(jù)庫配置不同的生命周期策略;

      9、定時檢查與提醒,定時檢查各數(shù)據(jù)庫中的表是否到達其生命周期策略中設定的保留期限,在表到期前向相應的維護人員發(fā)送提醒信息,判斷是否延期;對于到期的表,執(zhí)行預定的到期處理操作;

      10、延期處理,若收到延期請求,根據(jù)延期時間和原策略計算的到期時間中的較大值,重新計算表的到期時間,并更新系統(tǒng)記錄,同時發(fā)送新的提醒信息。

      11、所述分析并提取表級信息,具體為:

      12、對存儲在hdfs中的csv文件進行解析,通過執(zhí)行sql查詢,獲取每張數(shù)據(jù)表的最近訪問時間、數(shù)據(jù)量大小、塊數(shù)量的表級信息;

      13、其中,解析后的原始數(shù)據(jù)包含表中每個文件的文件大小、最近修改/訪問時間的文件級信息,通過sql查詢或數(shù)據(jù)處理邏輯,將這些文件級信息聚合為表級信息進行統(tǒng)計和分析,將數(shù)據(jù)粒度由文件級變?yōu)楸砑墶?/p>

      14、所述數(shù)據(jù)庫分類具體為根據(jù)存儲數(shù)據(jù)的重要性,對數(shù)倉中的數(shù)據(jù)庫進行分類分級,區(qū)分正式表與臨時表、核心庫與非核心庫。

      15、所述生命周期策略配置具體為根據(jù)業(yè)務需求,為不同分類分級的數(shù)據(jù)庫配置相應的生命周期策略,包括數(shù)據(jù)保留周期、到期處理方式,其中核心庫表的數(shù)據(jù)保留周期設為3年,臨時表的數(shù)據(jù)保留周期設為180天。

      16、所述定時檢查與提醒具體為:系統(tǒng)每天定時檢查各數(shù)據(jù)庫中的表是否到達其生命周期策略中設定的保留期限,通過比較表的最后訪問時間與配置的有效期,判斷是否小于當前日期來確定表是否到期;對于到期的表,系統(tǒng)執(zhí)行預定的到期處理操作。

      17、所述對于到期的表,執(zhí)行預定的到期處理操作,具體為:

      18、系統(tǒng)發(fā)起刪除數(shù)據(jù)的審批流程,審批流程中的審批信息包括表的名稱、所屬數(shù)據(jù)庫、到期時間、數(shù)據(jù)量,并指定數(shù)倉維護人員及數(shù)據(jù)維護人為審批人;

      19、審批與確認,數(shù)倉維護人員及數(shù)據(jù)維護人收到審批請求后,對審批信息進行審核,并根據(jù)實際情況決定是否同意刪除數(shù)據(jù);若雙方均同意,則審批通過;若有一方不同意或,則審批流程暫?;蚓芙^;

      20、數(shù)據(jù)刪除,在審批通過后,系統(tǒng)執(zhí)行數(shù)據(jù)刪除操作,或者根據(jù)審批結果中的指示進行相應處理。

      21、一種用于數(shù)倉數(shù)據(jù)生命周期管理的系統(tǒng),包括以下模塊:

      22、數(shù)據(jù)獲取與解析模塊,用于定時從hdfs獲取鏡像文件,將其解析為csv格式,并上傳到hdfs的指定位置;

      23、表級信息提取模塊,用于解析csv文件,提取并下發(fā)每張表的表級信息到數(shù)據(jù)生命周期管理系統(tǒng);

      24、元數(shù)據(jù)庫查詢模塊,用于查詢hive元數(shù)據(jù)庫,獲取數(shù)倉中所有表的基礎信息;

      25、表信息擴展模塊,用于在基礎信息基礎上,為數(shù)倉中的表添加維護人信息及標簽;

      26、數(shù)據(jù)庫分類與策略配置模塊,用于根據(jù)數(shù)據(jù)重要性等因素對數(shù)據(jù)庫進行分類,并為每類數(shù)據(jù)庫配置生命周期策略;

      27、定時檢查與到期處理模塊,用于定時檢查表的保留期限,發(fā)送提醒信息,并執(zhí)行到期處理操作;

      28、延期處理模塊,用于處理延期請求,重新計算并更新表的到期時間,并發(fā)送新的提醒信息。

      29、還包括權限管理模塊,所述權限管理模塊負責系統(tǒng)用戶的權限分配和管理,確保不同用戶只能訪問和操作其被授權的數(shù)據(jù)和功能。

      30、一種設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如前項任一項所述方法的步驟。

      31、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如前項任一項所述方法的步驟。

      32、與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:

      33、本發(fā)明中的用于數(shù)倉數(shù)據(jù)生命周期管理的方法,通過自動化的定時任務,從hdfs鏡像文件的獲取、解析到表級信息的提取和上傳,再到hive元數(shù)據(jù)庫的查詢、表信息的擴展、數(shù)據(jù)庫的分類與生命周期策略配置,整個過程實現(xiàn)了高度的自動化,大幅提升了數(shù)據(jù)管理的效率。同時該方法通過為每張表添加維護人信息和標簽,增強了數(shù)據(jù)的可見性和管理透明度,有助于業(yè)務團隊更好地理解數(shù)據(jù)結構和用途。此外根據(jù)數(shù)據(jù)重要性進行分類并配置不同的生命周期策略,優(yōu)化了資源利用,降低了運營成本。自動化的到期檢查和提醒、延期處理等功能,不僅確保了數(shù)據(jù)的及時清理和更新,提高了數(shù)據(jù)安全性,還提升了業(yè)務團隊對數(shù)據(jù)的響應速度和決策效率。本發(fā)明的方法在提升管理效率、增強數(shù)據(jù)可見性、優(yōu)化資源利用、提高數(shù)據(jù)安全性及降低運營成本等方面均展現(xiàn)出顯著的優(yōu)勢。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1