一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法
【專利摘要】本發(fā)明提供一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,首先設(shè)置分級存儲系統(tǒng)架構(gòu),該構(gòu)架包括數(shù)據(jù)特征收集器、存儲資源管理器、策略配置管理器與遷移管理器,存儲資源管理器將存儲資源進(jìn)行整合,形成具備分級存儲能力的存儲資源池,然后將存儲資源映射為邏輯卷供上層文件系統(tǒng)使用;數(shù)據(jù)特征收集器負(fù)責(zé)監(jiān)控上層傳輸?shù)腎/O請求,并且統(tǒng)計針對于某個數(shù)據(jù)塊的引用頻率特征,然后根據(jù)數(shù)據(jù)特征分析方法進(jìn)行分析,將分析結(jié)果通知給遷移管理器進(jìn)行后續(xù)的分級管理操。該一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法和現(xiàn)有技術(shù)相比,實現(xiàn)對于數(shù)據(jù)分級存儲管理過程中熱點數(shù)據(jù)的發(fā)現(xiàn)與判定,提高熱點數(shù)據(jù)判定的準(zhǔn)確性。
【專利說明】一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能數(shù)據(jù)管理領(lǐng)域,具體的說是一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處
理方法。
【背景技術(shù)】
[0002]數(shù)據(jù)分級存儲技術(shù)主要是根據(jù)被監(jiān)控對象的數(shù)據(jù)特征在存儲虛擬層將存儲資源與熱點數(shù)據(jù)進(jìn)行合理匹配,實現(xiàn)存儲資源的高效利用。在現(xiàn)有的分級存儲數(shù)據(jù)特征分析方法中,一類是利用文件對象包括的多種數(shù)據(jù)特征屬性,如文件大小,類型等進(jìn)行數(shù)據(jù)特征的獲取分析,將具有不同特征的數(shù)據(jù)進(jìn)行分類管理。但是,基于文件級的分級存儲以文件作為數(shù)據(jù)特征統(tǒng)計的基本單位,如果文件比較大,并且當(dāng)只有局部信息經(jīng)常被訪問時,那么就存在對于熱點數(shù)據(jù)定位不準(zhǔn)確的問題,從而導(dǎo)致不能夠?qū)⒄嬲枰环旨壍臄?shù)據(jù)放置于高效且昂貴的存儲資源上,不利于提高存儲管理效率?;趬K級的分級存儲是一種細(xì)粒度的數(shù)據(jù)分級管理方案,能夠?qū)?shù)據(jù)管理的粒度細(xì)化到以根據(jù)應(yīng)用需求所定義的擴(kuò)展塊級。然而,對于數(shù)據(jù)特征的獲取與分析是難點,特別是對于塊級熱點數(shù)據(jù)的判定存在問題。如果單獨基于塊被引用次數(shù)與閥值的比較結(jié)果作為數(shù)據(jù)冷熱程度的判定標(biāo)準(zhǔn),從而做出數(shù)據(jù)遷移的決策,那么很可能引起數(shù)據(jù)抖動問題,即數(shù)據(jù)將在短時間內(nèi)重復(fù)進(jìn)行升/降級操作,這種方式將導(dǎo)致系統(tǒng)資源的消耗,不利于提高系統(tǒng)性能。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法。
[0004]本發(fā)明的技術(shù)方案是按以下方式實現(xiàn)的,該一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,首先設(shè)置分級存儲系統(tǒng)架構(gòu),該構(gòu)架包括數(shù)據(jù)特征收集器、存儲資源管理器、策略配置管理器與遷移管理器,其中各個部分對塊級數(shù)據(jù)特征的處理過程為:
一、存儲資源管理器將存儲資源進(jìn)行整合,形成具備分級存儲能力的存儲資源池,利用存儲資源管理器按照性能由高到低的順序組織磁盤,并且構(gòu)建多級設(shè)備鏈表,將設(shè)備進(jìn)行統(tǒng)一管理,然后將存儲資源映射為邏輯卷供上層文件系統(tǒng)使用;
二、數(shù)據(jù)特征收集器負(fù)責(zé)監(jiān)控上層傳輸?shù)腎/o請求,并且統(tǒng)計針對于某個數(shù)據(jù)塊的引用頻率特征,然后根據(jù)數(shù)據(jù)特征分析方法進(jìn)行分析,將分析結(jié)果通知給遷移管理器進(jìn)行后續(xù)的分級管理操;
三、遷移管理器同時利用策略配置管理器對塊數(shù)據(jù)的掃描周期、最大未使用時間等參數(shù)進(jìn)行設(shè)置,以便能夠為遷移操作提供決策信息。
[0005]所述步驟二中的數(shù)據(jù)特征收集器對塊數(shù)據(jù)的完整I/O事件進(jìn)行監(jiān)控管理,其中I/0事件包括傳輸大小、響應(yīng)時間、邏輯塊地址LBA以及發(fā)生I/O事件的磁盤ID、執(zhí)行I/O的隊列,數(shù)據(jù)特征收集器將每一個I/o 二元組映射給唯一的塊,并且統(tǒng)計每一個塊的I/O數(shù),然后,周期地計算每一個塊的引用頻率,分別統(tǒng)計讀引用數(shù)與寫引用數(shù)。[0006]所述步驟二的詳細(xì)過程為:數(shù)據(jù)特征收集器的請求隊列接收來自通用塊設(shè)備的I/o請求,當(dāng)I/O入隊列后,通知分級系統(tǒng)工作線程運轉(zhuǎn),工作線程根據(jù)I/O的不同類型劃分不同的設(shè)備塊給I/o請求存儲寫數(shù)據(jù),數(shù)據(jù)寫入分配的塊設(shè)備之后I/O結(jié)束;在處理寫請求時,記錄數(shù)據(jù)塊的寫信息,包括設(shè)備的寫請求數(shù)量、塊的寫請求數(shù)量;對于讀I/o請求統(tǒng)計設(shè)備以及塊的訪問引用計數(shù)和訪問時間信息,然后再將I/o進(jìn)行轉(zhuǎn)發(fā);最后,將整個隊列的引用頻率信息進(jìn)行統(tǒng)計,根據(jù)數(shù)據(jù)特征計算方法進(jìn)行特征值的計算,從而判定數(shù)據(jù)的冷熱程度。
[0007]所述數(shù)據(jù)特征值包括引用頻率偏差Ei (t)與引用偏差變化率DEi (t):塊引用頻率偏差Ei (t)表示塊Si在數(shù)據(jù)管理周期T內(nèi),數(shù)據(jù)塊Si被訪問的實際引用數(shù)M與該塊所處層級設(shè)備的引用閥值threshold的差值,反映該塊數(shù)據(jù)與平均熱度的差值水平;引用偏差變化率DEi (t)表示塊Si在某段時間內(nèi)偏差的變化頻率,該值反映數(shù)據(jù)塊Si的活躍程度。 [0008]所述引用頻率偏差Ei(t)的計算方式如下:數(shù)據(jù)塊Si在數(shù)據(jù)管理周期T內(nèi),5^皮訪問的實際引用數(shù)M與該塊所處層級設(shè)備的引用閥值threshold的差值;
引用偏差變化率DEi (t)的計算方式如下:數(shù)據(jù)塊Si當(dāng)前采樣時刻t引用頻率偏差Ei (t)與上一采樣時刻t-1引用頻率偏差Ei (t-1)之間的差異,再除以采樣間隔時間At。
[0009]本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是:
本發(fā)明的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法解決基于塊級的分級存儲系統(tǒng)中對于熱點數(shù)據(jù)的判定問題,在分級存儲系統(tǒng)中,塊級數(shù)據(jù)特征分析方法能夠?qū)崿F(xiàn)對于卷中一部分固定大小的塊數(shù)據(jù)進(jìn)行監(jiān)控以及數(shù)據(jù)熱度的統(tǒng)計分析,繼而完成對于塊數(shù)據(jù)的分級管理操作。在卷中需要管理的對象粒度更細(xì),熱點數(shù)據(jù)的定位也更加準(zhǔn)確,因此能夠獲得更高的數(shù)據(jù)分配效率,在進(jìn)行遷移等操作時損耗較少,有利于提高存儲資源的利用率與管理效率,該發(fā)明可用于智能數(shù)據(jù)管理領(lǐng)域中分級存儲管理,通過對底層物理塊的訪問特征信息進(jìn)行獲取與分析,實現(xiàn)對于數(shù)據(jù)分級存儲管理過程中熱點數(shù)據(jù)的發(fā)現(xiàn)與判定,提高熱點數(shù)據(jù)判定的準(zhǔn)確性,實用性強(qiáng),易于推廣。
【專利附圖】
【附圖說明】
[0010]附圖1是本發(fā)明的分級存儲系統(tǒng)構(gòu)架圖。
[0011]附圖2是本發(fā)明數(shù)據(jù)特征收集器的執(zhí)行過程示意圖。
[0012]附圖3是本發(fā)明的引用數(shù)的計算公式。
[0013]附圖4是本發(fā)明的引用頻率偏差的計算公式。
[0014]附圖5是本發(fā)明的引用偏差變化率的計算公式。
【具體實施方式】
[0015]下面結(jié)合附圖對本發(fā)明的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法作詳細(xì)說明。
[0016]本發(fā)明是對基于塊級的數(shù)據(jù)特征進(jìn)行分析統(tǒng)計,由于塊數(shù)據(jù)對象基本處于存儲層次中的邏輯或物理底層,較之文件對象而言數(shù)據(jù)結(jié)構(gòu)相對簡單,并且對于底層數(shù)據(jù)塊的最主要操作包括讀取與寫入,因此,對于數(shù)據(jù)塊的讀/寫頻度成為判定該數(shù)據(jù)是否為熱點的主要特征?;趬K級的數(shù)據(jù)特征分析方法中主要是對數(shù)據(jù)塊的引用數(shù)進(jìn)行統(tǒng)計,當(dāng)數(shù)據(jù)塊被讀/寫時分別記錄其讀/寫次數(shù),以便計算引用頻率,即該塊數(shù)據(jù)在一段時間內(nèi)被讀/寫的次數(shù)之和。在此基礎(chǔ)之上對數(shù)據(jù)塊的引用頻率進(jìn)行數(shù)學(xué)計算,分別定義了引用頻率偏差Ei (t)與引用偏差變化率DEi (t),以反映數(shù)據(jù)塊的使用熱度以及塊數(shù)據(jù)的活性。
[0017]如附圖1所示,本發(fā)明提供一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,首先設(shè)置分級存儲系統(tǒng)架構(gòu),該構(gòu)架包括數(shù)據(jù)特征收集器、存儲資源管理器、策略配置管理器與遷移管理器,在分級存儲系統(tǒng)中,不同組件之間關(guān)聯(lián)過程為:存儲資源管理器將存儲資源進(jìn)行整合,形成具備分級存儲能力的存儲資源池,利用存儲資源管理器按照性能由高到低的順序組織磁盤,并且構(gòu)建多級設(shè)備鏈表,將設(shè)備進(jìn)行統(tǒng)一管理。然后將存儲資源映射為邏輯卷供上層文件系統(tǒng)等使用;數(shù)據(jù)特征收集器負(fù)責(zé)監(jiān)控上層傳輸?shù)腎/O請求,并且統(tǒng)計針對于某個數(shù)據(jù)塊的引用頻率等特征,然后根據(jù)數(shù)據(jù)特征分析方法進(jìn)行分析,將分析結(jié)果通知給遷移管理器進(jìn)行后續(xù)的分級管理操作。遷移管理器同時利用策略配置管理器對塊數(shù)據(jù)的掃描周期、最大未使用時間等參數(shù)進(jìn)行設(shè)置,以便能夠為遷移操作提供決策信息。
[0018]本發(fā)明中所涉及的數(shù)據(jù)特征收集器負(fù)責(zé)監(jiān)控數(shù)據(jù)塊的特征信息,并且對塊數(shù)據(jù)的特征信息按照熱度特征值進(jìn)行統(tǒng)計分析,其中,熱度特征值包括引用頻率偏差Ei (t)與引用偏差變化率DEjt)。塊引用頻率偏差Ei(t)表示塊Si在數(shù)據(jù)管理周期T內(nèi),數(shù)據(jù)塊Si被訪問的實際引用數(shù)M與該塊所處層級設(shè)備的引用閥值threshold的差值,反映了該塊數(shù)據(jù)與平均熱度的差值水平;引用偏差變化率DEi (t)表示塊Si在某段時間內(nèi)偏差的變化頻率,該值反映了數(shù)據(jù)塊Si的活躍程度。數(shù)據(jù)特征收集器的請求隊列接收來自通用塊設(shè)備的I/O請求,當(dāng)I/O入隊列后,通知分級系統(tǒng)工作線程運轉(zhuǎn),工作線程根據(jù)I/O的不同類型劃分不同的設(shè)備塊給I/O請求存儲寫數(shù)據(jù),數(shù)據(jù)寫入分配的塊設(shè)備之后I/O結(jié)束。在處理寫請求時,記錄數(shù)據(jù)塊的寫信息,包括設(shè)備的寫請求數(shù)量、塊的寫請求數(shù)量;對于讀I/O請求統(tǒng)計設(shè)備以及塊的訪問引用計數(shù)和訪問時間信息,然后再將I/O進(jìn)行轉(zhuǎn)發(fā)。最后,將整個隊列的引用頻率信息進(jìn)行統(tǒng)計,根據(jù)數(shù)據(jù)特征計算方法進(jìn)行特征值的計算,從而判定數(shù)據(jù)的冷熱程度。
[0019]所述引用頻率偏差Ei(t)的計算方式如下:數(shù)據(jù)塊Si在數(shù)據(jù)管理周期T內(nèi),5^皮訪問的實際引用數(shù)M與該塊所處 層級設(shè)備的引用閥值threshold的差值;
引用偏差變化率DEi (t)的計算方式如下:數(shù)據(jù)塊Si當(dāng)前采樣時刻t引用頻率偏差Ei (t)與上一采樣時刻t-1引用頻率偏差Ei (t-1)之間的差異,再除以采樣間隔時間At。
[0020]分級原型系統(tǒng)在執(zhí)行過程中將數(shù)據(jù)時間軸、偏差率以及偏差變化率等熱點數(shù)據(jù)訪問特征作為數(shù)據(jù)資源的分級依據(jù),并依據(jù)存儲設(shè)備的讀寫性能差異,進(jìn)行存儲資源與熱點數(shù)據(jù)的分級管理。因此,對于數(shù)據(jù)特征的收集是進(jìn)行特征分析的基礎(chǔ),整個數(shù)據(jù)特征收集過程如圖2所示。數(shù)據(jù)特征收集器對塊數(shù)據(jù)的完整I/O事件進(jìn)行監(jiān)控管理,其中I/O事件包括傳輸大小、響應(yīng)時間、邏輯塊地址LBA以及發(fā)生I/O事件的磁盤ID,還包括執(zhí)行I/O的隊列。數(shù)據(jù)特征收集器將每一個I/O 二元組(LBA,磁盤ID)映射給唯一的塊,并且統(tǒng)計每一個塊的I/O數(shù)。然后,周期地計算每一個塊的引用頻率,分別統(tǒng)計讀引用數(shù)與寫引用數(shù)。特征收集與分析過程如下:
首先,數(shù)據(jù)特征收集器利用hsm_d0_bi0函數(shù)對通用層傳輸?shù)臄?shù)據(jù)塊訪問I/O進(jìn)行監(jiān)控,將每個塊的I/O請求都加入到分級存儲系統(tǒng)維護(hù)的I/O隊列當(dāng)中。利用bio_for_each_segment函數(shù)遍歷I/O隊列,分別判斷I/O操作類型,如果是write操作,那么就將該數(shù)據(jù)塊的寫操作引用數(shù)Wi進(jìn)行累加,同樣處理該數(shù)據(jù)塊的讀操作引用數(shù)民。[0021]然后,數(shù)據(jù)特征收集器將所有數(shù)據(jù)塊的引用數(shù)進(jìn)行累加,獲得不同設(shè)備的總引用數(shù),其中total_read_hitcount為層級總的讀取引用數(shù),total_write_hitcount為層級總的寫入引用數(shù)。然后利用該層容量tiersize與單元塊大小blocksize計算該層的平均引用數(shù),average_read_hitcount為層級平均讀取引用數(shù),average_write_hitcount為層級平均寫入引用數(shù)。計算過程如附圖3所示的公式I。
[0022]最后,實施對數(shù)據(jù)特征的分析階段。對于反映數(shù)據(jù)熱度的特征變量£1 (t)與DEi (t)進(jìn)行統(tǒng)計分析。對塊引用頻率偏差Ei(t)如附圖4所示的公式2,引用偏差變化率DEi (t)的計算附圖5所示的公式3所示,在附圖5中,Si的引用頻率偏差變化率是指當(dāng)前采樣時刻引用頻率偏差Ei (t)與上一采樣時刻引用頻率偏差Ei (t-1)之間的差異,其中,At為采樣時間。在計算EiU)時,需要對不同層級上的平均引用頻率average_hitcount進(jìn)行計算。
[0023]通過對數(shù)據(jù)特征值進(jìn)行分析,根據(jù)DEi (t)與Ei(t)判定出數(shù)據(jù)的熱度,然后執(zhí)行相關(guān)的數(shù)據(jù)遷移操作。在進(jìn)行數(shù)據(jù)分級管理過程中,對于數(shù)據(jù)的管理操作,不再是簡單根據(jù)閥值法進(jìn)行升/降級操作,而是需要根據(jù)特征變量DEi (t)與Ei (t)對數(shù)據(jù)塊Si的熱度進(jìn)行判定后實施。如果數(shù)據(jù)塊Si的引用頻率可能超過了閥值,但是,其訪問頻率是在幾個周期內(nèi)完成的統(tǒng)計,那么DEi (t)值將會降低,從而反映出Si的活躍程度不高,很可能在未來一段周期內(nèi)不會出現(xiàn)密集訪問情況,存在一定的降級預(yù)期,那么將繼續(xù)執(zhí)行引用頻率的統(tǒng)計分析工作,而不會發(fā)生升級操作。這樣避免了盲目的升級或者降級操作,保留一個操作緩沖區(qū)使得整個遷移過程更加平滑,不是一種非此即彼的過程。
[0024]除說明書所述 的技術(shù)特征外,均為本專業(yè)技術(shù)人員的公知技術(shù)。
【權(quán)利要求】
1.一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,首先設(shè)置分級存儲系統(tǒng)架構(gòu),該構(gòu)架包括數(shù)據(jù)特征收集器、存儲資源管理器、策略配置管理器與遷移管理器,其中各個部分對塊級數(shù)據(jù)特征的處理過程為: 一、存儲資源管理器將存儲資源進(jìn)行整合,形成具備分級存儲能力的存儲資源池,利用存儲資源管理器按照性能由高到低的順序組織磁盤,并且構(gòu)建多級設(shè)備鏈表,將設(shè)備進(jìn)行統(tǒng)一管理,然后將存儲資源映射為邏輯卷供上層文件系統(tǒng)使用; 二、數(shù)據(jù)特征收集器負(fù)責(zé)監(jiān)控上層傳輸?shù)腎/O請求,并且統(tǒng)計針對于某個數(shù)據(jù)塊的引用頻率特征,然后根據(jù)數(shù)據(jù)特征分析方法進(jìn)行分析,將分析結(jié)果通知給遷移管理器進(jìn)行后續(xù)的分級管理操; 三、遷移管理器同時利用策略配置管理器對塊數(shù)據(jù)的掃描周期、最大未使用時間參數(shù)進(jìn)行設(shè)置,以便能夠為遷移操作提供決策信息。
2.根據(jù)權(quán)利要求1所述的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,所述步驟二中的數(shù)據(jù)特征收集器對塊數(shù)據(jù)的完整I/O事件進(jìn)行監(jiān)控管理,其中I/O事件包括傳輸大小、響應(yīng)時間、邏輯塊地址LBA以及發(fā)生I/O事件的磁盤ID、執(zhí)行I/O的隊列,數(shù)據(jù)特征收集器將每一個I/O 二元組映射給唯一的塊,并且統(tǒng)計每一個塊的I/O數(shù),然后,周期地計算每一個塊的引用頻率,分別統(tǒng)計讀引用數(shù)與寫引用數(shù)。
3.根據(jù)權(quán)利要求2所述的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,所述步驟二的詳細(xì)過程為:數(shù)據(jù)特征收集器的請求隊列接收來自通用塊設(shè)備的I/O請求,當(dāng)I/O入隊列后,通知分級系統(tǒng)工作線程運轉(zhuǎn),工作線程根據(jù)I/O的不同類型劃分不同的設(shè)備塊給I/o請求存儲寫數(shù)據(jù),數(shù)據(jù)寫入分配的塊設(shè)備之后I/O結(jié)束;在處理寫請求時,記錄數(shù)據(jù)塊的寫信息,包括設(shè)備的寫請求數(shù)量、塊的寫請求數(shù)量;對于讀I/o請求統(tǒng)計設(shè)備以及塊的訪問引用計數(shù)和訪問時間信息,然后再將I/o進(jìn)行轉(zhuǎn)發(fā);最后,將整個隊列的引用頻率信息進(jìn)行統(tǒng)計,根據(jù)數(shù)據(jù)特征計算方法進(jìn)行特征值的計算,從而判定數(shù)據(jù)的冷熱程度。
4.根據(jù)權(quán)利要求3所述的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,所述數(shù)據(jù)特征值包括引用頻率偏差Ei (t)與引用偏差變化率DEi (t):塊引用頻率偏差EJt)表示塊Si在數(shù)據(jù)管理周期T內(nèi),數(shù)據(jù)塊Si被訪問的實際引用數(shù)M與該塊所處層級設(shè)備的引用閥值threshold的差值,反映該塊數(shù)據(jù)與平均熱度的差值水平;引用偏差變化率DEi (t)表示塊Si在某段時間內(nèi)偏差的變化頻率,該值反映數(shù)據(jù)塊Si的活躍程度。
5.根據(jù)權(quán)利要求4所述的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,所述引用頻率偏差Ei(t)的計算方式如下:數(shù)據(jù)塊Si在數(shù)據(jù)管理周期T內(nèi),Si被訪問的實際引用數(shù)M與該塊所處層級設(shè)備的引用閥值threshold的差值; 根據(jù)權(quán)利要求4所述的一種分級存儲系統(tǒng)中塊級數(shù)據(jù)特征處理方法,其特征在于,引用偏差變化率DEi (t)的計算方式如下:數(shù)據(jù)塊Si當(dāng)前采樣時刻t引用頻率偏差Ei (t)與上一采樣時刻t-1引用頻率偏差Ei(t-l)之間的差異,再除以采樣間隔時間At。
【文檔編號】G06F3/06GK103605483SQ201310587772
【公開日】2014年2月26日 申請日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】施光源, 張宇 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司