本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)分層存儲系統(tǒng)及方法。
背景技術(shù):
隨著云計算、云存儲、物聯(lián)網(wǎng)等技術(shù)的不斷發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式增長的趨勢。因此,在提高存儲系統(tǒng)容量的基礎(chǔ)之上,還需考慮如何對海量數(shù)據(jù)進行有效管理,以提高磁盤利用率及保證存儲系統(tǒng)的整體性能。
目前,存儲系統(tǒng)中可以預(yù)先建立多個固定的分層,其中,每一個分層均對應(yīng)有存儲介質(zhì)。當存在新數(shù)據(jù)時,該新數(shù)據(jù)與哪一分層的關(guān)聯(lián)度相對最高,即可將該新數(shù)據(jù)存儲至這一分層中。
但是,基于新數(shù)據(jù)的不斷存入,易造成一些分層中存儲的數(shù)據(jù)過多,使得各分層間數(shù)據(jù)存儲不均衡,從而造成存儲系統(tǒng)的磁盤利用率較低。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種數(shù)據(jù)分層存儲系統(tǒng)及方法,能夠提高存儲系統(tǒng)的磁盤利用率。
為了達到上述目的,本發(fā)明是通過如下技術(shù)方案實現(xiàn)的:
一方面,本發(fā)明提供了一種數(shù)據(jù)分層存儲系統(tǒng),包括:
數(shù)據(jù)監(jiān)控模塊、自動分層模塊、數(shù)據(jù)遷移模塊,其中,所述數(shù)據(jù)監(jiān)控模塊包括命中率統(tǒng)計單元、數(shù)據(jù)樣本篩選單元、數(shù)據(jù)層級標注單元;
所述命中率統(tǒng)計單元,用于針對存儲系統(tǒng)的至少兩個分層中的第一分層,統(tǒng)計相應(yīng)預(yù)設(shè)時間段內(nèi),外部對所述第一分層的訪問次數(shù);在確定出所述訪問次數(shù)未達到相應(yīng)預(yù)設(shè)閾值時,觸發(fā)所述數(shù)據(jù)樣本篩選單元;
所述數(shù)據(jù)樣本篩選單元,用于針對所述存儲系統(tǒng)的每一個分層均執(zhí)行:根據(jù)相應(yīng)預(yù)設(shè)時間段內(nèi),外部所訪問的該分層中存儲的第一數(shù)量的數(shù)據(jù),確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù),其中,所述第一數(shù)量不小于所述第二數(shù)量;將確定出的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù)發(fā)送給所述自動分層模塊;
所述自動分層模塊,用于根據(jù)所述數(shù)據(jù)樣本篩選單元發(fā)來的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù),建立自動分層模型,并觸發(fā)所述數(shù)據(jù)層級標注單元;針對所述數(shù)據(jù)層級標注單元發(fā)來的至少一個目標數(shù)據(jù),利用所述自動分層模型,分別確定每一個所述目標數(shù)據(jù)所屬的分層層級,并將其發(fā)送給所述數(shù)據(jù)層級標注單元;
所述數(shù)據(jù)層級標注單元,用于在接收到所述自動分層模塊發(fā)來的觸發(fā)信號時,確定至少一個目標數(shù)據(jù),并將其發(fā)送給所述自動分層模塊;在接收到所述自動分層模塊發(fā)來的每一個所述目標數(shù)據(jù)所屬的分層層級時,觸發(fā)所述數(shù)據(jù)遷移模塊;
所述數(shù)據(jù)遷移模塊,用于針對所述數(shù)據(jù)層級標注單元中確定的每一個所述目標數(shù)據(jù),均執(zhí)行:將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。
進一步地,所述第一分層為存儲系統(tǒng)的至少兩個分層中的最高分層層級對應(yīng)的分層,其中,分層層級越高,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越多。
進一步地,所述命中率統(tǒng)計單元中基于的預(yù)設(shè)時間段與所述數(shù)據(jù)樣本篩選單元中基于的預(yù)設(shè)時間段,在時間維度上為同一時間段;
所述第二數(shù)量占所述第一數(shù)量的百分比固定。
進一步地,所述自動分層模型為決策樹;
所述自動分層模塊,包括第一處理單元、第二處理單元和第三處理單元,其中,
所述第一處理單元,用于根據(jù)所述數(shù)據(jù)樣本篩選單元發(fā)來的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù),結(jié)合公式一、公式二、公式三、公式四、公式五、公式六、公式七和公式八,確定樣本數(shù)據(jù)當前的至少兩個特征中,具有最大信息增益比的特征;判斷所述最大信息增益比是否不小于相應(yīng)設(shè)定閾值,若是,將該特征確定為有效特征,否則,觸發(fā)第二處理單元;
所述第二處理單元,用于將所述有效特征設(shè)置為決策樹的已有節(jié)點的下一級節(jié)點,并觸發(fā)第三處理單元;在接收到所述第一處理單元的觸發(fā)操作時,完成所述決策樹的創(chuàng)建,并清除創(chuàng)建的上一個決策樹;
所述第三處理單元,用于在接收到所述第二處理單元的觸發(fā)操作時,將所述有效特征從所述當前的至少兩個特征中剔除,得到剔除后的至少兩個特征;將所述剔除后的至少兩個特征再次作為當前的至少兩個特征,并觸發(fā)所述第一處理單元;
所述公式一,包括:
其中,P(Xij)為Xij的概率;Xij為樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征,且該第i個特征的取值為該特征可取的至少一個數(shù)值中的第j個數(shù)值;Nij為在每一個分層中存儲的樣本數(shù)據(jù)中,具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式二,包括:
其中,P(Yi)為Yi的概率;Yi為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有樣本數(shù)據(jù);Mi為第i個分層中存儲的樣本數(shù)據(jù)的個數(shù);N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式三,包括:
其中,P(Yi|Xij)為Yi|Xij的概率;Yi|Xij為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);M′i為第i個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù);N′為每一個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式四,包括:
其中,H(Y)為Y的熵;Y為存儲系統(tǒng)的分層;P(Yi)為Yi的概率;n1為存儲系統(tǒng)的至少兩個分層的個數(shù);
所述公式五,包括:
其中,H(Y|Xij)為Y|Xij的熵;Y|Xij為存儲系統(tǒng)的分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);P(Yi|Xij)為Yi|Xij的概率;
所述公式六,包括:
其中,H(Y|Xi)為Y|Xi的條件熵;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;P(Xij)為Xij的概率;H(Y|Xij)為Y|Xij的熵;n2為第i個特征可取的至少一個數(shù)值的個數(shù);
所述公式七,包括:g(Y|Xi)=H(Y)-H(Y|Xi)
其中,g(Y|Xi)為Y|Xi的信息增益;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;H(Y)為Y的熵;H(Y|Xi)為Y|Xi的條件熵;
所述公式八,包括:
其中,gR(Y|Xi)為Y|Xi的信息增益比;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;g(Y|Xi)為Y|Xi的信息增益;H(Y)為Y的熵。
進一步地,所述目標數(shù)據(jù)包括:新數(shù)據(jù),和/或,存儲系統(tǒng)的每一個分層中存儲的已有數(shù)據(jù),其中,所述已有數(shù)據(jù)不包括所述樣本數(shù)據(jù);
所述數(shù)據(jù)遷移模塊,具體用于所述目標數(shù)據(jù)為新數(shù)據(jù)時,將該新數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中;所述目標數(shù)據(jù)為已有數(shù)據(jù),且該已有數(shù)據(jù)的當前所屬分層層級與所述自動分層模塊確定的分層層級不相同時,將該已有數(shù)據(jù)從當前所屬分層層級對應(yīng)的分層中,遷移至所述自動分層模塊確定的分層層級對應(yīng)的分層中。
另一方面,本發(fā)明提供了一種數(shù)據(jù)分層存儲方法,包括:
針對存儲系統(tǒng)的至少兩個分層中的第一分層,統(tǒng)計相應(yīng)預(yù)設(shè)時間段內(nèi),外部對所述第一分層的訪問次數(shù);
在確定出所述訪問次數(shù)未達到相應(yīng)預(yù)設(shè)閾值時,針對所述存儲系統(tǒng)的每一個分層均執(zhí)行:根據(jù)相應(yīng)預(yù)設(shè)時間段內(nèi),外部所訪問的該分層中存儲的第一數(shù)量的數(shù)據(jù),確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù),其中,所述第一數(shù)量不小于所述第二數(shù)量;
根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),建立自動分層模型;
確定至少一個目標數(shù)據(jù),并利用所述自動分層模型,分別確定每一個所述目標數(shù)據(jù)所屬的分層層級;
針對每一個所述目標數(shù)據(jù),均執(zhí)行:將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。
進一步地,所述第一分層為存儲系統(tǒng)的至少兩個分層中的最高分層層級對應(yīng)的分層,其中,分層層級越高,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越多。
進一步地,統(tǒng)計外部對所述第一分層的訪問次數(shù)時基于的預(yù)設(shè)時間段,與確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù)時基于的預(yù)設(shè)時間段,在時間維度上為同一時間段;
所述第二數(shù)量占所述第一數(shù)量的百分比固定。
進一步地,所述自動分層模型為決策樹;
所述根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),建立自動分層模型,包括:
S1:根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),結(jié)合公式一、公式二、公式三、公式四、公式五、公式六、公式七和公式八,確定樣本數(shù)據(jù)當前的至少兩個特征中,具有最大信息增益比的特征;判斷所述最大信息增益比是否不小于相應(yīng)設(shè)定閾值,若是,將該特征確定為有效特征,并執(zhí)行S2,否則,執(zhí)行S4;
S2:將所述有效特征設(shè)置為決策樹的已有節(jié)點的下一級節(jié)點,并執(zhí)行S3;
S3:將所述有效特征從所述當前的至少兩個特征中剔除,得到剔除后的至少兩個特征,以及將所述剔除后的至少兩個特征再次作為當前的至少兩個特征,并執(zhí)行S1;
S4:完成所述決策樹的創(chuàng)建,并清除創(chuàng)建的上一個決策樹;其中,
所述公式一,包括:
其中,P(Xij)為Xij的概率;Xij為樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征,且該第i個特征的取值為該特征可取的至少一個數(shù)值中的第j個數(shù)值;Nij為在每一個分層中存儲的樣本數(shù)據(jù)中,具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式二,包括:
其中,P(Yi)為Yi的概率;Yi為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有樣本數(shù)據(jù);Mi為第i個分層中存儲的樣本數(shù)據(jù)的個數(shù);N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式三,包括:
其中,P(Yi|Xij)為Yi|Xij的概率;Yi|Xij為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);M′i為第i個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù);N′為每一個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;
所述公式四,包括:
其中,H(Y)為Y的熵;Y為存儲系統(tǒng)的分層;P(Yi)為Yi的概率;n1為存儲系統(tǒng)的至少兩個分層的個數(shù);
所述公式五,包括:
其中,H(Y|Xij)為Y|Xij的熵;Y|Xij為存儲系統(tǒng)的分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);P(Yi|Xij)為Yi|Xij的概率;
所述公式六,包括:
其中,H(Y|Xi)為Y|Xi的條件熵;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;P(Xij)為Xij的概率;H(Y|Xij)為Y|Xij的熵;n2為第i個特征可取的至少一個數(shù)值的個數(shù);
所述公式七,包括:g(Y|Xi)=H(Y)-H(Y|Xi)
其中,g(Y|Xi)為Y|Xi的信息增益;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;H(Y)為Y的熵;H(Y|Xi)為Y|Xi的條件熵;
所述公式八,包括:
其中,gR(Y|Xi)為Y|Xi的信息增益比;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;g(Y|Xi)為Y|Xi的信息增益;H(Y)為Y的熵。
進一步地,所述目標數(shù)據(jù)包括:新數(shù)據(jù),和/或,存儲系統(tǒng)的每一個分層中存儲的已有數(shù)據(jù),其中,所述已有數(shù)據(jù)不包括所述樣本數(shù)據(jù);
所述將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中,包括:該目標數(shù)據(jù)為新數(shù)據(jù)時,將該新數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中;該目標數(shù)據(jù)為已有數(shù)據(jù),且該已有數(shù)據(jù)的當前所屬分層層級與確定出的分層層級不相同時,將該已有數(shù)據(jù)從當前所屬分層層級對應(yīng)的分層中,遷移至確定出的分層層級對應(yīng)的分層中。
本發(fā)明提供了一種數(shù)據(jù)分層存儲系統(tǒng)及方法,該系統(tǒng)包括數(shù)據(jù)監(jiān)控模塊、自動分層模塊、數(shù)據(jù)遷移模塊;數(shù)據(jù)監(jiān)控模塊在確定出一定時間內(nèi)外部對存儲系統(tǒng)的第一分層的訪問次數(shù)未達到閾值時,根據(jù)外部對各分層的訪問記錄,確定各分層的樣本數(shù)據(jù);自動分層模塊根據(jù)樣本數(shù)據(jù)建立自動分層模型,并針對數(shù)據(jù)監(jiān)控模塊發(fā)來的各目標數(shù)據(jù),利用自動分層模型確定各目標數(shù)據(jù)所屬的分層層級;數(shù)據(jù)遷移模塊將各目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。外部對分層的訪問可以反映其當前的訪問熱點,訪問熱點變動時,系統(tǒng)可以確定樣本數(shù)據(jù)以重建自動分層模型,并據(jù)此將各數(shù)據(jù)存儲或遷移至對應(yīng)分層。因此,本發(fā)明能夠提高存儲系統(tǒng)的磁盤利用率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明一實施例提供的一種數(shù)據(jù)分層存儲系統(tǒng)的示意圖;
圖2是本發(fā)明一實施例提供的另一種數(shù)據(jù)分層存儲系統(tǒng)的示意圖;
圖3是本發(fā)明一實施例提供的一種決策樹的示意圖;
圖4是本發(fā)明一實施例提供的一種數(shù)據(jù)分層存儲方法的流程圖;
圖5是本發(fā)明一實施例提供的另一種數(shù)據(jù)分層存儲方法的流程圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,本發(fā)明實施例提供了一種數(shù)據(jù)分層存儲系統(tǒng),可以包括:
數(shù)據(jù)監(jiān)控模塊101、自動分層模塊102、數(shù)據(jù)遷移模塊103,其中,所述數(shù)據(jù)監(jiān)控模塊101包括命中率統(tǒng)計單元1011、數(shù)據(jù)樣本篩選單元1012、數(shù)據(jù)層級標注單元1013;
所述命中率統(tǒng)計單元1011,用于針對存儲系統(tǒng)的至少兩個分層中的第一分層,統(tǒng)計相應(yīng)預(yù)設(shè)時間段內(nèi),外部對所述第一分層的訪問次數(shù);在確定出所述訪問次數(shù)未達到相應(yīng)預(yù)設(shè)閾值時,觸發(fā)所述數(shù)據(jù)樣本篩選單元1012;
所述數(shù)據(jù)樣本篩選單元1012,用于針對所述存儲系統(tǒng)的每一個分層均執(zhí)行:根據(jù)相應(yīng)預(yù)設(shè)時間段內(nèi),外部所訪問的該分層中存儲的第一數(shù)量的數(shù)據(jù),確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù),其中,所述第一數(shù)量不小于所述第二數(shù)量;將確定出的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù)發(fā)送給所述自動分層模塊102;
所述自動分層模塊102,用于根據(jù)所述數(shù)據(jù)樣本篩選單元1012發(fā)來的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù),建立自動分層模型,并觸發(fā)所述數(shù)據(jù)層級標注單元1013;針對所述數(shù)據(jù)層級標注單元1013發(fā)來的至少一個目標數(shù)據(jù),利用所述自動分層模型,分別確定每一個所述目標數(shù)據(jù)所屬的分層層級,并將其發(fā)送給所述數(shù)據(jù)層級標注單元1013;
所述數(shù)據(jù)層級標注單元1013,用于在接收到所述自動分層模塊102發(fā)來的觸發(fā)信號時,確定至少一個目標數(shù)據(jù),并將其發(fā)送給所述自動分層模塊102;在接收到所述自動分層模塊102發(fā)來的每一個所述目標數(shù)據(jù)所屬的分層層級時,觸發(fā)所述數(shù)據(jù)遷移模塊103;
所述數(shù)據(jù)遷移模塊103,用于針對所述數(shù)據(jù)層級標注單元1013中確定的每一個所述目標數(shù)據(jù),均執(zhí)行:將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。
本發(fā)明實施例提供了一種數(shù)據(jù)分層存儲系統(tǒng),包括數(shù)據(jù)監(jiān)控模塊、自動分層模塊、數(shù)據(jù)遷移模塊;數(shù)據(jù)監(jiān)控模塊在確定出一定時間內(nèi)外部對存儲系統(tǒng)的第一分層的訪問次數(shù)未達到閾值時,根據(jù)外部對各分層的訪問記錄,確定各分層的樣本數(shù)據(jù);自動分層模塊根據(jù)樣本數(shù)據(jù)建立自動分層模型,并針對數(shù)據(jù)監(jiān)控模塊發(fā)來的各目標數(shù)據(jù),利用自動分層模型確定各目標數(shù)據(jù)所屬的分層層級;數(shù)據(jù)遷移模塊將各目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。外部對分層的訪問可以反映其當前的訪問熱點,訪問熱點變動時,系統(tǒng)可以確定樣本數(shù)據(jù)以重建自動分層模型,并據(jù)此將各數(shù)據(jù)存儲或遷移至對應(yīng)分層。因此,本發(fā)明實施例能夠提高存儲系統(tǒng)的磁盤利用率。
詳細地,對于存儲系統(tǒng)的每一個分層,各分層的分層層級可以由高到低依次排序。其中,針對最高分層層級對應(yīng)的分層,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越多,故該分層對應(yīng)的存儲介質(zhì)可以為讀寫速度快,成本高的存儲介質(zhì),用于存放將少量的、經(jīng)常被訪問的數(shù)據(jù)。對應(yīng)地,針對最低分層層級對應(yīng)的分層,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越少,故該分層對應(yīng)的存儲介質(zhì)可以為讀寫速度慢,成本低的存儲介質(zhì),用于存放將大量的、不常用的數(shù)據(jù)。
可以看出,基于不同磁盤的物理特性,可以將不同訪問速度的磁盤進行結(jié)合以構(gòu)造混合存儲系統(tǒng),通過多層存儲介質(zhì)來存放不同訪問熱度的數(shù)據(jù)。這一實現(xiàn)方式不僅能夠降低存儲成本,還能提高存儲系統(tǒng)的整體性能。因此,需要高效準確地實現(xiàn)數(shù)據(jù)的自動分層,即將各數(shù)據(jù)存儲至其對應(yīng)的分層中。
基于上述內(nèi)容,在本發(fā)明的一個實施例中,所述第一分層為存儲系統(tǒng)的至少兩個分層中的最高分層層級對應(yīng)的分層,其中,分層層級越高,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越多。
詳細地,外部對分層的訪問可以反映其當前的訪問熱點。例如,單位時間內(nèi),外部對哪個分層的訪問次數(shù)越多,說明該分層中存儲的數(shù)據(jù)越貼近當前的訪問熱點。大多情況下,外部對最高分層層級對應(yīng)的分層的訪問次數(shù)通常最多,否則,說明當前的訪問熱點有變動,或系統(tǒng)的分層存在不合理之處。
當訪問熱點變動時,或分層不合理時,可以對各分層中存儲的數(shù)據(jù)進行遷移,以及將新數(shù)據(jù)存儲至適宜分層中,以保證存儲系統(tǒng)的磁盤利用率。
因此,在本發(fā)明實施例中,第一分層優(yōu)選地可以為最高分層層級對應(yīng)的分層,根據(jù)該分層的訪問次數(shù),以判斷外部當前的訪問熱點是否存在變動。
當然,在本發(fā)明其他實施例中,根據(jù)不同的實際應(yīng)用需求,該第一分層同樣可以為非最高分層層級對應(yīng)的任一分層。
在本發(fā)明的一個實施例中,為了保證訪問熱點的準確判斷,以根據(jù)當前的訪問熱點重新建立對應(yīng)的自動分層模型,所以,所述命中率統(tǒng)計單元1011中基于的預(yù)設(shè)時間段與所述數(shù)據(jù)樣本篩選單元1012中基于的預(yù)設(shè)時間段,在時間維度上為同一時間段;
所述第二數(shù)量占所述第一數(shù)量的百分比固定。
詳細地,可以對外部對各分層的訪問情況進行實時記錄,并定期判斷一定時間段內(nèi)外部對第一分層的訪問次數(shù)是否超過設(shè)定閾值,若是,說明當前的訪問熱點與當前的自動分層模型相一致,否則,說明兩者匹配度不是最優(yōu)。
優(yōu)選地,當判斷出一定時間段內(nèi),如一個周期內(nèi),外部對第一分層的訪問次數(shù)沒有達到設(shè)定閾值時,說明當前的訪問熱點有變動,故可以同樣針對該時間段,提取記錄的外部在該時間段內(nèi)對各分層的訪問情況。例如,優(yōu)選地,可以確定外部在該時間段內(nèi)所訪問的存儲于各分層中的數(shù)據(jù)。
由于基于同一時間段,故確定出的這些被訪問的數(shù)據(jù)與確定出的外部對第一分層的訪問次數(shù)具有一致性,故這些被訪問的數(shù)據(jù)可以作為用于重建自動分層模型的樣本數(shù)據(jù)。
舉例來說,假設(shè)外部在設(shè)定時間段內(nèi)在第一分層訪問了100條數(shù)據(jù),那該100條數(shù)據(jù)均可以作為第一分層的樣本數(shù)據(jù)。當然,基于不同的實際需求,如考慮到數(shù)據(jù)運算量的問題,同樣可以提取出其中的部分數(shù)據(jù)作為樣本數(shù)據(jù)。
優(yōu)選地,針對任一分層,若外部訪問了第一數(shù)量的數(shù)據(jù),可以將該第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的數(shù)據(jù)作為樣本數(shù)據(jù),其中,第二數(shù)量占第一數(shù)量的百分比固定,比如可以為50%。此外,樣本數(shù)據(jù)可以為從第一數(shù)量的數(shù)據(jù)中隨機提取的數(shù)據(jù)。
舉例來說,對于第一分層,外部訪問了100條數(shù)據(jù),可以隨機提取其中的50條數(shù)據(jù)作為第一分層的樣本數(shù)據(jù)。對于第二分層,外部訪問了20條數(shù)據(jù),可以隨機提取其中的10條數(shù)據(jù)作為第二分層的樣本數(shù)據(jù)。依次類推,可以確定出每一個分層的樣本數(shù)據(jù)。
當然,在本發(fā)明另一實施例中,基于不同的實際應(yīng)用需求,同樣可以要求任一分層的樣本數(shù)據(jù)的數(shù)量均相同。
隨著時間的推移,用戶對數(shù)據(jù)的需求發(fā)生著改變,即訪問熱點可能發(fā)生改變,故可以通過更新自動分層模型來滿足用戶新的需求。
因此,在本發(fā)明的一個實施例中,為了說明一種根據(jù)樣本數(shù)據(jù)重建自動分層模型的可能實現(xiàn)方式,所以,請參考圖2,所述自動分層模型為決策樹;
所述自動分層模塊102,包括第一處理單元1021、第二處理單元1022和第三處理單元1023,其中,
所述第一處理單元1021,用于根據(jù)所述數(shù)據(jù)樣本篩選單元1012發(fā)來的針對每一個分層的第二數(shù)量的樣本數(shù)據(jù),結(jié)合下述公式(1)、下述公式(2)、下述公式(3)、下述公式(4)、下述公式(5)、下述公式(6)、下述公式(7)和下述公式(8),確定樣本數(shù)據(jù)當前的至少兩個特征中,具有最大信息增益比的特征;判斷所述最大信息增益比是否不小于相應(yīng)設(shè)定閾值,若是,將該特征確定為有效特征,否則,觸發(fā)第二處理單元1022;
所述第二處理單元1022,用于將所述有效特征設(shè)置為決策樹的已有節(jié)點的下一級節(jié)點,并觸發(fā)第三處理單元1023;在接收到所述第一處理單元1021的觸發(fā)操作時,完成所述決策樹的創(chuàng)建,并清除創(chuàng)建的上一個決策樹;
所述第三處理單元1023,用于在接收到所述第二處理單元1022的觸發(fā)操作時,將所述有效特征從所述當前的至少兩個特征中剔除,得到剔除后的至少兩個特征;將所述剔除后的至少兩個特征再次作為當前的至少兩個特征,并觸發(fā)所述第一處理單元1021;
其中,P(Xij)為Xij的概率;Xij為樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征,且該第i個特征的取值為該特征可取的至少一個數(shù)值中的第j個數(shù)值;Nij為在每一個分層中存儲的樣本數(shù)據(jù)中,具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
其中,P(Yi)為Yi的概率;Yi為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有樣本數(shù)據(jù);Mi為第i個分層中存儲的樣本數(shù)據(jù)的個數(shù);N為每一個分層中存儲的樣本數(shù)據(jù)的個數(shù)的總和;
其中,P(Yi|Xij)為Yi|Xij的概率;Yi|Xij為存儲系統(tǒng)的至少兩個分層中的第i個分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);M′i為第i個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù);N′為每一個分層中存儲的具有Xij特征的樣本數(shù)據(jù)的個數(shù)的總和;
其中,H(Y)為Y的熵;Y為存儲系統(tǒng)的分層;P(Yi)為Yi的概率;n1為存儲系統(tǒng)的至少兩個分層的個數(shù);
其中,H(Y|Xij)為Y|Xij的熵;Y|Xij為存儲系統(tǒng)的分層,且每一個分層中存儲有具有Xij特征的樣本數(shù)據(jù);P(Yi|Xij)為Yi|Xij的概率;
其中,H(Y|Xi)為Y|Xi的條件熵;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;P(Xij)為Xij的概率;H(Y|Xij)為Y|Xij的熵;n2為第i個特征可取的至少一個數(shù)值的個數(shù);
g(Y|Xi)=H(Y)-H(Y|Xi) (7)
其中,g(Y|Xi)為Y|Xi的信息增益;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;H(Y)為Y的熵;H(Y|Xi)為Y|Xi的條件熵;
其中,gR(Y|Xi)為Y|Xi的信息增益比;Y|Xi為存儲系統(tǒng)的分層,且該分層針對樣本數(shù)據(jù)當前的至少兩個特征中的第i個特征;g(Y|Xi)為Y|Xi的信息增益;H(Y)為Y的熵。
詳細地,對于確定出的各分層的樣本數(shù)據(jù),樣本數(shù)據(jù)通常具有至少兩個特征。詳細地,通過剔除數(shù)據(jù)的無效特征,選取有效特征,有助于提高自動分層模型的訓(xùn)練效率。
舉例來說,存儲系統(tǒng)共有三個分層,分別為最上層、中間層和最下層,且各分層的分層層級依次遞減,即最上層為最高分層層級對應(yīng)的分層。因此,上述各公式中,Y可以取值為對應(yīng)于最上層的Y1,對應(yīng)于中間層的Y2,對應(yīng)于最下層的Y3,且上述公式(4)和公式(5)中的n1=3。
假設(shè)已確定出最上層有50個樣本數(shù)據(jù),中間層有30個樣本數(shù)據(jù),最下層有20個樣本數(shù)據(jù)。因此,三個分層中共有100個樣本數(shù)據(jù),即上述公式(1)和公式(2)中的N=100。此外,上述公式(2)中,M1=50,M2=30,M3=20。
對于這100個樣本數(shù)據(jù),假設(shè)樣本數(shù)據(jù)可以具有年齡、性別、身高三個特征,如此,可以通過上述八個公式計算各特征的信息增益比。上述各公式中,Xi可以取值為對應(yīng)于年齡的X1,對應(yīng)于性別的X2,對應(yīng)于身高的X3。以性別為例,性別可以取值男或女,故X2可以取值為對應(yīng)于男的X21,對應(yīng)于女的X22。
因為性別的取值有兩種,故針對X2,上述公式(6)中的n2=2。同理,假設(shè)年齡的取值有對應(yīng)于小于30歲的X11,對應(yīng)于30歲到50歲之間的X12,對應(yīng)于大于50歲的X13,故針對X1,上述公式(6)中的n2=3。
以X11為例,假設(shè)對于滿足小于30歲條件的樣本數(shù)據(jù),即具有X11特征的樣本數(shù)據(jù),在最上層中有20個,在中間層中有5個,在最下層中有5個,則上述公式(1)中的N11=30。如此,上述公式(3)中,N′=40,M′1=20,M′2=5,M′3=5。
基于上述舉例內(nèi)容,根據(jù)上述八個公式,可以計算各特征的信息增益比。假設(shè)計算出的各特征的信息增益比中,年齡的信息增益比最大,且該信息增益比不小于設(shè)定閾值,則可以認為年齡為有效特征。
由于年齡是確定出的第一個有效特征,故不存在已有節(jié)點,故請參照圖3,可以設(shè)置年齡為決策樹的根節(jié)點,或稱一級節(jié)點。詳細地,圖3提供了一種可能的決策樹示意圖,該決策樹可以為根據(jù)樣本數(shù)據(jù)新建立的自動分機模型。
在設(shè)置了根節(jié)點之后,可以將根節(jié)點對應(yīng)的特征:年齡剔除,即剔除后的特征有性別和身高。如此,針對性別和身高作為當前的特征,同樣針對上述100個樣本數(shù)據(jù),可以再次通過上述八個公式,計算各特征的信息增益比。
當然,在剔除年齡這一特征之前和剔除年齡這一特征之后,上述公式中的部分數(shù)值需要重新計算。例如,對于上述公式(6),剔除年齡這一特征前后,所計算出來的H(Y|Xi)為不同的值。因此,剔除年齡這一特征前后,計算出的各特征的信息增益比不同。
假設(shè)剔除年齡這一特征之后,各當前特征中,性別的信息增益比最大,且其不小于設(shè)定閾值,故可以確定性別為有效特征。如此,請參照圖3,性別這一特征可以設(shè)置為根節(jié)點的下一級節(jié)點,或稱二級節(jié)點。以此類推,以設(shè)置決策樹的每一級節(jié)點。
之后,可以將性別這一特征剔除,并針對剔除后的至少兩個特征,再次確定下一個有效特征。假設(shè)之后計算出的最大信息增益比不小于設(shè)定閾值,則確定該最大信息增益比對應(yīng)的特征為有效特征,故可以將該特征設(shè)置為性別的下一級節(jié)點。對應(yīng)地,若計算出的最大信息增益比小于設(shè)定閾值,則確定不存在有效特征,說明剩余的各特征均不顯著,故圖3中的決策樹可以僅包括確定出的兩級節(jié)點。在決策樹創(chuàng)建完成后,可以清除創(chuàng)建的上一個決策樹,即實現(xiàn)決策樹的更新替換。
當然,基于上述內(nèi)容,由于樣本數(shù)據(jù)僅包括三個特征,在確定了性別為二級節(jié)點后,僅剩余一個特征:身高,故可以不進行下一輪有效特征的確定,可以直接根據(jù)當前計算出的身高的信息增益比,確定身高是否為有效特征,若是,則設(shè)置身高為圖3中性別的下一級節(jié)點,否則,圖3中的決策樹僅包括兩級節(jié)點。
假設(shè)身高為圖3中性別的下一級節(jié)點,故根據(jù)上述100個樣本數(shù)據(jù),可以對決策樹的每一個分支進行標注,標注各分支所屬分層的分層層級,從而完成決策樹的創(chuàng)建。
詳細地,在圖3中,針對身高這一特征,對應(yīng)的可以有3個取值,例如可以分為對應(yīng)于不高于160cm的X31、對應(yīng)于160cm至180cm之間的X32、對應(yīng)于不低于180cm的X33。
請參考圖3,圖3中的1可以表示為最上層對應(yīng)的分層層級,2可以表示為中間層對應(yīng)的分層層級,3可以表示為最下層對應(yīng)的分層層級。例如,當某一數(shù)據(jù)同時符合X11、X21、X31時,可以確定該數(shù)據(jù)對應(yīng)的分層層級為最下層,故可以將該數(shù)據(jù)存儲或遷移至最下層。
由于當前創(chuàng)建的決策樹是基于上述100個樣本數(shù)據(jù)的,且該100個樣本數(shù)據(jù)是基于外部當前對存儲系統(tǒng)各分層的訪問記錄而提取出來的,故該當前創(chuàng)建的決策樹是符合當前的訪問熱點的。
因此,針對存儲系統(tǒng)對應(yīng)的各個數(shù)據(jù),可以根據(jù)新創(chuàng)建的決策樹,確定各數(shù)據(jù)所屬的分層層級,并將其存儲至分層層級對應(yīng)的分層中。
因此,在本發(fā)明一個實施例中,所述目標數(shù)據(jù)包括:新數(shù)據(jù),和/或,存儲系統(tǒng)的每一個分層中存儲的已有數(shù)據(jù),其中,所述已有數(shù)據(jù)不包括所述樣本數(shù)據(jù);
所述數(shù)據(jù)遷移模塊103,具體用于所述目標數(shù)據(jù)為新數(shù)據(jù)時,將該新數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中;所述目標數(shù)據(jù)為已有數(shù)據(jù),且該已有數(shù)據(jù)的當前所屬分層層級與所述自動分層模塊102確定的分層層級不相同時,將該已有數(shù)據(jù)從當前所屬分層層級對應(yīng)的分層中,遷移至所述自動分層模塊102確定的分層層級對應(yīng)的分層中。
詳細地,目標數(shù)據(jù)可以為待存入存儲系統(tǒng)的各個新數(shù)據(jù),以及可以為該存儲系統(tǒng)各分層中已存在的各個已有數(shù)據(jù)。其中,基于當前的決策樹,各新數(shù)據(jù)可以實時存入對應(yīng)分層,而各已有數(shù)據(jù)可以在系統(tǒng)空閑時遷移至對應(yīng)分層。
例如,在獲取到每一個新數(shù)據(jù)之后,可以根據(jù)決策樹,確定該新數(shù)據(jù)符合決策樹中的具體哪一個末端分支,從而可以根據(jù)該分支對應(yīng)的分層層級,將該新數(shù)據(jù)存儲至該分層層級對應(yīng)的分層中。
詳細地,由于決策樹是基于樣本數(shù)據(jù)創(chuàng)建的,故各樣本數(shù)據(jù)當前所在分層符合決策樹所推薦的分層,故上述已有數(shù)據(jù)不包括各樣本數(shù)據(jù)。
對于每一個已有數(shù)據(jù),與新數(shù)據(jù)相同,可以根據(jù)決策樹,確定該已有數(shù)據(jù)符合決策樹中的具體哪一個末端分支,從而可以根據(jù)該分支對應(yīng)的分層層級,確定該已有數(shù)據(jù)所屬的分層層級。因此,當已有數(shù)據(jù)的當前所在分層與確定出的分層層級不對應(yīng)時,可以對該已有數(shù)據(jù)進行遷移。
例如,對于最上層中的某一已有數(shù)據(jù),若根據(jù)決策樹,確定其所屬分層應(yīng)為中間層,則可以將該已有數(shù)據(jù)從最上層遷移至中間層。
在本發(fā)明一個實施例中,當前創(chuàng)建的決策樹是基于實時的樣本數(shù)據(jù)進行創(chuàng)建的,故最初創(chuàng)建的決策樹可以是根據(jù)用戶預(yù)先設(shè)定的訓(xùn)練樣本數(shù)據(jù)進行創(chuàng)建。其中,訓(xùn)練樣本數(shù)據(jù)的設(shè)定可以與樣本數(shù)據(jù)基于同一實現(xiàn)原理。
根據(jù)優(yōu)選地訓(xùn)練樣本數(shù)據(jù),可以創(chuàng)建對應(yīng)的決策樹,并基于該最初創(chuàng)建的決策樹,對存儲系統(tǒng)進行分層,以及將各數(shù)據(jù)存儲至對應(yīng)分層中。之后,基于外部對第一分層的訪問次數(shù),可以確定當前使用的決策樹是否符合當前的訪問熱點,若不符合,則采集實時的樣本數(shù)據(jù),并根據(jù)樣本數(shù)據(jù)更新決策樹,以及根據(jù)創(chuàng)建的決策樹實現(xiàn)新數(shù)據(jù)的對應(yīng)存儲和已有數(shù)據(jù)的對應(yīng)遷移。
基于同樣的實現(xiàn)原理,當再次確定出當前使用的決策樹不符合當前的訪問熱點時,可以再次重建決策樹并執(zhí)行上述數(shù)據(jù)遷移操作。如此,對應(yīng)于與訪問熱點的相關(guān)程度,可以始終將與訪問熱點對應(yīng)的數(shù)據(jù)存儲至最高分層層級對應(yīng)的分層,將與訪問熱點具有低相關(guān)度的數(shù)據(jù)存儲至最低分層層級對應(yīng)的分層,從而可以提高存儲系統(tǒng)的磁盤利用率和存儲系統(tǒng)的整體性能。
綜上所述,本發(fā)明實施例能夠自動從樣本數(shù)據(jù)中篩選數(shù)據(jù)的有效特征,并根據(jù)這些有效特征建立基于決策樹的數(shù)據(jù)自動分層模型,對數(shù)據(jù)進行層級標注,并根據(jù)層級標注結(jié)果在系統(tǒng)空閑時實施數(shù)據(jù)遷移操作,從而實現(xiàn)數(shù)據(jù)的自動分層和存儲。
如圖4所示,本發(fā)明實施例提供了一種數(shù)據(jù)分層存儲方法,包括:
步驟401:針對存儲系統(tǒng)的至少兩個分層中的第一分層,統(tǒng)計相應(yīng)預(yù)設(shè)時間段內(nèi),外部對所述第一分層的訪問次數(shù)。
步驟402:在確定出所述訪問次數(shù)未達到相應(yīng)預(yù)設(shè)閾值時,針對所述存儲系統(tǒng)的每一個分層均執(zhí)行:根據(jù)相應(yīng)預(yù)設(shè)時間段內(nèi),外部所訪問的該分層中存儲的第一數(shù)量的數(shù)據(jù),確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù),其中,所述第一數(shù)量不小于所述第二數(shù)量。
步驟403:根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),建立自動分層模型。
步驟404:確定至少一個目標數(shù)據(jù),并利用所述自動分層模型,分別確定每一個所述目標數(shù)據(jù)所屬的分層層級。
步驟405:針對每一個所述目標數(shù)據(jù),均執(zhí)行:將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。
在本發(fā)明一個實施例中,所述第一分層為存儲系統(tǒng)的至少兩個分層中的最高分層層級對應(yīng)的分層,其中,分層層級越高,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)越多。
優(yōu)選地,基于最高分層層級對應(yīng)的分層的訪問次數(shù),有益于準確確定當前的訪問熱點,從而可以確定是否需要重建自動分層模型。
在本發(fā)明一個實施例中,統(tǒng)計外部對所述第一分層的訪問次數(shù)時基于的預(yù)設(shè)時間段,與確定所述第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù)時基于的預(yù)設(shè)時間段,在時間維度上為同一時間段;
所述第二數(shù)量占所述第一數(shù)量的百分比固定。
詳細地,步驟401和步驟402所基于的預(yù)設(shè)時間段為同一時間段。通過保證兩個預(yù)設(shè)時間段為同一時間段,有益于準確確定訪問熱點,從而建立符合當前訪問熱點的自動分層模型。
例如,對于每一個分層的第一數(shù)量和第二數(shù)量,可以要求第二數(shù)量占第一數(shù)量的一半。舉例來說,假設(shè)某一分層的第一數(shù)量的數(shù)據(jù)為100個數(shù)據(jù),可以從中隨機選取出50個數(shù)據(jù)作為樣本數(shù)據(jù)。
在本發(fā)明一個實施例中,為了說明一種建立自動分層模型的可能實現(xiàn)方式,所以,所述自動分層模型為決策樹;
所述步驟403,包括:
步驟4031:根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),結(jié)合上述公式(1)、上述公式(2)、上述公式(3)、上述公式(4)、上述公式(5)、上述公式(6)、上述公式(7)和上述公式(8),確定樣本數(shù)據(jù)當前的至少兩個特征中,具有最大信息增益比的特征;判斷所述最大信息增益比是否不小于相應(yīng)設(shè)定閾值,若是,將該特征確定為有效特征,并執(zhí)行步驟4032,否則,執(zhí)行步驟4034;
步驟4032:將所述有效特征設(shè)置為決策樹的已有節(jié)點的下一級節(jié)點,并執(zhí)行步驟4033;
步驟4033:將所述有效特征從所述當前的至少兩個特征中剔除,得到剔除后的至少兩個特征,以及將所述剔除后的至少兩個特征再次作為當前的至少兩個特征,并執(zhí)行步驟4031;
步驟4034:完成所述決策樹的創(chuàng)建,并清除創(chuàng)建的上一個決策樹。
在本發(fā)明一個實施例中,所述目標數(shù)據(jù)包括:新數(shù)據(jù),和/或,存儲系統(tǒng)的每一個分層中存儲的已有數(shù)據(jù),其中,所述已有數(shù)據(jù)不包括所述樣本數(shù)據(jù);
所述將該目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中,包括:該目標數(shù)據(jù)為新數(shù)據(jù)時,將該新數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中;該目標數(shù)據(jù)為已有數(shù)據(jù),且該已有數(shù)據(jù)的當前所屬分層層級與確定出的分層層級不相同時,將該已有數(shù)據(jù)從當前所屬分層層級對應(yīng)的分層中,遷移至確定出的分層層級對應(yīng)的分層中。
如圖5所示,本發(fā)明一個實施例提供了另一種數(shù)據(jù)分層存儲方法,具體包括以下步驟:
步驟501:針對存儲系統(tǒng)的至少兩個分層中的最高分層層級對應(yīng)的分層,統(tǒng)計一個周期T內(nèi),外部對該分層的訪問次數(shù)。
詳細地,分層層級越高,單位時間內(nèi)外部對該分層層級對應(yīng)的分層的訪問次數(shù)通常越多。
步驟502:在確定出訪問次數(shù)未達到相應(yīng)預(yù)設(shè)閾值時,針對存儲系統(tǒng)的每一個分層均執(zhí)行:根據(jù)上述周期T內(nèi),外部所訪問的該分層中存儲的第一數(shù)量的數(shù)據(jù),確定第一數(shù)量的數(shù)據(jù)中的第二數(shù)量的樣本數(shù)據(jù),其中,第一數(shù)量不小于第二數(shù)量。
詳細地,對于任一分層,第二數(shù)量占第一數(shù)量的百分比可以固定,如均為50%。
步驟503:根據(jù)每一個分層的第二數(shù)量的樣本數(shù)據(jù),創(chuàng)建決策樹,并清除創(chuàng)建的上一個決策樹。
詳細地,根據(jù)樣本數(shù)據(jù)創(chuàng)建決策樹,并對原有的決策樹進行更新替換。
詳細地,決策樹的創(chuàng)建可以基于上述步驟4031至步驟4034得以實現(xiàn)。
步驟504:確定至少一個新數(shù)據(jù)和至少一個已有數(shù)據(jù),并利用當前的決策樹,分別確定每一個新數(shù)據(jù)和每一個已有數(shù)據(jù)所屬的分層層級。
詳細地,已有數(shù)據(jù)可以為存儲系統(tǒng)的每一個分層中已存儲的數(shù)據(jù),且已有數(shù)據(jù)不包括上述樣本數(shù)據(jù)。
步驟505:針對每一個新數(shù)據(jù),均執(zhí)行:將該新數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。
步驟506:針對每一個已有數(shù)據(jù),均執(zhí)行:判斷該已有數(shù)據(jù)的當前所屬分層層級與上述確定出的分層層級是否相同,若是,結(jié)束當前流程,否則,將該已有數(shù)據(jù)從當前所屬分層層級對應(yīng)的分層中,遷移至上述確定出的分層層級對應(yīng)的分層中。
綜上所述,基于不同訪問速度的磁盤構(gòu)造的混合存儲系統(tǒng),用不同分層對應(yīng)的存儲介質(zhì)存放不同訪問熱度的數(shù)據(jù),并根據(jù)在當前的訪問熱度與分層存儲習(xí)慣不匹配時,根據(jù)當前的訪問熱點更新自動分層模型,并實現(xiàn)新數(shù)據(jù)和已有數(shù)據(jù)的對應(yīng)存儲及遷移,以方便用戶訪問熱度數(shù)據(jù)。這一實現(xiàn)方式能夠各分層中存儲對應(yīng)訪問熱度的數(shù)據(jù),有益于降低硬件成本,提高磁盤利用率,提高存儲系統(tǒng)的整體讀寫性能。
上述方法所述的信息交互、執(zhí)行過程等內(nèi)容,由于與本發(fā)明系統(tǒng)實施例基于同一構(gòu)思,具體內(nèi)容可參見本發(fā)明系統(tǒng)實施例中的敘述,此處不再贅述。
綜上所述,本發(fā)明的各個實施例至少具有如下有益效果:
1、本發(fā)明實施例中,數(shù)據(jù)監(jiān)控模塊在確定出一定時間內(nèi)外部對存儲系統(tǒng)的第一分層的訪問次數(shù)未達到閾值時,根據(jù)外部對各分層的訪問記錄,確定各分層的樣本數(shù)據(jù);自動分層模塊根據(jù)樣本數(shù)據(jù)建立自動分層模型,并針對數(shù)據(jù)監(jiān)控模塊發(fā)來的各目標數(shù)據(jù),利用自動分層模型確定各目標數(shù)據(jù)所屬的分層層級;數(shù)據(jù)遷移模塊將各目標數(shù)據(jù)存儲至其所屬的分層層級對應(yīng)的分層中。外部對分層的訪問可以反映其當前的訪問熱點,訪問熱點變動時,系統(tǒng)可以確定樣本數(shù)據(jù)以重建自動分層模型,并據(jù)此將各數(shù)據(jù)存儲或遷移至對應(yīng)分層。因此,本發(fā)明實施例能夠提高存儲系統(tǒng)的磁盤利用率。
2、本發(fā)明實施例中,基于不同磁盤的物理特性,可以將不同訪問速度的磁盤進行結(jié)合以構(gòu)造混合存儲系統(tǒng),通過多層存儲介質(zhì)來存放不同訪問熱度的數(shù)據(jù)。這一實現(xiàn)方式不僅能夠降低存儲成本,還能提高存儲系統(tǒng)的整體性能。
3、本發(fā)明實施例中,通過剔除數(shù)據(jù)的無效特征,選取有效特征,有助于提高自動分層模型的訓(xùn)練效率。通過自動從樣本數(shù)據(jù)中篩選數(shù)據(jù)的有效特征,并根據(jù)這些有效特征建立基于決策樹的數(shù)據(jù)自動分層模型,對數(shù)據(jù)進行層級標注,并根據(jù)層級標注結(jié)果在系統(tǒng)空閑時實施數(shù)據(jù)遷移操作,從而實現(xiàn)數(shù)據(jù)的自動分層和存儲。
4、本發(fā)明實施例中,基于不同訪問速度的磁盤構(gòu)造的混合存儲系統(tǒng),用不同分層對應(yīng)的存儲介質(zhì)存放不同訪問熱度的數(shù)據(jù),并根據(jù)在當前的訪問熱度與分層存儲習(xí)慣不匹配時,根據(jù)當前的訪問熱點更新自動分層模型,并實現(xiàn)新數(shù)據(jù)和已有數(shù)據(jù)的對應(yīng)存儲及遷移,以方便用戶訪問熱度數(shù)據(jù)。這一實現(xiàn)方式能夠各分層中存儲對應(yīng)訪問熱度的數(shù)據(jù),有益于降低硬件成本,提高磁盤利用率,提高存儲系統(tǒng)的整體讀寫性能。
需要說明的是,在本文中,諸如第一和第二之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個〃·····”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同因素。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲在計算機可讀取的存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)中。
最后需要說明的是:以上所述僅為本發(fā)明的較佳實施例,僅用于說明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。