數(shù)據(jù)存儲(chǔ)量的預(yù)測(cè)方法和預(yù)測(cè)裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)存儲(chǔ)量預(yù)測(cè)領(lǐng)域,具體地,涉及一種數(shù)據(jù)存儲(chǔ)量的預(yù)測(cè)方法和一 種預(yù)測(cè)裝置。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)集中成為必要的趨勢(shì),由此帶來的數(shù)據(jù)存儲(chǔ)問題也 越發(fā)明顯。
[0003] 目前,用于預(yù)測(cè)信息系統(tǒng)數(shù)據(jù)存儲(chǔ)量的方法包括最大值估測(cè)法、平均值估測(cè)法、數(shù) 據(jù)期望值估測(cè)法等。但是,利用最大值估測(cè)法可能會(huì)造成較大的浪費(fèi),利用平均值估測(cè)法又 可能產(chǎn)生估測(cè)不準(zhǔn)的現(xiàn)象,利用存儲(chǔ)容量計(jì)算模型也是存在一定的誤差率。
[0004] 并且,在上述幾種預(yù)測(cè)方法中,并沒有針對(duì)不同類型的數(shù)據(jù)進(jìn)行區(qū)分,因此,無法 預(yù)測(cè)不同類型的數(shù)據(jù)的存儲(chǔ)量。
[0005] 而在有的信息系統(tǒng)中通常存儲(chǔ)有各種不同類型的數(shù)據(jù),需要為各種不同類型的數(shù) 據(jù)分別分配存儲(chǔ)空間。因此,利用上述幾種預(yù)測(cè)方法無法實(shí)現(xiàn)上述目的。
[0006] 因此,如何準(zhǔn)確地對(duì)不同類型的數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)量進(jìn)行估測(cè)成為本領(lǐng)域亟待解決 的技術(shù)問題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種數(shù)據(jù)存儲(chǔ)量的預(yù)測(cè)方法和一種預(yù)測(cè)裝置,利用該預(yù)測(cè) 方法可以準(zhǔn)確地預(yù)測(cè)存儲(chǔ)多種類型的數(shù)據(jù)的信息系統(tǒng)的數(shù)據(jù)存儲(chǔ)量。
[0008] 為了實(shí)現(xiàn)上述目的,作為本發(fā)明的一個(gè)方面,提供一種數(shù)據(jù)存儲(chǔ)量的預(yù)測(cè)方法,其 中,所述預(yù)測(cè)方法包括:
[0009] 對(duì)第一預(yù)定時(shí)間段內(nèi)的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記錄進(jìn)行歸一化處理,以獲得所述第 一預(yù)定時(shí)間段內(nèi)的目標(biāo)歷史數(shù)據(jù),所述原始?xì)v史數(shù)據(jù)包括多種不同類型的數(shù)據(jù),且所述第 一預(yù)定時(shí)間段包括多個(gè)子時(shí)間段;
[0010] 根據(jù)按照所述目標(biāo)歷史數(shù)據(jù)對(duì)應(yīng)的原始?xì)v史數(shù)據(jù)將所述第一預(yù)定時(shí)間段內(nèi)的所 有目標(biāo)歷史數(shù)據(jù)劃分為多個(gè)子數(shù)據(jù)集;
[0011] 計(jì)算各個(gè)子數(shù)據(jù)集中的各個(gè)目標(biāo)數(shù)據(jù)記錄在所述目標(biāo)歷史數(shù)據(jù)中出現(xiàn)的概率;
[0012] 將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)的數(shù)據(jù)記錄代入SVM模型,計(jì)算獲得各種 類型的數(shù)據(jù)在將來的第二預(yù)定時(shí)間段的預(yù)測(cè)數(shù)據(jù)記錄;
[0013] 將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)出現(xiàn)的概率代入SVM模型,計(jì)算獲得各種 類型的數(shù)據(jù)在將來的第二預(yù)定時(shí)間段內(nèi)出現(xiàn)的預(yù)測(cè)概率;
[0014] 利用公式(1)計(jì)算各個(gè)子數(shù)據(jù)集在第二預(yù)定時(shí)間段內(nèi)的數(shù)據(jù)存儲(chǔ)量:
[0016]其中,MN為第二預(yù)定時(shí)間段內(nèi)的數(shù)據(jù)存儲(chǔ)量;
[0017] XlN為第二預(yù)定階段內(nèi)第i種數(shù)據(jù)的預(yù)測(cè)數(shù)據(jù)記錄;
[0018] U為第i種數(shù)據(jù)的數(shù)據(jù)記錄的字節(jié)長(zhǎng)度;
[0019] T為第二預(yù)定時(shí)間段的長(zhǎng)度;
[0020] A為存儲(chǔ)冗余常數(shù);
[0021] i為數(shù)據(jù)類型的編號(hào),i為自然數(shù),1 < i <m;
[0022] m為數(shù)據(jù)類型的總數(shù),m>l;
[0023] plN為第i種數(shù)據(jù)在第二預(yù)定階段內(nèi)出現(xiàn)的預(yù)測(cè)概率。
[0024] 優(yōu)選地,m = 4,多個(gè)所述子數(shù)據(jù)集包括清單子數(shù)據(jù)集、客戶資料子數(shù)據(jù)集、賬務(wù)子 數(shù)據(jù)集和結(jié)算子數(shù)據(jù)集,所述清單子數(shù)據(jù)集包括清單類數(shù)據(jù),所述客戶資料子數(shù)據(jù)集包括 客戶資料類數(shù)據(jù),所述結(jié)算子數(shù)據(jù)集包括結(jié)算數(shù)據(jù)。
[0025] 優(yōu)選地,所述第一預(yù)定時(shí)間段為12個(gè)月,每個(gè)子階段為一個(gè)月,所述第二預(yù)定時(shí)間 段為第一預(yù)定時(shí)間段后的第13個(gè)月,在將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)的數(shù)據(jù)記錄 代入SVM模型的步驟中、以及在將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)出現(xiàn)的概率代入SVM 模型的步驟中,選擇的訓(xùn)練樣本包括六個(gè)月的數(shù)據(jù),預(yù)測(cè)樣本包括六個(gè)月的數(shù)據(jù)。
[0026] 優(yōu)選地,在對(duì)第一預(yù)定時(shí)間段內(nèi)的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記錄進(jìn)行歸一化處理的步 驟中,利用公式(2)對(duì)原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記錄極性歸一化處理:
[0028] 其中,Χιη為第η個(gè)子時(shí)間段內(nèi),第i種類型的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記錄;
[0029] Xl_min為在所述原始?xì)v史數(shù)據(jù)中,第i種類型的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)機(jī)理的最小值;
[0030] Xl_max為在所述原始?xì)v史數(shù)據(jù)中,第i種類型的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記錄的最大值;
[0031] ^為第η個(gè)子時(shí)間段內(nèi),第i種類型的目標(biāo)歷史數(shù)據(jù)的數(shù)據(jù)記錄。
[0032] 優(yōu)選地,所述原始?xì)v史數(shù)據(jù)為在線存儲(chǔ)數(shù)據(jù)、近線存儲(chǔ)數(shù)據(jù)和歸檔存儲(chǔ)數(shù)據(jù)中的 任意一種。
[0033]作為本發(fā)明的另一個(gè)方面,提供一種數(shù)據(jù)存儲(chǔ)量的預(yù)測(cè)裝置,其中,所述預(yù)測(cè)裝置 包括:
[0034]預(yù)處理模塊,所述預(yù)處理模塊用于對(duì)第一預(yù)定時(shí)間段內(nèi)的原始?xì)v史數(shù)據(jù)的數(shù)據(jù)記 錄進(jìn)行歸一化處理,以獲得所述第一預(yù)定時(shí)間段內(nèi)的目標(biāo)歷史數(shù)據(jù),所述原始?xì)v史數(shù)據(jù)包 括多種不同類型的數(shù)據(jù),且所述第一預(yù)定時(shí)間段包括多個(gè)子時(shí)間段;
[0035] 數(shù)據(jù)分解模塊,所述數(shù)據(jù)分解模塊的輸入端與所述預(yù)處理模塊的輸出端相連,所 述數(shù)據(jù)分解模塊用于根據(jù)按照所述目標(biāo)歷史數(shù)據(jù)對(duì)應(yīng)的原始?xì)v史數(shù)據(jù)將所述第一預(yù)定時(shí) 間段內(nèi)的所有目標(biāo)歷史數(shù)據(jù)劃分為多個(gè)子數(shù)據(jù)集;
[0036] 概率計(jì)算模塊,所述概率計(jì)算模塊的輸入端與所述預(yù)處理模塊的輸出端相連,所 述概率計(jì)算模塊用于計(jì)算各個(gè)子數(shù)據(jù)集中的各個(gè)目標(biāo)數(shù)據(jù)記錄在所述目標(biāo)歷史數(shù)據(jù)中出 現(xiàn)的概率;
[0037] SVM預(yù)測(cè)模塊,所述SVM的輸入端分別與所述數(shù)據(jù)分解模塊的輸出端以及所述概率 計(jì)算模塊的輸出端相連,所述SVM預(yù)測(cè)模塊能夠?qū)⒍鄠€(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)的 數(shù)據(jù)記錄代入SVM模型,計(jì)算獲得各種類型的數(shù)據(jù)在將來的第二預(yù)定時(shí)間段的預(yù)測(cè)數(shù)據(jù)記 錄,并且所述SVM預(yù)測(cè)模塊能夠?qū)⒍鄠€(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)出現(xiàn)的概率代入SVM 模型,計(jì)算獲得各種類型的數(shù)據(jù)在將來的第二預(yù)定時(shí)間段內(nèi)出現(xiàn)的預(yù)測(cè)概率;
[0038]計(jì)算模塊,所述計(jì)算模塊的輸入端與所述SVM預(yù)測(cè)模塊的輸出端相連,所述計(jì)算模 塊用于利用公式(1)計(jì)算各個(gè)子數(shù)據(jù)集在第二預(yù)定時(shí)間段內(nèi)的數(shù)據(jù)存儲(chǔ)量:
[0040] 其中,Mn為第二預(yù)定時(shí)間段內(nèi)的數(shù)據(jù)存儲(chǔ)量;
[0041] XlN為第二預(yù)定階段內(nèi)第i種數(shù)據(jù)的預(yù)測(cè)數(shù)據(jù)記錄;
[0042] U為第i種數(shù)據(jù)的數(shù)據(jù)記錄的字節(jié)長(zhǎng)度;
[0043] T為第二預(yù)定時(shí)間段的長(zhǎng)度;
[0044] A為存儲(chǔ)冗余常數(shù);
[0045] i為數(shù)據(jù)類型的編號(hào),i為自然數(shù),
[0046] m為數(shù)據(jù)類型的總數(shù),m> 1;
[0047] PlN為第i種數(shù)據(jù)在第二預(yù)定階段內(nèi)出現(xiàn)的預(yù)測(cè)概率。
[0048] 優(yōu)選地,m = 4,多個(gè)所述子數(shù)據(jù)集包括清單子數(shù)據(jù)集、客戶資料子數(shù)據(jù)集、賬務(wù)子 數(shù)據(jù)集和結(jié)算子數(shù)據(jù)集,所述清單子數(shù)據(jù)集包括清單類數(shù)據(jù),所述客戶資料子數(shù)據(jù)集包括 客戶資料類數(shù)據(jù),所述結(jié)算子數(shù)據(jù)集包括結(jié)算數(shù)據(jù)。
[0049] 優(yōu)選地,所述第一預(yù)定時(shí)間段為12個(gè)月,每個(gè)子階段為一個(gè)月,所述第二預(yù)定時(shí)間 段為第一預(yù)定時(shí)間段后的第13個(gè)月,在將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)的數(shù)據(jù)記錄 代入SVM模型的步驟中、以及在將多個(gè)所述子數(shù)據(jù)集中的目標(biāo)歷史數(shù)據(jù)出現(xiàn)的概率代入SVM 模型的步驟中,選擇的訓(xùn)練樣本包括六個(gè)月的數(shù)據(jù),預(yù)測(cè)樣本包括六個(gè)月的數(shù)據(jù)