據(jù)存儲(chǔ)硬盤(pán);其具體過(guò)程為根據(jù)所述被訪問(wèn)頻率,確定所述被訪問(wèn)頻率所述屬于的閾值范圍內(nèi),根據(jù)閾值范圍與存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系查找所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),從而查找到所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率所對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán)。所述存儲(chǔ)硬盤(pán)為預(yù)先設(shè)于置hadoop集群的數(shù)據(jù)節(jié)點(diǎn)上用于存儲(chǔ)數(shù)據(jù)的機(jī)械硬盤(pán),其包括:SSD高速硬盤(pán)、高速機(jī)械硬盤(pán)和低速機(jī)械硬盤(pán)。
[0028]進(jìn)一步,所述頻率存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系是預(yù)先設(shè)定的,其可以通過(guò)設(shè)定閾值,來(lái)確定頻率所屬的閾值范圍,根據(jù)閾值范圍確定數(shù)據(jù)的存儲(chǔ)硬盤(pán)。所屬閾值可以是系統(tǒng)預(yù)先設(shè)定的,也可以用戶根據(jù)數(shù)據(jù)使用的情況自行設(shè)定。這樣可以避免由于不同用戶使用情況不同,而造成的某個(gè)硬盤(pán)內(nèi)無(wú)數(shù)據(jù),某個(gè)硬盤(pán)存儲(chǔ)數(shù)據(jù)外溢的問(wèn)題。對(duì)于閾值的選取,不做具體限制,可以設(shè)置修改,這里僅給出例子加以說(shuō)明。例如,第一閾值為5,第二閾值為50,那么被訪問(wèn)頻率與存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系為:
被訪問(wèn)頻率小于第一閾值,數(shù)據(jù)存儲(chǔ)于低速機(jī)械硬盤(pán),
第一閾值小于被訪問(wèn)頻率,且被訪問(wèn)頻率小于第二閾值,數(shù)據(jù)存儲(chǔ)于高速機(jī)械硬盤(pán), 被訪問(wèn)頻率大于第二閾值,數(shù)據(jù)存儲(chǔ)于SSD高速硬盤(pán)。
[0029]也就是說(shuō),將被訪問(wèn)頻率高的數(shù)據(jù)存儲(chǔ)于SSD高速硬盤(pán),將被訪問(wèn)頻率中的存儲(chǔ)于高速機(jī)械硬盤(pán),將被訪問(wèn)頻率低的存儲(chǔ)于低速機(jī)械硬盤(pán)。這里,所述SSD高速硬盤(pán)、高速機(jī)械硬盤(pán)和低速機(jī)械硬盤(pán)處理數(shù)據(jù)的速度為由高到低,這樣可以避免被訪問(wèn)次高的數(shù)據(jù)存儲(chǔ)于低速機(jī)械硬盤(pán),造成的硬盤(pán)處理數(shù)據(jù)的速度低于數(shù)據(jù)被訪問(wèn)的頻率磁盤(pán)效率低的問(wèn)題。
[0030]S3、根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)迀移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)。
[0031]具體地,所述將所述數(shù)據(jù)迀移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)為根據(jù)一段時(shí)間內(nèi)數(shù)據(jù)被訪問(wèn)頻率調(diào)整數(shù)據(jù)的存儲(chǔ)硬盤(pán),這樣可以根據(jù)不同時(shí)間數(shù)據(jù)的被訪問(wèn)頻率自動(dòng)調(diào)整數(shù)據(jù)的存儲(chǔ)硬盤(pán)。
[0032]本發(fā)明還提供了一種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),請(qǐng)參照?qǐng)D2,所述系統(tǒng)包括:
獲取模塊100,用于獲取設(shè)置于hadoop集群的數(shù)據(jù)節(jié)點(diǎn)上的存儲(chǔ)硬盤(pán)中的數(shù)據(jù)在一段時(shí)間內(nèi)的被訪問(wèn)頻率;
查找模塊200,用于根據(jù)所述被訪問(wèn)頻率,查找預(yù)先設(shè)置與所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán);
迀移模塊300,用于根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)迀移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)。
[0033]所述基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其還包括:
預(yù)設(shè)模塊,用于預(yù)先設(shè)置用于確定被訪問(wèn)頻率與存儲(chǔ)硬盤(pán)對(duì)應(yīng)關(guān)系的閾值、以及被訪冋頻率與存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系,所述對(duì)應(yīng)關(guān)系為:
被訪問(wèn)頻率小于第一閾值,數(shù)據(jù)存儲(chǔ)于低速機(jī)械硬盤(pán),
第一閾值小于被訪問(wèn)頻率,且被訪問(wèn)頻率小于第二閾值,數(shù)據(jù)存儲(chǔ)于高速機(jī)械硬盤(pán), 被訪問(wèn)頻率大于第二閾值,數(shù)據(jù)存儲(chǔ)于SSD高速硬盤(pán)。
[0034]所述預(yù)設(shè)模塊還用于預(yù)先在hadoop集群的數(shù)據(jù)節(jié)點(diǎn)上設(shè)置用于存儲(chǔ)數(shù)據(jù)的SSD高速硬盤(pán)、高速機(jī)械硬盤(pán)和低速機(jī)械硬盤(pán)。
[0035]所述基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其中,所述獲取模塊包括:
記錄子單元,用于記錄數(shù)據(jù)在一段時(shí)間內(nèi)被訪問(wèn)次數(shù);
計(jì)算單元,用于根據(jù)數(shù)據(jù)被訪問(wèn)次數(shù),計(jì)算數(shù)據(jù)被訪問(wèn)頻率。
[0036]上述基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng)的單元模塊都已經(jīng)在上述方法中進(jìn)行了詳細(xì)介紹,這里就不再贅述了。
[0037]本發(fā)明所提供基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng),其首先,獲取數(shù)據(jù)在一段時(shí)間內(nèi)被訪問(wèn)頻率;其次,根據(jù)所述被訪問(wèn)頻率,查找預(yù)先設(shè)置與所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán);最后,根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)迀移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)。通過(guò)獲取數(shù)據(jù)在最近一周的使用頻率,根椐數(shù)據(jù)的使用頻率不同,自動(dòng)將hadoop數(shù)據(jù)分級(jí)存儲(chǔ),將使用頻率高的數(shù)據(jù)存放在SSD硬盤(pán),將使用頻率高中等的數(shù)據(jù)放在高速硬盤(pán)上,將使用頻率低的數(shù)據(jù)存放在低速硬盤(pán)上,提升系統(tǒng)的整體性能。從根本上解決了現(xiàn)有采用單一的機(jī)械硬盤(pán)作存儲(chǔ),沒(méi)有按使用頻率區(qū)分?jǐn)?shù)據(jù)的級(jí)別,在使用過(guò)程中經(jīng)常因磁盤(pán)I/O瓶頸影響效率的問(wèn)題。
[0038] 可以理解的是,對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō),可以根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于:其包括: A、獲取設(shè)置于hadoop集群的數(shù)據(jù)節(jié)點(diǎn)上的存儲(chǔ)硬盤(pán)中的數(shù)據(jù)在一段時(shí)間內(nèi)的被訪問(wèn)頻率; B、根據(jù)所述被訪問(wèn)頻率,查找預(yù)先設(shè)置與所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán); C、根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)迀移至所述存儲(chǔ)硬盤(pán)。2.根據(jù)權(quán)利要求1所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于,其還包括,預(yù)先設(shè)置用于確定被訪問(wèn)頻率與存儲(chǔ)硬盤(pán)對(duì)應(yīng)關(guān)系的閾值、以及被訪問(wèn)頻率與存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系;所述關(guān)系為: 被訪問(wèn)頻率小于第一閾值,數(shù)據(jù)存儲(chǔ)于低速機(jī)械硬盤(pán), 第一閾值小于被訪問(wèn)頻率,且被訪問(wèn)頻率小于第二閾值,數(shù)據(jù)存儲(chǔ)于高速機(jī)械硬盤(pán), 被訪問(wèn)頻率大于第二閾值,數(shù)據(jù)存儲(chǔ)于SSD高速硬盤(pán)。3.根據(jù)權(quán)利要求1或2所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述存儲(chǔ)硬盤(pán)包括:SSD高速硬盤(pán)、高速機(jī)械硬盤(pán)和低速機(jī)械硬盤(pán)。4.根據(jù)權(quán)利要求1所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述步驟A具體包括: Al、記錄數(shù)據(jù)在一段時(shí)間內(nèi)被訪問(wèn)次數(shù); A2、根據(jù)數(shù)據(jù)被訪問(wèn)次數(shù),計(jì)算數(shù)據(jù)被訪問(wèn)頻率。5.根據(jù)權(quán)利要求4所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述數(shù)據(jù)被訪問(wèn)次數(shù)記錄于設(shè)置于數(shù)據(jù)訪問(wèn)層的訪問(wèn)日志記錄層。6.根據(jù)權(quán)利要求4或5所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述數(shù)據(jù)被訪問(wèn)次數(shù)為數(shù)據(jù)讀取次數(shù)、寫(xiě)入次數(shù)、以及刪除次數(shù)的和。7.—種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,其包括: 獲取模塊,用于獲取設(shè)置于hadoop集群的數(shù)據(jù)節(jié)點(diǎn)上的存儲(chǔ)硬盤(pán)中的數(shù)據(jù)在一段時(shí)間內(nèi)的被訪問(wèn)頻率; 查找模塊,用于根據(jù)所述被訪問(wèn)頻率,查找預(yù)先設(shè)置與所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán); 迀移模塊,用于根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)迀移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)。8.根據(jù)權(quán)利要求7所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,其還包括: 預(yù)設(shè)模塊,用于預(yù)先設(shè)置用于確定被訪問(wèn)頻率與存儲(chǔ)硬盤(pán)對(duì)應(yīng)關(guān)系的閾值、以及被訪冋頻率與存儲(chǔ)硬盤(pán)的對(duì)應(yīng)關(guān)系;所述關(guān)系為: 被訪問(wèn)頻率小于第一閾值,數(shù)據(jù)存儲(chǔ)于低速機(jī)械硬盤(pán), 第一閾值小于被訪問(wèn)頻率,且被訪問(wèn)頻率小于第二閾值,數(shù)據(jù)存儲(chǔ)于高速機(jī)械硬盤(pán), 被訪問(wèn)頻率大于第二閾值,數(shù)據(jù)存儲(chǔ)于SSD高速硬盤(pán)。9.根據(jù)權(quán)利要求7或8所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,所述存儲(chǔ)硬盤(pán)包括:SSD高速硬盤(pán)、高速機(jī)械硬盤(pán)和低速機(jī)械硬盤(pán)。10.根據(jù)權(quán)利要求7所述的基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)系統(tǒng),其特征在于,所述獲取模塊包括: 記錄子單元,用于記錄數(shù)據(jù)在一段時(shí)間內(nèi)被訪問(wèn)次數(shù); 計(jì)算單元,用于根據(jù)數(shù)據(jù)被訪問(wèn)次數(shù),計(jì)算數(shù)據(jù)被訪問(wèn)頻率。
【專利摘要】本發(fā)明所提供一種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng),其首先,獲取數(shù)據(jù)在一段時(shí)間內(nèi)被訪問(wèn)頻率;其次,根據(jù)所述被訪問(wèn)頻率,查找預(yù)先設(shè)置與所述被訪問(wèn)頻率對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)硬盤(pán),確定為所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán);最后,根據(jù)所述被訪問(wèn)頻率數(shù)據(jù)的存儲(chǔ)硬盤(pán),將所述數(shù)據(jù)遷移至所述數(shù)據(jù)存儲(chǔ)硬盤(pán)。通過(guò)獲取數(shù)據(jù)在最近一段時(shí)間內(nèi)使用頻率,根椐數(shù)據(jù)的使用頻率不同,自動(dòng)將hadoop數(shù)據(jù)分級(jí)存儲(chǔ),將使用頻率高的數(shù)據(jù)存放在SSD高速硬盤(pán),將使用頻率高中等的數(shù)據(jù)放在高速機(jī)械硬盤(pán)上,將使用頻率低的數(shù)據(jù)存放在低速機(jī)械硬盤(pán)上,提升系統(tǒng)的整體性能。
【IPC分類】G06F12/08
【公開(kāi)號(hào)】CN105138476
【申請(qǐng)?zhí)枴緾N201510529487
【發(fā)明人】柴滿, 徐健, 王國(guó)輝
【申請(qǐng)人】廣東創(chuàng)我科技發(fā)展有限公司
【公開(kāi)日】2015年12月9日
【申請(qǐng)日】2015年8月26日