中,所述第一優(yōu)化處理包括=Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理。
[0034]在一實(shí)施例中,HAR:Hadoop ArcHive,是一個(gè)高效地將小文件放入HDFS塊中的文件存檔工具;ORCFILE-Optimized Row Columnar file,是Hive的文件壓縮的一種格式;Hive ??是apache開(kāi)源的技術(shù),數(shù)據(jù)倉(cāng)庫(kù)軟件提供對(duì)存儲(chǔ)在分布式中的大型數(shù)據(jù)集的查詢(xún)和管理,它本身是建立在Apache Hadoop之上,Hive SQL代表的是以傳統(tǒng)基于Mapreduce為核心的SQL語(yǔ)言
[0035]本發(fā)明主要是在HDFS的HAR和Hive的ORCFile的結(jié)合上創(chuàng)新,最大限度的對(duì)Hive達(dá)到優(yōu)化。
[0036]在一實(shí)施例中,所述經(jīng)第一優(yōu)化處理后的小文件存儲(chǔ)(例如通過(guò)上傳后存儲(chǔ))于第一目錄;所述經(jīng)第二優(yōu)化處理后的大文件存儲(chǔ)(例如通過(guò)上傳后存儲(chǔ))于第二目錄,分別關(guān)聯(lián)第一目錄及第二目錄建立數(shù)據(jù)存儲(chǔ)表,Hadoop分布式文件系統(tǒng)中的數(shù)據(jù)存儲(chǔ)表分為內(nèi)部表及外部表,該功能為現(xiàn)有,因此不作展開(kāi)贅述,本實(shí)施例中,所建立的數(shù)據(jù)存儲(chǔ)表可以是內(nèi)部表;后續(xù)可通過(guò)編程語(yǔ)言(優(yōu)選為python語(yǔ)言)編寫(xiě)Hive程序,然后通過(guò)Iinux的crontab定期執(zhí)行所述建表動(dòng)作和裝載數(shù)據(jù)的程序,達(dá)到HDFS的HAR和Hive的ORCFile的結(jié)合和應(yīng)用。
[0037]如圖2所示,本發(fā)明提供一種Hadoop分布式文件系統(tǒng)1,其原理與上述方法實(shí)施例大致相同,因此通用的技術(shù)細(xì)節(jié)不再重復(fù)贅述;所述系統(tǒng)I包括:配置模塊11,用于配置Hadoop分布式文件系統(tǒng)的環(huán)境;存儲(chǔ)處理模塊12,用于判斷待存儲(chǔ)數(shù)據(jù)文件容量是否大于預(yù)設(shè)閾值,若否,則判斷為小文件,經(jīng)第一優(yōu)化處理后存儲(chǔ);若是,則判斷為大文件,經(jīng)第二優(yōu)化處理后存儲(chǔ);其中,所述第一優(yōu)化處理包括=Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理。
[0038]在一實(shí)施例中,所述預(yù)設(shè)閾值包括:128M。
[0039]在一實(shí)施例中,所述經(jīng)第一優(yōu)化處理后的小文件存儲(chǔ)于第一目錄;所述經(jīng)第二優(yōu)化處理后的大文件存儲(chǔ)于第二目錄。
[0040]在一實(shí)施例中,所述的Hadoop分布式文件系統(tǒng),還包括:建表模塊,用于分別關(guān)聯(lián)第一目錄及第二目錄建立數(shù)據(jù)存儲(chǔ)表。
[0041]在一實(shí)施例中,所述配置Hadoop分布式文件系統(tǒng)的環(huán)境,包括:配置Namenode HA和 ResourceManager HA 功能。
[0042]綜上所述,本發(fā)明提供Hadoop分布式文件系統(tǒng)及其存儲(chǔ)優(yōu)化方法,配置Hadoop分布式文件系統(tǒng)的環(huán)境;判斷待存儲(chǔ)數(shù)據(jù)文件容量是否大于預(yù)設(shè)閾值,若否,則判斷為小文件,經(jīng)第一優(yōu)化處理后存儲(chǔ);若是,則判斷為大文件,經(jīng)第二優(yōu)化處理后存儲(chǔ);其中,所述第一優(yōu)化處理包括=Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理;對(duì)應(yīng)不同容量的文件作不同優(yōu)化存儲(chǔ)處理,尤其是在海量文件的存儲(chǔ)上,有效提升性能。
[0043]上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項(xiàng)】
1.一種基于Hadoop分布式文件系統(tǒng)的存儲(chǔ)優(yōu)化方法,其特征在于,包括: 配置Hadoop分布式文件系統(tǒng)的環(huán)境; 判斷待存儲(chǔ)數(shù)據(jù)文件容量是否大于預(yù)設(shè)閾值,若否,則判斷為小文件,經(jīng)第一優(yōu)化處理后存儲(chǔ);若是,則判斷為大文件,經(jīng)第二優(yōu)化處理后存儲(chǔ);其中,所述第一優(yōu)化處理包括:Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理。2.根據(jù)權(quán)利要求1所述的存儲(chǔ)優(yōu)化方法,其特征在于,所述預(yù)設(shè)閾值包括:128M。3.根據(jù)權(quán)利要求1所述的存儲(chǔ)優(yōu)化方法,其特征在于,所述經(jīng)第一優(yōu)化處理后的小文件存儲(chǔ)于第一目錄;所述經(jīng)第二優(yōu)化處理后的大文件存儲(chǔ)于第二目錄。4.根據(jù)權(quán)利要求3所述的存儲(chǔ)優(yōu)化方法,其特征在于,還包括:分別關(guān)聯(lián)第一目錄及第二目錄建立數(shù)據(jù)存儲(chǔ)表。5.根據(jù)權(quán)利要求1所述的存儲(chǔ)優(yōu)化方法,其特征在于,所述配置Hadoop分布式文件系統(tǒng)的環(huán)境,包括:配置Namenode HA和ResourceManager HA功能。6.—種Hadoop分布式文件系統(tǒng),其特征在于,包括: 配置模塊,用于配置Hadoop分布式文件系統(tǒng)的環(huán)境; 存儲(chǔ)處理模塊,用于判斷待存儲(chǔ)數(shù)據(jù)文件容量是否大于預(yù)設(shè)閾值,若否,則判斷為小文件,經(jīng)第一優(yōu)化處理后存儲(chǔ);若是,則判斷為大文件,經(jīng)第二優(yōu)化處理后存儲(chǔ);其中,所述第一優(yōu)化處理包括=Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理。7.根據(jù)權(quán)利要求6所述的Hadoop分布式文件系統(tǒng),其特征在于,所述預(yù)設(shè)閾值包括:128Mo8.根據(jù)權(quán)利要求6所述的Hadoop分布式文件系統(tǒng),其特征在于,所述經(jīng)第一優(yōu)化處理后的小文件存儲(chǔ)于第一目錄;所述經(jīng)第二優(yōu)化處理后的大文件存儲(chǔ)于第二目錄。9.根據(jù)權(quán)利要求8所述的Hadoop分布式文件系統(tǒng),其特征在于,還包括:建表模塊,用于分別關(guān)聯(lián)第一目錄及第二目錄建立數(shù)據(jù)存儲(chǔ)表。10.根據(jù)權(quán)利要求6所述的Hadoop分布式文件系統(tǒng),其特征在于,所述配置Hadoop分布式文件系統(tǒng)的環(huán)境,包括:配置Namenode HA和ResourceManager HA功能。
【專(zhuān)利摘要】本發(fā)明提供Hadoop分布式文件系統(tǒng)及其存儲(chǔ)優(yōu)化方法,配置Hadoop分布式文件系統(tǒng)的環(huán)境;判斷待存儲(chǔ)數(shù)據(jù)文件容量是否大于預(yù)設(shè)閾值,若否,則判斷為小文件,經(jīng)第一優(yōu)化處理后存儲(chǔ);若是,則判斷為大文件,經(jīng)第二優(yōu)化處理后存儲(chǔ);其中,所述第一優(yōu)化處理包括:Hadoop分布式系統(tǒng)中HAR格式的處理,所述第二優(yōu)化處理包括基于Hadoop分布式系統(tǒng)的Hive工具的ORCFile格式的處理;對(duì)應(yīng)不同容量的文件作不同優(yōu)化存儲(chǔ)處理,尤其是在海量文件的存儲(chǔ)上,有效提升性能。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105183861
【申請(qǐng)?zhí)枴緾N201510579125
【發(fā)明人】歐陽(yáng)濤
【申請(qǐng)人】上海斐訊數(shù)據(jù)通信技術(shù)有限公司
【公開(kāi)日】2015年12月23日
【申請(qǐng)日】2015年9月11日