一種分布式計(jì)算框架參數(shù)優(yōu)化方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用于IT【技術(shù)領(lǐng)域】,提供了一種分布式計(jì)算框架參數(shù)優(yōu)化方法、裝置及系統(tǒng)。方法包括:獲取當(dāng)前提交的并行計(jì)算框架作業(yè);在分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,檢索與分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)包括歷史分布式計(jì)算框架作業(yè)的執(zhí)行信息及配置參數(shù);在同類的分布式計(jì)算框架作業(yè)中,檢索與分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè);根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。本發(fā)明能夠?qū)崿F(xiàn)Mapreduce作業(yè)參數(shù)配置合理化、自動(dòng)化以及自學(xué)習(xí)。
【專利說(shuō)明】一種分布式計(jì)算框架參數(shù)優(yōu)化方法、裝置及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于IT【技術(shù)領(lǐng)域】,尤其涉及一種分布式計(jì)算框架參數(shù)優(yōu)化方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]隨著全球信息產(chǎn)業(yè)在不斷融合發(fā)展,網(wǎng)絡(luò)資源與數(shù)據(jù)規(guī)模也在不斷增長(zhǎng),尤其是在互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)等領(lǐng)域,數(shù)據(jù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì),為了解決這些數(shù)據(jù)密集型計(jì)算問(wèn)題,云計(jì)算應(yīng)運(yùn)而生,而Map/Reduce編程模型作為一種簡(jiǎn)化大規(guī)模數(shù)據(jù)處理的重要手段得到越來(lái)越廣泛的應(yīng)用。MapReduce是Google提出的一種實(shí)現(xiàn)分布式并行計(jì)算任務(wù)的通用軟件框架,它簡(jiǎn)化了由普通計(jì)算機(jī)組成的超大集群上的并行軟件編程模式,可用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。MapReduce分布式計(jì)算系統(tǒng)中,系統(tǒng)參數(shù)的參數(shù)優(yōu)化策略直接關(guān)系到系統(tǒng)整體資源的利用率以及各用戶間使用資源的公平性。因此,系統(tǒng)參數(shù)的參數(shù)優(yōu)化算法成為MapReduce系統(tǒng)面臨的一大挑戰(zhàn)。
[0003]然而,當(dāng)前常見(jiàn)的MapReduce參數(shù)優(yōu)化的方案有兩種,詳述如下:
[0004]1、運(yùn)行Mapreduce作業(yè)時(shí),通過(guò)監(jiān)控工具如nmon,監(jiān)視集群系統(tǒng)的性能指標(biāo)(如CPU使用率,內(nèi)存使用率,磁盤和網(wǎng)絡(luò)I/O等),來(lái)快速檢測(cè)性能瓶頸,協(xié)助工程師更有針對(duì)性的對(duì)性能瓶頸點(diǎn)進(jìn)行參數(shù)改進(jìn)和優(yōu)化。
[0005]2、通過(guò)在一個(gè)模擬集群上預(yù)先執(zhí)行Mapreduce作業(yè),同時(shí)監(jiān)控該任務(wù)的運(yùn)行特征(包括輸出文件,各階段運(yùn)行時(shí)間,處理和傳輸?shù)臄?shù)據(jù)量,以及工作進(jìn)程占用的各資源信息等等),計(jì)算每個(gè)階段消耗資源的代價(jià),然后通過(guò)修改資源參數(shù),預(yù)估實(shí)際Mapreduce作業(yè)的運(yùn)行時(shí)間,直到運(yùn)行時(shí)間達(dá)到可以接受范圍,從而到MapReduce性能優(yōu)化的目的。
[0006]該技術(shù)方案I主要缺點(diǎn)是只是給出了性能瓶頸點(diǎn)檢測(cè)方法,沒(méi)有給出具體的性能改進(jìn)方案,很多情況下即使知道性能瓶頸點(diǎn),普通用戶依然不知道如何修改參數(shù)。即便用戶知道怎么修改MapReduce參數(shù),但是這種方案實(shí)施效率也很低,需要人工反復(fù)嘗試多次,才能使性能達(dá)到較優(yōu)值,因此無(wú)法解決MapReduce參數(shù)配置合理化、自動(dòng)化的問(wèn)題。
[0007]該技術(shù)方案2主要缺點(diǎn)是以增加程序的預(yù)執(zhí)行和分析為代價(jià),并且由于這種方案是針對(duì)單個(gè)任務(wù)進(jìn)行的調(diào)優(yōu),當(dāng)用戶提交的任務(wù)類型復(fù)雜多變時(shí),每次都要重新進(jìn)行預(yù)執(zhí)行,使得其通用性降低,因此無(wú)法解決MapReduce參數(shù)配置自學(xué)習(xí)的問(wèn)題。
【發(fā)明內(nèi)容】
[0008]本發(fā)明實(shí)施例的目的在于提供分布式計(jì)算框架參數(shù)優(yōu)化方法,旨在解決MapReduce參數(shù)配置合理化、自動(dòng)化以及自學(xué)習(xí)的問(wèn)題。
[0009]第一方面,一種分布式計(jì)算框架參數(shù)優(yōu)化的方法,包括:
[0010]獲取當(dāng)前提交的分布式計(jì)算框架作業(yè);
[0011]在預(yù)先建立的分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),所述分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)包括歷史分布式計(jì)算框架作業(yè)的執(zhí)行信息及配置參數(shù);
[0012]在同類的分布式計(jì)算框架作業(yè)中,檢索與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè);
[0013]根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
[0014]結(jié)合第一方面,所述在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),包括:
[0015]當(dāng)所述分布式計(jì)算框架作業(yè)不存在指定的分布式計(jì)算框架運(yùn)行參數(shù)時(shí),在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)。
[0016]結(jié)合第一方面,所述根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置,包括:
[0017]在相似的歷史分布式計(jì)算框架作業(yè)中,獲取評(píng)分最高的歷史分布式計(jì)算框架作業(yè),使用評(píng)分最高的歷史分布式計(jì)算框架作業(yè)的配置參數(shù)作為所述分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
[0018]結(jié)合第一方面,當(dāng)所述分布式計(jì)算框架作業(yè)執(zhí)行完畢時(shí),收集所述分布式計(jì)算框架作業(yè)執(zhí)行信息及配置參數(shù);
[0019]對(duì)所述分布式計(jì)算框架作業(yè)執(zhí)行信息進(jìn)行評(píng)分,并將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架 歷史作業(yè)數(shù)據(jù)庫(kù)中。
[0020]結(jié)合第一方面,對(duì)所述分布式計(jì)算框架作業(yè)執(zhí)行信息進(jìn)行評(píng)分,具體為:
[0021]獲取所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗;
[0022]根據(jù)所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗,生成所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià);
[0023]根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的評(píng)分模型,以及所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià)對(duì)分布式計(jì)算框架作業(yè)運(yùn)行進(jìn)行評(píng)分。
[0024]結(jié)合第一方面,在所述根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的評(píng)分模型,以及所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià)對(duì)分布式計(jì)算框架作業(yè)運(yùn)行進(jìn)行評(píng)分之前,包括:
[0025]建立評(píng)分模型;
[0026]所述評(píng)分模型為
[0027]
【權(quán)利要求】
1.一種分布式計(jì)算框架參數(shù)優(yōu)化的方法,其特征在于,包括: 獲取當(dāng)前提交的分布式計(jì)算框架作業(yè); 在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),所述分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)包括歷史分布式計(jì)算框架作業(yè)的執(zhí)行信息及配置參數(shù); 在同類的分布式計(jì)算框架作業(yè)中,檢索與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè); 根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
2.如權(quán)利要求1所述的方法,其特征在于,所述在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)之前,所述方法還包括: 檢查所述分布式計(jì)算框架作業(yè)是否存在指定的分布式計(jì)算框架運(yùn)行參數(shù); 當(dāng)所述分布式計(jì)算框架作業(yè)不存在指定的分布式計(jì)算框架運(yùn)行參數(shù)時(shí),執(zhí)行所述在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)的步驟。
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置,包括: 在相似的歷史分布式計(jì)算框架作業(yè)中,獲取評(píng)分最高的歷史分布式計(jì)算框架作業(yè),使用評(píng)分最高的歷史分布式計(jì)算框架作業(yè)的配置參數(shù)作為所述分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置;或 在相似的歷史分布式計(jì)算框架作業(yè)中,獲取評(píng)分大于預(yù)設(shè)閥值的多個(gè)分布式計(jì)算框架作業(yè),按照多個(gè)分布式計(jì)算框架作業(yè)的相似程度,加權(quán)計(jì)算多個(gè)分布式計(jì)算框架作業(yè)的配置參數(shù),使用加權(quán)計(jì)算得到的配置參數(shù)作為所述分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
4.如權(quán)利要求1所述的方法,其特征在于,還包括: 當(dāng)所述分布式計(jì)算框架作業(yè)執(zhí)行完畢時(shí),收集所述分布式計(jì)算框架作業(yè)執(zhí)行信息及配置參數(shù); 對(duì)所述分布式計(jì)算框架作業(yè)執(zhí)行信息進(jìn)行評(píng)分,并將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架歷史作業(yè)數(shù)據(jù)庫(kù)中。
5.如權(quán)利要求4所述的方法,其特征在于,對(duì)所述分布式計(jì)算框架作業(yè)執(zhí)行信息進(jìn)行評(píng)分,具體為: 獲取所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗; 根據(jù)所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗,生成所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià); 根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的評(píng)分模型,以及所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià)對(duì)分布式計(jì)算框架作業(yè)運(yùn)行進(jìn)行評(píng)分。
6.如權(quán)利要求4所述的方法,其特征在于,在所述根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的評(píng)分模型,以及所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià)對(duì)分布式計(jì)算框架作業(yè)運(yùn)行進(jìn)行評(píng)分之前,包括: 建立評(píng)分模型; 所述評(píng)分模型為
7.如權(quán)利要求4所述的方法,其特征在于,所述將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架歷史作業(yè)數(shù)據(jù)庫(kù)中,具體為: 采用樹形存儲(chǔ)方式,將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架歷史作業(yè)數(shù)據(jù)庫(kù)中。
8.如權(quán)利要求1所述的方法,其特征在于,在預(yù)先建立的分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),包括: 在預(yù)先建立的分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,采用搜索樹節(jié)點(diǎn)方式,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)。
9.如權(quán)利要求1所述的方法,其特征在于,所述檢索與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè),包括: 檢索所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性是否相等; 當(dāng)所述分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性與歷史分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性相等時(shí),表示所述歷史分布式計(jì)算框架作業(yè)為與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè)。
10.如權(quán)利要求9所述的方法,其特征在于,所述檢索與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè),還包括: 獲取所述分布式計(jì)算框架作業(yè)和歷史分布式計(jì)算框架作業(yè)的屬性字段,所述屬性字段包括關(guān)鍵屬性集合和非關(guān)鍵屬性集合; 根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的相似度模型以及所述屬性字段,分別生成作業(yè)的相似度和集群環(huán)境信息的相似度,所述作業(yè)的相似度為所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的相似度,所述集群環(huán)境信息的相似度為所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的相似度分別在所述集群環(huán)境信息的相似度; 根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的綜合相似度模型以及加權(quán)策略,生成所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的綜合相似度。
11.如權(quán)利要求10所述的方法,其特征在于,在所述根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的相似度模型以及所述屬性字段,分別生成作業(yè)的相似度和集群環(huán)境信息的相似度之前,包括:建立分布式計(jì)算框架作業(yè)的相似度模型, 所述相似度模型為:
12.如權(quán)利要求10所述的方法,其特征在于,在根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的綜合相似度模型以及加權(quán)策略,生成所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的綜合相似度之前,包括: 建立分布式計(jì)算框架作業(yè)的綜合相似度模型, 所述綜合相似度模型為:
sim(A, B) = α X sim(JobA, JobB) + β X sim(ClusterA, ClusterB) 其中 sim (JobA, JobB)表示作業(yè) A, B 的相似度,sim(ClusterA, ClusterB)表示作業(yè) A, B分別在所述集群環(huán)境信息的相似度,sim(A, B)表示作業(yè)A,B之間參考了集群環(huán)境信息的相似度,α為加權(quán)策略中的第一權(quán)重參數(shù),β為加權(quán)策略中的第二權(quán)重參數(shù)。
13.—種分布式計(jì)算框架參數(shù)優(yōu)化裝置,其特征在于,包括: 獲取單元,用于獲取當(dāng)前提交的分布式計(jì)算框架作業(yè); 第一檢索單元,在預(yù)先建立的分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè),所述分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)包括歷史分布式計(jì)算框架作業(yè)的執(zhí)行信息及配置參數(shù); 第二檢索單元,用于在同類的分布式計(jì)算框架作業(yè)中,檢索與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè); 配置單元,用于根據(jù)相似的歷史分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
14.如權(quán)利要求13所述的參數(shù)優(yōu)化裝置,其特征在于,所述第一檢索單元,包括: 檢查子單元,用于檢查所述分布式計(jì)算框架作業(yè)是否存在指定的分布式計(jì)算框架運(yùn)行參數(shù); 執(zhí)行子單元,用于當(dāng)所述分布式計(jì)算框架作業(yè)不存在指定的分布式計(jì)算框架運(yùn)行參數(shù)時(shí),執(zhí)行所述在分布式計(jì)算框架歷史作業(yè)運(yùn)行數(shù)據(jù)庫(kù)中,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)的步驟。
15.如權(quán)利要求13所述的參數(shù)優(yōu)化裝置,其特征在于,所述配置單元,還用于在相似的歷史分布式計(jì)算框架作業(yè)中,獲取評(píng)分最高的歷史分布式計(jì)算框架作業(yè),使用評(píng)分最高的歷史分布式計(jì)算框架作業(yè)的配置參數(shù)作為所述分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置或 在相似的歷史分布式計(jì)算框架作業(yè)中,獲取評(píng)分大于預(yù)設(shè)閥值的多個(gè)分布式計(jì)算框架作業(yè),按照多個(gè)分布式計(jì)算框架作業(yè)的相似程度,加權(quán)計(jì)算多個(gè)分布式計(jì)算框架作業(yè)的配置參數(shù),使用加權(quán)計(jì)算得到的配置參數(shù)作為所述分布式計(jì)算框架作業(yè)的配置參數(shù),對(duì)所述分布式計(jì)算框架作業(yè)的配置參數(shù)進(jìn)行優(yōu)化配置。
16.如權(quán)利要求13所述的參數(shù)優(yōu)化裝置,其特征在于,還包括: 收集單元,用于當(dāng)所述分布式計(jì)算框架作業(yè)執(zhí)行完畢時(shí),收集所述分布式計(jì)算框架作業(yè)執(zhí)行信息及配置參數(shù); 評(píng)分單元,用于對(duì)所述分布式計(jì)算框架作業(yè)執(zhí)行信息進(jìn)行評(píng)分,并將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架歷史作業(yè)數(shù)據(jù)庫(kù)中。
17.如權(quán)利要求16所述的參數(shù)優(yōu)化裝置,其特征在于,所述評(píng)分單元,包括: 獲取子單元,用于獲取所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗; 生成子單元,用于根據(jù)所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗和空間消耗,生成所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià); 評(píng)分子單元,用于根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的評(píng)分模型,以及所述分布式計(jì)算框架作業(yè)運(yùn)行的時(shí)間消耗代價(jià)和空間消耗代價(jià)對(duì)分布式計(jì)算框架作業(yè)運(yùn)行進(jìn)行評(píng)分。
18.如權(quán)利要求16所述的參數(shù)優(yōu)化裝置,其特征在于,所述評(píng)分單元,還包括: 建立子單元,用于建立評(píng)分模型; 所述評(píng)分模型為
19.如權(quán)利要求16所述的參數(shù)優(yōu)化裝置,其特征在于,所述評(píng)分單元,還包括: 保存子單元,用于采用樹形存儲(chǔ)方式,將所述分布式計(jì)算框架作業(yè)保存到所述分布式計(jì)算框架歷史作業(yè)數(shù)據(jù)庫(kù)中。
20.如權(quán)利要求13所述的參數(shù)優(yōu)化裝置,其特征在于,所述第一檢索單元,包括: 第一檢索子單元,用于在預(yù)先建立的分布式計(jì)算框架歷史運(yùn)行數(shù)據(jù)庫(kù)中,采用搜索樹節(jié)點(diǎn)方式,檢索與所述分布式計(jì)算框架作業(yè)同類的歷史分布式計(jì)算框架作業(yè)。
21.如權(quán)利要求13所述的的參數(shù)優(yōu)化裝置,其特征在于,所述第二檢索單元,包括: 第二檢索子單元,用于檢索所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性是否相等; 相似子單元,用于當(dāng)所述分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性與歷史分布式計(jì)算框架作業(yè)中的關(guān)鍵屬性相等時(shí),表示所述歷史分布式計(jì)算框架作業(yè)為與所述分布式計(jì)算框架作業(yè)相似的歷史分布式計(jì)算框架作業(yè)。
22.如權(quán)利要求21所述的參數(shù)優(yōu)化裝置,其特征在于,所述第二檢索單元,還包括: 獲取子單元,用于獲取所述分布式計(jì)算框架作業(yè)和歷史分布式計(jì)算框架作業(yè)的屬性字段,所述屬性字段包括關(guān)鍵屬性集合和非關(guān)鍵屬性集合; 第一生成子單元,用于根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的相似度模型以及所述屬性字段,分別生成作業(yè)的相似度和集群環(huán)境信息的相似度,所述作業(yè)的相似度為所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的相似度,所述集群環(huán)境信息的相似度為所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的相似度分別在所述集群環(huán)境信息的相似度; 第二生成子單元,用于根據(jù)預(yù)先建立的分布式計(jì)算框架作業(yè)的綜合相似度模型以及加權(quán)策略,生成所述分布式計(jì)算框架作業(yè)與歷史分布式計(jì)算框架作業(yè)的綜合相似度。
23.如權(quán)利要求22所述的參數(shù)優(yōu)化裝置,其特征在于,所述第一生成子單元,還包括: 第一建立子單元,用于建立分布式計(jì)算框架作業(yè)的相似度模型, 所述相似度模型為:
24.如權(quán)利要求22所述的參數(shù)優(yōu)化裝置,其特征在于,所述第二生成子單元,還包括: 第二建立子單元,用于建立分布式計(jì)算框架作業(yè)的綜合相似度模型, 所述綜合相似度模型為:
sim(A, B) = α X sim (JobA, JobB)+ β Xsim(ClusterAjClusterB) 其中 sim (JobA, JobB)表示作業(yè) A, B 的相似度,sim(ClusterA, ClusterB)表示作業(yè) A, B分別在所述集群環(huán)境信息的相似度。sim(A, B)表示作業(yè)A,B之間參考了集群環(huán)境信息的相似度,α為加權(quán)策略中的第一權(quán)重參數(shù),β為加權(quán)策略中的第二權(quán)重參數(shù)。
25.—種分布式計(jì)算框架參數(shù)優(yōu)化系統(tǒng),其特征在于,包括權(quán)利要求13至24任意一項(xiàng)所述的參數(shù)優(yōu)化裝置、提交的分布式計(jì)算框架作業(yè)的客戶端以及計(jì)算管理節(jié)點(diǎn),其中,所述分布式計(jì)算框架作業(yè)的客戶端與所述計(jì)算管理節(jié)點(diǎn)之間,通過(guò)所述參數(shù)優(yōu)化裝置進(jìn)行連接。
【文檔編號(hào)】G06F17/30GK103605662SQ201310495879
【公開日】2014年2月26日 申請(qǐng)日期:2013年10月21日 優(yōu)先權(quán)日:2013年10月21日
【發(fā)明者】方育柯 申請(qǐng)人:華為技術(shù)有限公司