數(shù)據(jù)庫負(fù)載響應(yīng)時間預(yù)測模型訓(xùn)練樣本的采集方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基于聚類的樣本采集方法,是應(yīng)用于數(shù)據(jù)庫負(fù)載響應(yīng)時間預(yù)測模型的 訓(xùn)練米集方法0
【背景技術(shù)】
[0002] 當(dāng)前的并行數(shù)據(jù)庫系統(tǒng)中,預(yù)測負(fù)載響應(yīng)時間非常重要,可以幫助數(shù)據(jù)庫管理員 調(diào)解數(shù)據(jù)庫參數(shù)、合理安排調(diào)度并行負(fù)載。
[0003] 但由于數(shù)據(jù)庫并行負(fù)載間相互影響(Interaction)機(jī)理非常復(fù)雜,傳統(tǒng)的分析 型模型建立過程復(fù)雜,預(yù)測效果不好。因此現(xiàn)有文獻(xiàn)主要是建立統(tǒng)計(jì)模型,來預(yù)測負(fù)載的 響應(yīng)時間。即通過樣本采集、模型訓(xùn)練(回歸)、模型評估三步完成統(tǒng)計(jì)模型建立。這方面 的文獻(xiàn)主要有[1]DugganJjCetintemelU,Papaemmanouil0,etal.Performance PredictionforConcurrentDatabaseWorkloads[C] //Proc.of2011ACMSIGMOD Conference(SIGMOD^Oll).Athens,Greece, 2011:337-348
[2] AhmadM,AboulanagaA,BabuS,etal.ModelingandExploitingQuery InteractioninDatabaseSystems[C] //Proc.ofthe17thConferenceonInformation andKnowledgeManagement(CIKM' 2008).NapaValley,US,2008:183-192
[3] AhmadM,AboulanagaAjBabuS,etal.Qshuffler:GettingtheQueryMix Right[C] //Proc.ofthe24thInternationalConferenceonDataEngineering (ICDE, 2008).Cancun,Mexico,2008:1415-1417
[4] AhmadM,DuanS,AboulanagaA,etal.PredictingCompletionTimes ofBathQueryWorkloadsUsingInteraction-awareModelsandSimulation[C] // Proc.ofthe14thInternationalConferenceonExtendingDatabaseTechnology (EDBT, 2011).Uppsala,Sweden,2011:449-460
[5] AhmadM,DuanS,AboulanagaA,etal.Interaction-awareSchedulingof ReportGenerationWorkloads[J].TheVLDBJournal,2011, 20 (4):589-615
[6] SheikhMB,MinhasUF,Khan0Z,etal.ABayesianApproachtoOnline PerformanceModelingforDatabaseAppliancesUsingGaussianModels[C] //Proc. of8thInternationalConferenceonAutonomicComputing(ICAC^ 2011). Karlsruhe,Germany,2011:121-130〇
[0004] 但上述統(tǒng)計(jì)模型對應(yīng)的采樣方法沒有考慮負(fù)載間相互影響,僅通過對全樣本空間 的特定抽樣或隨機(jī)抽樣獲得樣本。隨著數(shù)據(jù)庫數(shù)據(jù)量增大,負(fù)載運(yùn)行時間增加,如果不精選 訓(xùn)練樣本,會導(dǎo)致模型訓(xùn)練時間變長,模型建立的成本將會變得非常大。
【發(fā)明內(nèi)容】
為了減少模型建立成本,縮短模型建立時間,本發(fā)明提供一種訓(xùn)練樣本的采集方法,可 以在不明顯降低模型預(yù)測精度的同時,減少模型建立成本。
[0005] 本發(fā)明的技術(shù)方案:數(shù)據(jù)庫負(fù)載響應(yīng)時間預(yù)測模型訓(xùn)練樣本的采集方法,包括下 述內(nèi)容: 1、獲取數(shù)據(jù)庫每一個負(fù)載單獨(dú)運(yùn)行時的響應(yīng)數(shù)據(jù); 即每一個負(fù)載q單獨(dú)運(yùn)行時,獲取其響應(yīng)時間、CPU時間、邏輯讀取數(shù)、BAL值。其中BAL為[1]中所定義的BufferAccessLatency值,表示數(shù)據(jù)庫系統(tǒng)每完成一次物理讀取所使 用的平均時間,本發(fā)明簡稱為讀取平均時間。BufferAccessLatency值來源于文獻(xiàn)Duggan J,CetintemelU,Papaemmanouil0,etal.PerformancePredictionforConcurrent DatabaseWorkloads//Proc.of2011ACMSIGMODConference(SIGMODj 2011).Athens, Greece, 2011:337-348 負(fù)載q表示由負(fù)載模板Cq生成的可執(zhí)行的數(shù)據(jù)庫負(fù)載。
[0006] 負(fù)載模板通過帶有參數(shù)的數(shù)據(jù)庫查詢、更新語句生成;不同的查詢、更新語句視為 不同的負(fù)載模板。同一個負(fù)載模板生成的參數(shù)不同的負(fù)載,視為同一負(fù)載。
[0007] 2、獲取數(shù)據(jù)庫負(fù)載成對運(yùn)行時的響應(yīng)數(shù)據(jù);即第一負(fù)載Qi與第二負(fù)載成對運(yùn)行 時,獲取各自的響應(yīng)時間、CPU時間、邏輯讀取數(shù)、BAL值;其中第一負(fù)載qi與第二負(fù)載qj分 別屬于兩個不同負(fù)載模板(第一負(fù)載模板Cqi與第二負(fù)載模板C 生成。
[0008] 3、計(jì)算平均頁讀取時間變化; 平均頁讀取時間變化由AI^s=I^s-Tq定義,T53表示樣本s中某一個負(fù)載q(由負(fù)載 模板Cq生成)的BAL值,Tq表示某一個負(fù)載q單獨(dú)運(yùn)行的BAL值。
[0009] 平均頁讀取時間變化同時滿足下式:
【主權(quán)項(xiàng)】
1.數(shù)據(jù)庫負(fù)載響應(yīng)時間預(yù)測模型訓(xùn)練樣本的采集方法,包括下述步驟: (1) 獲取數(shù)據(jù)庫每一個負(fù)載單獨(dú)運(yùn)行時的響應(yīng)數(shù)據(jù); (2) 獲取數(shù)據(jù)庫負(fù)載成對運(yùn)行時的響應(yīng)數(shù)據(jù); (3) 計(jì)算平均頁讀取時間變化; 平均頁讀取時間變化由ATt,-T。定義,Tts表示樣本S中負(fù)載q的BAL值,T。表 示負(fù)載q的單獨(dú)運(yùn)行BAL值; 且平均頁讀取時間變化滿足下式:
其中A 表示某一個負(fù)載q與另一個負(fù)載CU成對運(yùn)行時,某一個負(fù)載q的BAL值, 另一個負(fù)載Cy是樣本Sj.中由查詢模板CU生成的負(fù)載;AT表示某一個負(fù)載q與另一個 負(fù)載Ci成對運(yùn)行時,某一個負(fù)載q的BAL值,另一個負(fù)載Ci是樣本S中由查詢模板CU生 成的負(fù)載; 利用成對運(yùn)行所得的AT。/。來計(jì)算更高M(jìn)PL數(shù)據(jù)庫系統(tǒng)最大并行數(shù)級別下某一個負(fù)載q的ATt,,然后通過下式給出AT。J勺計(jì)算;
(4) 依據(jù)平均頁讀取時間變化對全樣本空間聚類; (5) 填充樣本選取表; (6) 生成訓(xùn)練樣本。
【專利摘要】數(shù)據(jù)庫負(fù)載響應(yīng)時間預(yù)測模型訓(xùn)練樣本的采集方法,屬于基于聚類的樣本采集方法,它包括(1)獲取數(shù)據(jù)庫每一個負(fù)載單獨(dú)運(yùn)行時的響應(yīng)數(shù)據(jù);(2)獲取數(shù)據(jù)庫負(fù)載成對運(yùn)行時的響應(yīng)數(shù)據(jù);(3)計(jì)算平均頁讀取時間變化;(4)依據(jù)平均頁讀取時間變化對全樣本空間聚類;(5)填充樣本選取表;(6)生成訓(xùn)練樣本。本發(fā)明可以降低統(tǒng)計(jì)模型的采樣數(shù)目,并且保持模型精度并降低了模型建立成本。
【IPC分類】G06F17-30
【公開號】CN104794186
【申請?zhí)枴緾N201510171679
【發(fā)明人】牛保寧, 張錦文
【申請人】太原理工大學(xué)
【公開日】2015年7月22日
【申請日】2015年4月13日