QUICK REVIEW

[论文解读] Deep learning based Auto Tuning for Database Management System

Karthick Prasad Gunasekaran, Kajal Tiwari|arXiv (Cornell University)|Jan 1, 2020

Data Quality and Management被引用 4

一句话总结

本文提出了一种基于深度学习的数据库管理系统自动调优框架，通过重用历史调优数据实现迁移学习。该框架采用高斯混合模型（GMM）聚类进行工作负载映射，并结合随机森林和神经网络等集成模型以及高斯过程回归（GPR）以提升延迟预测性能，实现67.85%的MAPE，略优于基线GPR模型（69.61% MAPE），且在小数据集上优于其他模型的准确性。

ABSTRACT

The management of database system configurations is a challenging task, as there are hundreds of configuration knobs that control every aspect of the system. This is complicated by the fact that these knobs are not standardized, independent, or universal, making it difficult to determine optimal settings. An automated approach to address this problem using supervised and unsupervised machine learning methods to select impactful knobs, map unseen workloads, and recommend knob settings was implemented in a new tool called OtterTune and is being evaluated on three DBMSs, with results demonstrating that it recommends configurations as good as or better than those generated by existing tools or a human expert.In this work, we extend an automated technique based on Ottertune [1] to reuse training data gathered from previous sessions to tune new DBMS deployments with the help of supervised and unsupervised machine learning methods to improve latency prediction. Our approach involves the expansion of the methods proposed in the original paper. We use GMM clustering to prune metrics and combine ensemble models, such as RandomForest, with non-linear models, like neural networks, for prediction modeling.

研究动机与目标

解决数百个非标准化、相互依赖的DBMS配置旋钮调优的挑战。
通过因子分析和聚类剪枝冗余性能指标，减少搜索空间。
通过将工作负载映射到相似的历史工作负载，重用过往调优经验，提升延迟预测性能。
评估GMM聚类作为工作负载聚类和指标分组的替代方法（相较于K-means）的有效性。
比较GPR、随机森林和神经网络在低数据环境下延迟预测的性能表现。

提出的方法

使用因子分析剪枝冗余指标，降低维度并保留高变异性指标。
应用K-means和高斯混合模型（GMM）聚类，对相似指标进行分组，并识别代表性工作负载簇。
采用基于欧几里得距离的最近邻工作负载映射方法，将历史工作负载的调优经验迁移至新部署环境。
以高斯过程回归（GPR）作为主要延迟预测模型，并通过优化噪声水平参数alpha进行超参数调优。
实验集成模型（如随机森林）和深度神经网络进行延迟预测，使用MAPE作为损失函数，并采用ADAM优化器。
对输入特征进行零均值、单位方差归一化，以提升模型收敛速度与性能。

实验结果

研究问题

RQ1与K-means聚类相比，GMM聚类是否能提升DBMS自动调优中的工作负载映射准确性？
RQ2通过工作负载映射重用历史调优数据，是否能降低延迟建模中的预测误差？
RQ3在训练数据有限的情况下，不同回归模型（GPR、随机森林和神经网络）在DBMS配置调优中的表现如何？
RQ4数据预处理（包括特征缩放和指标剪枝）在多大程度上提升了模型性能与训练效率？
RQ5在低数据场景下，集成模型与非线性模型是否能优于GPR，实现更优的延迟预测性能？

主要发现

将K-means聚类替换为GMM聚类后，MAPE从69.61%降低至67.85%，表明预测准确性得到提升。
基线GPR模型在使用因子分析与K-means进行指标剪枝和工作负载映射后，实现了69.61%的MAPE。
神经网络产生最高的MSE（13,426）和77.26%的MAPE，表明因训练数据有限而出现过拟合。
随机森林的MAPE为78.98%，MSE为3,817，表明在小数据集上泛化能力较差。
GPR在低alpha值（如1e-1）下表现最佳，基线模型中MAPE降至69.61%。
对除延迟目标外的所有输入特征进行归一化处理可提升模型性能，而未归一化数据则导致预测效果差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。