QUICK REVIEW

[論文レビュー] Deep learning based Auto Tuning for Database Management System

Karthick Prasad Gunasekaran, Kajal Tiwari|arXiv (Cornell University)|Jan 1, 2020

Data Quality and Management被引用数 4

ひとこと要約

本稿では、履歴チューニングデータを再利用することで転移学習を活用する深層学習ベースのデータベース管理システム（DBMS）向け自動チューニングフレームワークを提案する。ワークロードマッピングにはガウス・ミックスチャネル・モデル（GMM）クラスタリングを採用し、ランダムフォレストやニューラルネットワークといったアンサンブルモデルに加え、ガウス過程回帰（GPR）を用いて遅延予測を向上させ、67.85%のMAPEを達成した。これはベースラインのGPRモデル（69.61% MAPE）をわずかに上回り、小規模なデータセットにおいて他のモデルよりも高い精度を示した。

ABSTRACT

The management of database system configurations is a challenging task, as there are hundreds of configuration knobs that control every aspect of the system. This is complicated by the fact that these knobs are not standardized, independent, or universal, making it difficult to determine optimal settings. An automated approach to address this problem using supervised and unsupervised machine learning methods to select impactful knobs, map unseen workloads, and recommend knob settings was implemented in a new tool called OtterTune and is being evaluated on three DBMSs, with results demonstrating that it recommends configurations as good as or better than those generated by existing tools or a human expert.In this work, we extend an automated technique based on Ottertune [1] to reuse training data gathered from previous sessions to tune new DBMS deployments with the help of supervised and unsupervised machine learning methods to improve latency prediction. Our approach involves the expansion of the methods proposed in the original paper. We use GMM clustering to prune metrics and combine ensemble models, such as RandomForest, with non-linear models, like neural networks, for prediction modeling.

研究の動機と目的

数百もの非標準的で相互に依存するDBMS設定ノブのチューニングという課題に対処すること。
因子分析とクラスタリングを用いて、冗長なパフォーマンスメトリクスを pruning することで、探索空間を縮小すること。
ワークロードマッピングにより、類似した歴史的ワークロードに移行することで、過去のチューニング経験を再利用し、遅延予測を改善すること。
K-meansとは対照的にGMMクラスタリングが、ワークロードクラスタリングおよびメトリクスグループ化の代替手段として有効であるかを評価すること。
GPR、ランダムフォレスト、ニューラルネットワークの各回帰モデルが、DBMS設定チューニングにおける限られたデータ環境下で、どのように性能を発揮するかを比較すること。

提案手法

次元削減を図り、変動が大きいメトリクスを保持するため、因子分析を用いて冗長なメトリクスを pruning する。
K-meansおよびガウス・ミックスチャネル・モデル（GMM）クラスタリングを適用し、類似したメトリクスをグループ化し、代表的なワークロードクラスタを特定する。
ユークリッド距離に基づく最近傍探索によるワークロードマッピングを用い、歴史的ワークロードからのチューニング経験を新しい展開に移行する。
ガウス過程回帰（GPR）を主な遅延予測モデルとして採用し、ハイパーパrameterの最適化にアルファ（ノイズレベル）を用いる。
MAPEを損失関数とし、ADAM最適化手法を用いて、アンサンブルモデル（ランダムフォレスト）および深層ニューラルネットワークによる遅延予測の実験を行う。
モデルの収束性と性能を向上させるために、入力特徴量をゼロ平均・単位分散正規化でスケーリングする。

実験結果

リサーチクエスチョン

RQ1DBMS自動チューニングにおいて、K-meansクラスタリングと比較してGMMクラスタリングがワークロードマッピングの正確性を向上させることができるか？
RQ2ワークロードマッピングによる履歴チューニングデータの再利用が、遅延モデリングにおける予測誤差を低減するか？
RQ3限られた学習データ環境下で、GPR、ランダムフォレスト、ニューラルネットワークといった異なる回帰モデルは、DBMS設定チューニングにおいてどのように性能を発揮するか？
RQ4特徴量スケーリングおよびメトリクスの pruning を含むデータ前処理が、モデル性能および学習効率をどの程度向上させるか？
RQ5アンサンブルモデルおよび非線形モデルが、DBMS自動チューニングにおける低データ環境下でGPRを上回る性能を発揮できるか？

主な発見

K-meansクラスタリングをGMMクラスタリングに置き換えることで、MAPEが69.61%から67.85%に低下し、予測精度が向上したことが示された。
ベースラインのGPRモデルは、因子分析とK-meansを用いてメトリクスの pruning およびワークロードマッピングを実施し、69.61%のMAPEを達成した。
ニューラルネットワークは最高のMSE（13,426）と77.26%のMAPEを記録し、限られた学習データによる過学習の兆候が見られた。
ランダムフォレストは78.98%のMAPEと高いMSE（3,817）を示し、小規模データセットにおける一般化性能の低さが示された。
GPRにおいて低値のアルファ（例：1e-1）を設定することで最良の性能が得られ、ベースラインモデルではMAPEが69.61%に低下した。
遅延ターゲットを除くすべての入力特徴量をスケーリングすることでモデル性能が向上したが、スケーリングを行わないデータでは予測が著しく悪化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。