QUICK REVIEW

[논문 리뷰] Deep learning based Auto Tuning for Database Management System

Karthick Prasad Gunasekaran, Kajal Tiwari|arXiv (Cornell University)|2020. 01. 01.

Data Quality and Management인용 수 4

한 줄 요약

이 논문은 이전에 얻은 튜닝 데이터를 재사용함으로써 전이 학습을 활용하는 딥러닝 기반 데이터베이스 관리 시스템(DBMS)을 위한 자동 튜닝 프레임워크를 제안한다. 작업량 매핑을 위해 가우시안 믹스처 모델(GMM) 클러스터링을 사용하고, 랜덤 포레스트와 신경망을 포함한 앙상블 모델 및 가우시안 프로세스 회귀(GPR)를 활용하여 지연 시간 예측을 향상시켰으며, 이로 인해 MAPE가 67.85%에 도달하여 기준선 GPR 모델(69.61% MAPE)보다 略적으로 우수하고, 작은 데이터셋에서 다른 모델들보다 정확도가 뛰어나다.

ABSTRACT

The management of database system configurations is a challenging task, as there are hundreds of configuration knobs that control every aspect of the system. This is complicated by the fact that these knobs are not standardized, independent, or universal, making it difficult to determine optimal settings. An automated approach to address this problem using supervised and unsupervised machine learning methods to select impactful knobs, map unseen workloads, and recommend knob settings was implemented in a new tool called OtterTune and is being evaluated on three DBMSs, with results demonstrating that it recommends configurations as good as or better than those generated by existing tools or a human expert.In this work, we extend an automated technique based on Ottertune [1] to reuse training data gathered from previous sessions to tune new DBMS deployments with the help of supervised and unsupervised machine learning methods to improve latency prediction. Our approach involves the expansion of the methods proposed in the original paper. We use GMM clustering to prune metrics and combine ensemble models, such as RandomForest, with non-linear models, like neural networks, for prediction modeling.

연구 동기 및 목표

수백 개의 표준화되지 않은 상호의존적인 DBMS 설정 컨트롤을 튜닝하는 데 도전하는 것.
요인 분석과 클러스터링을 통해 여분의 성능 메트릭을 제거하여 검색 공간을 축소하는 것.
유사한 이전 작업량으로의 작업량 매핑을 통해 과거 튜닝 경험을 재사용하여 지연 시간 예측을 향상시키는 것.
GMM 클러스터링이 K-means에 비해 작업량 클러스터링 및 메트릭 그룹화에 있어 대안으로서 효과적인지 평가하는 것.
지연 시간 예측에 있어 GPR, 랜덤 포레스트, 신경망의 성능을 제한된 학습 데이터 환경에서 비교하는 것.

제안 방법

차원을 줄이고 높은 변동성을 가지는 메트릭을 유지하기 위해 요인 분석을 사용해 여분의 메트릭을 제거하는 것.
유사한 메트릭과 대표적인 작업량 클러스터를 식별하기 위해 K-means 및 가우시안 믹스처 모델(GMM) 클러스터링을 적용하는 것.
유사한 이전 작업량으로부터 튜닝 경험을 전이하기 위해 유클리드 거리 기반의 최근접 이웃 작업량 매핑을 사용하는 것.
기본 지연 시간 예측 모델로 가우시안 프로세스 회귀(GPR)를 사용하고, 하이퍼파라미터 튜닝을 알파(노이즈 수준) 최적화를 통해 수행하는 것.
MAPE를 손실 함수로 사용하고 ADAM 옵timizer를 적용하여 지연 시간 예측을 위한 앙상블 모델(RF)과 딥 네트워크를 실험하는 것.
모델 수렴과 성능 향상을 위해 입력 특징을 평균이 0이고 분산이 1인 정규화로 스케일링하는 것.

실험 결과

연구 질문

RQ1GMM 클러스터링이 DBMS 자동 튜닝에서 K-means 클러스터링에 비해 작업량 매핑 정확도를 향상시키는가?
RQ2작업량 매핑을 통한 이전 튜닝 데이터 재사용이 지연 시간 모델링의 예측 오차를 감소시키는가?
RQ3제한된 학습 데이터에서 GPR, 랜덤 포레스트, 신경망 등의 다양한 회귀 모델이 DBMS 설정 튜닝에 어떻게 성능을 내는가?
RQ4특징 스케일링 및 메트릭 제거를 포함한 데이터 전처리가 모델 성능과 학습 효율성에 얼마나 기여하는가?
RQ5앙상블 및 비선형 모델이 DBMS 자동 튜닝의 지연 시간 예측에서 제한된 데이터 환경에서 GPR를 능가하는가?

주요 결과

K-means 클러스터링을 GMM 클러스터링으로 대체함으로써 MAPE가 69.61%에서 67.85%로 감소하여 예측 정확도 향상을 확인하였다.
기준선 GPR 모델은 요인 분석과 K-means를 사용해 메트릭 제거 및 작업량 매핑을 수행했으며, MAPE가 69.61%였다.
신경망은 가장 높은 MSE(13,426)와 MAPE 77.26%를 기록하여 제한된 학습 데이터로 인한 과적합을 보였다.
랜덤 포레스트는 MAPE 78.98%와 높은 MSE(3,817)를 기록하여 작은 데이터셋에서 일반화 성능이 열악하다는 것을 시사했다.
낮은 알파 값(예: 1e-1)을 가진 GPR가 최고의 성능을 보였으며, 기준선 모델에서 MAPE가 69.61%로 떨어졌다.
지연 시간 타겟을 제외한 모든 입력 특징을 스케일링하면 모델 성능이 향상되었고, 스케일링되지 않은 데이터는 열악한 예측을 유도했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.