Skip to main content
QUICK REVIEW

[논문 리뷰] Fast Bayesian Optimization of Machine Learning Hyperparameters on Large Datasets

Aaron Klein, Stefan Falkner|arXiv (Cornell University)|2016. 05. 23.
Machine Learning and Data Classification인용 수 317
한 줄 요약

이 논문은 손실과 비용을 데이터 세트 크기의 함수로 모델링하는 베이지안 최적화 방법인 Fabolas를 도입한다. 이를 통해 더 큰 데이터세트에서 더 저렴한 서브샘플을 평가하고 이를 전체 데이터에 외삽하여 하이퍼파라미터 최적화를 가능하게 한다.

ABSTRACT

Bayesian optimization has become a successful tool for hyperparameter optimization of machine learning algorithms, such as support vector machines or deep neural networks. Despite its success, for large datasets, training and validating a single configuration often takes hours, days, or even weeks, which limits the achievable performance. To accelerate hyperparameter optimization, we propose a generative model for the validation error as a function of training set size, which is learned during the optimization process and allows exploration of preliminary configurations on small subsets, by extrapolating to the full dataset. We construct a Bayesian optimization procedure, dubbed Fabolas, which models loss and training time as a function of dataset size and automatically trades off high information gain about the global optimum against computational cost. Experiments optimizing support vector machines and deep neural networks show that Fabolas often finds high-quality solutions 10 to 100 times faster than other state-of-the-art Bayesian optimization methods or the recently proposed bandit strategy Hyperband.

연구 동기 및 목표

  • 전체 평가가 비용이 많이 들거나 실행하기 어려운 대규모 데이터셋에서 하이퍼파라미터 최적화를 촉진한다.
  • 검색 속도를 높이기 위해 샘플링된 데이터셋을 환경 변수로 합리적으로 사용하는 방법을 제안한다.
  • 작은 부분집합으로부터 전체 데이터셋의 성능을 외삽하는 베이지안 최적화 프레임워크를 개발한다.
  • 전체 데이터 성능을 목표로 삼으면서 정보 이득과 계산 비용 사이의 자동 트레이드오프를 가능하게 한다.

제안 방법

  • 맞춤 커널을 갖는 가우시안 프로세스(Gaussian processes)를 사용하여 하이퍼파라미터와 데이터셋 크기의 함수로 손실과 비용을 모델링한다.
  • 데이터셋 크기에 대한 유한 순위 구성요소를 커널에 확장하여 s in [0,1]에서 s=1로의 외삽을 가능하게 한다.
  • 획득 함수로 엔트로피 탐색(Entropy Search)을 사용하여 단위 시간당 전체 데이터 최적점에 대한 정보 이득을 최대화한다.
  • 획득에 오버헤드 시간을 포함시켜 평가 비용뿐만 아니라 실제 벽 시계 비용(wall-clock cost)을 반영한다.
  • 데이터셋 크기에 따른 스케일링을 학습하기 위해 저비용 평가에 편향된 설계로 초기화한다.
  • 재현성을 위해 오픈 소스 구현(RoBO)을 제공한다.

실험 결과

연구 질문

  • RQ1서브샘플 평가를 사용하여 전체 데이터셋에서의 하이퍼파라미터 성능을 신뢰할 수 있게 추론할 수 있는가?
  • RQ2전체 데이터에 대한 외삽을 가능하게 하려면 데이터셋 크기에 따른 손실 및 계산 비용을 어떻게 모델링해야 하는가?
  • RQ3Fabolas가 대규모 데이터셋에서 고품질 하이퍼파라미터를 발견하는 데 있어 표준 베이지안 최적화, MTBO, Hyperband를 능가하는가?
  • RQ4평가 오버헤드를 (x, s) 선택에 반영하는 의사결정 규칙의 영향은 무엇인가?

주요 결과

  • Fabolas는 종종 다른 베이지안 최적화 방법이나 Hyperband보다 10배에서 100배 빠르게 고품질의 하이퍼파라미터를 찾는다.
  • SVM 및 심층 신경망 작업에서 Fabolas는 전체 데이터 기준과일치하거나 이를 상회하면서도 상당한 벽시계 속도 향상을 달성한다.
  • 연속적인 데이터셋 크기 변수를 사용하면 많은 경우 전체 크기로 평가하지 않고도 상관관계를 학습할 수 있다.
  • MTBO, Hyperband, 및 표준 BO와 비교하여 Fabolas는 여러 데이터셋에서 높은 성과를 보이는 후보로의 수렴 속도를 더 빠르게 제공한다.
  • 이 방법은 CNN과 잔차 네트워크에서도 효과적이며, 속도 향상은 모델과 데이터의 스케일링 특성에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.