QUICK REVIEW

[논문 리뷰] CMA-ES for Hyperparameter Optimization of Deep Neural Networks

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|2016. 04. 25.

Machine Learning and Data Classification참고 문헌 18인용 수 238

한 줄 요약

본 논문은 파생상품이 없는 최적화기인 CMA-ES를 사용하여 심층 신경망의 연속 하이퍼파라미터를 탐색하고, MNIST에서 30 GPU를 활용한 바인딩된 병렬 성능을 베이지안 최적화 방법과 비교합니다. 매우 낮은 검증 오차를 달성하며, CMA-ES의 병렬 설정에서의 강점을 보여줍니다.

ABSTRACT

Hyperparameters of deep neural networks are often optimized by grid search, random search or Bayesian optimization. As an alternative, we propose to use the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which is known for its state-of-the-art performance in derivative-free optimization. CMA-ES has some useful invariance properties and is friendly to parallel evaluations of solutions. We provide a toy example comparing CMA-ES and state-of-the-art Bayesian optimization algorithms for tuning the hyperparameters of a convolutional neural network for the MNIST dataset on 30 GPUs in parallel.

연구 동기 및 목표

DNN의 그리드/랜덤 탐색 및 베이지안 방법을 넘어서는 하이퍼파라미터 최적화의 필요성 강조.
연속 하이퍼파라parameter에 대한 병렬 가능하고 파생 없이 최적화 접근법으로 CMA-ES 평가.
연속적 하이퍼파라미터에서 CMA-ES를 상태의 최첨단 베이지안 최적화 방법과 순차 및 병렬 설정 모두에서 비교.
다양한 학습 시간 예산과 배치 전략을 가진 MNIST CNN에서의 실용적 성능 평가.

제안 방법

CMA-ES를 다변량 정규분포에서 람다 개수의 후보 해를 반복적으로 샘플링하는 이터레이티브 샘플러로 설명합니다.
변수 범위가 [0,1]이므로 초기 샘플링 분포를 N(0.5, 0.2^2)로 설정합니다.
객체는 시간 예산 내에 여러 에포크에 걸친 검증 오차 중 최솟값을 선택하고 AdaDelta 또는 Adam으로 학습시키는 후보를 평가합니다.
병렬 평가를 활용하기 위해 람다 = 30을 사용하고 30 GPUs를 활용합니다.
본 연구에서 노이즈 감소나 대리모형을 사용하지 않습니다.
병렬 및 순차 설정에서 GP 기반 베이지안 최적화(Spearmint의 EI/PES)와 트리 기반 방법(TPE, SMAC)과의 비교.

실험 결과

연구 질문

RQ1CMA-ES가 연속 DNN 하이퍼파라미터에 대해 베이지안 최적화와 경쟁할 수 있는가?
RQ2병렬 하이퍼파라미터 평가에서 CMA-ES는 순차 최적화에 비해 어떤 성능을 보이는가?
RQ3최종 검증 성능 측면에서 CMA-ES는 Spearmint(EI/PES), SMAC, TPE와 어떻게 비교되는가?
RQ4학습 예산 및 배치 선택 전략이 CMA-ES의 성능에 어떤 영향을 미치는가?

주요 결과

CMA-ES는 8개 하이퍼파라미터 설정 전반에 걸쳐 시간이 지남에 따라 최상의 검증 오차를 꾸준히 개선합니다.
최적의 경우 CMA-ES는 30분의 학습으로 검증 오차가 0.3% 미만에 도달합니다.
5분 예산에서는 CMA-ES가 약 0.42%의 검증 오차에 도달합니다.
30 GPUs에서의 병렬 평가에서 CMA-ES는 대부분의 해를 검증 오차 0.4% 미만으로 생성하며, 내부 비용은 거의 0에 가깝습니다.
GP 기반의 베이지안 최적화(Spearmint의 EI/PES)는 평가 수가 증가할수록 거대 GP 비용 때문에 느립니다.
가우시안 사전분포를 사용하는 TPE는 성능이 좋고 종종 CMA-ES와 일치하는 반면, SMAC과 EI/PES는 이 노이즈 많고 차원이 높은 설정에서 뒤처집니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.