QUICK REVIEW

[논문 리뷰] Efficient Hyperparameter Optimization of Deep Learning Algorithms Using Deterministic RBF Surrogates

Ilija Ilievski, Taimoor Akhtar|arXiv (Cornell University)|2016. 07. 28.

Machine Learning and Data Classification인용 수 73

한 줄 요약

이 논문은 깊이 학습 하이퍼파rameter 공간을 효율적으로 탐색하기 위해 원추함수(RBF) 대체모델을 사용하는 결정론적 하이퍼파ram터 최적화 방법인 HORD를 제안한다. RBF 기반 대체모델과 동적 좌표 탐색을 조합함으로써 HORD는 베이지안 최적화 방법(예: GP-EI)보다 최대 6배 적은 함수 평가를 수행하며, 특히 고차원 설정에서 뛰어난 성능을 발휘한다.

ABSTRACT

Automatically searching for optimal hyperparameter configurations is of crucial importance for applying deep learning algorithms in practice. Recently, Bayesian optimization has been proposed for optimizing hyperparameters of various machine learning algorithms. Those methods adopt probabilistic surrogate models like Gaussian processes to approximate and minimize the validation error function of hyperparameter values. However, probabilistic surrogates require accurate estimates of sufficient statistics (e.g., covariance) of the error distribution and thus need many function evaluations with a sizeable number of hyperparameters. This makes them inefficient for optimizing hyperparameters of deep learning algorithms, which are highly expensive to evaluate. In this work, we propose a new deterministic and efficient hyperparameter optimization method that employs radial basis functions as error surrogates. The proposed mixed integer algorithm, called HORD, searches the surrogate for the most promising hyperparameter values through dynamic coordinate search and requires many fewer function evaluations. HORD does well in low dimensions but it is exceptionally better in higher dimensions. Extensive evaluations on MNIST and CIFAR-10 for four deep neural networks demonstrate HORD significantly outperforms the well-established Bayesian optimization methods such as GP, SMAC, and TPE. For instance, on average, HORD is more than 6 times faster than GP-EI in obtaining the best configuration of 19 hyperparameters.

연구 동기 및 목표

딥 러닝을 위한 고차원 하이퍼파ram터 최적화에서 가우시안 프로세스와 같은 확률적 대체모델의 비효율성을 해결하기 위해.
근사 최적의 하이퍼파ram터 설정을 찾기 위해 필요한 고비용 함수 평가 횟수를 줄이기 위해.
연속적이고 이산적인 하이퍼파aram터를 효과적으로 처리할 수 있는 결정론적 혼합정수 최적화 알고리즘을 개발하기 위해.
베이지안 방법이 계산 오버헤드로 인해 어려움을 겪는 고차원 하이퍼파라미터 공간에서의 확장성과 성능을 향상시키기 위해.
RBF 기반 대체모델과 동적 좌표 탐색이 최신 베이지안 및 트리 기반 최적화 방법보다 뛰어나다는 것을 입증하기 위해.

제안 방법

HORD는 가우시안 프로세스에서 요구하는 공분산 추정이 필요 없도록, 하이퍼파라미터의 검증 오차를 원추함수(RBF) 대체모델로 모델링한다.
알고리즘은 반복적으로 후보 하이퍼파라미터 점을 업데이트하기 위해 동적 좌표 탐색을 사용하며, 탐색 공간의 유망한 영역에 집중한다.
후보 점은 현재 최고 성능를 기준으로 정규 분포로 변형된 편향을 적용하여 생성되며, 각 단계에서 일부 차원만 변형하여 효율성을 향상시킨다.
다음 평가 점의 선택은 대체모델 예측 값과 이전에 평가된 점들로부터의 거리의 가중 조합에 의해 유도되며, 현재 최고 성능 근처의 탐색을 선호한다.
HORD는 연속적 및 정수형 하이퍼파라미터를 모두 지원하여 딥 네URAL 네트워크 설정에 대한 혼합정수 최적화를 가능하게 한다.
HORD-ISP라는 변종은 초기 추측값을 통합하여 후속 반복에서 수렴 속도를 더욱 향상시킨다.

실험 결과

연구 질문

RQ1딥 러닝 하이퍼파라미터 최적화에서 확률적 대체모델인 가우시안 프로세스보다 결정론적 RBF 대체모델이 뛰어난 성능을 보일 수 있는가?
RQ2대상 편향이 있는 동적 좌표 탐색이 고차원 하이퍼파라미터 공간에서 수렴 속도를 어떻게 향상시키는가?
RQ3최신 베이지안 및 트리 기반 최적화 알고리즘과 비교해 볼 때 제안된 방법이 고비용 함수 평가 횟수를 얼마나 줄이는가?
RQ4기존 방법과 비교해 하이퍼파라미터 차원이 증가함에 따라 HORD의 성능이 유리하게 확장되는가?
RQ5RBF 대체모델과 지능적인 후보 생성 전략의 조합이 최종 검증 오차를 유지하거나 향상시키면서도 더 빠른 수렴을 달성할 수 있는가?

주요 결과

HORD는 MNIST 및 CIFAR-10 벤치마크에서 19개 하이퍼파라미터 설정의 최적 구성 도달에 있어 GP-EI보다 최대 6배 빠른 성능을 보였다.
모든 테스트된 문제 차원에서 평균적으로 HORD는 다른 방법보다 3.7배에서 6배 빠르게 작동했으며, 고차원 설정에서 일관된 우수성을 보였다.
HORD는 GP-EI, GP-PES, SMAC, TPE 모두보다 수렴 속도와 최종 검증 오차 측면에서 뛰어난 성능을 보였으며, 특히 고차원 하이퍼파라미터 공간에서 두각을 나타냈다.
하이퍼파라미터 수가 10개를 초과할 경우, 솔루션 품질과 계산 효율성에서 통계적으로 유의미한 향상을 보였다.
초기 추측값을 사용하는 HORD-ISP는 수렴 속도를 추가로 향상시켜, 정보가 있는 초기화가 성능 향상에 기여한다는 것을 입증했다.
RBF 대체모델 사용으로 인해 GP 기반 방법보다 계산 오버헤드가 감소했으며, 특히 차원 증가에 따라 비례적으로 나빠지는 공분산 행렬 계산의 비용이 줄어들었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.