[논문 리뷰] Combination of Hyperband and Bayesian Optimization for Hyperparameter Optimization in Deep Learning
본 논문은 Hyperband와 Bayesian optimization을 결합하여 하이퍼파라미터 검색에서 이력(history)을 활용하고, Hyperband나 Bayesian optimization 또는 무작위 탐색만 사용하는 것보다 더 좋고 더 빠른 하이퍼파라미터 구성을 딥러닝에 제공한다.
Deep learning has achieved impressive results on many problems. However, it requires high degree of expertise or a lot of experience to tune well the hyperparameters, and such manual tuning process is likely to be biased. Moreover, it is not practical to try out as many different hyperparameter configurations in deep learning as in other machine learning scenarios, because evaluating each single hyperparameter configuration in deep learning would mean training a deep neural network, which usually takes quite long time. Hyperband algorithm achieves state-of-the-art performance on various hyperparameter optimization problems in the field of deep learning. However, Hyperband algorithm does not utilize history information of previous explored hyperparameter configurations, thus the solution found is suboptimal. We propose to combine Hyperband algorithm with Bayesian optimization (which does not ignore history when sampling next trial configuration). Experimental results show that our combination approach is superior to other hyperparameter optimization approaches including Hyperband algorithm.
연구 동기 및 목표
- 높은 복잡성 및 학습 비용으로 인해 딥러닝에서 체계적인 하이퍼파라미터 튜닝의 필요성을 동기 부여한다.
- 리소스를 효율적으로 할당하면서 히스토리 정보를 활용하여 하이퍼파라미터 샘플링을 안내하는 방법을 제시한다.
- 여러 DL 과제에서 결합된 접근법이 기존 하이퍼파라미터 최적화 방법보다 우수하다는 것을 입증한다.
제안 방법
- Hyperband와 Bayesian optimization 및 그 강점과 약점을 고찰한다.
- Hyperband를 따르되 Bayesian optimization 기준을 사용하여 시도 포인트를 순차적으로 샘플링하는 결합 알고리즘을 제안한다.
- 다음 시도 포인트 선택을 안내하기 위해 Bayesian surrogate 모델(TPE)을 사용하고 중간 결과로 업데이트한다.
- 각 Hyperband 라운드에서 시도 포인트를 하나씩 샘플링하고 각 평가 후에 대리모델을 업데이트하여 exploitation과 exploration의 균형을 맞춘다.
- LeNet와 AlexNet 실험 및 SSD 분해 작업에서 이 접근법을 평가하여 Random search, TPE, Hyperband와 비교한다.
실험 결과
연구 질문
- RQ1Hyperband를 이전 시도들의 히스토리를 Bayesian optimization을 통해 통합함으로써 개선할 수 있는가?
- RQ2결합된 Hyperband+Bayesian optimization 방법이 데이터셋과 모델 복잡도 전반에 걸쳐 기본 방법들보다 더 빠르게 더 나은 하이퍼파라미터 구성을 찾는가?
- RQ3하이퍼파라미터 문제의 난이도가 증가할수록(예: 더 깊은 네트워크, 더 큰 공간) 방법의 성능은 어떻게 되는가?
주요 결과
- Hyperband_TPE는 여러 DL 과제에서 일관되게 Random search, TPE, 및 Hyperband를 능가한다.
- 하이퍼파라미터 최적화 문제가 더 어려워질수록 Hyperband_TPE와 베이스라인 간의 성능 차이가 커진다.
- 더 쉬운 문제에서 모든 방법이 빠르게 수렴하지만, 조합 방식은 더 어려운 문제에서 더 큰 이점을 보인다.
- SSD 분해 실험에서도 Hyperband_TPE가 기준선보다 더 나은 목적 값(map과 fps)을 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.