[논문 리뷰] Towards Automated Deep Learning: Efficient Joint Neural Architecture and Hyperparameter Search
이 논문은 점진적으로 증가하는 예산으로 신경망 아키텍처와 하이퍼파라미터를 함께 최적화하는 BOHB를 제안하고, 3-hour 한도 내에서 CIFAR-10의 경쟁력 있는 결과를 보여주며 아키텍처와 하이퍼파라미터 간의 예산 의존적 상호작용을 밝힌다.
While existing work on neural architecture search (NAS) tunes hyperparameters in a separate post-processing step, we demonstrate that architectural choices and other hyperparameter settings interact in a way that can render this separation suboptimal. Likewise, we demonstrate that the common practice of using very few epochs during the main NAS and much larger numbers of epochs during a post-processing step is inefficient due to little correlation in the relative rankings for these two training regimes. To combat both of these problems, we propose to use a recent combination of Bayesian optimization and Hyperband for efficient joint neural architecture and hyperparameter search.
연구 동기 및 목표
- 아키텍처와 하이퍼파라미터의 공동 최적화를 사후 조정으로 간주하지 않고 동기화하려는 목표.
- 짧은 학습 예산이 긴 예산 성능과 잘 상관되지 않을 수 있음을 보이고.
- 리소스를 점진적으로 늘려가는 Anytime, 예산 의존적 AutoML 접근법을 시연하며.
- 3-hour 제약 조건에서 CIFAR-10에 대한 NAS-HP 공동 검색을 평가하려는 목표.
제안 방법
- 신경망 아키텍처 검색을 범주형 및 조건부 하이퍼파라미터를 갖는 하이퍼파라미터 최적화 문제로 형상화한다.
- 효율적 다중 예산 탐색을 위한 Bayesian optimization과 Hyperband의 결합인 BOHB를 채택한다.
- 다중 가지 잔차 구조를 위한 10개의 아키텍처 선택과 7개의 하이퍼파라미터로 공동 탐색 공간을 정의한다.
- 상당히 유망한 구성에 더 많은 컴퓨트를 할당하기 위해 successive halving을 사용한다.
- 다른 예산(예: 400s, 1200s, 1h, 3h)에서 구성들을 학습 및 평가하여 예산 의존적 성능을 포착한다.
- 수동으로 구성된 아키텍처와 비교하고 예산 간 상관관계 및 매개변수 중요도를 분석한다.

실험 결과
연구 질문
- RQ1신경망 아키텍처 검색이 하이퍼파라미터 최적화와 함께 효과적으로 수행될 수 있는가?
- RQ2짧은 학습 예산과 긴 예산에서 구성을 순위 매기는 데 어떤 상관관계가 있으며, 최적화 중 어떤 예산을 사용해야 하는가?
- RQ3BOHB 접근법이 CIFAR-10의 엄격한 시간 예산 하에서 효과적인가?
- RQ4제한된 컴프팅 예산에서 어떤 아키텍처적 선택 및 하이퍼파라미터 선택이 가장 영향력이 큰가?
주요 결과
| Network | Params | Test error (%) |
|---|---|---|
| ResNet-18 | 11.2M | 3.34±0.11 |
| Shake-Shake 26 2x32d | 2.9M | 3.91±0.09 |
| Shake-Shake 26 2x64d | 11.7M | 3.38±0.07 |
| Shake-Shake 26 2x96d | 26.2M | 4.22±0.06 |
| Ours | 27.6M | 3.18±0.16 |
- BOHB를 이용한 공동 아키텍처 및 하이퍼파라미터 검색은 3-hour 예산 내에서 CIFAR-10의 경쟁력 있는 결과를 얻는다(test error 3.18%).
- 3h 하에서 최상의 성능을 보인 아키텍처는 중간 크기의 다중 가지 잔차 네트워크(26 2x64d)이다.
- Spearman 상관관계는 인접 예산 간에는 강한 정렬을 보이지만 더 큰 예산 차이에서 빠르게 악화되어 짧은 예산 랭킹이 긴 예산 선택에 대해 신뢰할 수 없음을 보여준다.
- 예산 의존적 분석(fANOVA)은 예산이 바뀌면서 서로 다른 하이퍼파라미터 및 아키텍처 선택이 중요해지거나 중요하지 않게 됨을 시사하며 상호 작용 효과를 강조한다.
- BOHB 기반 탐색은 동일한 최적화 파이프라인과 예산 하에서 여러 표준 아키텍처를 능가하여 공동 최적화의 가치를 입증한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.