Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Automated Deep Learning: Efficient Joint Neural Architecture and Hyperparameter Search

Arber Zela, Aaron Klein|arXiv (Cornell University)|2018. 07. 18.
Machine Learning and Data Classification참고 문헌 21인용 수 88
한 줄 요약

이 논문은 점진적으로 증가하는 예산으로 신경망 아키텍처와 하이퍼파라미터를 함께 최적화하는 BOHB를 제안하고, 3-hour 한도 내에서 CIFAR-10의 경쟁력 있는 결과를 보여주며 아키텍처와 하이퍼파라미터 간의 예산 의존적 상호작용을 밝힌다.

ABSTRACT

While existing work on neural architecture search (NAS) tunes hyperparameters in a separate post-processing step, we demonstrate that architectural choices and other hyperparameter settings interact in a way that can render this separation suboptimal. Likewise, we demonstrate that the common practice of using very few epochs during the main NAS and much larger numbers of epochs during a post-processing step is inefficient due to little correlation in the relative rankings for these two training regimes. To combat both of these problems, we propose to use a recent combination of Bayesian optimization and Hyperband for efficient joint neural architecture and hyperparameter search.

연구 동기 및 목표

  • 아키텍처와 하이퍼파라미터의 공동 최적화를 사후 조정으로 간주하지 않고 동기화하려는 목표.
  • 짧은 학습 예산이 긴 예산 성능과 잘 상관되지 않을 수 있음을 보이고.
  • 리소스를 점진적으로 늘려가는 Anytime, 예산 의존적 AutoML 접근법을 시연하며.
  • 3-hour 제약 조건에서 CIFAR-10에 대한 NAS-HP 공동 검색을 평가하려는 목표.

제안 방법

  • 신경망 아키텍처 검색을 범주형 및 조건부 하이퍼파라미터를 갖는 하이퍼파라미터 최적화 문제로 형상화한다.
  • 효율적 다중 예산 탐색을 위한 Bayesian optimization과 Hyperband의 결합인 BOHB를 채택한다.
  • 다중 가지 잔차 구조를 위한 10개의 아키텍처 선택과 7개의 하이퍼파라미터로 공동 탐색 공간을 정의한다.
  • 상당히 유망한 구성에 더 많은 컴퓨트를 할당하기 위해 successive halving을 사용한다.
  • 다른 예산(예: 400s, 1200s, 1h, 3h)에서 구성들을 학습 및 평가하여 예산 의존적 성능을 포착한다.
  • 수동으로 구성된 아키텍처와 비교하고 예산 간 상관관계 및 매개변수 중요도를 분석한다.
Figure 1: Validation error of all configurations evaluated on the different budgets during the whole optimization procedure. The best performing configuration (incumbent) as a function of time is visualized by the black line.
Figure 1: Validation error of all configurations evaluated on the different budgets during the whole optimization procedure. The best performing configuration (incumbent) as a function of time is visualized by the black line.

실험 결과

연구 질문

  • RQ1신경망 아키텍처 검색이 하이퍼파라미터 최적화와 함께 효과적으로 수행될 수 있는가?
  • RQ2짧은 학습 예산과 긴 예산에서 구성을 순위 매기는 데 어떤 상관관계가 있으며, 최적화 중 어떤 예산을 사용해야 하는가?
  • RQ3BOHB 접근법이 CIFAR-10의 엄격한 시간 예산 하에서 효과적인가?
  • RQ4제한된 컴프팅 예산에서 어떤 아키텍처적 선택 및 하이퍼파라미터 선택이 가장 영향력이 큰가?

주요 결과

NetworkParamsTest error (%)
ResNet-1811.2M3.34±0.11
Shake-Shake 26 2x32d2.9M3.91±0.09
Shake-Shake 26 2x64d11.7M3.38±0.07
Shake-Shake 26 2x96d26.2M4.22±0.06
Ours27.6M3.18±0.16
  • BOHB를 이용한 공동 아키텍처 및 하이퍼파라미터 검색은 3-hour 예산 내에서 CIFAR-10의 경쟁력 있는 결과를 얻는다(test error 3.18%).
  • 3h 하에서 최상의 성능을 보인 아키텍처는 중간 크기의 다중 가지 잔차 네트워크(26 2x64d)이다.
  • Spearman 상관관계는 인접 예산 간에는 강한 정렬을 보이지만 더 큰 예산 차이에서 빠르게 악화되어 짧은 예산 랭킹이 긴 예산 선택에 대해 신뢰할 수 없음을 보여준다.
  • 예산 의존적 분석(fANOVA)은 예산이 바뀌면서 서로 다른 하이퍼파라미터 및 아키텍처 선택이 중요해지거나 중요하지 않게 됨을 시사하며 상호 작용 효과를 강조한다.
  • BOHB 기반 탐색은 동일한 최적화 파이프라인과 예산 하에서 여러 표준 아키텍처를 능가하여 공동 최적화의 가치를 입증한다.
Figure 2: Parameter importance plots for three hyperparameters for training 400s (top row) and 1h (bottom row). The importance indicates the fraction of the variance explained by the individual choice(s). The value of the best found configuration on this budget is indicated by the dashed line/ gray
Figure 2: Parameter importance plots for three hyperparameters for training 400s (top row) and 1h (bottom row). The importance indicates the fraction of the variance explained by the individual choice(s). The value of the best found configuration on this budget is indicated by the dashed line/ gray

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.