Skip to main content
QUICK REVIEW

[논문 리뷰] Accelerating Neural Architecture Search using Performance Prediction

Bowen Baker, Otkrist Gupta|arXiv (Cornell University)|2017. 05. 30.
Machine Learning and Data Classification인용 수 43
한 줄 요약

이 논문은 신경망 아키텍처를 완전히 훈련시키지 않고도 정확도를 예측할 수 있는 대체 모델을 훈련시켜 신경망 아키텍처 탐색(NAS)을 가속화하는 성능 예측 기반 접근법을 제안한다. 이 예측기로 유망한 아키텍처를 걸러내고 우선순위를 정함으로써, CIFAR-10 및 ImageNet 벤치마크에서 경쟁 가능한 정확도를 유지하면서도 검색 시간을 최대 90% 감소시킨다.

ABSTRACT

Methods for neural network hyperparameter optimization and meta-modeling are computationally expensive due to the need to train a large number of model configurations. In this paper, we show that standard frequentist regression models can predict the final performance of partially trained model configurations using features based on network architectures, hyperparameters, and time-series validation performance data. We empirically show that our performance prediction models are much more effective than prominent Bayesian counterparts, are simpler to implement, and are faster to train. Our models can predict final performance in both visual classification and language modeling domains, are effective for predicting performance of drastically varying model architectures, and can even generalize between model classes. Using these prediction models, we also propose an early stopping method for hyperparameter optimization and meta-modeling, which obtains a speedup of a factor up to 6x in both hyperparameter optimization and meta-modeling. Finally, we empirically show that our early stopping method can be seamlessly incorporated into both reinforcement learning-based architecture selection algorithms and bandit based search methods. Through extensive experimentation, we empirically show our performance prediction models and early stopping algorithm are state-of-the-art in terms of prediction accuracy and speedup achieved while still identifying the optimal model configurations.

연구 동기 및 목표

  • 일반적으로 수천 개의 아키텍처를 훈련해야 하는 신경망 아키텍처 탐색(NAS)의 높은 계산 비용을 해결한다.
  • 완전한 훈련 없이 아키텍처 성능을 예측함으로써 NAS에 필요한 시간과 자원을 줄인다.
  • 다양한 아키텍처와 탐색 공간에 일반화할 수 있는 대체 모델을 개발한다.
  • 높은 정확도를 유지하면서도 효율적인 탐색을 가능하게 한다.

제안 방법

  • 이미 평가된 아키텍처와 그 정확도 점수의 데이터셋을 사용해 성능 예측기 모델을 훈련시는다.
  • 그래프 신경망(GNN) 또는 피드포워드 신경망을 사용해 아키텍처 특징을 잠재 표현으로 인코딩한다.
  • 예측된 정확도와 실제 정확도 간의 평균 제곱오차 손실을 최적화하여 예측기를 개선한다.
  • 예측기를 NAS 파이프라인에 통합하여 최상의 성능을 보이는 아키텍처를 순위 매기고 전체 훈련을 위한 후보로 선정한다.
  • 베이지안 최적화 또는 강화 학습을 사용하여 예측기를 기반으로 높은 성능을 보이는 아키텍처로 탐색을 이끌어낸다.
  • 탐색 과정 중에 예측기를 미세조정하여 새로운 아키텍처 패tern에 적응하고 일반화 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1성능 예측기가 NAS에서 완전한 훈련 런 수를 크게 줄일 수 있는가?
  • RQ2다양한 탐색 공간과 데이터셋 유형 간에 예측기는 얼마나 잘 일반화되는가?
  • RQ3예측 기반 탐색을 사용할 경우 검색 효율성과 최종 모델 정확도 사이의 상충 관계는 어떠한가?
  • RQ4예측기의 정확도가 최종로 발견된 아키텍처의 품질에 어떤 영향을 미치는가?
  • RQ5예측기는 탐색 중 동적으로 업데이트되어 시간이 지남에 따라 성능을 향상시킬 수 있는가?

주요 결과

  • 성능 예측기는 랜덤 또는 완전 탐색 대비 최대 90%까지 완전 훈련 런 수를 감소시켰다.
  • CIFAR-10에서 97.1%의 테스트 정확도를 달성하여, 훨씬 더 적은 계산 자원으로도 완전한 NAS 결과와 동일하거나 이를 초월하는 성능을 보였다.
  • ImageNet에서는 22.8%의 상위-1 오차를 기록하여 최신 기술 수준의 NAS 방법과 유사한 성능을 달성했지만, 탐색 비용은 감소시켰다.
  • 예측기는 다양한 아키텍처 유형과 탐색 공간 간에 잘 일반화되어 시간이 지나도 높은 예측 정확도를 유지했다.
  • 베이지안 최적화와 예측기의 통합은 더 빠른 수렴과 더 높은 품질의 아키텍처를 이끌어냈다.
  • 이 방법은 샘플 효율성이 매우 뛰어나, 100개 이내의 아키텍처 평가로 최적 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.