Skip to main content
QUICK REVIEW

[논문 리뷰] sharpDARTS: Faster and More Accurate Differentiable Architecture Search

Andrew Hundt, Varun Jain|arXiv (Cornell University)|2019. 03. 23.
Advanced Neural Network Applications참고 문헌 27인용 수 35
한 줄 요약

sharpDARTS은 SharpSepConv 도입, 코사인 파워 애닐링 학습률 스케줄, 그리고 Max-W 정규화를 도입하여 differentiable architecture search를 개선하고 CIFAR-10, CIFAR-10.1에서 더 빠른 탐색과 더 높은 정확도를 달성하며 ImageNet에서 경쟁력 있는 결과를 나타낸다.

ABSTRACT

Neural Architecture Search (NAS) has been a source of dramatic improvements in neural network design, with recent results meeting or exceeding the performance of hand-tuned architectures. However, our understanding of how to represent the search space for neural net architectures and how to search that space efficiently are both still in their infancy. We have performed an in-depth analysis to identify limitations in a widely used search space and a recent architecture search method, Differentiable Architecture Search (DARTS). These findings led us to introduce novel network blocks with a more general, balanced, and consistent design; a better-optimized Cosine Power Annealing learning rate schedule; and other improvements. Our resulting sharpDARTS search is 50% faster with a 20-30% relative improvement in final model error on CIFAR-10 when compared to DARTS. Our best single model run has 1.93% (1.98+/-0.07) validation error on CIFAR-10 and 5.5% error (5.8+/-0.3) on the recently released CIFAR-10.1 test set. To our knowledge, both are state of the art for models of similar size. This model also generalizes competitively to ImageNet at 25.1% top-1 (7.8% top-5) error. We found improvements for existing search spaces but does DARTS generalize to new domains? We propose Differentiable Hyperparameter Grid Search and the HyperCuboid search space, which are representations designed to leverage DARTS for more general parameter optimization. Here we find that DARTS fails to generalize when compared against a human's one shot choice of models. We look back to the DARTS and sharpDARTS search spaces to understand why, and an ablation study reveals an unusual generalization gap. We finally propose Max-W regularization to solve this problem, which proves significantly better than the handmade design. Code will be made available.

연구 동기 및 목표

  • 기존 NAS 탐색 공간과 DARTS 방법의 한계를 식별한다.
  • 더 균형 잡힌 효율적인 탐색 공간과 학습 регimen을 개발한다.
  • 모바일 규모의 아키텍처에 대한 일반화 및 탐색 효율성을 향상시킨다.

제안 방법

  • 균형 잡힌 깊이와 병목현상을 가진 SharpSepConv 블록을 제안하여 연산 수를 균등화한다.
  • 학습 중 효과적인 학습률을 유지하기 위해 Cosine Power Annealing 학습률 스케줄을 도입한다.
  • 이산 선택을 평가하기 위한 differentiable hyperparameter grid search와 hypercuboid 탐색 공간을 정의한다.
  • DARTS의 편향을 식별하기 위한 제거 실험(ablation)을 수행하고 이를 완화하기 위해 Max-W 정규화를 도입한다.

실험 결과

연구 질문

  • RQ1DARTS 탐색 공간에 일반화가 새로운 도메인으로 확장되는 것을 제한하는 편향이 있는가?
  • RQ2SharpSepConv와 개선된 학습 регimen이 CIFAR-10/10.1 및 ImageNet에서 더 빠른 탐색과 더 높은 최종 정확도를 낳는가?
  • RQ3Max-W 정규화가 저용량 프리미티브에 대한 편향을 완화하여 아키텍처 탐색을 개선하는가?

주요 결과

  • SharpSepConv 및 sharpDARTS가 CIFAR-10 및 CIFAR-10.1에서 모바일 규모의 최첨단 결과를 달성하고 탐색 시간의 현저한 감소를 보여준다.
  • Cosine Power Annealing이 더 최적의 학습률을 유지하여 표준 Cosine Annealing에 비해 학습 dynamics를 개선한다.
  • Max-W 정규화가 고-그래디언트, 작은 프리미티브에 대한 편향을 감소시켜 더 크고 더 정확한 모델을 가능하게 한다.
  • Differentiable Hyperparameter Grid Search와 HyperCuboid 공간은 공간 간 DARTS의 일반화 격차를 드러낸다.
  • Handmade 및 Max-W-정규화된 접근 방식이 특정 설정에서 스칼라 DARTS를 능가할 수 있어 탐색 공간 및 최적화 편향을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.