Skip to main content
QUICK REVIEW

[논문 리뷰] Efficient Neural Architecture Search via Parameter Sharing

Hieu Pham, Melody Y. Guan|arXiv (Cornell University)|2018. 02. 09.
Advanced Neural Network Applications참고 문헌 26인용 수 630
한 줄 요약

ENAS는 자식 모델 간 가중치를 공유하여 신경망 아키텍처 검색 NAS를 가속화하고, 1000배 이상 더 적은 GPU 시간으로 경쟁력 있는 결과를 달성합니다; Penn Treebank에서 55.8 perplexity를, CIFAR-10에서 2.89%의 테스트 에러를 달성합니다.

ABSTRACT

We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational graph. The controller is trained with policy gradient to select a subgraph that maximizes the expected reward on the validation set. Meanwhile the model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Thanks to parameter sharing between child models, ENAS is fast: it delivers strong empirical performances using much fewer GPU-hours than all existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On the Penn Treebank dataset, ENAS discovers a novel architecture that achieves a test perplexity of 55.8, establishing a new state-of-the-art among all methods without post-training processing. On the CIFAR-10 dataset, ENAS designs novel architectures that achieve a test error of 2.89%, which is on par with NASNet (Zoph et al., 2018), whose test error is 2.65%.

연구 동기 및 목표

  • 신경망 아키텍처 검색(NAS)의 계산 비용을 낮추되 성능은 유지하는 것을 목표로 한다.
  • 모든 후보 아키텍처가 가중치를 공유하는 프레임워크를 제시하여 더 큰 DAG 내에서 서브그래프 기반의 탐색을 가능하게 한다.
  • 공유 가중치가 학습되는 동안 서브 아키텍처를 선택하도록 학습하는 컨트롤러를 강화 학습으로 개발한다.
  • 가치 있는 ENAS의 효과를 언어(Penn Treebank)와 이미지(CIFAR-10) 도메인에서 입증한다.

제안 방법

  • NAS 탐색 공간을 단일 큰 계산 DAG의 서브그래프로 표현한다.
  • 검증 보상을 최대화하도록 서브그래프를 샘플링하는 컨트롤러 RNN(정책 경사)을 학습한다.
  • 다 retrain 없이 모든 자식 아키텍처 간에 매개변수를 공유한다.
  • 교대 학습: 자식 모델의 공유 가중치 ω와 아키텍처 샘플링을 위한 컨트롤러 매개변수 θ를 번갈아 최적화한다.
  • 학습된 컨트롤러에서 샘플링하고 최적 후보를 처음부터 재훈련하여 최종 아키텍처를 도출한다.
  • 루프(장기 시간) 검색 공간을 재귀적으로 다루는 대신, 재귀적(매크로: 전체 네트워크) 및 마이크로(셀) 검색을 포함하여 순환 셀과 합성곱 네트워크에 대해 별도의 검색 공간을 적용한다.

실험 결과

연구 질문

  • RQ1파라미터 공유가 성능을 희생하지 않으면서 NAS의 실용적 효율성 향상을 가능하게 하는가?
  • RQ2ENAS는 언어 및 시각 작업에서 전통적인 NAS 및 무작위 탐색과 비교하여 정확도와 탐색 비용 측면에서 어떤 차이가 있는가?
  • RQ3다른 검색 공간(순환 셀, 합성곱 네트워크, 합성곱 셀)이 ENAS 성능에 어떤 영향을 미치는가?
  • RQ4가중치 공유 하에서 좋은 아키텍처를 산출하는 실용적 학습 체계와 보상 설계는 무엇인가?

주요 결과

Table/ResultDetailsParams (million)Test Perplexity or Error
ENAS (recurrent cells)Test on Penn Treebank2455.8
NAS (Zoph & Le 2017)Test on Penn Treebank (baseline for comparison)5462.4
ENAS macro (full networks)CIFAR-10 test error with macro search21.34.23
ENAS macro (more channels)CIFAR-10 test error with macro search and more channels38.03.87
ENAS micro (cells)CIFAR-10 test error with micro search4.63.54
ENAS micro (cells) + CutOutCIFAR-10 test error with micro search and CutOut4.62.89
  • ENAS는 단일 GTX 1080Ti에서 GPU 시간이 16시간 미만으로도 경쟁력 있는 아키텍처를 발견하며 NAS에 비해 1000배 이상의 속도 향상을 달성한다.
  • Penn Treebank에서 ENAS는 테스트 perplexity 55.8을 달성하여 NAS(62.4)를 능가하고 비처리 후처리 모델들 가운데 새로운 최첨단 성능에 도달한다.
  • CIFAR-10에서 ENAS는 매크로 공간에서 테스트 에러 4.23%, 마이크로 공간에서 3.54%를 얻고 CutOut을 사용하면 2.89%에 도달해 NASNet-A 성능에 근접한다.
  • 과업 전반에서 ENAS는 무작위 탐색과 비학습 컨트롤러 기반 기법을 능가하며 학습된 컨트롤러의 중요성을 강조한다.
  • 가장 우수한 ENAS 모델은 스킵 연결과 다양한 운용 선택이 아키텍처 탐색에 이득을 주며, 발견된 셀에서 국소 최저점 경향이 관찰된다.
  • ENAS의 가중치 공유 방식은 각 후보를 처음부터 학습시키는 막대한 비용을 피하게 해 확장 가능한 아키텍처 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.