[논문 리뷰] Efficient Neural Architecture Search via Parameter Sharing
ENAS는 자식 모델 간 가중치를 공유하여 신경망 아키텍처 검색 NAS를 가속화하고, 1000배 이상 더 적은 GPU 시간으로 경쟁력 있는 결과를 달성합니다; Penn Treebank에서 55.8 perplexity를, CIFAR-10에서 2.89%의 테스트 에러를 달성합니다.
We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational graph. The controller is trained with policy gradient to select a subgraph that maximizes the expected reward on the validation set. Meanwhile the model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Thanks to parameter sharing between child models, ENAS is fast: it delivers strong empirical performances using much fewer GPU-hours than all existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On the Penn Treebank dataset, ENAS discovers a novel architecture that achieves a test perplexity of 55.8, establishing a new state-of-the-art among all methods without post-training processing. On the CIFAR-10 dataset, ENAS designs novel architectures that achieve a test error of 2.89%, which is on par with NASNet (Zoph et al., 2018), whose test error is 2.65%.
연구 동기 및 목표
- 신경망 아키텍처 검색(NAS)의 계산 비용을 낮추되 성능은 유지하는 것을 목표로 한다.
- 모든 후보 아키텍처가 가중치를 공유하는 프레임워크를 제시하여 더 큰 DAG 내에서 서브그래프 기반의 탐색을 가능하게 한다.
- 공유 가중치가 학습되는 동안 서브 아키텍처를 선택하도록 학습하는 컨트롤러를 강화 학습으로 개발한다.
- 가치 있는 ENAS의 효과를 언어(Penn Treebank)와 이미지(CIFAR-10) 도메인에서 입증한다.
제안 방법
- NAS 탐색 공간을 단일 큰 계산 DAG의 서브그래프로 표현한다.
- 검증 보상을 최대화하도록 서브그래프를 샘플링하는 컨트롤러 RNN(정책 경사)을 학습한다.
- 다 retrain 없이 모든 자식 아키텍처 간에 매개변수를 공유한다.
- 교대 학습: 자식 모델의 공유 가중치 ω와 아키텍처 샘플링을 위한 컨트롤러 매개변수 θ를 번갈아 최적화한다.
- 학습된 컨트롤러에서 샘플링하고 최적 후보를 처음부터 재훈련하여 최종 아키텍처를 도출한다.
- 루프(장기 시간) 검색 공간을 재귀적으로 다루는 대신, 재귀적(매크로: 전체 네트워크) 및 마이크로(셀) 검색을 포함하여 순환 셀과 합성곱 네트워크에 대해 별도의 검색 공간을 적용한다.
실험 결과
연구 질문
- RQ1파라미터 공유가 성능을 희생하지 않으면서 NAS의 실용적 효율성 향상을 가능하게 하는가?
- RQ2ENAS는 언어 및 시각 작업에서 전통적인 NAS 및 무작위 탐색과 비교하여 정확도와 탐색 비용 측면에서 어떤 차이가 있는가?
- RQ3다른 검색 공간(순환 셀, 합성곱 네트워크, 합성곱 셀)이 ENAS 성능에 어떤 영향을 미치는가?
- RQ4가중치 공유 하에서 좋은 아키텍처를 산출하는 실용적 학습 체계와 보상 설계는 무엇인가?
주요 결과
| Table/Result | Details | Params (million) | Test Perplexity or Error |
|---|---|---|---|
| ENAS (recurrent cells) | Test on Penn Treebank | 24 | 55.8 |
| NAS (Zoph & Le 2017) | Test on Penn Treebank (baseline for comparison) | 54 | 62.4 |
| ENAS macro (full networks) | CIFAR-10 test error with macro search | 21.3 | 4.23 |
| ENAS macro (more channels) | CIFAR-10 test error with macro search and more channels | 38.0 | 3.87 |
| ENAS micro (cells) | CIFAR-10 test error with micro search | 4.6 | 3.54 |
| ENAS micro (cells) + CutOut | CIFAR-10 test error with micro search and CutOut | 4.6 | 2.89 |
- ENAS는 단일 GTX 1080Ti에서 GPU 시간이 16시간 미만으로도 경쟁력 있는 아키텍처를 발견하며 NAS에 비해 1000배 이상의 속도 향상을 달성한다.
- Penn Treebank에서 ENAS는 테스트 perplexity 55.8을 달성하여 NAS(62.4)를 능가하고 비처리 후처리 모델들 가운데 새로운 최첨단 성능에 도달한다.
- CIFAR-10에서 ENAS는 매크로 공간에서 테스트 에러 4.23%, 마이크로 공간에서 3.54%를 얻고 CutOut을 사용하면 2.89%에 도달해 NASNet-A 성능에 근접한다.
- 과업 전반에서 ENAS는 무작위 탐색과 비학습 컨트롤러 기반 기법을 능가하며 학습된 컨트롤러의 중요성을 강조한다.
- 가장 우수한 ENAS 모델은 스킵 연결과 다양한 운용 선택이 아키텍처 탐색에 이득을 주며, 발견된 셀에서 국소 최저점 경향이 관찰된다.
- ENAS의 가중치 공유 방식은 각 후보를 처음부터 학습시키는 막대한 비용을 피하게 해 확장 가능한 아키텍처 탐색을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.