QUICK REVIEW

[논문 리뷰] Efficient Neural Architecture Search via Parameter Sharing

Hieu Pham, Melody Y. Guan|arXiv (Cornell University)|2018. 02. 09.

Advanced Neural Network Applications참고 문헌 26인용 수 630

한 줄 요약

ENAS는 자식 모델 간 가중치를 공유하여 신경망 아키텍처 검색 NAS를 가속화하고, 1000배 이상 더 적은 GPU 시간으로 경쟁력 있는 결과를 달성합니다; Penn Treebank에서 55.8 perplexity를, CIFAR-10에서 2.89%의 테스트 에러를 달성합니다.

ABSTRACT

We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational graph. The controller is trained with policy gradient to select a subgraph that maximizes the expected reward on the validation set. Meanwhile the model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Thanks to parameter sharing between child models, ENAS is fast: it delivers strong empirical performances using much fewer GPU-hours than all existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On the Penn Treebank dataset, ENAS discovers a novel architecture that achieves a test perplexity of 55.8, establishing a new state-of-the-art among all methods without post-training processing. On the CIFAR-10 dataset, ENAS designs novel architectures that achieve a test error of 2.89%, which is on par with NASNet (Zoph et al., 2018), whose test error is 2.65%.

연구 동기 및 목표

신경망 아키텍처 검색(NAS)의 계산 비용을 낮추되 성능은 유지하는 것을 목표로 한다.
모든 후보 아키텍처가 가중치를 공유하는 프레임워크를 제시하여 더 큰 DAG 내에서 서브그래프 기반의 탐색을 가능하게 한다.
공유 가중치가 학습되는 동안 서브 아키텍처를 선택하도록 학습하는 컨트롤러를 강화 학습으로 개발한다.
가치 있는 ENAS의 효과를 언어(Penn Treebank)와 이미지(CIFAR-10) 도메인에서 입증한다.

제안 방법

NAS 탐색 공간을 단일 큰 계산 DAG의 서브그래프로 표현한다.
검증 보상을 최대화하도록 서브그래프를 샘플링하는 컨트롤러 RNN(정책 경사)을 학습한다.
다 retrain 없이 모든 자식 아키텍처 간에 매개변수를 공유한다.
교대 학습: 자식 모델의 공유 가중치 ω와 아키텍처 샘플링을 위한 컨트롤러 매개변수 θ를 번갈아 최적화한다.
학습된 컨트롤러에서 샘플링하고 최적 후보를 처음부터 재훈련하여 최종 아키텍처를 도출한다.
루프(장기 시간) 검색 공간을 재귀적으로 다루는 대신, 재귀적(매크로: 전체 네트워크) 및 마이크로(셀) 검색을 포함하여 순환 셀과 합성곱 네트워크에 대해 별도의 검색 공간을 적용한다.

실험 결과

연구 질문

RQ1파라미터 공유가 성능을 희생하지 않으면서 NAS의 실용적 효율성 향상을 가능하게 하는가?
RQ2ENAS는 언어 및 시각 작업에서 전통적인 NAS 및 무작위 탐색과 비교하여 정확도와 탐색 비용 측면에서 어떤 차이가 있는가?
RQ3다른 검색 공간(순환 셀, 합성곱 네트워크, 합성곱 셀)이 ENAS 성능에 어떤 영향을 미치는가?
RQ4가중치 공유 하에서 좋은 아키텍처를 산출하는 실용적 학습 체계와 보상 설계는 무엇인가?

주요 결과

Table/Result	Details	Params (million)	Test Perplexity or Error
ENAS (recurrent cells)	Test on Penn Treebank	24	55.8
NAS (Zoph & Le 2017)	Test on Penn Treebank (baseline for comparison)	54	62.4
ENAS macro (full networks)	CIFAR-10 test error with macro search	21.3	4.23
ENAS macro (more channels)	CIFAR-10 test error with macro search and more channels	38.0	3.87
ENAS micro (cells)	CIFAR-10 test error with micro search	4.6	3.54
ENAS micro (cells) + CutOut	CIFAR-10 test error with micro search and CutOut	4.6	2.89

ENAS는 단일 GTX 1080Ti에서 GPU 시간이 16시간 미만으로도 경쟁력 있는 아키텍처를 발견하며 NAS에 비해 1000배 이상의 속도 향상을 달성한다.
Penn Treebank에서 ENAS는 테스트 perplexity 55.8을 달성하여 NAS(62.4)를 능가하고 비처리 후처리 모델들 가운데 새로운 최첨단 성능에 도달한다.
CIFAR-10에서 ENAS는 매크로 공간에서 테스트 에러 4.23%, 마이크로 공간에서 3.54%를 얻고 CutOut을 사용하면 2.89%에 도달해 NASNet-A 성능에 근접한다.
과업 전반에서 ENAS는 무작위 탐색과 비학습 컨트롤러 기반 기법을 능가하며 학습된 컨트롤러의 중요성을 강조한다.
가장 우수한 ENAS 모델은 스킵 연결과 다양한 운용 선택이 아키텍처 탐색에 이득을 주며, 발견된 셀에서 국소 최저점 경향이 관찰된다.
ENAS의 가중치 공유 방식은 각 후보를 처음부터 학습시키는 막대한 비용을 피하게 해 확장 가능한 아키텍처 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.