QUICK REVIEW

[논문 리뷰] Simple And Efficient Architecture Search for Convolutional Neural Networks

Thomas Elsken, Jan-Hendrik Metzen|arXiv (Cornell University)|2017. 11. 13.

Advanced Neural Network Applications참고 문헌 14인용 수 185

한 줄 요약

이 논문은 네트워크 모핑을 사용한 간단한 하이힐 클라이밍 기반 신경망 아키텍처 검색(NASH)을 도입하여 CNN을 저렴하게 생성·평가하고, 단일 네트워크를 학습하는 데 필요한 CPU/자원 사용량과 유사한 비용으로 CIFAR-10/100에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

Neural networks have recently had a lot of success for many tasks. However, neural network architectures that perform well are still typically designed manually by experts in a cumbersome trial-and-error process. We propose a new method to automatically search for well-performing CNN architectures based on a simple hill climbing procedure whose operators apply network morphisms, followed by short optimization runs by cosine annealing. Surprisingly, this simple method yields competitive results, despite only requiring resources in the same order of magnitude as training a single network. E.g., on CIFAR-10, our method designs and trains networks with an error rate below 6% in only 12 hours on a single GPU; training for one day reduces this error further, to almost 5%.

연구 동기 및 목표

CNN 아키텍처 설계를 자동화하여 수동으로 시도-오류의 노력을 줄인다.
계산 비용이 낮은 경량 검색 전략을 개발한다.
전체 재학습 없이 네트워크 모핑으로 아키텍처를 초기화하고 확장한다.

제안 방법

네트워크 모핑을 형식화하여 기능이 보존된 채로 아키텍처 변환을 가능하게 한다.
현재 모델에 무작위 모핑을 반복적으로 적용하고 짧은 실행 자손들을 학습시키는 하이클리밍 탐색(NASH)을 사용한다.
짧은 SGDR 실행으로 새로운 후보를 학습하고 검증 세트에서 최적의 것을 선택한다.
내부 루프 학습을 효율적으로 하기 위해 재시작이 있는 코사인 소멈(cosine annealing)을 사용한다.
필요에 따라 여러 반복에서 스냅샷을 앙상블하여 성능을 높인다.

Figure 1: Visualization of our method. Based on the current best model, new models are generated and trained afterwards. The best model is than updated.

실험 결과

연구 질문

RQ1간단한 네트워크 모핑이 단일 네트워크의 학습 비용에 근접하게 유지되면서 CNN 탐색 공간을 효과적으로 탐색할 수 있는가?
RQ2모핑을 활용한 하이클리밍이 수작업으로 설계된 아키텍처나 다른 자동화 방법과 비교하여 경쟁력 있는 구조를 낳는가?
RQ3이 접근법은 계산 자원에 비례하여 CIFAR-10 및 CIFAR-100에서 어떻게 확장되는가?

주요 결과

모델	소요 자원	# 매개변수 (million)	오류 (%)
Shake-Shake (Gastaldi, 2017)	2 days, 2 GPUs	26	2.9
WRN 28-10 (Loshchilov & Hutter, 2017)	1 day, 1 GPU	36.5	3.86
Baker et al. (2016)	8-10 days, 10 GPUs	11	6.9
Cai et al. (2017)	3 days, 5 GPUs	19.7	5.7
Zoph & Le (2017)	800 GPUs, ? days	37.5	3.65
Real et al. (2017)	250 GPUs, ? days	5.4	5.4
Saxena & Verbeek (2016)	?	21	7.4
Brock et al. (2017)	3 days, 1 GPU	16.0	4.0
Ours (random networks, n_steps=5, n_neigh=1)	4.5 hours	4.4	6.5
Ours (n_steps=5, n_neigh=8)	0.5 days, 1 GPU	5.7	5.7
Ours (n_steps=8, n_neigh=8)	1 day, 1 GPU	19.7	5.2
Ours (snapshot ensemble)	2 days, 1 GPU	57.8	4.7
Ours (ensemble across runs)	1 day, 4 GPUs	88	4.4

NASH는 단일 네트워크를 학습하는 비용에 비슷한 비용으로 경쟁력 있는 CNN을 찾고 학습한다.
CIFAR-10에서 NASH는 약 12시간 안에 한 GPU에서 6% 이하의 오차를 달성하고 하루가 지난 뒤에는 약 5%에 근접한다.
CIFAR-100에서 이 방법은 하루에 24% 이하의 오차를 달성하고 이틀이 지난 뒤에는 약 20%에 근접한다.
스냅샷 앙상블과 크로스-런 앙상블은 결과를 더 개선하며 때로는 몇 개의 베이스라인보다 나은 성능을 보인다.
발견된 아키텍처를 처음부터 재학습시키는 것은 비슷한 최종 성능을 보여 주며, 모핑을 통한 가중치 상속이 최종 결과를 해치지 않는다는 것을 시사한다.

Figure 2: The best model found by Algorithm 1 tracked over time. With and without using SGDR for the training within the hill climbing (line 17). Final training (line 24) is not plotted. Red vertical lines highlight the times where network morphisms are applied (line 19).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.