[논문 리뷰] Efficient Architecture Search by Network Transformation
본 논문은 Efficient Architecture Search (EAS)를 소개하며, 이는 강화학습 메타 컨트롤러가 이끄는 기능 보존 네트워크 변환을 사용하여 가중치를 재사용하고 CNN 아키텍처를 효율적으로 탐색한다.
Techniques for automatically designing deep neural network architectures such as reinforcement learning based approaches have recently shown promising results. However, their success is based on vast computational resources (e.g. hundreds of GPUs), making them difficult to be widely used. A noticeable limitation is that they still design and train each network from scratch during the exploration of the architecture space, which is highly inefficient. In this paper, we propose a new framework toward efficient architecture search by exploring the architecture space based on the current network and reusing its weights. We employ a reinforcement learning agent as the meta-controller, whose action is to grow the network depth or layer width with function-preserving transformations. As such, the previously validated networks can be reused for further exploration, thus saves a large amount of computational cost. We apply our method to explore the architecture space of the plain convolutional neural networks (no skip-connections, branching etc.) on image benchmark datasets (CIFAR-10, SVHN) with restricted computational resources (5 GPUs). Our method can design highly competitive networks that outperform existing networks using the same design scheme. On CIFAR-10, our model without skip-connections achieves 4.23\% test error rate, exceeding a vast majority of modern architectures and approaching DenseNet. Furthermore, by applying our method to explore the DenseNet architecture space, we are able to achieve more accurate networks with fewer parameters.
연구 동기 및 목표
- 학습된 네트워크를 재사용하여 자동 아키텍처 설계의 계산 비용을 줄이는 것을 목표로 한다.
- 네트워크를 확장하거나 너비를 늘리기 위해 기능 보존 변환을 적용하는 프레임워크(EAS)를 제안한다.
- 유용한 변환 동작을 결정하기 위해 강화 학습 에이전트를 활용한다.
- 제한된 GPU에서 CIFAR-10 및 SVHN에 대한 효율성과 경쟁력을 시연한다.
제안 방법
- 상태가 현재 네트워크이고 행동이 네트워크 변환 연산인 순차적 의사결정 프로세스로 아키텍처 탐색을 모델링한다.
- Net2WiderNet과 Net2DeeperNet을 기능 보존 변환의 주된 수단으로 사용하여 기능을 보존하면서 층을 확장하거나 삽입한다.
- 다중 입력 경로에 변환을 적응시켜 DenseNet에 Net2Net 연산을 확장한다.
- 현재 아키텍처를 표현하기 위해 양방향 LSTM 인코더를 사용하고, 변환 동작을 제안하기 위해 여러 개의 액터 네트워크를 활용한다.
- 변형된 정확도 보상과 분산 감소를 위한 이동 기준선을 사용해 REINFORCE로 RL 메타 컨트롤러를 학습시킨다.
- 제한된 자원(5 GPUs) 하에서 CIFAR-10 및 SVHN에서 일반 CNN 공간과 DenseNet 공간으로 실험한다.
실험 결과
연구 질문
- RQ1함수 보존 변환이 처음부터 재학습 없이도 아키텍처 공간을 효율적으로 탐색할 수 있는가?
- RQ2RL 기반 메타 컨트롤러가 검증 성능을 향상시키기 위해 층을 확장하거나 삽입하는 것을 얼마나 잘 학습할 수 있는가?
- RQ3제한된 자원 하에서 일반 CNN과 DenseNet 계열 아키텍처 간의 변환이 일반화되는가?
- RQ4기준 아키텍처 및 이전 자동 설계 방법과 비교했을 때 CIFAR-10과 SVHN에서의 성능 향상은 무엇인가?
주요 결과
- 5 GPUs를 이용한 EAS는 보강(augmentation)을 적용한 CIFAR-10에서 4.23% 테스트 오차를 달성하는 경쟁력 있는 일반 CNN을 발견한다.
- DenseNet 공간에서 CIFAR-10에 대해 4.66%의 테스트 오차, CIFAR-10+에 대해 3.44%의 테스트 오차를 달성하며 일부 기준선보다 파라미터 수가 적다.
- RL 기반 메타 컨트롤러가 무작위 탐색보다 고성능 아키텍처를 찾는 데 우수하다.
- SVHN에서 EAS의 top 일반 CNN은 학습 후 1.73%의 테스트 오차에 도달하여 같은 공간의 많은 자동 설계 모델들을 능가한다.
- EAS는 가중치를 재사용하고 이전의 대규모 NAS 방식들보다 훨씬 적은 GPU를 필요로 함으로써 계산 부담을 줄인다.
- EAS를 통한 DenseNet 탐색은 10.7M 파라미터에서 CIFAR-10+ 3.44%를 달성하여 여러 DenseNet 변종을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.