QUICK REVIEW

[논문 리뷰] DARTS: Differentiable Architecture Search

Hanxiao Liu, Karen Simonyan|arXiv (Cornell University)|2018. 06. 24.

Machine Learning in Bioinformatics인용 수 1,401

한 줄 요약

DARTS는 이산 탐색 공간을 연속 공간으로 완화하여 차별화 가능하고 그래디언트 기반의 방법으로 신경망 아키텍처를 탐색하는 접근을 도입한다. 이를 통해 합성곱 및 순환 네트워크 모두에 대해 효율적인 아키텍처 발견이 가능하다.

ABSTRACT

This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.

연구 동기 및 목표

비용이 많은 RL/진화 방법을 넘어 확장 가능한 아키텍처 탐색의 필요성을 제시한다.
아키텍처와 가중치를 함께 학습하기 위한 차별화 가능하고 bilevel 최적화 프레임워크를 제안한다.
그래디언트 기반 탐색이 CIFAR-10 및 PTB에서 훨씬 낮은 계산 비용으로 경쟁력 있거나 더 우수한 성능을 보임을 보여준다.
학습된 셀의 ImageNet 및 WikiText-2로의 전이 가능성을 보여준다.

제안 방법

아키텍처를 간선에 후보 연산이 할당된 방향 비순환 그래프(셀)로 표현한다.
아키텍처 매개변수 alpha로 매개되는 연산들 간의 가중된 소프트맥스 over operations로 이산 연산 선택을 연속적 이완으로 적용한다.
아키텍처 alpha에 대해 검증 손실을 최소화하는 bilevel 최적화를 형식화하고, alpha가 주어진 상태에서 train 손실에 대해 가중치 w를 학습한다.
하나 단계의 언롤링 최적화를 통한 근사 아키텍처 그래디언트를 사용한다: nabla_alpha L_val(w', alpha) with w' = w - xi nabla_w L_train(w, alpha).
아키텍처 그래디언트를 계산할 때 2차 비용을 줄이기 위해 유한 차 기반 근사를 계산한다.
노드당 상위 k개의 강한 연산만 남겨 최종 이산 아키텍처를 도출한다 (합성곱은 k=2, 순환은 k=1) 및 공정한 비교를 위해 0을 제외한다.

실험 결과

연구 질문

RQ1차별화 가능한 이완이 CNN과 RNN 두 도메인 모두에서 그래디언트 기반 신경망 아키텍처 검색을 가능하게 할까?
RQ2그래디언트 기반 아키텍처 탐색이 비차별화 NAS 방법과 견주거나 능가하면서 탐색 계산을 크게 감소시킬 수 있을까?
RQ3CIFAR-10/PTB에서 찾아낸 아키텍처가 ImageNet 및 WikiText-2 같은 더 큰 데이터세트로 전이될 수 있을까?

주요 결과

DARTS는 3.3M 매개변수를 사용하고 1.5 GPU days(또는 일부 설정에서 4 GPU days)로 검색하여 CIFAR-10 테스트 오차 2.76 ± 0.09%를 달성하며, 훨씬 더 많은 계산을 필요로 하는 최첨단 방법과 경쟁력 있다.
Penn Treebank에서 학습된 순환 셀은 55.7 테스트 perplexity를 달성하여 유사 제약 하에 광범위하게 튜닝된 LSTM 및 다른 NAS 방법들을 능가한다.
전이 실험은 CIFAR-10 학습 셀이 ImageNet(mobile 설정)으로의 전이가 가능하며 top-1 error 26.7%와 8.7M 매개변수를 가지며, PTB에서 파생된 순환 셀은 WikiText-2로 전이된다.
DARTS는 비슷한 자원에서 ENAS를 능가하고 PTB에서 최첨단 결과에 부합하거나 그 이상을 달성하며, RL/진화 기반 NAS 접근법에 비해 훨씬 적은 검색 비용이 필요하다.
본 논문은 평가된 아키텍처에 대해 약 1 GPU day에 이르는 네 번의 검색 실행으로 강력한 효율성을 강조하고, 무작위 탐색이 탐색 공간에서 경쟁력이 있지만 DARTS가 상당한 이점을 제공한다고 언급한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.