QUICK REVIEW

[논문 리뷰] SNAS: Stochastic Neural Architecture Search

Sirui Xie, Hehui Zheng|arXiv (Cornell University)|2018. 12. 24.

Advanced Neural Network Applications참고 문헌 36인용 수 285

한 줄 요약

SNAS는 이산적 선택을 구체 분포로 완화하여 연속적으로 매개변수를 학습하고 아키텍처 분포 매개변수를 동시에 학습하는 differentiable, 엔드-투-엔드 신경망 아키텍처 검색 프레임워크를 도입하여 CIFAR-10에서 경쟁력 있는 결과를 달성하고 ImageNet으로의 전이를 계산 비용을 줄여 달성합니다.

ABSTRACT

We propose Stochastic Neural Architecture Search (SNAS), an economical end-to-end solution to Neural Architecture Search (NAS) that trains neural operation parameters and architecture distribution parameters in same round of back-propagation, while maintaining the completeness and differentiability of the NAS pipeline. In this work, NAS is reformulated as an optimization problem on parameters of a joint distribution for the search space in a cell. To leverage the gradient information in generic differentiable loss for architecture search, a novel search gradient is proposed. We prove that this search gradient optimizes the same objective as reinforcement-learning-based NAS, but assigns credits to structural decisions more efficiently. This credit assignment is further augmented with locally decomposable reward to enforce a resource-efficient constraint. In experiments on CIFAR-10, SNAS takes less epochs to find a cell architecture with state-of-the-art accuracy than non-differentiable evolution-based and reinforcement-learning-based NAS, which is also transferable to ImageNet. It is also shown that child networks of SNAS can maintain the validation accuracy in searching, with which attention-based NAS requires parameter retraining to compete, exhibiting potentials to stride towards efficient NAS on big datasets. We have released our implementation at https://github.com/SNAS-Series/SNAS-Series.

연구 동기 및 목표

RL 기반 NAS에서의 지연 보상 크레딧 할당을 피하는 효율적인 NAS 프레임워크를 모티브로 삼는다.
NAS를 셀 수준 아키텍처의 결합 분포를 학습하는 것으로 재정의한다.
연산 매개변수와 아키텍처 매개변수 모두에 대해 차별적 그래디언트 기반 업데이트를 가능하게 한다.
전역 자원 제약을 도입하여 하드웨어 인식, 컴팩트한 아키텍처를 촉진한다.

제안 방법

셀의 NAS 탐색 공간을 DAG로 표현하고 각 에지에 대해 원-핫 아키텍처 결정과 완전히 인자화된 결합 분포 p(Z)를 사용한다.
구체 분포를 사용하여 이산 아키텍처 선택을 완화하고 재매개변수화 가능한 그래디언트(Gumbel 기반 재매개변수화)를 가능하게 한다.
손실 L_theta(Z)에서 차별적 보상을 주는 정책-그래디언트 유사한 크레딧 할당에 해당하는 탐색 그래디언트를 도출한다.
기대치에서 RL 기반 NAS 목표와 동등성을 보이고, 크레딧 할당이 더 효율적이며 지연된 보상이 없음을 보여준다.
에지별로 분해되는 전역 자원 제약으로 목적함수를 보강하여 더 작고 빠른 아키텍처를 권장한다.
선택적으로 자원 비용 항 C(Z)를 포함하고 p_alpha(Z) 하에서의 기대치를 타당한 근사치를 통해 계산하는 방법을 보인다.

실험 결과

연구 질문

RQ1차별적이고 확률적인 NAS 프레임워크가-training 시간은 줄이고 지연된 보상을 피하면서 RL/진화 기반 NAS를 대등하거나 능가할 수 있는가?
RQ2아키텍처 샘플링을 그래디언트 기반 최적화와 정렬하는 것이 DARTS 및 ENAS에 비해 크레딧 할당과 최종 성능을 개선하는가?
RQ3글로벌 자원 제약이 모델 크기와 FLOPs를 저하시키면서 정확도를 손상시키지 않을 정도로 얼마나 가능하며, 이는 확장 가능한 최적화를 위해 분해 가능한가?
RQ4학습된 셀이 더 큰 데이터셋(ImageNet 등)으로도 전달 가능하며 경쟁력 있는 정확도와 효율성을 유지하는가?

주요 결과

SNAS는 mild 제약 하에서 CIFAR-10에서 2.85% 테스트 오차와 2.8M 매개변수를 달성하여 1st-order DARTS 및 ENAS를 능가하고 2nd-order DARTS와 매개변수가 더 적은 채로 일치한다.
SNAS의 탐색 과정은 탐색 중에 더 높은 검증 정확도를 유지하고 DARTS보다 더 안정적이고 편향이 적은 아키텍처를 산출하며, 실험에서 88%의 탐색 검증 정확도를 관찰한다.
SNAS로 생성된 셀은 ImageNet(mobile 설정)으로 전달되어 27.3% 상위-1 에러를 보이며 RL 기반 NAS에 비해 경쟁력 있는 성능을 보이면서도 계산은 크게 감소한다(세 자리 수의 감소).
CIFAR-10 실험 전반에 걸쳐 mild/moderate/aggressive 자원 제약 하에서 다양한 점차 희소한 셀 구조를 발견하며 정확도, 매개변수 수, 탐색 비용 간의 제어 가능한 트레이드오프를 보여준다.
SNAS는 파생된 자식 네트워크에 대해 재학습 없이도 높은 검증 정확도를 유지하는 반면, DARTS는 탐색과 파생 네트워크 간에 상당한 격차가 나타날 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.