[논문 리뷰] SNAS: Stochastic Neural Architecture Search
SNAS는 이산적 선택을 구체 분포로 완화하여 연속적으로 매개변수를 학습하고 아키텍처 분포 매개변수를 동시에 학습하는 differentiable, 엔드-투-엔드 신경망 아키텍처 검색 프레임워크를 도입하여 CIFAR-10에서 경쟁력 있는 결과를 달성하고 ImageNet으로의 전이를 계산 비용을 줄여 달성합니다.
We propose Stochastic Neural Architecture Search (SNAS), an economical end-to-end solution to Neural Architecture Search (NAS) that trains neural operation parameters and architecture distribution parameters in same round of back-propagation, while maintaining the completeness and differentiability of the NAS pipeline. In this work, NAS is reformulated as an optimization problem on parameters of a joint distribution for the search space in a cell. To leverage the gradient information in generic differentiable loss for architecture search, a novel search gradient is proposed. We prove that this search gradient optimizes the same objective as reinforcement-learning-based NAS, but assigns credits to structural decisions more efficiently. This credit assignment is further augmented with locally decomposable reward to enforce a resource-efficient constraint. In experiments on CIFAR-10, SNAS takes less epochs to find a cell architecture with state-of-the-art accuracy than non-differentiable evolution-based and reinforcement-learning-based NAS, which is also transferable to ImageNet. It is also shown that child networks of SNAS can maintain the validation accuracy in searching, with which attention-based NAS requires parameter retraining to compete, exhibiting potentials to stride towards efficient NAS on big datasets. We have released our implementation at https://github.com/SNAS-Series/SNAS-Series.
연구 동기 및 목표
- RL 기반 NAS에서의 지연 보상 크레딧 할당을 피하는 효율적인 NAS 프레임워크를 모티브로 삼는다.
- NAS를 셀 수준 아키텍처의 결합 분포를 학습하는 것으로 재정의한다.
- 연산 매개변수와 아키텍처 매개변수 모두에 대해 차별적 그래디언트 기반 업데이트를 가능하게 한다.
- 전역 자원 제약을 도입하여 하드웨어 인식, 컴팩트한 아키텍처를 촉진한다.
제안 방법
- 셀의 NAS 탐색 공간을 DAG로 표현하고 각 에지에 대해 원-핫 아키텍처 결정과 완전히 인자화된 결합 분포 p(Z)를 사용한다.
- 구체 분포를 사용하여 이산 아키텍처 선택을 완화하고 재매개변수화 가능한 그래디언트(Gumbel 기반 재매개변수화)를 가능하게 한다.
- 손실 L_theta(Z)에서 차별적 보상을 주는 정책-그래디언트 유사한 크레딧 할당에 해당하는 탐색 그래디언트를 도출한다.
- 기대치에서 RL 기반 NAS 목표와 동등성을 보이고, 크레딧 할당이 더 효율적이며 지연된 보상이 없음을 보여준다.
- 에지별로 분해되는 전역 자원 제약으로 목적함수를 보강하여 더 작고 빠른 아키텍처를 권장한다.
- 선택적으로 자원 비용 항 C(Z)를 포함하고 p_alpha(Z) 하에서의 기대치를 타당한 근사치를 통해 계산하는 방법을 보인다.
실험 결과
연구 질문
- RQ1차별적이고 확률적인 NAS 프레임워크가-training 시간은 줄이고 지연된 보상을 피하면서 RL/진화 기반 NAS를 대등하거나 능가할 수 있는가?
- RQ2아키텍처 샘플링을 그래디언트 기반 최적화와 정렬하는 것이 DARTS 및 ENAS에 비해 크레딧 할당과 최종 성능을 개선하는가?
- RQ3글로벌 자원 제약이 모델 크기와 FLOPs를 저하시키면서 정확도를 손상시키지 않을 정도로 얼마나 가능하며, 이는 확장 가능한 최적화를 위해 분해 가능한가?
- RQ4학습된 셀이 더 큰 데이터셋(ImageNet 등)으로도 전달 가능하며 경쟁력 있는 정확도와 효율성을 유지하는가?
주요 결과
- SNAS는 mild 제약 하에서 CIFAR-10에서 2.85% 테스트 오차와 2.8M 매개변수를 달성하여 1st-order DARTS 및 ENAS를 능가하고 2nd-order DARTS와 매개변수가 더 적은 채로 일치한다.
- SNAS의 탐색 과정은 탐색 중에 더 높은 검증 정확도를 유지하고 DARTS보다 더 안정적이고 편향이 적은 아키텍처를 산출하며, 실험에서 88%의 탐색 검증 정확도를 관찰한다.
- SNAS로 생성된 셀은 ImageNet(mobile 설정)으로 전달되어 27.3% 상위-1 에러를 보이며 RL 기반 NAS에 비해 경쟁력 있는 성능을 보이면서도 계산은 크게 감소한다(세 자리 수의 감소).
- CIFAR-10 실험 전반에 걸쳐 mild/moderate/aggressive 자원 제약 하에서 다양한 점차 희소한 셀 구조를 발견하며 정확도, 매개변수 수, 탐색 비용 간의 제어 가능한 트레이드오프를 보여준다.
- SNAS는 파생된 자식 네트워크에 대해 재학습 없이도 높은 검증 정확도를 유지하는 반면, DARTS는 탐색과 파생 네트워크 간에 상당한 격차가 나타날 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.