QUICK REVIEW

[논문 리뷰] You Only Search Once: Single Shot Neural Architecture Search via Direct Sparse Optimization

Xinbang Zhang, Zehao Huang|arXiv (Cornell University)|2018. 11. 05.

Advanced Neural Network Applications참고 문헌 25인용 수 43

한 줄 요약

DSO-NAS는 NAS를 완전히 연결된 블록 DAG에서의 직접 희소 최적화로 재정의하고, 가중치와 희소 엣지 스케일링을 함께 학습하여 한 번에 아키텍처를 가지치기합니다. 검색 비용을 줄여 경쟁력 있는 결과를 달성하고, 대규모 데이터셋 적용 가능성을 확보합니다.

ABSTRACT

Recently Neural Architecture Search (NAS) has aroused great interest in both academia and industry, however it remains challenging because of its huge and non-continuous search space. Instead of applying evolutionary algorithm or reinforcement learning as previous works, this paper proposes a Direct Sparse Optimization NAS (DSO-NAS) method. In DSO-NAS, we provide a novel model pruning view to NAS problem. In specific, we start from a completely connected block, and then introduce scaling factors to scale the information flow between operations. Next, we impose sparse regularizations to prune useless connections in the architecture. Lastly, we derive an efficient and theoretically sound optimization method to solve it. Our method enjoys both advantages of differentiability and efficiency, therefore can be directly applied to large datasets like ImageNet. Particularly, On CIFAR-10 dataset, DSO-NAS achieves an average test error 2.84\%, while on the ImageNet dataset DSO-NAS achieves 25.4\% test error under 600M FLOPs with 8 GPUs in 18 hours.

연구 동기 및 목표

비용이 큰 컨트롤러나 예측기를 피하고 차별화 가능하며 단일 모델 검색 프레임워크를 제공하여 NAS를 민주화한다.
NAS 탐색 공간을 완전한 DAG로 표현하고 엣지 스케일링에 대한 희소 정규화를 통해 가지치기한다.
예산 하에서 가중치와 구조 매개변수를 함께 학습하기 위한 효율적인 최적화 방법을 개발하고 적용한다.

제안 방법

NAS를 각 엣지에 λ 확장 계수를 두고 완전한 DAG 블록에서 엣지를 가지치기로 표현한다(λ가 0인 엣지는 가지치기된다).
블록 검색을 h(i) = O(i)(sum_j λ(j→i) h(j))로 출력으로 구성한다; λ는 희소성을 유도하기 위해 희소 정규화(L1)로 학습된다.
가중치 W와 λ를 가속적 근접 그래디언트 방법(APG-NAG)으로 공동 최적화하고, 구조 과적합을 방지하기 위해 두 부분으로 학습한다( W와 λ에 대해 데이터를 분할).
예산 인식 정규화(Adaptive FLOPs 또는 Adaptive MAC)를 사용하여 FLOPs나 메모리/계산 제약 하에서 아키텍처를 조정한다.
검색 공간은 두 가지 모드를 포함한다: 블록 공유 λ와 블록 독립 λ(전체 검색).
마지막 아키텍처는 zero-λ 엣지와 고립된 연산을 가지치고, 그런 다음 처음부터 재학습된다.

실험 결과

연구 질문

RQ1컨트롤러나 예측기를 사용하지 않고 직접 완전히 연결된 아키텍처 공간을 가지치기로 NAS를 효과적으로 수행할 수 있는가?
RQ2미분 가능한 희소 최적화 형식이 ImageNet과 같은 대규모 데이터셋에서 확장 가능한 NAS를 가능하게 하는가?
RQ3예산 인식 정규화가 FLOPs 및 MAC 제약하에서 발견된 아키텍처에 어떤 영향을 미치는가?

주요 결과

CIFAR-10에서, DSO-NAS는 share 변형에 대해 평균 테스트 에러 2.84%(±0.07) 달성하고, 유사 매개변수 예산에서 경쟁력 있는 결과를 보인다.
ImageNet에서 DSO-NAS는 25.4% top-1/8.4% top-5를 4.8B? FLOPs와 유사한 매개변수 수로 달성하고, 작은 검색 비용으로 직접 ImageNet 검색을 가능하게 한다.
DSO-NAS는 여러 RL/진화/원샷 NAS 방법들이 보고한 4k–3k GPU-days에 비해 훨씬 적은 검색 비용(약 1 GPU일)을 필요로 한다.
적응형 예산 전략(A Adaptive FLOPs 및 Adaptive MAC)은 고정 FLOPs 또는 MAC 예산 하에서 블록 간 엣지 가지치기를 균형 있게 수행해 성능을 향상시킨다.
블록 공유 없이 블록 기반 검색(DSO-NAS-full)은 경쟁력 있는 성능을 보이고; 블록 공유(DSO-NAS-share)는 일반적으로 더 좋거나 비슷한 결과를 더 낮은 검색 복잡도로 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.