QUICK REVIEW

[논문 리뷰] BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models

Jiahui Yu, Pengchong Jin|arXiv (Cornell University)|2020. 03. 24.

Advanced Neural Network Applications참고 문헌 43인용 수 38

한 줄 요약

BigNAS는 하나의 대형 단일 단계 모델을 직접 학습시켜 200 MFLOPs에서 1 GFLOP 사이의 질 높은 자식 아키텍처를 재훈련이나 후처리 없이 산출하며, 이 범위에서 최첨단을 능가합니다.

ABSTRACT

Neural architecture search (NAS) has shown promising results discovering models that are both accurate and fast. For NAS, training a one-shot model has become a popular strategy to rank the relative quality of different architectures (child models) using a single set of shared weights. However, while one-shot model weights can effectively rank different network architectures, the absolute accuracies from these shared weights are typically far below those obtained from stand-alone training. To compensate, existing methods assume that the weights must be retrained, finetuned, or otherwise post-processed after the search is completed. These steps significantly increase the compute requirements and complexity of the architecture search and model deployment. In this work, we propose BigNAS, an approach that challenges the conventional wisdom that post-processing of the weights is necessary to get good prediction accuracies. Without extra retraining or post-processing steps, we are able to train a single set of shared weights on ImageNet and use these weights to obtain child models whose sizes range from 200 to 1000 MFLOPs. Our discovered model family, BigNASModels, achieve top-1 accuracies ranging from 76.5% to 80.9%, surpassing state-of-the-art models in this range including EfficientNets and Once-for-All networks without extra retraining or post-processing. We present ablative study and analysis to further understand the proposed BigNASModels.

연구 동기 및 목표

자식 모델의 후처리 및 재훈련을 제거하여 NAS의 계산량과 복잡성을 줄이고 동기를 부여한다.
다양하고 고품질의 아키텍처를 직접 잘라낼 수 있는 단일 단계, 가중치 공유 모델을 개발한다.
다양한 FLOP 범위와 디바이스 예산에 걸쳐 배포 가능 아키텍처를 가능하게 한다.
작은 자식 모델과 큰 자식 모델의 공동 최적화를 수용하도록 학습 기법을 체계적으로 조정한다.
특정 자원 제약하에서 아키텍처를 선택하는 거친-정밀(coarse-to-fine) 전략을 제공한다.

제안 방법

커널 크기, 채널 수, 깊이, 해상도 등 아키텍처의 넓은 공간을 포괄하는 가중치 공유를 가진 대형 단일 단계 모델을 학습한다.
샌드위치 규칙(Sandwich Rule)을 사용하여 매 스텝마다 가장 작고 큰 자식 모델 및 여러 중간 모델을 샘플링하고 그라디언트를 집계한다.
가장 큰 전체 모델의 예측으로부터 모든 자식 모델이 학습하도록 inplace distillation을 적용한다.
잔차 블록을 gamma=0으로 초기화하여 학습을 stabilize시키고 항등 매핑을 위한 명시적 단계 전이를 추가한다.
큰 모델과 작은 모델의 수렴을 균형 있게 하기 위해 끝이 일정한 지수적으로 감소하는 학습률을 사용한다.
가장 큰 전체 자식 모델에만 가중치 감소(weight decay)와 드롭아웃을 규제하여 큰 모델의 과적합을 방지하고 작은 모델을 돕는다.

실험 결과

연구 질문

RQ1재훈련이나 후처리 없이도 고품질의 배포 가능한 자식 아키텍처를 산출하도록 단일의 크고 공유 가중치 모델을 학습시킬 수 있는가?
RQ2단일 단계 모델 내에서 작은 자식 모델과 큰 자식 모델의 학습 역학을 어떻게 균형 있게 만들 수 있는가?
RQ3넓은 아키텍처 공간에서 안정적이고 높은 정확도 훈련을 가능하게 하는 초기화, 정규화, 학습률 전략은 무엇인가?
RQ4BigNAS로 학습된 모델에 대한 거친-정밀 탐색이 특정 자원 예산 하에서 아키텍처를 효율적으로 식별하는가?
RQ5200 MFLOPs에서 1 GFLOP 범위에서 잘려진 BigNAS 아키텍처가 최첨단 모델과 비교해 어떤 성능을 보이는가?

주요 결과

단일 단계 BigNAS 모델은 ~200 MFLOPs에서 ~1 GFLOP 사이의 자식 네트워크를 산출하며 이 범위에서 재훈련이나 후처리 없이 최첨단을 능가한다.
BigNAS 모델은 이 범위 전반에서 ImageNet에서 top-1 정확도 76.5%에서 80.9%를 달성하며, 특정 FLOP 구간에서 EfficientNets와 Once-for-All를 포함한 개선을 보인다.
BigNAS-S, BigNAS-M, BigNAS-L은 사전 학습된 단일 단계 모델에서 직접 잘라 다양한 제약하에 배포할 수 있다.
간단한 거친-정밀 선택 전략이 대기 시간/ FLOP 예산을 충족하는 아키텍처를 식별하고 경쟁력 있는 정확도를 보인다.
타깃 초기화 및 학습 일정은 작은 자식 모델과 큰 자식 모델 모두의 수렴과 최종 정확도를 현저히 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.