QUICK REVIEW

[논문 리뷰] Slimmable Neural Networks

Jiahui Yu, Linjie Yang|arXiv (Cornell University)|2018. 12. 21.

Advanced Neural Network Applications참고 문헌 38인용 수 235

한 줄 요약

단일 신경망이 Switchable Batch Normalization으로 너비를 다중으로 실행할 수 있어 온디바이스에서 런타임에 적응하는 정확도-지연 시간 트레이드오프를 제공하며, 분류 및 탐지 작업 전반에서 개별적으로 학습된 모델에 비해 경쟁력 있는 성능을 보인다.

ABSTRACT

We present a simple and general method to train a single neural network executable at different widths (number of channels in a layer), permitting instant and adaptive accuracy-efficiency trade-offs at runtime. Instead of training individual networks with different width configurations, we train a shared network with switchable batch normalization. At runtime, the network can adjust its width on the fly according to on-device benchmarks and resource constraints, rather than downloading and offloading different models. Our trained networks, named slimmable neural networks, achieve similar (and in many cases better) ImageNet classification accuracy than individually trained models of MobileNet v1, MobileNet v2, ShuffleNet and ResNet-50 at different widths respectively. We also demonstrate better performance of slimmable models compared with individual ones across a wide range of applications including COCO bounding-box object detection, instance segmentation and person keypoint detection without tuning hyper-parameters. Lastly we visualize and discuss the learned features of slimmable networks. Code and models are available at: https://github.com/JiahuiYu/slimmable_networks

연구 동기 및 목표

다양한 디바이스에서 런타임에 적응하는 정확도와 지연 시간의 필요성을 동기화한다.
단일 네트워크를 여러 너비에서 실행 가능하도록 학습시키는 일반 프레임워크를 제안한다.
Switchable Batch Normalization을 도입하여 다중 너비 학습의 안정화를 돕는다.
ImageNet 및 하위 작업(탐지, 분할, 키포인트)에서 경쟁력 있는 정확도를 입증한다.

제안 방법

사전에 정의된 너비 스위치를 통해 공유 네트워크를 학습한다(예: [0.25,0.5,0.75,1.0]x).
스위치별로 Batch Normalization을 분리하여( Switchable BN) 너비 간統계치를 정렬한다.
하나의 목표 함수에서 모든 스위치를 합산한 손실로 학습한다.
배치마다 스위치를 순환시키는 메모리 효율적인 학습 절차를 제공한다.
학습 후 너비를 전환해도 런타임/메모리 오버헤드가 거의 없음을 보여준다.
심층/깊이별, 그룹 컨볼루션 포함 다양한 컨볼루션 블록 및 풀링, FC, 잔차 및 다양한 작업에 적용 가능함을 보인다.

실험 결과

연구 질문

RQ1단일 네트워크가 여러 채널 너비에서 효과적으로 작동하도록 학습될 수 있으며, 정확도 손실이 크지 않을까?
RQ2Switchable Batch Normalization이 학습을 안정화하고 스위치 간 성능을 유지하는가?
RQ3동일한 너비에서 개별적으로 학습된 네트워크와 비교했을 때 Slimmable 네트워크의 성능은 어떠한가(ImageNet 및 하위 작업에서)?

주요 결과

Slimmable 네트워크는 ImageNet에서 해당 너비에 대해 개별적으로 학습된 네트워크와 비교하여 비슷하거나 더 나은 Top-1 정확도를 달성한다(MobileNet v1/v2, ShuffleNet, ResNet-50).
Switchable Batch Normalization은 학습 및 테스트 기간 동안 모든 스위치에서 안정적이고 랭크 보존된 정확도를 가능하게 한다.
스위치 수를 늘려도(예: 4에서 8로) 비슷한 성능을 유지하며 확장성을 보여준다.
Slimmable 네트워크는 COCO 물체 탐지, 인스턴스 분할 및 키포인트 탐지에서 대응 백본/너비에서 개별 학습 모델을 능가하거나 일치하는 성능을 보인다.
Switchable BN으로 학습하면 매개변수 오버헤드가 거의 없고(BN 층 보통 모델 크기의 <1%), 추론 시 추가 비용 없이 융합 가능하다.
이 접근법은 표준 및 특수한 컨볼루션 블록(깊이별 분리 및 그룹 컨볼루션 포함) 및 다양한 비전 작업에 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.