QUICK REVIEW

[논문 리뷰] EfficientNetV2: Smaller Models and Faster Training

Mingxing Tan, Quoc V. Le|arXiv (Cornell University)|2021. 04. 01.

Advanced Neural Network Applications참고 문헌 41인용 수 1,120

한 줄 요약

EfficientNetV2를 소개하는 것은 트레이닝 인지 NAS와 적응 정규화로 진행 학습을 통해 점진적으로 학습하며 매개변수를 줄이고 더 빨리 수렴하는 ConvNet 계열을 찾고, 이전 모델보다 적은 매개변수로 더 높은 정확도와 더 빠른 학습을 달성한다.

ABSTRACT

This paper introduces EfficientNetV2, a new family of convolutional networks that have faster training speed and better parameter efficiency than previous models. To develop this family of models, we use a combination of training-aware neural architecture search and scaling, to jointly optimize training speed and parameter efficiency. The models were searched from the search space enriched with new ops such as Fused-MBConv. Our experiments show that EfficientNetV2 models train much faster than state-of-the-art models while being up to 6.8x smaller. Our training can be further sped up by progressively increasing the image size during training, but it often causes a drop in accuracy. To compensate for this accuracy drop, we propose to adaptively adjust regularization (e.g., dropout and data augmentation) as well, such that we can achieve both fast training and good accuracy. With progressive learning, our EfficientNetV2 significantly outperforms previous models on ImageNet and CIFAR/Cars/Flowers datasets. By pretraining on the same ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet ILSVRC2012, outperforming the recent ViT by 2.0% accuracy while training 5x-11x faster using the same computing resources. Code will be available at https://github.com/google/automl/tree/master/efficientnetv2.

연구 동기 및 목표

ConvNets에서 학습 효율성과 매개변수 효율성을 함께 높인다.
EfficientNet 학습의 병목 현상을 탐구하고 학습 속도를 가속화하기 위한 아키텍처 선택을 식별한다.
정확도, 속도, 매개변수 수를 공동으로 최적화하는 학습 인지 NAS 및 스케일링 프레임워크를 개발한다.
학습 중 이미지 크기를 증가시키면서 정확도를 유지하기 위해 적응 정규화를 갖춘 진행 학습을 제안한다.
ImageNet21k에서의 효율적 프리트레이닝으로 ImageNet 및 전이 학습 성능이 강하게 나타난다.

제안 방법

EfficientNet(V1)에서의 학습 병목 현상을 분석하고 개선점을 식별한다.
MBConv 및 Fused-MBConv 블록을 포함하는 탐색 공간을 확장하고 학습 인지 NAS를 수행한다.
비균일한 스테이지별 스케일링 전략을 적용하고 최대 학습 이미지 크기를 제한한다.
정확도 손실 없이 학습 속도를 높이기 위해 적응 정규화를 갖춘 진행 학습을 도입한다.
ImageNet21k에서 프리트레이닝하고 ImageNet ILSVRC2012 및 다운스트림 데이터셋에서 미세조정하여 일반화를 평가한다.

실험 결과

연구 질문

RQ1학습 인지 NAS가 ConvNets의 정확도, 학습 속도, 매개변수 효율성을 함께 최적화할 수 있는가?
RQ2MBConv 및 Fused-MBConv 블록과 비균일 스케일링이 정확도 손실 없이 더 빠른 학습과 더 작은 모델을 제공하는가?
RQ3진행 학습과 적응 정규화가 ImageNet 및 전이 태스크에서 학습 속도를 개선하면서 정확도를 유지 또는 향상시키는가?
RQ4EfficientNetV2가 기존 ConvNets 및 ViTs와 비교하여 학습 속도, 매개변수 효율성, 추론 지연 측면에서 어떤 차이를 보이는가?
RQ5ImageNet21k 프리트레이닝이 다운스트림 전이 학습 성능에 미치는 영향은 무엇인가?

주요 결과

모델	Top-1 정확도	매개변수 수	FLOPs	추론 시간(ms)	학습 시간(시간)
EfficientNetV2-S	83.9%	22M	8.8B	24	7.1
EfficientNetV2-M	85.1%	54M	24B	57	13
EfficientNetV2-L	85.7%	120M	53B	98	24
EfficientNetV2-XL	87.3%	208M	94B	-	45

EfficientNetV2 모델은 ImageNet에서 기존 모델에 비해 5배~11배 빠르게 학습하고 매개변수는 최대 6.8배 작다.
MBConv 및 Fused-MBConv를 포함하는 공간에서의 학습 인지 NAS는 EfficientNetV2 아키텍처를 생성하여 학습 속도와 매개변수 효율성에서 EfficientNet보다 우수하다.
적응 정규화를 갖춘 진행 학습은 학습 속도를 크게 높이고 ImageNet 및 전이 데이터셋에서 정확도를 높이거나 유지할 수 있다.
EfficientNetV2-M은 동일 자원으로 학습을 11배 빠르게 수행하면서 EfficientNet-B7에 버금가는 정확도를 달성한다.
ImageNet21k 프리트레이닝과 함께 EfficientNetV2-L(21k)은 ImageNet에서 87.3% top-1에 도달하고 ViT-L/16(21k)보다 우수하며 학습은 5배~11배 빠르다.
EfficientNetV2는 CIFAR-10, CIFAR-100, Flowers, Cars에서 기존 ConvNets 및 ViTs에 비해 강력한 전이 학습 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.